La dataviz ou encore datavisualisation désigne tout simplement le fait de mettre en forme des données brutes. Nous y sommes confrontés tous les jours et dans tous les domaines.
Jouons à un petit jeu. Sauriez-vous me dire en 5 secondes quelle température fait-il à Paris selon les tableaux ci-dessous ?
Brest | Lyon | Biarritz | Cherbourg | Tours | Clermont-Ferrand | Perpignan | Rennes | Nancy | Limoges |
5°C | 5°C | 10°C | 8°C | 5°C | 6°C | 13°C | 7°C | 5°C | 5°C |
Marseille | Nantes | Strasbourg | Bordeaux | Alençon | Nice | Lille | Dijon | Toulouse | Ajaccio |
12°C | 4°C | 5°C | 7°C | 5°C | 17°C | 7°C | 6°C | 10°C | 14°C |
Bourg-Saint-Maurice | Auxerre | Bourges | Belfort | Reims | Gap | Paris | Montélimar | Vichy | Montpellier |
3°C | 4°C | 4°C | 3°C | 3°C | 8°C | 5°C | 9°C | 4°C | 11°C |
CompliquĂ© nâest-ce pas ? Il nâest pas facile de tirer du sens, mĂȘme de tableaux de chiffres trĂšs simples !
đ En quelque dĂ©cennies1, la quantitĂ© dâinformations reçue par une personne a Ă©tĂ© multipliĂ©e par 5 ! Notre cerveau sature et prĂ©fĂšre les images. Comme dit lâexpression, une image vaut mille mots ! Câest pour cela que la datavisualisation est omniprĂ©sente dans notre quotidien.
La dataviz permet de prĂ©senter et de rĂ©sumer des donnĂ©es de façon visuelle. Sans cette dĂ©marche, il nous serait compliquĂ© de nous retrouver parmi lâabondance de donnĂ©es sur un sujet. Son objectif nâest pas uniquement de faire joli. Le but est de transmettre une information claire et pertinente Ă son lecteur.
Data Visualisations avec des donnĂ©es Ă titre dâexemple : diagrammes linĂ©aire et circulaire
Les secteurs qui utilisent la dataviz sont nombreux : le journalisme, la communication, la science, la culture, lâenvironnement, la santĂ©, le management, la sĂ©curitĂ©, le commerce, l’Ă©nergie, lâurbanisme⊠Et ce depuis bien plus longtemps que nous pouvons lâimaginer !
Bien que le concept de datavisualisation soit pratiquĂ© depuis plusieurs siĂšcles, arrĂȘtons-nous sur le travail du pionnier français de la reprĂ©sentation visuelle au XIXe siĂšcle, Charles Joseph Minard. IngĂ©nieur civil, Minard conçut de nombreuses cartes pour analyser et mettre en lumiĂšre les avancĂ©es Ă©conomiques et sociales que le monde a connues. Lâune de ses plus grandes reprĂ©sentations de donnĂ©es fut la carte figurative des pertes en hommes de l’armĂ©e française dans la campagne de Russie 1812-1813 de NapolĂ©on.
La couleur claire indique le flux dâhommes entrant en Russie et celle foncĂ©e de ceux qui en sortent. La largeur des traits nous donne une indication sur le nombre dâhommes disponibles. Sur la carte figure Ă©galement les tempĂ©ratures des diffĂ©rentes villes traversĂ©es (on peut en dĂ©duire que la mĂ©tĂ©o nâa pas aidĂ© lâavancĂ©e des troupesâŠ) Cette reprĂ©sentation visuelle Ă©tait trĂšs riche dâinformations. Plusieurs donnĂ©es sont couplĂ©es pour offrir une information claire et structurĂ©e.
Aujourdâhui, avec lâĂ©volution des moyens technologiques, lâexpression des donnĂ©es peut se rĂ©aliser de plusieurs façons.
Je vous invite Ă consulter cette superbe frise interactive qui retrace la datavisualisation Ă travers le temps : https://history.infowetrust.com/
« Une datavisualisation résulte trÚs souvent du travail de plusieurs métiers »
Face Ă la multitude de donnĂ©es, une datavisualisation rĂ©sulte trĂšs souvent du travail de plusieurs mĂ©tiers (graphiste, vidĂ©aste, dĂ©veloppeur, ergonome, statisticien, sociologue, gĂ©ographe, mathĂ©maticien, Ă©conomiste etcâŠ). Le Data Scientist va rĂ©cupĂ©rer les donnĂ©es et les analyser. Le Data Analyst va choisir les donnĂ©es pertinentes. Le DĂ©veloppeur/graphiste/vidĂ©aste va Ă la fin les mettre en forme.
Cependant il ne faut pas oublier que notre message doit se transmettre sur un support adaptĂ© Ă lâenvironnement de diffusion. Chaque vecteur a son objectif :
Tous ces vecteurs permettent de transmettre un message selon un objectif. Cependant pourquoi accordons-nous autant dâimportance aux donnĂ©es ? Que peuvent-elles nous apporter ? Pourquoi crĂ©er ou lire une dataviz ?
Face à une croissance exponentielle des données récoltées, nous devons pouvoir les organiser, les hiérarchiser et les comprendre. On les met en forme pour leur donner du sens et diminuer le temps dédié à leurs analyses.
« Un gain de temps pour les professionnels »
Les donnĂ©es sont des ressources trĂšs prĂ©cieuses pour les organisations2. Câest pour cela quâelles se tournent de plus en plus vers les tableaux de bord (dashboard). Ceci permet de repĂ©rer les valeurs aberrantes et les tendances ainsi que de rĂ©vĂ©ler les corrĂ©lations au sein de donnĂ©es complexes. Mais que gagne-t-on ?
Le nombre important de donnĂ©es nĂ©cessite dâĂȘtre visualisĂ© afin dâĂȘtre traduit en information et en TBDM (Tableau de bord sur donnĂ©es massives). Cette multitude de donnĂ©es que nous avons besoin de mettre en forme pour en tirer du sens est sans cesse en expansion. Mais comment ces donnĂ©es sont rĂ©coltĂ©es ? DâoĂč proviennent-elles ?
Le big data dĂ©signe le fait de rĂ©colter massivement des donnĂ©es provenant dâinternet. Ces donnĂ©es proviennent des rĂ©seaux sociaux (like, partage, commentaire, heure de connexion, temps de sessions, publicitĂ©s cliquĂ©es), de nos mails, de nos historiques de recherches Google, de nos achats ou encore de capteurs de tempĂ©rature dans la ville etcâŠ
Le big data peut ĂȘtre utilisĂ© pour de nombreux usages : le ciblage marketing/publicitaire, lâanalyse des comportements des utilisateurs mais aussi la dĂ©tection des pannes dans un rĂ©seau, lâamĂ©lioration de lâexpĂ©rience etc⊠On rĂ©alise donc des dashboard pour dĂ©chiffrer de grosses masses de donnĂ©es.
đĄ En dĂ©couvrir plus : Les villes connectĂ©s, entre gestion intelligente et automatisation des processus
â ïž Bien quâon parle de cloud, le rĂ©seau nâest pas immatĂ©riel. Selon lâAdeme, un e-mail avec une piĂšce jointe de 1 Mo envoyĂ© Ă©quivaut Ă une ampoule de 60 W allumĂ©e pendant 25 minutes ! La pollution numĂ©rique est un problĂšme quâil faut prendre en compte.
đĄ En dĂ©couvrir plus : La relation entre les donnĂ©es : concept de Data Linked par Tim Berners-Lee et Page Rank
â ïž On fait face Ă dâĂ©normes volumes de donnĂ©es rĂ©coltĂ©es qui peuvent ĂȘtre structurĂ©es ou non (dizaines de pĂ©taoctets). La gestion du grand flux de donnĂ©es fait partie des grands challenges auxquels la R&D doit rĂ©pondre car les solutions classiques de stockage ne peuvent pas gĂ©rer autant de donnĂ©es.
Le principe de données ouvertes (Open Data)
Lâopen data est LA source de donnĂ©es pour le dataviz. Elles sont distribuĂ©es par des collectivitĂ©s ou des Ătats. Le principe est simple : rendre disponible, rĂ©utilisable et participatif des donnĂ©es publiques ayant un intĂ©rĂȘt gĂ©nĂ©ral. Lâopen data garantit le libre accĂšs des donnĂ©es, sans aucune restriction (mĂȘme commerciale). Ceci permet dâencourager les reprĂ©sentations innovantes et la crĂ©ation de connaissances de la part de tous.
La notion dâopen data a dĂ©jĂ Ă©tĂ© introduite par le pĂšre du web, Tim Berners-Lee. Lâopen permet aussi les projets participatifs comme OpenStreetMap.
LâEtat français ainsi que la Ville de Paris, la rĂ©gion Ile-de-France, la SNCF et la RATP proposent leur plateforme dâopen data.
âïž Lâopen data est trĂšs souvent accompagnĂ©e dâune API. LâInterface de Programmation Applicative (en français) offre la possibilitĂ© Ă des programmes de communiquer entre eux sur un rĂ©seau. TrĂšs utilisĂ©e dans le web, lâAPI permet de rĂ©cupĂ©rer et dâenvoyer des donnĂ©es entre un client et un serveur via le protocole HTTP. Les donnĂ©es renvoyĂ©es par le serveur sont utilisĂ©es par le dĂ©veloppeur pour les afficher en dataviz interactive. La plateforme IFTTT permet de jouer avec des API en no-code.
Par exemple, Google utilise plusieurs bases de données (cf. API) pour récupérer les informations nécessaires pour ses dataviz
La dataviz a Ă©tĂ© dĂ©mocratisĂ©e grĂące Ă lâopendata et au freemium des logiciels tels que Microsoft PowerBI et Tableau Server. Avant, la visualisation de donnĂ©es Ă©tait rĂ©servĂ©e aux experts et aux scientifiques.
Une dataviz ne repose pas seulement sur des donnĂ©es brutes mises en forme. Pour quâelle soit comprise, sa rĂ©alisation exige lâutilisation de plusieurs outils du design et sĂ©miologique pour mesurer, associer, sĂ©lectionner, ordonner, quantifier et dĂ©coder un message visuel.
Lâapparence visuelle des donnĂ©es doit amoindrir lâeffort cognitif du lecteur (gain dâĂ©nergie et de temps) afin quâil puisse se concentrer uniquement sur lâanalyse des donnĂ©es. Le choix des couleurs, des formes, des mots et du storytelling sont Ă rĂ©aliser en fonction du contexte et des donnĂ©es de la datavisualisation. Mais nous parlerons de la boĂźte Ă outils et des thĂ©ories de la perception visuelle dans un prochain article đ NâhĂ©sitez pas Ă me suivre sur twitter pour ĂȘtre au courant des prochaines publications !
Follow @AlexMeyerAM1HILBERT Martin, How much information is there in the âinformation societyâ?, Significance, 2012
2ANDRY Tiffany, Une approche sĂ©miotique de la conception dâoutils dâanalyse de donnĂ©es massives, Presses Universitaires de Bordeaux, 2018
Cet article est un extrait revisitĂ© de mon cours âIntroduction au concept de datavisualisationâ. CC BY-NC-SA 4.0