15033

Auteurs

David Gross-Amblard

HÃ©lÃ¨ne Jaudoin

Introduction

En regardant une Ã©mission politique, oÃ¹ chaque adversaire brandit ses propres chiffres du chÃ´mage, qui nâ€™a pas souhaitÃ© vÃ©rifier les donnÃ©es Â«Â Ã la sourceÂ Â»Â ? Mais oÃ¹ trouver ces informations, et comment les comparer ? Lâ€™ouverture des donnÃ©es, ou Open Data, mouvement incitant les administrations, entreprises et particuliers Ã mettre Ã disposition des donnÃ©es rÃ©utilisables sans contrepartie, devrait rendre cela possible.

Image

open_data_stickers

L'Open Data, l'ouverture des donnÃ©es pour de nouveaux usages

Contenu

1. L'ouverture des donnÃ©es

Les donnÃ©esÂ : une mine d'or Jusquâ€™Ã trÃ¨s rÃ©cemment, lâ€™Informatique Ã©voquait surtout lâ€™activitÃ© de conception de logiciels. Mais avec la baisse continue des coÃ»ts de dÃ©veloppement, la standardisation de modules logiciels permettant de rendre de nombreux services en quelques clics, la part de valeur du logiciel a diminuÃ© pour cÃ©der la place aux donnÃ©esÂ : donnÃ©es personnelles, donnÃ©es issues des systÃ¨mes dâ€™information des entreprises (frÃ©quentation des magasins, performance Ã©conomique), donnÃ©es de capteurs (tempÃ©rature du domicile, hygromÃ©trie), etc. La donnÃ©e brute, une fois interprÃ©tÃ©e, devient une information qui a une valeur double. Elle a tout dâ€™abord une valeur stratÃ©gique, car elle permet la prise de dÃ©cision. Par exemple, la campagne menÃ©e par le ministÃ¨re de la santÃ© pour dÃ©tecter au plus vite les signes dâ€™un AVC prend son origine dans lâ€™analyse de la donnÃ©e brute Â«Â nombre dâ€™AVC en FranceÂ Â», rÃ©vÃ©lant lâ€™information Â«Â lâ€™AVC est la troisiÃ¨me cause de dÃ©cÃ¨s en FranceÂ Â». La donnÃ©e possÃ¨de aussi une valeur Ã©conomique. Ainsi, les donnÃ©es gÃ©nÃ©rÃ©es par une personne, une communautÃ© dâ€™utilisateurs ou une entreprise sont une source dâ€™indications prÃ©cieuses sur leurs comportements. Les rÃ©seaux sociaux comme Facebook ou Google dÃ©ploient des trÃ©sors dâ€™ingÃ©niositÃ© pour dÃ©terminer les profils de leurs utilisateurs (leurs prÃ©fÃ©rences) qui pourront ensuite Ãªtre vendus Ã prix dâ€™or aux rÃ©gies publicitaires. Ce changement de perspective, mettant les Â«Â donnÃ©es au centreÂ Â» (data centrality), se traduit Ã©galement dans la structure des logiciels contemporains, dont la base de donnÃ©es constitue le noyau et autour de laquelle gravitent de nombreux services dâ€™interrogation et dâ€™analyse, interconnectÃ©s par Internet. DonnÃ©es ouvertes De trÃ¨s grands gisements de donnÃ©es existent dâ€™ores et dÃ©jÃ , comme ceux fournis par les administrations publiques (statistiques publiques, comme les chiffres du chÃ´mage Ã©voquÃ©s en introduction, donnÃ©es cadastrales, ...) ou par les Ã©tablissements ou associations Ã visÃ©e scientifique (comptes-rendus dâ€™expÃ©riences, tests de nocivitÃ©, ...). Le croisement des donnÃ©es et leur analyse peuvent permettre Ã chacun de contribuer Ã la vie publique, en produisant par exemple de nouveaux jeux de donnÃ©es. Câ€™est pour faciliter ces dÃ©marches que sâ€™est structurÃ©e la notion de donnÃ©es ouvertes (open data). Une donnÃ©e ouverte est une Â«Â donnÃ©e librement utilisable, rÃ©utilisable et pouvant Ãªtre redistribuÃ©e par tousÂ Â» (cf. dÃ©finition). La volontÃ© du public dâ€™accÃ©der aux donnÃ©es nâ€™est pas une idÃ©e nouvelle. Elle a pris naissance aux Ã‰tats-Unis oÃ¹ le freedom of information act (FOIA), votÃ© en 1966, facilite lâ€™accÃ¨s aux donnÃ©es administratives pour les citoyens amÃ©ricains. Cette notion est dâ€™ailleurs bien antÃ©rieure Ã celle du logiciel libre Ã©tablie en 1985. Lâ€™ouverture de donnÃ©es administratives peut aussi traduire une vision politique de la sociÃ©tÃ©Â : plus de transparence, moins dâ€™inter-mÃ©diation, plus de participation et dâ€™innovation, pour et via la sociÃ©tÃ© civile. On assiste Ã lâ€™ouverture de plates-formes de donnÃ©es ouvertes gouvernementales, dâ€™abord aux Ã‰tats-Unis et dans les pays anglo-saxons puis actuellement en Europe. En France, de nombreuses villes comme Bordeaux, Lyon, Nantes, Paris, Rennes et bien dâ€™autres, publient des donnÃ©es issues des services administratifs et des statistiques sur les usages publics (les horaires des transports en commun, les chiffres de frÃ©quentation des piscines publiques...). La mission Etalab coordonne notamment la politique dâ€™ouverture des donnÃ©es publiques au niveau national. DifficultÃ©s juridiques Sâ€™il est tentant de rendre publique des donnÃ©es, ce processus doit Ãªtre rÃ©alisÃ© dans le respect dâ€™un certain nombre de rÃ¨gles juridiques. Par exemple, un jeu de donnÃ©es public doit au prÃ©alable Ãªtre anonymisÃ©, afin que les donnÃ©es relatives Ã une personne prÃ©cise ne soient pas identifiables. Cette tÃ¢che est difficile. En effet, il a Ã©tÃ© montrÃ© que la connaissance du code postal, de la date de naissance et du sexe dâ€™une personne permet de lâ€™identifier avec prÃ©cision dans 85% des cas, en croisant cette information avec dâ€™autres donnÃ©es publiques comme les registres Ã©lectoraux [1]. De plus, la volontÃ© de publier ses donnÃ©es est plus ou moins grande selon les propriÃ©taires dâ€™autant plus que ces donnÃ©es ont vocation Ã Ãªtre combinÃ©es, rÃ©utilisÃ©es et republiÃ©es. Ainsi des licences de donnÃ©es, similaires aux licences de logiciels, ont vu le jour, avec des niveaux dâ€™exigence et dâ€™ouverture diffÃ©rents. On peut citer les licences de type Creative Commons, ou la Licence ouverte proposÃ©e par Etalab en 2011.

2. Des donnÃ©es ouvertes... si on en prend la peineÂ !

Des donnÃ©es sont donc aujourdâ€™hui en accÃ¨s libre, permettant Ã tous de les consulter et de les exploiter. NÃ©anmoins, la simple tÃ¢che de consultation de la donnÃ©e nâ€™est pas toujours aisÃ©e. De plus, il faut parfois la croiser avec dâ€™autres donnÃ©es et/ou lâ€™analyser pour lui donner du sens. Mettons-nous par exemple Ã la place de Fred, un Rennais ayant appris que sa ville met Ã disposition des statistiques concernant la frÃ©quentation de la bibliothÃ¨que des Champs Libres. Il se demande comment le temps (au sens mÃ©tÃ©o) influence la frÃ©quentation de la bibliothÃ¨que : Â«Â quand il pleut, allons-nous plus Ã la bibliothÃ¨que ?Â Â». Pour rÃ©pondre Ã son interrogation, il va devoir sâ€™attaquer Ã plusieurs dÃ©fis. Tout dâ€™abord, il part Ã la recherche de donnÃ©es sur la frÃ©quentation de la bibliothÃ¨que et de donnÃ©es sur la mÃ©tÃ©orologie. AccÃ©der aux donnÃ©es La recherche de donnÃ©es mÃ©tÃ©orologiques effectuÃ©e par Fred va le confronter Ã un premier obstacle. Dans un effort louable de lisibilitÃ©, certains organismes publient uniquement des rÃ©sumÃ©s de leurs donnÃ©es, sous forme de comptes-rendus au format PDF (Portable Document Format) ou de graphiques. Câ€™est le cas des donnÃ©es de MÃ©tÃ©o France. Les relevÃ©s mÃ©tÃ©orologiques, lorsquâ€™ils sont libres dâ€™accÃ¨s, sont prÃ©sentÃ©s selon diffÃ©rents formatsÂ : PDF, tableaux HTML, graphiques, images comme sur le site de mÃ©tÃ©o Bretagne et celui de freemeteo. La figure qui suit donne un extrait du relevÃ© horaire dâ€™indicateurs mÃ©tÃ©orologiques effectuÃ© Ã Rennes. Ces donnÃ©es sont accessibles au cas par cas, aprÃ¨s avoir renseignÃ© la ville et la journÃ©e de son choix. Cette information du Web, accessible uniquement au travers de formulaire est Ã juste titre appelÃ©e Â«Â Web cachÃ©Â Â». [caption id="" align="alignnone" width="600"] donnees-horaires-rennes

Source : MÃ©tÃ©o-Bretagne[/caption] Si ces approches ont lâ€™avantage de donner au public un accÃ¨s simple aux donnÃ©es, elles ne permettent pas la rÃ©utilisation directe de ces donnÃ©es par des applications informatiques dÃ©diÃ©es au traitement, Ã lâ€™agrÃ©gation et Ã lâ€™analyse des donnÃ©es. Ainsi, de nombreuses donnÃ©es sont lisibles mais non exploitables, ce qui va Ã lâ€™encontre du processus dâ€™ouverture. Lorsquâ€™un format comprÃ©hensible directement par un ordinateur est proposÃ©, de nombreux obstacles subsistent encore. En effet, une vÃ©ritable jungle de formats est disponible : format plein texte, donnÃ©es sÃ©parÃ©es par une virgule (CSV), feuilles de tableurs (LibreOffice Calc, Excel), tableaux RTF, fichiers XML, JSon, etc. Une autre difficultÃ© provient de lâ€™encodage des donnÃ©es. Le jeu de caractÃ¨res est choisi parmi un vaste choix de formats comme Latin1, UTF8â€¦ Se tromper de jeu de caractÃ¨res engendre Ã titre dâ€™exemple des erreurs dâ€™accentuation sur les mots. Il nâ€™est pas simple non plus dâ€™identifier les intitulÃ©s de colonnes dans une feuille de tableur complexe, et ce encore moins lorsque le volume de donnÃ©es Ã traiter est important. Si ces aspects peuvent paraÃ®tre triviaux, ils ne restent pas moins un casse-tÃªte lorsquâ€™on cherche Ã automatiser par un programme informatique le processus dâ€™extraction des donnÃ©es. Mais par chance, les frÃ©quentations de la bibliothÃ¨que de 2013 et de 2014 sont rendues disponibles par la MÃ©tropole de Rennes grÃ¢ce Ã un fichier au format CSV. Fred doit maintenant trouver les logiciels aptes Ã la lecture de ce format. Son ordinateur est Ã©quipÃ© dâ€™un Ã©diteur plein texte (donc sans fonction de mise en forme), ce qui lui permet de consulter les donnÃ©es CSV directement. Il obtient le rÃ©sultat suivantÂ :

site;code insee;pÃ©riode;heure;zone;comptage - entrÃ©es

Rennes les champs libres;35238;02/01/13;12:00;1er Ã©tage vie du citoyen, 1er etage vie du citoyen;10

Rennes les champs libres;35238;02/01/13;12:00;RdC champs libres, rdc 2;5

Rennes les champs libres;35238;02/01/13;12:00;RdC champs libres, rdc 3;207

Rennes les champs libres;35238;02/01/13;12:00;RdC champs libres, rdc 4;45

Rennes les champs libres;35238;02/01/13;12:00;RdC champs libres, rdc retour;11

Rennes les champs libres;35238;02/01/13;12:00;RdC vie du citoyen, rdc vie du citoyen;76

Rennes les champs libres;35238;02/01/13;13:00;1er Ã©tage vie du citoyen, 1er etage vie du citoyen;18

Rennes les champs libres;35238;02/01/13;13:00;RdC champs libres, rdc 2;5

Rennes les champs libres;35238;02/01/13;13:00;RdC champs libres, rdc 3;231

Rennes les champs libres;35238;02/01/13;13:00;RdC champs libres, rdc 4;65

Rennes les champs libres;35238;02/01/13;13:00;RdC champs libres, rdc retour;9

...

Extrait du fichier frequentation_parheure_bibliotheque_Rennes.csv / SourceÂ : Rennes MÃ©tropole en accÃ¨s libre ParfaitÂ ! Fred connaÃ®t ainsi les frÃ©quentations de la bibliothÃ¨que Â«Â Les Champs LibresÂ Â» heure par heure. Concernant les donnÃ©es mÃ©tÃ©orologiques, Fred cherche plus avant sur le site de MÃ©tÃ©o-France. Il trouve un onglet Â«Â DonnÃ©es publiquesÂ Â», Ã partir duquel il peut tÃ©lÃ©charger les donnÃ©es de pluviomÃ©trie au format CSV, archivÃ©es pour diffÃ©rents mois. Il ne reste plus Ã Fred quâ€™Ã consulter lâ€™archive de 2013 de la station 07130 (Rennes Saint-Jacques). Le fichier sâ€™ouvre avec un Ã©diteur plein texte. Un traitement sera nÃ©cessaire pour extraire les donnÃ©es concernant la pluviomÃ©trie contenues dans le champ RR1. POSTE;DATE;RR1;TN;HTN;TX;HTX 31069001;2002010100;0;-0,6;2354;0,1;2302 31069001;2002010101;0;-1,3;48;-0,6;1 31069001;2002010102;0;-1,5;153;-1,2;101 31069001;2002010103;0;-1,6;211;-1,2;223 31069001;2002010104;0;-1,6;353;-1,2;325 31069001;2002010105;0;-1,6;401;-1,4;459 31069001;2002010106;0;-1,7;546;-1,4;532 31069001;2002010107;0;-1,7;601;-1,4;647 31069001;2002010108;0;-2,1;723;-1,3;738 31069001;2002010109;0;-1,7;801;0;856 31069001;2002010110;0;0;901;2,2;959 31069001;2002010111;0;2,4;1001;6;1059 31069001;2002010112;0;5,9;1101;6,8;1159 Exemple de donnÃ©es MÃ©tÃ©o-France. Source : DonnÃ©es publiques de MÃ©tÃ©o-France IntÃ©grer les donnÃ©es Fred a pour objectif de vÃ©rifier lâ€™influence de la mÃ©tÃ©orologie sur la frÃ©quentation de la bibliothÃ¨que. Pour croiser ses deux jeux de donnÃ©es, il peut se servir de la colonne PERIODE dâ€™un cÃ´tÃ© et DATE de lâ€™autre, pour mettre en regard frÃ©quentation et pluviomÃ©trie, ce qui va permettre de vÃ©rifier sâ€™il y a une corrÃ©lation entre ces deux phÃ©nomÃ¨nes. Par ailleurs, Ã©tant donnÃ© la quantitÃ© dâ€™informations dont il dispose, il prÃ©fÃ¨re se contenter dâ€™un relevÃ© quotidien plutÃ´t que dâ€™un relevÃ© horaire. Les deux jeux de donnÃ©es doivent Ãªtre rÃ©organisÃ©s de sorte que les frÃ©quentations et les prÃ©cipitations soient agrÃ©gÃ©es par jour et non plus par heure. La rÃ©organisation des donnÃ©es est une tÃ¢che assez classique dÃ¨s lors que lâ€™on souhaite prÃ©senter les donnÃ©es dâ€™une faÃ§on diffÃ©rente, par agrÃ©gation, comme câ€™est le cas dans notre exemple, ou par concatÃ©nation de champs pour reconstituer par exemple un champ adresse Ã partir du nom de la rue, du code postal et de la ville. Pour corrÃ©ler les informations mÃ©tÃ©orologiques quotidiennes aux frÃ©quentations quotidiennes de la bibliothÃ¨que, Fred devra lier les donnÃ©es des deux sources sur le champ date, c'est-Ã -dire crÃ©er une nouvelle ligne Ã partir de deux lignes, chacune issue dâ€™un des jeux de donnÃ©es, si elles ont la mÃªme valeur sur le champ date (DATE dâ€™un cÃ´tÃ©, PERIODE de lâ€™autre). Cette opÃ©ration, plus communÃ©ment appelÃ©e jointure dans le domaine des bases de donnÃ©es, est Ã©galement classique dÃ¨s que lâ€™on souhaite croiser plusieurs jeux de donnÃ©es afin par exemple de complÃ©ter des informations Ã partir dâ€™autres sources. Parfois, les sources de donnÃ©es comportent plusieurs champs, Ã©ventuellement nommÃ©s de faÃ§ons diffÃ©rentes, qui peuvent servir de points de liaison. Ces opÃ©rations ne sont pas simples puisque la rÃ©cupÃ©ration et la rÃ©organisation des donnÃ©es ne suivent pas une procÃ©dure commune, automatisable. NÃ©anmoins, il existe des outils informatiques, appelÃ©s ETL (Extract, Transform, Load), Ã lâ€™image de Pentaho, capables dâ€™extraire les donnÃ©es, issues de sources diffÃ©rentes, Ã condition dâ€™effectuer un paramÃ©trage assez fin pour Ã©lucider les Ã©ventuels problÃ¨mes dâ€™encodage des valeurs et de disposer des donnÃ©es stockÃ©es dans un fichier suivant un format standard comme CSV, XLS, ou stockÃ©es dans une base de donnÃ©es connue. AprÃ¨s dÃ©finition de plans de transformation des donnÃ©es, les ETL peuvent transformer et rassembler les donnÃ©es afin dâ€™alimenter dâ€™autres systÃ¨mes informatiques ou de construire de nouveaux fichiers, et ainsi favoriser dâ€™autres usages. Ce problÃ¨me de transformation et de fusion de donnÃ©es issues de sources diffÃ©rentes est plus communÃ©ment appelÃ© intÃ©gration de donnÃ©es. Fred utilise un ETL pour regrouper les donnÃ©es des frÃ©quentations et de pluviomÃ©trie de faÃ§on journaliÃ¨re, puis pour appliquer lâ€™opÃ©ration de jointure entre deux jeux selon les attributs date et pÃ©riode. Lâ€™ETL gÃ©nÃ¨re un nouveau tableau donnant la pluviomÃ©trie et la frÃ©quentation du public par jour. Il ne lui reste plus quâ€™Ã construire une courbe avec ces deux mesures. Analyser les donnÃ©es Une fois lâ€™Ã©tape technique de lâ€™intÃ©gration des donnÃ©es passÃ©e, il reste nÃ©anmoins une phase plus complexe qui consiste Ã rendre intelligibles ces donnÃ©es. Plusieurs niveaux de lecture sont possibles, allant de la visualisation, suggÃ©rÃ©e par exemple dans les contenus Ã©ditoriaux des quotidiens ou dans des blogs dâ€™information, jusquâ€™Ã lâ€™utilisation dâ€™outils avancÃ©s, issus du domaine de recherche appelÃ© Â«Â dÃ©couverte des connaissancesÂ Â». Parmi ces traitements, on peut citer la recherche de critÃ¨res statistiques comme des moyennes ou des agrÃ©gats (frÃ©quentations annuelles ou mensuelles dâ€™un lieu). Egalement des modÃ¨les statistiques reprÃ©sentant au mieux la distribution des donnÃ©es numÃ©riques (par exemple lâ€™Analyse en Composantes Principales ou ACP). Ou encore des outils pour rechercher des propriÃ©tÃ©s communes dans les donnÃ©es Ã©tudiÃ©es, en utilisant des techniques de clustering et des techniques de recherche de caractÃ©ristiques frÃ©quentes dans les donnÃ©es [2,3]. Des logiciels, comme Weka, Knime, R et Orange, implÃ©mentent tout ou partie de ces diffÃ©rents traitements.Â Un niveau intermÃ©diaire de lecture de la donnÃ©e est possible pour des utilisateurs initiÃ©s grÃ¢ce Ã des outils libres (par exemple Google Fusion Tables) permettant de rassembler des donnÃ©es distantes et de les prÃ©senter sous la forme de graphiques (histogrammes, diagrammes circulaires, courbes, cartes). Ainsi, avec Google Fusion Tables, Fred rÃ©alise un graphique Ã partir de ses donnÃ©es (il aurait aussi pu faire directement lâ€™Ã©tape dâ€™intÃ©gration des donnÃ©es avec cet outil)Â :

Sur lâ€™histogramme prÃ©cÃ©dent, Fred peut enfin croiser, grÃ¢ce aux donnÃ©es publiques, la frÃ©quentation de la bibliothÃ¨que des Champs libres et la mÃ©tÃ©orologie. On voit par exemple sur le graphique prÃ©cÃ©dent quâ€™il ne pleut pas le 02/01, quâ€™il y a mÃªme un certain ensoleillement, et que la bibliothÃ¨que est frÃ©quentÃ©e ! Le plus dur reste Ã faire bien sÃ»rÂ : proposer une hypothÃ¨se (Â«Â jâ€™ai lâ€™impression que pluie et frÃ©quentation sont indÃ©pendantesÂ Â» ou Â«Â il me semble que la pluie augmente la frÃ©quentation de la bibliothÃ¨queÂ Â»), utiliser les outils statistiques appropriÃ©s (corrÃ©lationsâ€¦), et analyser les donnÃ©es sur de longues fenÃªtres de temps pour avoir un rÃ©sultat significatif. Fred est donc sur la bonne voie. Pour rÃ©aliser son scÃ©nario, Fred a exploitÃ© ses connaissances en bases de donnÃ©es et a utilisÃ© les logiciels suivantsÂ : Pentaho et Google Fusion Tables.

Conclusion

Les Â«Â donnÃ©es ouvertesÂ Â» nâ€™en sont quâ€™Ã leurs dÃ©buts, et dÃ©jÃ de trÃ¨s nombreuses applications voient le jour pour les exploiter. Ces applications sont programmÃ©es par des professionnels et des citoyens passionnÃ©s, et les bÃ©nÃ©fices potentiels sont nombreuxÂ : information de trÃ¨s grande qualitÃ©, meilleure gestion des villes pour et par les citoyens, prÃ©visions, etc.Â Ã€ terme se dessinent de vÃ©ritables espaces dâ€™analyse et dâ€™intÃ©gration de donnÃ©es [4], accessibles Ã tous. Pour lâ€™heure, les donnÃ©es ouvertes ne sont pas encore intelligibles par tous. Deux tendances sâ€™observent actuellement pour pallier ce problÃ¨me. Le premier mouvement Ã visÃ©e Ã©ducative milite pour un apprentissage au plus jeune Ã¢ge de lâ€™informatique et pour lâ€™intÃ©gration, dÃ¨s le collÃ¨ge, de cours dâ€™informatique. Le second mouvement, Ã visÃ©e plus technologique, sâ€™intÃ©resse Ã la dÃ©finition dâ€™environnements simples dâ€™accÃ¨s, pour mettre en lumiÃ¨re des connaissances Ã partir des donnÃ©es. Pour arriver Ã une vÃ©ritable dÃ©mocratisation de lâ€™usage et de la production de donnÃ©es ouvertes, il reste des difficultÃ©s Ã surmonterÂ :

lâ€™hÃ©tÃ©rogÃ©nÃ©itÃ© des donnÃ©esÂ : faciliter le franchissement de la barriÃ¨re des formats pour interconnecter des jeux de donnÃ©es, aider Ã dÃ©couvrir des connexions entre jeux de donnÃ©es distinctsÂ ;
lâ€™incertitude sur la qualitÃ© des donnÃ©esÂ : dâ€™oÃ¹ proviennent les donnÃ©es, quand ont-elles Ã©tÃ© produites, que signifient-elles exactementÂ ? La prise en compte de la provenance des donnÃ©es dans les systÃ¨mes informatiques nâ€™en est encore quâ€™Ã ses dÃ©butsÂ ;
la difficultÃ© dâ€™accÃ¨s aux outils dâ€™analyseÂ : ces derniers existent mais sont encore trÃ¨s techniques. De plus, les donnÃ©es devenant massives, ces outils doivent Ãªtre dÃ©ployÃ©s sur de grandes plates-formes de calculs, souvent payantes. En attendant, de nouveaux mÃ©tiers sont venus combler le besoin dâ€™accÃ¨s Ã une donnÃ©e analysÃ©e [5]. Câ€™est le cas du journalisme de donnÃ©es qui consiste Ã analyser des donnÃ©es brutes pour identifier des phÃ©nomÃ¨nes intÃ©ressants puis Ã les rendre lisibles, le plus souvent de faÃ§on graphique. Cette nouvelle activitÃ© sâ€™est fortement dÃ©veloppÃ©e au sein des rÃ©dactions (The Guardian, Le Monde, Rue89). Elle sâ€™est accompagnÃ©e de la crÃ©ation de sociÃ©tÃ©s spÃ©cialisÃ©es dans le domaine de lâ€™analyse et de la visualisation de donnÃ©es (dataveyes, Data Publica)Â ;
les menaces sur la vie privÃ©eÂ : sâ€™il est tentant de tout rendre public (ses dÃ©placements, ses achats, ses sortiesâ€¦), il faut se souvenir que toute donnÃ©e publiÃ©e ne sera plus effacÃ©e mais Ã jamais disponible (quelque part). Garantir quâ€™un jeu de donnÃ©es, mÃªme anonymisÃ©, ne rÃ©vÃ¨le rien de personnel est une opÃ©ration trÃ¨s dÃ©licate.