Sites Inria

École jeunes chercheurs

École thématique BDA Masses de Données Distribuées

L’école thématique « Masses de Données Distribuées » (MDD) est issue de la communauté des chercheurs en bases de données. Elle a pour but de compléter la conférence nationale annuelle « Journées Bases de Données Avancées –BDA », organisée depuis 32 ans, dont la qualité constante est reconnue nationalement et internationalement. L'édition 2016 aura lieu à Urrugne du 5 au 10 juin 2016.

  • Date : 5/06/2016 au 10/06/2016
  • Lieu : centre VVF d'Urrugne (Saint-Jean-de-Luz, Pyrénées-Atlantiques)

Thème de l'école 2016: processus intégrés d'analyse de données massives respectueux de la vie privée

L'exploitation des méga-données demande plusieurs compétences : savoir gérer de telles informations, et savoir les analyser au moyen de méthodes statistiques. Les deux communautés portant ces compétences sont en général disjointes, et les spécialistes de la gestion de données n'ont pour certains pas de formation concernant l'analyse des données elles-mêmes. De plus, les systèmes de gestion de données classiques sont souvent inadaptés au traitement de données scientifiques, comme indiqué par le récent prix Turing Michael Stonebraker (« Science Data and RDBMSs Are Mismatched » ). Répondre au défi des méga-données scientifiques nécessite donc la mise en commun de ces compétences diverses (« Data scientists need skills not just in data management and large-scale data processing tools and platforms, but also in business intelligence, computer systems, mathematics, statistics, machine learning, and optimization » ). Ainsi, le premier objectif de cette école est de présenter de grandes méthodes d'analyse de données, en prenant en compte la difficulté du stockage et la flexibilité de l'analyse.
Dans ce cadre, les méthodes probabilistes et/ou approximatives ont un intérêt particulier pour résoudre des problèmes de très grande taille. Le second objectif est de familiariser notre public à l'emploi de méthodes probabilistes approximatives, pour accélérer les calculs ou réduire le temps d'accès aux données.
Un autre grand défi associé à la gestion de méga-données est la pérennité des processus de traitement. S'il est relativement aisé de mettre en place un calcul devant s'exécuter une unique fois sur un grand jeu de données, il est plus délicat de garantir la reproductibilité de ce calcul en faisant varier les paramètres de contrôle, la source des données, tout en raisonnant sur la qualité des résultats (audit). Le troisième objectif est de fournir aux participants les outils permettant de raisonner sur les processus de traitements de données pérennes, répétables, et auditables, en utilisant des outils comme les workflows scientifiques et la notion de provenance.
Enfin, l'analyse de données massives concerne en particulier les données personnelles, dans un objectif d'e-Santé par exemple. La manipulation de ces données par de grandes infrastructures de calcul dont la localisation et le niveau de sécurité ne sont pas connus pose un problème sociétal évident. Le dernier objectif sera de présenter les concepts et algorithmes facilitant une exploitation des données massives respectueuse de la vie privée.

Une semaine de rencontres et d'échanges

Un objectif fort de l'école MDD est de favoriser les échanges entre participants et de donner à chacun(e) l'occasion de s'exprimer, de présenter ses travaux quel que soit leur stade d'avancement, et enfin de rencontrer d'autres chercheurs ou futurs chercheurs dans une ambiance conviviale et détendue. Nous organisons en particulier des sessions spéciales pour que les doctorants (et autres éventuellement) donnent, à l'occasion d'un court exposé (15-20mns) un aperçu de leur sujet de thèse et de leur démarche.

Mots-clés : IRISA INRIA Rennes - Bretagne Atlantique Masse de données distribuées BDA

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !