Sites Inria

English version

Equipe de recherche ZENITH

Gestion de données scientifiques

Présentation de l'équipe

La science à données intensives tels que l'agronomie, l'astronomie, la biologie et l'environnement doit faire face à des quantités écrasantes de données expérimentales produites par l'observation empirique et la simulation. Zenith s’attaque aux défis posés par la gestion, la recherche et l’analyse de ces données scientifiques. Ces défis relèvent du big data et peuvent se résumer ainsi: (1) très grande échelle (big data, big analytics); (2) données en continu (produites par des capteurs, des appareils mobiles, etc.) ; (3) hétérogénéité et complexité des données (différences sémantiques, données multi-échelles, etc.).

Notre objectif est d’apporter des solutions innovantes, en démontrant des avantages en termes de scalabilité, fonctionnalité, facilité d’usage et performance, dans des environnements distribués et parallèles (P2P, grid, cloud). Nous produisons des résultats fondamentaux (structures de données, algorithmes, etc.) et des logiciels.

 Nous concevons et validons nos solutions en travaillant en étroite collaboration avec nos partenaires scientifiques tels que l'INRA et l'IRD en France, ou l'Institut national de recherche sur l'e-médecine (MACC) au Brésil. Pour valider davantage nos solutions et étendre la portée de nos résultats, nous favorisons également des collaborations industrielles, dès lors que les applications présentent des défis similaires.

Axes de recherche

Notre approche capitalise sur les principes de la gestion de données distribuées et parallèles. En particulier, nous exploitons: des langages de haut niveau comme base pour l'indépendance des données et l'optimisation automatique; la sémantique des données pour améliorer la recherche d'information et automatiser l'intégration des données; des langages déclaratifs (algèbre, calcul) pour manipuler des données et des flux de données; et des environnements hautement distribués parallèles tels que P2P, cluster ou cloud pour passer à l’échelle du big data.

Pour refléter notre approche, le projet Zenith est organisé en quatre grands thèmes :

  1. recherche de données (search) : machine learning, recommandation et recherche d’images par contenu ;
  2. analyse de données (analytics): fouille de données et gestion de workflows scientifiques ;
  3. intégration de données : crowdsourcing de données, intégration sémantique des métadonnées (schémas, ontologies) et traitement de requêtes multistores ;
  4. gestion de données distribuées : stockage distribué, indexation, confidentialité.

Relations industrielles et internationales

International: UFRJ et LNCC (Brazil), U. Waterloo (Canada), UCSB (USA), NUS (Singapore), UPC et UPM (Spain).

Industrie: Beepeers, LeanXcale, Data Publica, Bull/ATOS, SAFRAN, EDF, Orange, Microsoft.

Mots-clés : Science des données Données scientifiques Big data Cluster Cloud Pair à pair Gestion de données distribuées et parallèles Intégration Confidentialité Analyse Fouille de données Machine learning Recherche d’information Recherche d’images par contenu.