Sites Inria

English version

Convention

Charlotte Renauld - 2/12/2015

Retour sur la Convention d'affaires Big Data

Les 24 et 25 novembre 2015, s’est tenue la première convention d’affaires sur la thématique « Big Data  » organisée par l’université Paris-Saclay à HEC Paris. Retour sur ces deux journées qui ont rassemblé prés de 550 visiteurs et 40 exposants.

Cette première édition de la Convention d’affaires Big Data a été conçue pour offrir les opportunités et les meilleures conditions de croisement de compétences, de savoir-faire et d’expression de besoins entre le monde académique et l’écosystème socioéconomique et industriel, grands groupes, PME ou start-up innovantes.

Les thématiques du machine learning , des sciences de la donnée, de l’open data , de la santé, de la distribution énergétique, du marketing digital ou du transport ont été abordées lors de conférences animées par des intervenants membres de l’université Paris-Saclay (Inria, CNRS, École polytechnique…) mais aussi de grands groupes industriels (IBM, Renault, SANOFI…). 

L’université Paris-Saclay a eu le privilège d’accueillir Christopher Bishop , directeur Microsoft Research, Cambridge; Masaru Kitsuregawa , CEO National Institute of Informatics (Japon) ; Jean-Noël Georges , Global Program Director chez Frost&Sullivan; ou encore Françoise Soulié-Fogelman , Professeur à la School of Computer Software , Tianjin University (Chine). 

Parmi les 40 exposants (3 grands groupes, 3 PME/PMI, 12 start-up et 22 institutions), Inria a présenté ses projets en lien avec la thématique du Big Data avec notamment la présence des équipes de recherches Geometrica (projet ToMATo), Oak (projet CliqueSquare), Parietal (projet Scikit-learn) et Tao (projet STOIC).

Retour sur les projets présentés sur le stand Inria :

* Équipe-projet Geometrica : ToMATo - Topological Mode Analysis Tool

À quoi sert ToMATo ?

ToMATo est un nouveau logiciel pour la classification non supervisée de nuages de points générés par des simulations ou des mesures de processus physiques. Le concept est fondé sur des bases théoriques solides et offre une grande flexibilité.

Sous la forme d’un diagramme en deux dimensions, appelé "diagramme de persistance", le logiciel présente la structure des données à l’utilisateur. Ce diagramme peut ensuite être utilisé pour déterminer le nombre de clusters et pour distinguer le signal du bruit.

ToMATo fournit en sortie, au choix, du hard ou du soft clustering , et passe à l’échelle (proportionnellement avec la taille et la dimension des données).

Une partie des méthodes de ToMATo développées sont incorporées à la bibliothèque open source Gudhi développée par Geometrica.

Contact

Steve Oudot, Équipe Geometrica - Inria Saclay - Île-de-France

 

* Équipe-projet OAK : CliqueSquare - Plate-forme de gestion de données RDF basée sur une architecture Hadoop

À quoi sert CliqueSquare ?

CliqueSquare permet de gérer de très grands volumes de données RDF de façon parallèle en utilisant un cluster Hadoop. Le système utilise son propre modèle de partitionnement et stockage de triples RDF dans le cluster . Il est capable de traiter des requêtes RDF exprimées dans un sous-ensemble de SPARQL.

Il est particulièrement efficace dans le traitement de requêtes complexes, car il les traduit vers des programmes MapReduce garantis d’avoir le nombre d’étapes le plus petit possible.

Contact

Ioana Manolescu, Benjamin Djahandideh, Équipe Oak - Inria Saclay - Île-de-France / LRI

 

* Équipe-projet Parietal : Scikit-learn

À quoi sert Scikit-learn ?

Scikit-learn peut être utilisé comme un middleware pour des tâches de prédiction. Par exemple, un grand nombre de start-up du Web s’approprient Scikitlearn pour prédire des comportements d’achat d’utilisateurs, proposer des recommandations de produits ou détecter les tendances ainsi que les comportements abusifs (fraudes, spams , etc.). Scikit-learn sert à extraire la structure de données complexes (textes, images) et à les classifier en utilisant des techniques correspondant à l’état de l’art.

Facile à utiliser, efficace et accessible aux non-experts du data science , Scikit-learn est une bibliothèque d’apprentissage statistique. Dans une étape d’exploration des données, l’utilisateur entre quelques lignes dans une interface interactive (mais non graphique) et peut analyser les résultats de sa requête immédiatement.

Scikit-learn est un moteur de prédiction, développé en open source et disponible sous licence BSD.

Contact

Bertrand Thirion, Gaël Varoquaux, Olivier Grisel, Équipe Parietal - Inria Saclay - Île-de-France

 

* Équipe-projet Tao : STOIC

À quoi sert STOIC ?

Les stratégies de marketing actuelles reposent en grande partie sur l’analyse des médias en ligne et des réseaux sociaux. Par exemple, l’identification des leaders d’opinion donne un avantage concurrentiel dans la vente et la promotion des produits.

STOIC permet d’identifier les leaders d’opinion en ligne à partir de données telles que les messages de blog ou leur profil twitter.

Les ingrédients clés de STOIC sont l’apprentissage automatique des classements et des connaissances du terrain.

Contact

Philippe Caillou, Équipe Tao - Inria Saclay - Île-de-France / LRI

 

Retour en photos :

Mots-clés : INRIA Saclay - Île-de-France Big data Université Paris-Saclay

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !