Données

L’essentiel sur : la science des données

Date:
Mis à jour le 01/07/2022
Le développement du numérique dans tous les pans de notre société a engendré ces dernières années des volumes de données astronomiques. Outre la nécessité de les stocker, le défi est également de les « faire parler » pour en tirer des connaissances. C’est là tout l’enjeu de la science des données, une discipline qui fait aujourd’hui partie des grands domaines de recherche d’Inria.
Science des données
© Inria / Photo M. Magnin

Qu'est-ce que la science des données ?

Chaque jour, plus de 200 milliards d’e-mails sont échangés, 4 milliards de vidéos sont vues sur YouTube, 5,5 milliards de recherches sont faites sur Google, 4 milliards de messages sont échangés sur Facebook et plus de 500 millions de tweets sont envoyés. Ces chiffres, qui peuvent paraitre impressionnants, ne sont qu’une infime partie des données générées chaque jour dans le monde, par les smartphones, les cartes bancaires, les GPS, les objets connectés et autres capteurs présents dans notre quotidien.

Le développement des nouvelles technologies, d’internet et ces réseaux sociaux depuis une vingtaine d’années a entrainé deux problématiques : le stockage de ce gigantesque volume de données numériques produites, mais également son tri, son analyse et son utilisation à bon escient.

C’est sur cette dernière que travaillent les acteurs de la science des données, un domaine à la croisée des statistiques et de l'informatique, qui consiste à exploiter de grands ensembles de données contenant des données structurées et non structurées et à identifier les modèles cachés pour en extraire des informations exploitables. La science des données utilise également des algorithmes complexes d'apprentissage automatique pour construire des modèles prédictifs.

Pourquoi est-ce important ?

Les données n'ont pas de sens tant qu'elles ne sont pas converties en informations utiles. En collectant, analysant et interprétant les données, la data science permet aujourd’hui la compréhension du fonctionnement de nombreuses industries, aussi complexes et compliquées soient-elles.

La science des données révèle des tendances et, d’une manière générale, permet et facilite la prise de décision.

À quels concepts est liée la science des données ?

La science des données emploie des techniques et des théories tirées principalement des mathématiques, du domaine statistique, et des technologies de l’information. Elle exploite notamment plusieurs technologies interdépendantes comme :

  • Le Big Data (ou « données massives »). Le Big Data désigne des volumes de données trop importants pour être traités par des outils d’analyse classiques, mais surtout l’émergence de solutions capables d’extraire et traiter ces données, dans le but de les valoriser.
  • L'apprentissage automatique (également appelé apprentissage machine ou machine learning). L'apprentissage automatique est un domaine scientifique aujourd’hui considéré comme l'épine dorsale de la science des données. Les algorithmes de Machine Learning s’appuient sur tout type de données stockées numériquement afin d’apprendre, de manière autonome, à exécuter une tâche ou à réaliser des prédictions.
  • La modélisation. Elle permet d'effectuer des calculs et des prédictions rapides sur la base des données existantes. La modélisation s’appuie notamment sur l'apprentissage automatique afin de trouver le bon modèle statistique basé sur les données disponibles, de manière automatisée.

Quels sont les domaines impactés par la science des données ?

La science des données a trouvé ses applications dans presque tous les secteurs. Des économies de coûts à des processus et flux de travail plus fluides en passant par une gestion des risques plus efficace, une meilleure performance de la chaîne d'approvisionnement, ou encore de meilleurs résultats pour les personnes malades, la data science permet aujourd’hui aux acteurs des divers secteurs de faire de grands progrès, notamment en termes de précision et d’efficacité. Quelques secteurs sont malgré tout aujourd’hui plus impactés par l’évolution de la gestion de la donnée. En voici trois exemples :

  • La santé

Sans surprise, le secteur de la santé tire d'énormes bénéfices de l'application de la science des données appliquée à la réflexion médicale. L’extraction et l’analyse des données existantes permettent aujourd’hui de construire une vision plus précise des patients, des consommateurs et des cliniciens. La prise de décision basée sur les données ouvre de nouvelles possibilités pour stimuler la qualité des soins de santé, notamment dans l’identification de risques, le développement de nouveaux médicaments, ou encore la personnalisation des traitements en fonction des profils des patients.

  • L’industrie

Entre optimisation de la production, réduction des coûts et développement de l’autonomie, la science des données appliquée aux industries offre une véritable valeur ajoutée à ses acteurs. En se basant sur les données existantes, majoritairement issues de l’Internet des Objets, la science des données permet ainsi aux entreprises de prévoir les problèmes potentiels, de surveiller les systèmes et d'analyser le flux continu de données. De quoi notamment réduire leurs coûts énergétiques et optimiser leurs heures de production.

La science des données est également utilisée, dans un second temps, par les entreprises de logistique pour optimiser les itinéraires, afin de garantir une livraison plus rapide des produits et d'accroître l'efficacité opérationnelle.

À lire : Équipe EDGE : vers de nouveaux outils pour l’aide à la décision

  • Le transport

Une autre application importante de la science des données est la mobilité. La demande grandissante d’une expérience de transport plus confortable, plus efficiente et moins polluante a en effet créé, ces dernières années, une pression gigantesque sur les activités d’exploitation et de maintenance du secteur de la mobilité.

Grâce à une analyse approfondie des modèles de consommation de carburant, du comportement des conducteurs et de la surveillance active des véhicules, la science des données est une réponse solide aux problématiques de l'industrie du transport, en rendant les environnements de conduite plus sûrs pour les conducteurs, en optimisant les performances des véhicules, mais aussi en créant de meilleurs itinéraires logistiques pour les acteurs professionnels de la mobilité (transport ferroviaire, aérien, maritime…).

Plus récemment, la science des données a permis l'introduction et le développement des voitures à conduite autonome, pour une utilisation toujours plus précise.

Ces secteurs ne sont, bien évidemment, pas les seuls impactés par la science des données. Jeux vidéo, reconnaissance d’image, agriculture, météorologie, ou encore assurances dont autant d’autres domaines que la data science a révolutionné.

Science des données et recherche : quel rôle pour Inria ?

Chez Inria, plusieurs équipes-projets sont à ce jour spécialisées dans la science des données.

Au centre Inria de l'université de Bordeaux, on peut notamment citer Pleiade, Edge, Astral, HiePACS, Geostat, qui a développé des outils pour traiter des grandes données, ou encore Sistm et Monc, toutes deux axées sur le domaine de la santé. Au centre Inria de l'Université de Rennes, l’équipe-projet LACODAM facilite le processus visant à expliciter du sens à partir de grandes quantités de données, soit en dérivant de nouvelles connaissances, soit pour prendre de meilleures décisions.

Au centre de recherche Inria d'Université Côte d'Azur, citons Maasai, Wimmics, Zenith et Lemon, qui, de son côté, développe par exemple des outils théoriques et numériques (à la fois déterministes et stochastiques) pour modéliser les processus de la zone côtière, que ce soit l'intérieur des terres ou en mer.

Magnet, Spirals, Modal, toutes trois basées au centre Inria de l’Université de Lille, travaillent, eux aussi, sur l’analyse et la gestion des données, tout comme Cedar au centre Inria de Saclay, ou encore Valda, Heka, Aramis et Sierra au centre Inria de Paris. 

Quatre articles pour en savoir plus sur la science des données

IA analyse RS

Explorer des bases de données complexes pour enrayer les fausses informations et la haine en ligne

Comment aider les journalistes à vérifier plus rapidement des faits à partir de données disponibles en ligne ? C’est la question à laquelle s’est attelée Ioana Manolescu, directrice de l’équipe de recherche Cedar.

iQspot

iQspot, au service de l’optimisation énergétique des bâtiments

Créée en 2015, la startup œuvre à la transition énergétique dans le domaine de l’immobilier professionnel, en proposant une solution de collecte automatique et d’analyse en temps réel des consommations énergétiques immobilières. 

Histoire et archéologie data science

Histoire et archéologie : vérifier les données et visualiser le passé

Le projet HistorIA a permis la publication et la mise à disposition, en 2020, d’un système de calcul des groupes (clusters) au sein d’un réseau social qui repose sur un partage d’initiatives entre algorithmes et connaissances du chercheur.

Première identification des signes précoces d'Alzheimer

Première identification des signes précoces d'Alzheimer

Une équipe de recherche pluridisciplinaire a dévoilé les résultats de ses recherche pour identifier les facteurs de risque de démence due à la maladie d'Alzheimer. Son originalité ? Elle s'appuie sur l'analyse des dossiers médicaux de près de 80 000 patients consultant chez des médecins généralistes, en France et au Royaume-Uni.