Explorer des bases de données complexes pour enrayer les fausses informations et la haine en ligne

Date:
Mis à jour le 15/04/2021
Rapprocher des données éparses au sein d’immenses bases de données, analyser des flux de messages pour identifier une situation de conflit… Les méthodes d’apprentissage automatique et d’apprentissage profond de l’intelligence artificielle modifient drastiquement la vitesse d’exécution de ces tâches, mais demandent une collaboration fine avec les acteurs de terrain pour déterminer les indicateurs pertinents.
Essai de cartographie des sujets d'intelligence artificielle - atelier/démonstration lors du GFAIH
© Inria / Photo A. Bacquet

Outiller les journalistes pour faciliter le fact checking

Comment aider les journalistes à vérifier plus rapidement des faits à partir de données disponibles en ligne ? C’est la question à laquelle s’est attelée Ioana Manolescu, directrice de l’équipe de recherche Cedar. Après avoir publié un 2013 un des tout premiers articles scientifiques traitant de l’apport du numérique au fact checking, l’équipe a lancé en 2015 le projet ANR ContentCheck en collaboration avec des chercheurs de l’Irisa, du Limsi, de Liris et de l'université Paris-Sorbonne. L’équipe de la rubrique « Les décodeurs » au sein de la rédaction du journal Le Monde s’est associée au projet.

L’outil développé permet d’agglomérer des informations issues de bases de données de formats très divers, afin de les rendre plus faciles à exploiter et à mettre en relation. Il permet notamment de modifier le format et l’ergonomie de bases de données gigantesques, comme celles de l’Insee, afin de les rendre plus faciles à utiliser. Et ainsi de mener automatiquement des recoupements qui prendraient des heures à faire "à la main".

Détecter le cyberharcèlement des adolescents pour agir vite

Insultes, photomontages, smileys… Identifier des mots-clés ne suffit pas pour différencier un cyberéchange entre jeunes qui se chahutent d’une situation de harcèlement en ligne. Détecter précocement les situations de danger et orienter les victimes vers de l’aide demande une collaboration étroite entre informaticiens, sociologues et psychologues. C’est ce qu’a fait le projet CREEP (Cyberbullying Effects Prevention) financé par l’Institut européen de l’innovation et de la technologie (EIT Digital) en 2018 et 2019.

Parmi les partenaires français, italiens et allemands, figurent deux membres de l’équipe Inria Wimmics, Elena Cabrio, maître de conférences à l’université Côte d’Azur, et Serena Villata, chargée de recherche au CNRS. Leur rôle : définir un algorithme de détection de la cyberviolence qui s’appuie sur des indicateurs élaborés avec leurs collègues des sciences humaines et sociales, comme les émotions et sentiments identifiés. En 2020, les chercheuses ont reçu un financement d’Otesia* pour poursuivre et adapter le projet de l’italien au français, et proposer une sensibilisation à la cyberviolence dans des établissements scolaires du second degré de la métropole niçoise.

Immigration : détecter et analyser les discours de haine en ligne

Les réseaux sociaux peuvent constituer un terrain fertile pour le développement des discours de haine, notamment à l’encontre des migrants. Le projet M-Phasis a voulu se pencher sur la façon dont s’exprime cette haine dans les commentaires des internautes. Cofinancé de 2018 à 2022 par l’ANR et son équivalent allemand, il fait collaborer informaticiens et spécialistes de sciences humaines et sociales des deux pays. Son objectif : identifier et comparer la prévalence et les facteurs qui jouent dans l’émergence du discours antimigrants de chaque côté de la frontière.

Trois membres de l’équipe Multispeech Inria-Loria, Irina Illina (maître de conférences à l’université de Lorraine), Dominique Fohr (chargé de recherche au CNRS) et Ashwin Geet D’sa (doctorant au sein de l’équipe), viennent apporter au projet leurs compétences en traitement du langage naturel (TLN)**. Si la recherche qu’ils mènent est avant tout exploratoire, elle pourrait à terme faciliter le travail de modération des médias en ligne et des réseaux sociaux en proposant un outil de détection automatique des propos possiblement haineux.

 

*Otesia : Observatoire des impacts technologiques, économiques et sociétaux de l’intelligence artificielle.

**Le TLN est une technologie d’intelligence artificielle qui permet la reconnaissance automatique de la parole.

Numérique et sciences humaines et sociales : deux domaines si proches