Sites Inria

English version

Big data

8/02/2017

Les sciences sociales évoluent de plus en plus vers une approche quantitative

Big Data © Inria / Photo H. Raguet

Une approche quantitative Big Data en sciences sociales a permis de démontrer la stratification sociale de la société à partir de l’analyse du réseau social et de données bancaires. Ce travail a été mené par Yannick Leo au sein de l’équipe Dante et les résultats ont été publiés dans la revue Journal of The Royal Society Interface . L'étude s’est appuyée sur l’importante capacité statistique fournie par une approche Big Data. Interview de Márton Karsai, maître de conférences à l'ENS de Lyon, titulaire d'une chaire Inria et contributeur de cette étude internationale.

Comment s’est organisée cette recherche ?

Márton Karsai: Cette recherche, qui a démarré en 2014, s’inscrit à la suite d’une recherche antérieure. Elle est le fruit d’un travail collaboratif entre l’équipe-projet commune Inria Dante, dirigée par Eric Fleury, qui rassemble un certain nombre de chercheurs français (ENS de Lyon et Inria), mais aussi des chercheurs de l’université de Buenos Aires ainsi que l’entreprise GranData Labs, chargée de gérer les données. La contribution d’Inria à ce projet s’est matérialisée au travers de l’élaboration,  la conception et la publication du projet scientifique.

Quelles en ont été les principales découvertes ?

M.K: L'inégale répartition de la richesse associée à l'homophilie sociale (« qui se rassemble s'assemble ») conduit à une stratification de la société. Nous sommes préférentiellement connectés avec des personnes ayant un statut socio-économique similaire au nôtre. Jusqu’alors, il n’existait pas d’études statistiques à cette échelle susceptibles de mettre en évidence les résultats du travail de terrain réalisé par les équipes de recherche en sciences sociales. Notre travail a consisté à vérifier empiriquement cette hypothèse en analysant un ensemble de données combinant simultanément le réseau social et les capacités économiques de millions d'individus à l'échelle d'un pays. Nous montrons que la richesse, mais aussi la dette, sont réparties de façon inégale, que les personnes sont reliées au sein d'une structure sociale fortement stratifiée avec une forte corrélation socio-économique endogène et l'existence de "rich-clubs" très fortement interconnectés. Nous mettons aussi en lumière que les personnes d'une même classe vivent plus près les unes des autres et que plus les personnes ont des revenus importants plus elles ont un temps de transport journalier important.

De quelle façon le Big Data s’inscrit-il dans la démarche des sciences sociales ?

M.K: L’approche utilisée dans cette étude ne va pas à l’encontre de la recherche traditionnelle en sciences sociales. Au contraire, elle vient en complément de résultats trouvés dans des recherches antérieures sur des échantillons plus petits. Grâce à cette importante capacité statistique qu’apporte le Big Data , nous sommes en mesure d’apporter des preuves et de mettre en évidence des hypothèses et des observations sur des populations plus larges. De façon générale, les sciences sociales évoluent de plus en plus vers une approche quantitative grâce à une utilisation accrue de l’informatique.

Travaillez-vous sur d’autres projets impliquant le Big Data et les sciences sociales ?

M.K: Nous travaillons actuellement sur un projet ANR (SoSweet) qui étudie la twittosphère française de façon à établir les corrélations entre les réseaux sociaux et le langage. Pour réaliser cette étude, nous nous appuyons sur deux méthodologies distinctes : la première consiste à collecter 25% de l’ensemble des tweets envoyés, soit un total de 150 millions de tweets sur une période de deux ans en provenance de 2,5 millions de personnes. La seconde partie de cette étude repose sur un questionnaire envoyé à un échantillon de la twittosphère et se basant sur des questions sur l’appartenance socio-économique et le niveau d’études des sondés. Un certain nombre de résultats seront publiés dans le courant de cette année.

 

L’étude, qui a rassemblé des chercheurs de l‘équipe Dante, de l’université de Buenos Aires et de la société Grandata labs, s’est appuyée sur deux fichiers de données distincts.
Les auteurs ont d’abord eu accès à des millions de données de télécommunications en provenance de plus de 111 millions d’utilisateurs anonymes d’un pays d’Amérique latine entre janvier 2014 et septembre 2015 : dates, durées des communications, identifiants anonymisés des personnes connectées et localisation de l’antenne ont ainsi été analysés. En revanche, le contenu des conversations n’a pas été révélé pour des raisons de respect de la confidentialité.
Afin d’estimer les indicateurs économiques individuels, les chercheurs ont également eu recours aux transactions bancaires de plus de six millions de personnes sur une période de huit mois, s’étalant entre novembre 2014 et juin 2015.
L'étude a analysé les interactions téléphoniques de 992 538 personnes connectées par plus de 1,9 million de liens sur plusieurs mois. C’est l’analyse des données sur cette population, issue des deux fichiers, qui a permis de mettre en évidence la stratification sociale. Un certain nombre de précautions ont cependant été mises en œuvre : les fichiers utilisés ont reçu le feu vert de la commission nationale bancaire mexicaine avec interdiction de les diffuser publiquement.

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !