Mis à jour le 10/05/2021
Les algorithmes des plates-formes numériques orientent de plus en plus nos choix en termes culturels ou économiques, faisant évoluer rapidement les usages et notre dépendance à ceux-ci. La complexité des techniques mathématiques et d’intelligence artificielle utilisées va de pair avec la volumétrie croissante des données accumulées, parfois à notre insu. La logique guidant ces recommandations devient de moins en moins lisible et compréhensible pour l’utilisateur. Comment s’assurer que ces algorithmes se comportent de manière loyale vis-à-vis des citoyens et des entreprises ? Benoît Rottembourg, responsable du projet-pilote Regalia à Inria, partenaire du Pôle d'Expertise en Régulation Numérique du ministère des finances, alimente la réflexion.
Transparence et vie privée
© Inria / Photo S. Erôme

Quelle est la part d’intervention humaine dans un algorithme ?

La première chose qu’un être humain fait quand il met en place des algorithmes est de les connecter au système d’information de son entreprise ou son administration, et en particulier à des données d’entrée. Le choix de ces données - nourrissant les algorithmes - vient de l'humain, comme le processus de nettoyage ou d’agrégation (ex : le nombre de secondes passées à regarder une vidéo pour un algorithme de recommandation). Ce chaînage de la donnée a énormément d’importance, et est souvent assez "artisanal", truffé de petites erreurs, de biais ou d’imprécisions, beaucoup plus courants qu’on veut bien le dire : j’ai vécu le cas d’un groupe hôtelier qui avait 70% de clients afghans parce que la nationalité afghane apparaissait en premier par défaut dans la liste et que la plupart des agents ne remplissaient pas le champ. Les définitions changent également au fil du temps (ex : qu’est-ce qu’un client actif ?) et donc une même donnée change de sens et ne peut donc être consommée comme telle.

Un autre aspect va concerner la compréhension de la fonction elle-même de l’algorithme. C’est un choix de design typiquement humain. Si vous êtes une agence de voyage en ligne et que vous construisez un algorithme de comparaison d’offre hôtelière, il y a plusieurs façons de comprendre ce que veut dire « à 20 km d’un point donné » : est-ce strict, est-ce à vol d’oiseau, peut-on relâcher la contrainte s’il y a trop peu d’offre, ou s’il y a une offre très attractive mais à 25 km ? Si le choix du ranking peut être laissé à un algorithme, le choix de l’assortiment ou de la mise en avant est encore bien souvent humain, presque éditorial.

Le projet-pilote Regalia, conduit par Inria, a pour ambition de construire un environnement logiciel de test et d'aide à la régulation pour faire face aux risques de biais et de déloyautés engendrés par les algorithmes des plates-formes numériques.
Un pôle d’expertise de la régulation numérique (le PEReN) a été créé en septembre 2020 au sein de la Direction Générale des Entreprise, pour soutenir cet effort de régulation, pour faire notamment face à de nouvelles formes de fraude, de pratiques anticoncurrentielles ou de négligence. Le PEReN est partenaire du projet-pilote Regalia.

 

Enfin, l’être humain peut surveiller les résultats de ces algorithmes, notamment dans le cas des algorithmes de pricing, qui déterminent les prix d’un produit à un instant donné et qui peuvent occasionner des effets non désirés à fort impact. Sur les plates-formes régulées par des opérateurs humains, l’opérateur reçoit une alerte et doit chercher à comprendre le changement de prix anormal en analysant les causes et le contexte, ainsi que le niveau de risque. Il y a donc déjà une forme de régulation existante mais, selon l’appartenance privée ou publique, les objectifs ne sont pas les mêmes - le commerce est moins neutre que le calcul de l’impôt - et la responsabilité comme le sentiment du devoir, ne sont pas les mêmes non plus.

Dans quel contexte s’est forgé le concept de « transparence des algorithmes » ?

En France, l’expression de transparence a été popularisée au moment de la loi numérique de 2017 qui disposait que les algorithmes décisionnels des organismes publics avaient une obligation de transparence envers les citoyens. Le débat s’est surtout centré sur les algorithmes qui prennent des décisions individuelles concernant une allocation de ressources, le calcul d’un impôt, de la retraite, Parcoursup, etc. À ce moment-là, le désir de modernisation de l’État pour développer son efficacité administrative s’est heurté à la crainte des citoyens que les décisions de l’État, aidées par ces algorithmes, nous échappent, soient opaques, incompréhensibles et in fine, injustes. Aujourd’hui, en ces temps d’épidémie, les décisions fondées sur des algorithmes (que ce soit des prévisions ou des modèles de propagation), semblent plus aléatoires ou incontrôlables pour le citoyen. Même les calculs de l’Insee sont remis en cause.

Ce soupçon d’injustice est certes un procès d’intention, mais il est légitime et réclame une pédagogie qui coûte cher et limite les possibilités techniques d’algorithmes parfois plus efficaces mais inexplicables. On parlait aussi beaucoup à l’époque du machine learning et du deep learning - l’État ne doit pas avoir beaucoup d’algorithmes à base de deep learning par ailleurs - mais le débat s’est focalisé sur une sorte de robotisation de la société, sur la place fantasmée de l’intelligence artificielle, qui a amplifié les peurs en dépit de la réalité scientifique.

Il est important de comprendre que les algorithmes n’ont pas attendu le deep learning pour « prendre » des décisions injustes ou pour tricher. Les algorithmes les plus simples peuvent être injustes : à une époque, dans un centre d’appel, quand un citoyen lambda appelait, on avait remarqué que les appels venant d’un téléphone fixe, plus souvent au travail, étaient pris après les appels venant de mobile, car les abonnés attendaient moins longtemps sur un forfait qui n’était alors pas illimité. Cela fait au moins vingt ans que l’on cohabite avec les algorithmes de recommandation, depuis les premiers GPS par exemple, sans qu’ils soient remis en question.

Le niveau de peur a augmenté, mais aussi le niveau de redevabilité, notamment des services publics. C’est ce sentiment de désappropriation qu’il faut être capable de prendre en compte.

Image
Benoît Rottembourg
Verbatim

Il faut être irréprochable dans la pédagogie du chiffre, des algorithmes, de leur sens et de leurs faiblesses. C’est un travail immense car plus l’on explique, plus l’on soulève de nouvelles questions et paradoxes, comme le fait de se plaindre de la collecte de données d’Ameli tout en naviguant sur Facebook.

Auteur

Benoît Rottembourg

Poste

Responsable du projet-pilote Regalia

Comment se pratique aujourd’hui la régulation de ces algorithmes ?

Le développement du débat public et l’évolution du cadre législatif, même s’il est lent, est incontestable. Margrethe Vestager Hansen, commissaire européenne à la concurrence, a officiellement annoncé en novembre dernier une enquête sur les éventuelles pratiques anti-concurrentielles d’Amazon. L’une d’entre elles, le self preferencing, consisterait à mettre davantage en avant les produits de la maison mère que ceux des autres producteurs qu’elle distribue, ce qui n’est pas autorisé lorsque l’on détient une position dominante. Aujourd’hui, la justice peut demander une régulation des algorithmes de recherche et sanctionner ce genre d’agissements, si elle en apporte la preuve bien entendu. Un deuxième exemple est la régulation des algorithmes de filtrage d’avis sur les sites marchands : la DGCCRF a mis en place des normes de certification pour éviter la fabrication de faux avis ou l’élimination par le gestionnaire d’avis négatifs.

On peut tout d’abord espérer un développement de l’information sur les sites privés et publics qui détaillent les données utilisées et la façon dont s’effectue le tri ou le traitement de ces données pour arriver à un résultat particulier. Que signifie exactement « il n’y a plus que trois chambres disponibles à ce prix-là » ?  On peut aussi imaginer tendre vers la mise en place d’une sorte d’observatoire des pratiques des plates-formes numériques, ce que commencent à faire certaines autorités de régulation spécialisées, comme l’ARCEP, pour les télécoms, avec la notion de data regulation. En outre, la création d’un statut particulier pour les plates-formes dites structurantes – qui ont un fort pouvoir de marché typiquement - permettrait une surveillance accrue de leurs algorithmes. Certains régulateurs européens poussent même pour exiger des plates-formes qu’elles anticipent l’effet de changement de leurs algorithmes et en informent les autorités de régulation. Pour les sites de contenus, de nouvelles responsabilités des hébergeurs sont à l’étude, mettant l’accent sur le duty of care, le devoir d’autorégulation, prenant en compte la sous-modération ou la surmodération qui, elle, peut mener à la censure. Un pôle d’expertise de la régulation numérique a d’ailleurs été créé en septembre 2020 pour soutenir cet effort de régulation, faire face à de nouvelles formes de fraude, de pratiques anticoncurrentielles ou de négligence, et pour rétablir l’équilibre entre les pratiques en ligne et les pratiques dans le monde physique.

Comment lutter contre l’opacité des algorithmes ?

La lutte à mener dépend beaucoup du risque entraîné par l’opacité. Les risques de fraude ou de manipulation font partie des plus sensibles pour le citoyen, mais les risques anticoncurrentiels peuvent avoir des effets plus sournois et de long terme, on parle aujourd’hui de Big Tech, non seulement en Europe mais également aux États-Unis qui les ont produits. Que se passe-t-il si deux algorithmes de deux entreprises leaders sur un même marché s’entendent "discrètement" et sans intervention humaine, pour monter leurs prix ? La perception des risques d’absence de diversité pour les distributeurs de contenus, de diffusion de contenus illicites ou préjudiciables est en forte augmentation et revêt une dimension algorithmique. 

Verbatim

Par ailleurs, l’opacité n’est pas toujours intentionnelle : il y a des couches de logiciels qui peuvent s’empiler d’année en année dans une entreprise ou une administration, et qui résultent en une réponse algorithmique inexplicable tant elle est noyée d’informations passées et présentes. Parfois cependant, rendre le processus opaque est un acte délibéré, à l’image des fameuses CGU, proprement illisibles si l’on n’est pas docteur en droit commercial. Il y a eu des sanctions en ce sens.

Auteur

Benoît Rottembourg

Face à ces dangers, on recense deux grandes familles d’approches complémentaires : une approche par construction en forçant/incitant les développeurs d’algorithmes à utiliser certaines technologies rendant les processus lisibles et à rendre des comptes sur leurs effets ; et une approche par observation qui consiste à auditer les sites ou leurs moteurs algorithmiques, à sonder par échantillonnage (comme un test antidopage longitudinal), et vérifier que les comportements sont conformes. On comprendra que la deuxième approche soulève beaucoup de questions de fiabilité, à l’image des tests d’émissions de CO2 pour les moteurs diesel. Rien de plus facile pour un algorithme que d’incorporer une fonction de détection des sondes qui le bombardent, si leurs comportements sont atypiques. Les plates-formes digitales sont habituées à reconnaître et traiter les robots qui les assaillent. En revanche, les approches en pure transparence, par audit de code complet, me semblent très difficiles à mettre en place auprès de plates-formes du secteur privé pour tout un ensemble de raisons. On peut toutefois bâtir une forme de data-régulation en combinant une surveillance longitudinale à des exigences de reporting étendu des entreprises. 

Il faut enfin insister sur le fait qu’algorithmes privés et publics n’ont pas les mêmes objectifs et n’entraînent pas les mêmes attentes, et à raison : les banquiers privilégiaient certains dossiers dans l’accord de crédit bien avant l’arrivée des algorithmes ! En revanche, l’État a un devoir d’irréprochabilité. Par ailleurs, la complexité des algorithmes de l’administration n’a rien à voir avec ce qui se fait dans les plates-formes digitales actuelles et, de fait, les moyens alloués à la création de nouveaux algorithmes sont bien plus grands chez Amazon ou Uber. La plupart des autorités publiques de surveillance se sont dotées, depuis quelques années, d’équipes dédiées et d’outils d’études et de surveillance des comportements en ligne.

Nous pensons que la recherche académique a beaucoup à apporter sur ces sujets. Elle a plutôt contribué jusqu’ici à créer de formidables librairies logicielles de prédiction et d’influence du comportement client, et elle aspire aujourd’hui à bâtir des intelligences artificielles à la fois explicables, frugales et loyales. Armer le régulateur face aux mastodontes algorithmiques pose d’autres questions, non élémentaires, qui exigent un devoir de rigueur scientifique, un discours de preuve ou du moins une solution parallèle à la méthode de surveillance.