Sécurité numérique

Respect de la vie privée : la gestion des "cookies" est-elle si fiable qu’elle en a l’air ?

Date:
Mis à jour le 05/05/2022
Bloquer les cookies ou utiliser un mode privé proposé par votre navigateur vous assure-t-il vraiment de ne pas être pisté sur le Web ? Les outils de gestion des cookies peuvent-ils être détournés à des fins publicitaires ? Arnaud Legout, directeur de recherche au centre Inria d’Université Côte d’Azur, dévoile les dessous de l'utilisation des cookies pour "tracker" les internautes sur le Web au travers des résultats du projet Greasy.
RGPD cookies
© Inria / Photo B. Fourrier

 

La protection de la vie privée sur le Web est un sujet qui contient, aujourd’hui encore, beaucoup de zones d’ombre et de questions en suspens, en particulier pour le grand public, souvent mal ou peu informé au sujet du devenir de ses données.

Une problématique particulièrement vraie au sujet des cookies ou autres traceurs présents sur les sites, contre lesquels la grande majorité des internautes pense, principalement en raison des bannières de cookies qui sont partout sur le Web grâce à la directive ePrivacy et au RGPD, être protégée en bloquant simplement les cookies tiers.  

D’un autre côté, l'industrie de la publicité sur Internet, représentée par un immense écosystème générant des milliers de milliards de dollars de revenus répartis entre de nombreux acteurs, s’active quotidiennement sur le Web pour faciliter le profilage des utilisateurs et, ainsi, la sélection des publicités.

Un constat qui a poussé le lancement du projet Greasy, porté par la chercheuse Inria Nataliia Bielova de l'équipe Privatics, dans le but d'évaluer dans quelle mesure les cookies sont « gras », c'est-à-dire quelles traces subsistent malgré les efforts de nettoyage ou de blocage de la part des internautes. Un projet qui a donné lieu à trois résultats majeurs, aussi importants pour la communauté scientifique, que pour le grand public et que pour les autorités législatives ou de régulation.

« Missed by Filter Lists », ou comment les filtres manquent jusqu’à 30% des trackers

Le premier résultat, fondateur de ces travaux, a été dévoilé en 2020. Il s’agissait alors pour les chercheurs de Greasy de démontrer au travers d’une approche comportementale (qui permettait d’identifier des requêtes de traçage sans regarder les URL mais en regardant les types d’échanges observés), que les outils de détection du pistage actuels passent à côté de 25 à 30% des trackers.

« Jusqu’à nos travaux, aussi bien la communauté scientifique que le grand public pensaient que ces listes de filtrage représentaient une solution efficace pour détecter et bloquer les trackers », explique Arnaud Legout, directeur de recherche dans l'équipe Diana au centre Inria d'Université Côte d'Azur.

De plus, les recherches de Greasy ont montré que les listes de filtrage ne peuvent pas bloquer ces requêtes non détectées, au risque d’enlever les fonctionnalités du site consulté. La raison : ces cookies ont été déposés comme cookies de première partie, en première intention (et non comme cookies tiers), et sont donc impossibles à bloquer.

Et il n’existe, aujourd’hui, aucune solution pour se prémunir de cela. « On vit dans un monde qui a changé du fait d’Internet. Tout ce monde s’est construit sur un écosystème majoritairement gratuit (Facebook, Twitter, Waze, Instagram, Google Maps, les mails…). Mais rien n’est réellement gratuit puisque tous les services offerts sont financés à 90% par la publicité. Est-ce qu’on est perdant ? Je ne sais pas. Ce qui est important, c’est que les gens comprennent ce qu’ils laissent, et ce que ça leur coûte », indique Arnaud Legout.

Mais que se passe-t-il, alors, si chaque internaute navigue en privé, ou nettoie le stockage de son navigateur, afin d’éviter d’être pisté ?

« My Cookie is a phoenix » : le pistage sans cookies de pistage

C’est le second sujet sur lequel s’est penchée l’équipe derrière Greasy, qui a identifié pour la première fois une nouvelle technique (appelée cookie respwaning with browser fingerprinting), permettant de pister un internaute sur différents sites Web, même si cet internaute utilise un mode privé ou nettoie le stockage de son navigateur. Pire encore : cette technique permettra de continuer à pister les internautes même si les navigateurs Web suppriment la possibilité d'avoir des cookies de pistage.

« Ce qu’on montre dans ce papier, c’est que les techniques qu’on a détectées, qui représentent aujourd’hui un très faible pourcentage dans la publicité sur Internet, permettraient de contourner la dépréciation des cookies tiers, et donc de continuer le traçage sans cookies tiers », explique Arnaud Legout.

Pour cela, les chercheurs ont développé une méthodologie qui leur permet de détecter la dépendance des cookies aux caractéristiques du navigateur et de la machine. Les résultats montrent ainsi que 1 150 des 30 000 premiers sites web Alexa déploient ce mécanisme de suivi, allant jusqu’à suivre les utilisateurs sur plusieurs sites web, même si les cookies tiers sont dépréciés.

Cette nouvelle technique de pistage s’explique par le fait que Google a annoncé la suppression prochaine (à la fin de l'année 2023) des cookies tiers dans Chrome. Une problématique pour les milliers de milliards de dollars que représente la publicité sur Internet à l’échelle du monde, grâce au traçage. « Ça veut dire que même si on interdit les cookies tiers, les trackers pourront continuer le traçage, à l’aide de cookies de première partie et de techniques de fingerprint », ajoute Arnaud Legout.

Les sites médicaux et le RGPD : des résultats alarmants

Enfin, les chercheurs de Greasy se sont attachés, plus récemment, à montrer en analysant 385 sites web liés à la santé que les utilisateurs visitent lorsqu'ils recherchent des médecins en Allemagne, en Autriche, en France, en Belgique et en Irlande, que la majorité ne respecte pas la RGPD. Un problème important de vie privée, puisque Alphabet (société mère de Google qui contrôle plus de 80% de la publicité en ligne) peut acquérir des informations médicales sur les internautes sans ou même contre leur consentement.

« Ce qu’on a voulu montrer ici, c’est que quand on visite un site e-commerce qui fait du traçage, ça n’est pas la même chose que quand on visite le site d’un professionnel de santé qui fait du traçage. Ça ne donne pas la même information. Savoir qu’on a acheté les toutes dernières baskets à la mode ne transmet pas la même information que de savoir qu’on a pris rendez-vous avec un cancérologue. On montre qu’aujourd’hui, le niveau de respect de la vie privée qu’il y a sur les sites médicaux n’est pas plus élevé que sur des sites commerçants », indique Arnaud Legout.

Le RGPD n'autorisant le traitement des données relatives à la santé qu'avec le consentement explicite de l'utilisateur, les sites web consacrés à la santé doivent en effet demander le consentement avant tout traitement de données, en particulier lorsqu'ils intègrent des traceurs tiers. Pourtant, et selon les résultats des travaux de Greasy, au moins une forme de suivi est présente sur 62% des sites web de santé analysés, avant l'interaction avec le pop-up de consentement, et 15% des sites web incluent le suivi après le rejet.

« Les sites sur lesquels nous avons détecté ces failles ont été contactés, mais il faut admettre qu'il est très difficile pour les professionnels de santé de se pencher sur ces problématiques de conformité légale, d’une part parce qu’ils sous-traitent en général la gestion de leur site, mais aussi parce que le sujet est difficilement compréhensible par une personne non avisée », tempère Arnaud Legout.

Un des objectifs derrière les travaux de Greasy étant d’aider à la régulation, les résultats de ces recherches ont été partagés avec la CNIL pour améliorer la compréhension du traçage de l’historique de navigation des internautes.