Sites Inria

English version

Sécurité et vie privée

Mediathena – V.P. (*) - 30/10/2019

Analyser le trafic chiffré pour détecter les activités illégales

Échanges en ligne - Geralt - CC0 via Pixabay

Cinquante ans après la naissance du premier réseau informatique, la sécurité des échanges sur Internet fait face à de nombreux enjeux techniques et sociétaux. Comment concilier les besoins de sécurité et de respect de la vie privée des internautes via l’utilisation de protocoles comme HTTPS ? Réponse : en analysant le trafic pour détecter les activités illicites malgré le chiffrement des échanges. L’équipe RESIST chez Inria à Nancy vient de publier les résultats très concluants d’un algorithme qui relève ce défi : H2Classifier .

L’attention grandissante des internautes à la sécurité des informations qu’ils échangent en ligne a conduit à un recours massif au protocole HTTPS (HyperText Transfer Protocol Secure) . Celui-ci, qui assure une communication chiffrée entre un internaute et le serveur internet consulté - et donc une plus grande sécurité des données –, a rendu caduques les méthodes usuelles de gestion de la cybersécurité des réseaux, basées sur le filtrage via la surveillance des ports ou l’inspection des paquets de données échangées.

Pour permettre l’analyse du trafic dans le réseau d’une entreprise ou d’une institution, ses gestionnaires informatiques utilisent donc généralement un proxy de déchiffrement pour accéder au contenu et l’analyser, les échanges en amont (entre l’internaute et le proxy) et en aval (entre proxy et service internet consulté) étant, eux, chiffrés. Si cette surveillance via un proxy de déchiffrement est envisageable dans un contexte professionnel, ce procédé n’en brise pas moins la confidentialité des échanges.

Analyser sans déchiffrer

Pour que les échanges puissent rester chiffrés de bout en bout sans que le chiffrement soit un obstacle à la nécessaire identification, et éventuellement interception, des activités illicites en ligne, Inria propose désormais la technologie H2Classifier . Elle est basée sur une technique d’intelligence artificielle et adaptée au trafic sous le protocole HTTPS utilisé depuis 2015 (HTTP2 + sécurisation TLS).

Le procédé d’analyse H2Classifier  a été décrit dans le journal IEEE Transactions on Network and Service Management de septembre 2019 par Pierre-Olivier Brissaud, qui termine actuellement sa thèse CIFRE sur ce sujet à Nancy, sous la codirection de Jérôme François, Inria Nancy-Grand Est, et Olivier Bettan, du groupe Thales .

« Cette technologie innovante pourrait remplacer avantageusement l’utilisation d’un proxy de déchiffrement , indique Pierre-Olivier Brissaud. Car l’algorithme H2Classifier ne surveille pas chaque requête de chaque utilisateur du réseau mais permet d’alerter - voire de bloquer les échanges selon le paramétrage qu’en fera le responsable réseau - quand une requête enfreint certaines règles préétablies.  » Il devient alors possible de bloquer toute tentative d’accès illégitime à un service en ligne, tout en protégeant la confidentialité des échanges et en laissant ce service accessible aux utilisations considérées comme « normales » par le gestionnaire de réseau. En effet, l’algorithme permet d’identifier une recherche suspecte, préalablement définie comme telle grâce à des mots-clés, tout en respectant la finalité du protocole HTTPS, sans « casser » le chiffrement.

Une analyse de la forme de la réponse chiffrée

Pour cela, l’algorithme H2Classifier se base uniquement sur la variabilité des tailles des messages réseaux qui composent les réponses données par un service au mot-clé utilisé, qu’il s’agisse d’un produit, d’un mot ou d’un nom propre. Malgré des chiffrements variables d’une requête à l’autre pour un même mot-clé, les chercheurs parviennent en effet à déduire la réponse qui lui est faite des spécificités communes.

Concrètement, pour chaque mot-clé, les chercheurs ont fait plusieurs dizaines de requêtes identiques à un même service en ligne, puis ils ont enregistré et analysé la forme du trafic chiffré en réponse. Ils parviennent ainsi à dégager une signature de réponse à ce mot-clé, sans comparer les données échangées mais en analysant par exemple la taille des blocs de données qui, elle, est liée à l’information en circulation.

Ainsi, si un internaute recherche plusieurs fois "Nancy" sur un service de cartographie en ligne via HTTPS, la réponse du site sera légèrement différente à chaque nouvelle requête du fait du chiffrement et de métadonnées variables. Mais, dans le contenu de la réponse, les informations transmises restent les mêmes. Cette « reproductibilité » de la réponse à une requête spécifique - toujours typiquement la même forme des échanges et la même quantité de données – permet ainsi de détecter quand elle a lieu.

« Nous avons testé notre algorithme sur les flux de Google, Google Images, Google Map, Amazon et Instagram, avec quelques milliers de mots-clés, et dans 94 à 99 % des cas, nous obtenons effectivement une alerte pertinente  », précise Jérôme François.

Testé sur ces quelques services couramment utilisés, l’algorithme peut cependant s’appliquer à n’importe quel autre : il suffit de repasser par la phase de collecte des données et d’analyse des réponses pour "reconnaître" ensuite quand le mot-clé figure dans les échanges avec ce service.

Des travaux qui révèlent une faiblesse de sécurisation de HTTPS

Ce premier outil permettant de conserver la sécurité des données tout en identifiant des activités potentiellement illicites révèle aussi un fait intéressant : même chiffré, le trafic internet transmet des informations potentiellement exploitables. Et H2Classifier est un outil qui va dans le bon sens : il est moins intrusif qu’un proxy de déchiffrement puisqu’il n’alerte que sur des requêtes spécifiques, sans déchiffrer les échanges entre un internaute et le service qu’il utilise.

Quant à l’appliquer "outre mesure" ou pour de la surveillance massive, le risque est très faible : « Ne serait-ce qu’avec dix fois plus de mots-clés que nous l’avons fait, le traitement par l’algorithme prendrait inévitablement plus de temps et serait moins précis. Et la phase de collecte des données et d’apprentissage serait bien plus longue », explique Pierre-Olivier Brissaud.

Mots-clés : IA Olivier Bettan Pierre-Olivier Brissaud Jérôme François Chiffrement RESIST H2Classifier Vie privée Sécurité

Haut de page

Suivez Inria