Analyse de la menace

Analyser le trafic chiffré pour détecter les activités illégales

Date:
Mis à jour le 06/12/2023
Cinquante ans après la naissance du premier réseau informatique, la sécurité des échanges sur Internet fait face à de nombreux enjeux techniques et sociétaux. Comment concilier les besoins de sécurité et de respect de la vie privée des internautes via l’utilisation de protocoles comme HTTPS ? Réponse : en analysant le trafic pour détecter les activités illicites malgré le chiffrement des échanges. L’équipe RESIST chez Inria à Nancy vient de publier les résultats très concluants d’un algorithme qui relève ce défi : H2Classifier

L’attention grandissante des internautes à la sécurité des informations qu’ils échangent en ligne a conduit à un recours massif au protocole HTTPS (HyperText Transfer Protocol Secure) . Celui-ci, qui assure une communication chiffrée entre un internaute et le serveur internet consulté - et donc une plus grande sécurité des données –, a rendu caduques les méthodes usuelles de gestion de la cybersécurité des réseaux, basées sur le filtrage via la surveillance des ports ou l’inspection des paquets de données échangées.

Pour permettre l’analyse du trafic dans le réseau d’une entreprise ou d’une institution, ses gestionnaires informatiques utilisent donc généralement un proxy de déchiffrement pour accéder au contenu et l’analyser, les échanges en amont (entre l’internaute et le proxy) et en aval (entre proxy et service internet consulté) étant, eux, chiffrés. Si cette surveillance via un proxy de déchiffrement est envisageable dans un contexte professionnel, ce procédé n’en brise pas moins la confidentialité des échanges.

Analyser sans déchiffrer

Pour que les échanges puissent rester chiffrés de bout en bout sans que le chiffrement soit un obstacle à la nécessaire identification, et éventuellement interception, des activités illicites en ligne, Inria propose désormais la technologie H2Classifier . Elle est basée sur une technique d’intelligence artificielle et adaptée au trafic sous le protocole HTTPS utilisé depuis 2015 (HTTP2 + sécurisation TLS).

Le procédé d’analyse H2Classifier  a été décrit dans le journal IEEE Transactions on Network and Service Management de septembre 2019 par Pierre-Olivier Brissaud, qui termine actuellement sa thèse CIFRE sur ce sujet à Nancy, sous la codirection de Jérôme François, Inria Nancy-Grand Est, et Olivier Bettan, du groupe Thales .

« Cette technologie innovante pourrait remplacer avantageusement l’utilisation d’un proxy de déchiffrement , indique Pierre-Olivier Brissaud. Car l’algorithme H2Classifier ne surveille pas chaque requête de chaque utilisateur du réseau mais permet d’alerter - voire de bloquer les échanges selon le paramétrage qu’en fera le responsable réseau - quand une requête enfreint certaines règles préétablies.  » Il devient alors possible de bloquer toute tentative d’accès illégitime à un service en ligne, tout en protégeant la confidentialité des échanges et en laissant ce service accessible aux utilisations considérées comme « normales » par le gestionnaire de réseau. En effet, l’algorithme permet d’identifier une recherche suspecte, préalablement définie comme telle grâce à des mots-clés, tout en respectant la finalité du protocole HTTPS, sans « casser » le chiffrement.

Une analyse de la forme de la réponse chiffrée

Pour cela, l’algorithme H2Classifier se base uniquement sur la variabilité des tailles des messages réseaux qui composent les réponses données par un service au mot-clé utilisé, qu’il s’agisse d’un produit, d’un mot ou d’un nom propre. Malgré des chiffrements variables d’une requête à l’autre pour un même mot-clé, les chercheurs parviennent en effet à déduire la réponse qui lui est faite des spécificités communes.

Concrètement, pour chaque mot-clé, les chercheurs ont fait plusieurs dizaines de requêtes identiques à un même service en ligne, puis ils ont enregistré et analysé la forme du trafic chiffré en réponse. Ils parviennent ainsi à dégager une signature de réponse à ce mot-clé, sans comparer les données échangées mais en analysant par exemple la taille des blocs de données qui, elle, est liée à l’information en circulation.

Ainsi, si un internaute recherche plusieurs fois "Nancy" sur un service de cartographie en ligne via HTTPS, la réponse du site sera légèrement différente à chaque nouvelle requête du fait du chiffrement et de métadonnées variables. Mais, dans le contenu de la réponse, les informations transmises restent les mêmes. Cette « reproductibilité » de la réponse à une requête spécifique - toujours typiquement la même forme des échanges et la même quantité de données – permet ainsi de détecter quand elle a lieu.

« Nous avons testé notre algorithme sur les flux de Google, Google Images, Google Map, Amazon et Instagram, avec quelques milliers de mots-clés, et dans 94 à 99 % des cas, nous obtenons effectivement une alerte pertinente  », précise Jérôme François.

Testé sur ces quelques services couramment utilisés, l’algorithme peut cependant s’appliquer à n’importe quel autre : il suffit de repasser par la phase de collecte des données et d’analyse des réponses pour "reconnaître" ensuite quand le mot-clé figure dans les échanges avec ce service.

Des travaux qui révèlent une faiblesse de sécurisation de HTTPS

Ce premier outil permettant de conserver la sécurité des données tout en identifiant des activités potentiellement illicites révèle aussi un fait intéressant : même chiffré, le trafic internet transmet des informations potentiellement exploitables. Et H2Classifier est un outil qui va dans le bon sens : il est moins intrusif qu’un proxy de déchiffrement puisqu’il n’alerte que sur des requêtes spécifiques, sans déchiffrer les échanges entre un internaute et le service qu’il utilise.

Quant à l’appliquer "outre mesure" ou pour de la surveillance massive, le risque est très faible : « Ne serait-ce qu’avec dix fois plus de mots-clés que nous l’avons fait, le traitement par l’algorithme prendrait inévitablement plus de temps et serait moins précis. Et la phase de collecte des données et d’apprentissage serait bien plus longue », explique Pierre-Olivier Brissaud.

En savoir plus

L’article décrivant ce résultat a été publié dans le journal IEEE Transactions on Network and Service Management en septembre 2019. Il est en accès libre dans l'archive ouverte HAL-Inria : Transparent and Service-Agnostic Monitoring of Encrypted Web Traffic

Les auteurs : Pierre-Olivier Brissaud, Jérôme François, Isabelle Chrisment, Thibault Cholez et Olivier Bettan.