Analyse de données

Le Web sémantique au secours de l’intelligence immobilière

Date:
Mis à jour le 09/04/2024
« À vendre, trois-pièces Cannes banane proche Suquet, à deux pas de la mer. » À force de les voir défiler, on oublierait presque de s’en étonner, or une annonce immobilière relève davantage du jeu de piste que de la simple fiche signalétique. Le but de ce drôle de jeu : localiser le bien sans le localiser vraiment. C’est donc entre les lignes et les périphrases que tout se joue pour les acheteurs et que se cachent les trésors de connaissance qui intéressent de près les acteurs de l’immobilier. Encore faut-il pouvoir transformer cette big data en smart data immobilière. Lucie Cadorel ignorait tous de ces défis de web sémantique jusqu’à ce que l’entreprise SepteoProptech lui propose d’en faire son sujet de thèse Cifre en partenariat avec Inria et le laboratoire i3S. Défi irrésistible pour une informaticienne avec une âme de détective : voici son histoire en trois épisodes et quelques rebondissements, une année de thèse à la fois.
Lucie Cadorel à Cannes

 

Si j’avoue être tombée très jeune dans la marmite de l’ingénierie, je fais aussi partie de celles et ceux dont le cœur balance entre la recherche et l’industrie. Après mon école d’ingénieur à Rennes et un stage de fin d’études chez Orange à Mougins, je me suis retrouvée un jour à échanger sur LinkedIn avec SepteoProptech, une licorne immobilière française à la recherche d’un doctorant Cifre en informatique. L’immobilier étant un domaine qui intéresse tout le monde, moi la première, je fus fortement interpellée par cette opportunité qui s’offrait à moi d’oser faire de la recherche, mais au service de la compétitivité d’une entreprise.

Leur mission était claire : mieux accompagner les agents immobiliers tout au long du cycle de vente grâce à des solutions d’évaluation et d’estimation multicritères aussi précises que fiables. Or comment faire des analyses fines sans position fine des biens affichés, les trois quarts des annonces faisant l’impasse sur les précieuses coordonnées GPS ? Le défi m’intriguait autant que son impact potentiel : comment transformer à la fois la donnée et l’absence de donnée en smart data précieuse pour les agents immobiliers ?

J’étais bouleversée à l’idée de relever ce défi au sein de la grande équipe Wimmics dirigée par Fabien Gandon au Centre Inria d’Université Côte d’Azur, m’imaginant déjà marcher sur les pas de l’éminente Rose Dieng-Kuntz, pionnière du web sémantique, à l’ombre des pinèdes de Sophia Antipolis. Or une belle histoire n’arrivant jamais sans son lot de coups de théâtre, c’est sur Zoom que je finirai par faire connaissance avec ma nouvelle équipe. « Bienvenue chez Wimmics mais, confinement oblige, le café dans la pinède attendra et n'oublie pas d'activer ta caméra. »  Ma thèse sera elle aussi reportée pour finalement débuter en même temps que le deuxième confinement. Décidément…

Le web comme objet de science… et œuvre d’art ? 
Bienvenue chez Wimmics !

© Inria / WIMMICS - Graphe de données du moteur de recherche exploratoire Discovery hub
Graphe de données du moteur de recherche exploratoire Discovery hub

En quelques décennies d’existence, le Web est devenu un système si complexe qu’il nécessite une approche scientifique multidisciplinaire. Sous la houlette de Fabien Gandon, l’équipe Wimmics commune à Inria et i3S (CNRS, Université Côte d'Azur) s’intéresse particulièrement au Web sémantique et au Web social en proposant de nouveaux outils d'analyse et indicateurs. L’équipe œuvre notamment à la représentation des connaissances à base de graphes, au raisonnement sur ces représentations et aux façons de les modéliser pour améliorer la gestion des systèmes, des communautés et des interactions.

Chez Wimmics, on aime tellement les graphes qu’on finit par les trouver beaux, comme en témoigne le graphe de données représentant une requête sur Discovery Hub, un moteur de recherche exploratoire qui s'appuie sur les technologies du Web sémantique et des données liées.

Année 1 : à la recherche de la mystérieuse "banane de Cannes"

Dès le mois d’octobre 2020, je m’attelai à élever la somme des annonces immobilières publiées sur le département des Alpes-Maritimes au cours des deux dernières années au rang de lecture de chevet. Ma mission : les cuisiner pour mieux les faire parler. Qu’entendons-nous par exemple par "centre-ville" ? À Nice, on sait qu’il se situe autour de l’avenue de Jean Médecin, mais encore ? Enfin, quelles sont les proportions exactes du fameux carré d’or ? Et que faut-il penser de ce duplex « proche aéroport » : bonne ou mauvaise nouvelle ? 

On n’imagine pas tout ce que le langage peut nous révéler jusqu’à ce qu’on prenne le temps de l’interroger. Aussi ma première année de thèse fut-elle entièrement consacrée à l’analyse de texte. Parmi mes nombreuses découvertes, je réalisais que certains quartiers n’existent que dans la tête, et donc la bouche des agents immobiliers. Par exemple, le fait que vous ne trouverez jamais la banane de Cannes sur une carte IGN n’empêchera pas cette dernière de faire gonfler le prix de l’annonce qui vous intéresse tant.

Même phénomène dans le Vieux Nice : les limites administratives incluent le cours Saleya quand les agents l’excluent pour en faire un quartier légèrement plus cossu. Simple fait de l’agent immobilier, ou reflet d’un quartier vu par ses habitants ? Les deux, et c’est précisément ce qui intéresse mon entreprise : étudier non pas le quartier mais les représentations sociales du quartier : comment en parle-t-on, qui y habite, selon quel mode de vie ? Le but du jeu : commencer à entrevoir la "vraie carte" du quartier, celle qui vaut de l’or, dessinée sans le savoir par ceux qui y vivent et en parlent le plus. 

Bienvenue dans la Banane de Cannes : en jaune, la peau de banane ; en marron, le fruit hors de prix.
Crédit : Inria, i3S, Septeo Proptech
Bienvenue dans la Banane de Cannes ! En jaune, la peau de banane et en marron, le fruit hors de prix.

Année 2 : de l’analyse textuelle à la géographie

An II de ma thèse et nouveau défi ambitieux : si je naviguais comme un poisson dans les eaux familières de l’analyse de texte, j’avoue avoir transpiré davantage quand vint le temps de passer à la phase géographique du projet. Heureusement, je pus recourir aux superpouvoirs du travail en équipe, l’entreprise ayant embauché une autre doctorante géographe, avec laquelle nous nous sommes découvert bien plus que des affinités : une véritable et précieuse complémentarité. Avec Alicia Blanchi, nous passerons ainsi une bonne partie de l’année à nous enrichir mutuellement des trésors de connaissance géographique et informatique essentiels à la résolution de notre enquête.

Et voici qu’ensemble, nous nous sommes transformées en véritables détectives privées de l’immobilier. Pour estimer, par exemple, la représentation sociale de la Promenade des Anglais, nous avons réuni toutes les annonces qui en parlaient et conservé uniquement celles qui disposaient d’un point GPS : un quart environ. A l’aide de densités et autres limites floues, nous avons pu faire des estimations graduelles de la zone, en fonction du degré de correspondance. Idem pour les autres quartiers.

Prochaine étape : retour aux annonces non géolocalisées et mise en perspective de plusieurs indices de localisation. Un « T3 Promenade des Anglais, proche de la place Masséna, à 5 minutes de la plage » a de fortes chances de se trouver à l’intersection de ces trois densités. Toujours pas d’adresse exacte mais peu importe : nous avons désormais une zone fine établie à partir d’une moyenne de degrés de probabilité, qui intéresse grandement nos amis agents immobiliers.

Fusion de l'information : comment on parvient à estimer finement la localisation d’un bien à l’intersection de trois estimations floues extraites de l’annonce.
Crédit : Inria, i3S, Septeo Proptech
Fusion de l'information : comment on parvient à estimer finement la localisation d’un bien à l’intersection de trois estimations floues extraites de l’annonce.
Titre

Une informaticienne, une géographe, deux détectives privées

Verbatim

Je pus recourir aux superpouvoirs du travail en équipe, l’entreprise ayant embauché une autre doctorante géographe, avec laquelle nous nous sommes découvert bien plus que des affinités : une véritable et précieuse complémentarité. Avec Alicia Blanchi, nous passerons ainsi une bonne partie de l’année à nous enrichir mutuellement des trésors de connaissance géographique et informatique essentiels à la résolution de notre enquête.

Auteur

Lucie Cadorel

Année III : les triplets gagnants du Web sémantique

Une fois les informations extraites du texte et les densités de lieux cartographiées, l’an III de ma thèse pouvait commencer. La question qui allait me tenir éveillée se posait en ces termes : qui est intéressé par ces connaissances et comment les rendre accessibles ? 

  • L’acheteur ;
  • L’agent immobilier, notre cœur de cible depuis le début, qui étudie les prix moyens affichés dans le quartier puis les biens similaires, leur prix affiché et leur prix vendu ;
  • Le géographe qui s’intéresse lui aussi de près à la représentation sociale des quartiers.

Pour rendre le fruit de mes recherches accessibles à tous ces utilisateurs, j’allais recourir à un graphe de connaissance, cœur battant de l’expertise de l’équipe Wimmics, équipe commune Inria et i3S (CNRS, Université Côte d'Azur). Dans l’univers merveilleux des graphes RDF (Resource Description Framework, langage de base du Web sémantique), on peut relier toutes les informations entre elles en les exprimant sous forme de triplets : un sujet, un objet, et un prédicat reliant ces deux derniers. Par exemple : « T2 (sujet) situé dans (prédicat) carré d’or de Nice (objet) ». 

100 K

annonces immobilières analysées

7 M

de triplets correspondants dans le graphe RDF

 

Nos 100 000 annonces se sont ainsi transformées en 7 millions de triplets qu’il convenait à présent d’organiser au sein d’une représentation formelle du graphe appelée "ontologie". C’est elle qui allait permettre de rendre ces big data accessibles à notre compréhension humaine. 

Enfin, grâce au Sparql_endpoint que nous avions créé, n’importe qui pouvait faire une requête sur le graphe. Vous pouviez par exemple l’interroger pour sélectionner toutes les annonces qui parlent d’un T2 de moins de 500 000 euros situé dans la Banane et proche de la plage – ce dernier critère n’étant typiquement pas accessible sur un site d’annonce traditionnel. 

Parmi les études sémantiques qui intéressent grandement tant les agents immobiliers que les géographes, nous avons analysé sous forme de nuages de mots quels adjectifs étaient associés à quels quartiers. Nous avons ainsi constaté que les mots manquaient pour décrire les quartiers les plus populaires. Autre constat : plus le quartier est cher, plus on a de choses à dire, et en particulier sur la localisation. À l’inverse, dans un quartier populaire, les annonces se contenteront de mentionner les services alentours.

Nuages d'adjectifs utilisés pour décrire un quartier : quand la richesse du langage en dit long sur le quartier en question.
Crédit : Inria, i3S, Septeo Proptech
Nuages d'adjectifs utilisés pour décrire un quartier : quand la richesse du langage en dit long sur le quartier en question...

Année IV : en route pour de nouvelles aventures

#IC2022 : Lucie Cadorel remporte le Best Highlight Paper

On me pose souvent cette question : « l’intelligence artificielle est-elle déjà en mesure d’écrire les annonces à la place des agents vendeurs ? » Absolument. Avec un graphe comme le nôtre, elle pourrait même enrichir leur texte à partir de l’analyse des annonces concurrentes. 

En attendant, mes travaux de recherche ont reçu le Best Highlight Paper à la conférence Ingénierie des Connaissances en 2022 et ils sont aujourd’hui entre les mains expertes de SepteoProtech pour en faire un produit innovant d’intelligence immobilière

Quant à moi, si la recherche a fait mon bonheur ces trois dernières années, une nouvelle aventure m’appelle : j’ai décidé d’oser l’aventure industrielle en rejoignant l’entreprise Continuity en tant qu’ingénieure en Machine Learning. Comme dit l’adage en le transformant un peu au passage : on peut sortir la femme de l’ingénierie, mais pas l’ingénieure de la femme…