Le Knowledge Graph de Google

Je fais référence ici à l’excellent article de Fred Cavazza sur le Knowledge Graph de Google.

Google à l’assaut du web sémantique avec son Knowledge Graph

Le panneau de recherche sémantique de Google

La raison majeure de cette évolution est la prise en compte de données sémantiques dans les résultats de recherche. Le principe est le suivant : plutôt que se fier à des chaînes de caractères, Google va maintenant travailler à partir de données structurées (“Things, not strings“). Ces données structurées sont  la résultante des travaux de sémantisation des contenus initiés par les équipes de Google il y a de nombreuses années qui avaient déjà permis de faire des premières expérimentations (notamment la roue magique qui depuis a été mise hors ligne : Google Knowledge Graph, un pas vers la recherche sémantique).

 

 

Le Knowledge Graph est donc l’arme ultime de Google pour faire progresser la recherche. Une évolution qui s’est fait attendre, car le marché a beaucoup évolué ces derniers temps surtout avec les big data (Du contenu roi aux données reines). Ce graphe des connaissances repose sur la notion d’entités sémantiques qui représentent des personnes, des objets, des lieux, des ouvrages… Les informations et données sont alors associées à ces entités pour créer des bulles de connaissances qui sont affichées sur la droite de la page.

 

 

Des résultats de recherche structurés grâce aux entités sémantiques

L’air de rien, cette colonne de droite est la plus grosse évolution de l’interface de Google depuis plus d’une décennie ! Non seulement elle va permettre d’enrichir la liste de résultats avec des données et informations structurées, mais elle va aussi permettre de dissocier les sujets de recherche qui ont le même nom.

 

 

 

 

Un repérage pus évident des sujets de recherche similaires

De plus, la structuration des connaissances va permettre d’afficher des listes de résultats plus courtes, mais plus riches, ce qui est parfait pour les terminaux mobiles : The Knowledge Graph for mobile and tablet search.

 

 

 

 

Des listes de résultats mieux conçues pour les terminaux mobiles

Présenté de cette façon, ça à l’air très bien. Et pour cause, cette approche structurée de la connaissance est utilisée depuis de nombreuses années par Wikipedia, et notamment le projet DBpedia dont vous pouvez bénéficier au travers des infobox.

 

 

 

 

Les infobox de Wikipedia

Encore une fois, il était grand temps que Google fasse évoluer le coeur de son moteur de recherche, car ils étaient en train d’accumuler du retard. Au cours de la décennie passée, nous avons ainsi été les témoins de quatre grandes étapes d’évolution :

 

 

  1. Le web centré sur les pages et les documents (le Page rank de Google a permis de les classer par score de pertinence) ;
  2. Le web centré sur les vidéos (YouTube et les autres plateformes de partage de vidéos ont bouleversé les usages, la réponse de Google a été d’introduire les images et les vidéos dans les listes de résultats de son universal search) ;
  3. Le web centré sur les utilisateurs (Facebook est aujourd’hui l’acteur central du web avec son social graph, et Google est clairement à la traine) ;
  4. Le web centré sur des données structurées (Wikipedia et Google ont beaucoup investi dans ce domaine pour ne pas rater le coche).

En sortant sont knowledge graph, Google jette-t-il implicitement l’éponge vis-à-vis du web social ? Oui et non. Oui, car la dimension sociale n’a qu’un intérêt limité pour améliorer la pertinence des résultats de recherche (Mythes et réalités de la social search). De plus, voilà des années que l’on nous annonce la mort de Google avec l’avènement de la recherche sociale chez Facebook (par opposition à la recherche algorithmique), mais nous n’en avons toujours pas vu la couleur (ceci est principalement dû à la qualité des contenus sur Facebook). Non ensuite, car avec Google+, ils se sont lancés dans un immense chantier de sociabilisation du web.

Donc si l’on résume, les résultats de recherche de Google vont donc (très prochainement) être classés selon :

  • L’algorithme d’indexation reposant sur le page rank (qui a toujours son utilité) ;
  • Les entités sémantiques reposant sur Freebase ;
  • Les interactions sociales (conversations et interactions) associées à des auteurs référencés dans Google+.

Ils sont donc potentiellement positionnés sur les trois fronts de la recherche : algorithmique, social et sémantique.

Suite de l’article sur FredCavazza.net

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Le temps imparti est dépassé. Merci de recharger le CAPTCHA.