La recherche sémantique est l'un des derniers graals de l'industrie du "search". Chaque annonce dans ce domaine est suivie de près, particulièrement quand elle provient du leader Google. Lequel vient donc d'officialiser le lancement de son "knowkedge graph", qui se veut davantage une sémantisation explicite des pages de résultats associés à une requête plutôt qu'un "vrai" moteur de recherche sémantique.
Des requêtes dans tous les sens.
Le théorème du jaguar. Du point de vue des moteurs de recherche, la quête sémantique est d'abord là pour améliorer le service aux usagers en optimisant (et en automatisant) le processus de désambiguïsation lexicale. Soit la résolution du "théorème du jaguar" : que cherche réellement un internaute quand il tape la requête "jaguar" ? Des infos sur la marque de voiture ou sur le félidé ? On peut pour cela utiliser différentes techniques dont celle de l'historique de recherche ou proposer des catégories automatiques pour affiner la recherche (refine search).
Le dilemme du prisonnier. L'autre objectif (au moins aussi important) est de maintenir l'usager dans un écosystème contrôlé par ledit moteur : si je suis capable d'afficher des informations sémantiquement enrichies sur une requête dès ma page de résultats (par ex. les infos biographiques sur un artiste, sa discographie, ou encore les horaires de cinéma pour tel film dans telle ville, etc.), j'évite alors que l'usager ne "quitte" ma page de résultats pour aller consulter ladite bio ou lesdits horaires sur un autre site, quittant du même coup mon écosystème informationnel et se soustrayant à l'affichage de publicités, privant donc du même coup ma régie publicitaire d'une manne financière conséquente.
Illustration. Je cherche des infos sur le groupe "The Cure".
La recherche "sémantique" m'affiche, en colonne de droite, un encadré "sémantisé", c'est à dire qui me propose une structuration sous-jacente à ce que doivent être les informations minimales fournies à un usager déposant une requête sur un groupe de musique :
- une rapide baseline de présentation et d'historique dudit groupe (date de fondation, genre de musique, etc ...)
- la liste des albums
- les prochaines dates de concert
- les recherche associées (permettant de rebondir vers des artistes supposément proches ou du même courant musical)
C'est donc à la mi-mai que Google annonce une mise à jour importante de son algorithme intégrant désormais un "knowledge graph".
La fabrique de la sémantique.
D'où viennent ces résultats sémantiques ? Principalement de trois sources :
- de l'ingénierie et de la linguistique de corpus, grâce à un travail sur la reconnaissance et l'extraction des entités nommées
- de plusieurs briques du "cake sémantique", notamment les ontologies, XML et RDF (et ses microformats permettant de fabriquer des "rich snippets")
- de bases de données déjà sémantisées comme Freebase, Wikipedia, ou encore le CIA World Factbook (sorte de Quid planétaire), qui représentent au final - selon Google - "500 million d'objets, ainsi que plus de 3,5 milliards de faits à propos des relations entre ces différents objets". Sans oublier, bien sûr, et même si elle n'est pas mentionnée dans le billet de Google, la gigantesque base "résidente" constituée par le corpus Google Books dont on perçoit une nouvelle fois tout l'enjeu stratégique sur l'échiquier de Mountain View.
Quel est l'intérêt pour Google ?
Renforcer sa position dominante et son avance technologique naturellement. Mais aussi plus prosaïquement économiser ses ressources mémoire. On sait que Google ne traite naturellement pas chaque requête déposée sur le moteur. Pour chaque requête réellement effectuée, il va d'abord vérifier dans une base de donnée si elle n'a pas été saisie, et si tel est le cas (= la plupart du temps), il "se contente" de rappatrier les résultats déjà affichés les fois précédentes, en y ajoutant - ou pas - une dose de personnalisation. Ainsi les "résumés" biographique et autres outils sémantiques vont lui permettre de fabriquer, dans l'un de ses nombreux index, des pages quasi-fixes à renvoyer automatiquement sur une immense batterie de requêtes types. Ce faisant, Google réussit presque paradoxalement à devenir le rival de Wikipédia qu'il avait échoué à être avec le flop de son projet Knol.
Indépendamment des outils et des écosystèmes (Google, Wikipédia) ce pas supplémentaire vers un web sémantique inaugure un profond changement de nature du web media, à moins qu'il ne confirme ce qui en fut l'ADN depuis ses débuts. Le média dominant en termes d'accès (Google) et d'attention, se construit sur une hybridation entre une ingénierie de l'éditorialisation automatisée et donc opaque et propriétaire (les algorithmes de ranking), et des graphes de contenus reposant majoritairement sur des productions humaines ouvertes, transparentes et collaboratives.
Cette sémantisation vient s'ajouter aux fonctionalités déjà actives et passablement envahissantes de l'autocomplétion et de la suggestion (voir mon billet : le complexe du scribe)
Le poids de la sémantique dans la balance du search.
C'est autour de l'articulation entre la balance du document décrite par Jean-Michel Salaün, et la balance de la recherche que se dessineront les rapports de force du web de demain.
Le prix de l'essence du sens.
Là où l'affaire va se corser, c'est naturellement du côté de la régie des annonceurs et des sites tiers, qui comme à chaque nouvelle modification de taille de l'algo. de Google, commencent déjà à pousser des cris d'orfraie à l'idée du traffic qu'ils vont perdre pour les seconds, et des liens adwords dont ils vont être privés pour les premiers. Le fait est qu'avec ce virage sémantique, Google se "densifie", s'épaissit. Il n'est plus le point de bascule et d'accès à des contenus distants, mais devient, partiellement et pour certains types de requêtes, le site hôte contenant suffisamment de réponses pour briser là toute logique de navigation. On peut donc supposer que Google avancera prudemment ses pions dans ce secteur sémantique pour ne pas se priver de ce qui reste sa 1ère source de revenus, le "traffic" généré par sa régie publicitaire (d'où d'ailleurs la balance du search décrite ci-dessus dans laquelle je n'ai à dessein fait figurer sur un plateau que les contenus ouverts et que leurs propriétaires ne souhaitent pas monétiser - comme Wikipédia).
L'autre avantage de cette densification, de celle d'un Google devenant "hébergeur de résultats" et non plus simplement "fournisseurs de liens" est à chercher du côté du marché des mobiles. Il va de soi qu'en contrôlant l'affichage Google optimisera encore un rendu de la navigation sur terminaux mobiles qui reste souvent inadapté ("permettre d’afficher des listes de résultats plus courtes, mais plus riches, ce qui est parfait pour les terminaux mobiles" comme le souligne Fred Cavazza)
Sémantique à rebours.
Voici quelques copies d'écran illustrant le problème auquel va être confronté Google avec l'arrivée de sa phase sémantique.
D'abord le résultat de la requête "maldives" sur Google.fr, avant l'ère sémantique
Du classique, avec une bonne grosse collection de liens sponsorisés.
Et maintenant la même requête mais sur Google.com, avec sémantique.
La sémantique arrive, et la liens sponsorisés s'évanouissent. (il semble en fait que l'affichage du bloc sémantique s'efface au bout d'un moment pour laisser la place aux liens sponsorisés un court instant, avant de céder à nouveau la place au bloc sémantique, mais je n'ai pas réussi à reproduire la manipulation)
Deuxième essai quelques minutes plus tard :
On y retrouve un peu de publicité. Mais pour la retrouver entièrement, il faut entrer une requête transactionnelle explicite, par exemple "trip to maldives" :
Exit la sémantique. Retour de la pub.
Le virage sémantique de Google va donc l'obliger à travailler encore plus en amont dans la caractérisation du requêtage pour continuer à travailler la double articulation du search : fidélisation / monétisation. Fidélisation des usagers à l'aide de la sémantique qui, s'ils tapent une requête "simple" comme Maldives s'attendent peut-être effectivement à gagner du temps avec l'affichage direct des informations "encyclopédiques" sur ces îles. Et monétisation pour les requêtes qui réclament ou appellent un traitement transactionnel ("meilleur prix maldives" par exemple).
Mais comment garantir que les requêtes transactionnelles l'emporteront toujours sur les autres, pérennisant ainsi le modèle économique du moteur ?
Avec le recul on est alors frappé par le fait que l'arrivée de la sémantique dans l'interface des pages de résultats nécessitait, en amont, de pouvoir disposer d'options d'autocomplétion et du suggestion. Et ce précisément pour garder le contrôle et l'arbitrage sur le ratio de résultats qui peuvent faire appel à la sémantique et ceux qui doivent permettre de faire tourner le coeur économique du moteur (liens sponsorisés). L'autocomplétion et la suggestion permettent à Google de nous orienter vers un type de requêtage spécifique, et ce faisant de choisir à notre place (la suggestion est une sujétion). Après avoir inventé la publicité "contextuelle", les fonctionalités d'autocomplétion et du suggestion permettent à Google de rester maître de la sémantique publicitaire. Car les deux caractéristiques de la sémantique comme branche de la linguistique qui intéressent le plus Google sont :
- d'une part, la pragmatique, c'est à dire les éléments du langage dont la signification ne peut être comprise qu'en connaissant le contexte de leur emploi.
- d'autre part les "conditions de vérité" d'un énoncé.
Soit les deux enjeux et le coeur des fonctionalités d'autocomplétion et de suggestion liées au contexte (statistique ou issu de la personnalisation et de l'historique de recherche). Le problème étant naturellement que c'est le seul Google qui définit statistiquement l'ensemble des conditions de vérité d'un énoncé et qui appose "sa" pragmatique sur l'ensemble de nos requêtes individuelles et collectives.
En cela, l'arrivée de la sémantique au coeur de l'algorithmie de recherche est au moins autant un accomplissement qu'un nouvel asservissement, une nouvelle forme d'enfermement.
Dernier dilemme à résoudre pour Google, comment mixer et à quelles proportions ces 3 types de résultats : organiques, publicitaires et sémantisés. On le sait, la part des résultats organiques était depuis longtemps déjà réduite à la portion congrue, particulièrement mais pas exclusivement sur les requêtes transactionnelles. "Ads are content".
<mise à jour du lendemain> Il semble que le knowledge graph permette effectivement de générer plus de requêtes et de publicités </mise à jour du lendemain>
Il semble probable que, pour toute une batterie de requêtes types, les résultats organiques soient presqu'entièrement "absorbés" dans le pavé "sémantique", modifiant ainsi l'organisation de l'interface :
Les nombreuses études d'eye-tracking nous ayant appris depuis longtemps que la place des différents pavés n'était pas indifférente, cette réorganisation de la page de résultats permet à Google de gagner sur tous les fronts :
- les liens sponsorisés occupent l'essentiel de la place "principale" et centrale
- le pavé sémantique "fixe" l'attention et réduit à la portion congrue le risque de taux de rebond vers des sites tiers (wikipedia principalement)
- la valeur ajoutée de la sémantique permet de "condenser" les résultats organiques sur lesquels elle repose en évitant la multiplication (des liens) et la dispersion (de l'attention)
Par ailleurs, dans le cadre d'un portage sur les terminaux mobiles (désormais 1er moyen d'accès de la planète connectée), et étant donné les contraintes de place desdits terminaux et leur connexion souvent plus lente, cette réorganisation pourrait s'avérer redoutablement efficace.
Le Graph tuera le Rank ?
Dans ce lent glissement vers un web sémantique qui ne peut pour l'instant s'appuyer objectivement que sur une contextualisation sémantisée des requêtes, les logiques et les idiomes du "graph" l'emportent, au moins lexicalement, de plus en plus fréquemment sur celles du "rank". Facebook avait inauguré la mode avec son "Social Graph", avant que Tim Berners Lee en personne n'institue (ironiquement) l'avènement du GGG (Giant Global Graph) au détriment du WWW (World Wide Web). Et donc maintenant le GKG : Google "Knowledge Graph". Un glissement qui n'est naturellement pas neutre en ce qu'il atteste d'un déplacement du centre de gravité de la toile, ou en tout cas de son principal levier de valorisation (et de monétisation) : les routines et algorithmes de classement (ranking) importent désormais moins, ou apparaissent subordonnées aux différentes graph-ies rendues possibles par l'approche sémantique. Une évolution somme toute logique si l'on considère que la sémantisation des résultats permet d'escamoter ou de reléguer au second plan les anciennes routines de classification : si l'on nous propose d'emblée le jaguar que l'on cherche, il n'est plus primordial de classer les pages parlant de l'animal avec celles parlant de la marque de voiture.
Le web sémantique, le Giant Global Graph, est donc avant tout une graphie, qui confirme rétrospectivement la pertinence des analyses d'Alain Giffard sur les lectures industrielles puis sur leurs afférentes écritures industrielles. Les grands acteurs qui contrôleront le web de demain seront ceux qui seront capables de s'assurer non plus simplement la maîtrise d'un graphe orienté le plus large possible entre les personnes et les documents et de contrôler sa représentation, mais ceux qui seront capables de s'en servir pour en initier une graphie, pour en générer autant de graphies différentes qu'il existe de grandes catégories de requêtes, capables également de maîtriser et de remettre dans un cercle contextuel (et sémantique ?) de niveau supérieur les innombrables cacographies résultantes, et les routines kakonomiques qui en découlent.
Franchir le mur du sens.
Il faudra attendre un peu avant de voir si la sauce sémantique prend bien et si elle valide les pistes d'analyse proposées dans ce billet. Mais en tout état de cause, plus qu'un énième changement de nature algorithmique, elle pourrait bien bouleverser la nature même du moteur de recherche, et avec lui, la face entière du web. Une percée technologique qui élève un nouveau mur d'enceinte autour de l'écosystème de Google. Qui fait de lui un nouveau "jardin fermé". Lequel ne devra ni ne pourra pas oublier trop vite que l'essentiel des pierres le composant provient d'abord de contenus "ouverts", "d'extériorités", que la toute puissance des enclosures issues des écritures industrielles en général et des rankings propriétaires en particulier, ne pourra pas éternellement contraindre, même en exploitant tout le potentiel pragmatique issu de l'approche sémantique.
<Mise à jour du lendemain>J'avais, en 2008, commis un article sur la question de l'évolution des moteurs de recherche, article dans lequel je revenais notamment sur la place de la sémantique. Vous verrez que je n'étais finalement pas très loin du compte ;-)
On pouvait en effet y lire ceci :
"Mais ce web sémantique qui apparaissait il y a encore quelques temps comme un simple rêve ou comme un inaccessible idéal, dispose aujourd’hui d’éléments contextuels favorables à son déploiement. Parmi ceux-là : la structuration de plus en plus forte de certains contenus web (cf point 2.2), l’unification des différents gisements informationnels et les options de personnalisation de plus en plus fine qu’elle autorise, mais également le besoin de plus en plus fortement exprimé par les usagers de pouvoir disposer de fonctionnalités de recherche « intelligente », lesquelles ne peuvent être imaginées sans que soit mis en place un formalisme ontologique minimal."
Et plus loin :
"La question d’un web sémantique et de moteurs susceptibles d’en extraire plus « intelligemment » du contenu, ne cesse de se poser depuis l’article fondateur de (BERN, 2001).
Moteurs sémantiques : l’approche « top-down »
Les moteurs de recherche « sémantiques » soulèvent plusieurs questions. La première est celle de la relative complexité de leur prise en main à l’heure où les utilisateurs réclament des interfaces de plus en plus fluides, riches et intuitives. On sait par exemple le rôle que joua la sobriété et la simplicité de l’interface de Google dans son succès. On connaît également la difficulté que posent les interfaces cartographiques à l’internaute lambda. Même les outils de catégorisation ont mis longtemps avant d’être adoptés par le grand public et sont encore aujourd’hui perçus comme plutôt réservés à des utilisateurs avertis. <j'avais raison>Si tant est que le web sémantique puisse un jour être réalisé dans la forme imaginée par son concepteur, encore faudra-t-il que les moteurs proposent des interfaces adaptées.
La richesse d’un web sémantique, du point de vue de la recherche d’information, se situe principalement dans les capacités de navigation optimisées qu’il permettrait d’offrir. S’il s’agit « simplement » de répondre à des questions du type « Quid » ou même de simple désambiguïsation, les moteurs de recherche actuels gèrent suffisamment bien ce genre de questions. En revanche à partir d’une requête initiale, le fait de pouvoir naviguer non plus simplement à l’aveugle ou sur la base des backlinks menant d’un site à un autre, mais bel et bien dans un environnement sémantique explicite et contextualisé pourrait être grandement intéressant.</j'avais raison>
<j'avais tort>Si une réelle recherche sémantique devient un jour possible, elle sera longtemps réservée à l’exploration de corpus dédiés dans des contextes de tâche bien identifiés et au sein de communautés de pratique très délimitées, avant de se trouver à portée d’interface du grand public.</j'avais tort>
<j'avais raison>L’état de l’art actuel indique plutôt que les avancées technologiques se servent du web pour proposer une architecture de navigation inspirée de celle des bases de données relationnelles.
A l’inverse d’une approche descendante impliquant que soient déjà franchis les différents obstacles techniques permettant la mise en œuvre d’un web totalement sémantique, l’évolution des fonctionnalités sémantiques des moteurs de recherche suivra plus probablement une approche ascendante, émergente. Il s’agit cette fois de prendre progressivement en compte les différentes avancées des protocoles, langages et formalismes liés au web sémantique, non pas de manière globale mais sur des contenus très ciblés, ou dans le cadre de contextes de recherche là encore très spécialisés.
(...) La dernière course de fond engagée par les moteurs consistera donc, sans nécessairement attendre une harmonisation globale ou une standardisation univoque de l’ensemble des développements applicatifs en cours, à en prendre le maximum en compte, tout en trouvant le moyen de s’en servir pour « enrichir » l’expérience utilisateur lors d’une recherche d’information, par exemple en présentant des résultats de recherche davantage structurés ou permettant davantage d’interactions synchrones avec d’autres recherches, d’autres services, d’autres terminaux d’accès. Dit autrement, les moteurs sémantiques pourraient fournir une solution aux limitations de la recherche par mot-clé.</j'avais raison>
</mise à jour du lendemain>
Petite sélection d'articles "must read" sur le sujet.
- Annonce officielle sur le blog de Google : http://googleblog.blogspot.fr/2012/05/introducing-knowledge-graph-things-not.html
- l'article de notre maître à tous : http://searchengineland.com/google-launches-knowledge-graph-121585
- Abondance : http://www.abondance.com/actualites/20120521-11478-knowledge-graph-google-officialise-son-moteur-semantique.html
- Fred Cavazza : http://www.fredcavazza.net/2012/05/28/la-recherche-passe-a-lere-semantique-et-sociale-et-pas-visuelle/
Salut Olivier,
Je trouve ta balance bien plus kitch que la mienne ! Mais je ne suis pas sûr d'avoir tout compris et encore moins que les deux balances aient un rapport entre elles.
Sur la partie économique, entièrement d'accord avec l'accent mis sur les liens sponsorisés. De ce point de vue, la stratégie consiste bien à réduire l'intérêt du référencement au profit de l'achat de mots clés... avec la complicité plus ou moins assumée d'acteurs importants du web dit libre. J'ai un billet sur le feu là-dessus.
Rédigé par : JM Salaun | 04 juin 2012 à 09:01
Salut Jean-Michel,
Je reprécise donc la mise en rapport des 2 balances pour essayer d'être plus clair :-)
- les documents (ta balance) n'existent qu'en tant qu'il sont "cherchables" et "trouvables" (ma balance)
- le "graphe de contenus ouverts" dans ma balance (cf les sources du Knowledge graph de Google) est le support de l'attention (ta balance)
- les "ranking éditoriaux" de ma balance (= algorithmes divers de classement de l'info) conditionnent les logiques "d'accès" (ta balance)
Espérant que la correspondance entre les 2 soit ainsi plus claire :-)
Rédigé par : olivier ertzscheid | 04 juin 2012 à 09:10
Voilà un article des plus intéressant.
Il semblerait que Bing s'oriente également vers plus de sémantique basée sur les réseaux et graphes.
Questions :
* quel rôle FaceBook peut-il jouer dans ce contexte, avec son énorme graphe de "Friends of a Friend" ?
* comment analyser le relatif insuccès de Wolfram, qui présente déjà beaucoup de contenu sémantico-organique (pour reprendre vos termes) ?
Rédigé par : Eric Samson | 04 juin 2012 à 10:59
Wolfram Alpha ne représente qu'un centième de ce que Google prétend avoir parsé sur le web... Peut-on les comparer ?
Wikipédia pourrait jouer un rôle dans cette transformation du web mais l'état d'esprit n'étant pas à la monétisation de l'encyclopédie pas de craintes pour le géant Google. (régulier donateur)
Facebook ne possède aucune information de valeur avec son Social Graph. Les entités de personnes sans renom ne représentent pas une valeur de contenu à mon sens.
Le Web 3.0 (Web sémantique) ne ressemble en rien à une structure efficace pour l'internaute me semble t-il si Google devenait un agrégateur de contenu du Web...
Les rich snippets représentant déjà une source de confusion dans les SERPs.
La correction orthographique a également fait perdre sa richesse au web... La quasi impossibilité de trouver un site web modeste dont le nom est une variante d'un mot courant.
Rédigé par : Valbou | 04 juin 2012 à 15:16
Toujours pas compris la relation entre les balances. Pour moi, il s'agissait simplement de montrer que plus il y a de documents en accès moins l'attention se concentre et vice-versa. Et donc qu'un marché de l'attention peut se construire dans une société d'abondance documentaire.
Mais je ne vois pas en quoi cela a un rapport entre le page-rank et le knowledge-graph.
La métaphore de la balance a peut-être conduit à un malentendu ou simplement à un rapprochement sans signification. Comme quoi il faut se méfier des métaphores.
Rédigé par : JM Salaun | 05 juin 2012 à 09:58
Bon après promis j'arrête de balancer mais :
- "plus il y a de documents en accès moins l'attention se concentre et vice-versa. Et donc qu'un marché de l'attention peut se construire dans une société d'abondance documentaire."
Et de mon côté :
- "plus il y a de contenus ouverts et PLUS les ranking éditoriaux propriétaires peuvent proposer des tris sémantiques assez fins. Et donc la plupart des acteurs sur le marché de l'attention sont - s'ils veulent développer la recherche sémantique - tributaires et étroitement dépendants de la vitalité et du dynamisme d'un abondance documentaire "ouverte".
Mais bon en même temps, on va pas en faire un fromage. Ni une balance :-)
Rédigé par : olivier ertzscheid | 05 juin 2012 à 10:35