Searchology. Tel est le nom de l'événement au cours duquel Google a présenté de nouvelles options de recherche. La dernière "searchology" s'était tenue il y a deux ans de cela et elle avait vu l'annonce de la recherche universelle. Petite revue de détail de cette dernière Searchology ...
Nota-Bene :
- ces options sont pour l'instant disponibles uniquement dans la version anglaise du moteur (http://www.google.com).
- Danny Sullivan en livre l'analyse détaillée la plus complète et la plus intéressante.
Acte I. You're my Wonder Wheel : une oasis de recherche dans le désert de la catégorisation (clustering). Il s'agit là d'une représentation cartographique de l'outil de catégorisation tournant déjà dans Google (affichage tout en haut ou en bas de la première page de résultats). Ici, Google marque deux points. Le premier parce que la catégorisation est incontestablement une clé importante pour le guidage (affinage) des recherches. Or sur ce terrain Google avait un temps de retard. Le second parce que cette catégorisation est représentée de manière cartographique. Mais si les moteurs cartographiques sont bien installés (Kartoo en tête), leur interface graphique chargée est très souvent déroutante pour l'utilisateur lambda. Avec sa Wonder Wheel, Google allie la puissance de la catégorisation et celle de la cartographie mais de manière non-déroutante pour l'usager, sans que celui-ci ait besoin de faire appel à une acculturation particulière. Comme le rappele Danny Sullivan dans son billet la catégorisation avait été "inventée" (dans le monde des moteurs de recherche) par AltaVista avec son algorithme "Live Topics", notamment développé par un certain François Bourdoncle, actuel PDG d'Exalead.
Acte II. A la recherche du temps perdu : Google Timeline. Dans toute activité de recherche d'information, la capacité de replacer une information en contexte sur une ligne du temps est un énorme avantage qualitatif qui permet de trancher dans le quantitatif des résultats délivrés. Le passage des moteurs à l'indexation temps réel ("world live web") ne doit pas faire oublier l'aspect fondamentalement discriminant qui permet de disposer d'une archéologie (même sommaire) de l'inscription numérique des informations diffusées en ligne. C'est précisément pour répondre à ce besoin que Google propose une fonctionnalité de type Timeline. Laquelle fonctionnalité est remarquablement intuitive : l'affichage se fait d'abord par clusters de "dizaines d'années" pour, en deux clics, permettre de descendre au niveau du cluster mensuel. Le gros défaut de cette Timeline est qu'elle ne permet pas réellement de "dater" une information. Elle se contente de récupérer les "années" figurant dans le corps du texte. Ainsi, je n'ai pas écrit d'articles en Juin 1944, mais l'un de mes articles (et mon nom) se retrouve dans un recueil qui comprend également une analyse du discours du 6 Juin 1944. C'est là tout le problème de l'information "non-structurée" avec laquelle doivent se débrouiller les moteurs de recherche. Et c'est ce qui m'amène au troisième point, le moins souligné par les différents analystes, le moins visible également, mais à mon avis pourtant de loin le plus important.
Acte III. "Rich snippets" : Google embarque sur le web de données et s'empare des microformats. Ce n'est là rien moins que l'entrée officielle de Google dans la course au web sémantique. Dans un article produit à l'occasion du dernier séminaire INRIA j'écrivais ceci :
- "A l’inverse d’une approche descendante impliquant que soient déjà franchis les différents obstacles techniques permettant la mise en œuvre d’un web totalement sémantique, l’évolution des fonctionnalités sémantiques des moteurs de recherche suivra plus probablement une approche ascendante, émergente. Il s’agit cette fois de prendre progressivement en compte les différentes avancées des protocoles, langages et formalismes liés au web sémantique, non pas de manière globale mais sur des contenus très ciblés, ou dans le cadre de contextes de recherche là encore très spécialisés. En Mars 2008, Yahoo ! a ainsi annoncé qu’il prendrait en compte le standard RDF ainsi que les microformats. Pour ne prendre que ce dernier exemple, de nombreux développements existent actuellement. La dernière course de fond engagée par les moteurs consistera donc à en prendre le maximum en compte (sans nécessairement attendre une harmonisation globale ou une standardisation univoque de l’ensemble des développements applicatifs en cours), tout en trouvant le moyen de s’en servir pour « enrichir » l’expérience utilisateur lors d’une recherche d’information, par exemple en présentant des résultats de recherche davantage structurés ou permettant davantage d’interactions synchrones avec d’autres recherches, d’autres services, d’autres terminaux d’accès. Dit autrement, les moteurs sémantiques pourraient fournir une solution aux limitations de la recherche par mot-clé."
Sur son blog, Google écrit ainsi :
- "today we are announcing that some of our snippets are going to get richer. These "rich snippets" extract and show more useful information from web pages than the preview text that you are used to seeing. For example, if you are thinking of trying out a new restaurant and are searching for reviews, rich snippets could include things like the average review score, the number of reviews, and the restaurant's price range (...) In this example, you can quickly see that the Drooling Dog Bar B Q has gotten lots of positive reviews, and if you want to see what other people have said about the restaurant, clicking this result is a good choice. We can't provide these snippets on our own, so we hope that web publishers will help us by adopting microformats or RDFa standards to mark up their HTML and bring this structured data to the surface."
L'enrichissement sémantique des résultats (rendu possible par l'ajout de microformat du côté des utilisateurs qui créent les contenus) est la face la plus avancée - et peut-être la plus pragmatique - de la quête du web sémantique. Une autre approche est l'enrichissement sémantique des requêtes elles-mêmes (en s'appuyant par exemples sur des bases de questions). Quand ces deux approches là seront effectives, c'est à dire probablement dans quelques - très - courtes années, l'expérience de la recherche d'information n'aura alors plus rien à voir avec celle que l'on exerce aujourd'hui. Et de la même manière qu'il est impossible de faire mesurer à une jeune internaute à quel point la recherche sur Gopher ou Véronica étaient à des années lumières de ce qu'il connaît aujourd'hui, la recherche sémantique de demain (après-demain ?) renverra à l'âge de pierre notre pratique actuelle de la recherche d'information.
Pour accéder à ces options ce n'est pas le ".com" qui compte mais la variable "hl" dans l'URL. Ex : http://www.google.fr/search?hl=en&q=blabla
Rédigé par : 1 remarque en passant | 20 mai 2009 à 14:13
Juste pour information, dans le domaine de la fouille de données et des modèles d'organisation d'information, clustering en anglais ne correspond pas à catégorisation mais à classification en français. Dans le sens où le clustering consiste - grossièrement - à créer des classes d'information en fonction de leur similarité ou distance selon k critères). À l'inverse, le terme classification en anglais correspond à la catégorisation en français dans le sens où les informations sont catégorisées dans des catégories preexistantes.
En gros, ce sont des faux amis. Moi-même je m'y suis faite prendre. (et je ne parle pas de certaines subtilités au niveau de chacune des méthodes qui compliquent encore leur traductions)
Rédigé par : Aline | 20 mai 2009 à 15:16