Ma Photo

Qui suis-je ?

Syndication


Botte de foin


Qui êtes-vous ?



  • Track referers to your site with referer.org free referrer feed.


Qu'en faire et comment ?


  • Ce que vous voudrez à condition :


    • de citer vos sources
    • de ne pas vous enrichir
    • de ne rediffuser l'info que sous une licence identique à celle-ci







    Le crédo d'Affordance ;-)
    I am a hard bloggin' scientist. Read the Manifesto.



    Le coin des bonnes causes :


    Support The Commons
    Become A Commoner


    Le PageRank d'Affordance :
    PageRank for this page
    Son "autorité" (sic) selon Technorati :
    "L'autorité" selon Technorati

Powered by TypePad

Moteur de recherche de signaux

Les moteurs de recherche sont les premiers auxiliaires de notre accès au net. Ceux-ci comptent déjà nombre de profondes mutations, tant en terme de technologie qu'en terme de modèle économique et de poids sur des pans entiers de l'activité du "monde réel". Ils ont successivement joué le rôle : 

  • de moteurs d'accès à des contenus,
  • d'indicateurs de popularité des mêmes contenus (algorithme PageRank),
  • de moteurs de recommandation et de suggestion (fonction "refine search", auto-complétion, etc ...)
  • d'outils d'indexation en temps réel (World Live Web)
  • pour dernièrement intégrer progressivement un part de plus en plus importante de sémantique dans l'affichage (microformats) et dans la recherche des contenus (web sémantisé),
  • tout en restant focalisés sur le carré magique des usages du web (Shopping. Health. Travel. Local), en valorisant et monétisant au maximum les requêtes transactionnelles.

Les mêmes moteurs subissent aujourd'hui une double mutation : celle de l'indexation des profils (la jonction entre moteurs de recherche et réseau sociaux se fera sans aucun doute très prochainement, posant le double problème d'un pan-catalogue des individualités humaines et de la pertinence des profils), et celle de l'indexation du micro-net et de ses micro-contenus (Twitter notamment). Là encore, et indépendamment de la sauce économique à laquelle elle s'accomodera (rachat, intégration), l'intégration de ces micro-contenus ne laisse aucun doute. Elle a d'ailleurs déjà commencée :

L'intégration se fera donc. La question est de savoir comment et pourquoi.
Sur le comment, globalement deux stratégies sont possibles : soit en "isolant" les tweets dans une partie dédiée du moteur de recherche (ce que fit Google avec les blogs en leur réservant un moteur dédié : blogsearch.google.com), soit en les intégrant et en les mixant à l'ensemble des autres résultats. La tendance étant massivement à la recherche universelle et à la fusion de l'ensemble des résultats de recherche, on peut légitimement supposer que c'est la première voie qui sera retenue.
Oui mais à vouloir tout mixer (contenus web, micro-messages, vidéos, news, images ...) on risque la confusion et cela nécessite un art avéré de l'interfaçage (la fameuse "User Experience"). Il est donc également probable que la seconde stratégie soit finalement retenue (= isoler ces contenus dans un onglet et/ou un espace dédié). Bref, on n'en sait rien et on attendra de voir.
Sur le comment toujours, mais dans son versant technique, là encore on notera deux possibilités : soit intégrer progressivement les tweets de quelques comptes (personnes, entreprises ou institutions) "labellisés" comme influents (l'approche qu'à visiblement choisi Microsoft). Soit (ce que fera certainement Google), appliquer la mécanique bien rôdée du PageRank aux Tweets de la même manière qu'aux autres contenus mais avec des niveaux de pondération légèrement différents : les backlinks (liens entrants) pouvant être "remplacés" par les RT, la popularité d'un compte Twitter étant aisément repérable au seul nombre de ses "followers" ou à la mention de son nom (précédé de l'arobase) dans l'ensemble des Tweets.
Des moteurs de recherche aux moteurs de signaux.
Ce qui est aujourd'hui en train de changer dans les notre expérience quotidienne des moteurs de recherche c'est la nature même de la relation qui nous lie à eux. Ils ne sont plus les seuls intermédiaires du début, entre "nous" et "des" contenus. Ils sont devenus des auxiliaires, des adjuvants, des assistants personnels à l'omniscience de plus en plus pregnante (via la personnalisation et la dérive des continents documentaires). Demain, quand l'intégration du micro-net sera passée dans les usages courants (comme l'est l'intégration des news, des vidéos ou des images), demain nous les utiliserons non plus comme moteurs de recherche mais comme moteurs de signaux. Nous n'y chercherons plus des contenus (c'était hier), nous n'y attendrons plus simplement une recommandation et une logique de prescription (c'est aujourd'hui), mais nous voudrons y trouver une qualification de ces contenus. Une qualification qui se voudra la symbiose entre des métriques sociales et comptables.
Un petit Tweet pour un grand bouleversement ?
C'est aux moteurs capables de nous livrer la meilleure qualification que nous souscrirons. Pour y parvenir, la prochaine mue des moteurs de recherche en fera des moteurs de signaux (un Tweet, une modification d'un profil, d'un statut ...). Et particulièrement de signaux "faibles". Ce n'est d'ailleurs pas un hasard si en évoquant les projets de Google en la matière (lancement d'un service de Microblogging search), Marissa Mayer parle de "Clues" (indices) et rapproche cela du Google Trends (tendances). Indices, tendances, signaux. Le meilleur moteur sera celui capable de repérer ces signaux faibles. Ce qui  - si mon analyse est avérée ... - serait à l'échelle de l'histoire des moteurs, un gigantesque bouleversement. L'ensemble des moteurs fonctionnent en effet aujourd'hui sur leur capacité à entériner des signaux forts. Toute leur algorithmie est ainsi pensée : afficher dans les premiers résultats les sites/articles/contenus les plus visibles, les plus cités, les plus commentés, les plus débattus, les plus liés. Depuis l'invention de la bibliométrie dont les fondements ont été implémentés dans l'algorithme du Pagerank, toute l'histoire des moteurs de recherche (et du succès de Google) se tient dans leur capacité à isoler le plus pregnant, le plus visible, le plus "émergé". Une visibilité que nous ne pouvons bien sûr pas "oculairement" percevoir, mais qui est (relativement) simple, limpide, perceptible et "révélable" pour les crawlers du web, comme les phéromones sont naturellement perceptibles aux fourmis. Demain, il leur faudra très probablement être capables de faire l'inverse avec les mêmes critères d'excellence : c'est à dire continuer de jouer leur rôle de localisation de sources (plus personne ne retient aujourd'hui l'adresse d'un site, on tape son nom dans Google et Google, "bookmark" universel, nous livre aussitôt l'adresse du site) ET être également capables de remonter des signaux faibles, c'est à dire des occurences documentaires à faible pertinence absolue mais à forte pertinence relative.

La réalité est pourtant plus compliquée que cela. S'il est vrai que les moteurs de recherche, dans l'héritage de la bibliométrie, ont pour but d'isoler les figures et les contenus les plus "marquants", la bibliométrie (et les moteurs de recherche) a également pour fonction de révéler les réseaux de citation et de collaboration, à savoir ces auteurs, ces contenus nettement moins cités ou liés mais qui, parce qu'ils sont à un moment ou à un autre "associés" aux plus cités, acquièrent une pertinence nouvelle. Il en ira de même pour la collecte de ces signaux faibles. La révélation et l'analyse de leur pertinence aura partie liée avec les contenus et les autorités déjà constitué(e)s, déjà repéré(e)s. En cela, les réseaux sociaux et les sites de micro-blogging constituent de précieux outils de repérage.

Alors quoi ? Alors il est très probable que la prochaine bataille de la pertinence, intégrant le micro-net et ses propriétés spécifiques (fragmentation accrue de ses contenus + "autorités" de plus en plus diluées), se jouera juste en dessous de l'habituelle ligne de flottaison des navigateurs, ligne en dessous de laquelle l'essentiel des internautes ne descend presque jamais consulter les résultats, mais ligne en dessous de laquelle se niche et se nichera toujours davantage la réelle pertinence des résultats, c'est à dire l'adéquation existant entre les signaux faibles détectés et leur corrélation aux contenus et aux autorités les plus saillantes assignées à la requête. Une pertinence qui instrumentalise une apparente sérendipité comme premier auxiliaire de la recherche

C'est la rentrée ...

Allez, hop hop hop, au boulot. Fini de lézarder. D'autant qu'il s'est passé plein de choses en deux mois ...

Côté encyclopédies :

  • la série rafraîchissante d'Ecrans sur "Inside Wikipedia". Episode 1 : Wikilove. Episode 2 : Wikipompiers. L'intégralité de la série à lire ici.
  • A ne pas manquer, le regard d'Hervé (Le Crosnier) sur l'édition papier de la Wikipedia par Bertelsman et la rémunération de ses ... 90 000 auteurs ...
  • Et puis bien sûr, lancement par Google de son projet encyclopédique baptisé Knol. Gardez patience, le prochain billet y sera entièrement consacré ;-)

Côté Moteurs (enfin ... surtout côté Google ...) :

  • A ne pas manquer : un article de Chris Anderson dans Wired sur l'âge du Petabyte et son héraut (Google). Article court, brillant et relativement impossible à résumer puisqu'il montre en une seule page quels sont les liens entre les théories scientifiques, la fin des théories scientifiques, le moteur de recherche Google, la puissance calculatoire, les avancées de la génomique, l'informatique distribuée, la nouvelle "science des données" et quelques autres trucs encore. Allez, filez le lire et vous comprendrez certainement un peu mieux la manière dont chacun d'entre nous est relié à la machine. 
  • un débat chez Google France sur l'économie numérique avec une conclusion d'Eric Besson. A écouter notamment vers la 67ème minute le point de vue des intervenants (entreprise) sur un aspect du débat autour de la net neutrality (taxation des recettes publicitaires sur internet). J'ai simplement retenu que pour Eric Besson, le fait d'envisager de "prioriser par exemple des données relatives à la télésanté" n'est pas nécessairement une atteinte au principe de neutralité du net. Pour les autres aspects - cruciaux - de la Net Neutrality, voir par exemple ce billet de Martin Lessard : "étrangler le Net".
  • Alors que Google croyait en avoir définitivement fini avec le Google Bombing, voilà-t-y-pas que le Google Bombing ressurgit dans l'outil Google Trends.
  • Pour ceux qui s'en inquiéteraient, Google se porte - toujours - financièrement très bien : chiffres complets ici et résumé sur Zorgloob. Côté "part de trafic", ça va aussi.
  • Un très bon dossier documentaire réalisé par 3 étudiants du cycle supérieur de l'INTD : "Les rapports de Google avec la justice" (.pdf). La première partie du dossier est une recension des procès et actions en justice contre Google, la seconde se focalise davantage sur l'exploitation des données personnelles. Très utile pour avoir une vision "fine" d'un justiciable pas comme les autres.
  • Dans la série "publicisons, publicisons, il en restera toujours quelques chose", LiveSearch (Microsoft) s'installe dans la motorisation de Facebook. (Rappelons pour mémoire que Google motorise - et constitue la régie publicitaire de - MySpace). Voir aussi pourquoi Jérôme Charron s'en félicite.
  • Pour les Googlophiles anglophobes, découverte de Goopilation, un blog qui traduit en français les billets de l'ensemble des blogs officiels de Google.
  • Et puis, et puis ... en septembre 2005, Google faisait disparaître de sa page d'accueil la mention du nombre de pages indexées, laissant les compteurs de notre imaginaire collectif baguenauder librement. Dans un billet en date du 25 Juillet, sur son blog officiel, Google annonce que son crawler a franchi une étape ("a milestone") : 1000 milliards d'adresses uniques détectées, ce qui, comme le rappelle Jean Véronis n'est pas la même chose que le nombre de pages indexées, mais qui est "déjà très impressionnant". Au-delà de son effet subliminal dans l'inconscient collectif (= "c'est Google qui a la plus grosse" ... base d'index), cette annonce révèle ce qui est l'un des tournants marquants dans l'histoire des moteurs de recherche : la principale difficulté, le principal objectif, n'est plus la capacité à atteindre un grand nombre de données (et à les réactualiser en temps réel), mais bel et bien la capacité à faire le tri entre le bon grain et l'ivraie, entre ce qui doit être indexé et ce qui ne doit pas l'être. Soit un retour à la raison d'être et aux fondements de leur algorithmie.
  • En parlant d'algorithmie justement, du côté de Yahoo! on semble s'intéresser de près à la mode des moteurs à la carte. Mais si souvenez-vous, ces moteurs "construits par l'internaute" et faisant de chacun de nous un autarcithécaire en puissance. Yahoo! a donc lancé le service BOSS (Build Your Own Search Service). Pour ne pas répéter ce que d'autres ont très bien décrit, allez lire le billet de Jérôme Charron sur le sujet. La stratégie de Yahoo! paraît claire : étant donné que le monde compte nombre d'excellents développeurs plein de bonnes idées, et étant donné qu'actuellement aucun d'entre eux ne peut bénéficier d'un équivalent de la base d'index de l'un des grands moteurs majeurs, il s'agit donc de leur offrir un accès à cette base, de les laisser bidouiller en postulant qu'il y aura probablement dans le lot une bonne ou une très bonne idée dont on pourra alors librement s'inspirer. Et dans le cas contraire, pendant qu'ils font joujou chez Yahoo!, ils ne vont pas monter de projet concurrent ;-).
  • La dérive des continents documentaires (voir ici) se poursuit, avec cette dernière étape clé de la synchronisation de nos moments connectés / non-connectés : après GoogleDocs et GoogleReader, c'est GMail et GoogleCalendar qui devraient être accessibles via GoogleGears. Rappelons, pour tenter de clarifier la "stratégie" de Google en la matière, que la synchronisation de ces applications est l'un de piliers incontournables du "webtop" ou du "WebOS", webtop dont on reparlera plus bas dans ce billet de rentrée.
  • L'une des dernières études du PewInternet nous apprend que si en 2002 seulement un tiers des internautes utilisaient un moteur de recherche pendant leur journée connectée, ils sont maintenant la moitié à le faire (49%). Les autres "habitudes" sont (de la plus à la moins fréquente) : l'e-mail, la recherche en ligne, la consultation d'actualités ("checking news"), et la consultation de la météo.

Côté Moteurs, outils ET bibliothèques :

  • Je vous l'avais annoncé avant les vacances, la bibliothèque municipale de Toulouse est désormais sur FlickR. Pour les détails et les motivations de cette (remarquable) opération, voir le message posté sur biblio-fr. Une Flickerisation des bibliothèques qui fait flores (6 à ce jour) comme en témoigne cette nouvelle initiative lue chez André Gunthert : "la George Eastman House est le premier grand musée de photographie à mettre en ligne en libre accès dans la section des Commons de Flickr plusieurs extraits de ses collections." Sans oublier, comme le rappelle Patrick Peccatte en commentaire du billet d'André, "les institutions présentes sur Flickr qui présentent des fonds intéressants mais pas sous le régime des Commons, comme la Biblioteca de Arte-Fundação Calouste Gulbenkian." Je croie qu'il y a là l'amorce d'un mouvement de fond (et de fonds ;-), dont l'impact à moyen terme pourrait être assez semblable à celui des projets de numérisation (Google Books).
  • et puis bien sûr, l'annonce de la numérisation de la BM de Lyon par ... Google. Là encore, un peu de patience, c'est le sujet d'un prochain billet.

Côté bibliothèques ...

  • Le discours de Barak Obama : sources, références et larges extraits à lire chez Jean-Michel Salaun.
  • Côté bibliothèques ET revues : Valérie Pécresse (ministre enseignement supérieur) et son copain Bruno Racine (BnF) avaient bien caché leur jeu. Le ministère de l'enseignement supérieur vient d'annoncer le déblocage de 10 millions d'euros pur la création d'une archive pour les revues de recherche françaises. L’objectif de cette archive est de conserver sur le long terme les revues scientifiques qui ont un faible usage. Cette archive sera sous la responsabilité de la BnF qui assurera également l’accès aux articles, sur support papier ou électronique, par son service de fourniture de documents. Ah ben non désolé. Fausse alerte. C'est pas en France. C'est au Royaume-Uni. A mettre en balance avec l'approche et l'existant hexagonal.
  • Et puis les diaporamas du dernier congrès de l'ABF (blog du congrès) sont regroupés en ligne sur le site de l'ABF.

Côté livre/document/lecture numérique :

  • André Gunthert nous livre une belle analyse d'un beau concept : la lecture exportable (ou les affres d'un copyright en bout de course). De mon côté je prolongerai bien l'analyse d'André en indiquant que ce qu'il décrit à juste titre comme une lecture exportable est en fait la réalisation concrète la plus proche de l'idée originale de transclusion (chez Ted Nelson - père fondateur de l'hypertexte - la transclusion désigne des contenus non plus "inclus" mais situés simultanément à divers endroits, sans altérer pour autant leur localisation originale ... pour plus d'infos voir sous le lien précédent).
  • L'iPhone devient liseuse : Virginie Clayssen rappelle à quel point la nouvelle pourrait être d'importance pour le décollage et la structuration d'un marché du livre électronique.
  • A lire : les enjeux du livre au format de poche, une étude de 8 pages de la DEPS, qui ne se termine pas par hasard sur "la perspective numérique", au moment où l'on parle de plus en plus d'une date limite de consommation des livres sous forme papier.
  • Et pendant que l'on réfléchit de plus en plus activement ici ou là sur l'avenir de la chaîne du livre à l'heure du numérique, le rouleau compresseur continue d'avancer : Amazon met la main sur AbeBooks (via Hervé Bienvault)

Côté biblio-scientométrie

  • la face cachée de la bibliométrie existe, et plus simplement au sens figuré. Pour organiser - selon des critères bibliométriques (taux de citation / date de parution de l'article / ... )  - les résultats issus d'une interrogation de la base Medine, imaginez que la liste desdits résultats soit ... une liste de visages dont le froncement des sourcils ou le sourire (ou l'absence de sourire) seont autant d'indicateurs vous permettant d'anayser lesdits résutlats et de mieux vous y orienter. Pas clair ? OK, une image :
    Facebib
  • le site reprend en fait la théorie des visages de Chernoff (voir ici ou pour une définition de ladite théorie) en l'adaptant aux usages scientométriques et en la faisant "tourner" sur une base d'articles scientifiques (PubMed). Gadget diront certains. Sûrement. Sûrement. Aussi sûrement que cela ouvre autant de pistes du côté d'une "humanisation" littérale des résultats de recherche. La source : ici. Pour jouer avec : .

Côté Science 2.0

Côté Web 2.0 ...

  • une petite bibliographie autour du web 2.0 mêlant articles scientifiques, thèses, ouvrages et études diverses, le tout accessible gratuitement.
  • Une jolie mise en image des différents services sociaux autour du web 2.0.
  • Je vous ai souvent parlé (en conclusion de ce billet par exemple) de l'inexorable avançée d'un mouvement d'externalisation de nos mémoires (intimes ET documentaires), lequel, conjugué à une informatique ambiante (everyware) et à une redocumentarisation du monde (internet des objets) et de l'homme (l'homme est un document comme les autres), donne littéralement corps à un hypercortex planétaire. Le résultat à court terme - 2040 -, et en termes beaucoup plus clairs (:-) est expliqué dans un édito du 16 Juillet de Wired, édito chroniqué, résumé et traduit sur InternetActu : "La machine unique pour les relier tous".
  • Prenez la plus grosse base de donnée iconographique gratuite de la planète (FlickR). Prenez ensuite l'une des toutes premières agences commerciales de diffusion de photo (Getty Images). Imaginez un accord entre les deux permettant à la seconde (Getty) de piocher à volonté dans la première (FlickR) pour en revendre le contenu en reversant 20 à 40% de la somme récoltée au photographe amateur. Et vous aurez un système gagnant-gagnant et un exemple très parlant de la manière dont les pro-am deviennent un incontournable levier de l'économie de la longue traîne.

Côté Web 2.0 et après ...

  • Après le Web 2.0, il y a naturellement le cloud computing. Hervé Le Crosnier signe un papier lumineux sur le sujet dans le Monde Diplo. Didier Durand signale un intéressant white paper d'évangélisation (technique) en provenance de chez Amazon : Cloud Architectures (.pdf)
  • Après le web 2.0, il y a aussi le webOS, soit la migration du Desktop (bureau comme interface du disque dur) vers le webtop (navigateur comme interface de nos disques durs "en ligne"). Nova Spivack rédige sur le sujet un article de référence qui récapitule les enjeux et les ambitions de cette nouvelle migratio numérique des contenus et des comportements associés : "The future of the Desktop".
  • Après le web 2.0, il y a l'explosion des contenus gourmands (en bande passante) : voir les chiffres de la dernière étude Cisco, rapportés par Eric Baillargeon. Et de manière corrélée, il y a un phénomène de "dés-appropriation" de plus en plus systématique des contenus demandés par les internautes : voir le billet de Techcrunch rapportant le régne annoncé du "tout streaming". Là encore une nouvelle étape de la dérive des continents documentaires, dans laquelle après avoir confié nos contenus à des sites externes (tout en gardant une possibilité d'archivage en-ligne), nous prenons de plus en plus l'habitude de consommer des contenus comme de simples services, sans appropriation réelle ni possibilité de conservation ou de stockage. Bref, nous faisons avec Internet ce que nous faisions hier avec la télé, avant que l'on invente les magnétoscopes. Sauf que sur Internet, c'est pas très facile de réinventer le magnétoscope, comme en témoigne les mésaventures du service (excelletissime) Wizzgo. Espérons avec Jean-Michel que "S'il y a beaucoup de mythes dans le Web 2.0, il y a aussi beaucoup de préjugés chez les médias traditionnels, à commencer par croire que l'on peut retarder l'expression d'une demande explosive."

Côté énervements récurrents :

  • la fausse bonne idée de l'université entreprise, à lire sur le site de SLR ... pendant ce temps, Valérie Pécresse distribue les médailles en chocolat comme autant de labels vides de sens (et de financements ...)
  • les vraies-fausses promesses de maître Darcos. (= Episode 1 : on va supprimer plein de postes, mais en échange on va revaloriser la grille des salaires. Episode 2 : on va supprimer plein de postes. Euh ... oui oui, on va aussi revaloriser la grille des salaires. Mais pas tout de suite hein ? Episode 3 : relire l'épisode 2)
  • "L'autonomie" (financière) souhaitée des université est vraiment - mais alors vraiment - une notion à géométrie variable.
  • et dans la série "faisons fonctionner de nouveaux trucs avec tous les défauts des anciens machins", je vous recommande la lecture de "l'ANR pour les nuls" sur le site de Sauvons la Recherche.
  • Tout cela nous rappelle que la loi LRU a 1 an. A lire sur EducPros, un rapide bilan des opérations. A remarquer : seulement 9 universités (sur 85) ont décidé de mettre en place les fameux comités de sélection en lieu et place des anciennes commissions de spécialistes. Ce manque d'engouement n'est pas nécessairement la preuve d'un désaveu du système proposé (par les comités de sélection). Simplement le résultat d'un calendrier de mise en place à la hussarde et le symptôme d'un très grand flou dans le "comment concrètement" faire tourner ces nouveaux comités de sélection. Le résultats c'est que la plupart des université, déjà très occupées à mettre leur CA aux nouvelles normes, n'ont pour le moment pas eu vraiment le temps de s'occuper de la mise en place de ces comités. C'est à la fin de cette année universitaire que l'on pourra réellement juger sur pièces, même si de mon côté, mon opinion est faite ... Et par souci d'impartialité, le bilan de la loi LRU, côté communiqué officiel :-)
  • Sans archive(s) pas de mémoire, sans mémoire pas d'Histoire. Le petit monde de l'archivistique est depuis peu en butte à de sévères bouleversements qui engagent tout un pan de notre mémoire collective. Voir ici et là.
  • Edvige et Cristina. La France en (très) bonne place pour les prochain BigBrother Awards. Voir (parmi d'autres) : Politis, Le Monde, le point de vue de Jean-Marc Manach, l'article d'EDRI avec les liens vers les parutions du JO et d'autres couvertures presse. Ils en parlent aussi : l'ADBS. Au moins, cette affaire aura donné lieu, sur France Inter, à un téléphone sonne d'anthologie :-(
  • Et toujours à l'affiche, "les cages de la république".

Côté People et Blogosphere :

  • ce dont tout le monde a parlé cet été c'est la guerre entre blogueurs et journalistes. Rappel des faits.
  • Le départ de Versac tout comme la sortie de route classement de FredCavazza sont d'ailleurs peut-être assez symptômatique d'un changement d'époque. Car outre-atlantique aussi, Francis Pisani nous apprend que Jason Calacanis himself annonce son retrait blogosphérique. Je suis de mon côté depuis longtemps convaincu que les blogs auront permis l'émergence de nouvelles formes de parole (et de prise de parole), côté scientifique notamment, et qu'ils se dirigent lentement mais surement vers une hybridation de plus en plus marquée (voir les exemples très éclairants choisis par Narvic).
  • Et puis le choc de l'été sur les blogs sciences de Wikio : André Gunthert dégringole à la troisième place et Jean Véronis fait une entrée fracassante directement à la seconde (place). De mémoire d'homme, seule Samantha Fox avait, à l'époque du Top 50, réussi une telle entrée. M'est avis qu'avec de tels challengeurs qui ne respectent même pas la pause estivale, ma première place va rapidement être remise en question. Assez bizarremement, ni Closer, ni Gala ni Voici n'ont fait leur "une" de cet événement pourtant incountournable.

Côté identité numérique :

  • A l'heure où la gestion de la réputation numérique est chaque jour plus centrale pour le simple quidam, elle revêt, pour le futur potentiel président des Etats-Unis une importance plus que vitale. On lira donc avec intérêt sur le blog VerbalKint, la stratégie mise en place par l'équipe de campagne de Barak Obama pour contrer les rumeurs en temps réel. Intéressant de noter également l'évolution qui, depuis la dernière élection présidentielle américaine, avait marqué l'avènement des blogs comme outils de lobbying, et qui se décline aujourd'hui sur le mode de la gestion de la réputation. Comme dans la "vraie vie" des "vrais gens" pour qui les blogs, après être devenu un outil d'expression central, sont aujourd'hui l'un des principaux axes de leur visibilité numérique et de ce qui s'y rattache.

Côté "ça peut toujours servir" :

Côté Agenda :

Côté lectures :

Côté visionnage :


Ce qui me frappe dans tout ça ...

Comme dans la nouvelle de Borges, "Funes ou la mémoire", le mouvement d'externalisation de nos mémoires, documentaires et intimes, nous mène droit vers une société à l'hypermnésie latente, activable. Avec Google dans le rôle de Funes, et de son côté, pas la moindre aspiration à s'enfermer dans une pièce vide pour ne plus rien "enregistrer".

Bonne rentrée à tou(te)s :-)

(Sources : sous les liens // Temps de rédaction de ce billet : 2 mois ;-)

La fracture amicale.

"La nouvelle fracture numérique opposera les gens disposant d'un réseau d'amis et ceux sans amis. L'ancienne fracture numérique entre les riches (ceux disposant d'une connexion internet) et les pauvres continuera d'exister." La citation (repérée par TechCrunch) est de Robert Scoble. Si cette "formule" m'intéresse c'est parce qu'elle traduit assez bien la manière dont, in fine, les logiciels sociaux (qui, rappelons-le, sont bien plus que les simples "réseaux sociaux") ont durablement transformé la nature de notre rapport au web.
<Parenthèse> Dire que les logiciels sociaux ont transformé la nature de notre rapport au web, n'est pas du tout la même chose (et est à mon avis beaucoup plus juste) que d'affirmer - comme on le lit un peu trop souvent - que les réseaux sociaux ont changé la nature du web </Parenthèse>
Il me semble qu'aujourd'hui, dans l'essentiel de nos pratiques, la socialisation dans sa dimension expérientielle première, est devenue au moins aussi importante que les trois activités qui firent la spécificité du primo-web, c'est à dire la navigation-lecture (browsing), la navigation-recherche (searching) et naturellement l'écriture (au sens large de "production de contenus"). Ce qu'ont permis les logiciels sociaux c'est le transfert de logiques de socialisation grégaires depuis des espaces clos et dédiés (les forums ou groupes Usenet) vers des espaces réellement réticulés, c'est à dire largement distribués au travers du moindre espace d'écriture ou de navigation.
Cette réflexion en appelle une autre. Il n'est pas aujourd'hui sur le web d'espace de production de contenus numériques qui n'échappe à l'angle d'une analyse "conversationnelle", "socialisante". On n'écrit plus, on ne publie ou ne produit plus aujourd'hui de contenu simplement pour être présent, pour occuper un espace, ou pour être bien "positionné" mais tout au contraire pour confronter ou pour souscrire. On écrit, on publie, on produit pour engager un débat. Pour "se" confronter aux autres. Pour maintenir et établit un contact. De toutes les fonctions du langage théorisées par Jakobson, c'est la fonction phatique qui est au coeur de l'ensemble des socialisations numériques, y compris (et surtout ?) de l'écriture-socialisante qui couvre  (par exemple) l'immense majorité des productions de la blogosphère.
Comme nouveaux totems de cette dominance du phatique, citons les trackbacks ou rétroliens (qui en inversant la polarité des liens pour la première fois dans l'histoire de l'hypertexte, contribuèrent largement à disséminer ladite fonction phatique et à en faire l'un des tout premiers horizons d'attente de l'écriture numérique courante). Citons également l'incontournable et parfaitement totémique "poke" de Facebook
Pour autant, et dès que cette confrontation se trouve inscrite dans un processus collaboratif assez large impliquant un nombre significatif de personnes, on retombe très largement dans les anciens et classiques shémas auctoriaux et éditoriaux. Des shémas "étagés" dans lesquels les fonctions de représentativité et de leadership sont réaffirmées comme essentielles. La présumée "sagesse des foules" n'est que l'exercice d'une démocratie numérique rigoureusement équivalente au système politique dans lequel nous évoluons. La seule différence (de taille) vient de son amorçage : les "leaders", les "gourous", les "éditeurs", les "auteurs" ne sont pas élus dans une logique de représentativité en assumant une charge "par délégation", mais ils sont les promoteurs ... à l'origine de leur propre promotion. Une promotion dans le meilleur des cas au service d'un projet ou d'une parole, et dans le pire des cas au seul et unique service d'un égotisme forcené. Les autres, tous les autres y souscrivent au sens littéral du terme. Ils écrivent, publient, discutent, débattent "en dessous", dans les limbes palimpsestiques de ces nouveaux espaces de socialisation numérique. La fonction phatique ne prime plus. Le "poke" redevient "private joke".
Le web, quelle que soit sa dénomination ("world wide web, world live web, world life web"), sa numérotation (1.0, 2.0 ...) demeure un espace rhizomatique mais devient de plus en plus organique ; son organisation confine à l'organique. Les liens unissant des contenus y côtoient désormais les relations unissant des personnes. Cette corporéité nouvellement incarnée n'est pas simplement métaphorique. Elle traduit un changement de nature radical. L'erreur serait de croire que ce changement de nature est également un changement d'objet. Le web est et demeure une artefacture technique. L'erreur serait de ne chercher qu'à questionner cette artefacture. Le web n'est qu'un vecteur. Le changement concerne tout au contraire notre rapport individuel et intime à la socialisation. Notre rapport à l'autre.
Il y a quinze ans de cela, des scientifiques, des universitaires, se posaient la question de savoir quels documents/contenus pouvaient être numérisés. La réponse est aujourd'hui connue : il n'est aucun contenu qui ne résiste à la numérisation, rien qui ne puisse être numérisé ou numérique. Rien qui ne puisse être re-présenté "sous forme" et "au format" numérique. Pro forma. Ce qui est vrai des documents/contenus le sera-t-il également pour les individus et les relations interpersonnelles ?
Ce n'aura pas été le moindre mérite de Facebook et consorts que de permettre que ces questions soient posées. Les réponses seront là aussi évidentes. Dans 15 ans. Ou peut être moins. D'ici là nous aurons grand besoin de sociologues pour nous aider à bâtir la science du web.

(Temps de rédaction de ce billet : 2h30)

Fini les vacances, c'est la rentrée ...

Côté moteurs/wikipédia/knol :

  • On a donc pas mal parlé avant et pendant les vacances du projet de Google concernant son "encyclopédie" Knol : dans Ecrans, Florence Devouard s'inquiète à raison en rappelant que 50 % du traffic vient directement de Google. Google Blogoscoped y revient également en soulignant l'argument selon lequel Google ne pouvait plus accepter de voir partir tout ce traffic "non-monétisé" vers un site (wikipedia) indiquant qu'il refuserait toujours la publicité.
  • Voir aussi la rapide analyse comparative de ReadWriteWeb entre Knol, Wikia, Wikipedia et Mahalo autour des trois mamelles de l'argent, de l'attention (comme vecteur de monétisation) et de l'altruisme (comme contribution à la somme des connaissances disponibles).

Côté réseaux sociaux, moteurs de recherche et scientométrie :

  • Medline nous avait déjà habitués à son goût des interfaces innovantes. En voici une nouvelle baptisée GoPubMed qui permet, sur la base d'une recherche de faire émerger des "réseaux sociaux" à partir des noms d'auteurs d'articles et de leurs adresses de courier électronique (Via Cismef). En fait, plutôt qu'un réseau social (ce qui est l'argumentaire marketing du lancement de ce nouveau service), c'est bien de scientométrie qu'il s'agit, c'est à dire de la capacité, via un moteur sémantique, de repérer des collaboratoires, des "collèges invisibles", et de cerner en un instant sur un thème donné, l'état des publications en la matière et les chercheurs les plus en vue. Exemple : en entrant le terme "stuttering" (bégaiement) et en cliquant (à gauche dans la rubrique "What") sur "Hot topics", vous visualisez :
    • un "top 20" des auteurs ayant le plus publié sur le sujet
    • un "top 20" des publications classées par pays
    • un "top 20" des journaux dans lesquels on trouve le plus de publications en rapport avec le bégaiement
    • une courbe temporelle vous permettant de visualiser la progression (ou le recul) du nombre de publications par an sur ce sujet
    • une visualisation sous forme de graphe des réseaux de collaboration entre auteurs (répondant à la question "qui publie avec qui ?")
  • c'est à tomber par terre. Et on se prend à rêver d'un tel outil dans le cadre d'un moteur généraliste majeur à vocation scientifique (maiiiis non, pas forcément celui-là, il y a aussi celui-là). Pour mieux comprendre la puissance d'un tel outil : allez le tester, et lisez le communiqué de presse (.pdf).

Côté moteurs tout court :

  • le 7 janvier 2007, il y a donc de cela exactement un an, Jimmy Wales annonçait le lancement de Wikia, le moteur de recherche dont les résultats seraient validés par des humains. Et bien exactement un an plus tard, on nous annonce le lancement de Wikia (en version béta) pour demain, le 7 Janvier 2008 donc. A ce sujet, voir la revue de presse de Christophe Asselin. Le site de la "communauté" wikia est ici, et comme on peut le lire dans le wiki du projet, Wikia compte s'appuyer sur tout l'éventail des technologies de recherche à valeur ajoutée, à savoir la sémantique (= catégorisation), le "réseau social", l'indice de "réputation", et une infrastructure "distribuée". Lancement demain donc, et affaire à suivre de près pour ce nouveau "moteur de recherche open-source collaboratif".

Côté Bibliothèque "2.0" (ou pas ...)

  • Une conférence qui s'est tenue début Novembre à Berkeley sur le sujet des bibliothèques "2.0" avec les supports de présentation accessibles en ligne (supports présentés parfois sous forme classique - un bon vieux powerpoint - parfois sous forme "2.0" - un wiki). Pas de grande nouveauté mais cela vaut le coup de visionner la conférence inaugurale de Meridith Frakas qui embrasse bien la situation (.ppt)
  • l'un des derniers rapports du Pew Internet nous apprend (via 01.net) qu'outre-atlantique, la première raison de fréquentation des bibliothèques est ... le fait d'y trouver une connexion Internet. De quoi largement réalimenter de vieux démons débats, tant sur le taux d'équipement desdites bibliothèques dans notre bel hexagone, que sur la place des technologies d'accès dans ces enceintes et le taux de formation et d'encadrement qui est dévolu à leurs personnels.

Côté Folksonomies & Indexation sociale

Côté néologismes :

  • Saluons l'arrivée de la Zemblanité, exact opposé de la sérendipité et qui désigne "la faculté de faire de façon systématique des découvertes malheureuses, malchanceuses, attendues et n'apportant rien de nouveau." La génèse du concept et sa présentation détaillée sont disponibles sur Urfist-Infos.
  • Saluons (Via Francis Pisani) l'arrivée  de la "mobiquité" : mobilité + ubiquité. Un néologisme qui traduit bien la place de plus en plus importante qu'occupe dans notre société et dans nos comportements informationnels, l'informatique nomade et/ou ambiante.
  • Reste à savoir si ces deux néologismes entreront au panthéon linguistique aux côtés de la blingocratie.

Côté copyright, Fair-Use et autres creative commons

  • Un rapport intitulé : "Recut, Reframe, Recycle: Quoting Copyrighted Material in User-Generated Video" (.pdf). La question posée est de savoir si dans le cadre des sites de médias participatifs donnant lieu à divers remixages (exemple : YouTube), les détournements, parodies, et autres mashups de diverses oeuvres de fiction relèvent - ou non - du cadre du Fair Use (= usage équitable) et échappent donc à la législation du copyright. La réponse du rapport est claire : Oui. Il y a dans ces "oeuvres" de nouveaux éléments (détournement, transformation, remixage) qui les inscrivent dans le cadre de la constitution d'une culture populaire. "Video remix culture does not violate copyright." Les auteurs du rapport rappellent également qu'il est important de sensibiliser aussi bien les "auteurs" que les "remixeurs-amateurs" à la notion de propriété intellectuelle et d'usage équitable, pour que les premiers soient conscients de la richesse que ces remixages peuvent (parfois) apporter à leurs oeuvres, et pour que les seconds travaillent et s'amusent dans le respect de l'oeuvre des premiers. A noter : le site de présentation de l'étude est très bien fait, puisqu'en sus du téléchargement de l'étude proprement dite, il propose également une courte vidéo en rappelant les principales problématiques et conclusions, et propose également de télécharger un fichier excel du corpus de vidéos utilisées. Il propose enfin, pour chaque type de remixage (détournement, critique, débat, illustration, etc ...) les 5 vidéos les plus parlantes. Certaines d'entre elles sont réellement ... parlantes.
  • Et puis vraissemblablement à ne pas rater (je ne l'ai encore pas visionné en entier, mais il est plein d'interviews avec Yochai Benkler et ne peut donc pas être mauvais :-) un documentaire sobrement intitulé "Steal this Film" qui décrypte les enjeux liés à la notion de propriété intellectuelle et plus largement de "diffusion" dans le contexte actuel. Pour les plus pressés, plein d'extraits sur Google Vidéo, pour les autres téléchargement dans plein de formats possibles directement sur le site du documentaire. Il y en a même qui se sont déjà attelés au sous-titrage en français.

Côté traces documentaires identitaires (ou identité numérique si vous préférez) :

  • nos comportements informationnels laissent de plus en plus de place à l'égotisme forcené. Au service de cet égotisme on compte d'ailleurs de plus en plus d'outils tendant à l'illustrer (les divers outils de classement façon "top 50 de quelque chose"), à le renforcer (économie de la réputation), à en faire naître le besoin (via des interfaces navigo-ludiques dont vous êtes le centre et la circonférence), ou à en faire l'alpha et l'oméga d'un modèle économico-sociétal (facebook). C'est l'éternelle histoire de la poule et de l'oeuf.
  • Got dans ses petites cases, nous gratifie d'un éclairant billet sur FOAF (Friend Of A Friend) dont on aimerait effectivement penser que le modèle réellement ouvert qu'il incarne soit l'avenir des protocoles tournant derrière la plupart des réseaux sociaux. Mais je ne peux hélas pas m'empêcher de penser qu'il y a encore bien du chemin à parcourir ... l'heure étant plutôt pour les grosses cylindrées à la centralisation des profils propriétaires ... ce qui doit nous inciter encore davantage a faire plus de place aux initiatives alternatives et technologiquement éprouvées (dont FOAF).

Côté ressources pédagogiques :

Côté voeux, bonnes résolutions et oracles divers :

  • il y a ceux qui ne croient plus aux blogs sous leur forme actuelle (Jean-Michel Salaun et Jean Véronis) ... mais qui continuent heureusement de blogguer :-) De mon coté je reste sur le créneau de l'enthousiasme (peut-être un peu candide), même si - à l'instar des deux précédemment cités - je constate ici et là une raréfaction des pépites blogguesques, nombre de trouvailles ayant visiblement du mal à tenir sur la longueur, ce qu'on aurait du mal à leur reprocher tant il est vrai qu'en dehors d'un projet affirmé de publication (journal, auto-fiction, carnet de recherche, formation à distance), l'exercice du blog est une gymnastique chronophage, et que "le temps de blogguer" n'est pas nécessairement la chose la mieux partagée du monde. Il n'en demeure pas moins qu'en repensant à ce qu'était la pêche informationnelle d'avant et d'après le temps du blog, ce "format éditorial" a tout de même été l'occasion d'entendre de bien belles voix, et de découvrir de fort pertinentes analyses. L'avenir dira ce la forme blog deviendra, mais les potentialités, l'univers de discours offert par une petite quantité de ces "nanopublications" reste pour l'instant et de mon point de vue, essentiel.
  • il y a ceux qui comme Fred Cavazza, se livrent à leur petit exercice de prospective du nouvel an, et ceux qui comme Francis Pisani, font une revue de presse des principaux exercices du genre.

Et mes prédictions à moi ?

  • A l'instar de ce que décrit Christian Fauré à propos du service Twine, je crois que l'ensemble des acteurs majeurs de la recherche d'information (Google, Yahoo! Microsoft) et quelques-uns de leurs challengers (Exalead, Facebook) vont prendre de plus en plus nettement le grand virage de l'hybridation. Une hybridation entre :
    • des espaces et des services collaboratifs,
    • des technologies sémantiques ou sémantisées de représentation et d'agrégation des connaissances,
    • et des algorithmies de recherche "pures" (ou recherche universelle).
  • Je crois que la diversité des contenus va (enfin) atteindre un équilibre longtemps espéré entre le "texte seul" et la vidéo et l'image.
  • Je crois enfin que l'une des grandes questions en terme de recherche (notamment pour les sciences de l'information et de la communication) sera la mise au jour des nouvelles autorités cognitives qui s'articulent aujourd'hui de manière encore un peu floue derrière la monétisation (ou la non-monétsation) des services à base de connaissance (Knol, Wikipedia).
  • De mon côté je retiens comme éléments et tendances majeures de l'année écoulée : les deux nouvelles étapes de la dérives des continents documentaires que sont :
    • d'une part, la synchronisation transparente entre nos activités informationnelles connectées (on-line) et déconnectées (off-line),
    • et d'autre part, la sphère croissante d'indexabilité (notion de "graphe social" pour faire simple) de l'humain au travers de ses innombrables traces documentaires éparses sur le(s) réseau(x).
  • Ce qui me semble frappant au-delà de tout c'est l'avénement imminent et probable d'une nouvelle génération d'algorithmes ayant capacité à représenter sur un même plan des documents toujours plus fragmentaires, des traces identitaires toujours plus documentées, et à transformer toutes ces traces d'attention en vecteurs d'intentions, pour le plus grand bonheur des grandes industries culturelles et des quelques acteurs qui dominent actuellement le marché (et ce au-delà du discours geignard et misérabiliste que s'obstinent à tenir les mêmes industries culturelles). En un mot comme en cent : la redocumentarisation du monde. Il est certain qu'il va falloir être très très très attentif aux Network sciences, car elles seront le creuset plus que probable de cette nouvelle génération d'algorithmes et de modes de représentation, et qu'à mon sens, elles seules ont aujourd'hui la capacité à réunir en un même cadre d'analyse les fronts de recherche les plus innovants, les techniques d'indexation et de représentation du vivant au sens large.
  • Voilà pour le côté vivifiant et optimiste de la chose. Côté pessimiste (mon éternel côté cassandre :-); je crains que nous ne soyons confrontés à une échéance majeure, celle de la médecine personnalisée et/ou médecine "2.0" et/ou médecine désintermédiée. La montée en puissance et la position désormais établie de ces nouveaux prescripteurs planétaires que sont les moteurs de recherche d'une part, la mise à la portée du grand public des technologies de génomique (notamment à des fins d'auto-diagnostic) d'autre part, les rapprochements entre les premiers (moteurs de recherche) et les secondes (sociétés de génomique), et enfin l'engouement de plus en plus explicite chez tous les grands acteurs de l'industrie médicale (et notamment pharmaceutique) pour des modèles de diffusion et d'accès reposant sur du gratuit financé par la publicité va nécessiter, pour le moins, de grands chantiers didactiques si l'on veut éviter d'aller à coup sûr ... droit dans le mur. Va falloir se trouver dare dare un José Bové de la santé comme bien commun de l'humanité. Sinon ...

Bonne année à vous tous :-)

Les 4 commandements

Ceux que l'on peut lire sur le site d'Amazon, en référence à la nouvelle interface de ce site, pionnier par bien des aspects : "Shopping, Searching, Saving, and Buying". Simple, basique, efficace, programmatique et tellement caractéristique des comportements informationnels les plus courants.
A mettre en relation avec l'autre trilogie des modes de requêtage sur le net : requêtes transactionnelles, informationnelles, navigationnelles, renvoyant elles-même à l'antique schisme entre browsing et searching, qui lui-même est venu récemment s'adjoindre les services du subscribing.
Shopping, Searching, Saving and Buying. SSSB. Les 4 commandements de nos vies numériques. Ainsi qu'une lumineuse grille d'analyse.
(Via Isbn.wordpress.net)

Du dossier au mot-clé

Le dernier billet de John Udell s'intitule "Tagging and Foldering" et il y pointe une évidence qui me paraît tout à fait éclairante sur les logiques des services en ligne ou off-line que nous utilisons désormais (presque) tous de manière quotidienne : moteurs de recherche, gestionnaire de fichier, courrier électronique, applications bureautiques, etc.
Nous sommes donc passé d'une logique d'organisation par dossier "Foldering" (aaaaah le lointain souvenir de la toute puissance de l'explorateur window$ ...) à une logique d'organisation par mots-clés (tags). Ceci, du côté de nos ordinateurs personnels, a été rendu possible par l'augmentation de la puissance des processeurs (qui, entre autres choses, autorisent désormais une indexation de tous les documents en local et une recherche idoine). L'ensemble des services en ligne ont les tags ou mots-clés comme entrée principale. A titre personnel (rien de général là dedans) j'utilise essentiellement les principaux services de mon quotidien informatique à l'aide d'une entrée "mot-clé" ou "tag", qu'il s'agisse de retrouver un mail, un fil RSS dans mon agrégateur, ou un fichier sur mon mac. Ce mouvement (pour autant qu'il puisse être généralisé un peu au-delà de ma petite personne, ce que je crois), ce mouvement marque également un nouveau stade dans la substitution d'une logique de "searching" à une logique de "browsing", une nouvelle étape qui n'est pas neutre :

  • « Cet article traite du problème de la recherche d’information dans un hypertexte. Dans ce contexte, le processus de recherche est envisagé comme un processus d’inférence qui peut être exécuté par l’utilisateur explorant le réseau hypertextuel (browsing), ou par le système, exploitant alors le réseau hypertextuel comme une base de connaissances (searching). » (...)
    « Browsing : aller d’un endroit vers un objet [going from where to what] (en supposant que vous savez où vous vous trouvez dans la base de données et que vous voulez découvrir ce qu’elle contient à cet endroit). Searching : aller d’un objet vers un endroit [going from what to where] (en supposant que vous sachiez ce que vous cherchez et souhaitiez trouver où cela se trouve dans la base de données). » Lucarella D., « A Model for Hypertext-Based Information Retrieval. », pp.81-94, in Hypertext : Concepts, Systems and Applications, Rizk A., Streitz N., André J. (eds), Cambridge University Press, 1990. Actes de la Conférence Européenne sur l’Hypertexte, INRIA, France, Novembre 1990.

Voilà donc pourquoi ce glissement applicatif de la plupart de nos interfaces, y compris même cognitives, n'est pas neutre : il n'y a pas, peu ou plus d'inférence dans une recherche sur le mode "searching" (reposant sur des "tags"), là où le "browsing" et son organisation arborescente (simple ou complexe) en nécessite. Cette absence trouve son meilleur exemple dans les interfaces utilisant des folksonomies comme point d'entrée : le succès de ces dernières vient du fait qu'elles sont capables de pallier l'absence du mot (symptomatique chez les moteurs de recherche et leur zone de saisie désespérément vide), et le plus souvent l'absence du besoin (de recherche d'information) chez la majorité des utilisateurs : comme on arrive sur ces sites (YouTube, DailyMotion, FlickR et tant d'autres) pour y flâner, sans besoin précis, la pregnance des tags fixés sur cette "imago", cette représentation à peine conscientisée, fait office d'inférence substitutive. Ce mouvement, c'est celui que j'avais déjà tenté de problématiser dans ce billet : après le "browsing", le "searching", c'est celui du "subscribing", un mode opératoire dans lequel :

  • "On ne navigue plus, on ne recherche plus, on s'abonne, on "souscrit". Notons d'ailleurs que l'étymologie de ce dernier vocable est intéressante : "souscrire", "sub-scribere", littéralement "écrire en dessous", à moins qu'il ne s'agisse d'écriture "sous autorité" : en aggrégeant les discours écrits ou postés par d'autres, on est, de facto, placé "sous" une "autorité" qui n'est plus notre."

Sérendipité

L'ouvrage "Voyages et aventures des trois princes de Serendip" est disponible gratuitement et en intégralité sur l'excellent WikiSource. Pour d'autres déclinaisons de la sérendipité, voir par ici ;-)

Le web pas à pas

Le site Walk2Web vous permet d'explorer littéralement "pas à pas" les liens entrants (en vert) et sortants (en bleu) du site que vous choisirez comme point d'entrée. Pas grand intérêt du point de vue de la recherche d'information (les liens présentés sont loin d'être exhaustifs), mais une simple ballabe webienne sous les auspices de la sérendipité qui vous permettra peut-être quelques découvertes. Assurément une curiosité à l'interface soignée (et avec en sus la possibilité de voter et de tagguer les sites proposés).
(Découvert via un billet d'Eric Delcroix)

Le web implicite

Quand on essaie de regarder avec un peu de recul le développement des usages et des applications web, on observe une dynamique très forte : les processus (et leurs applications) "descendent" au niveau de l'usager, et plus exactement, descendent en dessous d'un certain niveau de conscience (notion préciée plus tard dans ce billet).
A l'image des moteurs de recherche qui ne fonctionnent plus sur un modèle "donne-moi ce que je tape" (= simple vérification de l'occurence du mot-clé saisi dans les pages retournées = matching) mais "donne-moi ce que je veux" (adéquation des résultats de recherche au profil de l'usager, ou au profil d'un macro-ensemble de requêtes semblables), la plupart des services web "leaders" ou ceux actuellement les plus générateurs de "buzz" fonctionnent sur ce modèle d'une économie de l'accès, également baptisée "économie de l'attention" (sur ce vocable, voir aussi les principes de "l'Attention Trust").
L'idée est simple et peut être résumée en une phrase : transformer en itinéraire dirigé et centré sur les attentes de l'usager, ce qui était considéré au début du web comme une nuisance (le "lost in hyperspace problem" de Conklin** reliant la notion de "navigation" à celle de "désorientation"). Qui aurait imaginé il y a de cela quelques années qu'un outil, une interface, soit capable sur la base d'une simple requête, de nous fournir en retour non plus de simples "résultats", mais des recommandations, des choix de reformulation, en accord avec nos choix, nos itinéraires ou nos parcours précédents ? Ce qui est frappant dans ce processus aujourd'hui largement plébiscité et qui fait par exemple le succès d'Amazon ou encore des radios "personnalisables" sur le net (Last.fm par exemple), c'est le retour à l'idée première de l'hypertexte telle qu'elle avait été théorisée par V. Bush et par quelques autres pionniers : la parcours, le "chemin" ("trail") importe au moins autant que le lien.
Nous sommes donc passés d'une toute puissance du lien hypertexte, point nécessairement nodal de développement du réseau et des services et outils associés, à une toute puissance du "parcours", de la navigation "qui fait sens", de la navigation "orientée" au double sens du terme.
C'est sans doute en définitive ce mouvement, cette dynamique qui traduit le mieux la transition entre le web 1.0 et le web dit "2.0". Ainsi donc avec l'avènement de ce que l'un des derniers billets de ReadWriteWeb appelle le "web implicite", le rêve de Vannevar Bush d'inventer un système s'approchant le plus possible du fonctionnement de l'esprit humain (c'est à dire, pour faire vite, d'un fonctionnement non pas hiérarchique mais par analogie) semble aujourd'hui atteint, même s'il faut ici placer toute une série d'importants bémols sur les moyens mis en oeuvre pour atteindre cet idéal, lesquels moyens au service de la personnalisation et des systèmes de recommandation ne sont souvent qu'une manière de "monétiser" ces parcours au nom de logiques marketing.
Mais le résultat est là, l'activité de navigation proprement dite descend en dessous d'un certain niveau de conscience, puisqu'au moment où, sur Amazon par exemple, nous "activons" les liens proposés sous forme de recommandation suite à une requête ou une recherche initiale, nous n'avons pas formulé explicitement ce besoin. Au final pourtant, le parcours "aura fait sens" (avec plus ou moins de succès), et l'activité mentale couplant recherche et navigation n'aura plus eu besoin d'être littéralement "déclarative", permettant ainsi de parler d'un web implicite.
Demain probablement, ces mêmes applications, ces mêmes moteurs, sauront et ce sans même avoir besoin d'une requête initiale, d'un "amorçage", sauront ce que nous sommes le plus susceptibles de chercher ou de saisir comme requête selon l'heure de la journée, le lieu de notre connexion ou encore notre environnement. C'est probablement en cela que résidera la troisième révolution du web. Pour cela, il faudra "simplement" :

  • l'application d'un minimum de logique sémantique sur de gigantesques silos de données déjà "profilés" (=le profiling étant la face obscure de la personnalisation),
  • la multiplication déjà en cours de modes d'accès nomades au travers de terminaux et d'interfaces de plus en plus "ambiantes", c'est à dire dissimulés/disséminés dans notre environnement quotidien,
  • le tout sous-tendu par une logique d'accès (sur le modèle algorithmique du PageRank) en phase avec cette macro-économie de l'attention sus-citée.

La langue anglaise étant en la matière plus synthétique et illustrative que la nôtre, on pourrait décrire ce futur web 3.0 par la combinaison de deux termes : Myware + Everyware. "Myware" pour ce cortex collectif, in-vivo. "Everyware" pour une corporéité enfin conquise de cet hypercortex. Et le rêve de Bush prit une toute autre dimension ... Non plus simplement celle d'une hybridation analogique entre l'homme et la machine, mais celle de la possibilité même d'une activité et d'un fonctionnement sub-conscient de l'accès et du traitement de l'information, à l'exacte mesure de cette hybridation. En d'autres termes, l'ultime étape d'un darwinisme documentaire déjà observable.

**(Conklin J., 1987). Hypertext: An introduction and survey. Computer Magazine, 20, 17-41. 

Update : Pour prolonger et/ou ouvrir la réflexion, voir ce billet de Francis Pisani : "Le futur complexe".

Update : Intéressantes remarques de Richard Peirano suite à la lecture de ce billet.


Chercher le silo ... dans la matrice (épisode 2)

(Suite de l'épisode 1 : "Chercher l'aiguille dans le silo à grain")

Si vous avez manqué le début : L'aiguille (notre héroïne), initialement prise dans la botte de foin, se trouve donc désormais enfermée dans un gigantesque silo, la faute à la recherche universelle (le grand méchant), laquelle trouve elle-même son origine dans la dérive des continents documentaires, dérive dont l'une des forces motrices est celle de la redocumentarisation du monde de l'information et de ses diverses instances documentaires.

Le pitch de l'épisode 2 :

  • Axiome 1 : Les espaces informationnels jadis distincts (images, news, textes, etc.) sont aujourd'hui fusionnés et remixés.
  • Axiome 2 : Nos sphères perceptives navigationnelles (= le point de vue d'où l'on se place pour chercher/retrouver/publier de l'information) le sont également : web public, web privé et web intime ne font plus qu'un dans la mesure où leur indexabilité est désormais aux mains des principaux moteurs de recherche
  • Axiome 3 : la redocumentarisation du monde est en marche, et elle s'inscrit dans un continuum documentaire de plus en plus délicat à maîtriser (exemple ici)

Pour un même accès désormais indifférencié à notre aiguille, nous avons donc :

  • un espace documentaire unifié
  • dans lequel l'objectivable le dispute au subjectivé
  • et le tout dans un mouvement perpétuel non a priori régulable de réécriture.

Soit la définition d'un Continuum. Un continuum qui agit comme une matrice.

Or voici brossés à grands traits les horizons documentaires citoyens impliqués dans cette matrice :

  1. Le médical, la santé
  2. le politique
  3. l'administratif

Concernant tout d'abord le domaine médical et celui de la santé : c'est probablement l'un des horizons les plus sombres parce que peut-être plus directement lié que les autres à la notion d'éthique et de déontologie. Et aussi l'un des plus "porteurs" quand l'on voit l'intérêt "prescripteur" que de plus en plus de gens accordent à cet "Internet médical". En la matière, Google n'en est pas à son coup d'essai pour ce qui est de laisser planer le doute sur des ambitions dignes de la meilleure prose d'une Mary Shelley. D'autant que désormais, après le récent mariage de Serguei Brin, l'heureux marié a investi 3,9 millions de dollars dans la société bio-tech de la mariée, une société dont l'ambition affichée est "d'aider les consommateurs à comprendre et à naviguer dans leur génome", et plus précisément "to enable broad, secure, and private access to trustworthy and accurate individual genetic information.". (voir également ce billet pour les déclarations d'Eric Schmidt à ce sujet). Pendant ce temps, Adam Bosworth, vice-président de la firme reprend sur un billet du blog officiel de Google le texte d'une conférence (.pdf) donnée concernant la politique de santé selon Google, billet et conférence au titre évocateur : "Mettre la santé entre les mains du patient." (sic ...). Avec pour cela 3 objectifs : que les patients soient capables de "découvrir" le maximum d'informations possibles sur leurs symptômes (1), qu'ils puissent "agir" pour bénéficier d'un accès direct à des services pouvant les aider (2) et qu'ils puissent faire communauté (3) pour apprendre et transmettre aux autres leur propre expérience (et l'on suppose donc, leurs propres traitements). Quelques mois plus tôt, cet autre billet du même Adam Bosworth avait  en quelque sorte préparé le terrain : "Comment savoir si vous êtes bien soignés ?". Le rassemblement de ces faits les porte au-delà de la simple spéculation ou de la rumeur. (A noter que sur le plan de l'orientation Santé, Microsoft avance également mais à pas -beaucoup -  plus feutrés, notamment via le rachat de moteurs de recherche spécialisés.) A ce rythme là, les meilleurs écrivains de science-fiction passeront sous peu pour de bons historiens.

Concernant ensuite le domaine du politique, je vous renvoie vers ce billet en m'autorisant une auto-citation :

  • "Considérant d'une part la masse d'information relevant de la sphère de l'intime que le moteur collecte et conserve dans une planétaire base de donnée des intentions, et considérant d'autre part sa récente entrée dans une certaine forme de démocratie par le biais d'une institutionnalisation du lobbying politique, il serait alarmant que Google puisse ne serait-ce qu'envisager de prendre le contrôle d'une centralisation du vote, par la biais des machines électroniques à voter. Ce scénario n'a aujourd'hui rien plus rien de fantaisiste. Google dispose des financements, des appuis politiques et de l'architecture informatique qui lui permettraient d'organiser le vote planétaire à l'échelle de chaque pays le désirant. Ce ne serait là ni le premier ni le plus fou de ces rêves de démesure. Nos sociétés occidentales n'hésitent par ailleurs plus - et ce depuis déjà assez longtemps - à confier à des sociétés privées la gestion d'intérêts et d'énergies fondamentales, qui sont le bien commun des 6 milliards d'êtres qui peuplent la planète. Hésiteront-elles longtemps avant de lui confier la démocratie ?"

Concernant enfin la partie "administrative" qui gouverne dans le temps notre vie sociale et leur cohorte de données publiques, une dépêche du GFII nous apprend que Google référencera les données publiques de 4 états américains.

Santé publique, médecine individuelle, données administratives publiques, lobbying politique assumé ... ajoutons à cela :

  • les dernières déclarations tonitruantes d'Eric Schmidt dans le Financial Times (résumées par Jean-Michel) sur le fait que l'appétit de collecte de données personnelles de Google ne s'arrêtera pas tant qu'il ne sera pas capable de répondre à des questions du genre "Que dois-je faire demain ?" ou "Quel travail dois-je choisir" <Update> Un article de Peter Fleisher (responsable de la politique de confidentialité de la firme) dans le Financial Times revient sur les déclarations d'Eric Schmidt pour renverser la vapeur et remettre le bébé dans les mains de l'usager sous couvert de responsabilité. L'argumentaire est à la fois judicieux et imparable et peut-être résumé comme suit : "le seul moyen de vous apporter la réponse que vous souhaitez quand vous tapez Paris, c'est d'enregistrer vos préférences personnelles et l'historique de vos rechercherches et des liens sur lesquels vous cliquez. L'algorithme seul est incapable de choisir la meilleure réponse (un restaurant à Paris, un site historique sur Paris, les horaires de visite de la tour Eiffel, etc.). A vous donc, usagers de faire le choix d'autoriser Google à conserver vos "logs" en vous enregistrant, ou d'accepter des réponses inappropriées et moins pertinentes." Sauf que comme ce billet essaie de le montrer, la question de la conservation des logs de connexion, au regard des nouvelles ambitions et stratégies de la firme, est déjà relativement anecdotique et ne saurait être résumé à une simple logique "gagnant-gagnant" </Update>
  • et la nouvelle devise de Google qui n'est plus "Don't be evil" mais "Search, adds and apps" ("la recherche, la publicité et les applications")

... et nous aurons une idée assez juste de l'urgence de "penser collectivement" notre rapport à l'information et de celle permettant de fixer des cadres clairs et des moyens de contrôle opérationnels face à la sphère d'influence de ces sociétés tentaculaires.

Mais revenons à notre petite théorie de la dérive des continents documentaires, et surtout à notre aiguille, perdue dans une botte de foin elle-même perdue dans un silo, lui-même enfoui dans un continuum matriciel en renégociation constante.
Dans cette tectonique complexe, deux forces sont agissantes :

  • une poussé horizontale, diachronique : celle de la redocumentarisation, reposant elle-même sur une double axiomatique :
    • 1. tout est document
    • 2. tout document est en transformation permanente
  • une poussé verticale, paradigmatique : celle de l'indexabilité croissante de la totalité documentaire du monde,
    • dans laquelle la partie émergée de l'iceberg du web anciennement profond est chaque jour plus importante,
    • d'autant que s'y ajoute cette nouvelle sphère des applications et des usages bureautiques "en ligne" et leur cohorte de documents et de couriels hébergés et partagés, et donc également indexés.

La "matrice", le continuum documentaire alimentant l'immense silo de nos vies numériques appartient d'ores et déjà aux géants du web. Libre à eux d'y lire à livre ouvert en le retournant comme un gant. Et les actuelles lettres de l'Union Européenne n'y changeront pas grand-chose si elles restent isolées.

Chercher l'aiguille ... dans le silo à grain (épisode 1)

C'est d'habitude dans une botte de foin qu'il faut s'en aller "chercher l'aiguille" au petit jeu de la recherche di'nformation. Tâche déjà suffisamment ardue mais pour laquelle on savait jusqu'ici comment s'orienter initialement selon différents critères  : si l'aiguille en question était plutôt une image, on se tournait vers des bottes de foin (moteurs de recherche) d'image, si c'était une actualité, des bottes de foin d'actualité, etc etc.

Bottedefoin

Or voici que depuis peu la botte de foin patiemment localisée par les moissonneurs que nous sommes, se dissout ou plus exactement retourne à l'état de champ, un champ dont on n'aura vraissemblablement plus la possibilité de connaître la configuration. Avec le lancement de Google Universal Search, les continents documentaires sont allés au bout de leur logique de réunification.
A propos de leurs différentes bases de données, les moteurs de recherche et les spécialistes de ces questions ont emprunté une métaphore née dans le monde de l'entreprise pour désigner de gigantesques entrepôts de données, celle de "Silos".

Silo

Reprenons donc les choses dans l'ordre :

  • Google "croise", "mixe" l'ensemble de ses silos (images, blogs, actus, etc) en un seul
  • et il n'est d'ailleurs pas le seul ni le premier à le faire comme le rappelle ce billet de Read/WriteWeb

Les effets et dommages colatéraux ne sont alors pas longs à surgir : Technorati vient d'annoncer un refonte de sa page d'accueil et de l'architecture sur laquelle elle repose pour donner à l'utilisateur un accès unique en entrée de recherche, passant donc lui aussi d'une logique de "bottes de foins" à une logique de "Silo unique" :

  • "First, we've eliminated search silos on Technorati. In the past, you had to know the difference between keyword search, tag search and blog directory search in order to make use of the full power of our site. No more. Starting today, we now provide you a simplified experience. Simply indicate what's of interest to you and we'll assemble the freshest, hottest, most current social media from across the Live Web - Blogs, posts, photos, videos, podcasts, events, and more."

Si vous voulez désormais rechercher un mot-clé uniquement dans le texte des billets postés, il vous faut aller sur un site dédié (http://s.technorati.com/), lequel ne vous est indiqué qu'en haut de la page recherche avancée : autant dire que  l'utilisateur lambda ne s'en servira quasiment jamais. Notons par ailleurs qu'avec cette refonte, le "tag" acquiert de manière confuse un statut de "mot-clé" puisque rien ne permet plus (cf la citation ci-dessus) de déterminer sur les différentes entrées proposées, si c'est de l'un ou de l'autre qu'il s'agit. La simplicité d'usage ici affirmée se fait donc clairement au détriment d'une granularité documentaire et va furieusement contribuer à entretenir une confusion des pratiques de recherche chez l'usager (ce qui, vous me direz, est parfois le cadet de ses soucis, mais quand même ...)

Ce changement d'orientation majeur est lu par bien des analystes comme un enterrement de première classe, à l'origine duquel on retrouve la recherche universelle de Google : Steve Rubel titre ainsi "La recherche de blogs est morte et c'est Google qui l'a tuée." Avec la nouvelle formule de son outil "Trends" (tendances), avec la rumeur - fiable à 99% - du rachat de FeedBurner et la (lente mais sûre) montée en puissance de la capacité de son outil de recherche de blogs, Google s'est effectivement donné les moyens d'enterrer Technorati.

La clef de voûte de cette nouvelle approche de la recherche d'information à l'échelle planétaire est celle de la granularité du continuum documentaire. Un continuum que l'on s'efforce de nous vendre arguant d'une pertinence renouvellée alors que l'on voit mal comment une telle perte de granularité pourrait accroître même un minimum ladite pertinence. Pour l'instant tout au moins, existe-t-il encore plusieurs silos ...

Fin du soliloque sur les silos. (A suivre ...)

Is it a bird ? Is it a plane ?

On a parfois l'émerveillement facile. Voici que je découvre au fond de mon agrégateur, ce billet de l'incontournable Infosthetics pointant vers ce qui à l'air d'être un nouveau "LivePlasma", c'est à dire une interface graphique groupant par affinité et/ou par genre musical des CDs issus de la base du catalogue Amazon. Gadget, marrant et TRES joli. Oui mais là c'est autre chose. Musicovery.com est un véritable Jukebox en mode radio (le titre du site le présente comme "webradio interactive") qui vous permet, selon le principe des moteurs à curseur (mais avec une interface redoutablement souple et efficace) :

  • de choisir entre différents genres musicaux (OK facile ...)
  • de choisir entre différentes périodes, de 10 ans en 10 ans (OK facile aussi ...)
  • de ne choisir que des "tubes" ou que des titres moins connus ("non-hits")
  • de choisir dans un espace cardinal, et de positionner votre curseur selon 4 directions organisées en deux axes
    • dark => positive (axe horizontal)
    • calm => energetic (axe vertical)

En outre le choix est réellement impressionnant, de Schubert aux Ramones.
En plus une fois que vous avez positionné votre curseur selon votre humeur ou l'effet musical souhaité, l'enchaînement se fait tout seul (fini le recours au DJ's pour les soirées entre amis ou les 1/4 d'heure d'hésitation entre le passage de 2 morceaux sur ITunes)
On peut aussi, simplement en cliquant sur le titre d'un album ou le nom d'un artiste, lancer une web radio "affinitaire" sur la base du choix initial.
En outre, c'est l'outil idéal pour illustrer l'idée d'une sérendipité "flottante", celle ou l'on peut réellement faire des découvertes orientées par un premier choix d'amorçage. Tiens comme il est tard, je vous fait même cadeau pour le même prix d'un deuxième concept chic et pas cher. Après celui de la "sérendipité flottante", j'ai nommé "l'apesanteur informationnelle". Bé oui, parce que cet effet de navigation/lévitation dans un espace flottant, fait furieusement penser à une sensation d'apesanteur, bien loin de la linéaire lourdeur de l'affichage sous forme de liste des résultats. Allez, promis, prochainement un article avec mon comprase sur ce coup-là dans lequel on développera l'idée "d'apesanteur informationnelle". En plus cela fera très plaisir à nos relecteurs (reviewers) anonymes qui sont de plus en plus clairvoyants à force de travailler en double aveugle vu que nous devons être (avec mon comparse) les seuls chercheurs dans notre domaine à parler de sérendipité ;-)
Et si quelques-uns de nos chers moteurs arrivaient à faire une interface aussi fluide en mixant l'ensemble de leurs index dans un espace cardinal de ce type là (j'ai déjà plein d'idées :-), je vous fiche mon billet qu'ils emportent le gros lot et que pour le coup la recherche universelle prendrait tout son sens. Imaginez un peu : vous tapez (ou non) une requête, vous choisissez une période, un type de contenu (vidéos, musique, presse, ouvrages, etc ...), vous affinez selon que vous voulez de l'information à caractère commercial ou non, etc, etc ... le tout simplement en déplaçant votre petit curseur.
Bon bien sûr comme tout ça n'est pas fait que pour amuser des maîtres de conférences désoeuvrés, on peut aussi pour chaque titre basculer vers un achat payant dans ITunes, Amazon ou sur Ebay.
On a parfois l'émerveillement facile. Comment cela ? Vous n'êtes pas encore en train de jouer avec ?

Fortuitement fun

C'est de manière tout à fait sérendipiteuse que je découvre cette bande déssinée sur la ... sérendipité.
Tous droits réservés à l'auteur, le génialissime Lewis Trondheim.

Serendiptrond

Yahoo! les bons tuyaux

Huggy_1 Titres alternatifs de ce billet :

  • "Ceci n'est pas une pipe."
  • "Une petite pipe pour Yahoo!, un grand pas pour la recherche d'information ?" (pardon, je n'ai pas pu résister ... et puis c'est vendredi)

Redevenons sérieux ...

Yahoo! vient de lancer un nouveau service baptisé Yahoo!Pipes. Traduisez : "Yahoo!Tuyaux." L'idée est de mettre à disposition de tous une interface graphique simplissime asez simple permettant de faire de la programmation, un peu sur le modèle des "Pipes Unix"

  • "Un "pipe" (tuyau) est un canal de communication entre deux programmes, reliant la sortie de l'un à l'entrée de l'autre. L'idée (à la base de la philosophie Unix) est de réaliser des tâches complexes en chaînant plein de programmes simples ensembles." Grand merci Nicolas pour cette lumineuse explication :-)

Donc par exemple, on prend des sources d'information, on les couple, on leur pose une question (un mot-clé), on applique diverses instructions (tri, dédoublonnage, affichages divers), et au final on offre à l'usager un tuyau par un bout duquel il entre un terme et à l'autre bout duquel il ressort  ... de l'information. Voilà pour une "pipe", un "tuyau" orienté recherche d'information. Mais il existe quantité d'autres usages et d'autres applications :

  • illustrer automatiquement tous les articles du New-York Times à l'aide de photos du service FlickR
  • construire automatiquement un seul fil RSS pour récupérer les résultats de Yahoo! + Google + MSN + Technorati + qui vous voudrez.
  • etc ...
  • <Update>voir d'autres précieux exemples d'usages</Update>
  • <Update encore>Encore une application très intéressante pour récupérer directement des flux RSS automatiquement traduits. </Update encore>

Bref des possibilités quasi-infinies de mettre en place diverses actions relevant de la recherche d'information, sur n'importe quelle(s) source(s), originelle(s) ou composite(s). Et le tout, "relativement" facilement pour un internaute moyen (mais les geeks iront quand même beaucoup plus vite que les autres ...).

Tout cela s'inscrit dans une dynamique de plus en plus nette d'atomisation, de fragmentation, de segmentation du monde de la recherche d'information. Ou plus exactement "des" mondes de la recherche d'information.
Premier monde : Google. 1 moteur. 1 affichage sous forme de liste (ne changeons pas ce qui marche depuis des millénaires)
Deuxième monde : en voici une rapide approche historico-descriptive ...

  • Premier temps : Communautarisation. la vague des signets partagés (l'usager construit, agrège ses sources et le fait partager à une communauté). Les moteurs lui emboîtent le pas et rachètent/proposent leurs propres communautés
  • Deuxième temps : Fragmentation. Celle permise par l'explosion du RSS, qui offre aux chercheurs d'information de tous poils l'accès à une granularité quantitative et qualitative jusqu'ici impossible à atteindre. Les moteurs lui emboîtent le pas et proposent la plupart de leurs "résultats" au format RSS (notamment les "news")
  • Troisième temps : Mixage. C'est l'ère des Mashups. Celui du couplage. Mixage entre services et/ou mixage entre (un) moteur et (un/des)) service(s).
  • Quatrième temps : Personnalisation. Chacun fabrique "son" propre moteur (Google Co-op), choisit "ses" sources, met en place ses "macros" (LiveSearch) ... avec le risque qui se profile des autarcithécaires ...
  • Et cinquième temps donc ... la plomberie, les tuyaux, l'usager-plombier. L'avenir dira si c'est pour le meilleur (automonie, valeur ajoutée, etc.) ou pour le pire (plombier-polonais de la recherche d'information ??). Un cinquième temps qui marque de manière encore plus radicale la rupture entre, non pas simplement contenant et contenu, mais entre contenant, contenu et procédures.

Ces vagues successives sont révélatrices d'une évolution : 

  • des besoins (plus granulaires, plus spécifiques, plus orientés vers des requêtes de proximité - une pizzeria près de chez moi -  ou transactionnelles - le billet d'avion le moins cher - ,
  • des pratiques (nomadisme informationnel, micro-terminaux)
  • des usages (social search)
  • des modèles économiques (segmentation du marché, marchés "de niche")
  • des sources et des autorités constituées, aussi bien dans le monde universitaire (cf les harassants/vivifiants débats sur Wikipédia) que dans le monde marchand (la meilleure agence de voyage du monde, ou en tout cas la plus visitée "n'est que" un moteur qui compile et trie des sources, idem pour la meilleure agence immobilière, etc...) 

L'usager technophile et "early-adopter" (qui s'il peut apparaître aujourd'hui minoritaire, sera clairement majoritaire demain), est donc aujourd'hui convié à évoluer dans une sphère socio-technique dont "on" lui offre de maîtriser les outils, les environnements, les procédures, les techniques. Les données, ainsi soumises ou souscrites, tournent à leur plein rendement pour produire de l'information, ce qui est dans la nature des choses (au moins pour les théoriciens de l'information et de la communication).

(Rappelons au passage l'importance de la transformation du web en base de données dans cette évolution)
Update : Read/WriteWeb est d'accord avec moi sur ce point - ce qui fait plaisir :-) - et développe une approche plus "techniciste"/"procédurale" que la mienne en indiquant que le développement de Yahoo!Pipes est "l'application de l'ancienne sagesse des bases de données relationnelles au monde du web")

Il reste encore à inventer et à déterminer de quelle manière ces phénomènes (mixages, communautarisation, fragmentation, personnalisation, etc.) et les contours du nouvel environnement informationnel qu'ils dessinent (fractal ET rhizomatique), laisseront place à de la "connaissance". Ou comment la(les) connaissance(s) s'y invitera(ont). Question sans réponse pour l'instant, même si je suis convaincu que les bibliothèques et les folksonomistes, s'ils ne les laissent pas filer, ont en main quelques cartes maîtresses.
En tout état de cause, il semble qu'avec ce nouveau service de plomberie, Yahoo! offre à la recherche d'information le chaînon manquant d'une triple hybridation entre usagers, sources et procédures, de la même manière qu'il y a peu, Amazon avec Amapedia, offrit le sien à l'hybridation nécessaire des modes d'indexation.

Pour approfondir  ...

  • et se faire une idée du débat blogosphérique anglo-saxon sur cette nouveauté : voir les liens sortants du billet de SearchEngineLand.
  • Voir également le billet de Read/WriteWeb qui souligne justement que l'avenir est au mixage des fils (RSS).
  • Même Google trouve ça génial !
  • Update : l'info chez Outils Froids & chez Influx
  • Update encore : explication très pédagogique et "pas à pas" chez Toile Filante
  • Update toujours : Robin Good profite de cette plomberie 2.0 pour annoncer la naissance d'une nouvelle pratique : le Newssmastering, déjfinie comme suit : "The opportunity for sustainable filtering and aggregation of online content into niche websites and dedicated information channels." (Via Martin Lessard)

Bug, béta ... beautiful ?

Prenez trois des plus grosses machines financières de la planète. Et leur ambition de s'intéresser aux livres et à leur mise en ligne. Après le temps du bluff ("Je numériserai plus vite et plus que toi"), après le temps du bug ("Si j'affiche un chiffre, vous n'irez pas vérifier, hein ?"), viendra le temps du "beautiful", de l'achèvement, de l'usager. Ce temps semble venu.
Prenons donc Google books et l'annonce de son nouveau visualiseur. Manue s'y connaît, Manue est exigeante, et Manue n'hésite pas à invoquer la presque perfection. Dixit :

  • "un zoom avant-arrière
  • un tourne-page pour les amoureux du livre "à l'ancienne"
  • un ascenseur vertical, avec chargement progressif des pages, pour les amoureux de la lecture dans Word
  • un affichage "plein-écran" pour plus de confort
  • un système de palettes refermables pour les différents services (notice, achat en librairie, etc.)
  • une table des matières en mode texte (parfois un peu limitée, mais bon, elle existe)
  • un lien vers un service de recommandation et vers Google Scholar et toujours ...
  • une interface simple et intuitive
  • le téléchargement de l'ouvrage complet en PDF
  • la recherche de mots dans le livre."

Nous sommes alors le 21 novembre. Que croyez-vous qu'il arriva ? Le 6 décembreMicrosoft annonce le lancement de Live search books. Comme le souligne Olivier Andrieu pour ce dernier service, la grande inconnue reste celle du droit d'inventaire et du nombre précis (ou approximatif) du nombre d'ouvrages effectivement disponibles ... Suivant en cela les pas de son glorieux aîné, Live Search Books donne dans l'opacité totale. Différence notable cependant d'avec le même glorieux aîné, Live Search Books (appelons-le LSB) ne livre que des ouvrages libres de droits, puisqu'il s'appuie sur le travail de numérisation mené par Internet Archive et ses partenaires de l'OCA.  Mais, via les contrats spécifiquement négociés par  Microsoft avec quelques universités, on devrait voir apparaître dans LSB des ouvrages ne figurant pas dans le fond de l'OCA.

Et Yahoo! me direz-vous ? Et bien il semble qu'il ait fort à faire avec une assignation en justice pour concurrence illicite (ça existe ?) à propos d'un éventuel service Yahoo!books. L'assignation provenant de ... Google. Cette affaire est assez étrange, je l'ai trouvée relayée sur TechCrunch mais n'ai pas pour l'instant davantage de sources ou de documents originaux. Si Google s'attaque à Yahoo! sur ce créneau, pourquoi n'assignerait-il pas de même Microsoft ?? Bref, si vous avez des infos là-dessus je suis preneur ... En attendant, revenons à nos deux autres compères.

Après quelques test rapides, le comparatif Google/Microsoft tourne au net avantage du premier. Mais ce que je retiens de tout cela, le point qui me semble le plus essentiel, plus encore que la "presque parfaite" nouvelle interface du service Google Books c'est l'intégration en son sein du service Google Scholar par le biais d"un système de recommandation. Car, chers lecteurs de ce blog, vous finissez par un peu me connaître. Ma monomanie évangélisatrice à l'adresse des bibliothèques et de leurs catalogues peut ainsi se résumer :

  1. la révolution catalographique est en marche.
  2. Il faut servicialiser le catalogue et
  3. tirer toute la puissance des systèmes de recommandation qui deviennent des adjuvants primordiaux dans toute recherche d'information ou de livre (phénomène de sérendipité).

Or cette intégration de Google Scholar dans Google Books, outre qu'elle réunit deux "continents" documentaires jusqu'ici bien arbitrairement scindés (que serait la littérature "savante" sans la littérature tout court ??), cette intégration disais-je, marque une étape décisive pour les trois points sus-cités.
Ce genre de page en est la preuve : pour une édition des oeuvres d'Aristote dans Google Books, on affiche :

  • les ouvrages liés (du même auteur),
  • une liste de mots-clés (assez étranges au demeurant, faut que je me renseigne pour voir d'où ils les sortent ...)
  • des ouvrages qui citent celui recherché
  • des ouvrages/articles universitaires/académiques en lien avec celui recherché.

Je voudais pas faire ma Manue, mais du point de vue de la recherche, de la visibilité documentaire (et en excluant les -très - importantes limitations dues aux inconnues sur le nombre d'ouvrages de chaque service), on est quand même pas loin d'une sorte d'idéal.  Voilà en tout cas de quoi alimenter la toute dernière polémique à propos d'une certaine pratique de l'édition numérique.

Pendant qu'avance inexorablement le modèle marchand de la bibliothèque, modèle auquel même ses plus ardents détracteurs finissent par trouver au moins l'avantage d'exister et d'innover, l'empreinte de la BNUE se fait de plus en plus diffuse, éthérée, absente, telle une arlésienne numérique. Et l'Unesco réfléchit à un (énième ?)  projet de bibliothèque numérique mondiale, centrée sur les documents rares. Tempus fugit. Verba volent scripta manent ...   

(Voir aussi : Vidéo de Brewster Kahle - Internet Archive - disant tout le mal qu'il pense de Google Books)
(Sources : sous les liens ;-)

Anti-bibliothèque

Les systèmes de recommandation ("ceux qui ont aimé/acheté on aussi aimé/acheté ..."), s'ils sont souvent bidonnés, n'en demeurent pas moins d'excellents outils de navigation intuitive et communautaire.
J'ai d'ailleurs souvent l'occasion de plaider pour leur mise en oeuvre à grande échelle au sein de nos chers catalogues de bibliothèques. Le site LibraryThing, en se basant sur les données issues de son propre catalogue (7 millions d'ouvrages tout de même), vient avec humour de mettre en place un système de recommandation inversée baptisé "Unsuggester". Le principe est simple : vous entrez le titre d'un ouvrage que vous avez catalogué ou lu, et il vous affiche les ouvrages les plus "éloignés". Une sorte d'anti-catalogue ou d'anti-bibliothèque qui ne sert strictement à rien, sinon à nous donner à penser sur les logiques de similarité qui guident chaque jour davantage notre accès aux connaissances comme aux biens de consommation courante.
(Via LTechConfidential)

Sérendipité et algorithmie

La dernière livraison du rapport de l'ambassade de France aux Etats-Unis nous apprend que des chercheurs travaillent une "nouvelle" approche de l'algorithmie des moteurs de recherche permettant de trouver "des liens non triviaux entre publications." Une sorte de modélisation d'une forme particulière de sérendipité.
Toutes les infos sont là, et mes compétences informatiques étant ce qu'elles sont, je suis preneur des commentaires de spécialistes du domaine.

Moteurs de troisième génération

Bonne analyse en provenance de ReadWriteWeb (via ITligentia) sur les différentes "générations" de moteurs :

  1. ère génération : moteurs de contenus ou plus exactement reposant sur l'analyse du contenu des pages indexées. Information retrieval (IR) classique ne prenant en compte que le "matching" (croisement) entre des mots-clés (ceux de la requête et ceux des pages indexées)
  2. ème génération : moteurs de liens ou plus précisément prenant en compte la structure du web. IR "augmentée" et "révolution" du Pagerank.
  3. ème génération : moteurs "sociaux" (de type Rollyo, Eurekster, auxquels il faudrait ajouter leurs historiques prédécesseurs, les sites de signets partagés genre del.icio.us) "designed to combine the scalability of existing internet search engines with new and improved relevancy models; they bring into the equation user preferences, collaboration, collective intelligence, a rich user experience, and many other specialized capabilities that make information more productive."

Cela vaudrait le coup de croiser cette analyse générationnelle avec la même prenant cette fois comme objet les interfaces de représentation et d'accès à l'information. Rapidement on s'aperçoit :

  • qu'aux moteurs de première génération correspond un affichage de type "liste",
  • qu'avec ceux de seconde génération apparaît la notion de cartographie
  • et qu'avec les troisièmes c'est un renvoi à des fonctionnements arborescents (clusterisation, affichage par dossier thématique) qui prédomine.

On pourrait aussi croiser les deux analyses (rapides) précédentes avec une troisième qui concernerait cette fois les pratiques/usages/modalités de recherche.

  • Les moteurs de première génération et leurs interfaces favorisent un modèle de type "pêche au filet" (= je balance un mot-clé et je voie ce que je ramène) et une dictature du mot-clé pour l'affinage des requêtes,
  • les seconds un modèle plus contextuel (je replace dans un contexte) et une vue globale favorisant l'affinage des requêtes mais avec une granularité assez faible (= l'échelle des cartographies est trop importante pour des requêtes génériques),
  • les troisièmes enfin marquant l'avènement de pratiques de recherche communautarisées avec pour l'affinage un avantage de taille, celui du feedback de la communauté. Mais avec également un inconvénient majeur qui conditionne leur pertinence à l'obtention d'une "taille critique communautaire" difficile à atteindre. Au travers de chacun de ces usages, c'est une forme particulière de "sérendipité" qui prédomine.

L'horizon qui pourrait émerger de tout cela serait peut-être une quatrième génération alliant les avantages de trois premières. C'est l'exemple frappant du lancement à quelques jours d'intervalle des possibilités de Géotagger des photos sur FlickR et du jeu-qui-n'en-est-pas-un du Google Image labeller.
On a ici la puissance d'une communautarisation des usagers (ceux de FlickR ou de Google), au service d'une indexation par mot-clé (ou par ancrage géographique pour FlickR mais l'exemple vaut aussi pour l'ensemble des pratiques de tagging - dépôt de mots-clés - que mettent en oeuvre les usagers du service FlickR sur l'ensemble de la base image disponible). On a donc de la première génération (mot-clé) et de la troisième (communautarisation). Et la seconde me direz-vous ? Et bien c'est là que réside la nouveauté et les probables moteurs de quatrième génération : la cartographie n'est plus une interface de contextualisation, elle est le reflet du territoire réel. Car tous les bibliothécaires, tous les documentalistes et tous les scouts vous le diront : la meilleure manière de se repérer sur un territoire est de disposer d'une carte à son échelle exacte.
Les moteurs de quatrième génération seront donc ceux qui permettront une mise à l'échelle, point par point, de la carte de nos requêtes avec le territoire réel de l'information (ce qui est explique l'intérêt - et l'essor -  partagé par TOUS les acteurs majeurs de la recherche d'information pour les services de géolocalisation de type Google/Yahoomaps pas exemple, j'en passe et d'autres GoogleEarth ou géoportails).
Non pas "une" carte à l'échelle "du" territoire, mais autant de cartes que le nécessite ma mouvante territorialité et celle de ma communauté. Comme l'indique Daniel Kaplan : "la carte est le territoire, non parce qu’elle en serait devenue le reflet fidèle et exhaustif, mais parce qu’elle le produit, parce qu’elle le remplace à l’occasion, parce qu’elle interagit sans cesse avec lui."

C'est la rentrée

C'est donc reparti. Par solidarité avec mes deux petits bouts qui reprennent l'école demain (semaine de 4 jours oblige), voici un petit topo de rentrée avec un grand merci aux blogojuilletistes et blogoaoûtiens qui n'ont pas lâché le fil les reliant à leur clavier. Et merci également aux lecteurs d'Affordance, visiblement pas tous à la plage - ou alors avec un portable et une borne WiFi ne craignant pas le sable - qui lui ont permis de franchir la barre des 100 000 visiteurs pour ses un an d'existence (c'était le 30 Août 2005)

Côté moteurs :

  • Exalead : fait peau neuve. Le changement d'interface s'inscrit dans la stratégie d'alignement du frenchie sur les mastodontes américains (accroissement de son index à 4 puis 8 milliards de pages) : le savoir-faire d'exalead en matière de catégorisation se trouve relégué en colonne de droite en lieu et place des liens sponsorisés de ses concurrents. Pour le grand public (cible principale de ce relooking), le moteur gagne en clarté et en simplicité, sans rien perdre en pertinence. Les netchercheurs y retrouveront la plupart des options avancées spécifiques du moteur. François Bourdoncle donne par ailleurs une entrevue au Journal du Net dans laquelle il indique (notamment) ne pas croire aux folksonomies comme alternative ou complément aux moteurs
  • Google : le billet du 4 août de Zorgloob résume l'essentiel : procès avec l'AFP, cours de l'action, nouvelles interfaces linguistiques, révélations sur le rafraîchissement du crawling (tous les 2-3 semaines - voir aussi le billet de Christophe Asselin), et une base de donnée de plus de mille milliards de mots tenant sur 6 DVD bientôt disponible (voir aussi chez Frédéric Martinet) ... A noter aussi le rachat de Neven vision, société spécialisée dans la reconnaissance faciale avec probablement un couplage à l'horizon avec l'outil Picasa et un optimisation des algorithmes de recherche d'image. D'autres rachats sont d'ailleurs probablement à l'étude, urgence oblige ...) Google encore qui signe un partenariat avec la Fox Interactive Media (MySpace notamment ...) de Ruppert Murdoch (Voir l'excellent billet d'Ecosphère, le communiqué de presse) ... La comission européenne a décidément raison de s'intéresser aux mesures prises par l'union dans le secteur des médias ... Google toujours, qui depuis l'entrée du verbe générique "googler" dans les plus prestigieux dictionnaires de la planète s'émeut de ce qui pourrait à terme devenir une utilisation abusive d'une marque ... A tel point qu'il publie un petit mode d'emploi, les "Google Permissions" Une page sur laquelle on (re)découvre les quelque 92 "trademarks" régis par Google dont quelques-unes en fin de liste, combinés à l'analyse des noms de domaine déposés, pourraient faire l'objet de prochaines rumeurs sur la stratégie du moteur. Google enfin, qui a trouvé en Jean-Marie Le Ray son James Ellroy : ses billets de l'été autour de diverses rumeurs de services annoncés se lisent comme autant de nouvelles policières. A déguster sans modération.
  • Yahoo! de son côté innove aussi en matière d'interface ... spatiale ... C'est en corée que cela se passe : difficile à décrire, le mieux est encore d'aller voir vous-même en saisissant le nom de votre site préféré. Vous verrez alors les sites liés s'afficher sous forme de planète, avec une petite fusée qui vous amènera sur celle de votre choix. Après un effet de Zoom, la planète s'enrichira d'une petite maison vous menant sur le site concerné. Le tout avec de petits effets sonores sympathiques. Si au final tout cela ne mange pas de pain et est encore bien loin d'utiliser toutes les possibilités autorisées par ce genre de réprésentation  "cartographique" (ainsi à la différence d'un Kartoo, la taille et le type de représentation choisi pour les planète semble n'avoir aucun lien avec le site qu'elles représentent), le côté ludique et bien léché à tôt fait d'emporter l'adhésion. Mais tant que les gens continueront d'aller faire leur courses avec une "liste des courses" et non avec une carte heuristique des denrées nécessaires pour la semaine, le parangon de l'affichage des résultats d'une requête continuera probablement d'être celui de la liste, et non de la carte. N'empêche, elles sont jolies ces planètes :-) Yahoo qui innove copie innove encore en lançant également son Rollyo à lui, confirmant la tendance aux moteurs personnalisables.

Côté Social Search :
Jean-Marie Le Ray nous offre la traduction d'un article de Chris Sherman. Pendant que Fred Cavazza pointe justement la nécessité et l'urgence d'adopter un standard d'interopérabilité pour s'y retrouver dans la multiplication des mêmes "réseaux sociaux de niche", lesquels, pas forcément de niche d'ailleurs, sont la "tocade des investisseurs" selon l'article du Figaro : mais avec Google/MySpace d'un côté et Microsoft/Facebook de l'autre, l'interopérabilité n'est pas pour demain ...

Côté moteurs ET bibliothèques numériques :
Le volet "bibliothèque" pourrait bientôt faire un bond de 2,5 millions de volumes ! Des négociations sont en effet en cours avec l'université de californie (réunissant 100 bibliothèques sur 10 campus) (Via Prosper qui le tenait du LA Times). Sur le même thème, voir aussi l'article du Washington Post : "Search Me"
Et pour ce qui est de la bibliothèque "scientifique" numérique, Google Scholar s'enrichit d'une fonction "related article" permettant de rechercher les articles "similaires". Il serait intéressant d'étudier, pour un corpus d'articles donnés, le taux de recoupement entre cette fonction et les articles citant le corpus (fonction "cited by") ... Ce qui pourrait par exemple permettre de quantifier des valeurs de "sérendipité". Peut-être dans un prochain article ... Gabriel et Eric, si vous me lisez  ... :-)

Côté bibliothèques numériques :

  • Jean-Michel Salaûn propose un intéressant néologisme pour rendre compte des mutations des métiers des bibliothèques : "archithécaire". Extrait : "Le terme de bibliothèque numérique me paraît inadéquat pour rendre compte du repositionnement nécessaire.(...) Je proposerais volontiers le néologisme d’ « archithécaire ». Il commence comme archiviste et finit comme bibliothécaire, illustrant la fusion des métiers dans le numérique. Il renvoie à une archi-thèque, c'est-à-dire, bien au-delà d’une bibliothèque par les items concernés et par ses outils, mais reste défini sur un lieu, représentant une communauté. Enfin l’homophonie avec architecte est bienvenue." D'autant plus bienvenue que je me souviens de la définition de l'architecture donnée par Plotin : "Ce qui reste de l'édifice une fois la pierre ôtée". La bibliothèque numérique l'archithèque pourrait donc être "ce qui reste de la connaissance une fois la pierre du livre ôtée".
  • Comment chercher dans le catalogue de plus de 10 000 bibliothèques ? Avec WorldCat dont la nouvelle version est en ligne. Et c'est tant mieux.
  • à lire également le remarquable article d'Alain Giffard à propos des bibliothèques et de la lecture numérique.

Et puis comme nous n'étions déjà pas loin de tous être devenus bibliothécaires, la dernière innovation d'Amazon fera peut-être que nous serons un jour tous libraires ... L'occasion de signaler que mon été (un peu) studieux bien que non blogosphérique m'a permis de répondre à l'invitation de Christian Thorel via la rédaction d'un article pour la revue "Les cahiers du syndicat de la librairie française", intitulé "
D’un numérique l’autre : des moteurs, des libraires, et des usages." J'en reparle et espère pouvoir reproduire le texte sur ce blog lors d'un prochain billet.

Côté Blogosphère
Elle n'en finit pas de monter et de monter encore selon l'institutionnel billet de Dave Siffry.
Oui mais ... comme le souligne Francis Pisani puisant aux sources du DataMining : "Quand on se  penche sur les statistiques de population on ne compte pas les morts. Pourquoi le faire pour les blogs?" Blog or Alive :-)


Côté Science 2.0

En Vrac :

Et pour conclure, un poème à la gloire ... de l'Open Access. Dont l'auteur n'est autre que son héraut, Stevan Harnad. Le titre en est tout simplement ... "Publish or Perish" :-)

"As Science is mere structured common sense,
        her means but trial-and-error made intense,
        the only virtue setting her apart,
        and raising her above (some think) mere Art,
            is her convergence ever on consensus:
            collective, self-corrective her defenses.
        A flagellant, she boldly does defy
        Reality her schemes to falsify.

        And yet this noble jousting were in vain,
        and all this pain would yield no grain of gain
            if Science were content, a shrinking violet,
            her works from all the world 'ere to keep private.
            Instead, performance public and artistic,
            restraining all propensities autistic,
        perhaps less out of error-making dread,
        than banal need to earn her daily bread.

        For showbiz being what it is today,
        work's not enough, you've got to make it pay.
            What ratings, sweeps and polls count for our actors,
            no less than our elected benefactors,
            for Science the commensurate equation
            is not just publication but citation.
        The more your work is accessed, read and used,
        the higher then is reckoned its just dues.
            Sounds crass, but there may be some consolation,
            where there's still some residual motivation
        to make a difference, not just make a fee:
        the World Wide Web at last can make Science free.


FlickR'istique

Une belle carte heuristique du "modèle" FlickR.
(Via Infosthetics)

Âge d'or des sciences sociales ?

Tout est chemin. Et tous les chemins mènent au web. Tout est - ou paraît - traçable, mesurable, empiriquement chiffrable, même si certaines métriques restent obscures. Voici en tout cas ce qui dans un article du Chronicle sur la question fait dire à certains que "nous entrons dans l'âge d'or des sciences sociales", et d'ajouter "We know more than we ever did about what's on people's minds." Lier pour être vu. Voir et cartographier. Voir pour cartographier. Cartographier pour comprendre. Voilà une chaîne qui marque l'essor des "cartes de l'Internet" et l'engouement jamais démenti du public pour des applications comme Google Earth ou le tout récent (et toujours inaccessible Geoportail.fr).
Pulsion scopique planétaire. "(...) pulsion scopique et son dérivé complexe, la pulsion de savoir (Wissentrieb) que Freud considère comme une pulsion composée par le plaisir de la pulsion de regarder, s’ajoutant à l’énergie de l’activité de maîtrise" (source) ...
Mais ici comme en d'autres champs, Martin Dodge conclut en indiquant : "We're still waiting for the Mercator map to emerge".
(Source : The Chronicle, Section: Information Technology, Volume 52, Issue 43, Page A18 - en ligne -)

L'avenir de la recherche : similaire et affinitaire.

La page Vissimweb est une application (Mashup) tournant sur le catalogue d'Amazon et permettant de visualiser une arborescence à 2 niveaux présentant des produits "similaires" à celui recherché (système de recommandation : "si vous avez aimé ... , vous aimerez aussi ...").
Plusieurs remarques ...
Ce n'est pas la première application intéressante qui vient se calquer sur le plus gros catalogue culturel commercial de la planète, avec tous les risques de détournement que cela suppose dans le cadre de catalogues précisément "commerciaux". En revanche, pour l'avenir du Catalogablog, universitaire notamment, elle laisse entrevoir un champ d'expérimentation passionnant dans le domaine des interfaces de consultation et d'accès. Le catalogue 2.0 a donc de beaux jours devant lui.
Autre remarque : dans l'héritage des sites collaboratoires (partage de signets notamment, del.icio.us), on voit fleurir les sites de recherche par similarité et/ou par affinité. Dans la première catégorie, similarité, citons notamment Similicio.us, comme un lointain écho aux commandes "like:" ou "related:" (recherche de sites similaires) de nos chers moteurs.
Dans la deuxième catégorie - affinité -, on trouve notamment les énormes machines comme MySpace, ou les fonctionnalités de recommandation d'Amazon mais aussi de la plupart des sites dits de partage. Recherche du même, du semblable, de l'approchant, de l'identique.
En terme de stratégies de recherche d'information on dispose de trois situations de départ théoriques possibles*** :

  1. je sais précisément ce que je cherche : Exemple : le titre du dernier Harry Potter / je tape un mot-clé sur Google et/ou je vais sur le site qui en vend, et je le trouve (en général)
  2. je ne sais pas ce que je cherche : Exemple : une idée cadeau - un bouquin - pour le fils d'un voisin qui a adoré le dernier Harry Potter / j'utilise des sites "affinitaires" (cf plus haut et plus bas).
  3. je sais que je ne sais pas ce que je cherche : Exemple : je dois rédiger un mémoire sur "la littérature jeunesse en France depuis les années 70" / j'entame un processus d'apprentissage, j'utilise des moteurs cartographiques ou des techniques de clustering pour "faire émerger" ou cerner mon objet de recherche.

Si l'on admet donc pour les besoins de cette (rapide) démonstration, que les valeurs de similarité et d'affinité sont les deux leviers principaux de toute la vague dite du web social ou web 2.0, cela renvoie en écho au rêve de Bush dans son article fondateur "As we may think." Nous disposons effectivement aujourd'hui de machines qui sont autant de modes d'accès à l'information, dont le coeur de fonctionnement est associatif. Un associationnisme qui se déploie selon ces deux axes de l'identité de l'objet recherché (similarité) et de sa proximité "sémiotique" (affinité).
J'irai donc beaucoup plus loin que Tristan Nitot quand il indique (justement par ailleurs) que "le web 2.0 était la vision initiale de Tim berners Lee", en constatant que l'essence sociale du web (2.0 si l'on veut), était la vision initiale de Bush.

(Via Programmableweb)

*** Voir notamment : Belkin N., Helping People Find What They Don't Know, in Communications of the ACM, August 2000, Vol. 43, No. 8.

Moteur de sérendipité

Vous aimez l'aléatoire ? Voici encore une trouvaille aussi récréative que bluffante du site Infosthetics : cela s'appelle Swarm. Le principe est simple : une communauté d'utilisateurs qui téléchargent un petit plug-in pour Firefox. A partir de là (et anonymement), tous les sites qu'ils visitent s'affichent en cercles concentriques sur Swarm. Au centre les plus visités, et vers la périphérie les autres. Chaque fois que quelqu'un passe d'un site à un autre, un lien est visualisé entre les deux sites en question, et le tout, toujours en temps réel.
Plusieurs réflexions à la hâte :

  • l'intérêt d'un tel site se mesure d'abord à la taille de la communauté qu'il fédère (mais n'est-ce pas là précisément tout le problème du web 2.0 ... le web 1.0 tirant toute sa force de l'ignorance d'une telle loi)
  • en l'occurence, la communauté semble suffisamment représentative : le centre est composé de la quasi totalité des services Google, de beaucoup de sites pornographiques, le tout saupoudré d'un peu de wikipedia.
  • j'y vois (mais je suis un peu monomaniaque) un nouvel avatar de cette logique partiellement randomisée mais suffisamment orientée ("sérendipité") qui dresse une carte en renégociation constante de nos chemins documentaires au coeur du docuvers. Une fonctionnalité originale d'un 'moteur de sérendipité' qui retrace nos hyperliens.

Moralité : faut le voir pour se faire une idée. C'est vraiment bluffant.

Voir le catalogue

La catalogue. TOUT le catalogue. RIEN QUE le catalogue. Celui d'Amazon. En une page et avec un "simple" zoom. Et demain ? Celui de nos bibliothèques ? Et si l'offensive déterminante de la bataille des livres à l'heure des numériques bibliothèques se jouait sur le double terrain de l'ouverture et de la visualisation du (des) catalogue(s) ?
(Via l'incontournable Infosthetics)

Le web des (bonnes ?) intentions

L'idée de la recherche "par intentions" n'est pas neuve. Elle progresse. Elle intéresse beaucoup de monde. La base de donnée (des intentions) d'un tel moteur est d'ailleurs pour ainsi dire déjà prête. Côté 2.0, c'est désormais également chose faîte, les intentions ont la côte. Elles ont leur moteur de recherche (Otavo) et leur petit coin de poésie cotonneuse. Entre tags et nuages, se placent donc ces chères intentions dont les concepteurs du moteur Otavo indiquent : "Les tags sont des catégories. En tant que telles, ils ne conservent aucune indication sur le pourquoi et le comment vous utilisez et/ou accédez à l'information "tagguée". (...) Les intentions conservent le pourquoi et le comment vous utilisez l'information."
Cette mise à la mode et à toutes les sauces (2.0 comprise) du concept d'"intention" ressemble fort à celle, idoine, de la "réputation" et de l'économie qui lui est associée. Elle est l'occasion de réfléchir de nouveau aux résonances de certains glissements sémantiques qui font que la réputation n'est pas nécessairement un gage d'autorité (et encore moins d'autoritativité), à l'instar d'intentions à faible teneur en intentionnalité. Cet article présente quelques pistes pour réfléchir à cette notion d'intentionnalité dans la perspective d'une épistémologie de ces "machines à chercher". Epistémologie qui est rendue chaque jour plus nécessaire au regard des enjeux et des transformations techniques, sociétales et économiques et cognitives qu'induisent nos chers moteurs.
Note personnelle : l'Intentionnalité (au sens de Searle) est clairement à rapprocher de la sérendipité (au sens de Merton) dans la mesure où la première se veut "la capacité biologique fondamentale de l’esprit (mind) de mettre l’organisme en rapport avec le monde. Cette propriété de renvoi (directedness) à des objets et à des états de choses du monde est commune aux états mentaux (intrinsèquement Intentionnels) et aux actes de langage, ces derniers n’étant qu’un développement particulier de formes plus primitives d’états et d’actions intentionnels." (Source) 

Premier Lundi.

Parution donc de First Monday. Avec de quoi satisfaire les monomaniaques dans mon genre, et aussi les autres sur les questions de créativité (qui comme vous le savez est le moteur de la sérendipité, à moins que ce ne soit l'inverse, mais ça ce sera dans le prochain article qu'on vous prépare avec mon collège GG :-). Pour vous mettre en appétit, je vous livre une partie de la conclusion du premier article : "In Google we trust" qui explore les usages des médias** et le rapport de confiance avec les usagers : "If profitability is the foundation of trust, then Enron looked like a stalwart of twenty–first century America — until it was revealed that the profit reports its reputation was based on were fraudulent" ...

Update de 10 min. plus tard :
** à croiser avec cet article du LATimes : "New Media Paradox" où l'on voit que la multiplication du nombre de sources d'information, n'entraîne pas nécessairement (loin s'en faut) la multiplication des "points de vue" ...

Moteur de divination

Vous connaissiez déjà la "base de donnée des intentions" ? Et bien voici venu le temps d'"Améliorer la recherche en devinant les intentions." Tel est le titre d'une conférence en ligne donnée à Stanford par Dan Russell (de chez Google) dans le cadre d'un séminaire sur les IHM (Interfaces Homme-Machine). L'idée n'est certes pas neuve, mais elle se précise. Quelques prises de notes  :
------
Tout commence avec le classique problème des homonymies : "Quand vous tapez "Jaguar", que cherchez-vous en fait ?", animal, système d'exploitation, voiture, etc ... question complexifiée par les types de contenus associés à la requête (image, vidéo, page web, actualité, etc ...). Et le conférencier de s'exclamer : "When someone types 'Google' into Google, what can we possibly tell you !?".
Le problème peut apparaître très basique mais souvenez-vous qu'il peut aussi prendre rapidement d'intéressantes résonances philosophiques ...
------
Plus tard (la vidéo fait plus d'une heure trente ...), il revient sur la distinction classique entre requêtes :

  • Informationnelles : 63%
  • Navigationnelles :  15%
  • et "Ressources" (=transactionnelles ?) : 22%

On constate alors l'émergence de 2 "macros" comportements de recherche ("session patterns") :

  • une recherche en 2 temps : je localise un site puis je l'explore pour trouver la réponse.
  • une recherche de type "téléportation" : je n'utilise pas Google, je vais directement au site-réponse.

Pour que ces stratégies soient fiables, Dan Russell souligne que : "Users need to have heavy metaknowledge about the ressource". Ce qui est le propre des chercheurs "avancés" qui semblent en sus caractérisés par le fait qu'ils utilisent la recherche par expression à bon escient (" ...") et qu'ils changent l'ordre des mots de la requête (x,y) puis (y,x). Reposant au passage la délicate articulation
entre des pratiques "novices" et "expertes".
Plus globalement (c'est moi qui parle :), le problème de tout ce champ de recherche est que l'on postule l'intentionalité du chercheur. (là c'est de nouveau le conférencier qui parle :) On suppose qu'il a un but en tête. Et on fait donc l'impasse sur ceux qui se "balladent" ou errent sans but véritable. Il est donc impossible de déterminer la part de la sérendipité à cette échelle d'observation.
------
Il semble que l'un des outils méthodologiques les plus surveillés par l'équipe IHM ("Usability labs") de chez Google soit en fait la fonction "refine search" qui (je n'y avais jamais pensé en ces termes) est un remarquable indicateur permettant d'établir des corrélations entre ce que les gens tapent et ce qu'ils cherchent "en fait" parmi la liste proposée. Entre les deux se construit une échelle d'intentionalité qui semble observée de très près par Dan Russel.
------
Et là, au bout de 58 minutes de diffusion, alors qu'il en restait à peu près encore une bonne demi-heure ... c'est le crash. Impossible de relancer. Je ne saurai donc jamais si lemoteur de divination est pour demain :-(
------
A noter aussi vers la 42ème minute, une vidéo d'eye-tracking assez sympathique (pour ceux qui n'en ont jamais vu, comme moi)

(Via Rashmi Sinha)

Défiance et pertinence

La dernière étude de Jean Véronis et de ses étudiant(e)s est disponible dans ce billet. Le principal résultat est que la pertinence des résultats des deux gagnants (Google et Yahoo!) est relativement faible. Les évaluateurs de cette pertinence sont en l'occurence les étudiants de Jean qui ont "noté" les résultats renvoyés par les moteurs. Un premier commentaire de cette étude est disponible chez Jérôme.

L'effet égalitaire des moteurs de recherche (?)

Après le papier (dont nous vous parlions ici) de Jean-Paul Delahaye dans "Pour la Science" qui plaidait pour que Google rende public son algorithme (ou à tout le moins une part significative de ce dernier), John Battelle relève un débat relayé dans les pages de The Economist et qui agite la communauté scientifique américaine suite à un article déposé dans ArXiv : cet article intitulé "The egalitarian effect of search engines" prétend, à l'inverse des idées habituellement répandues selon lesquelles les moteurs de recherche favoriseraient les sites déjà bien "référencés" (ou "effet saint Thomas" ou encore "on ne prête qu'aux riches"), cet article prétend donc que contre toute attente les moteurs de recherche ont un effet égalitaire (egalitarian effect), favorisant les sites les moins "vus". La sérendipité l'emporterait-elle donc sur le PageRank ? En tous les cas il est troublant de constater, au moment ou s'achève le Sommet Mondial sur la Société de l'Information que de part et d'autre de l'Atlantique, chercheurs, économistes et éditorialistes plaident plus que jamais pour une transparence accrue de l'algorithmie des moteurs. Sinon ...

Exalead bloggue

François Bourdoncle, PDG d'Exalead (pertinent moteur français dont on attend impatiemment qu'il propose à la BnF une offre de numérisation :-), François Bourdoncle, disais-je, tient pour une semaine un "blog invité" à cet endroit. Son billet Search 2.0 traduit et illustre parfaitement ce que quelques modestes chercheurs essaient de modéliser à l'échelle des processus et des patterns ("motifs") de la recherche d'information au travers (mais pas seulement) de la notion de sérendipité. L'idée est, pour reprendre les termes de son billet, de remplacer le processus de recherche par "essai et erreur" par un autre qui "vous permettr(ait) de chercher comme vous pensez, de fil en aiguille, et par association d’idées". Ce qui n'est pas étranger (doux euphémisme) à l'article du précurseur de l'hypertexte, Vannevar Bush : "Human mind works by association").

L'homme est un réseau pensant

G. Siemens propose une présentation powerpoint et ses commentaires enregistrés sur le "connectivisme" ou la "manière de repenser l'apprentissage à l'ère digitale." Dit comme cela (c'est la loi du genre avec les powerpoints ...) il faudrait un ouvrage entier, mais quelques diapos suffisent ici pour apporter un très bon éclairage sur l'impact supposé des technologies RSS, des blogs et autres outils du web 2.0 (tags, folksonomies ...) par rapport aux processus d'apprentissage. En écoutant les commentaires de la 6ème diapositive qui affiche :

  • "I am not the Network. I am on my own network
  • Pattern recognition (not information processing)"

je repensais au commentaire de Jean-Michel suite à ce billet et au processus de recherche d'information comme relevant de plus en plus (dans le contexte qui nous intéresse : rss, blogs, folksonomies etc.) de ce que Lave (& Wenger) appellent l'apprentissage par la légitimation de la participation périphérique ("Legitimate Peripheral Participation") avec l'idée selon laquelle j'apprends davantage quand je suis en situation de participation périphérique (co-apprentissage) que quand je suis au centre de l'action d'apprentissage (dans ue relation plus hiérarchique : enseignant => apprenant). Cela peut se décliner de la même manière dans le contexte actuel de la recherche d'information : je trouve et rassemble plus rapidement suffisamment d'éléments pertinents par cette observation périphérique (= à la marge) des informations circulant dans la communauté d'intérêt que je me suis appropriée que si j'étais dans le cadre d'une recherche plus "processuelle". Ce qui revient également à énoncer la première loi de la sérendipité : "Je trouve plus et mieux quand je ne cherche pas" :-)
(via Weblogg-ed)

Et le 'chercheur' devînt 'trouveur'

Voilà quelques années maintenant que je m'intéresse (et que j'essaie d'intéresser les autres, au premier rang desquels mes étudiants) à la recherche d'information. Voilà quelques années également que l'on parle des technologies "push" qui après une série de promesses novatrices engendrèrent dans un premier temps (faute de services pertinents) beaucoup plus de désenchantement que de statisfaction. Ces technologies ont cependant désormais recouvrées une nouvelle jeunesse et de nouvelles ambitions, grâce notamment à l'avènement du RSS et (même s'il ne s'agit cette fois encore que de promesses) au web sémantique. Voici quelques temps également que je m'intéresse avec un collègue niçois au phénomène de sérendipité (ou 'faculté de trouver avec habilité quelque chose que l'on ne cherchait pas'). Or donc, voici que je m'aperçois soudainement que nonobstant les centres d'intérêt précités, je ne suis plus un "chercheur" d'information mais bien un "trouveur", et me trouve du même coup au centre de mon sujet d'étude (la sérendipité et la recherche d'information).
Je m'explique ... Il y a maintenant quelques mois que, contrairement à ma pratique professionnelle précédente qui m'obligeait à être constamment "en recherche" d'information pour étayer mes centres d'intérêt, mes articles ou mes cours, il y a maintenant quelques mois disais-je, que si j'exagère un peu (à peine) je n'ai plus utilisé un moteur de recherche pour déposer une requête ... Et pourtant je n'ai jamais trouvé autant d'information, aussi vite et de manière aussi pertinente au regard de mes centres d'intérêts. Comment est-ce possible ?
Grâce à la sérendipité, aux blogs et aux techniques de visualisation de l'information.
Commençons par les blogs.
Il semble que je bénéficie de "l'effet pundit". Les 'pundit' sont ces experts souvent auto-proclamés (espérons que ce ne soit pas mon cas) qui drainent vers eux et sur un domaine de compétence plus ou moins étroit les avis et commentaires d'autres experts. Or il se trouve que via UrfistInfo tout d'abord, puis affordance.info, je suis devenu un (petit) centre névralgique vers lequel se tournent les regards éclairants et les commentaires judicieux sur les thématiques que je m'efforce de traiter. Or il n'est qu'à utiliser les petits gadgets de visualisation qui figurent dans la colonne de gauche de ce blog (sous la rubrique 'd'où venez-vous') pour avoir une idée en temps réel des blogs qui viennent visiter celui-ci et qui sont bien souvent des sources incontournables d'informations sur les mêmes sujets. Nous sommes donc ici en présence d'une communauté d'intérêt générée et non imposée par une quelconque hiérarchie ou administration, ce qui fait à la fois sa force et sa pertinence. Car en effet ces blogs que j'ai découvert par le biais des mes petits outils de "suivi de visite" sont de facto ceux dans lesquels je puise bon nombre d'informations ou d'idées pour mes propres billets et mes propres recherches. Ils sont également ceux à partir desquels je découvre (via leurs propres listes de liens - blogroll-) les autres blogs restant à visiter de ma propre initiative.
Seconde étape : les techniques de visualisation et le "temps réel". Des outils comme celui-ci me permettent de fureter en quête de débats ou d'opinions à relayer sur mon blog. Outils auxquels s'ajoutent les fameux "tags" (folksonomies) et leurs propres techniques de visualisation (tagclouds) qui là encore permettent d'agréger "au fil de l'eau" nombre de sites ou de billets pertinents.
Troisième étape : le RSS. Ayant constitué (grâce aux deux étapes précédentes - et à pas mal de temps quand même - une liste de fils RSS à la fois très centrés mais aussi très 'à la marge' au regard des questions qui m'intéressent, et en monitorant de temps en temps lesdits fils, il est fréquent que l'un de ces billets soit à son tour source d'inspiration pour étayer et/ou réfuter et/ou faire naître une nopuvelle idée, un nouvel argument.
Chacune de ces trois étapes est le plus souvent accomplie de manière totalement fortuite (ou sérendipiteuse (mais pour le coup la finale 'piteuse' sonne assez mal ;-).
Enfin, les moteurs de recherche classiques (que je n'utilise guère plus de manière classique) ont également contribué à faire de moi ce 'trouveur' grâce d'une part au mouvement de dérive des continents informationnels qu'ils stigmatisent et grâce également aux nouveaux outils relevant de la sérendipité qu'ils implémentent à tour de bras.
Pour résumer : je n'ai jamais "trouvé" autant d'information, autant d'information "pertinente", en si peu de temps, et en déployant si peu de techniques avancées de recherche (booléens, outils de veille, etc.).
A vous décourager d'enseigner cela aux étudiants ;-) Sauf à pondérer le tout par l'un des corrélats de la sérendipité : "la chance ne sourit qu'aux esprits préparés" qui, si on la met en résonnance avec l'aristotélicienne "tout est dans tout" (et réciproquement), implique que je n'aurai jamais pu si naturellement passer de l'éreintant statut de 'chercheur' à celui, jubilatoire de 'trouveur', si l'un n'avait précédé l'autre, et si n'avait pré-existée la "base de connaissance personnelle" péniblement constituée au fil des années et qui semble aujourd'hui avoir trouvé son seuil de sérendipité : celui à partir duquel elle comporte suffisamment d'informations et de sources permettant de renvoyer vers d'autres dont la majorité s'avérera pertinente et dans lesquelles le bruit informationnel sera quantité négligeable.

Visions délicieuses

Nous parlions il y a peu des nuages de mots, voici sur cette page une liste d'applications gratuites vous permettant de visualiser de différentes manières la communauté del.icio.us :

(via SocialSoftwareWeblog)

Panoramio

Panoramio est un service en ligne qui permet d'associer des albums de photos Flickr aux célèbres GoogleMaps. On y navigue à partir de la planisphère Google, à partir des albums de photo Flickr ou en entrant un nom de ville. N'importe qui peut envoyer ses photos correspondant à n'importe quel point du globe, ce qui occasionne parfois certaines surprises telles de jeunes et accortes nymphettes à quelques endroits du globe, mais de manière générale, ce sont bien les paysages et les cartes postales qui sont à l'honneur. Bref, l'agence de voyage virtuelle dont nous avions toujours rêvé. Justement, rêvons un peu ... Micromégas, mes futures vacances.

Nuage de mots.

Nuageafford_1
En anglais cela s'appelle des 'Tagclouds' et WikiPedia en donne la définition suivante : "Un nuage de mots est un affichage visuel des mots-clés (tags) contenus sur un site web"
Vous pouvez ainsi afficher un "pavé" contenant les mots clés contenus sur tel ou tel site (tel ou tel blog) lesquels s'afficheront avec une police d'autant plus grande que leurs occurences seront nombreuses.
Le service en ligne Tagclouds.com vous permet (après une inscription gratuite) de réaliser vos "nuages" à partir de n'importe quel fil RSS : vous pouvez même affiner en choisissant entre 100 et 250 le nombre de mots composant votre nuage ainsi qu'établir une liste de "stopwords", les mots que vous ne souhaitez pas voir figurer dans votre nuage.
Les applications ludiques sont nombreuses et des nuages peuvent être générés à partir de fils RSS existants mais aussi à partir des moteurs de recherche qui vous permettent de générer automatiquement des fils RSS sur telle ou telle requête (technorati par exemple, Jean l'a testé ici).
Autre exemple, voici ce que cela donne pour le fil de syndication d'affordance.
On peut aussi, si l'on est joueur, "gazéifier" des fichiers OPML. J'ai pris les 450 fils que je consulte le plus souvent dans mon aggrégateur et voilà le résultat (la dernière zone de l'URL indique le nombre de mots composant le nuage, vous pouvez la modifier à volonté)
Evidemment, chacun des mots de ces nuages est aussi un lien hypertexte renvoyant vers le billet, le site ou le résultat d'origine. Il s'agit donc là d'une clusterisation à la volée qui vous permet de vous faire vos champs lexicaux sur tel ou tel site et d'inclure ça au titre d'outil complémentaire dans un plan d'analyse, de veille ou de ce que vous voudrez.
Pour le côté poétique de la chose je vous conseille la lecture de ce billet (et plus généralement de ce blog) qui s'interroge sur les enjeux et les usages poétiques de ces nuages de tags et plus généralement des folksonomies, dans l'héritage des problématiques de la littérature et des fictions hypertextuelles. Le tout avec la tête dans les nuages :-)

Connectivité, Sociabilité et Google Bombing.

Dans la série "les articles que j'aurais aimé écrire", il y a de manière générale tous ceux de First Monday, avec une mention spéciale pour celui-ci qui analyse le phénomène du Google Bombing pour en conclure qu'il permet "la construction de réalités alternatives au travers d'une action collective en ligne." Cet article fait remarquablement écho à la reconnaissance et à l'acceptation par Google 'himself' du Google Bombing, reconnaissance que nous signalions ici comme particulièrement problématique.
Au travers de quelques exemples célèbres de Google Bombing cet article reprend et illustre les thèses développées par A. Beaulieu autour des "hyperliens sociaux" : "Sociable hyperlinks: An ethnographic approach to connectivity," In: C. Hine (editor). Virtual methods: Issues in social research on the Internet. Oxford: Berg, pp. 183–198, 2005.

Trois manières de fouiller le web

Dans la dernière livraison d'Inf@viz, Juan C. Dürsteler propose une carte conceptuelle (mindmap) inspirée des travaux de Patricio Galeas autour de la notion de "web mining" (fouille du web, à l'image du "Data" Mining, fouille de données).
Il propose de décomposer le web mining en trois sous groupes portant sur des analyses distinctes :

  • WUM : "Web Usage Mining" qui s'intéresse notamment à l'analyse des logs pour retracer des profils d'utilisateurs et s'attache également à déterminer des formes ("patterns") de navigation.
  • WCM : "Web Content Mining" qui s'intéresse au "contenu" (pages web et résultats d'une recherche)
  • enfin le WSM "Web Structure Mining" qui prend en compte les hyperliens (statiques ou dynamiques)

Sur la page de Patricio Galeas on trouvera une présentation plus détaillée de ces notions, une liste de chercheurs et d'organisations y travaillant ainsi qu'une liste de logiciels, d'articles et de projets sur la question. Bref, une remarquable page ressource.
Il est intéressant de remarquer au regard du précédent billet que sans être à proprement parler de la fouille de données, les trois directions que prend la recherche sur le web collent assez bien à cette typologie :

  • le fonctionnement "classique" des moteurs s'apparente au web content mining
  • les fonctionalités de type folksonomies permettant d'ajouter des "tags" sur telle ou telle page relèvent eux d'une recherche plus "structurelle" (web structure mining), même si en l'occurence cette structuration n'est pas inhérente et objectivée (il existe tant de liens entre tant de pages) mais opérée après coup et totalement subjectivée (les "tags" sont posés a posteriori et sans aucune logique ou vue globale de l'ensemble ou sans possibilité d'objectiver ce type d'indexation).
  • enfin les pratiques collaboratives de recherche (signets partagés, search party et autres MyWeb) reposent entièrement sur des catégories d'usages différenciés et permettent là aussi d'isoler des formes ("patterns")

Par ailleurs chacune de ces catégories dessert plus particulièrement deux des trois types de requêtages définis par François Bourdoncle : requêtes informationnelles d'une part et navigationnelles d'autre part (le troisième type étant réservé aux requêtes transactionnelles - du type "acheter un billet d'avion" - et pouvant donc être incluses dans le groupe générique des requêtes informationnelles).

Dès que j'ai 5 minutes je remets tout ça sous la forme d'une jolie mindmap ;-)

Dérive des continents informationnels

Dans la course bataille compétition qui oppose Yahoo! à Google, c'est depuis quelques temps le premier qui semble prendre un net avantage en termes d'innovations et de services.
Loin de la fanfare médiatique accompagnant les projets Google Print, et non content de grignoter des parts de traffic (outre-atlantique notamment) à l'ogre de Mountain View, Yahoo! a en quelques mois marqué sinon quelques points en tout cas occupé le terrain de l'innovation en matière de recherche d'information :

  • d'abord avec Yahoo!Mindset et son curseur permettant d'isoler l'information commerciale de la non-commerciale (voir notamment ce billet ou celui-là)
  • ensuite (et peut-être en forme de boutade au fameux "feeling lucky" de l'autre), avec l'Instant Search qui en cours de frappe vous affiche les résultats les plus pertinents pour les recherches populaires proches des lettres ou mots-clés saisis. Un peu dans la lignée de Google Suggest avec l'avantage d'afficher une "vraie" réponse plutôt que simplement le nombre de réponses correspondantes à telle requête.
  • ensuite avec MyWeb2.0, qui dans la lignée de la fusion de services prônée par Yahoo! permet de pratique la recherche "collaborative" (un précurseur l'avait tenté par là) en y adjoignant la  richesse des folksonomies. Le principe est se veut simple : vous saisissez un mot (blogs par exemple) et l'écran de résultats est divisé en trois onglets : le premier baptisé "Pages" affiche les pages correspondant à la requête non pas dans l'index de Yahoo! mais dans la base de donnée construite par les internautes disposant d'un compte sur ce service (un peu à la manière des bookmarks partagés ou signets collaboratifs de del.icio.us) : il vous est ainsi possible de n'afficher que "vos" pages (celles que vous avez vous même mises dans l'index), les pages de votre communauté (groupes ou forums auxquels vous appartenez) ou les pages "de tout le monde" (comprenez de tous ceux qui ont utilisé ce service et ajouté des pages). D'où le nom "My" web. Un deuxième onglet "Tags" vous permet d'afficher le liste des tags (balises) attachées par vous (ou par d'autres) à la requête en question. Enfin un onglet "contact" permet d'afficher vos contacts traditionnels Yahoo! pour leur proposer (par exemple) de partager ces résultats de recherche.
  • enfin, depuis peu il est possible d'accéder à d'anciennes versions des pages affichées suite à une requête. Jusqu'à présent Google avait le quasi-monopole de cette fonction de "cache" (et toute illégalité d'ailleurs ne rendant de compte à personne sur le temps durant lequel des versions étaient conservées dans le cache du moteur, selon quels critères,etc.). Yahoo! offre lui un service à la fois plus légal, plus malin et plus "archéologique" puisque qu'en cliquant sur le "cache" en dessous des résultats, un lien est proposé vers le site Internet Archive (Merci à Totem Consult pour cette info).

Donc je résume : des curseurs, de la recherche instantannée, de la recherche collaborative folksonomisée, et un peu d'archéologie du web : ne manque plus à Yahoo! que des taux de rappel et de pertinence identiques à ceux de Google pour faire s'effondrer le cours de l'action ;-)
Plus sérieusement, ces réelles innovations ou à tout le moins cette réelle volonté de services innovants est malheureusement un peu "noyée" dans l'offre de service Yahoo! A force de vouloir rassembler en un lieu, en un espace unique des pratiques informationnelles profondément hétérogènes (chercher de l'information dans un moteur, baliser - tagger - des pages intéressantes, utiliser le courier électronique ou l'instant messaging pour communiquer, mettre en commun des signets) une mère (le formateur) finit par ne plus y retrouver ses petits (les "formés").
Et à la problématique dérive des continents informationnels, s'ajoute celle tout aussi ennuyeuse des outils permettant d'y mettre le pied (sur lesdits continents).

 

Au nom du Blog.

Pourquoi ce blog ?
Parce que je me suis pris au jeu initié il y a de cela un an en d'autres contrées de la blogosphère.

Pourquoi ce nom ?

Il est baptisé "affordance", du nom d'un concept emprunté à Gibson pour rendre compte de l'adaptation immédiate de l'individu à son environnement selon les caractéristiques du premier (champ de perception, champ d'action) et les propriétés du second (objets et lois s'y appliquant).
En d'autres termes, un "stylo" peut être utilisé pour écrire, mais aussi - selon l'individu et le contexte - pour enfoncer un clou, pour envoyer un projectile, etc.

Et vous quelles sont vos affordances informationnelles ?