Ma Photo

Qui suis-je ?

Syndication


Botte de foin


Qui êtes-vous ?



  • Track referers to your site with referer.org free referrer feed.


Qu'en faire et comment ?


  • Ce que vous voudrez à condition :


    • de citer vos sources
    • de ne pas vous enrichir
    • de ne rediffuser l'info que sous une licence identique à celle-ci







    Le crédo d'Affordance ;-)
    I am a hard bloggin' scientist. Read the Manifesto.



    Le coin des bonnes causes :


    Support The Commons
    Become A Commoner


    Le PageRank d'Affordance :
    PageRank for this page
    Son "autorité" (sic) selon Technorati :
    "L'autorité" selon Technorati

Powered by TypePad

Searchology.

Searchology. Tel est le nom de l'événement au cours duquel Google a présenté de nouvelles options de recherche. La dernière "searchology" s'était tenue il y a deux ans de cela et elle avait vu l'annonce de la recherche universelle. Petite revue de détail de cette dernière Searchology ...

Nota-Bene :

Acte I. You're my Wonder Wheel : une oasis de recherche dans le désert de la catégorisation (clustering). Il s'agit là d'une représentation cartographique de l'outil de catégorisation tournant déjà dans Google (affichage tout en haut ou en bas de la première page de résultats). Ici, Google marque deux points. Le premier parce que la catégorisation est incontestablement une clé importante pour le guidage (affinage) des recherches. Or sur ce terrain Google avait un temps de retard. Le second parce que cette catégorisation est représentée de manière cartographique. Mais si les moteurs cartographiques sont bien installés (Kartoo en tête), leur interface graphique chargée est très souvent déroutante pour l'utilisateur lambda. Avec sa Wonder Wheel, Google allie la puissance de la catégorisation et celle de la cartographie mais de manière non-déroutante pour l'usager, sans que celui-ci ait besoin de faire appel à une acculturation particulière. Comme le rappele Danny Sullivan dans son billet la catégorisation avait été "inventée" (dans le monde des moteurs de recherche) par AltaVista avec son algorithme "Live Topics", notamment développé par un certain François Bourdoncle, actuel PDG d'Exalead.

Acte II. A la recherche du temps perdu : Google Timeline. Dans toute activité de recherche d'information, la capacité de replacer une information en contexte sur une ligne du temps est un énorme avantage qualitatif qui permet de trancher dans le quantitatif des résultats délivrés. Le passage des moteurs à l'indexation temps réel ("world live web") ne doit pas faire oublier l'aspect fondamentalement discriminant qui permet de disposer d'une archéologie (même sommaire) de l'inscription numérique des informations diffusées en ligne. C'est précisément pour répondre à ce besoin que Google propose une fonctionnalité de type Timeline. Laquelle fonctionnalité est remarquablement intuitive : l'affichage se fait d'abord par clusters de "dizaines d'années" pour, en deux clics, permettre de descendre au niveau du cluster mensuel. Le gros défaut de cette Timeline est qu'elle ne permet pas réellement de "dater" une information. Elle se contente de récupérer les "années" figurant dans le corps du texte. Ainsi, je n'ai pas écrit d'articles en Juin 1944, mais l'un de mes articles (et mon nom) se retrouve dans un recueil qui comprend également une analyse du discours du 6 Juin 1944. C'est là tout le problème de l'information "non-structurée" avec laquelle doivent se débrouiller les moteurs de recherche. Et c'est ce qui m'amène au troisième point, le moins souligné par les différents analystes, le moins visible également, mais à mon avis pourtant de loin le plus important.

Acte III. "Rich snippets" : Google embarque sur le web de données et s'empare des microformats. Ce n'est là rien moins que l'entrée officielle de Google dans la course au web sémantique. Dans un article produit à l'occasion du dernier séminaire INRIA j'écrivais ceci :

  • "A l’inverse d’une approche descendante impliquant que soient déjà franchis les différents obstacles techniques permettant la mise en œuvre d’un web totalement sémantique, l’évolution des fonctionnalités sémantiques des moteurs de recherche suivra plus probablement une approche ascendante, émergente. Il s’agit cette fois de prendre progressivement en compte les différentes avancées des protocoles, langages et formalismes liés au web sémantique, non pas de manière globale mais sur des contenus très ciblés, ou dans le cadre de contextes de recherche là encore très spécialisés. En Mars 2008, Yahoo ! a ainsi annoncé qu’il prendrait en compte le standard RDF ainsi que les microformats. Pour ne prendre que ce dernier exemple, de nombreux développements existent actuellement. La dernière course de fond engagée par les moteurs consistera donc à en prendre le maximum en compte (sans nécessairement attendre une harmonisation globale ou une standardisation univoque de l’ensemble des développements  applicatifs en cours), tout en trouvant le moyen de s’en servir pour « enrichir » l’expérience utilisateur lors d’une recherche d’information, par exemple en présentant des résultats de recherche davantage structurés ou permettant davantage d’interactions synchrones avec d’autres recherches, d’autres services, d’autres terminaux d’accès. Dit autrement, les moteurs sémantiques pourraient fournir une solution aux limitations de la recherche par mot-clé."

Sur son blog, Google écrit ainsi :

  • "today we are announcing that some of our snippets are going to get richer. These "rich snippets" extract and show more useful information from web pages than the preview text that you are used to seeing. For example, if you are thinking of trying out a new restaurant and are searching for reviews, rich snippets could include things like the average review score, the number of reviews, and the restaurant's price range (...) In this example, you can quickly see that the Drooling Dog Bar B Q has gotten lots of positive reviews, and if you want to see what other people have said about the restaurant, clicking this result is a good choice. We can't provide these snippets on our own, so we hope that web publishers will help us by adopting microformats or RDFa standards to mark up their HTML and bring this structured data to the surface."

L'enrichissement sémantique des résultats (rendu possible par l'ajout de microformat du côté des utilisateurs qui créent les contenus) est la face la plus avancée - et peut-être la plus pragmatique - de la quête du web sémantique. Une autre approche est l'enrichissement sémantique des requêtes elles-mêmes (en s'appuyant par exemples sur des bases de questions). Quand ces deux approches là seront effectives, c'est à dire probablement dans quelques - très - courtes années, l'expérience de la recherche d'information n'aura alors plus rien à voir avec celle que l'on exerce aujourd'hui. Et de la même manière qu'il est impossible de faire mesurer à une jeune internaute à quel point la recherche sur Gopher ou Véronica étaient à des années lumières de ce qu'il connaît aujourd'hui, la recherche sémantique de demain (après-demain ?) renverra à l'âge de pierre notre pratique actuelle de la recherche d'information.

Web sémantique

Un diaporama de Fabien Gandon sur le sujet, diaporama présenté lors du dernier séminaire INRIA. Ce n'est certes qu'un pauvrepoint, et sans le texte qui va avec c'est naturellement parfois assez elliptique, mais pour celles et ceux qui sont déjà "un peu" versés dans les projets du web sémantique, ce support rassemble et synthétise remarquablement l'essentiel des problématiques et des standards dudit web sémantique. L'ensemble est disponible sur Slideshare.

Les cahiers au feu ... et les fils RSS au milieu

Comme promis, un petit billet "revue de liens" pour expurger mon agrégateur avant de partir en vacances.

Côté Moteurs (et un peu au-delà) :

  • Difficile de passer à côté du "big deal" passé entre Yahoo! et Google suite à la tentative avortée de rachat de Yahoo! par Microsoft. Pour une synthèse, voir notamment ce qu'en disent Adscriptor, Techcrunch, Média & Tech, Francis Pisani, Techcrunch France, ReadWriteWeb et (plus synthétique) Le Monde. Quelques analystes avaient, dès le départ de l'affaire, souligné que l'offensive de Microsoft avait de forte chances d'échouer au profit de Google. Ce dernier tire effectivement une nouvelle fois son épingle du jeu en renforçant une position déjà outrageusement hégémonique sur le marché de la publicité en ligne. De son côté, Yahoo! sauve (provisoirement ?) les meubles en renflouant ses caisses, mais le "coup" porté par cette affaire est en train de bousculer grandement (et durabement ?) la structure (et l'autorité) de son exécutif ...
  • Microsoft (pour se remettre du fiasco Yahoo ?) vient donc officiellement de s'offrir Powerset, moteur plus sémantisé que réellement sémantique (comme je tente de l'expliquer dans les 75 000 signes rédigés pour le séminaire INRIA IST'2008). L'argumentaire mis en avant dans le billet du blog de Microsoft est celui du renforcement du moteur Live.com (qui est clairement à la ramasse par rapport à Google et Yahoo) grâce à la mise en avant de la compréhension du contexte et de l'implicite. Bref, Microsoft entre officiellement dans la course au web sémantique. 
  • On pouvait déjà faire plein de choses avec Google et ses services (ou ceux qu'il a rachetés). On peut désormais en faire encore plus. Celui-ci a en effet annoncé qu'il allait se lancer dans le marché (juteux et stratégique) de la mesure d'audience et du "média-planning". Un créneau jusqu'ici propriété quasi-exclusive de Nielsen Online et ComScore (qui en tremblent déjà ...) ou Médiamétrie dans l'héxagone. Inutile je pense d'en rajouter une couche sur le fait qu'en gagnant (ce n'est pas encore fait et comme le souligne Emmanuel Parody c'est le marché de masse qui est d'abord visé ...) le marché de la mesure d'audience, Google devient un peu plus l'alpha et l'oméga d'une certaine représentation du web. Cette nouvelle corde à son arc est cependant parfaitement "logique" pour au moins deux raisons : primo l'infrastructure dudit Google, son nombre colossal de serveurs, et l'ampleur des données qu'il recueille et dont il peut librement disposer, deuxio, l'atout stratégique et l'effet de levier que représente un outil planétaire de mesure d'audience pour (mieux) vendre (encore plus) de la publicité aux annonceurs. Le service porte le doux nom de Google Ad Planner.
  • Google (ben oui, encore ...) se lance dans une opération de communication de maintien de la neutralité du Net. A l'heure où l'on constate partout (y compris en France - loi Hadopi - et au Canada mais aussi aux Etats-Unis avec la très récente annonce d'une purge du réseau Usenet) la transformation des FAI en auxiliaires de police, Google à donc annoncé (sans fournir de date ni de nom de service, ni de détails ...) : "le développement d’outils qui permettront aux internautes de vérifier par eux-même si leur fournisseur d’accès à Internet (FAI) intervient d’une manière ou d’une autre sur leur connexion." (via Ecrans) L'alpha et l'oméga disais-je ... A propos, plus largement, de la loi Hadopi (parenthèse ci-dessus), il existe heureusement encore quelques dangereux anarchistes pour tenir un discours vivifiant et cohérent sur la question du copyright et du logiciel libre.
  • Le web invisible connaît un deuxième recul très significatif. Après l'annonce (par Google) d'une indexation possible des données contenues derrière certains formulaires de recherche, c'est désormais Adobe qui annonce que le format Flash sera indexable par les moteurs. Comprenez : Adobe va mettre à disposition de Google et Yahoo! (pourquoi pas de Microsoft ? Parce que Microsoft développe sa propre technologie concurrente à Flash : Silverlight) un player spécifique qui permettra de naviguer "dans" les sites en flash et d'en indexer certains éléments au passage. Pour le reste, voir le billet de Techcrunch d'où je tiens l'info, les Questions/Réponses de Google WebmasterCentral et la FAQ d'Adobe. La question de l'indexation (et du référencement) des sites en Flash est un vieux serpent de mer pour les référenceurs. Avec ce nouveau système, c'est un pan entier du web qui va à son tour émerger dans les pages de résultats des moteurs. Les avis des analystes sont par ailleurs assez partagés sur l'intérêt et la nouveauté relative de cette indexation.

Côté Réseaux sociaux :

  • Marc Andreessen (fondateur de Netscape et actuel gourou de Ning) rejoint l'exécutif de Facebook. Bonne pioche dans tous les cas et rapprochements probables ou nouvelle concentration à venir de ce côté là.
  • Une bibliographie sur la question des réseaux sociaux par l'une des meilleurs spécialistes de la question, Danah Boyd.
  • Un entretien avec Pierre Bellanger (PDG Skyrock) à propos du "premier réseau social d'Europe" (Skyblogs) dans lequel tombe une (de mes) idées reçues : "La totalité (des blogs) est active. Tout blog qui n'a pas été modifié ou consulté dans les derniers 90 jours est automatiquement supprimé. Près de 10 000 blogs sont ainsi fermés chaque jour, tandis qu'il s'en crée plus de 30 000. La plate-forme est un réseau vivant. Pas de cimetière de blogs ou de profils chez nous !"

Côté web 2.0 :

Côté bibliothèques :

Côté Wikis et Wikipédia :

Côté "livre et numérique" et livres numériques :

Côté Web sémantique :

Côté bibliométrie et indicateurs scientifiques :

  • un rapport sur l'usage statistique des citations (.pdf) et son résumé en français sur le site de Sauvons la recherche. Le rapport plaide clairement en faveur d'une théorie de la relativité générale des indicateurs statistiques scientifiques là où la plupart des "décideurs" y voient l'alpha et l'oméga de toute politique d'évaluation digne de ce nom. Pour les autres, il est toujours possible de faire joujou avec ce genre d'outils.

Côté lectures :

  • le dernier Livre Blanc de Christophe Asselin/Digimind sur la "Réputation Internet". Avec notamment quelques buzz digitaux disséqués et l'indication de "stratégies" pour les anticiper, les démonter, les relancer, les contrôler. Du simple veilleur au consultant en communication de crise, ce Livre Blanc devrait amplement satisfaire son lectorat.
  • LA bible du documentaliste et du bibliothécaire : le Traité de Documentation de Paul Otlet, sous-titré "Le livre sur le livre". C'était en 1934. Et on n'a guère fait mieux depuis.
  • Pour se faire plaisir (et se faire un peu peur dans la veine du 1984 d'Orwell), la dernière nouvelle de Cory Doctorrow : Little Brother. Librement téléchargeable.

Côté ressources pédagogiques :

  • Un vrai cours en ligne de Laurent Jenny sur l'Histoire de la lecture (avec bibliographie, exercices et tout et tout)
  • Prenez des textes scientifiques "fondateurs" et faîtes-les analyser par des scientifiques d'aujourd'hui pour mieux comprendre leur impact et leur inaltérable actualité : c'est la très bonne idée du projet Bibnum, pour l'instant encore à l'état de maquette, mais dont on souhaite qu'elle prenne très rapidement son essor (et qu'elle s'ouvre au-delà des 4 domaines qu'elle entend pour l'instant couvrir - math, physique, chimie, biologie -  les SHS constituant un formidable terrain de jeu pour ce genre de mise en perspective).

Et pour finir, un petit lien du Week-End :-)

Des ressources (pédagogiques) et des hommes (pédagogues)

... en vrac :

  • Des vidéos ...
  • En français dans le Wesh : la vidéo culte sur le web 2.0 de M. Wesh, with french subtitles.
  • Commoncrafts : LE spécialiste des tutoriels-en-carton-avec-des-doigts-qui-montrent, qui après ceux sur les wikis et les flux RSS récidivent heureusement avec les blogs, les réseaux sociaux  et le social bookmarking. (Via Francis Pisani)
  • Une vidéo de six minutes réalisée par un expert sur le sujet pour une introduction au web sémantique à l'usage des non-geeks. Louable effort. (Via Nova Spivack)
  • Et puis (beaucoup) plus long et (un peu) plus compliquée que les vidéos précédentes : celle de la leçon inaugurale de Gérard Berry au collège de France, premier informaticien dans le domaine du génie logiciel à se livrer à ce genre d'exercice. Passionnante.
  • Dans la série, "des bases de données à la télé", BioMedCentral a ouvert depuis Septembre 2007 sa "chaîne" sur YouTube. Au programme : des interviews, des cours, une une belle vidéo de 3 minutes vantant les mérites de l'accès ouvert aux résultats de la science. Dans le même genre, le Babouin (de chez qui je tiens l'info) signale le site Scivee, qui veut "explorer de nouvelles manières de disséminer la science", et s'y emploie en permettant aux scientifiques de diffuser des vidéos. Scivee est d'autant plus intéressant qu'il se divise en deux parties distinctes : d'un côté des vidéos scientifiques à caractère pédagogique ou informatif, et de l'autre des PubCast (publication cast) qui associent à chaque vidéo, l'article scientifique qu'elle vient illustrer. Cette dernière catégorie est redoutablement efficace puisqu'elle permet - au choix - de faire figurer en face dudit article une interview du chercheur parlant de sa recherche et du contenu de son article, ou bien encore le film de l'expérimentation décrite dans l'article.
  • Des revues ...
  • La Criée est un blog, plus précisément "une tentative de distribution gratuite de périodiques gratuits mais non sans valeur. Elle est destinée à rendre utilisables rapidement les signets que je réunis pour alimenter AURELIE, le catalogue des périodiques électroniques du SCD de l’Université Toulouse 2." Possibilité de naviguer dans les catégories qui reprennent les 10 principales entrées de la Dewey. (Via MSEDoc)
  • Des droits ...
  • Une présentation de 6 minutes, réalisée par des bibliothécaires, pour expliquer aux chercheurs et scientifiques quels sont leurs droits (d'auteur) et comment in fine le conjuguer avec leurs devoirs (de chercheurs). (Via Pintini)

Web sémantique

On parle beaucoup du web sémantique. Si l'objectif du projet est très bien défini depuis Mai 2001 par le texte fondateur de James Hendler, Ora Lassila et Tim Berners Lee (ici traduit) la réalité technologique du projet est souvent plus délicate à appréhender pour le profane. Les deux ressources qui suivent peuvent permettre à certains d'y voir un peu plus clair :

Fini les vacances, c'est la rentrée ...

Côté moteurs/wikipédia/knol :

  • On a donc pas mal parlé avant et pendant les vacances du projet de Google concernant son "encyclopédie" Knol : dans Ecrans, Florence Devouard s'inquiète à raison en rappelant que 50 % du traffic vient directement de Google. Google Blogoscoped y revient également en soulignant l'argument selon lequel Google ne pouvait plus accepter de voir partir tout ce traffic "non-monétisé" vers un site (wikipedia) indiquant qu'il refuserait toujours la publicité.
  • Voir aussi la rapide analyse comparative de ReadWriteWeb entre Knol, Wikia, Wikipedia et Mahalo autour des trois mamelles de l'argent, de l'attention (comme vecteur de monétisation) et de l'altruisme (comme contribution à la somme des connaissances disponibles).

Côté réseaux sociaux, moteurs de recherche et scientométrie :

  • Medline nous avait déjà habitués à son goût des interfaces innovantes. En voici une nouvelle baptisée GoPubMed qui permet, sur la base d'une recherche de faire émerger des "réseaux sociaux" à partir des noms d'auteurs d'articles et de leurs adresses de courier électronique (Via Cismef). En fait, plutôt qu'un réseau social (ce qui est l'argumentaire marketing du lancement de ce nouveau service), c'est bien de scientométrie qu'il s'agit, c'est à dire de la capacité, via un moteur sémantique, de repérer des collaboratoires, des "collèges invisibles", et de cerner en un instant sur un thème donné, l'état des publications en la matière et les chercheurs les plus en vue. Exemple : en entrant le terme "stuttering" (bégaiement) et en cliquant (à gauche dans la rubrique "What") sur "Hot topics", vous visualisez :
    • un "top 20" des auteurs ayant le plus publié sur le sujet
    • un "top 20" des publications classées par pays
    • un "top 20" des journaux dans lesquels on trouve le plus de publications en rapport avec le bégaiement
    • une courbe temporelle vous permettant de visualiser la progression (ou le recul) du nombre de publications par an sur ce sujet
    • une visualisation sous forme de graphe des réseaux de collaboration entre auteurs (répondant à la question "qui publie avec qui ?")
  • c'est à tomber par terre. Et on se prend à rêver d'un tel outil dans le cadre d'un moteur généraliste majeur à vocation scientifique (maiiiis non, pas forcément celui-là, il y a aussi celui-là). Pour mieux comprendre la puissance d'un tel outil : allez le tester, et lisez le communiqué de presse (.pdf).

Côté moteurs tout court :

  • le 7 janvier 2007, il y a donc de cela exactement un an, Jimmy Wales annonçait le lancement de Wikia, le moteur de recherche dont les résultats seraient validés par des humains. Et bien exactement un an plus tard, on nous annonce le lancement de Wikia (en version béta) pour demain, le 7 Janvier 2008 donc. A ce sujet, voir la revue de presse de Christophe Asselin. Le site de la "communauté" wikia est ici, et comme on peut le lire dans le wiki du projet, Wikia compte s'appuyer sur tout l'éventail des technologies de recherche à valeur ajoutée, à savoir la sémantique (= catégorisation), le "réseau social", l'indice de "réputation", et une infrastructure "distribuée". Lancement demain donc, et affaire à suivre de près pour ce nouveau "moteur de recherche open-source collaboratif".

Côté Bibliothèque "2.0" (ou pas ...)

  • Une conférence qui s'est tenue début Novembre à Berkeley sur le sujet des bibliothèques "2.0" avec les supports de présentation accessibles en ligne (supports présentés parfois sous forme classique - un bon vieux powerpoint - parfois sous forme "2.0" - un wiki). Pas de grande nouveauté mais cela vaut le coup de visionner la conférence inaugurale de Meridith Frakas qui embrasse bien la situation (.ppt)
  • l'un des derniers rapports du Pew Internet nous apprend (via 01.net) qu'outre-atlantique, la première raison de fréquentation des bibliothèques est ... le fait d'y trouver une connexion Internet. De quoi largement réalimenter de vieux démons débats, tant sur le taux d'équipement desdites bibliothèques dans notre bel hexagone, que sur la place des technologies d'accès dans ces enceintes et le taux de formation et d'encadrement qui est dévolu à leurs personnels.

Côté Folksonomies & Indexation sociale

Côté néologismes :

  • Saluons l'arrivée de la Zemblanité, exact opposé de la sérendipité et qui désigne "la faculté de faire de façon systématique des découvertes malheureuses, malchanceuses, attendues et n'apportant rien de nouveau." La génèse du concept et sa présentation détaillée sont disponibles sur Urfist-Infos.
  • Saluons (Via Francis Pisani) l'arrivée  de la "mobiquité" : mobilité + ubiquité. Un néologisme qui traduit bien la place de plus en plus importante qu'occupe dans notre société et dans nos comportements informationnels, l'informatique nomade et/ou ambiante.
  • Reste à savoir si ces deux néologismes entreront au panthéon linguistique aux côtés de la blingocratie.

Côté copyright, Fair-Use et autres creative commons

  • Un rapport intitulé : "Recut, Reframe, Recycle: Quoting Copyrighted Material in User-Generated Video" (.pdf). La question posée est de savoir si dans le cadre des sites de médias participatifs donnant lieu à divers remixages (exemple : YouTube), les détournements, parodies, et autres mashups de diverses oeuvres de fiction relèvent - ou non - du cadre du Fair Use (= usage équitable) et échappent donc à la législation du copyright. La réponse du rapport est claire : Oui. Il y a dans ces "oeuvres" de nouveaux éléments (détournement, transformation, remixage) qui les inscrivent dans le cadre de la constitution d'une culture populaire. "Video remix culture does not violate copyright." Les auteurs du rapport rappellent également qu'il est important de sensibiliser aussi bien les "auteurs" que les "remixeurs-amateurs" à la notion de propriété intellectuelle et d'usage équitable, pour que les premiers soient conscients de la richesse que ces remixages peuvent (parfois) apporter à leurs oeuvres, et pour que les seconds travaillent et s'amusent dans le respect de l'oeuvre des premiers. A noter : le site de présentation de l'étude est très bien fait, puisqu'en sus du téléchargement de l'étude proprement dite, il propose également une courte vidéo en rappelant les principales problématiques et conclusions, et propose également de télécharger un fichier excel du corpus de vidéos utilisées. Il propose enfin, pour chaque type de remixage (détournement, critique, débat, illustration, etc ...) les 5 vidéos les plus parlantes. Certaines d'entre elles sont réellement ... parlantes.
  • Et puis vraissemblablement à ne pas rater (je ne l'ai encore pas visionné en entier, mais il est plein d'interviews avec Yochai Benkler et ne peut donc pas être mauvais :-) un documentaire sobrement intitulé "Steal this Film" qui décrypte les enjeux liés à la notion de propriété intellectuelle et plus largement de "diffusion" dans le contexte actuel. Pour les plus pressés, plein d'extraits sur Google Vidéo, pour les autres téléchargement dans plein de formats possibles directement sur le site du documentaire. Il y en a même qui se sont déjà attelés au sous-titrage en français.

Côté traces documentaires identitaires (ou identité numérique si vous préférez) :

  • nos comportements informationnels laissent de plus en plus de place à l'égotisme forcené. Au service de cet égotisme on compte d'ailleurs de plus en plus d'outils tendant à l'illustrer (les divers outils de classement façon "top 50 de quelque chose"), à le renforcer (économie de la réputation), à en faire naître le besoin (via des interfaces navigo-ludiques dont vous êtes le centre et la circonférence), ou à en faire l'alpha et l'oméga d'un modèle économico-sociétal (facebook). C'est l'éternelle histoire de la poule et de l'oeuf.
  • Got dans ses petites cases, nous gratifie d'un éclairant billet sur FOAF (Friend Of A Friend) dont on aimerait effectivement penser que le modèle réellement ouvert qu'il incarne soit l'avenir des protocoles tournant derrière la plupart des réseaux sociaux. Mais je ne peux hélas pas m'empêcher de penser qu'il y a encore bien du chemin à parcourir ... l'heure étant plutôt pour les grosses cylindrées à la centralisation des profils propriétaires ... ce qui doit nous inciter encore davantage a faire plus de place aux initiatives alternatives et technologiquement éprouvées (dont FOAF).

Côté ressources pédagogiques :

Côté voeux, bonnes résolutions et oracles divers :

  • il y a ceux qui ne croient plus aux blogs sous leur forme actuelle (Jean-Michel Salaun et Jean Véronis) ... mais qui continuent heureusement de blogguer :-) De mon coté je reste sur le créneau de l'enthousiasme (peut-être un peu candide), même si - à l'instar des deux précédemment cités - je constate ici et là une raréfaction des pépites blogguesques, nombre de trouvailles ayant visiblement du mal à tenir sur la longueur, ce qu'on aurait du mal à leur reprocher tant il est vrai qu'en dehors d'un projet affirmé de publication (journal, auto-fiction, carnet de recherche, formation à distance), l'exercice du blog est une gymnastique chronophage, et que "le temps de blogguer" n'est pas nécessairement la chose la mieux partagée du monde. Il n'en demeure pas moins qu'en repensant à ce qu'était la pêche informationnelle d'avant et d'après le temps du blog, ce "format éditorial" a tout de même été l'occasion d'entendre de bien belles voix, et de découvrir de fort pertinentes analyses. L'avenir dira ce la forme blog deviendra, mais les potentialités, l'univers de discours offert par une petite quantité de ces "nanopublications" reste pour l'instant et de mon point de vue, essentiel.
  • il y a ceux qui comme Fred Cavazza, se livrent à leur petit exercice de prospective du nouvel an, et ceux qui comme Francis Pisani, font une revue de presse des principaux exercices du genre.

Et mes prédictions à moi ?

  • A l'instar de ce que décrit Christian Fauré à propos du service Twine, je crois que l'ensemble des acteurs majeurs de la recherche d'information (Google, Yahoo! Microsoft) et quelques-uns de leurs challengers (Exalead, Facebook) vont prendre de plus en plus nettement le grand virage de l'hybridation. Une hybridation entre :
    • des espaces et des services collaboratifs,
    • des technologies sémantiques ou sémantisées de représentation et d'agrégation des connaissances,
    • et des algorithmies de recherche "pures" (ou recherche universelle).
  • Je crois que la diversité des contenus va (enfin) atteindre un équilibre longtemps espéré entre le "texte seul" et la vidéo et l'image.
  • Je crois enfin que l'une des grandes questions en terme de recherche (notamment pour les sciences de l'information et de la communication) sera la mise au jour des nouvelles autorités cognitives qui s'articulent aujourd'hui de manière encore un peu floue derrière la monétisation (ou la non-monétsation) des services à base de connaissance (Knol, Wikipedia).
  • De mon côté je retiens comme éléments et tendances majeures de l'année écoulée : les deux nouvelles étapes de la dérives des continents documentaires que sont :
    • d'une part, la synchronisation transparente entre nos activités informationnelles connectées (on-line) et déconnectées (off-line),
    • et d'autre part, la sphère croissante d'indexabilité (notion de "graphe social" pour faire simple) de l'humain au travers de ses innombrables traces documentaires éparses sur le(s) réseau(x).
  • Ce qui me semble frappant au-delà de tout c'est l'avénement imminent et probable d'une nouvelle génération d'algorithmes ayant capacité à représenter sur un même plan des documents toujours plus fragmentaires, des traces identitaires toujours plus documentées, et à transformer toutes ces traces d'attention en vecteurs d'intentions, pour le plus grand bonheur des grandes industries culturelles et des quelques acteurs qui dominent actuellement le marché (et ce au-delà du discours geignard et misérabiliste que s'obstinent à tenir les mêmes industries culturelles). En un mot comme en cent : la redocumentarisation du monde. Il est certain qu'il va falloir être très très très attentif aux Network sciences, car elles seront le creuset plus que probable de cette nouvelle génération d'algorithmes et de modes de représentation, et qu'à mon sens, elles seules ont aujourd'hui la capacité à réunir en un même cadre d'analyse les fronts de recherche les plus innovants, les techniques d'indexation et de représentation du vivant au sens large.
  • Voilà pour le côté vivifiant et optimiste de la chose. Côté pessimiste (mon éternel côté cassandre :-); je crains que nous ne soyons confrontés à une échéance majeure, celle de la médecine personnalisée et/ou médecine "2.0" et/ou médecine désintermédiée. La montée en puissance et la position désormais établie de ces nouveaux prescripteurs planétaires que sont les moteurs de recherche d'une part, la mise à la portée du grand public des technologies de génomique (notamment à des fins d'auto-diagnostic) d'autre part, les rapprochements entre les premiers (moteurs de recherche) et les secondes (sociétés de génomique), et enfin l'engouement de plus en plus explicite chez tous les grands acteurs de l'industrie médicale (et notamment pharmaceutique) pour des modèles de diffusion et d'accès reposant sur du gratuit financé par la publicité va nécessiter, pour le moins, de grands chantiers didactiques si l'on veut éviter d'aller à coup sûr ... droit dans le mur. Va falloir se trouver dare dare un José Bové de la santé comme bien commun de l'humanité. Sinon ...

Bonne année à vous tous :-)

Ontologies

La notion d'ontologie est depuis déjà quelques siècles au coeur de la pensée philosophique. Elle est depuis ses débuts au coeur du domaine de l'ingénierie des connaissances. Elle est enfin depuis très récemment vivement débattue dans le cadre de la mise en place d'un web sémantique.
Les trois ressources suivantes vous permettront, chacune à leur manière d'en approcher les enjeux :

  • "Comment les ontologies ont changé ma vie" est une remarquable parabole illustrant les reltions complexes qui unissent des objets et des univers de discours et de relations tentant de rendre compte de leur nature profonde. C'est aussi un petit bijou d'humour pédagogique :-)
  • "Ontologies informatiques" est un texte scientifique de Fabien Gandon (INRIA / W3C) en 5 parties publié sur le site )i(nterstices qui propose une découverte de la notion d'ontologie et de ses applications.
  • Et puis il faut enfin voir et/ou revoir la vidéo Information (r)evolution de Michael Wesh, qui parvient à mettre en abîme à sa manière si particulière et si pertinence, la dialectique de l'ordre et du chaos qui au coeur même des ontologies et de leur entreprise de description du monde, de notre monde. Une vidéo qui permet également de mieux comprendre pourquoi la question ontologique est au coeur des mécanismes d'inscription, de partage, de création et d'organisation du web de demain.

IC 2008

J'ai découvert le domaine de "l'ingénierie des connaissances" (IC) pendant ma thèse, grâce à Jo Link Pezet (ma directrice) qui m'a présenté quelques valeureuses "ontologues" et quelques preux hérauts des systèmes multi-agent (spéciale dédicace à Nathalie Aussenac, Marie-Pierre Gleizes et Pierre Glize). C'est à cette époque que j'ai également compris tout l'intérêt qu'une approche de ce type pouvait apporter aux problématiques qui traversent le web (notamment) depuis déjà plusieurs années. Les points de rencontre entre les sciences de l'info et de la comm., et l'ingénierie des connaissances, sont féconds et nombreux. Chaque domaine offre à l'autre des méthodologies et des cadres d'analyse qui permettent de mieux articuler et de mieux "penser" les bouleversements actuellement en cours sur le net. Espérons donc que le colloque IC 2008 sera l'occasion de fortifier ces synergies naissantes.
Parmi tant d'autres, pour découvrir de manière claire ce qu'est l'IC et quels sont ses enjeux, vous avez à votre disposition :

Voilà. Maintenant il ne vous reste plus qu'à prendre connaissance du programme d'IC 2008, "le" colloque du domaine, et quà soumettre vos propositions de communication ou de poster avant le 28 Janvier. Tout le reste est expliqué sur le site de la conférence.

Graphe, Web, Net

Dans sont dernier billet, Tim Berners Lee revient sur une notion au coeur de bien des débats ces derniers temps, celle du graphe social.
Partant de l'analogie fréquemment et un peu abusivement employée qui fait que quand on parle de graphe, on fait immédiatement référence à Internet, à l'image du réseau, Tim Berners Lee commence par rappeler que le Net et le Web ne sont pas la même chose, mais que tous deux sont effectivement des graphes (d'ordinateurs pour le premier et de contenus/documents pour le second). Il se lance ensuite dans un plaidoyer pour la notion de graphe, regrettant même avec humour de n'avoir pas appelé le www (world wide web) le GGG (giant global graph).
Mais le passage le plus intéressant est celui qui clôt son billet :

  • "The less inviting side of sharing is losing some control. Indeed, at each layer --- Net, Web, or Graph --- we have ceded some control for greater benefits." Et plus loin :  "Letting your data connect to other people's data (...) is still not about giving to people data which they don't have a right to. It is about letting it be connected to data from peer sites. It is about letting it be joined to data from other applications. It is about getting excited about connections, rather than nervous."

Tim Berners Lee dans ce court paragraphe nous montre clairement la voie : cesser d'être "nerveux" et "s'enthousiasmer" pour les possibilités offertes par une interconnexion globale des hommes, après celle des ordinateurs et des documents. Mais Tim Berners Lee dans son argumentaire plaide également pour une architecture standardisée et normée afin d'opérer ces connexions, sur le modèle de FOAF.
La question est donc de savoir si dans la situation actuelle, ceux qui nous rendent nerveux (Facebook) et les autres (OpenSocial) sont prêts à se rabattre, et leur immense vivier d'utilisateurs avec eux, vers des descriptions standardisées du type de FOAF. Le web, le net et le "graphe" auraient naturellement tout à y gagner, en accélérant ainsi par exemple la progression du web sémantique (ou sémantisé).

<Update> Voir aussi le billet de Francis Pisani </Update>

Google est le webOS. Le WebOS est Google.

La stratégie de Google se dévoile chaque jour davantage (ce qui ne la rend pas pour autant transparente ou prévisible). A lire le début du dernier billet de leur blog officiel, on pourrait penser avoir trouvé la réponse à la question du WebOS : le WebOS sera donc ... mobile. L'informatique personnelle disposait de ses terminaux "bureautiques", les terminaux du WebOS seront d'abord nos cellulaires. Ni strictement WebOS (Web Operating System), ni idéalement SOS (Social Operating System), mais plutôt hybride : MOS (Mobile Operating System).  Et bien c'est une erreur.
Comme cela est indiqué dans le même billet, Google n'annonce donc pas le lancement d'un Gphone, d'un téléphone portable "à la" Iphone. Google annonce que l'Open Handset Alliance, va lancer Android : "la première plateforme vraiment ouverte et complète ("comprehensive") pour les terminaux mobiles." De quoi s'agit-il ? Le mieux (et le plus court pour moi :-) est d'aller lire le billet succinct de Jean-Marie Le Ray ou celui de Zorgloob. La formule est simple : réunissez autour du développement d'une plateforme de déploiement d'applications "ouvertes" des opérateurs de téléphonie leaders, des fabricants de combinés, des éditeurs de logiciels et des fondeurs. Expliquez-leur que tous réunis ils disposent d'un marché de 3 milliards d'individus (marge basse et en expansion constante), et proposez-leur de s'entendre sur un standard autorisant le développement d'applications pouvant à loisir être embarquées ou déportées vers tout type de mobile afin de mieux se partager les revenus engendrés (probablement) par la publicité ciblée et le profilage marketing qui sera alors possible. Comme le rappelle judicieusement (et avec une pointe d'ironie) Jean-Marie : "Après l'Open Software, l'Open Device, l'Open Ecosystem et l'OpenSocial, voici donc l'Open Platform. Que d'ouverture !" Un monde ouvert. Open world. Et à la différence de Tristan Nitot, je ne croie pas qu'il faudra attendre 10 ans pour savoir si l'Android tuera ou non l'Iphone ou si l'Iphone se ralliera à l'Android. Google vient, à quelques jours d'intervalle, de déployer une stratégie identique d'ouverture et d'alliance : non pas pour éliminer une concurrence momentannée ou pour rattraper un retard supposé (qu'il s'agisse de l'Iphone ou de Facebook) mais pour s'assurer un pré carré inaliénable sur des secteurs actuellement en pleine expansion, et ce pour un bon nombre d'années à venir.
Mais revenons un instant sur le billet du blog annonçant le lancement d'Android : "Our goals must be independent of device or even platform." C'est pour le moins une formule programmatique et qui fait état d'une volonté d'escamotage (au sens propre) inédite. Je m'explique : si l'on enlève les périphériques et les plate-formes de la chaîne informatique que reste-t-il ?? L'essentiel. Le coeur. Le code. Les données. Google. Naked web. Désintermédiation applicative. Le web mis à nu. Et Google dispose en la matière d'une solide expérience. Demandez-donc aux libraires, aux éditeurs et aux bibliothécaires ce qu'ils en pensent ...
Et alors ?
Et alors il s'agit là - à mon avis - d'un nouveau signe du déploiement à moyen terme d'un Internet substitutif. L'internet de Google. Un réseau ouvert. Ouvert mais propriétaire. "Tu fais ce que tu veux chez moi, tu y invites qui tu veux, tu t'y comportes comme tu veux mais ... tu n'oublies pas que tu es chez moi." Ou plus précisément, moi propriétaire, je mets tout en oeuvre pour te permettre d'oublier que tu es chez moi : en te laissant te comporter à ta guise, en te laissant meubler ou réaménager tout ou partie de ma maison, je t'observe, je t'analyse pour mieux te rendre lisible, perméable, prévisible, pour rendre monétisable chacune de tes actions, chacun de tes comportements. Google n'inventera pas le WebOS. Parce qu'aujourd'hui plus qu'hier, il paraît clair que le WebOS, c'est Google. Et que Google, c'est le WebOS. Les observateurs attentifs et parfois hâtifs du net (dans lesquels je m'inclue) ont eu le tort (et moi avec) de ne voir que le côté applicatif de la chose en essayant d'anticiper sur la stratégie de Google, en essayant de décliner cette stratégie sur des modèles existants, en cédant à la facilité du raisonnement par le calque. Pourtant, et les mêmes observateurs l'avaient depuis longtemps noté, Google n'est pas dans une stratégie d'imitation ou de suiveur. Il est, depuis le départ, dans une logique de rupture. Une logique disruptive. Mais il a l'intelligence (et la capacité) d'accompagner cette rupture, et de se servir de son formidable vivier d'usages et d'usagers, pour la documenter en temps réel. Il n'a cure de créer un autre Facebook, un autre Iphone ou un autre Windows. Google est le net. Ce n'est aujourd'hui plus (seulement) d'une métonymie qu'il s'agit, mais d'une réalité (de plus en plus) tangible.
A moins ... à moins que les données mises à nue ne nous sauvent de ce web mis à nu.

<Updates du lendemain>

  • Didier Durand n'est pas d'accord avec moi et avance quelques arguments de poids (financier) qui ne me convainquent pas pour autant, j'essaierai d'y revenir dans un prochain billet ...
  • A lire aussi, le billet de Seb (sur Web-Mining.fr), qui est d'accord avec moi et reprend également à son compte l'argumentaire de Christian Fauré (API = DRMs des données) et pointe joliment le risque de devenir autant de simples "locataires de nos propres données" propriétaires, et propriété de Google (ou d'un autre)

</Update>

Le retour de Roger dans le web sémantique

Roger prépare son retour. Tout est expliqué chez Jean-Michel Salaun. Après s'être intéressé au document, c'est cette fois le web sémantique que sera au coeur des préoccupations. Le web sémantique est par ailleurs l'objet re ragards croisés intéressants, comme celui-ci qui l'interroge du point de vue des bibliothèques, comme un catalogue géant. Mais aussi et surtout, ces deux billets (1 et 2) de ReadWriteWeb qui mettent en balance les deux écoles du web sémantique, celle d'une approche par le bas (bottom-up), et celle d'une approche par le haut (Top-down). A l'occasion je vous invite à relire cette proposition d'une troisième voie, un web socio-sémantique, troisième voie qui pour différentes raisons (dont celle des réseaux sociaux comme nouveau paradigme documentaire structurel et structurant) me semble la plus probable et la plus prometteuse. Allez Roger, au boulot.

(Via Jean-Michel Salaun, Pintiniblog)

Chacun cherche son web

Si vous n'aimez pas le web sémantique, si vous n'aimez pas le web socio-sémantique, alors "allez vous faire foutre" peut-être aimerez vous le web pragmatique.

Réflexions folksonomiques

A lire dans le dernier numéro du BBF un article d'Olivier Le Deuff qui fait le point (définition, historique et débats en cours) sur le principe et les usages des folksonomies (indexation sociale) et de leur système de "tag". Article repris et discuté par Got.
J'en profite pour vous livrer un article co-écrit avec mon camarade de jeu Gabriel Gallezot,que je vais présenter bientôt lors d'une conférence en suisse, et qui traite, justement, de folksonomies.
Le titre est le suivant :
"Etude exploratoire des pratiques d’indexation sociale comme une renégociation des espaces documentaires. Vers un nouveau big bang documentaire ?" in "Document numérique et société", 1ère édition, sous la dir. de Ghislaine Chartron et Evelyne Broudoux. Actes de la conférence organisée dans le cadre de la Semaine du document numérique à Fribourg (Suisse) les 20 et 21 septembre 2006. ADBS Éditions, 2006. 344 p. Collection Sciences et techniques de l’information.

En voici le résumé :

  • "A l’échelle du web, la massification des corpus et celle des accès ainsi que la concentration des acteurs (moteurs de recherche), témoigne d’une tectonique documentaire qui bouleverse nombre d’usages associés au document, du point de vue du traitement de corpus documentaires inédits dans leur forme (formats) et dans leur taille (volumétrie), ou de celui de la recherche et de l’accès pertinent et/ou raisonné auxdits documents. Des pratiques d’indexation sociale (folksonomies) émergent, en lien avec la préemption par un public non expert de techniques d’analyse et d’outils s’inscrivant habituellement dans l’héritage de la linguistique de corpus et plus globalement des sciences du document. Ces pratiques de re-documentarisation s’appuient sur une assise communautaire forte. Leur succès – à la fois public et technique – s’explique par un faible coût cognitif conjugué à une renégociation inédite des espaces documentaires du web. L’observation de motifs récurrents dans l’application de ces pratiques les situent dans la lignée des travaux définitoires du web socio-sémantique et pose également la question de la perméabilité de deux modèles. Avec le risque que le modèle bibliothéconomique d’accès raisonné aux connaissances soit battu en brèche par un modèle « marchand », subordonnant pour la première fois la problématique qualitative du « classement » des biens culturels à celle purement comptable du nombre de fois où ils sont « accédés »."

En langage non-universitaire cela pourrait donner un truc du genre :

  • "Pourquoi diable tant de gens utilisent-ils des sites comme FlickR et tout un tas d'autres systèmes de tags ? Ces trucs là peuvent-ils vraiment améliorer l'organisation de l'information sur la planète comme les index et autres thésaurus le permirent pour l'amélioration de l'organisation des bibliothèques ?"

Si la lecture vous tente, le texte intégral est ici (Téléchargement sdndocsoc.pdf)
A ce propos et dans la série "science 2.0", ce serait pas mal si pour quelque conférence que ce soit on pouvait disposer du texte ou au moins du résumé des articles des collègues afin de ne pas découvrir une dizaine de communications par jour et de donner plus de champ aux débats qui sont tout de même censés être l'intérêt principal de ce genre de manifestation (après le voyage et les petits four bien entendu :-))

Web du futur

Nombreux sont les prospectivistes et groupes de réflexion qui s'interrogent sur ce que sera l'Internet de demain. L'avis de son créateur (du web) vient enrichir le débat. Tim Berners Lee vient en effet de donner une conférence sur "Le futur du web". J'en retiens :

  • un concept intéressant : "l'ingénierie philosophique" (relire à ce sujet, Deleuze et Guattari ainsi que Stengers) vue comme conjonction de règles microscopiques (nanopublishing, hyperliens, trackbacks) et de comportements macroscopiques
  • la confirmation d'un "virage social" : les règles du web de demain seront autant techniques que sociales
  • la va-et-vient permanent entre les échelles de l'infiniment grand et de l'infiniment petit, prenant l'exemple des wikis où chacun est éditeur et ou s'agrègent aussi d'immenses collectifs (wikipedia), et l'exemple des blogs ("Micro : trackback, Macro : Blogosphère")
  • suivent ensuite nombre de considérations "techniques" sur l'architecture du web sémantique (ontologues de tous les pays, ceci est pour vous)
  • Tim Berners Lee concluant son exposé en annonçant l'avènement prochain d'un nouveau champ scientifique baptisé "Web Science".

RSS bidirectionnel

RSS est un format de diffusion (syndication) de contenus qui a bouleversé nombre de nos pratiques informationnelles. Le principe est simple : les sites/blogs mettent en place des flux RSS avec un format de données automatiquement structuré (en RDF ou en XML) et les utilisateurs peuvent les lire dans des outils dédiés (aggrégateurs, utilitaires mail, navigateurs). Pour l'utilisateur : gain de temps et possibilité de choix (pour approfondir, c'est par là). Or voici que Ray Ozzie (la papa de Lotus Notes, récemment recruté par Microsoft) vient de proposer un RSS de deuxième génération baptisé SSE : Simple Sharing Extensions.
De quoi s'agit-il ? De RSS "bidirectionnel". L'utilisateur peut ne plus "simplement" se contenter de recevoir des informations mais en ajouter et/ou modifier directement le flux. En anglais dans le texte cela s'appele "bidirectional, asynchronous replication".
Et à quoi ça sert ? Je traduis l'exemple lumineux de la FAQ : "SSE pourrait être utilisé pour partager votre calendrier (électronique) avec votre épouse. Si votre calendrier est publié via un fil SSE, les changements que vous y ferez seront reportés sur celui de votre épouse (jusque là donc rien de nouveau) et vice-versa. Celle-ci (votre épouse) pourra voir votre emploi du temps mais aussi y ajouter de nouveaux rendez-vous."
La bonne nouvelle c'est que Microsoft (continuant sa campagne d'opinion pour sortir du côté obscur de la force), et après avoir lancé ses applications gratuites, propose SSE sous licence Creative Commons. Ils ne leur reste plus qu'à se mettre à Linux et la boucle sera bouclée ;-)
Tiens, concernant le passage traduit de la FAQ, ne vous évoque-t-il pas un autre texte fondateur ? Cherchez bien ... par ici ... vous y êtes ! Le web sémantique !! Souvenez-vous :

  • "Maman a besoin de voir un spécialiste et de suivre des séances de thérapie, deux ou trois fois par semaine. Je vais demander à mon agent de nous arranger les rendez-vous". (...) Depuis le cabinet du médecin, Lucie donna des instructions à son agent du Web sémantique par le biais de son navigateur. L'agent trouva rapidement l'information concernant le traitement prescrit à la couverture d'assurance pour la mère pour trouver un thérapeute dans un rayon de 20 miles  de son domicile  et prit en considération les taux de satisfaction (...) attribués par des services d'évaluation fiables. Maman à partir de l'agent du médecin, parcourut plusieurs listes de fournisseurs de service, vérifia." (etc ... etc ...)

Donc : du web 2.0, des ontologies, des tags, des bases de données à facette, des logiciels sociaux, du Wi-Fi à tour de bras, des terminaux qui offrent à leurs utilisateurs la réciprocité en temps réel dans l'échange de données structurées ... Il me semble que nous ne sommes plus très loin du web sémantique. Pas vous ?

Pour tout savoir sur SSE : la foire aux questions (FAQ) et les spécifications.

(Pour les sources du billet vous avez le choix : Ray Ozzie, Nicolas Nova, PointBlog, FredCavazza ...)

Le moteur d'ontologies

Découvert via la lecture de l'article "Order from Chaos" (avec comme accroche : "As more ontologies become available, it becomes harder, rather than easier, to find an ontology to reuse"), le moteur de recherche Swoogle vous permet de rechercher ... des ontologies. Même si pour l'utiliser à son optimum un détour par la page d'aide s'impose, une requête sur le terme "library" pointe vers une cinquantaine de fichiers .rdf, .owl, .daml. Il index 337 812 "documents" et permet de poser des requêtes sur des termes, des classes ou des propriétés.