Ma Photo

Qui suis-je ?

Syndication


Botte de foin


Qui êtes-vous ?



  • Track referers to your site with referer.org free referrer feed.


Qu'en faire et comment ?


  • Ce que vous voudrez à condition :


    • de citer vos sources
    • de ne pas vous enrichir
    • de ne rediffuser l'info que sous une licence identique à celle-ci







    Le crédo d'Affordance ;-)
    I am a hard bloggin' scientist. Read the Manifesto.



    Le coin des bonnes causes :


    Support The Commons
    Become A Commoner


    Le PageRank d'Affordance :
    PageRank for this page
    Son "autorité" (sic) selon Technorati :
    "L'autorité" selon Technorati

Powered by TypePad

Moteur de recherche de signaux

Les moteurs de recherche sont les premiers auxiliaires de notre accès au net. Ceux-ci comptent déjà nombre de profondes mutations, tant en terme de technologie qu'en terme de modèle économique et de poids sur des pans entiers de l'activité du "monde réel". Ils ont successivement joué le rôle : 

  • de moteurs d'accès à des contenus,
  • d'indicateurs de popularité des mêmes contenus (algorithme PageRank),
  • de moteurs de recommandation et de suggestion (fonction "refine search", auto-complétion, etc ...)
  • d'outils d'indexation en temps réel (World Live Web)
  • pour dernièrement intégrer progressivement un part de plus en plus importante de sémantique dans l'affichage (microformats) et dans la recherche des contenus (web sémantisé),
  • tout en restant focalisés sur le carré magique des usages du web (Shopping. Health. Travel. Local), en valorisant et monétisant au maximum les requêtes transactionnelles.

Les mêmes moteurs subissent aujourd'hui une double mutation : celle de l'indexation des profils (la jonction entre moteurs de recherche et réseau sociaux se fera sans aucun doute très prochainement, posant le double problème d'un pan-catalogue des individualités humaines et de la pertinence des profils), et celle de l'indexation du micro-net et de ses micro-contenus (Twitter notamment). Là encore, et indépendamment de la sauce économique à laquelle elle s'accomodera (rachat, intégration), l'intégration de ces micro-contenus ne laisse aucun doute. Elle a d'ailleurs déjà commencée :

L'intégration se fera donc. La question est de savoir comment et pourquoi.
Sur le comment, globalement deux stratégies sont possibles : soit en "isolant" les tweets dans une partie dédiée du moteur de recherche (ce que fit Google avec les blogs en leur réservant un moteur dédié : blogsearch.google.com), soit en les intégrant et en les mixant à l'ensemble des autres résultats. La tendance étant massivement à la recherche universelle et à la fusion de l'ensemble des résultats de recherche, on peut légitimement supposer que c'est la première voie qui sera retenue.
Oui mais à vouloir tout mixer (contenus web, micro-messages, vidéos, news, images ...) on risque la confusion et cela nécessite un art avéré de l'interfaçage (la fameuse "User Experience"). Il est donc également probable que la seconde stratégie soit finalement retenue (= isoler ces contenus dans un onglet et/ou un espace dédié). Bref, on n'en sait rien et on attendra de voir.
Sur le comment toujours, mais dans son versant technique, là encore on notera deux possibilités : soit intégrer progressivement les tweets de quelques comptes (personnes, entreprises ou institutions) "labellisés" comme influents (l'approche qu'à visiblement choisi Microsoft). Soit (ce que fera certainement Google), appliquer la mécanique bien rôdée du PageRank aux Tweets de la même manière qu'aux autres contenus mais avec des niveaux de pondération légèrement différents : les backlinks (liens entrants) pouvant être "remplacés" par les RT, la popularité d'un compte Twitter étant aisément repérable au seul nombre de ses "followers" ou à la mention de son nom (précédé de l'arobase) dans l'ensemble des Tweets.
Des moteurs de recherche aux moteurs de signaux.
Ce qui est aujourd'hui en train de changer dans les notre expérience quotidienne des moteurs de recherche c'est la nature même de la relation qui nous lie à eux. Ils ne sont plus les seuls intermédiaires du début, entre "nous" et "des" contenus. Ils sont devenus des auxiliaires, des adjuvants, des assistants personnels à l'omniscience de plus en plus pregnante (via la personnalisation et la dérive des continents documentaires). Demain, quand l'intégration du micro-net sera passée dans les usages courants (comme l'est l'intégration des news, des vidéos ou des images), demain nous les utiliserons non plus comme moteurs de recherche mais comme moteurs de signaux. Nous n'y chercherons plus des contenus (c'était hier), nous n'y attendrons plus simplement une recommandation et une logique de prescription (c'est aujourd'hui), mais nous voudrons y trouver une qualification de ces contenus. Une qualification qui se voudra la symbiose entre des métriques sociales et comptables.
Un petit Tweet pour un grand bouleversement ?
C'est aux moteurs capables de nous livrer la meilleure qualification que nous souscrirons. Pour y parvenir, la prochaine mue des moteurs de recherche en fera des moteurs de signaux (un Tweet, une modification d'un profil, d'un statut ...). Et particulièrement de signaux "faibles". Ce n'est d'ailleurs pas un hasard si en évoquant les projets de Google en la matière (lancement d'un service de Microblogging search), Marissa Mayer parle de "Clues" (indices) et rapproche cela du Google Trends (tendances). Indices, tendances, signaux. Le meilleur moteur sera celui capable de repérer ces signaux faibles. Ce qui  - si mon analyse est avérée ... - serait à l'échelle de l'histoire des moteurs, un gigantesque bouleversement. L'ensemble des moteurs fonctionnent en effet aujourd'hui sur leur capacité à entériner des signaux forts. Toute leur algorithmie est ainsi pensée : afficher dans les premiers résultats les sites/articles/contenus les plus visibles, les plus cités, les plus commentés, les plus débattus, les plus liés. Depuis l'invention de la bibliométrie dont les fondements ont été implémentés dans l'algorithme du Pagerank, toute l'histoire des moteurs de recherche (et du succès de Google) se tient dans leur capacité à isoler le plus pregnant, le plus visible, le plus "émergé". Une visibilité que nous ne pouvons bien sûr pas "oculairement" percevoir, mais qui est (relativement) simple, limpide, perceptible et "révélable" pour les crawlers du web, comme les phéromones sont naturellement perceptibles aux fourmis. Demain, il leur faudra très probablement être capables de faire l'inverse avec les mêmes critères d'excellence : c'est à dire continuer de jouer leur rôle de localisation de sources (plus personne ne retient aujourd'hui l'adresse d'un site, on tape son nom dans Google et Google, "bookmark" universel, nous livre aussitôt l'adresse du site) ET être également capables de remonter des signaux faibles, c'est à dire des occurences documentaires à faible pertinence absolue mais à forte pertinence relative.

La réalité est pourtant plus compliquée que cela. S'il est vrai que les moteurs de recherche, dans l'héritage de la bibliométrie, ont pour but d'isoler les figures et les contenus les plus "marquants", la bibliométrie (et les moteurs de recherche) a également pour fonction de révéler les réseaux de citation et de collaboration, à savoir ces auteurs, ces contenus nettement moins cités ou liés mais qui, parce qu'ils sont à un moment ou à un autre "associés" aux plus cités, acquièrent une pertinence nouvelle. Il en ira de même pour la collecte de ces signaux faibles. La révélation et l'analyse de leur pertinence aura partie liée avec les contenus et les autorités déjà constitué(e)s, déjà repéré(e)s. En cela, les réseaux sociaux et les sites de micro-blogging constituent de précieux outils de repérage.

Alors quoi ? Alors il est très probable que la prochaine bataille de la pertinence, intégrant le micro-net et ses propriétés spécifiques (fragmentation accrue de ses contenus + "autorités" de plus en plus diluées), se jouera juste en dessous de l'habituelle ligne de flottaison des navigateurs, ligne en dessous de laquelle l'essentiel des internautes ne descend presque jamais consulter les résultats, mais ligne en dessous de laquelle se niche et se nichera toujours davantage la réelle pertinence des résultats, c'est à dire l'adéquation existant entre les signaux faibles détectés et leur corrélation aux contenus et aux autorités les plus saillantes assignées à la requête. Une pertinence qui instrumentalise une apparente sérendipité comme premier auxiliaire de la recherche

Wikiopole n'est pas que du pipole.

(le titre de ce billet ne veut rien dire, c'était juste pour la sonorité :-)

Avec l'aide du RTGI (qui est aujourd'hui ce qui se fait de mieux dans le domaine de la visualisation dynamique de larges corpus de données), et à l'occasion de la sortie de son classement mensuel, Wikio et ses très actifs WikioLabs, lancent Wikiopole, une interface de visualisation de la blogosphère et de ses liens. J'aime particulièrement la possibilité d'isoler par un code couleur les liens entrants, sortants et/ou réciproques.
Galaxyaffordance

Nota-Bene : le TouchgraphBrowser permet également de visualiser de semblable manière les liens qui "font réseau" autour d'un site ou blog donné, mais celui-ci ne bénéficie pas du corpus structuré (catégories Wikio) sur lequel tourne le Wikiopole, laquelle structuration permet une vision plus "fine" de certaines relations.

Net Recherche 2009

J'avais déjà, dans ces mêmes colonnes, eu l'occasion de vous dire tout le bien que je pensais de l'ouvrage "Net Recherche" d'Armelle Thomas et Véronique Mesguich (éditions de l'ADBS). Lequel ouvrage vient de reparaître dans une 3ème édition mise à jour. La trame, l'orientation et l'angle du premier ouvrage étaient déjà si solidement ficelés et efficaces que cette nouvelle édition augmentée et complétée a tout d'une bible pour l'amateur comme pour le professionnel. Dans une louable complémentarité éditoriale, l'ADBS donne sur son site, accès à la typologie complète des outils de recherche recensés et disséqués dans l'ouvrage Net Recherche 2009.

Ne vous reste plus qu'à commander l'ouvrage en question pour la somme de 30 euros. C'est par là.

Le plaisir solitaire de l'auto-délation. (ou comment je me suis dénoncé à mon propre ministère)

Préambule & Rappel des faits
Le 15 Octobre 2008 paraissait au Journal Officiel de la république, un appel d'offre concernant une "veille d'opinion" pour les ministères de l'éducation nationale, de l'enseignement supérieur et de la recherche. L'appel d'offre est composé de deux "lots" d'un coût global de 220.000 euros pour 2009 (100.000 pour l'Education, 120.000 pour l'Enseignement supérieur et la Recherche).Dans ledit appel d'offre on eut notamment lire :

  • "5.1.2 Sources surveillées : La veille sur Internet portera sur les sources stratégiques en ligne : sites « commentateurs » de l’actualité, revendicatifs, informatifs, participatifs, politiques, etc. Elle portera ainsi sur les médias en ligne, les sites de syndicats, de partis politiques, les portails thématiques ou régionaux, les sites militants d’associations, de mouvements revendicatifs ou alternatifs, de leaders d’opinion. La veille portera également sur les moteurs généralistes, les forums grand public et spécialisés, les blogs, les pages personnelles, les réseaux sociaux, ainsi que sur les appels et pétitions en ligne, et sur les autres formats de diffusion (vidéos, etc.) Les sources d’informations formelles que sont la presse écrite, les dépêches d’agences de presse, la presse professionnelle spécialisée, les débats des assemblées, les rapports publics, les baromètres, études et sondages seront également surveillées et traitées. Les interactions entre des sources de nature différente, les passages de relais d’un media à l’autre seront soigneusement analysés."

Mais également :

  • Point 5.1.1. Objectifs. Le dispositif de veille vise, en particulier sur Internet, à:
  • identifier les thèmes stratégiques (pérennes, prévisibles, émergents)
  • identifier et analyser les sources stratégiques ou structurant l'opinion
  • repérer les leaders d'opinion, les lanceurs d'alerte, et analyser leur potentiel d'influence et leur capacité à se constituer en réseau
  • décrypter les sources des débats et leur mode de propagation
  • anticiper les risques de contagion et de crise.
  • Rapprocher ces informations et les interpréter
  • Anticiper et évaluer les risques de contagion et de crise
  • Alerter et préconiser en conséquence"
Il n'en fallait pas plus pour que je me fende d'un très officiel courrier à notre Ministre, que je reproduis ci-dessous. Si le coeur vous en dit et après lecture, je vous invite naturellement à en faire de même.
                                                     ===========================
                                                     Madame la Ministre, chère Valérie,

J'ai bien pris connaissance de votre appel d'offre du 15 Octobre. M'efforçant d'être en tout point un citoyen modèle, et à ce titre soucieux de préserver les finances publiques, je viens par la présente me dénoncer auprès de vos services et incite toutes celles et ceux qui correspondent au profil recherché dans votre appel d'offre à faire de même.
Afin que vous ne me preniez pas pour un dangereux fantaisiste, je tiens à caractériser très précisément la manière dont je correspond à la cible recherchée par votre appel d'offre et le caractère factuellement recevable de ma demande.
Primo : Je tiens depuis maintenant 3 ans un de ces  "sites « commentateurs » de l’actualité, revendicatifs, informatifs, participatifs, politiques, etc." Ce site (blog) est intitulé "affordance.info" et j'y commente de manière assez régulière, assez polémique et chaque fois que je le peux assez "impertinente", l'information qui concerne le secteur dans lequel j'exerce ma profession, à savoir l'enseignement et la recherche. Par ailleurs, je ne me prive pas de commenter également d'autres décisions, actualités ou événements dans des secteurs où je n'exerce pas et pour lesquels je n'ai pas nécessairement de légitimité.
Deuxio : Un certain nombre d'indices concordants me portent à croire que je suis un leader d'opinion, une nouvelle fois donc dans le coeur de votre cible qui "portera ainsi sur les médias en ligne, (...) de leaders d’opinion". En effet, j'ai longtemps tenu la première place du classement des blogs influents de la société Wikio dans la catégorie science. J'en profite pour vous signaler dénoncer deux autres collègues enseignants-chercheurs, André Gunthert et Jean Véronis, respectivement second et premier du même classement des blogueurs influents. Si j'enseigne de mon côté principalement dans un petit IUT de province et ne peut donc compromettre qu'un petit nombre d'étudiants en les exposant à une pensée déviante, le pouvoir d'influence - et donc de nuisance - de mes deux prestigieux collègues est bien plus considérable que le mien. J'invite donc une nouvelle fois vos services à s'intéresser de près à leur cas. Par ailleurs, votre appel d'offre indique également que "Le dispositif de veille vise, en particulier sur Internet, à (...) repérer les leaders d'opinion, les lanceurs d'alerte, et analyser leur potentiel d'influence et leur capacité à se constituer en réseau." Une nouvelle fois, j'attire l'attention de vos services sur mon "potentiel d'influence" ma capacité de nuisance, qui tient principalement à mon aptitude à créer et à utiliser des réseaux de diffusion numériques et à la surexposition de mon blog.
Tertio : "La veille portera également sur (...) les blogs (...) ainsi que sur les appels et pétitions en ligne". Le site que je tiens est bien un blog, et j'ai signé et appelé à signer un grand nombre de pétitions en ligne sur des sujets aussi divers que la suppression du premier Avril (journée nationale sans humour), la politique migratoire de la France, l'évaluation des revues scientifiques. De plus, le point 5.2.2 de votre appel d'offre indique que "Les vidéos, pétitions en ligne, appels à démission, doivent être suivis avec une attention particulière et signalées en temps réel." Or j'ai moi-même été à l'origine d'un appel à démission (je vous remets le lien pour faire gagner du temps à vos services).
Quarto : "les passages de relais d’un media à l’autre seront soigneusement analysés." Il m'arrive fréquemment de répandre mes idées dans d'autres supports que ce blog, y compris dans des journaux dits "citoyens" (de type Agoravox) ou dans de grands quotidiens nationaux (même si cela ne se produit pas aussi souvent que je le souhaiterais, mais diminue heureusement d'autant le risque d'exposition de la population à mon arrogant irrespect).
Dernier facteur à charge, mais non des moindres, j'ai enseigné pendant assez longtemps dans un Master d'Intelligence économique à l'université de Toulouse 1, Master pour lequel j'ai même un temps fait fonction de directeur des études. Je connais donc bien les différentes techniques de renseignement et de contre-renseignement et suis, plus que d'autres, à même de les utiliser dans une logique anti-gouvernementale.
A ce stade de la démonstration, est-il encore nécessaire de mentionner que je partage la vie d'une femme occupant de hautes fonctions syndicales dans un syndicat professionnel paramédical, ce qui me donne naturellement potentiellement accès à des rouages ministériels et des informations inaccessibles pour le grand public ?
Enfin, Madame la Ministre, je tiens à porter à votre connaissance et à celle de vos services qu'il doit être possible de m'atteindre afin de me réduire au silence, et ce sans aller jusqu'à menacer physiquement ma personne, ma famille, mes collègues ou mes étudiants (ce qui, vous en conviendrez, ferait un peu désordre). Une première stratégie (sur le long terme) consiste à inscrire dans les formations où j'enseigne l'un de vos agents assermentés qui pourra, par tout dispositif à sa convenance, établir un faisceau de preuves sur mon comportement et mes discours, vous permettant par la suite d'engager à mon encontre des procédures administratives de sanction. L'autre possibilité (sur le court terme) consiste à faire plancher l'un de vos juristes assermentés sur de probables infractions au devoir de réserve dans mes différents écrits et opinions. Il suffira alors d'exercer une pression appropriée sur le président de la faculté dans laquelle j'enseigne pour que celui-ci me trouve tout un tas d'occupations et de tâches administratives qui m'éloigneront de mes étudiants et de mes activités de recherche, bref, qui me "placardiseront" et réduiront à néant mon potentiel de dangerosité.

Croyez Madame la Ministre, à l'expression de ma sincère et très grande vigilance citoyenne. J'espère que ce courrier suscitera des vocations et qu'un grand nombre de dénonciations spontanées parviendront à vos services. Les 220 000 euros engagés dans la procédure pourront peut-être alors être réaffectés à des tâches et des actions qui si elles ne sont pas plus nobles, me sembleraient pourtant bien plus nécessaires**.

Olivier Ertzscheid, Enseignant-chercheur-blogueur-leaderd'opinionlanceurd'alerte.

** Combien de RASED pourraient être maintenus et bénéficier de personnels pour prendre en charge les enfants en très grande difficulté scolaire avec ces 220 000 euros ?? Plein.
                                             =========================================
Conclusion
La réaction du Ministère après divulgation dans les médias de cet appel d'offre fut en gros la suivante : "Le ministère de l'Education nationale a tenu à préciser qu'il s'agissait en fait d'une surveillance qui remonte à 2006, mais qui a simplement mué, notamment cette année, vers une veille accrue sur le Net, évolution du militantisme oblige. L'équipe de Xavier Darcos précise par ailleurs que "tous les grands ministères ont un budget alloué à la veille de l'opinion"." Sur la surveillance antérieure, effectivement, je confirme. Il n'en demeure pas moins aberrant que le ministère soit incapable de commander ce travail de veille à des fonctionnaires formés pour cela (il ne manque pas en France d'universitaires spécialistes de ces questions, ou pouvant, le cas échéant, former des fonctionnaires à ces techniques aujourd'hui somme toute assez basiques et répandues). Au lieu de cela, c'est 220 000 euros/an qui partent dans les caisses d'un prestataire privé. Sur le "tous les ministères le font, pourquoi pas l'enseignement, l'enseignement sup et la recherche", et bien précisément parce que si la veille d'opinion et plus largement l'intelligence économique sont indispensables dans certains secteurs sensibles et/ou stratégiques, c'est un non-sens que de maintenir l'affirmation de leur intérêt pour les ministères concernés (éducation et recherche donc). Car la seule finalité possible de cette veille d'opinion pour ces deux ministères est, au mieux, utilisable à des fins de désinformation orchestrée, et au pire, a vocation à engager des procédures de nature coercitive pour les fonctionnaires en dépendant. Pour le dire autrement, aucun impératif économique ou stratégique ne justifie la mise en place d'un tel plan de veille confié à un organisme privé. C'est donc - au mieux - faire très peu de cas d'un prétendu dialogue social, et - au pire - ce me semble contraire a ce que devraient être les pratiques d'un état de droit.   

Sur le même sujet voir aussi : Rue89, et bien sûr le document de l'appel d'offre (Téléchargement 26772.pdf)

<Updates du soir>
  • Rappelons que le terme de "lanceur d'alerte" qui figure dans le texte de l'appel d'offre du Ministère n'est pas choisi au hasard. Loin s'en faut.
  • Comme le rappelle le Journal du Net "A la fin du mois d'octobre, un appel d'offre similaire a également été lancé par le Service d'information du gouvernement (SIG), concernant la réalisation d'une veille quantitative et qualitative sur le traitement de l'actualité gouvernementale par les médias en ligne et les blogs de journalistes." Lequel appel d'offre avait également été largement relayé dans la blogosphère, notamment chez Narvic, euh pardon, chez Narvic donc, ou chez Marianne2.
</Update>

<Edit du 19 Novembre> Voici la version du même appel d'offre, mais de l'année dernière (19 Octobre 2007) : Téléchargement Veille_opinion.pdf. Une lecture comparée des points 5.1.1 et 5.1.2 à un an d'intervalle est assez parlante sur les enjeux et les finalités des modifications apportées ... et sur l'impact des Bad Buzz présidentiels et gouvernementaux dans la nouvelle mouture de l'appel d'offre (par exemple, la surveillance des vidéos en ligne devient étrangement prioritaire :-) </Edit>

<Edit du 21 Novembre> Mieux vaut en rire ...

Tract-11
</Edit>


(Temps de rédaction de ce billet : 2 heures qui auraient pu être mieux utilisées à servir la gloire du ministère de l'enseignement supérieur et de la recherche des leaders d'opinion)

Journadocumentaliste.

Intéressante et synthétique liste de ressources permettant de chercher, trouver, vérifier, monitorer, identifier, valider ses sources.
Le débat qui suit en commentaires (entre Alain Joannes et Bibliobsession) est tout aussi intéressant sur la proximité de certaines compétences documentalo-journalistiques (d'où le titre de ce billet).

Repere

La brochure REPERE (Ressources Electroniques pour les Etudiants, l'Enseignement et la Recherche) est parue. Elle est consultable en ligne sur le service Issuu et également téléchargeable en .pdf.
Au programme plein de "textes courts" dressant un panorama à la fois accessible et pointu des pratiques actuelles dans le domaine de l'information scientifique et technique. Bref, une lecture et un élément de bibliographie incontournable (pour mes étudiants notamment ...). J'y ai de mon côté rédigé un texte sur le web collaboratif et la gestion de l'identité numérique (pp. 14 à 17).
Coup de chapeau sincère à Elisabeth Noël pour la nouvelle maquette de cet outil, avec un gros effort de toilettage, de nouveaux contributeurs, et de nouvelles rubriques collant au plus près de l'actualité du web et de ses pratiques.

La recherche de blogs : pistes pour demain.

Compte-rendu de lecture de l'article : Hearst M., Hurst M., Dumais S., "What shoulg blog search look like ?" (.pdf)

Si cet article a attiré mon attention, c'est pour plusieurs raisons, et tout d'abord le "profil" de ses trois auteurs. L'article est en effet rédigé par Marti Hearst, professeur à Berkeley et spécialiste de la navigation et des interfaces "à facette", Susan Dumais (Microsoft), inventeur de l'indexation sémantique latente et spécialiste des interactions homme-machine, et Matthew Hurst (Microsoft), blogueur et inventeur du remarquable outil BlogPulse.

L'article part d'un constat : les outils actuels de recherche de blogs n'exploitent pas les fonctionnalités structurelles spécifiques de ces plateformes. Ce constat peut - de mon point de vue - être discuté dans la mesure ou les usagers (sauf certains geeks et professionnels de l'info) ne feraient probablement pas trop usage de fonctionnalités de recherche avancées.
Deuxième constat plus intéressant et qui nous en apprend beaucoup sur la manière dont les gens "cherchent" de l'information : l'article mentionne une étude portant sur 500 requêtes prises au hasard et qui les décompose comme suit : 52% contiennent des noms "d'entités nommées" (des personnes, des produits, des entreprises). Sur les 48% restant, 25% expriment des requêtes de "haut-niveau" (les exemples donnés sont "stock trading" "gay rights"). Les derniers 23% sont des requêtes navigationnelles et des requêtes "adultes", auxquelles s'ajoutent un petit lot d'inclassables. L'étude citée comprend une autre info intéressante : ses auteurs ont établi que concernant les requêtes sur des entités nommées, le "besoin" des requêtants était en général de voir ce qui se disait (sur le web, dans la presse) de l'entité en question, au moment de la requête. Bref, du requêtage dans une logique de "recherche d'actualité". Par ailleurs, 20% des requêtes les plus populaires étaient corrélées à une actualité récente. Bref encore, les usagers vont sur le Net pour les même raisons qu'ils se rendent dans des maisons de la presse : l'actualité, l'actualité, l'actualité.

L'article revient ensuite sur les caractéristiques propres de l'information publiée sur les blogs : l'unité n'est plus la page HTML mais le billet, le ton est souvent plus personnel, les opinions dominent l'information, etc. Les auteurs proposent alors de se focaliser autour de 3 scénarios :

  • "Find out what are people thinking or feeling about X over time.
  • Find good blogs/authors to read.
  • Find useful information that was published in blogs sometime in the past."

Je serai tenté de résumer ces trois scénarios par 3 mots-clés :

  • Hubs (vue la plus large possible de points de vue sur un sujet, approche synchronique),
  • Authorities (repérage de blogs "de confiance")
  • et Trends (vue diachronique d'un sujet).

Tout le monde aura reconnu derrière les deux premiers scénarios la patte de Kleinberg, rien de très nouveau donc, mais une bonne grille d'analyse.Voici les pistes proposées par les auteurs pour chacun des trois scénarios :

  • Scénario 1 : l'objectif est d'aider les "market researchers" à utiliser "the results of sentiment mining (...) to help get a timely understanding of reactions to products and policy proposals alike." La solution proposée est la suivante : "It should organize and aggregate the results better, and by having a focus on author information, including who has commented on the post, and who
    has blogged about the post.
    "
  • Scénario 2 : l'idée est ici clairement d'instrumentaliser le processus de sérendipité qui joue à plein pour l'identification de blogs de référence (par l'exploration des blogrolls notamment). Les annuaires de blogs ne semblant pas (plus ...) être capable de proposer des pistes fiables et étant délaissés par les utilisateurs. Les pistes proposées sont au nombre de trois. Primo : une caractérisation de la qualité des blogs sur la base d'une analyse quantitative et d'une identification des contenus "originaux" et des contenus "repris". Deuxio : "Subtopics within topics. A reader may want to find blogs that provide high-quality commentary on one topic specically within a general subject area, for example, commentary on a particular television show or on a particular model of motorcycle. Often these are interspersed with high-quality commentary on other related topics, such as other TV shows or other vehicles. A blog selection interface should allow for the automatic creation of a feed reader on only the subtopics of interest across several high-quality blogs simultaneously, with little or no additional work needed on the part of the user." Ce qui est ici décrit ressemble furieusement à ce que Wikio met en place depuis déjà pas mal de temps dans sa page "catégories" avec autant de fils RSS que de sous-catégories. Tertio : la caractérisation fine des auteurs et des lecteurs du blog, caractérisation construite autour des questions suivantes (je souligne celles qui me paraissent les plus prometteuses mais aussi les plus délicates à "mesurer") : "Who are the people who do the interacting on the blog, including in comments ? Whom does the blog link to, and which others are linked to it ? What forms of media link to it ? How many people write for this blog? What are
    their reputations
    ? How many people post comments for the authors of the blog? What is the quality of the comments ? Does this blog link to others with similar or different viewpoints ?
    " A noter que sur ce dernier point, une approche façon "controverse" telle qu'elle est mise en place (manuellement) par SmallBrother.info me semble très intéressante.

Avant d'aborder le dernier scénario, les auteurs proposent la mise en place d'une interface "à facettes" pour résoudre les problèmes à multiples dimensions posés par la recherche de blogs. On aurait notamment une facette "sociale" pour en savoir plus sur les auteurs et les commentateurs de blogs, et une autre facette davantage orientée "typologie des blogs" (tiens, tiens ...), une typologie qui là encore est le centre névralgique de l'approche (et du succès) de Wikio, via son célèbre classement. L'article relève la difficulté de faire entrer un blog dans une catégorie et une seule en fonction de son contenu (beaucoup de blogs traitant de beaucoup plus d'une seule thématique), difficulté augmentée par d'autres catégorisations possibles (en fonction de l'audience, du rattachement institutionnel, etc ...) et il propose 4 pistes pour affiner et produire des typologies pertientes et adaptées :

  • "standard text classification" : avec des trucs du genre "sérieux", "ironique", "artistique" ... De fait, les outils de l'ingénierie linguistique permettent aujourd'hui de "parser" des contenus pour en extraire des "tendances stylistiques". Il serait intéressant de les faire tourner sur un corpus large de blogs (par exemple ceux du classement wikio) pour voir le résultat et affiner les appartenances actuelles de tel ou tel blog.
  • "filtrage collaboratif" : un grand classique. Permettre aux gens de soumettre leurs blogs préférés en les rattachant à des blogs existants et déjà "catégorisés" ou "typologisés".
  • "sélection implicite" : plus osé (mais bien dans la ligne d'un web implicite de plus en plus présent ...). Il s'agirait en fait de "pister" les comportements de navigation pour ensuite implémenter un système de recommandation plus ou moins personnalisé.
  • "requêtes descriptives" : l'idée serait ici d'analyser les requêtes pour proposer, par exemple, des blogs "humoristiques" à quelqu'un qui tape "faites-moi rire avec mon divorce", ou des blogs plus sérieux et à dominante juridique à quelqu'un qui tape "comment choisir un avocat pour mon divorce".

Au final, même si l'article ne dit rien du "comment faire" (du fait des enjeux commerciaux et des brevets probablement déjà en cours de dépôt sur ces questions), il fourmille de pistes intéressantes.
M'est avis que Pierre Chappaz ainsi que le nouveau conseiller scientifique de Wikio et l'équipe prometteuse des Wikio Labs devraient y trouver quelques idées à creuser. Disons que ce sera là ma première contribution au dîner parisien de demain ;-)

// Temps de rédaction de ce billet : 2h30 //

C'est la rentrée ...

Allez, hop hop hop, au boulot. Fini de lézarder. D'autant qu'il s'est passé plein de choses en deux mois ...

Côté encyclopédies :

  • la série rafraîchissante d'Ecrans sur "Inside Wikipedia". Episode 1 : Wikilove. Episode 2 : Wikipompiers. L'intégralité de la série à lire ici.
  • A ne pas manquer, le regard d'Hervé (Le Crosnier) sur l'édition papier de la Wikipedia par Bertelsman et la rémunération de ses ... 90 000 auteurs ...
  • Et puis bien sûr, lancement par Google de son projet encyclopédique baptisé Knol. Gardez patience, le prochain billet y sera entièrement consacré ;-)

Côté Moteurs (enfin ... surtout côté Google ...) :

  • A ne pas manquer : un article de Chris Anderson dans Wired sur l'âge du Petabyte et son héraut (Google). Article court, brillant et relativement impossible à résumer puisqu'il montre en une seule page quels sont les liens entre les théories scientifiques, la fin des théories scientifiques, le moteur de recherche Google, la puissance calculatoire, les avancées de la génomique, l'informatique distribuée, la nouvelle "science des données" et quelques autres trucs encore. Allez, filez le lire et vous comprendrez certainement un peu mieux la manière dont chacun d'entre nous est relié à la machine. 
  • un débat chez Google France sur l'économie numérique avec une conclusion d'Eric Besson. A écouter notamment vers la 67ème minute le point de vue des intervenants (entreprise) sur un aspect du débat autour de la net neutrality (taxation des recettes publicitaires sur internet). J'ai simplement retenu que pour Eric Besson, le fait d'envisager de "prioriser par exemple des données relatives à la télésanté" n'est pas nécessairement une atteinte au principe de neutralité du net. Pour les autres aspects - cruciaux - de la Net Neutrality, voir par exemple ce billet de Martin Lessard : "étrangler le Net".
  • Alors que Google croyait en avoir définitivement fini avec le Google Bombing, voilà-t-y-pas que le Google Bombing ressurgit dans l'outil Google Trends.
  • Pour ceux qui s'en inquiéteraient, Google se porte - toujours - financièrement très bien : chiffres complets ici et résumé sur Zorgloob. Côté "part de trafic", ça va aussi.
  • Un très bon dossier documentaire réalisé par 3 étudiants du cycle supérieur de l'INTD : "Les rapports de Google avec la justice" (.pdf). La première partie du dossier est une recension des procès et actions en justice contre Google, la seconde se focalise davantage sur l'exploitation des données personnelles. Très utile pour avoir une vision "fine" d'un justiciable pas comme les autres.
  • Dans la série "publicisons, publicisons, il en restera toujours quelques chose", LiveSearch (Microsoft) s'installe dans la motorisation de Facebook. (Rappelons pour mémoire que Google motorise - et constitue la régie publicitaire de - MySpace). Voir aussi pourquoi Jérôme Charron s'en félicite.
  • Pour les Googlophiles anglophobes, découverte de Goopilation, un blog qui traduit en français les billets de l'ensemble des blogs officiels de Google.
  • Et puis, et puis ... en septembre 2005, Google faisait disparaître de sa page d'accueil la mention du nombre de pages indexées, laissant les compteurs de notre imaginaire collectif baguenauder librement. Dans un billet en date du 25 Juillet, sur son blog officiel, Google annonce que son crawler a franchi une étape ("a milestone") : 1000 milliards d'adresses uniques détectées, ce qui, comme le rappelle Jean Véronis n'est pas la même chose que le nombre de pages indexées, mais qui est "déjà très impressionnant". Au-delà de son effet subliminal dans l'inconscient collectif (= "c'est Google qui a la plus grosse" ... base d'index), cette annonce révèle ce qui est l'un des tournants marquants dans l'histoire des moteurs de recherche : la principale difficulté, le principal objectif, n'est plus la capacité à atteindre un grand nombre de données (et à les réactualiser en temps réel), mais bel et bien la capacité à faire le tri entre le bon grain et l'ivraie, entre ce qui doit être indexé et ce qui ne doit pas l'être. Soit un retour à la raison d'être et aux fondements de leur algorithmie.
  • En parlant d'algorithmie justement, du côté de Yahoo! on semble s'intéresser de près à la mode des moteurs à la carte. Mais si souvenez-vous, ces moteurs "construits par l'internaute" et faisant de chacun de nous un autarcithécaire en puissance. Yahoo! a donc lancé le service BOSS (Build Your Own Search Service). Pour ne pas répéter ce que d'autres ont très bien décrit, allez lire le billet de Jérôme Charron sur le sujet. La stratégie de Yahoo! paraît claire : étant donné que le monde compte nombre d'excellents développeurs plein de bonnes idées, et étant donné qu'actuellement aucun d'entre eux ne peut bénéficier d'un équivalent de la base d'index de l'un des grands moteurs majeurs, il s'agit donc de leur offrir un accès à cette base, de les laisser bidouiller en postulant qu'il y aura probablement dans le lot une bonne ou une très bonne idée dont on pourra alors librement s'inspirer. Et dans le cas contraire, pendant qu'ils font joujou chez Yahoo!, ils ne vont pas monter de projet concurrent ;-).
  • La dérive des continents documentaires (voir ici) se poursuit, avec cette dernière étape clé de la synchronisation de nos moments connectés / non-connectés : après GoogleDocs et GoogleReader, c'est GMail et GoogleCalendar qui devraient être accessibles via GoogleGears. Rappelons, pour tenter de clarifier la "stratégie" de Google en la matière, que la synchronisation de ces applications est l'un de piliers incontournables du "webtop" ou du "WebOS", webtop dont on reparlera plus bas dans ce billet de rentrée.
  • L'une des dernières études du PewInternet nous apprend que si en 2002 seulement un tiers des internautes utilisaient un moteur de recherche pendant leur journée connectée, ils sont maintenant la moitié à le faire (49%). Les autres "habitudes" sont (de la plus à la moins fréquente) : l'e-mail, la recherche en ligne, la consultation d'actualités ("checking news"), et la consultation de la météo.

Côté Moteurs, outils ET bibliothèques :

  • Je vous l'avais annoncé avant les vacances, la bibliothèque municipale de Toulouse est désormais sur FlickR. Pour les détails et les motivations de cette (remarquable) opération, voir le message posté sur biblio-fr. Une Flickerisation des bibliothèques qui fait flores (6 à ce jour) comme en témoigne cette nouvelle initiative lue chez André Gunthert : "la George Eastman House est le premier grand musée de photographie à mettre en ligne en libre accès dans la section des Commons de Flickr plusieurs extraits de ses collections." Sans oublier, comme le rappelle Patrick Peccatte en commentaire du billet d'André, "les institutions présentes sur Flickr qui présentent des fonds intéressants mais pas sous le régime des Commons, comme la Biblioteca de Arte-Fundação Calouste Gulbenkian." Je croie qu'il y a là l'amorce d'un mouvement de fond (et de fonds ;-), dont l'impact à moyen terme pourrait être assez semblable à celui des projets de numérisation (Google Books).
  • et puis bien sûr, l'annonce de la numérisation de la BM de Lyon par ... Google. Là encore, un peu de patience, c'est le sujet d'un prochain billet.

Côté bibliothèques ...

  • Le discours de Barak Obama : sources, références et larges extraits à lire chez Jean-Michel Salaun.
  • Côté bibliothèques ET revues : Valérie Pécresse (ministre enseignement supérieur) et son copain Bruno Racine (BnF) avaient bien caché leur jeu. Le ministère de l'enseignement supérieur vient d'annoncer le déblocage de 10 millions d'euros pur la création d'une archive pour les revues de recherche françaises. L’objectif de cette archive est de conserver sur le long terme les revues scientifiques qui ont un faible usage. Cette archive sera sous la responsabilité de la BnF qui assurera également l’accès aux articles, sur support papier ou électronique, par son service de fourniture de documents. Ah ben non désolé. Fausse alerte. C'est pas en France. C'est au Royaume-Uni. A mettre en balance avec l'approche et l'existant hexagonal.
  • Et puis les diaporamas du dernier congrès de l'ABF (blog du congrès) sont regroupés en ligne sur le site de l'ABF.

Côté livre/document/lecture numérique :

  • André Gunthert nous livre une belle analyse d'un beau concept : la lecture exportable (ou les affres d'un copyright en bout de course). De mon côté je prolongerai bien l'analyse d'André en indiquant que ce qu'il décrit à juste titre comme une lecture exportable est en fait la réalisation concrète la plus proche de l'idée originale de transclusion (chez Ted Nelson - père fondateur de l'hypertexte - la transclusion désigne des contenus non plus "inclus" mais situés simultanément à divers endroits, sans altérer pour autant leur localisation originale ... pour plus d'infos voir sous le lien précédent).
  • L'iPhone devient liseuse : Virginie Clayssen rappelle à quel point la nouvelle pourrait être d'importance pour le décollage et la structuration d'un marché du livre électronique.
  • A lire : les enjeux du livre au format de poche, une étude de 8 pages de la DEPS, qui ne se termine pas par hasard sur "la perspective numérique", au moment où l'on parle de plus en plus d'une date limite de consommation des livres sous forme papier.
  • Et pendant que l'on réfléchit de plus en plus activement ici ou là sur l'avenir de la chaîne du livre à l'heure du numérique, le rouleau compresseur continue d'avancer : Amazon met la main sur AbeBooks (via Hervé Bienvault)

Côté biblio-scientométrie

  • la face cachée de la bibliométrie existe, et plus simplement au sens figuré. Pour organiser - selon des critères bibliométriques (taux de citation / date de parution de l'article / ... )  - les résultats issus d'une interrogation de la base Medine, imaginez que la liste desdits résultats soit ... une liste de visages dont le froncement des sourcils ou le sourire (ou l'absence de sourire) seont autant d'indicateurs vous permettant d'anayser lesdits résutlats et de mieux vous y orienter. Pas clair ? OK, une image :
    Facebib
  • le site reprend en fait la théorie des visages de Chernoff (voir ici ou pour une définition de ladite théorie) en l'adaptant aux usages scientométriques et en la faisant "tourner" sur une base d'articles scientifiques (PubMed). Gadget diront certains. Sûrement. Sûrement. Aussi sûrement que cela ouvre autant de pistes du côté d'une "humanisation" littérale des résultats de recherche. La source : ici. Pour jouer avec : .

Côté Science 2.0

Côté Web 2.0 ...

  • une petite bibliographie autour du web 2.0 mêlant articles scientifiques, thèses, ouvrages et études diverses, le tout accessible gratuitement.
  • Une jolie mise en image des différents services sociaux autour du web 2.0.
  • Je vous ai souvent parlé (en conclusion de ce billet par exemple) de l'inexorable avançée d'un mouvement d'externalisation de nos mémoires (intimes ET documentaires), lequel, conjugué à une informatique ambiante (everyware) et à une redocumentarisation du monde (internet des objets) et de l'homme (l'homme est un document comme les autres), donne littéralement corps à un hypercortex planétaire. Le résultat à court terme - 2040 -, et en termes beaucoup plus clairs (:-) est expliqué dans un édito du 16 Juillet de Wired, édito chroniqué, résumé et traduit sur InternetActu : "La machine unique pour les relier tous".
  • Prenez la plus grosse base de donnée iconographique gratuite de la planète (FlickR). Prenez ensuite l'une des toutes premières agences commerciales de diffusion de photo (Getty Images). Imaginez un accord entre les deux permettant à la seconde (Getty) de piocher à volonté dans la première (FlickR) pour en revendre le contenu en reversant 20 à 40% de la somme récoltée au photographe amateur. Et vous aurez un système gagnant-gagnant et un exemple très parlant de la manière dont les pro-am deviennent un incontournable levier de l'économie de la longue traîne.

Côté Web 2.0 et après ...

  • Après le Web 2.0, il y a naturellement le cloud computing. Hervé Le Crosnier signe un papier lumineux sur le sujet dans le Monde Diplo. Didier Durand signale un intéressant white paper d'évangélisation (technique) en provenance de chez Amazon : Cloud Architectures (.pdf)
  • Après le web 2.0, il y a aussi le webOS, soit la migration du Desktop (bureau comme interface du disque dur) vers le webtop (navigateur comme interface de nos disques durs "en ligne"). Nova Spivack rédige sur le sujet un article de référence qui récapitule les enjeux et les ambitions de cette nouvelle migratio numérique des contenus et des comportements associés : "The future of the Desktop".
  • Après le web 2.0, il y a l'explosion des contenus gourmands (en bande passante) : voir les chiffres de la dernière étude Cisco, rapportés par Eric Baillargeon. Et de manière corrélée, il y a un phénomène de "dés-appropriation" de plus en plus systématique des contenus demandés par les internautes : voir le billet de Techcrunch rapportant le régne annoncé du "tout streaming". Là encore une nouvelle étape de la dérive des continents documentaires, dans laquelle après avoir confié nos contenus à des sites externes (tout en gardant une possibilité d'archivage en-ligne), nous prenons de plus en plus l'habitude de consommer des contenus comme de simples services, sans appropriation réelle ni possibilité de conservation ou de stockage. Bref, nous faisons avec Internet ce que nous faisions hier avec la télé, avant que l'on invente les magnétoscopes. Sauf que sur Internet, c'est pas très facile de réinventer le magnétoscope, comme en témoigne les mésaventures du service (excelletissime) Wizzgo. Espérons avec Jean-Michel que "S'il y a beaucoup de mythes dans le Web 2.0, il y a aussi beaucoup de préjugés chez les médias traditionnels, à commencer par croire que l'on peut retarder l'expression d'une demande explosive."

Côté énervements récurrents :

  • la fausse bonne idée de l'université entreprise, à lire sur le site de SLR ... pendant ce temps, Valérie Pécresse distribue les médailles en chocolat comme autant de labels vides de sens (et de financements ...)
  • les vraies-fausses promesses de maître Darcos. (= Episode 1 : on va supprimer plein de postes, mais en échange on va revaloriser la grille des salaires. Episode 2 : on va supprimer plein de postes. Euh ... oui oui, on va aussi revaloriser la grille des salaires. Mais pas tout de suite hein ? Episode 3 : relire l'épisode 2)
  • "L'autonomie" (financière) souhaitée des université est vraiment - mais alors vraiment - une notion à géométrie variable.
  • et dans la série "faisons fonctionner de nouveaux trucs avec tous les défauts des anciens machins", je vous recommande la lecture de "l'ANR pour les nuls" sur le site de Sauvons la Recherche.
  • Tout cela nous rappelle que la loi LRU a 1 an. A lire sur EducPros, un rapide bilan des opérations. A remarquer : seulement 9 universités (sur 85) ont décidé de mettre en place les fameux comités de sélection en lieu et place des anciennes commissions de spécialistes. Ce manque d'engouement n'est pas nécessairement la preuve d'un désaveu du système proposé (par les comités de sélection). Simplement le résultat d'un calendrier de mise en place à la hussarde et le symptôme d'un très grand flou dans le "comment concrètement" faire tourner ces nouveaux comités de sélection. Le résultats c'est que la plupart des université, déjà très occupées à mettre leur CA aux nouvelles normes, n'ont pour le moment pas eu vraiment le temps de s'occuper de la mise en place de ces comités. C'est à la fin de cette année universitaire que l'on pourra réellement juger sur pièces, même si de mon côté, mon opinion est faite ... Et par souci d'impartialité, le bilan de la loi LRU, côté communiqué officiel :-)
  • Sans archive(s) pas de mémoire, sans mémoire pas d'Histoire. Le petit monde de l'archivistique est depuis peu en butte à de sévères bouleversements qui engagent tout un pan de notre mémoire collective. Voir ici et là.
  • Edvige et Cristina. La France en (très) bonne place pour les prochain BigBrother Awards. Voir (parmi d'autres) : Politis, Le Monde, le point de vue de Jean-Marc Manach, l'article d'EDRI avec les liens vers les parutions du JO et d'autres couvertures presse. Ils en parlent aussi : l'ADBS. Au moins, cette affaire aura donné lieu, sur France Inter, à un téléphone sonne d'anthologie :-(
  • Et toujours à l'affiche, "les cages de la république".

Côté People et Blogosphere :

  • ce dont tout le monde a parlé cet été c'est la guerre entre blogueurs et journalistes. Rappel des faits.
  • Le départ de Versac tout comme la sortie de route classement de FredCavazza sont d'ailleurs peut-être assez symptômatique d'un changement d'époque. Car outre-atlantique aussi, Francis Pisani nous apprend que Jason Calacanis himself annonce son retrait blogosphérique. Je suis de mon côté depuis longtemps convaincu que les blogs auront permis l'émergence de nouvelles formes de parole (et de prise de parole), côté scientifique notamment, et qu'ils se dirigent lentement mais surement vers une hybridation de plus en plus marquée (voir les exemples très éclairants choisis par Narvic).
  • Et puis le choc de l'été sur les blogs sciences de Wikio : André Gunthert dégringole à la troisième place et Jean Véronis fait une entrée fracassante directement à la seconde (place). De mémoire d'homme, seule Samantha Fox avait, à l'époque du Top 50, réussi une telle entrée. M'est avis qu'avec de tels challengeurs qui ne respectent même pas la pause estivale, ma première place va rapidement être remise en question. Assez bizarremement, ni Closer, ni Gala ni Voici n'ont fait leur "une" de cet événement pourtant incountournable.

Côté identité numérique :

  • A l'heure où la gestion de la réputation numérique est chaque jour plus centrale pour le simple quidam, elle revêt, pour le futur potentiel président des Etats-Unis une importance plus que vitale. On lira donc avec intérêt sur le blog VerbalKint, la stratégie mise en place par l'équipe de campagne de Barak Obama pour contrer les rumeurs en temps réel. Intéressant de noter également l'évolution qui, depuis la dernière élection présidentielle américaine, avait marqué l'avènement des blogs comme outils de lobbying, et qui se décline aujourd'hui sur le mode de la gestion de la réputation. Comme dans la "vraie vie" des "vrais gens" pour qui les blogs, après être devenu un outil d'expression central, sont aujourd'hui l'un des principaux axes de leur visibilité numérique et de ce qui s'y rattache.

Côté "ça peut toujours servir" :

Côté Agenda :

Côté lectures :

Côté visionnage :


Ce qui me frappe dans tout ça ...

Comme dans la nouvelle de Borges, "Funes ou la mémoire", le mouvement d'externalisation de nos mémoires, documentaires et intimes, nous mène droit vers une société à l'hypermnésie latente, activable. Avec Google dans le rôle de Funes, et de son côté, pas la moindre aspiration à s'enfermer dans une pièce vide pour ne plus rien "enregistrer".

Bonne rentrée à tou(te)s :-)

(Sources : sous les liens // Temps de rédaction de ce billet : 2 mois ;-)

Bibliosphère dans la (net)vibe.

Repéré par JMS et effectivement incontournable. Attention tout de même, c'est vraiment un truc d'obsédé.

Blogs et RSS : (pas) demain la veille

En septembre 2005 je publiais un article indiquant toutes les potentialités des blogs et du RSS pour la veille.
Plus de 3 ans plus tard, la dernière étude de Digimind ("Baromètre des pratiques de veille stratégique des grandes entreprises françaises") montre à quel point l'adoption de ces pratiques est encore confidentielle :

  • "plus de 50% des cellules de veille ne surveillent pas ou peu les forums, blogs et autres réseaux sociaux."

Reste à savoir pourquoi ... L'étude de Digimind évoque comme premier frein "la méconnaissance des sources".

MareLibri : un nouvel Electre ?

Le portail de recherche MareLibri.com vous offre l'accès aux références de 20.000.000 titres en ligne, proposés par plus de 2.000 librairies. L'initiative en revient à 5 sites européens dédiés à la littérature (notamment les livres "rares" et "anciens") qui ont uni leurs forces et leurs catalogues pour proposer ce portail très très très intéressant (et gratuit). Outre l'intérêt du "volume" et de la nature des ouvrages accessibles, il faut saluer la sobriété et l'efficacité de l'interface : une recherche avancée avec tout le nécessaire (par titre, par auteur, par librairie, par thème, par ISBN), la possibilité d'afficher les résultats avec un tri "par auteur", "par pertinence" ou "par prix", et la possibilité de recevoir les résultats d'une recherche par mail ou en .pdf, ainsi que de s'y abonner via un fil RSS.
Tout y est ma bonne Dame ! Seule l'entrée par "Catalogue thématique" ne fonctionnait pas ah ben si c'est réparé, mais le site est en bêta test, donc on leur pardonne. Quand on voit tout l'intérêt de ce genre de portail, on regrette d'autant plus de n'apercevoir aucun frémissement dans le projet de portail de la librairie indépendante (à moins qu'à trop frémir et qu'à force de se disperser, il ne finisse par se dissoudre ...)
(Découvert via Brainsfeed)

Fini les vacances, c'est la rentrée ...

Côté moteurs/wikipédia/knol :

  • On a donc pas mal parlé avant et pendant les vacances du projet de Google concernant son "encyclopédie" Knol : dans Ecrans, Florence Devouard s'inquiète à raison en rappelant que 50 % du traffic vient directement de Google. Google Blogoscoped y revient également en soulignant l'argument selon lequel Google ne pouvait plus accepter de voir partir tout ce traffic "non-monétisé" vers un site (wikipedia) indiquant qu'il refuserait toujours la publicité.
  • Voir aussi la rapide analyse comparative de ReadWriteWeb entre Knol, Wikia, Wikipedia et Mahalo autour des trois mamelles de l'argent, de l'attention (comme vecteur de monétisation) et de l'altruisme (comme contribution à la somme des connaissances disponibles).

Côté réseaux sociaux, moteurs de recherche et scientométrie :

  • Medline nous avait déjà habitués à son goût des interfaces innovantes. En voici une nouvelle baptisée GoPubMed qui permet, sur la base d'une recherche de faire émerger des "réseaux sociaux" à partir des noms d'auteurs d'articles et de leurs adresses de courier électronique (Via Cismef). En fait, plutôt qu'un réseau social (ce qui est l'argumentaire marketing du lancement de ce nouveau service), c'est bien de scientométrie qu'il s'agit, c'est à dire de la capacité, via un moteur sémantique, de repérer des collaboratoires, des "collèges invisibles", et de cerner en un instant sur un thème donné, l'état des publications en la matière et les chercheurs les plus en vue. Exemple : en entrant le terme "stuttering" (bégaiement) et en cliquant (à gauche dans la rubrique "What") sur "Hot topics", vous visualisez :
    • un "top 20" des auteurs ayant le plus publié sur le sujet
    • un "top 20" des publications classées par pays
    • un "top 20" des journaux dans lesquels on trouve le plus de publications en rapport avec le bégaiement
    • une courbe temporelle vous permettant de visualiser la progression (ou le recul) du nombre de publications par an sur ce sujet
    • une visualisation sous forme de graphe des réseaux de collaboration entre auteurs (répondant à la question "qui publie avec qui ?")
  • c'est à tomber par terre. Et on se prend à rêver d'un tel outil dans le cadre d'un moteur généraliste majeur à vocation scientifique (maiiiis non, pas forcément celui-là, il y a aussi celui-là). Pour mieux comprendre la puissance d'un tel outil : allez le tester, et lisez le communiqué de presse (.pdf).

Côté moteurs tout court :

  • le 7 janvier 2007, il y a donc de cela exactement un an, Jimmy Wales annonçait le lancement de Wikia, le moteur de recherche dont les résultats seraient validés par des humains. Et bien exactement un an plus tard, on nous annonce le lancement de Wikia (en version béta) pour demain, le 7 Janvier 2008 donc. A ce sujet, voir la revue de presse de Christophe Asselin. Le site de la "communauté" wikia est ici, et comme on peut le lire dans le wiki du projet, Wikia compte s'appuyer sur tout l'éventail des technologies de recherche à valeur ajoutée, à savoir la sémantique (= catégorisation), le "réseau social", l'indice de "réputation", et une infrastructure "distribuée". Lancement demain donc, et affaire à suivre de près pour ce nouveau "moteur de recherche open-source collaboratif".

Côté Bibliothèque "2.0" (ou pas ...)

  • Une conférence qui s'est tenue début Novembre à Berkeley sur le sujet des bibliothèques "2.0" avec les supports de présentation accessibles en ligne (supports présentés parfois sous forme classique - un bon vieux powerpoint - parfois sous forme "2.0" - un wiki). Pas de grande nouveauté mais cela vaut le coup de visionner la conférence inaugurale de Meridith Frakas qui embrasse bien la situation (.ppt)
  • l'un des derniers rapports du Pew Internet nous apprend (via 01.net) qu'outre-atlantique, la première raison de fréquentation des bibliothèques est ... le fait d'y trouver une connexion Internet. De quoi largement réalimenter de vieux démons débats, tant sur le taux d'équipement desdites bibliothèques dans notre bel hexagone, que sur la place des technologies d'accès dans ces enceintes et le taux de formation et d'encadrement qui est dévolu à leurs personnels.

Côté Folksonomies & Indexation sociale

Côté néologismes :

  • Saluons l'arrivée de la Zemblanité, exact opposé de la sérendipité et qui désigne "la faculté de faire de façon systématique des découvertes malheureuses, malchanceuses, attendues et n'apportant rien de nouveau." La génèse du concept et sa présentation détaillée sont disponibles sur Urfist-Infos.
  • Saluons (Via Francis Pisani) l'arrivée  de la "mobiquité" : mobilité + ubiquité. Un néologisme qui traduit bien la place de plus en plus importante qu'occupe dans notre société et dans nos comportements informationnels, l'informatique nomade et/ou ambiante.
  • Reste à savoir si ces deux néologismes entreront au panthéon linguistique aux côtés de la blingocratie.

Côté copyright, Fair-Use et autres creative commons

  • Un rapport intitulé : "Recut, Reframe, Recycle: Quoting Copyrighted Material in User-Generated Video" (.pdf). La question posée est de savoir si dans le cadre des sites de médias participatifs donnant lieu à divers remixages (exemple : YouTube), les détournements, parodies, et autres mashups de diverses oeuvres de fiction relèvent - ou non - du cadre du Fair Use (= usage équitable) et échappent donc à la législation du copyright. La réponse du rapport est claire : Oui. Il y a dans ces "oeuvres" de nouveaux éléments (détournement, transformation, remixage) qui les inscrivent dans le cadre de la constitution d'une culture populaire. "Video remix culture does not violate copyright." Les auteurs du rapport rappellent également qu'il est important de sensibiliser aussi bien les "auteurs" que les "remixeurs-amateurs" à la notion de propriété intellectuelle et d'usage équitable, pour que les premiers soient conscients de la richesse que ces remixages peuvent (parfois) apporter à leurs oeuvres, et pour que les seconds travaillent et s'amusent dans le respect de l'oeuvre des premiers. A noter : le site de présentation de l'étude est très bien fait, puisqu'en sus du téléchargement de l'étude proprement dite, il propose également une courte vidéo en rappelant les principales problématiques et conclusions, et propose également de télécharger un fichier excel du corpus de vidéos utilisées. Il propose enfin, pour chaque type de remixage (détournement, critique, débat, illustration, etc ...) les 5 vidéos les plus parlantes. Certaines d'entre elles sont réellement ... parlantes.
  • Et puis vraissemblablement à ne pas rater (je ne l'ai encore pas visionné en entier, mais il est plein d'interviews avec Yochai Benkler et ne peut donc pas être mauvais :-) un documentaire sobrement intitulé "Steal this Film" qui décrypte les enjeux liés à la notion de propriété intellectuelle et plus largement de "diffusion" dans le contexte actuel. Pour les plus pressés, plein d'extraits sur Google Vidéo, pour les autres téléchargement dans plein de formats possibles directement sur le site du documentaire. Il y en a même qui se sont déjà attelés au sous-titrage en français.

Côté traces documentaires identitaires (ou identité numérique si vous préférez) :

  • nos comportements informationnels laissent de plus en plus de place à l'égotisme forcené. Au service de cet égotisme on compte d'ailleurs de plus en plus d'outils tendant à l'illustrer (les divers outils de classement façon "top 50 de quelque chose"), à le renforcer (économie de la réputation), à en faire naître le besoin (via des interfaces navigo-ludiques dont vous êtes le centre et la circonférence), ou à en faire l'alpha et l'oméga d'un modèle économico-sociétal (facebook). C'est l'éternelle histoire de la poule et de l'oeuf.
  • Got dans ses petites cases, nous gratifie d'un éclairant billet sur FOAF (Friend Of A Friend) dont on aimerait effectivement penser que le modèle réellement ouvert qu'il incarne soit l'avenir des protocoles tournant derrière la plupart des réseaux sociaux. Mais je ne peux hélas pas m'empêcher de penser qu'il y a encore bien du chemin à parcourir ... l'heure étant plutôt pour les grosses cylindrées à la centralisation des profils propriétaires ... ce qui doit nous inciter encore davantage a faire plus de place aux initiatives alternatives et technologiquement éprouvées (dont FOAF).

Côté ressources pédagogiques :

Côté voeux, bonnes résolutions et oracles divers :

  • il y a ceux qui ne croient plus aux blogs sous leur forme actuelle (Jean-Michel Salaun et Jean Véronis) ... mais qui continuent heureusement de blogguer :-) De mon coté je reste sur le créneau de l'enthousiasme (peut-être un peu candide), même si - à l'instar des deux précédemment cités - je constate ici et là une raréfaction des pépites blogguesques, nombre de trouvailles ayant visiblement du mal à tenir sur la longueur, ce qu'on aurait du mal à leur reprocher tant il est vrai qu'en dehors d'un projet affirmé de publication (journal, auto-fiction, carnet de recherche, formation à distance), l'exercice du blog est une gymnastique chronophage, et que "le temps de blogguer" n'est pas nécessairement la chose la mieux partagée du monde. Il n'en demeure pas moins qu'en repensant à ce qu'était la pêche informationnelle d'avant et d'après le temps du blog, ce "format éditorial" a tout de même été l'occasion d'entendre de bien belles voix, et de découvrir de fort pertinentes analyses. L'avenir dira ce la forme blog deviendra, mais les potentialités, l'univers de discours offert par une petite quantité de ces "nanopublications" reste pour l'instant et de mon point de vue, essentiel.
  • il y a ceux qui comme Fred Cavazza, se livrent à leur petit exercice de prospective du nouvel an, et ceux qui comme Francis Pisani, font une revue de presse des principaux exercices du genre.

Et mes prédictions à moi ?

  • A l'instar de ce que décrit Christian Fauré à propos du service Twine, je crois que l'ensemble des acteurs majeurs de la recherche d'information (Google, Yahoo! Microsoft) et quelques-uns de leurs challengers (Exalead, Facebook) vont prendre de plus en plus nettement le grand virage de l'hybridation. Une hybridation entre :
    • des espaces et des services collaboratifs,
    • des technologies sémantiques ou sémantisées de représentation et d'agrégation des connaissances,
    • et des algorithmies de recherche "pures" (ou recherche universelle).
  • Je crois que la diversité des contenus va (enfin) atteindre un équilibre longtemps espéré entre le "texte seul" et la vidéo et l'image.
  • Je crois enfin que l'une des grandes questions en terme de recherche (notamment pour les sciences de l'information et de la communication) sera la mise au jour des nouvelles autorités cognitives qui s'articulent aujourd'hui de manière encore un peu floue derrière la monétisation (ou la non-monétsation) des services à base de connaissance (Knol, Wikipedia).
  • De mon côté je retiens comme éléments et tendances majeures de l'année écoulée : les deux nouvelles étapes de la dérives des continents documentaires que sont :
    • d'une part, la synchronisation transparente entre nos activités informationnelles connectées (on-line) et déconnectées (off-line),
    • et d'autre part, la sphère croissante d'indexabilité (notion de "graphe social" pour faire simple) de l'humain au travers de ses innombrables traces documentaires éparses sur le(s) réseau(x).
  • Ce qui me semble frappant au-delà de tout c'est l'avénement imminent et probable d'une nouvelle génération d'algorithmes ayant capacité à représenter sur un même plan des documents toujours plus fragmentaires, des traces identitaires toujours plus documentées, et à transformer toutes ces traces d'attention en vecteurs d'intentions, pour le plus grand bonheur des grandes industries culturelles et des quelques acteurs qui dominent actuellement le marché (et ce au-delà du discours geignard et misérabiliste que s'obstinent à tenir les mêmes industries culturelles). En un mot comme en cent : la redocumentarisation du monde. Il est certain qu'il va falloir être très très très attentif aux Network sciences, car elles seront le creuset plus que probable de cette nouvelle génération d'algorithmes et de modes de représentation, et qu'à mon sens, elles seules ont aujourd'hui la capacité à réunir en un même cadre d'analyse les fronts de recherche les plus innovants, les techniques d'indexation et de représentation du vivant au sens large.
  • Voilà pour le côté vivifiant et optimiste de la chose. Côté pessimiste (mon éternel côté cassandre :-); je crains que nous ne soyons confrontés à une échéance majeure, celle de la médecine personnalisée et/ou médecine "2.0" et/ou médecine désintermédiée. La montée en puissance et la position désormais établie de ces nouveaux prescripteurs planétaires que sont les moteurs de recherche d'une part, la mise à la portée du grand public des technologies de génomique (notamment à des fins d'auto-diagnostic) d'autre part, les rapprochements entre les premiers (moteurs de recherche) et les secondes (sociétés de génomique), et enfin l'engouement de plus en plus explicite chez tous les grands acteurs de l'industrie médicale (et notamment pharmaceutique) pour des modèles de diffusion et d'accès reposant sur du gratuit financé par la publicité va nécessiter, pour le moins, de grands chantiers didactiques si l'on veut éviter d'aller à coup sûr ... droit dans le mur. Va falloir se trouver dare dare un José Bové de la santé comme bien commun de l'humanité. Sinon ...

Bonne année à vous tous :-)

Les 4 commandements

Ceux que l'on peut lire sur le site d'Amazon, en référence à la nouvelle interface de ce site, pionnier par bien des aspects : "Shopping, Searching, Saving, and Buying". Simple, basique, efficace, programmatique et tellement caractéristique des comportements informationnels les plus courants.
A mettre en relation avec l'autre trilogie des modes de requêtage sur le net : requêtes transactionnelles, informationnelles, navigationnelles, renvoyant elles-même à l'antique schisme entre browsing et searching, qui lui-même est venu récemment s'adjoindre les services du subscribing.
Shopping, Searching, Saving and Buying. SSSB. Les 4 commandements de nos vies numériques. Ainsi qu'une lumineuse grille d'analyse.
(Via Isbn.wordpress.net)

Moteur à facette

A lire sur l'excellent Leçons de choses, une description de l'intérêt et des enjeux d'un moteur de recherche à facettes. Nous on y croit, lui (elle ?) on ne sait toujours pas ;-).

Perspectives documentaires sur les moteurs de recherche

"Perspectives documentaires sur les moteurs de recherche : entre sérendipité et logiques marchandes."
Un article co-écrit par votre serviteur et deux compères : Gabriel Gallezot et Eric Boutin.

  • Le pitch : "Le monde de la recherche d’information est actuellement en train de vivre une période d’intense bouleversement : position hégémonique du moteur Google, question délicate de l’interpénétration des sphères publiques et privées, redocumentarisation du monde, montée en puissance de la logique publicitaire et sa cohabitation avec le modèle « régulé » de la simple application d’algorithmes. De nouvelles modalités d’accès apparaissent, telle celle de la sérendipité que nous interrogeons, après l’avoir resituée dans l’héritage de la bibliométrie, au regard des modèles théoriques de la recherche d’information, pour isoler le rôle d’adjuvant indispensable qu’elle occupe désormais. Son instrumentalisation par les moteurs, sa perception liée au niveau d’acculturation socio-technique des usagers, la diversité de ses instanciations, pose la question de l’opacité des algorithmes et de la nécessaire ouverture d’un débat autour d’un écosystème non plus simplement documentaire mais politique."

Un bien bel article donc, refusé une première fois par une prestigieuse revue, mais que nous ne désespérons pas de pouvoir placer quelque part, à vot' bon coeur m'sieurs dames ;-)
En attendant, il est pour vous, petits veinards : Téléchargement ertzsgallbout.pdf <Update>avec une policie lisible cette fois :-() </Update>
Et surtout, que vous soyez pairs ou impairs, dîtes-nous ce que vous en pensez (à ce jour, nous sommes toujours sans nouvelles de Monsieur 2, et ça risque de durer ...)

P.S. : naturellement, avec l'accord de mes co-auteurs, l'article sera bientôt également accessible sur ArchiveSic. Mais ce soir, ça bugguait. Donc je le mets ici au chaud en attendant. <Update> Ayé. L'article est également consultable sur ArchiveSic </Update>


 

Rentrée des classes

Côté bibliothèques :

  • un tutoriel qui en 15 minutes par jour fera de vous un bibliothécaire 2.0.
  • les supports du congrès ABF Nantes 2007 sont (presque) tous en ligne.
  • un entretien avec Jean-Yves Mollier, à lire dans Télérama, et où il est entre autre question de l'avenir du livre et des bibliothèques. On n'y apprendra pas grand chose rien, mais la justesse de ton et la pondération sont également parfois appréciables :-)

Côté bibliothèques et moteurs :

  • les bibliothèques de l'université de Keio (Japon) rejoignent le programme Google Book Search, qui entre ainsi sur le continent asiatique. 120,000 ouvrages du domaine public sont concernés. Le nombre de bibliothèque partenaires s'établit donc désormais à 26. (Via InsideGoogleBookSearch & le communiqué de presse - .pdf - de Keio). Une étrange affordance au passage en guise de réminiscence, je connaissais le nom de l'université de Keio parce que Ted Nelson, inventeur et précurseur de l'hypertexte et d'une utopie mondiale de la connaissance baptisée Xanadu, Ted Nelson donc y était allé soutenir l'équivalent de ce que l'on nomme ici une "Habilitation à Diriger les Recherches". La signature de cet accord avec Google, dans l'ombre du passage de Ted Nelson à Keio donne à Google Books un étrange aspect d'aboutissement de Xanadu.
  • la bibliothèque de l'université Cornell se joint également au projet Google Book Search. 500 000 des 8 millions de volumes imprimés détenus par ladite bibliothèque sont concernés. Soit donc au total 27 bibliothèques partenaires.
  • Sur le même sujet, ne manquez pas l'article de Paul Duguid dans le dernier First Monday, et le commentaire avisé qu'en fait Jean-Michel Salaun.

Côté OpenAccess :

  • les dépôts OAI francophones en SHS suivent, et c'est tant mieux, une progression lente mais régulière et soutenue : voir le décompte détaillé de Marin Dacos.
  • Plus globalement d'ailleurs, le mouvement de l'open access dans sa globalité suit une courbe dramatiquement (?) ascendante.
  • Ceci expliquant sûrement cela ... la toute puissante AAP (association des éditeurs américains) lance l'initiative PRISM ("Partenariat pour l'intégrité (sic ...) de la recherche en science et médecine"). L'idée est d'alerter le public sur les présumés "risques" de la publication en Open Access. L'attaque est aussi frontale que caricaturale, en pointant les soi-disant "risques d'une censure d'état" liés à une "disparition de l'évaluation par les pairs", ce que personne, même les plus extrêmistes partisans de l'Open Access, n'a j-a-m-a-i-s ne serait-ce que suggéré. On en rirait presque, mais le pouvoir de lobbying de l'AAP est tel que l'on en est plutôt navré et inquiet. Il s'agit en fait de la mise en pratique du plan de guerre contre le libre accès, déclaré en Janvier 2007, pour lequel l'AAP avait eu recours à une agence de relations publiques aux méthodes qui pourraient n'être que tristement célèbres si elles n'étaient pas également largement discutables (désinformation, propagation de fausses rumeurs, etc, etc.). Tout cela est proprement consternant tant les arguments évoqués sont spécieux. Mais tout cela risque surtout de faire de considérables dégâts. Donc, plus que jamais, continuons le combat ... et le prosélytisme ... <Update de 5 minutes plus tard> Via Marlène - qui en parle aussi - je découvre ce billet certes partisan - de l'autre camp - mais qui résume très bien la situation et reprend nombre de réactions blogosphériques à ce sujet </Update>

Côté moteurs :

  • Google ...
  • Google fait preuve d'un appétit dont la constance confine à la boulimie. Voir la liste dressée par Christophe Asselin des acquisitions des derniers semestres. Derrière cet appétit qui peut sembler désordonné, se dessine progressivement une stratégie bien identifiée de positionnement sur le Web OS pour tout type de public et toute taille d'entreprise. De son côté, Henri Labarre nous offre une cartographie synoptique au format .pdf de ladite boulimie.
  • Et puis comme cela ne fait jamais de mal de rappeler quelques fondamentaux, une belle animation flash sur la manière dont fonctionne Google.
  • Google encore qui donne dans le tonitruand, en annoncant l'ouverture des commentaires sur Google News, pour ceux "ayant un lien" avec l'affaire commentée (sic). Nombre de journaux le font déjà, sans qu'il soit besoin de "prouver" avoir un lien quelconque avec l'affaire, mais quand Google touche au modèle média de la presse en ligne, tout le monde s'affole. Techcrunch rappelle les faits dans un billet synthétique. L'immense majorité des observateurs est plus que sceptique, à l'image de Danny Sullivan qui résume l'affaire en un mot : "Weird". Emmanuel Parody dans son analyse à laquelle je souscris entièrement, évoque une "arrogance d'un nouveau genre". Jusqu'au LATimes qui, deux jours après l'annonce, dans une tribue non-signée, compare Google à ... Osama Ben Laden :-(
  • Et les autres ...
  • Technorati s'effondre lentement mais sûrement ...
  • La tendance - ou l'idée que je crois de plus en plus vraie - qui veut que la fabrication de moteurs (indexation, rafraîchissement, parsing et autres technologies) et la fabrication d'interfaces soient deux métiers différents, cette tendance semble se confirmer avec le rapprochement de Groxis (excellentissime interface de Grokker, depuis le temps que je le dis ...) et d'Intellisearch. Pour plus de détails, voir l'article de l'Atelier.

Côté veille :

Côté web :

  • Si le web est implicite, il est aussi granulaire ou plus exactement fractal. Et les Widgets en sont la plus petite unité atomique. Techcrunch nous gratifie d'un billet synthétique sur les origines, les plateformes et les standards de ces petits widgets.
  • L'équipe d'Information Architects nous gratifie de son côté d'une belle carte (.gif) dans le genre "plan de métro", listant un grand nombre d'acteurs et de services du web actuel. Synoptique et fort utile pour repérer quelques "tendances".

Côté réseaux sociaux :

  • Nous nous étions quitté en listant ce que nous savions aujourd'hui des réseaux sociaux, et bien il y a de fortes chances pour que ces réseaux sociaux occupent une très grosse part de l'actualité webienne dans les mois à venir. Avec tout d'abord le coup de poker de Facebook, dont Google a une énorme envie et qu'il pourrait bien tenter de se payer, après que le PDG dudit Facebook a refusé l'offre de Yahoo (1 milliard de $ ...). Si le marché se concluait, Google enterrerait de facto toute possibilité d'émergence en la matière, puisqu'il est déjà par ailleurs installé (motorisation et régie publicitaire attenante) comme moteur officiel de LA plateforme concurrente MySpace. Du côté des trois grands le tableau est donc pour l'instant le suivant :
    • MSN dispose de MySpace. Leader indétrônable pour ce qui est du nombre de teenagers impliqués.
    • Yahoo! (ayant échoué à racheter Facebook) travaillerait sur un projet baptisé Mosh
    • et Google (probablement en train d'essayer de racheter Facebook) aurait de son côté une nouvelle arme fatale baptisée SocialStream (voir le billet de Techcrunch pour plus de détails, et voir aussi le site de présentation du projet SocialStream, présenté comme "réseau social unifié" et dans lequel une large place est faite à la notion de Sérendipité ...). Notons ici encore que sur ce terrain (réseau social "unifié") comme sur d'autres (recherche "universelle") ma petite théorie de la dérive des continents documentaires résiste bien à l'analyse ;-)
    • Si vous êtes un peu perdus, FredCavazza résume tout ça très bien. De mon côté, même si dit comme ça cela peut ressembler à du teasing éhonté, je pense que si FaceBook avait l'intelligence de regarder du côté d'Amazon (et réciproquement), la carte des acteurs plénipotentiaires du web actuel serait entièrement reconfigurée. J'y reviens dans un prochain billet ... enfin si je n'oublie pas et si j'ai le temps :-(
    • Et pour compléter mon dernier billet sur la question, on lira avec intérêt les deux billets que Jean-Michel consacre à cette même question : ici et .
    • Toujours sur le livre des visages (dévisage ?), à lire également la réflexion de François Bon.
    • Pour le côté business, voici une grille très détaillée vous permettant de calculer le retour sur investissement (ROI) d'un réseau social
    • A lire également, les résultats d'une étude menée sur 850 personnes de 54 pays, étude sans prétention scientifique mais qui confirme tout de même quelques orientations, dont la domination de LinkedIn dans la catégorie "réseau social professionnel".
    • On pourra également consulter la liste des réseaux sociaux disponible sur Wikipedia, en complément de celle de Dannah Boyd, ainsi que le rapport d'Avril 2007 de Forrester (.pdf), déjà signalé sur ce blog (pour les plus pressés, voir le récent résumé de Gerry Mc Kiernann)
    • Et puis ... et puis ... et puis il est des programmes de recherche auxquels on aimerait avoir participé ou dont on voudrait avoir eu l'idée, comme celui visant à établir le réseau social ... des superhéros Marvel. Le résultat est à lire sur ArXiv. Avec une grosse déception tout de même, l'étude se base sur l'apparition desdits superhéros au fil des volumes de publication et ne s'intéresse pas aux communautés elles-mêmes (Vengeurs, X-Men, etc.). Impossible donc d'avoir la preuve scientifique que le Fauve ait entretenu une relation avec Miss Hulk :-(

Côté Wikipédia :

  • La polémique (stérile) de l'été.
  • A l'occasion de sa pause estivale, Homo Numericus nous offre trois billets d'analyse sur "l'histoire politique" de Wikipedia, rédigés par Sylvain Firer-Blaess, étudiant de l’IEP Lyon : ici (1), ici (2), encore ici (3), et (4).
  • Un étudiant a mis au point un détecteur de TRDs (Tentatives de Redocumentarisation Déviantes) : pour le tester vous-même, direction le Wikiscanner (tous les journaux en ont parlé - Le Monde, Libé, etc. - mais vous pouvez bénéficier d'un rattrapage de qualité avec l'article de Christophe Deschamps, et d'une ouverture problématique fondamentale chez Jean-Michel Salaun, concernant l'urgence de réinventer le droit à l'oubli)
  • Dans le dernier numéro de First Monday, un autre étudiant s'est penché sur la qualité des citations scientifiques dans l'encyclopédie collaborative, avec deux résultats intéressants : les citations sont pour l'essentiel conformes aux normes académiques, et elles ont tendance à renvoyer majoritairement vers des revues à forte notoriété (Science et Nature en tête), ce qui ne peut effectivement que "contribuer à renforcer la crédibilité" de l'encyclopédie.
  • Et pour prolonger le débat, les 19 et 20 octobre 2007, l’association Wikimédia France organise le premier colloque francophone sur Wikipédia, à la Cité des sciences et de l’industrie sur le thème suivant : "Développer - Valider - Ouvrir". A ce jour, le programme ne fait état que de l'intitulé de 3 "séminaires" sans davantage de contenu ni d'intervenants (un sur les "réseaux d'experts" - tiens, tiens ... - un autre sur les rapports de l'encyclopédie avec le monde de l'enseignement, et un troisième sur l'épineuse question de la validation). A suivre donc ...

Côté identité/identifiants/traçabilité numérique :

  • Après les 3 lois de la robotique, les 7 lois de l'identité numérique. (Via InternetActu)
  • Un billet intéressant sur la gestion des avatars.
  • Naturellement en la matière, la clé résidera dans l'attitude, l'orientation et la marge qu'autoriseront les moteurs sur ces questions. Les habitués d'affordance retrouveront aisément sur ce blog quelques billets concernant la politique de Google en la matière, et durant cet été, Ask a annoncé son service AskEraser permettant aux utilisateurs de ne voir aucune donnée conservée durant leurs recherches. A l'inverse, le moteur Spock entend ficher les individus sur la base des informations collectées par les moteurs. Après un rapide test, il s'avère - heureusement - assez inintéressant (sauf si vous voulez connaître l'âge et le nom des épouses de différents présidents de la république de tel ou tel pays). Un million de personnes seraient ainsi "indexées" dans ce "people specific search engine". En revanche, nul doute que demain, l'un des moteurs majeurs proposera à son tour ce type de recherche.

Côté Outils :

Côté lectures / visionnages :

  • Un numéro du Journal of Computer-Mediated Communication avec notamment une section spéciale de 5 articles concernant les blogs, et quelques autres papiers intéressants autour des réseaux sociaux.
  • Le billet du gourou Nielsen qui a fait couler beaucoup d'encre blogosphérique au début de l'été : "Ecrivez des articles, pas des billets."En (très) gros, Nielsen plaide pour une expertise affirmée, au-delà de la surabondance instantannée d'information qui surgit dans la blogosphère à propos de tout ou de n'importe quoi. L'idée est que - selon Nielsen - si vous voulez affirmer votre expertise et éventuellement la monnayer au prix fort, vous devez écrire des billets longs, privilégier l' "in-depth content". Sébastien Billard résume très bien le tout.
  • « L’impact d’Internet sur l’économie de la presse : quel chemin vers la profitabilité ? » (.pdf) La thèse toute fraîche de Danielle Attias.
  • Et puis pour la bonne bouche, un petit film d'anticipation sur l'avenir du livre, lequel livre, peut-être selon un phénomène de contamination du support, devient de plus en plus "rich"-media.

Côté université :

  • Un très bon numéro spécial (.pdf) du magazine Horizons de l'AIU (Association Internationale des Universités), publié par l'Unesco, et consacré à la thématique du classement, des indicateurs et autres palmarès en vigueur (ou non) dans nos universités. Je vous recommande tout particulièrement la lecture de l'introduction de Jamil Salmi et Alenoush Saroyan, intitulée : "Les classements des universités comme instruments politiques : usages constructifs pour l'enseignement supérieur".
  • Sur le site lautrecampagne.org, une série de 5 entretiens avec des gens concernés et impliqués sur le projet de réforme des universités du gouvernement. Tous les sujets qui fâchent y sont abordés : recrutement, financement, échec en premier cycle, autonomie, etc.

Bonne rentrée à tous et toutes :-)

(Via : l'harassant dépouillement de mon agrégateur ...)

La marque de la pertinence

Dans un article à paraître (enfin j'espère ...), mes 2 co-auteurs et moi-même écrivons à propos de la notion de "pertinence" des résultats d'un moteur de recherche :

  • "les moteurs de recherche n’offrent qu’un seul type de « preuve »  ou de mise à l’épreuve : celui de leur pertinence. Une notion ambiguë parce que non uniformément circonscrite. Si l’indicateur scientométrique vaut pour l’ensemble de la communauté qui s’y réfère ou l’utilise, chacun jugera de la « pertinence » d’un résultat à l’aune de sa seule subjectivité et du contexte de tâche dans lequel s’inscrit sa recherche."

Analyse que vient corroborer une étude (.pdf) relevée par Sébastien Billard, étude démontrant que pour des résultats strictement identiques, les utilisateurs jugent lesdits résultats plus ou moins pertinents selon qu'ils sont présentés avec l'habillage de tel ou tel moteur (avec un écart de 25%, ce qui n'est pas anecdotique), la palme de la confiance dans la marque revenant en l'occurence à Yahoo!
Remarque :
ce dernier résultat (échelle de confiance) contredit en revanche d'autres études d'adhésion à une marque d'où Google sortait nettement gagnant ... mais je n'ai plus les références desdites études :-(.

Moteurs bibliographiques

Google, Google Scholar, Citeseer, ScienceDIrect, IEEE explore, ACM DL, CSB, PuMeb, IngentaConnect, Netbib, ISI Web of knowledge, ArXiv et quelques autres : au total une bonne douzaine de moteurs de recherche bibliographiques passés au crible selon 5 critères :

  1. domaines couverts
  2. champs et opérateurs de recherche acceptés
  3. possibilité d'export en différents formats bibliographiques
  4. possibilité d'obtenir une copie électronique
  5. modèle gratuit ou payant.

Aucune prétention "scientifique" dans cette étude très empirique, mais un bon indicateur de l'état de l'art en la matière.

(Via Academic Productivity)

Visibilité de la science et rente à vie des formateurs à la recherche documentaire.

Le corrolaire actuel de l'immémorial "publish or perish" ** est que la "vie" des publications scientifiques est conditionnée à la possibilité et aux modalités de leur accès. Maintenant que les éditeurs scientifiques - avec notamment leurs offres de bouquet numériques - ne sont plus seuls sur ce marché, rejoints :

  • par les moteurs de recherche, Google Scholar en tête,
  • et par l'explosion des archives ouvertes et institutionnelles

maintenant donc, la visibilité et l'accessibilité (hors les offres propriétaires des éditeurs) à tout ou partie desdites publications sont les facteurs d'impact clés de l'économie scientifique et de son marché de la citation.
A ce titre la récente annonce du lancement en Juillet 2007 du moteur Scitopia.org est intéressante. Il s'agit de regrouper derrière ce moteur des sociétés savantes (13 pour l'instant) donnant accès à leurs publications avec consultation gratuite du résumé et accès au texte intégral soumis soit à un abonnement à la revue, soit à un paiement à l'acte (3 millions d'articles sont annoncés sur une période de 150 ans).
Ce lancement soulève (au moins) une question et une réflexion :

  • QUESTION : le contenu (à tout le moins les résumés) restera-t-il propriétaire et ne va-t-il pas se trouver rapidement "aspiré" dans Google Scholar ?
  • REFLEXION : cette diversification de l'offre (archives ouvertes, moteurs grand public, initiatives étatiques - persee.fr - , bouquets numériques propriétaires fermés ou semi-ouverts - cairn.info -) contribue à rendre visible une part chaque jour plus significative d'un web jadis invisible. Elle risque également d'occasionner pas mal de doublons (moindre mal). Elle risque enfin de garantir une rente à vie aux formateurs en recherche documentaire ;-)

Dans la même veine, on consultera avec intérêt le mémoire de l'Enssib (Avril 2007) : "Les accès internationaux aux travaux de recherche français. Synthèse bibliographique." (.pdf)

**Just for fun, une devinette carambar scientifique (entendue lors d'un colloque) :
Question : Vous savez pourquoi Jésus n'est jamais entré au CNRS ?
Réponse : Il n'a qu'une seule publi, et elle n'est même pas en anglais.

(Via PintiniBlog)

Bibliothèques, données et moissonnage 2.0

Très vite une petite revue de liens :

  • un Wiki sur le futur des bibliothèques, des catalogues et des (méta)données.
  • la biblioblogosphère française s'organise via 2 "méta"agrégateurs : ici (génèse du projet ici) et
  • Visualiser sous forme de nuage de tag les différents éléments du format MARC (âmes bibliothéconomiques sensibles s'abstenir)
  • l'Open Content Index : une tentative de ré-étalonnage bibliographique d'une masse d'informations de plus en plus intéressante mais aussi de plus en plus dispersée.
  • une tentative d'organisation à laquelle contribue également Revues.org via leur dépôt OAI :
    • Reprise du message publié sur Biblio-fr : "Ce dépôt vous propose, à ce jour, les métadonnées de 19359 articles issus de 59 revues de sciences humaines et sociales publiées en ligne sur notre portail. Ces métadonnées sont  structurées en Dublin Core simple. Dans le futur, elles seront enrichies afin d'offrir plus de précision et de granularité
      dans la description des articles et des collections  (Dublin Core qualifié et METS).
      La liste des publications concernées est accessible à l'adresse suivante : http://oai.revues.org/archives.php
      "

Blogs rééditorialisés et redocumentarisés.

EBSCO est l'une des deux plus grandes agences d'abonnement mondiales (fourniture de bases de données et de périodiques). Et EBSCO vient d'annoncer dans son offre, la mise à disposition de "full-text blog content from premier Weblogs with historical archives in a wide variety of categories including art, career, economics, environment, finance, food, health, law, marketing, medical, technology, and many more will be made available in online aggregated databases for the first time."
Même si le communiqué donne encore un peu dans le mélange des genres (mentionnant que seul seront retenus les "influential bloggers" là où un "authoritative bloggers" eût été à mon sens plus judicieux), c'est là à n'en pas douter une avancée significative dans la reconnaissance de la valeur ajoutée de la blogosphère, une blogosphère ici en quelque sorte "rééditorialisée" par un éditeur de contenus au sein d'une offre numérique :

  • "value of such content is significantly increased due to the high quality control standards Newstex follows in their effort to gather and disseminate blog content."
  • "Newstex automatically tags each blog post with company names, stock tickers, key executives and government officials, and detailed topical categories."

Ce qui ressemble fort à un modèle émergent de redocumentarisation. La liste des blogs repris dans cette nouvelle offre commerciale est accessible ici et consultable par grandes rubriques. A noter que la rubrique Information Science est ... désespérément vide ... S'ils proposent un bon modèle de rétribution aux bloggers, je suis prêt à leur proposer mes services ;-) Au-delà du clin d'oeil, je n'ai trouvé aucune information mentionnant le modèle économique utilisé. Or en naviguant dans la liste des blogs sélectionnés, cela m'étonnerait que tous mettent leur contenu sous une licence creative autorisant l'exploitation dans un cadre commercial. Si vous avez des infos là-dessus ...
(Via David Rothman).

Pédagogie booléenne

De l'intérêt des opérateurs booléens ...
De l'intérêt de la compréhension des techniques avancées de requêtage ...
Et de l'intérêt d'une approche pédagogique adaptée (Mérieu dirait "différenciée") sur l'usage des moteurs de recherche.
J'avais eu la personne Frédéric un étudiant (très) doué, et je le retrouve - sans surprise - avisé et fin pédagogue. Hop, je lui pique son exemple pour mes prochains cours :-)

Update de longtemps après : Francis Pisani revient sur cette astuce (visiblement très datée à l'échelle du net). Lire aussi les commentaires (légèrement trollés) de son billet.

Yahoo! les bons tuyaux

Huggy_1 Titres alternatifs de ce billet :

  • "Ceci n'est pas une pipe."
  • "Une petite pipe pour Yahoo!, un grand pas pour la recherche d'information ?" (pardon, je n'ai pas pu résister ... et puis c'est vendredi)

Redevenons sérieux ...

Yahoo! vient de lancer un nouveau service baptisé Yahoo!Pipes. Traduisez : "Yahoo!Tuyaux." L'idée est de mettre à disposition de tous une interface graphique simplissime asez simple permettant de faire de la programmation, un peu sur le modèle des "Pipes Unix"

  • "Un "pipe" (tuyau) est un canal de communication entre deux programmes, reliant la sortie de l'un à l'entrée de l'autre. L'idée (à la base de la philosophie Unix) est de réaliser des tâches complexes en chaînant plein de programmes simples ensembles." Grand merci Nicolas pour cette lumineuse explication :-)

Donc par exemple, on prend des sources d'information, on les couple, on leur pose une question (un mot-clé), on applique diverses instructions (tri, dédoublonnage, affichages divers), et au final on offre à l'usager un tuyau par un bout duquel il entre un terme et à l'autre bout duquel il ressort  ... de l'information. Voilà pour une "pipe", un "tuyau" orienté recherche d'information. Mais il existe quantité d'autres usages et d'autres applications :

  • illustrer automatiquement tous les articles du New-York Times à l'aide de photos du service FlickR
  • construire automatiquement un seul fil RSS pour récupérer les résultats de Yahoo! + Google + MSN + Technorati + qui vous voudrez.
  • etc ...
  • <Update>voir d'autres précieux exemples d'usages</Update>
  • <Update encore>Encore une application très intéressante pour récupérer directement des flux RSS automatiquement traduits. </Update encore>

Bref des possibilités quasi-infinies de mettre en place diverses actions relevant de la recherche d'information, sur n'importe quelle(s) source(s), originelle(s) ou composite(s). Et le tout, "relativement" facilement pour un internaute moyen (mais les geeks iront quand même beaucoup plus vite que les autres ...).

Tout cela s'inscrit dans une dynamique de plus en plus nette d'atomisation, de fragmentation, de segmentation du monde de la recherche d'information. Ou plus exactement "des" mondes de la recherche d'information.
Premier monde : Google. 1 moteur. 1 affichage sous forme de liste (ne changeons pas ce qui marche depuis des millénaires)
Deuxième monde : en voici une rapide approche historico-descriptive ...

  • Premier temps : Communautarisation. la vague des signets partagés (l'usager construit, agrège ses sources et le fait partager à une communauté). Les moteurs lui emboîtent le pas et rachètent/proposent leurs propres communautés
  • Deuxième temps : Fragmentation. Celle permise par l'explosion du RSS, qui offre aux chercheurs d'information de tous poils l'accès à une granularité quantitative et qualitative jusqu'ici impossible à atteindre. Les moteurs lui emboîtent le pas et proposent la plupart de leurs "résultats" au format RSS (notamment les "news")
  • Troisième temps : Mixage. C'est l'ère des Mashups. Celui du couplage. Mixage entre services et/ou mixage entre (un) moteur et (un/des)) service(s).
  • Quatrième temps : Personnalisation. Chacun fabrique "son" propre moteur (Google Co-op), choisit "ses" sources, met en place ses "macros" (LiveSearch) ... avec le risque qui se profile des autarcithécaires ...
  • Et cinquième temps donc ... la plomberie, les tuyaux, l'usager-plombier. L'avenir dira si c'est pour le meilleur (automonie, valeur ajoutée, etc.) ou pour le pire (plombier-polonais de la recherche d'information ??). Un cinquième temps qui marque de manière encore plus radicale la rupture entre, non pas simplement contenant et contenu, mais entre contenant, contenu et procédures.

Ces vagues successives sont révélatrices d'une évolution : 

  • des besoins (plus granulaires, plus spécifiques, plus orientés vers des requêtes de proximité - une pizzeria près de chez moi -  ou transactionnelles - le billet d'avion le moins cher - ,
  • des pratiques (nomadisme informationnel, micro-terminaux)
  • des usages (social search)
  • des modèles économiques (segmentation du marché, marchés "de niche")
  • des sources et des autorités constituées, aussi bien dans le monde universitaire (cf les harassants/vivifiants débats sur Wikipédia) que dans le monde marchand (la meilleure agence de voyage du monde, ou en tout cas la plus visitée "n'est que" un moteur qui compile et trie des sources, idem pour la meilleure agence immobilière, etc...) 

L'usager technophile et "early-adopter" (qui s'il peut apparaître aujourd'hui minoritaire, sera clairement majoritaire demain), est donc aujourd'hui convié à évoluer dans une sphère socio-technique dont "on" lui offre de maîtriser les outils, les environnements, les procédures, les techniques. Les données, ainsi soumises ou souscrites, tournent à leur plein rendement pour produire de l'information, ce qui est dans la nature des choses (au moins pour les théoriciens de l'information et de la communication).

(Rappelons au passage l'importance de la transformation du web en base de données dans cette évolution)
Update : Read/WriteWeb est d'accord avec moi sur ce point - ce qui fait plaisir :-) - et développe une approche plus "techniciste"/"procédurale" que la mienne en indiquant que le développement de Yahoo!Pipes est "l'application de l'ancienne sagesse des bases de données relationnelles au monde du web")

Il reste encore à inventer et à déterminer de quelle manière ces phénomènes (mixages, communautarisation, fragmentation, personnalisation, etc.) et les contours du nouvel environnement informationnel qu'ils dessinent (fractal ET rhizomatique), laisseront place à de la "connaissance". Ou comment la(les) connaissance(s) s'y invitera(ont). Question sans réponse pour l'instant, même si je suis convaincu que les bibliothèques et les folksonomistes, s'ils ne les laissent pas filer, ont en main quelques cartes maîtresses.
En tout état de cause, il semble qu'avec ce nouveau service de plomberie, Yahoo! offre à la recherche d'information le chaînon manquant d'une triple hybridation entre usagers, sources et procédures, de la même manière qu'il y a peu, Amazon avec Amapedia, offrit le sien à l'hybridation nécessaire des modes d'indexation.

Pour approfondir  ...

  • et se faire une idée du débat blogosphérique anglo-saxon sur cette nouveauté : voir les liens sortants du billet de SearchEngineLand.
  • Voir également le billet de Read/WriteWeb qui souligne justement que l'avenir est au mixage des fils (RSS).
  • Même Google trouve ça génial !
  • Update : l'info chez Outils Froids & chez Influx
  • Update encore : explication très pédagogique et "pas à pas" chez Toile Filante
  • Update toujours : Robin Good profite de cette plomberie 2.0 pour annoncer la naissance d'une nouvelle pratique : le Newssmastering, déjfinie comme suit : "The opportunity for sustainable filtering and aggregation of online content into niche websites and dedicated information channels." (Via Martin Lessard)

Docupôle

Très bonne ressource pédagogique en ligne pour une initiation à la Recherche documentaire.
L'accès se fait par ici. On vous demandera en login ("docupole") et un mot de passe ("docupole")
(Via EchoDoc)

PubMed innove

Après PubMed 2.0 (HubMed), après PubMed tout en curseurs, voici PubMed Informer, un service de veille par mots-clés déclinable en alertes mails ou fils RSS mais aussi sur votre PDA ou votre mobile via un SMS. Et puis aussi le tout nouveau UK PubMedCentral, une archive ouverte de journaux des sciences du vivant (cf communiqué de presse).

(Via VTech & l'Inist)

Google recherche des brevets.

Et un nouveau service "search" pour Google. La recherche de brevets. A priori il s'agit de la simple reprise de la base Uspto. 7 millions de brevets accessibles et visualisables dans la toute nouvelle mouture de Google Books. L'internaute lambda ou le curieux passionné va pouvoir dénicher de petits trésors. Pour les chercheurs avisés ou les adeptes de la veille, il vaut mieux (pour l'instant) s'en tenir à l'interface de recherche avançée de l'Uspto.
(Update de 5 minutes plus tard, Merci Jean-Marie)
: le billet du maître en son nouveau royaume pointe de lourdes insuffisances du service Google comparé à celui de l'Uspto.
(Via l'annonce sur le blog officiel)

Netchercheur : le retour

Netchercheur, le magazine professionnel lancé en 2004 par Emmanuel Chanial, après avoir cessé temporairement sa parution, est de retour et c'est tant mieux. Nouveau look, nouvelle maquette, nouvelles rubriques. Au total 32 pages de chroniques de professionnels et la veille et de la recherche d'information (Christophe Asselin, Frédéric Martinet, votre serviteur ...), et un remarquable travail de couverture journalistique assuré par Emmanuel Chanial : des brèves, des annonces, des entrevues, des compte-rendus de congrès, etc. Bref, un INCONTOURNABLE pour toutes celles et ceux qui s'intéressent à la veille, à la recherche d'information et aux technologies et outils associés.
Le site web n'est pas encore mis à jour mais vous pouvez soutenir cette publication NECESSAIRE en vous abonnant auprès de "Netchercheur, EC                 PRESSES – 5 rue de DOUAI – 75009 PARIS - FRANCE", il vous en coûtera le prix de la qualité (288 euros pour 10 numéros). Pour toute autre information, la rédaction est joignable à l'adresse abonne@netchercheur.com. Parlez-en dans vos BU, vos labos et auprès de vos DSI :-)
DISCLAIMER : je collabore bénévolement à Netchercheur et ne touche aucun bénéfice sur les ventes.

Revues

Via la liste Litor, je découvre le site Ent'revues, catalogue de 2286 revues culturelles. Ajoutez :

 

et vous aurez de quoi faire le tour des revues françaises (et canadiennes), imprimées et électroniques.

(Update) Pour une couverture internationale, vous pouvez compter sur Social and Human Sciences Online Periodicals de l'UNESCO (accès libre en texte intégral aux articles spécialisés d'environ 700 périodiques en sciences humaines et sociales) (/Update)
(Si j'oublie un site incontournable complémentaire de ceux là, les commentaires sont ouverts :-)

Taxonomie des recherches

Quand des chercheurs en science de l'information, en informatique et en communication des universités de Cornell et Stanford s'unissent pour s'intéresser aux moteurs de recherche, cela donne un papier intitulé : "The influence of Task and gender on search and evaluation behavior using Google." (.pdf) Phil Bradley résume les conclusions de l'article : peu de nouveautés en fait. Il se confirme qu'aucun utilisateur de "descend" au delà de la troisième page de résultat du moteur, et que les résumés affichés sont utilisés comme autant d'aides dans les stratégies cognitives permettant de poser et de modifier ensuite une requête. Mais cet article est également l'occasion de retrouver le trace des travaux d'A. Broder, qui dans son article "A taxonomy of web searches" (.pdf), établit une taxonomie des recherches en fonction du "besoin derrière la question", distinguant ainsi  trois classes :

  • Recherches navigationnelles (recherche d'une page particulière)
  • Recherches informationnelles (recherche d'une information nécessitant la consultation de plusieurs pages)
  • Recherches transactionnelles (désir d'accomplir une action comme un achat en ligne)

Selon A. Broder (en 2002), la répartition entre ces requêtes est respectivement de 50%, 20% et 30%, contredit par d'autres chiffres plus récents portant les premières à 60%. Cette prédominance, dans Google et les autres moteurs de recherches navigationnelles marque l'avènement d'un deuxième âge de la recherche d'information sur le web. Dans le premier âge, les moteurs étaient d'authentiques outils documentaires, certes limités au regard des bases de données dans leur offre de syntaxe et de limitations de recherche (booléens, limites temporelles, linguistiques, etc.), mais pour autant "documentaires" en ce qu'ils permettaient de faire correspondre une requête à un contenu y répondant.
Le deuxième âge de la recherche d'information sur le web est marqué par les habitudes cognitives qui nous font utiliser les mêmes outils comme autant de "moteurs de sources" (pour reprendre une expression chère à Véronique Mesguich). On ne cherche plus l'accès aux contenus mais l'accès aux "pages-sources" sur lesquelles trouver lesdits contenus. Rien d'étonnant là dedans, il ne s'agit que du résultat de la prise en main des contenus par les éditeurs (qu'ils soient individuels - blogs -, ou collectifs et privés ou publics).
Si l'on revient dans le monde classique de la documentation, les outils permettant de repérer les contenus en fonction de leurs sources sont les catalogues et les annuaires. Il peut donc être simplement amusant de remarquer en observateur "décalé" que derrière la fin effective des "annuaires de recherche" (avec validation humaine des sites), nos chers moteurs - et Google en tête - sont devenus les nouveaux catalogues/annuaires documentaires du numérique. Moteurs d'orientation plus que de recherche.
(Via Phil Bradley)

Annuaire de sites

Un mail m'informe qu'Affordance.info vient de rejoindre le "Guide des sites pour Managers" de l'IAE de Paris-Panthéon-Sorbonne, à la rubrique "Internet (outils et recherche d'information)". L'occasion pour moi de (re)découvrir cet e-x-c-e-l-l-e-n-t annuaire de ressources (3670 sites).

Nouvelle archive selon Google.

Je m'étais donc trompé (bien que je maintienne les quelques éléments d'analysed relatifs à la construction du memorandum selon Google). Ce qui se cachait derrière l'achat des nom de domaine en "archive" était la mise à disposition de journaux et de dépêches d'actualités (Google News) permettant de remonter 200 ans en arrière. Inutile de vous dire que toute la blogosphère en parle. Et pour une fois, je ne vais pas dire de mal d'un nouveau service Google. Car celui-ci est d'abord un remarquable outil  de pédagogie documentaire. Quelques exemples de scénarios :

(Toute) petite revue de blogs sur le lancement, les tenants et les aboutissants :

Rêve d'archithèque ou réalité d'entrepôthèque, à nous vous eux de choisir.
P.S. : à propos d'archive encore, cette définition de Foucault : "Par archive, j’entends d’abord la masse des choses dites dans une culture, conservées, valorisées, réutilisées, répétées et transformées (...)"** Il ne manque à Google que la "valorisation" remplacée dans ce modèle marchand de bibliothèque par la "monétisation". CQFD (Ce Qui Fait Débat)

** Foucault M., Dits et écrits - 1954-88. Tome I (1954-69). Paris, Gallimard, 1994.

Flower Power.

J'ai toujours été fasciné par les représentations visuelles, cartographiques ou non, établies sur la base de corpus de textes. Dans ce domaine, le blog Information Aesthetics est une mine inépuisable que j'ai déjà eu l'occasion de citer maintes fois. Dans ce domaine également, les travaux les plus aboutis que je connaisse sont ceux de la société Trivium et leur logiciel See-K (ex Umap, ex Gingko), reposant sur le principe des "arbres de connaissance" tel que défini par Michel Authier et Pierre Lévy.
L'algorithmie permettant de générer des représentations visuelles de textes est (archi-super-ultra-méga-giga-bientrop)complexe. De l'algorithmie quoi. Ses applications vont du DataMining "professionnel" à la recherche d'information "lambda", avec par exemple des moteurs comme Kartoo. Il est souvent difficile d'aborder de manière pédagogique ces techniques pour un public non averti. Or donc, via Infosthetics, le dispositif "Topic Flowers" me paraît constituer une bonne entrée en la matière. Le principe est simple :

  • les textes sont représentés sous forme de fleurs, avec un code couleur selon les thématiques principales et secondaires ("bleu" pour la technologie, "vert" pour l'économie, "rouge" pour l'art, etc.)
  • Plus le texte est long, plus il y a de pétales
  • La ou les deux thématiques principales sont présentées dans les deux premières couronnes de pétales, et les autres thématiques viennent colorer les pétales périphériques.

Bon d'accord, dit comme ça on ne se rend pas bien compte ...
Premier exemple : j'ai pris comme "texte" la vingtaine de billets apparaissant en page d'accueil d'Affordance. Résultat :
Blogafford_1

D'où l'on conclut :

  • Que ça part un peu dans tous les sens ... mais que la Science et la Technologie sont bien au coeur du sujet (ouf !) avec même un petit peu d'économie (des moteurs) sur les bords (ce qui à l'air d'être rouge est en fait du violet, mais la copie d'écran l'a affadi). En revanche si vous veniez chercher du divertissement ("Recreation"), c'est perdu. Quoi que :-)

Deuxième exemple : un article scientifique (un vrai avec des références bibliographiques et tout et tout, pas un de ces brûlots de fonctionnaire réactionnaire ;-) rédigé avant l'été et à paraître bientôt (je vous en reparlerai) sur l'impact de Google Books et de Google Scholar sur la diffusion de la recherche scientifique. Résultat :

Artigoog

"Chkrois k'sé clair" comme aimait à le dire le regretté Serge July, là on est bien dans de l'homogène. Ca ne part pas dans tous les sens et ça parle très clairement de deux thématiques : l'une scientifique (la diffusion de la recherche) et l'autre technologique (l'impact de moteurs de recherche et de leurs algorithmes de classement), le tout en lien avec une troisième thématique moins présente mais qui donne du liant au deux autres : celle de l'économie (de l'édition scientifique et des moteurs de recherche).

Tout cela reste très simpliste et ce genre de représentation comporte nombre de limites (soulignées par l'auteur de l'application lui-même). Mais c'est efficace tout en restant basique et surtout ludique. "Basique" et "ludique" qui souvent riment avec ... "pédagogique" :-)

Je montre ça à mes étudiants et je vous en reparle. D'ici là, à vous de jouer :-)

Le RSS selon la NLM

(NLM on RSS)
La NLM (National Library of Medicine) propose ici la liste des fils RSS et des podcast disponibles. Et sur cette autre page (qui date d'un an déjà), les richesses du RSS couplé à des requêtes avancées sur des bases de données comme PubMed.

In Extenso

Un nouveau moteur de recherche qui démontre la pertinence des annuaires ? Il s'appelle In Extenso.
Ses sources ?

  • Articles scientifiques dans des dépôts OAI : environ 120 000 pages.
  • Web SHS : environ 1 500 000 pages.

En plus de la couverture remarquable et du niveau de granularité autorisé par le moissonnage de métadonnées OAI, c'est un remarquable outil pédagogique qui convaincra en 10 secondes n'importe quel étudiant de l'intérêt de disposer d'outils non googléens pour suivre des études universitaires (notamment)
(Pleins de compléments passionnants sur les sources : Homo Numéricus & Blogo Numéricus)
Update : (d'après mes premiers tests) Beaucoup plus convaincant et performant qu'une autre initiative, le moteur Mister de l'INIST (à suivre tout de même)

Defidoc Veille

Doosier spécial "Veille" publié sur Défidoc. Pour découvrir certains aspects de la veille (alertes Google, fils RSS,  logiciel Wysigot ...). Assorti de quelques définitions et de quelques éléments méthodologiques. Basique mais efficace.

Blogs & RSS pour la veille

Dernier Livre Blanc de Christophe Asselin sur "Blogs et RSS, des outils pour la veille stratégique". Pédagogique, clair et synthétique. Disponible gratuitement après enregistrement. 

Science.gov : moteur scientifique

Le portail Science.gov est un moteur de recherche permettant d'interroger 47 millions de pages en provenance des bases de données scientifiques et "d'agences fédérales" (liste des sources ici). Que de l'information qualifiée donc. Il est également possible de créer des alertes sur des requêtes (enregistrement préalable requis) avec plusieurs niveaux possibles (mot clé dans le titre et/ou dans tout le texte et/ou nopm de l'auteur et/ou sur tout ou partie des sources disponibles). Le tout arrive par e-mail, mais on doit pouvoir espérer du RSS pour bientôt.
Avec également un renvoi vers des ressources terminologiques, des collections "spéciales" comme cet ensemble de textes de conférences scientifiques classées par discipline,
Selon la source interrogée, les documents sont consultables (ou non) en texte intégral.
La technologie de recherche pour l'ensemble est fournie par DeepWebTech.
Contient même des documents QUI NE SONT PAS DANS GOOGLE !!! Indispensable donc ;-)

( (re)Découvert via OANews)

Veille et référencement

Les outils du référencement (SEO : Search Engine Optimization) sont également souvent ceux à inclure dans la panoplie du bon veilleur/chercheur d'information. Dans cette catégorie donc, et pour partir à la recherche de navigations possibles ou faire du keyword profiling ("ceux qui tapent ce mot-clé tapent aussi ..."), les laboratoires "AdCenter" de chez Microsoft proposent quelques outils intéressants.

(Découvert via Référencement, Design & Cie)

Base de donnée 2.0

Blague Carambar (de geek) : "qu'est qu'une base de donnée 2.0 ? Un moteur de recherche." (rires enregistrés)
Après la science 2.0, voici maintenant les Bases de données (Medline => Pubmed) à la sauce 2.0 (HubMed)
Toute l'histoire de la recherche d'information et de ses modalités est bien résumée entre ces 2 copies d'écran ... Welcome in the Onebox world ...
Avant          ... ... ... ... ...... ... ... ... ...          Après
Pubmed_1Hubmed

Veille littéraire

Il est des champs et des domaines dans lesquels l'activité de veille ne manque ni de sources ni de méthodes. Il en est d'autres pour lesquels il est plus délicat n'en trouver. Le champ des études littéraires est était de ceux-là. Avec l'arrivée d'une nouvelle thématique PubSub intitulée "LiteratureList" (que des blogs "sur" la littérature) et la découverte du site de David Trott qui répertorie les accès aux texte intégral des pièces de théâtre français entre 1600 et 1800, les choses vont radicalement changer.
(Sources : NouvellesNTIC et Marlène)

Actulligence.

Alors que l'on ne parlait pas encore (ou très peu) de blogs, de réseaux d'experts et autres diffusion RSS, Frédéric Martinet, il y a de cela un peu plus de 5 ans, était déjà présent sur le Net, agrégeant sur le portail Martinet-On-Line une mine d'informations sur l'intelligence économique (IE) et un peu au-delà, la veille et la recherche d'information. Frédéric lance ces jours-ci son nouveau site, Actulligence qui pour tous les étudiants et professionnels de l'IE continue(ra) d'être un incontournable.
P.S. : Actulligence est propulsé sur le CMS Joomla, dont nous vous parlions ici, et qui semble tenir toutes ses promesses.

Recherche et recherche

Les requêtes sur les moteurs de recherche de blogs sont elles les mêmes que sur les moteurs de recherche classiques ? C'est la question que pose cet article (.pdf) dont voici la réponse (conclusion) :

  • Pour ce qui est des requêtes : "Our main finding in terms of query types is that blog searches fall into two broad categories—context queries, attempting to track the references to various named entities within the blogspace, and concept queries, aimed at locating blogs and blog posts which focus on a given concept or topic. The distribution of these types differs between ad-hoc and filtering queries, with the filtering ones being more context-oriented. In addition, we found that blog searches tend to focus on current events more than web searches."
  • Pour ce qui est des usages et des habitus de recherche : "As to user behavior, the behavior observed is similar to that in general web search engines: users are typically interested only in the first few results returned, and usually issue a very small number of queries in every session."
  • Alors quel est le profil du "chercheur de blogs" ? "(...) we uncovered a blog searcher profile which is substantially more concentrated on news (particularly politics), entertainment, and technology than the average web searcher."

(Via Totem)

Moteurs (d'articles) de recherche

Les moteurs de recherche délaissent globalement la prise en compte des balises <META> du fait que celles-ci, censées initialement permettre une prise en main de l'indexation des sites par leurs concepteurs, sont trop souvent détournées (spamdexing) à des fins de marketing (par exemple). Pourtant, dès lors que les contenus sont homogènes (des articles scientifiques) et l'indexation effectuée par des professionnels s'appuyant sur des protocoles et des normes garantissant l'interopérabilité desdits fonds, les mêmes moteurs voient comme une aubaine l'absorbtion de ces gigantesques entrepôts de données. Il s'agit des archives ouvertes et institutionnelles structurées selon le protocole dit OAI-PMH. Donc d'un côté, des gisements documentaires (de plus en plus) considérables. De l'autre, des moteurs se positionnant comme autant de médiateurs incontournables dans la diffusion de la recherche. Et au centre, des intérêts convergents : assurer l'interopérabilité des fonds en augmentant autant que faire se peut leur visibilité. La question se pose alors de savoir quel pourcentage de ces fonds est effectivement visible et indexé par les moteurs. En d'autres termes : quel est le meilleur moteur pour trouver des articles scientifiques ? Une étude (.pdf) du laboratoire de Los Alamos s'est intéressée à la question. Michel Roland en a traduit le résumé. En voici les principaux résultats :

  • sur un échantillon de 3,3 millions d'URI (= d'articles) pris sur 10 millions d'articles en provenance de 776 archives, Yahoo! en indexe 65%, Google 44% et MSN 7%. 22% des ressources ne sont indexées par aucun des trois. On est donc tenté de clamer : oublions Google et autres Scholar, et vive Yahoo! qui semble avoir récolter les grains semés au gré de son Content Acquisition Program auprès de diverses archives institutionnelles. MAIS ...
  • en ce monde comme en d'autres il est important de relativiser. Ainsi la même étude (page 6) fait état de grosses différences de prise en compte selon l'archive concernée. Exemple : pour BioMed central, 82% des articles sont disponibles via Google contre "seulement" 69,4% dans Yahoo!. A l'inverse la "Library of Congress" est à 99,1% dans Yahoo! et à 1,3% dans Google ...

Ces écarts stigmatisent les résultats des partenariats commerciaux (ou non) entre certains moteurs et certaines institutions/bibliothèques. Avec au final pour l'usager en général et la recherche d'information en particulier une nécessité toujours plus grande de disposer de clés de lecture et d'analyse.
(Via Catalogablog)
Update de 10 min plus tard : pour plus d'informations (techniques) sur le moissonnage, l'interopérabilité et la recherche fédérée, voir par là.

Le pays du blog levant.

Le Japon, sous l'impulsion du METI puis du JETRO fût à l'origine de ce que l'on nomme désormais veille technologique ainsi que de l'ensemble de ses dérivés, nobles (intelligence économique) ou moins noble (espionnage industriel). On peut donc lui faire crédit d'une "sensibilité" culturelle et politico-administrative assez pionnière pour tout ce qui touche à l'ensemble des secteurs innovants. Or le même Japon s'intéresse en ce moment beaucoup aux blogs. Eeeeeet oui. A tel point que c'est cette fois le "ministère des affaires intérieures et de communications" qui vient de créer l'association des blogs japonais (le lien précédent vous y mène via une traduction en anglais sur Google Translate) avec les missions suivantes (traduction approximative d'un anglais lui-même approximatif) :

  • organiser des séminaires et des conférences à destination des entreprises et du public.
  • s'intéresser aux applications "business" des blogs
  • mener une activité de recherche (analyse théorique et apport des blogs pour l'analyse des tendances du marché)
  • fédérer une communauté de groupes thématiques (de blogs donc)
  • faire des propositions de services aux entreprises
  • etc ...

En s'orientant vers un public cible qui met sur le même plan la société civile et les entreprises, le Japon a compris (une nouvelle fois avant tout le monde?) l'extraordinaire intérêt des blogs pour (par exemple) démultiplier un effort de veille à l'échelle d'un pays.
Donc : le Japon se positionne petit à petit comme le leader d'un prosélytisme national du "blogging". Les usages outre-atlantique tant dans le secteur marchand que pour des applications universitaires se répandent de plus en plus et ... en France ... ?

(Via Multilingual Search)

Veille scientifique et RSS

La veille scientifique via RSS, déjà incontournable, est en passe de devenir un "modèle unique". Et ce n'est qu'un début.
(tiens, à propos du dernier lien, ces éditeurs qui proposent d'alimenter directement les catalogues de bibliothèques avec les fils RSS des tables de matières de leurs revues me rappellent que je n'ai vu nul fil RSS sur le prototype de la Bibliothèque Numérique Européenne :-((

(Sources : Influx, Vtech, Marlène)

Surf'InPI

Le site Surf'inPI propose une liste intéressante et très didactique de scénarios de recherche entrant dans le cadre des "basiques" d'un processus de veille autour, notamment, de l'établissement d'un portefeuille brevet, marque, d'une recherche sur la concurrence, etc. Dans chaque cas, la démarche est illustrée par l'utilisation d'un outil. Un bon point de départ.
(Via Thot)

Moteur sectoriel

A côté des moteurs généralistes et grands publics, il est bon de pouvoir disposer de moteurs sectoriels dits "verticaux". IT.com est l'un d'entre eux. Il aggrége différentes sources en lien avec le secteur (vaste ...) de "l'Information technology". Il est possible de cibler sa requête sur

  • des entreprises
  • des news
  • des articles (livres blancs notamment)
  • des webcasts

Mes premiers tests s'avèrent intéressant et permettent de voir "remonter" quelques pépites. A vous de juger. Petit regret ... pas de possibilité de suivre les résultats via un fil RSS.

Visualiser les réseaux

Une démarche de veille ou d'intelligence économique consiste parfois (souvent en fait) à établir des recoupements, à déterminer des alliances stratégiques, des (conflits d') intérêts entre personnes. Ces recoupements sont souvent longs et lourds à mettre en place et surtout à visualiser : d'où l'intérêt des études dans le domaine SNA (Social network Analysis) qui dispose certes de très bons outils de visualisation mais dans l'ensemble assez peu intuitifs ou réclament d'uploader des corpus de données eux-même délicats et longs à constituer. Les veilleurs doivent donc souvent se rabattre sur le (trop) peu d'outils grand public existants. Exemple : le service cartographie de Mapstan qui tourne sur le site societe.com et qui permet d'identifier des dirigeants d'entreprises et de visualiser leur réseau, leur appartance à d'autres sociétés, etc. Or voici que je découvre (via la tagissime Rashmi) le service TheyRule. Certes l'interface flash est un peu longue à charger mais ensuite, l'outil est étonnant. Le principe est simple : vous choisissez de visualiser :

  • des entreprises (tout le fortune 500 y est)
  • des dirigeants (vous entrez alors leur nom)
  • des institutions

Vous pouvez alors :

  • accéder à son site web
  • lancer une recherche sur la compagnie (dans différents sites depuis les classiques moteurs jusqu'à des sites de presse en passant par d'autres sites "spécialisés" et qui changent selon la compagnie choisie, avec une VRAIE valeur ajoutée)
  • visualiser ses dirigeants

Une fois les dirigeants visualisés, pour chacun d'eux, vous pouvez :

  • lancer une recherche sur lui (cf plus haut)
  • visualiser les autres entreprises dans lesquelles il est "partie prenante"

Exemple de scenario (27 secondes) : identifier toutes les entreprises lancées ou dirigées par les dirigeants de l'université de Stanford.

Encore mieux : une entrée "Find Connection" vous permet de visualiser directement des scénarios. Vous entrez deux noms d'entreprises et vous visualisez leurs connections. Et là c'est vraiment fort. Parce que, souvent, il n'y a pas d'affinité "de premier degré" entre de grandes entreprises ou organismes de recherche  : si je suis au conseil d'administration de Wal Mart, je vais me débrouiller pour ne pas être au CA de Microsoft (conflit d'intérêt, délits d'initiés, etc, etc ... ils ne sont tout de même pas totalement idiots - les dirigeants). Et donc ... TheyRule vous permet de remonter la chaîne jusqu'à ce qu'une connection soit établie. En clair si vous voulez remonter de Wal Mart à Microsoft (scenario : y'a-t-il quelqu'un chez X qui connaîtrait quelqu'un chez Y connaissant lui-même quelqu'un chez Z) :
Reseau
Le conflit d'intérêt n'est pas établi pour autant, mais le moins que l'on puisse dire est que cela "ouvre des portes" ...
L'outil offre une partie gratuite (celle que j'ai testée) et une version payante. Au vu des fonctionnalités de la gratuite, la payante doit être une Rolls Royce pour la veille ! En plus de cela, les cartographies crées sont sauvegardables, chaque élement de chaque carte peut être glissé-déplacé, etc, etc ... Comment ? Vous n'êtes pas encore en train de le tester ?

Utilomane

Après le "déjà célèbre" Chronologue, voici le "promis à un bel avenir" Nébuloscope. Jean est décidément un drôle d'utilomane**.
(**Utilomane : nom masc. fantaisiste servant pour l'occasion à désigner une personne se plaisant à mettre en place gratuitement des outils utiles à tous)

Inventaire de l'Infodoc

Signalé par Alexandre Serres, d'Urfist Info, cet intéressant travail permettant de faire avancer l'enseignement de "l'infodoc" : "Inventaire des concepts info-documentaires mobilisés dans les activités de recherche d'informations en ligne." (.pdf)