Ma Photo

Qui suis-je ?

Syndication


Botte de foin


Qui êtes-vous ?



  • Track referers to your site with referer.org free referrer feed.


Qu'en faire et comment ?


  • Ce que vous voudrez à condition :


    • de citer vos sources
    • de ne pas vous enrichir
    • de ne rediffuser l'info que sous une licence identique à celle-ci







    Le crédo d'Affordance ;-)
    I am a hard bloggin' scientist. Read the Manifesto.



    Le coin des bonnes causes :


    Support The Commons
    Become A Commoner


    Le PageRank d'Affordance :
    PageRank for this page
    Son "autorité" (sic) selon Technorati :
    "L'autorité" selon Technorati

Powered by TypePad

« mai 2007 | Accueil | juillet 2007 »

La marque de la pertinence

Dans un article à paraître (enfin j'espère ...), mes 2 co-auteurs et moi-même écrivons à propos de la notion de "pertinence" des résultats d'un moteur de recherche :

  • "les moteurs de recherche n’offrent qu’un seul type de « preuve »  ou de mise à l’épreuve : celui de leur pertinence. Une notion ambiguë parce que non uniformément circonscrite. Si l’indicateur scientométrique vaut pour l’ensemble de la communauté qui s’y réfère ou l’utilise, chacun jugera de la « pertinence » d’un résultat à l’aune de sa seule subjectivité et du contexte de tâche dans lequel s’inscrit sa recherche."

Analyse que vient corroborer une étude (.pdf) relevée par Sébastien Billard, étude démontrant que pour des résultats strictement identiques, les utilisateurs jugent lesdits résultats plus ou moins pertinents selon qu'ils sont présentés avec l'habillage de tel ou tel moteur (avec un écart de 25%, ce qui n'est pas anecdotique), la palme de la confiance dans la marque revenant en l'occurence à Yahoo!
Remarque :
ce dernier résultat (échelle de confiance) contredit en revanche d'autres études d'adhésion à une marque d'où Google sortait nettement gagnant ... mais je n'ai plus les références desdites études :-(.

Ressources pédagogiques

Je continue d'expurger mon agrégateur avant les vacances ...

Journal Info : dis-moi où publier.

Le site Journal Info agrège des informations en provenance de plusieurs bases de périodiques (Shera/ROméo, DOAJ ... en tout, près de 30 banques de données sont interrogées, soit 18000 journaux) et vous propose de mieux cibler vos choix de publication en accédant pour chaque revue (classée par discipline) à des informations sur :

  • son mode de publication (accès ouvert ou non)
  • son thème principal
  • les bases de données l'indexant et sa "renommée" (via son facteur d'impact ou d'autres mesures)

Pour les revues n'étant pas en Open Access, on trouvera même un renvoi vers une liste de revues "équivalentes" en Open Access. Un très bel outil :-)

(Via Isko-UK)

Sic transit (bis)

EN complément des sites institutionnels et associatifs déjà listés ici, saluons l'arrivée dans le paysage français des sciences de l'information et de la communication de Parcoursic, association qui vise à favoriser "les échanges entre jeunes chercheurs, doctorants ou docteurs, en Sciences de l'Information et de la Communication."

Lecture critique d'articles

Sur cette page, un cours dispensé en faculté de médecine pour aider à developper un esprit critique dans la lecture des articles scientifiques. Mis à part les exemples qui paraîtront nécessairement ardus aux non spécialistes, l'ensemble du cours s'inscrit parfaitement dans une logique de formation à "l'information literacy"  et peut aisément être transposé à d'autres disciplines.

(Via Le Babouin)

Guilde des bibliothécaires congressistes.

Découverte par hasard, la page de la "Guilde professionelle des bibliothécaires de la bibliothèque du congrès"
est riche de documents qui intéresseront celles et ceux s'interrogeant (entre autres) sur l'avenir du catalogage.

2 ans, 6 mois, 7 jours.

  • Décembre 2004 : Google lance Google Print.
  • Automne 2005 : Google Print est rebaptisé Google Books
  • Juin 2007 : 25 bibliothèques et 10 000 éditeurs (selon Adam Smith) ont signé avec Google pour une mise en ligne de leur fonds, avec une granularité et des modalités différentes.

"2 ans, 6 mois et 7 jours" depuis que les 5 bibliothèques historiques ont signé avec Google. Leurs représentants et ceux de Google étaient l'autre jour réunis en conférence pour fêter et débattre de cet événement. Un compte-rendu sommaire est disponible ici. La conférence n'a pas été webcastée (à ma connaissance).

Economie de l'accès par défaut

Pour mieux comprendre et mesurer les tenants et aboutissants de l'économie de l'attention (également baptisée économie de l'accès), Sébastien Billard rappelle utilement les paroles du gourou Nielsen indiquant qu'il s'agit d'une économie de l'accès "et des valeurs par défaut"

Redocumentarisation d'état.

La nouvelle suivante risque d'infléchir significativement la logique propre de l'encyclopédie Wikipédia.
L'état allemand, plus exactement le Ministère allemand de l'Alimentation, de l'Agriculture et de la Protection des consommateurs, par le biais de l'organisme des ressources renouvelables allemand (FNR : Fachagentur Nachwachsende Rohstoffe), le tout sous l'égide de l'institut (privé) Nova, va former et rétribuer des experts pour alimenter les articles concernant ces questions dans l'encyclopédie. Je ne saurai trop vous recommander la traduction de l'article original relatant la nouvelle. On y apprend notamment que lesdits experts en ressources renouvelables seront d'abord formés à l'utilisation de Wikipédia et à son écologie particulière, les mêmes experts n'ayant que peu l'habitude de voir n'importe qui venir modifier un de leurs articles lorsqu'ils publient dans un magazine ou une revue "classique".
Cet intérêt étatique, ainsi délégué à un institut privé me semble révélateur de plusieurs prises de conscience simultanées, la première d'entre elles étant la reconnaissance du formidable pouvoir prescripteur de Wikipédia dans le cadre d'une économie de l'accès.
En attendant de voir comment la communauté wikipédienne réagira, il faut en même temps souligner les nouveaux risques en temps réel occasionnés par les déviances possibles d'une redocumentarisation déléguée et soumise à rétribution. Tant qu'il s'agit de ressources renouvelables, on aurait effectivement mauvaise grâce à ne pas saluer l'initiative. Mais qu'adviendra-t-il si ce nouveau mode opératoire s'étend à d'autres domaines comme celui de la bio-éthique, de la génétique ou de tout autre sujet "porteur" et/ou "sensible" et/ou engageant d'énormes enjeux commerciaux ? La traçabilité et l'identification des auteurs-experts occupera alors le premier plan, comme dans le modèle schismatique proposé par Citizendium.
En tout état de cause WIkipédia sort aujourd'hui de son orbite pour prendre une nouvelle orientation, pour s'autoriser un nouvel horizon. Elle a déjà montré par le passé sa grande capacité d'auto-régulation, son fondateur sachant intervenir pour mettre en place des solutions moins ouvertes et plus régulées quand cela était nécessaire. Attendons donc de voir ce qu'il en sera de cet incontestable nouveau pallier de la redocumentarisation.

(Via Framablog, signalé par mail par Olivier)

Arcade

Petite récréation à l'approche des vacances ...
Si comme moi vous ne comprenez rien aux jeux vidéos actuels et considérez eu égard à votre grand âge qu'un jeu vidéo digne de ce nom se joue avec un doigt et nécessite un temps de compréhension et d'apprentissage des règles qui tient plus de la milliseconde que du manuel de 700 pages, alors ...

Ressources folksonomistes

Histoire d'expurger mon agrégateur avant d'imminentes et lointaines vacances, voici quelques ressources sur les folksonomies :

  • avec tout d'abord, une image valant mille mots, cette illustration de l'intérêt des tags par rapport à une indexation contrôlée.
  • le "rapport Calhoun" (.pdf), rédigé à l'attention de la bibliothèque du Congrès, qui date de Mars 2006 et qui peut être considéré comme le déclencheur de la prise en compte de l'intérêt de la problématique "folksonomiste" dans le monde des bibliothèques. Un rapport qui compte d'ailleurs nombre de détracteurs, dont l'un des plus récents émanant lui aussi de la bibliothèque du congrès est accessible par là : .pdf
  • Et puis s'il ne fallait voir qu'une seule vidéo en la matière, ce pourrait être celle de David Weinberger, dans laquelle il reprend l'argumentaire de son dernier ouvrage "Everything is miscellaneous" (d'autres extraits du livre, sont également disponibles sur Wired).
  • Et puis pour finir, on apprend ici que le terme "folksonomie" figure tout en haut du palmarès des mots les plus irritants du vocabulaire Internet.

Mario Asselin et les blogs à vocation pédagogique

Le podcast est déjà ancien (Webcom Montréal 2006)  mais il est l'occasion d'entendre Mario Asselin à propos de l'intérêt de "faire blogguer les jeunes" dans un contexte éducatif.
Sur ce sujet, le blog de Mario est naturellement incontournable.

Recherche universelle pour tout le monde

A lire sur le JDN, une rapide mais intéressante comparaison de l'approche de la "recherche universelle" selon les 5 grands moteurs (Google, Ask, Yahoo!, Msn et Exalead).

Une bonne idée près de chez vous

Dans la famille "une bonne idée près de chez vous", je choisis, la barre de recherche (toolbar) personnalisée à destination d'une communauté académique et donnant accès aux ressources (catalogues, bouquets numériques, etc.) à disposition de ladite communauté. Ca se passe ici. D'autres exemples (plus) près de chez nous ?

Le web pas à pas

Le site Walk2Web vous permet d'explorer littéralement "pas à pas" les liens entrants (en vert) et sortants (en bleu) du site que vous choisirez comme point d'entrée. Pas grand intérêt du point de vue de la recherche d'information (les liens présentés sont loin d'être exhaustifs), mais une simple ballabe webienne sous les auspices de la sérendipité qui vous permettra peut-être quelques découvertes. Assurément une curiosité à l'interface soignée (et avec en sus la possibilité de voter et de tagguer les sites proposés).
(Découvert via un billet d'Eric Delcroix)

Localisme et autonomie

A lire aujourd'hui dans l'édition du Monde, cette tribune d'Olivier Godechot (chercheur en sociologie) qui plaide très clairement pour interdire les recrutements de candidats locaux à l'université. Conclusion que je ne suis pas loin de partager totalement (cf ma propre opinion sur la question). Je me permets donc de citer un extrait de cette tribune, extrait qui me semble tout à fait éclairant sur la question, et vous invite à découvrir la suite.

  • "D'après les chiffres du ministère, 30% des docteurs recrutés comme maîtres de conférences ont effectué leur doctorat dans l'établissement, et 10% sont des docteurs d'une autre université qui ont déjà exercé une charge d'enseignement au sein de l'établissement qui les recrute. (...) Le 40% de localisme des maîtres de conférences n'est pas un gage d'ouverture vers l'extérieur. Il y a chaque année plus d'une vingtaine d'établissements dans chaque discipline qui produisent des docteurs. Si jamais les universités donnaient autant de chances aux docteurs des autres établissements qu'aux leurs, le taux de localisme ne dépasserait pas 3%! Les avantages du localisme sont connus. Dans certains cas, rares, l'université possède des équipements scientifiques, un domaine de recherche pointu ou une école de pensée émergente, qu'elle ne pourra valoriser que si elle recrute un docteur local qui en a fait sa spécialité. Plus généralement, dans un contexte où l'on consacre très peu de temps et de moyens au recrutement, on préfère le connu à l'inconnu. On favorise quelqu'un qui a déjà pris en charge une partie des cours, qui habite sur place et sera disponible pour participer aux réunions pédagogiques et administratives. On défend un ancien docteur, un ami, un collègue contre la concurrence, en sauvegardant son emploi, et ce d'autant plus volontiers que l'on pense que le localisme des autres lui ôte toute chance ailleurs."

Update : pour d'autres réactions et commentaires, suivre les liens (et les commentaires) du billet de Baptiste Coulmont.

Le web implicite

Quand on essaie de regarder avec un peu de recul le développement des usages et des applications web, on observe une dynamique très forte : les processus (et leurs applications) "descendent" au niveau de l'usager, et plus exactement, descendent en dessous d'un certain niveau de conscience (notion préciée plus tard dans ce billet).
A l'image des moteurs de recherche qui ne fonctionnent plus sur un modèle "donne-moi ce que je tape" (= simple vérification de l'occurence du mot-clé saisi dans les pages retournées = matching) mais "donne-moi ce que je veux" (adéquation des résultats de recherche au profil de l'usager, ou au profil d'un macro-ensemble de requêtes semblables), la plupart des services web "leaders" ou ceux actuellement les plus générateurs de "buzz" fonctionnent sur ce modèle d'une économie de l'accès, également baptisée "économie de l'attention" (sur ce vocable, voir aussi les principes de "l'Attention Trust").
L'idée est simple et peut être résumée en une phrase : transformer en itinéraire dirigé et centré sur les attentes de l'usager, ce qui était considéré au début du web comme une nuisance (le "lost in hyperspace problem" de Conklin** reliant la notion de "navigation" à celle de "désorientation"). Qui aurait imaginé il y a de cela quelques années qu'un outil, une interface, soit capable sur la base d'une simple requête, de nous fournir en retour non plus de simples "résultats", mais des recommandations, des choix de reformulation, en accord avec nos choix, nos itinéraires ou nos parcours précédents ? Ce qui est frappant dans ce processus aujourd'hui largement plébiscité et qui fait par exemple le succès d'Amazon ou encore des radios "personnalisables" sur le net (Last.fm par exemple), c'est le retour à l'idée première de l'hypertexte telle qu'elle avait été théorisée par V. Bush et par quelques autres pionniers : la parcours, le "chemin" ("trail") importe au moins autant que le lien.
Nous sommes donc passés d'une toute puissance du lien hypertexte, point nécessairement nodal de développement du réseau et des services et outils associés, à une toute puissance du "parcours", de la navigation "qui fait sens", de la navigation "orientée" au double sens du terme.
C'est sans doute en définitive ce mouvement, cette dynamique qui traduit le mieux la transition entre le web 1.0 et le web dit "2.0". Ainsi donc avec l'avènement de ce que l'un des derniers billets de ReadWriteWeb appelle le "web implicite", le rêve de Vannevar Bush d'inventer un système s'approchant le plus possible du fonctionnement de l'esprit humain (c'est à dire, pour faire vite, d'un fonctionnement non pas hiérarchique mais par analogie) semble aujourd'hui atteint, même s'il faut ici placer toute une série d'importants bémols sur les moyens mis en oeuvre pour atteindre cet idéal, lesquels moyens au service de la personnalisation et des systèmes de recommandation ne sont souvent qu'une manière de "monétiser" ces parcours au nom de logiques marketing.
Mais le résultat est là, l'activité de navigation proprement dite descend en dessous d'un certain niveau de conscience, puisqu'au moment où, sur Amazon par exemple, nous "activons" les liens proposés sous forme de recommandation suite à une requête ou une recherche initiale, nous n'avons pas formulé explicitement ce besoin. Au final pourtant, le parcours "aura fait sens" (avec plus ou moins de succès), et l'activité mentale couplant recherche et navigation n'aura plus eu besoin d'être littéralement "déclarative", permettant ainsi de parler d'un web implicite.
Demain probablement, ces mêmes applications, ces mêmes moteurs, sauront et ce sans même avoir besoin d'une requête initiale, d'un "amorçage", sauront ce que nous sommes le plus susceptibles de chercher ou de saisir comme requête selon l'heure de la journée, le lieu de notre connexion ou encore notre environnement. C'est probablement en cela que résidera la troisième révolution du web. Pour cela, il faudra "simplement" :

  • l'application d'un minimum de logique sémantique sur de gigantesques silos de données déjà "profilés" (=le profiling étant la face obscure de la personnalisation),
  • la multiplication déjà en cours de modes d'accès nomades au travers de terminaux et d'interfaces de plus en plus "ambiantes", c'est à dire dissimulés/disséminés dans notre environnement quotidien,
  • le tout sous-tendu par une logique d'accès (sur le modèle algorithmique du PageRank) en phase avec cette macro-économie de l'attention sus-citée.

La langue anglaise étant en la matière plus synthétique et illustrative que la nôtre, on pourrait décrire ce futur web 3.0 par la combinaison de deux termes : Myware + Everyware. "Myware" pour ce cortex collectif, in-vivo. "Everyware" pour une corporéité enfin conquise de cet hypercortex. Et le rêve de Bush prit une toute autre dimension ... Non plus simplement celle d'une hybridation analogique entre l'homme et la machine, mais celle de la possibilité même d'une activité et d'un fonctionnement sub-conscient de l'accès et du traitement de l'information, à l'exacte mesure de cette hybridation. En d'autres termes, l'ultime étape d'un darwinisme documentaire déjà observable.

**(Conklin J., 1987). Hypertext: An introduction and survey. Computer Magazine, 20, 17-41. 

Update : Pour prolonger et/ou ouvrir la réflexion, voir ce billet de Francis Pisani : "Le futur complexe".

Update : Intéressantes remarques de Richard Peirano suite à la lecture de ce billet.


Planet Cataloging

Le blog Planet Cataloging agrège automatiquement des billets en provenance de plusieurs blogs, ayant comme point commun de réfléchir à la pratique du catalogage et à son avenir.

(Via ISKO-UK)

Google encore ...

Pour commencer, deux billets de ReadWriteWeb qui reviennent :

  • pour le premier sur une conférence d'Udi Mander (Google's VP of Engineering) lequel revient sur les difficultés de la recherche (et oui, même pour Google) :  billet dans lequel on apprend que Google doit actuellement traiter un pouçentage situé entre 20 et 25% de requêtes inédites.
  • pour le second sur une conférence de Shery Sandberg (Google's Global VP of Sales and Operations) sur le thème, "quel avenir pour la publicité ?" :  où l'on apprend sans surprise qu'il est (l'avenir) à la personnalisation.

Et à ne pas rater : un journaliste du NYTimes a passé une journée en compagnie d'Amit Singhal, googler de renom, au coeur même de l'optimisation du célèbre PageRank (au passage, je vous conseille de jeter un oeil au support - .pdf - de sa Keynote à SIGIR 2005). L'article du NYTImes est très instructif et très bien ficelé. Il rappelle utilement que le PageRank (breveté et donc publiquement accessible) n'est que la colonne vertébrale d'un ensemble sans cesse renouvellé de paramètres et autres variables d'ajustements qui font la pertinence du moteur. Le tout étant férocement gardé au sein du département "Search Quality". A lire absolument. (Si vraiment vous n'avez pas le temps,  un billet de LunchOverIP vous en livre quelques morceaux  choisis)

A suivre également (via Lib 2.0), un numéro spécial (Juin 2007) de la revue Library Philosophy and Practice, consacré aux rapports entre Google et les bibliothèques : Libraries and Google.
Sur ce même sujet (Google et les bibliothèques), ce billet nous rappelle utilement qu'au delà de son programme de numérisation massive et la vingtaine de bibliothèques partenaires, l'autre force de frappe de Google (via son service Scholar) est de pouvoir s'appuyer sur un réseau de 1200 bibliothèques affiliées au Library Links Program.

Et puis Google sans la rumeur ne serait pas vraiment Google. Sauf que là, la rumeur en question vient directement de Techcrunch, source notoirement bien informée. Et qu'en plus le rachat de GrandCentral.com (puisque c'est de cette rumeur qu'il s'agit <Update du 02 Juillet> : confirmation du rachat </update>, GrandCentral ayant pour devise programmatique : "one phone number for all your phones, for life") serait parfaitement cohérent avec la stratégie de la firme, et ce au moins pour deux raisons :

  • primo, la téléphonie mobile est LE champ d'application grand public à conquérir pour les moteurs (et Google est déjà bien placé)
  • deuxio :  c'est un canal idéal pour la diffusion de publicités ciblées
  • tertio (et cerise sur le gâteau) : en plus de savoir à qui on écrit des mails, Google pourra aussi savoir à qui on téléphone, et probablement de quoi on parle :-(

Ministère de l'intérieur, de l'identité nationale ... et de la délation.

La réalité, est-elle en passe de dépasser la fiction ?
(Via : La Sécurisphère)

La recherche se profile.

L'une des toutes premières problématiques "sociétales" liée aux moteurs de recherche est celle que John Battelle baptise la "base de donnée des intentions" : phénomène de collecte de données d'ordre public, privé et intime auquel se livrent (avec notre consentement plus ou moins éclairé) les moteurs de recherche, s'autorisant ainsi tous les recoupements possibles afin de mettre ensuite en place des techniques de marketing notamment liées à l'affichage de publicités contextuelles. Cette "discipline" consistant à recouper et à analyser les mots-clés saisis par un internaute lors de ses recherches sur une période de temps donné porte un nom : le "search profiling". Avant les moteurs de recherche (pour faire simple), les seuls à pouvoir disposer d'un nombre significatif d'informations sur nos faits et gestes étaient les banquiers, qui pouvaient à loisir "pister" nos allées et venues via l'utilisation que nous faisions de notre carte bleue. Exemple :

  • 27 Mars 17h30 : 15,30 euros. "La Tireuse" / Bar. Toulouse
  • 27 Mars 19h30 : 1,50 Société des autoroutes / Péage de Muret
  • 27 Mars 22h30 : 45 euros. Le BoumBoum / DIscothèque. Muret
  • etc.

Enfantin sur la base de telles informations de deviner à quoi j'ai ainsi occupé ma soirée du 27 Mars. Avec l'arrivée des moteurs de recherche d'une part, avec l'élargissement des pratiques et des usages d'internet d'autre part, et avec enfin le rôle prépondérant que ces mêmes moteurs occupent pour l'ensemble de la redirection du traffic vers l'ensemble des sites de la toile, la traçabilité prend une toute autre ampleur. Inutile ici d'en remettre une couche sur des billets déjà traités dans ce blog (et ailleurs) concernant notamment, le délai pendant lequel lesdits moteurs s'autorisent à garder l'ensemble des données et l'historique de nos connexions individuelles. Inutile également de revenir sur la bévue d'AOL, livrant un fichier concernant quelques 658 000 internautes ayant effectué quelques 20 millions de requêtes sur les mois de mars, avril et mai 2006. Si l'affaire vous est inconnue ou trop lointaine, une relecture du billet d'Hubert Guillaud sur InternetActu s'impose.
Or voici qu'à l'initiative de la société CVFM, sur ce site, le search profiling prend aujourd'hui la forme d'un grand jeu concours. On vous propose donc tout naturellement d'aller interroger l'une des "sources non-officielle" permettant d'accéder au fichier d'AOL, et on vous explique ensuite les règles du jeu permettant de gagner 500 $ pour le meilleur "Search Profiler". Mieux, on vous donne même des trucs et astuces du genre : "restaurant Lake Havasu az" signifie "restaurant dans la ville de Lake Havasu en Arizona". On vous donne même des exemples de profils réalisés par des experts du Search Profiling (par ailleurs effectivement très bien construits). Sur ce même site, on trouvera également deux pages au caractère pédagogique très marqué pour être introduit aux arcanes de la discipline : ici et . Je m'autorise d'ailleurs un copier/coller de cette deuxième page tant elle me semble exemplaire de ce que recouvre la réalité de la collecte de données par les moteurs de recherche :

  • "Le profil personnel : Il regroupe l'ensembles des informations connexes à la sphère privée:
  • loisirs (sports, culture, arts, passe temps, voyages...)
  • habitudes quotidienne (trajets
  • réseaux privés (famille, relations, amis, couple...
  • centre d'intérêts
  • évenements exceptionnels (vols, accident, santé (maladie, traitements médicaux, opération...)
  • données citoyennes (domicile, impôts,
  • actes délictueux éventuels
  • études et formation
  • sphère intimes (recherche de partenaires, divertissements en ligne...)
  • Le profil de consommation : Il consiste dans l'ensemble des requêtes qui permette d'analyser la consommation de produits et de services d'un individu:
  • type de produits recherchés,
  • suivi du cycle d'achat d'un produit en particulier (identification, recherche de fournisseur, évaluation, achat du produit en ligne ou hors ligne)
  • fidélité ou intérêt pour les marques
  • prescripteurs privilégiés
  • Le profil sociétal : Il permet d'observer et d'analyser trois groupes d'information.
    • le profil politique: candidats ou partis politiques de prédilection, recherche sur l'actualité politique, intégration à des réseaux (partis, syndicats, communautés en ligne, association à but non lucratif, lobbying...)
    • le profil civique: c'est tout ce qui reflète la participation à la vie publique (dons ou participation à des associations caritatives, vie de quartier...)
    • le profil religieux et philosophique: confession, pratiques religieuse, lieux de culte fréquentés, para religieux (philosophie, ésotérisme, sectes).
  • Le profil professionnel : Il permet d'analyser les activités professionnelles dans le cadre de l'activité courante de l'individu mais d'anticiper ses réorientations éventuels (formation, changement d'emploi...).
    • veille marketing, technologique, concurrentielle et environnementale (fournisseurs, client, réglementation...),
    • réseaux professionnels,
    • formation: permanente, continue, cours, diplômes, recherche d'établissements,
    • recherche d'emploi,
    • centre d'intérêts professionnels périphériques."

Voilà ainsi dressé un tableau assez complet de la problématique de notre traçabilité numérique, problématique par ailleurs depuis longtemps déjà enseignée dans toutes les bonnes écoles "d'intelligence" ou de "guerre économique", mais qui trouve ici un champ applicatif jusqu'à lors insoupçonné..
Sur l'initiative (le jeu-concours) de la société CVFM, je vous laisse en penser ce que vous voulez. Je crois de mon côté qu'elle est simplement symptômatique d'un engouement voyeuriste pas toujours du meilleur goût. Mais les problèmes qu'elle permet ainsi de soulever (une nouvelle fois) me semblent intéressants. Il faut ici préciser que sur la base du profil copié/collé ci-dessus, le volume d'information et le "grain" ou la finesse de ces informations peut varier selon les pays et la législation en vigueur. Voici pour exemple un extrait (authentique) d'une liste de diffusion entre détectives privés à laquelle je suis abonné (bé oui, j'ai aussi mon côté sombre ;-) :

  • "Connaître en ligne l'état des finances du contribuable lambda est devenu un passe-temps populaire en Suède après que le site Ratsit.se a commencé à publier gratuitement en novembre des informations provenant des services fiscaux. Le site compte quelque 610 000 utilisateurs enregistrés, dans un pays de neuf millions d'habitants.
    Ce service donnait jusqu'ici accès à des informations financières à caractère privé simplement en tapant le nom d'une personne et en cliquant sur « chercher ». Estimant que l'objectif louable des lois sur la transparence en Suède avait été dévoyé, les autorités ont fait pression pour que Ratsit et d'autres sites similaires imposent des restrictions.
    Désormais, les informations personnelles sur les revenus et les dettes ne sont accessibles que moyennant le paiement de 15 couronnes suédoises (1,60 euro ou 2,39 $ CAN) pour 10 requêtes par semaine, toute requête supplémentaire étant facturée 25 couronnes (2,70 euros ou 3,80 $ CAN).
    En outre, ces informations ne peuvent plus être obtenues anonymement: les personnes dont les données financières ont été vues par un internaute seront averties par courriel de l'identité de celui-ci. Pour une information plus complète sur les finances et les biens d'une personne, la recherche revient à 49 couronnes (5,20 euros ou 7,47 $ CAN).
    "

 Il est donc aujourd'hui possible, pour un état, de limiter la casse en circonscrivant, après coup, le champ d'action d'une société privée. Mais quelle entité peut aujourd'hui prétendre circonscrire le champ d'action de ces gigantesques et incontrôlables multinationales que sont les moteurs de recherche ? A mon sens, aucune. Voilà pourquoi il est urgent de développer une réelle pédagogie des usages et des pratiques.

Quand l'Internet fait des bulles (2)

Deuxième et dernier épisode du documentaire de 13ème rue dont je vous parlais déjà ici.

Publier enchaîné ou périr libre.

Publier enchaîné ou périr libre. Telle est souvent la déclinaison du célèbre adage "Publish or Perish". Les raisons en sont multiples, mais le fait est que la majorité des chercheurs, quand ils ne sont pas ignorants du phénomène du libre accès (ce qui est heureusement de moins en moins le cas ...); ne savent pas trop comment imposer / demander / négocier leurs droits avec les revues qui les sollicitent ou auxquelles ils soumettent un article. Heureusement, à l'initiative de SPARC et de Science Commons, un petit outil rapide et précieux baptisé SCAE (Scholar's Copyright Addendum Engine) vous permet très simplement de produire un addendum au contrat vous liant à l'éditeur, au format pdf, selon le type de droits que vous souhaitez préserver sur votre publication ("Access - Reuse", "Immediate Access", "Delayed Access") Il vous suffit ensuite d'envoyer le tout à votre éditeur préféré.

(Via LibraryStaffBlog)

La politique est-elle soluble dans l'algorithmie ?

Un moteur de recherche a-t-il une opinion politique ? Voilà qui ferait un joli sujet de partiel pour mes étudiants (actuellement en vacances). L'une des premières clefs pour répondre à cette question est de regarder quels candidats/partis ledit moteur soutien majoritairement. Et de regarder également l'historique de ses cotisations de soutien. D'où il ressort rapidement que Google est de gauche. Enfin, de gauche américaine, c'est à dire démocrate. La preuve ?

  • En 2002 :
    • il n'était pas dans le top 20 des plus grosses entreprises informatiques finançant les partis politiques.
  • pour les élections de 2004, Google entre en 14ème position avec une donation répartie comme suit :
    • 251 679 $ dont 99% aux démocrates et ... 1% aux républicains
    • Microsoft de son côté est classé 1er avec 3 319 715 $ de financement dont 62% aux démocrates et 38% aux républicains
  • pour les élections de 2006 il remonte à la 8ème place :
    • 288 487 $ de financement dont 91% aux démocrates et 9% aux républicains
    • (Microsoft, toujours premier avec 2 020 117 $ dont 56% aux démocrates et 43% aux républicains.)

Tous ces chiffres, et bien d'autres sont disponibles sur le site Opensecrets.org. Il y aurait énormément à dire sur l'analyse de ces quelques chiffres, avec une vue globale et une autre, détaillée, entreprise par entreprise. Mais ce n'est pas l'objet de ce billet. Signalons donc simplement (et rapidement) que Google est dans le top 10 des plus grosses sociétés informatiques avec une action de lobbying financier. Et que la couleur de ce lobbying politico-financier est clairement en faveur des démocrates (moindre mal ;-).
Par ces simples remarques, on atteint déjà ici un point central de la problématique de ces outils d'accès (et prétenduement "d'organisation") à l'information, lesquels outils - et les sociétés qui sont derrière - interfèrent dangeureusement avec la sphère de la vie publique et de la politique. Pour s'en convaincre, souvenez-vous par exemple des ravages anciens du GoogleBombing et corrélez cela à la couleur politique de ses anciennes "cibles" américaines ... Mais ce n'est encore que du domaine de l'anecdote.

Et je repose donc ma question initiale : "Un moteur de recherche a-t-il une opinion politique ?". Etant désormais acquis qu'un moteur de recherche a une couleur politique, j'en pose une seconde : "Un moteur de recherche peut-il donner son avis sur des problèmes politiques comme ceux de l'immigration,  de la censure (Good bye Daniel ...), de la sécurité nationale, etc. ?" Et bien je n'en sais rien, mais pour Google la réponse est clairement "oui", puisque c'est tout simplement la ligne éditoriale de son nouveau blog, "Google Public Policy Blog", lancé en Avril 2007. (Un lancement que Sergi me signalait hier en commentaire, et sur lequel Techcrunch revient aujourd'hui longuement.) Ooooh, rassurez-vous, pour l'instant rien de tonitruant ni de politiquement trop engagé. 13 billets publiés en 3 mois, dont l'essentiel sont là pour garder trace vidéo du passage de quelques "'politiques" par le GooglePlex. Mais tout de même, certains billets sortent déjà du lot comme celui dans lequel Google s'énerve contre la politique des visas de l'administration Bush, une politique revue à la baisse, qui ne permet plus à Google d'embaucher comme il le veut tous ces géniaux cerveaux non-américains qui frappent à sa porte. Bref, Google veut de l'immigration choisie, il en veut (beaucoup) plus, et il le dit.
Alors j'en voie dans le fond qui s'énervent et me reprochent encore ma paranoïa galopante et mon anti-américanisme primaire (à moins que ce ne soit ma paranoïa primaire et mon anti-américanisme galopant) :

  • "Béoui Google a une opinion politique, et alors ? Lagardère et Dassault aussi. Bé oui Google finance des partis politiques. Lagardère et Dassault aussi. Bé oui Google donne son avis sur la politique migratoire des Etats-Unis. Etc etc.

Certes ... mais ...

  • Le lobbying politique chez Google est tout sauf anecdotique
  • Google a des rêves de démesure qui sont ... à sa démesure. Et qui rendent non pas simplement "possibles" mais "probables" les pires scénarios Orwelliens, au premier rang desquels celui de la prise de contrôle d'une centralisation du vote, par le biais des machines électroniques à voter.
  • Lagardère et Dassault possèdent certes des pans entiers de journaux, de groupes de presse,  d'acteurs télévisuels avec plein de temps de cerveau disponible à vendre (Good bye - bis - Daniel ...) mais Lagardère et Dassault ne font que tenter de maîtriser à leur meilleur profit une "chaîne de production" de l'information, là où Google maîtrise tout un "écosystème" de valeurs, de produits et de services.
  • Pour le dire autrement - et plus simplement - Dassault et Lagardère seront toujours (enfin j'espère ...) freinés par les "sociétés des rédacteurs" (du Monde, de Libé ou d'autres ...). Google News ne possède pas de "société des rédacteurs".
  • Lagardère et Dassault tentent de mettre sous leur coupe des professionnels à fort pouvoir d'autonomie et de résistance (et de plus en plus souvent, hélas, ils y arrivent ... Good bye - ter - Daniel ...), Google a sous sa coupe des amateurs captifs qui sont le "produit" de l'écosystème qu'il (Google) génère.

Pour toutes ces raisons là et pour bien d'autres encore, TechCrunch a raison de titrer : "Google the Vote: How Google is Changing the American Political Landscape". Et nous avons probablement tort de ne pas être davantage paranos.
Google est sous nos yeux en train de bâtir son empire sur trois codes : il a le code algorithmique. Il aura bientôt le code génétique. Prenons bien garde de ne pas lui abandonner le code civil.

Update du lendemain : sur le même sujet, le billet de Francis Pisani

Spéciale dédicace ...

... à mes étudiants "Métiers du livre" en vacances depuis peu pendant que leurs professeurs s'escriment à leur organiser une rentrée aux petits oignons :

  • "le bibliothécais sans peine" : où comment ceci tuera cela, sur le modèle "Ne dites pas ... mais dites ..."
  • Couv.ill.en.coul. : où comment instiller une doser d'humour réglementaire autant que nécessaire dans la jungle impitoyable du catalogage. (rappel : la "collation" ne désigne pas l'organisation d'un goûter lors de la pause syndicale en bibliothèque)

Bonnes vacances :-)

Evaluer la science ... est une science

La question de l'évaluation de la science est et a toujours été une question clé. Mais elle n'a jamais été d'autant d'actualité, et ce pour au moins deux (bonnes raisons) : primo, l'arrivée et l'essor des revues en Open Access (ainsi que l'essor en amont des champs et des perspectives de recherche, et en aval des articles soumis à publication), et deuxio, la fin d'une immunité, celle du facteur d'impact, qui s'il demeure pertinent à plus d'un titre, ne saurait aujourd'hui être la seule voie (pour tout un tas de - bonnes - raisons, dont quelques unes sont citées dans ce billet)
Pendant 2 jours (14 et 15 mai 2007), l'académie des sciences a organisé un colloque intitulé "Évolution des publications scientifiques - Le regard des chercheurs". Et là, pur bonheur, en sus du déjà très alléchant .pdf contenant les résumés de toutes les interventions, toutes les interventions sont disponibles sous forme de webcasts. Et il y en a pour tous les goûts : des présentations "institutionnelles", (Persée, Revues.org, Numdam ...) des "institutionnels" (Franck Laloé, Catherine Lupovici ...), des chercheurs (de tous les domaines mais avec une absence notable et au final agaçante tout autant que questionnante, celle des sciences humaines et sociales ...), des promoteurs des archives ouvertes, des éditeurs et dignitaires représentants du facteur d'impact.

Plusieurs sesssions dans ces deux journées, avec les thèmes suivants :

  • La révolution électronique dans les publications scientifiques
  • Analyse critique de la bibliométrie
  • Place de la bibliométrie dans l’évaluation scientifique

 Seul problème : "Combien faut-il de jours pour visionner l'intégralité filmée d'un colloque de deux jours ?"
Bé oui. Deux jours :-(
Alors pour la bonne bouche, je vous recommande une de ces interventions parmi tant d'autres, celle de Jean-François Bach, éminent biologiste et secrétaire perpétuel de l'académie des sciences, intervenant sur le thème : "Problèmes posés par l'évaluation des articles" (voir la vidéo). Une intervention qui m'a fait chaud au coeur à titre personnel puisque :

  • il raconte la même chose que moi récemment. En gros "il y trop de biais et on le sait, donc il faut ouvrir l'évaluation",
  • et il plaide pour les mêmes solutions, en gros : "que les éditeurs permettent un dépôt systématique sur les archives ouvertes et jouent ensuite sur une barrière de temps flottante pour la mise à disposition intégrale, et que les chercheurs cessent de jouer les ignorants carriéristes effarouchés (ou toute combinaison de ces trois derniers termes)."

Naturellement il le dit mieux que moi (il est éminent et je ne suis qu'affordant) et il cite de meilleurs exemples, sous prétexte que mÔsieur a été pendant 15 ans rédacteur en chef d'une revue de rang 1 en biologie éditée par Elsevier ... pfou ! une broutille vous en conviendrez ;-)
Parmi les interventions avec lesquelles je suis moins d'accord, on trouve aussi celle de Nian Cai Liu, à propos du classement complètement débile très controversé des universités selon les principes de Shangaï. Ainsi que celles de Daniel Rodriguez (Scopus, Elsevier-Masson)  (voir la vidéo). Il met en avant dans sa présentation, 6 critères qui font selon lui la valeur ajoutée du travail des éditeurs. Et là, comme premier critère, il cite ("Mais si madam', j'vous juuuuure") "l'accès au savoir" et (je cite toujours), "l'accès immédiat au savoir", arguant de la consultation chaque jour des 8 millions d'articles de ScienceDirect (et comme il aime bien les chiffres, il indique que ScienceDirect c'est : "1 million d'articles consultés chaque jour par 10 millions de chercheurs". Mais moi je dis, pour l'accès immédiat au savoir, on n'a quand même pas trouvé mieux que les archives ouvertes. Mais il est vrai que je parle là d'un accès complet et immédiat au savoir pour tous (chercheurs mais aussi citoyens), et non pas d'un accès restreint, filtré et coûteux au savoir (demandez à une BU le prix du bouquet d'abonnement à ScienceDirect ...) pour quelques heureux élus (les 10 millions de chercheurs annoncés ...).
Un bien beau colloque donc, non seulement incontournable mais aussi et surtout ... accessible gratuitement à tous :-)
Nota-Bene : dans la même veine - mais plus anglophone et moins "tout public" -, se tiendra bientôt (21 et 22 Juin) à Nancy la conférence annuelle de l’ICSTI (International Council for Scientific and Technical Information), avec pour thème : "L’évaluation et la qualification de la science : pratiques et initiatives en IST". Là encore programme de choix et débats cruciaux en perspective pour certains, dans la ligne de mire pour d'autres.
(Via MR dans UrfistInfo)

Big Google

Liens vers quelques billets traitant de Google comme un potentiel Big Brother, collecteur et détenteur de données personnelles. Thématique suffisamment traitée ici pour que je m'abstienne de tout nouveau commentaire ...

Google qui continue par ailleurs de préparer le terrain et les mentalités pour le lancement d'un prochain service concernant directement la "santé", dans sa sphère publique comme dans son aspect privé. Et là, ça va faire mal :-((

Futurologie appliquée

A voir sur YouTube, un petit exercice de futurologie appliquée, façon Epic 2015 ou AmazonBay 2015 mais en moins "sombre", et avec quelques beaux moments de prospective comme celui nous annonçant la nomination de Lawrence Lessig au ministère de la Justice américain avec comme premier effet un copyright devenu ... illégal. La vidéo est bâtie autour de la figure du "Prosumer" (producteur-consommacteur, "consommacteur") et comporte en trame de fond une intéressante réflexion sur la marchandisation d'une mémoire collective partagée, ainsi que sur l'essor des réalités alternatives augmentées, qui finissent, comme dans Total Recall, par devenir indiscernables de la réalité "standard". A l'horizon 2050 (où se termine la vidéo), Google aura racheté Microsoft, Amazon se sera emparé de Yahoo, et Google finira par engloutir Amazon et Second Life pour devenir "Prometeus", premier fournisseur de réalité de la planète connectée. Cela s'appelle "Prometeus : the media revolution", et cela dure moins de 5 minutes :-)
(Via ReadWriteWeb)

C'est peut être parce que je n'ai plus la télé ...

... mais je viens de me régaler à regarder les 55 minutes de la première partie de l'excellent documentaire "Quand l'Internet fait des bulles", diffusé sur 13ème rue, et visionnable en intégralité sur Google Vidéo. Très bien construit, très bien ficelé. A vous de voir :-)

Ressources RSS

Sur cette page, une liste très complète d'outils autour du RSS : agrégateurs, vérificateurs, combineurs et autres tripatouilleurs (jetez aussi un oeil aux commentaires) (Via VTech)
Et sur le site FeedRinse, pour les allergiques à Yahoo!Pipes ou ceux ne possédant qu'un agrégateur basique, vous aurez la possibilité de filtrer vos fils RSS sur divers critères (mots-clés, tags, auteur, etc) (Via 2803)

Histoire de moteurs.

Un site qui traînait au fond de mon agrégateur depuis quelques temps : une assez complète et très concise histoire des moteurs de recherche à découvrir sur le site Searchenginehistory.com. C'était l'époque où l'on cherchait non pas "sur la toile" mais dans les entrailles de sites FTP, où l'on effectuait ces mêmes recherche sur des chaînes de caractères selon l'adressage relatif des URLs. Les "Google", "Exalead" et autres "Yahoo!" de l'époque s'appelaient "Wais", "Archie", "Gopher", "Veronica". Et déjà à l'époque, je trouvais ça génial. Alors imaginez maintenant ;-) Pour celles et ceux que cela pourrait tenter, il est encore possible de faire de la recherche d'information comme dans les années 1990 en utilisant ce bon vieil Archie. Spéciale dédicace à tous mes étudiants (qui ne liront pas ce billet vu qu'ils ont fini leurs cours aujourd'hui) : quand vous l'aurez essayé (Archie), vous ne pourrez plus me dire que "c'est trop compliqué d'utiliser Exalead, y'a trop de trucs" :-)

Exalead ... bientôt Exaleader ?

Comme je l'ai déjà pas mal répété sur ce blog, je crois beaucoup , dans le domaine des moteurs de recherche, aux vertus de la catégorisation (clustering) et à celle de la cartographie (d'informations).  Si la cartographie (Kartoo,, Mapstan, Grokster, etc) me semble pour l'instant devoir être réservée à des usages experts ou à des grosses application en environnement fermé (entreprise, datamining), je crois en revanche que la catégorisation posséde d'énormes atouts pour les environnements ouverts (= le web) et pour le grand public (comme en témoigne par ailleurs et de manière "décalée", la grande mode des folksonomies).
Sur ce secteur (la catégorisation), dont Northernlight fut le précurseur historique avec ses "custom search folders", Exalead est aujourd'hui sans conteste le leader, suivi de près (et parfois rattrapé sur la pertinence du clustering) par Clusty.
Or Exalead vient de passer un accord avec l'INIST pour intégrer dans son moteur 13 millions d'articles issus des bases bibliographiques de l'INIST. Le communiqué de presse précise qu'Exalead va se servir de l'analyse précise des métadonnées associées aux articles pour affiner la pertinence de sa catégorisation. De son côté, l'INIST devrait y gagner du côté de la visibilité de son fonds documentaire, Exalead lui ramenant du "traffic" pour l'accès aux textes intégraux des articles (essentiellent payants). Une belle logique "win-win" comme dirait feu notre premier ministre docteur es-raffarinade.
//////// Digression, mais pas tant que ça //////////
Accessoirement, le même communiqué de presse me rappelle fort utilement que le "coeur de la technologie d'Exalead" est celui de "la recherche par sérendipité®", une technologie brevetée (j'espère que François Bourdoncle ne va pas venir nous réclamer des droits sur un prochain article à paraître (s'il passe l'épreuve de la revue par les pairs) qui traite précisément de la manière dont les moteurs de recherche instrumentalisent la sérendipité, et des pistes ouvertes pour inverser la tendance)
//////// Fin de la digression, mais pas tant que ça //////////
Exalead
qui n'en finit décidément pas d'innover et de communiquer (fort habilement),