Ma Photo

Qui suis-je ?

Syndication


Botte de foin


Qui êtes-vous ?



  • Track referers to your site with referer.org free referrer feed.


Qu'en faire et comment ?


  • Ce que vous voudrez à condition :


    • de citer vos sources
    • de ne pas vous enrichir
    • de ne rediffuser l'info que sous une licence identique à celle-ci







    Le crédo d'Affordance ;-)
    I am a hard bloggin' scientist. Read the Manifesto.



    Le coin des bonnes causes :


    Support The Commons
    Become A Commoner


    Le PageRank d'Affordance :
    PageRank for this page
    Son "autorité" (sic) selon Technorati :
    "L'autorité" selon Technorati

Powered by TypePad

« Ceci et cela | Accueil | Ca bouge à la BNF »

Arbres de connaissance

Le site drunkmenworkhere.org s'est lancé depuis un an (avril 2005) dans une expérimentation peu banale.

  • Phase 1 : construire un corpus de 2,147,483,647 pages web
  • Phase 2 : les ordonner délibérément dans selon une arborescence binaire (en gros, chaque parent a deux enfants, en moins gros, voir les explications de Wikipedia)
  • Phase 3 : observer en enregistrer le comportement des 3 principaux crawlers que sont le Yahoo!Slurp, le GoogleBot et le MSNBot.
  • Phase 4 : contempler le résultat.

Et essayer de comprendre. Comprendre ce que sont ces nouveaux arbres de connaissance à la lumière ce ceux-ci devenus ceux-là mais tous issus du même. Comprendre pourquoi et comment une telle différence entre la voracité touffue et quasi-synaptique de Yahoo!Slurp, l'harmonie médiane et quasi-fractale du GoogleBot, et l'indigence erratique du MSNBot.
Comprendre qu'au vu de ce tableau synoptique et considérant le corpus de départ (plus de 2 milliards de pages web quand aux dernières informations publiées, Google en annonçait 8 milliards) cette expérimentation donne des résultats empiriques hallucinants de conformité avec ce que l'on ne faisait que jusqu'ici que supposer en terme de couverture des moteurs de recherche :
Overall_2  

Comprendre - j'essaie encore :-( - comment la question de la pertinence ("relevance") peut se reposer à la lumière de celle de l'exhaustivité de la couverture.
Voici quelques informations piochées dans les analyses fournies sur le site (le mieux étant encore d'aller les lire et les découvrir) :

  • (Fig 1) la courbe de montée en puissance sur un an des 3 crawlers est sensiblement identique en respectant les échelles de résultat.
  • (Fig 3) le nombre de noeuds (et non de pages comme sur la fig 1) crawlés par niveau d'arborescence (et non plus dans le temps) selon une échelle logarithmique est très parlant (sauf que j'ai arrêté les maths en seconde) : on y observe une très grande régularité de Yahoo! alors que Google et MSN chutent tous deux sensiblement au même niveau (entre le 10ème et le 14ème niveau d'arborescence)
  • (Fig 8) le GoogleBot visite davantage les noeuds parents que leurs enfants, ce qui explique sa forme plus "naturelle".
  • etc ... etc ... tout le reste de la page des résulats commentés de l'expérimentation est à l'avenant et mériterait que l'on s'y attarde davantage.

A découvrir A-B-S-O-L-U-M-E-N-T.
(Via l'indispensable Infosthetics)

TrackBack

URL TrackBack de cette note:
http://www.typepad.com/services/trackback/6a00d8341c622e53ef00d8342baea853ef

Voici les sites qui parlent de Arbres de connaissance :

» Un peu de BOT-anique ! de bibliothécaire
Sauras-tu identifier ces plantes ? Explications chez Olivier qui a été plus rapide (encore - mais le calembour était irrésistible). (via infosthetics) ... [Lire la suite]

Commentaires

Merci beaucoup pour la reference a cette etude, je suis tout a fait d'accord, c'est vraiment passionnant!

Vérifiez votre commentaire

Aperçu de votre commentaire

Ceci est un essai. Votre commentaire n'a pas encore été déposé.

En cours...
Votre commentaire n'a pas été déposé. Type d'erreur:
Votre commentaire a été enregistré. Poster un autre commentaire

Le code de confirmation que vous avez saisi ne correspond pas. Merci de recommencer.

Pour poster votre commentaire l'étape finale consiste à saisir exactement les lettres et chiffres que vous voyez sur l'image ci-dessous. Ceci permet de lutter contre les spams automatisés.

Difficile à lire? Voir un autre code.

En cours...

Poster un commentaire