Ma Photo

Qui suis-je ?

Syndication


Botte de foin


Qui êtes-vous ?



  • Track referers to your site with referer.org free referrer feed.


Qu'en faire et comment ?


  • Ce que vous voudrez à condition :


    • de citer vos sources
    • de ne pas vous enrichir
    • de ne rediffuser l'info que sous une licence identique à celle-ci







    Le crédo d'Affordance ;-)
    I am a hard bloggin' scientist. Read the Manifesto.



    Le coin des bonnes causes :


    Support The Commons
    Become A Commoner


    Le PageRank d'Affordance :
    PageRank for this page
    Son "autorité" (sic) selon Technorati :
    "L'autorité" selon Technorati

Powered by TypePad

« La sagesse des foules ? | Accueil | De fils en aiguillles »

Les comptes bidons de Google ou la bugbliothèque universelle.

Bon d'accord ce n'est pas très fair-play et il est probable que si c'était une petite société humaniste qui avait numérisé le contenu de textes libérés de leurs droits (d'auteur) tout le monde aurait applaudi des deux mains. Il n'empêche, Google annonce officiellement le "chapitre premier" de son opération de numérisation avec la mise en ligne des premiers corpus de textes antérieurs à 1923. Un premier essai avec la requête : "date:1500-1923" est tout à la fois alléchant et vertigineux puisqu'il affiche (déjà) 11 700 000 pages (on verra plus loin qu'il n'en est rien ou pas tant que ça ...) avec sur les 10 premiers résultats (ça va faire plaisir à Mr Jeanneney ...) 2 ouvrages en français, un en allemand et un en latin (et dans les 10 suivants, 5 en allemand et 1 en espagnol). Alléchant donc. Or après consultation de quelques pages de n'importe quel ouvrage on bute sur la page suivante :
Bibliobug
Une fois la petite case (captchas) renseignée il semble que l'on puisse de nouveau consulter quelques pages avant ... que cela ne recommence encore et encore ... Donc de 2 choses l'une :

  • soit il s'agit d'un bug et on ne va pas tarder à voir un message sur le même blog officiel indiquant quelque chose du genre "lors de l'ouverture de notre service révolutionnaire nous avons été soumis à une attaque virale en règle orchestrée par la BNF"
  • soit il s'agit d'une phase transitoire pour éviter une surcharge de requêtes en réaction à l'annonce de l'arrivée des premiers fonds
  • soit il s'agit du vrai fonctionnement de Google Print et là ...

Voici pour gagner du temps quelques indications séculaires pour jauger du fonds et de l'avancée de Google-Print (préparez vous à rire ...)

  • "date:1500-1600" (16ème siècle donc) : "no results". Bon.
  • "date:1600-1700" : 3 livres (1 français, 1 latin, 1 anglais ... Jean-Noël si tu me lis ...)
    • et là ... il y a quelque chose que je ne comprends pas : je n'ai à l'affichage que 3 ouvrages de respectivement : 206, 78 et 288 pages. Or dans le bandeau d'affichage je lis : " 20900 pages on date:1600-1700". Alors 572 pages ou 20900 ??? Si notre expert mondial en bidonnage de comptes peut nous éclairer de ses lumières ... mais du coup avec une bonne calculatrice les 11 millions 700 000 pages annoncées en page d'accueil se réduisent comme peau de chagrin :-(( et le meilleur est à venir ...
  • "date:1700-1800" : 442 000 pages et/mais 62 résultats.
  • "date:1800-1900" : là c'est le ponpon ... 7 680 000 pages pour ... 14 ouvrages !!!
  • "date:1900-1923" : 45 ouvrages ... et 5 280 000 pages.

Bon je résume (mais on va encore dire que j'accable :-) :

  • siècle après siècle (1500 - 1923) pour les comptes de Google on a : 13 422 900 millions de pages. On va donc considérer qu'ils savent faire des additions en leur accordant que sur chacune de mes requêtes il y a chevauchement de dates, ce qui peut expliquer la différence avec les 11 700 000 pages affichées sur leur page d'accueil (il eût fallu saisir "date:1700-1799", puis "date:1800-1899", etc ... mais bon j'ai quand même pas que ça à faire). Donc ils savent faire des leurs additions. Par contre tout cela ne concerne apparemment que 124 ouvrages ... soit des ouvrages de 94 354 pages. Chacun.

Ce serait urgent que quelqu'un leur dise que leur machine à numériser est en fait une photocopieuse qui pour une page scannée leur en sort 100 exemplaires ...

P.S. : spéciale dédicace à Jean pour l'emprunt (d'une moitié) du titre de ce billet.
Update du soir : bon d'accord ils ont du mal avec les additions et ils prennent un peu les enfants du bon dieu pour des canards sauvages MAIS ... cela n'en reste pas moins un très bon outil pédagogique. pour mon prochain cours d'histoire de la bibliographie on va pouvoir tranquillement feuilleter le "Manuel du libraire" de Brunet. Pratique. Avant il aurait fallu se déplacer dans l'une de ces BU. Pas pratique.

TrackBack

URL TrackBack de cette note:
http://www.typepad.com/services/trackback/6a00d8341c622e53ef00d83426ea4b53ef

Voici les sites qui parlent de Les comptes bidons de Google ou la bugbliothèque universelle. :

» [ Bugbliothéque ] de [Cup Of Tea] Blog
Olivier a une obsession et une calculatrice. ... [Lire la suite]

» Bugbliothèque (suite) de affordance.info
Bon ben voilà. Il suffisait de le dire. Dont acte. [Lire la suite]

» 4 4=5 de affordance.info
Google à aujourd'hui 8 ans et fête ça avec un logo de gâteau d'anniversaire sur lequel figurent ... 5 bougies. Ne sait décidément pas compter :-( [Lire la suite]

Commentaires

Si tu veux éviter de renseigner le captcha, tu peux consulter le manuel du libraire de Brunet sans souci sur.........Gallica ;-) : http://gallica.bnf.fr/notice?N=FRBNF30169533&UC=o

Merci Got. J'avoue sur le coup avoir un peu pêché par excès de Googlecentrisme :-( D'autant que j'avais le matin même cité Gallica aux étudiants :-(( D'ailleurs après une sommaire vérification, il semble que la plupart des ouvrages français disponibles dans GooglePrint soient aussi dans Gallican (reste les autres ...) ... Mais, à décharge cette fois, le problème de Captchas de Google semble terminé.
Merci en tout cas de me rappeler à la qualité des outils de notre bel hexagone ;-)

Gallica, pas Gallican ! ;)

Vérifiez votre commentaire

Aperçu de votre commentaire

Ceci est un essai. Votre commentaire n'a pas encore été déposé.

En cours...
Votre commentaire n'a pas été déposé. Type d'erreur:
Votre commentaire a été enregistré. Poster un autre commentaire

Le code de confirmation que vous avez saisi ne correspond pas. Merci de recommencer.

Pour poster votre commentaire l'étape finale consiste à saisir exactement les lettres et chiffres que vous voyez sur l'image ci-dessous. Ceci permet de lutter contre les spams automatisés.

Difficile à lire? Voir un autre code.

En cours...

Poster un commentaire