« RSS pour quoi faire ? | Accueil | 8 billion pages in Google. That's all ??? »

10 sep 2005

Commentaires

Flux Vous pouvez suivre cette conversation en vous abonnant au flux des commentaires de cette note.

Hubert Guillaud

Le calcul est amusant.

Cependant, pourquoi n'accède-t-il pas à certaines données ? Est-ce du fait de la petitesse de son index - en partie bien sûr ? Ou est-ce lié au fait que bien des bases de données, consitutant le "web profond" ne sont pas prévues pour être indexées de l'extérieur (bases de données d'agents immobilier par exemple, fiches biographiques du Who's Who, etc.) ? Cela peut-même avoir des bons côtés, pour certains vendeurs de contenus, de ne pas être indexés par les moteurs (même si la contrepartie est souvent un manque de visibilité) : ça permet de le vendre...

Dans ce même web de surface, de quoi sont fait les 167 TB ?

Malgré tout ce qu'on peut critiquer, les moteurs semblent relavivement bien indexer les pages web. Ils ont plus de mal à indexer des documents non liés qui constituent une grande partie de ce web de surface qui échappe aux moteurs. Quant au web profond, ils ne pourront y accéder que si on le leur ouvre... Et tout le monde ne fera pas le même choix.

Faut que j'arrête de faire mon avocat du diable :)

olivier

Bonjour Hubert,
La petitesse de l'index joue surement. D'après l'étude de berkeley, le web de surface correspond à la définition qu'en a donné BrightPlanet, à savoir les pages statiques. 167 Tb de pages statiques ... ce n'est peut être pas si mal que Google n'en indexe "que" 0,005 %. J'imagine les syncopes le cas échéant : "vous avez 6 milliards de réponses sur Mille deux cent cinquante milliards de pages".
Mis à part ça, l'une des réponses à "Où sont passés les 99,995 % restant du web de surface " est probablement à chercher dans l'algorithmie de Google et ses dérives qui à force de ne prêter qu'aux riches, laisse en déshérance un grand nombre de pages. Mais tout n'est pas là loin s'en faut. Pour ce qui est de la méthodologie de calcul précise le mieux est d'aller directement voir la page :
http://www.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm
et notamment l'une des premiers schémas sur la "composition du web de surface par type de fichier" dans lequel on voit que les pages HTML statiques ne sont "que" 17,8% de ce web de surface.
Donc en fait mon calcul est faux ... il aurait fallu prendre la totalité des fichiers indexés par Google (web mais aussi images, vidéo, groupes, etc .) ou bien alors faire le même calcul mais par rapport à 17,8% des ces 167 Tb. Si quelqu'un à 5 minutes et une calculatrice sous la main ... faut que j'aille expliquer à des étudiants que tout n'est pas dans Google ;-)

Christophe Noël

SOLUTION : 605 x 8 000 000 000 = 4 840 000 000 000 Kb
ou encore 4,84 Terabits ou encore ...

=> on ne fait pas les memes calculs...
4 840 000 000 Mb
4 840 000 Gb
4 840 Tb

L'utilisation des commentaires est désactivée pour cette note.

Appetit_couve_1600
Le blog d'un maître de conférences en sciences de l'information.
Réflexions, analyses, signalements, opinions.

"Where is the Life we have lost in living?
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?"
T.S. Eliot, in Choruses from The Rock (1934)

Where is the information we have lost in Google ?

POUR CITER UN ARTICLE


Style Hypotheses.org
Ertzscheid Olivier, « Titre du billet », Affordance.info, ISSN 2260-1856. Date de publication. [En ligne] http://affordance.typepad.com/adresse-du-billet.html

Style APA
Ertzscheid, Olivier (date de publication du billet). “Titre du billet”. Affordance.info [carnet de recherche]. ISSN 2260-1856. Date de consultation. http://affordance.typepad.com/adresse-du-billet.html

Style MLA
Ertzscheid, Olivier “Titre du billet”. Affordance.info (souligné) ISSN 2260-1856. Date de publication. [carnet de recherche]. Date de consultation. http://affordance.typepad.com/adresse-du-billet.html

Botte de foin


Postes McF 71ème section sur Galaxie
Tous les contenus de ce blog sont sous licence Creative Commons. Vous pouvez donc les reproduire, les distribuer ou les communiquer à condition :
  • de citer l'auteur
  • de ne pas en faire d'utilisation commerciale
  • d'appliquer ces mêmes conditions à toute création qui résulterait d'une modification, transformation ou adaptation d'éléments tirés de ce blog.
Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported

juillet 2017

lun. mar. mer. jeu. ven. sam. dim.
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31            
Related Posts with Thumbnails
Casssconn
Classiques connectés
"Mais quiconque affirme qu’il y a de l’argent à faire avec un stock d’ARTICLES SCIENTIFIQUES est soit un idiot, soit un menteur."
Lawrence Lessig. 12 Janvier 2013.
Identité numérique et e-reputation :
DÉCOUVRIR COMMANDER OU LIRE EN LIGNE L'OUVRAGE

Qui suis-je ?

Affordance touitte.