« L'as-tu lue la LRU ? | Accueil | Web sémantique »

08 jan 2008

Commentaires

JM Salaun

Je suis assez sceptique sur ton interprétation. Je pense qu'il y a un gros pb en ce moment sur l'emploi du terme "données". Ici (scrapping), il s'agit des données identitaires et comportementales, vieux trésor du marketing. Sans doute on est passé à une autre étape avec les dits réseaux sociaux, mais cela n'a rien à voir avec les données dans un environnement documentaire.

Autre erreur que l'on retrouve souvent ailleurs : confusion entre donnée, métadonnée et document. Si j'avais le temps j'en ferai un billet ;-).

Olivier

Jean-Michel> On est à moitié d'accord :-)
Le scrapping dont parle Pisani dans son billet ne touche précisément pas les données comportementales au sens habituel du terme (actes d'achat, mots-clés saisis, etc ...) Il s'attaque aux données "basiques". Ce qui me semble intéressant dans la gradation entre "crawling", "mining" et "scraping" c'est que cela illustre assez bien le fait que tu soulignes toi même : il devient de plus en plus difficile (en dehors d'un cadre d'analyse théorique prédéfini - un bouquin de Roger par exemple:-) de catégoriser les choses de manière ternaire (données, information, métadonnées). L'indexation à large spectre, l'indexabilité et la porosité de l'ensemble des sphères documentaires font que n'importe quelle donnée/information est toujours la métadonnée d'une autre donnée/information. La "confusion" que tu soulignes à la fin de ton billet, est donc ... volontaire ;-)

JM Salaun

Le marketing s'est tjrs intéressé aux données "basiques" et les échanges plus ou moins licites et les histoires de vol, dans ce domaine ne datent pas d'hier.

Sur le deuxième point, je maintiens qu'il y a là un pb important.

Prenons une comparaison : pour un zoologue, l'homme est un animal parmi d'autres, qu'il faut étudier au même titre que d'autres ; pour un sociologue (sauf peut-être B. Latour ;-) c'est différent.

De même pour un informaticien, tous les objets sont de même nature, des données et ils peuvent et doivent être manipulés avec les mêmes méthodes et outils logiques. Pour quelqu'un des sciences de l'information, la problématique est sensiblement différente. Confondre les niveaux peut conduire à un chaos informationnel. Qu'il y ait des glissements et des échanges entre les disciplines est salutaire et permet de remettre en cause des vérités éphémères, mais il ne faut pour autant renoncer trop vite au cœur de la discipline. Sinon demain on sera tout simplement obligé de la réinventer après peut-être quelques dégâts, dont ceux que tu signales justement.

Olivier

Jean-Michel> Bigre ... je ne pensais pas saper le coeur de notre belle discipline en un seul billet de blog :-))) Blague à part, disons que je crois - et il me semble que c'est ce que les travaux de pédauque démontrent en partie - qu'il faudra peut-être très prochainement sinon "refonder" ou "réinventer" à tout le moins "reproblématiser" ou "reposer" l'épistémologie de ces différentes notions dans le continuum historique de notre champ.

Olivier

Complément à mon commentaire précédent ...
Le positionnement définitoire des notions ne change pas. Leur contexte d'usage est en revanche très instable et mouvant, et ce avec des radicalités qui nécessitent effectivement une analyse de fond.

Rémy

le scraping est aussi utilisé pour la veille automatique du web : c'est une étape qui existe déjà depuis quelques temps : après la recherche et l'exploration, l'information pertinente vient à nous (par exemple, le scrapping permet de créer des flux rss sur des sites qui n'en ont pas). la dimension légale du scrapping est importante car cela peut freiner l'expansion de cette étape : ces outils peuvent ils être utiliser librement (voir la difficulté avec l'outil concernant facebook) mais on peut aussi penser que le crawling est une atteinte forte au droit d'auteur puisqu'il faut en principe une autorisation de l'auteur pour que son oeuvre soit "copiée" et "indexée" (le cache de google est en ce sens une atteinte extrêmement forte à ce droit mais personne ne semble s'en plaindre sauf la presse en ligne...)

Olivier

Rémy> Oui, sur le dernier point (cache de Google et crawling), la question est celle de la balance entre l'opt-in et l'opt-out. Laquelle (balance) entre en résonnance avec l'usage équitable (fair-use) qui peut ou non être fait des contenus indexés.

Candide  Kemmler

(une partie au moins de) la question semble résolue: http://www.techcrunch.com/2008/01/08/this-day-will-be-remembered-facebook-google-and-plaxo-join-the-dataportability-workgroup/

L'utilisation des commentaires est désactivée pour cette note.

Casssconn
"Mais quiconque affirme qu’il y a de l’argent à faire avec un stock d’ARTICLES SCIENTIFIQUES est soit un idiot, soit un menteur."
Lawrence Lessig. 12 Janvier 2013.
Le blog d'un maître de conférences en sciences de l'information.
Réflexions, analyses, signalements, opinions.

"Where is the Life we have lost in living?
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?"
T.S. Eliot, in Choruses from The Rock (1934)

Where is the information we've lost in Google ?

Botte de foin


Tous les contenus de ce blog sont sous licence Creative Commons. Vous pouvez donc les reproduire, les distribuer ou les communiquer à condition :
  • de citer l'auteur
  • de ne pas en faire d'utilisation commerciale
  • d'appliquer ces mêmes conditions à toute création qui résulterait d'une modification, transformation ou adaptation d'éléments tirés de ce blog.

septembre 2022

lun. mar. mer. jeu. ven. sam. dim.
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    
Identité numérique et e-reputation :
DÉCOUVRIR COMMANDER OU LIRE EN LIGNE L'OUVRAGE