Cela n'aura pas échappé à votre perspicacité : c'est la crise. Côté silicon vallée, itou. Côté brontosaures de l'infor(mation)(matique) : pareil. Et maintenant, fermez les yeux et imaginez ... Imaginez que certaines sociétés (Google par exemple) soient, crise oblige, obligées de se recentrer sur un coeur d'activités lucratives et de délaisser les activités sans profit immédiat. Pire. Imaginez l'inimaginable. Imaginez la faillite de Google. Ouvrez les yeux et réfléchissez : qu'adviendrait-t-il de l'énorme volume d'ouvrages publics numérisés par Google ? Certes, chaque bibliothèque disposerait encore de la copie numérique qui lui est contractuellement remise par ledit Google. Mais le temps de fédérer l'ensemble de ces ressources, de les porter en ligne derrière une interface interrogeable unique, ce temps serait considérable. Ce temps serait autant de temps perdu.
Et c'est ici qu'intervient le Hathi Trust, un "entrepôt numérique partagé" à l'initiative d'un consortium universitaire composé comme suit : University of Chicago, University of
Illinois, Indiana University, University of Iowa, University of Michigan,
Michigan State University, University of Minnesota, Northwestern
University, Ohio State University, Penn State University, Purdue
University, University of Wisconsin-Madison, University of California system. Trois de ces universités sont les leaders du projet : Michigan, Indiana, Californie.
L'ambition du projet ? Tout simplement considérable : il s'agit de rassembler les ouvrages mais également les journaux numérisés dans les bibliothèques, sur la base initiale du "corpus" Google mais en envisageant des extensions, y compris auprès d'éditeurs pour des fonds encore sous droits. Il s'agit encore de fournir une solution sécurisée de stockage, de préservation et d'accès à long-terme. Il s'agit enfin d'étendre ce processus aux entrepôts institutionnels des unviersités, à condition que la phase initiale du projet soit couronnée de succès. Bref, en un mot, un portail universel de bibliothèque. Et pas un nouveau Worldcat puisque c'est cette fois-ci bel et bien le texte intégral qui est visé et non les "seules" données bibliographiques.
A l'heure actuelle, les compteurs de la numérisation du HathiTrust annoncent les chiffres suivants :
- 2,091,060 ouvrages
- 731,871,000 pages
- 78 terabits de données
- 40,23 kilomètres
- 1,699 tonnes
- 332,048 volumes (~16% de l'ensemble) dans le domaine public
Ces chiffres prendraient "seulement" en compte les collections numériques de l'university du Michigan et de celle du Wisconsin, "both leaders in mass digitization efforts."
Bon d'accord c'est bien beau, mais et les autres projets de bibliothèque numérique comme l'Open Content Alliance ?
Le HathiTrust annonce que certains de ses "partenaires" sont également impliqués dans l'Open Content Alliance. Et qu'à terme, ils envisagent "d'inclure" l'OCA dans leur portail.
Bon d'accord c'est bien joli, mais, crise oblige, c'est quoi le modèle économique ?
Les partenaires apporteront une cotisation initiale calculée sur le nombre de volumes fournis, plus une cotisation annuelle pour l'entretien desdits exemplaires numériques. Le HathiTrust étant "une extension à visée non-lucrative des bibliothèques qui l'ont fondé", il espère par ailleurs que le partage des infrastructures et des stratégies de numérisation permettra d'atténuer rapidement les coûts spécifiques.
OK. Mais admettons que je veuille bénéficier de l'infrastructure HathiTrust sans nécessairement mettre en accès libre sur Internet certains de mes fonds numérisés ?
Pas de problème. Le HathiTrust mentionne la possibilité technique de mettre en place une "archive noire" (dark archive), même si ce n'est pas la voie qu'il recommande.
Bon ben ça y est, vous m'avez convaincu. Où est-ce que je peux tester cette formidable interface ?
Ah oui mais là euh comment dire, ben en fait ... nulle part. Pour l'instant. Ce qui n'empêche pas les objectifs fonctionnels d'être décrits à court, moyen et long-terme : il y aura un tourne-page, il y aura des watermarks partout (celui de l'institution d'origine, celui de l'agent numérisateur ...), il y aura des API pour adapter le bouzin aux besoins de chaque bibliothèque, il y aura du Shibboleth pour permettre aux publics handicapés d'être reconnus et de bénéficier d'un accès adapté, et ... et ... et ... et il y aura une interface publique. Ce sera une "bétâ" et elle devrait être disponible "début 2009". A moyen terme, chacun (chaque usager ou chaque institution ?) pourra créer ses propres collections.
Là où le HathiTrust marque incontestablement des points, c'est du côté de la gestion des données bibliographiques (l'envers de la médaille numérique, trop peu mise en avant par Google). Et là c'est du lourd. Une partie des données est déjà là. Le lien avec L'OCLC (Worldcat donc) est déjà négocié, et ce dernier pourra ainsi rapidement référencer les collections du HathiTrust.
Un petit résumé ?
Un groupement de bibliothèques importantes se regroupent au sein d'un consortium qui est aussi une agence de moyens, sur fonds propres, mais sans s'interdire de faire appel à diverses fondations. L'urgence (et la motivation) pour ce consortium, c'est de partager ses infrastructures, ses documents et ses stratégies pour élaborer un "plan B" face au projet Google. A long terme, il s'agit tout simplement de construire un portail unifié mondial (américain ?) de ressources numériques en bibliothèques : ouvrages libres de droits, rétro-numérisation presse, dépôts insitutionnels, mais là aussi sans s'interdire d'y intégrer une offre sous droits, négociée avec les éditeurs. Il s'agit de faire collection.
Une petite analyse ?
Difficile à ce stade du projet. Ce qui est sûr, c'est qu'aujourd'hui, toute alternative est bonne à prendre. Ce qui est sûr également c'est que toute alternative doit pour pouvoir être crédible, disposer d'une puissance de feu numérique suffisante. C'est le cas les bibliothèques membres du HathiTrust (le choix de l'éléphant comme logo n'est pas neutre). Pouvoir également disposer d'une stratégie et d'un modèle économique clair. Cela semble être également le cas. Le HathiTrust part gagnant sur au moins deux terrains déterminants :
- par rapport à l'OCLC (worldcat) il mise sur les contenus mais sans que cela se fasse au détriment des métadonnées.
- par rapport à l'OCA, les bibliothèques restent "entre pairs" : le partage et la mutualisation de ressources en seront probablement facilitées.
Donc ?
Donc satisfaction sans réserve, ne serait-ce que pour l'expression à haute, intelligible et audible voix de l'impérieuse nécessité d'une alternative au projet Google Books. Satisfaction que les bibliothèques reprennent en main de manière concertée et conforme à leurs missions, le chantier de la numérisation de masse, afin de sortir de l'ornière prévisible vers laquelle nous amène le même Google. Satisfaction toujours pour l'aspect "malin" du projet qui retourne les clauses les plus discutables des contrats Google en faveur des bibliothèques (en gros : vous aurez votre exemplaire numérique mais apauvri, et de toute façon vous pourrez pas l'exploiter car vous n'avez pas l'infrastructure suffisante à large échelle). Satisfaction enfin et peut-être surtout, parce qu'en observant ce qui se passe du côté-ci de l'atlantique avec Gallica2 (intégration presse et ouvrages sous droits), il y a ENFIN là un formidable terreau de convergence. Ne reste plus qu'à se mettre au labour.
(Via Urfist Info // Temps de rédaction de ce billet : 2h00)
- "le choix de l'éléphant comme logo n'est pas neutre": sous-entendrais-tu que les bibliothèques de l'Hathi Trust roulent pour le GOP et McCain? Ce serait très étonnant ;-)
- Plus sérieusement, tu parles de l'HathiTrust comme d'une alternative à Google Books. Ce qui me semble intéressant, c'est qu'il est bien plutôt (au moins dans le court/moyen terme) un complément (et une appropriation) de GB.
- Une dernière chose qui me ravit à propos de l'Hathi Trust, c'est l'ordre des priorités (un ordre pour lequel j'ai plaidé à droite (ABF 2006) et à gauche (BMVR 2007)): Hathi Trust n'est pas encore, faute d'interface (à venir), une bibliothèque numérique, c'est d'abord un réservoir (depository) de données. Dans l'ordre des priorités l'interface vient en dernier, après 1. la préservation et 2. l'équipement en métadonnées.
PS. J'ai reçu tout à l'heure une demande de trackback d'Affordance. Je l'ai publiée mais ensuite, à aller voir sur ton billet, je n'ai pas trouvé de lien vers celui d'Urfist Info. Ai-je mal cherché? Sinon, dois-je retirer le trackback?
PPS. Mon commentaire initial était un peu long, je le simplifie et garde la version longue pour mon blogue.
Rédigé par : MRG | 14 oct 2008 à 02:06
Michel> pour le PS1, la source Urfist est mentionnée, le trackback est donc équitable :-)
Pour le reste, je te réponds plus tard ...
Rédigé par : Olivier Ertzscheid | 14 oct 2008 à 09:51
Magnifique projet très enthousiasmant... tu as raison, la convergence avec Gallica est nécessaire. Merci pour ce billet, y plus qu'à ! :-)
Rédigé par : Biblbiobsession | 14 oct 2008 à 10:36
Pour le PS, désolé: lorsque j'ai pris connaissance de ton article hier soir, la parenthèse finale n'apparaissait pas. Une fantaisie de TypePad?
Sur le fond, j'attends ton rebond avec appétit: il y a derrière ces questions des enjeux stratégiques. "Ne reste plus qu'à se mettre au labour" ou comme dit le bibliobsédé "y a plus qu'à"! La question est qui et avec quels moyens. Idem quant à la convergence, avec Gallica en particulier. Il y a un an la ministre de la culture annonçait un partenariat possible avec Google ( http://tinyurl.com/46nqnj ) - sait-on ce que c'est devenu? En tous cas l'apparition de l'éléphant permettrait de traiter la convergence dans un cadre moins com' et plus pro.
Rédigé par : Michel Roland-Guill | 14 oct 2008 à 12:19