« Réflexions folksonomiques | Accueil | Données personnelles et dégâts planétaires »

07 sep 2006

Commentaires

claude

Il se trouve que pour une fois, je peux peut-être apporter à ce débat une vision « d’expert ». Je travaille depuis plus de quinze ans dans le monde fascinant du TAL ou Traitement Automatique des Langues (NLP pour les anglo-speakorants). Le problème de l’utilisation de vaste quantité de données livresques pour améliorer les performances de Google me semble très limité. En effet, il existe une multitude de méthode dite d’apprentissage automatique (Machine Learning pour les anglo-speakorants) qui se divisent grosso-modo en deux sous-groupes : Les méthodes supervisées et les méthodes non-supervisées (évidemment). Les méthodes supervisées consistent essentiellement à faire tourner les machines sur des données annotées, annotées par des êtres humains, avec l’espoir que de ces annotations va naître un modèle auto-émergeant des documents en question. La seconde méthode dont les résultats sont à des années lumières de la première méthode consiste à explorer les documents sans la moindre aide d’aucune sorte. Les documents sont pris bruts de décoffrage et on tente de repérer des sections redondantes et récurrentes. Dans le cas de la traduction automatique, pour donner un exemple, un gros travail a été fait ces dernières années pour « aligner » des documents d’une langue A avec une langue B. Le couple de langue pour lequel le travail le plus intéressant a été fait est l’anglais et le français, du fait de l’existence du Hansard, qui contient l’ensemble des procès-verbaux des débats au parlement canadien et qui sont traduits systématiquement dans les deux langues. Les résultats sont malgré ce qu’en disent leurs défenseurs pas très concluants. En effet, la particularité de ces méthodes est de repérer de manière statistique la redondance dans les langues, et les langues se singularisent souvent par leur richesse insupportable à nos yeux d’ « expert » sur laquelle se brise les tentatives statistiques de repérer si « le beurre et l’argent du beurre » se traduit bel et bien par « have and eat your cake ». Je ne crois pas que le WEB fournira cette masse tant espérée de documents traduits d’une langue à l’autre, dont la richesse serait telle que toutes les expressions et toutes les exceptions trouveraient enfin leur juste traduction.

Malaiac

J'avais traduit il y a quelques mois un article de Georges Dyson, écrit au retour d'une visite au GooglePlex. Un Googler lui avait dit : “Nous ne scannons pas ces livres pour être lu par des gens, nous les scannons pour être lus par une AI”.

Georges Dyson imagine que Google peut essayer de construire une intelligence artificielle, à partir d'une puissance de calcul phénoménale et d'un corpus textuel sans équivalent historique.

Article original :
http://www.edge.org/3rd_culture/dyson05/dyson05_index.html

Mon billet :
http://www.malaiac.net/moteurs/72-google-la-cathedrale-de-turing.html

Jean-Marie Le Ray

Olivier,

Content que tu aies relevé l'importance du problème.
Concernant l'opinion de Claude, je suis loin d'être un expert comme lui, cependant certains éléments me font douter fortement de sa conclusion : "Je ne crois pas que le WEB fournira cette masse tant espérée de documents traduits d’une langue à l’autre, dont la richesse serait telle que toutes les expressions et toutes les exceptions trouveraient enfin leur juste traduction."

Tout d'abord, depuis l'aube de l'humanité, jamais aucune entité (je ne sais plus trop comment définir Google) n'a eu de capacités de collecte, d'analyse, de recoupement, de traitement, etc., de l'information dans des proportions aussi gigantesques, et qui plus est convergeant de canaux multiples : ordinateurs, mais aussi mobiles, télévision, etc. etc.
Premier point. Deuxièmement, lorsque je vois l'expertise atteinte par Google en moins de dix ans ( http://adscriptum.blogspot.com/2006/04/google-et-la-traduction-automatique.html ), allant jusqu'à faire mieux que les pionniers dans ce domaine (y compris IBM et Systran), et ses résultats sur des langues aussi ardues que le chinois et l'arabe, je ne peux m'empêcher de penser que la traduction automatique deviendra très vite réalité, à des niveaux de précision beaucoup plus élevés que ceux que l'on connaît actuellement avec Systran.

Un autre volet concerne la traduction texte vers voix et réciproquement, avec une exploitation intensive sur les mobiles en point d'orgue, et là encore, je rejoins l'avis de Malaiac puisque j'ai moi-même cité Dyson dans un long développement consacré à ce sujet (entre autres) : http://adscriptum.blogspot.com/2006/07/google-rs2-traducteur-automatique-de.html

En conclusion, je suis sûr que Google nous réserve de grosses surprises dans la traduction automatique, de préférence dans un avenir pas trop lointain. Merci d'avoir abordé le sujet. :-)

Jean-Marie

Pablo

Salut Olivier,

Content de t'avoir entendu en "live" à Fribourg pour la première fois (grace à @archiveSIC j'avais lu ton papier avant alors j'ai pu profiter plainement des ces courts 20 minutes "new-age" ;-) dommage qu'il n'y a pas plus de monde, je suis deçu de mes collègues suisses, ils étaient où les bibliothécaires!!!!

Pour cette histoire de numérisation, je n'avais pas imaginé une minute les motivations linguistiques cachées de Google, ça donne une autre perspective de l'enjeu, mais il faudra qu'ils s'appliquent un peu plus au scanner car sinon ils vont avoir de la peine à avoir des phrases entières...même les bénédictins sont revoltés (http://e-benedictins.blogspot.com/2006/09/digitalized-by-google.html)

Pablo

olivier

Claude & Jean-Marie> merci de ces points de vue.
Pablo> Salut pablo et bravo à toi pour ton intervention à Fribourg, très claire et très pédagogique. La BIUM et le CSDP (et leurs usagers) ont bien de la chance d'avoir un champion du RSS dans leurs rangs. Merci pour le lien vers ce billet d'E-benedictin effectivement assez savoureux.

L'utilisation des commentaires est désactivée pour cette note.

Casssconn
"Mais quiconque affirme qu’il y a de l’argent à faire avec un stock d’ARTICLES SCIENTIFIQUES est soit un idiot, soit un menteur."
Lawrence Lessig. 12 Janvier 2013.
Le blog d'un maître de conférences en sciences de l'information.
Réflexions, analyses, signalements, opinions.

"Where is the Life we have lost in living?
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?"
T.S. Eliot, in Choruses from The Rock (1934)

Where is the information we've lost in Google ?

Botte de foin


Tous les contenus de ce blog sont sous licence Creative Commons. Vous pouvez donc les reproduire, les distribuer ou les communiquer à condition :
  • de citer l'auteur
  • de ne pas en faire d'utilisation commerciale
  • d'appliquer ces mêmes conditions à toute création qui résulterait d'une modification, transformation ou adaptation d'éléments tirés de ce blog.

septembre 2022

lun. mar. mer. jeu. ven. sam. dim.
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    
Identité numérique et e-reputation :
DÉCOUVRIR COMMANDER OU LIRE EN LIGNE L'OUVRAGE