Bon faisons simple.
L'avenir du développement stratégique de l'internet c'est - notamment - le "deep learning", aussi dénommé "machine learning", technologies souvent présentées au grand public comme de "l'intelligence artificielle". Sans entrer dans les détails, ces technologies se caractérisent par le fait qu'un programme informatique (un algorithme) est en effet capable d'apprendre "artificiellement" et de manière - relativement - autonome pour établir sa propre liste d'instructions ou d'itérations sans qu'il soit nécessaire à un programmeur ou à un développeur de rentrer les critères qui permettent aux "vieux" algorithmes de prévoir ensuite l'ensemble des scénarios possibles et de les calculer bien plus vite que ne pourrait le faire un être humain. Bien sûr pour que cela marche il est nécessaire que ces algorithmes "auto-apprenants" puissent s'appuyer sur d'immenses quantités de données déjà plus ou moins bien "préparées". L'autre particularité - et l'autre révolution - de ces algorithmes de "deep" ou de "machine-learning" c'est que grâce à leurs capacités d'apprentissage et à leur puissance de calcul et d'inférence, ils sont capables de prendre en compte des éléments variables de "contexte" qui échappaient jusqu'ici aux algorithmes traditionnels, précisément parce que le "contexte" est toujours fluctuant, variable et multi-factoriel. Et plus la prise en compte du contexte est efficace et "personnalisée" dans une situation donnée (on parle de contexte de tâche), plus l'impression d'avoir à faire à un raisonnement "intelligent" est forte. Et c'est là tout le pari de l'autre révolution annoncée, celle des assistants virtuels autonomes.
Et donc le "deep learning", la recherche sur "l'intelligence artificielle" irrigue toutes les entreprises de la Silicon Valley avec des enjeux techniques, sociétaux et financiers absolument considérables.
Pourtant, la plupart des grands acteurs sur ce secteur ont décidé de mettre en libre accès (Open Source) le code-source de leurs programmes. Ce qui veut dire que non pas "n'importe qui" mais n'importe quel développeur peut prendre connaissance de la manière dont fonctionnent les programmes de Deep Learning de Facebook, Google ou Amazon, les réutiliser gratuitement, et les améliorer gratuitement aussi. Et tous les GAFA s'y mettent. Et quand je dis "tous", c'est "tous" :
- IA : Amazon bascule son système de recommandation en Open Source
- Google ouvre à tous TensorFlow, son système d'IA.
- Microsoft rend Open Source son outil de Deep Learning
- Facebook, un peu plus timide que ses copains, s'est engagé (le 10 décembre 2015) à faire pareil concernant le tout nouveau serveur qu'il utilise pour ses projets d'intelligence artificielle
- Et toujours au mois de décembre 2015, même Apple a basculé "Swift", son propre langage de programmation, en Open Source.
Revenons deux minutes sur Amazon. L'outil algorithmique a le doux nom de DSSTNE pour "Deep Scalable Sparse Tensor Network Engine" et c'est tout sauf anodin puisqu'il s'agit en quelque sorte du Graal, LE système de recommandation d'Amazon, celui qui a fait son succès, et qui, lit-on sur la page Github du projet :
"Practically, this means being able to build recommendations systems that can model ten million unique products instead of hundreds of thousands, or NLU tasks with very large vocabularies."
Et là y'a un truc qui coince.
Ce qui coince ce n'est pas le côté "Digital Labor", on s'appuie sur une communauté de développeurs qui vont bosser gratuitement pour améliorer un algorithme ou un programme, même si ce programme vient au départ de Google, de Microsoft, de Facebook, d'Amazon ou d'une autre méga-firme. "Si c'est gratuit, c'est toi le produit" et "si le code source est libre c'est que tu l'es aussi" serait-on tenté d'ajouter.
Ce qui coince, en tout cas ce qui est troublant, c'est de voir que ces entreprises choisissent de basculer le code d'un élément clé de leur stratégie et de leur développement en "open-source", alors même qu'elles refusent, au nom du secret industriel / commercial, de lever le voile sur tout au partie des fonctionnements algorithmiques qui régissent et régulent l'ensemble de leurs services. Voilà des années que quelques-uns - dont je suis - plaident et militent pour une ouverture de ces codes algorithmiques qui régentent des pans entiers de nos vies et se substituent de plus en plus souvent à la puissance publique dans des domaines régaliens (santé, éducation, transport, etc.), voilà des années qu'on nous explique que nous sommes de doux rêveurs, que ce n'est naturellement pas possible. Et là d'un coup PAF le chien l'algorithme.
PAF ces "nouveaux" algorithmes Ô combien stratégiques nous sont balancés en Open Source, allez Hop servez-vous, prenez, c'est #OpenBar, Jésus a dit :
"Prenez et améliorez-les tous, car ceci est mon code, le code de l'Alliance autour de l'intelligence artificielle, offert à la multitude, pour l'amélioration de nos technologies et de nos vies."
Épiphanie ou apophénie ?
Pour nombre de programmeurs cette mise à disposition est une sorte d'Épiphanie mais il s'agit davantage à mon sens d'une forme d'apophénie, une altération de la perception que nous avons de cette mise à disposition du code. D'abord parce qu'on voit mal pourquoi ils choisiraient de mettre ce code là en Open Source tout en continuant de refuser d'ouvrir ne serait-ce qu'un minimum "l'autre" code qui régit et définit aujourd'hui leur modèle économique et l'ensemble de leurs services liés. Ensuite parce qu'il s'agit bien sûr de s'appuyer sur ce Digital Labor (par ailleurs par bien des aspects légitime et utile) pour capitaliser sur les nombreuses améliorations et applications qu'il permettra et ensuite revenir à une logique d'appropriation qui prendra - en gros - la forme suivante :
"Bon ben merci. Donc maintenant on prend le code initialement "libéré", on prend toutes les améliorations et modifs effectuées, on remet ça entre les mains de nos ingénieurs et développeurs, on lui donne un nouveau nom et on en refait un algorithme propriétaire. Ah oui et surtout aussi on le fait tourner - ce code amélioré - sur d'immenses quantités de données que nous sommes les seuls à posséder : vos données :-) Encore #Merci à tous et #Bisous." Signé : les GAFAM.
Pour prendre une analogie, le "code source" du Pagerank, l'un des deux algorithmes qui a forgé le succès de Google, est lui aussi public puisque ses deux fondateurs l'ont publié intégralement dans un article scientifique toujours accessible. Donc tous ceux qui souhaitent "copier" ou s'inspirer du fonctionnement de l'algorithme Pagerank peuvent le faire. Et d'ailleurs personne ne s'est privé de le faire. Il y a donc eu, depuis la publication de la formule du PageRank un effet qui a bénéficié à l'ensemble des acteurs du monde du Search, les moteurs de recherche (en général) ont tous amélioré leur "pertinence", et cela a bénéficié - en première intention - aux utilisateurs. Donc très bien. Mais le "Pagerank" qu'utilise Google n'a évidemment pas grand chose à voir avec la formule originelle publiée. A cette formule s'ajoute en effet une liste de plus de 400 critères de pondération algorithmique qui eux sont "secrets" et dont plus de la moitié est modifiée ou remise à jour chaque année.
C'est au final ce qui se produira aussi avec cette temporaire mise à disposition du code des programmes de "deep learning". Ils ont vocation à être re-capitalisés au double sens du terme une fois que ces technologies seront considérées comme matures et permettront de gagner des marchés significatifs. Pour l'instant on est est à un stade de béta-testeurs.
Et c'est là que survient un autre problème. Celui de l'attaque des imprimantes tueuses.
Je m'explique. Prenons l'un de nos dispositifs connectés le plus insignifiant qui soit. Celui dont personne ne soupçonnerait a priori qu'il puisse jouer un rôle déterminant dans notre sécurité, dans notre accès à l'information ou dans l'exercice même de nos libertés. Bien. Prenons une imprimante. Vous êtes d'accord qu'une imprimante ne menace ni notre sécurité ni l'exercice de nos libertés hein ?
On connaissait déjà la magie des cartouches équipées de "puces" qui refusaient d'imprimer en indiquant que la cartouche était vide, non pas parce qu'elle était vide, mais parce qu'elle avait été programmée pour un nombre maximum d'impressions. Et on savait déjà qu'il fallait devenir hacker de sa propre imprimante (pourtant dûment payée et tout et tout) pour pouvoir s'en servir "normalement".
Imaginez maintenant que votre imprimante refuse de lancer l'impression d'un document, qu'elle vous envoie un message d'avertissement pour infraction au droit d'auteur et qu'elle vous dénonce derechef aux autorités avides et aux ayants-droits compétents (ou l'inverse). Imaginez que lorsque vous voulez lancer une impression votre imprimante analyse en profondeur les caractéristiques dudit document, les DRM embarqués dont il sera probablement pourvu, qu'elle lance aussi une recherche dans des bases de données pour vérifier les droits de diffusion et d'utilisation du document en question et qu'elle décide in fine si vous avez ou pas le droit d'imprimer. Par exemple comme ça :
Sur ce beau schéma il manque juste la flèche "dénoncer aux autorités" ou "débiter directement son compte en banque du montant de l'infraction constatée" mais ce n'est pas très compliqué à rajouter ... En imaginant cela vous vous dites "oh non mais quel monde Orwellien, c'est dingue, un truc aussi banal qu'une imprimante qui peut à ce point entraver mes libertés". Et bien ce monde là existe déjà. Le brevet est déposé par IBM. Et vous connaissez mon opinion - qui est d'ailleurs surtout le sens de l'histoire : si une technologie peut-être testée et s'il existe un marché, elle sera testée.
Naturellement l'ensemble de ce processus sera parfaitement opaque pour l'usager. Naturellement, étant donné l'ampleur des textes, matériaux et documents "imprimables" aucun opérateur humain n'interviendra dans ce process et l'essentiel des choix et des autorisation seront directement fournis par "l'algorithme". D'ailleurs finalement pas grand chose de nouveau dans ce brevet déposé par IBM : depuis de nombreuses années, des algorithmes équivalents s'occupent de "nettoyer" les infractions au copyright sur les différents moteurs de recherche. Avec les résultats que l'on connaît : inflation aussi incontrôlable qu'injustifiable des demandes de désindexation et lois sur le Copyright qui ne sont que prétexte à toutes les formes de censure.
La question est donc la suivante : si les algorithmes les plus "basiques" sont à ce point capables de restreindre nos droits et nos libertés lorsqu'ils sont appliqués au plus triviaux des dispositifs connectés, quelle sera la portée des algorithmes du Deep Learning appliqués à des secteurs stratégiques et/ou régaliens ?
Et nous revoilà au début de cet article. Le Deep Learning sera demain présent partout : de l'assistant virtuel domotique aux voitures autonomes en passant par les chatbots conversationnels. Présent partout à l'échelle de l'individu mais aussi de la puissance publique comme des oligarchies financières à l'image de ce que peut aujourd'hui le High-Frequency Trading.
Sans avoir la puissance financière et technologique de ces grandes firmes des GAFA, le basculement temporaire en Open Source de ces lignes algorithmiques qui fixeront demain la conduite de nos vies et hélas probablement de nos démocraties est une fenêtre, une opportunité temporelle dont la puissance publique doit se saisir.
Il faut nationaliser les algorithmes Open Source.
Bon bien sûr l'idée de "nationalisation" n'est qu'une métaphore. Ce que j'entends par cette "nationalisation" des algorithmes c'est que la puissance publique doit saisir ce moment pour capitaliser de son côté, par exemple en trouvant les paramètres législatifs pour faire entrer cette immensité algorithmique momentanément "open source" dans un domaine public permanent. Tout comme la "nationalisation" fut, dans la Rome antique, une mesure politique qui donna naissance au domaine public. En parallèle de cela il faut fournir aux laboratoires, aux organismes de recherche et aux universités des moyens humains et financiers (ben oui, je sais) leur permettant non pas de rivaliser avec ces grandes firmes (bah oui, ils le font déjà, où croyez-vous que Yann Le Cunn et les différents top-engineers des GAFA ont été formés ? Hé oui, dans des universités et des laboratoires de recherche publics), mais de développer et de déployer ces technologies dans un cadre qui garantisse leur maintien dans le "bien commun" (la république n'étant rien d'autre que la "chose commune").
C'est nécessaire et complémentaire au fait d'informer les citoyens lorsque des décisions les concernant ont été prises par un algorithme, car n'en déplaise à Axelle Lemaire, un algorithme est bien un document communicable.
Nationaliser le Deep Learning, inscrire durablement dans le domaine public ces technologies du code est le seul moyen de réellement "libérer" les algorithmes et de garder le contrôle pour éviter qu'une dictature des oligarchies du code ne se substitue à court terme à ce qui aurait pu être une république des algorithmes.
Parce qu'il n'y a pas de république sans commun, pas de chose publique sans appartenances communes et propriétés partagées, il n'y aura pas non plus de république algorithmique sans nationalisations et inscription durable dans le domaine public d'un certain nombre de codes et de programmes.
La vérité est ailleurs. Et peut-être que le (vrai) problème aussi.
Soyons honnêtes, alors que l'on commence à peine à avancer sur ces problèmes qui vont de la redevabilité ("accountability") algorithmique à l'ouverture des codes-sources, au moment précis où ceux-ci (les algorithmes) sont en passe de gouverner dans la plus totale opacité des secteurs économiques et sociaux jusqu'ici considérés comme régaliens, force est de constater que la réalité des usages et des technologies nous amène déjà à penser la régulation du monde d'après-demain. Un monde dans lequel, par exemple, on voit poindre le concept de "reshoring", le fait de relocaliser en Europe des productions anciennement délocalisées dans des pays proposant une main d'oeuvre à faible coût, en Europe donc mais avec des coûts de production encore plus faibles puisque ce sont des robots qui feront le travail.
Car ainsi va la fourmi de 18 mètres du numérique et des internets : quand le politique fait interdire l'application Uber pour contenter le lobby des taxis, le même Uber est déjà en train de lancer sa flotte de véhicules autonomes ; quand tout le monde parle d'Uberisation et que la loi El Khomri et les politiques néo-libérales nous expliquent qu'il va falloir travailler plus, même les plombiers polonais ne font plus le poids face aux robots autonomes (reshoring donc).
Et quand on commence, sinon à trouver des solutions au problème de la gouvernance algorithmique, du moins à accepter de le poser à l'échelle politique, c'est à ce moment là que même l'ouverture du code ne servira peut-être pas, en tout cas à elle seule, à éviter un ensemble de dérives algorithmiques déjà observables. Je m'explique, ou plutôt je vous renvoie à la lecture de cet excellent article d'InternetActu : "Bientôt nous ne programmerons plus les ordinateurs, nous les dresserons comme des chiens."
Nous sommes à un tournant de "l'âge du code", où le code déjà largement inauditable pour des raisons économiques le deviendra par sa nature même : rien d'autre qu'un autre code / programme ne sera en mesure d'auditer un autre code / programme. Il sera alors un peu tard pour poser la question de la redevabilité, de la justesse, et de la confiance possible à l'échelle des responsabilités et des échelles décisionnelles confiées auxdits codes. Pourtant, si l'on avait écouté Lawrence Lessig il y a déjà 15 ans ...
Donc demain peut-être dresserons-nous nos algorithmes comme nous dressons aujourd'hui nos chiens. C'est à dire pas ... pas du tout pour l'immense majorité des possesseurs de chiens. Nous aurons alors peut-être recours à ce qui hier encore était une fiction, des professeurs des algorithmes.
Teacher of Algorithms from Simone Rebaudengo on Vimeo.
Car de fait aujourd'hui, combien de personnes dans le monde sont capables de lire et de comprendre les algorithmes de Deep Learning ainsi mis à disposition par Google, Amazon, Facebook ou Microsoft ?
Combien d'ingénieurs et de développeurs ont, au sein même de ces firmes, une vision globale exacte et fonctionnelle de la manière dont se réalise et se tient la promesse algorithmique ? Peu. Très peu.
<Métaphore de la vraie vie> Quand j'ai passé le code et le permis de conduire, il y a plus d'un quart de siècle, aucune question du code ni aucune épreuve du permis ne nécessitait de connaissance même sommaire sur le fonctionnement d'un moteur. Aujourd'hui, on a rajouté des questions permettant aux candidats de connaître ces rudiments. Et c'est tant mieux. Cela n'en fait pas pour autant des garagistes capables d'intervenir sur une panne mais c'est bien quand même. On leur a donné (aux candidats) un minimum de "culture technique". Pour le reste ils font confiance aux garagistes (c'est un métier) et si leur garagiste est un escroc ils leur reste alors à faire confiance à la concurrence libre et non faussée. Donc des usagers d'un côté, des professionnels de l'autre et au milieu une "culture technique" improprement partagée. Mais ça c'était avant. Puisque désormais primo on se dirige vers une génération qui n'aura probablement plus besoin de "permis de conduire" puisque les véhicules seront "autonomes" et que deuxio les véhicules sont désormais équipés de DRM et que les voitures sont "sous droits d'auteur", avec le résultat que les garagistes, même honnêtes, sont à leur tour devenus littéralement incompétents du fait de cette soumission à un code propriétaire sur lequel ils n'ont plus la main. </métaphore de la vraie vie>
Voilà pourquoi oui, il nous faut nous interroger rapidement sur la nécessité d'une "nationalisation algorithmique", voilà pourquoi les questions d'ouverture du code liées aux problématiques d'éditorialisation algorithmique sont politiquement essentielles, voilà pourquoi la question d'un domaine public du code est aussi importante que celle déjà presque dépassée d'un index indépendant du web, voilà pourquoi la question des "valeurs" (au sens de valeurs morales) inculquables aux algorithmes par leurs programmeurs doivent être au centre des travaux de recherche sur le développement du Deep Learning en reprenant, a minima, la feuille de route délivrée conjointement par Asimov avec ses trois lois de la robotique et par Lessig avec son "Code is Law".
Parce que je le répète : il n'y a pas de république sans commun, pas de "chose publique" sans appartenances communes et sans propriétés partagées, et il n'y aura pas non plus de république algorithmique sans nationalisations et sans inscription durable dans le domaine public d'un certain nombre de codes et de programmes.
Sans cela on parlera toujours de Deep Learning mais ce sera juste pour apprendre une nouvelle fois qu'on nous l'a mis bien profond.
Si les Gafam ouvrent leurs logiciels de machine learning et pas les algorithmes qui font fonctionner leurs services, c'est certainement qu'il y a des différences de fonds.
Ce peut-être lié au fait que la valeur ne repose pas dans le logiciel, mais dans les données qui les alimentent (qui elles, restent fermées, comme le soulignait Wired :http://www.wired.com/2015/11/google-open-sourcing-tensorflow-shows-ais-future-is-data-not-code/ ).
Est-ce lié à une guerre du code et des développeurs que se livrent les grandes firmes entre elles ? http://alireailleurs.tumblr.com/post/129900264468/la-guerre-du-code-medium
Est-ce lié à la différence entre un programme originel et son fonctionnement réel, qui dépend de multiples autres données et surtout d'équipes dédiées, de gestionnaires d'algorithmes, comme les équipes, chargés chez chacun de veiller à corriger les algorithmes, à les faire fonctionner (à l'image des pallanquées de professeurs chargés d'aider les élèves à faire fonctionner Affelnet ou APB) ? http://alireailleurs.tumblr.com/post/141246307693/g%C3%A9rer-les-ruptures-new-york-times
Voir aussi par là : http://www.internetactu.net/2016/01/13/nos-systemes-pour-une-retroingenierie-des-systemes-techniques/
Rédigé par : Hubert Guillaud | 31 mai 2016 à 11:01
je découvre votre blog via l´article sur rue 89. Merci, je me sens deja plus instruite que ce matin.
Rédigé par : c. | 31 mai 2016 à 13:46
Tout d'abord, une toute petite remarque, le Deep Learning n'est que le ré-empaquetage sexy des réseaux neuronaux. L'ensemble des algos qui tournent aujourd'hui a été inventé il y a près de trente ans, et l'article fondateur date de 1998. Nihil nove sub sole. Ce qui a changé la donne, c'est essentiellement la puissance de calcul (et en particulier l'utilisation plutôt astucieuse des co-processeurs graphiques) qui a permis de faire tourner ces algos sur des quantités absolument phénoménales de données. Ici, nous n'avons pas assisté à un changement de qualité mais de quantité. Par conséquent que les GAFAM mettent à disposition des algos anciens difficilement brevetables n'a rien de surprenant. Les réseaux neuronaux sont basés sur des calculs matriciels couplés à une descente de gradient. Rien de très pointu en matière d'informatique.
Enfin, le Machine Learning ou Apprentissage Automatique, est un ensemble de technique dont les réseaux neuronaux sont un aspect, les deux termes ne sont donc pas équivalents.
Pour moi, il existe un danger encore plus grave dans l'utilisation de ces outils, c'est que l'on ignore systématique leurs marges d'erreur. Il existe un danger non négligeable que l'on finisse pas ne pas remettre en cause leurs oracles et qu'ont les prenne systématiquement pour des jugements sûrs. Or ces outils sont faillibles, ils dépendent tellement des données initiales d'entrainement que le simple fait de les entraîner introduit déjà un biais.
Rédigé par : Claude Roux | 31 mai 2016 à 14:52
Ce n'est pas le code qu'il faut nationaliser, ce sont les GAFA elles-mêmes. La rentabilité de ces sites dépasse l'entendement.
Rédigé par : Phifeu | 31 mai 2016 à 22:14
Encore du neurone à moudre avec cet article. J'abonde dans le sens de Mr Claude Roux ci-dessus. Il vaut mieux avoir un algo. moyen à itérer sur des grands volumes de données qu'un algo. excellent qui se fait la dent sur des volumes plus faibles. La masse du big data est donc bien l'enjeu. Et évidemment les GAFA comme toujours essaient de tirer partie de leurs bases d'utilisateurs pour faire le boulot à leur place (avec cette livraison de code). Mais ils sont tellement pressés que le principe de précaution lié à la marge d'erreur de ces traitements de données s'envole en fumée devant les bénéfices à faire. Et ça, c'est pas nouveau mais plus ça va, moins ce principe de précaution, ou toute forme de recul d'ailleurs, est appliqué.
Quant au nombre de critères qui sont pris en compte par l'algo du moteur de recherche, c'est plus 200 que 400 (ce sont les googlers eux-même qui le disent).
Rédigé par : Yann | 01 juin 2016 à 00:21
Bonjour.
Bel article :) Deux ou trois remarques en vrac.
+) La re-captation de code est une des différences fondamentales entre le code ouvert à la sauce "open-source" et celui ouvert à la mode GNU (Stallman/FSF).
+) Les photocopieurs savent depuis quelques temps détecter les tentatives de photocopies de billets de banque:).
+) les logiciels en Europe ne peuvent pas être brevetés, c'est une différence fondamentale avec les U.S qu'il faut conserver. D'ailleurs cela pose un problème pour la "valorisation" de la recherche appliquée en informatique puisqu'il s'agit de recherche technique sans brevet : voilà un foutu indicateur ANR qui tombe ....
Rédigé par : J.-M. K. | 01 juin 2016 à 02:28