vendredi 15 mars 2019

S'affranchir de l'autorité centrale avec la blockchain

La chronique précédente portait sur la tension entre système centralisé, où une seule machine gère tout, et système décentralisé. La centralisation a longtemps résisté dans le domaine des transactions marchandes. Quand vous réservez le siège 25 de la voiture 8 du train Paris-Aix-en-Provence de lundi midi, un système informatique centralisé garantit que vous êtes le seul à réserver cette place (ou, en tout cas, devrait le garantir). Les échanges commerciaux modernes s'appuient sur les monnaies de banques centrales, telles que l'euro ou le dollar. La propriété de biens immobiliers est assurée par les services centraux de la publicité foncière. Nous pourrions multiplier les exemples de centralisme de tels systèmes, même lorsque, parfois, ils utilisent de fait des batteries d'ordinateurs autonomes. Si l'implantation est décentralisée, l'autorité, qui peut être un « tiers de confiance », est bien centralisée.
Depuis peu, des algorithmes complexes utilisant des puissances de calcul considérables proposent des échanges monétaires sans présupposer l'existence d'une autorité centrale. On leur imagine bien d'autres utilisations, comme de remplacer l'un des rares services d'Internet qui soient centralisés, celui qui permet de transformer les noms de domaines, tels que www.inria.fr, en adresses physiques de serveurs. Bienvenue dans le monde de la blockchain - autrement dit, la « chaîne de blocs » !
La technologie à la base des blockchains s'est d'abord fait connaître avec une nouvelle monnaie, le bitcoin. On peut acheter des produits avec des bitcoins ou les échanger contre des euros. La rencontre des algorithmes distribués et de la cryptographie au sein d'un « modèle économique » original permet à tout cela de fonctionner sans autorité centrale. La monnaie se libère du carcan des États !
Le protocole distribué de bitcoin, qui fait tout, de l'émission et l'échange de monnaie à la protection contre la double dépense, a été inventé par un (ou plusieurs) programmeur connu sous le nom de Satoshi Nakamoto, autour de 2008. Le secret entourant sa création, et son utilisation sur le dark Web (le contenu du Web accessible uniquement via des logiciels, des configurations ou des autorisations spécifiques), enveloppent cette technologie de mystère. L'intérêt récent des entreprises s'explique en partie par la popularité du bitcoin et de ses successeurs, et par des succès des blockchains, comme les échanges financiers entre entreprises. La technologie est encore jeune et nous voyons déjà arriver de nouveaux systèmes, comme Ethereum, blockchain open source.
Les mécanismes de blockchain permettent d'implanter un service ouvert et public de registre numérique. N'importe qui peut lire le registre, en garder une copie, écrire dedans, c'est-à-dire y enregistrer des transactions, au sens informatique comme au sens bancaire du terme. Les participants qui gardent des copies garantissent collectivement que les transactions sont réalisées l'une après l'autre, que les copies restent identiques, et qu'elles gardent bien la trace de toutes les transactions depuis le lancement de la blockchain.
Le problème, c'est d'arriver à mettre d'accord toutes les copies. La méthode historique pour aboutir à ce type de consensus est « une preuve de travail ». La résolution de cette preuve nécessite une puissance de calcul informatique énorme. Un attaquant qui voudrait tricher, par exemple en autorisant de vendre plusieurs fois le même objet physique, devrait fournir une proportion importante de la puissance de calcul de l'ensemble des participants. Ainsi, quelqu'un possédant 51 % de la puissance de calcul totale pourrait imposer sa loi et des transactions « truquées ».
Soulignons qu'avec les calculs considérables qu'elles requièrent pour enregistrer une transaction, les blockchains standards ne sont pas du tout écolos. Selon l'agence Reuters, le réseau bitcoin consommait, en 2015, 43 000 fois plus d'électricité que les 500 ordinateurs les plus puissants du monde. Mais nous voyons émerger des technologies qui, sans être catastrophiques pour la planète, se proposent de garantir une gestion décentralisée de données, transparente, ouverte, sécurisée. Nous y arriverons ; c'est juste une question de temps. Les effets sur l'économie d'une société moins centralisée, basée sur la confiance, sont encore à découvrir.

Cet article est paru dans Le magazine La Recherche, N°529 • novembre 2017

ChroniqueLaRecherche  


Centraliser ou non : le duel de l'informatique

Dans 2001, L'Odyssée de l'espace, Hal est le système informatique du vaisseau spatial Discovery One. C'est un système centralisé : une seule machine gère tout. Internet, en revanche, est un système informatique distribué, composé de centaines de millions de machines autonomes, hétérogènes, sans véritable autorité centrale. Le premier est anthropomorphique, presque de nature divine. Le second tient de la fourmilière. Le monde informatique offre donc tout un continuum de solutions, depuis le supercalculateur monomachine jusqu'aux systèmes totalement distribués comme Internet. Choisir entre centralisé et distribué, c'est le sujet de cette chronique. La conception des systèmes centralisés est beaucoup plus simple. Ils sont aussi plus faciles à mettre au point, et à débuguer - quand une erreur arrive, on n'a pas à se demander d'où elle provient. Mais leurs avantages se limitent là. Assumons le spoiler en prévenant que, dans la suite de cet article, nous ne ferons que souligner les avantages de la distribution sur la centralisation.
D'abord, contrairement à ce que l'on pourrait penser, les systèmes centralisés sont plus fragiles, plus instables. Une erreur au coeur du système peut entraîner le chaos. En s'en prenant au maître, on peut réussir à bloquer tout un service. Rien de tel avec un système décentralisé. Un mythe indique d'ailleurs qu'Internet a été conçu pour résister à des attaques, même nucléaires. En réalité, si le réseau Arpanet, à l'origine d'Internet, a bien été développé par la Darpa, une agence de défense du gouvernement américain, il l'a été pour faciliter les communications entre chercheurs. Reste que, grâce à la distribution, Internet est beaucoup plus résistant aux pannes qu'un système centralisé.
Un autre avantage de la distribution est le passage à l'échelle. L'exemple de la vidéo en ligne illustre parfaitement cet aspect. Dans une approche centralisée, les serveurs stockent des vidéos. Quand la demande augmente, les serveurs sont vite saturés et il faut en acheter d'autres, les installer : cela coûte cher. Dans une approche répartie, chaque client qui télécharge une vidéo en stocke une copie et peut à son tour délivrer le film à d'autres clients. On parle alors de pair-à-pair parce que, la hiérarchie s'estompant, chaque participant est à la fois client et serveur. Si ces approches pair-à-pair ont été, au départ, surtout utilisées pour le piratage, elles sont tout à fait compatibles avec la protection des droits d'auteur (les flux vidéo sont chiffrés et des DRM nécessaires pour les visualiser). Elles sont également beaucoup plus efficaces que les approches centralisées. Dans ce dernier cas, la vidéo va voyager sur le réseau, peut-être depuis le serveur d'un pays lointain ou au mieux à partir d'un « cache » (un serveur de soutien moins éloigné). Dans le cas distribué, la vidéo a une forte chance d'être disponible dans le voisinage du client. Les économies d'électricité pour visionner une vidéo sont alors vraiment conséquentes - cette année, 74 % de tout le trafic internet mondial sera de la vidéo en ligne !
Un dernier avantage, moins simple à quantifier : la distribution encourage la diversité. Un système centralisé utilise un logiciel particulier relativement figé. Dans un cadre réparti, une fois qu'une infrastructure de base est disponible (par exemple, Internet), de nombreux logiciels peuvent être proposés, entrer en compétition et évoluer à la manière de systèmes biologiques. La distribution est pour beaucoup dans la créativité débridée de l'informatique depuis sa création.
Les tensions entre solutions centralisées et distribuées existent depuis les débuts de l'informatique. Récemment, la plus sournoise est une bataille autour du Web. Nous nous sommes habitués à trouver sur la Toile des services décentralisés fantastiques, comme des moteurs de recherche, des encyclopédies, des sites de commerce en ligne... Une tendance actuelle est pourtant d'écarter l'utilisateur du Web pour le fixer dans des systèmes particuliers. Nous sommes de plus en plus prisonniers des applications de nos téléphones ou de systèmes comme Facebook ou Snapchat qui se proposent comme point d'entrée centralisé du monde. La liberté apportée par la distribution des services sur le Web est-elle en danger ?
Cet article est paru dans Le magazine La Recherche, N°528 • octobre 2017
ChroniqueLaRecherche  

lundi 4 mars 2019

Humanités et informatique : accords et désaccords

Humanités numériques en dialogue

Les acteurs en humanités numériques, enseignants, chercheurs, ingénieurs, étudiants et bibliothécaires de l’École normale supérieure, se présentent sous forme de portraits filmés ou en répondant à trois questions.

Ils nous font part de leurs expériences professionnelles et du nouveau dialogue entre humanités et numérique qu’ils souhaitent insuffler aux projets de recherche. Ils témoignent également de la diversité des métiers impliqués dans les projets en sciences humaines et sociales augmentés par le numérique, et des transformations professionnelles engendrées par ce nouveau medium.

Ce projet est cofinancé par le CAPHÉS, le labex TransferS et les bibliothèques de l’ENS. 



https://digithum.huma-num.fr/portraits/videos/mp4/sergeabiteboul.mp4

J'y suis passé...

vendredi 1 mars 2019

Le cyberespace, c'est ici et nulle part ailleurs

On entend parfois dire de quelqu'un, souvent d'un ado, qu'il ou elle « vit dans son monde virtuel ». Cela suggère que cette personne passe son temps connectée à un téléphone ou à un autre terminal, plongée dans un monde numérique. Mais en quoi le monde numérique est-il virtuel ? Quand nous conversons sur Internet avec des amis, que nous sommes connectés à un réseau social, les gens avec lesquels nous communiquons ne sont pas virtuels. De même, la carte numérique qui nous aide à trouver notre chemin est bien plus proche de la réalité que le plan en papier d'antan : un point nous situe ; les travaux, les bouchons sont indiqués ; en zoomant, nous faisons apparaître des détails. Autre exemple, les paiements électroniques, comme les bitcoins, sont basés sur des échanges d'informations numériques, mais ils nous permettent de payer des biens bien concrets.
Ce reproche de déconnexion d'avec le monde réel est particulièrement aigu pour les jeux vidéo. Ceux-ci nous éloigneraient de la réalité. Certes, ils nous permettent de vivre des aventures imaginaires, parfois même de les partager avec d'autres dans des jeux en ligne. Mais où est la nouveauté ? La lecture permettait déjà de vivre de telles aventures. Même le partage d'imaginaires existait déjà à travers les jeux de rôle, et des pratiques ancestrales théâtrales ou enfantines. Certains jeux vidéo sont accusés d'être hyperviolents. Leur violence n'a pourtant rien à envier à celle de certains contes qui ont bercé notre enfance. On insiste sur le fait qu'un djihadiste ou l'auteur d'une fusillade dans un lycée était un adepte de ces jeux. Mais ces derniers sont si populaires parmi les jeunes qu'il n'y a rien de surprenant à cela. La différence peut-être essentielle entre les jeux vidéo et des formes plus classiques de loisirs est qu'ils nous font évoluer dans des mondes qui ressemblent de plus en plus au monde réel. Ce réalisme faciliterait-il le basculement dans une violence véritable ? Les recherches scientifiques sur les liens entre jeux vidéo et violences restent controversées. La fausse impression de virtualité du monde numérique tient sans doute beaucoup au caractère immatériel de l'information numérique, qui n'a pas de substance, pas de masse et ne sacrifie pas aux lois de la physique, même si les effets de la transformation numérique, tels les data centers, sont, eux, bien matériels. Cette absence de substance n'empêche pourtant pas des physiciens d'utiliser des simulations numériques pour tester leurs hypothèses sur le monde réel. Les chercheurs dans de nombreux autres domaines, de la biologie à la sociologie, y ont d'ailleurs également massivement recours.
La référence à la simulation peut nous conduire loin, à l'« hypothèse de simulation », qui soutient que nous vivons, nous-mêmes, à l'intérieur d'une simulation. Elle est présente dans le questionnement de Tchouang-tseu, penseur chinois du IVe siècle avant notre ère : est-il un homme ayant rêvé qu'il était papillon ou ce papillon en train de rêver qu'il est Tchouang-tseu ? C'est aussi le sujet de nombreuses histoires de science-fiction, comme le film Matrix, sorti en 1999. Cette hypothèse est même argumentée par des philosophes, tel le Suédois Nick Bostrom. Pour lui, notre vie serait juste une simulation. Mais ce n'est pas ici la question - les parents qui reprochent à leur ado de vivre dans son monde virtuel ne doutent pas une seconde qu'eux vivent dans un monde bien réel.
L'omniprésence des questions numériques dans l'actualité est bien là pour nous rappeler que le monde numérique n'a rien de virtuel. Quand les réseaux sociaux ne protègent pas nos données numériques, c'est la confidentialité de nos vies qui est menacée. Quand la vente en ligne fleurit, c'est le commerce du coin de la rue et le supermarché traditionnel qui souffrent. Nous pourrions multiplier les exemples. Nous avons trop tendance à croire qu'Internet et le monde numérique en général sont des espaces à part. Non, c'est notre monde réel qui est devenu numérique, et c'est bien pour cela qu'il ne peut être une zone de non-droit, que nous devons y cultiver les valeurs morales que nous avons développées au cours des siècles.

Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°537 • juillet-août 2018
ChroniqueLaRecherche  



vendredi 15 février 2019

Des succès des ignorances en informatique

Séminaire sur l'Ignorance dans les sciences à l'ENS le 15/2/2019

Diapos : Des succès des ignorances en informatique

Ma vie avec Fanny Ardant parait sur Uzbek et Rica

Uzbek et Rica,

Avec Le bot qui murmurait à l’oreille de la vieille dame (Le Pommier 2018), Serge Abiteboul propose un recueil de nouvelles qui allient science et imagination. La rédaction d'Usbek & Rica, avec l'aide de sa stagiaire Emma Lizana, a décidé d’en publier quelques-unes, dont voici la première.


Fanny Ardant en robe rouge dans le film Huit femmes.

Ma vie avec Fanny Ardant, assistante vocale, 15/02/2019

lundi 11 février 2019

samedi 19 janvier 2019

Le bot est dans le monde

Le Monde des Sciences, Science-fiction sauce numérique, David Larrousserie, janvier 2019
 

The Digital Shoebox

L'article a été publié dans un livre, Memory, édité par  Philippe Tortel, Mark Turin et Margot Young.

Un extrait a été publié par le National Post, un journal national canadien.
L'article est disponible en libre accès sur Hal.


Le texte "The Digital Shoebox" est disponible en Creative commons

Tout le livre en CC.

lundi 7 janvier 2019

Bases de données relationnelles : apprendre pour utiliser

Réalisé avec Philippe Rigaux

Ce Mooc fait partie d'une mini-série de deux cours, Bador 1 et Bador 2


Bador 1 est déjà ouvert aux inscriptions et la date d'ouverture est fixée au premier d'avril.

Il s’adresse à toute personne amenée à concevoir et mettre en œuvre une base de données.


Il présente les principes essentiels des bases des données relationnelles: les différents niveaux d’abstraction; la notion de modèle, de langage de requêtes; les transactions. L’importance de ces principes est soulignée pour expliquer la relative facilité de mise en œuvre d’une base de données malgré la complexité des concepts mis en œuvre.
Cette présentation des aspects fondamentaux est essentielle selon nous pour saisir de manière approfondie ce qui fait la spécificité des bases de données et explique l’immense succès qu’elles rencontrent depuis 50 ans.

Le MOOC la complète, bien entendu, par la mise en pratique avec les principaux outils et méthodes: conception, création d’une base de données, langage SQL, et introduction à la réalisation d’applications avec SQL.

Ce MOOC se déroule sur 6 semaines.



mercredi 2 janvier 2019

Les limites du droit à l'oubli

Dans la chronique « La boîte à chaussures, dépositaire de notre mémoire », nous avions discuté du besoin d'oublier pour ne pas être submergés par un flot de données. Nous considérons aujourd'hui la nécessité d'oublier telle que formulée par le « droit à l'oubli », affirmé en particulier par l'Union européenne : une personne peut exiger qu'une information, par exemple une photo où on la voit fumer une substance illicite, soit effacée d'un système informatique.

« Oublie-moi ! » C'est un ordre auquel j'ai parfois du mal à me soumettre. Pire, le simple fait de me demander d'oublier quelqu'un le rappelle encore plus à mon souvenir. Sur Internet, on parle dans ce cas d'« effet Streisand », en référence à ce qui s'est passé en 2003. La chanteuse américaine Barbra Streisand a voulu faire interdire la diffusion, sur un site web, d'une photo aérienne de son domaine. Cette demande a encouragé plusieurs centaines de milliers de personnes à consulter le cliché sur le site le mois suivant.

L'évolution d'Homo sapiens n'a pas jugé bon d'y inclure un algorithme d'effacement de la mémoire. Seul le temps favorise l'oubli. Si nous effaçons aussi des souvenirs - parce qu'ils sont trop durs, parce que nous en avons honte -, c'est inconsciemment, en évitant d'y penser. Nous ne disposons pas de code dans notre cerveau pour passer en revue nos milliards de neurones et en effacer une information spécifique. Les systèmes informatiques sont confrontés à la même question avec le droit à l'oubli. La première réaction des ingénieurs est : « Ça ne va pas être possible ! » Pour l'une de vos photos, des copies ont pu être faites par certains de vos amis, des amis d'amis... D'autres existent sur Internet dans des mémoires caches ou se trouvent dans des sauvegardes. Pour être clair, le système ne sait pas toujours où sont les copies et on préfère, autant que possible, éviter de modifier les sauvegardes qui en contiennent certainement.

En 2011, un étudiant autrichien en droit, Max Schrems, a demandé à Facebook une copie de toutes ses données personnelles (un fichier de plus de 1 200 pages). Il y a découvert des informations qu'il avait pourtant effacées. Une série de plaintes qu'il a déposées ont finalement conduit la Cour de justice de l'Union européenne à invalider l'accord « Safe Harbor » sur l'utilisation, par les entreprises américaines, de données d'utilisateurs européens.

Les lignes bougent. Le droit à l'effacement s'installe en Europe et cela pose des problèmes aux entreprises. Oublier une information dans un système informatique complexe, comme forcer un individu à oublier une information, c'est mission impossible. Pourtant, c'est devenu la règle !
Il existe plusieurs niveaux de réponses. Le premier est utilisé sur Internet : le déréférencement. Plutôt que d'interdire une page, on va demander au moteur de recherche d'arrêter de la faire apparaître dans les résultats de recherche. Étrange pouvoir judiciaire des ingénieurs, qui dit beaucoup du Web : si une information n'est plus référencée, c'est un peu comme si elle n'existait plus. À un deuxième niveau de réponse, le système « fait de son mieux » en effaçant les copies de l'information dont il a connaissance. Mais elle reste peut-être dormante, dissimulée. Un bug informatique, un piratage, peut la faire ressurgir.

Le dernier niveau est le droit à l'oubli « par construction ». L'idée est de tenir compte de ce sujet dès la conception du système informatique. Typiquement, pour qu'un tel système fonctionne, le moindre bout d'information doit inclure sa provenance. Ces systèmes peuvent se servir des mêmes techniques de traçabilité que celles qui sont utilisées dans l'industrie alimentaire pour savoir, par exemple, ce qu'ont mangé les vaches dont vient le lait d'un yaourt particulier.

Pour conclure, le droit à l'oubli peut être garanti, mais il a des limites ; il peut entrer en conflit avec d'autres droits, comme celui à l'information ou la liberté d'expression. On imagine mal, même si elle avait vécu assez longtemps pour cela, Charlotte Corday demandant, au nom du droit à l'oubli, la destruction du tableau de Jacques-Louis David, La Mort de Marat, ou surtout de celui de Paul Baudry, Assassinat de Marat, où sa meurtrière est représentée.

Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°535 • Mai 2018
ChroniqueLaRecherche
 


Bonne année


mardi 20 novembre 2018

Le prix du numérique


Nous nous sommes également habitués à des services gratuits sur Internet, que ce soient des moteurs de recherche, comme Google ou Qwant, des réseaux sociaux, par exemple Facebook, ou des services de musique, tel Deezer. Accessibles quel que soit le niveau de revenu de l'utilisateur, ces services géniaux sont principalement financés par la publicité ou éventuellement par des abonnements. Leurs coûts d'exploitation sont modestes, du fait de la baisse des prix des ordinateurs et du relativement faible nombre d'employés. En avril 2013, l'application de messagerie instantanée WhatsApp comptabilisait 200 millions d'utilisateurs dans le monde, avec seulement 50 employés. Le logiciel d'un service du Web peut, lui, être reproduit à l'infini à un coût nul. C'est un bien non rival - que j'utilise WhatsApp n'empêche personne de faire de même. Reste à construire des fermes de serveurs pour accueillir les données, mais elles sont mutualisées entre tous les utilisateurs. Pour Facebook, en 2011, le coût d'exploitation n'était que d'environ 1 dollar par utilisateur mensuel actif. Chaque utilisateur supplémentaire apporte plus de profit et, effet réseau oblige, accroît l'attractivité du service. Avec la publicité, les géants d'Internet sont assis sur des mines d'or.

Dans ce contexte, il faut citer le cas des logiciels libres ou ouverts. Mis à disposition de tous, ils deviennent en quelque sorte des « biens communs ». Ce modèle se développe réellement : les serveurs du Web sont souvent des logiciels ouverts, comme nombre d'outils de programmation utilisés en apprentissage automatique.

Malgré tout, n'allez surtout pas expliquer aux cadres d'une grande banque que l'informatique ne coûte rien (j'ai essayé). Vous les verrez grimper au rideau : « On voit bien que ce n'est pas vous qui payez les machines et les salaires des informaticiens. » Mesdames et messieurs qui dirigez de grandes entreprises, relativisez ! Si des ordinateurs font une part importante du travail, - disons 80 %, pour 20 % des coûts -, ce n'est pas cher, même si cela représente une grosse somme d'argent.
Vous pouvez néanmoins poser la question de savoir pourquoi ce coût. Une première explication tient aux exigences de qualité. Quand un service de votre téléphone dysfonctionne, c'est souvent embêtant, mais acceptable. Quand, dans une transaction bancaire, le bénéficiaire est crédité, mais que le logiciel oublie de débiter le payeur, ça l'est moins. Les entreprises exigent, à juste titre, un haut niveau de sûreté et de sécurité de fonctionnement. La résilience aux pannes (sûreté) et aux attaques (sécurité) se paie. Une autre explication vient de la complexité des grandes entreprises. De fait, chacune est unique. Ainsi, une grande banque exige la conception, le développement, le déploiement, la maintenance de logiciels complexes « sur mesure » de grande qualité. Comme tout cela est unique, pas question de mutualiser les coûts. La combinaison « qualité et sur-mesure », cela ne vous rappelle pas la haute couture ? Quand le directeur des systèmes d'information vous présentera une note un peu salée, pensez que vous vous offrez du Dior ou du Chanel...
 
Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°534 • Avril 2018

ChroniqueLaRecherche

lundi 5 novembre 2018

La boîte à chaussures, dépositaire de notre mémoire

Comment notre patrimoine littéraire a-t-il traversé les siècles ? Le contenu d'un livre - une suite de caractères (oubliant pour simplifier les enluminures, la texture, l'odeur du papier...) - est imprimé sur des supports conservés dans des bibliothèques. Une copie peut « disparaître », une bibliothèque être inondée, un tyran décider de faire brûler toutes les copies d'un ouvrage dans un espace géographique particulier... tant qu'une seule copie subsiste, le livre est sauvé ; on peut le répliquer. C'est ce seul coût de réplication qui limite. Si nous perdons le contenu d'un livre, ce ne peut être que par négligence, par absence d'intérêt. Au contraire, une information numérique - un livre, une image, une vidéo... - peut être stockée et reproduite massivement à coût presque nul. Elle peut être dispersée dans l'espace pour la préserver du feu, de l'eau, des tyrans... Alors pourquoi semble-t-il si difficile de sauvegarder notre mémoire numérique ?
D'abord, les formats évoluent. Par exemple, nous avons des vidéos des premiers jours de nos enfants en VHS et nous ne pouvons plus les visionner. Les solutions existent pourtant, comme celle d'utiliser un programme qui transforme un ancien format en un plus récent pour lequel nous avons un lecteur. Un autre problème est que les supports standards actuels d'information ont des durées de vie relativement courtes (de quelques années à quelques dizaines d'années), typiquement moins que les tablettes sumériennes ou le papier. Pour surmonter cette difficulté, c'est simple, il suffit de répliquer régulièrement l'information sur de nouveaux supports afin de garantir en permanence l'existence d'au moins une copie complète - tout cela demande des efforts. Si elle n'est pas totalement gratuite, la préservation d'une information numérique est néanmoins possible et bien moins onéreuse que celle de son analogue physique.
Où se situe donc vraiment le problème ? Dans le déluge de données qui nous force à choisir ce que nous voulons préserver : il nous est impossible de tout garder. On dit que si on vidait tous les disques de la planète, tous les supports d'information le 31 décembre et que l'on commençait à les reremplir le jour suivant sans plus rien effacer, on n'aurait plus de place disponible avant la fin de l'année. L'hypermnésie n'est pas une option pour l'humanité. Elle ne l'est pas davantage pour chacun d'entre nous, parce que nous finirions par nous noyer dans un océan de données. Il nous faut choisir... et la tâche est laborieuse.

Hier, nous triions. Nous avions peut-être une boîte à chaussures où nous rangions nos photos les plus précieuses. Les plus organisés faisaient des albums. Aujourd'hui, où sont nos clichés ? Quelque part sur un compte Instagram ou Facebook, sur notre téléphone, sur un ordinateur, sur un disque externe... Les matériels s'abîment, se font voler, pirater. Le cloud nous aide en nous évitant une dépendance à des matériels spécifiques, mais nous nous y perdons aussi lorsque nous en avons plusieurs. Et un fournisseur peut décider qu'il n'archivera pas nos données au-delà de quelques années, sans que nous en ayons vraiment conscience. Nous changeons d'ordinateur, fermons un compte, le temps passe... et nous perdons des pans entiers de notre mémoire.

Que pouvons-nous y faire ? Rangeons dans une boîte à chaussures numérique ce à quoi nous tenons - nos photos numériques préférées, mais aussi les films, les textes, les livres... auxquels nous sommes attachés. Le coût : payer un prestataire de services pour garantir sa persistance, ou garder plusieurs copies de cette boîte et vérifier de temps en temps qu'un nombre suffisant d'entre elles sont fonctionnelles. Mais, surtout, il nous faut choisir ce que nous conservons. Les entreprises, les gouvernements, les archivistes de tous bords sont confrontés aux mêmes problèmes. La vraie difficulté, pour nous comme pour eux, est bien celle du choix de ce que nous voulons préserver. À terme, avec l'explosion du volume des données, nous n'avons pas le début d'une chance de nous en sortir sans l'appui des algorithmes. Le salut viendra d'assistants numériques qui se chargeront de préserver notre mémoire. En attendant, contentons-nous de gérer nos boîtes à chaussures numériques à la sueur de nos neurones.

Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°532 • Février 2018

ChroniqueLaRecherche

Académie, APL, IHEJ, Education au numérique @ Beyrouth

13 octobre, Speed Sciences @ Académie des sciences

18 octobre, présentation pour l'inauguration des nouveaux locaux d'APL

22 octobre, présentation à l'Institut des Hautes Études pour la Justice

2 novembre, présentation au symposium "Innovating technologies and their impacton eduction and the needed skills for future jobs in Mena region, Beirouth

mardi 23 octobre 2018

Internet : neutre mais pas trop ?

Titre : Internet : neutre mais pas trop ?
Intervenants : Serge Abiteboul - Benjamin Bayart - Mathilde Morineaux - Sébastien Soriano - Céline Loozen - Nicolas Martin
Lieu : Émission La méthode scientifique - France Culture
Date : septembre 2018
Durée : 58 min
Écouter sur le site de l'émission ou écouter le podcast

Retranscription verbatim par april

mardi 16 octobre 2018

Un robot dans la robe des juges

Les algorithmes exécutés par des ordinateurs sont entrés dans nos vies : ils nous conseillent des films, nous proposent des chemins pour nous rendre à notre prochain rendez-vous... Bientôt, ils conduiront nos voitures ou nous permettront de rester chez nous dans notre quatrième âge. En prenant autant d'importance, ils soulèvent des questionnements, des inquiétudes. Prenons un exemple frappant dans un domaine régalien, la justice. Aux États-Unis, le logiciel Compas assiste les juges pour décider de libérations conditionnelles, en évaluant le risque de possibles récidives - la décision de remise en liberté est strictement liée à la probabilité de récidive. L'algorithme assiste, mais ne décide pas. Oui, mais un juge aura-t-il le courage, ou la légèreté, de remettre un condamné en liberté contre l'avis du logiciel si l'on peut prouver que l'algorithme fait statistiquement de meilleures prédictions que les juges ?

La question est philosophique : y a-t-il des tâches de telles natures que les confier à des machines nous ferait perdre une part de notre humanité, des tâches qu'il faut leur interdire même si elles les réalisent mieux que nous ? Nous ne répondrons pas à cette question, mais relativisons son importance aujourd'hui. Si les algorithmes deviennent de plus en plus intelligents, ils sont loin de pouvoir, par exemple, remplacer les juges dans des cas encore plus complexes que celui de la libération conditionnelle aux États-Unis. Quand des algorithmes participent à la vie de la cité se pose également la question de leur responsabilité. Revenons sur le logiciel Compas. Il présente sur un juge l'avantage d'une certaine cohérence. Il a été montré notamment que les décisions des juges sont dépendantes de l'heure ; il vaut mieux passer après le repas qu'avant. Et celles des cours de justice, par exemple aux prud'hommes, varient énormément d'une chambre à une autre. Pas de cela avec les algorithmes ! Ils peuvent garantir une certaine cohérence.

Nous pourrions également espérer qu'ils soient plus « justes », qu'ils ne discriminent pas suivant les origines ethniques, le genre... Pourtant, des journalistes ont évalué les prédictions de Compas et découvert qu'il surestimait largement les risques de récidives des condamnés noirs. Des informaticiens racistes ? Pas vraiment, mais on ne sait pas écrire un algorithme qui prédise les récidives - la question est trop complexe. Alors on utilise un algorithme d'apprentissage automatique. On lui apprend le travail à réaliser en l'entraînant sur un grand volume de données de décisions de juges, à imiter des humains. Ce sont ces décisions, qui présentaient des biais raciaux, que Compas a reproduites. Il faut avoir conscience des problèmes que l'utilisation de programmes informatiques peut soulever, vérifier ces programmes et les données qui sont utilisées pour les « entraîner », surveiller leurs résultats.

Notre exemple nous a permis d'insister sur un aspect essentiel de la responsabilité : l'absence de biais, l'équité. La transparence en est un autre. Nous pouvons, par exemple, nous inquiéter de ce que Facebook fait de nos données personnelles dans une relative opacité. Nous pourrions aussi parler de la loyauté : faut-il accepter un service qui propose des restaurants en disant ne tenir compte que des avis de consommateurs et qui remonte en réalité dans sa liste de résultats les commerçants qui paient pour ça ? La responsabilité sociétale des algorithmes a nombre de facettes.

Les algorithmes peuvent nous permettre d'améliorer nos vies. Il faut corriger leurs défauts, combattre leurs biais inacceptables. Il peut s'avérer difficile de vérifier, d'expliquer leurs choix, s'ils proviennent de statistiques mettant en jeu des milliards d'opérations ou s'ils se basent sur des motifs complexes découverts par des algorithmes d'apprentissage. Pourtant, notre incompétence ne peut pas servir de justification pour autoriser le viol de principes moraux. Quand les effets des décisions sont sérieux, comme garder une personne incarcérée, sans doute vaut-il mieux attendre d'être certain du fonctionnement de l'algorithme, exiger qu'il explique ses choix et, bien sûr, faut-il pouvoir les contester.

Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°531 • Janvier 2018

ChroniqueLaRecherche 

Le bot qui murmurait à l'oreille de la vieille dame




ça y est, le livre est publié par Le Pommier (octobre 2018)
disponible dans toutes les bonnes librairies
et bientôt en version électronique

La page du livre sur Le slow blog