samedi 19 janvier 2019

Le bot est dans le monde

Le Monde des Sciences, Science-fiction sauce numérique, David Larrousserie, janvier 2019
 

The Digital Shoebox

L'article a été publié dans un livre, Memory, édité par  Philippe Tortel, Mark Turin et Margot Young.

Un extrait a été publié par le National Post, un journal national canadien.
L'article est disponible en libre accès sur Hal.


lundi 7 janvier 2019

Bases de données relationnelles : apprendre pour utiliser

Réalisé avec Philippe Rigaux

Ce Mooc fait partie d'une mini-série de deux cours, Bador 1 et Bador 2


Bador 1 est déjà ouvert aux inscriptions et la date d'ouverture est fixée au premier d'avril.

Il s’adresse à toute personne amenée à concevoir et mettre en œuvre une base de données.


Il présente les principes essentiels des bases des données relationnelles: les différents niveaux d’abstraction; la notion de modèle, de langage de requêtes; les transactions. L’importance de ces principes est soulignée pour expliquer la relative facilité de mise en œuvre d’une base de données malgré la complexité des concepts mis en œuvre.
Cette présentation des aspects fondamentaux est essentielle selon nous pour saisir de manière approfondie ce qui fait la spécificité des bases de données et explique l’immense succès qu’elles rencontrent depuis 50 ans.

Le MOOC la complète, bien entendu, par la mise en pratique avec les principaux outils et méthodes: conception, création d’une base de données, langage SQL, et introduction à la réalisation d’applications avec SQL.

Ce MOOC se déroule sur 6 semaines.



mercredi 2 janvier 2019

Les limites du droit à l'oubli

Dans la chronique « La boîte à chaussures, dépositaire de notre mémoire », nous avions discuté du besoin d'oublier pour ne pas être submergés par un flot de données. Nous considérons aujourd'hui la nécessité d'oublier telle que formulée par le « droit à l'oubli », affirmé en particulier par l'Union européenne : une personne peut exiger qu'une information, par exemple une photo où on la voit fumer une substance illicite, soit effacée d'un système informatique.

« Oublie-moi ! » C'est un ordre auquel j'ai parfois du mal à me soumettre. Pire, le simple fait de me demander d'oublier quelqu'un le rappelle encore plus à mon souvenir. Sur Internet, on parle dans ce cas d'« effet Streisand », en référence à ce qui s'est passé en 2003. La chanteuse américaine Barbra Streisand a voulu faire interdire la diffusion, sur un site web, d'une photo aérienne de son domaine. Cette demande a encouragé plusieurs centaines de milliers de personnes à consulter le cliché sur le site le mois suivant.

L'évolution d'Homo sapiens n'a pas jugé bon d'y inclure un algorithme d'effacement de la mémoire. Seul le temps favorise l'oubli. Si nous effaçons aussi des souvenirs - parce qu'ils sont trop durs, parce que nous en avons honte -, c'est inconsciemment, en évitant d'y penser. Nous ne disposons pas de code dans notre cerveau pour passer en revue nos milliards de neurones et en effacer une information spécifique. Les systèmes informatiques sont confrontés à la même question avec le droit à l'oubli. La première réaction des ingénieurs est : « Ça ne va pas être possible ! » Pour l'une de vos photos, des copies ont pu être faites par certains de vos amis, des amis d'amis... D'autres existent sur Internet dans des mémoires caches ou se trouvent dans des sauvegardes. Pour être clair, le système ne sait pas toujours où sont les copies et on préfère, autant que possible, éviter de modifier les sauvegardes qui en contiennent certainement.

En 2011, un étudiant autrichien en droit, Max Schrems, a demandé à Facebook une copie de toutes ses données personnelles (un fichier de plus de 1 200 pages). Il y a découvert des informations qu'il avait pourtant effacées. Une série de plaintes qu'il a déposées ont finalement conduit la Cour de justice de l'Union européenne à invalider l'accord « Safe Harbor » sur l'utilisation, par les entreprises américaines, de données d'utilisateurs européens.

Les lignes bougent. Le droit à l'effacement s'installe en Europe et cela pose des problèmes aux entreprises. Oublier une information dans un système informatique complexe, comme forcer un individu à oublier une information, c'est mission impossible. Pourtant, c'est devenu la règle !
Il existe plusieurs niveaux de réponses. Le premier est utilisé sur Internet : le déréférencement. Plutôt que d'interdire une page, on va demander au moteur de recherche d'arrêter de la faire apparaître dans les résultats de recherche. Étrange pouvoir judiciaire des ingénieurs, qui dit beaucoup du Web : si une information n'est plus référencée, c'est un peu comme si elle n'existait plus. À un deuxième niveau de réponse, le système « fait de son mieux » en effaçant les copies de l'information dont il a connaissance. Mais elle reste peut-être dormante, dissimulée. Un bug informatique, un piratage, peut la faire ressurgir.

Le dernier niveau est le droit à l'oubli « par construction ». L'idée est de tenir compte de ce sujet dès la conception du système informatique. Typiquement, pour qu'un tel système fonctionne, le moindre bout d'information doit inclure sa provenance. Ces systèmes peuvent se servir des mêmes techniques de traçabilité que celles qui sont utilisées dans l'industrie alimentaire pour savoir, par exemple, ce qu'ont mangé les vaches dont vient le lait d'un yaourt particulier.

Pour conclure, le droit à l'oubli peut être garanti, mais il a des limites ; il peut entrer en conflit avec d'autres droits, comme celui à l'information ou la liberté d'expression. On imagine mal, même si elle avait vécu assez longtemps pour cela, Charlotte Corday demandant, au nom du droit à l'oubli, la destruction du tableau de Jacques-Louis David, La Mort de Marat, ou surtout de celui de Paul Baudry, Assassinat de Marat, où sa meurtrière est représentée.

Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°535 • Mai 2018

Bonne année


mardi 20 novembre 2018

Le prix du numérique


Nous nous sommes également habitués à des services gratuits sur Internet, que ce soient des moteurs de recherche, comme Google ou Qwant, des réseaux sociaux, par exemple Facebook, ou des services de musique, tel Deezer. Accessibles quel que soit le niveau de revenu de l'utilisateur, ces services géniaux sont principalement financés par la publicité ou éventuellement par des abonnements. Leurs coûts d'exploitation sont modestes, du fait de la baisse des prix des ordinateurs et du relativement faible nombre d'employés. En avril 2013, l'application de messagerie instantanée WhatsApp comptabilisait 200 millions d'utilisateurs dans le monde, avec seulement 50 employés. Le logiciel d'un service du Web peut, lui, être reproduit à l'infini à un coût nul. C'est un bien non rival - que j'utilise WhatsApp n'empêche personne de faire de même. Reste à construire des fermes de serveurs pour accueillir les données, mais elles sont mutualisées entre tous les utilisateurs. Pour Facebook, en 2011, le coût d'exploitation n'était que d'environ 1 dollar par utilisateur mensuel actif. Chaque utilisateur supplémentaire apporte plus de profit et, effet réseau oblige, accroît l'attractivité du service. Avec la publicité, les géants d'Internet sont assis sur des mines d'or.

Dans ce contexte, il faut citer le cas des logiciels libres ou ouverts. Mis à disposition de tous, ils deviennent en quelque sorte des « biens communs ». Ce modèle se développe réellement : les serveurs du Web sont souvent des logiciels ouverts, comme nombre d'outils de programmation utilisés en apprentissage automatique.

Malgré tout, n'allez surtout pas expliquer aux cadres d'une grande banque que l'informatique ne coûte rien (j'ai essayé). Vous les verrez grimper au rideau : « On voit bien que ce n'est pas vous qui payez les machines et les salaires des informaticiens. » Mesdames et messieurs qui dirigez de grandes entreprises, relativisez ! Si des ordinateurs font une part importante du travail, - disons 80 %, pour 20 % des coûts -, ce n'est pas cher, même si cela représente une grosse somme d'argent.
Vous pouvez néanmoins poser la question de savoir pourquoi ce coût. Une première explication tient aux exigences de qualité. Quand un service de votre téléphone dysfonctionne, c'est souvent embêtant, mais acceptable. Quand, dans une transaction bancaire, le bénéficiaire est crédité, mais que le logiciel oublie de débiter le payeur, ça l'est moins. Les entreprises exigent, à juste titre, un haut niveau de sûreté et de sécurité de fonctionnement. La résilience aux pannes (sûreté) et aux attaques (sécurité) se paie. Une autre explication vient de la complexité des grandes entreprises. De fait, chacune est unique. Ainsi, une grande banque exige la conception, le développement, le déploiement, la maintenance de logiciels complexes « sur mesure » de grande qualité. Comme tout cela est unique, pas question de mutualiser les coûts. La combinaison « qualité et sur-mesure », cela ne vous rappelle pas la haute couture ? Quand le directeur des systèmes d'information vous présentera une note un peu salée, pensez que vous vous offrez du Dior ou du Chanel...
 
Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°534 • Avril 2018

ChroniqueLaRecherche

lundi 5 novembre 2018

La boîte à chaussures, dépositaire de notre mémoire

Comment notre patrimoine littéraire a-t-il traversé les siècles ? Le contenu d'un livre - une suite de caractères (oubliant pour simplifier les enluminures, la texture, l'odeur du papier...) - est imprimé sur des supports conservés dans des bibliothèques. Une copie peut « disparaître », une bibliothèque être inondée, un tyran décider de faire brûler toutes les copies d'un ouvrage dans un espace géographique particulier... tant qu'une seule copie subsiste, le livre est sauvé ; on peut le répliquer. C'est ce seul coût de réplication qui limite. Si nous perdons le contenu d'un livre, ce ne peut être que par négligence, par absence d'intérêt. Au contraire, une information numérique - un livre, une image, une vidéo... - peut être stockée et reproduite massivement à coût presque nul. Elle peut être dispersée dans l'espace pour la préserver du feu, de l'eau, des tyrans... Alors pourquoi semble-t-il si difficile de sauvegarder notre mémoire numérique ?
D'abord, les formats évoluent. Par exemple, nous avons des vidéos des premiers jours de nos enfants en VHS et nous ne pouvons plus les visionner. Les solutions existent pourtant, comme celle d'utiliser un programme qui transforme un ancien format en un plus récent pour lequel nous avons un lecteur. Un autre problème est que les supports standards actuels d'information ont des durées de vie relativement courtes (de quelques années à quelques dizaines d'années), typiquement moins que les tablettes sumériennes ou le papier. Pour surmonter cette difficulté, c'est simple, il suffit de répliquer régulièrement l'information sur de nouveaux supports afin de garantir en permanence l'existence d'au moins une copie complète - tout cela demande des efforts. Si elle n'est pas totalement gratuite, la préservation d'une information numérique est néanmoins possible et bien moins onéreuse que celle de son analogue physique.
Où se situe donc vraiment le problème ? Dans le déluge de données qui nous force à choisir ce que nous voulons préserver : il nous est impossible de tout garder. On dit que si on vidait tous les disques de la planète, tous les supports d'information le 31 décembre et que l'on commençait à les reremplir le jour suivant sans plus rien effacer, on n'aurait plus de place disponible avant la fin de l'année. L'hypermnésie n'est pas une option pour l'humanité. Elle ne l'est pas davantage pour chacun d'entre nous, parce que nous finirions par nous noyer dans un océan de données. Il nous faut choisir... et la tâche est laborieuse.

Hier, nous triions. Nous avions peut-être une boîte à chaussures où nous rangions nos photos les plus précieuses. Les plus organisés faisaient des albums. Aujourd'hui, où sont nos clichés ? Quelque part sur un compte Instagram ou Facebook, sur notre téléphone, sur un ordinateur, sur un disque externe... Les matériels s'abîment, se font voler, pirater. Le cloud nous aide en nous évitant une dépendance à des matériels spécifiques, mais nous nous y perdons aussi lorsque nous en avons plusieurs. Et un fournisseur peut décider qu'il n'archivera pas nos données au-delà de quelques années, sans que nous en ayons vraiment conscience. Nous changeons d'ordinateur, fermons un compte, le temps passe... et nous perdons des pans entiers de notre mémoire.

Que pouvons-nous y faire ? Rangeons dans une boîte à chaussures numérique ce à quoi nous tenons - nos photos numériques préférées, mais aussi les films, les textes, les livres... auxquels nous sommes attachés. Le coût : payer un prestataire de services pour garantir sa persistance, ou garder plusieurs copies de cette boîte et vérifier de temps en temps qu'un nombre suffisant d'entre elles sont fonctionnelles. Mais, surtout, il nous faut choisir ce que nous conservons. Les entreprises, les gouvernements, les archivistes de tous bords sont confrontés aux mêmes problèmes. La vraie difficulté, pour nous comme pour eux, est bien celle du choix de ce que nous voulons préserver. À terme, avec l'explosion du volume des données, nous n'avons pas le début d'une chance de nous en sortir sans l'appui des algorithmes. Le salut viendra d'assistants numériques qui se chargeront de préserver notre mémoire. En attendant, contentons-nous de gérer nos boîtes à chaussures numériques à la sueur de nos neurones.

Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°532 • Février 2018

ChroniqueLaRecherche

Académie, APL, IHEJ, Education au numérique @ Beyrouth

13 octobre, Speed Sciences @ Académie des sciences

18 octobre, présentation pour l'inauguration des nouveaux locaux d'APL

22 octobre, présentation à l'Institut des Hautes Études pour la Justice

2 novembre, présentation au symposium "Innovating technologies and their impacton eduction and the needed skills for future jobs in Mena region, Beirouth

mardi 23 octobre 2018

Internet : neutre mais pas trop ?

Titre : Internet : neutre mais pas trop ?
Intervenants : Serge Abiteboul - Benjamin Bayart - Mathilde Morineaux - Sébastien Soriano - Céline Loozen - Nicolas Martin
Lieu : Émission La méthode scientifique - France Culture
Date : septembre 2018
Durée : 58 min
Écouter sur le site de l'émission ou écouter le podcast

Retranscription verbatim par april

mardi 16 octobre 2018

Un robot dans la robe des juges

Les algorithmes exécutés par des ordinateurs sont entrés dans nos vies : ils nous conseillent des films, nous proposent des chemins pour nous rendre à notre prochain rendez-vous... Bientôt, ils conduiront nos voitures ou nous permettront de rester chez nous dans notre quatrième âge. En prenant autant d'importance, ils soulèvent des questionnements, des inquiétudes. Prenons un exemple frappant dans un domaine régalien, la justice. Aux États-Unis, le logiciel Compas assiste les juges pour décider de libérations conditionnelles, en évaluant le risque de possibles récidives - la décision de remise en liberté est strictement liée à la probabilité de récidive. L'algorithme assiste, mais ne décide pas. Oui, mais un juge aura-t-il le courage, ou la légèreté, de remettre un condamné en liberté contre l'avis du logiciel si l'on peut prouver que l'algorithme fait statistiquement de meilleures prédictions que les juges ?

La question est philosophique : y a-t-il des tâches de telles natures que les confier à des machines nous ferait perdre une part de notre humanité, des tâches qu'il faut leur interdire même si elles les réalisent mieux que nous ? Nous ne répondrons pas à cette question, mais relativisons son importance aujourd'hui. Si les algorithmes deviennent de plus en plus intelligents, ils sont loin de pouvoir, par exemple, remplacer les juges dans des cas encore plus complexes que celui de la libération conditionnelle aux États-Unis. Quand des algorithmes participent à la vie de la cité se pose également la question de leur responsabilité. Revenons sur le logiciel Compas. Il présente sur un juge l'avantage d'une certaine cohérence. Il a été montré notamment que les décisions des juges sont dépendantes de l'heure ; il vaut mieux passer après le repas qu'avant. Et celles des cours de justice, par exemple aux prud'hommes, varient énormément d'une chambre à une autre. Pas de cela avec les algorithmes ! Ils peuvent garantir une certaine cohérence.

Nous pourrions également espérer qu'ils soient plus « justes », qu'ils ne discriminent pas suivant les origines ethniques, le genre... Pourtant, des journalistes ont évalué les prédictions de Compas et découvert qu'il surestimait largement les risques de récidives des condamnés noirs. Des informaticiens racistes ? Pas vraiment, mais on ne sait pas écrire un algorithme qui prédise les récidives - la question est trop complexe. Alors on utilise un algorithme d'apprentissage automatique. On lui apprend le travail à réaliser en l'entraînant sur un grand volume de données de décisions de juges, à imiter des humains. Ce sont ces décisions, qui présentaient des biais raciaux, que Compas a reproduites. Il faut avoir conscience des problèmes que l'utilisation de programmes informatiques peut soulever, vérifier ces programmes et les données qui sont utilisées pour les « entraîner », surveiller leurs résultats.

Notre exemple nous a permis d'insister sur un aspect essentiel de la responsabilité : l'absence de biais, l'équité. La transparence en est un autre. Nous pouvons, par exemple, nous inquiéter de ce que Facebook fait de nos données personnelles dans une relative opacité. Nous pourrions aussi parler de la loyauté : faut-il accepter un service qui propose des restaurants en disant ne tenir compte que des avis de consommateurs et qui remonte en réalité dans sa liste de résultats les commerçants qui paient pour ça ? La responsabilité sociétale des algorithmes a nombre de facettes.

Les algorithmes peuvent nous permettre d'améliorer nos vies. Il faut corriger leurs défauts, combattre leurs biais inacceptables. Il peut s'avérer difficile de vérifier, d'expliquer leurs choix, s'ils proviennent de statistiques mettant en jeu des milliards d'opérations ou s'ils se basent sur des motifs complexes découverts par des algorithmes d'apprentissage. Pourtant, notre incompétence ne peut pas servir de justification pour autoriser le viol de principes moraux. Quand les effets des décisions sont sérieux, comme garder une personne incarcérée, sans doute vaut-il mieux attendre d'être certain du fonctionnement de l'algorithme, exiger qu'il explique ses choix et, bien sûr, faut-il pouvoir les contester.

Serge Abiteboul, Inria et ENS, Paris

Cet article est paru dans Le magazine La Recherche, N°531 • Janvier 2018

ChroniqueLaRecherche 

Le bot qui murmurait à l'oreille de la vieille dame




ça y est, le livre est publié par Le Pommier (octobre 2018)
disponible dans toutes les bonnes librairies
et bientôt en version électronique

La page du livre sur Le slow blog

La Poste, L'Oréal, Filfocs et Theconversation

9 octobre : IA @ La Poste, panel sur Données et IA

8 octobre : Prix L'Oréal-UNESCO Pour les Femmes et la Science, participation au jury et à la remise du prix

4 octobre : 7th French-Israeli Workshop on Foundations of Computer Science, présentation : Explanations and Transparency in Collaborative Workflows

2 octobre : soirée anniversaire de theconversation.fr

mercredi 5 septembre 2018

Internet : neutre mais pas trop ? sur France Q

Participation à La Méthode scientifique par Nicolas Martin, sur France Culture, 5 septembre 2018

Le podcast 

avec Benjamin Bayart, président de l’association Fonds de Défense de la Neutralité du Net, et co-fondateur de la Quadrature du Net.


Le titre du jour : Get off the Internet par Le Tigre

Micro 18 @ Neuchâtel, Suisse

keynote : Terra Data

1 septembre 2018 à Neuchâtel

mercredi 1 août 2018

Ils encouragent l'inculture du numérique


En juillet 2018, l’Assemblée Nationale a voté un article de loi qui « interdit, sauf disposition dérogatoire au règlement intérieur, l’usage des téléphones mobiles et autres moyens de communications dans les écoles et collèges de France ». On croit rêver ! Le problème en France tient, à mon avis, bien moins en une prétendue trop grande exposition au numérique des jeunes que dans la sous-exposition d’une part massive de la population, y compris ces mêmes jeunes. Le vrai sujet en France est l’éducation et la formation de tous à l’informatique et au numérique, à commencer par les millions de gosses qui en auraient besoin. 

mardi 10 juillet 2018

Pourquoi Internet doit rester neutre

Dans Libé et le Journal du CNRS : https://lejournal.cnrs.fr/billets/pourquoi-internet-doit-rester-neutre


 

En anglais : 
https://news.cnrs.fr/opinions/why-the-internet-must-remain-neutral

et dans une chronique du Monde (que pour les abonnés)


Assistants vocaux : « Nous ne pouvons confier nos vies à des machines »

Assistants vocaux : « Nous ne pouvons confier nos vies à des machines »

LE MONDE ECONOMIE | 26 juin 2018
Les logiciels dont nous disposons exigent, pour fonctionner, des volumes massifs de conversations, et donc de données personnelles, en particulier pour offrir des services personnalisés. ...Dans des pays totalitaires, cela représente des risques pour les citoyens, explique dans sa chronique...
« Exigeons que les informations publiées soient accompagnées de métadonnées »

« Exigeons que les informations publiées soient accompagnées de métadonnées »

LE MONDE | 3 avril 2018
Dans cette chronique, le chercheur en informatique Serge Abitboul, déplorant la viralité des « bobards » sur la Toile, milite pour que soit attaché à chaque information circulant sur le Web une origine....Transformations. Régulièrement, dans le monde du numérique, un nouveau terme s’impose, qui n’a...

mardi 3 juillet 2018

Congrés de philosophie des sciences à Nantes, et autres


4 juillet : Le temps des algorithmes, avec Gilles Dowek, RDV de midi DGESIP/DGRI, Ministère de l'Enseignement Supérieur et de la Recherche

4 juillet : Éducation et informatique, Apéro Tip Top CGénial, au lycée Chaptal, Paris

6 juillet : Les sciences questionnées par le numérique, 7ème Congrès de la Société de Philosophie des Sciences, Nantes

9 juillet : Reporters sans frontières

vendredi 29 juin 2018

Le bot qui murmurait à l'oreille de la vieille dame et autres nouvelles numériques

Annonce dans Livre Hebdo n° 1189 de juin 2018 de la parution en octobre de ce nouveau texte, un recueil de nouvelles de science-fiction :