Laurent SALTERS pour La banque des savoirs
m'a demandé une réaction à L'ordinateur a de la mémoire mais aucun souvenir.
La voici, la voilà.
Ordinateur, mon pote. T’as zéro mémoire. Si je coupe ton courant, ta
mémoire va se décomposer. T’auras tout oublié. Ta mémoire, c’est une
passoire. Et je suis assez bête pour te confier mes souvenirs les plus
précieux ! Tu ranges ça au fond de ton disque. A tout hasard Balthazar,
tu planques ça quelque part dans les nuages. Déconne-pas ! Ta mémoire,
ce sont mes souvenirs, pas les tiens. Car passent les jours et
passent les semaines. Les photos s’effacent, les chansons
s’évanouissent, les courriels se fanent. Mes souvenirs se perdent au
bout de la nuit. J’ai tout oublié. Mais pas toi ! Quel bazar, t’as tout
phagocyté ! Mes souvenirs sont devenus les tiens, même ceux que j’aurais
préféré effacer. Ordinateur, mon pote. T’as trop de souvenirs pour me
laisser mourir tranquille.
Voir Questions de sciences
dimanche 30 décembre 2012
dimanche 9 décembre 2012
Enseignement de l'informatique en prépa - suite
La situation de cet enseignement est désolante.
Une proposition de programme allant dans le bon sens est en consultation jusqu'au 15 décembre sur le site du ministère. Les "grands papas ronchons" de Michel Serres sont à la manœuvre contre ce programme, ce qui serait tout à fait au détriment des petites poucettes de prépa et de leurs potes. Soyez nombreux à soutenir le programme existant à consultation.
La position de la Société Informatique de France
Objet : Sur l’enseignement de l’Informatique et des Sciences du Numérique dans les programmes rénovés des CPGE scientifiques
L'acquisition de bases en science informatique est indispensable à tout ingénieur d'aujourd'hui.
La Société Informatique de France (SIF) constate donc avec satisfaction que les nouveaux programmes des CPGE scientifiques accordent une place réelle à l'Informatique et aux Sciences du Numérique, et donnent ainsi aux étudiants qui vont les suivre, les clés pour appréhender la société du XXIème siècle.
La SIF salue également les efforts et l'esprit de dialogue qui ont permis l'élaboration des nouveaux programmes en CPGE.
La SIF estime néanmoins nécessaire que les volumes horaires soient plus importants (par exemple, 1 heure de plus par semaine) et que, dans un futur proche, tous les enseignants en charge des modules d'informatique en CPGE aient des compétences disciplinaires attestées dans le cadre de leur formation initiale.
Le 3 décembre 2012
Le Conseil d’Administration de la Société Informatique de France
Le Conseil Scientifique de la Société Informatique de France
Une proposition de programme allant dans le bon sens est en consultation jusqu'au 15 décembre sur le site du ministère. Les "grands papas ronchons" de Michel Serres sont à la manœuvre contre ce programme, ce qui serait tout à fait au détriment des petites poucettes de prépa et de leurs potes. Soyez nombreux à soutenir le programme existant à consultation.
La position de la Société Informatique de France
Objet : Sur l’enseignement de l’Informatique et des Sciences du Numérique dans les programmes rénovés des CPGE scientifiques
L'acquisition de bases en science informatique est indispensable à tout ingénieur d'aujourd'hui.
La Société Informatique de France (SIF) constate donc avec satisfaction que les nouveaux programmes des CPGE scientifiques accordent une place réelle à l'Informatique et aux Sciences du Numérique, et donnent ainsi aux étudiants qui vont les suivre, les clés pour appréhender la société du XXIème siècle.
La SIF salue également les efforts et l'esprit de dialogue qui ont permis l'élaboration des nouveaux programmes en CPGE.
La SIF estime néanmoins nécessaire que les volumes horaires soient plus importants (par exemple, 1 heure de plus par semaine) et que, dans un futur proche, tous les enseignants en charge des modules d'informatique en CPGE aient des compétences disciplinaires attestées dans le cadre de leur formation initiale.
Le 3 décembre 2012
Le Conseil d’Administration de la Société Informatique de France
Le Conseil Scientifique de la Société Informatique de France
dimanche 25 novembre 2012
Tout est pas mirifique dans le numérique
Je me reproche parfois - boulot oblige - d'avoir tendance à oublier un peu trop le coté obscure des nouvelles technologies. Un buzz sur Internet vient de me rappeler que tout n'est pas angélique dans le numérique.
Ca se passe en Arabie Saoudite. On savait que les femmes devaient pour quitter le pays avoir l'autorisation de leur "tuteur mâle". Yuk ! Maintenant elles peuvent être surveillées électroniquement et leur tuteur reçoit un SMS quand elles sortent du pays... Beurk ! Yuk !
Lire http://www.rawstory.com/rs/2012/11/22/saudi-arabia-implements-electronic-tracking-system-for-women/
PS: On se rassure en se disant que si l'informatique est une composante centrale du numérique, elle n'en est qu'une composante. Au moins on partage la responsabilité avec d'autres.
Ca se passe en Arabie Saoudite. On savait que les femmes devaient pour quitter le pays avoir l'autorisation de leur "tuteur mâle". Yuk ! Maintenant elles peuvent être surveillées électroniquement et leur tuteur reçoit un SMS quand elles sortent du pays... Beurk ! Yuk !
Lire http://www.rawstory.com/rs/2012/11/22/saudi-arabia-implements-electronic-tracking-system-for-women/
PS: On se rassure en se disant que si l'informatique est une composante centrale du numérique, elle n'en est qu'une composante. Au moins on partage la responsabilité avec d'autres.
vendredi 23 novembre 2012
La littérature peut-elle raconter la science ?
Je ne crois pas qu'on ait résolu le problème, mais en tous cas, on en a causé...
France Culture, Science publique, de Michel Alberganti
Ecouter: http://www.franceculture.fr/player/reecouter?play=4535323
Invités:
Serge Abiteboul, Directeur de Recherche à INRIA, l'institut de recherche en informatique et automatique, membre de l'académie des sciences.
François Bon, écrivain, auteur de théâtre, organisateur d’atelier d’écriture en résidence d’écrivain sur le plateau de Saclay d’avril à décembre 2012
Jean-Michel Frodon, journaliste, longtemps au Monde et aujourd’hui sur Slate.fr, critique de cinéma, professeur associé à Sciences-Po Paris, Coorganisateur des Artssciencefactory Day jusqu'au 29 novembre à Palaiseau.
Valérie Masson Delmotte, paléoclimatologue au Laboratoire des sciences du climat et de l’environnement du CEA et membre du GIEC.
France Culture, Science publique, de Michel Alberganti
Ecouter: http://www.franceculture.fr/player/reecouter?play=4535323
Invités:
Serge Abiteboul, Directeur de Recherche à INRIA, l'institut de recherche en informatique et automatique, membre de l'académie des sciences.
François Bon, écrivain, auteur de théâtre, organisateur d’atelier d’écriture en résidence d’écrivain sur le plateau de Saclay d’avril à décembre 2012
Jean-Michel Frodon, journaliste, longtemps au Monde et aujourd’hui sur Slate.fr, critique de cinéma, professeur associé à Sciences-Po Paris, Coorganisateur des Artssciencefactory Day jusqu'au 29 novembre à Palaiseau.
Valérie Masson Delmotte, paléoclimatologue au Laboratoire des sciences du climat et de l’environnement du CEA et membre du GIEC.
mardi 6 novembre 2012
Feit, Thompson et Gonthier
Le théorème de Feit-Thomson qui traite de la classification des groupes finis simples a été démontré par Walter Feit et John Griggs Thompson in 1963. Il dit (ne me demandez pas de détail) que chaque groupe fini d'ordre impair est résoluble. Georges Gonthier et son équipe du labo INRIA-Microsoft ont achevé en
Septembre sa preuve formelle en utilisant le système Coq
développé à l'INRIA. Bravo!
Polémique hier au café au LSV:
Développer une preuve mathématique est quelque chose de purement artisanal, souvent impliquant seulement un crayon et une feuille de papier. On peut imaginer l'arrivée d'outils qui aideront les mathématiciens en vérifiant leurs hypothèses, en proposant des pistes, en développant des preuves formelles. Le mathématicien serait libéré de la partie fastidieuse des démonstrations. On sort de l'artisanat.
Développer une preuve mathématique est quelque chose de purement individuel (le plus souvent). On peut imaginer des collaborations entre des groupes de mathématiciens autour d'outils informatiques qui leurs permettraient d'additionner leurs talents, leurs efforts.
Bien sûr, tout ce que je dis s'applique aussi aux preuves de programme. C'est finalement un peu la même chose.
Il est énormément plus complexe de découvrir une preuve que de la vérifier. Les ordinateurs font mieux que nous dans la vérification. J'ose le sacrilège. Seront-ils un jour meilleurs que nos meilleurs mathématiciens pour démontrer des théorèmes? Et il nous resterait quoi? Peiner à comprendre leurs preuves? Proposer des théorèmes?
Polémique hier au café au LSV:
- C'est un truc techniquement super mais les mathématiciens s'en foutent.
- Ils s'en foutent peut-être mais cela va changer profondément les mathématiques.
- Pas le moins du monde...
Développer une preuve mathématique est quelque chose de purement artisanal, souvent impliquant seulement un crayon et une feuille de papier. On peut imaginer l'arrivée d'outils qui aideront les mathématiciens en vérifiant leurs hypothèses, en proposant des pistes, en développant des preuves formelles. Le mathématicien serait libéré de la partie fastidieuse des démonstrations. On sort de l'artisanat.
Développer une preuve mathématique est quelque chose de purement individuel (le plus souvent). On peut imaginer des collaborations entre des groupes de mathématiciens autour d'outils informatiques qui leurs permettraient d'additionner leurs talents, leurs efforts.
Bien sûr, tout ce que je dis s'applique aussi aux preuves de programme. C'est finalement un peu la même chose.
Il est énormément plus complexe de découvrir une preuve que de la vérifier. Les ordinateurs font mieux que nous dans la vérification. J'ose le sacrilège. Seront-ils un jour meilleurs que nos meilleurs mathématiciens pour démontrer des théorèmes? Et il nous resterait quoi? Peiner à comprendre leurs preuves? Proposer des théorèmes?
jeudi 25 octobre 2012
OGM et académies: J'y suis pour rien
On m'a demandé si j'avais quelque chose à voir dans la prise de position de l'académie sur les travaux de Gilles-Eric Séralini sur l'OGM NK603.
NON!!! Je ne connais rien à ce domaine mais si je devais avoir un avis, je soutiendrais Séralini.
On ne peut que s'étonner de cette prise de position précipitée de l'académie.
Voir par exemple un article du nouvel obs.
NON!!! Je ne connais rien à ce domaine mais si je devais avoir un avis, je soutiendrais Séralini.
On ne peut que s'étonner de cette prise de position précipitée de l'académie.
Voir par exemple un article du nouvel obs.
mercredi 3 octobre 2012
Enseignement de l'informatique en prépas
Un article dans 01.net sur un sujet important: l'enseignement de
l'informatique en classes prépas.
mardi 2 octobre 2012
Enseignement de l'informatique
La Société d'Informatique de France (la SIF) est co-auteur et
co-promotrice d'une lettre de soutien pour le développement de l'informatique en France,
signée par un grand nombre d'établissements d'enseignement supérieur
et/ou de recherche en Informatique en France.
Merci de diffuser cette lettre le plus largement possible. C'est notamment important en ce moment où se discute l'enseignement de l'informatique en prépa. Les classes préparatoires sont souvent en retard sur les facs dans ce domaine. C'est le moment de passer devant!!!
Merci de diffuser cette lettre le plus largement possible. C'est notamment important en ce moment où se discute l'enseignement de l'informatique en prépa. Les classes préparatoires sont souvent en retard sur les facs dans ce domaine. C'est le moment de passer devant!!!
samedi 29 septembre 2012
Les désarrois de la recherche publique en France
Réaction après une lecture très
rapide du rapport sur la recherche publique en France de l'Académie des sciences: http://www.academie-sciences.fr/activite/rapport/rads0912.pdf
Simplifier. Le rapport est plutôt intéressant. Excellent départ avec comme première recommandation : « simplifier la gestion et les structures de la recherche publique ». Malheureusement, ce n’est pas le premier comité à proposer de simplifier les structures. J’ai participé récemment à un comité qui a proposé la fusion d’INRIA et du département informatique du CNRS. Il ne s’est rien passé. Les structures des labos d’info restent toujours aussi illisibles avec les deux instituts, les universités, les écoles d’ingénieurs, l’institut des télécoms et le reste. Et pour clarifier on a ajouté les labex, idex, et autres bidules annexes. Erk ! Big Erk !
AERES. Ne tirez plus sur l’ambulance. L’AERES est la dernière victime expiatoire. Pourtant, l’idée d’une structure un peu indépendante pour évaluer n’avait rien de sot, plutôt que de faire ça à l’arrache sur un coin de tables entre copains des ministères. Le problème ce n’est pas l’AERES, c’est sa réalisation. Il fallait ériger en dogmes : l’éthique, la légèreté et la simplicité. Prenons INRIA. Nous avions une évaluation plutôt bien faite (qui s’alourdit en parfait accord avec le Théorème (français) de la Dérive Bureaucratique). L’AERES a rajouté une deuxième évaluation alors qu’il lui aurait suffi de s’approprier l’évaluation existante, de la simplifier, de l’alléger et pas le contraire. Les évaluations à répétition de nos structures sont ubuesques. Elles seraient juste risibles sans la dictature de la note qui condamne à disparaître si on n’est pas dans une structure à A+.
Salaires jeunes chercheurs. Le rapport insiste sur un point important : « la revalorisation des rémunérations des jeunes chercheurs … dans les dix, douze premières années de leurs carrières. » Tout à fait Thierry. Moi j’aurais dit enseignant-chercheurs.
On reste quand même sur sa faim. J’aurais aimé qu’on parle de la séparation entre deux classes, chercheurs et enseignants-chercheurs, qui rigidifie notre environnement et qui, en tout cas en informatique, a peu de sens. Et puis, comme beaucoup, j’avoue ne pas trop comprendre les idex et autres machinex, à ne pas être convaincu que ça améliore les choses, que les euros sont bien utilisés. Le rapport n’a pas répondu à mes questions.
Simplifier. Le rapport est plutôt intéressant. Excellent départ avec comme première recommandation : « simplifier la gestion et les structures de la recherche publique ». Malheureusement, ce n’est pas le premier comité à proposer de simplifier les structures. J’ai participé récemment à un comité qui a proposé la fusion d’INRIA et du département informatique du CNRS. Il ne s’est rien passé. Les structures des labos d’info restent toujours aussi illisibles avec les deux instituts, les universités, les écoles d’ingénieurs, l’institut des télécoms et le reste. Et pour clarifier on a ajouté les labex, idex, et autres bidules annexes. Erk ! Big Erk !
AERES. Ne tirez plus sur l’ambulance. L’AERES est la dernière victime expiatoire. Pourtant, l’idée d’une structure un peu indépendante pour évaluer n’avait rien de sot, plutôt que de faire ça à l’arrache sur un coin de tables entre copains des ministères. Le problème ce n’est pas l’AERES, c’est sa réalisation. Il fallait ériger en dogmes : l’éthique, la légèreté et la simplicité. Prenons INRIA. Nous avions une évaluation plutôt bien faite (qui s’alourdit en parfait accord avec le Théorème (français) de la Dérive Bureaucratique). L’AERES a rajouté une deuxième évaluation alors qu’il lui aurait suffi de s’approprier l’évaluation existante, de la simplifier, de l’alléger et pas le contraire. Les évaluations à répétition de nos structures sont ubuesques. Elles seraient juste risibles sans la dictature de la note qui condamne à disparaître si on n’est pas dans une structure à A+.
Salaires jeunes chercheurs. Le rapport insiste sur un point important : « la revalorisation des rémunérations des jeunes chercheurs … dans les dix, douze premières années de leurs carrières. » Tout à fait Thierry. Moi j’aurais dit enseignant-chercheurs.
On reste quand même sur sa faim. J’aurais aimé qu’on parle de la séparation entre deux classes, chercheurs et enseignants-chercheurs, qui rigidifie notre environnement et qui, en tout cas en informatique, a peu de sens. Et puis, comme beaucoup, j’avoue ne pas trop comprendre les idex et autres machinex, à ne pas être convaincu que ça améliore les choses, que les euros sont bien utilisés. Le rapport n’a pas répondu à mes questions.
jeudi 13 septembre 2012
01Net: Le big data est avant tout un effet de mode
Un article de moi dans 01Net. Interview de Marie Jung.
J'aime bien la photo d'Agathe Caazard:
Il est possible qu’une entreprise commerciale, comme Facebook ou Google, finisse par concentrer toutes les informations personnelles du monde. Nous n’aurons plus alors qu’à lui faire confiance. Ou bien, je l’espère, nos données seront distribuées sur des milliards de systèmes. Une configuration qui permettra à chacun d’en garder la maîtrise ; ce qui n’est pas encore le cas...
J'aime bien la photo d'Agathe Caazard:
Il est possible qu’une entreprise commerciale, comme Facebook ou Google, finisse par concentrer toutes les informations personnelles du monde. Nous n’aurons plus alors qu’à lui faire confiance. Ou bien, je l’espère, nos données seront distribuées sur des milliards de systèmes. Une configuration qui permettra à chacun d’en garder la maîtrise ; ce qui n’est pas encore le cas...
jeudi 6 septembre 2012
Gilles Dowek's Show - A ne pas rater
Il faut absolument écouter l'interview de Gilles à Place de la Toile (France Q) sur l'enseignement de l'informatique (et la nouvelle section en Terminal C).
Son écoute devrait être obligatoire pour tous les membres de l'éduc nat et du gouvernement.
Ecouter jusqu'au bout, la conclusion de Gilles est savoureuse...
PS: il mentionne Janet Wing.
lundi 27 août 2012
Trouvez des idées dans les labos publics !
J'ai commis un article sur ce sujet dans 01Net. Désolé si ça fait un peu donneur de leçons, c'est le genre de la rubrique.
lundi 13 août 2012
Datalog revival (for database geeks only)
In research, sometimes, a new topics rises, blooms, slows down, and
perhaps dies. I have worked many years on two such topics, deductive databases
and object databases. These topics never died but at some points people would
laugh when you would submit a paper on one of them. There was something like
the feeling of being a Dinosaur coming directly from before the Web, i.e. from
the Stone Age.
I was invited last year to give a talk in a Dagstuhl workshop on Relationships,
Objects, Roles, and Queries in Modern Programming Languages. I discovered a new
community interested in object databases. The success of systems such as DB4o
also demonstrates that object databases are back. I am not surprised: this was
a great idea. (Interestingly, I was not attending that workshop but another one on workflow, because of some works on Active XML, a language in the Datalog
spirit.)
Deductive database with Datalog was also a great idea. I am speaking
about this here to answer to a request of a friend (Dave Maier): I'm working with Todd Green on a
contribution to the book for David Warren's symposium, on the history of
Datalog. One of the things we want to address is the reasons behind the
resurgence of Datalog. To set the stage
for that, we probably need to talk about why interest declined in Datalog and
deductive databases after the 1980's.
We're asking around for insight…
What caused the decline of Datalog? What is causing its revival?
Warning: I am not sure I am the right person to ask since I never left
the boat. I have been a constant fan. Ask those who deserted why they stopped
caring about Datalog? Ask the new converts why they discover it now?
I can see 3 reasons:
1.
The
language is a scam.
2.
The lack
of killer applications.
3.
The guru
system guys shied away (because of 1-2?).
Let us elaborate on (1): the scam. This is back to the advantages of
“declarative programming”. The first scam was Prolog: The language is not
really declarative. The second scam was Datalog: It is declarative, but there is not much you
can do with it.
Datalog is simple and beautiful – Horn clauses. We theory guys had a
ball with it. There were beautiful results to obtain even at the cost of
further simplifications (e.g., monadic to be able to decide containment). But
the scam is that if you want to do anything serious beyond your stupid positive
first-order queries, you need more.
There was no fix that I know of for Prolog. There were fixes for
Datalog. Extend the language. And this was done during the last 30 years:
Updates [e.g. SA. and Vianu], Skolem [e.g. Gottlob], Constraints [e.g. Revesz],
Time [e.g. Chomicki], Distribution and Trees [e.g. SA. in ActiveXML],
Aggregations [e.g. Consens, Mendelzon], Delegation [e.g. SA in Webdamlog]. I am
sure I am missing some.
Now we get to (2): the lack of killer apps. The main argument for
Datalog was the computation of transitive closure. This was stupid. Transitive
closure could easily be expressed in supported versions of SQL. The bizarrerie
is that although the language was simplistic, the killer apps had to be
intense. They have to be such that they cannot be easily supported by the good
old relational systems. The jury is still out but we now have candidates:
Declarative networking [e.g. Lou, Hellerstein et al], Data integration [e.g. Clio,
Orchestra], Program verification [e.g. Semmle], Data extraction from HTML [e.g.
Gottlob, Lixto], Knowledge representation [e.g. Gottlob], Business Artifact and
workflows [e.g. SA., ActiveXML], Web data management [e.g. SA., Webdamlog]…
Finally, let us now consider (3): the guru system guys. These guys were
often working or at least consulting for relational vendors. They were rapid at
denigrating ruptures with the good old SQL engines. They did the same for
object databases. It is interesting to see that some of the renewed interest in
Datalog engines comes from the works of Hellerstein. A top system guy, who once
wrote with Stonebraker that Datalog was trash, developing a Datalog system.
This is nothing but Oedipus killing his father and bedding his mother.
Now beyond the true pleasure of fans like me to read the mea culpa of
Hellerstein, it is important to observe that Joe Hellerstein (1) used many
known extensions to the pure Datalog in his systems and (2) promoted his works with
beautiful applications such as networking in the thesis of Boon Tau Loo.
In Webdamlog, we propose for killer apps data management on the Web. In
brief, reasons for that:
1.
The Web is
a graph so recursion is built in: you ask someone, who asks someone who asks
you.
2.
Web users
don’t want to write in a programming language. Declarative languages seem the
right way to go.
But of course, Datalog is too simplistic. This is why I spent years
studying extensions of Datalog for Web data management.
Wouldn’t that be cool if Datalog (properly extended) was the data
language of the Web.
mercredi 1 août 2012
L'informatique, combien de divisions ?
Je n'arrête pas de répéter que l'enseignement de informatique est important et pas seulement pour "faire" des informaticiens mais pour de meilleurs scientifiques, de meilleurs ingénieurs dans toutes les disciplines, de meilleurs citoyens. Une fois n'est pas coutume, je vais aussi insister sur l'importance d'éduquer des informaticiens. Mais bien sûr, c'est pas parce que les ricains le font qu'on doit s'y mettre... Donc cette opinion n'engage que moi...
For the first time in Stanford's history, computer science has become the most popular undergraduate major -- a milestone for a school conceived on a farm but now located in the holy land of technology...
http://www.siliconvalley.com/news/ci_21175486/computer-science-becomes-stanfords-most-popular-major?refresh=no
For the first time in Stanford's history, computer science has become the most popular undergraduate major -- a milestone for a school conceived on a farm but now located in the holy land of technology...
http://www.siliconvalley.com/news/ci_21175486/computer-science-becomes-stanfords-most-popular-major?refresh=no
mardi 3 juillet 2012
jeudi 28 juin 2012
Enseignement de l'informatique - suite
Un excellent article de Jean-Pierre Archambault, Gérard Berry, et Maurice Nivat.
vendredi 22 juin 2012
L'informatique est une science bien trop sérieuse...
Un article du monde.fr cosigné avec
Colin de la Higuera président de la Société informatique de France ;
Gilles Dowek co-auteur du programme de la spécialité informatique et science du numérique en Terminale S.
http://www.lemonde.fr/idees/article/2012/06/22/l-informatique-est-une-science-bien-trop-serieuse-pour-etre-laissee-aux-informaticiens_1722939_3232.html
Colin de la Higuera président de la Société informatique de France ;
Gilles Dowek co-auteur du programme de la spécialité informatique et science du numérique en Terminale S.
http://www.lemonde.fr/idees/article/2012/06/22/l-informatique-est-une-science-bien-trop-serieuse-pour-etre-laissee-aux-informaticiens_1722939_3232.html
jeudi 21 juin 2012
Big Data ou Grosses Données
Quand
j’ai entendu parler pour la première fois de "Le Big Data" et de
"La Data", j'ai haussé les épaules. D’abord, data c’est pluriel. C’est vrai que les
« grosses données », c’est moins glamour. Mais surtout, nous
travaillons depuis des années sur les Very Large Data ou même Extremely Large
Data. Big c'est encore plus grand ? Quand en 2000, avec Xyleme, nous
développions un entrepôt pour des millions de documents XML sur des clusters de
PC, c’était du Ti-Data. Ou faisions-nous déjà du Big Data sans le savoir ?
Crash course en Big Data
- La société moderne génère des volumes de données de plus en plus infernaux. Le tsunami de ces données est tel que les techniques traditionnelles de gestion de données sont dépassées.
- Dans de nombreux domaines, les données dont on dispose peuvent présenter une valeur considérable si on arrive à les traiter. Les exemples standards: sciences de la vie et physiques, environnement, gouvernement (sécurité intérieure), journalisme, santé, transport...
- Typiquement, il s’agit de croiser les données d’une organisation avec la masse de données beaucoup moins structurées du Web (comme des blogs), personnelles (comme des emails), ou autres (comme des senseurs) pour proposer de nouveaux services. Le but est ce trouver de « nouvelles connaissances ».
Les compagnies ont déjà l’habitude de
réaliser des tâches de business intelligence dans des systèmes dédiés (comme la
gestion de clients). Ce sont ces mêmes calculs que l’on retrouve dans le Big
Data :
- Acquisition/Extraction : Il faut aller chercher les données dans tous les matériels et systèmes concernés, qui sont hétérogènes et n’adorent pas donner leurs données. Souvent, il faut aller le chercher dans du texte en utilisant des techniques de classification et d’étiquetage sémantique.
- Intégration/Nettoyage : La difficulté est encore l’hétérogénéité des sources qui typiquement utilisent des organisations/ontologies distinctes. Il faut éliminer les réplicas, résoudre les contradictions.
- Requête/souscription/analyse/fouille : On arrive vraiment à la valeur ajoutée des données dans sa grande variété. Pas mal de progrès ont déjà été réalisés, mais la fouille de données sur des volumes considérables reste hors portée. Les techniques sont souvent ad hoc sans vrai fondement statistique, sans garantie de précision/qualité.
- Interprétation/visualisation. L’utilisateur est celui qui en dernier ressort décide de l’intérêt et de la valeur des résultats. Les techniques de visualisation occupent une place centrale dans le paysage comme d’ailleurs les outils graphiques pour contrôler la recherche d’information (« drilling », navigation, spécification de contraintes). Aussi, l’utilisateur doit pouvoir, s’il le souhaite, se faire expliquer des résultats.
- La mode est de faire participer des humains dans ces différentes étapes via le crowd sourcing.
On commence à envisager des systèmes
qui pourront supporter de croiser les données de l’entreprise avec des données
comme celles du Web dans de nombreuses compagnies : Web bien sûr, mais
aussi télécom, commerce, santé, finance, etc. Les difficultés ne sont pas
nouvelles :
- Taille des données : c’est Big !
- Hétérogénéité: organisation, ontologie…
- Vélocité: importance du temps, taux de changement/d'arrivée…
- Protection des données : données privées, réglementation…
- Qualité: erreurs, incomplétude, confiance,
- Et encore de la qualité: provenance, fraicheur...
Pour tuer quelques idées reçues
- « Ma data est Big. » Vos données sont-elles vraiment Big ! Par exemple, demandez-vous si vous pourriez faire le même boulot avec une machine gonflée en RAM et en SSD.
- « Si si ma data est Big Big. » OK. Mais n'y-a-t-il pas une façon simple de réduire la dimension soit en filtrant soit en échantillonnant ?
- « Je vais y foutre un coup de Hadoop. » Hadoop est un super logiciel libre (autour de l'algo Map Reduce de Google). Il résout super bien des problèmes (i) "embarrassingly parallel" (ii) sur de gros volumes de données. Mais ce n'est pas la solution à tout. Interrogez-vous sur (i) et (ii). Et puis même dans des extensions comme Pig, Hadoop est quand même très bas niveau.
Évidemment,
vous avez le droit d'affirmer que vous faites dans le Big Data: pour
impressionner un client, une agence de capital risque ou de soutien à la
recherche, votre copain/copine ou votre concierge. Mais dépêchez-vous avant que
la mode ne change.
Les questions qu’on pourrait poser
Ce
qu'on voit aujourd'hui, c'est de grosses compagnies, Google, Facebook, Amzone...
mais en fait presque tout les sociétés avec de gros volumes de données, qui
cherchent à faire de l'argent avec ces données en les utilisant comme support
de marketing. En gros, elles prennent toutes les données sur lesquelles elles
peuvent mettre la main, elles bourrent un entrepôt de données jusqu’à la gueule
et ensuite font mouliner des algos pour découvrir des connaissances monnayables.
Pourraient-elles utiliser ces mêmes technologies pour aider les gouvernements
et les ONG à prévoir les crises de santé, d'environnement, les catastrophes
naturelles, et à mieux y répondre ? Pourraient-elles participer à
l'amélioration du transport, de l'aide aux personnes en difficultés, etc. ? Ne
pourraient-elles pas même gagner de l'argent en réglant de vrais problèmes ?
Certaines le font...
On va où ?
Les
scénarios :
- Facebook (ou un autre) gagne le jackpot. Une compagnie met la main sur toutes les données du monde, vos photos, vos mails, vos listes d’amis… Facebook voudrait bien mais Google aussi, et les opérateurs de télécoms, et les autres aussi.
- Ça ne se passe pas comme ça et des tas de systèmes vont avoir à collaborer pour évaluer des requêtes, faire de la fouille. Et c’est plutôt comme ça que je verrais le futur. Mais je ne suis pas Madame Soleil. Et alors comment on fait du Big Data en distribué. Ça c’est fun…
PS :
Nous sommes aujourd'hui au pic de la mode. En un mois, sur le sujet des Big
Data, j’ai du donner mon avis à deux organismes publics de financement de la
recherche, donner une interview, participer à une table ronde dans un colloque
scientifique, intervenir dans deux séminaires industriels et un séminaire
académique. Évidemment, tout ça va se calmer. La mode de Web 2.0 a duré un an. Les
tweets et les réseaux sociaux n'ont pas disparu depuis. Nous continuerons à
travailler sur les grosses données après la mode du Big Data. Dans quelques
dizaines d’années, le taux de croissance des données mondiales se calmera
peut-être. Mais c'est pas pour demain. Donc c’est pas demain la veille du début
de la fin des Big Data.
PPS :
Merci de m’excuser pour la taille inhabituelle de cet article.
lundi 18 juin 2012
mardi 22 mai 2012
Derniers cours du cours du College de France
Serge Abiteboul
16 mai 10:00
Gestion de données distribuées
30 mai 10:00
Datalog distribué et Webdamlog
Gestion de données distribuées
30 mai 10:00
Datalog distribué et Webdamlog
Pierre Senellart, Télécom ParisTech
Réseaux sociaux
Réseaux sociaux
dimanche 6 mai 2012
Place de la Toile
Mon interview à Place de la Toile dispo en podcast
PS: Vous trouvez un truc sur la Toile. C'est top. Vous revenez un peu après. Il n'est plus là. Il a changé. Il a bougé. La galère! Je disais dans l'article précédent que l'on ne trouvait pas tous les vieux épisodes de Place de la Toile sur le site de France Culture.