jeudi 28 juin 2012
Enseignement de l'informatique - suite
Un excellent article de Jean-Pierre Archambault, Gérard Berry, et Maurice Nivat.
vendredi 22 juin 2012
L'informatique est une science bien trop sérieuse...
Un article du monde.fr cosigné avec
Colin de la Higuera président de la Société informatique de France ;
Gilles Dowek co-auteur du programme de la spécialité informatique et science du numérique en Terminale S.
http://www.lemonde.fr/idees/article/2012/06/22/l-informatique-est-une-science-bien-trop-serieuse-pour-etre-laissee-aux-informaticiens_1722939_3232.html
Colin de la Higuera président de la Société informatique de France ;
Gilles Dowek co-auteur du programme de la spécialité informatique et science du numérique en Terminale S.
http://www.lemonde.fr/idees/article/2012/06/22/l-informatique-est-une-science-bien-trop-serieuse-pour-etre-laissee-aux-informaticiens_1722939_3232.html
jeudi 21 juin 2012
Big Data ou Grosses Données
Quand
j’ai entendu parler pour la première fois de "Le Big Data" et de
"La Data", j'ai haussé les épaules. D’abord, data c’est pluriel. C’est vrai que les
« grosses données », c’est moins glamour. Mais surtout, nous
travaillons depuis des années sur les Very Large Data ou même Extremely Large
Data. Big c'est encore plus grand ? Quand en 2000, avec Xyleme, nous
développions un entrepôt pour des millions de documents XML sur des clusters de
PC, c’était du Ti-Data. Ou faisions-nous déjà du Big Data sans le savoir ?
Crash course en Big Data
- La société moderne génère des volumes de données de plus en plus infernaux. Le tsunami de ces données est tel que les techniques traditionnelles de gestion de données sont dépassées.
- Dans de nombreux domaines, les données dont on dispose peuvent présenter une valeur considérable si on arrive à les traiter. Les exemples standards: sciences de la vie et physiques, environnement, gouvernement (sécurité intérieure), journalisme, santé, transport...
- Typiquement, il s’agit de croiser les données d’une organisation avec la masse de données beaucoup moins structurées du Web (comme des blogs), personnelles (comme des emails), ou autres (comme des senseurs) pour proposer de nouveaux services. Le but est ce trouver de « nouvelles connaissances ».
Les compagnies ont déjà l’habitude de
réaliser des tâches de business intelligence dans des systèmes dédiés (comme la
gestion de clients). Ce sont ces mêmes calculs que l’on retrouve dans le Big
Data :
- Acquisition/Extraction : Il faut aller chercher les données dans tous les matériels et systèmes concernés, qui sont hétérogènes et n’adorent pas donner leurs données. Souvent, il faut aller le chercher dans du texte en utilisant des techniques de classification et d’étiquetage sémantique.
- Intégration/Nettoyage : La difficulté est encore l’hétérogénéité des sources qui typiquement utilisent des organisations/ontologies distinctes. Il faut éliminer les réplicas, résoudre les contradictions.
- Requête/souscription/analyse/fouille : On arrive vraiment à la valeur ajoutée des données dans sa grande variété. Pas mal de progrès ont déjà été réalisés, mais la fouille de données sur des volumes considérables reste hors portée. Les techniques sont souvent ad hoc sans vrai fondement statistique, sans garantie de précision/qualité.
- Interprétation/visualisation. L’utilisateur est celui qui en dernier ressort décide de l’intérêt et de la valeur des résultats. Les techniques de visualisation occupent une place centrale dans le paysage comme d’ailleurs les outils graphiques pour contrôler la recherche d’information (« drilling », navigation, spécification de contraintes). Aussi, l’utilisateur doit pouvoir, s’il le souhaite, se faire expliquer des résultats.
- La mode est de faire participer des humains dans ces différentes étapes via le crowd sourcing.
On commence à envisager des systèmes
qui pourront supporter de croiser les données de l’entreprise avec des données
comme celles du Web dans de nombreuses compagnies : Web bien sûr, mais
aussi télécom, commerce, santé, finance, etc. Les difficultés ne sont pas
nouvelles :
- Taille des données : c’est Big !
- Hétérogénéité: organisation, ontologie…
- Vélocité: importance du temps, taux de changement/d'arrivée…
- Protection des données : données privées, réglementation…
- Qualité: erreurs, incomplétude, confiance,
- Et encore de la qualité: provenance, fraicheur...
Pour tuer quelques idées reçues
- « Ma data est Big. » Vos données sont-elles vraiment Big ! Par exemple, demandez-vous si vous pourriez faire le même boulot avec une machine gonflée en RAM et en SSD.
- « Si si ma data est Big Big. » OK. Mais n'y-a-t-il pas une façon simple de réduire la dimension soit en filtrant soit en échantillonnant ?
- « Je vais y foutre un coup de Hadoop. » Hadoop est un super logiciel libre (autour de l'algo Map Reduce de Google). Il résout super bien des problèmes (i) "embarrassingly parallel" (ii) sur de gros volumes de données. Mais ce n'est pas la solution à tout. Interrogez-vous sur (i) et (ii). Et puis même dans des extensions comme Pig, Hadoop est quand même très bas niveau.
Évidemment,
vous avez le droit d'affirmer que vous faites dans le Big Data: pour
impressionner un client, une agence de capital risque ou de soutien à la
recherche, votre copain/copine ou votre concierge. Mais dépêchez-vous avant que
la mode ne change.
Les questions qu’on pourrait poser
Ce
qu'on voit aujourd'hui, c'est de grosses compagnies, Google, Facebook, Amzone...
mais en fait presque tout les sociétés avec de gros volumes de données, qui
cherchent à faire de l'argent avec ces données en les utilisant comme support
de marketing. En gros, elles prennent toutes les données sur lesquelles elles
peuvent mettre la main, elles bourrent un entrepôt de données jusqu’à la gueule
et ensuite font mouliner des algos pour découvrir des connaissances monnayables.
Pourraient-elles utiliser ces mêmes technologies pour aider les gouvernements
et les ONG à prévoir les crises de santé, d'environnement, les catastrophes
naturelles, et à mieux y répondre ? Pourraient-elles participer à
l'amélioration du transport, de l'aide aux personnes en difficultés, etc. ? Ne
pourraient-elles pas même gagner de l'argent en réglant de vrais problèmes ?
Certaines le font...
On va où ?
Les
scénarios :
- Facebook (ou un autre) gagne le jackpot. Une compagnie met la main sur toutes les données du monde, vos photos, vos mails, vos listes d’amis… Facebook voudrait bien mais Google aussi, et les opérateurs de télécoms, et les autres aussi.
- Ça ne se passe pas comme ça et des tas de systèmes vont avoir à collaborer pour évaluer des requêtes, faire de la fouille. Et c’est plutôt comme ça que je verrais le futur. Mais je ne suis pas Madame Soleil. Et alors comment on fait du Big Data en distribué. Ça c’est fun…
PS :
Nous sommes aujourd'hui au pic de la mode. En un mois, sur le sujet des Big
Data, j’ai du donner mon avis à deux organismes publics de financement de la
recherche, donner une interview, participer à une table ronde dans un colloque
scientifique, intervenir dans deux séminaires industriels et un séminaire
académique. Évidemment, tout ça va se calmer. La mode de Web 2.0 a duré un an. Les
tweets et les réseaux sociaux n'ont pas disparu depuis. Nous continuerons à
travailler sur les grosses données après la mode du Big Data. Dans quelques
dizaines d’années, le taux de croissance des données mondiales se calmera
peut-être. Mais c'est pas pour demain. Donc c’est pas demain la veille du début
de la fin des Big Data.
PPS :
Merci de m’excuser pour la taille inhabituelle de cet article.
lundi 18 juin 2012
Inscription à :
Articles (Atom)