jeudi 21 juin 2012

Big Data ou Grosses Données


Quand j’ai entendu parler pour la première fois de "Le Big Data" et de "La Data", j'ai haussé les épaules. D’abord, data c’est pluriel. C’est vrai que les « grosses données », c’est moins glamour. Mais surtout, nous travaillons depuis des années sur les Very Large Data ou même Extremely Large Data. Big c'est encore plus grand ? Quand en 2000, avec Xyleme, nous développions un entrepôt pour des millions de documents XML sur des clusters de PC, c’était du Ti-Data. Ou faisions-nous déjà du Big Data sans le savoir ?

Crash course en Big Data

  • La société moderne génère des volumes de données de plus en plus infernaux.  Le tsunami de ces données est tel que les techniques traditionnelles de gestion de données sont dépassées.
  • Dans de nombreux domaines, les données dont on dispose peuvent présenter une valeur considérable si on arrive à les traiter. Les exemples standards: sciences de la vie et physiques, environnement, gouvernement (sécurité intérieure), journalisme, santé, transport...
  • Typiquement, il s’agit de croiser les données d’une organisation avec la masse de données beaucoup moins structurées du Web (comme des blogs), personnelles (comme des emails), ou autres (comme des senseurs) pour proposer de nouveaux services. Le but est ce trouver de « nouvelles connaissances ».

Les compagnies ont déjà l’habitude de réaliser des tâches de business intelligence dans des systèmes dédiés (comme la gestion de clients). Ce sont ces mêmes calculs que l’on retrouve dans le Big Data :
  • Acquisition/Extraction : Il faut aller chercher les données dans tous les matériels et systèmes concernés, qui sont hétérogènes et n’adorent pas donner leurs données. Souvent, il faut aller le chercher dans du texte en utilisant des techniques de classification et d’étiquetage sémantique.
  •  Intégration/Nettoyage : La difficulté est encore l’hétérogénéité des sources qui typiquement utilisent des organisations/ontologies distinctes. Il faut éliminer les réplicas, résoudre les contradictions.
  •  Requête/souscription/analyse/fouille : On arrive vraiment à la valeur ajoutée des données dans sa grande variété. Pas mal de progrès ont déjà été réalisés, mais la fouille de données sur des volumes considérables reste hors portée. Les techniques sont souvent ad hoc sans vrai fondement statistique, sans garantie de précision/qualité.
  • Interprétation/visualisation. L’utilisateur est celui qui en dernier ressort décide de l’intérêt et de la valeur des résultats. Les techniques de visualisation occupent une place centrale dans le paysage comme d’ailleurs les outils graphiques pour contrôler la recherche d’information (« drilling », navigation, spécification de contraintes). Aussi, l’utilisateur doit pouvoir, s’il le souhaite, se faire expliquer des résultats. 
  • La mode est de faire participer des humains dans ces différentes étapes via le crowd sourcing.

On commence à envisager des systèmes qui pourront supporter de croiser les données de l’entreprise avec des données comme celles du Web dans de nombreuses compagnies : Web bien sûr, mais aussi télécom, commerce, santé, finance, etc. Les difficultés ne sont pas nouvelles :
  • Taille des données : c’est Big !
  • Hétérogénéité: organisation, ontologie…
  • Vélocité: importance du temps, taux de changement/d'arrivée…
  • Protection des données : données privées, réglementation…
  • Qualité: erreurs, incomplétude, confiance,
  • Et encore de la qualité: provenance,  fraicheur...

Pour tuer quelques idées reçues

  • « Ma data est Big. » Vos données sont-elles vraiment Big ! Par exemple, demandez-vous si vous pourriez faire le même boulot avec une machine gonflée en RAM et en SSD.
  • « Si si ma data est Big Big. » OK. Mais n'y-a-t-il pas une façon simple de réduire la dimension soit en filtrant soit en échantillonnant ?
  • « Je vais y foutre un coup de Hadoop. » Hadoop est un super logiciel libre (autour de l'algo Map Reduce de Google). Il résout super bien des problèmes (i) "embarrassingly parallel" (ii) sur de gros volumes de données. Mais ce n'est pas la solution à tout. Interrogez-vous sur (i) et (ii). Et puis même dans des extensions comme Pig, Hadoop est quand même très bas niveau.

Évidemment, vous avez le droit d'affirmer que vous faites dans le Big Data: pour impressionner un client, une agence de capital risque ou de soutien à la recherche, votre copain/copine ou votre concierge. Mais dépêchez-vous avant que la mode ne change.

Les questions qu’on pourrait poser

Ce qu'on voit aujourd'hui, c'est de grosses compagnies, Google, Facebook, Amzone... mais en fait presque tout les sociétés avec de gros volumes de données, qui cherchent à faire de l'argent avec ces données en les utilisant comme support de marketing. En gros, elles prennent toutes les données sur lesquelles elles peuvent mettre la main, elles bourrent un entrepôt de données jusqu’à la gueule et ensuite font mouliner des algos pour découvrir des connaissances monnayables. Pourraient-elles utiliser ces mêmes technologies pour aider les gouvernements et les ONG à prévoir les crises de santé, d'environnement, les catastrophes naturelles, et à mieux y répondre ? Pourraient-elles participer à l'amélioration du transport, de l'aide aux personnes en difficultés, etc. ? Ne pourraient-elles pas même gagner de l'argent en réglant de vrais problèmes ? Certaines le font...

On va où ?

Les scénarios :
  • Facebook (ou un autre) gagne le jackpot. Une compagnie met la main sur toutes les données du monde, vos photos, vos mails, vos listes d’amis… Facebook voudrait bien mais Google aussi, et les opérateurs de télécoms, et les autres aussi.
  • Ça ne se passe pas comme ça et des tas de systèmes vont avoir à collaborer pour évaluer des requêtes, faire de la fouille. Et c’est plutôt comme ça que je verrais le futur. Mais je ne suis pas Madame Soleil. Et alors comment on fait du Big Data en distribué. Ça c’est fun…   

PS : Nous sommes aujourd'hui au pic de la mode. En un mois, sur le sujet des Big Data, j’ai du donner mon avis à deux organismes publics de financement de la recherche, donner une interview, participer à une table ronde dans un colloque scientifique, intervenir dans deux séminaires industriels et un séminaire académique. Évidemment, tout ça va se calmer. La mode de Web 2.0 a duré un an. Les tweets et les réseaux sociaux n'ont pas disparu depuis. Nous continuerons à travailler sur les grosses données après la mode du Big Data. Dans quelques dizaines d’années, le taux de croissance des données mondiales se calmera peut-être. Mais c'est pas pour demain. Donc c’est pas demain la veille du début de la fin des Big Data.

PPS : Merci de m’excuser pour la taille inhabituelle de cet article.




3 commentaires:

  1. N'oublions pas que la notion de donnée est le fondement de l'INFOrmatique, presque sa raison d'être.

    C'est le cocktail apprentissage automatisé (machine learning), capacité de calcul à la demande (cloud computing) et accés à quantité de données (APIs pour l'accés aux réseaux sociaux, aux données de l'espace publique -- Open Data, aux capteurs...) qui constitue une réelle nouveauté.

    Le Big Data c'est ce mix là à mon sens. Merci pour cet article et pour votre recul.

    RépondreSupprimer
  2. Merci pour la taille inhabituelle de BIG Article.

    RépondreSupprimer
  3. Même commentaire que juste au-dessus : ne vous excusez surtout pas de la taille de l'article ! Au contraire, merci :-)

    RépondreSupprimer