Index des SCIENCES -> DIVERS 
 
 RECHERCHER dans PLANÈTE GAÏA 
 
 
Google : le Nouvel Einstein

 Google : le Nouveau Chercheur

De plus en plus de découvertes scientifiques sont désormais le fait de logiciels inspirés de Google. Des logiciels qui moissonnent aveuglément d'immenses bases de données, en quête de liens statistiques. Les prochaines révélations de la science seront-elles encore le fruit du génie humain ? La révolution des "big data" pose aujourd'hui la question.

C'est un véritable génie de la science. Il est à la fois un généticien hors pair, qui a récemment découvert quatre gènes liés au cancer du foie ; un grand neurologue, qui a ciblé dans le cerveau une origine probable de la migraine ; un physicien distingué, qui a mis en équation des systèmes complexes ; un épidémiologiste efficace, qui a détecté le premier de nombreux foyers de maladie ; mais aussi un psycholinguiste de haute volée, un expert du plancton, un spécialiste de la mécanique, un crack de la chimie, un as de l'astronomie...
Ce génie multidisciplinaire, c’est... Google ! Ou plus exactement, c’est l'ensemble des logiciels inspirés du fameux moteur de recherche sur Internet, parfois produits par la firme californienne elle-même. Des logiciels qui, depuis quelques années, sont auréolés d’un nombre croissant de découvertes. Google se pare désormais de vertus scientifiques telles que d’aucuns voient en lui la meilleure chance qu'ait la science de défricher de nouveaux territoires. Le génie d'Einstein, qui au siècle passé a emporté le savoir vers de nouveaux horizons, se voit aujourd’hui relayé par celui des algorithmes analysant sans relâche des océans de données (ou “data"). Ce sont les machines qui, désormais, font les découvertes, là où les expériences, les théories ou les géniales intuitions, jalons traditionnels de l'apparition de nouvelles connaissances, semblent ne plus suffire pour aller plus loin. Est-ce le début d’une nouvelle façon de faire de la science, baptisée “big data” ( “données massives") ? Dans toutes les disciplines, en tout cas, des chercheurs s'en remettent à la méthode du plus performant des moteurs de recherche... qui est d’ores et déjà devenu l'un des plus puissants moteurs de “la” recherche ! Une sorte de nouvel Einstein, dont le génie serait le traitement maximisé des données.

AVANT : La découverte naissait de l'intuition d'un chercheur, confirmée par l'experience.
Le scientifique se posait une question précise concernant son domaine de recherche. Il fouillait alors dans l'ensemble de ses connaissances (publications, discussions avec des collègues, expériences passées, etc.), comparable à une sphère de savoir, afin d'y trouver des corrélations et de formuler une réponse hypothétique, logique et cohérente. Il testait ensuite cette hypothèse en laboratoire, au moyen d'expériences, de simulations et de calculs.
APRÈS : La découverte émerge automatiquement d'une masse de donnees mises en relation.
Publications scientifiques, photos, vidéos, enregistrements bruts issus de capteurs... Les dizaines de milliers de bases de données qui cohabitent sur le Web contiennent les résultats d'innombrables expériences, avant même que celles-ci aient été réalisées : il suffit de mettre en relation les informations pertinentes. Une aubaine pour le calcul brutal et aveugle des ordinateurs, capable de faire ressortir les corrélations les plus inattendues. Si les statistiques sont suffisamment fortes, il n'y a même pas besoin de confirmer la corrélation par l'éxpérimentation directe : les découvertes émergent automatiquement.

Sa puissance est facile à éprouver. Il suffit d’effectuer une requête sur Google. En quelques centièmes de seconde sont extraites les informations pertinentes à partir des 20 pétaoctets de données traitées chaque jour (soit 20 fois le volume total de données stockées par la Bibliothèque nationale de France). Le secret de cette efficacité ? La capacité à analyser automatiquement, à très grande vitesse, les liens susceptibles de relier des informations entre elles au sein de ce magma de données. Une capacité assurée par des algorithmes taillés sur mesure, voire par de gigantesques “fermes” de serveurs, abritant des dizaines de milliers d'ordinateurs connectés entre eux.
Il faut bien prendre la mesure de ce phénomène en termes de volume formation. Au début des années 1990, la taille des disques durs se comptait en mégaoctets (106 octets, un octet comptant 8 bits, un bit valant 0 ou 1). Elle est passée au gigaoctet (109) au début des années 2000 et atteint désormais le téraoctet (1012), alors que Google mobilise des pétaoctets (1015). Résultat : le volume de données explose. Comme le rappelait Eric Schmidt, le patron de Google, en 2010, “entre les débuts de la culture humaine et 2003, l'humanité a produit 5 exaoatets d'information (soit 5000 pétaoctets). Aujourd’hui, nous produisons autant d'information tous les deux jours". L'accès croisé à cette information devenant de plus en plus aisé, cette accélération inouïe de la production de données a fait entrer le monde dans l'ère des big data. L’ère du déluge d’informations.

UNE FORCE DE FRAPPE ILLIMITÉE

Cette manne, le marketing et la publicité en ont été les premiers exploitants. Analysés par un algorithme, les 30 milliards de documents ajoutés chaque mois sur Facebook, les 140 millions de messages quotidiens sur Twitter ou les 20 millions de SMS échangés par minute sont autant d'indicateurs pour vendre un produit ou un service. L'industrie s’est elle aussi très vite emparée de ces big data, avec des systèmes capables d’analyser ensemble et en temps réel des milliers de paramètres. Les services de renseignement ne sont pas en reste : le nouveau centre d’écoute de la NSA, l'agence de renseignement américaine, ambitionne par exemple d’analyser simultanément un yottaoctet (1024), soit le contenu de mille milliards de disque durs actuels...
Mais c'est peut-être la science qui s’en trouve la plus profondément bouleversée. Génétique, médecine, climatologie, botanique, chimie, neurosciences... Tous les domaines sont en train de s'approprier cette force de frappe et de basculer dans des big data. Car là où les chercheurs interrogeaient jusqu‘ici des bases de données modestes, soigneusement calibrées à l’aune de leur domaine de recherche, ils disposent désormais d’un réseau gigantesque d’informations où s’agrègent en kaléidoscope des données aussi variées que le monde lui-même. Ces données sont issues de la masse considérable d’observations déjà stockées ou enregistrées en temps réel par les milliards de capteurs qui surveillent le moindre événement survenant sur Terre on dans l'espace.

L'ÉTAT DU MONDE EN TEMPS RÉEL

L’ensemble de ces big data s'est donc agrégé en un miroir du monde de plus en plus détaillé, une version numérique qui se développe en continu et que les scientifiques peuvent manipuler dans tous les sens. “Le Web contient une description exhaustive du monde présent et passé, au moins depuis que l'on s’est mis à tout stocker, souligne Julien Laugel, spécialiste des big data chez MFG Labs, société cofondée par les mathématiciens Pierre-Louis Lions et Jean-Michel Lasry. Et le niveau de ‘granularité’ est extrêmement fin : on peut zoomer et dézoomer à volonté sur un phénomène physique, biologique, épidémiologique ou social, passer de l'échelle microscopique à macroscopique en un seul geste. Pour Henri Verdier, autre cofondateur de la société, “les big data réalisent de manière très concrète une certaine version du rêve de Pierre-Simon de Laplace : l'idée qu'une entité connaissant parfaitement l'état du monde passé et présent pourrait prévoir toute son évolution".
Ces données, l’esprit humain ne saurait les appréhender seul. Mais grâce à des logiciels “à la Google”, rompus à faire apparaître les liens entre les données, il est possible d’embrasser ce déluge à la recherche de motifs qui émergent - des valeurs évoluant de concert, des corrélations entre groupes de variables... De quoi relier statistiquement, ici un gène à une maladie, là la forme d’une galaxie à l'histoire de sa formation, ailleurs la composition d’une molécule aux effets secondaires d'un médicament. Bref, de quoi faire des découvertes scientifiques.
L'astronomie est un bon exemple de cette révolution. Les astronomes laissent déjà leurs ordinateurs partir seuls en quête d'événements inédits au cœur des gigantesques amas de données accumulées par les différents observatoires du globe. Et cela va s’accélérer. "Je suis convaincu que la plupart des recherches seront portées par les données astronomiques mettant en jeu des téraoctets d'informations, affirme Kirk Borne, professeur d’astrophysique et de sciences computationnelles à l'université américaine George-Mason. Le Large Synaptic Survey Telescope, qui sera mis en service en 2022, va produire chaque nuit, et pendant dix ans, autant de données que l'une des plus importantes campagnes d'observation, la Sloan Digital Sky Survey, en huit ans. Nous devrions ainsi mettre le doigt sur des phénomènes rares, n’apparaissant qu’une fois sur 1 000 milliards".
La révolution des big data est en marche, et elle commence à remporter de véritables succès (voir les projets, ci-dessous). Ce qui ne va pas sans poser d'épineuses questions. La science ne risque-t­elle pas de se réduire à la mise en relief de multiples corrélations, sans que ces résultats ne soient intégrés, grâce à un modèle, dans un discours qui fasse sens ? Et que reste-t-il du génie scientifique, celui qu’incarne si bien Einstein, quand la tâche la plus noble de la science - découvrir l'organisation cachée dans le désordre du monde passe désormais, en premier lieu, par la force de frappe brutale de centaines de milliers d’ordinateurs en réseau ? Le débat, complexe, commence à traverser la communauté scientifique [voir p58-63). Mais, en attendant, c'est déjà le déluge.

 F.L. - SCIENCE & VIE > Juillet > 2012

 Projet : Troubles de Cerveau

DES PISTES DE GUÉRISON TOTALEMENT INÉDITES

Prendre les mots de toutes les publications en neurosciences stockées sur Internet et les passer à la moulinette jusqu'à ce qu'émergent des liens insoupçonnés entre les régions du cerveau et certaines pathologies mentales : tel est le projet big data de Jessica et Bradley Voytek, informaticienne et neurologue à l'université de Californie. Un projet si peu conventionnel que leur article a d'abord été refusé 17 fois, avant d'être accepté en mai dernier par le Journal of Neuroscience Methods. A l'origine, une question posée à Bradley Voytek lors d'une conférence, en 2010, sur les moyens d'exploiter l'énorme littérature publiée dans le domaine des neurosciences. Coup de chance, la femme du chercheur, cosignataire de l'article, est une spécialiste du Web rompue à la manipulation des big data.
C'est le début de l'aventure. Objectif : voir ce qui sortirait d'une synthèse effectuée par un algorithme, en dessinant une carte de "proximité statistique" entre les termes neuroscientifiques apparaissant dans les publications. Les résultats ont été au-delà de leurs espérances, car cette carte ressemble beaucoup à celle des connexions entre les régions cérébrales ! Or, personne n'imaginait qu'elle puisse devenir, à partir des distances terminologiques uniquement, une formidable aide à l'intuition, un "générateur semi-automatique d'hypothèses". L'invention, baptisée brainSCANr ("Brain Systems, Connections, Associations and Network relationships"), montre ainsi une grande proximité statistique entre les mots "sérotonine" et "migraine" (contenus tous deux dans 2943 articles), de même qu'entre "sérotonine" et la région du "striatum" (4782 articles). Pourtant, "striatum" et "migraine" n'apparaissent simultanément que dans 16 articles ! Si Bradley Voytek ne prétend pas avoir démontré un lien entre la migraine et cette région cérébrale, il estime que, grâce à ce résultat qui n'a demandé qu'une semaine de programmation et "11,75 dollors", des chercheurs pourraient réorienter utilement leurs travaux. Selon lui, "la neurologie a peut-être raté une connexion susceptible d’éclairer d'un jour nouveau les connaissances sur la migraine.

 R.I. - SCIENCE & VIE > Juillet > 2012

 Projet : Couvert Végétal

LA DÉFORESTATION DÉSORMAIS TRAQUÉE EN TOUT POINT DU GLOBE

Feux de forêts, déforestation, densité végétale, sécheresse, inondation...
Rien n'échappe à l'œil des satellites Aqua et Terra, dont les capteurs balaient la totalité de la surface du globe tous les deux jours. Avec une précision de 1 km à 250 m (suivant le type de fréquences électromagnétiques mesurées), ils renseignent sur le taux de chlorophylle, l'humidité, la nature du sol (plus ou moins recouvert de végétation), la température de l'air, celle du sol, la présence de flammes ou de fumée... Une montagne de données que des chercheurs de l'université du Minnesota, en partenariat avec le géant de l'informatique Cisco, ont pris à bras-le-corps. Depuis 2009, leur système PlanetarySkin fouille automatiquement dans les 7 téraoctets de données des satellites, et complète sa collection de variables à la vitesse de 30 Go tous les quinze jours. Résultat : les algorithmes détectent, en comparant les données les plus récentes avec celles enregistrées, sur des périodes de 6 à 8 semaines, les changements brutaux de végétation (feux, déforestations, inondations) comme les variations progressives (rendements d'une culture, érosion). De quoi donner des éléments de contrôle aux autorités en charge des lois sur la déforestation, des clés aux biologistes pour comprendre la dynamique des forêts, ou des indications aux agriculteurs. A l'état de prototype, cette plate-forme de détection des changements végétaux sera à terme consultable en ligne, via une carte interactive (voir ci-contre). Sur cette carte, le système affiche, grâce aux 580 milliards de données à sa disposition, les points pour lesquels il a découvert des changements : feux, recul de la forêt, nouvelle étendue d'eau... Un travail que l'œil humain serait incapable de faire Seul. Il permet aussi de "voyager dans le temps", pour comparer l'état de la végétation à divers moments.

 J.M. - SCIENCE & VIE > Juillet > 2012

 Projet : Observation Spatiale

UN SUIVI ASTRONOMIQUE QUASIMENT EN DIRECT

En astronomie, la révolution des big data est une nécessité. "Actuellement, les astronomes doivent composer avec 5 à 10 événements inattendus ou inconnus par semaine, explique Kirk Borne (université George-Mason, Etats-Unis). Mais rien qu'avec le projet LSST, c’est entre 10 000 et 100 000 événements qui chaque nuit mériteraient une plus grande attention des spécialistes. Sans un bon système de classement de l'information, l'astronomie sera enterrée sous un déluge de données et loupera certaines des plus importantes découvertes des vingt prochaines années". L'astrophysicien et ses collègues travaillent justement à la mise au point d'un algorithme capable de passer à la loupe les 6 Go de données recueillis toutes les 20 secondes à partir de 2016, d'y repérer une éventuelle modification par rapport aux clichés antérieurs, de dire si elle renvoie à un phénomène connu, et d'établir un classement des priorités pour des études approfondies. Cet automate a été testé avec succès sur des Catalogues de données existants.

 M.G. - SCIENCE & VIE > Juillet > 2012

 Projet : Micro-organismes Marins

LEUR DIVERSITÉ GÉNÉTIQUE DÉVOILE DES MYSTÈRES DE L'ÉVOLUTION

Il a pêché des génomes pendant 3 ans : de 2003 à 2006, le biologiste Craig Venter, un des pères du premier séquençage du génome humain, a fait le tour du globe en bateau. Tous les 300 km, les scientifiques congelaient un échantillon, afin qu'il soit analysé à terre. Environ 6 millions de gènes ont ainsi été séquencés. Les données du Global Ocean Sampling sont désormais mises à disposition des scientifiques. Ils ont d’abord cherché ce qu'ils connaissaient déjà. Surprise : 85 % des séquences de ces micro-organismes marins sont inconnues. Le code de millions de protéines a ainsi été dévoilé. Une mine de données inédites qui va permettre de multiplier les découvertes, mais qui pose déjà des questions et renverse des dogmes. Ainsi, en faisant tourner des algorithmes de comparaisons entre les séquences de ces organismes, les chercheurs découvrent une diversité étonnante dans les communautés microbiennes. Des sous-types d'une même espèce sont répartis un peu partout sur la planète, alors que d'autres coexistent dans les mêmes environnements. Pourtant, la loi de la spéciation voudrait que les sous-types se distinguent de l'espèce qui leur a donné naissance en s'en éloignant géographiquement. Leurs génomes sont légèrement différents : ils devraient être différemment adaptés à un même milieu. Et un sous-type devrait dominer sur les autres. Or, ce n'est pas le cas. Pourquoi ? Autre interrogation : comment ces sous-types restent-ils bien distincts, alors qu'ils vivent les uns à proximité des autres, dans un milieu où l'échange de gènes entre micro­organismes est fréquent ? Les spécialistes de l'évolution vont devoir tester de nouvelles hypothèses. Et trouver des mécanismes qui maintiennent la diversité des espèces microbiennes, pour sans doute accroître la stabilité de la population dans son ensemble.

 A.D. - SCIENCE & VIE > Juillet > 2012

 Projet : Substances Chimiques

DES LIENS DE CAUSE A EFFET AVEC DES MALADIES ONT PU ÊTRE IDENTIFIÉS

Pour les chimistes, le monde des big data est une gigantesque éprouvette où la manipulation des données permet de mélanger et faire réagir des myriades de substances à un rythme effréné. En janvier dernier, une équipe du Biomedical Sciences Research Complex (Ecosse) a exploité cet immense labo virtuel pour éclairer les liens entre les substances de certains médicaments contre la dépression, l’angine, la malaria, le cholestérol, et un effet secondaire, la phospholipidose ("surproduction et accumulation de lipides par les cellules à l'origine de maladies du foie, des reins, des yeux...). Ici pas de réactions sur la paillasse, mais des calculs statistiques sur les informations stockées dans le Web, et notamment dans la grosse banque de données américaine PubChem. Les chercheurs ont filtré le corpus entier pour ne garder que les informations contenant des mots clés liés à la phospholipidose, et isolé 241 145 substances chimiques. Ils leur ont alors associé, par le même procédé une liste de 1 923 molécules présentes dans les cellules, qui réagissent avec ces substances. Les ordinateurs ont ensuite combiné les informations liées aux substances avec celles liées aux molécules, plus de 450 millions de combinaisons), pour en extraire un schéma statistique des liens de cause à effet possibles. Autrement dit, des pistes de compréhension des causes, et donc de traitements, de la phospholipidose. Mais pour valider ces liens, il faudra retourner faire des expériences classiques... sur une vraie paillasse.

 R.I. - SCIENCE & VIE > Juillet > 2012

 Projet : Cancer du Foie

4 GÈNES ONT DÉVOILÉ UNE IMPLICATION INATTENDUE

La génétique du cancer a un problème : elle accumule trop d’informations sur L'ADN des tumeurs. "Le volume des banques de données génomiques double tous les 18 mois", remarque Gilbert Déléage, spécialiste de bioinformatique structurale. Un terrain de jeu typique de la science des big data qui a dejà produit une belle découverte : l'identification inopinée de 4 gènes impliqués dans un grand nombre de tumeurs malignes du foie. Des gènes qui ont tous subi le même type de modification, ce qui suggère l'implication d'un même agent toxique (chimique ou infectieux). Brutale, globale et statistique, l'approche qui a permis cette découverte ne part d'aucun a priori sur le rôle de tel ou tel gène. Elle a consisté d'abord à rassembler des données utilisables. Pas simple : cette biologie à grande échelle genère des données très hétérogènes regroupées dans des banques de données qui manquent de cohérence", souligne Gilbert Déléage. C'est pour cette raison que s'est créé en 2007 le Consortium international de génomique du cancer (ICGC) qui vise à rassembler les données génétiques cohérentes sur de plus de 25 000 tumeurs de 50 types de cancers. En mars, les données de plus de 3400 tumeurs étaient disponibles en lignes, avec les parties codantes de l'ADN d'une cellule cancéreuse et d'une cellule saine du même individu séquencés. Génome normal et tumoral peuvent ainsi être comparés pour identifier leurs différences. "On utilise ensuite des algorithmes pour identifier les petites mutations ou les grands déplacements de séquences d'ADN intervenant dans la cellule cancéreuse", explique Philippe Hupé, bioinformaticien à l'Institut Curie. Cette méthode permettrait aussi d'établir des liens entre traitements et profil génétique...

 A.D. - SCIENCE & VIE > Juillet > 2012

 Projet : Épidemies

LEUR APPARITION DÉTECTÉE EN TEMPS RÉEL

Il est capable d'identifier les débuts d'épidémie plusieurs jours avant les organismes officiels comme l'OMS. Après le séisme en Haïti en 2010, il a même suivi la progression du choléra avec environ 2 semaines d'avance sur les rapports officiels des travailleurs de santé sur le terrain. Ce lanceur d'alerte expert, c'est le logiciel Healthmap, développé depuis 2006 par des chercheurs de l'hôpital des enfants de Boston, aux Etats-Unis. Son principe : agréger et traiter en temps réel un maximum de sources d'informations sur l'apparition des maladies afin de dresser une carte mondiale, remise à jour toutes les heures et disponible sur Internet, qui pointe les foyers de grippe, de choléra, de dengue, etc. Les Sources ? Des portails (comme Google News), des rapports de témoins (Geosentinel), des discussions entre experts, des rapports officiels validés, les interrogations sur Google, et, bientôt, les messages sur Twitter. Le logiciel extrait, en 10 langues, les informations clés pour actualiser sa carte. Healthmap a ses défauts : sous-évaluation du nombre de cas une fois quand la maladie suscite moins d'intérêt médiatique ; mauvaise couverture des zones peu équipées en accès internet ou smartphones. Mais plusieurs études ont démontré l'intérêt et la relative fiabilité de cet outil. A l'heure des big data, les contagions ne sauraient aller plus vite que l'information.

 A.D. - SCIENCE & VIE > Juillet > 2012

 Projet : Lois Physiques

DES ÉQUATIONS ÉMERGENT QUASIMENT TOUTES SEULES

"Trouvez la formule cachée derrière vos données !", scande le site de Michael Schmidt. Pour y voir clair dans des monceaux de mesures, cet ingénieur en robotique de l'université Cornell a conçu Eureqa, un logiciel qui jongle avec les opérateurs algébriques (+, -...) et les fonctions analytiques (sinus, logarithme...) pour fabriquer toutes les équations qui pourraient lier un échantillon de données avant de pointer la plus pertinente. Lorsqu'en 2009, Michael Schmidt lui a fourni la trajectoire et la vitesse d'un pendule en train d'osciller, Eureqa a recraché la loi fondamentale de la dynamique, celle de Newton ! Particularité : peu de données expérimentales, mais des combinaisons innombrables (10108 équations possibles), et donc un algorithme très astucieux. Depuis, de nombreuses données ont obtenu de mystérieuses expressions mathématiques. Peut-être qu'une nouvelle loi de la nature se cache derrière l'une d'elle...

 M.F. - SCIENCE & VIE > Juillet > 2012

 Google va-t-il Remplacer le Génie Humain ?

Les "big data" augurent-elles d'une science déshumanisée ? Une chose est sûre : elles modifient le rôle du chercheur.

L'avènement de la science à le Google, où ce sont les machines qui produisent des découvertes, sonne-t-il le glas du génie humain ? Le question se pose quand, face aux “big data”, notre pauvre cerveau semble bel et bien dépassé. En neurologie, en génétique, en astronrmie, en chimie, en épidémiologie et dans d’autres domaines de plus en plus nombreux, la capacité à déceler des liens cachés - sources d’éventuelles découvertes scientifiques dans d’immenses volumes de données hétéroclites ne dépend plus des intuitions profondes d’esprits agiles, mais du labeur obstiné et répétitif de “têtes chercheuses” algorithmiques qui parcourent inlassablement des millions de disques durs à la recherche de liens statistiques, de corrélations entre variables consciencieusement enregistrées dans des serveurs répartis un peu partout dans le monde. Comme le résume David Weinberger, chercheur au centre Berkman sur Internet et la société à l'université Harvard, “la plupart des domaines scientifiques vont devoir analyser des volumes de données toujours plus grands, parmi lesquels, grâce aux moteurs de recherche, les chercheurs vont pouvoir découvrir des corrélations inattendues, qui survivront ensuite à l'examen et aux tests faits pour les vérifier expérimentalement”. Plus qu'un nouvel outil, il s’agit là d’une manière de faire la science radicalement nouvelle : une simple requête, indiquant seulement à un ordinateur une liste minimaliste de variables ou de mots clés. Le spécialiste du cancer du foie listera par exemple “foie”, “cancer”, “membranes cellulaires”, “facteurs de croissance”, “alcool”, “âge”... Et laissera des algorithmes, conçus avec les informaticiens, s'approprier cette liste. Ces algorithmes seront alors lancés par des milliers d’ordinateurs se répartissant la tâche à l’assaut d’un fantastique ensemble de données disparates (répertoires de caractéristiques cellulaires, séquences de gènes, statistiques sanitaires...) qu’aucun chercheur n’aurait jusqu’ici rêvé de consulter de front. En fin de chaîne, si les liens statistiques que les algorithmes auront mécaniquement traqués existent, le chercheur les visualisera sans avoir eu à les prédire, sans même avoir eu à les chercher. Ainsi, peut-être, l’impact de la consommation d'alcool sur le prévalence du cancer du foie se distinguera-t-il nettement à partir d’un certain âge. Ou bien un groupe de gènes que nul ne soupçonnait apparaîtra-t-il lié à une fragilité des cellules caractéristique d’un type de cancer. Cette mécanique imparable tire en fait sa force d’une approche qui se rit du contenu : “Les seuls paramètres pris en compte dans le calcul statistique sont les proximités entre données”, souligne Claude-Henri Mélédo, spécialiste en data visualisation de la société Aldecis. Le calcul effectué par les algorithmes consiste juste à comptabiliser les liens les plus fréquents entre les données, selon des paramètres assez généraux par le chercheur. C'est donc aux crépitements de calculs bêtement répétitifs, et non à l'acuité du regard de l’expert que reviendra le mérite de cette découverte.

DES DONNÉES CROISÉES À L'AVEUGLE

Et ce n’est pas seulement l'esprit du chercheur, mais aussi sa main et son œil qui semblent exclus de cette nouvelle science à la Google. Car, avec les big data : plus de paillasse de laboratoire à nettoyer, de cellules à cultiver, de séquençages de gènes à effectuer ou de radiotélescope à régler... C'est la deuxième rupture radicale avec la méthode scientifique traditionnelle : le but est dorénavant de moissonner aveuglément l'immense répertoire d'observations déjà effectuées, ou enregistrées en temps réel, mais que l'on n’avait jamais pu jusqu’ici croiser entre elles. Un court-circuit de l'expérimentation que permettait déjà la simulation numérique, largement utilisée depuis la fin des années 1980 en physique, biologie, neurosciences, mécanique... A ceci près - et la différence est de taille - qu’ici, on ne produit que des modèles particuliers, sans jamais accéder à la théorie globale qui les sous-tend. Les données analysées sont prises là où elles sont, telles quelles, dans l'univers des big data, miroir de notre monde.

LE RETOUR EN FORCE DE L'EMPIRISME

Il y a enfin une troisième rupture, encore un peu plus déshumanisante : non seulement il n’y a plus d’hypothèses spécifiques à formuler avant, non seulement il n’y a plus d'observations expérimentales à réaliser pendant, mais il n'y a souvent plus rien à comprendre après. Car ce que les algorithmes d’analyse statistique trouvent automatiquement dans les données peut se suffire à lui-même : la mise en évidence d’un lien entre un ensemble de gènes et une maladie donnée, par exemple. Au point que la quête de théories pourrait s'effacer progressivement de l'agenda des scientifiques. “C’est un retour en force de l’empirisme”, observe ainsi Jean Véronis, professeur de linguistique et d'informatique à l'université d’Aix-Marseille, praticien des big data. L’empirisme, doctrine ébauchée par l’Anglais Roger Bacon au XIIIè siècle et formalisée par son compatriote Francis Bacon au XVIè siècle, promeut justement ce type de démarche purement expérimentale. Elle va même jusqu’à considérer que l'abstraction théorique menace de faire sombrer dans l'illusion d’une raison qui se croit toute puissante : il ne faut pas chercher la règle générale des choses au-delà des phénomènes, dit l’empiriste, mais s’en tenir aux règles particulières inspirées directement par ceux-ci... Pour Jean Véronis, “c’est exactement la démarche du scientifique utilisant les big data. Et en fin de compte, ce qui peut effrayer dans l’empirisme effréné de la science à la Google, c’est l'i'dee de construire une science qui prédirait sans expliquer, qui se contenterait du ‘ça marche même si je ne comprends pas comment’". Cette science sans foi ni loi, sans hypothèse à étayer ni théorie à élaborer, serait-elle alors prête à se passer de toute intelligence humaine ? l'intuition aurait-elle fait son temps ? L'expérimentation serait-elle obsolète ? La volonté de comprendre désuète ? Le génie ne se résumerait plus qu'à concevoir des machines toujours plus efficaces ? Pas si vite.
D’abord, aussi minimaliste soit-elle, l'étape de conception de toute requête adressée aux big data naît d'un esprit humain. Un point que certains spécialistes de l'analyse de données appellent à ne surtout pas négliger. “Les big data induisent chez certains chercheurs la croyance qu'ils peuvent tout embrasser du regard depuis une hauteur de 10000 m, écrivaient en 2011 Danah Boyd, de Microsoft Research, et Kate Crawford, de l'université de New South Wales, dans un article de référence intitulé, “Six provocations pour les big data”. Mais il est crucial de s'interroger sur les présupposés analytiques, les cadres méthodologiques choisis... Une interrogation qui valait avant le déluge de données amorcé au début des années 2000, et dont l'importance s’accentue aujourd’hui. Car à la négliger, l'abondance de découvertes statistiques court le risque de se transformer en multitudes de prophéties autoréalisatrices : j’ai une idée a priori de ce que je veux obtenir, je m'arrange (consciemment ou non) pour filtrer les données dans ce sens, et j’obtiens ainsi "objectivement" ce que je voulais... “La pensée scientifique est toujours dans la boucle, nous rassure Jean­Daniel Fekete, directeur de recherche à l’Institut de recherche en informatique appliquée, spécialiste en visualisation des big data. Quand un scientifique fait une recherche sur le mode big data, la phase de nettoyage des données reste guidée par des modèles et des hypothèses a priori, on ne peut pas affronter autant d ’informations sans aucune idée préalable.”

UN NOUVEL ÉQUILIBRE À INVENTER

Tout l’enjeu consiste donc, pour le chercheur, à doser intelligemment la confiance qu’il accorde aux données, afin de ne pas perdre totalement de vue la réalité du phénomène étudié. Un équilibre à inventer : le travail qu’effectue désormais un neuroscientifique ou un physicien en confiant à des ordinateurs le soin de décortiquer des montagnes de données n’a rien à voir avec la démarche usuelle des chercheurs. “Aujourd’hui, relève Jean-Daniel Fekete, on peut être un très bon épidémiologiste sans jamais avoir mis un pied dans la rue, à condition d’être également informaticien.
Cette “aspiration” vers une science issue des données est appelée à se poursuivre. Car il va bien falloir se faire à cette idée : sur l’arbre de la connaissance, la plupart des fruits les plus bas ont été cueillis. Les victoires les plus éclatantes, celles dont les auteurs sont passés à la postérité, ont été remportées. Galilée, Newton, Darwin, Einstein... les grandes lois qui gouvernent la nature ont été formulées. Hormis la réconciliation des théories qui expliquent l'infiniment grand (la relativité générale) et celles qui décrivent l'infiniment petit (la mécanique quantique), les découvertes fondamentales et bouleversantes semblent plutôt derrière nous. La nature n’a pourtant pas livré tous ses mystères, loin s'en faut. Mais, excepté quelques rares “fruits” presqu’à portée de main passés jusqu'ici inaperçus, ceux qu’il reste à récolter - des découvertes scientifiques potentiellement capitales - sont situés sur les branches les plus élevées. Et pour les atteindre, les machines deviennent de plus en plus indispensables.
Car il est incroyablement compliqué de découvrir comment la loi de la chute des corps façonne la vie des galaxies, comment la thermodynamique et la mécanique des fluides gouvernent l'évolution du climat, comment des connexions entre neurones font fonctionner le cerveau humain, comment la cascade d’interactions moléculaires induites par un gène défectueux fait dégénérer toute une cellule. Il n’existe pas nécessairement de modèle qui permet de comprendre simplement le comportement de tels phénomènes globaux et complexes. Or c'est bien là que s'affirme la force des big data : s’attaquer aux phénomènes qui se décrivent plutôt qu'à ceux qui se comprennent et se “plient” aux équations des modèles. Du moins c'est sur ce terrain que se font leurs premières conquêtes. La science “à la Google” pourrait-elle également tirer parti des symboles mathématiques, de listes de lois physiques pour y déceler des relations et mettre sur la piste de découvertes purement théoriques ? L’avenir, seul, le dira.
En attendant, David Weinberger envisage sérieusement que le génie de ces machines soit un jour reconnu au même titre que celui d’Einstein : “Peut-on imaginer qu’un prix Nobel soit attribué pour la création d'algorithmes qui nous aident à extraire du sens d’énormes bases de données ? Cela me semble plausible. Car, même si ce sont de drôles de fruits qui sont ainsi cueillis, ce sont les fruits du même arbre que celui dans lequel ont pioché les glorieux anciens.

 R.I. - SCIENCE & VIE > Juillet > 2012
 

   
 C.S. - Maréva Inc. © 2000 
 charlyjo@laposte.net