Big data : de multiples défis pour les sciences du vivant
Ces dernières années, la production de données en sciences du vivant a explosé, posant – au-delà du stockage – des problèmes majeurs d’analyse, et soulevant des questions d’ordre éthique, en particulier pour les données liées à l’humain. Ainsi, si les big data se révèlent indispensables pour développer la médecine personnalisée, de nombreux enjeux doivent donc être relevés, comme l’explique la bioinformaticienne Catherine Etchebest.
Les sciences du vivant connaissent depuis une dizaine d’années une véritable transformation, qui s’exprime particulièrement dans le domaine des connaissances sur le génome humain et plus généralement sur les « omiques » (génomique, transcriptomique, exomique, proteomique, métabolomique, etc.). Au cours de la décennie 2005-2015, la production de données a doublé en moyenne tous les sept mois. Et c’est loin d’être terminé, comme l’indiquent les projections à horizon 2025 : on devrait alors atteindre un zetaoctets de données par an, soit 1 000 milliards de milliards d’octets !
Les cinq V, au cœur des réflexions des chercheurs
« En sciences du vivant, les big data peuvent permettre de développer une médecine personnalisée, indique Catherine Etchebest, professeure à l’université Paris Diderot et directrice de l’équipe DSIMB (Dynamiques des structures et des interactions des macromolécules biologiques) évoluant au sein du laboratoire Biologie Intégrée du Globule Rouge (Inserm/Paris Diderot). Aujourd’hui, comme dans d’autres domaines, de nombreuses questions se posent autour de la production massive de données, résumées par les cinq V : vitesse d’acquisition, volume, véracité, variété et valeur. » Comment, en particulier, gérer, exploiter, vérifier et interpréter ces données pour leur donner du sens, en les reliant par exemple à l’émergence d’une pathologie ou en proposant un traitement thérapeutique adapté à l’individu ?
Parmi les défis à relever, le stockage et l’accessibilité des données nécessitent le recours de plus en plus à des solutions externalisées (« cloud ») aux laboratoires de recherche, ce qui soulève la question de la sécurisation des données. En outre, « leur interprétation pertinente requiert le développement de nouvelles approches bioinformatiques », estime la chercheuse. La question de leur qualité est également au cœur de toutes les attentions : « les coûts associés à l’utilisation de technologies de pointe limitent le nombre d’expériences possibles, qui doivent pourtant être suffisamment nombreuses pour assurer la qualité et donc la pertinence des données, illustre Catherine Etchebest. La diversité des technologies peut conduire aussi à des résultats dont l’interprétation peut s’avérer différente, d’où la nécessité de disposer d’un benchmark déjà validé. »
Vers une approche pluridisciplinaire
Compte tenu des enjeux en santé publique, la mise à disposition des données pour l’ensemble de la communauté scientifique et leur valeur financière potentielle posent également des questions éthiques qui vont devoir être débattues.
Ce rapide tour d’horizon confirme la nécessité, pour les chercheurs en sciences du vivant, de développer une vision interdisciplinaire des apports du numérique. Pour Catherine Etchebest, « nos travaux doivent désormais associer des bioinformaticiens, capables d’interpréter les données, des biostatisticiens ou encore des informaticiens capables de développer des modèles. Les big data en sciences du vivant se placent aujourd’hui au carrefour d’échanges avec de nombreuses sciences – mathématiques, économie, éthique… ».