Informatique
-A +A

Software Heritage : La bibliothèque d’Alexandrie des logiciels

Lancé par Roberto Di Cosmo, professeur d’Informatique en détachement chez Inria, avec Stefano Zacchiroli, maître de Conférences et une équipe qui compte aujourd’hui dix personnes, Software Heritage est un projet ambitieux d’archivage pour la préservation des logiciels et des codes sources à l’échelle mondiale.

Depuis 4 ans, Software Heritage relève le défi de sauvegarder la totalité des codes sources issus de logiciels publiquement disponibles.

 

à la conquête des codes sources

« Tout cela est parti d’un problème que l’on a rencontré dans notre laboratoire lorsque l’on travaillait sur l’analyse massive des codes sources. On s’est rendu compte pendant nos recherches qu’on ne disposait pas d’une archive de tous les codes sources, et que la fermeture de grandes plateformes de dévéloppement comme Gitorious ou Google Code mettait en danger des millions de projets logiciels. »  explique Roberto Di Cosmo. Le constat de cette perte d'informations, à la fois massive et fulgurante, fut le point de départ de l’aventure Software Heritage : « Nous ne pouvions pas attendre plus longtemps, il nous fallait agir avant qu’il ne soit trop tard ! ».

Mais comment s’y retrouver dans l’éparpillement des données sur une multitude de plateformes de stockage ? C’est là que Software Heritage intervient. « Le problème avec les logiciels c’est que l’’evolution technologique rend les exécutables rapidement inutilisables, alors que le code source peut toujours être lu.  Grâce à Software Heritage, les codes sources resteront disponibles et pourront être lus, étudiés et reutilisés  »  s’enthousiasme Roberto Di Cosmo.

L’équipe s’est alors lancée dans cette longue et fastidieuse aventure avec beaucoup d’entrain. Et très vite, l’Inria a accepté de financer une partie du projet pour permettre de stocker des codes sources à long terme. Pour assurer la pérennité de l’archivage, Software Heritage est en train de constituer un réseau international de miroirs en déployant plusieurs serveurs dans différentes parties du globe. «  Il faut savoir que les codes sources ne sont pas très gros, si on s’y prend intelligemment pour les archiver ; on peut les faire tenir dans seulement quelques centaines de teraoctets : cela permet de tout archiver, sans être obligés de mettre en place des filtrages en amont.» complète le directeur de Software Heritage.

 

Le théâtre d’un patrimoine scientifique et culturel

A ce jour, plus de 4 milliards de codes sources ont pu être identifiés et archivés. Si ce travail n’est qu’une brique du mur de données à ériger, il n’en est pas moins essentiel. Il contribue à la constitution d’un patrimoine scientifique informatique, historique et culturel. 

Software Heritage répond aujourd’hui aux trois fondamentaux de la conservation de codes sources que sont : 

  • La disponibilité, en offrant l’accès à toutes les formes de codes ; 
  • La traçabilité, en permettant dereproduire des expériences scientifiques.
  • L'uniformité, en regroupant tous les codes sources en un seul et même endroit et sous une même forme.


Il se positionne ainsi comme un outil d’archivage des plus innovants.

En citant Karl Popper, un grand épistémologue qui écrivait : "Les phénomènes qui se reproduisent une seule fois et que l’on n’arrive pas à reproduire n’ont aucune signification scientifique", Roberto Di Cosmo nous rappelle que la science consiste à faire des observations, émettre des hypothèses, comprendre puis reproduire. De nos jours, nous avons besoin de données, de logiciels, de résultats pour faire avancer les recherches et Software Heritage nous apporte la garantie de pouvoir retrouver et exploiter les logiciels utilisés dans la recherche.  « Nous ne sommes pas capables de reproduire la plupart des expériences informatiques parues il y a quelques années car les codes sources et les logiciels sont manquants. En conservant sous une même forme et en rendant disponible les codes sources, Software Heritage facilite déjà la reproduction d’expériences » se félicite Roberto Di Cosmo.  « L’importance de cette mission est d’ores et déjà inscrite dans le plan national pour la Science Ouverte, qui vient d’ềtre dévoilé par la Ministre de la Recherche à l’occasion de la conférence Liber 2018. »

Et pour aller plus loin, il lance un appel à la communauté scientifique : « J’aimerais vraiment que beaucoup de personnes s’investissent dans ce projet car l’histoire des logiciels ce n’est pas qu’une histoire de technique c’est aussi l’histoire d’hommes et de femmes passionnés qui ont développé des outils qui constituent, aujourd’hui, un véritable patrimoine scientifique et culturel ».
 

Software Heritage, en chiffres

Codes sources enregistrés : 4 649 361 155

Commits : 1 056 534 056

Projets lancés : 83 899 618

Pour en savoir plus et soutenir Software Heritage, rendez-vous sur le site de la Fondation

Laboratoire

Institut de Recherche en Informatique Fondamentale

L'IRIF est une unité mixe de recherche (UMR 8243) de l'Université Paris-Diderot et du CNRS, issue de la fusion des deux UMR LIAFA et PPS au 1er janvier 2016.