Recherche : la fouille de données désormais accessible
Adopté définitivement par le Sénat, le 28 septembre dernier, le projet de loi « Pour une République numérique » entérine la fouille de textes et de données produits par les chercheurs et scientifiques français. La CPU se réjouit de cette avancée qui permet de sécuriser et de libérer des pratiques scientifiques jusqu’ici entourées d’incertitudes.
C’est une étape décisive en faveur du partage et de l’exploitation des savoirs produits par la recherche. L’adoption définitive du projet de loi « Pour une république numérique » permet d’ouvrir une partie des données publiques de la recherche des administrations et des données d’acteurs privés ayant une mission de service public (article 17 de la loi). Est également prévu le libre accès aux données de recherche publique et l’accès sécurisé des chercheurs aux grandes bases de données publiques.
Jusqu’ici, en effet, au nom de la protection du droit d’auteur, la loi interdisait aux chercheurs de réutiliser des articles scientifiques et/ou des données publiés, alors même que ces résultats étaient le fruit de leur travail et financées par de l’argent public.
Une prise de position partagée par l’ensemble de la communauté scientifique
Depuis le début de la discussion du projet de loi au Parlement, la CPU et les organismes de recherche avaient pris position pour inscrire dans la loi la possibilité pour chaque auteur de rendre ses écrits scientifiques, lorsque ces derniers sont financés en majorité sur fonds publics, librement accessibles au terme de délais pris en cohérence avec les recommandations de l’Union européenne (au maximum 6 mois pour les sciences et techniques et 12 mois pour les sciences humaines et sociales).
La communauté scientifique considère que c’est par l’ouverture et le partage des données de la science que la recherche scientifique contribue à moderniser les pratiques démocratiques et le progrès économique, social et culturel.
Zoom sur la fouille de données
La fouille de textes et de données (text and data mining – TDM) consiste à explorer, via des techniques de fouille, des corpus immenses – composés notamment d’articles scientifiques ou de données expérimentales – afin d’en déduire des nouvelles connaissances. Imaginez qu’un chercheur en épidémiologie puisse analyser automatiquement les 2 millions d’articles scientifiques traitant du cancer, afin de déterminer s’il existe une corrélation inconnue à ce jour entre une pratique et l’apparition de la maladie : voilà ce que permet le TDM. Si cela vaut pour l’ensemble des disciplines, cette technique prend tout son sens lorsqu’il s’agit d’objets complexes, qui nécessitent un traitement pluridisciplinaire : les épidémies donc, mais aussi les objets climatiques, les phénomènes politiques, etc.