Nathalie Carrasco, Présidente de l'ENS Paris-Saclay
Camille Galap, Président de l'Université Paris-Saclay
Isabelle Blanc, Administratrice Ministérielle des Données, Algorithmes et Codes sources, Ministère de l’Enseignement supérieur, de la Recherche et de l’Espace
Représentant.es des organismes nationaux de recherche
Etienne Augé, Vice Président délégué à la science ouverte de l'Université Paris-Saclay, Président du conseil scientifique des ANDOR
Résumé : Les 1er et 2 décembre 2025 se sont tenues à l’ENS Paris-Saclay les Assises nationales des données de la recherche (ANDOR). Après une première édition organisée par Aix-Marseille Université au MUCEM, l’Université Paris-Saclay a co-organisé, avec le Ministère de l’Enseignement supérieur, de la recherche et de l’espace, ce rendez-vous désormais majeur de la communauté scientifique autour de la gestion des données de recherche.
Après des mots introductifs de Nathalie Carrasco, présidente de l’ENS Paris-Saclay, de Camille Galap, président de l’Université Paris-Saclay, d’Étienne Augé, son vice-président délégué à la Science ouverte, et d’Isabelle Blanc, administratrice ministérielle des données, algorithmes et codes sources, les deux journées de tables rondes et de débats ont mis à l’honneur les innovations autour de la gestion des données de recherche, dans les domaines de la santé, des sciences de l’environnement, et de l’intelligence artificielle.
14h30- 17h30 Session 1 : L'accès aux données sensibles
Introducing the opportunities and challenges of sensitive data in the social sciences : Bonnie Wolff-Boenisch, directrice du Consortium of European Social Science Data Archive (diapositives)
Résumé : Bonnie Wolff-Boenisch, directrice du Consortium of European Social Science Data Archive, a présenté la mission du CESSDA : fournir une infrastructure de recherche soutenable, permettant aux communautés de recherche européennes en sciences sociales de conduire leurs recherches dans un environnement sécurisé. Il permet d’éviter de partager des données sensibles, ou de perdre la trace de données au fil du temps. Les données sensibles peuvent être rendues accessibles par des environnements de recherche sécurisés, légalement et éthiquement encadrés.
Résumé : Kamel Gadouche, directeur du Centre d’accès sécurisé aux données (CASD) de l’Institut Polytechnique de Paris, a présenté à son tour le CASD, recueillant un ensemble de données particulièrement sensibles (fiscales, judiciaires, de santé…), avec la possibilité unique d’opérer des recoupements entre elles. Grâce à un accès sécurisé par boitier papillaire et biométrique, les données peuvent être consultées partout dans le monde, à condition d’un accès octroyé par un comité de protection d’accès aux données, dirigé par un Conseiller d’État. Ce projet de grande ampleur est partagé entre l’École Polytechnique, l’INSEE, le CNRS, HEC Paris et, depuis peu, par la Banque de France.
Enjeux des données en géophysique, un point de vue au CEA/DAM : Hélène Hébert, Senior Fellow du CEA, géophysicienne (diapositives)
Résumé : Hélène Hébert, directrice de recherche au CEA et géophysicienne, a présenté le Département Analyse Surveillance Environnement (DASE) du CEA, opérant un suivi des évènements sismiques, des tsunamis, et des surveillances utiles à la détection d’essais nucléaires non-autorisés. L’enjeu de la FAIRisation des données sismiques, actuelles et archivées, est grand : permettre à un maximum d’acteurs, comme la Protection civile, les communautés de recherche et les autres partenaires de la sécurité nucléaire, de se saisir de ces données à la granularité unique dans le monde, pour en faciliter un maximum d’applications.
Table-ronde sur les données de santé
L’espace européen des données de santé (EEDS) : Rémy Marquier (animateur), Directeur de projets Données de santé à la Drees - Ministères chargés de la Santé et des Solidarités, (diapositives)
Hugues Berry, Directeur du Pôle IA & Numérique de l'Inserm - INRIA/Données de Santé
Yves Vandenbrouck, CEA, Directeur de Recherche, Chargé de mission santé numérique, (diapositives)
Résumé : L’après-midi, une table ronde sur le sujet des données de santé a rassemblé Hugues Berry, directeur du pôle IA et numérique de l’INSERM, Yves Vandenbrouck, directeur de recherche au CEA, présentant l’infrastructure N4Brain pour la FAIRisation et l’homogénéisation des données en neuroscience, mettant à la disposition des chercheurs des personnels d’appui offrant différents services autour de ces données, et une mutualisation de moyens pour la gestion sécurisée de ces données ; Marie Zins, professeure de santé publique, directrice de la cohorte CONSTANCES, ambitionnant une approche des pathologies rencontrées par un individu tout au long de sa vie, permettant d’étudier l’accumulation des facteurs de risque et l’interaction entre les pathologies, appariant les données via l’Assurance maladie et l’Assurance vieillesse.
17h30-18h30 : Remise des prix science ouverte, prix logiciel libre, données et thèses du Ministère
Mardi 2 décembre 2025
9h-11h : Session 2 : Partage et réutilisation des données
Présentations
Interopérabilité des données en sciences de la vie. Contexte, ressources et cas d’utilisation : Michael Alaux, Directeur d'unité adjoint (DUA) de l'URGI et Anne-Françoise Adam-Blondon, Directrice de Recherche à INRAE (diapositives)
Données météo-climatiques et IA : exemples d’utilisation et partage : Sarah Cohen-Boulakia, Directrice-adjointe de DATAIA, (diapositives)
Données météo-climatiques et IA : exemples d’utilisation et partage : Hervé Roquet, Directeur adjoint de l'enseignement supérieur et de la recherche à Météo-France, (diapositives)
Résumé : Hervé Roquet, directeur adjoint à l’enseignement supérieur et à la recherche à Météo France, a présenté la stratégie d’ouverture des données de l’agence météorologique française : les gros volumes de données en libre accès depuis 2024 et la transition vers l’open access complet permettent le traitement par des modèles d’intelligence artificielle dans la météorologie, de même que l’utilisation d’images de webcam locales pour détecter des chutes de neige. Météo France est en cours de développement du modèle AROME-IA, reproduction du modèle de prévision AROME basé sur l’intelligence artificielle, nécessitant encore de grands volumes de données pour opérer des réanalyses du climat passé. Le constat par Météo France de la marginalité des gains engendrés par le modèle commercial de fermeture des données et l’émulation des acteurs publics en faveur de l’ouverture et la FAIRisation de leurs données les ont encouragés à cette transition, dont le bénéfice socio-économique est indiscutable.
Mise en oeuvre des principes FAIR pour les données ouvertes en appui aux rapports d’évaluation du GIEC : Valérie Masson-Delmotte, Directrice de recherche CEA au Laboratoire des Sciences du Climat et de l'Environnement, Paris-Saclay (diapositives)
Résumé : Valérie Masson-Delmotte, directrice de recherche au Laboratoire des Sciences du Climat et de l’Environnement (CEA/Université Paris-Saclay), a présenté la manière dont les principes FAIR sont mis en œuvre pour les données ouvertes, en appui des rapports d’évaluation du Groupement d’experts intergouvernemental sur l’évolution du climat (GIEC). Afin de permettre la reproductibilité des résultats, le GIEC met à disposition les jeux de données liés aux rapports et aux graphiques réalisés, et créé directement des liaisons au sein de leurs rapports. Le 6e cycle du GIEC opère un gros travail sur l’ouverture des données de recherche, promouvant des avancées scientifiques basées sur des données ouvertes, sur une meilleure transparence et reproductibilité, la mise en œuvre du protocole d’erreur pour la rectification d’informations erronées, et la curation à long terme de l’information numérique pour s’assurer d’un accès aux données durable : cela passe par le financement d’un centre de distribution des données, et d’une aide financière aux centres de données qui stockent les données du GIEC. Des formats numériques ouverts, simples, facilitant l’accessibilité et la réutilisation sont utilisés, avec une reconnaissance du travail des développeuses et développeurs autour des scientifiques du climat. Les Jupyter Notebooks, environnements de développement logiciel utilisés pour la gestion des données du climat et des codes sources utilisés, ont été rendus publics pour suivre le flux de pensée des chercheurs, et mieux documenter les productions finales. Le GIEC n’utilise pas encore d’outils d’intelligence artificielle, mais travaille avec HuggingFace sur un projet d’agent conversationnel autour des rapports et données du GIEC.
11h30- 12h15 : Keynote : Droit des données de la recherche
Agnès Robin, Maître de conférences HDR en Droit privé à l'Université de Montpellier (diapositives)
Résumé : Agnès Robin, maître de conférences en droit privé à l’Université de Montpellier, a proposé une conférence autour du droit des données de la recherche : à l’interface entre le droit public, le droit privé et le droit international, le droit des données de la recherche s’impose de plus en plus comme une problématique au sein des établissements de recherche. Le développement de l’intelligence artificielle, des injonctions des agences de financement et des problématiques de licences de diffusion en font un sujet de premier plan. Afin d’y répondre, Agnès Robin a dirigé le projet de site web Jurisdor, commandé par le Ministère, visant à rassembler l’information juridique autour des données de recherche, afin de mettre des ressources à disposition des personnels d’appui à la recherche des universités et établissements de recherche.
Keynote IA - Vers des LLMs ouverts et transparents pour l'Europe : conception, adaptation et explicabilité : Céline Hudelot, Professeure en informatique, CentraleSupélec, (diapositives)
Résumé : Céline Hudelot, professeure en informatique à CentraleSupélec, a présenté le développement de grands modèles de langage (LLM) ouverts, transparents et souverains, notamment à travers l’exemple de CroissantLLM, modèle souverain, responsable et frugal développé par le laboratoire MICS. Le choix a été fait d’entraîner un modèle à partir de zéro (sur la base d’un modèle à encodeur, faisant prédire un mot masqué dans une phrase), plutôt qu’un pré-entraînement continu à partir d’un modèle existant, faisant perdre une partie de la maîtrise sur le code. Ce LLM a permis d’étudier l’impact d’un entraînement bilingue sur la performance du modèle. Il s’est voulu le plus transparent possible, avec un corpus d’entraînement ouvert, des points de contrôle, permettant un usage académique et industriel.
Table rondeSouveraineté et IA
Animation : Sarah Cohen-Boulakia, Directrice-adjointe de DATAIA
Renaud Vedel, conseiller d'Etat
Frédéric Pascal, Directeur de l'Institut DATAIA, VP IA Université Paris-Saclay, CentraleSupélec, L2S Lab
Olivier Biton, Directeur de la Transformation technologique de Crédit Agricole
Marc de Falco, Inspecteur général de l'éducation, du sport et de la recherche, Informatique, Mathématiques, IA
Résumé : Une dernière table ronde “Souveraineté et IA”, animée par Sarah Cohen-Boulakia, directrice adjointe de l’institut DATAIA, a rassemblé Renaud Vedel, haut-fonctionnaire spécialiste des questions de numérique et d’intelligence artificielle, ancien directeur de cabinet ministériel, Frédéric Pascal, vice-président IA de l’Université Paris-Saclay, professeur à CentraleSupélec, directeur de l’institut DATAIA, Olivier Biton, directeur de la transformation technologique au Crédit Agricole, et Marc de Falco, inspecteur général de l’éducation, du sport et de la recherche, spécialiste des questions d’informatique, de mathématiques et d’IA. Les intervenants ont échangé sur les problématiques posées par l’hébergement aux États-Unis des “modèles de fondation”, plus grands modèles d’intelligence artificielle commerciaux disponibles sur le marché (OpenAI, Gemini…), mais aussi de la dépendance aux datacenters états-uniens pour l’entraînement et l’hébergement de modèles européens, le Vieux Continent ne disposant actuellement pas d’infrastructures suffisantes pour assurer son autonomie. Au-delà, le manque de culture numérique des citoyennes et des citoyens autour de ce que permet et ne permet pas l’intelligence artificielle brouille les lignes, et invisibilise le bilan écologique de l’intelligence artificielle, qui requiert des quantités massives d’eau, d’électricité, notamment dans des pays où sa production est fortement carbonée. Une rationalisation des usages de l’IA est nécessaire, ainsi que le passage vers des modèles plus efficaces, plus frugaux, aux usages recentrés, à la production et au fonctionnement assurant la souveraineté de la France et de l’Union Européenne.
16h-16h30 : Discours de clôture
Résumé : Ces deuxièmes Assises nationales des données de la recherche se sont achevées par un discours de clôture d’Étienne Augé et d’Isabelle Blanc, qui ont passé le flambeau à l’Université de Montpellier, organisatrice de la troisième organisation en 2026 !