Sujet de thèse :
Présentation
La recherche en épidémiologie est présumée connaître aujourd’hui une double « révolution des données » avec d’une part, la collecte et le traitement de données massives, définies par leur volume, leur diversité et leur hétérogénéité (Leonelli, 2019) et d’autre part, une redéfinition des enjeux de ré-usage des données. Ces questions ne sont pas récentes : en effet, les cohortes épidémiologiques généralistes, dispositif phare de la recherche en santé publique (Goldberg et Zins, 2012), se sont positionnées très tôt comme des plateformes de recherche productrices d’une grande variété de données à destination d’une multiplicité d’usagers. Pourtant, les enjeux associés se posent en des termes renouvelés et ils sont tout particulièrement saillants dans le domaine de la recherche en santé environnementale, qui fait un usage privilégié des cohortes pour appréhender les impacts de l’environnement au sens large sur la santé des populations.
S’agissant de la production des données, les chercheur.euses de la santé environnementale signalent l’avènement d’une « épidémiologie digitale » (via par exemple la surveillance des expositions à des polluants par le biais de capteurs embarqués, mais aussi le recours à des données tirées des médias sociaux ou des applications e-santé) (Engelmann, 2022) mise au service de la reconstitution de l’ensemble des expositions environnementales (défini comme l’exposome, Wild, 2005).
Par ailleurs, le problème des usages multiples est aujourd’hui en pleine recomposition, au point de devenir un opérateur de transformation majeur des mondes de la santé. En effet, au moins depuis la fin des années 2000, de nombreux acteurs publics et privés plaident pour la mise en circulation massive des données dans de nouveaux contextes d’usages (e.g Gagneux, 2009 ; Bras et Loth, 2013 ; Commission Open Data en santé, 2014), avec à la clé une promesse d’amélioration de la santé des populations (Inserm, 2022). C’est ce qu’on retrouve notamment dans les récentes politiques de réutilisation au niveau national et Européen (Règl. (UE) 2025/327). Le renouveau de la question des usages multiples adresse aux cohortes généralistes, et à la santé environnementale, de nouveaux défis, tels que l’explosion des ambitions de partage de données, notamment dans des réseaux européens, ou encore les réflexions sur les conditions de l’interopérabilité avec de nouvelles bases de données.
Les méthodes d’analyse fondées sur des algorithmes d’intelligence artificielle véhiculent de nombreuses promesses quant à leur capacité à transformer en profondeur les infrastructures de recherche que sont les cohortes généralistes à l’heure des politiques de production et de circulation massives des données. Il est notamment question, grâce à l’IA, de promouvoir une santé publique dite de précision (intervenir de la bonne manière, auprès de la bonne population, au bon moment) (Khoury et al 2016), ainsi
Voir plus sur le site emploi.cnrs.fr...