Données de santé massives : des enjeux à anticiper

Par

Publié le 02/12/2022

Article réservé aux abonnés

Consentement, qualité de la recherche, sécurisation… L'exploitation des données de santé en recherche ouvre de nouveaux questionnements. Ils étaient au cœur de la 9 ^e journée annuelle du comité d'éthique de l'Inserm, le 8 novembre dernier.

Les populations vulnérables et les exclus du numérique sont les angles morts de ces données massives
Crédit photo : VOISIN/PHANIE

Depuis le 30 juin 2021, l'Inserm a un accès permanent au Système national des données de santé (SNDS), c'est-à-dire la mine d'or française qui regroupe plusieurs bases de données, à commencer par le Système national d’information inter-régimes de l’Assurance-maladi (Sniiram), le Programme de médicalisation des systèmes d'information des établissements de santé (PMSI) et le Centre d'épidémiologie sur les causes médicales de décès (CépiDc). « Cette ouverture nous oblige à réfléchir à une application éthique des données massives », a déclaré le professeur de santé publique Pierre Lombrail, en ouverture de la journée annuelle du comité d'éthique de l'Inserm dont il est membre. « Notre rôle est d'anticiper les questions », corrobore le Dr Hervé Chneiweiss, neurologue et chercheur, président du comité.

Loin de les jeter aux oubliettes, les données massives (ou « big data ») interrogent à nouveaux frais les quatre principes de l'éthique biomédicale définis en 1979 par Childress et Beauchamp (à savoir l'autonomie, la bienfaisance, la non-malfaisance et l'équité). Que signifie l'autonomie, quand les personnes ne savent guère ce à quoi elles consentent en livrant leurs données de santé ? La bienfaisance n'implique-t-elle pas du chercheur des protocoles de qualité élaborés grâce à des données solides - au prix d'un travail de curation long et coûteux ? La non-malfaisance invite à écouter les craintes relatives à la sécurité de nos données. Quant au principe d'équité et de justice, l'honorer suppose de penser une compensation ou rétribution en échange des données. Quatre principes comme autant de balises pour trouver une ligne d'équilibre entre un accès aux données facilité pour les chercheurs, la fiabilité scientifique - car aucune mauvaise recherche ne peut se prétendre éthique - et la protection des personnes.

La confiance, au-delà du consentement

La cohorte Constances, qui depuis 10 ans compte 220 000 participants tirés au sort puis invités à passer une batterie d'examens dans un centre de l'Assurance-maladie et à remplir des questionnaires répétés au fil des années, illustre les apories du consentement à l'ère du « big data ».

La plateforme a travaillé en lien étroit avec la Commission nationale de l'informatique et des libertés (Cnil), a reçu le label du Conseil national de l'information statistique (Cnis) et le label d'intérêt général et de qualité statistique ; l'Inserm est garant de la notice d'information. Soit tous les gages attestant d'une législation très protectrice des données. « Mais en réalité, la majorité des participants ne savent pas à quoi ils disent oui ; ils ne savent pas ce qu'il y a dans les bases de données et ne comprennent pas les algorithmes d'intelligence artificielle », assure le Pr Marcel Goldberg, professeur émérite d’épidémiologie et de santé publique à l’Université Paris Cité et coresponsable scientifique de la cohorte Constances.

Certaines recherches se sont même construites chemin faisant. « On a implémenté une centaine d'algorithmes pour identifier des maladies à partir du SNDS ; nous avions l'accord des personnes pour extraire des données mais nous n'en connaissions pas la finalité exacte, à l'origine. De même, ce n'est qu'a posteriori que l'historique des adresses recueillies ou des lieux professionnels a été croisé avec des données relatives aux polluants atmosphériques ou à l'exposition à l'amiante », illustre le Pr Golderg.

Comment garantir le sens d'un consentement ? Le Pr Goldberg est réticent à l'idée d'un consentement dynamique - qui consiste à revenir vers les participants à chaque nouvelle utilisation de leurs données. « Ce n'est pas réaliste : plus de 100 projets partent de Constances, les gens seraient harcelés », considère-t-il. Sans compter le risque d'absence de réponses qui mettrait en péril les recherches.

Les coordonnateurs de Constances ont plutôt opté pour l'information régulière des participants (et le rappel du droit d'opposition), à travers des courriers nominatifs, des newsletters, un journal et les réseaux sociaux, des webinaires, et surtout une association de volontaires de la cohorte, qui joue un rôle de « tiers de confiance ». « Celle-ci reçoit très peu de recours, nous avons très peu d'abandon et observons même certains retours ; aucune plainte n'a jamais été déposée. Le taux de réponse aux questionnaires est de 70 % , la participation aux études ancillaires est bonne », constate le Pr Golderg.

Plus que sur un consentement formel, c'est donc sur la confiance que repose la motivation des participants. « Fragile, elle nous engage à maintenir en permanence la communication avec les volontaires et à être transparents sur l'utilisation des données », estime-t-il.

Quand l'éthique s'entremêle à la technique

Parallèlement au recueil et à l'utilisation des bases de données, c'est leur constitution même et leur assemblement dans des entrepôts, voire des plateformes (lorsque s'y ajoutent des outils d'analyse), qui soulèvent une arborescence de questions éthiques. C'est ce qu'analysent actuellement le Comité national pilote d'éthique du numérique (CNPEN) et le Comité consultatif national d'éthique (CCNE) en vue de rendre prochainement un avis.

Au niveau de la constitution des bases de données, les principes Fair publiés en 2016 dans « Nature »* veulent qu'elles soient « faciles à trouver, accessibles, interopérables et réutilisables ». Puis, la création des entrepôts est soumise à validation d'un comité scientifique et éthique.

Quant aux plateformes, doivent-elles être centralisées (comme le Health Data Hub, qui se veut un guichet unique pour accéder simplement à toutes les données) ou décentralisées (comme le Ouest DataHub, un réseau des entrepôts d'établissements de Rennes, Nantes, etc.) ?, interroge le sociologue et membre du CCNE Emmanuel Didier. Quelle approche de la souveraineté adopter : une vision libérale et entrepreneuriale, selon laquelle ces plateformes peuvent devenir des licornes pour se disputer les marchés internationaux, ou une vision plus protectrice et régulatrice ? Et quelle valorisation instaurer : la plateforme doit-elle être rémunérée à hauteur du coût de la maintenance, ou peut-elle chercher à faire des bénéfices ?

Les futures recommandations du CNPEN et du CCNE devraient insister sur la co-construction des plateformes avec les patients mais aussi les soignants, dans une dynamique multidisciplinaire, incluant les chercheurs en sciences humaines et sociales. Il sera aussi recommandé que les partenariats internationaux impliquant des données de santé respectent scrupuleusement les principes du Règlement général sur la protection des données (RGPD) et du Data Act européen. Ou encore que les équipes de direction des plateformes publiques soient indépendantes des entreprises qui les sollicitent pour utiliser leurs données.

Tournant épistémologique

Une gestion éthique des données de santé suppose in fine une meilleure acculturation de l'ensemble des citoyens à ces problématiques, afin qu'elles ne restent pas enfermées dans une boîte noire et ne soient diabolisées ou au contraire fantasmatiquement portées aux nues. « N'attendons pas de ces dispositifs plus que ce qu'ils promettent », met en garde Pierre Lombrail.

L'explosion des données de santé ne doit pas non plus faire perdre le nord à la rigueur scientifique. « La science ne peut faire l'économie d'hypothèses ni de théories, le réel ne se dévoile pas de lui-même à travers les données », rappelle le philosophe Paul-Loup Weil-Dubuc, responsable de la recherche à l'Espace éthique Île-de-France. Les études pangénomiques sur la maladie d'Alzheimer ou les pathologies psychiques peuvent certes pointer des gènes en cause, l'intelligence artificielle (IA) peut mettre en évidence des corrélations utiles, mais aucune causalité ne se dégagera ainsi. De plus, les données ignorent le monde des valeurs, une gouvernance politique qui ne tiendrait compte que des nombres est vouée à l'échec. « Seules des approches interprétatives (enquêtes, recueil de l'expression des personnes, NDLR) peuvent nous permettre de comprendre les réticences à la vaccination », illustre le philosophe.

Sans oublier qu'aussi massives qu'elles soient, les données comportent leurs angles morts : les populations vulnérables et les exclus du numérique. Une épine dans le pied du principe d'une diffusion équitable de l'innovation, jusque dans les soins pour tous les patients.

*M. D. Wilkinson et al, Sci Data, 2016. doi: 10.1038/sdata.2016.18

Coline Garré