UN « TRÉSOR NATIONAL »
À L'EXPLOITATION PERFECTIBLE

I. UN VASTE CHAMP DE DONNÉES DE SANTÉ À LA STRUCTURATION DÉLICATE

A. LE SYSTÈME NATIONAL DES DONNÉES DE SANTÉ, UN « TRÉSOR NATIONAL » AU POTENTIEL INSUFFISAMMENT MIS EN VALEUR

1. La constitution progressive d'un « trésor national »

De l'avis unanime des acteurs français et européens du secteur des données de santé, la France dispose de bases de données de santé particulièrement riches : selon le Pr Ségolène Aymé, « la base principale du SNDS est un socle de données de santé déjà très intéressant et unique au monde dans son volume et sa représentativité de la population couverte ». Les deux dernières « lois santé » de 2016 et 2019 ont eu pour ambition de structurer ce patrimoine et de l'identifier en vue de son utilisation.

a) Le SNDS « historique »

La loi du 26 janvier 201640(*) a créé le système national des données de santé41(*), dont la gestion est confiée à la Caisse nationale de l'assurance maladie (Cnam) et rassemblant sous cette même architecture des fichiers existants ou en cours de constitution :

le système national d'information interrégimes de l'assurance maladie (Sniiram), créé en 1999, alimenté par chaque organisme de sécurité sociale gestionnaire d'un régime de base d'assurance maladie. Ce système compile les dépenses de l'ensemble des régimes d'assurance maladie, organisées par circonscriptions, par natures de dépenses, par professionnels de santé et par établissements ;

les systèmes d'informations hospitaliers (SIH) mis en oeuvre par les établissements de santé, publics et privés. Ces systèmes sont alimentés par les différents praticiens de données médicales nominatives, transmises à un médecin responsable de l'information médicale pour l'établissement. Il s'agit de données médico-administratives, le Programme de médicalisation des systèmes d'information (PMSI) créé en 1982 ayant avant tout pour objet de réaliser la facturation des actes ;

le système d'information alimenté par les maisons départementales des personnes handicapées (MDPH), mis en oeuvre par la caisse nationale de solidarité pour l'autonomie (CNSA), qui rassemble, outre plusieurs informations nominatives, la « nature du diagnostic médical, l'origine et la nature des déficiences, les limitations d'activité, les besoins et les attentes » des personnes handicapées dont elles ont à connaître, en plus de certaines personnes âgées dans le cas des maisons départementales de l'autonomie (MDA) ;

- les données sur les causes de décès (BCMD, produite par l'unité CépiDC de l'Inserm), restituées sur les certificats d'attestation du décès ;

- un échantillon représentatif des données de remboursement par bénéficiaire transmises par des organismes d'assurance maladie complémentaire et défini en concertation avec leurs représentants.

Atout majeur du SNDS, les fichiers qu'il contient couvrent par nature l'ensemble de la population.

· Les quatre premiers items sont communément désignés sous la dénomination de « SNDS historique ».

Les données individuelles du système national des données de santé sont conservées pour une durée maximale de vingt ans.

En Scandinavie, une tradition ancienne de système de données de santé, non nécessairement formalisée comme telle

Le Danemark revendique un système de données de santé particulièrement riche et ancien42(*). L'organisation du système de santé, en partie dévolue aux collectivités locales, n'a pas fait obstacle à la constitution de registres depuis les années 1960 pour les échantillons biologiques par exemple. Le registre des causes de décès, créé en 1970, a été suivi par des bases relatives aux avortements (1973) et aux grossesses (1977).

Surtout, à partir de la fin des années 1970, des données sur les soins ont commencé à être collectées, avec les soins infirmiers et les traitements délivrés à l'hôpital (1977 pour les deux bases), complétées au cours des décennies suivantes par une base relatives aux consultations chez les généralistes (1990) et une autre concernant les soins délivrés par les services municipaux (2004). Enfin, des registres de qualité ont également été créés en 1995.

Au-delà des soins, les registres ont également été enrichis par des bases relatives aux dépistages néonataux (1982), à la vaccination (1996), aux médicaments délivrés en pharmacie (1997) et, depuis 2019, par une base génomique. Ces différentes bases sont gérées par des acteurs différents, même si une autorité danoise des données de santéSundhedsdatastyrelsen - assure la gestion d'une quarantaine de registres nationaux de santé.

Le système danois est ainsi présenté comme constitué de données de grande qualité et ainsi particulièrement riche dans le cadre d'une utilisation secondaire pour la recherche médicale.

Comme cela avait pu être mis en avant lors d'auditions, le système danois jouit en outre d'un avantage conséquent dans le potentiel d'exploitation de ces données, par l'attribution d'un numéro unique d'identification « CPR », utilisé sur l'ensemble du système de soins et qui permet de réaliser des appariements entre ces nombreuses bases de données.

La Suède, comme le souligne l'étude de législation comparée43(*), dispose d'un grand volume de données de santé, collectées de longue date. Malgré un manque d'uniformité dans l'enregistrement et le stockage des données de santé du fait d'une fragmentation des acteurs du système de santé, des registres ont été créés au niveau national et régional.

L'agence gouvernementale Socialstyrelsen est ainsi responsable de six registres nationaux :

le registre des cancers (cancerregistret), créé en 1958, qui constitue la base des statistiques officielles sur le cancer en Suède ;

le registre des interventions au sein des services de santé municipaux (registret över insatser inom kommunal hälso- och sjukvård), créé en 2007 ;

le registre des médicaments (läkemedelsregistret), qui contient des informations sur tous les médicaments prescrits sur ordonnance et délivrés par les pharmacies depuis 2005 (nom, quantité, prix, posologie) ;

le registre médical des naissances (Medicinska födelseregistret), qui contient des informations sur toutes les grossesses, naissances et nouveau nés depuis 1973 ;

le registre de la santé dentaire (Tandhälsoregistret), créé en 2008 ;

le registre des patients (Patientregistret), créé en 1964 qui fournit une base statistique sur tous les patients admis dans des services de soins hospitaliers, en services ambulatoires spécialisés et en soins psychiatriques obligatoires.

En outre, une centaine de registre de qualité nationaux ont été développés à partir de 2012, lesquels contiennent des données individualisées sur les interventions médicales, les procédures et les résultats par type de maladie.

b) Une extension principielle du SNDS en 2019 : un périmètre couvrant l'ensemble des soins financés par la collectivité

La loi du 24 juillet 201944(*) a élargi le SNDS historique en ajoutant six jeux de données supplémentaires. La loi de 2019 fixait l'objectif suivant : « Afin de favoriser l'utilisation et de multiplier les possibilités d'exploitation des données de santé, aussi bien en recherche clinique, qu'en termes de nouveaux usages, notamment ceux liés au développement des méthodes d'intelligence artificielle, le système national des données de santé sera enrichi de l'ensemble des données collectées lors des actes pris en charge par l'assurance maladie. Cette avancée positionnera la France parmi les pays en pointe en termes de structuration des données de santé, tout en préservant un haut niveau de protection de la vie privée. »

· La loi de 2019 retient une acception très large du champ du SNDS avec en réalité l'ensemble des données associées à des soins financés par l'assurance maladie.

Intègrent de droit le SNDS les données recueillies à l'occasion d'activités de prévention, de diagnostic, de soins ou de suivi médico-social. Données relatives à la perte d'autonomie, enquêtes dans le domaine de la santé reliées à des données de la base historique, mais aussi données recueillies lors de dépistages ou par les services de protection maternelle et infantile et de santé au travail rejoignent également le nouveau périmètre du SNDS en 2019.

En cela, le contenu des dossiers patients des établissements comme ceux des professionnels de santé, de même que l'ensemble des résultats des analyses biologiques, sont formellement des données du SNDS. Cependant, comme le soulignait la Drees45(*), « Cette définition large ne signifie évidemment pas pour autant que les données soient disponibles car il faut que les données puissent être rassemblées, qualifiées... puis pseudonymisées et enfin mises à disposition. »

Comme l'expliquait alors l'étude d'impact du projet de loi, cet élargissement du SNDS avait pour objectif de « démultiplier l'utilisation du SNDS aussi bien en recherche clinique qu'en termes de nouveaux usages notamment ceux liés au développement des méthodes d'intelligence artificielle »

Ajout non codifié, les données recueillies dans les traitements mis en oeuvre durant la crise sanitaire et prévus par la loi, à savoir particulièrement SI-Dep, sont rassemblées au sein du SNDS46(*).

Le SNDS s'articule aujourd'hui autour de la base principale (ou « historique ») qui comprend le Sniiram, le PMSI et CépiDC, quand les données des MDPH devraient la rejoindre en 2023 ou 2024, et d'un « catalogue » d'une dizaine de bases recensées par la Drees à ce jour. Au nombre de ces bases, on compte notamment les cohortes Epicov et Hepather, conduites par l'Inserm.

Depuis 2019, la gestion du SNDS ne relève plus du monopole de la Cnam mais doit être partagée entre différents acteurs, théoriquement la Cnam et la plateforme des données de santé (PDS).

Encadrement du SNDS par la Cnil

En 2018 la Cnil a mis en demeure la Cnam ce qui a conduit à rénover l'entièreté de sa chaîne de pseudonymisation des NIR dans la constitution du Sniiram et du SNDS. L'important chantier informatique qui s'est étalé sur plus de trois ans.

Les conditions d'utilisation et de stockage des données du SNDS sont soumises à un référentiel de sécurité, un arrêté soumis à un avis de la Cnil. Son actualisation, pilotée par la Drees, est d'ailleurs en cours et la Cnil a été saisie en janvier 2023 d'un nouveau projet. Les échanges sont en cours entre la Cnil et le ministère de la santé et de la prévention

2. Un potentiel insuffisamment mis en valeur
a) Une base médico-administrative avant tout

Si la richesse du SNDS est souvent mise en avant, il est unanimement rappelé que sa principale limite réside dans le caractère « médico-administratif » et non médical des données qui y sont portées.

L'insuffisante médicalisation du SNDS s'incarne principalement par l'absence de description clinique des consultations médicales, mais aussi par l'absence de résultats des examens prescrits - analyses biologiques ou imagerie. Le manque de données dans le champ infectieux a été particulièrement signalé, notamment par Unicancer, les résultats de tests virologiques réalisés en ville étant déterminants ; SI-Dep a été une exception notable en la matière.

Initialement pour une durée brève, le temps de la lutte contre le virus, l'autorisation de mise en oeuvre de ces traitements a été plusieurs fois prorogée par le pouvoir réglementaire, dans la limite fixée par le législateur et plusieurs fois repoussée. Aux termes de la loi du 30 juillet 2022, SI-DEP a finalement pris fin au 30 juin 2023.

Pour anticiper de nouvelles crises sanitaires, la construction d'un entrepôt national de données de biologie médicale (ENDB) « générique », similaire à SI-DEP, est cependant en cours de cadrage. La convention du 18 janvier 2023 en a confié la maîtrise d'ouvrage à la direction générale de la santé, et la réalisation à la direction du numérique du ministère de la santé. La mise en oeuvre de l'ENDB sera assurée par un comité de pilotage composé de représentants des deux directions et « chargé de définir et d'arrêter le programme de travail annuel »47(*). Le projet de décret prévoyant les modalités de fonctionnement de l'ENDB, renommé « LABOé-SI », pour « laboratoire électronique », a fait l'objet d'un avis du collège de la Cnil le 22 juin 2023.

L'Inserm a également signalé comme des lacunes du SNDS les données relatives au patient, comme sa taille, son poids ou encore sa consommation de tabac ou d'alcool, mais aussi la localisation du patient ou sa catégorie sociale.

Des indicateurs de qualité des soins manquant au SNDS

Une des lacunes identifiées dans l'approche médicale des données existantes est l'absence de ce qui est désigné comme PREMs (« Patient-Reported Experience Measures »), soit l'expérience des soins perçue par le patient et PROMs (« Patient-Reported Outcome Measures »), soit le résultat perçu par le patient, notamment sur ses symptômes, ses capacités fonctionnelles ou sa capacité de vie.

Au-delà de l'évaluation clinique faite par le professionnel de santé, ces indicateurs liés directement à la perception du patient ne peuvent être recueillies qu'au moyen d'échanges soigneusement menés (questionnaires ou entretiens) et, pour être exploitables, satisfaisant des méthodologies communes et documentées.

Ainsi le Sniiram permet-il par exemple de connaître le nombre de consultations dans une spécialité donnée ou la quantité délivrée pour un médicament particulier, mais ne saurait indiquer l'objet de la consultation, les symptômes déclarés ou, dans le cas de médicaments, la posologie et l'observance réelle.

Comme le résumait d'ailleurs le laboratoire Sanofi interrogé sur la pertinence du périmètre du SNDS, « les données du SNDS ont démontré leur robustesse pour les études à destination des autorités et à la définition de populations concernées par des pathologies spécifiques, parfois mal diagnostiquées avec une exploration des parcours de soins. Mais la finalité initiale de la collecte des données du SNDS historique était et reste à visée médico administrative. Celles-ci sont donc peu adaptées à la recherche médicale sur des nouvelles thérapies ou à la recherche scientifique fondamentale qui demanderaient un niveau de profondeur beaucoup plus fin. Le développement du catalogue et des entrepôts de données devrait permettre de renforcer le volet médical de ces données. »

Toutefois, comme cela a été souligné par différents acteurs, l'extension éventuelle du périmètre du SNDS n'est pas simple car son enrichissement suppose d'y adjoindre des bases suffisamment robustes et exhaustives pour s'y intégrer et requièrent par ailleurs de pouvoir y être appariées (ce qui implique que les nouvelles bases recueillent de manière fiable l'identité des personnes).

b) Une qualité des données sans doute perfectible

Deux enjeux principaux sont à noter concernant la tenue même du SNDS et son contenu : la fiabilité des données et leur actualisation.

Alors que le SNDS est souvent qualifié de « robuste », la qualité des données qui y sont recensées est une préoccupation majeure.

L'assurance maladie48(*) note que « la meilleure garantie de la fiabilité des données du SNDS est qu'elles proviennent de données de facturation. Les variables qui n'emportent pas de conséquences financières ou qui ne sont pas directement reliées à un remboursement souffrent en règle générale d'une moindre qualité. »

Alors qu'une réforme du financement des établissements de santé est annoncée sur le champ médecine-chirurgie-obstétrique (MCO) avec une réduction de la part de tarification à l'activité, la question des données que retracera demain le PMSI doit faire pleinement partie de la réflexion. Une réduction de la finesse de la facturation ou l'augmentation de financements globaux amoindriraient la pertinence de l'une des principales bases du SNDS historique.

À ce titre, la Cnam soulignait que, « En ce qui concerne les données issues de la facturation, ce sont les actions de contrôle et de lutte contre la fraude qui sont les plus susceptibles de maintenir la qualité et la sincérité de l'alimentation des données. » Le problème est très différent s'agissant des autres données. La Cnam indiquait qu'il s'agissait alors de « réussir à sensibiliser les gestionnaires des données à l'intérêt de données exhaustives, robustes et fiables. », constatant en pratique, l'insuffisance de ces arguments. Il est alors nécessaire d'intéresser les gestionnaires chargés d'alimenter les bases, avec la production d'éléments ayant une valeur ajoutée pour ceux-ci, ou bien de les rémunérer.

Le second enjeu de qualité tient à la fréquence de « mise à jour » du SNDS. Il n'y a pas, même dans le SNDS historique, de disponibilité immédiate des données. Les vérifications et consolidations nécessaires au versement, pour le Sniiram comme pour le PMSI, peuvent prendre plusieurs semaines ou mois49(*), et des délais de validation de plusieurs mois sont constatés pour CépiDC.

Mise à disposition du PMSI par l'ATIH

La mise à disposition des données PMSI au sein du SNDS s'appuie sur la première mission de l'agence

« L'Agence technique de l'information sur l'hospitalisation est chargée :

1° Du pilotage, de la mise en oeuvre et de l'accessibilité aux tiers du dispositif de recueil de l'activité médico-économique et des données des établissements de santé mentionné à l'article L. 6113-8 ainsi que du traitement des informations mentionnées au même article. »

L'ATIH transmet mensuellement à la Cnam les données PMSI validées par les établissements de santé et les ARS, pour alimentation du SNDS

Un dispositif de remontée accélérée des données du PMSI, dénommé Transmissions Accélérées Etablissements (TAE) a été mis en place par l'arrêté du 21 juillet 2020, modifiant l'arrêté du 23 décembre 2016 relatif au PMSIMCO, permettant à l'ATIH de récupérer les données dès validation des établissements. Ce dispositif a été mis en place lors de la crise sanitaire covid.

Aussi, depuis début août 2020, l'ATIH transmet à la Cnam chaque début de mois les données PMSI-MCO transmises par les établissements, dès validation de ces derniers et sans attendre la validation des ARS. Ces données viennent alimenter le SNDS. Ce dispositif fonctionne en routine depuis 15 mois, sans interruption. Ces envois mensuels TAE se poursuivent en parallèle des envois mensuels classiques.

Source : ATIH


* 40 Loi n° 2016-41 du 26 janvier 2016 de modernisation de notre système de santé.

* 41 Article L. 1461-1 du code de la santé publique.

* 42 Présentation « Denmark, The Epidemiologist's dream - When an entire country is a cohort ».

* 43 Sénat, étude de législation comparée LC 324, été 2023.

* 44 Loi n° 2019-774 du 24 juillet 2019 relative à l'organisation et à la transformation du système de santé.

* 45 Réponses au questionnaire.

* 46 Article 7 de la loi n° 2021-689 du 31 mai 2021 relative à la gestion de la sortie de crise.

* 47 Convention de délégation de gestion du 18 janvier 2023 relative au financement du système d'information de l'Entrepôt national des données de biologies médicales (ENDB) entre la direction générale de la santé et la direction du numérique.

* 48 Réponses au questionnaire.

* 49 En cas de besoin urgent, des versions provisoires peuvent parfois être exploitées, comme cela a pu être fait durant la crise sanitaire.

Les thèmes associés à ce dossier