Jeudi 6 mars 2014

- Présidence de M. Jean-Jacques Hyest -

La réunion est ouverte à 9 h 30.

Audition de M. von Lennep, directeur de la recherche, des études, de l'évaluation et des statistiques (Drees) et de M. André Loth (directeur de projet)

M. Jean-Jacques Hyest, président. - Dans le cadre du deuxième volet de notre démarche, nous auditionnons ce matin des organismes publics qui collectent et traitent des données publiques de santé et, tout d'abord, la Direction de la recherche, des études, de l'évaluation et des statistiques (Drees), représentée par son directeur, M. Franck von Lennep, accompagné de M. André Loth, directeur de projet.

Après avoir rappelé les missions de la Drees, pourriez-vous, dans la suite du rapport Bras, à la rédaction duquel vous avez participé monsieur Loth, nous présenter les travaux en cours destinés à ouvrir davantage l'accès aux données de santé, conformément aux objectifs fixés par la Stratégie nationale de santé, et indiquer les orientations qui vous semblent prioritaires ; préciser les conditions du développement de la réutilisation des données de santé, notamment les précautions particulières qui doivent accompagner leur mise à disposition ; indiquer les raisons qui justifient actuellement les restrictions à l'accès aux données opposées à certains des acteurs qui s'y intéressent - l'INSERM, les ARS (agences régionales de santé) ou l'ANSM (Agence nationale de sécurité du médicament) qui peuvent y accéder depuis peu, ou les journalistes ; enfin, exposer votre vision de l'évolution de la gouvernance des données de santé, en particulier de la gestion des bases de données. Quels sont à cet égard les rôles respectifs de la Cnam (Caisse nationale d'assurance maladie des travailleurs salariés), de l'IDS (Institut des données de santé), des mutuelles ?

M. Franck von Lennep, directeur de la recherche à la Drees. - Nos travaux s'inscrivent dans un double contexte : celui, tout d'abord, de la Stratégie nationale de santé, dont la ministre de la santé a rappelé que l'ouverture des données constitue un axe fort, à la fois en vue d'une meilleure information du grand public sur le système de santé et pour permettre une meilleure utilisation de ces données par les administrations sanitaires, les chercheurs et les industriels ; celui, ensuite, du projet open data, stratégie générale pilotée par le secrétariat général pour la modernisation de l'action publique (SGMAP). Le ministère de la santé est très mobilisé depuis un an sur ces chantiers : la ministre a confié à Pierre-Louis Bras la rédaction d'un rapport sur la gouvernance et l'utilisation des données de santé, à la suite duquel ont été mis en place plusieurs groupes de travail visant à définir les moyens de mettre en oeuvre les préconisations identifiées. Il me semble donc que nous avançons sur ces questions.

Les missions confiées à la Drees dans ce cadre tirent parti de sa large compétence. À la fois direction centrale des ministères sanitaires et sociaux et service statistique ministériel, elle opère dans le cadre du secret statistique défini par la loi de 1951 et veille scrupuleusement au respect de l'anonymat, tout en étant fortement attachée à la diffusion de ses travaux ; elle a également une connaissance fine du système de santé et notamment de l'utilisation du Système national d'informations inter-régimes de l'assurance maladie (Sniiram).

M. André Loth, directeur de projet à la Drees. - Je m'exprime ici à la fois en tant que directeur de projet à la Drees et co-auteur du rapport  Bras sur la gouvernance et l'utilisation des données de santé. La doctrine défendue dans celui-ci est claire : il faut ouvrir le plus largement possible l'accès aux données anonymes et les diffuser sans restriction ; utiliser autant que faire se peut, dans le respect de la vie privée, les données ayant un caractère indirectement nominatif ; faire enfin en sorte que les données personnelles relatives à l'activité des professionnels de santé puissent effectivement être diffusées dès lors qu'elles ont été rendues publiques sur le site de l'assurance maladie.

Les données de santé recouvrent un périmètre très vaste. Au-delà des données administratives du Sniiram, issues des feuilles de soins, et de celles du programme de médicalisation des systèmes d'information (PMSI), qui retracent les résumés de sortie hospitaliers depuis les années 90, il existe une foule d'autres informations : les données contenues dans les dossiers médicaux, celles relatives aux eaux de baignade, à l'eau potable, les données épidémiologiques, les enquêtes menées par les administrations ou les chercheurs... Ces ensembles de données médico-administratives ont été constitués à l'origine dans une visée gestionnaire. Le PMSI a ainsi été mis en place dans les années 1990 dans le but de réguler le financement des hôpitaux. Les promoteurs du Sniiram et du PMSI, constitués à l'origine avec une visée gestionnaire, ont fortement sous-estimé les usages qui pourraient être fait des données ainsi collectées, notamment dans un but de recherche.

La France, pays centralisé, dispose avec ces deux bases de données fusionnées - ensemble auquel nous nous référons sous le terme de système d'information (SI) dans le rapport Bras - de l'une des plus vastes bases de données de santé administratives au monde, si ce n'est la plus importante. Si cette base fusionnée ne fournit pas une information sanitaire exhaustive et ne renseigne pas notamment sur les risques de santé (on ignore, par exemple, si les individus concernés sont fumeurs ou quel est leur indice de masse corporelle), elle donne des informations complètes sur la consommation de médicaments ou les hospitalisations. La qualité de l'identification des informations recueillies permet leur chaînage et ainsi leur suivi tout au long de la vie des patients. Cette base doit donc être utilisée le plus largement possible à des fins d'information et de recherche. Il est à noter que cette base a été constituée très récemment : le PMSI date des années 1990 et le Sniiram fonctionne depuis 2003, le chaînage des deux systèmes ayant été mis en place en 2009-2010. Pour un système d'information d'une telle importance, on peut considérer que sa mise en place a été très rapide et a bénéficié d'une très grande réactivité de la part des administrations concernées.

Les difficultés rencontrées pour l'accès à ces bases et pour l'utilisation de leurs données sont d'ordre à la fois juridique et pratique ou technique. Le rapport Bras souligne la complexité, la confusion et le caractère inégal des règles juridiques d'accès. L'accès aux données de santé est envisagé par deux chapitres différents de la loi Informatique et libertés, selon qu'il est demandé ou non à des fins de recherche ; de ce point de vue, il y a eu depuis lors une forte évolution des esprits quant à l'utilisation possible de ces données. La Cnil (Commission nationale informatique et libertés) doit, en tout état de cause, donner son accord, y compris pour des données parfaitement anonymes, ce qui constitue une vraie curiosité. L'accès aux datamarts, c'est-à-dire aux magasins de données, parfaitement anonymes, constitués à l'usage de tiers par l'assurance maladie à l'initiative du ministère de la santé, est rendu inutilement complexe par l'intervention de la Cnil.

De l'accès aux données anonymes, il y a peu de choses à dire sinon qu'il doit être rendu possible - dès lors cependant qu'elles existent et que cet accès ne nécessite pas une production qui mobilise nécessairement des ressources. Le risque de mésusage de ces données ne saurait en aucun cas justifier qu'elles ne soient pas rendues publiques. Elles doivent donc l'être, conformément à la loi, dans des formats permettant leur réutilisation, et sans autre limite que celle de leur existence.

La question se pose différemment pour les données qui présentent un caractère indirectement nominatif. Il n'est pas envisageable que soient rendues publiques des données brutes, individuelles, chaînées dans le temps et relatives à 65 millions de personnes dès lors que l'une d'entre elles y est facilement ré-identifiable. Pour ces données, il faut donc trouver une voie étroite permettant la conciliation entre le nécessaire respect de l'anonymat et la diffusion des informations. Nous travaillons aujourd'hui à rendre cette question résiduelle par une anonymisation qui soit la plus large possible, notamment dans le cadre d'un groupe de travail sur les risques de ré-indentification. A la complexité du régime d'accès aux données indirectement nominatives s'ajoute un manque de cohérence entre la doctrine de la Cnil et celle du ministère. Nous avons probablement été trop restrictifs en ce qui concerne l'accès aux données du Sniiram, et trop laxistes s'agissant de celles du PMSI - 89 % des personnes peuvent y être identifiées simplement à partir de leur âge, leur domicile, leur date approximative d'hospitalisation ou la durée même approximative de leur séjour, et toute personne peut être identifiée dès lors qu'elle a été hospitalisée plusieurs fois au cours d'une même année. Nous avons besoin de davantage de clarté et d'homogénéité dans les règles applicables. L'échantillon généraliste des bénéficiaires (EGB) du Sniiram, établi au centième de la population française, est aujourd'hui envoyé à tous les chercheurs qui le demandent, ce qui n'est pas sans risque pour le respect de la vie privée, principe constitutionnellement protégé. On constate que toutes les administrations dans le monde sont confrontées à ce problème : l'administration britannique a ainsi été accusée d'être allée trop loin quant à l'accès aux données du NHS (National Health Service).

Le rapport Bras propose que le contrôle de l'accès aux données indirectement nominatives passe par un seul filtre d'experts, qui détermine de manière homogène si telle ou telle demande mérite d'être satisfaite au vu de ses finalités et de la méthodologie proposée. Il s'agirait d'étendre la procédure prévue par la loi Informatique et libertés pour la recherche en santé à l'ensemble des usages des données du Sniiram et du PMSI, au moyen d'un renforcement des moyens du comité consultatif sur le traitement de l'information en matière de recherche dans le domaine de la santé (CCTIRS), comité d'experts et de chercheurs qui instruit les demandes des chercheurs en amont de la Cnil.

En ce qui concerne la gouvernance des données de santé, le principe exposé par le rapport est clair : toutes les parties prenantes doivent pouvoir donner leur avis. C'est le rôle qu'a joué jusqu'à présent l'Institut des données de santé (IDS) ; il est indispensable que ce rôle soit maintenu et affirmé. Le rapport propose à cette fin la création d'un Haut conseil des données de santé destiné à permettre l'expression des différents acteurs dans la plus grande transparence.

Il est également affirmé que le système national d'information retraçant les données de santé constitue un bien public qui doit être géré de la manière la plus rigoureuse possible, en se donnant les moyens, notamment techniques, de résoudre les difficultés techniques qui se posent aujourd'hui. Les données indirectement nominatives doivent notamment être hébergées dans des conditions sécurisées permettant la traçabilité des accès, afin que l'on puisse savoir qui a accédé au système d'information et pour quelle finalité. Il faut ainsi en finir avec la pratique laxiste consistant à laisser les personnes ayant demandé une extraction de données - souvent pour d'excellentes raisons ! - partir avec un disque sous le bras... Comme pour les données fiscales, l'accès aux données de santé doit être organisé afin de permettre leur utilisation par des équipes de chercheurs, mais dans des conditions telles qu'elles ne puissent pas être indéfiniment copiées et utilisées par d'autres.

Quant au modèle économique de la mise à disposition des données de santé anonymes, il ne s'agit pas d'en rendre l'accès payant ; s'agissant des données indirectement nominatives, il pourrait en revanche être envisagé d'associer les demandeurs aux coûts liés à leur protection, avec un tarif qui pourrait être plus élevé pour ceux qui souhaitent y accéder dans un but lucratif.

Sur tous ces sujets, le rapport propose donc une doctrine claire pour sortir d'une situation de confusion sans doute imputable à la jeunesse des dispositifs de gestion des données de santé, dont les utilisations potentielles ont été largement sous-estimées à l'origine.

M. Franck von Lennep. - J'en viens aux diverses missions en cours. Une commission pluraliste co-animée par Philippe Burnel, délégué à la stratégie des systèmes d'information de santé au ministère des affaires sociales et de la santé, et par moi-même, a été mise en place en novembre dernier, en lien avec Etalab. Cette commission, qui remettra ses conclusions en avril, réunit des représentants des patients, des producteurs de données, des industriels, des juristes... Ses travaux s'organisent selon deux axes : le premier concerne l'open data, c'est-à-dire les données anonymes et ouvertes à tous, tandis que le second porte sur les conditions dans lesquelles il est possible d'accéder aux données présentant un risque de ré-identification. Bien entendu, la frontière entre ces deux types de données n'est pas toujours très simple à établir, et nous travaillons à rendre le plus de données possibles parfaitement anonymes, le cas échéant en les appauvrissant quelque peu.

S'il serait prématuré d'exposer dès aujourd'hui les conclusions de ces travaux, il m'est possible de vous présenter quelques principes sur lesquels une convergence de vues paraît se dégager. En premier lieu, tout le monde reconnaît qu'il est nécessaire d'ouvrir largement l'accès aux données de santé. Il s'agit là d'un gage de transparence sur le système de santé, qui permet de renforcer la capacité des patients de faire des choix éclairés, et d'améliorer la sécurité sanitaire et l'efficience médico-économique, mais aussi d'un gage d'innovation lorsque les données sont réutilisées par des acteurs privés. Les participants s'accordent ensuite à reconnaître que si le risque de ré-identification n'est pas négligeable, il ne doit pas nous empêcher d'agir. Nous travaillons d'ailleurs actuellement sur l'anonymisation la plus large possible des données du PMSI ; il s'agit de faire en sorte que les croisements de variables concernent toujours plusieurs personnes afin qu'aucun usager ne puisse être identifié individuellement à partir d'une seule information. Il existe cependant des écarts d'appréciation entre les membres de la commission quant au degré du risque de ré-identification. En troisième lieu, nous considérons que l'accès aux données de santé doit être facilité, ce qui suppose de renforcer dans le même temps la traçabilité des accès et les contrôles ex post, ainsi que les sanctions pénales. A l'heure actuelle, les contrôles visant à vérifier que les données ont bien été utilisées conformément à la demande initiale et que les extractions ont été détruites après utilisation, conformément aux exigences de la Cnil, sont très faibles. Il faut également garantir des délais courts d'instruction des demandes : dans un contexte de crise sanitaire par exemple, les équipes de chercheurs ont besoin d'accéder le plus vite possible aux bases de données. Nous souhaitons également faciliter les appariements de données entre celles qui sont issues de systèmes d'information publics et celles qui ont été collectées par les chercheurs eux-mêmes auprès d'une cohorte de patients. A l'heure actuelle, un tel appariement est juridiquement très compliqué. Il faut en outre accroître la mise à disposition des informations sur les professionnels de santé et les établissements, notamment s'agissant de l'activité, des tarifs, et peut-être même de la qualité des soins. Il existe sur ce point une attente forte des patients, les professionnels de santé rappelant cependant que ces orientations ne sauraient être définies que dans un cadre concerté. Il convient enfin d'améliorer la gouvernance d'ensemble du système. Il est nécessaire de disposer d'un lieu de surveillance générale qui rassemble l'ensemble des acteurs impliqués, qui doivent pouvoir peser sur l'évolution de ces questions. De ce point de vue, la création de l'IDS a été très utile pour faire progresser le partage et la connaissance et pour permettre aux parties prenantes d'exprimer leurs attentes. Il est cependant sans doute nécessaire d'insister aujourd'hui sur la surveillance des usages des données de santé. Il faut également davantage de transparence de la part des gestionnaires des données, notamment l'assurance maladie. Nous nous efforçons par ailleurs de susciter une demande nouvelle de données, dont la formalisation n'est pas toujours aisée ; il nous faut pour cela connaître à la fois les données potentiellement accessibles et les usages qui peuvent en être faits, afin de favoriser une construction partenariale de l'open data entre les producteurs de données et leurs utilisateurs.

A côté de cette commission, divers chantiers techniques ont été lancés à la suite de la remise du rapport Bras. L'un d'entre eux, que j'ai déjà évoqué, porte sur l'anonymisation des bases de données. Un autre, en lien avec le SGMAP et l'assurance maladie, concerne l'adaptation du Sniiram à la demande nouvelle de données. Si ce système n'a pas été créé à l'origine à des fins de recherche ou d'étude, il est possible de le faire évoluer, ce qui exigera des investissements financiers. Nous travaillons enfin à la transcription de ces orientations dans la future loi de santé publique annoncée par la ministre.

De nombreux progrès ont été accomplis ces dernières années et il ne faut pas sous-estimer la qualité des données de santé déjà ouvertes aujourd'hui. La France apparaît même en pointe sur ces questions par comparaison avec les pays étrangers. Mais il reste des marges de progrès et le ministère porte des ambitions fortes sur ce sujet.

Mme Corinne Bouchoux, rapporteure. - Nous changeons donc de paradigme en passant d'une logique de compilation de données à des fins de gestion à la mise à disposition des données utilisables dans le cadre de travaux de recherche, et qui pourront dès lors être utiles à la prévention. Des affaires comme celle du Mediator n'ont-elles pas accéléré la prise de conscience de la potentielle utilité de données statistiques de santé ? Que pensez-vous de l'ergonomie de l'application permettant en théorie de consulter les avantages perçus par les professionnels de santé ? Vous avez évoqué la mise en place d'un Haut conseil des données de santé qui serait placé sous l'égide du ministère en charge de la santé - tandis que l'IDS, créé en 2007, est un groupement d'intérêt public (GIP) indépendant. Pouvez-vous nous expliquer ce choix d'une gouvernance interne ?

M. Franck von Lennep. - Des affaires comme celle du Mediator ont en effet accéléré cette prise de conscience. Il est à noter qu'elles ont été concomitantes à la montée en charge de la base appariée Sniiram-PMSI, qui existe depuis 2009-2010 : les études réalisées à ce moment-là par la Cnam n'auraient pas été possibles quelques années auparavant. D'une certaine façon, ces événements ont montré que, dès lors qu'on dispose des données nécessaires à la mise en évidence de tels dangers, il devient criminel de ne pas les utiliser.

Les données relatives aux relations entre les professionnels de santé et les laboratoires ne relèvent pas strictement du champ des données de santé. Etalab pourra sans doute vous en dire davantage sur ce point. Elles posent en tous cas la double question juridique et technique de la mise à disposition de données publiques et de la facilité de leur utilisation par les usagers.

Un Haut conseil des données de santé placé sous l'égide du ministre de la santé n'est pas un modèle atypique. Le terme d'« égide » est d'ailleurs sans doute impropre : il s'agit seulement d'exprimer le rattachement des moyens de ce Haut conseil au ministère en charge de la santé. Pour autant, sa présidence, son fonctionnement et son programme de travail doivent être totalement indépendants, comme c'est le cas par exemple pour le Haut conseil pour l'avenir de l'assurance maladie (Hcaam), même s'il est dans l'orbite du CGSP (commissariat général à la stratégie et à la prospective). Il reste que cet organisme, chargé d'une mission de surveillance, ne prendrait aucune décision quant à l'accès aux données. Les décisions opérationnelles relatives aux bases continueraient d'être prises par leurs gestionnaires. La définition d'une doctrine sur l'accès relèverait quant à elle soit du ministère de la santé, soit de la Cnil : on imagine mal que le régime de l'accès à des données potentiellement ré-identifiantes puisse être défini par des sociétés privées. Cet organisme aurait en somme vocation à réunir l'ensemble des parties prenantes, notamment pour permettre aux patients de faire entendre leurs voix, et à formuler des recommandations.

M. André Loth. - L'ergonomie de l'accès à certaines données nominatives relatives aux professionnels de santé concernant leurs relations avec les laboratoires est un sujet important, car il peut concerner d'autres situations. Les conditions de mise à disposition de ces données, à travers des fichiers en format pdf, ne permettent par leur réutilisation par des outils informatiques. Cela renvoie à l'article 13 de la loi portant création de la Commission d'accès aux documents administratifs (Cada), qui prévoit qu'une information rendue publique n'a pas nécessairement vocation à être utilisée par d'autres acteurs si la personne n'a pas donné son consentement, si l'information n'a pas été rendue anonyme, ou s'il n'existe pas de texte qui l'autorise. J'ai pris connaissance de cet article alors que se posait la question de la réutilisation des données relatives au tarif moyen par acte des professionnels de santé, sur laquelle s'est prononcée la Cada, et j'avoue que j'en ai été surpris. Si un texte est nécessaire pour la réutilisation de ces données, adoptons-le donc ! Nous faisons davantage face à un vide juridique qu'à un problème technique d'ergonomie, dans la mesure où la protection par le format pdf est en réalité toute relative. Cet article 13 se justifie cependant dans les cas où une information a été rendue publique dans le cadre d'une condamnation par une instance ordinale ou une juridiction pénale, en application du droit à l'oubli.

L'IDS s'est vu attribuer deux fonctions par la loi de 2004 à l'origine de sa création : une fonction d'expression des acteurs, que nous avons considérée comme indispensable dans le rapport Bras, et qui devrait être poursuivie par le Haut conseil dont nous préconisons la mise en place ; une fonction d'échange de données, que l'on a pu présenter à travers la notion de réciprocité, et contre laquelle notre rapport a pris position. Si une donnée est publique et anonyme, alors elle doit être ouverte à tous, sans condition d'échange.

M. Jean-Jacques Hyest, président. - La possibilité de ré-identification des personnes m'apparaît comme un réel problème, qui devrait sans doute faire l'objet de dispositions législatives. Il est indispensable de protéger les données personnelles. Comment peut-on être absolument sûr que toute possibilité d'identification est écartée ? Il me semble qu'il existe toujours une marge d'incertitude...

M. André Loth. - Nous avons exposé dans le rapport un exemple qui nous a paru particulièrement inquiétant. 342 extractions de la base PMSI ont été diffusées l'année dernière à des organismes divers qui en ont fait la demande, pour des finalités déterminées et avec l'engagement de détruire ces données après quelques années. Il est cependant très difficile d'effectuer un contrôle sur ce point : vérifier que quelque chose n'existe plus est pratiquement infaisable. Il est en revanche très aisé de retrouver une personne dans la base à partir de certaines informations ou d'un événement médical déterminé, comme par exemple un accouchement - qui n'a rien de confidentiel dès lors que l'on envoie des faire-part - et de reconstituer son parcours médical, puisque les informations sont chaînées. Un tel risque, qui ne concerne pas que les personnalités connues, ne peut pas être pris. Certaines personnes mal intentionnées pourraient en tirer parti.

Comprenons-nous bien : il ne faut pas interdire l'accès à ces données, qui doivent pouvoir être utilisées dans un cadre relativement restrictif. Il est nécessaire de limiter les accès et que ceux-ci soient tracés. En matière fiscale, des techniques permettent de limiter la diffusion de certaines données, sans en restreindre l'accès : il existe un accès sécurisé et traçable permettant d'éviter que les données puissent être librement copiées. Ces techniques sont relativement peu coûteuses et pourraient parfaitement être transposées dans le secteur de la santé.

Mme Corinne Bouchoux, rapporteure. - Avez-vous connaissance de faits précis qui fondent vos inquiétudes ?

M. André Loth. - Vous connaissez la célèbre réplique « Jusqu'ici, tout va bien... ». Nous n'en avons pas connaissance pour le moment, mais on ne peut exclure qu'il existe des usages malveillants qui n'auraient pas été rendus publics. Il y a des curiosités parfois malsaines : nous savons que le dossier médical de M. Schumacher a été consulté à plusieurs reprises à l'intérieur de l'hôpital de Grenoble. En tout état de cause, nous considérons que l'on ne peut pas continuer à prendre de risques.

Mme Hélène Lipietz. - L'accouchement est une donnée personnelle, même si des faire-part sont envoyés ! On peut ne pas vouloir en avertir tout le monde.

L'agence régionale de santé (ARS) d'Ile-de-France a récemment regretté l'absence d'un fichier sur les cancers, qui existe dans d'autres pays, ce qui nourrit de nombreux fantasmes sur un lien supposé entre l'augmentation de la prévalence des cancers et la présence d'installations industrielles dans certaines régions. Pensez-vous que d'autres fichiers de ce type aujourd'hui manquants pourraient être utiles ?

M. André Loth. - Sans doute de nombreux tableaux statistiques n'existent-ils pas encore et il reste donc du travail à accomplir à la Drees et aux chercheurs. Sur les cancers en particulier, il existe à ma connaissance des registres qui ne sont sans doute pas aussi généralisés qu'ils devraient l'être. Le PMSI fournit notamment des données sur la prévalence des cancers et il me semble que l'on dispose de certaines données pour suivre leur évolution. Il faut cependant souligner qu'il existe des biais statistiques, notamment liés au dépistage et au suivi de la maladie, qui rendent de telles études parfois difficiles.

M. Franck von Lennep. - Il faudrait interroger l'Institut national de veille sanitaire sur ce point. Dans tous les cas, si un manque apparaît, il faut que la demande puisse s'exprimer et que les producteurs de données se donnent les moyens d'y répondre. C'est tout le sens du travail de la commission que j'anime actuellement.

M. René Garrec. - J'ai été confronté à cette même question à La Hague. Il est d'ailleurs très difficile d'y répondre sans individualiser les dossiers.

M. André Loth. - J'aimerais apporter une précision sur le régime de l'accès aux données de santé. Nous sommes tous conscients que l'on ne peut laisser en libre accès des informations indirectement nominatives et qu'il faut donc sélectionner le nombre et la qualité des personnes qui y accèdent. Nous proposons qu'il soit distingué entre les organismes dont la mission permanente implique l'utilisation des données du Sniiram et du PMSI, et ceux pour lesquels cette utilisation est associée à un projet plus ponctuel. Nous considérons ainsi que l'Agence nationale de sécurité du médicament et des produits de santé (ANSM) ne peut pas ne pas avoir accès à ces données, qui plus est après l'affaire du Mediator. Certains des collaborateurs de ces organismes pourraient ainsi être habilités à accéder aux bases de données, sous le contrôle ex post de la Cnil. Dans la plupart des autres cas, un contrôle ex ante de la Cnil, instruit par des experts - c'est l'objet du CCTIRS -, pourrait être conservé, en prévoyant une possibilité d'examen très rapide en cas d'urgence. Nous n'excluons pas que puissent exister des accès permanents dans ce deuxième cas de figure : les chercheurs qui travaillent sur la cohorte Constance ont ainsi fréquemment besoin d'accéder aux données du Sniiram afin de les apparier avec les données qu'ils ont collectées, mais il s'agit bien d'un projet qui devra passer par la voie classique du contrôle ex ante de la Cnil.

M. Jean-Jacques Hyest, président. - Nous vous remercions.

Audition de MM. Christian Babusiaux et Richard Decottignies, président et directeur de l'Institut des données de santé (IDS)

M. Jean-Jacques Hyest, président. - Nous accueillons maintenant MM. Christian Babusiaux et Richard Decottignies, respectivement président et directeur de l'Institut des données de santé (IDS). Monsieur Babusiaux, après une carrière à la Cour des comptes entrecoupée de longs passages dans les administrations centrales, vous êtes aujourd'hui président de chambre à la Cour et président de l'IDS. Pourriez-vous rappeler le rôle de l'Institut ; décrire les modalités de collecte, d'exploitation et de partage des données de santé par et entre les différents organismes intéressés ; indiquer les demandes d'accès dont l'IDS est saisie et la manière dont celles-ci sont traitées, le cas échéant avec l'intervention de la Cada ; les raisons justifiant des restrictions à l'accès aux données, par exemple vis-à-vis de l'Institut national de la santé et de la recherche médicale (INSERM), des journalistes, et, jusqu'à récemment, les agences régionales de santé (ARS) ; présenter la politique d'offre de données de l'IDS ; décrire les enjeux de l'exploitation raisonnée des données publiques de santé et les conditions de développement de leur réutilisation ; préciser les usages qu'il vous paraîtrait pertinent de développer et comment doit s'organiser la gouvernance de ces données, notamment entre la Caisse nationale d'assurance maladie (Cnam) et les mutuelles ?

M. Christian Babusiaux, président de l'Institut des données de santé (IDS). - Il existe des attentes et des besoins légitimes de la part de la société civile et des chercheurs en matière de données de santé. Comment faire de la recherche ou de la veille sanitaire sans données ? Les ARS ont besoin de données sur les territoires, par exemple pour élaborer les projets régionaux de santé. Les patients réclament des informations sur les soins qui leur sont dispensés et sur les parcours de soins.

Beaucoup de craintes portent sur le respect de la vie privée, alors que ce que l'on appelle le big data est en pleine expansion. Dans tous les domaines, des acteurs captent, traitent ou revendent de grandes quantités de données, par exemple à travers les réseaux sociaux. Ce phénomène est potentiellement intrusif ; mais gardons-nous d'une vision uniquement négative. Notre système pourra y gagner en efficacité : l'appareil de veille sanitaire, actuellement très en retard, devra apprendre à l'avenir à utiliser des masses de données et à y déceler des indicateurs afin d'opérer des repérages très en amont.

L'open data relève d'une toute autre logique : il s'agit d'ouvrir l'accès à des bases de données déjà constituées. Celui-ci comporte deux composantes : l'open data proprement dit, qui peut concerner, par exemple, les données météorologiques ou le trafic de la RATP, et qui n'emporte pas de difficultés quant à la protection de la vie privée ; un open data régulé, dont font partie les données de santé, et qui recouvre des données que l'on ne peut ouvrir à tous pour des raisons de sécurité. C'est dans ce dernier champ qu'intervient l'IDS, sur des données anonymisées.

L'IDS a été créé par la loi de santé publique de 2004 et effectivement mis en place en 2007. Il s'agit d'un groupement d'intérêt public (GIP) qui regroupe treize acteurs majeurs du domaine de la santé : l'Etat, l'assurance maladie, les fédérations hospitalières, les associations de patients, les organismes complémentaires, les professionnels de santé, la caisse nationale de solidarité pour l'autonomie (CNSA)... Il a été constitué comme une instance de régulation.

La première base de données constituée a été le registre des décès. Ont ensuite été mis en place le PMSI puis le Sniiram, qui n'est en réalité vraiment opérationnel que depuis 2011-2012. Depuis 2012, les données relatives aux soins hospitaliers et aux soins de ville sont chaînées au sein du Sniiram et il est, en théorie, possible de suivre les événements de santé et les parcours de soins de l'ensemble des Français. D'autres bases sont en cours de constitution, comme celle sur le handicap par la CNSA, ou le projet Monaco, qui consiste en un chaînage entre les données de remboursement par l'assurance maladie obligatoire et les complémentaires santé.

Deux modalités d'accès aux données de santé doivent être distinguées. L'extraction consiste pour la Cnam à confectionner un jeu de données répondant à une demande précise, émanant par exemple d'un chercheur, après que l'IDS a donné son accord. Un accès direct aux données, sans intervention de la Cnam, est ouvert à certains acteurs.

Le Sniiram comprend plusieurs entrepôts de données. L'échantillon généraliste des bénéficiaires (EGB) est assez largement ouvert aux membres de l'IDS, contrairement aux données de consommation inter-régimes (DCIR), qui couvrent l'ensemble des données individuelles. Ce deuxième entrepôt est fondamental pour la recherche et le pilotage du système de santé, un échantillon, même s'il comprend 650 000 personnes, ne pouvant suffire à rendre compte d'un univers aussi complexe que celui de la santé. C'est pourquoi l'ouverture de l'échantillon ne peut évacuer la question de l'accès au DCIR, qui est encore insuffisant.

Notre premier combat a été de faciliter l'accès des autorités sanitaires  au DCIR : l'Institut national de veille sanitaire (InVS), la Haute autorité de santé (HAS), l'Agence nationale de sécurité du médicament (ANSM) ont besoin d'un suivi fin. Nous avons obtenu que la HAS et l'ANSM, en dernier lieu par un arrêté d'août 2013, puissent accéder par elles-mêmes à cette grande base de données. On note donc des progrès, mais il reste encore beaucoup à accomplir. L'accès à ces données par les organismes de recherche publique (le CNRS, l'INRS, les équipes des CHU...) est un deuxième grand chantier. Nous avons franchi une étape importante en obtenant des extractions pour les CHU. Mais le délai de transmission des données, qui atteint quatorze ou quinze mois en pratique, est encore trop important par rapport aux enjeux de la recherche, même si l'on n'en est plus aux deux ans de naguère. Il serait souhaitable que la recherche publique puisse accéder directement aux DCIR ; un simple arrêté suffirait pour ce faire.

S'agissant de la gouvernance des bases de données de santé, deux aspects doivent être distingués. En premier lieu, la gestion des bases par la Cnam et l'agence technique de l'information sur l'hospitalisation (Atih) est bonne, et il me semble qu'elles sont administrées par les organismes qui ont vocation à le faire. S'agissant, d'autre part, de la régulation des accès, le législateur avait été sage en prévoyant dans la loi de 2004 la mise en place de l'IDS comme un régulateur chargé de veiller à la qualité des bases, à leur développement et à leur accès. Il avait antérieurement prévu, dans la loi de financement de la sécurité sociale de 1998, un système de gestion opérationnelle du Sniiram reposant sur des arrêtés et l'intervention d'un comité rassemblant l'assurance maladie, l'Etat et les professions de santé. Le législateur avait donc prévu une distinction entre la gestion et la régulation ou la gouvernance des bases ; mais la pratique n'a pas été conforme à cette volonté initiale. Le comité de pilotage inter-régimes du Sniiram (Copiir) a étendu son attribution de gestion à un contrôle du droit d'accès, ce qui s'explique par l'antériorité de son existence par rapport à l'IDS. La pratique a fait du Copiir un verrou d'accès. Alors qu'il est prévu qu'il se réunisse au moins deux fois par an, il ne le fait qu'épisodiquement, à tel point qu'il ne s'est pas réuni depuis un an. Pendant ce temps, les demandes des CHU et de l'INSERM, qui ont été formulées il y a dix-huit mois, attendent toujours... C'est autant de temps de perdu pour la recherche et pour les patients ! Un arrêté suffirait pourtant à autoriser l'accès de ces acteurs. La situation ne pourrait être que simplifiée si les seuls acteurs intervenant dans ce processus étaient l'IDS et le ministre en charge de la santé, que l'on voit mal s'opposer à une telle demande. Il convient de revenir à la simplicité de la séparation des fonctions voulue par le législateur.

Il faut fixer le cap d'une ouverture maîtrisée et raisonnée des bases de données de santé et avancer résolument et rapidement, sans s'encombrer de faux débats comme celui sur la possible ré-identification des personnes, car des moyens techniques existent pour la prévenir.

M. Jean-Jacques Hyest, président. - L'accès aux données de santé, que ce soit par la voie de l'extraction ou de l'accès direct, a un coût. La longueur des délais de transmission des données s'explique peut-être par un problème de moyens. Quant à l'accès direct, il faudra que les organismes concernés disposent des moyens adéquats.

M. Christian Babusiaux. - Ce point doit en effet être considéré. Le délai mis par la Cnam pour transmettre une extraction de données s'explique par plusieurs facteurs. Les chercheurs doivent expliquer aux gestionnaires de la base, qui ne sont pas eux-mêmes chercheurs, de quoi ils ont besoin, ce qui peut être très complexe ; un circuit court, avec un accès direct, permettrait de réduire les délais et les coûts. Ce délai s'explique également par un engorgement de la Cnam face aux dizaines de demandes formulées - ce qui n'est rien par rapport aux demandes qui devraient exister demain ! Il faut supprimer cet embouteillage, ce qui suppose que les acteurs qui ont la possibilité technique d'accéder directement aux bases puissent y accéder eux-mêmes, l'extraction étant réservée aux utilisateurs plus occasionnels, qui n'ont pas la possibilité de former spécifiquement certains de leurs personnels à cette fin. Il est à noter que le coût n'est pas rédhibitoire pour les demandeurs : il suffit qu'une ou deux personnes soient formées, ce qui est tout à fait réalisable au sein des équipes de recherche des CHU ou encore de l'INSERM.

Mme Corinne Bouchoux, rapporteure. - La situation est paradoxale. Nous disposons de la meilleure base de données au monde, nous dit-on, mais les chercheurs accèdent difficilement aux informations dont ils ont besoin. Avez-vous alerté la ministre de ces difficultés ? Les retards constatés dans l'accès aux données ne créent-ils pas un risque de contentieux, sachant que de 5 000 à 10 000 décès par an sont dus à des utilisations croisées de médicaments dont un médecin devrait savoir qu'elles sont inappropriées ? Compte tenu de ce qui nous a été indiqué tout à l'heure sur la création d'un Haut conseil des données de santé, ne faut-il pas craindre l'existence parallèle de deux instances compétentes en matière d'accès aux données, qui ne communiqueraient pas entre elles ? Enfin, étant donnée la fluidité des parcours professionnels, certaines personnes ne risquent-elles pas de se retrouver dans une situation difficile si elles ont eu connaissance de données de santé sensibles dans une fonction antérieure ?

M. Christian Babusiaux. - Il va de soi que nous avons alerté tous les niveaux de l'Etat, dont des représentants siègent d'ailleurs à l'IDS.

L'accès différé aux données présente d'abord un risque pour la santé publique. Un risque contentieux existe également. En novembre, un collectif avait demandé l'accès à des données de consommation du Mediator ne comportant pas d'informations nominatives et personnelles. La Cnam ayant refusé d'extraire ces données, il s'est adressé à la Cada, qui a demandé à la Cnam de les fournir le 21 novembre dernier. Le directeur général de la Cnam a d'abord refusé, puis, après notre intervention, a fini par accepter de fournir certaines des données demandées. Il y aurait donc pu y avoir un contentieux si la Cnam n'avait pas fini par accéder à cette demande.

Une autre source de contentieux réside dans l'illégalité de l'arrêté pris sur la base du projet de loi de financement de la sécurité sociale de 1998, car il va au-delà des intentions du législateur en donnant un pouvoir de verrou au Copiir avant même l'intervention du ministre. D'autres contentieux pourraient être portés devant l'Autorité de la concurrence.

Vous évoquiez la possibilité qu'un millefeuille d'organismes soit en cours de création dans le domaine des données de santé. La priorité aujourd'hui est de simplifier l'accès pour les équipes de recherche et de prendre des décisions, non de créer de nouvelles structures ou comités Théodule dont il n'est nullement besoin et qui ne pourront que compliquer la situation. Il faudrait simplement respecter la volonté du législateur. J'ai presque scrupule à vous encombrer de questions aussi simples... Il y a urgence : le temps perdu représente autant de chances perdues pour la santé des patients.

M. Jean-Jacques Hyest, président. - Le directeur de la Drees et l'un des auteurs du rapport Bras ont préconisé la création d'une nouvelle haute autorité en matière de données de santé. De votre point de vue, cette nouvelle structure n'est donc pas nécessaire ?

M. Christian Babusiaux. - Je ne suis pas le seul à être de cet avis. Aucun acteur de la société civile ne réclame la création d'un haut conseil, dont je ne vois pas du tout la nécessité. L'univers de la santé est plein de hauts conseils : on en connaît les limites. Le législateur a confié à l'IDS un double rôle de réflexion et opérationnel ; on ne peut déconnecter ces deux aspects.

Vous avez rappelé mes fonctions à la Cour des comptes... Ne vous étonnez pas que je ne sois pas favorable à la création de nouveaux comités Théodule. Le Premier ministre se préoccupe d'ailleurs davantage d'en supprimer que d'en créer.

Mme Corinne Bouchoux, rapporteure. - S'agissant des risques de ré-identification des personnes dans les bases de données de santé, avez-vous eu connaissance de dérives avérées au cours des dernières années?

M. Christian Babusiaux. - Le PMSI est ouvert avec autorisation de la Cnil - qui constitue d'ailleurs déjà une haute autorité... Je n'ai pas connaissance qu'il y aurait eu des dérapages dans l'utilisation de cette base. Des problèmes ont en revanche été constatés quant à l'accès à des dossiers papier qui circulent au sein des hôpitaux ou dans certains cabinets médicaux. Il ne faut pas surestimer les problèmes. Il existe des techniques simples d'anonymisation permettant d'éviter toute ré-identification, reposant sur des algorithmes aléatoires. Certaines données sensibles, comme la date de naissance ou le code postal, qui ne sont sans doute pas essentielles à la recherche, peuvent par ailleurs être rendues moins précises lorsqu'elles sont transmises : il est aisé de supprimer le jour de naissance pour ne conserver que le mois, de ne faire figurer qu'un code postal large. Un autre moyen pour éviter toute ré-identification repose sur le seuil quantitatif des patients d'un échantillon.

Mme Catherine Procaccia. - Il y a eu dans ma commune des suspicions de cancers pédiatriques ; nous avons créé des cohortes pour suivre les enfants. Comment le suivi de ces données est-il organisé ? Je me suis intéressée aussi aux incidences sanitaires de la chlordécone aux Antilles. Comment la veille sanitaire se déroule-t-elle et quel est le régime d'accès aux données concernées ?

M. Christian Babusiaux. - Le régime d'accès à de telles données est différent selon qu'est concerné un chercheur isolé ou l'InVS. Un arrêté ministériel autorise l'InVS et ses antennes dans les régions à accéder au Sniiram ; encore faut-il qu'il s'équipe pour ce faire et s'empare de la possibilité qui lui est ainsi ouverte. Les équipes de recherche isolées doivent s'adresser à nous et demander une extraction auprès de la Cnam. La constitution de cohortes suppose un suivi plus important dans le temps de la part des chercheurs. Il est très important de pouvoir apparier les données ainsi collectées avec celles des bases de l'assurance maladie pour en faire un outil de veille sanitaire efficace.

M. Jean-Jacques Hyestprésident. - Merci pour cette contribution extrêmement instructive, précise et intéressante.

Audition de MM. M. Frédéric van Roekeghem, directeur de la Caisse nationale d'assurance maladie des travailleurs salariés (CNAMTS), Jean Debeaupuis, directeur général de la Direction générale de l'offre de soins (DGOS), Housseyni Holla, directeur de l'Agence technique de l'information sur l'hospitalisation (Atih) et Claude Gissot, directeur de la stratégie à la CNAMTS

M. Jean-Jacques Hyest, président. - Pourriez-vous nous rappeler les statuts et missions des organismes que vous dirigez ; décrire les modalités actuelles de la collecte et de l'exploitation des données de santé, en précisant notamment quels acteurs y ont accès et selon quels critères ; exposer les précautions particulières qui doivent accompagner l'utilisation et la mise à disposition de ces données ; décrire, le cas échéant, les travaux en cours pour ouvrir davantage l'accès à ces données, conformément à l'orientation fixée par la Stratégie nationale santé, et présenter la politique d'offre de données de santé à destination du grand public, notamment au travers du site Ameli.fr ? Quelle évolution de la gouvernance des données de santé pourrait être envisagée ? Quelles raisons justifient les restrictions à l'accès à ces données pour les différents acteurs qui y seraient intéressés ? Quels usages des données de santé pourraient contribuer à améliorer l'efficacité du système de soins ? Enfin, quelles sont les limites de la mise à disposition de données par l'outil Ameli.fr ?

M. Frédéric van Roekeghem, directeur de la Caisse nationale d'assurance maladie des travailleurs salariés (CNAMTS). - Le sujet des données de santé est complexe et très important tout à la fois, puisque l'assurance maladie détient des données sensibles portant sur l'ensemble de la population française. Cette question doit dès lors donner lieu à un débat approfondi pour en examiner tous les aspects et en mesurer tous les enjeux.

Le système national d'information inter-régimes de l'assurance maladie (Sniiram) a été créé par la loi de financement de la sécurité sociale pour 1999. Cette base de données nationale poursuit quatre grandes finalités définies par le code de la sécurité sociale : améliorer la qualité des soins, contribuer à une meilleure gestion de l'assurance maladie, contribuer à une meilleure gestion des politiques de santé et transmettre aux prestataires de soins des informations pertinentes relatives à leur activité et leurs recettes, et, s'il y a lieu, à leurs prescriptions. Il s'agit d'un entrepôt de données anonymes, collectées à partir des informations dont disposent les différentes caisses de remboursement de l'assurance maladie obligatoire. Il comprend les données relatives à toutes les prestations remboursées dispensées en médecine de ville et par les praticiens libéraux en établissements de soins, ainsi qu'à la consommation de soins en établissement. Il fait apparaître certaines caractéristiques anonymisées des patients tels que l'âge, le sexe, le bénéfice de certaines prestations sociales comme la couverture maladie universelle (CMU), la commune et de département de résidence, éventuellement le diagnostic d'affection et, depuis une date plus récente, la date de décès.

L'intérêt de cette base de données pour l'analyse du système de soins a été fortement augmenté depuis qu'a été mis en place en 2009 leur chaînage avec celles du PMSI - les mêmes algorithmes d'anonymisation étant utilisés par l'Atih et par la Cnam - et depuis qu'a été intégrée la date de décès à partir des données de l'Insee. Nous disposons ainsi d'une base extrêmement riche ; celle-ci a par exemple permis de réaliser deux études (dites Cnam 1 et Cnam 2) sur le risque de valvulopathie attaché à l'utilisation du Mediator, qui ont conduit aux décisions de retrait de l'ANSM.

Le Sniiram n'est pas une base de données fermée et inaccessible, contrairement à l'idée erronée que l'on voit parfois courir dans la presse. Il fait l'objet de trois ensembles de restitutions : 15 bases de données agrégées thématiques, un échantillon général de bénéficiaires (EGB) au centième de la population, et enfin la base de données individuelles elle-même qui retrace les données de consommation inter-régimes (DCIR). 71 types d'organismes ont aujourd'hui accès à certains de ces niveaux de restitution du Sniiram : 64 d'entre eux ont accès aux données agrégées et à l'EGB et 6 à la totalité du DCIR, moyennant certaines précautions exigées par la Cnil. Par ailleurs, depuis 2009, 35 extractions de données de cohorte ont été réalisées à des fins de recherche.

L'accès au Sniiram intégral est ouvert aux caisses d'assurance maladie, à la Caisse nationale de solidarité pour l'autonomie (CNSA), à l'Institut national de veille sanitaire (InVS - qui, compte tenu de ses missions particulières de prévention des épidémies, bénéficie de privilèges particuliers et a accès à des données indirectement réidentifiantes avec l'accord de la Cnil), à l'ANSM, à la Haute autorité de santé (HAS) et, depuis l'adoption d'une disposition législative et la prise d'un récent arrêté,  aux agences régionales de santé (ARS). Les ministères en charge de la santé, de la sécurité sociale et des finances et les services déconcentrés y ont également accès, ainsi que le Haut conseil pour l'avenir de l'assurance maladie (HCAAM), l'Agence nationale de biomédecine, l'Institut national du cancer (Inca), l'Atih, l'Institut national de la santé et de la recherche médicale (Inserm), le Centre national de la recherche scientifique (CNRS), l'Institut de recherche et de documentation en économie de la santé (Irdes), le Centre technique d'appui et de formation des centres d'examen de santé (Cetaf), le Fonds CMU, l'Observatoire des drogues et des toxicomanies (OFDT), l'Institut des données de santé (IDS), l'Union nationale des organismes d'assurance maladie complémentaire (Unocam) et, plus récemment, ses fédérations constitutives, les fédérations hospitalières et leurs établissements membres (avec un accès plus limité pour ces derniers), le collectif interassociatif sur la santé (CISS) ainsi que ses associations adhérentes (avec de même un accès restreint pour ces dernières), l'Union nationale des professions de santé (UNPS), les syndicats de professionnels libéraux membres de l'UNPS, les unions régionales de professions de santé (URPS).

En pratique, un certain nombre de ces organismes n'accèdent cependant pas au Sniiram, notamment parce qu'ils ne disposent pas des structures qui leur permettraient d'exploiter ces données - ou qu'ils n'ont pas souhaité s'organiser pour ce faire. En 2013, ont ainsi été non actifs le HCAAM (pour lequel nous réalisons des extractions sur demande), le CNRS, le Fonds CMU, le Cetaf, l'Unocam, les fédérations hospitalières et leurs établissements membres (à l'exception du cas des données de cohortes de santé publique), le CISS et ses associations adhérentes, les URPS.

Le régime de l'accès aux données du Sniiram est strictement encadré. Il a d'abord été encadré par la loi de financement de la sécurité sociale (LFSS) pour 1999, qui a prévu que les accès sont définis par un protocole passé entre les régimes d'assurance maladie et approuvé par arrêté après avis de la Cnil. Le protocole historique datant des années 2000 a mis en place un comité de pilotage, dit Copiir, associant l'Etat (ce qui n'était pas initialement prévu par le législateur), les régimes d'assurance maladie et l'UNPS, et qui a pour rôle de proposer les évolutions qui doivent ensuite être fixées par arrêté.

On constate depuis 2002 un mouvement d'élargissement continu des organismes habilités à accéder au Sniiram. Le premier arrêté autorisant l'accès au Sniiram, en date du 11 avril 2002, a été largement complété par sept arrêtés successifs, le dernier en date étant celui qui a ouvert l'accès aux ARS. Une modification substantielle de l'accès aux données de santé est venue de la loi du 9 août 2004 avec la création de l'IDS, qui a été intégré au dispositif d'accès au Sniiram et au comité de pilotage par un arrêté du 20 juin 2005. Ont ainsi été prévus l'accès aux données du Sniiram pour les membres de l'IDS ainsi que la possibilité d'accéder à un datamart, à l'EGB ou à un traitement ad hoc pour des organismes à but non lucratif, pour une durée temporaire et sur le fondement d'un projet déterminé, après approbation de l'IDS et avis de la Cnil. Dans ce cadre, la Cnam réalise des extractions sous réserve de l'accord de la Cnil et dans le cadre d'une convention de cession de données.

Plusieurs principes président ainsi à la transmission de données du Sniiram. Sauf exception prévue par arrêté, les organismes à but lucratif n'ont pas accès à ces données. Les accès sont autorisés par la Cnil en tenant compte des risques de réidentification des personnes, notamment de façon indirecte à travers des croisements de données, ainsi que de l'adéquation des données transmises aux missions de l'organisme qui en fait la demande. Le principe de précaution est décliné à plusieurs niveaux : il est tenu compte à la fois du niveau d'agrégation et de l'échantillonnage des données, de leur périmètre (national ou régional, par exemple), ainsi que de la nature particulièrement sensible de certaines données définies comme telles par la Cnil lors de la mise en place du Sniiram. Il me semble que la définition des données sensibles devrait aujourd'hui évoluer pour tenir compte de l'enrichissement du Sniiram et des évolutions technologiques. Il existe une protection physique de haut niveau des données par un système d'identifiant et de mot de passe qui permet de garantir que seules les personnes habilitées y accèdent ; l'un des enjeux majeurs de la diffusion des données réside dans la possibilité de tracer et d'auditer les accès.

A côté du Sniiram, d'autres données concernant les professionnels et les établissements de santé sont mises à disposition par la Cnam sur son site internet. Le service ameli-direct fournit des informations sur l'adresse et les tarifs des professionnels ainsi que sur les indicateurs de qualité mesurés par la HAS s'agissant des établissements de soins. Ces données, non anonymes, sont considérées comme des données à caractère personnel au sens de la loi du 6 janvier 1978. Nous les diffusons au grand public au titre d'une autorisation spécifique ouverte par la loi du 9 août 2004 et codifiée à l'article L. 162-1-11 du code de la sécurité sociale, qui donne pour mission aux caisses d'assurance maladie de fournir « tous éléments d'information sur les tarifs d'honoraires habituellement demandés et toutes informations utiles à la bonne orientation du patient dans le système de soins ». Sont ainsi mis en ligne les tarifs des médecins, les tarifs dentaires, les horaires d'ouverture des cabinets, le nom des médecins exerçant dans un établissement de soins, le nombre d'actes pratiqués ou encore les durées moyennes de séjour.

Cette mise à disposition est bien entendu encadrée par la Cnil et toutes les données individuelles doivent faire l'objet d'une information préalable des professionnels concernés, qui disposent d'un droit de rectification. Nous ne sommes pas autorisés à transférer ces données individuelles à d'autres acteurs. La commission d'accès aux documents administratifs (Cada), qui s'est prononcée sur ce point à plusieurs reprises, a ainsi rejeté la demande de certaines sociétés privées qui souhaitaient obtenir communication de ces informations sous forme de bases de données, et l'un de ses avis de 2011 a été confirmé par le tribunal administratif de Paris. S'agissant des données relatives aux établissements de santé, la Cada s'est récemment prononcée sur le champ des données diffusables, qu'elle a limité au numéro d'immatriculation Finess ainsi qu'au numéro d'enregistrement RPPS. Ainsi, si de très nombreuses données sont disponibles dans le champ de la santé, nous devons respecter strictement les textes encadrant leur mise à disposition pour ne pas nous exposer à des sanctions pénales.

Il existe une autre contrainte relative aux données personnelles : l'article 12 de la loi du 17 juillet 1978 prévoit que la réutilisation des informations publiques est possible à la condition qu'elles ne soient pas altérées et que leur sens ne soit pas dénaturé. Dans un contentieux qui nous a opposé au site internet Fourmi Santé, il a été constaté que le simulateur de reste à charge utilisé ne distinguait pas entre les consultations de base d'un médecin et ses consultations spécialisées. Ce type de situation pourrait également engager notre responsabilité. Nous sommes par ailleurs astreints au respect des règles relatives à la propriété intellectuelle.

Nous avons mis en place à la fin de l'année 2011 une coopération avec l'ANSM afin de développer, en matière de médicament, un pôle d'expertise publique indépendant des laboratoires pharmaceutiques. En l'absence de publication du décret groupement d'intérêt public (GIP) compétent en la matière prévu par la loi « Médicament » de 2011, nous avons consolidé cette coopération par une convention qui fixe le cadre dans lequel nous réalisons des études à la demande de l'ANSM. Au titre de ce partenariat, nous avons notamment travaillé sur le risque thrombo-embolique associé aux pilules de troisième génération, sur la consommation des nouveaux anticoagulants ou, plus récemment, sur le Soriatane. Ces travaux ont donné lieu à des conférences de presse qui ont permis d'informer des risques associés aux différents produits concernés et de présenter, le cas échéant, des recommandations tendant à leur moindre utilisation. Nous avons également réalisé des études à caractère médico-économique. Cette coopération nous paraît très importante : il ne faut pas seulement se préoccuper de l'accès aux données, mais également s'assurer que celles-ci font l'objet d'un traitement pertinent, d'une interprétation correcte et que les études réalisées respectent une méthodologie adéquate. Il arrive en effet que des études effectuées par différents organismes aboutissent à des conclusions variables, notamment selon que ceux-ci sont ou non directement intéressés par le produit de santé concerné... Ainsi, une étude mise en ligne en septembre 2013, portant sur le risque thrombo-embolique associé à la contraception orale, et financée par les industriels concernés, a conclu qu'un risque statistiquement significatif ne pouvait être démontré pour les pilules de troisième génération, tandis que l'étude que nous avons réalisée montre le contraire.

Des extractions de données de cohortes sont demandées à travers l'IDS par des organismes publics dans le but de mener des études approfondies. L'INSERM, l'InVS, divers CHU comme ceux de Lyon, Toulouse, Rennes, Dijon, de La Réunion sont particulièrement demandeurs de ce type de données.

Quelles perspectives peut-on définir pour l'accès aux données de santé ? Il ne fait pas l'ombre d'un doute que le Sniiram, enrichi des données du PMSI et de l'INSEE, constitue une base de donnée très importante, qui présente un intérêt évident pour l'amélioration de la connaissance du système de soins et la conduite d'études de santé publique. Dans la mesure où cette base comporte cependant des données sensibles relatives à l'ensemble de la population française, la réflexion sur l'ouverture de ces données de santé doit prendre en compte les différents risques associés et identifier les moyens de les prévenir. Le premier de ces risques est celui de la réidentification, qui a changé de nature avec l'intégration dans la base des données du PMSI et de l'INSEE. La Cnil semble partager cet avis, puisqu'elle a demandé une étude spécifique sur les possibilités de réidentification. Dans le contexte nouveau du big data, il me paraît absolument nécessaire de reprendre la réflexion qui a eu lieu au début des années 2000 sur la nature des données sensibles et les risques liés aux croisements de données. Un deuxième risque concerne la possibilité d'intrusion dans les systèmes d'information. Nous sommes très vigilants sur ce point. Je me demande si nous ne sommes pas allés trop loin et si tous les organismes qui sont potentiellement autorisés à accéder aux données de santé disposent de systèmes d'information suffisamment sécurisés pour qu'ils puissent garantir que les dispositions de la loi Informatique et libertés sont pleinement respectées. Des réencadrements récents, qui ne touchent pas cependant aux données de santé, sont ainsi récemment intervenus dans le milieu hospitalier.

S'agissant des finalités de l'ouverture des données de santé, si les données dont nous disposons peuvent alimenter des études utiles à la santé publique, il est clair qu'elles peuvent également intéresser des initiatives de nature commerciale, à travers des études post-marketing ou visant à élaborer des garanties assurantielles segmentées. Nous pensons que les finalités de consultation et d'utilisation des données doivent être encadrées par la loi.

Les conditions d'utilisation des données constituent un sujet important dans la mesure où le choix d'une méthode statistique et le mode de traitement des données retenu peuvent exercer une influence significative sur le résultat d'une étude. C'est d'ailleurs la raison qui avait conduit à la création d'un GIP dédié par la loi de 2011 relative au médicament ; il avait été constaté que, dans de nombreux cas, la manière dont les données étaient traitées n'était pas conforme aux exigences scientifiques, et notamment que la neutralisation de certains effets d'échantillonnage pouvait conduire à des résultats très différents. En outre, comme je l'indiquais tout à l'heure, on note que les études financées par les promoteurs de produits ont tendance à leur être favorables. Enfin, la complexité des bases de données est telle qu'elle peut parfois conduire à des erreurs. Récemment, une étude fondée sur les données du Sniiram a ainsi conclu à un taux de recours aux neuroleptiques de 12 % dans une population, alors qu'il était en réalité de 20 % : les auteurs de l'étude avaient omis de prendre en compte les derniers médicaments génériques disponibles sur le marché. L'accès aux données et la compétence nécessaire à leur exploitation sont donc deux sujets qu'il convient de bien distinguer.

Dans ce contexte, l'expertise publique dans le domaine de la santé peut et doit être confortée, sous réserve que le secteur public s'organise de manière à prévenir les risques que j'ai évoqués. La décision d'ouvrir les données de santé à des entreprises à but lucratif est une question politique qui doit être pesée au regard des risques qu'elle pourrait engendrer. Enfin, il faut développer l'encadrement des organismes habilités afin de garantir l'application des lois de 1978, ce qui nécessite une grande professionnalisation de ces acteurs, notamment s'agissant de leurs systèmes d'information. S'agissant de l'évolution de la gouvernance des données de santé, des travaux sont en cours et il me semble que la question doit plutôt être posée au ministère des affaires sociales et de la santé.

M. Jean Debeaupuis, directeur général de l'offre de soins. - La Direction générale de l'offre de soins (DGOS) assure la tutelle de l'Atih au nom du ministère des affaires sociales et de la santé et, via les ARS, de l'ensemble des établissements de santé. A ce titre, nous portons un regard vigilant sur les systèmes d'information des établissements. Depuis trente ans, le PMSI produit des données qui, depuis une dizaine d'années, sont notamment utilisées pour l'allocation des ressources aux établissements. Les établissements et les professionnels qui collectent ces données le font dans le cadre fixé par la loi - notamment dans le cadre du code pénal qui réprime toute violation du secret professionnel et du secret médical - et par les autorisations de la Cnil.

L'Atih fournit des données à caractère nominatif sur l'offre de soins. Créée en 2000, soit au moment de la mise en place du Sniiram, elle constitue une agence indépendante, ce qui contribue à garantir la protection du secret médical. De nombreux autres organismes tels que la HAS ou l'agence nationale d'appui à la performance des établissements médicaux ou médico-sociaux (ANAP) gèrent également d'importantes bases de données, qui concernent avant tout la qualité des soins ou la performance des établissements : ces informations, éclairantes quant à l'offre de soins, ne comprennent pas d'informations sensibles ou nominatives. À travers le site de l'Atih, nous mettons également à disposition du public des informations relatives à la situation financière des établissements et à leurs indicateurs de qualité.

Les données de santé collectées par le PMSI sont anonymisées : le numéro d'identification au répertoire (NIR) n'est pas directement utilisé et la Cnil a prévu des dispositifs de floutage permettant d'éviter la réidentification des patients. Ainsi, il existe différents degrés de précision dans les dates de séjour et les codes postaux ne sont pas utilisés en tant que tels mais permettent par exemple de constituer des regroupements de 5000 habitants. Cette organisation du PMSI rend la réidentification des patients très difficile : à notre connaissance, il n'existe aucun cas dans lequel le secret médical aurait été violé grâce à ces données. Dès lors qu'il est possible de calibrer plus ou moins finement la précision des données du PMSI, une communication relativement large est permise, que ce soit à certains acteurs privés ou à des fins de recherche. Nous considérons que l'accès au PMSI est plus largement ouvert que celui au Sniiram, dont la richesse est plus importante. Afin de prévenir tout mésusage des informations du PMSI, l'Atih prévoit de mieux documenter l'utilisation de cette base.

Du point de vue des usages des données de santé, la DGOS s'intéresse bien sûr au développement d'une meilleure connaissance des mécanismes de formation des coûts de soins, à un affinement des modèles de tarification ainsi qu'à l'évaluation des efforts d'efficience que les établissements sont capables d'atteindre, notamment dans le cadre d'une dimension parcours entre établissements et entre professionnels. Ce dernier aspect est actuellement imparfaitement renseigné par le seul PMSI ; son chaînage avec le Sniiram devrait permettre de fournir des informations éclairantes à ce titre. La connaissance des parcours est indispensable pour progresser dans l'articulation des niveaux de recours et dans la mise en place de modèles de financement plus transversaux entre la ville et l'hôpital.

M. Housseyni Holla, directeur de l'Agence technique de l'information sur l'hospitalisation (Atih). - La compétence de l'Atih recouvre le secteur hospitalier sanitaire, et non le champ médico-social. Créée en 2000, l'Atih est un établissement public placé sous la tutelle des ministres en charge de la santé et de la sécurité sociale. Elle est régie par les articles R. 6113-33 à R. 6113-52 du code de la santé publique. Son conseil d'administration réunit l'Etat, l'assurance maladie et des personnalités qualifiées. Elle assure trois grandes missions, la première étant celle de collecter, d'analyser et de restituer les données relatives aux établissements de santé. Ces données recouvrent l'activité des établissements - c'est le champ du PMSI -, les coûts hospitaliers, la qualité et la sécurité des soins - ces données étant collectées pour le compte de la HAS -, des informations financières et relatives aux ressources humaines. Notre deuxième mission consiste en la gestion des dispositifs techniques de financement des établissements de santé, en relation directe avec le ministère. Nous participons également à l'élaboration des nomenclatures de santé en lien avec l'assurance maladie.

Les données les plus sensibles manipulées par l'Atih sont celles du PMSI. Les données relatives aux coûts hospitaliers reposent quant à elles sur un échantillon d'établissements et donnent lieu à une restitution agrégée. La collecte des données du PMSI est effectuée dans le cadre défini par les articles L. 6113-7 et 6113-8 du code de la santé publique et par différents décrets. Ces textes définissent les conditions de la collecte dans les établissements, notamment s'agissant des relations entre le département de l'information médicale (DIM) et les praticiens, des conditions de traitement des informations et des modalités de leur consolidation, qui doivent garantir leur confidentialité et l'anonymat des patients. Quatre arrêtés pris par le ministère pour chacun des secteurs du champ sanitaire définissent notamment les conditions de transmission des informations vers les ARS pour validation ; en pratique, cette transmission est assurée par l'Atih.

Les données du PMSI comportent un nombre d'informations limité, quoique celles-ci soient très riches pour l'analyse : le nom de l'établissement dans lequel le patient a séjourné, la durée de son séjour, son âge, son sexe, son lieu d'habitation, le diagnostic, les actes réalisés, la consommation de médicaments et de dispositifs médicaux lorsqu'elle est onéreuse. Grâce au chaînage entre les données du PMSI et celles du Sniiram, nous avons la possibilité de reconstituer le parcours de soins d'un patient sans jamais l'identifier.

L'Atih fournit aux établissements les outils techniques qui leur permettent d'agréger les données administratives, de facturation et les données médicales en les anonymisant, grâce au logiciel issu de l'assurance maladie dit « Foin » (fonction d'occultation des informations nominatives). Les informations sont ainsi anonymisées au sein des établissements avant leur transmission à l'Atih, ce traitement étant garanti par le DIM de l'établissement. Les données transmises font ensuite l'objet d'une seconde anonymisation au sein de l'Atih avant d'alimenter le Sniiram. Une troisième anonymisation est enfin opérée : ces anonymisations successives visent à créer une rupture entre les informations disponibles dans les différentes bases afin de prévenir tout risque de réidentification. Il est à noter que la fonction d'occultation de certaines informations identifiantes telles que le NIR est une fonction irréversible. Les données ainsi traitées peuvent alors être transmises à l'Etat, aux ARS, aux différentes agences sanitaires ainsi qu'à certains acteurs privés, leur diffusion étant strictement encadrée par la Cnil.

La diffusion des données est assurée par le service de réponse aux demandes externes de l'Atih. Celles-ci sont transmises aux acteurs disposant d'une autorisation de la Cnil. Nous réalisons également des traitements et des extractions à la demande pour les administrations centrales, les institutions publiques de contrôle telles que la Cour des comptes, l'IGF ou l'IGAS, ainsi que pour les institutions sanitaires comme la HAS ou l'Inca. Nous constituons par ailleurs, lorsque nous constatons des demandes récurrentes, des tableaux statistiques que nous mettons à la disposition de tous ; c'est essentiellement à ces informations qu'ont accès les sociétés privées. Nous publions sur notre site internet, à travers l'outil de restitution « Snatih » (système national d'information sur l'hospitalisation), diverses informations issues du PMSI : des statistiques très agrégées sont en accès libre, comme par exemple le case-mix ou éventail des cas traités par chaque établissement ; d'autres informations ne sont accessibles qu'avec identifiant et mot de passe.

Notre système de gestion des données est sécurisé aux stades de leur collecte comme de leur diffusion et de leur conservation. La collecte relève de la responsabilité des établissements ; la transmission est effectuée selon un protocole sécurisé entre l'Atih et les établissements ; la base stockée à l'Atih est inaccessible aux tiers. Les données transmises à l'assurance maladie relèvent de sa responsabilité. Les données publiques ne sont transmises, quel que soit le statut - public ou privé - du demandeur, que sur accord de la Cnil ; le demandeur s'engage à ne pas identifier les patients et à ne communiquer ou publier les données transmises que si toute identification est impossible, et les personnes chargées du traitement des données sont astreintes au secret professionnel. Une fois l'autorisation Cnil acquise, le traitement des informations relève donc de la responsabilité du demandeur.

Les données du PMSI sont aujourd'hui très largement utilisées par l'Etat et l'assurance maladie dans le cadre de l'organisation, du financement et de la régulation des soins, ainsi que pour le contrôle des prises en charge. Elles sont également utilisées par les grandes agences sanitaires nationales (HAS, InVS...), auprès desquelles nous intervenons en tant qu'outil technique, dans le cadre de conventions ou de restitutions à la demande. Nous travaillons avec les chercheurs dans le champ épidémiologique notamment. À l'évidence, le PMSI intéresse également les industriels. 61 sociétés privées ont aujourd'hui accès à ces informations, pour des usages qui ne sont pas très différents des nôtres : à l'heure actuelle, la valeur ajoutée de ces entreprises dans le traitement des données de santé n'est donc pas encore démontrée. En outre, bien que le PMSI ne fournisse qu'un nombre limité d'information, leur exploitation n'est pas si simple.

Le rapprochement entre les données du PMSI et celles du Sniiram ouvre un très vaste champ d'études, notamment s'agissant de l'analyse des parcours de soins, ce qui intéresse bien sûr les ARS dans le cadre de l'organisation territoriale des soins.

M. Jean-Jacques Hyest, président. - Les données INSEE portant sur les décès mentionnent-elles leur cause ?

M. Claude Gissot, directeur de la stratégie à la CNAMTS. - Les informations de l'INSEE ne mentionnent que la date, non les causes des décès.  Les informations relatives aux causes sont gérées par le centre d'épidémiologie sur les causes médicales de décès (CépiDc), qui constitue un laboratoire de l'INSERM. Il existe des projets visant à analyser les causes de la mortalité post-hospitalière, qui pourraient permettre in fine d'évaluer la qualité des établissements, mais nous n'en sommes encore qu'aux débuts.

M. Jean-Jacques Hyest, président. - Les maires ne peuvent pourtant dresser d'acte de décès sans en indiquer la cause à partir des informations transmises sous pli cacheté par le médecin. À qui ces informations sont-elles transmises ? Ne pourraient-elles pas présenter un grand intérêt ?

M. Claude Gissot. - Les informations relatives aux causes de décès ne sont envoyées qu'au CépiDc de l'Inserm et l'Insee n'y a pas accès.

M. Frédéric van Roekeghem. - Il ne fait pas de doute que ces informations présenteraient un grand intérêt pour des études de santé publique, sous réserve toutefois qu'elles soient bien documentées et qu'elles soient saisies dans des bases de données exploitables informatiquement.

Mme Corinne Bouchoux, rapporteure. - Quelle est la date de la dernière réunion du comité de pilotage du Sniiram ? Pouvez-vous nous assurer qu'aucun organisme ne se trouve actuellement dans l'attente de données du Sniiram sans pouvoir voir sa demande satisfaite faute de décision de cette instance ? Vous semblez favorable au big data mais plus mesuré quant à l'avènement de l'open data, au sens anglo-saxon du terme, dans le domaine de la santé : ai-je bien résumé votre pensée ?

M. Frédéric van Roekeghem. - Au sens propre du terme, l'open data recouvre des données plutôt agrégées, tandis que des études approfondies de santé publique supposent l'accès à des données indirectement réidentifiantes. Ce deuxième type d'utilisation nécessite donc une professionnalisation des acteurs, une clarification des finalités au titre desquelles l'accès peut être accordé, un encadrement législatif, y compris pénal, et déontologique précis, une forte sécurité des systèmes d'information. Il est par ailleurs indispensable de réfléchir aux moyens d'assurer le contrôle d'une telle utilisation : les moyens de la Cnil ne sont pas infinis.

M. Claude Gissot. - Le Copiir s'est réuni pour la dernière fois le 18 avril 2013. Il s'est notamment prononcé sur l'accès de l'Atih, la Drees et des ARS aux données exhaustives du Sniiram. L'arrêté a été publié il y a 15 jours.

M. Frédéric van Roekeghem. - Nous tenons les informations relatives aux réunions du Copiir à la disposition de la MCI. Vous pourrez constater que nous avons très notablement accéléré le rythme de ces réunions depuis plus de deux ans. Il faut se demander à qui les délais d'accès au Sniiram sont imputables...

Mme Corinne Bouchoux, rapporteure. - Selon les textes, le comité de pilotage du Sniiram ne devrait-il pas se réunir deux fois par an ?

M. Claude Gissot. - Cette obligation a été fixée par voie de protocole et vaut comme un règlement intérieur. Ce n'est pas une obligation législative. Rappelons-nous que la mise en place du Sniiram a été progressive : à ses débuts, il n'existait qu'un seul data mart et il n'était pas nécessaire de réunir le comité de pilotage tous les six mois. L'appariement des données du Sniiram avec celles du PMSI et l'introduction des données de l'INSEE a ensuite suscité un intérêt croissant pour cette base de données : nous nous sommes alors organisés de manière à répondre aux demandes.

M. Frédéric van Roekeghem. - Alors qu'il vient de lancer une mission de l'IGAS sur l'évolution de l'accès aux données de santé, il me semble raisonnable de laisser au Gouvernement le soin de définir les orientations à mettre en oeuvre dans ce domaine. Il me paraît inopportun de gesticuler de manière désordonnée sur l'ouverture de l'accès aux données de santé quand une réflexion est en cours. Dans ce contexte, le comité de pilotage ne saurait prendre de décisions importantes sans coordination avec le gouvernement. Par ailleurs, les décisions prises par le Copiir d'avril 2013 ne sont pas encore opérationnelles ; il pourrait être intéressant que vous vous penchiez sur l'historique de l'ouverture des données de santé aux ARS, notamment sur l'intervention de la Cnil...

M. Jean-Jacques Hyest, président. - Nous entendrons Mme la ministre des affaires sociales et de la santé le 27 mars. Nous vous remercions pour votre contribution à notre compréhension de l'open data.

La séance est close à 12 heures 44.