Allez au contenu, Allez à la navigation

La protection des données personnelles dans l'open data : une exigence et une opportunité

16 avril 2014 : La protection des données personnelles dans l'open data : une exigence et une opportunité ( rapport d'information )

II. - UNE PROTECTION TOUTEFOIS FRAGILISÉE
PAR UNE DOUBLE FAILLE

Notre droit parvient à une conciliation équilibrée entre les exigences qui fondent l'open data et la protection des données personnelles, donnant à cette dernière la priorité à moins que l'innocuité de la diffusion d'informations privées soit garantie, parce que la base a été anonymisée, que l'intéressé a donné son consentement ou que la loi exige cette diffusion.

Cependant, l'efficacité de cette réglementation dépend de la façon dont les administrations la mettent en oeuvre. Or, des auditions et des travaux qu'ils ont conduits, vos rapporteurs tirent le constat que cette mise en oeuvre est susceptible de présenter deux failles.

La première a trait à la qualité du procédé d'anonymisation mis en oeuvre : tous ne présentent pas la même efficience et, selon la nature des données en cause, le risque de ré-identification n'est pas nul, ce qui pourrait aboutir à la diffusion indirecte et accidentelle d'informations personnelles (A).

La seconde faille concerne le pilotage et l'accompagnement des administrations dans le déploiement de l'open data. Ceux-ci n'apparaissent pas toujours suffisants, laissant ces administrations démunies face à des exigences de protection des données personnelles qu'elles maîtrisent mal (B).

A. PREMIÈRE FAILLE : LE RISQUE DE RÉ-IDENTIFICATION

Des trois possibilités de mise en ligne de documents administratifs contenant des données personnelles41(*), l'anonymisation de la base de données est certainement le procédé le plus commode.

En effet, son champ d'application est général : contrairement aux données personnelles diffusées sur la base d'une exigence légale spéciale, il peut concerner toutes les bases de données administratives librement communicables. En outre, il permet de se dispenser du recueil préalable du consentement des intéressés, ce qui représenterait, pour la plupart des bases de données envisageables, initialement conçues pour un tout autre objectif, une contrainte insurmontable.

Pour autant, il n'est pas infaillible : imparfaitement mis en oeuvre, il est susceptible de permettre la ré-identification des données, au détriment des administrés concernés.

1. Un risque avéré
a) Les techniques d'anonymisation

L'anonymisation peut être définie comme l'opération de suppression de l'ensemble des informations permettant d'identifier directement ou indirectement un individu, contenues dans un document ou une base de données.

Selon les informations fournies par la CNIL à vos rapporteurs, trois méthodes peuvent être employées pour parvenir à ce résultat : la substitution parfois appelée aussi « pseudonymisation », la suppression ou le « masquage », et, enfin, l'agrégation.

· La substitution ou la « pseudonymisation »

Cette méthode consiste à remplacer l'identifiant initial d'une personne par un autre identifiant arbitraire, un pseudonyme42(*).

Pour garantir la traçabilité et la mise à jour des informations dans la base et éviter d'associer à un individu les données relatives à un autre, faute de disposer d'un identifiant pérenne, il est nécessaire que, pour chaque personne, ce pseudonyme soit unique.

À cette fin, il peut être établi de trois manières différentes.

Une table de correspondance secrète peut être générée, qui associe une fois pour toutes, l'ensemble des identifiants avec les pseudonymes qui leur ont été attribués. Le niveau de sécurité de cette technique d'anonymisation est faible. L'opération est en effet réversible, puisqu'on peut retrouver l'identifiant à partir du pseudonyme et que celui qui détient la table lit à livre ouvert dans la base donnée : l'anonymisation n'est garantie qu'autant que cette table reste secrète.

La seconde façon de procéder à la « pseudonymisation » est d'utiliser un algorithme de chiffrement : l'ensemble des identifiants initiaux sont transformés en des pseudonymes uniques. L'opération est, là encore, réversible, puisque l'on peut retrouver l'identifiant à partir du pseudonyme, pour peu que l'on sache quel algorithme de chiffrement a été utilisé.

La dernière façon de procéder à la substitution d'un pseudonyme à l'identifiant initial est de recourir à une fonction dite de « hachage », qui présente la particularité, par rapport aux algorithmes de chiffrement standards, de ne pas être réversible : il n'est pas possible de retrouver l'identifiant initial à partir du seul pseudonyme, même si l'on connaît la fonction de hachage utilisée.

Toutefois, en dépit de cette irréversibilité de principe, cette technique peut être mise en échec en reconstituant, par réitération, une table de correspondance. Cette méthode pour casser l'anonymisation suppose d'importants moyens informatiques : elle consiste à appliquer la fonction de hachage à l'ensemble des identifiants possibles (par exemple, l'ensemble des noms et prénoms des individus susceptibles d'appartenir à la base de données). Ainsi, on retrouve, pour chacun, le pseudonyme unique qui lui est attribué par la fonction de hachage initialement utilisées.

Il est possible de renforcer la sécurité de l'anonymisation en ajoutant préalablement aux identifiants initiaux une clé secrète arbitraire : par exemple au nom « Jean Dupont », on associe la clé « azerty », pour donner un second identifiant « Jean Dupontazerty », qu'on soumet alors à la fonction de hachage. Celui qui souhaitera reconstituer la table de correspondance devra donc non plus seulement tester l'ensemble des noms et prénoms possibles, ce qui est relativement facile, mais aussi l'ensemble des modifications que ces identifiants sont susceptibles de connaître à partir de clés inconnues.

La sécurité du dispositif repose cependant encore une fois sur la confidentialité des outils utilisés : la clé secrète d'une part, la fonction de hachage utilisée d'autre part.

Il est encore possible de durcir l'anonymisation, en procédant à un double hachage avec clé secrète, qui consiste à réaliser une première fois l'opération, et à soumettre le pseudonyme obtenu à une seconde fonction de hachage avec clé secrète. Pour assurer une pleine confidentialité, les clés peuvent être renouvelées régulièrement. Toutefois, dans ce cas, il n'est plus possible de suivre dans le temps l'évolution des données relatives à un individu, puisqu'il n'y aura plus de moyen de mettre en relation son pseudonyme à un moment donné, avec un second pseudonyme généré plus tard.

· La suppression, le « masquage » ou l'ajout de bruit

L'opération consiste à dégrader l'information initiale, en supprimant certaines données, ou, au contraire, en ajoutant des informations qui noient la donnée initiale identifiante.

Ainsi, dans le premier cas, plutôt que de retenir la date de naissance complète, seule sera conservée l'année de naissance.

Dans le second, les informations seront déformées selon un procédé qui n'en altèrera pas l'usage premier. Ainsi, une base de donnée rassemblant les salaires des employés d'une société, par classe d'âge, destinée à étudier le salaire moyen, sera publiée en ajoutant et en retranchant 1000 euros dans une proportion identique aux salaires d'une même classe. Le calcul du salaire moyen n'en sera pas affecté, puisque les additions et les soustractions se compenseront. Dans le même temps, aucun des salaires publiés ne correspond à celui d'un des employés. L'inconvénient d'une telle méthode est de fausser, dès l'origine, les données, ce qui les rend moins pertinentes pour une utilisation autre que celle d'origine.

· L'agrégation

Cette dernière méthode consiste à rassembler plusieurs données de même type, afin de produire une donnée agrégée qui conserve l'information dont on a besoin, mais rend impossible l'identification de la part d'information agrégée qui correspond à un individu donné.

Par exemple, plutôt que de retenir les deux informations selon lesquelles M. Dupont s'est présenté au guichet de telle administration à 10h et M. Durand à 11h, on retiendrait l'information agrégée selon laquelle deux personnes se sont présentées dans la matinée au guichet concerné, ce qui permet de connaître, avec une certaine précision, le taux de fréquentation de cette administration, sans poser de problème d'identification des administrés en cause.

Ce procédé est d'usage courant en matière statistique. Plus le niveau d'agrégation est élevé, moins il y a de risques de ré-identification, mais, dans le même temps, moins l'information est précise. L'autorité en charge de la base de données doit donc trouver un équilibre satisfaisant entre la robustesse de l'anonymisation garantie par le niveau d'agrégation et la précision des données qu'elle autorise. D'une manière générale, la CNIL recommande de ne pas faire figurer de statistiques conçues à partir d'une agrégation inférieure à dix éléments.

b) Des techniques qui ne sont pas infaillibles

Comme l'a indiqué le représentant de l'institut national de la recherche en informatique et en automatique (INRIA), M. Claude Kirchner, lors de son audition, aucune technique d'anonymisation n'est en théorie infaillible.

Ainsi, la sécurité offerte par les procédés de pseudonymisation dépend, comme on l'a vu précédemment, de la confidentialité des outils de codage utilisés (algorithme, clé secrète, table de correspondance). Il peut toutefois être facilement remédié à ce défaut, en élevant le niveau de confidentialité de ces instruments.

En réalité, la principale faille de l'ensemble de ces procédés d'anonymisation tient aux données mêmes auxquelles ils sont appliqués.

Les liens établis entre elles, qui constituent la raison d'être des bases informatiques qui les rassemblent sont parfois aussi identifiants que chacune de ces données prise isolément.

Prenons l'exemple d'une base de données rassemblant le nom, la date de naissance, le lieu de naissance et le niveau d'imposition. Elle pourrait être anonymisée en ne retenant que l'initiale du nom et l'année de naissance (anonymisation par suppression ou masquage). Cependant si l'on croise ces informations dégradées avec le lieu de naissance, il est possible de ré-identifier certains individus, en particulier, ceux nés dans des communes comptant suffisamment peu de naissances par année, pour que l'initiale du nom de famille permette d'identifier l'intéressé à coup sûr et de connaître, par ricochet, le montant de son imposition43(*).

Une illustration d'une telle ré-identification est fournie par l'erreur commise par le fournisseur d'accès à internet américain, AOL, en 2006 (cf. encadré).

Une première faille de confidentialité dans une démarche d'open data : l'exemple d'AOL

En 2006, l'entreprise américaine AOL, fournisseur d'accès internet, a publié en ligne une vaste base de données qui rassemblait 20 millions de recherches effectuées sur son site par 650 000 utilisateurs. L'objectif de l'opérateur était à la fois de montrer l'étendue des services qu'il proposait, et de proposer à l'attention du public et de la recherche, une ressource particulièrement riche.

La base avait été anonymisée selon un procédé de pseudonymisation : chaque identifiant (nom d'utilisateur sous AOL, adresse IP...) avait été remplacé par un nombre choisi aléatoirement. Ainsi les chercheurs conservaient la possibilité d'attribuer à une même personne l'ensemble des recherches qu'elle avait effectuées, sans que son identité leur soit connue.

L'opérateur a cependant négligé que l'historique de recherche d'un individu (c'est-à-dire l'ensemble des recherches internet qu'il a effectuées pendant une période donnée) est très identifiant : ainsi certains internautes vérifient-ils à intervalle régulier ce qui est publié sur leur compte, en effectuant une recherche sur leur nom. De la même manière, beaucoup de recherches portent sur des services offerts à proximité, ce qui permet, par recoupement, d'approcher l'adresse possible de l'intéressé. Les choix de recherche fournissent aussi des informations sur l'âge, la profession, les goûts ou préférences d'une personne : tous éléments indirectement identifiants.

Le résultat de cette opération est que certains internautes furent réellement identifiés44(*).

D'une manière générale, il suffit de peu de données - et des données anodines en apparence - pour que l'empreinte laissée par celles-ci permette d'identifier une personne parmi d'autres, ce qui permet de la retrouver dans la base en dépit de son anonymisation et donc d'avoir accès, ensuite, à tous son dossier. Ainsi le rapport de Pierre-Louis Bras et André Loth sur la gouvernance et l'utilisation des données de santé, rappelle que 89 % des patients ayant connu un séjour à l'hôpital en 2008 sont identifiables si l'on connaît les informations suivantes, relativement aisée à retrouver : l'hôpital d'accueil, le code postal du domicile, le mois et l'année de naissance, le sexe, le mois de sortie et la durée du séjour45(*). Ce chiffre atteint 100 % pour les patients hospitalisés deux fois la même année46(*). La robustesse des opérations d'anonymisation auxquelles sont soumis le système national d'information inter-régimes de l'assurance maladie (SNIIRAM) et le programme de médicalisation des systèmes d'information (PMSI), qui rassemblent les données de santé de nos concitoyens, n'y change rien : la richesse des informations contenues dans ces bases rend le risque de ré-identification très important, ce qui justifie les mesures de restriction d'accès aujourd'hui mises en oeuvre.

La ré-identification par croisement d'informations qui subsistent dans la base, après anonymisation, se trouve d'ailleurs grandement facilitée par le recours à d'autres jeux de données publiés, qui peuvent rendre identifiant des liens entre plusieurs données qui jusqu'alors ne paraissaient pas permettre de caractériser une personne. Ce procédé a permis la ré-identification de nombre des clients de l'entreprise américaine de diffusion de DVD en ligne, Netflix, à partir de la base de données pourtant anonymisée qu'elle avait diffusée en ligne (cf. encadré ci-dessous).

Une seconde faille de confidentialité dans une démarche d'open data :
l'exemple de Netflix

L'entreprise américaine Netflix offre un service de location en ligne de DVD et permet ensuite à ses utilisateurs de noter ou de recommander les films qu'ils ont visionnés. Ces appréciations lui donnent la possibilité de mieux cerner les goûts de ses clients et de leurs proposer, ce faisant, des films susceptibles de leur plaire.

Souhaitant affiner ses programmes d'analyse des préférences de ses utilisateurs, l'entreprise a publié en ligne, les recommandations de 500 000 d'entre eux, afin que des programmeurs indépendants développent des applications plus performantes que le logiciel utilisé par l'entreprise pour proposer à ses clients des films conformes à leurs goûts. Un prix d'un million de dollars était en jeu.

L'entreprise avait pris le soin d'anonymiser les données directement identifiantes et de modifier légèrement les autres. Deux informaticiens, Arvind Narayanan et Vitaly Shmatikov, sont toutefois parvenus à percer cette anonymisation et à ré-identifier plusieurs profils d'utilisateurs.

En effet, ils se sont aperçus que la seule information donnée par le croisement entre l'appréciation portée sur trois films, et la date à laquelle ils ont été loués, était suffisante pour retrouver l'auteur de ces appréciations, s'il avait fait état d'appréciations identiques aux mêmes dates, sur un autre site ou dans un forum de discussion dans lequel il apparaissait sous sa véritable identité. L'identification pouvait même être accomplie avec moins d'informations si le film en question était relativement rare47(*).

Même la technique dite de l'agrégation ne garantit pas contre cette ré-identification, si le degré d'agrégation choisi est mal calibré.

Comme M. Michel Isnard l'a indiqué à vos rapporteurs, l'INSEE, dont le travail est pourtant souvent exemplaire du point de vue de la protection des données personnelles, a été, au début de l'année 2013, à l'origine d'une fuite sur l'imposition de certains contribuables. En effet, recourant à la technique du « carroyage », l'institut a divisé la France en carrés de 200 mètres de côté, en associant à ces carreaux l'imposition moyenne des habitants concernés. Ces données furent publiées sur internet, dans le cadre d'une démarche d'open data. Il s'est cependant avéré que certains carrés, situés dans des territoires peu peuplés, ne comptaient qu'un seul foyer fiscal, dont il était aisé, ensuite, de retrouver l'adresse et donc l'identité. L'institut a depuis revu sa méthodologie48(*).

2. Des risques jusqu'à présent limités, mais des conséquences susceptibles d'être graves pour les personnes concernées comme pour l'administration

Dans un contexte de diffusion exponentielle de données de tous ordres, publiques ou privées, sur tous les objets possibles, ce qu'on désigne parfois du terme de « big data », les techniques de recoupement d'informations constituent un moyen très efficace pour percer l'anonymat des bases de données.

Ce risque de ré-identification n'est pas nul. Vos rapporteurs constatent cependant, qu'à ce jour, les dispositifs d'anonymisation utilisés ont été suffisamment robustes pour éviter toute diffusion accidentelle de données personnelles. En dehors des quelques cas précités, les personnes entendues au cours des auditions n'ont pas fait état d'autres exemples de ré-identification avérée de données publiées.

Force est de reconnaître, toutefois, que l'immense majorité des jeux de données mis en ligne porte sur des informations impersonnelles, pour lesquelles le risque de ré-identification ne se pose pas. Nous sommes cependant au commencement de l'open data : le mouvement doit prendre de l'ampleur et le nombre de bases anonymisées devrait progresser sensiblement, augmentant d'autant les situations dans lesquelles une fuite d'information personnelle pourrait survenir.

En outre, la probabilité d'une telle fuite doit être croisée avec sa gravité, pour décider s'il convient ou non, comme le pensent vos rapporteurs, de mettre en oeuvre de manière plus systématique les moyens de la prévenir.

Or, la gravité de l'atteinte portée aux intéressés dépend de deux éléments : d'une part de la nature des informations en cause, d'autre part de la portée de la diffusion accidentelle.

Incontestablement certaines données sont plus sensibles que d'autres, comme celles relatives à l'état de santé, à la vie familiale, aux affaires judiciaires ou au patrimoine. Les fichiers concernés (état civil, base de données de santé, fichier fiscal, casier judiciaire ou base de décisions de justice...) font d'ailleurs l'objet de précautions particulières.

La gravité de l'atteinte portée à la vie privée des victimes est aussi fonction de l'étendue de la fuite, qui dépend elle-même du mode de publication retenue par l'administration : dans son principe, l'open data commande une publication qui autorise le téléchargement de la base de données et son appropriation par tous ceux qui le souhaitent. Or, à moins de ne s'être jamais dessaisie des données et d'en avoir toujours gardé le contrôle, l'administration ne sera pas en mesure de contenir la fuite et de rapatrier les bases compromises : la fuite sera irrémédiable.

À la gravité des conséquences d'une ré-identification pour les victimes répond celle des conséquences pour l'administration elle-même.

En principe, la ré-identification procédant d'un recoupement d'informations, et donc, d'un traitement de la base de données, la responsabilité de l'atteinte ainsi portée à la vie privée d'un administré devrait incomber à celui qui y a procédé volontairement.

Toutefois, on ne peut exclure, comme l'a relevé M. le professeur Gilles Gugliemi lors de son audition par vos rapporteurs, que la responsabilité de l'administration soit engagée à raison des négligences graves qu'elle aurait commises et qui auraient favorisé la diffusion d'informations personnelles, comme elle peut l'être à chaque fois qu'elle divulgue elle-même une information couverte par le secret administratif ou non communicable parce qu'elle porte atteinte à la vie privée d'un administré ou d'un fonctionnaire49(*).


* 41 Consentement de l'intéressé à la diffusion de ses données, anonymisation ou exigence légale de diffusion.

* 42 Ce pseudonyme peut parfois être un nom de code, le risque étant alors qu'il y ait une correspondance implicite entre l'identifiant initial et ce nom de code. Le plus souvent, il s'agit d'une suite arbitraire de caractères alphanumériques.

* 43 À titre d'exemple, une étude américaine a montré que 97 % des électeurs de la ville de Cambridge dans le Massachusetts pouvaient être identifiés par le seul croisement de leur date de naissance et des neuf chiffres du code postal correspondant à leur adresse (Latanya Sweeney (1997), « Weaving technology and policy together to maintain confidentiality », Journal of Law, Medicine and Ethics, 25, p. 98-110, cité par Kieron O'Hara (2011), Transparent Government, not Transparent Citizens : A Report on Privacy and Transparency for the Cabinet Office, disponible à l'adresse suivante : https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/61279/transparency-and-privacy-review-annex-a.pdf).

* 44 Kieron O'Hara (2011), Transparent Government, not Transparent Citizens: A Report on Privacy and Transparency for the Cabinet Office, préc., p. 39.

* 45 Ainsi, il suffirait, pour retrouver dans la base le dossier d'une personnalité, de savoir à quelles dates elle a été hospitalisée et où (les autres informations -domicile, âge et sexe, étant très facile à connaître), pour identifier le pseudonyme qui lui a été attribué et avoir potentiellement accès à l'ensemble de ses informations médicales.

* 46 Pierre-Louis Bras, André Loth, Rapport sur la gouvernance et l'utilisation des données de santé, remis à la ministre des affaires sociales et de la santé, septembre 2013, p. 27. Le rapport est consultable à l'adresse suivante : http://www.drees.sante.gouv.fr/rapport-sur-la-gouvernance-et-l-utilisation-des-donnees-de,11202.html.

* 47 Arvind Narayanan et Vitaly Shmatikov (2008), « Robust de-anonymisation of large sparse datasets », Proceedings of the 2008 IEEE Symposium on Security and Privacy, p. 11-125, cité par Kieron O'Hara, préc., p. 40-42.

* 48 Cf.  http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=donnees-carroyees&page=donnees-detaillees/donnees-carroyees/donnees_carroyees_diffusion.htm.

* 49 Sur ce point cf. en particulier, Maryse Deguergue, « Promesses, renseignements, retards », in Répertoire de la responsabilité de la puissance publique, Dalloz.