B. L'OUVERTURE DES DONNÉES PUBLIQUES : UNE PRIORITÉ AFFICHÉE, DES ATTENTES MULTIPLES, UN CHEMIN MALAISÉ

La démarche récente de mise à disposition des données publiques ajoute une nouvelle dimension au mouvement d'ouverture de l'administration. Elle complète le dispositif d'accès aux documents administratifs, qui relève d'une logique de réponse à une demande, par une stratégie d'offre. Au-delà de la simple publication d'informations administratives, l'ouverture et le partage de données en open data ne visent pas seulement à en permettre la consultation directe et ponctuelle, mais, plus largement, à alimenter un écosystème fondé sur leur réutilisation.

Encore largement inachevé, le mouvement de l' open data repose sur une approche incitative et volontariste. Progressivement affirmée au cours des dernières années, la démarche a été traduite dans plusieurs chantiers importants et peut d'ores et déjà se prévaloir de résultats significatifs (1). Face à des attentes multiples et exigeantes (2), elle continue cependant de se heurter à plusieurs obstacles (3).

1. Une démarche active d'ouverture des données publiques

Les données publiques sont véritablement à la disposition du public dès lors qu'elles sont « librement accessibles et gratuitement réutilisables » 209 ( * ) . Pour pouvoir être pleinement qualifiées d' open data, elles doivent en principe être organisées selon un format ouvert 210 ( * ) , et réutilisables dans le cadre d'une licence ouverte.

L'ouverture des données publiques est un objectif pluridimensionnel que les pouvoirs publics ont progressivement affirmé et accompagné dans une démarche incitative (a). Il peut d'ores et déjà être considéré que les résultats de cette démarche sont significatifs (b).

Les étoiles de Tim Berners-Lee

Lors de son intervention à la conférence « Gov 2.0 Expo 2010 » le 26 mai 2010, Tim Berners Lee, inventeur du web et très engagé pour l' open data , a exposé sa conception des différentes étapes conduisant à une ouverture parfaite des données en les matérialisant sous forme d'une notation de une à cinq étoiles.

* Ouverture du jeu de données sous n'importe quel format avec un droit de réutilisation.

** Utilisation de format structuré 211 ( * ) (par exemple un fichier Excel) qui permet un traitement automatique de l'information.

*** Utilisation d'un format ouvert 212 ( * ) (par exemple un fichier CSV 213 ( * ) ) ne nécessitant pas un logiciel propriétaire particulier pour son interprétation.

**** Le jeu de données est identifié par URL 214 ( * ) : les données du jeu deviennent référençables par d'autres jeux à l'aide de liens.

***** Le jeu de données fait lui-même référence à d'autres jeux par liens.

Cette modélisation a été reprise par de nombreux écrits sur l'ouverture des données, et notamment dans le livre blanc sur l' open data présenté au parlement britannique en juin 2012.

La première idée est celle d'une démarche pragmatique pas à pas laissant la place à un amélioration progressive, selon le principe qu'il vaut mieux ouvrir des données même de manière imparfaite que passer beaucoup de temps à tenter de les améliorer sans les ouvrir. Cette approche est aussi celle qui a été retenue dans le rapport Shakespeare 215 ( * ) , qui préconise une approche en deux voies : ouverture rapide, puis amélioration progressive pour les jeux de données standard ; recherche de la qualité maximale dès le départ pour les jeux de données de référence.

Le 4 et 5 étoiles font directement référence à la notion de web sémantique 216 ( * ) qui est simplement une approche particulière de l'interopérabilité entre jeux de données. Ces deux dernières phases pourraient être substituées, dans un contexte plus général mais avec un certain appauvrissement, par : mise à disposition de jeux de références qui jouent le rôle de nomenclatures ; utilisation de ces nomenclatures dans les jeux de données.

a) Un objectif pluridimensionnel

La démarche d'ouverture des données publiques comporte plusieurs dimensions dont la portée et les parts respectives ont évolué dans le temps : la généralisation de l'accessibilité des informations publiques, leur valorisation dans le cadre de la gestion du patrimoine public immatériel, la modernisation de l'État dont elle constitue un levier, enfin un objectif de gratuité dont les conséquences budgétaires doivent maîtrisées.

• Un principe d'accessibilité progressivement affirmé

Dans son discours d'Hourtin du 25 août 1997 , le premier ministre Lionel Jospin, constatant « l'émergence d'une société de l'information », affirmait la nécessité pour son gouvernement de prendre en compte l'importance des bouleversements économiques, sociaux, culturels et politiques associés. Il indiquait que cette évolution devait se traduire dans le champ politique par un approfondissement de l'exigence démocratique de transparence de l'État et la mise en oeuvre d'une « conception ambitieuse du droit à l'information du citoyen », qui passerait par la « mise en réseau des services publics ». Désormais, la mise en ligne gratuite des « données publiques essentielles » devait être la règle.

Si le régime juridique de la réutilisation des données publiques a été précisé par une ordonnance de 2005 qui a modifié la loi du 17 juillet 1978 pour assurer la transposition des dispositions de la directive de 2003 217 ( * ) , cette volonté de placer la technologie au service de l'accès à l'information publique n'a véritablement été concrétisée qu'à compter de 2011.

Un décret 218 ( * ) et une circulaire 219 ( * ) du Premier ministre du 26 mai 2011 ont ainsi réaffirmé les principes d'ouverture et de partage des données publiques et introduit celui d' « une réutilisation libre, facile et gratuite pour l'ensemble des citoyens ».

Le mouvement a été poursuivi par le nouveau gouvernement installé en mai 2012 et intégré au chantier de la modernisation de l'action publique. Signée par l'ensemble de ses membres dès la première réunion du conseil des ministres, la charte de déontologie du 17 mai 2012 a notamment prévu que le « devoir de transparence » du Gouvernement se traduit par « une action déterminée pour la mise à disposition gratuite et commode sur Internet d'un grand nombre de données publiques ».

Cette orientation générale a ensuite été concrétisée par plusieurs décisions arrêtées dans le cadre du Comité interministériel pour la modernisation de l'action publique (Cimap).

Relevé des décisions du Cimap relatives à l'ouverture des données publiques

18 décembre 2012

Décision n° 32

Réaffirmer le principe de gratuité de la réutilisation des données publiques et l'étendre, en concertation, aux collectivités, aux délégataires de service public, à la sphère sociale et aux autorités administratives indépendantes

Décision n° 33

Développer la transparence de l'action publique et stimuler une citoyenneté active

Décision n° 38

Maîtriser le cycle de vie des données au sein des entités administratives et en faciliter l'utilisation le partage, la sécurité et l'archivage

Décision n° 13

Le Gouvernement publiera dès 2013 de nouveaux jeux de données sur data.gouv.fr dans des domaines stratégiques de l'action publique

2 avril 2013

Décision n° 14

Le Gouvernement prendra systématiquement en compte l'exigence de partage des données publiques dans les réformes qu'il présente

Décision n° 15

Le Gouvernement améliorera l'accès aux données ouvertes par la création d'un catalogue national permettant de trouver l'ensemble des données publiques librement accessibles et par l'élaboration d'une nouvelle version de la plateforme data.gouv.fr

Décision n° 16

À la suite de la signature par le Président de la République de la charte du G8 pour l'ouverture des données publiques, le Premier ministre demande à chacun des ministres de participer à l'élaboration du plan d'action national prévu par la charte pour la fin 2013

17 juillet 2013

Décision n° 17

Le SGMAP coordonnera avec l'ensemble des administrations concernées la transposition dans le droit national de la directive européenne du 26 juin 2013 concernant la réutilisation des informations du secteur public

Décision n° 18

Programmation de trois débats thématiques sur l'accès aux données publiques (logement, santé, enseignement supérieur et recherche)

Décision n° 24

Le Gouvernement réaffirme le principe de gratuité de la réutilisation des données publiques et décide de ne plus autoriser la création de nouvelle redevance.

18 décembre 2013

Décision n° 25

Suppression de plusieurs redevances sur la base du rapport Trojette

Décision n° 26

Le Gouvernement précise sa doctrine en matière d'exceptions au principe de gratuité

Décision n° 27

Le Gouvernement lancera les premiers appels à projets cofinancés par le Programme d'investissements d'avenir « Transition numérique et modernisation de l'action publique » au premier semestre 2014

Ces principes ont été rappelés dans la « stratégie gouvernementale en matière d'ouverture et de partage des données publiques », publiée le 28 février 2013. La « feuille de route de l'action gouvernementale » les décline en sept actions visant à faire de la politique d'ouverture des données publiques « un levier de modernisation de l'action publique et de soutien au dynamisme économique ».

Ils ont été précisés avec la publication, le 17 septembre 2013, d'une circulaire du Premier ministre et d'un vademecum sur l'ouverture et le partage des données publiques . Celui-ci vise à faciliter l'engagement des administrations ministérielles dans la démarche d'ouverture et de référencement de leurs données sur le portail data.gouv.fr en fournissant un guide pratique de la mise à disposition de données publiques.

L'engagement de la France dans une politique résolue d'ouverture des données publiques se traduit également au plan international .

C'est ainsi que le 18 juin 2013, le Président de la République a signé la Charte du G8 pour l'ouverture des données publiques . Celle-ci prévoit la mise en place d'un plan d'action national en la matière, qui a effectivement été publié le 6 novembre 2013.

La feuille de route du Gouvernement en matière d'ouverture et de partage des données publiques prévoit par ailleurs que la France prendra part à plusieurs initiatives internationales comme l' Open Government Partnership (OGP), l'initiative sur la transparence de l'aide internationale (IATI) ou sur la transparence des industries extractives (EITI). Le 24 avril 2014, à l'occasion de l'ouverture de la conférence de Paris sur l' open data et le gouvernement ouvert, la ministre en charge, notamment, de la modernisation de l'État, Mme Marylise Lebranchu, a officiellement annoncé la décision de la France de rejoindre l'OGP 220 ( * ) .

• Un patrimoine immatériel à valoriser

Avec les droits de propriété intellectuelle, les marques, la maîtrise de savoir-faire précis ou même des lieux publics, les informations publiques constituent une composante majeure du patrimoine immatériel de l'État . D'abord principalement envisagée sous l'angle de son intérêt économique, la gestion de ces données tend aujourd'hui à rechercher une valorisation plus transversale et de long terme.

Jusque récemment, le patrimoine immatériel de l'État ne faisait pas l'objet d'une politique cohérente de développement et de valorisation. Les travaux menés en 2006 par la commission sur l'économie de l'immatériel221 ( * ) présidée par MM. Maurice Levy et Jean-Pierre Jouyet ont ainsi mis en lumière, d'une part, les lacunes de la politique étatique quant à l'exploitation de son patrimoine immatériel et, d'autre part, les potentialités immenses qui lui sont attachées.

En avril 2007 222 ( * ) , la création de l'agence pour le patrimoine immatériel de l'État (Apie) 223 ( * ) , service à compétence nationale rattaché à la direction générale des finances publiques (DGFiP) et à la direction générale du trésor (DGT), visait à remédier à cette situation par le développement d'une stratégie nationale de gestion de ces actifs, l'amélioration de leur valorisation et la mise en place d'un appui aux administrations cherchant à faciliter la mise à disposition des actifs qu'elles produisent ou détiennent.

Afin d'inciter des administrations parfois réticentes, souvent par méconnaissance des enjeux, à faire de la valorisation de leur patrimoine immatériel une priorité de leur action, deux décrets du 10 février 2009 ont autorisé la rémunération des services rendus par l'État grâce à son patrimoine immatériel . Le premier 224 ( * ) comprend la liste des prestations relevant de ce nouveau régime, parmi lesquelles figurent la cession, la concession ou la mise à disposition de droits de propriété intellectuelle ou d'informations détenus par l'État et la valorisation du savoir-faire ou de l'expertise des services de l'État. Le second 225 ( * ) précise que l'intégralité de la redevance perçue est versée au budget du ministère concerné, instituant ainsi un mécanisme d'intéressement, incitation supplémentaire à l'heure de la raréfaction des ressources publiques.

Dans ce contexte, la mise à disposition des données publiques a d'abord été considérée dans une visée patrimoniale . Dans le cadre de la révision générale des politiques publiques (RGPP), la commercialisation des données et services des grands producteurs de données, comme par exemple l'institut national de l'information géographique et forestière (IGN) ou le service hydrographique et océanique de la marine (SHOM), ainsi que celle des données culturelles, ont été largement encouragées. Il s'agissait notamment d'inciter les opérateurs de l'État au développement de ressources propres dans un contexte budgétaire contraint.

Cependant, contrairement à celle des actifs détenus par les acteurs privés du secteur marchand, la mise en valeur du patrimoine immatériel de l'État, et singulièrement celle des données publiques, ne peut répondre à une logique uniquement commerciale. Elle doit également conduire à une amélioration du service rendu aux usagers, au développement de la qualité du service public et à la mise en place d'une meilleure protection de ces actifs face aux détournements et aux utilisations indues.

Lors de son audition par la mission 226 ( * ) , M. Mohammed Adnène Trojette, magistrat à la Cour des comptes et auteur d'un rapport sur l'ouverture des données publiques 227 ( * ) , mettait ainsi en garde contre le risque que représenterait le choix d'une approche uniquement patrimoniale pour la gestion des données publiques, qui doit être envisagée à long terme et sur un plan interministériel.

Les choix engagés au cours des dernières années pour la gestion des données publiques témoignent d'un recentrage de la politique d'ouverture vers cette deuxième approche. La création de la mission Etalab , la mise en place de la plateforme inter-administrations data.gouv.fr et l'installation d'un chief data officer traduisent une volonté de mettre en oeuvre une gestion transversale des données publiques, qui échappe désormais en grande partie à la compétence de l'Apie 228 ( * ) .

• Un levier de la politique de modernisation de l'administration

Dans son avis n° 12 relatif à l'ouverture des données publiques, le Conseil national du numérique (CNum) relevait que « l'ouverture des données publiques n'est [...] pas une fin en soi, mais un moyen de créer de nouveaux services pour les citoyens, d'améliorer le fonctionnement des administrations et de répondre à l'exigence démocratique de transparence de la puissance publique ». En ce sens, l'ouverture des données peut être considérée comme « un levier de modernisation du secteur public car elle favorise la circulation de l'information entre les administrations et la multiplication d'outils pour l'exploiter ».

En ce qu'elle permet à la fois à ses usagers d'évaluer l'action des pouvoirs publics et à l'ensemble des acteurs de la société d'en imaginer l'amélioration, l'ouverture des données publiques constitue en effet un outil essentiel d'amélioration de la qualité du service public . Par ailleurs, la prise en compte de l'ouverture des données publiques dès le stade de leur production comme le dialogue avec les réutilisateurs permettent d'améliorer le processus de production des informations et, ainsi, la qualité des données publiques elles-mêmes. D'une manière plus large, elle contribue à favoriser la rénovation des systèmes d'information, dans leur fonctionnement comme dans leur organisation.

Le rattachement en 2012 de la mission Etalab au secrétariat général pour la modernisation de l'action publique (SGMAP) manifeste la volonté d'envisager l'ouverture des données dans le cadre de la problématique générale de la modernisation de l'État. Créé par le décret du 30 octobre 2012 229 ( * ) , le SGMAP coordonne l'ensemble des services en charge de la modernisation de l'action publique ; il rassemble notamment la direction interministérielle pour la modernisation de l'action publique (Dimap), la direction interministérielle des systèmes d'information et de communication (Disic) et la mission Etalab . Il a notamment pour objectif de travailler à la conception d'innovations dans les services publics en s'appuyant sur l'utilisation de données publiques, conformément à l'orientation fixée par le Cimap du 18 décembre 2012. Grâce au rapprochement de ces trois services administratifs au sein d'une même structure, la poursuite de cet objectif bénéficie d'une approche intégrée.

En visant à faire de la politique d'ouverture des données publiques « un levier de modernisation de l'action publique et de soutien au dynamisme économique », la feuille de route du Gouvernement en matière d'ouverture et de partage des données publiques a confirmé son inscription dans cette logique.

• Un principe de gratuité inscrit dans une dynamique européenne et internationale

Parachevant l'établissement d'un cadre juridique destiné à sécuriser et à faciliter la réutilisation des données publiques mises à disposition, le principe de la gratuité de la réutilisation des données publiques ouvertes a été progressivement affirmé depuis une dizaine d'années.

Dans un premier temps, dans le cadre de la directive du 17 novembre 2003 230 ( * ) et surtout de l'ordonnance de 2005 qui en assure la transposition en droit national, la possibilité de soumettre la réutilisation d'informations publiques au paiement d'une redevance a été encadrée 231 ( * ) .

Le Gouvernement s'est ensuite plus résolument engagé dans la voie de la généralisation du principe de gratuité de la réutilisation des données publiques ouvertes formulé par le décret précité du 26 mai 2011. La mise en place et le maintien de redevances de réutilisation sont ainsi devenus l'exception et la faculté de percevoir une redevance au titre de la réutilisation de données publiques doit désormais être expressément prévue par voie réglementaire 232 ( * ) .

L'attachement du Gouvernement à ce principe a ensuite été rappelé et précisé à plusieurs reprises. Il a été décidé, lors de la première réunion du Cimap le 18 décembre 2012, de mettre en place une mission d'évaluation des modèles économiques qui sous-tendent l'application de redevances de réutilisation afin de pouvoir juger de la pertinence des différents dispositifs alors existants.

Lors de la réunion du Cimap du 18 décembre 2013, plusieurs décisions ont été prises sur le fondement des conclusions de cette mission. Après avoir réaffirmé la gratuité de principe de la réutilisation des données publiques et décidé de ne plus autoriser la création de redevances nouvelles (décision n° 24), il a annoncé la suppression de plusieurs d'entre elles (décision n° 25), déterminées sur le fondement des conclusions du rapport Trojette.

Redevances supprimées par décision du Cimap du 18 décembre 2013

Redevances perçues sur :

Les données relatives aux dotations globales de fonctionnement (DGF) versées aux collectivités locales

Ministère de l'Intérieur

Les données comptables brutes gérées par la DGFip - balance des comptes définitifs des collectivités et établissements publics locaux recensés à compter de l'arrêté définitif des comptes 2013

Ministère de l'économie et des finances

Le parcellaire agricole de l'Agence de services et de paiement

Les données cadastrales de l'Institut national de l'origine et de la qualité

Ministère de l'agriculture, de l'agroalimentaire et de la forêt

Ministère de l'agriculture, de l'agroalimentaire et de la forêt

Les données relatives aux adresses postales des établissements scolaires

Les données de l'office national d'information sur les enseignements et les professions (ONISEP)

Ministère de l'éducation nationale

Ministère de l'éducation nationale

Les données de la Cada

Les redevances sur la réutilisation professionnelle de certaines informations diffusées par la Dila : associations, dépôt des comptes des associations, JORF, LEGI, KALI, JADE, CONSTIT, CASS-INCA, CAPP, CNIL, circulaires.

Services du Premier ministre

Cette réunion du Cimap a par ailleurs précisé la doctrine du Gouvernement en matière d'exceptions au principe de gratuité de la réutilisation de données publiques (décision n° 26) en fixant trois principes . En premier lieu, la réutilisation des données produites dans le cadre de missions de service public -  c'est-à-dire les données nécessaires à la conduite de ces missions, à la motivation des décisions et à la mesure des activités et de leur bilan - ne saurait donner lieu au paiement de redevances, et ces données doivent faire l'objet d'un effort de publication sur le site data.gouv.fr. En second lieu, s'agissant des redevances instaurées dans le but de garantir l'anonymisation des informations, un « soutien » doit être apporté par le SGMAP aux administrations concernées afin d'identifier les moyens de réduire les coûts associés sans affaiblir les garanties apportées à la protection de la vie privée. Il est enfin affirmé, dans la ligne des conclusions du rapport Trojette, que « les opérateurs dont la mission même est de produire des données doivent rechercher des modèles économiques leur permettant de faire face à un paysage économique en profonde reconstitution » : il s'agit notamment de l'IGN, du SHOM ou de Météo France.

Ainsi, la généralisation du principe de gratuité n'exclut pas que soient facturés aux réutilisateurs le coût de la mise à disposition des données ainsi que la fourniture de services à valeur ajoutée. Cela permet de prendre en compte la situation particulière de certains opérateurs, soit qu'ils doivent supporter des coûts importants d'anonymisation pour la mise à disposition de données comportant des informations à caractère personnel, soit que leur mission consiste à produire de l'information et que leur équilibre budgétaire dépende en grande partie des revenus complémentaires associés.

Les orientations fixées par la directive 2013/37/UE du 26 juin 2013 s'inscrivent dans la même logique. Elles prévoient en effet la généralisation de la tarification au coût marginal - ce qui, dans la plupart des cas, revient en pratique à la gratuité -, tout en admettant des exceptions dans les cas où la diffusion de données doit être financée par une redevance pour assurer l'équilibre économique de leur producteur.

Exemple d'ouverture de données : les avis de la Cada

Le 21 avril 2014, Etalab annonçait l'ouverture des données de la Cada sur data.gouv.fr . Les avis de la Cada, qui faisaient avant cette ouverture l'objet d'une licence payante limitant leur diffusion, sont désormais librement diffusés et librement réutilisables. Ces informations sont disponibles sous forme de données pouvant être utilisées par des outils informatiques ou intégrées dans des traitements informatiques.

Les données de la Cada manipulées par un outil informatique, ici un tableur-sources : data.gouv.fr

Du fait de l'utilisation d'un format ouvert (CSV) 233 ( * ) , il est assez simple d'utiliser ces données dans des développements informatiques. Etalab a lui-même mis en ligne une telle réutilisation sur le site data.gouv.fr , permettant une navigation dans les avis, navigation thématique ou par mot.

b) Une méthode transversale et collaborative

La démarche d'ouverture des données publiques fait l'objet d'une gestion transversale et comporte une dimension collaborative novatrice.

• Une gestion technique transversale de la démarche

Le décret du 21 février 2011 a chargé la mission Etalab, une structure technique transversale dédiée, de créer et de piloter un portail unique, le site data.gouv.fr , destiné à héberger et mettre à la libre disposition des internautes l'ensemble des informations publiques de l'État. La mission accompagne et coordonne en outre l'action des administrations en ce sens, en animant un réseau de correspondants open data et de fournisseurs de données.

La création annoncée par la ministre de la décentralisation, de la réforme de l'État et de la fonction publique, en mai 2014 d'une fonction d' administrateur général des données , ou chief data officer , dont la France est le premier pays européen à se doter, marque une nouvelle étape de cette approche transversale de l'ouverture des données publiques. Son titulaire aura notamment pour missions de favoriser une meilleure circulation des données dans les sphères économique et administrative, d'organiser la production ou l'acquisition de données essentielles ainsi que de développer une " culture de la donnée " au sein des administrations.

• Une dimension collaborative

Les missions d' Etalab comprennent, outre l'animation de la plateforme data.gouv.fr , l'accompagnement et la coordination des administrations et des établissements publics dans leurs initiatives d' open data , ainsi que le développement de l'écosystème des réutilisateurs dans le but d'encourager l'usage concret des données et de stimuler l'innovation économique et sociale. Au-delà de la coopération quotidienne entre les différents organismes en charge de ces questions ( Etalab , Coepia, Apie notamment), la politique d'ouverture de données repose ainsi sur une approche collaborative qui se décline selon deux logiques .

Etalab assure tout d'abord la bonne coordination des administrations engagées dans la démarche d'ouverture des données publiques. Il peut s'appuyer pour ce faire sur un réseau de collaborateurs présents à plusieurs niveaux de l'administration.

Au niveau ministériel, douze coordonnateurs en open data , placés sous l'autorité directe des secrétaires généraux des ministères, se réunissent chaque mois au sein d'un comité de pilotage. Ces coordonnateurs s'appuient eux-mêmes sur des correspondants dédiés au sein des directions, bureaux et services de leurs administrations respectives. Chargés de coordonner la transmission à Etalab des informations publiques en provenance de leur administration, ils sont notamment responsables de l'identification des informations publiques produites ou reçues dans le cadre des missions de service public, de la coordination du recensement et de la qualification de ces informations, de la définition d'une méthode de transmission régulière de ces informations dans des formats exploitables et assorties de métadonnées, ainsi que de la gestion et du contrôle des droits d'accès à data.gouv.fr 234 ( * ) .

Il est ainsi possible à toute personne responsable d'un projet d'ouverture de données et qui souhaiterait obtenir des informations de s'adresser au correspondant Etalab , à la personne responsable de l'accès aux documents administratifs et des questions relatives à la réutilisation des informations publiques (Prada), voire au correspondant informatique et libertés (Cil) dans le cas où se poserait une question d'anonymisation de données à caractère personnel.

La fonction d'administrateur général des données dont la création vient d'être annoncée devrait permettre d'étendre encore cette dimension collaborative, en renforçant le caractère transversal de la politique d'ouverture des données.

En tant que membre associé de l'association Open Data France, Etalab s'associe par ailleurs aux initiatives en open data lancées par les collectivités territoriales qui introduisent la démarche collaborative au niveau local.

La dimension collaborative de la politique d'ouverture de données se traduit également par un effort de développement des relations entre les administrations en charge de cette politique et les réutilisateurs de la société civile, notamment les start-ups ou les associations.

Au niveau national, Etalab endosse ainsi une fonction d' animation de l'écosystème de la réutilisation des données . Il conduit dans ce cadre des initiatives telles que le concours Dataconnexions qui, en récompensant des projets innovants reposant sur l'utilisation de données publiques, promeut des exemples concrets de réutilisations de ces données publiques.

Lors de son audition par votre mission d'information, M. Henri Verdier, directeur de la mission Etalab , a par ailleurs signalé que les travaux de la mission étaient conduits en concertation avec un réseau d'experts pluralistes issus de la société civile, ce qui permet la collecte d'idées novatrices 235 ( * ) .

L'animation de l'écosystème de réutilisation des données ouvertes se décline également à l'échelle locale. En lien avec plusieurs partenaires, parmi lesquels trois collectivités territoriales pilotes, la campagne de formation Infolab vise ainsi à expérimenter des dispositifs de médiation pour répondre aux projets des entreprises et des acteurs des territoires. Divers dispositifs d'accélération de projets en open data ont par ailleurs été mis en place ( Hackathon, BarCamp, StartUp Week-end ...)

c) Des résultats significatifs

Même si elle est encore en deçà des attentes qu'elle suscite, cette politique d'ouverture a d'ores et déjà produit des résultats significatifs, qui placent la France dans un bon rang international comparé, derrière les deux pays pionniers en matière d'ouverture des données publiques que sont les États-Unis et la Grande-Bretagne.

Elle a ainsi permis la mise en ligne d'un nombre non négligeable de jeux de données ouvertes, par les services de l'État comme par certaines collectivités locales, l'ouverture de grandes bases de données publiques. Elle fait en outre l'objet d'un processus constant d'amélioration et de simplifications techniques et juridiques.

Classements internationaux : la France bien positionnée

Il existe plusieurs classements des pays en fonction de l'avancement et de la pertinence de leur démarche d' open data . Chaque classement ayant ses propres critères, nécessairement en nombre limité, les résultats sont parfois étonnamment divergents.

La France obtient ainsi un assez mauvais résultat dans le classement réalisé par l' Open Knowledge Foundation (OKF), notamment en raison d'une note de 0/10 attribuée sur le critère « code postal ». Cette note ne tient cependant pas compte de l'ouverture par l'Insee et l'IGN du code officiel géographique, qui, s'il n'est pas totalement assimilable au code postal, aurait toutefois pu apporter quelques points à cette rubrique.

La France figure en revanche dans le groupe de tête du classement des pays de l'Union européenne publié par PSIPlatform 236 ( * ) : elle ressort ainsi en 3 e position, ex-aequo avec les Pays-Bas, malgré une note médiocre sur le critère des formats (20/100).

PSI Overall Score

Source : ePSIPlatform - 8 mai 2014

Ce classement repose sur sept critères, eux-mêmes décomposés en plusieurs indicateurs : l'application de la directive de 2003 ; la pratique effective de la réutilisation ; les formats ; la facturation et la pratique de redevances ; les accords d'exclusivité ; l' open data dans les collectivités territoriales ; les événements et activités organisés autour de l' open data 237 ( * ) .

La rubrique " format ", par exemple, comprend les indicateurs suivants :

- Est-ce qu'au moins un niveau gouvernemental est chargé de promouvoir ou de prendre en charge la publication pour réutilisation de données brutes dans des formats ouverts 238 ( * ) ?

- Le pays a-t-il adopté une législation portant obligation de diffuser pour réutilisation des données brutes dans des formats ouverts ?

- L'État membre promeut-il ou prend-t-il en charge la diffusion de données interconnectées 239 ( * ) ?

- Existe-t-il un catalogue national ou des catalogues régionaux renvoyant aux jeux de données réutilisables disponibles ?

• Des jeux de données brutes en ligne sur data.gouv.fr et les sites open data des administrations centrales et locales

Effectivement mise en place au 5 décembre 2011, la plateforme nationale d'hébergement et de partage de données publiques ouvertes, gratuites et réutilisables data.gouv.fr rassemblait plus de 350 000 jeux de données brutes lors de sa première mise en ligne.

Le site internet est depuis régulièrement alimenté par les administrations. Ont ainsi été mises en ligne plusieurs séries de données portant sur des domaines stratégiques de l'action publique, comme par exemple la transparence démocratique (résultats du référendum du 7 avril 2013 relatif au projet de création d'une collectivité territoriale d'Alsace), la transparence de l'action de l'État (données relatives à l'attribution des marchés publics), la santé (catégories majeures de diagnostic par établissement de santé) ou encore l'aide publique au développement (données détaillées sur la ventilation des aides) et l'éducation (classement des lycées selon leurs performances).

Si le site internet data.gouv.fr a pour fonction première de rassembler les informations de l'État mises à la disposition du public, les collectivités territoriales comme les personnes de droit public ou de droit privé chargées d'une mission de service public peuvent également utiliser ce portail sur la base du volontariat pour y placer les informations qu'elles détiennent à la disposition du public.

De plus en plus nombreux sont cependant les collectivités et les opérateurs qui lancent leurs initiatives propres en matière d' open data et développent des portails dédiés au partage de données publiques spécifiques 240 ( * ) . Afin de faciliter l'accès aux données publiques par les citoyens, il leur est alors possible de signaler l'existence de ces données sur le site national data.gouv.fr en y faisant figurer une fiche descriptive des données concernées. Le portail toutsurlenvironnement.fr met ainsi à disposition du public des données brutes en matière environnementale.

Open data et collectivités territoriales

Des démarches d'ouverture des données publiques sont mises en oeuvre par un certain nombre de collectivités territoriales : Rennes (depuis 2010), Nantes (depuis 2011), Paris et la Saône-et-Loire font partie des précurseurs en la matière, mais le mouvement est loin d'être général 241 ( * ) .

Créée en octobre 2013 à Toulouse, l'association Open Data France 242 ( * ) regroupe des collectivités engagées activement dans une démarche d'ouverture des données - initialement 18 : Toulouse, ville et métropole, Nantes, ville et métropole, Montpellier, Bordeaux, ville et communauté urbaine, le grand Lyon, Paris, la région Paca, les conseils généraux de Saône-et-Loire, de Gironde et de Loire-Atlantique, les communes de Dignes-les-Bains, Brocas et Balma -, ainsi qu' Etalab , l'association nantaise Libertic et la fondation internet nouvelle génération . Elle s'est fixé pour objectifs l'accès à la connaissance des territoires et de leurs ressources humaines et naturelles, la transparence de l'action publique locale (budgets, délibérations, assiduité des conseillers, etc.), enfin la création de nouveaux services par d'autres acteurs.

L'assemblée des départements de France (ADF) et les autres associations d'élus locaux commencent également à s'intéresser au sujet 243 ( * ) , en lien avec développement de l'e-administration.

Dans tous les cas, la démarche est impulsée par le politique 244 ( * ) mais sa réussite exige un investissement particulier des services techniques, voire parfois, dans les petites collectivités, d'un intervenant unique passionné par l'enjeu 245 ( * ) .

Les portails existants sont plus ou moins sophistiqués : les données font généralement l'objet d'une présentation détaillée, certains comportent des interfaces de programmation, une mise en valeur comportant des graphiques 246 ( * ) , des espaces de discussion et d'échange. Des animations ( Infolab , Hackathon , BarCamp ...) sont organisées dans les collectivités les plus dynamiques.

Ces portails accueillent peu de données produites par les citoyens, en raison notamment d'inquiétudes sur la qualité et la pérennité des données produites et sur la difficulté à assumer un processus productif avec les intéressés. On notera toutefois que des contributeurs se sont emparés des données de voirie libérées par les collectivités territoriales pour enrichir leur fonds de carte (par exemple à Toulouse : l'accessibilité des lieux publics et privés aux personnes en situation de handicap) ou en complétant les zones peu cartographiées.

Des applications commerciales ont également été développées qui intègrent des données locales en open data , essentiellement en matière de tourisme ou encore d'offre immobilière ou d'économie sociale et solidaire (itinéraires pour les bicyclettes, les piétons, etc.). Si les licences semblent globalement converger, en revanche le contenu des données n'est pas encore normalisé, ce qui rend difficile le développement d'applications transversales.

Les problématiques de stockage des données et de gestion du catalogue sont importantes pour les petites collectivités. La mutualisation au travers de la mise à disposition de plateformes par les plus grandes d'entre elles, comme à Toulouse leur permet de disposer d'espaces suffisants sans avoir à exposer des dépenses qu'elles ne seraient pas en mesure de financer. Il est toutefois important pour les collectivités de pouvoir disposer de plateformes mutualisées mais personnalisables pour afficher leur propre portail.

Une collaboration a par ailleurs été établie avec Etalab , qui moissonne les données des collectivités locales. En revanche, les services déconcentrés de l'État semblent plus réticents 247 ( * ) .

• L'ouverture de grandes bases de données

D'abord diffusée au moyen de supports physiques (bulletins et journaux officiel notamment), l'information économique, géographique, culturelle ou encore sociale produite par l'État et ses opérateurs pour leur propre usage et à destination des citoyens et des entreprises a longtemps été payante. La dématérialisation de leur traitement a conduit à l'ouverture progressive des principales bases de données administratives.

Profondément réformée en 2010, comme rappelé plus haut avec la création de la direction de l'information légale et administrative (Dila), réunion de la Documentation française et des Journaux officiels, l'information administrative est désormais très largement mise à disposition du public 248 ( * ) . Par décision du Cimap du 18 décembre 2013, la réutilisation professionnelle de l'information diffusée par la Dila 249 ( * ) est désormais dispensée du paiement de redevances.

L'IGN, dont le financement, à côté d'une dotation de l'État, a longtemps reposé sur les recettes issues de la vente de cartes, propose désormais des services de cartographie gratuits sur Internet et ouvre plus largement au public l'accès à ses données de référence. Ainsi que l'a exposé son directeur général lors de son audition par votre mission d'information, l'IGN tend aujourd'hui à devenir un « service numérique de description du territoire », qui doit néanmoins préserver des capacités et une expertise qui sont des éléments de la souveraineté nationale. Toutes les autorités publiques ont désormais accès aux cartes et données de l'IGN, ce qui a multiplié par vingt leur utilisation en trois ans.

Les institutions culturelles entrent également dans l' open data , à travers des initiatives comme JocondeLab , qui vise à mettre en valeur sur Internet le catalogue des collections des musées de France ( Joconde ). Ce projet, conduit conjointement par le ministère de la culture et de la communication et l'institut de recherche et d'innovation (IRI) du centre Pompidou, a pour objectif de rendre disponibles en quatorze langues 250 ( * ) les 500 000 notices de la base Joconde qui décrivent les oeuvres conservées par deux cents musées. Il s'appuie sur un projet open data de DBpedia , dont le volet français est soutenu par le ministère de la culture, et qui vise à représenter le contenu de Wikipedia avec les techniques du web sémantique 251 ( * ) .

Initié en mai 2013 et accessible depuis janvier 2014, le site expérimente par ailleurs l'indexation collaborative et s'appuie d'ores et déjà sur plus de 2 000 contributions d'internautes, dont la qualité a été soulignée par les responsables du projet lors de leur audition par la mission 252 ( * ) . Les contenus propres de Jocondelab 253 ( * ) sont placés sous licence CC-BY-SA 254 ( * ) . Lauréat du prix Data Access 2014 , décerné dans le cadre des Data Intelligence Awards , qui récompense un projet améliorant significativement l'accès à l'information publique par le champ des données offertes et la pertinence des résultats de recherche, Jocondelab constitue également un exemple de pilotage cohérent et efficace.

• Un effort de clarification et de simplification

Afin d'inciter les différentes administrations et opérateurs publics à participer à la démarche d' open data , un effort de clarification et de simplification des modalités juridiques et techniques a été entrepris sous l'égide de la mission Etalab.

Le régime juridique de l'ouverture et du partage des données a tout d'abord été précisé. Sur la plateforme data.gouv.fr , la mise à disposition des données doit être effectuée sous licence ouverte 255 ( * ) . Cette modalité de partage de données offre en effet une grande liberté aux réutilisateurs , à la fois en ce qu'elle leur garantit une forte sécurité juridique et parce que sa forme est compatible avec les standards internationaux d'utilisation les plus diffusés 256 ( * ) .

Par ailleurs, le vademecum sur l'ouverture et le partage des données publiques , publié en septembre 2013, rappelle aux ministères le cadre juridique de la mise à disposition des données publiques, dans le but de faciliter leur engagement dans la démarche de partage de leurs données.

Par ailleurs, le portail data.gouv.fr a fait l'objet, à la fin de l'année 2013, d'une refonte technique visant à créer un point unique d'entrée pour l'ensemble des recherches de données publique, à simplifier son utilisation, à faciliter les opérations d'enrichissement des données et à alléger les procédures de dépôt et de déclaration pour les administrations engagées dans une démarche d'ouverture de leurs données.

Cette nouvelle version permet également de faire de ce site, outre une plateforme de mise à disposition de données brutes, une vitrine de l'ouverture et du partage des données publiques à destination du grand public. Ce changement passe par un aménagement des modalités de mise à disposition des données pour permettre au grand public de mieux comprendre leur intérêt et de se les approprier. Il se traduit notamment par la mise en place d'outils et de techniques de traitement, par exemple de visualisation, ainsi que par un effort d'indexation et de mise en relation des données.

Des licences standardisées

Une licence libre d'utilisation d'une oeuvre de l'esprit (par exemple un logiciel ou une base de données) garantit aux utilisateurs des droits, dont elle précise les conditions d'exercice s'agissant des droits d'usage, d'étude, de modification et de redistribution.

La standardisation des licences pour les données ouvertes permet d'éviter la multiplication des conditions particulières en cas de réutilisation, qui rend l'exercice particulièrement complexe lorsque sont utilisés plusieurs jeux de données provenant de divers producteurs.

La licence ouverte de data.gouv.fr tend dorénavant à remplacer les anciens standards (notamment les licences Apie, LIP, etc.). Elle n'impose que la mention de l'origine des données utilisées et de leur date de mise à jour. Elle est en outre compatible avec des licences ouvertes très utilisées comme l' Open Government Licence (licence de l' open data britannique) et la licence CC-BY (voir ci-dessous).

Data.gouv.fr admet en outre l' Open Database Licence (ODbL), licence plus complexe qui introduit la notion de partage à l'identique (équivalent d'un CC-BY-SA) : en cas de modifications (adaptations, corrections, améliorations) des données par l'utilisateur, celui-ci est tenu de les diffuser dans des conditions de licence identiques à celles de l'original.

Les licences Creative Commons

De multiples licences existent au plan international. Depuis le début des années 2000, les licences Creative Commons 257 ( * ) (CC), inspirées de la licence GNU GPL relative au logiciel libre, ont pris une importance considérable. Plusieurs jeux de licences sont obtenus par combinaison de paramètres comme :

- l'indication de paternité (BY) ou non (0) ;

- l'utilisation commerciale ou non commerciale (NC) ;

- le caractère modifiable ou non (ND) ;

- le partage à l'identique, du point de vue de la licence (SA) ou non.

Dans le cadre des données ouvertes, on peut rencontrer :

CC-Zero (pas de contrainte, pas de mention de paternité, sous réserve de compatibilité ;
CC-BY (pas de contrainte si ce n'est la mention de la paternité) ;
CC-BY-SA (paternité et partage à l'identique, c'est-à-dire conservation de la licence lors des réutilisations).

d) Des chantiers sectoriels en cours

Il a été décidé par le Gouvernement, dans le cadre du Cimap, de lancer en 2013 plusieurs débats thématiques visant à identifier les nouveaux jeux de données pouvant être publiés et à en favoriser la mise à disposition .

La réunion du Cimap du 18 décembre 2012 a déterminé que ces débats devaient porter sur la mise à disposition de données en matière d'éducation, de risques environnementaux, de transparence du système de soins, d'offre de transports, de logement, de lisibilité des prestations sociales et des dépenses publiques. En lien avec les différents ministères concernés ont ainsi été mises en places plusieurs commissions sectorielles, dont les travaux doivent prendre la forme d'un rapport remis au Premier ministre et aux ministres intéressés, et visant à identifier les actions à mettre en oeuvre.

Le chantier de l'ouverture des données de santé, piloté par le ministère des affaires sociales et de la santé, s'inscrit dans cette perspective, tandis que des initiatives existent également en matière culturelle et dans le champ des sciences.

• Dans le domaine de la santé

L'ouverture et la réutilisation des bases de données de santé publiques restent à l'heure actuelle très limitées.

Ces bases, qui retracent les événements médicaux individuels pour l'ensemble de la population, rassemblent en effet des données personnelles particulièrement sensibles . En outre, elles ont d'abord été constituées à des fins de gestion : le système national d'information interrégimes de l'assurance maladie (Sniiram) a pour fonction première de permettre à la caisse nationale d'assurance maladie (Cnam) d'assurer ses missions de régulation du système de soins de ville, tandis que la mise en place du programme de médicalisation des systèmes d'information (PMSI) dans les années 1990 tendait à améliorer la régulation du financement des hôpitaux. Leur ergonomie a de ce fait été pensée pour répondre aux besoins de leurs gestionnaires et non aux attentes des tiers, qui peuvent se trouver déroutés par leur très grande complexité et n'en retirer qu'une faible utilité, voire en faire des interprétations erronées 258 ( * ) .

Les données de santé : un ensemble d'une exceptionnelle richesse

La notion de données de santé recouvre plusieurs ensembles. Les travaux de la mission commune d'information portent sur le premier d'entre eux.

Les données de santé individuelles

Les bases de données de santé médico-administratives, à vocation exhaustive, rassemblent des données personnelles anonymisées, mais pouvant présenter un caractère indirectement identifiant. Leur administration est assurée par différents organismes à des fins de gestion et de régulation du système de soins ou dans un but statistique.

- Le système national d'information inter-régimes de l'assurance maladie (Sniiram) , dans sa version d'origine, recouvre les données individuelles issues des feuilles de soins traitées par les caisses et organismes d'assurance maladie obligatoire, c'est-à-dire les données relatives aux actes remboursés par la sécurité sociale. Géré par la caisse nationale d'assurance maladie (Cnamts), il est effectivement utilisé depuis 2003.

- Le programme de médicalisation des systèmes d'information (PMSI) , géré par l'agence technique d'information sur l'hospitalisation (Atih), rassemble les informations sur les séjours hospitaliers. Une copie de cette base est transmise au Sniiram depuis 2007 et lui est intégrée depuis 2009, les données de ces deux bases faisant l'objet d'un chaînage qui en augmente encore la pertinence.

- Les informations relatives aux décès sont à la fois celles gérées par l'Insee dans le cadre du répertoire national d'identification des personnes physiques (RNIPP) et celles du centre d'épidémiologie sur les causes médicales de décès (CépiDC) de l'Inserm. Les premières sont transmises aux organismes de sécurité sociale et intégrées au Sniiram, tandis que l'appariement des secondes avec les autres données de santé n'est qu'à l'état de projet.

Dans sa version complète, le Sniiram fournit ainsi depuis 2009 des informations individuelles sur les patients (âge, sexe, bénéfice de la CMU, diagnostic de l'affection de longue durée - ALD -, commune et département de résidence, date de décès), sur la consommation de soins en ville et en établissement (date, descriptif et lieu d'exécution des soins), sur l'offre de soins (spécialité du prescripteur, statut conventionnel du praticien ou statut juridique de l'établissement...), sur les pathologies traitées (de manière indirecte, dès lors qu'il existe un codage associé à certaines consommations associées). Il ne donne pas d'informations, en revanche, sur les facteurs de risques en santé (tabagisme, tension, indice de masse corporelle...), sur la prise en charge en établissement médico-social ou encore sur l'environnement social des patients.

Le Sniiram fait l'objet d' une restitution à plusieurs niveaux et plusieurs entrepôts de données coexistent au sein de la base. 15 bases de données thématiques totalement agrégées, qui ne permettent donc pas la réidentification, sont librement accessibles. L'accès aux données de consommation individuelles exhaustives et indirectement identifiantes, les données de consommation inter-régimes (DCIR), est très restreint. Un échantillon généraliste de bénéficiaires (EGB), obtenu à partir de ces données exhaustives à l'échelle du centième de la population, est ouvert à un plus grand nombre d'organismes, à la condition toutefois que leur accès ait été spécifiquement autorisé. La Cnam peut enfin procéder à des extractions précises sur demande.

Les informations relatives à l'offre de soins

La Cnam met à disposition du public, sur son site ameli direct.fr , diverses informations nominatives relatives aux professionnels de santé (professions, coordonnées, secteur conventionnel, équipement carte vitale...) ainsi qu'aux établissements de soins (détails de l'activité, horaires de consultation...).

La publication des informations relatives aux liens d'intérêt entre les professionnels de santé et les industriels du secteur avait été prévue par la loi « Médicament » du 29 décembre 2011. Malgré la publication d'un décret d'application 259 ( * ) , la mise en oeuvre effective du dispositif se fait encore attendre 260 ( * ) .

Les informations médicales d'ordre général

Des informations médicales sont fournies par les sites internet de plusieurs agences sanitaires, notamment la Haute autorité de santé (HAS) et l'Agence nationale de sécurité du médicament et des produits de santé (ANSM). L'objectif de ces portails d'information est de fournir une information fiable et certifiée au grand public comme aux professionnels de santé et de créer un « service public de l'information en santé » 261 ( * ) .

Une base de données fournissant des informations sur les médicaments a par ailleurs été mise en ligne à l'adresse www.medicaments.gouv.fr .

En raison de leur exceptionnelle richesse - selon M. André Loth, la France pourrait s'enorgueillir de disposer de la plus vaste base de données administratives de santé au monde 262 ( * ) -, ces données pourraient cependant être utilement exploitées à d'autres fins . Leur exhaustivité et leur très fine granularité en font tout d'abord un matériau de choix pour les chercheurs en santé, notamment en épidémiologie. Du fait de la très fine connaissance de l'état de santé de la population qu'elles permettent, elles pourraient également être mises au service de l'élaboration des politiques publiques de santé. Elles pourraient enfin permettre d'améliorer la surveillance des événements sanitaires et d'optimiser la pharmacovigilance, dont le caractère indispensable a été récemment mis en évidence par le scandale du Mediator et l'affaire des pilules de troisième et quatrième générations.

Dans ce cadre, les restrictions opposées à l'accès aux grandes bases de données de santé font l'objet d'une contestation particulièrement vigoureuse. Parce que les informations en matière de santé suscitent un intérêt fort - ou, parfois, des inquiétudes - chez le grand public, que le caractère extrêmement sensible des données concernées emporte des risques majeurs pour la protection de la vie privée, et en raison des potentialités économiques que pourrait présenter le développement de services de traitement de données de santé, le débat dans ce champ est particulièrement vif.

L'accès aux bases de données médico-administratives :
une procédure complexe, une gouvernance peu lisible

En raison du caractère extrêmement sensible des données qu'il retrace, l'accès aux données du Sniiram est très strictement encadré.

Le dispositif mis en place par l'article 21 de la loi de financement de la sécurité sociale pour 1999 instituant le Sniiram prévoyait un mécanisme à deux niveaux pour la définition des modalités de sa gestion :

- un protocole passé entre les différents régimes d'assurance maladie ;

- un arrêté du ministre chargé de la sécurité sociale, après avis de la Cnil.

Le mécanisme effectivement mis en place diffère cependant assez sensiblement de celui qui avait été prévu par le législateur. Les orientations relatives à la gestion du Sniiram sont en pratique proposées par un comité de pilotage inter-régimes, dit Copiir, associant les régimes d'assurance maladie, l'État ainsi que l'Union nationale des professions de santé (UNPS). Les évolutions adoptées dans ce cadre doivent ensuite être validées par arrêté.

Ce mécanisme de gestion du Sniiram a été complexifié en 2004 avec la création, par la loi de santé publique du 9 août 2004, de l'Institut des données de santé (IDS), groupement d'intérêt public réunissant divers acteurs du système de santé. À côté des autorisations accordées par le Copiir pour les accès directs permanents, une nouvelle procédure d'accès à certaines restitutions du Sniiram (EGB et extractions spécifiques) a ainsi été ouverte, pour des organismes à but non lucratif présentant un projet déterminé et pour une durée temporaire, sur approbation de l'IDS, après examen par un comité d'experts et après avis de la Cnil.

Selon M. Christian Babusiaux, le Copiir agirait cependant en réalité comme un verrou bloquant les accès aux données du Sniiram, cette situation s'expliquant par l'antériorité du Copiir par rapport à l'IDS.

Toutefois, bien que les délais constatés pour l'accès au Sniiram soient souvent très longs, et si le caractère tardif de l'autorisation d'accès accordée à certaines institutions sanitaires au rôle crucial comme les agences régionales de santé (ARS) apparaît surprenant, le nombre des organismes habilités à accéder aux restitutions du Sniiram s'est considérablement élargi au cours des dernières années 263 ( * ) .

L'accès au DCIR a ainsi été ouvert au 19 juillet 2013 à la HAS et à l'ANSM, qui ont besoin de pouvoir disposer de données exhaustives pour assurer le suivi très fin réclamé par leurs missions.

La liste prévue par l'arrêté pour l'accès à l'EGB est plus large et comprend notamment des organismes de recherche (Inserm, IRDES, CNRS), les ministères chargés de la santé, de la sécurité sociale et des finances et leurs services déconcentrés, les agences sanitaires (HAS, ANSM, InVS, INCa) ainsi que les membres de l'IDS, parmi lesquels figure notamment le collectif interassociatif sur la santé (Ciss). En pratique, la plupart de ces organismes n'exercent cependant pas leur droit d'accès aux données du Sniiram, notamment parce qu'ils ne disposent pas en interne de compétences adaptées pour ce faire 264 ( * ) .

Par ailleurs, pour les demandes d'utilisation de données de santé émanant de chercheurs, la procédure et les organismes compétents varient selon la nature des recherches conduites et le type d'informations souhaitées.

- En application de l'article 54 de la loi du 6 janvier 1978 , créé par la loi du 6 août 2004 , tout projet de recherche en santé dont la réalisation emporte le recueil de données personnelles doit être soumis au comité consultatif sur le traitement de l'information en matière de recherche dans le domaine de la santé (CCTIRS) en amont de la demande formelle effectuée auprès de la Cnil. Ce comité doit rendre son avis dans un délai d'un mois, ou de quinze jours en cas d'urgence. Dans la pratique, la Cnil suit l'avis des experts du CCTIRS.

- En application de l'article 63 de la loi de 1978, les données de santé à caractère personnel issues des systèmes d'information des établissements de santé ou de l'assurance maladie ne peuvent en principe pas être communiquées sous une forme permettant d'identifier les personnes concernées. Le Cnil peut autoriser des dérogations à cette règle, à des fins d'évaluation des pratiques de soin ou de prévention, dès lors que ni le nom, ni le prénom, ni le NIR des personnes ne sont publiés. C'est alors l'IDS qui doit se prononcer, en s'appuyant sur son propre comité d'experts. Une fois son avis émis, dans un délai minimum de six mois, la Cnil doit être saisie par le demandeur.

Un arrêté du 19 juillet 2013 prévoit que toute demande d'accès, de la part d'un organisme de recherche ou d'enseignement ne poursuivant pas un but lucratif, aux statistiques agrégées du Sniiram ou à son échantillon représentatif, après accord du bureau de l'IDS, soit autorisée par la Cnil dans les mêmes conditions que les évaluations des pratiques de soin et de prévention. L'Inserm et le CNRS bénéficient d'un régime spécifique, tout comme un certain nombre d'organismes publics intervenant dans le champ de la santé.

Malgré ces canaux différents, c'est donc en principe à la Cnil qu'il revient de se prononcer sur les demandes et d'autoriser l'accès des chercheurs aux données personnelles de santé, le rôle du CCTIRS ou de l'IDS étant de fournir une expertise scientifique pour mieux évaluer les demandes formulées.

Selon l'Initiative transparence santé (ITS), qui rassemble des acteurs très divers de la société civile, l'entrave ainsi faite à l'accès aux données publiques de santé représenterait un obstacle majeur à l'élaboration de politiques publiques correspondant à l'état de santé réel de la population . Le professeur Didier Sicard, président du comité d'experts de l'Institut des données de santé (IDS), l'a exprimé en ces termes devant votre mission commune d'information : « vue de l'étranger, la France gaspille sa richesse à élaborer des stratégies en décalage avec la réalité » et la politique de restriction à l'accès aux données de santé revient à « couper les bras » des épidémiologistes. Selon M. Christian Babusiaux, président de l'Institut des données de santé (IDS) 265 ( * ) , « il y a urgence : le temps perdu représente autant de chances perdues pour la santé des patients ».

Dans ce contexte, un rapport sur « La gouvernance et l'utilisation des données de santé », remis le 3 octobre 2013 à la ministre des affaires sociales et de la santé par M. Pierre-Louis Bras, a formulé plusieurs recommandations visant à améliorer l'accès aux bases de données médico-administratives et à favoriser l'exploitation de l'immense gisement d'informations qu'elles constituent.

Selon la présentation qu'en a fait l'un de ses auteurs, M. André Loth, lors de son audition par la mission commune d'information 266 ( * ) , le rapport a défini trois orientations principales : « il faut ouvrir le plus largement possible l'accès aux données anonymes et les diffuser sans restriction ; utiliser autant que faire se peut, dans le respect de la vie privée, les données ayant un caractère indirectement nominatif ; faire enfin en sorte que les données personnelles relatives à l'activité des professionnels de santé puissent effectivement être diffusées dès lors qu'elles ont été rendues publiques sur le site de l'assurance maladie ».

À la suite de la présentation de ce rapport ont été mis en place plusieurs groupes de travail chargés d'identifier les moyens, notamment techniques, de mettre en pratique ces recommandations. L'objectif affiché par le ministère à travers ces initiatives est de parvenir à créer les conditions d'une « ouverture maîtrisée des données de santé ».

Dans le champ scientifique

Grâce au progrès technologique, la science produit aujourd'hui des données en quantité bien plus importante que ce que les chercheurs sont en mesure d'analyser. En France et à l'étranger, un mouvement visant à associer les citoyens, à titre bénévole, à la collecte et au traitement de ces informations se développe et trouve sa traduction aussi bien dans l'étude de la biodiversité, avec le consortium Global biodiversity information facility (GBIF), dont l'initiative revient à l'OCDE, qu'en astronomie, avec le projet Galaxy zoo .

Le CNRS s'est saisi de cette approche collaborative en lançant une mission « Science et citoyens », confiée à M. Marc Lipinski, afin de faire un état des lieux des actions entreprises pour rapprocher la recherche scientifique et la société civile en France et à l'étranger, et dans le but de proposer des mesures visant à associer davantage les citoyens et les associations aux travaux de cet organisme de recherche et à mieux faire connaître ses initiatives.

Lors de son audition par la mission 267 ( * ) , M. Marc Lipinski a ainsi présenté les notions de « science ouverte » et de « sciences citoyennes », qui reposent sur un libre accès aux publications scientifiques, voire aux données sur lesquelles reposent leurs conclusions.

Dans le champ de la culture

La problématique de l'ouverture des données culturelles se pose en des termes renouvelés par le développement du web sémantique 268 ( * ) et l'ampleur des programmes publics de numérisation . Elle doit en outre être revisitée à l'occasion de la transposition de la directive 2013/37/UE/du 26 juin 2013 qui inclut désormais les données culturelles publiques dans le périmètre de réutilisation des informations du secteur public 269 ( * ) .

Grâce aux nouveaux outils numériques et à la numérisation des documents, les métadonnées descriptives des oeuvres, établies par les bibliothèques, les musées ou les services d'archives, ainsi que les oeuvres elles-mêmes, littéraires, picturales, photographiques ou encore audiovisuelles, peuvent désormais être mises à la disposition de tous.

Ces données échappaient jusqu'à présent au champ communautaire, même si le lancement d' Europeana en novembre 2008 270 ( * ) et les travaux conduits au sein des institutions européennes entre 2010 et 2012 ont ouvert la voie à la diffusion et l'ouverture de ces données 271 ( * ) .

Dorénavant l'accès « au matériel culturel et la réutilisation de celui-ci à des fins éducatives, professionnelles ou de loisirs » ainsi que pour le « développement de produits et services » « dans des secteurs tels que l'enseignement et le tourisme » figurent au nombre des objectifs de la directive modifiée en juin 2013.

Pour l'essentiel, l'Union européenne a en effet souhaité faciliter la réutilisation des documents détenus par les musées, les bibliothèques et les archives et limiter les freins à leur réutilisation. C'est ainsi que les redevances sont strictement encadrées, leur montant devant « en principe être limité aux coûts marginaux » ; par dérogation à ce principe général, il peut toutefois être fixé « selon des critères objectifs, transparents et vérifiables » et sous réserve que le montant annuel total excède pas « le coût de collecte, de production, de reproduction, de diffusion, de conservation et d'acquisition des droits, tout en permettant un retour sur investissement raisonnable » 272 ( * ) . Quant aux droits d'exclusivité, la directive prévoit deux exceptions à l'interdiction de principe qu'elle pose : lorsqu'ils sont nécessaires au fonctionnement d'un service d'intérêt général et pour la numérisation des ressources culturelles des administrations publiques ; elle recommande alors une durée d'exclusivité de dix ans, avec une clause de réexamen 273 ( * ) .

Estimant qu'il convenait de « passer d'une politique de l'accès aux données à une politique de réutilisation des données », la ministre de la culture a indiqué qu'elle entendait placer « ce changement de paradigme (...) au coeur de la politique des usages numériques qu' [elle] souhaite mener » 274 ( * ) . Une feuille de route open data a ainsi été établie en avril 2013, qui présente la stratégie open data comme « l'un des fondements d'un service public culture numérique » 275 ( * ) , et les services du ministère, et singulièrement le département des programmes numériques, travaillent dans cette perspective 276 ( * ) . Une attention toute particulière est portée à la sémantisation 277 ( * ) et à l'identification des oeuvres du domaine public 278 ( * ) .

Par ailleurs, au-delà des questions complexes touchant aux droits d'auteur, se pose la question des conditions techniques, juridiques et financières de réutilisation de ces données . Des réflexions ont ainsi été engagées sur les conditions de mise à disposition des contenus numérisés et l'objet de leur réutilisation, la fourniture de copies de haute qualité tarifées et, le type de licence à privilégier, pour tout à la fois répondre aux attentes du public, assurer le financement de la numérisation et prévenir l'appropriation des contenus.

Les préconisations du rapport Ouverture et partage des données publiques culturelles, pour une (r)évolution numérique dans le secteur culturel

Dans un rapport 279 ( * ) remis en décembre 2013, M. Camille Domange, chef du département des programmes numériques au secrétariat général de ce ministère, décrit le régime actuel d'accès aux données culturelles et évalue, sur la base d'exemples étrangers, les nouvelles modalités de réutilisation qui peuvent être envisagées ainsi que le cadre juridique et financier qui pourrait les accompagner.

Après avoir constaté que le développement des usages numériques des données culturelles implique d'y adapter les pratiques des établissements publics culturels, alors que, dans les grandes institutions étrangères, les revenus tirés de la revente d'images ne constituent plus une source de financement significative, le rapport souligne la méconnaissance de cette question par les acteurs de la culture ainsi que leur scepticisme quant à leur capacité à en mettre en place un « écosystème de création et d'innovation » autour de ces données.

Alors que le droit d'auteur est souvent invoqué à l'appui des restrictions à la réutilisation de certaines données, en particulier les photographies des oeuvres des collections nationales, le rapport souligne qu'une rationalisation du recours à des contrats de licence de réutilisation, en particulier à la licence Creative Commons , permettrait de surmonter ces difficultés dans le respect des droits de l'auteur de l'oeuvre.

Le rapport appelle par ailleurs les organismes culturels français, dont certains continuent de mettre en oeuvre des stratégies « protectionnistes » de mise à disposition des contenus, à repenser leur système de redevances de réutilisation. Il estime que la mise en place d'une offre de services complémentaires aux données publiques en libre accès permettrait aux musées de tirer au mieux tirer profit de la révolution numérique dont ils sont aujourd'hui trop souvent les témoins passifs. Des exemples étrangers, le Rijksmuseum d'Amsterdam ou le J. Paul Getty Museum de Los Angeles, démontrent qu'il est possible par ce biais de capter une nouvelle audience, sensible aux démarches collaboratives engagées grâce aux outils numériques, sans renoncer à sa vocation première qui est la promotion et la diffusion universelle des biens publics culturels.

2. L'émergence d'attentes exigeantes

L'affichage d'une volonté politique d'ouverture des données publiques vise à répondre à des attentes fortes, qui ne sont toutefois pas homogènes. Le grand public étant encore peu au fait des enjeux associés aux possibilités de réutilisation des données publiques, les revendications en la matière sont principalement portées par une avant-garde composée d'acteurs aussi variés que des associations citoyennes, des chercheurs, des acteurs de la sphère culturelle ou encore des sociétés privées souhaitant développer de nouveaux services à partir des données publiques mises à disposition.

a) Exercer un contrôle citoyen sur les politiques publiques

Des associations citoyennes et des journalistes, dont plusieurs représentants ont été entendus par votre mission, souhaitent s'appuyer sur des données brutes mises à disposition du public pour exercer un contrôle citoyen sur les politiques publiques .

Ces acteurs réutilisent les données ouvertes pour en faire une présentation ou une interprétation nouvelle , afin de proposer au grand public une information originale, reposant sur un traitement et un angle de vue spécifiques. Dans les médias, cette démarche peut prendre la forme de datavisualisations, c'est-à-dire d'un traitement graphique des données, ou encore de classements de la performance de certains opérateurs à partir de plusieurs indicateurs.

En ce qu'elle permet ainsi à un État moderne d'approfondir le contrôle de son action par la société civile, l'ouverture de ses données est une condition de la confiance des citoyens. Le partage des informations publiques permet également d'enrichir le débat démocratique.

Selon l'expression employée par le vice-président du conseil national du numérique, M. Godefroy Beauvallet, lors de son audition par la mission, l' open data serait par ailleurs le moyen de recréer une « vérifiabilité » devant la méfiance croissante qui frappe les institutions publiques. Permettre à la société civile de développer des traitements parallèles à ceux effectuées par les administrations, à partir des données, des algorithmes, des logiciels libres et des outils de calcul qu'elles utilisent permet de renforcer la fiabilité des informations publiques grâce à l'apport d'un regard extérieur.

Des efforts de transparence ont été entrepris sur plusieurs sujets importants afin de fournir des outils d'évaluation aux citoyens : le compte rendu de la réunion du Cimap du 17 juillet 2013 indique à cet égard qu'ont été ouvertes au public de nouvelles séries de données portant sur « des domaines stratégiques de l'action publique ». Figurent ainsi sur data.gouv.fr des jeux de données brutes concernant les informations relatives aux comptes publics ou la mesure de la pollution ou les statistiques de la délinquance. Exemple de visualisation : densité de population autour de Bordeaux, réalisée à partir de données 2010 diffusées en open data par l'INSEE 280 ( * )

b) Alimenter la recherche publique et privée

L'accès aux données compilées et détenues par les administrations publiques représente un enjeu majeur pour la recherche, quel que soit le domaine d'étude considéré. Les données collectées par la puissance publique représentent en effet un matériau de base indispensable à tout projet qui souhaite se fonder sur des informations exhaustives et fiables. En outre, les grandes bases de données gérées par les administrations publiques offrent aux chercheurs la possibilité de développer de nouvelles façons de travailler, fondées notamment sur le data mining ou fouille de données. Dès lors, tout retard dans l'ouverture de ces bases aux chercheurs qui en font la demande peut entraver les progrès de la recherche, ce qui est particulièrement préoccupant dans certains secteurs stratégiques - notamment celui de la santé, où l'accès à des données de cohortes appariées est nécessaire à la conduite de projets de recherche approfondis - comme pour le rayonnement de la recherche française au plan international.

Tout en reconnaissant le caractère indispensable des mécanismes qui garantissent le respect de l'anonymat des données personnelles figurant dans les grandes bases de données publiques, plusieurs chercheurs ont ainsi dénoncé devant votre mission d'information les difficultés rencontrées pour obtenir les informations nécessaires pour mener à bien leurs travaux . Il semble que dans certains cas au moins, les refus qui leur sont opposés relèvent bien plus d'une inadaptation de la règle de droit, d'une question de principe et d'une culture administrative trop peu ouverte au partage et à la réutilisation des données que d'une exception véritablement justifiée. De tels refus représentent en tout état de cause autant de temps perdu pour la recherche.

L'institut national pour la santé et la recherche médicale (Inserm) n'a ainsi été que très tardivement autorisé à accéder aux informations de la base de données de la caisse nationale d'assurance maladie (Cnam) ; en outre, l'accès facilité qui lui est aujourd'hui ouvert ne recouvre pas la restitution exhaustive des données du Sniiram mais seulement son échantillon généraliste de bénéficiaires (EGB), ce qui rend en pratique impossible tout travail fondé sur la fouille de données 281 ( * ) . Des demandes d'extraction formulées par les équipes de centres hospitaliers universitaires (CHU) demeureraient en attente pendant un délai pouvant atteindre jusqu'à 15 mois 282 ( * ) . Un rapport du Haut conseil de la santé publique de 2009 a également dressé un tableau précis des difficultés auxquelles se trouvent confrontés les chercheurs en épidémiologie 283 ( * ) . Selon les explications concordantes de plusieurs acteurs du système de santé auditionnés par la mission, il semblerait pourtant que les protections 284 ( * ) mises en oeuvre permettent de limiter très largement les risques de réidentification par croisement de données 285 ( * ) .

Dans un autre domaine, M. Godefroy Beauvallet, vice-président du Conseil national du numérique, a exposé un exemple éclairant devant votre mission d'information : l'économiste Thomas Piketty, pour ses travaux sur la justice du système fiscal français, a été forcé de recréer lui-même un outil de simulation fiscale individuelle faute d'avoir pu avoir accès aux algorithmes du ministère des finances.

c) Libérer les contenus culturels numérisés

Le développement du numérique a induit une transformation des modes de consommation des données culturelles ainsi que des pratiques et des usages ; il alimente une demande très exigeante d'accès aux biens communs culturels. Lors de son audition, M. Bruno Racine, président de la Bibliothèque nationale de France (BnF) a à cet égard évoqué une « demande de libération des contenus numérisés » 286 ( * ) .

Alors que l'accès aux grandes bibliothèques publiques est réservé à un nombre limité de chercheurs, le changement d'échelle de la politique de numérisation conduite par la Bibliothèque nationale de France à compter de 2005, à la suite l'annonce de la diffusion massive de textes par Google 287 ( * ) , a en effet permis la numérisation d'un nombre important d'imprimés, de livres et de revues ainsi que d'éléments significatifs des collections spécialisées (manuscrits, partitions, estampes, gravures, cartes et plans ...), et la mise à la disposition sur le site Gallica plus de 2,9 millions de documents libres de droits.

La réutilisation de ces contenus est libre dès lors qu'elle n'a pas un objet commercial ; dans le cas contraire, un tarif légèrement supérieur au coût marginal de production est appliqué. Dans le même temps, les métadonnées - les notices descriptives des documents et les notices biographiques - ont été converties dans des formats exploitables par les moteurs de recherche et un service d'agrégation thématique des données. Depuis le 1 er janvier 2014, l'ensemble de ces données ont été placées sous la licence d' Etalab et sont donc librement réutilisables.

La recherche de financements pour certains programmes de numérisation a toutefois conduit la BnF à consentir à certains partenaires une exclusivité de réutilisation de dix ans, choix qui a suscité des réactions très vives de la part des associations. Lors de son audition par la mission, le directeur de la BnF a toutefois indiqué qu'il n'était pas envisagé de renouveler de tels accords.

Le collectif Savoirscom1 , entendu par votre mission, estime que le domaine public étant un patrimoine commun, il doit être protégé contre toute apposition de droits, même temporaires, restreignant la circulation des données. Il considère dès lors que de tels accords conduisent à une appropriation exclusive indue de ce patrimoine 288 ( * ) et préconise la mise en place systématique de licences de partage à l'identique.

Le même collectif recommande également la suppression de toute tarification de l'utilisation de contenus numérisés et conteste notamment les redevances mises en place par l'Institut national de l'audiovisuel. Il salue en revanche l'initiative de JocondeLab 289 ( * ) conduite au sein du ministère de la culture et de la communication, déjà évoquée, qui donne accès à plus de 300 000 notices illustrées 290 ( * ) d'oeuvres des collections des musées de France qui démontre les possibilités du web sémantique en 14 langues : sous réserve du droit d'auteur, les contenus sont en effet librement réutilisables sous la licence libre Creative Commons BY-SA 3.0 291 ( * ) .

d) Améliorer la gestion publique

L'ouverture des données publiques bénéficie également au fonctionnement interne de l'État, en ce qu'elle contribue à faciliter la circulation entre les administrations de données en premier lieu conçues pour la gestion du service public. Il apparaît ainsi que les administrations publiques sont les premiers réutilisateurs des données ouvertes .

L'ouverture des données permet ainsi de fluidifier leurs échanges et leur coordination, d'améliorer la pertinence et la rapidité du travail effectué par les agents publics et, au total, d' approfondir l'efficacité du travail administratif comme la qualité des données produites par l'administration dans son ensemble . Dans sa feuille de route du 28 février 2013, le Gouvernement note en particulier que l'ouverture des données permet le développement de nouveaux modes d'organisation et de nouveaux processus de travail et cite en exemple la prise en compte par la sécurité routière du suivi des accidents de la route pour l'amélioration de l'aménagement de la voirie.

En outre, en organisant la transparence des politiques publiques, l'État crée les conditions d'un échange avec les réutilisateurs. En tenant compte de leurs usages et des problèmes auxquels ceux-ci sont éventuellement confrontés, l'administration se donne alors la possibilité de s'appuyer sur l'intelligence collective pour améliorer son action.

e) Développer de nouveaux services

Lors de sa réunion du 18 décembre 2013, le Cimap a inscrit l'effort d'ouverture des données publiques et de construction d'un gouvernement plus ouvert dans l'objectif de « permettre à un écosystème de citoyens-acteurs et d'entreprises d'interagir avec les administrations et d'augmenter l'offre de services aux usagers en s'appuyant sur des données et des plateformes numériques ouvertes ».

En créant un référentiel d'informations commun à l'ensemble de la société civile, l'ouverture et le partage des données publiques offrent en effet aux innovateurs extérieurs la possibilité de prolonger l'action de l'État en imaginant de services complémentaires à ceux de l'administration et bénéficiant à l'ensemble des citoyens. La politique d' open data , en stimulant la créativité des réutilisateurs et la coproduction de services nouveaux, favorise ainsi l'amplification de l'action administrative en même temps que le développement de l'innovation économique et sociale.

Ces nouveaux services peuvent améliorer la vie quotidienne des administrés. Grâce aux données cartographiques mises à disposition par les villes de Rennes et de Montpellier a ainsi pu être développée une application de calcul d'itinéraires accessibles aux handicapés moteurs, le projet Handimap . Ils peuvent également présenter une forte valeur ajoutée, notamment dans certains secteurs comme les transports ou le tourisme. Dans ce cas, l'ouverture des données peut constituer un important levier de développement économique en offrant de nouvelles ressources à l'innovation.

La directive du 26 juin 2013 relève à cet égard que « les documents produits par les organismes du secteur public des États membres constituent une réserve de ressources vaste, diversifiée et précieuse, dont peut bénéficier l'économie de la connaissance ».

Le développement de nouveaux services : entre intuition et pari ?

L'ouverture des données publiques est habituellement présentée comme un outil stratégique pour le développement de l'économie numérique. Ses promoteurs mettent ainsi en avant le potentiel croissant de développement de services nouveaux à haute valeur ajoutée qu'offre la réutilisation des données publiques.

En réalité, peu de travaux scientifiques permettent de chiffrer avec précision ce potentiel. Il résulte toutefois des quelques éléments sectoriels disponibles et des travaux menés dans le cadre européen et par les britanniques qu' à une phase d'investissement dans l'ouverture des données publiques succède une phase où les bénéfices sociaux et économiques dépassent très largement les coûts pour les finances publiques .

Un rapport commandé par la Commission européenne en 2011 292 ( * ) dans le cadre de la préparation de la modification de la directive 2003/98/CE sur la réutilisation des informations du secteur public, a estimé, pour la seule Union européenne, qu'un accès facilité à ces informations était susceptible d'augmenter de 40 milliards d'euros le marché européen des informations du secteur public alors évalué à 28 milliards d'euros par an, montant correspondant au potentiel d'une réutilisation des données cédées au maximum de leur coût marginal.

Le même rapport évaluait en outre à 140 milliards d'euros par an l'impact économique total, direct et indirect . À cet égard, M. Richard Swetenham, conseiller du directeur général chargé de contribuer à la mise en oeuvre et au développement de la politique de la Commission européenne dans le domaine de l' open data a précisé, lors de son audition par la mission 293 ( * ) , que l'ouverture des données publiques avait des conséquences macroéconomiques : « le budget public profite de ces activités qui dégagent des recettes fiscales tant au titre de l'impôt sur les sociétés que de l'imposition des salariés qui travaillent chez les réutilisateurs ou encore de la TVA ».

Après une première approche en 2011, le rapport du comité indépendant Shakespeare missionné par le Gouvernement britannique, prenant appui sur une étude (market assessment of PSI ) réalisée par le cabinet Deloitte, a analysé en 2013 , les gains de croissance susceptibles d'être générés pour l'économie britannique par l'ouverture des données publiques 294 ( * ) . Il les évalue à court terme à 2 milliards de livres, et à 6 à 7 milliards de livres à moyen terme : il s'agit en grande partie de bénéfices sociaux , en particulier d'économies dans la gestion des services publics 295 ( * ) .

3. Des obstacles techniques, culturels et financiers

La réutilisation des données se heurtent en pratique à un certain nombre d'obstacles de plusieurs ordres : des difficultés techniques et méthodologiques (a), des résistances au sein des administrations (b), en fin des coûts de mise à niveau et de mise à jour dans la durée (c).

a) Des difficultés techniques et méthodologiques

L'effort de mise à la disposition du public de jeux de données, aussi nombreux soient-ils, ne suffit pas à en garantir l'utilité. Pour présenter un intérêt pour les réutilisateurs, ils doivent être fiables et pouvoir être réinterprétés de manière automatisée et standardisée . Sans cela, et malgré les immenses potentialités qu'elles peuvent receler, les obstacles méthodologiques et techniques à la réutilisation des données ouvertes ne peuvent aboutir qu'à leur sous-exploitation, ce qui vide la démarche d'ouverture de son sens.

De ce point de vue, certaines des modalités de mise à disposition retenues par l'administration (du moins quand celle-ci a effectivement engagé une démarche d' open data 296 ( * ) ) constituent une barrière technique à l'accès aux données.

Des données non directement réutilisables

D'une manière générale, la réutilisation des données publiques est facilitée lorsque celles-ci sont mises à disposition sous un format lisible par machine, c'est-à-dire sous une forme qui en permette l'identification, l'extraction et le traitement automatisés par une application logicielle.

Or, les données ouvertes par l'administration le sont parfois sous une forme nécessitant de la part des opérateurs la mise en oeuvre de plusieurs opérations parfois coûteuses ou techniquement complexes. Dans ce cas, les données mises en ligne sont consultables mais ne sont pas à proprement parler réutilisables .

Il arrive tout d'abord que le contenu d'un site web soit prévu pour être accessible à la seule lecture humaine et que sa possible réutilisation après retraitement par une machine n'ait même pas été envisagée. Les réutilisateurs doivent alors mettre en oeuvre une procédure d'extraction ou scraping des données , qui peut nécessiter des moyens techniques ou humains non négligeables. M. David Gayou, administrateur du collectif Regards citoyens , a ainsi exposé lors de son audition 297 ( * ) que le retraitement des données nécessaires aux travaux de l'association - notamment les données relatives au découpage des circonscriptions électorales - nécessitait bien moins de temps que leur seule récupération sous une forme exploitable à partir des sites internet des collectivités publiques.

On constate également que des administrations conservent et traitent leurs données au moyen de logiciels ou d'applications fermés ne permettant pas leur extraction ni leur communication à des tiers. C'est notamment le cas des informations relatives aux professionnels de santé figurant sur le site ameli-direct.fr , la base mise en ligne ne pouvant être interrogée globalement, mais seulement praticien par praticien. Selon les indications fournies par M. Mathieu Escot, chargé de mission santé au sein de l'association UFC-Que Choisir 298 ( * ) , la reconstitution d'une carte des implantations de cabinets médicaux corrélée au niveau des dépassements d'honoraires constatés a nécessité une opération d'aspiration des données effectuée par un prestataire spécialisé pour un coût de 20 000 euros.

Un autre écueil important à la réutilisation des informations mises à disposition par les administrations réside ainsi dans le choix de formats non directement réutilisables .

Afin de garantir la simplicité de l'opération de réutilisation et de l'ouvrir au plus grand nombre, les données doivent, dans la mesure du possible, être présentées dans des formats ouverts tels que les formats csv , json , xml ou rdf .

Or, bien qu'une circulaire du Premier ministre du 19 septembre 2012 299 ( * ) ait encouragé l'usage de formats ouverts, les réutilisateurs sont encore trop souvent confrontés à des mises à disposition sous format fermé ou propriétaire, qui emportent des restrictions d'accès.

Est ainsi fréquente la diffusion sous format pdf , qui, s'il présente un intérêt pour le confort de lecture, rend très difficile la réutilisation des informations. M. Rémi Noyon, journaliste à la rédaction de Rue 89, a évoqué devant votre mission commune d'information 300 ( * ) l'exemple des données relatives à l'utilisation de la réserve parlementaire, qui ont été mises en ligne sur le site data.gouv.fr sous format pdf pour les années 2011 et 2012.

Enfin, certains des fichiers de données diffusés par l'administration conservent des options de présentation - des choix de couleurs, des cellules fusionnées ou une structuration en plusieurs onglets - ou des fonctions de présentation - des liens croisés dynamiques ou de macros. Si ce type de présentation peut revêtir un intérêt explicatif, il n'est pas adapté à une diffusion d'informations visant à en permettre une réutilisation simple.

Des données non contextualisées

La valeur des jeux de données résulte également de leur bonne contextualisation : une mise à disposition assortie d'une documentation précise permet aux réutilisateurs d'évaluer rapidement l'intérêt des données au regard de leurs besoins et conditionne une réutilisation pertinente et sans risque d'erreur d'interprétation.

La mise en ligne de métadonnées consiste ainsi à assortir les jeux de données mis à disposition de qualifications précises (titre, date de mise à jour, source, géo-référencement, mots-clés, etc. ) permettant d'éclairer leur portée. Ainsi que l'indiquait M. Rémi Noyon devant votre mission commune d'information, l'absence d'informations retraçant l'appartenance politique et la circonscription de rattachement des élus réduit considérablement l'intérêt des fichiers de données sur la réserve parlementaire.

La bonne documentation des données passe aussi par la mise à disposition des options méthodologiques retenues pour leur constitution, et notamment des algorithmes qui ont permis leur élaboration.

À cet égard, il arrive également que des données soient mises à disposition sous forme d' extractions réalisées à partir d'une base de données détenue par une administration. Le réutilisateur n'a alors pas accès aux données brutes ni aux choix méthodologiques qui ont permis de constituer les résultats élaborés et sélectionnés. Lors de son audition, M. Mathieu Escot a évoqué à cet égard le cas des données relatives à l'évolution du prix des services de téléphonie mobile.

Des données dispersées, non agrégées et non homogènes

Il est également difficile de croiser des jeux de données alimentés par plusieurs administrations dont les processus de production ne sont pas été harmonisés. Il se peut alors que les données mises à disposition ne respectent pas la même ventilation statistique, le même niveau d'agrégation ou suivent des options de présentation différentes.

M. Mathieu Escot a ainsi cité en exemple l'impossibilité de disposer d'un jeu de données complet et homogène sur la qualité de l'eau ou celle du service de distribution d'électricité, les données étant produites à différents niveaux (ERDF, communes, communautés d'agglomération, plusieurs administrations centrales). Une autre illustration de ces difficultés est fournie par la dispersion des données locales mises à disposition par les agences régionales de santé (ARS) selon des modalités propres à chacune d'entre elles.

De la même manière, les pratiques de mise à disposition par les collectivités publiques des données portant sur les conditions d'exercice de leur mandat par leurs élus (cumul, indemnités notamment) apparaissent très diverses, ce qui rend difficile toute étude transversale d'ampleur.

Structuration mouvante et ruptures de séries

L'intérêt scientifique des données mises à disposition suppose également que leur structuration respecte quelques exigences méthodologiques comme l'exhaustivité des séries, la régularité de leur mise à jour ou l'application d'une méthodologie unique.

Or, selon Mme Martine Orange, journaliste chargée des enquêtes politiques à la rédaction de Mediapart , « la fiabilité des chiffres publiés baisse de manière spectaculaire » du fait notamment des changements brusques de méthodologie, de telle sorte qu'il est difficile d'obtenir des séries de données cohérentes et comparables sur longue période, par exemple en matière d'emploi.

M. Christian Babusiaux, président de l'Institut des données de santé (IDS) a pour sa part souligné devant votre mission commune d'information 301 ( * ) qu'en matière de données de santé, l'ouverture aux équipes de chercheurs du seul échantillon général de bénéficiaires (EGB) du Sniiram, qui constitue un échantillon représentatif au centième de la population française, ne suffisait pas à rendre compte de la complexité des problématique de santé. Il estime, dès lors, que la question d'un plus large accès de la recherche aux données exhaustives du Sniiram, les données de consommation inter-régimes (DCIR), devait être posée.

Niveau de granularité non pertinent ou niveau d'agrégation inadapté à certaines approches

Dans plusieurs hypothèses, l'intérêt que présentent pour les réutilisateurs les jeux de données mis en ligne résulte de leur niveau de granularité, c'est-à-dire de leur degré de finesse statistique.

Si la mise en ligne de données présentant un niveau plus ou moins important d'agrégation permet d'assurer une protection plus efficace du secret statistique et donc de la vie privée, la diffusion de données à un niveau plus détaillé, en ce qu'elle permet une plus large variété de retraitements et une plus grande finesse de l'analyse, peut s'avérer très précieuse pour les journalistes et surtout pour les chercheurs.

Un niveau de granularité très fin est par exemple très utile pour l'analyse d'inégalités ou de disparités : l'analyse de la qualité de l'eau, par exemple, n'est pertinente qu'à l'échelon de la commune, un niveau supérieur d'agrégation des informations faisant généralement disparaître les éléments significatifs. Un bon niveau de granularité favorise également les recoupements avec d'autres données, notamment lorsqu'il est possible de réaliser un appariement entre des données issues de plusieurs bases distinctes.

Il est possible à l'inverse que qu'un jeu de données ouvertes soit difficilement compréhensible en l'absence d'agrégation. Mme Mathilde Mathieu, journaliste chargée des enquêtes politiques au sein de la rédaction de Mediapart , a ainsi cité en exemple 302 ( * ) la mise à disposition des données relatives aux émissions de CO 2 selon une ventilation au niveau de l'usine et non de l'entreprise. Cette présentation en séries brutes, dont il faut extraire et ensuite agréger les données pertinentes, qui est aussi celle de la mise à disposition des données du chômage notamment, rend très difficile la reconstitution des ensembles pertinents (entreprise ou bassin d'emploi dans les exemples cités), en tous cas au regard des besoins d'une enquête journalistique.

Interopérabilité impossible

Il semble également qu'une certaine anarchie règne dans les modalités de mise à disposition de données conservées par les différentes administrations engagées dans une démarche d' open data . Cette situation interdit toute interopérabilité entre les jeux de données mis à disposition par les différents niveaux de collectivités publiques (collectivités territoriales, administrations centrales, institutions européennes), ce qui limite largement l'ampleur les possibilités de leur réutilisation.

Plusieurs acteurs auditionnés par votre mission d'information ont ainsi appelé de leurs voeux une meilleure harmonisation de la structure des données ouvertes. M. Rémi Noyon a ainsi évoqué la dénomination des communes qui n'est pas uniformisée entre les différentes administrations notamment lorsqu'elle comporte un article (le, la ou les selon le cas), ce qui rend impossible le traitement automatisé des données associées et peut conduire à des ruptures importantes de séries.

b) Des résistances administratives

L'ouverture des données publiques incombe inévitablement, d'un point de vue pratique, à l'administration qui les détient ou les produit. Quelle que soit la force de l'impulsion donnée au plus haut niveau de l'État, le risque est qu'elle soit freinée dans sa mise en oeuvre par les résistances que l'administration lui opposera, intentionnellement ou non.

Cette inertie est susceptible d'être causée par une inadaptation structurelle de l'organisation administrative à l' open data , par des enjeux de pouvoirs ou par l'insuffisance de compétence technique des agents publics en matière d'ouverture des données.

• Une organisation administrative en silos contraire à la logique de l' open data

Démarche transversale par nature, l' open data s'accommode mal de l'organisation administrative traditionnelle dite " en silos " ou " en tuyaux d'orgue ", qui segmente les services en domaines d'activité disjoints. À défaut d'une coordination générale, chaque administration, voire chaque direction, décide du format et de la nature des données qu'elle recueille, comme parfois des logiciels qu'elle utilise, sans nécessairement prendre en compte les doublons ou les incompatibilités avec les données d'autres services. Cet éclatement participe de la dispersion des jeux de données précédemment constatée.

Cette difficulté a été clairement identifiée par la ministre de la décentralisation, de la réforme de l'État et de la fonction publique,
Mme Marylise Lebranchu, lors de son audition par votre mission d'information : « Il faut que l'interministériel, dont les vertus sont depuis longtemps reconnues, prenne corps : nous raisonnons encore trop en silos. C'est affaire de sensibilisation et de culture. Le chemin de l'ouverture des données publiques sera long... ».

• Des enjeux de pouvoir relatifs à la détention exclusive de l'information

L'antienne selon laquelle « l'information est le pouvoir » s'applique aussi à l'ouverture des données. Celles-ci reflètent parfois l'activité de l'administration qui les produit : les ouvrir équivaut alors à soumettre son action à l'examen public.

Dans d'autres cas, les données sont la manifestation d'une compétence exclusive et de l'expertise du service producteur : tel est le cas dans le champ des données de santé, pour lesquelles la Cnam exerce à la fois le rôle de gestionnaire et de régulateur. Y donner largement accès revient alors à partager cette compétence, ou du moins à renoncer à la sélection des utilisateurs possibles à partir de ses propres critères. L' open data emporte ainsi nécessairement une remise en cause des bénéfices secondaires tirés de la détention exclusive des données.

L'obstacle doit naturellement céder devant l'intérêt qui s'attache à l'ouverture des données. Toutefois, il est susceptible de ralentir la conversion de l'administration à cette nouvelle politique.

• Des agents pas toujours formés à l'ouverture des données

On a vu précédemment combien l'ouverture des données publiques pouvait être freinée par des difficultés techniques ou juridiques. Les résoudre suppose pour les services concernés de disposer en interne des compétences nécessaires. Or, la nouveauté de la démarche et la spécialisation des agents, formés à une tâche qui jusqu'à présent n'incluait pas la diffusion en ligne de jeux de données brutes, font que les administrations ne sont pas toujours en mesure d'y faire face.

Tel est notamment le cas lorsque, avant d'être diffusées, les données doivent être préalablement anonymisées, opération complexe que, contrairement à l'Insee, toutes les administrations ne maîtrisent pas. L'article 40 du décret du 30 décembre 2005 en rend d'ailleurs compte, lorsqu'il précise que la demande de réutilisation ne doit être satisfaite que dans la mesure où l'opération d'anonymisation ne demande pas d' « efforts disproportionnés » de la part de l'administration. Souvent ces efforts supposeront de faire appel à une expertise extérieure, les agents ne disposant pas des qualifications nécessaires.

Votre mission note à cet égard que l' open data impose une véritable conversion culturelle à certaines administrations, comme l'administration fiscale ou les administrations sociales, dont la tâche était jusqu'à présent d'assurer le secret sur les données confidentielles qu'on leur confiait, et auxquelles on demande aujourd'hui d'étudier les moyens d'ouvrir ces données après les avoir préalablement expurgées de tous leurs éléments identifiants.

c) Des coûts pour les administrations publiques

L'ouverture des données est de nature à générer des coûts pour les administrations publiques : coûts de mise à niveau des données et réduction des recettes d'exploitation des données en cas d'ouverture gratuite, coûts de mise à jour dans la durée.

• Les coûts de mise à niveau des données

Les obstacles techniques et méthodologiques qui viennent d'être décrits montrent, si besoin est, que l'ouverture des données publiques exige nécessairement la mise en oeuvre d'opérations préalables de mise à niveau par les administrations. En effet, ce n'est pas parce que des données préexistent à leur ouverture que, sauf exception, celle-ci peut être effectuée sans autre coût que le simple dépôt de jeux de données brutes sur la plateforme data.gouv.fr .

Si la qualité très remarquable des données de l'Insee réduit considérablement ce travail préparatoire, celle plus médiocre de la grande majorité des données publiques, le défaut d'homogénéité des références et des formats et leur dispersion impose un travail parfois très important, y compris de documentation.

Certaines entreprises, qui fournissent à leurs seuls clients, contre rémunération, les données nettoyées et structurées dont ils ont besoin, à partir de sources diverses, proposent de faire une partie de ce travail, au profit des seuls intéressés, et insistent pour que les données brutes soient mises en ligne le plus rapidement possible sans que la mise en cohérence et mise à niveau préalables susceptibles de retarder leur publication 303 ( * ) . Cette approche peut répondre à certains besoins spécifiques. Elle ne peut toutefois être généralisée car elle réserve la prestation aux seuls utilisateurs qui peuvent en acquitter le prix. Certaines opérations doivent en outre être effectuées par l'administration productrice, notamment l'anonymisation des données.

S'ajoutent dans le temps, à ces coûts initiaux, des coûts de mise à jour des jeux de données, voire de retraitement en cas de discontinuité, en raison d'un changement méthodologique ou de l'utilisation d'un nouveau logiciel de traitement.

L'analyse de ces coûts par ensembles de jeux de données, notamment au regard des bénéfices attendus, est loin d'avoir été menée en France 304 ( * ) .

• La perte de ressources propres en cas de suppression des redevances

L'ouverture des données publiques est également susceptible d'avoir une incidence sur l'équilibre budgétaire d'un certain nombre de grands producteurs publics de données dont une partie du financement est assuré par la vente des données qu'ils produisent. Tel est notamment le cas de l'institut géographique national (IGN), de certaines institutions culturelles ou encore, jusqu'à une période récente, de la Dila.

Dans la suite du premier comité interministériel pour la modernisation de l'action publique (Cimap) du 18 décembre 2012,
M. Mohammed Adnène Trojette, magistrat à la Cour des comptes, a été chargé par le cabinet du Premier ministre, en mars 2013, « d'évaluer les modèles économiques de chaque redevance existante portant sur l'utilisation des données publiques, notamment en auditant les coûts et les recettes associées ».

Dans son rapport 305 ( * ) , remis en juillet 2013, il recense 27 catégories de données (hors secteur culturel) dont la réutilisation est soumise à redevances. Pour certains opérateurs, la revente de données brutes représente ainsi une part non négligeable de leurs ressources, que la suppression des redevances devrait conduire à substituer par d'autres recettes.

Il observe toutefois que les redevances produisent des revenus décroissants (35 millions d'euros en 2012, soit un tiers de moins qu'en 2010, et, surtout, que 90% de ces recettes se concentrent sur dix jeux de données , généralement vendus par des opérateurs dont la mission est de produire des données.

Les dix principaux bénéficiaires de redevances

Recettes 2012
(millions d'euros)

Part dans les ressources
(%)

Insee

9,98

2,2

IGN

9,94

5,8

Ministère de l'intérieur

3,86

0,1

INPI

2,74

1,3

DGFip

1,75

0,0

Météo-France

1,58

0,4

Service hydrographique de la marine

1,30

2,5

Dila

0,89

0,4

Service de l'observation et des statistiques

0,58

5,3

Atih

0,54

4,1

Le rapport relève par ailleurs que les redevances répondent parfois à des considérations extrabudgétaires défensives : la crainte de ne pas être en mesure de satisfaire les réutilisateurs externes, la crainte que les données soient utilisées pour critiquer le service public, ou encore le souci de prévenir la captation de valeur par de grands groupes internationaux pratiquant l'optimisation fiscale et de ne pas subventionner le secteur privé.

Le rapport expose également les raisons qui devraient conduire à l'extinction à moyen terme des modèles économiques assis sur la vente de données brutes, pourtant encouragée par la politique de valorisation du patrimoine immatérielle de l'État mise en oeuvre dans le cadre de la RGPP.

Le mode de tarification retenu, qui favorise souvent les gros utilisateurs en raison de tarifs dégressifs, et introduit donc une barrière à l'entrée, est généralement critiqué par les entreprises. Le Medef et la CGPME préconisent à cet égard de supprimer immédiatement les redevances dont le montant est symbolique et de réfléchir à d'autres modes de financement afin de ne pas dissuader le développement d'activités nouvelles 306 ( * ) .

Dans le secteur culturel, la question des redevances est particulièrement sensible, même si elle vient après celle des clauses d'exclusivité, les défenseurs des « biens communs de la connaissance » estimant que ceux-ci « n'appartiennent à personne et appartiennent à tous » et doivent donc être librement accessibles 307 ( * ) .


* 209 Vademecum sur l'ouverture et le partage des données publiques établi par Etalab en septembre 2013

* 210 Un format est considéré comme ouvert lorsque ses spécifications sont publiques et libres d'usage, et que leur mise ne oeuvre ne comporte pas de restriction. Voir glossaire.

* 211 Voir " données structurées " dans le glossaire

* 212 Voir ce terme dans le glossaire

* 213 Voir ce terme dans le glossaire

* 214 Voir ce terme dans le glossaire

* 215 « Shakesperare review : an independent review of public sector information », mai 2013.

* 216 Voir ce terme dans le glossaire

* 217 Voir chapitre liminaire, C.

* 218 Décret n° 2011-577 du 26 mai 2011 relatif à la réutilisation des informations publiques détenues par l'État et ses établissements publics administratifs.

* 219 Circulaire du 26 mai 2011 relative à la création du portail unique des informations publiques de l'État " data.gouv.fr " par la mission " Etalab " et l'application des dispositions régissant le droit de réutilisation des informations publiques.

* 220 Ce mouvement, qui regroupe à ce jour 63 pays, s'attache à promouvoir la transparence de l'action publique et la gouvernance ouverte, à renforcer l'intégrité publique et combattre la corruption.

* 221 L'économie de l'immatériel : la croissance de demain , rapport de la commission sur l'économie de l'immatériel, novembre 2006.

* 222 Arrêté du 23 avril 2007 portant création d'un service à compétence nationale dénommé " Agence du patrimoine immatériel de l'État ", NOR : ECOP0751395A.

* 223 Voir l'audition de Mme Danielle Bourlange, directrice générale de l'Apie, le 20 février 2014, dont le compte rendu est reproduit dans le tome II.

* 224 Décret n° 2009-151 du 10 février 2009 relatif à la rémunération de certains services rendus par l'État consistant en une valorisation de son patrimoine immatériel.

* 225 Décret n° 2009-157 du 10 février 2009 portant attribution de produits aux budgets des ministères concernés en application du décret n° 2009-151 du 10 février 2009 relatif à la rémunération de certains services rendus par l'État consistant en une valorisation de son patrimoine immatériel.

* 226 Voir audition en date du 20 mars 2014, dont le compte rendu figure dans le tome II.

* 227 Ouverture des données publiques : les exceptions au principe de gratuité sont-elles toutes légitimes ? , rapport remis au Premier ministre par M. Mohamed Adnène Trojette, juillet 2013, La documentation française.

* 228 Voir audition de Mme Danielle Bourlange susmentionnée.

* 229 Décret n° 2012-1198 du 30 octobre 2012 portant création du secrétariat général pour la modernisation de l'action publique.

* 230 Directive 2003/98/CE du Parlement européen et du Conseil du 17 novembre 2003 sur la réutilisation des informations du secteur public.

* 231 Voir le chapitre liminaire du présent rapport.

* 232 Voir sur ce point le chapitre liminaire, C.

* 233 Format tabulaire - voir CSV dans le glossaire.

* 234 Annexe IV de la circulaire du 26 mai 2011.

* 235 Voir le compte rendu de l'audition du 10 avril 2014 reproduit dans le tome II.

* 236 Cette plateforme collaborative a été mise en place par la Commission européenne et suit l'actualité de l' open data en Europe.

* 237 Le détail des indicateurs est fourni sur le site de la plateforme.

* 238 Voir la définition de la notion de "format ouvert" dans le glossaire.

* 239 Ou linked data , formule qui fait directement référence au web sémantique (voir également la définition de ce terme dans le glossaire).

* 240 Voir l'audition de Mme Sandrine Mathon et MM. Jean-Marie Bourgogne et Christophe Elineau en date du jeudi 13 mars 2014, dont le compte rendu figure dans le tome II.

* 241 La Gazette des communes a consacré un dossier très documenté à ce sujet en janvier 2013 (n°3/2157).

* 242 Voir le compte rendu de l'audition de l'association Open data France le 13 mars 2014, reproduit dans le tome II.

* 243 Voir le compte rendu de l'audition de l'ADF le 13 mars 2014, reproduit en annexe.

* 244 « Quand le maire n'est pas président de l'agglomération, les collaborations sont plus difficiles » (Mme Sandrine Mathon d' Open data France , lors de l'audition du 13 mars 2014).

* 245 Voir l'exemple de la commune de Brocas exposé par son représentant dans le cadre de l'audition d' Open data France le 13 mars 2014, qui a mis en ligne 90 fichiers sur l'école, l'eau, l'économie locale, le budget municipal, l'histoire du village.

* 246 Cf. l'audition de Jean-Michel Martin, directeur des services de l'information du conseil général de Saône-et-Loire, le 13 mars 2014, dont le compte rendu est reproduit dans le tome II.

* 247 Compte rendu de l'audition d' Open data France le 13 mars 2014, reproduit dans le tome II.

* 248 Voir A supra .

* 249 Informations relatives aux associations, dépôts des comptes des associations, JORF, LEGI, KALI, JADE, CONSTIT, CASS-INCA, CAPP, Cnil, circulaires

* 250 Français, anglais, italien, espagnol, allemand, portugais, arabe, russe, japonais, chinois, catalan, basque, breton, occitan.

* 251 Voir l'entrée web sémantique dans le glossaire.

* 252 Voir audition du 20 mars 2014, dont le compte rendu est reproduit dans le tome II.

* 253 A la différence de certains contenus de la base d'origine Joconde couverts par des droits d'auteurs et dont la réutilisation fait l'objet de règles strictes, comme le précisent les mentions légales du site.

* 254 Voir l'encadré sur les licences Creative Commons figurant à la page suivante.

* 255 Le recours à un autre type de licence, la licence ODbL, est possible bien que non recommandé lorsque le producteur est un EPIC.

* 256 Voir l'encadré sur les licences figurant à la page suivante.

* 257 Creative Common est une organisation à but non lucratif fondée par Lawrence Lessig, auteur de l'ouvrage Code and Other Laws of Cyberspace .

* 258 Voir l'audition de M. Frédéric van Roeckeghem, directeur de la Cnam, le 6 mars 2014, dont le compte rendu est reproduit dans le tome II.

* 259 Décret n° 2013-414 relatif à la transparence des avantages accordés par les entreprises produisant ou commercialisant des produits à finalité sanitaire et cosmétique.

* 260 Voir l'audition de Mme Marisol Touraine, ministre des affaires sociales et de la santé, le 27 mars 2014, dont le compte est reproduit figure dans le tome II.

* 261 Ibid .

* 262 Voir l'audition du 6 mars 2014, dont le compte rendu est reproduit dans le tome II.

* 263 Arrêté du 19 juillet 2013 relatif à la mise en oeuvre du Système national d'information inter-régimes de l'assurance maladie.

* 264 Voir l'audition de M. Frédéric van Roeckeghem, directeur de la Cnam, dont le compte rendu est reproduit dans le tome II.

* 265 Voir le compte rendu de l'audition du 6 mars 2014 dans le tome II.

* 266 Audition du 6 mars 2014, dont le compte-rendu figure dans le tome II.

* 267 Audition en date du 27 février 2014, dont le compte rendu figure dans le tome II.

* 268 Voir la définition dans le glossaire open data.

* 269 À la suite de la modification des points e) et f) de l'article premier, §2, de la directive 2003/989/CE du 26 juin 2003 concernant la réutilisation des informations du secteur public. Restent toutefois exclus du champ d'application de la directive : « les documents détenus par les établissements d'enseignement et de recherche » et « les documents détenus par les établissements culturels autres que des bibliothèques, des musées et des archives ».

* 270 Bibliothèque numérique, alimentée par les fonds numérisés de plus de 1 500 institutions culturelles des États membres, comportant des images, textes, enregistrements sonores et vidéo, à laquelle ont notamment contribué, pour la France, la BnF et le musée du Louvre.

* 271 Voir notamment la recommandation 2011/711/UE de la Commission du 27 octobre 2011 sur la numérisation et l'accessibilité en ligne du matériel culturel et la conservation numérique (JO L 283 du 29 octobre 2011).

* 272 Art. 6.2 c) nouveau de la directive 2003/98/CE résultant de la directive 2013/37/UE du Parlement européen et du Conseil du 26 juin 2013

* 273 Art. 11 modifié de la directive 2003/98/CE.

* 274 Entretien donné au Nouvel Observateur le 7 novembre 2013 par Mme Aurélie Filippetti, ministre de la culture et de la communication.

* 275 Feuille de route Open Data du ministère de la culture et de la communication comportant 10 actions pour une stratégie numérique de diffusion et de réutilisation des données publiques numériques du secteur culturel.

* 276 Voir notamment le Guide Data Culture pour une stratégie numérique de diffusion et de réutilisation des données publiques numériques du secteur culturel , mars 2013, le rapport de Camille Domange, chef du département des programmes numériques, Ouverture et partage des données publiques culturelles, pour une (r)évolution numérique dans le secteur culturel, décembre 2013, qui s'est appuyé sur les recommandations du Copia et de l'API et les ateliers impulsés par Etalab .

* 277 Voir notamment la Feuille de route stratégique, métadonnées culturelles et transition Web 3.0 , janvier 2014.

* 278 Voir notamment l' Étude sur les calculateurs du domaine public , novembre 2013, qui présente les outils permettant de calculer le statut juridique d'une oeuvre.

* 279 M. Camille Domange Ouverture et partage des données publiques culturelles : pour une (r)évolution numérique dans le secteur culturel , ministère de la culture et de la communication, décembre 2013.

* 280 Selon une méthode assurant le secret statistique présentée sur le site de l'Insee.

* 281 Voir sur ce point l'audition de Mme Geneviève Chêne et de M. Grégoire Rey, de l'Inserm, dont le compte rendu est reproduit dans le tome II.

* 282 Voir l'audition de M. Christian Babusiaux, président de l'IDS, dont le compte rendu est reproduit dans le tome II.

* 283 Haut conseil de la santé publique, Pour une meilleure utilisation des bases de données administratives et médico-administratives nationales pour la santé publique et la recherche , mars 2012.

* 284 Ces protections sont notamment l'observation de procédures d'anonymisation successives des données, leur mise à disposition sous environnement protégé, et l'engagement des chercheurs eux-mêmes à ne pas utiliser les données transmises à des fins de réidentification.

* 285 Voir notamment les auditions de MM. Housseyni Holla, directeur de l'Atih, et Christian Babusiaux, président de l'IDS, en date du 6 mars 2014, dont le compte rendu est reproduit dans le tome II.

* 286 Voir le compte rendu de l'audition du 20 mars 2014 reproduit dans le tome 2.

* 287 Ibid.

* 288 Voir le compte rendu de l'audition du 6 février 2014 reproduit dans le tome II.

* 289 Voir le compte rendu de l'audition de présentation de cette initiative le 20 mars 2014, reproduit dans le tome II.

* 290 On regrettera toutefois que le dos des oeuvres ne soit pas également reproduit, ce qui permettrait d'identifier les traces d'appropriations successives, particulièrement précieuses dans le cadre de l'identification des biens spoliés.

* 291 Cf . encadré précédent, supra §1, c).

* 292 Review of recent studies on PSI re-use and related market developments , Graham Vickery, 2001. Étude commandée dans le cadre de la préparation de la directive concernant la réutilisation des informations du secteur public.

* 293 Compte rendu de l'audition du 3 avril 2014 reproduit dans le tome II.

* 294 Voir la contribution écrite de M. Paul Maltby, directeur de l' open data au Cabinet office , reproduite dans le tome II.

* 295 Il détermine, sur cette base, les données qui doivent être prioritairement ouvertes et mises à niveau.

* 296 Voir sur ce point le compte rendu, reproduit dans le tome II, de l'audition du collectif Regards citoyens le 16 janvier 2016, qui a exposé devant votre mission d'information les difficultés qu'elle a rencontrées pour accéder aux données électorales.

* 297 Voir l'audition du 16 janvier 2014, dont le compte rendu est reproduit dans le tome II.

* 298 Voir l'audition du 16 janvier 2014, dont le compte rendu est reproduit dans le tome II.

* 299 Circulaire du 19 septembre 2012 fixant des orientations pour l'usage du logiciel libre dans l'administration.

* 300 Voir l'audition du 16 janvier 2014, dont le compte rendu est reproduit dans le tome II.

* 301 Voir audition en date du 6 mars 2014, dont le compte rendu est reproduit dans le tome II.

* 302 Voir l'audition du 29 janvier 2014, dont le compte rendu est reproduit dans le tome II.

* 303 Voir sur ce point l'audition de M. François Bancilhon, président-directeur général de Data Publica , le 13 février 2014, dont le compte rendu est reproduit dans le tome II.

* 304 Les britanniques, dans le cadre du rapport précité du comité Shakespeare, ont en la matière une approche coût-utilité méthodique qui priorise l'ouverture des données en fonction des gains attendus et du coût de mise à niveau des données pour une exploitation efficace.

* 305 Ouverture des données publiques : les exceptions au principe de gratuité sont-elles toutes légitimes ? , précité.

* 306 Voir audition commune du 6 février 2014, dont le compte rendu est reproduit dans le tome II.

* 307 Voir notamment l'audition du collectif SavoirsCom1 le 6 février 2014, dont le compte rendu est reproduit dans le tome II.

Les thèmes associés à ce dossier

Page mise à jour le

Partager cette page