Jeudi 27 février 2014

- Présidence de M. Jean-Jacques Hyest, président. -

La réunion est ouverte à 9 heures 30.

Grands fournisseurs de données publiques - Audition de M. Marc Lipinski, directeur de recherche au CNRS, responsable de la mission « Science et citoyens »

M. Jean-Jacques Hyest, président. - Nous poursuivons le deuxième volet de nos auditions, en entendant les producteurs de données publiques de première importance, le CNRS, l'Insee et l'IGN. M. Marc Lipinski, directeur de recherche au CNRS depuis 1986, est actuellement directeur du laboratoire international associé franco-russe de recherche en oncologie et directeur adjoint de l'Ecole doctorale de cancérologie. Il est également responsable de la mission « Science et citoyens » et conseiller régional écologiste d'Ile-de France.

Pourriez-vous nous rappeler les missions du CNRS (Centre national de la recherche scientifique), son statut, son organisation et ses financements, puis nous exposer votre analyse des enjeux de la démarche d'ouverture des données publiques scientifiques ? Quels sont les modes de coopération existants ou envisageables en la matière, entre les chercheurs, l'industrie, le grand public et le CNRS ? Quelles sont d'une part la pratique du CNRS en matière de diffusion des données scientifiques, d'autre part les conditions juridiques, techniques et financières de réutilisation de ces données ?

M. Marc Lipinski, directeur de recherche au CNRS. - Je précise que je ne suis pas mandaté par le CNRS et parle donc à titre individuel. Je dois rendre cet après-midi mon rapport sur la mission « Science et citoyens ». J'ai été vice-président du conseil régional d'Ile-de-France, en charge de l'enseignement supérieur et de la recherche, entre 2004 et 2010, ce qui m'a conduit en particulier à m'intéresser aux relations entre la science et les citoyens. C'est pourquoi le président du CNRS - qui a été reconduit hier en conseil des ministres - m'a confié cette mission.

Le CNRS est un établissement public à caractère scientifique et technologique, placé sous la tutelle du ministère de l'enseignement supérieur et de la recherche. Il est lié à l'Etat par un contrat d'objectifs pluriannuel ; le contrat actuel touche à son terme et doit être renouvelé. Il dispose d'un budget dont le montant était de 3,4 milliards d'euros en 2013, 800 millions d'euros de ressources propres, le reste financé par le budget de l'Etat. Notre établissement compte 25 à 26 000 permanents et 8 000 salariés en CDD. Il est régi par le code de la recherche qui définit les missions des organismes de recherche : accroître les connaissances scientifiques, partager et diffuser la culture scientifique, technique et industrielle, valoriser les résultats de la recherche au service de la société et promouvoir la langue française comme langue scientifique. Le CNRS est gouverné par un président, un conseil d'administration et un conseil scientifique ; il est organisé en dix instituts thématiques qui regroupent une quarantaine de sections disciplinaires et interdisciplinaires. Nous avons engagé une coopération internationale, dont un exemple est le laboratoire international de recherche en oncologie que je dirige, où nous travaillons avec des collègues russes. Une coopération existe aussi, en France, avec les universités et d'autres organismes de recherche, sous forme d'unités mixtes de recherche.

La question que vous posez est stratégique. Le traitement des big data ou données massives, qui sont une mine de connaissances potentielles donc de pouvoir, est un défi pour les institutions internationales qui en ont fait une de leurs nouvelles priorités de recherche et développement. La mission Etalab, sous l'autorité du Premier ministre, pilote depuis deux ans une politique ambitieuse d'ouverture généralisée des données publiques, avec des objectifs de réutilisation et de valorisation économique et sociétale. Dans la masse des données scientifiques, comment définir celles qui sont publiques et celles qui ne le sont pas ? Actuellement, au plan international, le critère qui semble naturel est celui du financement de l'acquisition des données : lorsque de l'argent public est intervenu, les données doivent être considérées comme publiques et doivent être traitées comme telles.

Depuis quelques années s'est développée la notion d'open science ou science ouverte, dont l'un des objectifs est le libre accès aux publications scientifiques. Les débats sont très vifs entre la communauté scientifique et les éditeurs, principal canal de diffusion des connaissances scientifiques. Il faut payer pour publier et payer pour lire les publications - y compris les siennes ! La tendance est donc à un libre accès aux publications scientifiques, mais nous sommes encore dans une phase de transition.

La science a beaucoup changé depuis vingt ans. Dans les sciences exactes, et notamment en biologie - je dirige un laboratoire de biologie - les évolutions technologiques produisent des milliards de données nouvelles, beaucoup plus que ce que les chercheurs peuvent analyser. Il y a pénurie de cerveaux face à cette masse de données. Le défi est de les rendre disponibles, réutilisables et interopérables, c'est-à-dire susceptibles d'être croisées et analysées non seulement par des scientifiques, mais aussi par des non-professionnels de la science - dans un mode de collaboration nouveau, celui des sciences citoyennes (citizen science). Il y a quelques jours, le principal éditeur scientifique, Elsevier, a proposé de fournir, en même temps que les articles publiés, les données massives sur lesquelles ils se fondent, afin qu'elles soient accessibles aux chercheurs et puissent servir de base à un travail d'extraction des données (data mining). Faudra-t-il signer un accord particulier pour avoir accès aux données brutes qui sont à la base des publications scientifiques ? La question reste posée, et le débat, je n'en doute pas, sera vif.

La science est une activité internationale à la fois hautement compétitive et collaborative ; elle fonctionne en « coopétition ». Le journal Le Monde s'est intéressé, il y a quelques jours, au burnout des scientifiques, qui doivent faire face à une compétition serrée en termes de publications et de résultats, tout en étant engagés dans une course aux crédits. Sur une période de cinq ans, les crédits du laboratoire que je dirige - une structure commune de recherche entre public et privé - sont venus à 80 % des contrats de partenariat avec les entreprises et non de subventions de l'Etat.

La politique d'ouverture des données scientifiques place le chercheur face à un dilemme : exploiter lui-même les données qu'il a produites, sans avoir les moyens d'en tirer toute la substance, ou les rendre accessibles pour que d'autres les exploitent et fassent avancer la connaissance scientifique. A mon sens, dès lors que les chercheurs sont payés sur des fonds publics, leur devoir est de faire avancer la connaissance au profit de l'intérêt général. S'ils le font intelligemment, ils peuvent même en tirer profit personnel !

L'objectif des industriels - créer de la valeur ajoutée pour faire du profit - est a priori contradictoire avec une démarche d'ouverture des données. Certains secteurs d'activité offrent néanmoins des exemples positifs, comme le monde numérique, tellement agile que ses acteurs ne perdent pas de temps à faire des brevets. Dans d'autres domaines, comme celui du lobby pharmaceutique ou big pharma, le débat est ouvert, les résultats des essais cliniques n'étant pas toujours publiés, souvent occultés ou affadis lorsqu'ils ne sont pas totalement positifs.

Le CNRS est un des organismes qui dépose le plus de brevets au monde, pour disposer de ressources propres et protéger ses intérêts. Pendant dix ans, le Taxotere, un médicament anti-cancéreux mis au point dans un de nos laboratoires de Gif-sur-Yvette, a été une manne qui a rapporté plus de 50 millions d'euros, avant que le brevet ne tombe dans le domaine public. Sur les données proprement dites, à ma connaissance, le CNRS n'a pas défini de politique précise sur le partage des données. Il encourage les chercheurs à déposer leurs publications dans des archives ouvertes, mais ils ont dans les faits une liberté de choix. En revanche, s'ils ont un contrat européen, ils doivent publier en accès libre. Le 6 décembre dernier, nous avons organisé un colloque avec ma collègue Mélanie Dulong de Rosnay, sur l'ouverture des données massives scientifiques. Le but était de passer en revue les approches et les problématiques des différentes disciplines : ils ont les mêmes approches, avec des particularités.

Grâce aux innovations technologiques, le grand public apporte sa contribution à l'avancée des connaissances scientifiques. Chacun peut utiliser son téléphone portable pour capter des sons, des images, des irradiations radioactives, et donc générer des données transmises ensuite à un organisme scientifique qui les centralise Cette tradition de contributions des amateurs forte de tous temps dans le monde naturaliste, en archéologie ou en astronomie, renaît aujourd'hui grâce aux nouveaux outils informatiques.

Pour observer l'évolution des espèces et lutter contre leur disparition, l'OCDE a ainsi mis en place en 2001 la plateforme GBIF (Global biodiversity information facility) dont le siège est à Copenhague, et qui a pour objectif de collecter dans le monde entier des jeux de données, informant sur l'état de la biodiversité. L'organisation compte plus de 100 membres, issus d'au moins 50 pays, organismes de recherche, grandes ou petites associations, consortiums, etc. En France, l'antenne du GBIF a fourni plus de 100 jeux de données, produits par des organismes de recherche - le Museum d'histoire naturel, l'INRA (Institut national de la recherche agronomique), l'Ifremer, des universités ou des associations bénévoles non-professionnelles. L'une d'elles est Tela Botanica, fondée par un ingénieur à la retraite et qui regroupe des botanistes amateurs francophones. Avec plus de 20 000 membres fournisseurs de données, elle est le deuxième plus gros contributeur français au GBIF, après le Museum d'histoire naturelle. Son siège est au Museum de Montpellier et elle est associée au CNRS qui la considère comme un acteur essentiel de la recherche en biodiversité. En tout le GBIF a reçu plus de 4 millions de données et de métadonnées, c'est-à-dire les informations contextuelles (qui a fait l'observation, où, quand, dans quelles circonstances) qui rendent les données compréhensibles, interprétables. Ce sont des outils précieux d'aide à la décision politique.

Le projet astronomique Galaxy Zoo est un autre exemple de collaboration entre les scientifiques et le grand public dans le traitement des données. En 2006-2007, un jeune doctorant en astronomie de l'université d'Oxford a eu l'idée brillante de mettre à contribution le grand public, en lui donnant accès sur internet aux images innombrables collectées par un télescope installé au Nouveau Mexique. Elles étaient assorties d'un questionnaire très bien conçu. Chaque contributeur pouvait ainsi observer et analyser des images qui n'avaient été vues ni traitées par personne ! Notre doctorant a engrangé des dizaines de milliers de contributions volontaires, et autant d'articles ont été publiés par des scientifiques à partir de ces contributions non-professionnelles, précieuses car les algorithmes d'analyse d'images ne sont jamais aussi performants que l'oeil humain.

M. Jean-Jacques Hyest, président. - Mais on arrivera bien un jour à les rendre aussi performants, sinon plus ?

M. Marc Lipinski. - Peut-être. A ce propos, l'amélioration des algorithmes se fait en analysant le comportement des non-professionnels qui les utilisent. La similitude avec les jeux vidéo est frappante, ils sollicitent les mêmes compétences. La France est très compétitive dans le domaine des jeux vidéo, malgré la concurrence de la Silicon Valley. Dans le rapport que je vais présenter cet après-midi, je propose de mettre à contribution ces compétences numériques, par exemple dans les pôles de compétitivité, comme Cap Digital en Île-de-France. La data visualisation - le fait de rendre les données compréhensibles - est un autre domaine où la France excelle, grâce au travail de l'INRIA. Par exemple, il y a des dizaines de façons de rendre compréhensible la manière dont la représentation nationale répartit les ressources de l'Etat. Or une meilleure compréhension est la clef d'une meilleure analyse.

La biologie moléculaire est un domaine très spécialisé. Il y a une vingtaine d'années, on a séquencé le génome humain : la première séquence a coûté des millions de dollars et a pris des années, le séquençage étant la compilation de données recueillies sur des milliers d'individus. Aujourd'hui, il faut un jour pour établir une séquence. On accumule des milliards de séquences. La science phylogénétique consiste à comparer les séquences entre espèces, afin de comprendre leurs évolutions et de définir ce qui est propre à l'espèce humaine. Les chercheurs travaillent à partir de logiciels d'alignements de séquences. L'expérience a montré que l'intelligence humaine était indispensable pour améliorer les alignements. Des chercheurs canadiens ont donc créé des jeux vidéo qui sont aussi des logiciels d'analyse des données et ils recrutent des joueurs qui oeuvrent pour la science en s'amusant.

M. Jean-Jacques Hyest, président. - Le CNRS dépose des brevets, perçoit des redevances et octroie des licences ; il est aussi éditeur, n'est-ce pas ?

M. Marc Lipinski. - Il y a deux types de publications scientifiques, le livre et les revues. L'essentiel de la connaissance scientifique est publié dans les revues et en anglais. Le CNRS n'édite pas de revue.

Mme Corinne Bouchoux, rapporteure. - Merci pour cet éclairage stimulant. Comment mieux prendre en compte ces interactions avec la société dans l'évaluation individuelle et collective des chercheurs ? Dans le domaine de l'oncologie, toutes ces démarches participatives ne pourraient-elles pas favoriser une politique de prévention en matière de santé publique, si elles étaient déployées plus largement ?

M. Marc Lipinski. - Les chercheurs sont beaucoup évalués. En six mois, j'ai dû produire trois rapports d'activité. Nous devons décrire tout ce que nous faisons. La question est de savoir comment cet effort vis-à-vis de la société est pris en compte dans l'évolution des carrières. J'ai fait des propositions pour que les interactions avec la société soient systématiquement indiquées dans ces rapports. Mais les évaluations étant faites par nos pairs, c'est toute une culture qu'il faut faire évoluer : pour l'instant, la qualité d'un chercheur se mesure essentiellement au nombre de ses publications scientifiques. C'est aussi le rôle des organismes scientifiques que d'avoir une politique persistante pour inciter les chercheurs à travailler avec la société civile.

En oncologie comme ailleurs, la prévention consiste d'abord à donner au grand public un meilleur niveau de connaissance et de compréhension des enjeux scientifiques. La diffusion de la culture scientifique est une mission essentielle. Elle ne doit pas être théorique, mais pratique : un enfant n'apprend pas à faire du vélo en prenant des cours sur le vélo, mais en pédalant. Des initiatives comme « la Main à la pâte », que j'ai lancée en Ile-de-France auprès des écoliers, des jeunes et des adultes, sont je crois très utiles.

Mme Corinne Bouchoux, rapporteure. - On manque en France de vocations scientifiques. Que deviennent les bacheliers S une fois devenus adultes ? Ne faudrait-il pas développer des passerelles ou des formations modulaires à destination de ceux qui souhaiteraient reprendre des études scientifiques sur le tard ?

M. Marc Lipinski. - L'idée de pouvoir reprendre des études à tout moment de la vie me paraît bonne. En revanche, je ne crois pas que les jeunes se désintéressent de la science. Les revues de vulgarisation scientifique sont très lues, les fêtes ou les cafés de la science sont très fréquentés. Il y a surtout, en France, un problème de débouchés. Un lycéen choisit de passer un bac S pour avoir ensuite le choix de ses études, non parce qu'il envisage une carrière scientifique. Les débouchés scientifiques sont plus restreints en France qu'ailleurs. Le doctorat n'est toujours pas reconnu dans la fonction publique. Les entreprises préfèrent recruter des ingénieurs que des docteurs. Dans les organismes de recherche, le nombre des postes diminue. On entre de plus en plus tard dans la carrière : actuellement, on ne peut espérer devenir chargé de recherche deuxième classe au CNRS avant 35 ans, et pour un salaire inférieur à 2 000 euros. Pourquoi faire ce choix, lorsqu'on est bon élève, que l'on a accès aux grandes écoles et que l'on peut toucher à 23 ans un salaire annuel de 36 000 euros ? Un quart des jeunes Français préfèrent partir à l'étranger. Le sort qu'on leur fait en France n'est pas très enviable ; il l'est encore moins pour les jeunes scientifiques.

M. René Garrec. - Un chimiste brillant, Bernard Raveau, avait découvert la lévitation du métal au niveau de l'azote liquide. Il a publié trop vite, ce sont les Suisses qui ont eu le prix Nobel, même s'il a eu la médaille d'argent du CNRS. Comment protéger les intérêts des chercheurs et comment protéger leurs publications lorsque des intérêts industriels sont en jeu ?

M. Marc Lipinski. - Chacun doit faire son métier. Les chercheurs cherchent, publient, produisent des brevets. Les entreprises développent et valorisent ces brevets. Les chercheurs ne sont pas des chefs d'entreprise. Ce qui pose problème en France, ce sont les entreprises plus que la recherche.

M. René Garrec. - Bernard Raveau a été nommé, jeune, à l'Académie des sciences, et il a fait une belle carrière.

M. Marc Lipinski. - Beaucoup de découvertes faites dans des laboratoires français, subventionnés par l'Etat, sont valorisées ailleurs.

M. René Garrec. - Les couches minces, par exemple, qui sont la suite des travaux de Raveau. On a quand même gardé les brevets.

M. Marc Lipinski. - La réflexion devrait se situer au niveau européen plus que franco-français. Dans la mesure où les entreprises recrutent plus d'ingénieurs que de chercheurs, elles ne sont plus capables de produire des innovations de rupture et se contentent d'améliorer des processus ou des objets déjà existants. La clef du problème serait d'inciter les entreprises à recruter des docteurs, formés par quelques années de recherches concrètes.

M. René Garrec. - Le processus est très lent. J'avais négocié des accords entre les grandes écoles d'ingénieurs et Normale Sup. Notre « Atomic Anne » (Lauvergeon) vient de Normale Sup physique, elle est ensuite passée par les Mines. Elle est devenue le patron de la Cogema. J'avais également lancé une réflexion sur une ouverture européenne du CNRS. Elle n'a pas avancé d'un millimètre. Le CNRS n'a-t-il pas d'équivalents chez nos voisins ?

M. Marc Lipinski. - Si, bien sûr, des équivalents existent, en Allemagne notamment. Le problème d'harmonisation européenne des brevets est compliqué.

Dans le cadre du programme des investissements d'avenir piloté par Louis Gallois, le projet « 65 millions d'observateurs », sous l'égide du Museum d'histoire naturelle, vise à créer des plateformes et des outils numériques facilitant la collecte des données scientifiques grâce à la collaboration de toutes les bonnes volontés. Je fais partie du comité de pilotage de ce projet que dirige Romain Julliard, professeur au Museum d'histoire naturelle. Bien accueilli par les instances qui l'évaluent, le dossier traîne pourtant depuis plus d'un an. Nous en sommes à la troisième mouture. Cela montre la timidité des initiatives, dès qu'il s'agit d'investir dans des projets un peu innovants, décalés. Dans la Silicon Valley, on n'a pas peur d'investir, ni d'échouer neuf fois pour réussir la dixième !

M. Jean-Jacques Hyest, président. - Je vous remercie.

- Présidence de Mme Corinne Bouchoux, rapporteure. -

Audition de MM. Alain Bayet, secrétaire général, Michel Isnard, responsable de l'unité des affaires juridiques et contentieuses, Mme Françoise Maurel, directrice de la diffusion et de l'action régionale, de l'Insee

Mme Corinne Bouchoux, rapporteure. - Nous accueillons les représentants de l'Institut national de la statistique et des études économiques (Insee), M. Alain Bayet, secrétaire général, M. Michel Isnard, responsable de l'unité des affaires juridiques et contentieuses, et Mme Françoise Maurel, directrice de la diffusion et de l'action régionale. Nous amorçons, vous l'avez compris, la seconde partie de nos auditions sur l'offre de données publiques.

Quelles sont les missions de l'Insee, son statut, ses ressources et
les garanties de son indépendance ? Selon quelles modalités vos travaux statistiques alimentent-ils le débat public ? Quel est le processus de validation ? Quels fichiers administratifs exploitez-vous ?

Quelle est votre politique de diffusion des bases de données et des travaux ? Quel est le cadre juridique, le cadre technique, les services annexes ?

Comment l'Insee appréhende-t-il la dimension d'intelligence économique attachée à ses données ? L'Insee est-il saisi de demandes d'accès à ses documents ou données ? Enfin, quelle est votre position à propos de la transposition de la directive européenne de juin 2013 ?

M. Alain Bayet, secrétaire général de l'Insee. - Je vous remercie de permettre à l'Insee d'intervenir sur ces sujets. L'Insee, depuis sa création, a vocation à mettre à la disposition du public les résultats de ses statistiques et de ses analyses. L'Insee est une direction du ministère de l'Economie et des finances. Il a été créé par une loi du 27 avril 1946 et un décret du 17 juin 1946 fixe ses missions : établir les statistiques relatives à l'Etat et au mouvement des personnes et des biens ; coordonner les méthodes, les moyens et les travaux statistiques des administrations publiques, centraliser leur documentation statistique et économique et réaliser l'unification des nomenclatures et des codes statistiques ; tenir à jour l'inventaire permanent de l'économie ; observer l'évolution de la situation économique ; entreprendre, à la demande du gouvernement et des administrations publiques, et, éventuellement, de personnes physiques ou morales de droit privé, des recherches et études sur les questions statistiques et économiques ; diffuser et publier les résultats de ses travaux ; favoriser le développement des sciences statistiques et les recherches économiques relevant de sa compétence ; réaliser, pour le compte des administrations publiques, des recensements approximatifs par voie de sondage. La loi relative à la démocratie de proximité a, en outre, chargé l'Insee de l'organisation du recensement de la population.

Ainsi la diffusion et la publication des résultats de nos travaux font partie intégrante de nos missions. Notre budget s'élève à 471 millions d'euros en crédits de paiement pour l'année 2014, dont 382 millions de dépenses de personnel. Les fonds de concours et attributions de crédits sont de l'ordre de 14 millions d'euros sur les 89 millions de dépenses hors titre II. L'Insee emploie 5707 équivalents temps plein (ETPT), dont 26 % sont des cadres A. Ces chiffres ne tiennent pas compte des services ministériels qui sont incorporés dans chaque programme ministériel. Ces services sont au nombre de 16 (bientôt 17 avec le service du ministère de l'intérieur) et comportent environ 2 000 agents. Cet ensemble constitue la statistique publique française.

En amont de l'élaboration de statistiques, l'Insee est chargé de tenir trois répertoires administratifs : le répertoire national d'identification des personnes physiques, qui permet à l'Insee d'attribuer à toutes les personnes concernées le numéro d'identification au répertoire ou numéro de sécurité sociale, le fichier électoral en vue du contrôle sur les listes électorales et le répertoire national des entreprises et de leurs établissements, le Sirene.

La loi du 7 juin 1951 fixe les modalités d'élaboration des statistiques. Une modification datant de 2008 a introduit la notion d'indépendance professionnelle dans la conception, la production et la diffusion des statistiques, et a créé une Autorité de la statistique publique qui veille à son respect et à l'application du code de bonnes pratiques européen.

Durant très longtemps, les enquêtes ont été la source quasi exclusive des résultats de l'Insee. En décembre 1986, une loi a introduit un article 7 bis dans la loi du 7 juin 1951 qui oblige les administrations et les personnes de droit privé gérant un service public à transmettre à l'Insee et aux services statistiques ministériels les données recueillies dans l'exercice de leurs missions, afin d'éviter une double collecte d'informations. Les fichiers administratifs ne sont pas la seule source d'informations. Par exemple, quasiment aucune des données de l'enquête « Trajectoires et origines», qui visait à évaluer l'impact des origines et d'autres facteurs dans les trajectoires de vie, ne provenait de fichiers administratifs. Il en va de même des données sur la conjoncture, collectées périodiquement auprès des chefs d'entreprises. En revanche, l'Insee utilise les déclarations fiscales afin d'éviter d'interroger les ménages ou les entreprises sur leurs revenus ou leur chiffre d'affaires.

Avant d'être mise en oeuvre, une enquête statistique doit suivre un processus de validation. Tout d'abord le Conseil national de l'information statistique (Cnis), qui regroupe les producteurs de statistique et leurs utilisateurs, et où Mme Evelyne Didier représente le Sénat, émet un avis d'opportunité, après avoir vérifié que l'enquête est utile, nécessaire et concerne une problématique importante du point de vue des utilisateurs. Une seconde étape est un avis de conformité à l'état de l'art donné par le Comité du label de la statistique publique. Il s'agit ici de valider les choix méthodologiques faits par le maître de l'ouvrage et de donner un avis sur l'obligation de réponse à l'enquête. Enfin, le ministre chargé de l'économie publie un arrêté qui liste l'ensemble des enquêtes statistiques d'une année donnée et indique celles qui sont obligatoires. L'avis du Comité du label a toujours été suivi à ce jour.

Le Cnis est aussi un lieu de concertation plus technique, notamment avec ses groupes de travail ad hoc. Ainsi, récemment, un groupe de travail sur l'évolution du questionnaire du recensement de la population, présidé par le sénateur Jean-Claude Frécon, a proposé des modifications du questionnaire du recensement que l'Insee mettra en oeuvre dans les années à venir.

L'Insee, dont l'une des missions est de diffuser largement les résultats de ses travaux, a mis en place un système de diffusion comportant plusieurs niveaux liés notamment à la confidentialité des données communiquées. Le premier niveau est un niveau « tout public» : la diffusion est faite gratuitement sur notre site Internet, principal vecteur de diffusion. Notre site offre des informations diffusées dans les meilleurs délais, comme les indicateurs de conjoncture, des études et analyses, des ouvrages de référence sur les grandes questions économiques et sociales, et des données détaillées qui offrent un accès à d'importantes masses de données, particulièrement pour un usage professionnel. Toutes ces informations respectent le secret statistique.

Cette palette diversifiée de produits en libre accès vise à répondre aux besoins des différents utilisateurs, particuliers, enseignants, étudiants, chercheurs, entreprises, médias, administrations. De nombreuses informations sont disponibles à un niveau géographique fin (régional, départemental, communal, voire infra-communal) et les directions régionales de l'Insee publient de nombreuses études à portée régionale ou locale, en partenariat avec des collectivités locales.

Les données diffusées sont toujours accompagnées de l'ensemble des métadonnées nécessaires à leur compréhension, les sources et la méthodologie employée. L'évolution de notre gamme de produits s'appuie aujourd'hui en grande partie sur l'écoute des attentes, grâce à des enquêtes de satisfaction. Ainsi, en 2013, les « Inseenautes » ont été interrogés sur leurs pratiques de lecture sur le web, sur la collection Insee résultats et sur les définitions des termes économiques. Huit Français sur dix ont une bonne opinion de l'Insee en 2013 ; cette proportion monte à neuf personnes sur dix parmi les utilisateurs du site Insee.fr. L'Insee réalise aussi, à la demande, des prestations payantes, tarifées au coût marginal, sur ses sources statistiques, qui requièrent des opérations de confection et de mise à disposition, dans le respect du secret statistique.

Au-delà des données en libre accès sur internet, il existe deux autres niveaux de diffusion. La loi du 7 juin 1951 punit la rupture du secret statistique de la même manière que la rupture du secret professionnel et interdit la communication des données confidentielles, qui permettent l'identification des unités statistiques. Elle prévoit toutefois des dérogations, selon des modalités précises. Un second niveau de diffusion est destiné principalement aux chercheurs et aux experts du privé : il leur fournit des données plus détaillées, individuelles, mais préserve toujours l'anonymat des personnes physiques. Il s'agit d'un partenariat avec le réseau Quetelet.

Le troisième niveau ne concerne que les chercheurs et donne accès à des données confidentielles, c'est-à-dire permettant l'identification des entreprises ou des personnes physiques, avec l'accord des Archives et après avis d'un Comité du secret statistique, présidé par un conseiller d'Etat, M. Jean Gaeremynck, et qui réunit les producteurs de données, des membres du CNIS et des chercheurs. L'accord du service producteur est en outre nécessaire. Cette procédure dérogatoire concerne environ 200 dossiers par an pour environ 800 chercheurs. Afin de garantir la sécurité des données, l'Insee ne fournit pas les noms des personnes physiques, sauf besoin explicité par les demandeurs, notamment en cas de tirages d'échantillons pour des enquêtes statistiques, et n'autorise l'accès qu'au travers du centre d'accès sécurisé du Groupe des écoles nationales d'économie et statistique (GENES), établissement public depuis 1971 mais très lié à l'Insee. Le chercheur travaille ainsi dans une bulle et ne peut rien en extraire qui ne respecte pas la confidentialité. En revanche, il peut consulter les données concernant les entreprises, depuis environ 30 ans, et, depuis 5 ans, celles concernant les personnes physiques.

L'ouverture des données, ou open data, est dans les gènes de l'Insee, puisqu'une de ses missions est justement de diffuser les informations qu'il produit. Notre site internet a reçu 30 millions de visites en 2013 ; la croissance est de l'ordre de 20 % par an sur les deux dernières années. Tous nos travaux statistiques ont vocation à y être largement diffusés sous différentes formes allant jusqu'aux bases de données détaillées. Ainsi l'Insee a récemment rendu publiques au deuxième semestre 2013 des bases de données à une maille géographique très fine, avec des « carreaux » de 200 mètres sur 200 mètres. Les mentions légales de notre site autorisent la réutilisation libre et gratuite de toutes les données statistiques qu'il contient, y compris à des fins commerciales, sans licence, ni versement de redevance, sous réserve de la mention de la source.

Nous attachons une attention particulière aux formats de nos données, pour faciliter leur réutilisation. Les formats traditionnels de type csv, xls ou de bases de données ont été enrichis récemment de formats avancés : nous publions en format RDF du web sémantique, les populations légales du recensement de la population, le code officiel géographique (COG) ainsi que les nomenclatures d'activité (code NAF) et de profession (dire codification PCS). Les modalités et algorithmes de traitement de certaines données, comme celles du recensement de la population, font l'objet d'une description détaillée en ligne. En outre, à titre plus exploratoire, l'Insee est partenaire du projet Datalift, de données sémantiques interconnectées sur ce que l'on appelle le web des données. Cette stratégie de long terme d'open data initiée en 2003 a conduit l'Insee à collaborer de manière étroite avec la mission Etalab lors de sa création, pour alimenter substantiellement en données la première version de data.gouv.fr, fin 2011, et définir des solutions techniques. Avec l'ouverture de la version 2 de data.gouv.fr fin 2013, nous avons fourni de nouvelles données dans le cadre du projet de loi sur la parité hommes-femmes.

L'Insee ne reçoit que très peu de demandes de communication de documents administratifs : deux seulement en 2013 : la première concernait le résultat du recensement de la population d'une commune consultable sur le site ! - et la seconde un bulletin d'état civil datant de 1945 que l'INSEE ne possédait plus. De manière générale, l'Insee ne constate pas de difficulté en la matière. En effet, si le document est couvert par le secret statistique ou par la protection de la vie privée, aucune communication n'est possible, hors la procédure dérogatoire décrite ci-dessus. Dans le cas contraire, l'Insee publie ce document sur le site internet ou le communique dès la demande.

Enfin, au titre des modifications institutionnelles et légales envisageables, je signale que nous souhaiterions récupérer les données de caisse de la grande distribution, pour améliorer le calcul de l'indice des prix et réduire le coût de collecte des données utiles. Une modification de la loi est nécessaire pour cela.

Mme Corinne Bouchoux, rapporteure. - Je vous remercie.

M. René Garrec. - Je n'ai pas de question. Je fais partie des Français qui apprécient le travail de l'Insee !

Mme Catherine Procaccia. - Je suis surprise que vous ayez si peu de demandes de transmission de documents, même mal orientées.

M. Michel Isnard, responsable de l'unité des affaires juridiques et contentieuses de l'Insee. - Sans doute est-ce parce que les personnes trouvent sur notre site l'information qu'elles cherchent. Peut-être pensent-elles aussi que nos données sont couvertes par le secret statistique et n'osent pas les demander !

Mme Corinne Bouchoux, rapporteure. - Le rapport Trojette montre que les attentes du public en matière de publication des données sont fortes et croissantes. Etes-vous prêts pour répondre à ces attentes ? En outre, quelles est votre position ou vos craintes concernant la transposition de la directive de juin 2013 ?

M. Alain Bayet. - Nous connaissons le rapport Trojette. Par principe nos données et études sont destinées à faire l'objet d'une large diffusion gratuite.

Mme Françoise Maurel, directrice de la diffusion et de l'action régionale de l'Insee. - Le rapport Trojette évoque les redevances associées aux licences pour consulter les fichiers Sirene. Ces redevances s'inscrivent dans le cadre prévu par la directive de 2013 car elles visent à couvrir le coût de réutilisation des données de ce répertoire administratif, - qui n'est donc pas un fichier statistique -, utilisé pour gérer l'identifiant unique des entreprises. L'Insee enrichit les données brutes du répertoire grâce à des enquêtes et un nettoyage régulier. La redevance est le prix de cette valeur ajoutée. La tarification est dégressive et dépend du type d'usage - final ou pour rediffusion. Il existe depuis longtemps un marché important pour la rediffusion de ces données.

M. Alain Bayet. - Le montant de la redevance s'établit à une dizaine de millions d'euros. Faut-il faire payer le contribuable  ou bien ceux qui bénéficient de cette rediffusion de données enrichies au-delà de la mission régalienne qui s'y attache ? Comme il existe un besoin de marché, cette dernière solution semble justifiée.

M. Michel Isnard. - Notre politique de diffusion nous paraît compatible avec la directive de 2013. Nous serons donc en conformité avec la loi de transposition, sauf si celle-ci allait plus loin que le texte européen, en imposant la gratuité par exemple.

Mme Corinne Bouchoux, rapporteure. - Vous avez décrit les conditions de sécurité qui entourent les consultations des chercheurs. Ceux qui s'adressent à vous sont-ils européens ou non-européens ? Dans quelle proportion ?

M. Michel Isnard. - Une quinzaine de chercheurs sur 800 est d'origine européenne ; il s'agit souvent de chercheurs francophones travaillant dans des universités européennes, au Royaume-Uni, aux Pays-Bas et aux Etat-Unis. Pour des raisons de sécurité nous n'accueillons pas de chercheurs installés dans des universités non-européennes, aux Etats-Unis ou au Canada, par exemple, en raison des modalités sécurisées de transmission des données. En revanche les chercheurs américains installés dans des universités européennes ont accès à nos données. A cet égard, Eurostat, l'office de la statistique des Communautés européennes, diffuse des données harmonisées, dont les données françaises. Elles sont très largement accessibles.

Mme Corinne Bouchoux, rapporteure. - Je ne doute pas de la robustesse de vos dispositifs de sécurité. Mais l'inventivité des pirates est sans limite. Etes-vous invulnérables à des attaques ? Y avez-vous déjà été sujets ?

M. Michel Isnard. - Il est impossible de prétendre que nous sommes invulnérables...

Mme Catherine Procaccia. - Nous ne vous croirions pas !

M. Michel Isnard. - Une société privée labellisée a réalisé deux audits de sécurité, elle n'a détectée aucun risque. Notre protection est la plus élevée possible. Mais cela sera-t-il toujours suffisant... En tout cas le Genes a fait le maximum.

Concrètement chaque chercheur reçoit une box, à l'image des box des opérateurs télécoms, qui est cryptée avec les meilleurs algorithmes disponibles. Un intrus dans la box rencontrerait des difficultés pour accéder aux données. En outre, les données échangées entre le chercheur et le centre de calcul sont cryptées. Enfin, le système comporte une sécurité biométrique, les chercheurs devant régulièrement s'identifier grâce à leurs empreintes digitales.

Mme Corinne Bouchoux, rapporteure. - Donc vous êtes sereins à l'égard du big data ?

M. Alain Bayet. - Oui, sauf en ce qui concerne les moyens pour faire face à des demandes toujours plus variées et croissantes. D'où notre demande sur les données de caisse. Notre métier de base est le traitement de l'information. Nous avons réalisé des gains de productivité considérables. En dix ans, nous avons économisé ainsi 1 000 emplois. En permanence, nous réorganisons nos processus pour fournir l'information la plus large sous la forme la plus pertinente. Notre offre s'est considérablement élargie. Nous sommes par nature partie prenante du big data.

Mme Corinne Bouchoux, rapporteure. - Combien de visiteurs consultent votre site internet ?

Mme Françoise Maurel. - Nous vous adresserons tous les documents sur le public et les enquêtes de satisfaction. Notre rapport annuel recense 30 millions de visites sur notre site par an, 170 millions de pages consultées. Aujourd'hui 26 000 personnes sont abonnées à notre lettre d'actualité en ligne, la diffusion sous format papier étant de plus en plus faible. Les lettres régionales d'activité comptent 36 000 abonnés. Enfin 125 000 personnes sont abonnées pour suivre divers indicateurs. En 2011, nous avons ouvert un compte Twitter, qui a 20 000 abonnés...

Mme Catherine Procaccia. - 22 094 exactement, je viens de le consulter...

Mme Françoise Maurel. - Cela évolue très vite ! Nous avons aussi un service Insee contact qui gère les appels avec les particuliers.

Mme Catherine Procaccia. - S'agit-il de 30 millions de visites ou de visiteurs ?

Mme Françoise Maurel. - Il s'agit de 30 millions de visites.

Mme Corinne Bouchoux, rapporteure. - Le Canard Enchaîné, dans un article du 27 février 2013, montrait qu'il était possible, simplement grâce à Google Earth ou à Google Map, en utilisant vos données fiscales publiées avec le système des petits carreaux, d'identifier les foyers fiscaux concernés, mettant ainsi en péril le secret fiscal.

M. Alain Bayet. - Ces données dites carroyées avaient été trop rapidement mises en ligne et ont été immédiatement retirées. Il a fallu quelques mois pour définir les bons algorithmes de brouillage. Fin 2013, l'Insee a mis en ligne des données avec des carreaux de 200 mètres de côté qui respectent parfaitement le secret des statistiques.

Mme Françoise Maurel. - Lors de la première mise en ligne, une erreur matérielle n'avait pas été détectée. Depuis, les algorithmes ont été revus en profondeur ainsi que les méthodes d'anonymisation. Nous ne diffusons pas de données concernant moins de onze ménages. De même, le calcul des revenus est complexe et nous éliminons les valeurs extrêmes. Les chiffres fournis sont toujours des moyennes.

M. Alain Bayet. - En février le processus de brouillage était insuffisant et il était possible de remonter à la source.

M. Michel Isnard. - Les données que nous avions publiées étaient brouillées, donc, en quelque sorte, fausses. Pour une fois que nous publiions des données inexactes ! C'était un comble pour un institut de statistique...

Mme Corinne Bouchoux, rapporteure. - Les données étaient fausses mais mettaient à mal le secret fiscal pour les ménages concernés ?

M. Michel Isnard. - Oui.

Mme Corinne Bouchoux, rapporteure. - Je vous remercie.

Audition de M. Pascal Berteaud, directeur général de l'Institut géographique national (IGN)

Mme Corinne Bouchoux, rapporteure. - Nous entendons à présent M. Pascal Berteaud, directeur général de l'Institut géographique national (IGN), accompagné de Mme Stéphanie Carvalheiro qui y dirige les relations institutionnelles. Après avoir auditionné les utilisateurs de données administratives publiques - citoyens, associations, journalistes, entreprises - nous nous intéressons aux institutions qui produisent ces données. Pouvez-vous nous rappeler les missions de l'IGN ? Quel est son statut ? Comment est-il financé ? Quelle est sa politique de diffusion de ses travaux ? Quel est son positionnement sur l'ouverture des données, au regard des enjeux scientifiques, citoyens, économiques, financiers et politiques ? Envisagez-vous des partenariats ? Selon quelles modalités techniques et juridiques ? Les services offerts seraient-ils payants ? La gratuité, recommandée par certains, aurait sans doute une incidence sur la capacité de l'IGN à assurer ses missions.

M. Pascal Berteaud, directeur général de l'Institut géographique national (IGN). - Si nous avons gardé, depuis la fusion avec l'inventaire forestier national, le sigle IGN, notre nom véritable est désormais « Institut national de l'information géographique et forestière. » L'histoire de l'IGN remonte à la création, par Colbert, de la Commission royale de la carte de France et aux cartes de Cassini. Il s'agissait alors essentiellement de dresser des cartes d'état-major. C'est lors de la débâcle de 1940 que, pour éviter que cet outil stratégique ne tombe aux mains des Allemands, un décret de Philippe Pétain, signé le 27 juin 1940 à Bordeaux, a transformé le service géographique de l'armée en IGN. La fusion avec l'inventaire forestier national a eu lieu en juin 2012.

Notre métier est de décrire le territoire sous toutes ces formes. Il faut pour cela acquérir des données, ce que nous faisons grâce à des agents sur le terrain, par des vues aériennes ou grâce aux observations par satellite ; il faut ensuite les agréger dans des bases de données, puis développer des algorithmes pour les exploiter en en tirant des cartes ou des orthophotoplans. Tout n'est cependant pas automatisé : outre 800 ingénieurs et techniciens, 700 ouvriers travaillent en aval du processus. En comptant le personnel administratif, l'IGN emploie donc environ 1 700 personnes, pour un budget de 160 millions d'euros, dont 50 à 60 millions d'euros de recettes propres et 95 millions d'euros de dotation de l'Etat.

Jusqu'aux années cinquante, l'essentiel des recettes provenaient de la dotation de l'Etat. La vente des cartes a ensuite représenté jusqu'à la moitié de nos ressources, proportion qui est revenue aux alentours du tiers. Depuis cinq ou six ans, la deuxième révolution internet, constituée par l'émergence des terminaux mobiles, a donné une composante géographique à la quasi-totalité des données échangées : tous les secteurs économiques utilisent désormais l'information géographique. Le champ d'activité de l'IGN s'en trouve considérablement étendu, mais il s'y retrouve face à des acteurs tels que Google ou Apple. De surcroît, les technologies d'acquisition automatique de données ont beaucoup progressé : par exemple, l'utilisateur de GPS non seulement reçoit des données mais également en renvoie automatiquement au fournisseur et ses traces permettent à celui-ci d'améliorer en permanence les données cartographiques. Du coup, les flux s'inversent : nous vendions dans le passé à ce type d'opérateur des mises à jour régulières, ce sont eux désormais qui affinent nos connaissances. Le développement d'outils collaboratifs comme Openstreetmap a fait chuter la valeur marchande des données, parfois divisée par cinq depuis cinq ans sur certaines couches de données.

Dans cet environnement, l'IGN a-t-il encore sa place ? Si l'information disponible sur internet, même moins précise et moins qualifiée, suffit à satisfaire 80-90 % des usages, la production d'information géographique référencée, d'autorité reste un élément de souveraineté nationale indispensable : pour tirer un missile, pour asseoir une réglementation sur une base géographique, pour édifier des services publics sur un territoire, mieux vaut se fonder sur une information géographique certifiée et fine... L'IGN a donc pour vocation d'être l'opérateur national de référence de la donnée géographique publique, de fabriquer des référentiels de qualité, neutres et régulièrement mis à jour, de construire des plateformes de diffusion interactive des référentiels. Bref, il s'agit de bâtir un service numérique de description du territoire.

Cette stratégie, que nous avons élaborée il y a trois ans, nous a conduits à ouvrir gratuitement à toutes les autorités publiques l'accès aux référentiels existants, dont l'utilisation a ainsi été multipliée par vingt. Comment nous adapter à l'open data, qui est désormais une réalité incontournable ? Certaines données de socle - les référentiels de base -nécessaires à l'exercice de la citoyenneté, doivent être accessibles gratuitement. D'autres doivent aussi être rediffusées - c'est la vocation de l'IGN - mais pas forcément gratuitement. Dès lors qu'elles sont susceptibles d'être exploitées à des fins commerciales, nous pouvons les rendre payantes, à condition que les tarifs retenus ne soient pas dissuasifs et puissent évoluer avec la valorisation économique des données, en fonction du cycle de ces données. Cela risque-t-il d'empêcher l'émergence de start up ou de de la création de valeur ? C'est possible, mais nous devons veiller aussi à ce que les données produites avec de l'argent public ne servent pas à enrichir de grosses multinationales. Nous élaborons donc une tarification progressive afin de ne pas décourager les petites entreprises que nous entendons même, au contraire, aider : nous ouvrons au sein de l'IGN un incubateur de projets pour les accueillir.

Sur les 50 à 55 millions d'euros de ressources propres de l'IGN, 30 millions d'euros proviennent de la vente de cartes papier. Ce chiffre était de 45 millions d'euros il y a cinq ans et risque de tomber à 15 dans cinq ans. La valeur des données baissant inéluctablement, il importe d'offrir des services complémentaires payants, ce que nous entendons faire en aidant les entreprises privées, en espérant pouvoir récupérer à terme une partie de la valeur, mais aussi par nous-mêmes, sur un modèle de type freemium. Par exemple, le géoportail de l'urbanisme permettra de retrouver, à partir d'une adresse, le règlement d'urbanisme qui s'applique : ce service est nécessaire à l'exercice de la citoyenneté et doit être gratuit. Pour obtenir en plus une vision en trois dimensions du terrain ou un calcul des co-visibilités, il faudra payer. Nous proposerons également la liste des zonages réglementaires superposés, environ 400 en France actuellement... Et pourquoi ne pas associer à cet outil de description du territoire des données statistiques, économiques, sociales ? Les données publiques abondent en France, mais elles sont largement inexploitables. Il faut les structurer en des formats exploitables et superposables.

L'adaptation de l'IGN à ce nouveau modèle économique est cruciale. Les évolutions engagées réclament des investissements, notamment en recrutement et formation de personnels. Hélas, l'époque ne s'y prête guère. Je ne suis pas venu ici pour me plaindre, mais jamais aucune structure privée ou publique n'a réalisé une telle transformation sans un minimum d'investissements.

Mme Catherine Procaccia. - Vous avez évoqué une tarification progressive pour aider les start up. Avez-vous les moyens de détecter celles qui ne sont que des faux-nez de grands groupes ou pilotées par eux ? Par ailleurs, pouvez-vous revendre les images satellitaires que vous achetez ou devez-vous les mettre à disposition gratuitement ? Une négociation est-elle envisagée, à cet égard, au sujet du futur GPS européen ?

M. Pascal Berteaud. - Si la tarification progressive ne peut prendre pour critère le statut du client, il est possible de la fonder sur l'usage des données : gratuité pour certains usages, tarification pour d'autres. Par ailleurs, le volume utilisé n'est pas le même pour une petite entreprise et pour un grand groupe. Le prix augmente avec la quantité, contrairement à l'usage commercial classique ! La difficulté est que le modèle économique des sociétés sur internet est moins construit sur les marges dégagées que sur la valeur de revente. L'application Ways, par exemple, qui collecte en temps réel sur les smartphones des données lui permettant de calculer des temps de parcours actualisés, n'a jamais été rentable mais elle s'est revendue 1 milliard de dollars cinq ans après sa création. Il en est de même pour WhatsApp, rachetée la semaine dernière pour des considérations de concurrence. Il faut donc non seulement créer autour de l'IGN un écosystème de sociétés utilisant ses données mais aussi se préoccuper de la manière dont il nous sera possible, si l'une d'entre elles devient aussi grosse qu'Apple ou Google, de récupérer une partie de la valorisation. Sinon, il restera à dégager 30 millions d'euros en loi de finances.

Mme Catherine Procaccia. - Il le faudra bien, si les recettes des ventes de cartes sont divisées par deux...

M. Pascal Berteaud. - S'opposer à l'open data, pourquoi pas ? Mais c'est une réalité économique : nous cherchons tous les données géographiques sur internet, mais pas sur le site de l'IGN. L'un de nos services, qui regroupe une centaine de personnes au sein de la cité spatiale à Toulouse, est dédié aux données satellitaires. Notre objectif est de mettre gratuitement à disposition des autorités publiques une couverture satellitaire de la France mise à jour chaque année, avec un gestionnaire satellitaire qui ne travaille pas gratuitement. Pour des données plus précises, il faut prendre des images aériennes.

L'IGN est le centre de calcul mondial du repositionnement des satellites GPS car il compte certains des meilleurs spécialistes mondiaux de géodésie. Le paysage est en train d'évoluer fortement : les premiers satellites de la constellation Galileo sont lancés, les Russes développent leur propre constellation et les Chinois font de même. Si nous parvenons à associer ces différentes constellations, le GPS donnera des positions dont la précision ne s'exprimera plus en mètres mais en décimètres.

Mme Catherine Procaccia. - Tirez-vous des revenus de votre travail de positionnement des satellites ?

M. Pascal Berteaud. - Guère : il s'agit d'un service rendu à la communauté scientifique, dans le cadre d'une répartition mondiale du travail.

Mme Corinne Bouchoux, rapporteure. - Faut-il comprendre que l'IGN ne s'oppose plus à l'open data et compte s'y adapter ?

M. Pascal Berteaud. - Jusqu'à il y a cinq ou six ans l'IGN vivait sur une logique différente depuis 350 ans : établissement de la carte et tarification aux utilisateurs en fonction du coût d'élaboration. Les besoins ayant aujourd'hui changé, nous devons fabriquer de nouveaux produits : la logique n'est plus top-down mais bottom-up. L'an dernier par exemple nous avons divisé par huit le coût de l'accès à notre base topographique BD-Topo (tous les objets à la surface du sol) pour la France entière ; du coup, alors que nous vendions une demi-France chaque année, nous avons vendu cinq ou six France entières ! Une politique d'open data est donc indispensable, pourvu qu'elle ne soit pas naïve : il n'y a pas de raison pour que les infrastructures payées par l'Etat servent à enrichir des entreprises privées. Certains économistes estiment que l'Etat s'y retrouverait par l'impôt. Mais sur quoi l'asseoir ? Ces entreprises sont mondialisées et surtout les flux ne sont pas monétaires : nous payons l'accès à Google, par exemple, par du temps de cerveau disponible et des données personnelles. Cela dit, l'enjeu est de faire émerger un Google français... Comme l'information est devenue fortement géographique, l'IGN a un rôle à jouer en la matière.

Mme Corinne Bouchoux, rapporteure. - L'IGN, futur Google français ?

M. Pascal Berteaud. - Pas vraiment : l'IGN aide une constellation d'entreprises dont l'une, espérons-le, deviendra l'équivalent de Google, ou de WhatsApp...

Mme Corinne Bouchoux, rapporteure. - Je vous remercie.

Grands fournisseurs de données publiques - Audition de Mme Claude Revel, déléguée interministérielle à l'intelligence économique et M. Philippe Ramon, conseiller senior pour la sécurité économique et les affaires intérieures

Mme Corinne Bouchoux, rapporteure. - Nous achevons nos auditions de ce matin en entendant Mme Claude Revel, déléguée interministérielle à l'intelligence économique et M. Philippe Ramon, conseiller senior pour la sécurité économique et les affaires intérieures.

Madame Revel, votre carrière dans l'administration et le secteur privé, en France et au plan international, ainsi que votre expertise, vous ont conduite à participer à de nombreux cercles de réflexion sur les stratégies d'influence, les nouvelles règles de mondialisation et l'intelligence économique. Vous avez été nommée au poste que vous occupez le 29 mai dernier. Nous avons souhaité vous entendre afin que vous nous éclairiez sur les conséquences, du point de vue de l'intelligence économique, de l'ouverture des données publiques.

Après nous avoir rappelé le statut et les missions du délégué interministériel à l'intelligence économique, pourriez-vous nous présenter l'état de la réflexion des pouvoirs publics sur les risques de l'ouverture des données publiques par les grandes administrations et établissements publics ? Peut-être pourrez-vous dresser, à cette occasion, une cartographie des données sensibles ? Des actions de sensibilisation ont-elles été conduites et des précautions techniques ou juridiques ont-elles été prises ? Enfin, des modifications du cadre juridique actuel sont-elles envisagées, en particulier dans la perspective de la transposition prochaine de la directive de juin 2013 ?

Mme Claude Revel, déléguée interministérielle à l'intelligence économique. - Je vous remercie de votre invitation. Nous avons mesuré, en préparant cette audition, tout l'intérêt du sujet sur lequel vous avez souhaité m'entendre.

La délégation interministérielle à l'intelligence économique (D2IE) que je représente, a été fortement rénovée par le décret du 22 août 2013. Créée en décembre 2003, sous la dénomination de Haut responsable à l'intelligence économique et alors rattachée au secrétariat de la défense nationale, elle a été placée sous la responsabilité d'Alain Juillet jusqu'en 2009. Elle est devenue à proprement parler « délégation interministérielle » sous le mandat de son successeur, Olivier Buquin, et a alors été rattachée à Bercy. Le décret de 2013 a conforté sa légitimité et son caractère interministériel en la rattachant directement au Premier ministre.

Ce décret lui assigne quatre missions principales. La première est une mission de veille, d'anticipation pour alerter le Gouvernement français. Sa seconde mission est défensive. Il s'agit de garantir la sécurité de nos ressources économiques, en particulier les actifs immatériels comme les savoir-faire, l'image, la réputation ou le capital de nos entreprises. La troisième mission est offensive puisqu'il s'agit d'influence. La délégation s'attache à aider le gouvernement et les entreprises à saisir les opportunités économiques et à agir sur la formation des normes et les règles internationales, techniques et de gouvernance. Dernière mission : la formation et la sensibilisation à l'intelligence économique. C'est un volet essentiel de notre action. Nous arrivons d'ailleurs au terme d'une première expérience lancée en septembre 2011 avec 35 établissements d'enseignement supérieur pilotes, qui a consisté à promouvoir en leur sein un enseignement minimal de 40 heures sur l'intelligence économique. Aucun étudiant ne doit sortir de l'enseignement supérieur sans avoir été sensibilisé aux enjeux et aux réflexes pertinents. Nous nous attachons à cet égard à convaincre chaque responsable d'établissements d'enseignement supérieur, dont les grandes écoles, de l'intérêt de tels enseignements pour leurs étudiants, ainsi qu'à diffuser, le plus largement possible, une doctrine cohérente de l'intelligence économique, construite autour des trois premiers volets que j'ai présentés. À cet égard, il nous revient de « dé-mythifier » l'intelligence économique qui souffre encore trop souvent d'être associée à des manoeuvres secrètes alors que nous travaillons sur des informations publiques et légales. Nous menons aussi des actions de sensibilisation auprès de divers organismes du secteur privé (chambres de commerce et d'industrie, instituts, clubs d'entreprises...) ou public (institut d'administration notamment), qui relaient notre message.

Le décret du 22 août 2013 permet en outre de mobiliser des correspondants dans l'ensemble des services déconcentrés de l'Etat, des ambassades et des consulats, ce qui est utile à la constitution de notre réseau. En outre, il encourage à la collaboration avec le secteur privé.

J'en viens maintenant plus précisément au sujet qui motive notre audition. Jamais jusqu'à présent la D2IE n'a été expressément saisie de la question de l'ouverture des données publiques même si celles-ci sont en principe des données produites par les administrations publiques et qu'elles doivent désormais être largement mises gratuitement à la disposition des citoyens, sous le contrôle éventuel de la CADA (Commission d'accès aux documents administratifs).

Pour autant, nous nous sommes interrogés sur la sensibilité des informations détenues par les administrations lorsqu'a été élaboré le projet de politique de sécurité des systèmes d'information de l'Etat (PSSE), en juillet 2013, puisque le quatrième objectif retenu rappelle la nécessité d'une évaluation de la sensibilité de chaque information, afin, dans un souci de sécurité et de confidentialité, de la qualifier en conséquence en fonction des différents degrés du secret défense et d'en informer les agents qui la traitent. Certains ministères, comme celui de l'agriculture, se sont prêtés à l'exercice avec plus d'allant que d'autres. Les informations sont classifiées par niveau de sensibilité en matière de disponibilité, d'intégrité, de confidentialité et de preuve, sous la validation générale du SGDSN (Secrétariat général de la défense et de la sécurité nationale).

En principe, la loi sur le secret statistique du 7 juin 1951 interdit, sous peine de sanctions pénale, la publication d'informations individuelles à l'occasion de la diffusion de statistiques générales et soumet les enquêteurs au secret professionnel. Nous nous sommes efforcés, en 2011 et en 2012 de sensibiliser, au sein de chaque ministère, les services d'intelligence économique à la question du secret des affaires. Le président de la Cada s'est d'ailleurs interrogé sur les motivations réelles des demandes formulées par des cabinets d'avocats demandant la communication détaillée de documents produits dans le cadre d'appels d'offres. La confidentialité de certaines informations doit être la contrepartie de l'ouverture d'autres données.

La délégation interministérielle publie par ailleurs des guides pratiques sur l'intelligence économique. Une vingtaine de fiches de sécurité économique ont ainsi été rédigées par nos soins pour expliquer aux entreprises comment elles peuvent protéger en pratique leurs informations sensibles. Des principes directeurs viennent d'être rédigés à l'intention des scientifiques pour les sensibiliser à ces questions dans le cadre de mobilités ou de collaborations internationales ou de l'accueil de chercheurs d'autres pays.

Nous travaillons en ce moment très activement sur le projet de loi relatif au secret des affaires. Celui-ci est très intéressant en ce qu'il vise à instituer une protection dès le stade de l'idée : en l'état actuel du droit, le croquis ou le plan stratégique ne sont pas protégés par le droit d'auteur ou par le brevet, alors qu'ils sont de plus en plus facilement accessibles par les technologies modernes et que les risques de fuites sont démultipliés dans un contexte de concurrence mondiale. Si l'entreprise doit être transparente, les informations d'importance vitale pour son avenir doivent être réservées en amont jusqu'à ce qu'elles puissent être protégées. D'autres pays se sont déjà dotés d'une protection de ce type d'informations stratégiques. La Commission européenne travaille, quant à elle, depuis le début de l'année 2013 dans le même sens sur un projet de directive relatif au trade secret. Le principe de la valeur commerciale des idées est par ailleurs présent dans les textes relatifs aux droits de propriété intellectuelle qui touchent au commerce international, relevant du pilier dits ADPIC (accords internationaux sur la protection des droits intellectuels), de l'Organisation mondiale du commerce (OMC).

En ce qui concerne les rapports entre l'Etat et les entreprises, plusieurs points me semblent mériter réflexion. L'Etat détient de nombreuses informations confidentielles, soit pour lui-même, soit parce qu'elles lui ont été fournies par des entreprises, et qui relèvent d'une « zone grise » dans la mesure où elles n'entrent pas dans un champ de protection spécifique, comme par exemple le secret défense. Je pense en premier lieu aux données fournies par les entreprises lorsqu'elles répondent à des appels d'offre publics. Nous avons été sollicités sur ce point particulier à l'occasion des appels à projets lancés par le commissariat général à l'investissement, qui portent sur des matières très pointues et très innovantes, et dont les réponses sont donc susceptibles de contenir des informations à haute valeur commerciale. Deux PME nous ont ainsi indiqué préférer se priver d'un potentiel financement public plutôt que de fournir des informations dont la confidentialité ne leur est pas garantie. Cette situation est préjudiciable tant à ces entreprises qu'à l'ensemble de la collectivité, puisqu'elle empêche des innovations qui pourraient être très fructueuses de se faire jour et de bénéficier d'un financement. C'est pourquoi nous avons commencé à travailler sur ce sujet précis, notamment s'agissant des pôles de compétitivité, qui rassemblent une importante matière intellectuelle et qui doivent donc pouvoir protéger leur information stratégique. C'est aussi le rôle de l'Etat que de le leur rappeler afin d'éviter que cette information soit captée de manière prédatrice et dans un but contraire à nos intérêts.

Je pense également aux données détenues par les banques publiques comme la BPI ou la Coface. Pour obtenir des financements, les entreprises doivent en effet fournir de très nombreuses informations portant par exemple sur les pays dans lesquelles elles souhaitent s'implanter ou les acteurs avec lesquels elles ont l'intention de s'allier. Je suppose et j'espère que ces informations sont conservées de manière sécurisée ; je n'en ai pas pour autant la certitude. S'il est louable de rechercher la transparence, il ne faut pas permettre à nos concurrents de lire nos stratégies à livre ouvert, d'autant que la réciproque n'est pas vraie.

Je pense enfin à la publication de leurs comptes par les PME. Dans d'autres pays européens comme l'Angleterre ou l'Allemagne, seules les dispositions de la directive européenne applicable en la matière s'imposent. En France en revanche, les entreprises doivent publier davantage d'informations que celles qui sont demandées par les textes européens. C'est pourquoi, à la suite de mon prédécesseur, je me suis engagée sur ce sujet en lien avec le ministère du redressement productif. Il me semble nécessaire de distinguer une obligation de publication, qui s'impose pour les informations visées par la directive européenne, d'une simple obligation de dépôt, qui pourrait s'appliquer aux informations supplémentaires collectées dans un but de contrôle. Cette question rencontre cependant de très fortes réticences de la part du Trésor.

La question de l'ouverture des données va de pair avec celle du caractère payant ou gratuit des données mises à disposition. Il me paraîtrait choquant que des organisations puissent gagner de l'argent à partir d'informations mises à leur disposition gratuitement et de manière innocente, par exemple à travers les réseaux sociaux. Nous savons tous que certaines organisations comme Google font du profit à partir de la récupération d'informations qui ne sont pas protégées chez elles. Il ne s'agit pas de tout réglementer, mais il faut se demander jusqu'où ce type de réutilisation est admissible, et surtout jusqu'à quel niveau de confidentialité les informations peuvent être traitées.

Il faut également avoir à l'esprit que les informations en question ne sont pas seulement des données personnelles, mais également des données économiques. Je pense ici à deux aspects très précis. Le projet de règlement européen en matière de protection des données, actuellement en discussion à Bruxelles sous l'égide de Viviane Reding - et qui tarde à voir le jour, en raison notamment des manoeuvres britanniques -, traite à la fois des données personnelles et des informations économiques et financières qui circulent sur les réseaux divers et variés, auxquelles elle tend à donner un statut adapté aux technologies modernes. Ces questions sont également discutées - ou plutôt, j'espère qu'elles ne le seront pas - dans le cadre de l'accord transatlantique. La France a demandé, au nom de l'exception culturelle, que les données soient exclues du champ de cet accord tant qu'il n'existe pas de protection au niveau européen afin d'éviter une négociation au rabais. Or, la lenteur des négociations européennes s'explique en partie par l'intervention des lobbies qui souhaiteraient que la question soit tranchée dans le cadre de l'accord transatlantique... C'est pourquoi il nous faut impérativement être très actifs sur ce sujet à Bruxelles si nous voulons assurer la protection de nos données, qu'elles soient personnelles ou économiques. A la question de savoir si les données seraient comprises dans le champ de l'accord transatlantique, le négociateur européen chargé de mener la négociation nous a indiqué qu'en relèveraient les données véhiculées par les services concernés par l'accord... Il s'agit donc bien à mon sens de données sensibles et nous devons nous montrer très unis sur ce sujet.

M. Philippe Ramon. - Il faut avoir en tête que la valeur des données n'est pas seulement liée à leur caractère intrinsèquement stratégique. Bien souvent, une information ne prend sens que par son croisement avec d'autres données en apparence anodines. Si une donnée isolée sur un client ou un fournisseur d'une entreprise n'a en apparence aucune valeur, il en va différemment d'un fichier qui regrouperait des informations sur l'ensemble de ses clients et de ses fournisseurs. De même, le nom d'un collaborateur d'une entreprise n'a a priori que peu d'importance, contrairement à l'organigramme d'ensemble d'une entité. Il faut entamer une réflexion sur les éléments qui peuvent être croisés et assemblés pour élaborer une image globale.

Mme Catherine Procaccia. - De mon point de vue de néophyte, je me demande si la sécurité des entreprises est vraiment compatible avec l'open data. Alors que la publication d'un organigramme ou la réponse à un appel d'offres peuvent donner lieu au pillage d'informations, les PME doivent avoir une connaissance très pointue de ces enjeux pour pouvoir l'éviter.

Mme Claude Revel. - C'est là toute la problématique de l'intelligence économique. Nous vivons dans un monde où la transparence est la règle et il serait illusoire de vouloir empêcher la circulation de l'information. Une entreprise doit nécessairement donner beaucoup d'informations, y compris financières, sur elle-même dans un contexte de concurrence internationale, pour des raisons de cotation par exemple. Il faut donc pouvoir gérer dans un même temps à la fois la diffusion des informations et la rétention de celles qui ont une valeur stratégique. C'est pourquoi aucune règle générale ne peut être posée en la matière : les principes de l'intelligence économique doivent être intégrés et permettre d'évaluer chaque situation individuelle, tout en respectant les obligations légales d'information notamment en matière de développement durable.

M. Philippe Ramon. - Aucune structure ne peut aujourd'hui s'extraire d'une logique de communication, par exemple pour chercher des financements ou des partenariats. Il faut cependant que toutes les structures qui diffusent de l'information aient conscience que celle-ci est potentiellement utilisée. S'il ne faut pas se renfermer sur soi-même, il ne faut pas pour autant fournir plus d'informations que les autres et s'inscrire dans une relation de réciprocité.

Mme Claude Revel. - L'intelligence économique pourrait être définie comme la maîtrise de l'information stratégique. L'information ne soit pas être diffusée de manière intempestive, y compris par les salariés des entreprises. Ceux-ci peuvent en effet donner des informations importantes sans le vouloir à travers les réseaux sociaux, par exemple en indiquant indirectement les déplacements à l'étranger de leurs supérieurs. Toute information de ce type doit entrer dans une démarche raisonnée de communication.

Mme Catherine Procaccia. - Selon vous, quel est le pourcentage des entreprises qui appliquent les principes que vous venez de nous décrire ?

Mme Claude Revel. - Je pense que les grandes entreprises sont plutôt sensibilisées à ces principes. D'autres entreprises de taille moyenne mais exposées de longue date à la concurrence les ont également intégrés. Cependant, et bien que nous ne disposions pas de statistiques sur ce point, je pense que la grande majorité des entreprises les ignore. Nous pourrions nous estimer heureux si un quart d'entre elles les appliquait. Un travail très important reste à faire. Il existe cependant des signes encourageants : les publics jeunes auxquels nous nous adressons comprennent tout à fait la dichotomie à laquelle nous faisons face et considèrent l'information comme une matière qu'il faut savoir gérer.

Mme Corinne Bouchoux, rapporteure. - L'introduction par le Conseil d'Etat en 2013 de la notion de « vie privée des entreprises » va dans la direction que vous nous indiquez. Je m'interroge sur les raisons de l'échec d'une des préconisations du rapport Carayon de 2003 : pourquoi n'a-t-on pas mis davantage l'accent sur la pratique du rapport d'étonnement, exercice libre et simple qui peut être appliqué des petites classes aux grandes écoles, et qui est déjà largement utilisé en Suède par exemple ?

Mme Claude Revel. - Je préconise cet exercice de longue date. Il s'agit d'une forme d'hygiène mentale que l'on peut appliquer notamment lors de tout déplacement à l'étranger afin de mieux observer son environnement, sur le modèle que nous proposons aux chercheurs. Il me semble qu'il existe une forte réticence du corps enseignant à ce type d'exercice dans un pays qui privilégie les disciplines cartésiennes telles que les sciences ou le droit. Par opposition, le rapport d'étonnement ou les principes de l'intelligence économique sont considérés comme sans importance, ou même dangereux en ce qu'ils nous éloigneraient d'une manière raisonnable de voir le monde. C'est tout le contraire de la vision anglo-saxonne, qui fait une large place aux disciplines que l'on pourrait qualifier de soft : ainsi, en droit, nous privilégions le droit positif tandis que la soft law - les bonnes pratiques, les principes directeurs - se développe partout. La présence à la tête des grandes entreprises anglo-saxonnes de personnes ayant suivi une formation littéraire est une autre manifestation de cet état d'esprit.

L'intelligence économique n'a toujours pas de reconnaissance universitaire en France : il faut nécessairement passer par une filière de sciences de gestion ou de sciences économiques, bien que des diplômes existent en la matière. L'intelligence économique suppose une approche transversale et horizontale qui s'oppose à notre organisation très verticale, pour ainsi dire « en silo ». La discipline a aussi pâti de son assimilation à des formes de piratage qui ont effectivement été pratiquées par certaines entreprises, mais qui ne reflètent pas du tout la réalité de nos préoccupations.

Mme Catherine Procaccia. - Existe-t-il des conseillers en intelligence économique qui peuvent être mis à la disposition des entreprises qui le souhaitent ?

Mme Claude Revel. - Au niveau régional, des chargés de mission spécialisés placés auprès du préfet ou des Direccte peuvent conseiller les entreprises. Les CCI (chambres de commerce et d'industrie) ont également développé une expertise en la matière, qui est cependant parfois payante. Je milite pour la mise en place de systèmes mutualisés entre PME : les syndicats interprofessionnels et les clubs d'entreprise doivent assurer une veille sur ces questions qui deviennent prioritaires. Enfin, lorsque dans une entreprise une personne est chargée spécifiquement de l'intelligence économique, elle ne se présente pas le plus souvent sous ce titre, et à juste titre, afin de ne pas attirer l'attention sur elle, dans la mesure où elle manipule de l'information stratégique.

La réunion est levée à 12 heures 37.