Jeudi 13 février 2014

- Présidence de M. Christian Cointat, vice-président -

Audition de MM. Sylvain Parasie, maître de conférences en sociologie à l'université Paris-Est et Eric Dagiral, maître de conférences en sociologie à l'université Paris-Descartes

M. Christian Cointat, président. - Nous accueillons tout d'abord deux sociologues, MM. Sylvain Parasie, maître de conférences en sociologie à l'université Paris-Est et Eric Dagiral, maître de conférences en sociologie à l'université Paris-Descartes qui ont enquêté sur l'utilisation des données publiques en France et aux Etats-Unis.

Notre mission souhaite mieux comprendre la situation actuelle d'accès aux documents administratifs et aux données publiques, identifier et analyser les attentes, pour aller peut-être plus loin que ce qui existe aujourd'hui.

M. Sylvain Parasie, maître de conférences en sociologie à l'université Paris-Est. - Merci de nous offrir cette occasion de présenter les résultats de nos travaux de recherche sur l'utilisation citoyenne des données publiques par les journalistes, les associations et le monde militant, ainsi que les usagers de l'administration, fondés sur des enquêtes que nous avons réalisées en France et aux Etats-Unis.

M. Christian Cointat, président. - Ce qui nous intéresse est très concret. Quels documents les intéressent ? Lesquels sont faciles à obtenir ? Est-il aisé de réutiliser des données ?

M. Sylvain Parasie. - Notre réflexion de sociologue a tout d'abord porté sur les journalistes. Aux Etats-Unis, l'utilisation des données publiques est ancienne dans le journalisme ; elle remonte aux années 1970. En France, le phénomène est plus récent. Le journalisme d'enquête s'appuie sur les données publiques pour révéler l'existence de problèmes publics qui ne sont pas traités, ou déceler des crises, qui concernent l'environnement, la santé, en procédant à une analyse censément plus objective. Aux Etats-Unis prospère également un journalisme local de services, très consommateur de données publiques, friand de données locales concrètes sur les transports, la voirie, le crime, les pollutions, etc. En France, le journalisme d'enquête s'appuie sur une tradition plus littéraire, sur des données plus qualitatives. Les journalistes locaux de la presse quotidienne régionale travaillent de plus en plus comme les journalistes américains, rassemblant parfois sur un même site Internet des données disparates sur une ville pour informer les électeurs. Ainsi les pages multimédias hyperlocales de La Voix du Nord qui ont précisément pour objet d'éclairer le débat des municipales, en rassemblant des données locales, données démographiques, les taux d'emploi, des données fiscales.

Aux Etats-Unis, les données mises en ligne sont très précises, à l'adresse près, dans une rue donnée, pour la criminalité, et concernent aussi les maisons de retraite, les hôpitaux, l'éducation, - la performance des écoles -, l'environnement depuis le mitan des années 1990. Les citoyens ont accès aux données sur la pollution, l'emploi, la criminalité, les transports, la voirie, l'entretien urbain, les canalisations, les graffitis retirés par les services de la mairie, etc... Ces données locales relèvent de niveaux administratifs différents. Elles sont en pleine expansion. Elles proviennent de sources administratives variées. Non seulement les journalistes les recoupent, mais aussi créent des informations nouvelles.

Les associations jouent traditionnellement un rôle fort aux Etats-Unis. La France n'a pas cette tradition d'observatoires citoyens indépendants, comme le Center for responsive politics, mais l'accès aux données est une préoccupation de longue date pour une grande partie du monde associatif, qu'il s'agisse de s'informer sur l'action de l'administration, de dresser un bilan de l'action des élus, d'assurer la transparence de la vie politique, ou encore pour être en mesure d'intervenir finement dans le champ social. Les acteurs du numérique se sont greffés sur ce mouvement. Les attentes sont variées. Certaines associations, comme à Chicago, visent à rapprocher les élus des citoyens, en montrant l'action concrète quotidienne d'une municipalité. Les associations qui interviennent dans le domaine social ont besoin de données pour définir précisément une population cible. Ainsi, une militante du Nord-Pas-de-Calais me confiait que, pour développer l'emploi féminin dans les quartiers, les données agrégées au niveau régional étaient peu utiles. Des associations spécialisées cherchent des informations techniques très précises pour un enjeu militant, comme celles qui étudient la qualité de l'air à Paris et les problématiques de santé qui en découlent.

Trois grandes préoccupations se retrouvent aux Etats-Unis comme en France : obtenir des données granulaires, c'est-à-dire fines et adaptées à l'échelle des problèmes locaux, parfois celle d'une rue ou du quartier ; obtenir des données compréhensibles, au-delà du filtre constitué par les catégories juridiques ou administratives qui conditionnent le recueil de ces données, pour éviter notamment les erreurs d'interprétation ; obtenir des données au format ouvert, susceptibles d'être croisées alors qu'elles proviennent de diverses sources, et de sortir ainsi de la logique de silo pour les réutiliser.

M. Eric Dagiral, maître de conférences en sociologie à l'université Paris-Descartes. - L'open data dans l'administration se développe. Des expérimentations s'étendent aux données personnelles. En France, par exemple, la fondation Internet nouvelle génération développe le projet « Mes infos ». L'idée est que les données personnelles que les administrations s'approprient soient ouvertes aux personnes concernées pour leur permettre de mieux comprendre par exemple leurs dépenses d'énergie, de santé, leur charge fiscale, dans un souci de transparence à l'égard des citoyens, qui restent maîtres de leur vie privée : il ne s'agit pas de rendre ces données personnelles accessibles à tous !

Depuis le milieu des années 2000, l'administration française a évolué : les contribuables peuvent accéder en ligne à leur dossier fiscal sur une période de trois ans. Ces données sont présentées sous forme de fac-similé des formulaires administratifs « papier ». Certains souhaiteraient un autre format pour pouvoir faire des recoupements, réutiliser les jeux de données pour analyser leur consommation d'énergie par exemple. Plus que l'accès, se pose donc la question de la restitution des données. Certes, tous les citoyens n'expriment pas ce souhait spontanément et la majorité considère l'accès aux données avant tout comme une possibilité de meilleure compréhension de celles-ci. L'enjeu de l'accès à l'information administrative est indissociable de celui de la simplification du langage administratif. L'ouverture des données ne concerne donc pas seulement des collectifs constitués mais également des particuliers.

M. Sylvain Parasie. - Quelle est l'utilisation concrète des données ? Les journalistes indiquent que l'obtention des données publiques ne modifie pas radicalement leur travail : les données ne font pas l'article ! Les règles de vérification et de croisement des informations restent pertinentes. La mise en pratique est souvent complexe. Les données n'ont pas été produites d'abord pour le journaliste, un travail de déchiffrement est donc nécessaire car les catégories employées sont celles de l'administration. Là où on s'attendait à un journalisme de reproduction, on découvre ainsi un journalisme d'enquête qui exige des ressources humaines et techniques importantes.

Souvent des acteurs intermédiaires spécialisés, qui ont souvent partie liée avec les observatoires citoyens, se chargent de recouper les données. Aux Etats-Unis, ces observatoires mettent en forme, vérifient, mettent les données en perspective, par exemple les données électorales ou relatives au financement politique ; ils fournissent une expertise sur ces données, les mettent en perspective. En France, la culture politique est différente, mais le collectif « Regard citoyens » par exemple fait un travail similaire, laborieux, neutre et coûteux de pédagogie notamment auprès des journalistes. Le rôle de ces acteurs spécialisés, intermédiaires, de ces expertises citoyennes est déterminant pour que ces données ne restent pas lettre morte - ou soient utilisées à mauvais escient. L'utilisation des données réclame des investissements et des démarches actives d'explicitation. C'est ainsi que des partenariats se nouent entre acteurs intermédiaires, journalistes et scientifiques, par exemple pour l'exploitation des données environnementales.

Quels sont les impacts de ces mouvements ? N'attendons pas de l'ouverture des données publiques des effets radicaux, massifs, immédiats, du jour au lendemain. Beaucoup de données sont publiques mais peu sont utilisées. Il faut distinguer l'accès aux données et la culture politique : la mise à disposition ne modifie pas immédiatement la culture politique française dans le sens d'une transparence sur le modèle américain. Mais l'ouverture sert à renforcer l'expertise citoyenne et contribue à susciter de nouvelles attentes, par exemple dans le domaine de la santé, et à éveiller les consciences. Dès lors que les citoyens ont accès aux données sur l'environnement, ils s'en préoccupent davantage. Tous les citoyens ne sont pas également touchés par ce mouvement mais les données locales, celles sur lesquelles les citoyens pensent avoir prise, les intéressent tout particulièrement. Les citoyens sont souvent défiants à l'égard des institutions politiques, mais ils s'intéressent aux enjeux locaux. Sans doute l'ouverture des données publiques aura-t-elle un effet positif à cet égard.

S'agissant de la vie politique ou parlementaire, des acteurs comme senateurs.fr ou Regards citoyens, en fournissant des informations précises et concrètes, contribuent à nourrir le débat public, pour dépasser l'antiparlementarisme sur des questions telles que le clientélisme ou l'absentéisme. Ils concourent à mieux faire connaître le travail concret des parlementaires. Cela permet également aux élus de réfléchir à la communication sur leur activité.

M. Eric Dagiral. - Servicepublic.fr, en devenant Monservicepublic.fr, en personnalisant les informations fournies, offre de nouveaux services personnalisés aux usagers qui se connectent. L'accès à des données plus précises n'est pas un simple enjeu de transparence, mais répond à une logique de service. Et plus les administrés découvrent ce que sait l'administration et comment elle le sait, plus ils s'étonnent qu'elle ne leur présente pas davantage leurs droits. La même réflexion vaut pour les services fournis par les banques en ligne. Les nouveaux usages développent des attentes vis-à-vis de l'administration.

M. Christian Cointat, président. - Y a-t-il des données indisponibles en France ? Y a-t-il les mêmes failles aux Etats-Unis ?

M. Sylvain Parasie. - La situation est différente entre la France et les Etats-Unis. En France, certains acteurs se plaignent des difficultés d'accès aux données fiscales. Aux Etats-Unis, les données criminelles sont très largement diffusées par les municipalités qui ont d'importantes prérogatives en matière de police, ce qui en fait un enjeu politique local majeur. En France, les chiffres de la criminalité sont disponibles à un niveau très agrégé, pas au niveau local - à quel niveau faut-il les rendre disponibles : la commune, parfois le quartier dans les grandes villes ? Cela mérite évidemment débat, négociation entre les acteurs concernés.

M. Eric Dagiral. - Lors de nos enquêtes, on nous explique avoir eu accès aux informations, mais ne pas avoir pu les exploiter, faute de disposer des documents à l'échelle souhaitée, car ils ont été élaborés pour répondre à un usage administratif bien défini.

Mme Corinne Bouchoux, rapporteure. - Nous clôturons ce matin notre démarche d'analyse des demandes d'information engagée depuis plusieurs semaines, avant d'étudier l'offre. La demande sociale d'information explose. La commission d'accès aux documents administratifs (Cada) est confrontée à cette inflation. Comment articuler la transparence et la sécurité, face aux risques de malveillance ou de mésusage de certaines données, concernant, par exemple, des biens communs comme l'eau ? Quid également de la vie privée si la transparence est totale ? Par ailleurs, quels débouchés politiques ? En Allemagne, il y a quelques années, de jeunes hackers liés à des militants politiques sont entrés dans les parlements régionaux, en prônant l'accès direct à tout, discours audible par une fraction de la population qui ne comprend plus les limitations. Dans un contexte de forte contrainte sur les finances publiques, l'accès aux données publiques n'offre-t-il pas l'occasion de mettre en place des budgets plus participatifs, au plus près des citoyens, les associant aux choix budgétaires locaux ?

M. Sylvain Parasie. - Développement des usages et réflexion sur les limites vont de pair. Aux Etats-Unis, le respect de la vie privée est au coeur des réflexions des journalistes, même s'ils ont accès à des données judiciaires ou concernant les transactions immobilières, qui nous surprennent en France. Ainsi, ces données mentionnent l'ethnicité des victimes de crimes : des applications pour smartphones existent précisant les risques quartier par quartier, que certains se refusent à utiliser pour des raisons éthiques, pendant que d'autres n'hésitent pas.

Il est difficile de penser les mésusages, dès lors que les usages ne sont pas anticipés ou anticipables. Les premiers usages sont le fait d'associations ou de collectifs organisés, attentifs aux risques. Toutes les informations ne sont heureusement pas utilisables à des fins criminelles. Nous n'avons pas évoqué les usages liés au marketing. Il faut que les acteurs concernés, notamment les journalistes, en débattent. Une des limites, c'est le voyeurisme. Aux Etats-Unis, il n'est pas choquant de connaître les revenus de son voisin.

M. Eric Dagiral. - Nos recherches explorent les changements et les innovations liés aux technologies. Les acteurs sont enthousiastes, pleins d'attentes et de projets. La vie privée, le respect de la privacy sont, par construction, fondés sur un paradoxe. Les citoyens souhaitent avoir accès aux données, à de nouveaux services, tout en s'inquiétant des risques de divulgation. Ils revendiquent aussi le droit à l'oubli.

M. Alain Richard. - J'ai été, alors dans l'opposition, l'un des auteurs de la loi de 1978 qui sera bientôt codifiée dans un code des relations entre l'administration et le public. Les résultats, que vous présentez, me rassurent sur la robustesse de cette législation qui résultait déjà à l'époque d'une démarche comparative. Trois principes la guidaient, qui ont été affinés par la Cada et qui valent encore : le droit d'accès sans limite à ses données personnelles ; leur protection à l'égard d'autrui ; la protection du travail en cours de l'autorité publique.

Quiconque le souhaite a accès à l'ensemble des données personnelles le concernant détenues par l'administration. La limitation fiscale des trois ans est une protection, opposable également à l'intéressé aussi : le droit à l'oubli est fondamental.

Dans la commune de 24 000 habitants dont je suis maire, le revenu moyen par habitant est bien inférieur à la moyenne nationale mais il y a une quarantaine de redevables de l'ISF. Je sais bien que certains voudraient savoir qui ! A quelques kilomètres, se trouve une commune de 1 000 habitants, qui n'en compte peut-être qu'un. L'Insee, dont l'expertise est mondialement reconnue, sait faire la différence entre données statistiques et données individuelles. La police me transmet chaque semaine une liste des faits notables, moins d'une dizaine en général. Avec l'adresse, il serait facile de mettre des noms ! Il est donc bon que ces données ne soient pas publiées.

L'administration n'a pas à faire le travail du consommateur des données. A celui qui veut les exploiter de s'informer sur leur structure, leur signification. L'administration ne saurait être un conseilleur individualisé. Elle se fonde sur deux principes : l'Etat de droit, - l'administration détient des données dans le cadre légal de son action -, et le service public, qui détermine les missions pour lesquelles l'administration détient ces données. L'utilisation actuelle des données est équilibrée. Ne cédons pas aux caprices.

Les exploitants de données ont en fait une activité commerciale : soyons lucides, c'est un business ! Certaines associations, en tant que lanceurs d'alerte, ont intérêt à n'exploiter que celles qui font sensation, on le voit bien aux Etats-Unis : proclamer de bonnes nouvelles ferait chuter les dons !

M. Sylvain Parasie. - Ces acteurs s'engagent souvent à restituer l'ensemble des données aux citoyens et à respecter un principe de neutralité. Leur démarche ne relève pas toujours du sensationnalisme ou de l'intérêt.

Les données fiscales, budgétaires, financières sont particulièrement sensibles dans le contexte économique actuel. Savoir combien de communes ont contracté des emprunts toxiques est intéressant : certains journalistes ont obtenu cette information par Dexia. Il eût été utile, pour le débat public, qu'elle fût disponible publiquement.

M. Alain Richard. - Tous les budgets communaux de France comprennent en annexe la liste des emprunts souscrits. Bien sûr, les exploiter réclame du travail.

M. Eric Dagiral. - Il n'est pas toujours simple, pour beaucoup de gens, de comprendre les tenants et aboutissants du système. L'analyse et la présentation des données sont un véritable enjeu.

M. Christian Cointat, président. - Merci.

Audition de M. François Bancilhon, président directeur général
de Data Publica

M. Christian Cointat, président. - Nous accueillons M. François Bancilhon, président directeur général de Data Publica.

Ingénieur de formation, vous avez mené une double carrière, dans la recherche académique et dans l'industrie. Vous avez créé et dirigé plusieurs entreprises entre la France et les Etats-Unis, avant de fonder Data Publica en 2011, une société du monde de l'open data et du big data, qui développe des jeux de données à la demande pour ses clients.

Pourriez-vous nous exposer l'activité de votre société et son positionnement dans l'écosystème de l'ouverture des données publiques, nous décrire votre expérience de la réutilisation des données publiques, puis nous indiquer l'appréciation que vous portez sur les données disponibles et les conditions de leur réutilisation ?

Enfin, au vu de cette expérience et de votre connaissance de la situation aux Etats-Unis, quelles recommandations formuleriez-vous ?

M. François Bancilhon, président directeur général de Data Publica. - Nous fournissons à nos clients les données dont ils ont besoin, à partir de sources diverses. Celles-ci sont produites automatiquement. Elles concernent, par exemple, les annonces d'appels d'offres publiques françaises publiées au bulletin officiel d'annonces des marchés publics (BOAMP) - il en paraît 2 000 par jour, provenant de 8 000 sources, mais aussi les bornes de recharges électriques pour automobiles, pour un constructeur...Nous sommes une jeune start-up française.

Nous identifions les sources (open data, données publiques, privées, celles de nos clients, par exemple, réseaux sociaux, médias) pour en extraire automatiquement, dans le respect du cadre légal, les données par aspiration (scraping), ou en parcourant les sites (crawl). Puis nous les structurons pour livrer à nos clients un jeu de données propres par flux ou en visualisation.

Nous sommes cofondateurs des Data Tuesday, événement réunissant une fois par mois les acteurs de la donnée. Il y a différents métiers : éditeurs de données publiques (Insee, Dila, Etatlab), production, repérage des données, analyse, fournisseurs d'outils logiciels, notamment d'infrastructures d'hébergement, visualisation, utilisateurs, clients... Cet écosystème est riche et est en cours de formation et de développement.

Nous avons réalisé le premier annuaire des données publiques françaises, avant même la création d'Etalab, avec lequel nous collaborons aujourd'hui. Nous lui fournissons de la donnée. Je participe d'ailleurs au groupe d'experts mis en place par Henri Verdier.

Il y a des acteurs comparables aux Etats-Unis, au Royaume-Uni, en Italie, en Chine...Ce métier est en développement, partout où un intermédiaire est nécessaire pour accéder aux données : le concept de place de marché, testé notamment pas Microsoft, ne fonctionne pas. Les essais de vente de données bon marché à grande échelle par carte de crédit sur le web ont échoué partout jusqu'à présent : la donnée est trop complexe et son coût trop élevé pour ce type d'utilisation.

Nous avons par exemple produit un tableau de bord de l'emploi agrégeant les données de tous les bassins d'emplois en France, pour un cabinet de conseil, un tableau de bord de l'immobilier à destination des notaires, un tableau de bord des 36 000 communes de France comportant des données sociodémographiques pour un autre client...

La qualité des données est généralement mauvaise, surtout chez nos clients. Les données publiques sont souvent de meilleure qualité que les données privées, ce qui est logique car elles sont regardées. L'Insee a des données fabuleuses.

Pour nous, la qualité n'est pas un problème, puisqu'une partie de notre métier est justement de produire des données de bonne qualité à partir de données de qualité variable. Il y a en effet une pénurie de données de qualité. Nous sommes une start-up de dix personnes. Les prix prohibitifs de certaines données (de l'Insee et de la Dila notamment) constituent, à nos yeux, une barrière à l'entrée protégeant les Cegedim, Altarès et LexisNexis, qui sont les taxis de la donnée : nous sommes les VTC (voitures de tourisme avec chauffeur) !

Nous souhaiterions donc que davantage de données brutes soient ouvertes, afin d'enclencher une dynamique, qui en améliore la qualité et en diminue le prix. A cet égard, le rapport Trojette va dans le bon sens.

Comme citoyen, je milite pour que la carte scolaire soit disponible : pourquoi ne l'est-elle pas ? Il est seulement possible de savoir à quel lycée votre adresse est rattachée.

Mme Catherine Procaccia. - Bonne question !

M. François Bancilhon. - S'il y a des problèmes techniques, ils sont solubles ! ERDF est terrorisée par l'ouverture de « ses » données. Pourtant, celles-ci appartiennent aux Français, que vous représentez.

Les fichiers Sirene de l'Insee et Infogreffe sont accessibles moyennant redevance, ce qui n'est pas normal. Je forme le voeu qu'elle soit supprimée un jour. Infogreffe inflige aux entreprises une double peine : elles payent pour y inscrire des informations que les autres devront payer pour obtenir !

Les données constituent un enjeu stratégique d'indépendance et de souveraineté nationale. Or la meilleure connaissance des données françaises est détenue par des acteurs américains comme Google, Amazon, LinkedIn, et autres. LinkedIn, par exemple, possède 7 millions de curriculum vitae de français. Que d'informations critiques sur les parcours, les emplois, les tendances de notre société !

Pendant ce temps, chez nous, la Commission nationale de l4informatique et des libertés (Cnil), telle la ligne Maginot, vérifie avec acharnement que personne ne puisse construire chez nous une telle base de données, alors que tous nos efforts devraient tendre vers la restauration de notre souveraineté sur nos données.

M. Christian Cointat, président. - Merci.

Mme Corinne Bouchoux, rapporteure. - Votre témoignage est très éclairant sur les opportunités offertes en matière de retraitement des données.

En principe, en dehors de Paris, la carte scolaire est accessible sur les sites des ex-inspections académiques. Elle ne relève pas du secret défense ! Vous pouvez l'obtenir sur demande écrite, sinon, saisissez la Cada !

M. François Bancilhon. - Si je rentre mon adresse, on m'indique quel lycée correspond. Mais je n'ai pas accès à la carte globale du ressort de chaque établissement. C'est celle-ci qui m'intéresse. Elle existe, sinon l'opération que je viens d'indiquer ne serait pas possible, mais n'est pas accessible.

Mme Corinne Bouchoux, rapporteure. - Quelles sont les trois avancées concrètes qu'il faudrait accomplir par rapport à la loi de 1978 qui ouvre en théorie mais limite parfois ?

M. François Bancilhon. - Le mécanisme écrit du recours à la Cada est trop lourd et long. Il n'est pas du tout « 2.0 » ! Plutôt « - 1 » ! La loi prévoit que les données publiques sont disponibles par défaut : qu'elles le soient ! En France, les entreprises publient leur chiffre d'affaires, pas dans les pays anglo-saxons, en tout cas pour les sociétés fermées. Pourquoi, dès lors, ne pas supprimer les redevances Insee et Siren et le mécanisme kafkaïen de refacturation mis en place par l'Insee pour la refacturation ? Cela ouvrirait le marché à des acteurs innovants et favoriserait opportunément le développement économique de notre pays.

Je reviens sur la Cnil et le principe de finalité. Partout dans le monde, il faut arbitrer entre transparence et protection de la vie privée, qui sont deux aspirations légitimes.

Sur certains points, comme la géolocalisation des boîtes aux lettres de La Poste - qui n'est toujours pas publique ! - il n'y a pas vraiment de conflit. Sur d'autres, c'est plus complexe. Notre culture protège d'abord la vie privée. Les Anglo-saxons donnent la priorité à la transparence. Aux Etats-Unis, le credit-rating d'un individu, sa capacité d'emprunt, est public, ce qui serait impensable et illégal en France.

Chez nous, le principe de finalité protège la vie privée, exigeant de celui qui recueille des données qu'il déclare préalablement quel usage il entend en faire. Aux yeux du mouvement open data, du big data, ce principe de finalité est insupportable. L'important est que les données soient disponibles. Cette disponibilité stimule la créativité et l'économie, à l'image des hackathons (marathons créatifs) : ils partent des données pour inventer des usages nouveaux ; c'est donc l'inverse du principe de finalité.

Le projet « X-Data » auquel nous participons illustre cette nouvelle perspective : il s'agit de démontrer que le croisement de données de sources diverses (Orange, EDF, La Poste, Veolia...) est en lui-même fécond. Mais réunir ces données est très difficile en France. Pendant ce temps-là, Google rachète Nest et saura bientôt la température exacte qui règne chez vous...

Mme Catherine Procaccia. - Souhaiteriez-vous que l'on puisse exploiter les données de LinkedIn en France ?

M. François Bancilhon. - Nous devons retrouver la mainmise sur nos données, nous les réapproprier : c'est un enjeu de souveraineté et la capacité à analyser l'efficacité de notre système de formation. Faut-il créer un concurrent à LinkedIn ? Je ne sais. C'est le pari de Viadeo. Il y a sûrement une solution à construire. La valorisation boursière de LinkedIn est liée à la qualité des données qu'il propose.

M. Yves Détraigne. - Vos propos m'inquiètent : au nom de la fluidité de l'économie, faut-il cesser de protéger la vie privée ? Que pensez-vous de la notion de droit à l'oubli ? Est-il nécessaire, et techniquement possible, de faire disparaître une donnée qui porte préjudice à quelqu'un ?

M. François Bancilhon. - Distinguons les personnes publiques au sens large, - les dirigeants de sociétés en font partie -, et les personnes privées. Les contraintes de transparence sont plus fortes sur les premières. Pour autant, le droit à l'oubli est une bonne chose.

Ce qui importe, c'est la connaissance globale, statistique, des usagers. C'est cette masse d'informations agrégées qui fait la valeur de Facebook, LinkedIn et autres. Les connaissances de Google sont immenses : il peut organiser jusqu'à nos rendez-vous. Mais disposer d'informations est utile. La remontée des données est essentielle. La canicule de 2003 a mis du temps à être détectée par le ministère de la santé parce que l'information n'a pas été rendue assez rapidement disponible. Il a fallu plusieurs semaines pour que soient centralisées les données sur le nombre de morts. La Cnil ne protège rien : Google sait tout sur nous ! Il y a une réflexion à engager dans ce monde qui a changé : comment être efficace économiquement tout en protégeant la vie privée ?

M. Christian Cointat, président. - Vous critiquez la loi sur la Cnil : selon vous, elle n'empêche rien mais entrave des projets utiles ?

M. François Bancilhon. - C'est une ligne Maginot, je le répète...

Mme Corinne Bouchoux, rapporteure. - Certains d'entre nous estiment que la loi de 1978 ne doit pas être remise en cause. D'autres pensent que la société a changé. Quelles pistes proposez-vous en termes d'évolution du cadre légal ? Votre réponse peut ne pas être immédiate. Pour l'instant, nous dressons un état des lieux.

M. Christian Cointat, président. - Nous avons accompli un grand progrès en 1978. Il faut en faire un nouveau aujourd'hui ! Merci.

Audition de M. Jean-Marc Lazard, président directeur général d'OpenDataSoft

M. Christian Cointat, président. - Nous allons maintenant entendre M. Jean-Marc Lazard, président directeur général d'OpenDataSoft.

Monsieur Lazard, vous avez été responsable de projets innovants dans l'industrie agroalimentaire et la grande distribution, puis directeur des projets stratégiques d'Exalead, au sein du groupe Dassault Systèmes, avant de proposer une plateforme sur le cloud, dont vous allez nous parler.

Quelle est en effet l'activité d'OpenDataSoft et son modèle économique ? Comment celui-ci s'inscrit-il dans l'écosystème de l'ouverture des données publiques ?

Pouvez-vous nous décrire votre expérience en matière de réutilisation de données publiques au service de vos clients, les difficultés rencontrées ? Quelle appréciation très concrète portez-vous sur les données accessibles, les conditions de leur réutilisation, et les améliorations qui pourraient être apportées ?

Nous souhaitons revoir la loi de 1978 pour tenir compte de l'évolution des modèles sociaux, économiques et techniques.

M. Jean-Marc Lazard, président directeur général d'OpenDataSoft. - J'ai fondé OpenDataSoft il y a deux ans. Nous concevons des logiciels pour les producteurs de données et pour leurs utilisateurs. Nous mettons à leur disposition une plateforme sur le cloud, comportant nos solutions de traitement, ce qui présente des avantages en termes de rapidité de disponibilité et de coûts.

Nous offrons la possibilité sur ce portail de se connecter aux données de toutes natures qui existent déjà. Parmi nos clients figurent des collectivités locales (comme le conseil général du Pas-de-Calais, la région Ile-de-France, la ville de Paris) et des entreprises publiques (comme EDF ou la RATP) ou privées, des producteurs de données ou des utilisateurs.

Le modèle économique repose sur la réalité de l'usage des données : l'investissement de départ est faible, nous nous contentons de libérer les données. Les producteurs de données se servent de notre plateforme pour mettre en oeuvre leur démarche d'open data. Parfois, les filtres développés sont le support de nouveaux services, de nouvelles applications. Leurs utilisateurs finaux y trouvent des données qui les concernent et d'autres avec lesquelles elles peuvent les croiser. Les premiers utilisateurs sont les collectivités publiques : nos solutions facilitent la circulation interne de l'information, ce qui améliore le service au public et leur permet d'alimenter des portails comportant notamment de la visualisation. Il est préférable que ces données soient fournies dans leur état initial, ce qui permet de recueillir les commentaires des utilisateurs. Les entreprises quant à elles peuvent croiser leurs propres données et des données publiques pour offrir de nouveaux services, comme par exemple Veolia pour la qualité de l'eau.

L'open data fait partie de tout un écosystème. Que deviennent les innovations qu'il génère ? Un matériau est mis à disposition. Des entrepreneurs l'exploitent. Mais leur projet n'est pas toujours durable, car il n'aboutit pas forcément à un modèle économique viable. Pour cela, il faudrait que la puissance publique achète ce type de services. Sans cela, seuls les plus gros acteurs surnageront. Notre modèle est donc différent de celui qui existe dans les pays anglo-saxons. Qu'attendent nos clients ? Un département, comme les Alpes de Haute-Provence, par exemple, souhaitera développer l'attractivité touristique de son territoire.

L'open data est un élément de rupture. On passe d'une culture fondée sur la comptabilisation des visiteurs du site web du département à une refondation de l'activité pour mieux collecter les données auprès des différents acteurs (gites, ...), les faire remonter plus rapidement, mieux les rendre accessibles et développer l'attractivité du territoire auprès du public. Le retour sur investissement est acquis en six mois. Le coût de promotion et de gestion des données est divisé par quatre, ce qui permet de redéployer les ressources. L'un des principaux enjeux de l'open data est de rendre plus efficace l'action publique et de réduire les dépenses, en laissant le soin aux acteurs qui recueillent les données de dégager des ressources qui peuvent vous être utiles.

Les utilisateurs de données utilisent nos solutions pour collecter des données, parfois disponibles dans des formats techniques peu accessibles - comme celles qui concernent les sous-sols - afin de développer de nouveaux usages. En effet, de nombreux organismes produisent des données, mais dans des conditions techniques qui en restreignent le potentiel. D'où notre rôle de pivot.

La réglementation évolue, mais reste à clarifier. Etalab a joué un rôle important dans la libération des données. Des cadres réglementaires devraient encore évoluer. Les perspectives sur les coûts de l'accès à l'open data sont prometteuses, ces coûts n'étant d'ailleurs pas un frein lorsqu'ils sont peu élevés. En revanche, il serait bon que le cadre juridique évolue, afin de favoriser l'achat de services auprès de petites sociétés prestataires françaises lors des marchés publics.

Le coût d'entrée est faible et les technologies requises sont simples. Des démarches volontaristes sont en cours. Il reste néanmoins encore beaucoup à faire pour libérer les données et les rendre interopérables. Une préférence donnée aux start-ups serait décisive, pour éviter de réinventer la roue à chaque fois, comme cela se fait actuellement dans une vingtaine d'endroits en France. Cela serait favorable à l'emploi et au développement économique.

Aux Etats-Unis, une agence est chargée d'évaluer les dépenses et investissements de recherche et développement, ainsi que leurs effets concrets sur l'économie, grâce à l'open data et à un effort de normalisation en amont des données. En France, - chaque acteur, le CNRS, l'Inria ... -, publie ses propres données.

En France, ces données sont techniquement illisibles, chaque organisme publiant ses données sous des formats spécifiques, avec des granularités différentes, ce qui ne le rend pas interopérable. Le législateur serait fondé à fixer précisément les modalités d'établissement et de diffusion des données fournies par les organismes publics, ce qui permettrait, par exemple, de tracer toutes les dépenses publiques. En Grande-Bretagne, toutes les grandes villes font établir un tableau de bord d'efficacité, établi à partir des données existantes, permettant une auto-évaluation. A cet égard, l'Europe continentale et le monde anglo-saxon ne fonctionnent pas de la même manière.

Mme Corinne Bouchoux, rapporteure. - L'information, c'est le pouvoir. Les élus ont-ils conscience des enjeux liés à la publication des données, au partage des données et de la connaissance ? N'y a -t-il pas une pédagogie à faire pour débloquer cette filière ?

M. Jean-Marc Lazard. - Je croise peu d'élus, c'est un signe. Je traite surtout avec les directeurs des services ou les responsables informatiques des collectivités. Un effort de pédagogie est assurément nécessaire. Avec l'open data, on passe des services publics au service au public et les usages des données échappent de fait aux pouvoirs publics. La gouvernance de ces plateformes de partage de données, sur lesquelles les usages se modèlent, est un enjeu essentiel.

Mme Catherine Procaccia. - Selon vous le coût est faible. Mais quid des moyens humains ?

M. Jean-Marc Lazard. - L'open data est peu couteux en effet et facteur d'économies. Il est vrai que le coût humain est sous-estimé dans les collectivités, qui confient la mise en oeuvre de la démarche à du personnel qui est déjà en charge d'autre chose. Cela dit, le plus souvent, une seule personne dédiée suffirait.

Mme Corinne Bouchoux, rapporteure. - Faudrait-il un Wikileaks à l'échelle territoriale pour que les élus prennent conscience des enjeux ? Y aurait-il une solution plus pédagogique ?

M. Jean-Marc Lazard. - Cela constituerait un électrochoc, et ce n'est pas qu'un scénario hypothétique. Il peut avoir lieu à tout moment. La meilleure pédagogie est de regarder territoire par territoire et par filières.

Je suis surpris que l'open data ne soit pas un objet de débats sur le terrain dans cette période préélectorale. Les enjeux économiques sur le tourisme, l'agriculture et d'autres filières du développement local sont en effet considérables. Il en va aussi de la capacité des institutions publiques et décentralisées à rendre compte de leur action dans les territoires pour offrir de meilleurs services aux citoyens.

M. Christian Cointat, président. - Merci.

Audition de M. Samuel-Frédéric Servière, responsable des études budgétaires et fiscales à l'iFRAP

M. Christian Cointat, président. - Nous entendons à présent M. Samuel-Frédéric Servière, responsable des études budgétaires et fiscales à la fondation iFRAP, fondation pour la recherche sur les administrations et les politiques publiques. Quelle est votre expérience en matière d'accès aux documents administratifs et aux données publiques pour mener à bien des travaux de recherche et d'analyse ? Quelles difficultés rencontrez-vous ?

M. Samuel-Frédéric Servière, responsable des études budgétaires et fiscales à la fondation iFRAP, fondation pour la recherche sur les administrations et les politiques publiques. - L'iFRAP est une fondation reconnue d'utilité publique depuis 2009, fondée en 1985, qui analyse les politiques publiques et promeut la création d'entreprises.

Je suis chargé des questions fiscales et m'occupe de l'open data depuis 2009. Nous avons publié en 2011 une étude sur la question, intitulée Omerta ou Open data ?, qui a mis en évidence les difficultés posées par l'application de la loi de 1978, et notamment par les limitations qu'elle contient. Nous nous apprêtons à publier une étude portant sur les communes de plus de 100 000 habitants, pour laquelle nous nous sommes heurtés, à nouveau, à des difficultés d'application de cette loi, au regard de l'accès aux documents administratifs plus que de l'open data stricto sensu.

M. Christian Cointat, président. - Soyez précis : la rapporteure et moi-même, nous siégeons à la Cada.

M. Samuel-Frédéric Servière. - Par exemple, nous n'avons trouvé en ligne qu'un seul bilan social, celui de la ville de Nantes, alors que ce document doit être établi et communiqué. Nous en avons reçu quelques autres après relances, mais certaines collectivités ne nous l'ont pas adressé.

M. Christian Cointat, président. - Avez-vous saisi la Cada ?

M. Samuel-Frédéric Servière. - Vu le délai de publication de notre étude, nous n'aurions pas eu les documents à temps. Mais pour obtenir des éléments sociaux détenus par les caisses d'allocations familiales (Caf), pour une autre étude, il nous a suffi de relancer la Caisse nationale d'assurance maladie (Cnam) en évoquant un recours à la Cada.

Dans le cadre d'une révision de la loi de 1978, nous souhaiterions que soit refondée la doctrine sur l'open data et l'accès aux documents administratifs, afin qu'elle devienne celle du gouvernement ouvert. Il faut que les administrations publiques qui ne relèvent pas des exceptions de la loi de 1978 mettent en ligne spontanément et systématiquement les informations.

Il conviendrait aussi de réexaminer les exceptions de l'article 6 de la loi de 1978. L'administration en fait parfois une interprétation trop stricte. Ainsi, les documents préparatoires à une décision, non communicables lorsqu'elle n'est pas rendue, devraient être spontanément rendus accessibles.

M. Christian Cointat, président. - Dès qu'une décision est rendue, l'ensemble est communicable.

M. Samuel-Frédéric Servière. - Distinguons ouverture et accessibilité. Les conclusions des rapporteurs publics du Conseil d'Etat ne sont pas systématiquement communicables. C'est dommage, puisqu'elles participent de manière importante de la réflexion doctrinale. Pourquoi le Conseil d'Etat n'est-il pas pionnier dans la libération de ces données, qui seraient aisées à publier ? Les avis du Conseil d'Etat rendus dans le cadre de sa mission de conseil du gouvernement, qui ne portent pas sur des secrets protégés, devraient être, eux aussi, publiables, dans un souci de bonne transparence.

M. Christian Cointat, président. - Le Parlement a la même revendication !

M. Samuel-Frédéric Servière. - Il paraît qu'ils circulent néanmoins parfois, en violation de la loi. Un ancien administrateur civil a même récemment pris délibérément le risque d'en publier un sur son site personnel. Il est donc possible de les rendre libérables.

Il faudrait par ailleurs réexaminer la communicabilité des données produites par les établissements publics industriels et commerciaux (Epic), qui n'est pas autorisée, au nom du secret commercial, même lorsque ces établissements étaient auparavant des établissements publics à caractère administratif (EPA). Aucune distinction n'est faite selon la nature des informations produites. Cherchant à analyser l'exécution du budget de voies navigables de France (VNF), établissement en situation de monopole, donc sans concurrence possible, nous nous sommes ainsi heurtés à un refus.

Réfléchissons aussi à l'ouverture de réseaux comme Quetelet, qui rassemble des données statistiques anonymisées aux fins de recherche scientifique, mais qui est réservé en pratique à la seule recherche publique. Pour y accéder, il faut montrer patte blanche auprès du Conseil national de l'information statistique (Cnis). Pourquoi les données, à condition bien sûr qu'elles soient d'une granularité adaptée, ne sont-elles pas accessibles à des organismes de recherche privés comme le nôtre, pour améliorer l'information citoyenne ?

Les évaluations budgétaires et fiscales sont le domaine réservé de la direction du budget et de celle de la législation fiscale, qui s'opposent parfois à la Cour des comptes. Pourquoi ne pas ouvrir le cercle des évaluations à des tiers, ce qui améliorerait le chiffrage des mesures ? D'autres modèles seraient bienvenus : de la contestation sortiront des évaluations plus précises.

Nous souhaiterions que la Cada soit dotée de compétences supplémentaires, puisse s'autosaisir et réaliser des audits de service auprès des administrations pour vérifier que le gouvernement ouvert que nous appelons de nos voeux est effectif. Elle pourrait, par exemple, vérifier que les jeux de données libérés le sont sous un format adéquat pour permettre leur réutilisation ou que le principe de redondance dans leur référencement est bien mis en oeuvre.

Elle devrait pouvoir aussi prononcer des astreintes et des injonctions : le recours à la justice administrative allonge, alourdit les procédures et les coûts. Elle serait ainsi allégée d'une partie des contentieux, qui risquent de se multiplier.

Une charte des données publiques et de leur réutilisation devrait être élaborée et respectée, posant un certain nombre de principes, dont celui de l'agenda, par lequel les administrations communiqueraient un calendrier prévisionnel de la libération des données, comme le fait déjà l'Insee, ou encore celui de la permanence des méthodes utilisées au cours du temps - il en va de la fiabilité des données publiques. Pour mesurer l'absentéisme dans les bilans sociaux, l'exploitation des données a été compliquée par l'archaïsme des méthodes employées par certaines communes pour recueillir ces données, recourant à un formulaire qui ne devrait plus avoir cours depuis 1998 ! Autre exemple : les ETPT, « équivalents temps plein travaillés » des administrations centrales ne peuvent être comparés avec des ETP, « équivalents temps plein » recensés par les collectivités territoriales et les opérateurs. L'Insee utilise encore un autre code (EQTP) ! La direction du budget a heureusement harmonisé la méthode de calcul au sein de l'Etat, mais l'inspection générale des finances, dans son rapport sur la révision générale des politiques publiques (RGPP), avait dénoncé cette incohérence statistique.

Il serait enfin intéressant de créer un site « Légilocal »  pour rassembler la multitude de données produites par les collectivités territoriales. Il existe déjà des initiatives en ce sens, comme celle de la région Ile-de-France.

M. Christian Cointat, président. - Vous souhaitez, en quelque sorte, renverser la charge de la preuve, afin que tous les documents administratifs soient non seulement publics, mais publiés.

M. Samuel-Frédéric Servière. - Notre approche n'est pas si fondamentaliste ! Il convient de procéder par étapes. Nous pouvons imaginer des vagues de publications successives, qui commenceraient par les documents les plus significatifs. Actuellement, retrouver le budget d'un service donné dans un bloc d'informations budgétaires, rassemblées par politiques publiques depuis la loi organique relative aux lois de finances (Lolf) de 2001, est plus difficile qu'avec l'ordonnance de 1959, qui collait aux structures administratives.

Il importe qu'une donnée pertinente, dont la diffusion est commencée, a été validée et qui continue d'être collectée, continue d'être diffusée dans le temps, afin d'être suivie et de faciliter les comparaisons.

Un principe de diffusion par défaut serait utile : un report de la diffusion d'un document entrant dans le champ de la loi de 1978, décidé par la puissance publique, ne doit être possible que pour une durée limitée, éventuellement reconductible, mais pas indéfiniment.

Nous devons rendre les citoyens solidaires de la gestion des deniers publics pour traverser au mieux la période difficile qui s'annonce. Tel est bien l'enjeu essentiel de l'accès aux données publiques. En matière de bonne gestion, peu importe le bord politique. Certaines questions de politique publique gagneraient à être dépolitisées et évaluées sereinement, au regard de critères objectifs et appréciables par les citoyens, dans l'intérêt du bien public.

M. Christian Cointat, président. -Si la Cada acquiert le pouvoir de sanction, elle devra changer de structure et de taille, se doter de moyens, de personnel, d'un budget.

M. Samuel-Frédéric Servière. - Nous en sommes conscients. Nous l'assumons. Cela contribuera à enrichir le débat public, à approfondir la démocratie et à favoriser l'activité économique. L'accès aux données, c'est le civisme de demain.

Mme Corinne Bouchoux, rapporteure. - Nous sommes à un tournant de notre mission : après avoir auditionné les demandeurs d'une libération des données, nous devons aussi prendre en compte l'avis de ceux qui pensent que la loi de 1978 ne doit pas être bouleversée. Quelle est la méthode la plus appropriée ? Comment le Parlement doit-il se saisir de la question ? Faut-il une loi ? On nous a dit que nous étions encore à l'époque des calèches, alors que les automobiles circulent partout. Si nous n'instaurons pas un code de la route, nous allons au-devant de certaines difficultés...

M. Samuel-Frédéric Servière. - Nous sommes favorables à une nouvelle loi. Cela afficherait une volonté de progrès et clarifierait la situation. La MAP doit intégrer cette problématique. Ecrire une charte est intéressant ; il faut aussi changer le statut juridique de la Cada, assumons-le ! Les Etats-Unis, le Royaume-Uni, l'Australie, le Canada ne nous ont pas attendus pour s'intéresser à l'open data. Les rapports des organismes d'inspection et de contrôle, comme notre Cour des comptes, sont incomplets si les données correspondantes ne sont pas publiées. Le Canada applique de longue date la doctrine du gouvernement ouvert, en publiant systématiquement les rapports d'inspection.

Même si la loi renforce la Cada, c'est la pratique qui sera déterminante. Rendre accessibles les données publiques dans des formes utilisables sera bénéfique. Cela développera tout un écosystème, qui commence à voir le jour, autour de start-ups qui lancent des portails, des plateformes, comme dataville.fr, oeuvre de Sooyoos, collectent des données et les mettent à disposition. Ces structurateurs  facturent leurs prestations, mais des acteurs non commerciaux émergent aussi, comme notre partenaire Odis (observatoire de décideurs de l'industrie et des services), association à but non lucratif, surtout active dans le Nord, qui publie un palmarès des communes les mieux gérées, grâce au point de vue des directeurs financiers des collectivités, élaboré à partir d'une matrice qu'elle a conçue et leur a envoyée.

L'open data est riche de potentialités et approfondira la démocratie : nous confronterons ces données avec notre perspective centrée sur les citoyens. Les pays où les informations sur la délinquance, les problèmes de société ou les services publics sont publiques et utilisables sont plus solidaires.

Mme Catherine Procaccia. - Pour que l'open data fonctionne, faut-il imposer des contraintes ?

M. Samuel-Frédéric Servière. - Il faut des contraintes à tous les niveaux, « macro » comme « micro ». Le recours au juge administratif ne doit pas être la seule solution. Au niveau « micro »,  il faut définir des standards d'édition et de diffusion, sinon les documents sont inexploitables : Word, Excel, ou CSV ...

A une étape ultérieure, il faut articuler l'organisation intelligente des données et leur publication. Sinon, les sociétés iront à l'étranger pour utiliser les données. L'enjeu est aussi d'intéresser les citoyens à ces données. En renforçant leur expertise, en leur livrant les faits, les contraintes et les possibles, on lutte contre le populisme.

M. Christian Cointat, président. - Encore faut-il que les données soient compréhensibles !

M. Samuel-Frédéric Servière. - Les associations peuvent les retraiter. Ne pas comprendre, ce peut être ne pas utiliser ou mésuser. Le mésusage est possible ; mais, c'est l'avantage de la mise en ligne, il sera vite corrigé.

M. Christian Cointat, président. - Merci d'avoir enrichi notre réflexion.