GLOSSAIRE OPEN DATA

API : Application Programming Interface , ou interface de programmation : permet à une application de se « brancher » sur une autre application pour échanger des données.

Dans le cadre de l' open data , la fourniture d'une API associée à des données permet à la personne voulant exploiter ces données d'avoir un accès facilité (sélection d'une partie des données, prétraitement, ...).

Une visionneuse de données peut également disposer d'une API. Ainsi GoogleMap propose une API permettant au programmeur d'afficher ses propres données sur un fond cartographique. En fournissant cette API, Google n'expose pas ses données cartographiques qui restent sur ses propres serveurs.

Big data (données en masse) : ensembles de données très volumineux pour le traitement desquels les outils traditionnels (bases de données relationnelles, algorithmes standards, modes de représentation, ...) sont inadaptés.

La collecte des navigations sur Internet ou encore la collecte de géolocalisations de téléphones portables, ainsi que d'autres données personnelles agglomérées dans des bases de données très volumineuses font parties de ce que l'on désigne par « big data », c'est pourquoi ce terme est souvent associé à la mise en danger de la vie privée.

CKAN : Comprehensive Knowledge Archive Network , logiciel à la base de la plateforme data.gov.uk (plateforme open data du Royaume-Uni). Il a été adopté depuis décembre 2013 par data.gouv.fr.

CSV : Comma Separated Values (valeurs séparées par des virgules) : format simple et ouvert 360 ( * ) pour représenter des données de type tableur. Ce format ne comporte pas d'informations de mise en page mais, sous réserve que les colonnes du tableur soient un minimum documentées, il permet une exploitation automatisable des données qu'il représente.

Données, format de données : les données sont enregistrées sur un support physique : carte perforée autrefois, disque dur, disque SSD, cd-rom, ..., aujourd'hui. Ce qui est enregistré sur un support physique représente, par convention, une suite de 0 et de 1 (par exemple les trous et les pleins d'une carte perforée, les creux et les plats d'un CD-ROM, ...). Au plus bas niveau, l'ordinateur manipule donc des 0 et des 1. Ces suites de 0 et 1 peuvent représenter des nombres, des images, des lettres, ... On peut par exemple convenir que :

1000000 représente un espace

1000001 représente un A

1000010 un B

1000011 un C

1000100 un D, etc...

Dans ce dernier cas on dira que le format de donnée, c'est à dire la manière d'interpréter les suites de 0 et 1, est un format « texte ». Ce format texte peut lui-même, par exemple, être structuré à l'aide de balises repérées par les caractères < et >, où l'on distinguera les balises ouvrantes des balises fermantes repérées par le caractère / :

<balise1>

<balise2>Texte particulier <balise3>autre texte</balise3>

texte 3.</balise2>

</balise1>

C'est ainsi qu'est construit, de manière très simplifiée, le format XML qui est un format texte avec des balises. On peut encore spécialiser le XML en précisant quels sont les noms possibles pour les balises et quelles sont les règles d'organisation des balises entre elles. On obtient ainsi de nouveaux formats de données, par exemple le HTML , qui permet de décrire les pages web qui seront lisibles par des navigateurs Internet tels que Internet Explorer ou encore Firefox .

Il faut retenir de cette présentation très simplifiée que, d'une part, des données ne sont interprétables que si l'on connaît le format de données associé , d'autre part, il y a imbrication des formats à la manière de poupées russes. Le HTML est du XML 361 ( * ) qui est du texte lui-même constitué de 0 et de 1.

Données brutes : données n'ayant pas subi de traitement, données le plus en amont possible à la différence de données agglomérées ou mises en forme graphiquement.

Les utilisateurs de l'open data demandent généralement les données les plus brutes possibles.

Exemple : le contenu de la base Ameli au Sénat qui contient tous les amendements, plutôt que les données d' Amenda qui donnent des statistiques sur les amendements 362 ( * ) .

Données en masse : voir big data.

Données structurées : données dont le format permet de mettre en évidence la structure par opposition à des données dites « à plat ».

Exemple : un texte word comportant des styles « titre 1 », « titre 2 », ... faisant apparaître le plan du document, par opposition à un document où les titres ne sont matérialisés que par un formatage de caractères.

Exemple plus poussé : une description XML d'un texte en discussion faisant apparaître le titre du PJL, son auteur, sa date de dépôt, ..., son découpage en articles, ses références aux articles de codes ou aux lois cibles, ...

Les données structurées se prêtent mieux à un traitement automatique fiable que des données à plat dans lesquelles il faut détecter des structures a posteriori .

La directive européenne 2013-98 du 26 juin 2013 considère que seules les données structurées peuvent être qualifiées de données lisibles par une machine .

La structuration des données est l'étape 2 de la notation en étoiles de la démarche open data selon Tim Berners-Lee 363 ( * ) .

DRM : Digital Right Management : dispositif technique destiné à limiter l'utilisation d'un contenu numérique ou d'un matériel.

Exemple : les livres numériques loués en ligne avec des DRM qui ne peuvent être lus que sur les liseuses numériques associées à l'acheteur.

Format de données : voir données, format de données.

Format ouvert : il s'agit d'un format de données (la manière dont sont codées les données) dont les spécifications sont publiques et libres d'usage et dont la mise en oeuvre est sans restriction , à la différence d'un format dit « propriétaire ».

Les formats ouverts n'imposent pas l'usage d'un logiciel unique pour être exploités. On parle alors d' interopérabilité . Le format CSV (format tabulaire) ainsi que beaucoup de formats à base de XML sont des formats ouverts fréquemment rencontrés dans l' open data .

L'utilisation de formats ouverts constitue l'étape 3 d'une démarche open data selon Tim Berners-Lee 364 ( * ) (la première étant l'ouverture sous licence ouverte et la deuxième l'utilisation de données structurées ).

Interface de programmation - voir API.

Licence ouverte ou licence libre : licence qui autorise la réutilisation et l'exploitation des données avec le minimum de restrictions.

Etalab propose une licence ouverte qui fait référence en France. Elle n'impose aux utilisateurs que de citer leurs sources et la date de dernière mise à jour des données. Cette licence est compatible avec l' Open Government License (Royaume-Uni) et la Creative Common Attribution 2.0 ( Open Knowledge Foundation ). 365 ( * )

Internet : Réseau mondial interconnectant des ordinateurs partageant le même protocole d'échange, appelé TCP/IP ( Transmission Control Protocol/Internet Protocol) . Sur ce réseau ont été développées différentes applications comme le courrier électronique, le Web (parfois confondu avec Internet lui-même), différents protocoles d'échange d'informations, ...

Métadonnées : les métadonnées sont des données fournissant des renseignements sur d'autres données. Par exemple, pour un document Word : le titre, l'auteur, la date de création, la date de dernière modification, les thèmes, ...

Open data (données ouvertes) : mise à la disposition de tous de données (numériques) pour une libre utilisation.

L'ouverture s'oppose en principe à toute restriction quant à la réutilisation : pas de droit d'auteur ( copyright) ni de redevance, hormis, éventuellement, les frais de mise à disposition, pas de DRM (gestion de droits) , idéalement des formats ouverts .

L' open data suppose à la fois une mise à disposition physique des fichiers de données (serveur web ) et une licence ouverte fixant les droits de réutilisation des données.

Il s'agit en principe de données adaptées aux traitements automatiques et non pas nécessairement de documents lisibles par l'homme.

PDF : Portable Document Format (format de document multiplateforme). Le PDF est un format de données inventé par l'entreprise américaine Adobe . Il permet d'obtenir à l'écran un document très proche d'un document imprimé avec un grand respect de la mise en forme. Il est en général assez simple de produire un document PDF quel que soit le format des données d'origine. En revanche, le PDF, trop peu structuré, est mal adapté à une exploitation par des machines, ce qui en fait un format à éviter dans le cadre de l' open data .

Le PDF/A est un sous ensemble du PDF destiné à l'archivage de document.

RDF : Resource Description Framework est un standard permettant de décrire des relations de type : (sujet, prédicat, objet) (par exemple (Jean-Pierre Bel, préside, le Sénat). Sujet, prédicat et objet peuvent être des URI .

Le RDF est un des piliers du web sémantique .

RGI : Référentiel Général d'Interopérabilité . Le RGI est un document décrivant un ensemble de normes et bonnes pratiques communes aux administrations publiques françaises dans le domaine informatique. Son élaboration, qui a commencé dès janvier 2006, a été conduite par la Direction générale de la modernisation de l'État (DGME). Ce document recommande en particulier les formats de données pour les échanges de données entre administrations et entre l'administration et le public ou les entreprises.

URL, URI : URL = Uniform Resource Locator est l'adresse d'un document, d'une image, d'un fichier, ou plus généralement d'un objet présent sur Internet. Par exemple, http://www.senat.fr/compte-rendu-commissions/20140407/mci_cada.html est l'URL du compte rendu des auditions de votre mission d'information pour la semaine du 7 avril 2014.

L' URI ( Uniform Resource Identifier ) est une généralisation de l'URL dans la mesure où, en plus de pouvoir désigner des objets présents sur Internet (l'URI est alors un URL), il peut aussi désigner des notions ou objets qui n'y sont pas diffusés. Par exemple, dans la nomenclature RDF de l'Insee, http://rdf.insee.fr/geo/Commune désigne la notion de commune 366 ( * ) .

Scraping : technique consistant à parcourir automatiquement des sites web à l'aide de programmes pour en extraire des données. Le scraping est souvent utilisé lorsque les données correspondantes ne sont pas disponibles en open data. Il est généralement coûteux, car il nécessite la réalisation de programmes spécifiques aux sites web que l'on veut traiter et aux données que l'on souhaite obtenir.

Visualisation de données ou Data Visualization : exploitation des données dans des représentations graphiques (nuages, graphes, animation, représentation sur une carte géographique, ...).

http://abonnes.lemonde.fr/politique/visuel/2013/07/17/l-impossible-simplification-des-aides-aux-entreprises_3448359_823448.html : exemple de visualisation de données qui exploite les données publiées par l'Inspection générale des finances sur data.gouv.fr et qui concernent les aides de l'État aux entreprises 367 ( * ) .

Web ou World Wide Web : (littéralement « la toile d'araignée mondiale » ) : est une application d'Internet (souvent confondue avec Internet lui-même) consistant à organiser l'information sous forme de documents composites (textes, images, vidéos, ...) reliés entre eux par des liens hypertextes, permettant de naviguer d'un document à l'autre.
http://www.senat.fr est le site web du Sénat.

Web sémantique : encore appelé web 3.0 ou encore web des données est une évolution du web visant à améliorer sa structuration et à y introduire une dimension sémantique dans le but de la rendre plus intelligible par des machines.

Les promoteurs du Web sémantique recommandent en particulier l'utilisation de modèles informatiques comme le RDF ( Ressources Description Framework : cadre de description des ressources) qui permettent d'établir des relations entre les données du web plus complexe que les simples liens hypertextes. Il est à noter que ces interrelations entre données ne sont pas centralisées, chacun étant libre d'établir des propres relations.

Le Web Sémantique est, selon le classement en cinq étoiles de Tim Berners-Lee 368 ( * ) , l'aboutissement de l'open data (niveau 4* et 5*).

Wiki : site web qui permet très facilement la mise à jour des documents (en même temps que l'on consulte). Un wiki permet un travail collaboratif sur le contenu documentaire du site. Il suppose que toute modification soit historicisée.

Exemple : l'encyclopédie en ligne Wikipédia.

XML : eXtensible Markup language (langage de balisage extensible) définit des règles d'écriture de fichiers de données pour qu'ils soient lisibles aussi bien par une machine que par l'homme. Un fichier XML contient des données structurées par des `balises' repérée par les chevrons < et >. Exemple :

<personnes>

<individu id="1001">

<nom>Dupont</nom>

<prénom>Julien</prénom>

<naissance>1978-01-24</naissance>

</individu>

<individu id="1002">

<nom>Durand</nom>

<prénom>jean</prénom>

<naissance>1956-03-14</naissance>

</individu>

...

</personnes>

Chaque fichier XML est associé à une « grammaire » qui détermine quelles balises peuvent apparaître dans le fichier, leur agencement, les types de données, ...


* 360 Voir format ouvert dans ce glossaire

* 361 En toute rigueur, le HTML n'est pas du XML mais lui est simplement apparenté, car le XML est plus complexe que ce qui est exprimé ici et suit des règles que le HTML ne suit pas.

* 362 Les données de la base Ameli sont effectivement publiées sur la plateforme open data du Sénat sous la forme native d'une base relationnelle décrite en SQL - voir http://data.senat.fr/ameli/

* 363 Voir dans le présent rapport l'encadré « Les étoiles de Tim Berners-Lee ».

* 364 Voir l'encadré « Les étoiles de Tim Berners-Lee ».

* 365 Voir les encadrées sur les licences.

* 366 Voir http://rdf.insee.fr/geo/note-uri.html

* 367 Voir également l'encadré sur la visualisation de données.

* 368 Voir l'encadré « Les étoiles de Tim Berners-Lee ».

Les thèmes associés à ce dossier

Page mise à jour le

Partager cette page