I. IV. TRANSPARENCE ET RÉMUNÉRATION DANS L'INTÉRÊT DE TOUS
A. L'INSOUTENABLE GRATUITÉ DES DONNÉES
La très faible valeur, voire la totale gratuité, des données utilisées pour entraîner et spécialiser les modèles d'IA, semble aujourd'hui faire l'objet d'un large consensus de la part des sociétés de la tech.
Pour fonctionner, ces modèles nécessitent des puces de haut niveau, pour l'essentiel fournies par l'entreprise américaine Nvidia, des ingénieurs et des quantités considérables d'énergie, autant d'éléments dont nul ne revendique la gratuité. Dès lors, pourquoi les données seraient-elles le seul élément indispensable de la chaîne de valeur pour lequel personne ne souhaite verser une rémunération ?
La mission d'information a pu recueillir plusieurs justifications à cet état de fait qui constitue aujourd'hui la nouvelle doxa des entreprises de la tech, mais également un paradoxe. Les arguments avancés sont de trois ordres :
· tout d'abord, la nature même des données rendrait impossible ou trop complexe à établir toute forme de rémunération ;
· ensuite, les oeuvres générées par IA seraient comparables aux créations de l'esprit humain, où les données ne seraient que des sources d'inspiration ;
· enfin, la rupture technologique introduite par l'IA serait si majeure qu'elle justifierait pour les États un aménagement des règles existantes.
1. Selon la tech, des données gratuites par nature
Si les données sont un élément indispensable à l'entraînement des IA, leur nature même les singularise sous plusieurs aspects des puces ou des compétences technologiques.
a) Les données culturelles sont facilement accessibles
Le premier argument revient sur la facilité d'accès des données. Le développement massif de l'économie numérique ces vingt dernières années a en effet conduit à la digitalisation de la quasi-intégralité des contenus culturels dans le monde, dorénavant disponibles sur Internet. Comme précisé dans la partie II du présent rapport, les fournisseurs ont pu accéder à de gigantesques jeux de données, obtenus directement à l'aide de robots d'indexation ou en utilisant gratuitement des bases déjà constituées comme celles de l'américain Common Crawl, qui rassemble en 2025 trois milliards de pages pour plus de 400 Terabit33(*). Le développement des IA n'aurait pas été possible sans cette masse de données accessibles.
Dans les premiers temps de l'IA, cette facilité d'accès, y compris pour les contenus protégés, a donc instillé l'idée que les données n'avaient pas de valeur, puisqu'aucune démarche et aucun paiement n'était requis pour y accéder.
Une analogie : le marché de la musique enregistrée dans les années 2000
Ce mouvement n'est pas sans rappeler celui observé au tournant des années 2000 avec l'irruption des procédés de piratage à grande échelle par les réseaux pair-à-pair. Le marché de la musique enregistrée, qui a été le premier à en être victime, a ainsi vu son chiffre d'affaires en France divisé par trois entre 2002 et 2015, passant de 1,3 milliard d'euros à 426,4 millions.
L'industrie musicale a cependant su s'adapter à ce nouveau paradigme, grâce aux sites de streaming qui ont émergé comme Spotify ou Deezer et ont proposé des catalogues complets, ergonomiques, pour un abonnement d'un montant accessible au plus grand nombre. S'il est toujours possible de se procurer de la musique de manière illégale, cette pratique s'est cependant fortement contractée car elle nécessite des compétences techniques et une perte d'ergonomie que la majorité du public n'est pas prêt à fournir.
Il est regrettable de constater que les ayants droit n'ont pris conscience que trop tardivement du problème et n'ont pas su mettre en place des mécanismes de protection efficaces pour les oeuvres. Il est maintenant avéré que l'ensemble des contenus en ligne a d'ores et déjà été moissonné par les entreprises de la tech pour l'entraînement de leurs IA. Cette utilisation a été justifiée a posteriori par une argumentation juridique autour des concepts d'exception TDM en Europe et de « fair use » aux États-Unis (voir supra), mais la légalité de cette interprétation est l'objet de débats et devra probablement être jugée devant les tribunaux des deux côtés de l'Atlantique.
Les données ont donc pu être utilisées car largement disponibles et accessibles, y compris à l'aide d'arguments juridiques contestables, une caractéristique que ne partagent pas d'autres éléments indispensables de la chaîne de production d'une IA comme les puces informatiques avancées, l'énergie, les ingénieurs développeurs, pour lesquels la gratuité n'a jamais été envisagée.
b) Les données culturelles ne vaudraient rien en raison de leur masse
Corollaire de leur accessibilité et de leur gratuité, les données ont pu être utilisées en très grande quantité. Il n'existe pas d'estimation fiable et incontestée de la masse requise pour entraîner une IA, mais les spécialistes s'accordent pour dire qu'une quantité énorme est nécessaire, surtout pour les modèles de fondation d'IA générative qui peuvent répondre à une grande variété de requêtes dans les domaines de l'écrit, de l'image ou de la vidéo.
La masse même de ces données conduirait de facto à une valeur marginale quasi nulle pour chacune considérée indépendamment. Prise isolément, la valeur d'un livre, d'un film, d'une photo, serait infime et aucun élément n'est en soi indispensable pour entraîner la machine, à l'exception de données très spécialisées dans certains secteurs.
Comment estimer la valeur des données ?
Dans son rapport réalisé au nom du CSLPA sur la rémunération des contenus culturels utilisés par les systèmes d'intelligence artificielle remis en mai 202534(*), Joëlle Farchy signale l'existence de deux procédures destinées à quantifier la valeur des données :
- le « leave one out », qui consiste à comparer les résultats de sortie d'un modèle entre une version entraînée avec certaines données, et le même modèle entraîné sans ces données ;
- la « Shapley value35(*) », qui consiste, à l'inverse, à ajouter les données au modèle au fur et à mesure de manière incrémentale, et de tester l'amélioration de chaque itération sur le résultat final.
Ces deux méthodologies, très intuitives, ont cependant de sérieuses limites : d'une part, elles supposent d'entraîner plusieurs fois le même modèle dans des conditions différentes, ce qui a un coût d'autant plus prohibitif que de nombreuses données sont utilisées, d'autre part, elles ne sont pas totalement fiables compte tenu de la présence dans les bases de données de multiples contenus non étiquetés, et donc susceptibles d'être présents sans que l'expérimentateur ne le sache.
Une autre approche, plus simple à mettre en oeuvre, consiste enfin à mesurer la similarité entre les contenus générés par l'IA et les données d'entraînement, et donc d'attribuer une valeur plus ou moins grande à telle ou telle donnée.
Enfin, certains chercheurs ont également testé un modèle en apposant un filigrane spécifique à chaque donnée entrante, ce qui permet de retracer les sources principales utilisées par l'IA pour une de ses productions.
c) La rémunération serait trop complexe à établir faute d'interlocuteurs
La valeur réputée infime de chaque donnée est souvent mise en avant par les fournisseurs d'IA pour justifier l'absence de rémunération. Cet argument est d'autant plus avancé que les différents secteurs culturels présentent une très grande hétérogénéité dans leurs modalités d'organisation et de représentation. Ainsi, si l'ensemble des oeuvres d'un genre (musique, édition...) représente une très grande valeur pour l'entraînement de l'IA, et pourrait éventuellement faire l'objet de négociations avantageuses pour les ayants droit, tel n'est pas le cas si les créateurs souhaitent entamer des négociations sectorielles sans atteindre une taille critique suffisamment significative.
Les fournisseurs d'IA renonceraient donc à rémunérer les contenus culturels faute de l'existence d'un marché solide et fiable leur permettant d'acquérir rapidement les droits sur les oeuvres en limitant les coûts de transaction.
La réflexion sur la création d'un tel « marché de la donnée », dont le rapport précité de Joëlle Farchy étudie les conditions d'existence, serait donc un préalable à toute forme de rémunération, dans un secteur économique qui se développe extrêmement rapidement et soumis à une très forte concurrence.
2. La nature radicalement nouvelle des contenus culturels générés par l'IA
a) Des contenus totalement nouveaux
Une partie de la controverse sur l'usage des données par l'IA tient au fait que les créations générées par les modèles ne seraient que des répliques ou des imitations d'oeuvres existantes, d'où l'expression « quasi-oeuvres » déjà mentionnée. Dans ce cas, l'IA ne ferait que produire des contrefaçons assez élaborées pour rendre moins facilement discernables les sources.
Les concepteurs de modèle d'IA ne s'accordent pas sur cette vision. Selon eux, l'IA ne modifie pas des oeuvres existantes, mais s'en inspire, en extrayant les schémas, les régularités, le sens général, avant de proposer, à l'aide de mécanismes d'inférence, un résultat original.
b) Préserver la qualité et la diversité des contenus synthétiques
Face à la volonté de réguler l'accès aux données, les principaux fournisseurs soulignent les risques d'une réduction des bases de données qui aurait des répercussions sur la diversité et la qualité des productions générées. Ainsi, si aucun contenu européen n'a été utilisé afin d'entraîner une IA, les contenus générés demeureront dépendants des sources utilisées et véhiculeront une vision du monde qui ne serait pas la nôtre. Cette crainte est particulièrement sensible dans le domaine de l'information. En effet, une IA qui aurait été entraînée sur des données fausses ou complotistes fournira des informations de même nature. Ainsi, en mai 2025, le moteur IA du réseau X Grok a spontanément fourni, en réponse à des questions pourtant éloignées, des réponses accréditant l'existence en cours d'un « génocide blanc » en Afrique du Sud, ce qui semble plus traduire les obsessions de son propriétaire Elon Musk qu'une réalité avérée.
Plus largement, les États qui feraient le choix de limiter l'accès à leurs données culturelles ou informationnelles agiraient contre leurs propres intérêts en effaçant des productions synthétiques toute trace de leur culture.
Il y aurait donc un intérêt civilisationnel à accorder un libre accès aux données pour un pays qui souhaiterait continuer à faire rayonner sa culture.
3. Une technologie de rupture qui justifie une évolution des règles
a) Obtenir un avantage concurrentiel
Perçu comme une des grandes technologies qui façonneront le futur, le développement de l'IA est devenu un enjeu majeur pour assurer la souveraineté économique et politique des États. À ce titre, la création d'un environnement favorable à son développement est une priorité, plusieurs fois réaffirmée aussi bien par les États-Unis que par l'Europe.
La Commission européenne cherche ainsi à développer une stratégie européenne de l'IA, formalisée dans plusieurs documents36(*), le dernier datant du mois d'avril 2025 pour « promouvoir l'IA à l'échelle du continent37(*) ». De manière significative, la question des données et du respect de la propriété intellectuelle n'y est mentionnée qu'une seule fois, alors que l'attention porte prioritairement sur le développement des infrastructures techniques nécessaires. De facto, et comme le souligne dès son préambule la section « Copyright » de la troisième version du code de bonne pratique prévu à l'article 53 du RIA (voir supra), « la conformité des engagements doit être proportionnée et proportionnelle à la taille et aux capacités des fournisseurs, en prenant en compte les intérêts des petites entreprises ». La stratégie européenne se comprend donc comme visant à créer l'environnement le plus favorable possible au développement de l'IA pour faire de l'Europe le « continent leader » en la matière.
À l'occasion de son déplacement à Bruxelles, la mission d'information a eu l'occasion de mieux comprendre la position de la Commission européenne. Une élévation trop significative des standards en matière de protection des droits d'auteur ferait, selon elle, peser un risque compétitif sur le développement des IA européennes, alors même que les États-Unis et la Chine encourageraient de manière agressive leurs propres technologies.
Cette position très proche de celle défendue par la France durant les négociations sur le projet de RIA, met donc en opposition les défenseurs des droits d'auteur et les entreprises européennes.
b) Une stratégie assumée de puissance
Les enjeux liés à l'IA dépassent cependant dorénavant le secteur économique. Les États ont ainsi élevé le développement de ces technologies au rang de priorité nationale et mettent en avant le risque de déclassement pour justifier des évolutions de la législation.
Dans un mémorandum adressé le 13 mars 2025 à l'administration américaine, la société OpenAI se livre ainsi à un plaidoyer pour le développement des IA américaines, mêlant des arguments économiques et géopolitiques. La liberté qui doit être laissée aux entreprises américaines n'est pas seulement présentée comme un impératif économique, mais également comme une priorité au titre de l'intérêt national, la République Populaire de Chine étant nommément visée comme le principal ennemi à combattre.
De manière significative, ce document ne mentionne à aucun moment l'Europe comme un concurrent potentiel, mais alerte sur les risques que ferait peser sur le développement des IA américaines la mise en oeuvre d'une régulation sur les données. OpenAI encourage ainsi le gouvernement américain à « façonner les discussions politiques internationales autour des droits d'auteur, et à travailler à empêcher les pays moins innovants d'imposer leur régime juridique aux entreprises américaines d'IA et à ralentir leurs progressions ». Cette allusion évidente au RIA, qui exprime au passage un jugement que l'on pourrait juger méprisant à l'égard des pays européens, souligne que la question de l'accès aux données dépasse le simple cadre de la concurrence entre entreprises.
Il existe donc de nombreux arguments qui plaideraient en faveur de la quasi-gratuité des données, allant de leur nature à des considérations géopolitiques. Avancés à tour de rôle devant la mission d'information, ils illustrent les difficultés auxquelles sont confrontés les ayants droit, accusés tour à tour de ne pas comprendre les spécificités de l'IA, de surévaluer la valeur de leurs oeuvres dans ce modèle économique, et d'entraver le développement d'une technologie non seulement prometteuse, mais également incontournable pour le futur.
* 33 Un terabit représente 1012 bits
* 34 https://www.culture.gouv.fr/fr/nous-connaitre/organisation-du-ministere/Conseil-superieur-de-la-propriete-litteraire-et-artistique-CSPLA/travaux-et-publications-du-cspla/missions-du-cspla/mission-relative-a-la-remuneration-des-contenus-culturels-utilises-par-les-systemes-d-intelligence-artificielle
* 35 Du nom de Lloyd Shapley, qui a démontré en 1953 un important résultat en théorie des jeux sur la répartition des gains dans un jeu coopératif.
* 36 https://digital-strategy.ec.europa.eu/en/policies/european-approach-artificial-intelligence
* 37 https://digital-strategy.ec.europa.eu/en/library/ai-continent-action-plan