I. III. UN ENCADREMENT JURIDIQUE EN CONSTRUCTION AU NIVEAU MONDIAL

Le développement extrêmement rapide des IA génératives au début de la décennie 2020 et surtout la forte médiatisation de ChatGPT, développé par la société OpenAI qui réalise déjà un chiffre d'affaires annuel de 10 milliards de dollars et compte 500 millions d'utilisateurs par semaine, a révélé le retard des législations sur la technologie, en particulier en matière de droits d'auteur.

Dès le 19 septembre 2023, plusieurs associations d'écrivains américains, dont George R.R Martin, auteur de la saga Games of Thrones, ont déposé une plainte devant le tribunal fédéral de New York. Les plaignants accusent ChatGPT d'avoir été « entraîné » en utilisant leurs oeuvres, sans autorisation ni rémunération, ouvrant la voie à des créations entièrement générées par l'IA « à la façon » de tel ou tel auteur.

Comme on l'a vu, l'essor des modèles de fondation d'IA générative pose de nombreuses questions juridiques, économiques et éthiques, qu'il est d'autant plus difficile de résoudre que l'on ignore encore leurs capacités à court et moyen terme, tant la technologie évolue rapidement et s'étend à un plus grand nombre de domaines.

Dans ce contexte, l'Europe se retrouve entraînée dans une forme de course contre la montre pour tenter de réguler l'IA avant qu'il ne soit trop tard, tout en ayant le souci de ne pas brider l'innovation.

Les incertitudes juridiques qui entourent l'IA concernent à la fois l'amont, avec la question de la rémunération des données, et l'aval, avec le statut juridique des oeuvres générées par IA.

· En amont, aucune législation spécifique ne traitait d'IA en Europe avant l'adoption, en 2025, du Règlement sur l'Intelligence Artificielle (RIA). Jusqu'alors, les concepteurs d'IA ont dû évoluer dans un cadre juridique incertain en matière de protection des droits d'auteur, arrêté par la directive ad hoc de 2019. Il n'est cependant pas certain que le RIA soit en mesure d'apporter la sécurité juridique nécessaire.

· En aval, le droit d'auteur doit composer avec l'afflux (voir partie II du présent rapport) des oeuvres générées ou assistées par IA, là encore sans qu'un cadre dédié, protecteur des ayants droit, ait été édicté.

Les prochains mois seront décisifs pour poser les fondations d'une législation adaptée à cette nouvelle technologie.

A. LA DIRECTIVE DU 17 AVRIL 2019 SUR LES DROITS D'AUTEUR : UN SOCLE DÉSORMAIS DÉPASSÉ

La directive européenne du 17 avril 2019 sur les droits d'auteur et les droits voisins dans le marché unique numérique (DAMUN) a posé un cadre à l'époque très avancé et protecteur, qui a su tenir compte des spécificités de l'espace numérique.

Cette législation a cependant été rapidement rattrapée par l'irruption des IA génératives. Elle constitue cependant encore aujourd'hui la base juridique qui a permis leur développement en Europe. Les fournisseurs d'IA ont donc su utiliser à leur profit le flou juridique d'un texte qui n'avait pas été prévu pour cet usage.

1. Les exceptions « text en data mining « (TDM)

Le titre II de la directive prévoit deux exceptions au droit d'auteur, pour la fouille de textes et l'extraction de données, dites TDM (« text and data mining »). Elles ont été transposées en droits français aux articles 122-5 et 122-5-3 du code de la propriété intellectuelle.

La fouille de textes et l'extraction de données

Ce mécanisme est défini à l'article 2 de la directive précitée, qui précise qu'il faut entendre par fouille de texte et de données « toute technique d'analyse automatisée visant à analyser des textes et des données sous une forme numérique afin d'en dégager des informations, ce qui comprend, à titre non exhaustif, des constantes, des tendances et des corrélations ».

· La première exception, prévue à l'article 3 de la directive, est réservée aux reproductions et extractions « effectuées par des organismes de recherche et des institutions du patrimoine culturel, en vue de procéder, à des fins de recherche scientifique, à une fouille de textes et de données sur des oeuvres ou autres objets protégés auxquels ils ont accès de manière licite. ». Présente de longue date dans le droit de la propriété intellectuelle, cette exception permet aux laboratoires de recherche publics de disposer en toute sécurité des données présentes dans l'espace numérique à des fins de recherche.

· La seconde exception, qui figure à l'article 4 de la directive, prévoit une exception aux droits d'auteur, accessible à tous, « pour les reproductions et les extractions d'oeuvres et d'autres objets protégés accessibles de manière licite aux fins de la fouille de textes et de données ».

Cette dernière exception TDM était initialement pensée pour permettre les activités scientifiques menées par des institutions non publiques. Rejetée dans l'étude d'impact initiale, car considérée comme attentatoire au droit d'auteur, elle a finalement été réintroduite par voie d'amendement.

a) Les limites de l'exception TDM

L'exception TDM prévue à l'article 4 de la directive précitée de 2019 est cependant limitée de trois manières.

(1) Le respect des contenus protégés

Tout d'abord, ne peuvent faire l'objet de fouilles que les contenus « accessibles de manière licite ». Sont donc exclus par définition les contenus protégés, par exemple, via un accès payant comme l'essentiel des productions de presse ou audiovisuels. Cette précision est d'autant plus essentielle que la très grande majorité des contenus culturels sont désormais accessibles en ligne, que ce soit gratuitement ou moyennant l'acquittement d'une certaine somme. La fouille de données ne peut donc trouver à s'appliquer que pour des oeuvres librement accessibles.

(2) La faculté d'« opt-out »

Ensuite, le 3e paragraphe de l'article 4 prévoit que « L'exception ou la limitation prévue au paragraphe 1 s'applique à condition que l'utilisation des oeuvres et autres objets protégés visés audit paragraphe n'ait pas été expressément réservée par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ».

Les titulaires de droit peuvent donc s'opposer de manière explicite à l'utilisation de leurs données ; on parle alors de clause de retrait ou « d'opt-out ». Les formalités ne sont pour autant pas précisées, l'article indiquant simplement que la réserve de droits doit être faite « de manière appropriée », à l'aide de procédés lisibles par machine. Ce flou est révélateur du fait qu'en 2019, cette disposition était considérée comme non prioritaire, l'attention étant alors plutôt focalisée sur les contenus protégés et sur le piratage.

Il n'existe donc pas de méthodologie unifiée ou simple pour que les ayants droit puissent faire valoir l'option d'opt-out, à tel point que certains ont pu s'interroger devant la mission d'information sur la compatibilité de cette disposition avec l'article 5 de la Convention de Berne pour la protection des oeuvres littéraires et artistiques du 9 septembre 1886, qui indique que « la jouissance et l'exercice de ces droits [les droits d'auteur] ne sont subordonnés à aucune formalité ».

(3) Le test en trois étapes

Enfin, et comme toutes les limitations au droit d'auteur, l'exception demeure soumise au respect du test dit en trois étapes. Défini dans plusieurs traités internationaux, ce test, utilisé par les juridictions comme par les législateurs, est repris au paragraphe 5 de l'article 5 de la directive européenne du 22 mai 2001 sur l'harmonisation de certains aspects du droit d'auteur et des droits voisins dans la société de l'information.

Le test en trois étapes

L'idée générale est que les exceptions au droit d'auteur doivent être réduites et de portée étroite. Concrètement, le juge ou le législateur sont amenés à poser trois questions :

1. L'exception est-elle bien autorisée ?

2. L'exception porte-t-elle atteinte à l'exploitation normale de l'oeuvre ?

3. L'exploitation porte-t-elle un préjudice injustifié aux droits des auteurs ?

2. Une exception détournée ?

Depuis son adoption, l'exception TDM a été interprétée de manière très large, y compris pour des usages non prévus en 2019. De fait, les fournisseurs d'IA ont bénéficié d'un cadre juridique, certes ambigu, mais bien réel, pour justifier leur utilisation des données, et l'exception a été largement mise à profit pour le lancement des IA génératives et sert encore aujourd'hui de fondement juridique à leur entraînement.

La mission d'information, lors de son déplacement à Bruxelles le 12 mai 2025, a ainsi pu échanger avec l'eurodéputé Axel Voss, rapporteur de la directive de 2019 sur les droits d'auteur, qui a rappelé que cette exception n'avait pas été introduite à l'origine pour des modèles d'affaires, mais que sa rédaction peu satisfaisante avait ouvert le champ à un usage plus large. Ainsi, l'étude préparatoire de mars 2014 consacrée à cette exception, réalisée à la demande de la Commission européenne, ne contient aucune référence à un usage par les machines, et met au contraire l'accent sur l'intérêt de l'exception en matière de recherche scientifique10(*). La professeure Alexandra Bensamoun, lors de son audition devant la commission le 7 mai 2025, a exprimé la même position : « Rejetée au stade de l'analyse d'impact, car considérée comme trop attentatoire au droit d'auteur et aux droits voisins, elle a finalement été introduite par voie d'amendement à l'article 4 de la directive. On ne voit pas tellement d'indices qui permettraient d'exclure l'entraînement de l'IA générative du champ d'application de la directive ».

Cependant, au regard des limites à l'exception, trois incertitudes demeurent, qui font peser un réel danger à moyen terme sur l'ensemble des modèles d'IA. En effet :

· aucune disposition ne permet d'appliquer l'exception à des contenus protégés, utilisés sans le consentement des ayants droit. Or il existe peu de doutes, y compris de la part des fournisseurs, que de tels contenus ont bien été moissonnés pour l'entraînement des IA ;

· si le mécanisme d'opt-out n'est pas précisé de manière explicite, il ne fait là encore guère de doute que les fournisseurs d'IA ont pu passer outre et utiliser des contenus libres d'accès, mais dont les ayants droit avaient explicitement interdit l'usage ;

· enfin, il est loin d'être certain, compte tenu du développement des IA, que leur utilisation des données respecterait le test en trois étapes qui fonde le droit d'auteur dans le droit international.

En la matière, les fournisseurs d'IA ont semblé agir suivant une logique propre à la pensée libertarienne américaine, théorisée en particulier par l'entrepreneur Peter Thiel11(*) il y a dix ans. Celle-ci consiste, pour développer une entreprise et acquérir rapidement une position de monopole, à aller vite, à ignorer les règles, et à régler ultérieurement les questions juridiques. Cette philosophie a guidé l'essentiel du développement économique d'Internet depuis le début des années 2000, la législation ayant toujours un temps de retard sur l'innovation et les pouvoirs publics des différents pays étant toujours hésitants à freiner le développement des entreprises de haute technologie.

3. L'intervention des tribunaux

La plupart des entreprises qui développent des IA génératives affirment que les doctrines de l'utilisation équitable, appelée « fair use » aux États-Unis, protègent leur pratique consistant à récupérer des données et à les utiliser pour l'entraînement sans compenser - ni même créditer - leurs propriétaires. Elles soutiennent qu'elles ont le droit d'utiliser tout contenu accessible au public pour l'entraînement et que leurs modèles produisent en fait des oeuvres « transformatrices » (voir partie IV du présent rapport).

Dans un contexte juridique très mouvant, qui peine à suivre le rythme de la technologie, les tribunaux des deux côtés de l'Atlantique sont de facto appelés à pallier les insuffisances et les incertitudes des législations existantes.

a) En Europe : la prudence dans l'utilisation de l'exception TDM
(1) Une première décision à Hambourg...

Le Tribunal de Hambourg a rendu, le 24 septembre 2024, une première décision concernant l'exception TDM pour l'entraînement d'une IA.

Dans le cas d'espèce, l'organisme à but non lucratif allemand LAION, dont l'activité principale est la mise à disposition publique et gratuite d'une banque de données d'entraînement pour les IA, a publié un set de données nommé LAION-5B, utilisé pour entraîner certains systèmes d'IA génératives. Il comprenait en particulier un lien hypertexte conduisant vers une image mise en ligne et vendue sur le site internet du photographe Robert Kneschke. Informé de l'usage fait de sa création, le photographe a accusé LAION d'avoir téléchargé une copie d'une de ses photographies alors que les conditions d'utilisation du site interdisaient l'utilisation des images par des « programmes automatisés ». LAION a invoqué, pour sa défense, l'exception TDM et le tribunal a considéré que les reproductions opérées par LAION avaient bien été effectuées à des fins scientifiques, et étaient donc couvertes par l'exception à des fins de recherches prévue à l'article 3 de la directive.

Le tribunal a précisé que celle-ci ne doit pas être entendue d'une manière trop restrictive. Les juges ont ainsi reconnu que, bien que la création du jeu de données ne puisse pas être en tant que telle considérée comme un gain de connaissance, cette base de données en constituait une étape essentielle. En ce sens, le tribunal a considéré que le fait que le jeu de données soit publié gratuitement et ouvertement, donc sans objectif commercial, pouvait permettre à des chercheurs d'en bénéficier et donc de créer un gain de connaissance.

Dans une autre mesure, cette décision a également précisé l'exception TDM posée à l'article 4, plus particulièrement en ce qui concerne la notion d'opt-out. La DAMUN indique que cette réserve peut être exprimée notamment dans le cadre de conditions générales d'utilisation mais « au moyen de procédés lisibles par machine ». En l'espèce, l'opt-out était inscrit dans les conditions générales du site internet sur lequel la photographie était reproduite, sous la forme d'un texte et non d'un procédé technique particulier, ce que les juges ont trouvé suffisant pour que l'opt-out soit considéré comme valablement manifesté. L'exception de l'article 4 ne pouvait donc pas s'appliquer en l'espèce car l'opt-out avait été suffisamment exprimé.

La décision du tribunal allemand, finalement favorable au développement de l'IA, n'a donc été justifiée que par le statut à but non lucratif de LAION, et par le fait que son action pouvait participer d'un effort de recherche scientifique.

(2) ...en attendant la Cour de Justice de l'Union européenne

La Cour de Justice de l'Union européenne (CJUE) devra très vraisemblablement se prononcer, à terme, sur l'étendue de l'exception TDM. Elle pourrait en avoir l'occasion en 2026. En effet, à l'initiative de l'éditeur hongrois Like Company, une question préjudicielle lui a été adressée le 3 avril 2025. L'éditeur conteste l'utilisation par le moteur de recherche Google et son IA Gemini de contenus de presse, ouvrant la voie à une jurisprudence globale sur l'exception TDM. 

b) Aux États-Unis : quelles limites au « fair use » ?
(1) Un « fair use », très largement invoqué

Les fournisseurs américains d'IA ont largement utilisé les données disponibles en ligne pour entraîner leurs IA en s'abritant derrière la notion anglo-saxonne de « fair use », ou « usage loyal ». Elle correspond en partie aux exceptions prévues dans le droit français et européen.

Le fair use aux États-Unis

Le « fair use » est défini à l'article 107 du Code des États-Unis. Son usage a donné lieu à une abondante jurisprudence. Il vise principalement à permettre l'utilisation de contenus protégés dans un objectif de copie privée, de recherche, de satire, ou encore d'enseignement. Le juge l'apprécie au regard de quatre critères :

(1) L'objectif et la nature de l'usage, notamment s'il est de nature commerciale ou éducative et sans but lucratif ;

(2) la nature de l'oeuvre protégée ;

(3) la quantité et l'importance de la partie utilisée en rapport à l'ensemble de l'oeuvre protégée ;

(4) les conséquences de cet usage sur le marché potentiel ou sur la valeur de l'oeuvre protégée.

Une conception très large de la doctrine du « fair use » a été mise en avant par les concepteurs des modèles d'IA pour justifier leur usage des données, suivant en cela une logique que le monde numérique applique depuis les origines. Ainsi, Mustafa Suleyman, responsable de l'Intelligence artificielle de Microsoft, actionnaire de la société OpenAI, a publiquement déclaré sur la chaîne américaine CNBC12(*) en 2024 : « Je pense qu'en ce qui concerne les contenus qui sont déjà présents sur le web ouvert, le contrat social depuis les années 90 a été qu'on peut les utiliser de manière équitable. N'importe qui peut les copier, les récréer, les reproduire. C'est le libre usage, si vous voulez, c'est ce que l'on a compris »

(2) Une première décision dans le Delaware

Par un jugement du 11 février 2025, la Cour fédérale du Delaware a cependant reconnu une violation du droit d'auteur par la société Ross Intelligence pour l'utilisation non autorisée d'éléments de résumés de la base de données juridiques « Westlaw » appartenant à Thomson Reuters, dans le but d'entraîner son IA juridique, laquelle est destinée à analyser des documents et à effectuer des recherches.

La société Ross estimait que son utilisation des résumés protégés par le droit d'auteur était légalement défendable car elle était « transformatrice », c'est-à-dire qu'elle réutilisait les résumés pour servir une fonction ou un marché sensiblement différent. Le tribunal n'a cependant pas retenu ce raisonnement qui repose sur le « fair use », considérant que l'usage n'était pas suffisamment transformateur et servait le même objectif commercial que Thomson Reuters.

Ce jugement, qui devrait faire l'objet d'un appel, ne porte cependant pas un coup d'arrêt à l'usage des données. En effet, la décision du tribunal établit une distinction entre l'IA générative et l'IA spécialisée qu'utilisait Ross. Il n'est pas donc pas évident que cette logique puisse s'appliquer aux IA génératives.

Lors de son audition devant la commission, la professeure Alexandra Bensamoun a évoqué cette affaire, en établissant un parallèle avec le droit européen : « Il y a eu récemment une décision intéressante dans une affaire Ross Intelligence , même si elle ne portait pas précisément sur l'IA. Le juge a estimé que l'opération en cause ne relevait pas du fair use. Cela signifie que le droit exclusif n'a pas été respecté. Or, aux États-Unis, les dommages-intérêts peuvent être punitifs. Ce n'est pas notre système. Nous avons, en principe, une réparation intégrale : rien que le préjudice, mais tout le préjudice. En propriété intellectuelle, ce principe a été légèrement infléchi, sous impulsion européenne, mais en cas de faute lucrative, notre modèle atteint ses limites. Aux États-Unis, les dommages-intérêts excèdent largement le préjudice subi et vont jusqu'au punitif. C'est pourquoi les contentieux peuvent avoir des conséquences considérables sur le marché. Aussi, il est probable que certaines procédures s'éteignent par transaction. C'est une culture que nous gagnerions à acquérir en France. »

(3) Une forte pression de la nouvelle administration américaine pour protéger les géants de la tech

Un débat extrêmement sensible a actuellement lieu aux États-Unis sur le fondement juridique du « fair use » à propos de l'utilisation de données protégées lors de la phase d'entraînement des IA.

Dans un rapport remis en mai 2025, le Bureau du Copyright des États-Unis (United States Copyrigt Office) émet des doutes sur la légitimité d'un usage massif du fair use pour justifier l'utilisation des données par les concepteurs d'IA13(*). Tout en reconnaissant la flexibilité et l'adaptabilité de cette doctrine, le Bureau formule de sérieuses réserves sur son extension à des usages commerciaux : « Faire un usage commercial d'une vaste collection de contenus protégés pour produire des contenus qui entrent en compétition avec eux sur des marchés existants, tout particulièrement lorsqu'ils ont été récupérés de manière illégale, va au-delà des limites du fair use14(*) ». Le rapport plaide pour le développement des accords de licence, sans appeler à une évolution de la législation.

La réaction du milieu de la tech et des autorités américaines laisse cependant peu de place au doute quant à la position future de l'administration. Ainsi Matt Schruers, président du principal groupement d'intérêt des entreprises de technologie (Computer and Communications Industry Association (CCIA)) a déclaré, dans un communiqué en date du 12 mai 2025, que « le rapport du Copyright Office se met à plusieurs reprises en travers du chemin vers l'intérêt général », estimant que « la loi américaine sur le droit d'auteur est suffisante pour répondre aux questions actuelles concernant l'IA et le droit d'auteur ». Quelques jours après la publication du rapport, la Maison Blanche licenciait Shira Perlmutter, qui était à la tête de l'agence depuis octobre 2020, marquant ainsi son opposition à la position du Bureau.

Il reviendra donc aux tribunaux américains, vraisemblablement à la suite de débats juridiques qui dureront des années, de se prononcer définitivement sur l'étendue de la doctrine du « fair use » dans le contexte de l'IA, alors que la pression politique s'exerce très fortement pour une interprétation en ligne avec les desiderata du secteur de la tech.


* 10https://op.europa.eu/en/publication-detail/-/publication/074ddf78-01e9-4a1d-9895-65290705e2a5/language-en

* 11 “Zero to One: Notes on Start Ups, or How to Build the Future”, Peter Thiel, 2015

* 12 https://www.theverge.com/2024/6/28/24188391/microsoft-ai-suleyman-social-contract-freeware

* 13 https://www.copyright.gov/ai/

* 14 « [...] making commercial use of vast troves of copyrighted works to produce expressive content that competes with them in existing markets, especially where this is accomplished through illegal access, goes beyond established fair use boundaries.”

Partager cette page