B. LA NÉCESSAIRE POURSUITE DE L'ADAPTATION DE L'ORGANISATION DE LA RECHERCHE AUX ENJEUX DE L'IA
1. Approfondir les collaborations entre scientifiques et experts de la donnée
Pour permettre aux chercheurs d'exploiter pleinement les nouvelles possibilités offertes par l'IA, la création de passerelles plus nombreuses entre scientifiques et experts des données et de l'IA apparaît essentielle.
Or dans le domaine de la recherche biomédicale comme dans d'autres disciplines, la difficulté de recruter des experts en IA est patente, ces derniers étant le plus souvent attirés vers des structures privées offrant des rémunérations plus avantageuses.
À l'heure de l'IA, l'attractivité des postes et des carrières dans la recherche publique reste par conséquent un enjeu de taille.
2. Investir dans les équipements et les architectures de calcul sous-jacentes
Un autre point d'alerte concerne les équipements et les architectures de calcul sur lesquels repose la recherche, en particulier dans les sciences de l'ingénieur où les systèmes actuels ne sont pas adaptés à une utilisation massive de données.
À défaut d'investissement dans certaines branches particulièrement prometteuses de la physique, comme le magnétisme, l'optique ou le quantique, la France accusera un retard croissant.
Plus que jamais, des efforts d'investissement dans les équipements sont indispensables à l'échelle européenne.
3. Poursuivre le travail d'évaluation des outils disponibles, en particulier des LLM
L'évaluation des outils disponibles, en particulier des grands modèles de langage (LLM), doit se poursuivre, même si elle est parfois rendue difficile par la rapidité avec laquelle ces techniques évoluent, les sauts qualitatifs entre les versions successives d'un même outil pouvant être importants.
Ce travail d'évaluation doit tout d'abord permettre de connaître précisément la fréquence d'usage des agents conversationnels dans le travail de recherche. En effet, dans les sciences humaines et sociales, mais probablement aussi dans d'autres disciplines, cette fréquence n'a pas été « objectivée », même si l'on sait que l'appropriation des LLM s'opère rapidement à l'échelle individuelle.
Le travail d'évaluation doit ensuite permettre de comprendre et d'anticiper les biais culturels que peuvent charrier l'entraînement et l'utilisation des modèles. Il s'agit d'évaluer l'importance, dans la constitution des corpus des recherches, des filtres algorithmiques invisibles (hiérarchisation des contenus, empreinte culturelle, etc.).
À cet égard, la plateforme de science ouverte HAL6(*) développée en France constitue un atout précieux car les articles scientifiques qui y sont publiés le sont gratuitement, ce qui permet d'alimenter les modèles d'IA de façon suffisamment exhaustive pour écarter, au moins en partie, le risque de biais du corpus de données.
Pour aller plus loin et sortir de cette dépendance, les chercheurs appellent de leurs voeux la mise en place d'IA européennes souveraines et dignes de confiance.
Enfin, une réflexion doit être menée sur la façon de considérer les informations issues de modèles génératifs. Dans les SHS, l'intervention d'algorithmes génératifs est susceptible de brouiller la frontière entre les données jusqu'ici considérées comme primaires (celles issues de sondages, de questionnaires, d'interviews, d'observations) et les données ayant déjà été générées par une IA, dites secondaires.
Si la réponse n'est pas totalement évidente, il va de soi, d'un point de vue méthodologique, qu'il incombera à chaque chercheur, en fonction des spécificités de chaque projet de recherche, de respecter une totale transparence sur le type de données exploitées.
* 6 La plateforme HAL (« Hyper Articles en Ligne ») a été développée en 2001 par le Centre pour la communication scientifique directe (CCSD) du CNRS. Elle est destinée au dépôt et à la libre diffusion d'articles scientifiques, de thèses ou de rapports techniques.