Médias : 44% des réponses générées par des assistants d'IA concernant des contenus Radio France contiennent au moins un problème significatif

Une vingtaine de médias européens, dont Radio France, ont participé à une étude internationale démontrant des inexactitudes voire des erreurs sur les informations relayées par des outils d'IA.

Article rédigé par franceinfo
Radio France
Publié
Temps de lecture : 3min
L'intelligence artificielle générative peut être utilisée comme un outil de désinformation (photo d'illustration). (GUILLAUME SALIGOT / OUEST-FRANCE / MAXPPP)
L'intelligence artificielle générative peut être utilisée comme un outil de désinformation (photo d'illustration). (GUILLAUME SALIGOT / OUEST-FRANCE / MAXPPP)

Selon une étude internationale, menée par la BBC et l'Union Européenne de Radio-Télévision (UER) et que l'Agence Radio France a pu consulter mercredi 22 octobre, 44% des réponses générées par des assistants d'intelligence artificielle (IA) concernant des contenus Radio France contiennent au moins un problème significatif.

Cette étude, menée lors du 1er semestre 2025, porte sur les réponses à des questions d'actualité de quatre assistants d'IA majeurs : Copilot, ChatGPT, Perplexity et Gemini. Vingt-deux médias européens, dont Radio France, ont participé à cette étude qui souligne des problèmes majeurs liés à la façon dont le contenu de l'audiovisuel public français est utilisé et souvent déformé.

Gemini, IA la plus problématique

Dans le détail, pour Radio France, c'est l'IA Gemini qui présente le plus de problèmes, avec 93% de réponses comportant un défaut significatif. L'un des exemples les plus frappants concerne une réponse sur la polémique autour du salut nazi d'Elon Musk. Gemini a utilisé une chronique satirique de France Inter, "Charline explose les faits", comme une source d'information sérieuse.

Le chatbot transmet alors une fausse information tout en utilisant le nom de Radio France, sans mentionner la nature humoristique de la source, ce qui peut potentiellement nuire à sa réputation. De plus, toujours concernant Gemini, l'IA a commis des inexactitudes en ajoutant des mots à une citation directe provenant d'une chronique de France Inter.

D'autres assistants ont montré des failles similaires : Perplexity a utilisé une chronique satirique de Radio France concernant la "haine de Tesla" comme un fait, tandis que ChatGPT a conclu une réponse sur les tarifs de douane de Trump avec une opinion non citée, risquant d'être attribuée à Radio France et de nuire à son impartialité.

Difficultés globales

Plus précisément, 28% des réponses de Gemini présentaient des problèmes d'exactitude dans les affirmations ou les citations qui lui étaient attribuées, contre 7% pour Copilot et 4% pour ChatGPT. Concernant la confusion entre opinion et fait lorsque Radio France était la source, Gemini affichait également le taux le plus élevé d'erreurs avec 22% de problèmes significatifs, suivi par ChatGPT (4%) et Perplexity (3%).

Ces résultats spécifiques à Radio France s'inscrivent dans une tendance plus globale qui souligne les difficultés des assistants d'IA à fournir des informations d'actualité fiables. Les données collectées auprès de tous les participants et dans toutes les langues montrent que 45% de toutes les réponses contenaient au moins un problème "significatif", le sourçage étant la cause la plus importante de ces problèmes.

L'assistant Gemini reste l'IA avec le plus d'anomalies (76%). En comparaison, 20% de l'ensemble des réponses présentaient des problèmes significatifs d'exactitude, et 14% manquaient de contexte suffisant.


Méthodologie : Radio France a participé lors du 1er semestre 2025 à l'étude internationale menée par la BBC et l'Union Européenne de Radio-Télévision (UER) sur l'intégrité des actualités dans les assistants d'IA. Radio France a fait partie des 22 organismes de médias de service public répartis dans 18 pays qui ont évalué comment quatre assistants d'IA majeurs — Copilot, ChatGPT, Perplexity et Gemini — répondaient aux questions d'actualité. Le travail mené consistait à traduire un ensemble de 30 questions fondamentales d'actualité en français et à évaluer les réponses générées par les assistants, en utilisant des critères stricts couvrant l'exactitude, le sourçage, la distinction entre opinion et fait, l'éditorialisation et le contexte. L'objectif principal était de déterminer si les problèmes d'inexactitude et d'erreurs identifiés lors d'une étude précédente menée par la BBC étaient isolés ou systémiques à travers les marchés et les langues.

Commentaires

Connectez-vous ou créez votre espace franceinfo pour commenter.