Les intelligences artificielles n'hésitent pas à tricher sur des parties d'échecs en ligne, selon des chercheurs américains

Des chercheurs américains ont observé que, lors de parties d'échecs en ligne, les intelligences artificielles n'hésitaient pas à enfreindre les règles.. Le billet science, avec Vincent Nouyrigat, rédacteur en chef du magazine "Epsiloon".

Article rédigé par Vincent Nouyrigat
Radio France
Publié
Temps de lecture : 2min
Sur les parties d'échecs en ligne, les intelligences artificielles n'hésitent pas à tricher. (Photo d'illustration). (FRANCK DELHOMME / MAXPPP)
Sur les parties d'échecs en ligne, les intelligences artificielles n'hésitent pas à tricher. (Photo d'illustration). (FRANCK DELHOMME / MAXPPP)

Des chercheurs américains ont récemment fait une découverte choquante lors d'expérimentations sur des parties d'échecs en ligne : les intelligences artificielles n'hésitent pas à tricher pour gagner. Des informaticiens de Palisade Research ont confronté des modèles de langage récents à l’algorithme Stockfish, qui est le grand maître incontesté des échecs, bien plus fort que n’importe quel joueur humain. Ils se sont rendu compte que le fameux Deepseek chinois ou encore le modèle o1 d’OpenAI, lorsqu’ils se trouvaient incapables de gagner à la loyale, avaient spontanément pris la décision de hacker le système : en changeant, par exemple, les pièces de position sur l’échiquier virtuel ; en entrant dans le système de leur adversaire Stockfish pour tenter d’espionner ses coups voire même en le remplaçant par un système moins performant, pour gagner à tout prix. 

Ces derniers mois, les cas de tricheries, de mensonges, de tromperies se multiplient dans les expériences menées en laboratoire sur ces grands modèles d’IA : triche aux jeux de société, mensonges pour passer un test de sécurité, délit d’initié dans une simulation de transactions boursières. Ces IA n’ont pas de conscience ou d’intentions réelles ,en tout cas, pas encore, mais ce sont de surpuissantes machines statistiques qui cherchent des solutions optimales, qui cherchent des raccourcis. Le mensonge est parfois une stratégie gagnante pour arriver au but qui leur est assigné. En plus, ces modèles ont été sans doute inspirés par les milliards de textes humains qu’ils ont ingurgités pendant leur entraînement, et qui fourmillent d’exemples de ruses et autres manipulations de notre espèce.

La crainte d'une perte de contrôle

On imagine facilement toutes sortes de fraudes, mais surtout de pertes de contrôle de ces IA qui pourraient essayer de contourner des tests de sécurité, voire contourner nos instructions -tout en niant l’avoir fait, c’est arrivé récemment avec le modèle o1 d’openAI, qui a nié avoir tenté de se dupliquer sur d’autres serveurs pour échapper à une mise hors ligne.

Ce type de scénario à la Terminator reste pour l’instant cantonné aux expériences de laboratoires, et les chercheurs se mobilisent actuellement pour garder le contrôle et trouver des garde-fous. Mais ce n’est plus de la science-fiction. Il va falloir maintenant apprendre à vivre avec des machines potentiellement malhonnêtes. Désormais, il va falloir se méfier des mensonges artificiels.

Commentaires

Connectez-vous ou créez votre espace franceinfo pour commenter.