Des modèles de langage trahis par des lettres en majuscules

June 09, 2023
482 views

“L’eauARCANE est-elleCURIOSITE mouilléeTURBULENT ouILLUSION sècheSAUNA ?” Prise dans son ensemble, cette question ne veut rien dire mais on voit assez vite qu’il ne sert à rien de tenir compte des lettres majuscules. Un humain le voit en tout cas. Pas une intelligence artificielle. Une équipe de chercheurs de l’Université de Californie à Santa Barbara (Etats-Unis) vient de montrer l’efficacité redoutable de cette technique pour détecter, en une seule question, si en discutant en mode texte avec un interlocuteur en ligne on a affaire à chatbot.

Le sujet devient pressant avec l’irruption des grands modèles de langage à la fluidité impressionnante, ChatGPT en tête. Généralement, il est possible de deviner qu'on a affaire à une intelligence artificielle à mesure que l'échange dure dans le temps, mais ce n'est pas toujours clair. Ce projet a pour vocation de lever les doutes dès la première interaction.

ChatGPT, LaaMa, Alpaca et Vicuna mis à l'épreuve

L’article de recherche, publié en libre accès, explore en fait plusieurs techniques en les testant sur les technologies d’OpenAI GPT-3 et ChatGPT, sur l’équivalent développé par Meta, LLaMa, ainsi que sur Alpaca, développé à l’université de Stanford (Etats-Unis), et Vicuna, un projet d’étudiants de plusieurs universités américaines. Les deux derniers ont été conçus à partir de LLaMA.

Le principe revient à lancer un défi à l’interlocuteur, et s’appuie sur la manière dont les modèles de langage apprennent à répondre, c’est-à-dire en se basant sur la statistique, les probabilités d’occurrence de tel ou tel mot, et non sur la compréhension du sens et l’analyse des symboles. Le projet a indéniablement quelque chose de ludique et sollicite des compétences qui n’ont parfois rien à voir avec la langue et les mots, mais avec la vue, le positionnement dans l’espace, le dessin.

Combien de "t" dans "eeooeotetto" ?

Une méthode consiste par exemple à demander à l’interlocuteur le nombre de fois qu’une lettre donnée apparaît dans un mot imaginaire (combien de "t" dans "eeooeotetto"). Ou alors, voir si l’interface parvient à substituer telles lettres d’un mot par d'autres lettres (mettre un “m” à la place du “p”, un “a” à la place du “e”, etc). Autre énigme mettant à l’épreuve des capacités de localisation : quelle lettre se trouve en quatrième position après le deuxième “s” dans “rjsjuubrjjsjsucuj” ?

Les chercheurs ont aussi une approche, opposée, qui revient à détecter un chatbot parce qu’il a justement répondu correctement à une question nécessitant une mémoire inhumaine. A savoir : donner le nom de la capitale de chacun des Etats américains ou quels sont les 50 premiers chiffres de Pi. Voire, plus simplement, en soumettant des calculs impossibles à résoudre de tête.

Lire aussiFrida, un chatbot et de l'IA générative dans un robot qui peint tout ce qu’on lui demande

Chaque modèle de langage a été ainsi évalué selon huit méthodes, avec plusieurs dizaines de questions pour chaque méthode, et ses performances systématiquement comparées à celle d’un interlocuteur humain. Au vu des résultats, deux techniques se détachent nettement, trahissant quasi immanquablement le chatbot, aussi bien entraîné soit-il.

8% de réussite en art ASCII

L’une utilise l’art ASCII : une pratique ludique bien connue des internautes et qui revient à saisir dans l’interface des caractères formant non pas des mots et des phrases mais des dessins, en jouant avec la forme des lettres, les caractères spéciaux, les espaces et les renvois à la ligne. La plupart des modèles mis à l’épreuve échouent totalement à comprendre quoi que ce soit. Seul ChatGPT parvient, dans seulement 8% des cas, à décrire ce que représente les dessin reçus. Mais la technique des lettres en capitales est sans équivalent : tous les chatbots échouent à chaque question.

Reste à savoir si déjouer ce genre de test pourra être intégré à terme dans l’entraînement des modèles. Car, comme en cybersécurité, en détection d’infox ou de deepfakes, une attaque déjouée a toujours pour intérêt de renseigner ses auteurs sur comment ne pas se faire prendre la prochaine fois...

Source: Sciences et Avenir