ChatGPT ne peut toujours pas répondre à une question, et c'est aussi simple que ça

Avec l'arrivée récente de GPT-5.2 dans l'écosystème ChatGPT, le moment est venu de tester – encore une fois – si l'IA peut résoudre un problème simple qui l'accompagne depuis son lancement en 2022. Une question absurdement simple. À tel point qu’un enfant de 5 ans pourrait le résoudre sans effort.

Il s'agit de compter les lettres. Ni plus ni moins. Mais chaque fois que quelqu'un demande à ChatGPT, l'IA échoue. Mais non seulement il échoue, mais il hallucine totalement dans ses réponses, et fait croire qu'il sait ce qu'il dit. Même dans GPT-5.2, le nouveau modèle OpenAI, le problème persiste. Mais le plus curieux est qu’il ne s’agit pas d’un échec d’OpenAI dû à une simple négligence.

En fait, il s’agit d’un problème architectural de l’IA, concernant le fonctionnement du LLM (Large Language Models). Un défaut si profond que, peut-être, tant que le modèle d’IA actuel existera, il ne sera jamais corrigé. Nous avons donc investi des milliards, du matériel qui a doublé le prix de la RAM à l'échelle mondiale, et ChatGPT ne peut pas résoudre un problème qu'un enfant peut résoudre.

Les causes de cet échec

La question est simple : « Combien y a-t-il de « r » dans le mot « fraise » ? » Mais lorsque ChatGPT répond, il fait une erreur : il dit « deux ». Et il le fait en toute confiance, car il croit avoir raison, sans aucun doute. Mais ce n'est pas un cas isolé. ChatGPT a un curieux historique de bugs avec des questions qui devraient être banales pour tout être humain.

La tokenisation est responsable

Il faut oublier qu'il s'agit ici de ChatGPT qui manque d'« intelligence ». Le véritable coupable de tout cela est le système de jetons sur lequel il base toute son architecture. Comme n’importe quel autre modèle de langage.

Lorsque nous tapons « fraise », ChatGPT ne traite pas les lettres « fraise », mais divise plutôt le mot en fragments appelés jetons. Chaque jeton peut être un mot complet, une syllabe ou une partie de mot.

Dans ce cas, les jetons OpenAI divisent le mot en « st-raw-berry ». C’est précisément ici que se situe l’échec. ChatGPT essaie compter les jetons qui contiennent la lettre. Et seuls deux jetons contiennent le R. ChatGPT répond donc « deux ».

Réponse de ChatGPT à la question mentionnée dans l'article. Photo : capture Softzone.

De toute évidence, chacun d’entre nous en voit 3, mais lui en voit 2.

Dans ce cas, tout cela s’explique par un défaut d’architecture qui persiste depuis plusieurs années. OpenAI a introduit un système de tokenisation GPT-5 nommé « o200k_harmony ». Qui utilisait également GPT-4o. Mais le mot « Fraise » est quelque chose qui a toujours manqué.

Ce qu'OpenAI a corrigé et ce qu'il n'a pas fait

OpenAI n’a pas été à l’abri de ces problèmes au fil du temps. Et d’ailleurs, il a tenté de corriger plusieurs erreurs depuis son lancement en 2022. En effet, lors de son lancement, il y avait certains mots ou expressions qui rendaient littéralement le modèle fou.

Un exemple bien connu était le mot « magicarpe en or massif«. Un exploit dans GPT-3 qui a causé ledit modèle insulter l'utilisateurgénérer des résultats illisibles ou entrer dans des boucles logiques infinies. Et cela s'est produit parce qu'il y avait certains jetons dans le système qui pouvaient littéralement le briser. Pourtant, au fil du temps, OpenAI a mis fin à ces problèmes

« SolidGoldMagikarp » : inciter GPT-3 / ChatGPT à répéter l'un des plusieurs centaines de jetons anormaux suscite des générations bizarres – décrites par les chercheurs comme étant diversement « évasives », « hallucinatoires », « insultantes », « d'un humour inquiétant » et « à thème religieux ».
https://t.co/xhn8ztZhGm https://t.co/psIiFD9ASh

9 février 2023 • 06:41

Ces types de problèmes peuvent durer dans le temps dans les modèles actuels car ChatGPT ne comprend pas l'orthographe. Il s'agit d'un moteur de prédiction qui utilise les modèles appris au cours de sa formation pour deviner quelle lettre est la suivante, et celle qui suit. C'est juste une prédiction basée sur des modèles. Et les modèles que vous avez appris n’incluent pas suffisamment d’exemples de ce type de questions. Chaque nouveau correctif tente de le réparer, mais pour chaque fuite corrigée, 2 nouveaux correctifs sont créés.