Grok 4 Bats Records et est imposé sur Chatgpt (déjà des humains) dans ce jeu logique

Grok 4, l'intelligence artificielle créée par Xai, appartenant à Elon Musk, a réalisé la couronne à la référence Connexions NYT étendues. Mais cette référence a quelque chose de très différent des autres, et il mesure également les performances moyennes d'un humain. Ce qui signifie qu'il dépasse même le raisonnement humain.

Les connexions NYT étendues sont un test qui mesure comment l'intelligence artificielle est faite du raisonnement. Et il ne leur fait rien de plus et rien de moins que 651 puzzles dans les jeux logiques du New York Times lui-même. À cette occasion, Grok 4 lui-même a atteint le score de 92,4%. Ce qui l'a amené à atteindre la première position en ce qui concerne les autres grands modèles, tels que Chatgpt ou Gemini, et est même supérieur au succès humain moyen.

Et oui, vous avez bien lu. Il a été en mesure de surmonter tous les géants du marché: O3-Pro, de Chatgpt, Gemini 2.5 Pro, Qwen 3, Claude Opus 4 ou Deepseek R1. Cette référence a été créée par le développeur Mazur Lechmais personne ne s'attendait à un modèle aussi discret en ce qui concerne Grok pour atteindre la première position. Ce qui signifie que nous sommes confrontés à un concurrent sérieux dans la course au règne de l'IA.

Connexions NYT Résultats étendus

Grok 4, l'IA pour lequel Elon Musk a opté à tout moment, a réussi à diriger la référence des connexions NYT étendues. Ce test est responsable de l'étude des performances des principaux systèmes d'intelligence artificielle du monde, mais le fait avec une prémisse particulière. Celui qui a surmonté un raisonnement logique du jeu «Connexions étendues» du journal le plus lu au monde: le New York Times.

La mécanique de ce jeu est de trouver 4 groupes de mots différents dans une grille qui englobe 16 termes différents. Il y a donc toujours quatre groupes parfaitement liés les uns avec les autres. Mais pour ajouter un plus de difficulté, Mazur lui-même a ajouté 4 mots pièges dans chaque puzzle, ce qui augmente la difficulté dans chacun des puzzles. De cette façon, non seulement une capacité de raisonnement est mesurée, mais un nouveau filtre est ajouté pour mesurer une capacité de raisonnement plus réelle.

Test de référence «Connexions NYT étendues». Photo: github.

Grok 4 est-il plus intelligent qu'un humain?

Ce test comprend également les résultats moyens que les humains atteignent, ou du moins ceux collectés entre décembre 2024 et février 2025. C'est-à-dire que, selon cette analyse, les joueurs résolvent 71% des puzzles de ce jeu, mais, comme vous pouvez le voir dans le graphique, les modèles les plus connus de l'IA dépassent déjà cette marque.

Cependant, nous ne devons pas ignorer que les joueurs les plus qualifiés de ce test atteignent un taux de performance de 100%. On peut donc dire que le seul système qui dépasse la moyenne des humains, mais est toujours en dessous des plus qualifiés, n'est autre que Grok 4, avec 92,4% de succès.

Est-ce un changement de panorama dans l'IA?

Bien que ce ne soit qu'un indicateur particulier, le leadership de Grok 4 dans cette section suppose que XAI fait bien et est déjà prêt à rivaliser dans des ligues géantes. Jusqu'à présent, les meilleurs résultats dans les tests de ce type étaient les modèles OpenAI, Google ou anthropiques. Cependant, un nouveau concurrent est apparu qui vise à s'imposer au reste. Il ne reste qu'à attendre, face à l'avenir, par les différentes repères qui évaluent un autre type de performance. Nous verrons alors, jusqu'où le pari dirigé par Elon Musk est capable d'arriver.