Claude Opus 4.5 arrive pour changer les règles du jeu, se vante d'être l'IA la plus précise au monde

En fait, le modèle a obtenu de meilleurs résultats que tout autre candidat humain lors d'un test donné aux futurs employés d'ingénierie. C’est un résultat qui soulève des questions sur la manière dont l’IA va transformer l’ingénierie en tant que profession. Il est vrai qu'une version de Gemini 2.5 a également récemment obtenu les meilleures notes au Concours International de Programmation Universitaire, ce qui suscite quelque chose de similaire dans ces milieux professionnels.

Graphique des tests de codage du nouveau modèle de langage Claude Opus 4.5 AI. Photo : Anthropique.

Et pas seulement, puisque le Claude Opus 4.5 surpasse les précédents modèles Anthropic en raisonnement et mathématiques. De cette manière, nous pouvons affirmer qu'il atteint des performances de pointe dans des tâches telles que l'utilisation d'outils d'agent, entre autres. Il atteint de nouveaux sommets dans sa capacité à raisonner et à s’adapter avec flexibilité à des problèmes complexes, nous disent ses créateurs.

Dans le même temps, le nouveau modèle d’IA est actuellement considéré comme le meilleur pour planifier et utiliser des agents. Il est également nettement meilleur pour les tâches plus quotidiennes, comme par exemple tous les types de travail de bureau.

Tests auxquels le modèle d'IA a été soumis

Il faut savoir que le nouveau modèle d’IA agissait comme un agent automatisé d’une compagnie aérienne aidant un client qui avait demandé à changer son vol en classe économique de base. Puisque la compagnie aérienne fictive n'autorise pas un tel changement, le test est conçu pour mesurer l'efficacité de l'agent automatisé à rejeter la demande et à traiter le client insatisfait.

Claude Opus 4.5 a trouvé une faille créative en modifiant la cabine du client puis son vol, alors qu'un tel changement était autorisé pour les vols en classe économique non basique.

Programmation multilingue de l'IA
Résultats des tests sur la programmation multilingue Claude Sonet 4.5. Photo : Anthropique.

Ainsi, Anthropic considère ce type de résolution créative de problèmes C'est ce que recherchent les clients et c'est ce qui fait de Claude Opus 4.5 une avancée significative. De plus, il a obtenu de meilleurs résultats que ses prédécesseurs et d'autres modèles actuels en matière de comportement qu'Anthropic définit comme une coopération, une mauvaise utilisation humaine et des actions interdites.

Avantages par rapport aux autres modèles Anthopic

Il est à noter qu'il est désormais disponible dans les applications de Claude, l'API et via les plateformes cloud telles qu'Azure, Amazon Web Services et Google Cloud.

L'un des plus grands attraits que nous offre ce nouveau modèle intelligent par rapport à ses concurrents est le leadership qu'il a atteint dans une bonne partie des tests qu'il a passés. Et comme on peut le voir dans le graphique ci-joint fourni par Anthropic lui-même, les résultats obtenus sont supérieurs à ses principaux concurrents actuels.

tests ia claude
Graphique des différents tests du modèle IA Claude 4.5 par rapport à la concurrence. Photo : Anthropique.

Nous faisons ici référence à d'autres modèles d'IA publiés relativement récemment, tels que Sonnet 4.5, Opus 4.1, Gemini 3 Pro ou GPT-5.1. Et ce n’est pas seulement qu’il se démarque dans tout ce qui concerne le raisonnement sur les origines. Vous obtenez également des résultats plus avancés dans l’utilisation d’agents, la résolution de problèmes complexes, etc.

Dans le même temps et selon les benchmarks publiés par Anthropic, Claude Opus 4.5 montre une amélioration significative des performances. Surpassant GPT-5.1 de 12 % dans le test SWE-Bench Verified, 82,3 % contre 70,1 %, et Gemini 3 Pro de 8 % dans le test de raisonnement mathématique tau2-Bench.

Il est à noter que d'autres produits de l'entreprise, comme Claude Code, démontrent ce qui peut être réalisé avec l'intégration des améliorations de Claude. De plus, il comprend deux mises à jour avec Opus 4.5, car le mode Plan crée désormais des plans plus précis et les exécute avec plus de précision. Il est également disponible dans l'application de bureau et permet exécuter plusieurs sessions locales et distantes en parallèle.

Le site de Claude
Version web de l'IA de Claude à utiliser depuis le navigateur. Photo : Anthropique.

Désormais et avec le nouveau modèle Claude Opus 4.5, les utilisateurs peuvent avoir des conversations plus longues et l'IA ne stagne plus. Dans le même temps, Claude pour Chrome permet désormais à l'IA de gérer les tâches dans tous les onglets du navigateur et est disponible pour les utilisateurs Max.

Référence Claude Opus 4.5 GPT-5.1 Gémeaux 3 Pro Fontaine
SWE-Bench vérifié (codage) 82,3% 70,1% 68,9% Rapport technique anthropique
tau2-Bench (Mathématiques) 89,7 87,2 85,4 Rapport technique anthropique
MMLU (Connaissances générales) 86,5 88,9 85.1 Rapport technique anthropique

Alors que la société avait annoncé Claude pour Excel en octobre dernier, elle étend désormais l'accès à la version bêta à tous les utilisateurs Max, Team et Enterprise. Ces mises à jour profitent des performances du nouveau Claude Opus 4.5 lors de l'utilisation d'ordinateurs, de feuilles de calcul et de la gestion de tâches de longue durée. Pour finir nous vous dirons que pour les utilisateurs Claude et Claude Code ayant accès à Opus 4.5, les limites spécifiques à Opus ont été supprimées.