En fait, le modèle a obtenu de meilleurs résultats que tout autre candidat humain lors d'un test donné aux futurs employés d'ingénierie. C’est un résultat qui soulève des questions sur la manière dont l’IA va transformer l’ingénierie en tant que profession. Il est vrai qu'une version de Gemini 2.5 a également récemment obtenu les meilleures notes au Concours International de Programmation Universitaire, ce qui suscite quelque chose de similaire dans ces milieux professionnels.
Et pas seulement, puisque le Claude Opus 4.5 surpasse les précédents modèles Anthropic en raisonnement et mathématiques. De cette manière, nous pouvons affirmer qu'il atteint des performances de pointe dans des tâches telles que l'utilisation d'outils d'agent, entre autres. Il atteint de nouveaux sommets dans sa capacité à raisonner et à s’adapter avec flexibilité à des problèmes complexes, nous disent ses créateurs.
Dans le même temps, le nouveau modèle d’IA est actuellement considéré comme le meilleur pour planifier et utiliser des agents. Il est également nettement meilleur pour les tâches plus quotidiennes, comme par exemple tous les types de travail de bureau.
Tests auxquels le modèle d'IA a été soumis
Il faut savoir que le nouveau modèle d’IA agissait comme un agent automatisé d’une compagnie aérienne aidant un client qui avait demandé à changer son vol en classe économique de base. Puisque la compagnie aérienne fictive n'autorise pas un tel changement, le test est conçu pour mesurer l'efficacité de l'agent automatisé à rejeter la demande et à traiter le client insatisfait.
Claude Opus 4.5 a trouvé une faille créative en modifiant la cabine du client puis son vol, alors qu'un tel changement était autorisé pour les vols en classe économique non basique.

Ainsi, Anthropic considère ce type de résolution créative de problèmes C'est ce que recherchent les clients et c'est ce qui fait de Claude Opus 4.5 une avancée significative. De plus, il a obtenu de meilleurs résultats que ses prédécesseurs et d'autres modèles actuels en matière de comportement qu'Anthropic définit comme une coopération, une mauvaise utilisation humaine et des actions interdites.
Avantages par rapport aux autres modèles Anthopic
Il est à noter qu'il est désormais disponible dans les applications de Claude, l'API et via les plateformes cloud telles qu'Azure, Amazon Web Services et Google Cloud.
L'un des plus grands attraits que nous offre ce nouveau modèle intelligent par rapport à ses concurrents est le leadership qu'il a atteint dans une bonne partie des tests qu'il a passés. Et comme on peut le voir dans le graphique ci-joint fourni par Anthropic lui-même, les résultats obtenus sont supérieurs à ses principaux concurrents actuels.

Nous faisons ici référence à d'autres modèles d'IA publiés relativement récemment, tels que Sonnet 4.5, Opus 4.1, Gemini 3 Pro ou GPT-5.1. Et ce n’est pas seulement qu’il se démarque dans tout ce qui concerne le raisonnement sur les origines. Vous obtenez également des résultats plus avancés dans l’utilisation d’agents, la résolution de problèmes complexes, etc.
Dans le même temps et selon les benchmarks publiés par Anthropic, Claude Opus 4.5 montre une amélioration significative des performances. Surpassant GPT-5.1 de 12 % dans le test SWE-Bench Verified, 82,3 % contre 70,1 %, et Gemini 3 Pro de 8 % dans le test de raisonnement mathématique tau2-Bench.
Il est à noter que d'autres produits de l'entreprise, comme Claude Code, démontrent ce qui peut être réalisé avec l'intégration des améliorations de Claude. De plus, il comprend deux mises à jour avec Opus 4.5, car le mode Plan crée désormais des plans plus précis et les exécute avec plus de précision. Il est également disponible dans l'application de bureau et permet exécuter plusieurs sessions locales et distantes en parallèle.

Désormais et avec le nouveau modèle Claude Opus 4.5, les utilisateurs peuvent avoir des conversations plus longues et l'IA ne stagne plus. Dans le même temps, Claude pour Chrome permet désormais à l'IA de gérer les tâches dans tous les onglets du navigateur et est disponible pour les utilisateurs Max.
| Référence | Claude Opus 4.5 | GPT-5.1 | Gémeaux 3 Pro | Fontaine |
|---|---|---|---|---|
| SWE-Bench vérifié (codage) | 82,3% | 70,1% | 68,9% | Rapport technique anthropique |
| tau2-Bench (Mathématiques) | 89,7 | 87,2 | 85,4 | Rapport technique anthropique |
| MMLU (Connaissances générales) | 86,5 | 88,9 | 85.1 | Rapport technique anthropique |
Alors que la société avait annoncé Claude pour Excel en octobre dernier, elle étend désormais l'accès à la version bêta à tous les utilisateurs Max, Team et Enterprise. Ces mises à jour profitent des performances du nouveau Claude Opus 4.5 lors de l'utilisation d'ordinateurs, de feuilles de calcul et de la gestion de tâches de longue durée. Pour finir nous vous dirons que pour les utilisateurs Claude et Claude Code ayant accès à Opus 4.5, les limites spécifiques à Opus ont été supprimées.