Openai a alimenté la concurrence des « agents de codage » avec l'annonce hier, le 15 septembre, de GPT-5 Codex, une version de son modèle phare conçu pour exécuter des tâches de développement avec une assistance intelligente. En fait, IDE et Extension Web avec un plan de disponibilité qui se produira dans les prochains jours est déjà en cours de déploiement.
La nouveauté arrive avec deux personnages encourageants pour OpenAI et pour les programmeurs qui souhaitent utiliser leur outil. D'une part, il a obtenu 74,5% dans SWE-Bench vérifié, une référence fiable. Mais nous avons également un saut de refactorisation de 33,9% avec GPT-5 à 51,3% avec le codex GPT-5. Quelque chose qui indique les améliorations de la maintenance et de l'édition multiparchive.
Même ainsi, pour surmonter le code Claude, qui est la référence AI dans le code actuellement après avoir atteint 72,7% dans le Benchmark Swe-Bench vérifié, le codex doit exceller sur trois fronts: maximiser les performances de l'agent et de l'échafaudage dans des environnements réalistes, élargissez le contexte réel avec la latence de sécurité locale. 4 ans plus tard depuis que OpenAI a présenté sa première version de Codex en 2021, il est toujours sur le point de voir si la prochaine version améliorera ce qui est vu par le référent de Claude.
Performance de l'agent à Swe-Bench
74,5% Swe-Bench vérifie C'est un signal positif. Mais ce qui compte vraiment pour les équipes de développement, c'est le nombre de problèmes qu'il ferme à l'heure, le nombre d'étapes dont l'agent a besoin et son coût réel de latence et de jetons. C'est ici que la productivité réelle est vraiment mesurée, et pas seulement dans la référence. Si OpenAI veut surmonter le code CADE, le codex doit stabiliser le « échafaudage » (Reado Reading, Patchs Application, Test Execution ou Error Recovery) afin que son taux d'erreur descend et se traduit par moins de tentatives.
L'amélioration de la refactorisation de 33,9% à 51,3% indique que des progrès dans la maintenance et l'édition multi-bass ont été produits. Cependant, le Mérico Amás important sera le taux de PRS, où Claude brille précisément comme un outil de codage « agentique ». En bref: plus de débit et moins d'obstacles.
| Métrique de performance | GPT-5 (base) | Codex GPT-5 (spécialisé) | Amélioration relative |
|---|---|---|---|
| Swe-bench vérifié | 72,8% | 74,5% | + 23% |
| Refactorisation de code | 33,9% | 51,3% | + 51,3% |
| Provoque une résistance à l'injection | N / D | 0,98 / 1,0 | N / A |
| Rejet de logiciels malveillants | N / D | 1.0 / 1.0 | N / A |
Qui comprennent les grands projets et travaillent dans plusieurs fichiers
Pour rivaliser dans des monorepos et des applications puissants, le codex doit gérer le contexte réel de nombreux fichiers, maintenir la cohérence du style et coordonner les modifications dans les modules connexes. En fait, Claude Code se démarque pour une cartographie de l'ensemble du projet et de son édition coordonnée. De plus, vous devez également faire avancer vos facettes « multiagente », en mesure de synchroniser des tâches telles que la génération de code, la rédaction de tests et la révision des différences en même temps avec succès.
Cette pratique réduit les cycles de rétroaction et aide les changements à se produire avec succès chaque fois que l'agent gère bien l'état et les échecs de test. Si GPT-5 est capable de créer une mémoire de travail stable et une lecture fiable des dépendances, vous pouvez réduire l'avantage de Claude Code dans le grand repos.
Intégration locale, IDE et sécurité
Le point le plus important se trouve dans l'utilisation quotidienne de cet assistant: faible latence, contrôle précis des modifications et sécurité par rapport aux injections de code. Le code Claude est solide avec l'intégration locale avec le terminal et l'IDE, les approbations explicites, les tests et les RP. Le Codex doit correspondre à cette bonne utilisation dans l'extension du terminal, de l'IDE et du Web avec des différences claires, l'historique des décisions de l'agent et des «garde-corps» qui évitent toute modification ou filtrage dangereux des informations.
OpenAI avance qu'un déploiement se produira dans les prochains jours pour mesurer la stabilité, la confidentialité et les temps dans des scénarios réels. Ce qui sera la clé pour voir s'ils parviennent à convaincre le code Claude. Si le codex offre de la vitesse, des contrôles ergonomiques et de la sécurité, sans sacrifier la précision, nous pourrions faire face à un changement de paradigme dans les participants à la programmation.
| Caractéristique / métrique | Codex GPT-5 (OpenAI) | CODE CLAUDE (anthropique) | Leader actuel |
|---|---|---|---|
| Swe-bench vérifié | 74,5% | 72,7% | Codex GPT-5 |
| Gestion du contexte (grands projets) | Amélioré, concentrez-vous sur le multiarchivo | Supérieur, avec des «fichiers de mémoire» | Code Claude |
| Intégration locale (CLI / IDE) | Déploiement initial dans le code vs, curseur | Intégration mature et robuste | Code Claude |
| Écosystème commercial | Intégré dans les plans de chatppt | Plan spécifique (200 $ / mois) avec scan de sécurité | Code Claude |