La nouvelle IA d'Alibaba qui remet en question les Gemini et le Chatgpt

La multinationale de China Alibaba a franchi une autre étape dans cette carrière compétitive de l'intelligence artificielle. À cette occasion, il l'a fait en ouvrant le modèle QWEN3-VL, une nouvelle série de langage de vision, à l'écosystème open source. Cette étape, annoncée par la société elle-même le 23 septembre, apporte de puissantes nouvelles dans le domaine de l'IA.

Avec ce modèle, nous avons une architecture de 235 000 millions de paramètres et de capacités qui tentent de décocher les systèmes fermés de l'IA tels que les Gemini, de Google ou Chatgpt d'Openai. De cette façon, Alibaba permet aux développeurs et aux entreprises indépendants d'accéder à un modèle aussi puissant que de comprendre les images, d'exécuter des tâches autonomes ou d'interpréter des vidéos à long terme.

Tout cela, sous une licence Apache 2.0 à usage gratuit. Mais en ce qui concerne ce modèle, il est, sans aucun doute, pour sa capacité à agir comme un «agent visuel». Autrement dit, il est capable de contrôler et d'automatiser les applications reconnaissant les éléments qui apparaissent à l'écran et d'interaction de manière autonome. De cette façon, Alibaba parie sur un modèle de marché autre que les outils de licence fermés.

Donc qwen3-vl

Qwen3-vl est, pour le moment, le modèle de développement ouvert le plus avancé par Alibaba. En fait, il comporte 235 millions de paramètres et d'innovations qui améliorent à la fois l'analyse visuelle et ses applications dans le monde numérique. Cette nouvelle IA fonctionne avec le concept de « Windows de contexte » jusqu'à 256 000 jetons, extensible à un million. Grâce à cette fonction, vous pouvez traiter des vidéos complètes et offrir des réponses sur le contenu de la vidéo elle-même: événements qui se produisent, caractères, dialogues …

Son noyau multimodal comprend deux versions différenciées: « instruction », pour les tâches et les références liées à la perception visuelle, et « pensée », orientée vers le raisonnement et la compréhension multimodale.

Mais l'attraction principale de ce nouveau modèle QWEN est son «agent visuel». Cette fonctionnalité suppose que le modèle peut fonctionner dans une interface graphique. Autrement dit, vous pouvez reconnaître sur les éléments d'écran et exécuter des actions autonomes par rapport à eux: par exemple, automatiser les tâches répétitives ou faciliter l'accessibilité et utiliser dans un matériel qui nécessite certaines connaissances. Pour ce faire, Alibaba a introduit trois améliorations architecturales:

  • Codage de position entre les mropes entrelacés.
  • Technologie Deepstack pour améliorer l'alignement de l'image du texte.
  • Système d'alignement « Text-Timestamp » d'alignement temporaire pour la vidéo dans l'objectif de multiplier la précision du modèle dans la visualisation des vidéos.
Composant Technologie mise en œuvre Fonction principale
Codage visuel Mréchance entrelacée Améliore le codage des informations sur l'espace dans les images.
Alignement multimodal De profondeur Optimise l'intégration et la cohérence entre le texte et l'image.
Traitement vidéo Alignement de texte-timestamp La précision synchronise les événements vidéo avec des descriptions textuelles.

Le changement d'engagement envers sa concurrence

Alibaba vise à ne pas marquer de la philosophie de « Bigger Is Better ». Par conséquent, il a orienté Qwen3-VL à des applications spécifiques avec de bons résultats dans les repères. Face à d'autres modèles d'IA fermés, le géant asiatique offre une alternative aux développeurs et aux entreprises en mettant l'accent sur les projets vidéo, automatisation, recherche universitaire et accessibilité.

Qwen3-vl devant sa concurrence. Benchmark offerte par qwen.ai. Photo: qwen.ai

En fait, Qwen3-vl rivalise dans les références avec Gemini, GPT-5 et d'autres IAS de modèles fermés, mais décochez grâce à son ouverture et son architecture avancées. Nous avons ce modèle disponible dans Hugging Face Bajo Aparche 2.0. Selon les repères publiés dans Qwen.ai le 23 septembre, ce modèle démontre une performance compétitive, atteignant une précision de 84,7% dans MMBench et dépassant le GPT-4O à Mathvista avec 58,3%.

Modèle Mmbench (%) Mathvista (%) Précision VQA Max. (Jetons)
Qwen3-vl 84.7 58.3 79.2 256K
Gémeaux 1.5 Pro 83.2 56.8 78.5 1m
GPT-4O 82.9 56.1 77.8 128K