
Sign up to save your podcasts
Or


Le 1ᵉʳ mai 2025, Alibaba a publié Qwen-VL et placé l’ensemble de Qwen 3 en open source. Après avoir grimpé dans les classements LLM grâce à son mode « Think Deeper / Act Faster », la suite Qwen fait désormais dialoguer pixels et tokens. L’objectif est double : offrir une alternative locale aux LVLM occidentaux et catalyser l’écosystème PaddlePaddle / ModelScope autour d’un socle permissif Apache 2.0.
Qwen-VL repose sur un encodeur d’image vision-transformer couplé à un décodeur MoE 235 B-A22 B (flagship) ou 30 B-A3 B (léger). La joint-training list mêle 2 T tokens texte, 40 M paires image-texte et 10 M documents scannés en chinois + anglais — d’où des performances supérieures à LLaVA-1.6 et Gemini Mini sur DocVQA, ChartQA et TextVQA. Le raisonnement hybride recycle le pipeline Qwen 3 : analyse rapide, pause introspective si la réponse dépasse un seuil de perplexité.
En maintenant l’Apache 2.0, Alibaba garantit :
La GenAI Service Platform accepte désormais l’upload direct d’images ou de PDF. Une route /v1/vision/completions renvoie texte + bounding boxes. Alibaba cible le marché retail : un plug-in Taobao Visual Search (beta) laisse l’utilisateur shopper une veste photographiée dans la rue. À court terme, la plateforme espère monétiser la recherche d’articles par photo et les chatbots SAV capables de lire un manuel scanné. Feuille de route : cap sur Qwen-Omni
Qwen-Omni vise à unifier quatre modalités dans un seul modèle, répondant à la montée en puissance d’agents polyvalents façon OpenAI Sora ou Gemini 1.5 Pro.
Avec Qwen-VL, Alibaba propulse sa famille Qwen 3 au rang de plateforme multimodale libre, prête pour la recherche documentaire, la vente en ligne visuelle et l’assistance technique sur documents. Entre licence ouverte, API prête à l’emploi et roadmap vers Qwen-Omni, le géant chinois offre aux développeurs et aux e-commerçants une rampe d’accès immédiate à la LVLM, sans barrière propriétaire. Reste à voir comment LLaVA, Gemini Mini et DeepSeek réagiront à ce nouveau concurrent taillé pour les images… et pour le marché.
By ApclLe 1ᵉʳ mai 2025, Alibaba a publié Qwen-VL et placé l’ensemble de Qwen 3 en open source. Après avoir grimpé dans les classements LLM grâce à son mode « Think Deeper / Act Faster », la suite Qwen fait désormais dialoguer pixels et tokens. L’objectif est double : offrir une alternative locale aux LVLM occidentaux et catalyser l’écosystème PaddlePaddle / ModelScope autour d’un socle permissif Apache 2.0.
Qwen-VL repose sur un encodeur d’image vision-transformer couplé à un décodeur MoE 235 B-A22 B (flagship) ou 30 B-A3 B (léger). La joint-training list mêle 2 T tokens texte, 40 M paires image-texte et 10 M documents scannés en chinois + anglais — d’où des performances supérieures à LLaVA-1.6 et Gemini Mini sur DocVQA, ChartQA et TextVQA. Le raisonnement hybride recycle le pipeline Qwen 3 : analyse rapide, pause introspective si la réponse dépasse un seuil de perplexité.
En maintenant l’Apache 2.0, Alibaba garantit :
La GenAI Service Platform accepte désormais l’upload direct d’images ou de PDF. Une route /v1/vision/completions renvoie texte + bounding boxes. Alibaba cible le marché retail : un plug-in Taobao Visual Search (beta) laisse l’utilisateur shopper une veste photographiée dans la rue. À court terme, la plateforme espère monétiser la recherche d’articles par photo et les chatbots SAV capables de lire un manuel scanné. Feuille de route : cap sur Qwen-Omni
Qwen-Omni vise à unifier quatre modalités dans un seul modèle, répondant à la montée en puissance d’agents polyvalents façon OpenAI Sora ou Gemini 1.5 Pro.
Avec Qwen-VL, Alibaba propulse sa famille Qwen 3 au rang de plateforme multimodale libre, prête pour la recherche documentaire, la vente en ligne visuelle et l’assistance technique sur documents. Entre licence ouverte, API prête à l’emploi et roadmap vers Qwen-Omni, le géant chinois offre aux développeurs et aux e-commerçants une rampe d’accès immédiate à la LVLM, sans barrière propriétaire. Reste à voir comment LLaVA, Gemini Mini et DeepSeek réagiront à ce nouveau concurrent taillé pour les images… et pour le marché.