Actus IA avec Apcl

Qwen-VL : Alibaba libère la multimodalité


Listen Later

Du texte pur au multimodal libre

Le 1ᵉʳ mai 2025, Alibaba a publié Qwen-VL et placé l’ensemble de Qwen 3 en open source. Après avoir grimpé dans les classements LLM grâce à son mode « Think Deeper / Act Faster », la suite Qwen fait désormais dialoguer pixels et tokens. L’objectif est double : offrir une alternative locale aux LVLM occidentaux et catalyser l’écosystème PaddlePaddle / ModelScope autour d’un socle permissif Apache 2.0.

Sous le capot : LVLM multilingue

Qwen-VL repose sur un encodeur d’image vision-transformer couplé à un décodeur MoE 235 B-A22 B (flagship) ou 30 B-A3 B (léger). La joint-training list mêle 2 T tokens texte, 40 M paires image-texte et 10 M documents scannés en chinois + anglais — d’où des performances supérieures à LLaVA-1.6 et Gemini Mini sur DocVQA, ChartQA et TextVQA. Le raisonnement hybride recycle le pipeline Qwen 3 : analyse rapide, pause introspective si la réponse dépasse un seuil de perplexité.

Poids ouverts, deux tailles, même licence

En maintenant l’Apache 2.0, Alibaba garantit :

  • Hébergement libre : self-host sur GPU locaux ou GRPC-serverless ModelScope.
  • Fork facile : intégration LoRA/QLoRA, quantisation 4 bits incluse dans le repo.
  • Communauté contributive : pull-requests déjà actives pour l’ajout des alphabets thaï et persan.
  • Le modèle léger (30 B-A3 B) tourne sur un unique A100 80 Go ; le flagship exige quatre H800 ou huit A800 — un bilan plus souple que les 300 B de LLaVA-Next.
    API GenAI : images, PDF et plugins Taobao

    La GenAI Service Platform accepte désormais l’upload direct d’images ou de PDF. Une route /v1/vision/completions renvoie texte + bounding boxes. Alibaba cible le marché retail : un plug-in Taobao Visual Search (beta) laisse l’utilisateur shopper une veste photographiée dans la rue. À court terme, la plateforme espère monétiser la recherche d’articles par photo et les chatbots SAV capables de lire un manuel scanné. Feuille de route : cap sur Qwen-Omni

    JalonsDate cibleContenu cléQwen-VL GAMai 2025Poids & code en ligneQwen-VL-FlashJuilletDistillation 13 B, fenêtre 64 kQwen-OmniS3 2025Texte-image-audio-vidéo, fenêtre >128 k

    Qwen-Omni vise à unifier quatre modalités dans un seul modèle, répondant à la montée en puissance d’agents polyvalents façon OpenAI Sora ou Gemini 1.5 Pro.

    Comment tester en moins d’une heure ?
    1. Cloner Qwen/Qwen-VL sur Hugging Face.
    2. Lancer demo_gradio.py ; charger une photo ou un PDF.
    3. Ajuster le mode : fast pour réponse immédiate, deep pour analyse longue.
    4. Quantiser en 8 bits via bitsandbytes pour réduire la RAM de moitié.
    5. Déployer sur GenAI Service Platform pour accéder à l’auto-scaling et à la facturation au millier de tokens (0,0006 $).
    6. Conclusion

      Avec Qwen-VL, Alibaba propulse sa famille Qwen 3 au rang de plateforme multimodale libre, prête pour la recherche documentaire, la vente en ligne visuelle et l’assistance technique sur documents. Entre licence ouverte, API prête à l’emploi et roadmap vers Qwen-Omni, le géant chinois offre aux développeurs et aux e-commerçants une rampe d’accès immédiate à la LVLM, sans barrière propriétaire. Reste à voir comment LLaVA, Gemini Mini et DeepSeek réagiront à ce nouveau concurrent taillé pour les images… et pour le marché.

      ...more
      View all episodesView all episodes
      Download on the App Store

      Actus IA avec ApclBy Apcl