September 21, 2025

Qwen Omni : Audio-Vidéo temps réel et coder 480B

4 minutes

Qwen 2.5 Omni devient réel-time, multi-modal complet

Alibaba a publié Qwen-2.5-Omni-7B : entrées texte/image/audio/vidéo et sorties texte et voix en streaming (architecture Thinker-Talker, TMRoPE).

C’est une exécution concrète de l’“Omni” annoncé, mais déjà utilisable (chat, HF, GitHub).

Sources : AlibabaCloud, arXiv, Hugging Face

QwQ-32B : nouveau modèle de raisonnement

Au-delà de Qwen-VL, Alibaba a lancé QwQ-32B, focalisé raisonnement (maths, code, résolution de problèmes), présenté comme proche des meilleurs modèles reasoning du moment.

Source : Reuters

Qwen 3 progresse en juillet 2025

Après Qwen 3 (avril), mises à niveau 2507 : variantes thinking et non-thinking pour les MoE 235B-A22B et 30B-A3B.

Ces releases officialisent le pilotage explicite du “budget de réflexion” côté produit.

Source : Alibaba Cloud

Qwen3 Coder : l’offensive “agentic coding”

Nouvelle lignée, dont un 480B-A35B-Instruct (MoE, 35B actifs, contexte 256k→1M via extrapolation).

Objectif : workflows dev autonomes (tool-use, browser, repo-scale). Open-weights et dispo API/providers.

Sources : Reuters, qwenlm.github.io, Open Router

Qwen-VL côté plateforme : la vidéo arrive dans Model Studio

La doc Model Studio a été mise à jour le 28 août 2025 :

Les scénarios Qwen-VL incluent désormais explicitement l’analyse vidéo (détection d’événements, timestamps, résumés).

C’est nouveau par rapport à ton PDF centré image/PDF.

Source : Alibaba Cloud

Qwen2.5-VL : gamme élargie et agentic visuel

La lignée s’est étoffée (3B/7B/32B/72B, maj printemps-été), avec parsing de documents plus robuste et capacités d’agent visuel (computer/phone use) mises en avant dans les cartes modèles.

Source : Hugging Face

Contexte ultra-long (1 M tokens) sur la série 2.5

Alibaba a officialisé des variantes Qwen2.5-1M (janv. 2025) : fenêtre de contexte portée à 1 M, avec gains notables au-delà de 64k.

Image-editing & produits grand public

Août 2025 : Qwen Image Edit apporte l’édition visuelle et sémantique (texte bilingue dans l’image, transformations fines).

Côté hardware, les Quark AI Glasses annoncées utilisent Qwen et visent une sortie Chine fin 2025.

Sources : THE DECODER, The Times of India

En bref

L’“Omni” est là (version 2.5, opérationnelle),

Qwen 3 accélère (modes 2507), l’offre code devient très agressive (Qwen3-Coder),

La vision passe à la vidéo côté plateforme,

Et l’écosystème s’étend (édition d’images, wearables).

...more

View all episodes

By Apcl

September 21, 2025

Qwen Omni : Audio-Vidéo temps réel et coder 480B

4 minutes

Qwen 2.5 Omni devient réel-time, multi-modal complet

Alibaba a publié Qwen-2.5-Omni-7B : entrées texte/image/audio/vidéo et sorties texte et voix en streaming (architecture Thinker-Talker, TMRoPE).

C’est une exécution concrète de l’“Omni” annoncé, mais déjà utilisable (chat, HF, GitHub).

Sources : AlibabaCloud, arXiv, Hugging Face

QwQ-32B : nouveau modèle de raisonnement

Au-delà de Qwen-VL, Alibaba a lancé QwQ-32B, focalisé raisonnement (maths, code, résolution de problèmes), présenté comme proche des meilleurs modèles reasoning du moment.

Source : Reuters

Qwen 3 progresse en juillet 2025

Après Qwen 3 (avril), mises à niveau 2507 : variantes thinking et non-thinking pour les MoE 235B-A22B et 30B-A3B.

Ces releases officialisent le pilotage explicite du “budget de réflexion” côté produit.

Source : Alibaba Cloud

Qwen3 Coder : l’offensive “agentic coding”

Nouvelle lignée, dont un 480B-A35B-Instruct (MoE, 35B actifs, contexte 256k→1M via extrapolation).

Objectif : workflows dev autonomes (tool-use, browser, repo-scale). Open-weights et dispo API/providers.

Sources : Reuters, qwenlm.github.io, Open Router

Qwen-VL côté plateforme : la vidéo arrive dans Model Studio

La doc Model Studio a été mise à jour le 28 août 2025 :

Les scénarios Qwen-VL incluent désormais explicitement l’analyse vidéo (détection d’événements, timestamps, résumés).

C’est nouveau par rapport à ton PDF centré image/PDF.

Source : Alibaba Cloud

Qwen2.5-VL : gamme élargie et agentic visuel

La lignée s’est étoffée (3B/7B/32B/72B, maj printemps-été), avec parsing de documents plus robuste et capacités d’agent visuel (computer/phone use) mises en avant dans les cartes modèles.

Source : Hugging Face

Contexte ultra-long (1 M tokens) sur la série 2.5

Alibaba a officialisé des variantes Qwen2.5-1M (janv. 2025) : fenêtre de contexte portée à 1 M, avec gains notables au-delà de 64k.

Image-editing & produits grand public

Août 2025 : Qwen Image Edit apporte l’édition visuelle et sémantique (texte bilingue dans l’image, transformations fines).

Côté hardware, les Quark AI Glasses annoncées utilisent Qwen et visent une sortie Chine fin 2025.

Sources : THE DECODER, The Times of India

En bref

L’“Omni” est là (version 2.5, opérationnelle),

Qwen 3 accélère (modes 2507), l’offre code devient très agressive (Qwen3-Coder),

La vision passe à la vidéo côté plateforme,

Et l’écosystème s’étend (édition d’images, wearables).

...more

Share Qwen Omni : Audio-Vidéo temps réel et coder 480B

Sign up to save your podcasts

Qwen Omni : Audio-Vidéo temps réel et coder 480B

Qwen Omni : Audio-Vidéo temps réel et coder 480B