Qwenは新世代モデル「Qwen3-Next」を発表し、その第1弾として総80Bパラメータながら推論時の“起動”は約3Bに抑える「Qwen3-Next-80B-A3B」を公開しました。公式ブログは「高スパースMoEにより計算量を劇的に削減しつつ、Qwen3-32Bに匹敵、場合によっては上回る性能を確認した」と述べ、効率重視の実運用を強く意識した位置づけを示しています。
技術の肝は三つです。第一に「超スパースMoE」。各層で多数の“専門家”から必要なごく一部だけを選択して計算します。公開情報では“512エキスパートのうち10+共有1を活性化”という設計が明示され、計算フロップスを抑えつつモデル容量の利点を保つ狙いです。第二に「ハイブリッド注意機構」。従来のアテンションをGated DeltaNetとGated Attentionの組み合わせに置き換え、長文文脈の保持力とスループットを両立。第三に「Multi-Token Prediction」で、訓練・推論の双方を加速します。
提供ラインアップは少なくとも二系統。最終回答に特化した「Instruct」系は可視の思考痕跡なしで安定出力をねらい、思考展開に最適化した「Thinking」系は複雑な推論課題向けに調整されています。TogetherやOpenRouterなど主要API基盤で即日提供が始まり、前者の価格目安や仕様も公開。OpenRouterでは最大コンテキスト長26万トークン級の運用が案内され、長文RAGやエージェント用途での“現場投入”を意識したスペックです。
モデル重みはHugging Faceで「Instruct」と「Thinking」が公開され、導入のハードルは低め。アリババ公式メディアも“総80Bのうち3B活性”という設計思想を改めて説明しており、Qwen3ファミリーの“効率路線”をNextで一段押し出した格好です。
実力面の主張として、コミュニティやQwen公式の告知では「Qwen3-Next-80B-A3B-InstructはQwen3-235Bに迫り、Thinking版はGemini-2.5-Flash-Thinkingを複数ベンチで上回る」との声もあります。ただしこれは初期の社内・コミュニティ評価に基づくもので、第三者ベンチでの検証はこれから。とはいえ、80Bの“容量”で3B分の“電気代”しか払わない設計は、推論コストとスループットが支配する企業ユースにとって極めて現実的です。
総じて、Qwen3-Nextは「巨大モデルの知能」を「中規模の計算予算」で呼び出すための実装です。GPU需給が逼迫する中、1デプロイ当たりの電力・コストを下げ、長文処理やエージェント実行の安定性を上げることは、多くの現場で即効性があります。まずは既存のQwen3-32Bクラスの置き換えや、RAGの長文要約、コーディング支援の常時稼働などから導入し、ベンチ結果が出揃い次第、思考系タスクへの拡大を検討する──そんな導入順序が“堅実な一手”になりそうです。
今回のエピソードは以上で終了です。また次回お会いしましょう。