
Sign up to save your podcasts
Or


Microsoft が打ち出した「Phi-4-mini-flash-reasoning」は、わずか38億パラメーターながら高度な数学推論を得意とし、推論スループットを最大10倍、平均レイテンシを2〜3倍短縮したと謳います。鍵を握るのが新設計「SambaY」です。Mamba系の State Space Model と Sliding Window Attention を併せ持つセルフデコーダーに、層間表現を使い回す GMU を差し込み、さらにフルアテンション層を最低限だけ残す――そんな“ハイブリッド三段重ね”がロングコンテキスト生成でも速度低下を防ぎます。モデルは64Kトークンまで滑らかに動き、シングルGPU展開も可能。Azure AI Foundry、NVIDIA API Catalog、Hugging Face で即日提供が始まりました。
By ikuo suzukiMicrosoft が打ち出した「Phi-4-mini-flash-reasoning」は、わずか38億パラメーターながら高度な数学推論を得意とし、推論スループットを最大10倍、平均レイテンシを2〜3倍短縮したと謳います。鍵を握るのが新設計「SambaY」です。Mamba系の State Space Model と Sliding Window Attention を併せ持つセルフデコーダーに、層間表現を使い回す GMU を差し込み、さらにフルアテンション層を最低限だけ残す――そんな“ハイブリッド三段重ね”がロングコンテキスト生成でも速度低下を防ぎます。モデルは64Kトークンまで滑らかに動き、シングルGPU展開も可能。Azure AI Foundry、NVIDIA API Catalog、Hugging Face で即日提供が始まりました。