
Sign up to save your podcasts
Or


「AI/LLM学術ニュースWeekly」では最新のAI/LLM学術ニュースについてWeeklyで語ります。
ファシリテーターはAI Transformation(AX) カンパニー AIコンサルティングマネージャー阿部、語り手はAIエンジニア 渋谷でお送りします。
第三回はQwen2.5-Omniについて紹介します。
Qwen2.5-Omniは、テキスト・画像・音声・動画を理解し、リアルタイムで文章や音声を生成できるマルチモーダルAIモデルです。
映像と音声をうまく組み合わせるための新しい仕組み(TMRoPE)や、文章生成と音声生成を分けて行うThinker-Talker構造を採用しています。
このモデルはマルチモダリティのベンチマークで高い性能を誇っており、特に音声の自然さやリアルタイム処理の強さが評価されています。
詳しくはPodcastをお聞きください。
出演者
note
紹介技術のリンク
Algomaticグループでは一緒に働く仲間を募集中です!
「AI/LLM学術ニュース Weekly」でご紹介しているような生成AI/LLMの技術に興味がある方々、Algomaticに興味がある方々、まずはカジュアル面談でお気軽に連絡いただければと思います。
By Algomatic「AI/LLM学術ニュースWeekly」では最新のAI/LLM学術ニュースについてWeeklyで語ります。
ファシリテーターはAI Transformation(AX) カンパニー AIコンサルティングマネージャー阿部、語り手はAIエンジニア 渋谷でお送りします。
第三回はQwen2.5-Omniについて紹介します。
Qwen2.5-Omniは、テキスト・画像・音声・動画を理解し、リアルタイムで文章や音声を生成できるマルチモーダルAIモデルです。
映像と音声をうまく組み合わせるための新しい仕組み(TMRoPE)や、文章生成と音声生成を分けて行うThinker-Talker構造を採用しています。
このモデルはマルチモダリティのベンチマークで高い性能を誇っており、特に音声の自然さやリアルタイム処理の強さが評価されています。
詳しくはPodcastをお聞きください。
出演者
note
紹介技術のリンク
Algomaticグループでは一緒に働く仲間を募集中です!
「AI/LLM学術ニュース Weekly」でご紹介しているような生成AI/LLMの技術に興味がある方々、Algomaticに興味がある方々、まずはカジュアル面談でお気軽に連絡いただければと思います。