
Sign up to save your podcasts
Or


現地時間9月25日、Google DeepMindが「Gemini Robotics 1.5」と「Gemini Robotics-ER 1.5」を発表しました。前者は視覚と言語理解からロボットのモーター指令を直接生成するVLAで、実行前に“考える”工程を挟み、思考手順を人間の言葉で説明できるのが特徴。後者は環境理解と計画に長けた“高次の頭脳”として、Google検索などのツールをネイティブに呼び出し、複数手順のタスクを任務化して実行まで導きます。提供面では、Robotics-ER 1.5が本日からGoogle AI StudioのGemini APIで開発者向けに公開、Robotics 1.5は選定パートナーに展開が始まります。
DeepMindはこの二層構成を使って、たとえば「地域ルールに従ってゴミを分別して片付けて」といった現実的な課題に取り組ませます。Robotics-ER 1.5がウェブで地域の分別規則を調べ、場面理解と計画を作成し、各ステップをRobotics 1.5へ自然言語で指示。Robotics 1.5は視覚と言語の理解から把持や配置といった具体動作に変換して完遂します。これにより“指示→単発動作”を超えた長期の段取りや道具活用が可能になり、複雑作業の遂行力が一段引き上がったと同社は説明しています。
技術的ハイライトは三つ。第一に、Robotics 1.5の「行動前の思考」です。色分け洗濯の例では、色の意味理解→タスク分解→把持・姿勢の細かな段取りと、複数レベルの推論を内部で走らせてから動作します。第二に、機体をまたぐ「学習の転用」。ALOHA 2で覚えた動作がApptronikの人型ApolloやFrankaの双腕にもそのまま通り、機体ごとの作り分けを減らせると報告。第三に、安全性の体系化で、思考段階での安全配慮、Gemini安全ポリシーとの整合、機体側の衝突回避など下位レイヤの安全機構、さらに安全評価指標ASIMOVのアップデートを公表しています。
性能面では、Robotics-ER 1.5がPoint-BenchやERQAを含む15種の学術系指標でSOTAの総合成績を示したとし、実運用に近い“信頼できるテスター”プログラム由来の内部指標でも優位性を確認したとのこと。一方で、外部報道は“ロボットの自律度が上がった”と評価しつつ、器用さや安全運用、観察からの学習など課題の残りも指摘しており、実装の現場では「思考の長さ(レイテンシと精度のトレードオフ)」やツール連携設計が鍵になりそうです。
ビジネス的には、Robotics-ER 1.5がAPIで公開された意味が大きいでしょう。現場の開発者は既存のロボット制御APIや把持モデルと“頭脳”をつなぎ、長期タスクのオーケストレーションをクラウド側から構築できます。さらに“機体またぎ”の転用性は、現場ごとに高価なデータ収集・学習をやり直す負担を下げ、PoCから量産までの橋渡しを加速させます。人と同じ空間で働くロボットの「段取り力」と「常識力」をどう育てるか――Gemini Robotics 1.5の一歩は、その解の有力候補を提示したと言えそうです。
By ikuo suzuki現地時間9月25日、Google DeepMindが「Gemini Robotics 1.5」と「Gemini Robotics-ER 1.5」を発表しました。前者は視覚と言語理解からロボットのモーター指令を直接生成するVLAで、実行前に“考える”工程を挟み、思考手順を人間の言葉で説明できるのが特徴。後者は環境理解と計画に長けた“高次の頭脳”として、Google検索などのツールをネイティブに呼び出し、複数手順のタスクを任務化して実行まで導きます。提供面では、Robotics-ER 1.5が本日からGoogle AI StudioのGemini APIで開発者向けに公開、Robotics 1.5は選定パートナーに展開が始まります。
DeepMindはこの二層構成を使って、たとえば「地域ルールに従ってゴミを分別して片付けて」といった現実的な課題に取り組ませます。Robotics-ER 1.5がウェブで地域の分別規則を調べ、場面理解と計画を作成し、各ステップをRobotics 1.5へ自然言語で指示。Robotics 1.5は視覚と言語の理解から把持や配置といった具体動作に変換して完遂します。これにより“指示→単発動作”を超えた長期の段取りや道具活用が可能になり、複雑作業の遂行力が一段引き上がったと同社は説明しています。
技術的ハイライトは三つ。第一に、Robotics 1.5の「行動前の思考」です。色分け洗濯の例では、色の意味理解→タスク分解→把持・姿勢の細かな段取りと、複数レベルの推論を内部で走らせてから動作します。第二に、機体をまたぐ「学習の転用」。ALOHA 2で覚えた動作がApptronikの人型ApolloやFrankaの双腕にもそのまま通り、機体ごとの作り分けを減らせると報告。第三に、安全性の体系化で、思考段階での安全配慮、Gemini安全ポリシーとの整合、機体側の衝突回避など下位レイヤの安全機構、さらに安全評価指標ASIMOVのアップデートを公表しています。
性能面では、Robotics-ER 1.5がPoint-BenchやERQAを含む15種の学術系指標でSOTAの総合成績を示したとし、実運用に近い“信頼できるテスター”プログラム由来の内部指標でも優位性を確認したとのこと。一方で、外部報道は“ロボットの自律度が上がった”と評価しつつ、器用さや安全運用、観察からの学習など課題の残りも指摘しており、実装の現場では「思考の長さ(レイテンシと精度のトレードオフ)」やツール連携設計が鍵になりそうです。
ビジネス的には、Robotics-ER 1.5がAPIで公開された意味が大きいでしょう。現場の開発者は既存のロボット制御APIや把持モデルと“頭脳”をつなぎ、長期タスクのオーケストレーションをクラウド側から構築できます。さらに“機体またぎ”の転用性は、現場ごとに高価なデータ収集・学習をやり直す負担を下げ、PoCから量産までの橋渡しを加速させます。人と同じ空間で働くロボットの「段取り力」と「常識力」をどう育てるか――Gemini Robotics 1.5の一歩は、その解の有力候補を提示したと言えそうです。