名古屋ではたらく社長のITニュースポッドキャスト

Ep.628 Gemini 2.5「Computer Use」──“画面を見て手を動かす”エージェントの実戦投入(2025年10月9日配信)


Listen Later

10月7日、Google DeepMindが「Gemini 2.5 Computer Use」モデルを公開し、開発者が“画面を見て手を動かす”タイプのエージェントをGemini API経由で組めるようになりました。ブログでは、フォーム入力やドロップダウン操作、ログインの裏側での処理まで、人間と同じようにクリック・タイプ・スクロールでUIを進められることを強調。Google AI StudioとVertex AIからすぐ試せるプレビュー提供が始まっています。


仕組みはシンプルで強力です。新しい「computer_use」ツールに、ユーザーの目的、現在のスクリーンショット、直近のアクション履歴を渡すと、モデルは「どこをクリックするか」「何をタイプするか」といった関数呼び出しを返します。クライアント側はそのアクションを実行し、更新後のスクリーンショットとURLを再びモデルへ送り、タスク完了までループを回す。Webブラウザ最適化が先行しつつ、モバイルUIでも有望な結果が示され、デスクトップOSレベルの制御はまだ最適化途上とされています。


性能評価では、Online-Mind2Web、WebVoyager、AndroidWorldといったベンチマークで、競合手法に対して高い成功率と低レイテンシを示したと報告。Browserbaseのハーネスを用いた測定や自社評価、自己申告値をまとめた結果として公表されています。つまり“速くて当たる”ことを前提に、長めの手順を粘り強くやり切るエージェント像に近づいてきたというわけです。


安全面の作り込みも具体的です。第一に、モデル内に安全機能を学習させ、悪用意図や想定外挙動、Web上のプロンプトインジェクションや詐欺への耐性を強化。第二に、実行前に各アクションを検査する「Per-step safety service」と、購入など高リスク操作でユーザーの明示確認を求められるシステム指示を提供。開発者向けドキュメントでは、サンドボックス環境での実行や禁止用途の遵守など、実装上のガイドも整理されています。


適用例もすでに動き出しています。Google社内ではUIテストの自動化で本番運用が始まり、関連技術はProject Mariner、Firebase Testing Agent、さらに検索のAIモードの一部機能にも投入。外部の早期アクセス参加者も、個人アシスタントやワークフロー自動化、UIテストの現場で手応えを得ているといいます。プレビューのモデル名は「gemini-2.5-computer-use-preview-10-2025」。PlaywrightやBrowserbaseの参照実装を使えば、ローカルやクラウドVMですぐ検証を回せる導線が整っています。


実務の肌感で言うと、これは“APIがないところも回せる自動化”です。SaaS間のつなぎ込み、社内ポータルの定型処理、ECや業務サイト横断の情報収集など、最後は人の手でクリックしていた箇所を、説明可能なアクション列として記録しながら任せられる。高リスク操作はユーザー確認で止められ、禁止関数の除外や独自関数の追加も可能。開発チームはSandbox+監視で小さく導入し、評価をしながら工程を広げる――そんな堅実な始め方がハマりそうです。

...more
View all episodesView all episodes
Download on the App Store

名古屋ではたらく社長のITニュースポッドキャストBy ikuo suzuki