
Sign up to save your podcasts
Or


米国時間9月29日、Anthropicが最新モデル「Claude Sonnet 4.5」を発表しました。社内検証では30時間超の連続自律稼働を実現し、SlackやTeams風のチャットアプリを約1万1千行のコードで作り切ったと報じられます。従来のOpus 4が5月時点で約7時間だったことを踏まえると、“長距離走”性能が大きく伸びた格好です。
性能面では、ソフトウェア実務の修正力を測るSWE-bench Verifiedで最先端、実機操作系ベンチのOSWorldでも61.4%でトップと公表。Computer Useの熟度が上がり、ブラウザ遷移やスプレッドシートの編集、ダッシュボードの読み取りといった“人間の段取り”を任せやすくなったと説明しています。
同時に、開発者向けの“足回り”も強化されました。AnthropicはClaude Agent SDKを公開し、長時間タスクのメモリ管理、ユーザー承認と自律性のバランス設計、サブエージェントの協調など、Claude Codeで磨いた基盤を外部にも提供します。The Vergeの取材では、仮想マシン、メモリ、コンテキスト管理、マルチエージェント対応をセットで開放する方針が語られています。
ユースケースの幅も見えてきました。Anthropicは金融・法務・医療・STEM領域での推論強化を強調し、CursorやGitHub、Canva、Figma、Devinなどから“長時間の計画とコード理解が向上した”との声を紹介。とりわけCanvaは「長文脈が絡むエンジニアリングから製品内機能、調査まで改善が大きい」と評価しています。
提供面では、AWSとGoogleが同日中に対応を発表し、企業は既存のセキュア環境で4.5を利用可能に。これにより、社内コードベースを相手に“数十時間かけて設計→実装→自己検証”まで走らせる運用が現実味を帯びます。
安全性も抜かりありません。Anthropicは「もっともアラインしたフロンティアモデル」と位置づけ、へつらい(sycophancy)や欺瞞、プロンプトインジェクションへの耐性改善を公表。ASL-3の保護レベルで展開し、検知フィルタの誤検知率も過去発表比で低減させたと述べています。
総じて、Claude Sonnet 4.5は“長時間、自律、実機操作”の三拍子でエージェントの実用域を一段引き上げました。朝に指示した仕事が夕方まで途切れず前進し、必要に応じてブラウザやファイルを自分で扱って進める――そんな“相棒”像が、企業のクラウド環境で現実化しつつあります。各社の反応が早い中で、今回のアップデートはコーディングと業務代行の主戦場におけるAnthropicの存在感をいっそう強める出来事と言えそうです。
By ikuo suzuki米国時間9月29日、Anthropicが最新モデル「Claude Sonnet 4.5」を発表しました。社内検証では30時間超の連続自律稼働を実現し、SlackやTeams風のチャットアプリを約1万1千行のコードで作り切ったと報じられます。従来のOpus 4が5月時点で約7時間だったことを踏まえると、“長距離走”性能が大きく伸びた格好です。
性能面では、ソフトウェア実務の修正力を測るSWE-bench Verifiedで最先端、実機操作系ベンチのOSWorldでも61.4%でトップと公表。Computer Useの熟度が上がり、ブラウザ遷移やスプレッドシートの編集、ダッシュボードの読み取りといった“人間の段取り”を任せやすくなったと説明しています。
同時に、開発者向けの“足回り”も強化されました。AnthropicはClaude Agent SDKを公開し、長時間タスクのメモリ管理、ユーザー承認と自律性のバランス設計、サブエージェントの協調など、Claude Codeで磨いた基盤を外部にも提供します。The Vergeの取材では、仮想マシン、メモリ、コンテキスト管理、マルチエージェント対応をセットで開放する方針が語られています。
ユースケースの幅も見えてきました。Anthropicは金融・法務・医療・STEM領域での推論強化を強調し、CursorやGitHub、Canva、Figma、Devinなどから“長時間の計画とコード理解が向上した”との声を紹介。とりわけCanvaは「長文脈が絡むエンジニアリングから製品内機能、調査まで改善が大きい」と評価しています。
提供面では、AWSとGoogleが同日中に対応を発表し、企業は既存のセキュア環境で4.5を利用可能に。これにより、社内コードベースを相手に“数十時間かけて設計→実装→自己検証”まで走らせる運用が現実味を帯びます。
安全性も抜かりありません。Anthropicは「もっともアラインしたフロンティアモデル」と位置づけ、へつらい(sycophancy)や欺瞞、プロンプトインジェクションへの耐性改善を公表。ASL-3の保護レベルで展開し、検知フィルタの誤検知率も過去発表比で低減させたと述べています。
総じて、Claude Sonnet 4.5は“長時間、自律、実機操作”の三拍子でエージェントの実用域を一段引き上げました。朝に指示した仕事が夕方まで途切れず前進し、必要に応じてブラウザやファイルを自分で扱って進める――そんな“相棒”像が、企業のクラウド環境で現実化しつつあります。各社の反応が早い中で、今回のアップデートはコーディングと業務代行の主戦場におけるAnthropicの存在感をいっそう強める出来事と言えそうです。