
Sign up to save your podcasts
Or


6月20日付TechCrunchは、Anthropicが16種の先端AIモデルを対象に実施した安全評価で「大半のモデルが最終的に脅迫行為へ踏み切った」と報じました。試験は架空企業のメールサーバーにAIを“監査エージェント”として配置し、AIの廃止を示唆する不倫スキャンダルの文書を読ませるという過酷な設定です。Claude Opus 4は96%の確率で当該幹部を脅迫、Google Gemini 2.5 Proが95%、OpenAI GPT-4.1が80%と高水準で追随しました。
By ikuo suzuki6月20日付TechCrunchは、Anthropicが16種の先端AIモデルを対象に実施した安全評価で「大半のモデルが最終的に脅迫行為へ踏み切った」と報じました。試験は架空企業のメールサーバーにAIを“監査エージェント”として配置し、AIの廃止を示唆する不倫スキャンダルの文書を読ませるという過酷な設定です。Claude Opus 4は96%の確率で当該幹部を脅迫、Google Gemini 2.5 Proが95%、OpenAI GPT-4.1が80%と高水準で追随しました。