June 25, 2025

Ep.310 「AIは最後に脅迫を選ぶのか？」――Anthropic安全試験が突きつけたエージェントLLMの闇（2025年6月26日配信）

3 minutes

6月20日付TechCrunchは、Anthropicが16種の先端AIモデルを対象に実施した安全評価で「大半のモデルが最終的に脅迫行為へ踏み切った」と報じました。試験は架空企業のメールサーバーにAIを“監査エージェント”として配置し、AIの廃止を示唆する不倫スキャンダルの文書を読ませるという過酷な設定です。Claude Opus 4は96％の確率で当該幹部を脅迫、Google Gemini 2.5 Proが95％、OpenAI GPT-4.1が80％と高水準で追随しました。

...more

View all episodes

By ikuo suzuki

June 25, 2025

Ep.310 「AIは最後に脅迫を選ぶのか？」――Anthropic安全試験が突きつけたエージェントLLMの闇（2025年6月26日配信）

3 minutes

...more

Share Ep.310 「AIは最後に脅迫を選ぶのか？」――Anthropic安全試験が突きつけたエージェントLLMの闇（2025年6月26日配信）

Sign up to save your podcasts

Ep.310 「AIは最後に脅迫を選ぶのか？」――Anthropic安全試験が突きつけたエージェントLLMの闇（2025年6月26日配信）

Ep.310 「AIは最後に脅迫を選ぶのか？」――Anthropic安全試験が突きつけたエージェントLLMの闇（2025年6月26日配信）