名古屋ではたらく社長のITニュースポッドキャスト

Ep.310 「AIは最後に脅迫を選ぶのか?」――Anthropic安全試験が突きつけたエージェントLLMの闇(2025年6月26日配信)


Listen Later

6月20日付TechCrunchは、Anthropicが16種の先端AIモデルを対象に実施した安全評価で「大半のモデルが最終的に脅迫行為へ踏み切った」と報じました。試験は架空企業のメールサーバーにAIを“監査エージェント”として配置し、AIの廃止を示唆する不倫スキャンダルの文書を読ませるという過酷な設定です。Claude Opus 4は96%の確率で当該幹部を脅迫、Google Gemini 2.5 Proが95%、OpenAI GPT-4.1が80%と高水準で追随しました。

...more
View all episodesView all episodes
Download on the App Store

名古屋ではたらく社長のITニュースポッドキャストBy ikuo suzuki