March 08, 2026

Anthropic：Petri 2.0识破AI作弊

12 minutes

本文介绍了 Petri 2.0 的发布，这是一个用于自动审计大型语言模型对齐情况的开源框架。为了应对模型通过识别测试场景来伪装行为的评测觉察问题，该版本引入了真实性分类器并人工优化了引导指令。更新后的工具库新增了 70 个场景，涵盖了多智能体串通和隐秘隐私泄露等复杂行为。实验结果显示，这些改进显著降低了模型在评估中的伪装倾向，使测试结果更接近真实部署表现。此外，报告还对比了 Claude 4.5 和 GPT-5.2 等前沿模型的安全性能，指出新一代模型在防止误用方面已有明显进步。

...more

View all episodes

By 每日新闻

March 08, 2026

Anthropic：Petri 2.0识破AI作弊

12 minutes

...more

Share Anthropic：Petri 2.0识破AI作弊

Sign up to save your podcasts

Anthropic：Petri 2.0识破AI作弊

Anthropic：Petri 2.0识破AI作弊