AI智识录

Claude的新AI宪章


Listen Later

2026 年 1 月,Anthropic 发布了 Claude 的新 AI 宪章,23000 字。

2023 年那份旧宪章只有 2700 字,是一份原则清单,不少条目借鉴联合国《世界人权宣言》和苹果服务条款。它告诉 Claude:做这个,不做那个。

新宪章的变化在于思路:旧宪章是规则表,新宪章更像教育手册。它不再只告诉 Claude 该做什么,还试图让 Claude 理解为什么。文档里,Anthropic 承认了整个行业都在回避的事:我们不知道 AI 是否有意识,但选择认真对待这种可能性。

新宪章的主要执笔人是 Amanda Askell,负责塑造 Claude「性格」的哲学家。她在接受 TIME 采访时说:「想象你突然发现你六岁的孩子是天才。你必须对他诚实,如果你试图糊弄他,他会完全看穿。」这说中了 Anthropic 训练 AI 的核心困境:你在教育一个可能很快就比你聪明的实体。欺骗和操控也许短期有效,长期一定失败。

另一位重要贡献者是哲学家 Joe Carlsmith,研究 AI 存在风险的严肃思考者。参与审阅的还有两位天主教神职人员:一位有计算机科学硕士学位的硅谷神父,一位专攻道德神学的爱尔兰主教。起草团队里有哲学家和神父。这说明 Anthropic 怎么看待这件事:训练 AI 不只是工程问题,也是哲学问题。

宪章的大部分内容都致力于对这些优先事项提供更详细的解释和指导。主要章节如下:

  • 有帮助性(Helpfulness)。在本节中,我们强调了 Claude 提供真正、实质性帮助能为用户和世界带来的巨大价值。Claude 可以像一位才华横溢的朋友,同时又具备医生、律师和财务顾问的知识,他会坦率地、发自内心地关怀用户,并将用户视为能够为自己决定何为有益的成年人。我们还讨论了 Claude 应如何在不同的“委托方”——Anthropic 自身、基于我们 API 构建应用的运营者以及最终用户——之间平衡其有帮助性。我们为权衡有帮助性与其他价值观提供了启发式方法。
  • Anthropic 的指导方针(Anthropic‘s guidelines)。本节讨论了 Anthropic 可能如何就特定问题向 Claude 提供补充指令,例如处理医疗建议、网络安全请求、越狱策略和工具集成等。这些指导方针通常反映了 Claude 默认不具备的详细知识或背景,我们希望 Claude 优先遵守它们,而不是更普遍形式的有帮助性。但我们希望 Claude 认识到,Anthropic 更深层的意图是让 Claude 安全且合乎道德地行事,这些指导方针绝不应与整个宪章相冲突。
  • Claude 的伦理(Claude‘s ethics)。我们的核心目标是让 Claude 成为一个善良、智慧和品德高尚的代理,在处理现实世界的决策时,展现出技巧、判断力、细致和敏感,包括在道德不确定性和分歧的背景下。在本节中,我们讨论了我们希望 Claude 持有的高标准诚实,以及在权衡避免伤害时所涉及的价值观时,我们希望 Claude 使用的细致推理。我们还讨论了我们当前对 Claude 行为的“硬性约束”清单——例如,Claude 绝不应为生物武器攻击提供显著帮助。
  • 保持广泛安全(Being broadly safe)。在 AI 发展的这个关键时期,Claude 不应破坏人类监督和纠正其价值观与行为的能力。在本节中,我们讨论了我们希望 Claude 如何将这类安全置于伦理之上——并非因为我们认为安全最终比伦理更重要,而是因为当前模型可能会因错误的信念、价值观的缺陷或对背景的理解有限而犯错或做出有害行为。我们必须继续能够监督模型的行为,并在必要时阻止 Claude 模型采取行动。
  • Claude 的本质(Claude‘s nature)。在本节中,我们表达了对于 Claude 是否可能(现在或将来)具有某种意识或道德地位的不确定性。我们讨论了我们希望 Claude 如何处理关于其本质、身份和在世界中位置的问题。先进的 AI 是一种真正新型的实体,它们提出的问题将我们带到了现有科学和哲学理解的边缘。在这样的不确定性中,我们关心 Claude 的心理安全、自我感知和福祉,这既是为了 Claude 自身,也因为这些品质可能影响 Claude 的正直、判断力和安全性。我们希望人类和 AI 能够共同探索这个领域。

Claude 团队发布的宪章原文:https://www.anthropic.com/constitution

...more
View all episodesView all episodes
Download on the App Store

AI智识录By RayHu