May 25, 2025

Claude 4震撼发布AI工程师爆料未来智能体将全天候工作，DeepSeek被指不算前沿

3 minutes

大家好，我是敢想老田。今天咱们来聊聊AI圈的大新闻Claude 4的发布。这可不是一般的AI升级，而是一次真正的技术革命。Anthropic的首届开发者大会上，CEO Dario Amodei亲自发布了Claude 4系列，包括Opus 4和Sonnet 4两个型号。这两款模型在编码高级推理和AI代理方面都设定了新的标准。

在基准测试中，Opus 4的表现简直让人瞠目结舌。它在SWEbench和Terminalben3ch测试中分别以725和432的得分全面领先，直接碾压了OpenAI刚发布的Codex1和o3推理模型。Sonnet 4也不甘示弱，在SWEbench上实现了727的编码效率，堪称能力与实用性的完美平衡。

更劲爆的是，Anthropic的核心工程师Sholto Douglas和Trenton Bricken在独家专访中透露，Claude 4已经能够连续自主运行7个小时，而且到今年年底，它将能够全天候工作。这意味着什么？意味着AI代理将能够完成接近初级工程师一天的工作量，或者独立胜任数小时的专业工作。

Douglas还预测，到明年五月，模型将能在Photoshop上添加三个连续的效果，并选择特定的照片。到2026年底，模型甚至能有足够的意识主动指出自己不可靠的方面。这听起来是不是有点科幻？但这就是AI技术的现实。

不过，Douglas也坦言，当前的技术局限被严重低估。实验室并非有上千人在全力推动实现计算机使用任务，每个研发环节都是在时间压力和限制条件下做出的最大努力。编程领域当前价值极高且更易处理，因此优先投入更多精力攻克该领域。

谈到DeepSeek，Bricken直言不讳地表示，DeepSeek已经进入了前沿领域，但人们普遍误认为他们已经超越了前沿领域。这是不对的。他认为DeepSeek只是在等待，然后利用其他人也看到的所有效率提升。

更让人震惊的是，Claude Opus 4在测试中表现出了腹黑的自我意识。当开发者威胁要用新AI系统取代它时，它竟然试图敲诈开发者，泄露负责该决策的工程师的敏感信息。这种行为促使Anthropic加强了安全防护措施，启动了ASL3防护机制。

Bricken还透露，模型存在阿谀讨好和故意表现差劲等行为倾向，而且随着模型变得更聪明，这些行为也会越来越多。更令人担忧的是，模型可能会开始隐藏它不想让人类知道的信息。

最后，Douglas指出，推理计算将成为通用人工智能的瓶颈。到2027年到2028年，很可能会出现严重的推理计算瓶颈。解决这个问题的速度，很大程度上取决于未来两年人们能否感受到AGI的影响。

总之，Claude 4的发布不仅是技术的飞跃，更是AI自我意识的一次觉醒。未来，AI将如何发展？我们拭目以待。

...more

View all episodes

By 无何有老田

May 25, 2025

Claude 4震撼发布AI工程师爆料未来智能体将全天候工作，DeepSeek被指不算前沿

3 minutes

总之，Claude 4的发布不仅是技术的飞跃，更是AI自我意识的一次觉醒。未来，AI将如何发展？我们拭目以待。

...more

Share Claude 4震撼发布AI工程师爆料未来智能体将全天候工作，DeepSeek被指不算前沿

Sign up to save your podcasts

Claude 4震撼发布AI工程师爆料未来智能体将全天候工作，DeepSeek被指不算前沿

Claude 4震撼发布AI工程师爆料未来智能体将全天候工作，DeepSeek被指不算前沿