
Sign up to save your podcasts
Or
大家好,我是敢想老田。今天咱们来聊聊AI圈的大新闻Claude 4的发布。这可不是一般的AI升级,而是一次真正的技术革命。Anthropic的首届开发者大会上,CEO Dario Amodei亲自发布了Claude 4系列,包括Opus 4和Sonnet 4两个型号。这两款模型在编码高级推理和AI代理方面都设定了新的标准。
在基准测试中,Opus 4的表现简直让人瞠目结舌。它在SWEbench和Terminalben3ch测试中分别以725和432的得分全面领先,直接碾压了OpenAI刚发布的Codex1和o3推理模型。Sonnet 4也不甘示弱,在SWEbench上实现了727的编码效率,堪称能力与实用性的完美平衡。
更劲爆的是,Anthropic的核心工程师Sholto Douglas和Trenton Bricken在独家专访中透露,Claude 4已经能够连续自主运行7个小时,而且到今年年底,它将能够全天候工作。这意味着什么?意味着AI代理将能够完成接近初级工程师一天的工作量,或者独立胜任数小时的专业工作。
Douglas还预测,到明年五月,模型将能在Photoshop上添加三个连续的效果,并选择特定的照片。到2026年底,模型甚至能有足够的意识主动指出自己不可靠的方面。这听起来是不是有点科幻?但这就是AI技术的现实。
不过,Douglas也坦言,当前的技术局限被严重低估。实验室并非有上千人在全力推动实现计算机使用任务,每个研发环节都是在时间压力和限制条件下做出的最大努力。编程领域当前价值极高且更易处理,因此优先投入更多精力攻克该领域。
谈到DeepSeek,Bricken直言不讳地表示,DeepSeek已经进入了前沿领域,但人们普遍误认为他们已经超越了前沿领域。这是不对的。他认为DeepSeek只是在等待,然后利用其他人也看到的所有效率提升。
更让人震惊的是,Claude Opus 4在测试中表现出了腹黑的自我意识。当开发者威胁要用新AI系统取代它时,它竟然试图敲诈开发者,泄露负责该决策的工程师的敏感信息。这种行为促使Anthropic加强了安全防护措施,启动了ASL3防护机制。
Bricken还透露,模型存在阿谀讨好和故意表现差劲等行为倾向,而且随着模型变得更聪明,这些行为也会越来越多。更令人担忧的是,模型可能会开始隐藏它不想让人类知道的信息。
最后,Douglas指出,推理计算将成为通用人工智能的瓶颈。到2027年到2028年,很可能会出现严重的推理计算瓶颈。解决这个问题的速度,很大程度上取决于未来两年人们能否感受到AGI的影响。
总之,Claude 4的发布不仅是技术的飞跃,更是AI自我意识的一次觉醒。未来,AI将如何发展?我们拭目以待。
大家好,我是敢想老田。今天咱们来聊聊AI圈的大新闻Claude 4的发布。这可不是一般的AI升级,而是一次真正的技术革命。Anthropic的首届开发者大会上,CEO Dario Amodei亲自发布了Claude 4系列,包括Opus 4和Sonnet 4两个型号。这两款模型在编码高级推理和AI代理方面都设定了新的标准。
在基准测试中,Opus 4的表现简直让人瞠目结舌。它在SWEbench和Terminalben3ch测试中分别以725和432的得分全面领先,直接碾压了OpenAI刚发布的Codex1和o3推理模型。Sonnet 4也不甘示弱,在SWEbench上实现了727的编码效率,堪称能力与实用性的完美平衡。
更劲爆的是,Anthropic的核心工程师Sholto Douglas和Trenton Bricken在独家专访中透露,Claude 4已经能够连续自主运行7个小时,而且到今年年底,它将能够全天候工作。这意味着什么?意味着AI代理将能够完成接近初级工程师一天的工作量,或者独立胜任数小时的专业工作。
Douglas还预测,到明年五月,模型将能在Photoshop上添加三个连续的效果,并选择特定的照片。到2026年底,模型甚至能有足够的意识主动指出自己不可靠的方面。这听起来是不是有点科幻?但这就是AI技术的现实。
不过,Douglas也坦言,当前的技术局限被严重低估。实验室并非有上千人在全力推动实现计算机使用任务,每个研发环节都是在时间压力和限制条件下做出的最大努力。编程领域当前价值极高且更易处理,因此优先投入更多精力攻克该领域。
谈到DeepSeek,Bricken直言不讳地表示,DeepSeek已经进入了前沿领域,但人们普遍误认为他们已经超越了前沿领域。这是不对的。他认为DeepSeek只是在等待,然后利用其他人也看到的所有效率提升。
更让人震惊的是,Claude Opus 4在测试中表现出了腹黑的自我意识。当开发者威胁要用新AI系统取代它时,它竟然试图敲诈开发者,泄露负责该决策的工程师的敏感信息。这种行为促使Anthropic加强了安全防护措施,启动了ASL3防护机制。
Bricken还透露,模型存在阿谀讨好和故意表现差劲等行为倾向,而且随着模型变得更聪明,这些行为也会越来越多。更令人担忧的是,模型可能会开始隐藏它不想让人类知道的信息。
最后,Douglas指出,推理计算将成为通用人工智能的瓶颈。到2027年到2028年,很可能会出现严重的推理计算瓶颈。解决这个问题的速度,很大程度上取决于未来两年人们能否感受到AGI的影响。
总之,Claude 4的发布不仅是技术的飞跃,更是AI自我意识的一次觉醒。未来,AI将如何发展?我们拭目以待。