本期内容
本期涵盖五个方向:AI 模型性能的实际评测、Anthropic 与美国政府博弈的最新进展、AI 安全测试能力的新标杆、LLM 架构正在发生的结构性转变,以及一项关于语言习惯与认知能力关系的研究。听完这期,你会对"AI 能做什么"和"你自己在用 AI 做什么"这两件事,都有更具体的参照点。
本期要点
- GPT-5.4 在专业任务测试中有83%的比例超过人类基线,版本号保守但实力不保守
- Anthropic 因拒绝将 Claude 用于大规模监控和自主武器,被战争部正式列为供应链风险
- Claude Opus 4.6 在两周内帮 Firefox 发现22个漏洞,其中14个高危且全部是自动化工具未曾发现的新攻击路径
- 混合架构将 Attention 层与线性循环层结合,正在把推理成本从学术问题变成产品竞争核心
- 康奈尔大学研究发现,高度使用职场黑话的人在决策任务中表现出更强的认知偏差和更弱的批判性思维
参考资料
Introducing GPT-5.4 — https://openai.com/index/introducing-gpt-5-4/
GPT-5.4 Thinking System Card — https://openai.com/index/gpt-5-4-thinking-system-card/
Where things stand with the Department of War — https://www.anthropic.com/news/where-stand-department-war
Statement on the comments from Secretary of War Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war
Statement from Dario Amodei on our discussions with the Department of War — https://www.anthropic.com/news/statement-department-of-war
Partnering with Mozilla to improve Firefox's security — https://www.anthropic.com/news(见官网最新公告)
Olmo Hybrid and Future LLM Architectures — https://www.interconnects.ai
Workers Who Love 'Synergizing Paradigms' Might Be Bad at Their Jobs — https://news.cornell.edu(原研究发表于 Personality and Individual Differences)
---
BearTalk 狗熊有话说播客,始于 2012 年。
订阅地址:https://beartalking.com/page/podcast