每日AI

By 每日新闻

畅读AI学术论文，聚焦前沿趋势，普及人工智能... more

· Technology

Download on the App Store

Download on the App Store

Get it on Google Play

FAQs about 每日AI:

How many episodes does 每日AI have?

The podcast currently has 212 episodes available.

每日AI episodes:

March 20, 2026 注意力残差：治愈AI深度失忆
本文介绍了一种名为Attention Residuals (AttnRes)的新型模型架构技术，旨在解决现代大语言模型中标准残差连接导致的深度增加、信息稀释及梯度不均等问题。研究团队提出通过Softmax注意力机制取代传统的固定权重加法，使每一层都能根据输入内容动态、选择性地聚合先前所有层的表示。为了降低大规模训练中的内存和通信开销，作者进一步设计了Block AttnRes变体，将层划分为块进行跨块注意力计算，并配合跨阶段缓存等系统优化实现高效推理。实验证明，该方法在不显著增加计算负担的情况下，能有效抑制隐藏状态异常增长并优化梯度分布。在480亿参数规模的Kimi Linear模型上进行1.4万亿令牌的预训练结果显示，AttnRes显著提升了模型在逻辑推理、数学和代码等复杂任务上的下游表现。
...more
23min
March 20, 2026 MemOS：LLM记忆操作系统
MemOS 是一种为大语言模型设计的内存操作系统，旨在解决现有模型在长文本推理、个性化和知识更新方面的局限。该系统将内存视为一种可调度的系统资源，统一管理纯文本、激活态和参数化三种异构内存类型。通过核心单元 MemCube，MemOS 封装了内存内容及其元数据，实现了内存全生命周期的可控性、可塑性与演进性。这种架构建立在内存分级理论之上，支持知识在不同形态间无缝转换，从而降低计算成本并增强长期记忆。研究表明，MemOS 在多项基准测试中均达到前沿性能，为构建能够持续学习和自我进化的**通用人工智能（AGI）**奠定了基础。
...more
21min
March 20, 2026 OpenMOSS：RLCF社区反馈强化学习训练AI科学家
这份研究介绍了 OpenMOSS 团队开发的 RLCF（社区反馈强化学习） 训练范式，旨在提升人工智能的“科学品味”。研究者利用 700,000 对基于引用量匹配的论文数据，训练出具备模拟科学共同体判断能力的模型。其中，Scientific Judge 模型能够精准评估研究想法的潜在影响力，其表现超越了 GPT-5.2 等主流商业大模型。此外，以该评价模型作为奖励机制，团队进一步开发了 Scientific Thinker，使其能够自主提出更具学术价值和原创性的科研课题。实验结果证明，科学品味并非人类独有的神秘特质，而是一种可以被 AI 学习并规模化的目标函数。这一进展为实现具备人类专家级判断力的“AI 科学家”迈出了关键一步。
...more
24min
March 19, 2026 DeepSeek：Engram死记硬背让AI更聪明
这篇文章介绍了一种名为 Engram 的新型大型语言模型模块，旨在通过引入条件内存（Conditional Memory）来解决传统 Transformer 在处理静态知识检索时的低效问题。研究团队发现，现有模型常需消耗多层计算来模拟简单的信息查找，而 Engram 能够通过 O(1) 复杂度的查表操作直接提取 $N-gram$ 知识。通过对稀疏分配问题的深入研究，作者揭示了神经计算与静态内存之间的 U型扩展法则，从而在保持计算量不变的情况下显著提升了模型性能。实验证明，该技术不仅增强了模型的知识检索能力，还在逻辑推理、代码编写及长文本处理等方面表现优异。此外，Engram 的确定性寻址特性支持从宿主内存进行高效预取，克服了 GPU 显存限制，为构建超大规模稀疏模型提供了高效的基础设施方案。
...more
18min
March 19, 2026 Google DeepMind：MedGemma看病比医生还准的4B模型
这份技术报告介绍了由 Google Research 和 Google DeepMind 开发的 MedGemma，这是一系列专为医疗领域优化的多模态大模型。该模型家族基于 Gemma 3 架构，涵盖了 4B 多模态版本和 27B 文本版本，能够理解并推理复杂的医学图像与文本。研究表明，MedGemma 在视觉问答、医学影像分类及放射报告生成等任务中表现卓越，性能甚至逼近某些特定任务的专用模型。报告还推出了 MedSigLIP 视觉编码器，进一步增强了模型对皮肤病、眼科及病理影像的识别能力。通过对电子健康记录 (EHR) 等特定场景的微调，该系列模型展示了在提升医疗临床决策效率方面的巨大潜力。总而言之，MedGemma 为医疗 AI 开发提供了强大的开源基础底座。
...more
21min
March 19, 2026 ServiceNow+Mila：EnterpriseOps-Gym评估企业级智能体
ENTERPRISEOPS-GYM 是一个专门用于评估大语言模型在复杂企业场景中自主规划与工具调用能力的基准测试平台。该平台模拟了一个包含 164 个数据库表和 512 个功能工具的交互式沙箱环境，涵盖了人力资源、IT 服务和客户服务等八大核心业务领域。研究表明，即使是性能顶尖的模型在处理长周期任务和政策合规性要求时仍面临巨大挑战，成功率普遍较低。通过对比实验发现，战略规划能力而非工具识别是制约模型表现的主要瓶颈。该来源强调，目前的 AI 智能体尚不足以在无人工干预的情况下独立胜任企业级自动化工作流。这一工具包的发布旨在推动更具鲁棒性和安全性的状态感知型 AI 研究。
...more
21min
March 18, 2026 Astera： TTT-E2E让AI边读边改权重
这篇论文提出了一种名为 TTT-E2E 的新型语言模型训练方法，旨在通过测试时训练（Test-Time Training）解决长文本处理难题。该方法打破了传统的静态模型范式，让标准 Transformer 在推理阶段通过预测下一个标记持续学习，将上下文信息直接压缩进模型权重中。研究团队通过**元学习（Meta-Learning）**优化模型初始化，确保其在推理时的在线更新能有效降低预测损失。实验表明，该方法在处理 128K 超长上下文时，性能表现堪比全注意力机制，且推理延迟保持恒定。相较于 Mamba 2 等 RNN 架构，TTT-E2E 在大规模训练预算下展现出更优越的扩展性与执行效率。
...more
22min
March 18, 2026 普林斯顿：OpenClaw-RL让AI在对话中实时进化
OpenClaw-RL 是一个由普林斯顿大学等机构提出的创新 强化学习 (RL) 框架，旨在通过挖掘智能体与环境交互中被忽视的“次态信号”来提升性能。该研究指出，无论是用户的对话回复、终端执行结果还是 GUI 状态变化，都蕴含了评估性的奖励信号和指引性的修正信息。框架采用异步解耦架构，支持策略推理、环境交互、奖励判定和模型训练并行运行，确保训练过程不会中断服务。针对个人助手，它通过 Hindsight-Guided OPD 技术将用户反馈转化为 Token 级的精细指导；针对通用智能体，它则统一了终端、软件工程和工具调用等复杂场景的训练。实验证明，这种从实时交互中在线学习的方法，能让智能体在日常使用中实现自我进化与个性化定制。
...more
25min
March 18, 2026 Google：ELIXR用LLM读懂X光片
本研究介绍了一种名为 ELIXR 的新型多模态医学人工智能系统，旨在通过将放射影像编码器与大型语言模型（PaLM 2）相结合，突破传统医学 AI 任务单一的限制。该模型利用日常收集的胸部 X 光片及其对应的自由文本报告进行高效训练，无需昂贵的人工标注。ELIXR 在零样本分类、数据高效分类和语义搜索方面达到了顶尖性能，仅需极少数据即可匹敌传统监督学习模型。此外，它还展示了在视觉问答（VQA）和放射报告质量检测等复杂交互任务中的巨大潜力。这项工作标志着向通用型 X 射线 AI 系统迈出了重要一步，为处理罕见病诊断和改善临床工作流提供了高效、低成本的路径。
...more
19min
March 16, 2026 AI-Trader：全自动化实时金融大模型评估基准-美股、A股和加密货币
AI-Trader 是由香港大学研究团队推出的首个全自动化、实时且无数据污染的金融大模型评估基准。该框架涵盖了美股、A股和加密货币三大市场，旨在测试自主智能体在极端不确定性下的实时决策与风险管理能力。与传统静态测试不同，该系统采用极简信息范式，强制智能体独立通过搜索和分析工具获取市场情报并执行交易。实验结果显示，通用智能并不等同于交易能力，多数领先模型在实战中仍面临盈利波动和跨市场适应性不足的挑战。这一开源项目为评估 AI 智能体在高并发、高风险现实场景中的表现树立了新的技术标准。
...more
20min

FAQs about 每日AI:

How many episodes does 每日AI have?

The podcast currently has 212 episodes available.