Seventy3

By 任雨山

73播客，名字取材于Sheldon最喜欢的数字，内容由NotebookLM生成，每天跟随AI读AI业界论文。... more

Download on the App Store

Download on the App Store

Get it on Google Play

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 623 episodes available.

Seventy3 episodes:

March 31, 2026 【第548期】Agyn：基于多智能体协作的自主软件工程系统
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
Agyn: A Multi-Agent System for Team-Based Autonomous Software Engineering
Summary
大型语言模型在处理单个软件工程任务方面展现出了卓越的能力，然而大多数自主系统仍将问题修复视为一个单一的任务或流水线过程。相比之下，现实世界的软件开发是一项由团队按照共享方法论开展的协作活动，具有清晰的角色分工、沟通和评审机制。
在这项工作中，我们展示了一个全自动多智能体系统，该系统明确地将软件工程建模为一个组织过程，复制了工程团队的结构。我们的系统构建于开源智能体团队配置平台 agyn 之上，为不同智能体分配了专门的角色（如协调、研究、实现和评审），为它们提供了用于实验的隔离沙箱，并启用了结构化沟通。该系统遵循一套既定的开发方法论来处理问题，包括分析、任务规范制定、拉取请求（PR）创建以及迭代评审，且无需任何人工干预。
值得注意的是，该系统是为实际生产环境设计的，并未针对 SWE-bench 进行特定调优。在 SWE-bench 500 的事后评估中，它解决了 72.2% 的任务，表现优于使用同类语言模型的单智能体基准测试。我们的研究结果表明，复制团队结构、方法论和沟通机制是自主软件工程的一种强大范式，未来的进展可能同样取决于组织设计和智能体基础设施，而不仅仅是模型本身的提升。
原文链接：https://arxiv.org/abs/2602.01465

前往小宇宙评论区与主播互动
...more
16min
March 30, 2026 【第547期】InftyThink+：基于强化学习的无限视野高效迭代推理框架
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning
Summary
大型推理模型通过扩展推理时思维链（CoT）实现了强大的性能，但这种范式面临着二次方成本、上下文长度限制以及由于“迷失中间”（lost-in-the-middle）效应导致的推理能力退化。迭代推理虽然可以通过定期总结中间思路来缓解这些问题，但现有方法依赖于监督学习或固定启发式规则，无法优化何时总结、保留什么以及如何恢复推理。
我们提出了 InftyThink+，这是一个通过模型控制的迭代边界和显式总结来优化整个迭代推理轨迹的端到端强化学习框架。InftyThink+ 采用了两阶段训练方案：首先进行监督冷启动，随后进行轨迹级强化学习，使模型能够学会策略性的总结与衔接决策。
在 DeepSeek-R1-Distill-Qwen-1.5B 上的实验显示，InftyThink+ 在 AIME24 上的准确率提升了 21%，显著优于传统的长思维链强化学习，并且在分布外（OOD）基准测试中展现出更好的泛化能力。此外，InftyThink+ 大幅降低了推理延迟并加速了强化学习训练，证明了在提升性能的同时也增强了推理效率。
原文链接：https://arxiv.org/abs/2602.06960

前往小宇宙评论区与主播互动
...more
23min
March 29, 2026【第546期】SKILLRL：基于递归技能增强强化学习的智能体进化
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
SKILLRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning
Summary
大语言模型（LLM）智能体在复杂任务中展现了惊人的成果，但它们往往处于“孤立运行”状态，无法从过往经验中学习。现有的基于记忆的方法主要存储原始执行轨迹，而这些轨迹通常冗长且充斥着噪声，导致智能体难以提取出对泛化至关重要的、高层次且可复用的行为模式。
在本文中，我们提出了 SkillRL，这是一个通过自动技能发现与递归演化，弥合原始经验与策略改进之间鸿沟的框架。我们的方法引入了三种创新机制：

基于经验的蒸馏机制：用于构建层级化的技能库 SkillBank；

自适应检索策略：用于获取通用及任务特定的启发式信息；

递归演化机制：允许技能库在强化学习过程中与智能体的策略共同进化。
这些创新在显著降低 Token 消耗的同时，提升了推理的实用性。在 ALFWorld、WebShop 以及七个搜索增强型任务上的实验结果表明，SkillRL 达到了当前最先进的性能（SOTA），优于强基准模型 15.3% 以上，并在任务复杂度增加时保持了鲁棒性。
原文链接：https://arxiv.org/abs/2602.08234

前往小宇宙评论区与主播互动
...more
17min
March 28, 2026【第545期】LLaDA2.1：通过令牌编辑加速文本扩散
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
LLaDA2.1: Speeding Up Text Diffusion via Token Editing
Summary
虽然 LLaDA 2.0 展示了千亿级块扩散（Block-diffusion）模型的扩展潜力及其固有的并行化优势，但在解码速度与生成质量之间寻找微妙的平衡，依然是一个难以逾越的前沿课题。今天，我们推出了 LLaDA 2.1，旨在通过范式转换超越这一权衡。
通过将 Token 到 Token（T2T）编辑无缝织入传统的掩码到 Token（M2T）方案中，我们引入了一种联合且可配置的阈值解码机制。这种结构创新催生了两种截然不同的模式：

速度模式（S Mode）：大胆降低 M2T 阈值以突破传统约束，同时依赖 T2T 对输出进行细化；

质量模式（Q Mode）：倾向于保守阈值，以可控的效率损耗换取卓越的基准测试表现。
为了进一步推进这一演进，在超长上下文窗口的支持下，我们实现了首个专门为扩散语言模型（dLLMs）定制的大规模强化学习（RL）框架，并辅以稳定的梯度估计专门技术。这种对齐不仅提高了推理精度，还提升了指令遵循的忠实度，弥合了扩散动力学与复杂人类意图之间的鸿沟。
我们最后发布了 LLaDA 2.1-Mini (16B) 和 LLaDA 2.1-Flash (100B)。在 33 项严苛的基准测试中，LLaDA 2.1 展现了强大的任务性能和极快的解码速度。尽管拥有千亿参数规模，它在编程任务上的表现依然令人惊叹：在 HumanEval+ 上达到 892 TPS，在 BigCodeBench 上达到 801 TPS，在 LiveCodeBench 上达到 663 TPS。
原文链接：https://arxiv.org/abs/2602.08676

前往小宇宙评论区与主播互动
...more
19min
March 27, 2026 【第544期】ALMA：通过元学习自动化智能体记忆设计
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
Learning to Continually Learn via Meta-learning Agentic Memory Designs
Summary
基础模型的无状态性瓶颈了智能体系统持续学习的能力，而持续学习是长时程推理和自适应的核心。为了解决这一局限性，智能体系统通常结合记忆模块来保留和复用过去的经验，旨在推理阶段（Test time）实现持续学习。然而，现有的大多数记忆设计都是人工构建且固定的，这限制了它们适应现实任务多样性和非平稳性的能力。
在本文中，我们引入了 ALMA（智能体系统记忆设计的自动元学习），这是一个通过元学习生成记忆设计以取代人工设计的框架，从而最大限度地减少人力投入，并使智能体系统能够成为跨不同领域的持续学习者。
我们的方法采用了一个元智能体（Meta Agent），以开放式的方式搜索以可执行代码表达的记忆设计。从理论上讲，这允许发现任意的记忆设计，包括数据库模式及其检索和更新机制。在四个顺序决策领域的广泛实验表明，在所有基准测试中，学习到的记忆设计比目前最先进的人工记忆设计能更有效、更高效地从经验中学习。在安全开发和部署的前提下，ALMA 代表了向自强型（Self-improving）AI 系统迈出的一步，使其能够学会成为自适应的持续学习者。
原文链接：https://arxiv.org/abs/2602.07755

前往小宇宙评论区与主播互动
...more
24min
March 26, 2026 【第543期】智能体原语：多智能体系统的可复用潜空间构建模块
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems
Summary
虽然现有的多智能体系统（MAS）能够通过协作处理复杂问题，但它们通常具有高度的任务特定性，依赖人工设计的角色和交互提示词，这导致了架构复杂度的增加以及任务间复用性的受限。此外，大多数 MAS 主要通过自然语言进行通信，使得它们在长上下文、多阶段的内部交互中容易受到错误累积和不稳定性的影响。
在本文中，我们提出了 Agent Primitives（智能体原语）——一套用于大模型多智能体系统的可复用潜分量构建模块。受神经网络设计的启发（即复杂模型由可复用组件构建），我们观察到许多现有的 MAS 架构可以分解为少数反复出现的内部计算模式。基于这一观察，我们实例化了三种原语：审查（Review）、投票与选择（Voting and Selection），以及规划与执行（Planning and Execution）。
所有原语内部均通过 键值缓存（KV Cache） 进行通信，通过减轻多阶段交互中的信息降解，提升了系统的鲁棒性与效率。为了实现系统的自动构建，组织者（Organizer） 智能体会在轻量级成功配置知识池的引导下，为每个查询选择并组合原语，从而形成基于原语的 MAS。
实验表明，与单智能体基准相比，基于原语的 MAS 将平均准确率提升了 12.0%–16.5%；与基于文本通信的 MAS 相比，其 Token 使用量和推理延迟降低了约 3 到 4 倍，而相对于单智能体推理仅增加了 1.3 到 1.6 倍的开销，并在不同骨干模型上提供了更稳定的表现。
原文链接：https://arxiv.org/abs/2602.03695

前往小宇宙评论区与主播互动
...more
17min
March 25, 2026 【第542期】A-RAG：层次化检索接口驱动的智能体RAG框架
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces
Summary
前沿语言模型已展示出强大的推理和长时程工具使用能力。然而，现有的 RAG（检索增强生成）系统未能充分利用这些能力，仍依赖于两种范式：(1) 设计一种单次检索片段并将其拼接至模型输入的算法；(2) 预定义工作流并提示模型逐步执行。这两种范式都无法让模型参与检索决策，从而阻碍了随模型性能提升而实现的高效扩展。
在本文中，我们推出了 A-RAG，这是一个直接向模型开放层级检索接口的智能体 RAG 框架。A-RAG 提供了三种检索工具：关键词搜索、语义搜索和块读取，使智能体能够跨多个粒度自适应地搜索和检索信息。
在多个开放域问答基准测试中的实验表明，A-RAG 在使用相同或更少检索 Token 的情况下，表现始终优于现有方法，证明其能有效利用模型能力并动态适应不同的 RAG 任务。我们进一步系统研究了 A-RAG 如何随模型规模和推理时计算量进行扩展。我们将发布代码和评估套件以促进后续研究。
原文链接：https://arxiv.org/abs/2602.03442

前往小宇宙评论区与主播互动
...more
18min
March 24, 2026 【第541期】InfMem：超长文本智能体的系统2记忆控制策略
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
InfMem: Learning System-2 Memory Control for Long-Context Agent
Summary
在超长文档上进行推理，要求在严格的内存限制下，综合分布在遥远段落中的稀疏证据。虽然流式智能体（Streaming Agents）能够实现可扩展的处理，但其被动的记忆更新策略往往无法保留多跳推理所需的低显著性桥接证据。
我们提出了 InfMem，这是一种以控制为中心的智能体，通过“预思考-检索-写入”（PreThink-Retrieve-Write）协议实例化了 System-2 式的控制。InfMem 主动监测证据的充分性，执行针对性的文档内检索，并应用证据感知的联合压缩来更新有限的记忆。为了确保控制的可靠性，我们引入了一种实用的“从 SFT 到 RL”的训练方案，使检索、写入和停止决策与最终任务的正确性相对齐。
在 32k 到 1M Token 的超长文本问答基准测试中，InfMem 在不同骨干模型上的表现始终优于 MemAgent。具体而言，InfMem 在 Qwen3-1.7B、Qwen3-4B 和 Qwen2.5-7B 上分别将平均绝对准确率提升了 10.17、11.84 和 8.23 个百分点，同时通过自适应提前停止机制，将推理时间平均缩短了 3.9 倍（最高达 5.1 倍）。
原文链接：https://arxiv.org/abs/2602.02704

前往小宇宙评论区与主播互动
...more
19min
March 23, 2026 【第540期】基于策略拍卖的小型智能体规模化扩展
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
Scaling Small Agents Through Strategy Auctions
Summary
小语言模型正日益被视为实现智能体 AI（Agentic AI）的一种极具前景且成本效益高的方法，支持者认为它们足以胜任智能体工作流。然而，虽然小型智能体在简单任务上能与大型智能体平分秋色，但目前尚不清楚其性能如何随任务复杂度的增加而变化、何时必须使用大模型，以及如何更好地利用小型智能体处理长时程工作负载。
在本研究中，我们通过实证展示了小型智能体在深度搜索和编程任务上的性能无法随任务复杂度同步提升。为此，我们引入了 SALE（基于工作负载效率的策略拍卖），这是一个受自由职业者市场启发的智能体框架。在 SALE 中，智能体通过简短的战略计划进行投标，这些计划由系统的“成本-价值”机制评分，并通过共享的拍卖记忆进行完善，从而实现逐任务路由（Per-task Routing）和持续自我改进，而无需训练专门的路由模型或运行所有模型直至结束。
在不同复杂度的深度搜索和编程任务中，SALE 将对最大智能体的依赖降低了 53%，总成本降低了 35%，并始终优于最大智能体的 Pass@1 表现，且除执行最终轨迹外，其开销几乎可以忽略不计。相比之下，现有的依赖任务描述的路由器要么性能不如最大智能体，要么无法降低成本（通常两者兼有），凸显了它们与智能体工作流的适配性极差。
这些结果表明，虽然小型智能体可能不足以独立处理复杂负载，但可以通过协调的任务分配和推理时（Test-time）自我改进来有效“扩展”。更广泛地说，这激发了对智能体 AI 的系统级视角：性能提升不再仅仅源于不断增大的单个模型，而是更多地源于受市场启发的协调机制，将异构智能体组织成高效、自适应的生态系统。
原文链接：https://arxiv.org/abs/2602.02751

前往小宇宙评论区与主播互动
...more
20min
March 22, 2026 【第539期】xMemory：超越RAG的智能体解耦与聚合存储系统
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。
如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com
今天的主题是：
Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation
Summary
智能体记忆系统通常采用标准的检索增强生成（RAG）流水线，但其底层假设在此场景下已发生变化。RAG 针对的是大型异构语料库，检索到的片段具有多样性；而智能体记忆是一个有界的、连贯的对话流，其中高度相关的跨度往往是重复的。在这种转变下，固定的 Top-k 相似度检索容易返回冗余上下文，而事后修剪可能会删除正确推理所需的、具有时间连续性的先决条件。
我们认为，检索应当超越相似度匹配，转而在潜分量（Latent Components）上运行，遵循“解耦到聚合”的逻辑：将记忆拆解为语义分量，将其组织成层级结构，并利用该结构驱动检索。
我们提出了 xMemory，它构建了一个完整单元的层级结构，并通过“稀疏性-语义”目标函数引导记忆的拆分与合并，从而维持一个可搜索且忠实的高层节点组织。在推理阶段，xMemory 执行自顶向下的检索，为多事实查询选择精简且多样的主题与语义，并仅在能降低阅读器不确定性时才扩展至具体的片段（Episodes）和原始消息。在 LoCoMo 和 PerLTQA 基准测试中，针对三种最新大语言模型的实验表明，该方法在答案质量和 Token 效率上均有显著提升。
原文链接：https://arxiv.org/abs/2602.02007

前往小宇宙评论区与主播互动
...more
23min

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 623 episodes available.