Seventy3

By 任雨山

73播客，名字取材于Sheldon最喜欢的数字，内容由NotebookLM生成，每天跟随AI读AI业界论文。... more

Download on the App Store

Download on the App Store

Get it on Google Play

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 282 episodes available.

Seventy3 episodes:

June 24, 2025 【第267期】RoboMIND：用于机器人操作的大型、多主体、高质量数据集
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation
Summary
名为RoboMIND的来源文档介绍了一个用于机器人操作的大型、多主体、高质量数据集，旨在推动通用机器人模型的开发。该数据集包含107k条演示轨迹，涵盖479项不同任务和96种对象类别，并利用人类遥操作以标准化方式收集数据，确保一致性和可靠性。RoboMIND不仅包括成功的操作轨迹，还收录了5k条现实世界中的失败案例及其详细原因，以及一个数字孪生模拟环境以促进低成本数据收集和评估。通过对各种模仿学习方法和视觉-语言-动作（VLA）模型进行广泛实验，RoboMIND被证明能够显著提高机器人操作的成功率和泛化能力，使其成为机器人学习领域的重要基准和资源。
原文链接：https://arxiv.org/abs/2412.13877
...more
17min
June 23, 2025 【第266期】OLMo 2
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：2 OLMo 2 Furious
Summary
这篇文档介绍了 OLMo 2，一种由 AllenAI 开发的开源语言模型系列。它详细阐述了 OLMo 2 相较于其前代模型的改进，包括架构增强、训练稳定性提升和数据混合策略的优化，特别是引入了 Dolmino Mix 1124 以提高数学能力。文档还讨论了后训练流程，例如使用 RLVR 进行指令微调，并强调了基础设施作为研究催化剂的重要性。OLMo 2 在性能上与 Llama 3.1 和 Qwen 2.5 等其他模型竞争，但提供了完全透明的训练数据和代码，旨在促进开源语言模型生态系统的发展。
原文链接：https://arxiv.org/abs/2501.00656
...more
27min
June 22, 2025 【第265期】ARQ： for LLM Instruction Following
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models
Summary
这些资料介绍了一种名为注意力推理查询 (ARQs) 的新颖结构化推理方法，旨在显著提升大型语言模型 (LLMs) 在遵循指令方面的表现。通过引导 LLMs 遵循特定领域的推理蓝图和目标查询，ARQs 解决了 LLMs 在多轮对话中难以持续遵守复杂指令的常见问题。该研究在 Parlant 框架内对 ARQs 进行了评估，结果显示其在客服场景中表现优于传统的思维链 (CoT) 和直接响应生成方法，特别是在指导方针重新应用和防止幻觉等关键挑战方面。尽管 ARQs 在某些模块中可能消耗更多计算资源，但其在结构化任务中展现出更高的效率和准确性，这表明精心设计的 ARQs 能够有效控制 LLMs 的信息处理和决策制定过程。
原文链接：https://arxiv.org/abs/2503.03669
...more
31min
June 21, 2025 【第264期】Block Diffusion Language Models
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
Summary
这些来源介绍了一种名为块扩散语言模型（BD3-LMs）的新型人工智能模型，它结合了自回归模型和扩散模型的优点。传统扩散模型在生成任意长度文本和推理效率方面存在局限性，而自回归模型则受限于顺序生成。BD3-LMs通过将文本分成块并在每个块内使用扩散模型进行并行生成来解决这些问题，同时利用键值缓存提高效率。研究表明，与现有扩散模型相比，BD3-LMs在语言建模基准测试中达到了最先进的性能，并且能够生成更长、质量更高的序列，部分得益于优化的训练算法和低方差的噪声调度。
原文链接：https://arxiv.org/abs/2503.09573
...more
22min
June 20, 2025 【第263期】SEARCH-R1: RL for Reasoning and Search in LLMs
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
Summary
这篇研究文章提出了一种名为 SEARCH-R1 的新型框架，它利用强化学习让大型语言模型 (LLMs) 学习如何通过 多轮搜索查询 与搜索引擎进行自主交互。区别于依赖固定检索或大量标注数据的现有方法，SEARCH-R1 使 LLMs 能够在 逐步推理 过程中动态生成搜索请求并利用实时检索到的信息。通过在强化学习训练中引入检索到的词元屏蔽和基于结果的奖励函数，SEARCH-R1 在多个问答数据集上显著提高了性能，验证了其在结合推理与外部知识获取方面的有效性。
原文链接：https://arxiv.org/abs/2503.09516
...more
15min
June 19, 2025 【第262期】PLAN-AND-ACT：Long-Horizon Tasks Plan Agents
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks
Summary
这篇文章介绍了一个名为 PLAN-AND-ACT 的新框架，旨在提升大型语言模型 (LLMs) 在执行复杂、多步长任务时的表现。该框架通过将任务分解为 PLANNER（负责生成高层计划）和 EXECUTOR（负责将计划转化为具体操作）两个独立部分来实现这一目标。文章强调了生成准确计划的挑战，并提出了一个通过 合成数据生成 来训练 PLANNER 的可扩展方法。PLAN-AND-ACT 在网页导航任务上取得了最先进的性能，尤其在引入 动态重新规划 后效果显著，证明了分离规划与执行以及高质量规划数据的重要性。
原文链接：https://arxiv.org/abs/2503.09572
...more
17min
June 18, 2025 【第261期】LMM-R1: Reasoning Enhancement for LMM
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
Summary
本研究提出了一个名为 LMM-R1 的框架，旨在通过一种新颖的两阶段规则奖励强化学习方法提升大型多模态模型 (LMM) 的推理能力，即使是参数量有限的小型模型也不例外。第一阶段侧重于利用大量的文本数据加强基础推理能力，而无需昂贵的多模态数据收集。第二阶段则将这些提升后的推理能力泛化到各种多模态任务和代理相关应用中，通过在相关领域的持续训练来实现。结果表明，文本基础推理能力的增强能有效地推广到多模态领域，为训练推理能力强的 LMMs 提供了一种数据高效的范式。
原文链接：https://arxiv.org/abs/2503.07536
...more
17min
June 17, 2025 【第260期】Vision-R1: Reasoning in Multimodal LLM
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
Summary
这篇研究探讨了如何通过强化学习（RL）增强多模态大型语言模型（MLLM）的推理能力，并提出了 Vision-R1 模型。研究首先构建了一个 高质量、无需人工标注 的多模态思维链数据集，用于对基础 MLLM 进行 冷启动初始化，从而初步学习类人推理模式。为了克服初始化后出现的“过度思考”优化难题，研究引入了 渐进式思维抑制训练（PTST） 策略，结合 GRPO 算法和硬格式化结果奖励函数，引导模型逐步完善推理过程并延长思考链，最终显著提升了 Vision-R1 在数学推理任务上的表现。尽管 Vision-R1-7B 参数量较小，但在多项基准测试中取得了与大型模型相当的性能。
原文链接：https://arxiv.org/abs/2503.06749
...more
13min
June 16, 2025 【第259期】Agentic Reward Modeling
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
Summary
这项研究提出了“代理奖励建模”，一种结合了传统基于人类偏好奖励模型和可验证正确性信号的新型奖励系统。研究人员实现了一个名为 REWARDAGENT 的奖励代理，它集成了对事实性和指令遵循的可验证信号，以提供更可靠的奖励。通过在现有奖励模型基准、推理时最佳搜索以及构建训练偏好对方面的实验，结果表明 REWARDAGENT 显著优于仅依赖人类偏好的奖励模型。该框架通过纳入多维正确性信号来增强可靠性，并允许灵活集成不同的验证代理。 REWARDAGENT 的有效性在下游任务中得到了验证，并显示出其在提高语言模型性能方面的潜力，尤其是在需要事实准确性和严格遵循指令的场景中。这项工作鼓励进一步探索其他可验证的正确性信号，以开发更可靠的奖励系统，用于大型语言模型的开发和对齐。
原文链接：https://arxiv.org/abs/2502.19328
...more
18min
June 15, 2025 【第258期】Forecasting Rare Language Model Behaviors
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Forecasting Rare Language Model Behaviors
Summary
这些资料提出了预测大型语言模型在大规模部署时可能出现的罕见不良行为的方法。它们解释说，标准的评估方法测试查询数量远少于实际部署中的查询数量，因此可能无法捕捉到仅在数十亿次查询中才会显现的风险。通过分析每个查询引发特定行为的**“引发表概率”，研究人员发现，这些概率的最大值随着查询数量的增加呈可预测的比例变化**。这项研究展示了这种预测方法能够预测各种不良行为的出现，包括提供危险信息或采取追求权力行动，并且预测范围可以跨越高达三个数量级的查询量。最终，这项工作旨在帮助模型开发者在这些罕见故障在现实世界中发生之前就主动预见并修复它们。
原文链接：https://arxiv.org/abs/2502.16797
...more
26min

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 282 episodes available.