Seventy3

By 任雨山

73播客，名字取材于Sheldon最喜欢的数字，内容由NotebookLM生成，每天跟随AI读AI业界论文。... more

Download on the App Store

Download on the App Store

Get it on Google Play

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 302 episodes available.

Seventy3 episodes:

July 24, 2025 【第297期】（中文）AgentA/B：基于LLM的自动化可扩展网页A/B测试
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents
Summary
该论文介绍了 AgentA/B，这是一个利用 大型语言模型（LLM）驱动的自主代理 的新颖系统，旨在革新网络 A/B 测试。传统 A/B 测试依赖大量人工流量且耗时，而 AgentA/B 通过 模拟用户行为 克服了这些限制。该系统能 生成具有不同虚拟用户身份的 LLM 代理，使其与真实网页进行交互，并提供 快速、可扩展且经济高效的用户体验评估。通过在 Amazon.com 上的案例研究，作者表明 AgentA/B 可以有效地模拟类似人类的购物行为，并区分细微的界面设计差异。
原文链接：https://arxiv.org/abs/2504.09723
...more
12min
July 23, 2025 【第296期】（中文）d1: 扩散LLM的强化学习推理
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
Summary
这篇研究论文探讨了如何提升扩散大语言模型（dLLMs）的推理能力，此类模型与传统的自回归（AR）LLMs不同，采用非自回归的粗到细文本生成方式。作者提出了 d1 框架，通过结合监督微调（SFT）和一种名为 diffu-GRPO 的新型强化学习（RL）算法来训练预训练的掩码 dLLMs。实验结果表明，与基线模型及单独的 SFT 或 diffu-GRPO 方法相比，d1 显著提升了模型在数学和逻辑推理任务上的表现。此外，该研究还讨论了随机掩码等设计选择如何提高训练效率和稳定性，并指出了未来研究方向，例如开发更高效的推理策略以进一步扩展 RL 训练。
原文链接：https://arxiv.org/abs/2504.12216
...more
10min
July 22, 2025 【第295期】（中文）GUI-R1: GUI智能体的强化微调
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：GUI-R1: A Generalist R1-Style Vision-Language Action Model For GUI Agents
Summary
该来源介绍了一个名为 GUI-R1 的新型强化学习框架，旨在增强大型视觉语言模型 (LVLM) 在处理图形用户界面 (GUI) 代理任务方面的能力。与现有主要依赖监督微调 (SFT) 的方法不同，GUI-R1 采用规则驱动的强化微调 (RFT)，仅需极少量高质量数据（比 SFT 少 0.02% 的数据）即可在多种平台（如 Windows、Linux、macOS、Android 和 Web）上实现卓越性能。通过统一的动作空间规则建模和可验证的奖励函数，GUI-R1 显著提升了模型在高层 GUI 任务中的推理和泛化能力，并在一系列基准测试中超越了当前最先进的方法。
原文链接：https://arxiv.org/abs/2504.10458
...more
9min
July 21, 2025 【第294期】（中文）NoProp：无需反向传播或前向传播的神经网络训练方法
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：NoProp: Training Neural Networks without Back-propagation or Forward-propagation
Summary
这篇研究论文介绍了一种名为 NoProp 的新型神经网络训练方法，该方法不依赖传统的反向传播或正向传播机制。与通过层级抽象学习的典型深度学习模型不同，NoProp 借鉴了扩散模型和流匹配方法，使每个层独立学习去噪带噪声的目标。实验结果表明，在图像分类基准测试中，NoProp 的表现优于其他不使用反向传播的方法，并且在计算上更高效，所需的 GPU 内存更少。作者认为，这项工作为开发不学习层次表示的无梯度学习方法开启了新的可能性。
原文链接：https://arxiv.org/abs/2503.24322
...more
10min
July 20, 2025 【第293期】（中文）LightPROF：知识图谱上大型语言模型的轻量推理框架
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：
LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph
Summary
这篇研究论文介绍了 LightPROF，一个为知识图谱问答（KGQA）设计的轻量级、高效提示学习推理框架。该框架旨在解决大型语言模型（LLMs）在处理复杂知识图谱信息时面临的知识更新延迟和资源消耗高等挑战。LightPROF 采用“检索-嵌入-推理”流程，通过一个创新的知识适配器，将知识图谱中的文本和结构信息转化为LLM友好的软提示，从而使小型LLMs也能高效、准确地执行多跳推理任务。实验结果表明，LightPROF 在性能上超越了现有方法，同时显著降低了输入令牌数量和推理时间。
原文链接：https://arxiv.org/abs/2504.03137
...more
10min
July 19, 2025 【第292期】（中文）AI Scientist-v2：代理树搜索自动化科学发现
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search
Summary
本报告介绍了The AI Scientist-v2，这是一个显著改进的自动化科学发现框架，旨在克服其前身The AI Scientist-v1的局限性。v2版本通过引入代理树搜索、视觉语言模型（VLM）反馈和并行实验执行，增强了系统的自主性、灵活性和科学探索深度。研究人员提交了由The AI Scientist-v2完全生成的三份手稿给ICLR的一个同行评审研讨会，其中一份获得了足以被接受的评审分数。这份手稿及其同行评审意见被详细地作为案例研究，揭示了该系统在生成高质量科学内容方面的能力和当前不足，包括其在引用准确性和深度分析方面的局限性。报告还讨论了完全自动化科学发现系统的伦理和安全考量，强调了透明度和负责任的开发。
原文链接：https://arxiv.org/abs/2504.08066
...more
7min
July 18, 2025 【第291期】（中文）attention sinks：LLMs倾向于将大部分注意力集中在第一个token
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Why do LLMs attend to the first token?
Summary
本研究探讨大型语言模型 (LLMs) 中“注意力槽”（attention sinks）现象的潜在原因和效用。注意力槽是指LLMs倾向于将大部分注意力集中在序列的第一个标记上，即使该标记语义不重要。作者认为，这种机制是LLMs为了避免“过度混合”信息而采取的一种策略，过度混合可能导致表示崩溃，降低模型性能。通过理论分析和实验验证，研究表明，随着模型规模和上下文长度的增加，注意力槽变得更强，这支持了其作为稳定信息传播机制的作用。此外，文章还分析了预训练设置对注意力槽形成的影响，指出即使移除起始标记，模型也会在第一个可用标记上形成注意力槽。
原文链接：https://arxiv.org/abs/2504.02732
...more
8min
July 17, 2025 【第290期】（中文）PLAY2PROMPT：LLM零样本优化
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play
Summary
此文档介绍了 PLAY2PROMPT，这是一个旨在优化大型语言模型（LLMs）工具使用能力的新型自动化框架。该框架通过模拟工具交互的试错过程来学习，从而在没有预先标记数据的情况下，自动生成高质量的工具文档和使用示例。PLAY2PROMPT采用束搜索框架，并结合自反思机制，迭代地完善工具文档并创建演示，从而显著提升LLMs在各种真实世界任务中的零样本工具使用性能，尤其在处理不完整或嘈杂的工具信息时表现出色。
原文链接：https://arxiv.org/abs/2503.14432
...more
9min
July 16, 2025 【第289期】（中文）Chain-of-Tools：利用海量工具增强推理
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning ofFrozen Language Models
Summary
本论文介绍了一种名为 Chain-of-Tools (CoTools) 的新型工具学习方法，旨在提升大型语言模型 (LLMs) 在 链式思维 (CoT) 推理过程中使用工具的能力。CoTools 克服了现有方法在处理 大量未见工具 和效率方面的局限性，通过利用 冻结 LLM 的强大 语义表示能力 来判断何时调用工具并选择合适的工具。研究人员构建了一个名为 SimpleToolQuestions (STQuestions) 的新数据集来验证其方法在处理大量未见工具场景下的有效性，并在 数值推理 和 基于知识的问答 任务上进行了实验，结果表明 CoTools 优于基线方法，并有助于提升模型的可解释性。该研究还深入分析了 数据合成、工具数量 和 未见工具 对模型性能的影响，并探讨了 隐藏状态的关键维度 在工具选择中的作用。
原文链接：https://arxiv.org/abs/2503.16779
...more
10min
July 15, 2025 【第288期】（中文）统一嵌入空间：捕捉大脑语言处理
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：A unified acoustic-to-speech-to-language embedding space captures the neural basis of natural language processing in everyday conversations
Summary
这份研究介绍了一个统一的计算框架，该框架将声学、语音和词级语言结构连接起来，以探索人类大脑在日常对话中自然语言处理的神经基础。通过使用电皮层图 (ECoG) 记录参与者在真实对话中的神经信号，研究人员提取了多模态语音转文本模型（Whisper）中的低级声学、中级语音和上下文词嵌入。他们发现，这个模型能够准确预测神经活动，并且其内部处理层级与皮层语言处理的层级相符，支持了一种新的范式，即统一的计算模型能够捕捉真实世界对话中语音理解和产生的整个处理层级。
原文链接：https://www.nature.com/articles/s41562-025-02105-9
...more
10min

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 302 episodes available.