Seventy3

By 任雨山

73播客，名字取材于Sheldon最喜欢的数字，内容由NotebookLM生成，每天跟随AI读AI业界论文。... more

Download on the App Store

Download on the App Store

Get it on Google Play

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 625 episodes available.

Seventy3 episodes:

June 07, 2025 【第250期】EasyControl：效率和灵活性指导的条件图像生成
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
Summary
这份技术论文介绍了EasyControl，一个旨在提高扩散变换器（DiT）架构在条件图像生成方面的效率和灵活性的新框架。研究人员通过引入一个轻量级的条件注入LoRA模块来处理条件信号，确保与现有模型兼容并支持多条件泛化。此外，位置感知训练范式允许模型生成具有任意分辨率和长宽比的图像，同时优化计算。最后，结合因果注意力机制和KV缓存技术显著降低了推理延迟，使得EasyControl在各种图像生成任务中展现出卓越的性能。
原文链接：https://arxiv.org/abs/2503.0...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
24min
June 06, 2025 【第249期】R1-Searcher: RL for Enhanced LLM Search Capabilities
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
Summary
这项研究介绍了一个名为 R1-Searcher 的新型框架，旨在通过强化学习提升大型语言模型（LLMs）的检索增强生成（RAG）能力。该框架采用两阶段的成果监督强化学习方法，使 LLMs 能够自主调用外部搜索系统获取知识，从而提高处理知识密集型和时效性问题的准确性，减少幻觉。不同于依赖过程奖励或蒸馏的方法，R1-Searcher 完全依赖强化学习进行训练，通过探索学习有效利用检索。实验结果表明，该方法在多跳问答任务上显著优于现有的 RAG 技术，甚至超越了一些闭源模型。...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
19min
June 05, 2025 【第248期】VisualThinker-R1-Zero: Multimodal Reasoning via RL
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
今天的主题是：
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
Summary
本研究报告成功复制了 DeepSeek-R1 模型中利用强化学习实现自主推理的显著特征，即所谓的“顿悟时刻”和响应长度的增加，这次是在一个较小的多模态模型上实现。通过直接在非 SFT (监督微调) Qwen2-VL-2B 模型上应用强化学习，研究人员观察到模型在视觉推理任务中展现出自我反思和更长的响应，从而显著提高了性能。报告还探讨了在经过指令微调的模型上应用强化学习所面临的挑战，发现这往往会导致肤浅的推理模式。研究人员开源了他们的代码，以促进对多模态推理未来研究。
原文链接：https://arxiv.o...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
14min
June 04, 2025 【第247期】Vision-R1：推理视觉大模型
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
Summary
本研究介绍 Vision-R1，这是一种多模态大型语言模型 (MLLM)，旨在增强其推理能力，尤其是解决数学问题。该方法通过结合冷启动初始化和强化学习 (RL) 来实现这一目标。具体来说，首先构建一个高质量的多模态思维链 (CoT) 数据集，然后利用一种名为渐进思维抑制训练 (PTST) 的 RL 策略，通过分阶段放宽对推理长度的限制来克服过度思考问题。实验结果表明，Vision-R1 在多模态数学推理基准...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
17min
June 03, 2025 【第246期】用LLM做Encoder，进行机器翻译
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
Summary
这项研究探索了一种结合大型语言模型（LLMs）和神经机器翻译（NMT）的方法，旨在创建一个高效、易于优化且具有通用性的翻译系统。研究人员提出了一种名为 LaMaTE 的模型，该模型利用 LLM 作为强大的编码器，并将其与轻量级的 NMT 解码器配对。为了促进 LLM 编码器与 NMT 解码器的更好协作，研究引入了一种适配器设计，并采用了一种两阶段训练策略。此外，研究还构建了一个新的综合机器翻译基...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
25min
June 02, 2025 【第245期】固定文本长度做RAG
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
Summary
这份研究探究了在检索增强生成（RAG）任务中，大型语言模型（LLM）处理多文档输入的挑战，尤其是在保持总上下文长度不变的情况下。研究人员创建了特殊的数据集，通过控制文档数量但保持上下文长度固定，评估了不同LLM的表现。他们的主要发现是，增加文档数量会显著降低LLM的性能，这表明处理多个文档是一个独立于长上下文处理的挑战。这项工作强调了在构建RAG系统时，需要权衡检索到的文档数量，并建议未来研究应专注...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
15min
June 01, 2025 【第244期】TokenOCR：Token基本文本图像LLM
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
A Token-level Text Image Foundation Model for Document Understanding
Summary
来源描述了一种新型文本图像基础模型，称为 TokenOCR，以及利用它构建的文档理解多模态大语言模型 TokenVL。研究人员通过创建一个大规模、细粒度的标记级图像文本数据集 TokenIT 来预训练 TokenOCR，该数据集包含 2000 万图像和 18 亿标记-掩码对。TokenOCR 在文本图像相关任务中表现出色，例如文本分割、文本检索和视觉问答。实验表明，TokenVL 在各种文档理解基准测试中取得了显著的性能提升，尤其是...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
20min
May 31, 2025 【第243期】AppAgentX：智能手机上的Agent
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
AppAgentX: Evolving GUI Agents as Proficient Smartphone Users
Summary
这些文字介绍了一款名为 AppAgentX 的新型 GUI 代理框架，旨在提高基于大型语言模型（LLM）的代理在智能手机上执行任务的效率和准确性。该框架通过记忆代理的操作历史来实现演化机制，将重复的低级操作抽象为高效的高级快捷方式。实验结果表明，与现有方法相比，AppAgentX 在任务完成时间、所需步骤以及令牌消耗方面均有显著提升，特别是在处理复杂任务时表现出色。
原文链接：https://arxiv.org/abs/...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
11min
May 30, 2025 【第242期】MPO：Meta Plan Optimization
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
MPO: Boosting LLM Agents with Meta Plan Optimization
Summary
本研究提出了 MPO（Meta Plan Optimization）框架，旨在提升大型语言模型（LLM）智能体的规划能力。通过整合高级别的元计划，MPO 提供了一种即插即用的方案，以有效改进智能体的表现。该框架利用智能体任务执行过程中的反馈，持续优化元计划的质量。在 ScienceWorld 和 ALFWorld 两个基准任务上的大量实验表明，MPO 框架显著优于现有基线方法，并能增强智能体在未见场景下的泛化能力。此外，分析表明，MPO 生成的元计划提高...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
25min
May 29, 2025 【第241期】LLaVE：一种新型视觉模型
Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning
Summary
研究论文介绍了 LLaVE，一种新型大型语言和视觉嵌入模型，它通过一种被称为难度加权对比学习的创新框架来提升性能。研究人员发现，现有模型在区分相似但负向的图像-文本对时存在困难，为此 LLaVE 被提出，旨在通过动态调整学习权重来更好地处理这些“困难的负向样本”。该框架在多种任务和数据集上进行了评估，并在性能、可扩展性和跨任务泛化能力方面取得了最先进的结果，甚至在未训练的视频检索任务...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
...more
15min

FAQs about Seventy3:

How many episodes does Seventy3 have?

The podcast currently has 625 episodes available.