Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
FAQs about Seventy3:How many episodes does Seventy3 have?The podcast currently has 625 episodes available.
June 07, 2025【第250期】EasyControl:效率和灵活性指导的条件图像生成Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。今天的主题是:EasyControl: Adding Efficient and Flexible Control for Diffusion TransformerSummary这份技术论文介绍了EasyControl,一个旨在提高扩散变换器(DiT)架构在条件图像生成方面的效率和灵活性的新框架。研究人员通过引入一个轻量级的条件注入LoRA模块来处理条件信号,确保与现有模型兼容并支持多条件泛化。此外,位置感知训练范式允许模型生成具有任意分辨率和长宽比的图像,同时优化计算。最后,结合因果注意力机制和KV缓存技术显著降低了推理延迟,使得EasyControl在各种图像生成任务中展现出卓越的性能。原文链接:https://arxiv.org/abs/2503.0...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more24minPlay
June 06, 2025【第249期】R1-Searcher: RL for Enhanced LLM Search CapabilitiesSeventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。今天的主题是:R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement LearningSummary这项研究介绍了一个名为 R1-Searcher 的新型框架,旨在通过强化学习提升大型语言模型(LLMs)的检索增强生成(RAG)能力。该框架采用两阶段的成果监督强化学习方法,使 LLMs 能够自主调用外部搜索系统获取知识,从而提高处理知识密集型和时效性问题的准确性,减少幻觉。不同于依赖过程奖励或蒸馏的方法,R1-Searcher 完全依赖强化学习进行训练,通过探索学习有效利用检索。实验结果表明,该方法在多跳问答任务上显著优于现有的 RAG 技术,甚至超越了一些闭源模型。...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more19minPlay
June 05, 2025【第248期】VisualThinker-R1-Zero: Multimodal Reasoning via RLSeventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。今天的主题是:R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT ModelSummary本研究报告成功复制了 DeepSeek-R1 模型中利用强化学习实现自主推理的显著特征,即所谓的“顿悟时刻”和响应长度的增加,这次是在一个较小的多模态模型上实现。通过直接在非 SFT (监督微调) Qwen2-VL-2B 模型上应用强化学习,研究人员观察到模型在视觉推理任务中展现出自我反思和更长的响应,从而显著提高了性能。报告还探讨了在经过指令微调的模型上应用强化学习所面临的挑战,发现这往往会导致肤浅的推理模式。研究人员开源了他们的代码,以促进对多模态推理未来研究。原文链接:https://arxiv.o...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more14minPlay
June 04, 2025【第247期】Vision-R1:推理视觉大模型Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。进群添加小助手微信:seventy3_podcast备注:小宇宙今天的主题是:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language ModelsSummary本研究介绍 Vision-R1,这是一种多模态大型语言模型 (MLLM),旨在增强其推理能力,尤其是解决数学问题。该方法通过结合冷启动初始化和强化学习 (RL) 来实现这一目标。具体来说,首先构建一个高质量的多模态思维链 (CoT) 数据集,然后利用一种名为渐进思维抑制训练 (PTST) 的 RL 策略,通过分阶段放宽对推理长度的限制来克服过度思考问题。实验结果表明,Vision-R1 在多模态数学推理基准...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more17minPlay
June 03, 2025【第246期】用LLM做Encoder,进行机器翻译Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。进群添加小助手微信:seventy3_podcast备注:小宇宙今天的主题是:Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine TranslationSummary这项研究探索了一种结合大型语言模型(LLMs)和神经机器翻译(NMT)的方法,旨在创建一个高效、易于优化且具有通用性的翻译系统。研究人员提出了一种名为 LaMaTE 的模型,该模型利用 LLM 作为强大的编码器,并将其与轻量级的 NMT 解码器配对。为了促进 LLM 编码器与 NMT 解码器的更好协作,研究引入了一种适配器设计,并采用了一种两阶段训练策略。此外,研究还构建了一个新的综合机器翻译基...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more25minPlay
June 02, 2025【第245期】固定文本长度做RAGSeventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。进群添加小助手微信:seventy3_podcast备注:小宇宙今天的主题是:More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAGSummary这份研究探究了在检索增强生成(RAG)任务中,大型语言模型(LLM)处理多文档输入的挑战,尤其是在保持总上下文长度不变的情况下。 研究人员创建了特殊的数据集,通过控制文档数量但保持上下文长度固定,评估了不同LLM的表现。 他们的主要发现是,增加文档数量会显著降低LLM的性能, 这表明处理多个文档是一个独立于长上下文处理的挑战。 这项工作强调了在构建RAG系统时,需要权衡检索到的文档数量,并建议未来研究应专注...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more15minPlay
June 01, 2025【第244期】TokenOCR:Token基本文本图像LLMSeventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。进群添加小助手微信:seventy3_podcast备注:小宇宙今天的主题是:A Token-level Text Image Foundation Model for Document UnderstandingSummary来源描述了一种新型文本图像基础模型,称为 TokenOCR,以及利用它构建的文档理解多模态大语言模型 TokenVL。研究人员通过创建一个大规模、细粒度的标记级图像文本数据集 TokenIT 来预训练 TokenOCR,该数据集包含 2000 万图像和 18 亿标记-掩码对。TokenOCR 在文本图像相关任务中表现出色,例如文本分割、文本检索和视觉问答。实验表明,TokenVL 在各种文档理解基准测试中取得了显著的性能提升,尤其是...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more20minPlay
May 31, 2025【第243期】AppAgentX:智能手机上的AgentSeventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。进群添加小助手微信:seventy3_podcast备注:小宇宙今天的主题是:AppAgentX: Evolving GUI Agents as Proficient Smartphone UsersSummary这些文字介绍了一款名为 AppAgentX 的新型 GUI 代理框架,旨在 提高 基于大型语言模型(LLM)的代理在 智能手机 上执行任务的 效率 和 准确性。该框架通过 记忆 代理的 操作历史 来实现 演化机制,将重复的低级操作抽象为高效的高级 快捷方式。实验结果表明,与现有方法相比,AppAgentX 在任务完成时间、所需步骤以及令牌消耗方面均有显著提升,特别是在处理复杂任务时表现出色。原文链接:https://arxiv.org/abs/...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more11minPlay
May 30, 2025【第242期】MPO:Meta Plan OptimizationSeventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。进群添加小助手微信:seventy3_podcast备注:小宇宙今天的主题是:MPO: Boosting LLM Agents with Meta Plan OptimizationSummary本研究提出了 MPO(Meta Plan Optimization)框架,旨在提升大型语言模型(LLM)智能体的规划能力。 通过整合高级别的 元计划,MPO 提供了一种即插即用的方案,以有效改进智能体的表现。该框架利用智能体任务执行过程中的反馈,持续 优化元计划 的质量。在 ScienceWorld 和 ALFWorld 两个基准任务上的大量实验表明,MPO 框架显著优于现有基线方法,并能增强智能体在未见场景下的 泛化能力。此外,分析表明,MPO 生成的元计划提高...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more25minPlay
May 29, 2025【第241期】LLaVE:一种新型视觉模型Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。进群添加小助手微信:seventy3_podcast备注:小宇宙今天的主题是:LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive LearningSummary研究论文介绍了 LLaVE,一种新型大型语言和视觉嵌入模型,它通过一种被称为难度加权对比学习的创新框架来提升性能。研究人员发现,现有模型在区分相似但负向的图像-文本对时存在困难,为此 LLaVE 被提出,旨在通过动态调整学习权重来更好地处理这些“困难的负向样本”。该框架在多种任务和数据集上进行了评估,并在性能、可扩展性和跨任务泛化能力方面取得了最先进的结果,甚至在未训练的视频检索任务...去小宇宙查看完整单集简介前往小宇宙评论区与主播互动...more15minPlay
FAQs about Seventy3:How many episodes does Seventy3 have?The podcast currently has 625 episodes available.