February 23, 2025

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

Listen Later

2 hours 36 minutes

今天这集节目延续我们的论文系列。我邀请MIT计算机科学与人工智能实验室的在读博士松琳，来给大家解读上个星期DeepSeek和Kimi发布的全新技术报告。

DeepSeek和Kimi又一次技术对垒。在同一天发布论文，两篇集中在改进注意力机制以处理长文本任务上。而春节前，MiniMax也发布了一篇注意力机制相关的论文。

松琳将带领大家阅读这3篇注意力机制有关的文章，解析不同模型公司的技术哲学和路线选择。

我们希望能让更多人领略AI科技平权，体验技术之美。

2025，我们和AI共同进步！

（如果如果，你觉得光听还不够刺激，觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往：含投屏的视频版本。预祝你学习顺利啦！）我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）02:30 讲解开始前，先提问几个小问题15:36 DeepSeek最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解

论文中文名：《原生稀疏注意力：硬件对齐且原生可训练的稀疏注意力》

路线：稀疏注意力机制

本篇工作最大亮点：Native Sparse Attention 全线压制 Full Attention

01:19:14 Kimi最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解

论文中文名：《MoBA：面向长文本上下文的块注意力混合架构》

路线：稀疏注意力机制

01:44:42 MiniMax春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解

论文中文名：《MiniMax-01：利用闪电注意力扩展基础模型》

路线：线性注意力机制

02:30:07 最后强化学习一下

【技术之美】系列：

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺

更多信息欢迎关注公众号：张小珺

...more

View all episodes

View all episodes

Download on the App Store

Download on the App Store

Get it on Google Play

张小珺Jùn｜商业访谈录

By 张小珺

4.5

3333 ratings

February 23, 2025

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

Listen Later

2 hours 36 minutes

今天这集节目延续我们的论文系列。我邀请MIT计算机科学与人工智能实验室的在读博士松琳，来给大家解读上个星期DeepSeek和Kimi发布的全新技术报告。

DeepSeek和Kimi又一次技术对垒。在同一天发布论文，两篇集中在改进注意力机制以处理长文本任务上。而春节前，MiniMax也发布了一篇注意力机制相关的论文。

松琳将带领大家阅读这3篇注意力机制有关的文章，解析不同模型公司的技术哲学和路线选择。

我们希望能让更多人领略AI科技平权，体验技术之美。

2025，我们和AI共同进步！

（如果如果，你觉得光听还不够刺激，觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往：含投屏的视频版本。预祝你学习顺利啦！）我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）02:30 讲解开始前，先提问几个小问题15:36 DeepSeek最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解

论文中文名：《原生稀疏注意力：硬件对齐且原生可训练的稀疏注意力》

路线：稀疏注意力机制

本篇工作最大亮点：Native Sparse Attention 全线压制 Full Attention

01:19:14 Kimi最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解

论文中文名：《MoBA：面向长文本上下文的块注意力混合架构》

路线：稀疏注意力机制

01:44:42 MiniMax春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解

论文中文名：《MiniMax-01：利用闪电注意力扩展基础模型》

路线：线性注意力机制

02:30:07 最后强化学习一下

【技术之美】系列：

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺

更多信息欢迎关注公众号：张小珺

...more

More shows like 张小珺Jùn｜商业访谈录

疯投圈 by 黄海、Rio

疯投圈

113 Listeners

创业内幕 Startup Insider by 纪源小馆

创业内幕 Startup Insider

42 Listeners

三五环 by 刘飞Lufy

三五环

45 Listeners

硅谷101 by 硅谷101

硅谷101

197 Listeners

硅谷101|中国版 by 泓君Jane

硅谷101|中国版

56 Listeners

商业就是这样 by 商业就是这样

商业就是这样

291 Listeners

大小马聊科技 by 大小马聊科技

大小马聊科技

5 Listeners

Web3 101 by Web3 101

Web3 101

24 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

323 Listeners

42章经 by KaiQu

42章经

12 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

52 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

10 Listeners

知本论 by 知本论

知本论

4 Listeners

高能量 by 李翔李翔

高能量

32 Listeners

小Lin说 by 小Lin说

小Lin说

52 Listeners