张小珺Jùn|商业访谈录

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”


Listen Later

今天这集节目延续我们的论文系列。我邀请MIT计算机科学与人工智能实验室的在读博士松琳,来给大家解读上个星期DeepSeek和Kimi发布的全新技术报告

DeepSeek和Kimi又一次技术对垒。在同一天发布论文,两篇集中在改进注意力机制以处理长文本任务上。而春节前,MiniMax也发布了一篇注意力机制相关的论文

松琳将带领大家阅读这3篇注意力机制有关的文章,解析不同模型公司的技术哲学和路线选择。

我们希望能让更多人领略AI科技平权,体验技术之美。

2025,我们和AI共同进步!

(如果如果,你觉得光听还不够刺激,觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往:含投屏的视频版本。预祝你学习顺利啦!)我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)02:30 讲解开始前,先提问几个小问题15:36 DeepSeek最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解

论文中文名:《原生稀疏注意力:硬件对齐且原生可训练的稀疏注意力》

路线:稀疏注意力机制

本篇工作最大亮点:Native Sparse Attention 全线压制 Full Attention

01:19:14 Kimi最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解

论文中文名:《MoBA:面向长文本上下文的块注意力混合架构》

路线:稀疏注意力机制

01:44:42 MiniMax春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解

论文中文名:《MiniMax-01:利用闪电注意力扩展基础模型》

路线:线性注意力机制

02:30:07 最后强化学习一下

【技术之美】系列:

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”

【更多信息】

联络我们:微博@张小珺-Benita,小红书@张小珺

更多信息欢迎关注公众号:张小珺

...more
View all episodesView all episodes
Download on the App Store

张小珺Jùn|商业访谈录By 张小珺

  • 4.5
  • 4.5
  • 4.5
  • 4.5
  • 4.5

4.5

33 ratings


More shows like 张小珺Jùn|商业访谈录

View all
疯投圈 by 黄海、Rio

疯投圈

113 Listeners

创业内幕 Startup Insider by 纪源小馆

创业内幕 Startup Insider

42 Listeners

三五环 by 刘飞Lufy

三五环

45 Listeners

硅谷101 by 硅谷101

硅谷101

197 Listeners

硅谷101|中国版 by 泓君Jane

硅谷101|中国版

56 Listeners

商业就是这样 by 商业就是这样

商业就是这样

291 Listeners

大小马聊科技 by 大小马聊科技

大小马聊科技

5 Listeners

Web3 101 by Web3 101

Web3 101

24 Listeners

半拿铁 | 商业沉浮录 by 潇磊&刘飞

半拿铁 | 商业沉浮录

323 Listeners

42章经 by KaiQu

42章经

12 Listeners

起朱楼宴宾客 by 大卫翁

起朱楼宴宾客

52 Listeners

厚雪长波 by 雪球官方账号

厚雪长波

10 Listeners

知本论 by 知本论

知本论

4 Listeners

高能量 by 李翔李翔

高能量

32 Listeners

小Lin说 by 小Lin说

小Lin说

52 Listeners