S8Bonus | 抱歉，Sora 还不能称为「世界模拟器」

02.23.2024 - By 声动活泼 Play

Download our free app to listen on your phone

过去一周，OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条，特别是他们号称是物理世界模拟器，让许多人惊掉下巴。本期节目，我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成，从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间，以及这是否是代表着人类离 AGI 又进了一大步。

短短一年时间内，Sora 为什么能在视频生成效果上实现质的飞跃？Sora 所采取的技术路线，其背后的原理是什么？和其他文生视频模型相比，Sora 的模型又有哪些优势和劣势？未来，Sora 的落地应用场景可能会有哪些？Sora 会继续沿用 ChatGPT 的商业模式吗？OpenAI 对 Sora「物理世界模拟器」的定位是否准确？ Sora 横空出世后，我们距离 AGI 还有多远？

这期节目我们聊了很多技术，在所难免很多的专业术语都是英文的表达，如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。

全新付费播客「不止金钱」早鸟优惠价截止到元宵节！

我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可，销量也大大超出了我们的预期，感谢大家！

新年新气象，我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节，2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化，让钱包和生活都变得确定。

点击链接查看「不止金钱」的节目简介、收听节目预告。

本期人物

李崇轩，中国人民大学高瓴人工智能学院副教授、博士生导师

和成，AI 连续创业者，Newcast.ai 创始人、YC Alumni

主要话题

[02:23] 聊聊看到 Demo 视频后的意料之外与情理之中

[03:58] Diffusion 和 Transformer 大家都在用，为什么只有 Sora 能生成 60s 的视频？

[10:53] Sora 训练用的数据可能部分来自游戏引擎生成？

[15:08] Sora 训练参数大猜测

[16:33] 文生视频领域不同技术路线的优劣对比

[20:41] 国内外大厂想要追赶 Sora，有哪些壁垒需要突破？

[24:18] Sora 模型的无奈：原理局限与数据瓶颈

[32:56] 对话生成还是新的 UI 界面： Sora 可能的商业化模式

[34:24] 文生视频消灭中间环节，渲染引擎结合 Sora 的想象空间？

[36:34] 距离用户端大规模用上 Sora 还有多久？

[39:03] 为什么说「Sora 是世界模拟器」不够准确？

[41:38] 融入传感器和检索，畅想「世界模拟器」的其他可能性

[44:13] Sora 让我们与 AGI 的距离更近一步？

关联阅读

通用人工智能离我们多远，大模型专家访谈｜S7E11 硅谷徐老师 x OnBoard！

- Sora 的演示视频和技术报告

被认为是 Sora 技术基础的一篇论文，由谢赛宁与 Sora 研发负责人合著

Patch 的技术论文

Pika 创始人回应 Sora 发布

彭博对 Sora 如何改变未来的猜想

Diffusion Transformer（DiT），是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型，通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构，而不是传统的卷积神经网络（如U-Net）。

W.A.L.T. ，Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的基于Transformer的潜在视频扩散模型，中文可以翻译为“视觉增强语言Transformer”。

隐空间（latent space）或者潜在空间（potential space），是机器学习模型中一个重要的概念，它指的是模型学习到的数据特征的抽象表示。在潜在空间中，每个数据点都对应着一个向量，该向量表示该数据点的特征。潜在空间的维度通常比原始数据的维度低，因此它可以用于对数据进行降维和压缩。在生成模型中，潜在空间通常用于生成新的数据样本。

Scaling law是指AI模型的性能与模型规模（例如参数数量、训练数据量、计算资源等）之间的关系。AI模型的性能通常会随着模型规模的增加而提高，但这种提升并不是线性的。

Space-time patch指的是时空块，是指从视频或图像序列中提取的连续时空区域。时空块通常包含多个空间维度（例如图像中的像素）和时间维度（例如视频中的帧）。时空块可以同时包含空间信息和时间信息，这对于理解视频或图像序列中的动态变化非常重要；可以有效降低计算复杂度，提高计算效率以及用于数据增强，扩充训练数据集，提高模型的鲁棒性。

Autoregressive Models，自回归模型 (AR model) 是一种统计模型，它基于过去的值来预测序列中的下一个值。换句话说，它假设当前的值仅取决于其之前的某个数量的值。在人工智能领域，自回归模型广泛用于各种任务：

时间序列预测：例如，预测股票价格、天气情况或交通流量。

语言建模：用于训练语言模型，使其能够生成与给定文本相似的文本。

图像生成：用于生成逼真的图像，例如根据图像的一部分生成整个图像。

Omniverse：是由英伟达 (NVIDIA) 开发的实时协作和物理精确模拟平台。它旨在将 3D 工作流程连接起来。

Runway：是一个 AI 工具编辑、增强和生成视频的创意 AI 的平台，成立于2018年。（https://runwayml.com/）

Active reasoning（主动推理）：是指系统能够在开放环境中动态收集信息并进行推理的能力。这与传统人工智能系统不同，后者依赖预加载的知识并在受控环境中执行任务。

Q* ：2023 年底，路透社和 The Information 报道了 OpenAI 内部演示了一种名为 "Q*" 的模型，据称能够解决“简单数学问题”，可能表明处于学习和推理的早期阶段。

Magic Dev：是一家位于美国加利福尼亚州旧金山的软件公司，成立于 2021 年。该公司致力于开发下一代人工智能驱动的软件开发工具，帮助开发人员提高工作效率和生产力。（https://magic.dev/）

幕后制作

监制：丁教、糕糕

后期：迪卡普里鑫

运营：瑞涵

设计：饭团

商务合作

声动活泼商务合作咨询

支持我们，加入新一年的播客创新

2021 年我们发起了「声动胡同会员计划」，这是一个纯支持项目，支持「声动活泼」在播客内容上不断探索和创新。回顾 2023 年，得益于这些支持，「声动活泼」的每档节目都不断突破，不仅荣登苹果中国的年度热门节目榜单，还在 CPA 和喜马拉雅等平台都榜上有名。2024 年，我们也会继续创新，一档全新的投资类节目即将和大家见面，同时也会用更加创新的方式制作新一季「声音特稿」节目。

欢迎点击链接查看我们 2023 年收获和 2024 年内容计划。如果你认同或喜欢我们做的事情，也期待我们不断尝试并产生好内容，欢迎付费支持。

加入我们

声动活泼正在招聘全职「节目监制」、「节目营销」、「商业化项目管理」，查看详细讯息请点击链接。如果你已准备好简历，欢迎发送至 [email protected]，标题请用：姓名+岗位名称。

关于声动活泼

「用声音碰撞世界」，声动活泼致力于为人们提供源源不断的思考养料。

我们还有这些播客：声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞

欢迎在即刻、微博等社交媒体上与我们互动，搜索声动活泼即可找到我们。

期待你给我们写邮件，邮箱地址是：[email protected]

欢迎扫码添加声小音，在节目之外和我们保持联系。

More episodes from What's Next｜科技早知道