What's Next|科技早知道

S8Bonus | 抱歉,Sora 还不能称为「世界模拟器」

02.23.2024 - By 声动活泼Play

Download our free app to listen on your phone

Download on the App StoreGet it on Google Play

过去一周,OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条,特别是他们号称是物理世界模拟器,让许多人惊掉下巴。本期节目,我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成,从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间,以及这是否是代表着人类离 AGI 又进了一大步。

短短一年时间内,Sora 为什么能在视频生成效果上实现质的飞跃?Sora 所采取的技术路线,其背后的原理是什么?和其他文生视频模型相比,Sora 的模型又有哪些优势和劣势?未来,Sora 的落地应用场景可能会有哪些?Sora 会继续沿用 ChatGPT 的商业模式吗?OpenAI 对 Sora「物理世界模拟器」的定位是否准确? Sora 横空出世后,我们距离 AGI 还有多远?

这期节目我们聊了很多技术,在所难免很多的专业术语都是英文的表达,如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。

全新付费播客「不止金钱」早鸟优惠价截止到元宵节!

我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可,销量也大大超出了我们的预期,感谢大家!

新年新气象,我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节,2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化,让钱包和生活都变得确定。

点击链接查看「不止金钱」的节目简介、收听节目预告。

本期人物

李崇轩,中国人民大学高瓴人工智能学院副教授、博士生导师

和成,AI 连续创业者,Newcast.ai 创始人、YC Alumni

主要话题

[02:23] 聊聊看到 Demo 视频后的意料之外与情理之中

[03:58] Diffusion 和 Transformer 大家都在用,为什么只有 Sora 能生成 60s 的视频?

[10:53] Sora 训练用的数据可能部分来自游戏引擎生成?

[15:08] Sora 训练参数大猜测

[16:33] 文生视频领域不同技术路线的优劣对比

[20:41] 国内外大厂想要追赶 Sora,有哪些壁垒需要突破?

[24:18] Sora 模型的无奈:原理局限与数据瓶颈

[32:56] 对话生成还是新的 UI 界面: Sora 可能的商业化模式

[34:24] 文生视频消灭中间环节,渲染引擎结合 Sora 的想象空间?

[36:34] 距离用户端大规模用上 Sora 还有多久?

[39:03] 为什么说「Sora 是世界模拟器」不够准确?

[41:38] 融入传感器和检索,畅想「世界模拟器」的其他可能性

[44:13] Sora 让我们与 AGI 的距离更近一步?

关联阅读

通用人工智能离我们多远,大模型专家访谈 |S7E11 硅谷徐老师 x OnBoard!

- Sora 的演示视频和技术报告

被认为是 Sora 技术基础的一篇论文,由谢赛宁与 Sora 研发负责人合著

Patch 的技术论文

Pika 创始人回应 Sora 发布

彭博对 Sora 如何改变未来的猜想

Diffusion Transformer(DiT),是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型,通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构,而不是传统的卷积神经网络(如U-Net)。

W.A.L.T. ,Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的 基于Transformer的潜在视频扩散模型,中文可以翻译为“视觉增强语言Transformer”。

隐空间(latent space)或者潜在空间(potential space),是机器学习模型中一个重要的概念,它指的是模型学习到的数据特征的抽象表示。在潜在空间中,每个数据点都对应着一个向量,该向量表示该数据点的特征。潜在空间的维度通常比原始数据的维度低,因此它可以用于对数据进行降维和压缩。在生成模型中,潜在空间通常用于生成新的数据样本。

Scaling law是指AI模型的性能与模型规模(例如参数数量、训练数据量、计算资源等)之间的关系。AI模型的性能通常会随着模型规模的增加而提高,但这种提升并不是线性的。

Space-time patch指的是时空块,是指从视频或图像序列中提取的连续时空区域。时空块通常包含多个空间维度(例如图像中的像素)和时间维度(例如视频中的帧)。时空块可以同时包含空间信息和时间信息,这对于理解视频或图像序列中的动态变化非常重要;可以有效降低计算复杂度,提高计算效率以及用于数据增强,扩充训练数据集,提高模型的鲁棒性。

Autoregressive Models,自回归模型 (AR model) 是一种统计模型,它基于过去的值来预测序列中的下一个值。换句话说,它假设当前的值仅取决于其之前的某个数量的值。在人工智能领域,自回归模型广泛用于各种任务:

时间序列预测:例如,预测股票价格、天气情况或交通流量。

语言建模 :用于训练语言模型,使其能够生成与给定文本相似的文本。

图像生成 :用于生成逼真的图像,例如根据图像的一部分生成整个图像。

Omniverse: 是由英伟达 (NVIDIA) 开发的实时协作和物理精确模拟平台。它旨在将 3D 工作流程连接起来。

Runway:是一个 AI 工具编辑、增强和生成视频的创意 AI 的平台,成立于2018年。(https://runwayml.com/)

Active reasoning(主动推理):是指系统能够在开放环境中动态收集信息并进行推理的能力。这与传统人工智能系统不同,后者依赖预加载的知识并在受控环境中执行任务。

Q* :2023 年底,路透社和 The Information 报道了 OpenAI 内部演示了一种名为 "Q*" 的模型,据称能够解决“简单数学问题”,可能表明处于学习和推理的早期阶段。

Magic Dev: 是一家位于美国加利福尼亚州旧金山的软件公司,成立于 2021 年。该公司致力于开发下一代人工智能驱动的软件开发工具,帮助开发人员提高工作效率和生产力。(https://magic.dev/)

幕后制作

监制:丁教、糕糕

后期:迪卡普里鑫

运营:瑞涵

设计:饭团

商务合作

声动活泼商务合作咨询

支持我们,加入新一年的播客创新

2021 年我们发起了「声动胡同会员计划」,这是一个纯支持项目,支持「声动活泼」在播客内容上不断探索和创新。回顾 2023 年,得益于这些支持,「声动活泼」的每档节目都不断突破,不仅荣登苹果中国的年度热门节目榜单,还在 CPA 和喜马拉雅等平台都榜上有名。2024 年,我们也会继续创新,一档全新的投资类节目即将和大家见面,同时也会用更加创新的方式制作新一季「声音特稿」节目。

欢迎点击链接查看我们 2023 年收获和 2024 年内容计划。如果你认同或喜欢我们做的事情,也期待我们不断尝试并产生好内容,欢迎付费支持。

加入我们

声动活泼正在招聘全职「节目监制」、「节目营销」、「商业化项目管理」,查看详细讯息请 点击链接。如果你已准备好简历,欢迎发送至 [email protected], 标题请用:姓名+岗位名称。

关于声动活泼

「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。

我们还有这些播客:声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞

欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。

期待你给我们写邮件,邮箱地址是:[email protected]

欢迎扫码添加声小音,在节目之外和我们保持联系。

More episodes from What's Next|科技早知道