其实自 2021 年初以来,关于大规模语言模型的研究就已经如火如荼。最近 ChatGPT 通过全新的人机交互方式,再一次震撼了我们。
当然问题也随之而来,微信有没有可能借助其广阔的中文对话数据集训练出更好的中文大模型?ChatGPT 的未来会如何?沿着 Transformer 结构的演进,我们是否能够迎来真正的通用人工智能(AGI)?
为了更加深入地了解这些问题,我们分别在工业界和学术界邀请了一位嘉宾,一起讨论大模型的现状及未来。
方佳瑞:HPCAITech(潞晨科技)Cofounder & CTO ,专注于大模型的训练和推理框架 GitHub 个人主页
孙天祥:复旦大学自然语言处理实验室博士研究生 个人主页
高策:TensorChord Cofounder & CEO 博客, GitHub 个人主页
06:52 方佳瑞博士在之前微信 AI 工作时对于大模型的思考,微信有没有做大模型的打算?
10:57 孙天祥博士对于大模型的历史和未来的独到看法
15:44 过去 AI 进展是从 CV 领域开始蔓延到其他领域,而大模型为什么首先出现在 NLP 领域?
20:57 Diffusion 在 CV 领域会不会被其他结构取代?
23:48 OpenAI 是否会垄断大规模语言模型?
27:29 大模型时代的 AI 研究还会以开源的形式进行么?
31:05 训练大模型的技术会不会成为一种屠龙技,只能大公司才需要?
33:05 大模型会不会让 NLP 工程师失业?大模型对 NLP 行业的影响
38:12 Transformer 结构有可能进化出通用 AI 么?
42:41 有哪些 NLP 的领域是目前大模型还不擅长的?
43:24 基于过去知识(数据)训练的大模型如何能在未来一段时间继续适用?大模型的更新与维护
46:28 目前的大模型训练和传统数据并行的分布式训练之间有什么显著的差异?
49:20 从技术角度 Ray 能给大模型训练带来什么好处或优势?
56:43 Chain of thought 与 fine-tune 的辩证关系
我们讨论中提到的论文/开源项目(基本按照时间顺序):
tensorchord/envd
microsoft/DeepSpeed
hpcaitech/ColossalAI
Percy Liang、李飞飞等发布200多页综述,阐述大模型机遇与风险的论文
2017 年谷歌大脑发表的 Transformer 论文
Chain of Thought 论文如果您也对大模型感兴趣,欢迎通过微信公众号 TensorChord 或邮箱 [email protected] 与我们联系!