August 07, 2023

EP 35. ICML现场对话AI研究员符尧：亲历AI诸神之战，解读LLM前沿研究，Llama 2，AI Agents

1 hour 9 minutes

OnBoard! 一大波更新要来啦！Monica 最近一个月都在硅谷，之前怠慢了一段时间，很快就会补上啦。

这次的节目非常特别，是在ICML 2023 (International Conference on Machine Learning, 国际机器学习大会）的现场录制的。这次的嘉宾，爱丁堡大学博士生符尧，更是众望所归，相信最近关注大语言模型的朋友都不陌生。他的好几篇关于大语言模型能力研究的文章，几乎都是业内必读。

Hello World, who is OnBoard!?

正如符尧在一篇总结文章中所说：“ICML 2023，OpenAI, Anthropic, Google DeepMind, Meta，各大名校的 rising star PhD，顶级 hedge fund 与 VC ，most popular startups 悉数到场，这里是诸神之战的最前线。”

我们就在诸神之战的现场，回顾了ICML与各位大神现场交流的见闻，fuyao对于数据、RLHF等大模型核心研究领域的思考，还有对震动行业的、刚刚发布的LlaMA-2的看法。

这次在室外录制，嘉宾还在生病，不免有些杂音。但是我想这对于关注干货的听众来说，都不是问题。相信你也会受益匪浅。Enjoy!

*本期涉及比较多的术语，需要你对大模型（LLM）有基础的技术了解。

嘉宾介绍

符尧，爱丁堡大学的博士生，研究大语言模型的推理能力。符尧在北京大学完成了本科学位，在哥伦比亚大学完成了硕士学位，曾在MIT-IBM AI 实验室，Allen Institute for AI (AI2) 等担任实习研究员。他的工作主题包括了大语言模型演化，复杂推理，涌现能力，以及如何从第一性原理构造模型。他以《拆解追溯 GPT-3.5 各项能力的起源》为代表的文章系列详细阐述了语言模型的能力机制，在中文和全球互联网上都产生了重大的影响力。

我们都聊了什么

02:05 凡尔赛开场 & 嘉宾付尧的介绍

04:33 认识ICML，参加诸神之战的盛会是什么体验；付尧入选的论文如何探讨模型能力的遗忘

08:09 过去半年，对模型能力有什么新的理解

09:36 解决模型能力遗忘为什么重要，有什么挑战

13:49 模型能力遗忘对于垂直领域模型有什么影响

17:39 蒸馏 (Distillation) 技术为什么重要，现在研究和落地处在什么阶段

24:00 算力紧张，以后更多的创新研究都会发生在业界而不是学术界吗

26:39 ICML上看到了哪些有意思的研究 - paper 推荐！

30:41 最火的话题1：基于LLM的agents 构建有什么挑战和解法

37:36 现在的大语言模型能力可以支持怎样的Agent?

48:51 最火的话题2：解读 Llama 2，最让人印象深刻的变化是什么？

56:25 基于Llama 2,学术界可以有什么研究方向？

59:06 ICML 上亲历的大神交流

61:57 符尧还在关注哪些新的研究方向 & 我们对 Agent 集群的畅想

我们提到的内容

符尧的ICML论文：Specializing Smaller Language Models towards Multi-Step Reasoning
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
Llama 2: Open Foundation and Fine-Tuned Chat Models
Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU
PAL: Program-aided Language Models by Aman Madaan
符尧的Llama 2 讨论会 memo (7/18/2023)
RL: Reinforcement learning, 强化学习
SFT: Supervised Fine Tuning, 监督微调
RLHF: Reinforcement Learning with Human Feedback, 人类反馈强化学习
Distillation: 蒸馏，基于大语言模型训练小模型的方法
Scaling law: A mathematical relationship where performance improves with increasing size, 规模定律
Alignment tax: Additional effort to align a model's behavior with human values, 对齐税

参考文章

符尧的个人主页
ICML 2023 手记 - 诸神之战的最前线
符尧的博客
A Closer Look at Large Language Models Emergent Abilities, by Yao Fu
How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources, by Yao Fu
Training language models to follow instructions with human feedback, by John Schulman
Scaling Laws for Reward Model Overoptimization
Emergent Abilities of Large Language Models, by Jason Wei
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, by Jason Wei

别忘了，关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励！

如果你能在小宇宙上点个赞，Apple Podcasts 上给个五星好评，就能让更多的朋友看到我们努力制作的内容，打赏请我们喝杯咖啡，就给你比心！

有任何心得和建议，也欢迎在评论区跟我们互动~

...more

View all episodes

By Monica Xie

3838 ratings