February 15, 2024

E1. 解码大模型

18 minutes

最近两三年大家经常听说“GPT，大模型，生成式AI“等。再往前些年呢，普遍说的都是”大数据，机器学习，人工智能“。那么这些概念到底都是什么含义呢？今天我们就用普通话把他们都说清楚。

人类历史上第一次正式出现AI的概念，是在1956年，在美国的Dartmouth大学，一群当时顶级的计算机和数学学者聚在一期，展开了为期6周的workshop，来探讨让机器能够有人类智能的可能性。今天人工智能的主要研究方向，是“让机器，英文叫machine，能够看懂、读懂、和听懂人类能看到、听到的内容“。到今天为止，在人工智能领域，没有任何一个算法是专门设计为来教会计算机“思考”的，所以机器是不会思考的。

2007年斯坦福大学著名华人学者、人工智能领域世界级专家李飞飞教授和普林斯顿大学的李凯教授发起的Project ImageNet，是人类历史上第一次通过人工筛选标签处理过的海量高质量的图片数据、去训练最适合图片及视频处理的机器学习的CNN算法，从而得以让机器能够看懂识别出各种物体。这是一个经典的机器学习过程，也是一个史诗级的探索，因为在2007年，世界上刚刚出现亚马逊云服务，谷歌云在2008年才出现，而对ChatGPT投入巨资的微软，在2010年才发布云服务。

让机器能够读懂的各种人类文本的“大模型”，Large Language Model，简称LLM。大模型之所以叫做大模型，是因为大模型通用到了几乎是懂得人类文明的所有学科知识；大模型之所以有这样的能力，是因为是用了几乎是全网的数据来训练。

GPT是Generative Pre-trained Transformer的缩写。GPT是大模型的一种实现方式，GPT能够读懂人类的文本，并相应的生成文本。GPT没有再用卷积神经元模型，也就是CNN模型，而是用了transfomer这样一种架构；Transfomer相对于比卷积神经元模型CNN，极大的缩短了训练的时间。GPT模型的训练数据，是用的unlabeled data，也就是没有打过标签的数据，unlabeled data意味着不需要人工去对文本进行标签等处理，这极大的降低了学习数据的门槛。正式因为GPT采用了transformer这样的架构来缩短训练时间，又使用unlabeled data来训练模型，才在人类历史上第一次让大模型的实现成为可能。

而ChatGPT，是OpenAI公司基于GPT架构及实现，开发的一个用于文本聊天的对话工具。

...more