高校所承担的角色更多地是进行技术验证,即探索技术路径的正确性和可行性;而大模型产品化需要企业的介入。
| 嘉宾 |
张奇 复旦大学计算机科学技术学院教授、博士研究生导师,“眸思”(MouSi)大模型负责人,MOSS大模型核心人员
| 内容 |
从MOSS到“眸思”
复旦金融评论:2023年复旦大学自然语言处理实验室发布了国内首个类ChatGPT模型MOSS,您作为该团队的核心成员,能否分享一下团队是如何实现这一突破的?是因为研究的预见性,还是因为团队在执行上展现出了非凡的速度和效率?
张奇:首先,ChatGPT不是一夜之间就出现的。早在2020年,GPT-3就已经发布了。当时,我们就开始与多家企业展开合作,着手进行相关的预训练工作。在2021年,我们就已经与合作伙伴共同推进了相关项目的发展。得益于这些技术积累,当2022年底ChatGPT发布时,我们能够迅速调动已有的技术快速响应。
其次,我们的实验室在国内自然语言处理(NLP)领域一直处于领先地位。自20世纪90年代起,我们便开始深耕NLP研究,对NLP的各个方面有着深刻的理解和前沿的认知。这也是为什么ChatGPT一问世,MOSS就能够迅速在算法上复现的原因之一。
复旦金融评论:在MOSS发布后,仅用半年时间,多模态大模型“眸思”横空出世。MOSS和“眸思”的模型有何关联?
张奇:MOSS和“眸思”是由我们实验室开发的两个不同的模型。MOSS是一个对话式大型语言模型,而“眸思”是一个多模态大模型,能够理解并识别图片内容。这也意味着我们实验室的研究从原本基于GPT3.5的文本模型转向围绕GPT4-v复现多模态大模型。
随着“眸思”项目的推进,我们开始思考它还能做些什么。“眸思”多模态的处理能力(联合语言和视觉的力量)就像是为MOSS增添了“一双眼睛”。只需拍摄一张照片,“眸思”就能准确描述出周围的环境。这一特性启发我们将“眸思”模型应用于辅助视障人士的公益性项目。想象一下,视障人士只需用手机拍张照片,“眸思”就能告诉他们前面有没有障碍物,或者周围有什么重要的事物,帮助他们更方便地“看清世界”。
从实验室到市场:产学研融合下的大模型产业化
复旦金融评论:作为一个高校研究团队,“眸思”在资金投入和研发产出方面如何实现平衡?除了公益性质的项目,未来是否有计划做市场化的盈利项目?
张奇:在大模型的研发和产业化过程中,资金投入是非常大的。不过,得益于2023年与企业的一些合作,我们对大模型的能力边界有了更深入的理解。这也帮助我们在后续的产业项目中能够更加明确大模型的潜力和应用范围。
实际上,真正在“眸思”项目的资金投入相对较少,并且研发团队也少走了一些弯路。“眸思”的核心工作是验证研究路径的可行性,也就是确定我们能够达到的技术高度、模型的优势与局限、是否具有商业可行性,以及如果落地所需的资金规模。在这一过程中,我们并不需要巨额资金从零开始对模型进行预训练,也不会使用千亿参数规模的大模型。
我们利用实验室内部已有的积累,包括之前项目的结余资金来以一种可持续的方式逐步推进研发,这就类似于一个滚动发展的过程。一旦“眸思”完成,可能吸引更多企业合作,尤其是在多模态领域。这一方面增强我们产品落地的能力,另一方面也推动我们的研究和开发工作,从而形成良性循环。
另外一个“眸思”目前主要在做的项目是为个人和企业提供知识问答服务。用户可以在单卡3090这样的硬件上,利用我们的“智工”知识问答平台,实现对内部知识的高效检索和问答。具体来说,我们将数千篇论文上传至平台,平台将自动进行PDF文件解析,使得用户能够直接针对这些文档进行询问并获取答案。在进行前期研究的过程中,我们发现当前市场上缺少一种既能够私有化部署又成本较低的知识问答系统,而且它不仅要能够精确地解析PDF的复杂版式,还要实现高准确率的问答功能,同时避免产生幻觉(即生成与现实不符的信息)。因此,我们致力于开发一套能够满足这些需求的产品,为个人和企业用户提供更加智能化的服务。同时,我们的系统支持全离线操作,无需访问互联网资源。这意味着所有的模型推理和PDF解析工作都可在本地完成。这个项目是我们正在计划未来孵化的业务方向。
智胜未来:中国AI突围之战
复旦金融评论:鉴于AIGC在内容生成方面展现出的巨大潜力,越来越多的人开始关注“AIGC+”,类似于过去的“互联网+”“AI+”。您认为现在的“AIGC+”和之前的“AI+”哪个更适用于描述现在的发展趋势?
张奇:我觉得之前的“AI+”还有很多问题未解决。AIGC的核心优势在于其生成能力,包括生成图片、视频等,本身就具备广泛的应用前景。没有把文本生成列入在内是因为以往的文本模型更多强调的是分类,而不是内容生成。但随着生成技术的发展,所有自然语言处理的任务都被视为生成式的结果,将其统一于AIGC的框架之下。
我个人认为“AI+”的概念更为合适。一方面是因为它涵盖了AI技术与各个领域的结合,而不仅仅是内容生成。以天气预报为例,它采用的是纯数据+大模型的技术。如果将这样的技术应用于工业界,可以极大地提高预测关键数据的准确性,从而有助于实现节能减排、优化生产调度等目标。
另一方面,我认为并不是所有问题都必须采用生成式方法来解决,它本身也存在一些固有的局限性和缺陷。只能说在目前探索AGI的过程中,生成式可能是比较合适的一个数据驱动模式,但要是完成别的任务的话,生成式未必是最合适的。
复旦金融评论:就正在研究和应用这些技术而言,您认为AI领域可能会存在哪些突破?
张奇:在小模型的研究上,实际上很难预测哪些想法最终会取得突破。即便是现在被尊称为“深度学习之父”的杰弗里·辛顿(Geoffrey Hinton),他在该领域早期也曾面临项目资助难和论文无人问津的困境。这表明,当前可能已经存在一些有潜力的研究方向,但它们仍在等待被发现和重视。
就目前而言,可能的一个方向是实现通用人工智能(AGI)。然而,AI真正要解决的更多是因果推理和逻辑问题。这是一个开放性的问题,也是未来研究需要探索的方向。
但我认为如果想在AI领域实现真正的突破,可能需要下决心“换道超车”,探索新的方法和路径。例如,放弃传统的大数据、大模型、大算力的模式,转而研究小模型、小数据的可行性,或者寻找其他可能的新途径。关键还是在于鼓励广泛的尝试和探索。尤其是学术界应该倡导多元化的研究思路,鼓励研究人员探索不同的理论,而不是让所有人都集中在单一的研究路径上。
复旦金融评论:鉴于大模型研发的高成本和技术挑战。您认为国内大模型研发和应用,会被算力和数据“卡脖子”吗?资金投入对于大模型开发有着怎样的重要性?
张奇:算力和数据短缺是个全球性问题。我认为与其说大模型的研发和应用会被算力和数据“卡脖子”,不如说是与资金投入的多少有关。我估算在资金充足的条件下,要达到GPT-4级别的模型开发,仅技术层面的投入就可能需要40亿元起步。如果遇到一些技术挑战,成本可能进一步攀升至50亿元。这还不包括数据采购、标注、整体运算、后续推广、以及运维的费用,整体来说这是一个百亿级的投入。
大模型的研究和开发已不再是一个小团队短时间内能快速迭代上线的项目。在移动互联网时代,一个小团队可能几周内就能开发出一个应用并推向市场。但大模型,即使是一个初步的演示版本,也需要数千万甚至上亿的投资。要开发出能与Open AI竞争的产品,所需的投资更是高达十几亿到二十几亿。
欢迎添加小助手微信FFReview2018,加入听友群。第一时间收获经济热点轻解读、在线金融大师课。为了营造更好的讨论环境,我们准备了两个小问题,请在添加小助手后回答:
1. 关于金融方面,您最喜欢/推荐的一本书?
2. 您希望听到《财经相对论》聊哪些话题?
采访/制作/运营:葛雯瑄
收听方式:您可以通过苹果播客、喜马拉雅、小宇宙、网易云音乐、QQ音乐等平台收听节目。
联系我们:FFReview2018(微信)
期待与您交流!