Portfolio News

启明星 | 智谱AI张鹏:认知大模型及应用初探 | 世界人工智能大会

03/08/2023

编者按:在由启明创投主办的2023世界人工智能大会“生成式AI与大模型:变革与创新”论坛上,人工智能等技术前沿领域的著名专家与学者,顶级投资人和领军创业者汇聚一堂,共同探索中国科技创新的驱动力量。

本次论坛是大会唯一一场由创投机构主办的相关论坛,立足创业与投资视角,分享了最新生成式AI前沿信息和实践探索,并发布了行业首份基于对海内外逾百家企业深入调研撰写的生成式AI洞察报告,全方位解读了生成式AI的产业变革和未来十大展望。

智谱AI CEO张鹏博士在现场发表了“认知大模型及应用初探”的主题演讲。他表示,2020年发布的GPT-3使大模型进入“可用阶段”,智谱AI也在同年全力进行大模型的研发。

今年6月智谱AI将千亿模型ChatGLM升级到二代,推出更多参数规模的模型,重新设计API产品矩阵,以适配更广泛的应用场景需求。当前,智谱AI提供模型的私有化部署、API调用、模型定制等服务,能够为超大型企业、中大型企业及小型企业提供全栈解决方案。此外,智谱AI还推出训推一体化平台,帮助用户快速利用私有数据来使用模型,并提供全链路的AI应用生产工具帮助用户一站式完成专属AI应用的开发。

以下为精编整理的演讲实录。

非常感谢启明创投的邀请,和大家分享一下我们做的事情。

大家最近可能都听过我们的ChatGLM的名字,今天我们也介绍一下ChatGLM背后的一些故事。


智谱AI CEO张鹏博士

01/
GPT-3使大模型进入“可用阶段”
智谱AI全力进行大模型的研发

GPT-3这个大规模Transformer已经成为当前世界人工智能领域里的绝对热点。这样的技术是ChatGPT等等这一类生成式AI产品的技术的核心基座,使得我们的AI能够跟人产生自然语言交互,也推动了全新的人机交互方式,促进了整个行业变革的开始。

当然往前可以追溯到2017年Transformer的诞生,到2020年之前,陆续产生了像GPT-1、GPT-2等等一系列的大规模Transformer模型,这些模型因其具备大规模的参数,拥有了很强的通用化能力,解决了很多之前我们无法解决的问题。一直到2020年,GPT-3的出世把生成式AI带入了全新的时代。从学术界或者产业界的角度来看,2020年可以称之为大模型元年,标志着生成式AI,或者说大模型的研究进入到全新的阶段。

智谱AI也是在这个时间段——2019年正式成立,成立之初,我们写下了“让机器像人一样思考”的愿景。我们认为在实现愿景的过程当中,大模型是一个必经的阶梯、一个非常重要的工具。到2020年,GPT-3的发布也给我们一个提醒,大模型确实是未来的方向,于是我们同年全力进行大模型的研发。同时,我们深刻地认识到必须要有自主可控的、完全由自己研发的大模型基座。这一年,我们动用了团队很多资源、人员去做大模型研究。

在早期的时候,我们主要集中在底层算法的研究上。到2021年,基于我们自研的算法框架,我们训练出了第一个百亿级的开源大模型。到2022年8月,我们的成果就陆续地有所体现。从千亿级的高精度开源大模型GLM-130B,到百亿的代码生成模型CodeGeeX,到支持一百多种语言的多语言Transformer模型,都是基于我们之前的学术研究以及成果所诞生的新型模型,在2022年陆续发布。

这些模型发布后我们都进行了开源,希望更多的人关注中国自研的大模型和相应的技术。我们也对Open AI有持续关注,对未来大模型的发展方向以及最新的技术进行了深入的研究。

我们在ChatGPT发布之后,基于GLM-130B这个千亿基座模型,在今年二月完成了ChatGLM第一个版本的研发工作,三月完成了模型和相应产品的上线和发布。3月14日,是非常值得被大模型圈记住的日子,那一天我们发布了ChatGLMAnthropic也发布了新的模型Claude,紧接着GPT-4发布了。

在之后我们持续推进新的工作。对标GPT-4的多模态理解能力,我们加入了视觉的能力,基于我们的ChatGLM-6B模型,打造Visual-6B的模型,实现了初步的多模态的理解。在6月,我们把ChatGLM模型从一代升级到二代。

02/
坚持自研核心技术
ChatGLM系列实现重大升级

整个研发过程当中,我们一直坚持的很重要的一点就是完全自研核心技术,尤其在算法层面。我们在团队早期的时候聚焦于底层算法、模型架构的设计,在2020-2022年期间,我们在底层的Transformer模型架构层面取得了很重要的研究成果,就是GLM模型训练框架。我们把它发表在国际人工智能顶级的会议ACL上。

我们将GLM的预训练框架称之为自回归填空的方法,集成了GPT和BERT这两种预训练框架的优势,既能够实现单项注意力的计算,做序列的生成,也可以做到双向注意力的计算,做回归的模型。这是我们这个预训练模型的优势。同时我们在这个模型的基础上,实现了百亿到千亿级的预训练模型的稳定训练。

根据我们千亿级模型训练的Loss函数的收敛曲线,相对于其他曲线来讲,我们的曲线是比较平滑和稳定的,中间还会有少量的波动。这个收敛曲线的每一个波动就代表着一次训练事故,可能是一次崩溃,可能是数据的错误,每一次事故带来的可能是成本的提高,模型精度的下降。得到一个相对平滑的预训练的收敛曲线,是我们所有做大模型的人都希望看到的一件事情。

在这样的预训练框架的基础上,我们在2022年8月份开源发布的GLM-130B的模型,是可以与GPT-3——Open AI顶尖的基座模型相媲美的双语模型。跟世界顶级的像OPT、GPT-3、Bloom等模型相比,我们在精度上不比他们差,我们在某些评估指标上,与上述这些企业不相上下,甚至超过一点,中文上我们更是远超于他们。

同时我们在模型的可用性上也做了很多的工作,包括使用量化压缩、推理加速等等一系列的技术,使得这个模型在真正实际应用场景当中能够有更好的性价比。我们不希望使用8卡A100做推理,因为成本太高。我们也不希望等待回答的时间会超过一分钟,我们希望模型在秒级时间内能回答我们的问题,这一目标通过我们的可用性技术实现了。

当然我们也做了一些工作,与我们国内的硬件厂商合作,GLM-130B能实现对国产化芯片的训练以及推理方面的支持。目前我们也在紧密地推进相关的工作。

GLM-130B一经发布引来了很多的关注。到目前为止已经有70多个国家与地区,一千多家机构在使用我们的模型,包括顶级的科技公司、研究机构。

去年11月,斯坦福大模型中心对于全球30多个大模型的横向评测结果显示:GLM-130B在准确性和公平性指标上与GPT-3 175B(davinci)接近或持平,鲁棒性、校准误差和无偏性优于GPT-3 175B,这是很值得我们骄傲的事情。

基于GLM-130B这一基座模型,我们加上了代码预训练、有监督微调等等一系列的技术,实现了千亿级模型与人类意图的对齐,使得它能够更好地理解用户的问题,以及更有逻辑性地回答问题,就是我们常说的类似于像ChatGPT这样的功能,这就是我刚才介绍的今年3月上线的ChatGLM的第一个版本。这个版本上线后,我们小范围地邀请了几千个用户对产品进行了内测,反馈回来的结果还是非常不错的,当然我们还在持续地迭代。

同时那天我们也开源了另外一个对话模型ChatGLM-6B。我们称之为ChatGLM-130B的小兄弟,是因为它的参数量不大,但是它的好处是经过量化压缩之后,可以在一张消费级的显卡上运行,这个基本上也开启了一个开源6、7B或者13B小模型的时代,后续产生了很多开源模型。

虽然这个模型比较小,但是性能非常不错,影响力非常大。到目前为止全球已经有300多万的下载量。潜在的用户应该是几百万,接近千万的量级。

在科技部发布的开源模型影响力榜单上我们取得了非常不错的排名,ChatGLM-6B的模型的影响力是排在第一的。排名前十的模型当中,除了ChatGLM-6B,还包括GLM-130B、代码模型CodeGeeX、文本到视频生成的模型,还有我们最基础的GLM的项目。

基于这些开源的项目,我们全球很多开源社区的伙伴甚至商业化的公司、团队,做了很多很有意思的应用。包括开源的项目已经有200多个,还有很多在商用前期的探索。

刚才也提到在6月的时候,我们对整个ChatGLM的系列进行了重大的升级。从原来的ChatGLM升级到ChatGLM2,整个的模型系列得到了很大的扩展。原来我们只有6B和130B,差距还是挺大的,这一次加入了12B、32B、66B不同尺寸的模型。为什么要做这些?其实我们发现在实际的商业化落地的场景当中,用户对于模型的效果和相应的成本是有很多不同层次的考量。他们会寻找这个平衡点,每家企业所寻找的平衡点、所期望的平衡点是不一样的,这就对我们模型的尺寸以及推理成本、应用开发的成本都有不同的要求。所以我们在6B和130B之间补充了新版本的模型,可以更好地适用于不同场景下的需求。

我们全新的ChatGLM2系列在性能上得到了极大的提升。首先在标准评估指标的测试上,二代比一代在不同的数据集上会有不同的提升。在MMLU上,我们提升了16%,这是比较大的提升,已经逼近ChatGPT的水平。在中文的跨学科数据集上,我们的提升更是达到了惊人的36%。在GSM8K前项数据推理能力的数据集上,我们提升了接近三倍。不是说我们只有最大的130B的模型性能可以达到这样的提升,6B开源模型我们也实现了巨大的提升,甚至提升的幅度比130B模型的更大。

同时我们模型上下文的宽度也得到了扩展。对于模型可接受的上下文的长度在实际生产应用当中是非常重要的指标。原来ChatGLM支持2K或者4K的水平,我们现在扩展到了32K,整整16倍。这个是由于我们应用了全新的Flash Attention的技术。

推理的速度上我们也实现了进一步的提升。原来大家觉得已经比较快了,新版本可以在第一代还在打字的时候就完成输出。

我们在发布所有这些模型之前都进行了很严格的内部的测试。我们自己有一套内部评测的数据集和机制。3月的时候与Open AI相比,我们大概是其50%-60%的水平,到5月的时候有60%-70%,6月底的时候,我们取得了一个比较大的进步,整个提升到70%-80%的水平。我们期待在不久的将来可以追上当前ChatGPT的水平。

03/
智谱+U大模型企业级全栈解决方案
覆盖不同规模企业的各种需求

商业化方面,我们做了很多尝试,我们提出的MaaS的理念,希望让更多的人能够享受到千亿高精度大模型的便利,实现AI+。

我们MaaS服务的方式有很多种,有端到端训练的服务,也可以提供模型的授权,甚至可以提供云上的API的调用方式,这也是Open AI最早提供的模式。

我们推出的全新的智谱+U大模型企业级全栈解决方案,基本上涵盖了我们现在能接触到的上百家企业的各种类型的需求。针对最开放的私有模型的部署方案,我们可以在用户的硬件环境中部署模型,结合用户的数据和需求,去做进一步的模型迭代。我们也可以云上提供专属的模型方案,适合大中型企业的快速部署,又兼顾定制化的需求。我们也能够通过强大而灵活的API训练解决开发者以及中小团队对于应用开发的需求。

结合模型系列的矩阵,我们可以满足多种场景的应用开发需求,从最小的6B的开源模型进行单机单卡的场景验证,到12B、32B、66B,甚至到最强大的130B模型的私有化方案。

有些企业不想自己去采购或者维护这样庞大的算力基础硬件,还是更希望在云上使用模型服务,但是同时也希望用企业的自有数据与模型进行一定的结合,稍稍做一些定制的工作。这里我们就提供了专属的模型方案,利用IaaS技术,加上我们对于私有化数据的安全环境的保证,提供模型的微调服务和定制化模型服务,让企业具备低成本、低门槛地定制化使用大模型的能力。

通过训推一体化的平台,可以帮助用户快速地利用自己的私有数据来使用我们的模型,体验相应的服务。

我们也向广大的开发者和中小型的企业提供了更便捷的API产品矩阵,用户可以利用我们最强大的ChatGLM-Pro API,最均衡的ChatGLM API,还有最快速、最轻量级的ChatGLM-Lite API,快速地打造自己的应用,开发特定场景下所需要的功能,甚至是融入到自己的产品当中。

我们也提供了全链路的AI应用生产力工具,能够帮助包括非程序员在内的开发者使用工具链创建应用,一站式完成专属AI应用的开发。

我们希望实现“让机器像人一样思考”的愿景,赋能千行百业。谢谢大家。

请关注启明创投公众号

在后台输入“生成式AI报告

获取完整报告下载方式