启明新闻

对话 | 壁仞科技:高性能通用GPU支撑中国大模型训练与推理 | 世界人工智能大会

2023/07/20

编者按:日前,由启明创投主办的2023世界人工智能大会“生成式AI与大模型:变革与创新”论坛在上海成功举办。人工智能等技术前沿领域的著名专家与学者,顶级投资人和领军创业者汇聚一堂,共同探索中国科技创新的驱动力量。

本次论坛是大会唯一一场由创投机构主办的相关论坛,立足创业与投资视角,分享了最新生成式AI前沿信息和实践探索,并发布了行业首份基于对海内外逾百家企业深入调研撰写的生成式AI洞察报告,全方位解读了生成式AI的产业变革和未来十大展望。

在对话环节,启明创投合伙人叶冠泰与壁仞科技合伙人梁刚博士探讨了高性能通用GPU如何支撑中国大模型训练与推理,呈现了中国芯训练与推理的卓越实力。

梁刚指出:“半导体行业没有捷径可言,因此壁仞科技会持续专注于产品研发和与用户的合作,踏踏实实做事,最后用产品说话。倾听客户需求是重中之重,在硬件方面,壁仞科技将关注在算力、显存、带宽、集群互联和安全上的需求;在软件上,壁仞科技会与合作伙伴和客户形成‘应用-优化-反馈-迭代’的循环,不断提高自己。”

叶冠泰指出:“大模型时代,训练千亿参数、万亿参数的模型必不可少的就是算力,大模型参数规模的高速增长对GPU的能力不断提出更高的要求。大算力的GPU要支撑各种各样的模型,需要具备稳定性、扩展性、延迟控制、性价比等,展现出典型的‘木桶理论’,而且大算力芯片的推广,需要整个上下游的生态支持。AI的时代已经到来,芯片公司和大模型公司紧密合作,必将迎来一个辉煌的未来。”

以下为精编整理的对话实录。

01/
让一款芯片落地
除算力外仍有许多需要注重的事

叶冠泰:大家好!很高兴有机会与壁仞科技的梁刚博士对话。我是启明创投合伙人叶冠泰。我简单介绍一下梁刚博士的经历。梁刚博士是壁仞科技的合伙人,在加入壁仞科技之前,他在英特尔、Marvell、AMD都做过将近二十年的工作,从事软件方面的管理。在壁仞科技也是负责整个软件方面的管理和研发。在过去的二十年中,他管理过上千人的工程师团队,也成功地推出了20多个芯片的研发和量产。

此外,在过去的八年他也在麦肯锡做芯片行业的资深顾问。他获得范德堡大学(Vanderbilt University)的博士学位、西安交大的学士学位。感谢梁刚博士。


壁仞科技合伙人梁刚博士(左)与启明创投合伙人叶冠泰(右)

大家知道在大模型的时代,我们讲的是千亿和万亿规模的参数。今天全世界绝大部分的大模型都是跑在英伟达的GPU芯片上。在中国我们也非常高兴有一家国产的AI芯片公司壁仞科技,他们在去年推出了自己的AI芯片BR100。今天很有幸请到壁仞科技的梁博士,请您稍微介绍一下壁仞科技的BR100是怎么样能够在大模型的推理和训练中起到作用。

梁刚:大模型确实很火。我们看到大模型启动以后非常激动。因为我们这个芯片就是为大模型而来的。从算力、训推一体、带宽三方面来分析。

先说算力。壁仞科技BR100芯片的BF16算力达到512 TFLOPS,在业界是领先的,并支持TF32、BF16、INT8等多种数据精度,其中INT8的算力可达到1024 TOPS。此外,带宽方面壁仞科技自主研发的BLINK能够支持单机8卡互联,另外通过IB网卡实现多机多卡高速互联。

叶冠泰:明白。这个听起来的确是非常领先,像您刚刚提到的BF16的算力能够达到512 TFLOPS,真的是行业领先的算力。因为大模型的训练和推理还是非常复杂的落地场景。我也想听听看,您的客户要实实在在地去使用我们的芯片,要把这些案例落地的话,除了在算力领先之外,我们的芯片还需要在哪些方面做到非常优秀的级别,才能让我们进一步地帮助企业来发展这些模型?

梁刚:谢谢你的介绍,我在半导体行业工作多年,绝大多数的时间是做软件的,不是做硬件设计的。要想让一个芯片落地,光靠算力是没有用的。我们在过去的一段时间做了以下一些工作。

首先壁仞科技SUPA的软件生态已经形成。模型上我们已经开始跑通了GPT-2、Stable Diffusion、LLaMA,还有百度文心这样的一些模型。与此同时我们也支持了DeepSpeed、Hugging Face,以及百度飞桨等框架。所以我们在这些方面已有了一定的进展。

第二个方面,大模型最大的特点之一就是数据量非常大。仅有一个GPU是做不到的,一定要有相应的策略来做数据和模型的切分。我们在过去一段时间也做了一些TP(Tensor并行)、PP(流水线并行),以及DeepSpeed ZeRo数据并行,同时我们也做了一些recompute、offlad这样的策略和算法。通过这些能够支持更大量的数据。

第三个,我们要考虑到分布式。这么多的机器,其实对硬件、对系统来说是非常有挑战性的一件事。通讯上的消耗是非常高的,所以我们必须讨论一些相应的策略来充分发挥壁仞科技BLINK的优势。

还有一个方面对我们客户非常重要。其实我在英特尔的时候经常遇到的问题就是当多个机器同时在训练一个模型,突然一个机器垮了,就会中止训练,就算是你做得再好,还是会出现这样的事情。

我们首先是对硬件做压力测试(stress testing),就是尽量地看到各种各样潜在的corner case(边缘案例)。第二个,我们会与客户进行沟通,在我们的软件层上面具备容错机制。尽量地解决,不会出现一个芯片宕了导致所有都宕了的情况。

最后其实是最重要的,就是客户的性价比。对于硬件公司来说,我们首先在训练上要做充分的优化,尤其是在大模型上,不仅仅是一个单卡的算力的优化,我们还要从分布式的角度做相应的优化,这样才能在训练上让客户有真正的获益。

从推理角度讲,我们的芯片是一个大算力的芯片,比起其他一些芯片是有一定优势的,特别是在latency(延迟)上面,我们会为客户在这方面进行充分的优化。

02/
大算力芯片的推广
需要整个上下游的生态支持

叶冠泰:做大算力的GPU真的是特别困难,听起来有各种各样的模型的支持,有算力,有性价比,有稳定性,有扩展性,有延迟的控制,是典型的木桶理论。

我想再问一下,因为其实大家也知道您之前是在英特尔,其实在大算力的芯片的推广上,它需要整个上下游的生态的支持。目前您觉得在中国GPU的环境中,我们在生态上是怎样发展的?壁仞科技在生态的支持上,目前在做哪些规划和布局?

梁刚:非常好的问题,讲个心里话,我在半导体行业工作这么多年,最重要的是生态。没有生态对硬件芯片而言是没办法运作的。

你看英伟达的产品,最强大的事实上是它的CUDA生态。大模型带来了完整的工业体系的优化,不仅仅是一个芯片,不仅仅是某一个算力,甚至不是一个算法。所以在壁仞科技的角度上,第一步我们会看到的是什么?是打好基础层。什么是基础层?与我们的GPU和相应的服务器供应商保持合作,建立好适配。同时,大算力、大模型对网络的需求非常高,所以我们会跟相应的网卡、存储适配,都会和相应的供应商保持合作和沟通。

软件一层一层往上走,我们会支持模型GPT-2、Stable Diffusion、LLaMA,我们现在也看到了国内做ChatGLM的大模型,我们也在进行模型跑通。我相信在未来的几个星期我们就能跑起来。然后是架构,我们也做了DeepSpeed、Hugging Face这样的架构。

第二层,我们会看到的是如何跟相应的厂商在像系统、应用等等这方面进行合作。我们一定要做好相应的应用,这关系到我们最后要与客户落地的事情。我们与中国移动、平安、中兴等这些公司保持合作关系来创造最后的基础层。

03/
专注合作且踏踏实实做事
用产品说话

叶冠泰:谢谢。刚才Alex(启明创投合伙人周志峰)在进行演讲时,指出我们已经迎来了一个非常令人兴奋的AI时代。在一个AI的时代,当我们讲到服务器时,我们说的已经不是传统定位的服务器了,而是所谓的AI服务器。在AI服务器里,AI芯片当然是取得了非常重要的地位。对我们国内高算力的芯片企业在AI芯片产业上的格局,我感到期待和兴奋。那您觉得壁仞科技在国内的AI芯片产业中处于怎样的位置,是怎样的角色?您觉得我们可以打开一个AI芯片产业的格局吗?

梁刚:首先壁仞科技是产业的支持者,我们非常清楚自己只是这个产业里的一部分。你可以看到国内的情况事实上跟国际还是有很大的距离,讲心里话,特别是软件生态方面,我们的距离还是相当大的。所以我们必须要跟随,我们看不到捷径,特别是在半导体行业,我在半导体行业工作多年,没有什么捷径可走,也没有什么弯道可绕,我们必须踏踏实实地做。

从壁仞科技的角度上来讲,我们非常关注自己与客户的合作关系,这是非常重要的。因为在国内的生态与合作伙伴保持密切的合作才能使我们的产品不断地迭代、不断地更新,才能往上走,绝对不是说你在真空中就能够把它做好。

过去几年壁仞科技成功地证明了自己:我们是全新的自研的架构;第一个芯片到了实验室就点亮了;第一个芯片投产,做半导体的人都知道进入生产真的不是一件很简单的事情。所以我们证明了团队的技术能力。下面我们会踏踏实实地做事,沉住心把事情做出来,最后用产品说话。

叶冠泰:太好了,我们用产品说话,这才是做工程师的一个根本。我继续问,大模型的参数规模今天千亿了,明天可能就万亿了。对GPU的需求、能力的需求也是不断地迭代、高速变化的。您觉得壁仞科技需要如何应对这些性能、应用的变化?

梁刚:我在业界这么多年后最深的体会就是要倾听客户的需求。在硬件方面,我们考虑到单卡算力、显存、带宽,同时在多卡互联也要注意。关于安全、multi-GPU、虚拟化等基本的技术,我们要不断地迭代,不断地改进。

对于软件,我们要做到“应用-优化-反馈-迭代”这样一个正循环,来帮助我们整个软件系统的更新和优化,这是我们想走的方向。

叶冠泰:您在包括AMD、英特尔等大型企业工作过,您觉得中国的GPU公司奠定一个市场的地位大概还需要多长的时间?

梁刚:首先硬件的设计,周期就是一到两年,这个时间是摆在那里的,无法改变的。打造一个软件生态就更具挑战性了。你们都知道CUDA花了很长时间,过去我在英特尔是带领英特尔软件团队打造像Compiler这类平台,当时花了非常多的时间,这个生态的形成是有一定的周期性。

我不敢说是某一个节点,但像这些大模型应用给我们带来了紧迫感,我相信这个周期会比过去的周期相对短一些。

叶冠泰:的确我们已经迎接了AI时代的到来。在AI的时代,大算力AI芯片的功能是必不可少的。我们最近也经常听说英伟达的芯片供不应求。我觉得在这样的环境中,我们需要国内的AI芯片与大模型公司紧密地合作,国内AI芯片将有望迎来一个辉煌的未来。我也非常期待和祝福壁仞科技能够成为这个时代中AI芯片的领军者。

梁刚:谢谢。