投资企业新闻

启明星 | 衔远科技周伯文:链接消费者与商品,用统一大模型底座赋能企业5D创新能力 | 世界人工智能大会

2023/08/25

编者按:在由启明创投主办的2023世界人工智能大会“生成式AI与大模型:变革与创新”论坛上,人工智能等技术前沿领域的著名专家与学者,顶级投资人和领军创业者汇聚一堂,共同探索中国科技创新的驱动力量。

本次论坛是大会唯一一场由创投机构主办的相关论坛,立足创业与投资视角,分享了最新生成式AI前沿信息和实践探索,并发布了行业首份基于对海内外逾百家企业深入调研撰写的生成式AI洞察报告,全方位解读了生成式AI的产业变革和未来十大展望。

启明创投投资企业衔远科技创始人、清华大学惠妍讲席教授周伯文博士在主题演讲中分享了如何用统一大模型底座赋能企业5D创新能力。周伯文指出,生成式AI是AGI的必由之路,ChatGPT开启了人工智能的新拐点,AI从“与人竞争”变为“协同交互”,帮助人类解决问题。

周伯文表示,大模型应用的深化将回归商业本质,AI与消费产业融合发展成未来趋势,统一的大模型将驱动企业从数字化到智能化实现蜕变。衔远科技打造的大模型底座ProductGPT将重构产品与用户二元关系,赋能企业5D(机会洞察、爆品定义、方案设计、驱动研发、营销转化)全生命周期,并为员工提供知识管理、市场洞察、客户交付等不同环节的生产力工具。

以下为精编整理的演讲实录。

01/
从“与人竞争”变为“协同交互”

非常感谢启明创投的邀请,和大家分享一些思考和进展。首先,我想回答一下“这次的人工智能有什么不一样”这一问题。


衔远科技创始人、清华大学惠妍讲席教授周伯文博士

第一个不一样,这一次是生成式AI,为什么生成式AI这么重要?美国著名的物理学家Richard Feynman有一句名言:凡是我不能创造的,我都没有理解。2015年,我在美国参加一场学术会议时,我是世界上第一个开始用生成式人工智能让AI进行创造性写作的人。很多人问我为什么要做这个?以前大家是从人撰写的文章中阅读、抽取并拼出来。当时,我用他的这句话来回答。原因很简单,只有能够生成才能真正理解。因为Richard Feynman是人类智能的最高水平之一,我相信人工智能也是一样。

第二个不一样在于以前人工智能的高光时刻都是人工智能系统击败地表最强人类,并获得广泛的传播效应。1962年,IBM第一台电脑击败跳棋的冠军,到DeepBlue,再到IBM Watson。这三个AI应用都与我本人有很深的渊源。第四个是AlphaGo,也是同样的逻辑。ChatGPT不一样,通过人和AI的协同和交互,以及prompt发掘大模型的潜力,答错的时候纠正它,大模型能够理解你的纠正,遵守你的指令进行迭代。所以这些都是协同、交互产生的效果,每次都是人和AI共同创作。

毫无疑问,一个跟人协同、交互的人工智能比和人竞争的人工智能带来的社会意义、市场价值要大得多。这是本质的不一样。

刚刚清华大学教授唐杰讲到一些历史的回顾,我也提一些历史回顾,到底AI是怎么走向AGI?

首先讲一下我的核心观点。AGI是AI的高阶形式,我认为生成式AI是AGI的必由之路。我们现在所在的时间节点,GPT和Transformer是生成式AI的重要里程碑。

2016年,我是IBM全球总部人工智能研究院的院长,在纽约举办了一场IBM全球人工智能战略会。我提出人工智能会有三个节点,从ANI到ABI到AGI。

ANI是狭义的人工智能,它的特点是高度依赖监督学习算法,需要大量人工标记的数据,任务范围狭窄。但是好处是你能准确知道这个人工智能系统的功能。这在2016年都已经实现了。

当时在展望时,我说未来我们会经过一个ABI阶段,再到AGI。AGI不是一夜之间发生的。2016年,市场上很多人讨论深度学习这么厉害,AlphaGo这么厉害,人类会不会就一下进入AGI?我认为不会,因为还有另外一个阶段叫ABI,ABI指的是广义的人工智能。它的核心之一是必须要依赖自监督算法,不需过多依赖人类的标注;第二,它完成任务一定是端到端的模式,换句话说人不需要分解任务,即让AI学习子任务,然后人类再拼起来,这是非常冗余的过程;第三,它要从当时的判别式AI转化为更强的生成式AI。

回头看,我的判断都是对的。在ABI阶段,我们没有想到大模型的有限能力,认为零样本学习是AGI的属性。零样本学习是什么?指的是没有教AI做这件事情,它自己就会了。这意味着在ABI阶段,你不可能确切知道一个AI系统会完成什么,它会有令你惊讶的产出,很多情况下是正向的产出,但是有时候也会是需要人们警醒的事情。

这就会为AGI奠定基础。目前,我认为我们属于ABI到AGI的过渡阶段。问题是这一过渡会有多长时间?我们能不能做好准备?我认为这是一个开放性问题。不管怎样,AGI是在多个任务上逼近和超过人类的智力水平,因为这种智力水平要寻求自主的发展,会变得越来越聪明。毫无疑问这会需要更强的治理和监管。

如果把这三个阶段放在一起,我个人认为AI发展最好的阶段就是ABI阶段。这是一个最佳的时间点,它的能力足够强,人们能用很多应用,能更低成本地泛化它,但是同时又不需要有太多关于AGI的担忧。当年我们也是希望找到在AGI到来之前的明确方向。

02/
AI新时代的摩尔定律

所以在ABI时代,我觉得整个世界已经开始改变了,Sam Altman发了一条关于新的摩尔定律的推特,他提到未来每隔18个月宇宙的智慧总量会翻一倍。该如何理解?一种是像GPT-4、GPT-5这种中心化的智慧能力会越来越强,如果每18个月翻一倍,我们能不能接受?

第二种是通过这些生成式AI赋能数字触点,具备智慧能力的数字触点数目每18个月翻一倍,在量上取胜。这也是我2019年、2020年在乌镇互联网大会上发布的观点。

我当时举了一个例子。可以将京东的每个SKU想象成数字触点,有商品介绍、卖点,我们用当时的大模型Plug完成的对商品详细页面的理解、分析、提炼、归纳,能够根据消费者的行为数据推断出哪两个卖点最能打动消费者;围绕消费者的画像逐字生成最能打动消费者的推荐理由;能够选择合适的图片,千人千面推送给消费者。后来我们发现这种模式与达人KOL写的导购文字相比,在京东上的转化率高30%。换句话说,当时我们看到的趋势是每一件商品都会有人工智能助理,每个数字触点都会具备智慧能力。

毫无疑问,摩尔定律一定会发生,可能会以多种路径同时发生。比如GPT-4、GPT-5会越来越强,具备这种能力的数字触点的数目也会越来越多。

03/
大模型应用的深化
回归商业的本质

回到企业的角度,我经常问企业家,公司中是否有人在做产业化、数字化和智能化?基本上都在举手。但问及有多少人对产业数字化、智能化的结果满意?没人举手。麦肯锡2022年的调查报告中的数据基本上就对比了中国和美国利用人工智能技术之后的收入增长的变化。

在中国使用人工智能技术能带来10%以上收益增长的非常少,美国更多。中国大部分企业使用人工智能之后,发现增长小于5%。这是目前的现实,核心原因是人工智能中不论ANI、ABI到AGI,不能和人工智能结合。

为了回答这个问题,我们就思考怎么与业务结合?这里引用德鲁克的一句名言——企业只有两个基本功能:一是创造差异化的产品和服务;二是通过市场营销,成为顾客心里的首选。除此之外,其他所有的功能都是为这两个功能服务的。如果这两个功能不存在,其他的功能也没必要存在。

如果这是企业的使命,其实产生了一个非常强的信号——应该回到一个以消费者为中心的商业模式。我将之称为新的相对论,E=MC2。E就是企业的Earnings(收益),这是底线。M是Merchandise(商品),C就是Customer(消费者)。为什么C是平方?传统的供应链中,购买侧完成整个交易的闭环;在新的数字驱动的逻辑下,购买侧应该成为整个企业运转、决策到产品创意设计的原始驱动力。

围绕刚才德鲁克的名言,2020年,我在京东负责京东云和AI的业务,调研了大概数十家品牌企业,探索在生产流程环节中人工智能起到的作用。这其中有13个大场景,数百个小场景。我们当时搭建了人工智能的平台叫New Hub。现在,这一人工智能平台的调用量每天将近100亿次。我们是从零开始建设的,现在调用量这么大,确实证明外界有很强的需求。当时所有模型都是相互独立的,换句话说是小模型,我们得用数百个模型支持这些场景,再乘以客户的数目,所以从商业模式上来看是有挑战的。

我们看到在大模型的驱动下,有可能让统一的模型底座来完成所有的流程数字化和智能化。换句话说,对企业来讲,如何构建大模型完成动态和场景的匹配,是企业数字化发展中重要的下一阶段。我们已经度过了数字化、智能化到场景化的阶段。

理论上讲,为什么这是可行的?我们来看看为什么ChatGPT能带来巨大的变化。在OpenAI看来ChatGPT不是一个语言模型,这是一个基于多头自注意力架构来预测下一个词而训练出来的大语言模型,本质上是世界知识的压缩器。多头自注意力是我们团队在2016年的一篇论文中提出来的。这篇论文的核心思想是帮助大模型跳跃式地寻找更重要的部分。这样训练出来的大模型如果能够预测正确下一个词,意味着它对整个世界的知识有充分的理解。

譬如在我现在的演讲中,如果要猜出我下一个词会讲什么,需要对我、我所讲的内容有了解;同时,还得理解我在什么样的场合演讲,听众是谁?如果具备将所有的信息融合起来预测下一个词的能力,就具备对世界知识的理解能力。

04/
衔远科技大模型重构产品与用户的二元关系
赋能企业5D全生命周期

同样的逻辑,我们放到人跟商品的二元关系上。如果有一个大模型理解真实世界中各类人和商品的互动,比如人在不同场景的使用,人的购买决策、体验、反馈,产品的品参、功能、设计、外观等,所有的东西通过预测的方式大量地学习和压缩,能训练出一个理解人的思想和情感、所处的状态和包括与产品互动的模型。在这一基础上,这个模型回到德鲁克刚才讲的两个主要任务:帮助企业在5D的场景下创造出价值。

5D中的Discover指的是帮助企业洞察和理解消费者;Define指的是定义爆品;Design指的是方案设计;Develop指的是驱动研发;Distribute指的是营销转化。

在此基础上,模型会同时具备三层能力。第一层,认知能力、语言理解能力非常重要,能够理解人的情感,同时具备跟人对话、指令跟随等各方面的能力,具备认知、推理能力,这部分叫做IQ(智商)。因为核心是要关注消费者、人的情感体验、购买的动机,模型需要具备共情能力,能主动与消费者互动、理解消费者,就像前述的导购文字的生成,我们将之理解成EQ(情商)。一个具备IQ和EQ的模型,基本上是通用大模型,能够完成很多的事情。这个场景下还额外需要涉及品牌相关的能力,包括机会洞察力、产品定义力、方案设计力、研发驱动力和营销转化力等,这一切我们称为PQ(品商)品商大模型的底座必须同时具备智商和情商,任何使用得不错的场景必须具备通用模型的能力。

基于这一系统,如何给客户创造价值?有好几种方式。底座是衔远科技通用大模型,它包括大语言和多模态模型。基于此,可以支持一个类似ChatGPT的围绕人和商品定制的ProductGPT。ProductGPT能够帮助B端客户完成不同的任务,比如用户研究、市场调研、销售计划、产品研发、营销推广等。从员工、企业的角度来讲,ProductGPT能够覆盖知识管理、市场洞察、客户交付和不同环节涉及员工生产力的工具,生成爆品。可以理解为公有云的模式。

很多企业表示自己具备大量的行业专业知识和数据,在衔远科技大模型的基础上可以很快获得一个私有化部署的大模型,用户遵循ProductGPT的架构,打造相应的Copilot。比如,一个企业表示需要机会挖掘机、机会智造师,都可以在私有云里部署,完成5D的需求。

这里有很多技术的挑战。第一,大模型的落地。上半年都在热烈地讨论大模型,下半年在讲落地。一个很大的挑战在于大模型的所有人和私有行业数据的所有人往往不是同一个人。这个情况怎么办?不能要求把数据都交给他人。大模型是需要花很多钱训练出来的。因此,这需要一些机制。在我们最近的研究中,提及需要一种大模型的模仿技术,这种技术能实现模仿大模型,并完全交给客户训练更高效的模型。这一方法的效果远远好于知识蒸馏,比知识蒸馏高效很多倍;同时我们还发现了模块的涌现效应。

第二,当部署大模型到私有化场景里,怎么融合各种模型的推理能力很多企业因为要服务大量的C端客户,需要模型推理得足够快。所以这里的困境就是如何保持大模型的多轮推理和学习的能力,同时要有足够多且快的小推理。这里,我们也有论文提出利用辅助PaD的方法,其核心逻辑是找到一个方法,让小模型具备和大模型一样的多轮推理能力,结果一个60M小模型的多轮推理的效果全面超越13B的大模型。

05/
ProductGPT人机协同
更好地转化和匹配消费者

最后讲一下我们落地的实际场景和案例。以食品饮料领域为例,ProductGPT可以帮助不同企业内部的员工完成关于市场洞察、产品创新和包装、新品设计等不同的功能。人只善于在一个品类深耕,ProductGPT可以跨品类,通过品类迁移和不同方向的创造性思考更好地提供建议。ProductGPT的能力可以帮助更精准地洞察消费者的行为模式。

在理解消费者的需求时,有时候消费者、使用者、购买者不是同一人,但是通过大模型形成对人们对话的深刻理解,就能更好地判断品参、进行设计,从而让购买者、使用者都满意。

我们已经在一些头部的3C家电企业里应用了这一技术,帮助他们打造爆品,并获得非常高的销售额。比如,电冰箱的品类大概有数百位参数,所有的参数都是由生成式人工智能自动推导出来的。

在面向消费者的动态化的匹配方面,大模型更理解消费者、产品,这种深刻的理解,有助于更好地转化和匹配消费者。如果要帮助我们一位做酸奶制品的客户更高效地投放,只需在与消费者对话的过程中理解消费者,比如消费者更注重产品质量、供应链,我们会在展示的动态对话框和广告中,动态生成绿色包装的酸奶背景,让人联想到瑞士的青山绿水。如果是喜欢玩飞盘、露营的年轻消费者,我们展现的产品背景是会动态变化的绿草、红花。

此外,我们帮助非常高端的品牌生成在不同模态、场景下更匹配的图,都是通过ProductGPT技术实现的。我们与某一汽水品牌合作,生成动态的动漫营销素材。

通过今天的演讲,我想让大家理解衔远科技从2021年开始,希望用生成式AI的方式,帮助企业、消费者,让每一件商品都应需而生,让每个消费者都得偿所愿。谢谢大家。

 请关注启明创投公众号

在后台输入“生成式AI报告

获取完整报告下载方式