启明星 | 智谱AI张鹏：To B还是To C不重要，一流的公司要创造共性需求

Portfolio News

启明星 | 智谱AI张鹏：To B还是To C不重要，一流的公司要创造共性需求

07/08/2024 | 36氪

以下文章来源于智能涌现，作者周鑫雨

编者按：启明创投投资企业智谱AI近日推出新一代视频生成模型CogVideoX，用户可通过智谱清言的AI视频生成功能清影（Ying），体验AI文本生成视频和图像生成视频的服务。发布仅6天，清影生成视频数突破百万量级。智谱AI日前宣布将开源CogVideoX，让每一位开发者、每一家企业都能自由开发属于自己的视频生成模型。

智谱AI首席执行官张鹏在与36氪的对话中，介绍了智谱AI在视频生成领域的布局，并指出视频生成相较图像、语言生成还需考虑数据、算力。张鹏分析了模型研发中先发者和后发者的优劣势；围绕多模态技术路线，他分享了智谱AI“由下至上，再从抽象层面往下去解”的路径。他还强调了预测是每位智谱AI员工的必备技能，“一流的公司满足需求，伟大的公司创造需求”。

启明创投微信公众号经授权转载。

智谱AI首席执行官张鹏

“GPT-4之前的产品，大家基本能人手一个拿出来；但GPT-4以后的产品，谁都不敢随便拍胸脯保证一定能成了。”

在智谱AI首席执行官张鹏看来，2024年，中国国内的AI企业来到了一个必须自力更生、打开技术“黑盒”的拐点：“OpenAI公布的技术细节越来越少，但好处是，我们不可能永远跟在OpenAI后面，总有一天要用自己的路径跑到前面。”

在拐点中，从底座到产品完全自研的视频生成模型，是这家大模型独角兽交出的阶段性答卷。

2024年7月26日，智谱AI的产品版图中，增加了对标OpenAI视频生成模型Sora的一员：支持文生和图生的视频生成产品“智谱清影”。

在国内外厂商竞相发布视频生成模型的当下，张鹏并不认为智谱AI姗姗来迟。支持“智谱清影”的模型底座，来源于智谱AI自研的CogVideoX模型——这个名为“CogVideo”的视频生成模型系列，是智谱AI在2021年就布局的多模态研究的一角。

如今，CogVideoX的推理速度已经提升了6倍，“智谱清影”生成6秒视频的时间，理论上只要30秒左右。

在“智谱清影”中输入文字Prompt

在“智谱清影”中输入图片Prompt

再输入文字Prompt“男孩拿出一颗心形的红色毛线球在手掌心”

即便Sora的发布，为企业的追赶指了一条明路，在张鹏对36氪的描述中，“苦干”依然贯穿了视频生成技术研究的全程：没有OpenAI那样优渥的资源，那就寻找更高效、更经济的解决办法；没有足够的原生视频数据，那就找合作厂商，再从定义质量标准、清洗、标注的脏活做起。

技术研究要苦干，技术落地也少不了苦干。对AI技术在B端和C端的落地成果，张鹏都认为还不够好，在他看来，PMF（产品市场匹配度），M（Market）中的新场景、新市场，F（Fit）所代表的技术和产品的性价比，都没做到极致。

这让他给智谱AI的所有员工提出了更高的要求：学会预测技术的发展和行业的走向——“一流的公司满足需求，伟大的公司创造需求”。

以下系经精编整理的对话实录。

01/
跑出增量的下一步

36氪：这一年时间，AI行业To C和To B的成果，哪个让你比较满意甚至惊喜？

张鹏：严格说，撇开我的身份，我个人觉得都不如我的预期，至少国内是这样。前段时间参加WAIC（世界人工智能大会），我觉得情况有所改变，但还没真正达到大家期待的爆发状态。

36氪：那智谱AI在To C和To B的成果，你满意吗？

张鹏：公司的运营或者说目标的设定有一定的战略，也在按照计划去推进，有得有失，有成有败，这个都很正常。

我们最近，可能大家看到的动作比较多，做了一些发布。过去我们主要在B端市场做了一些事情，取得了一些成绩，但你要说完全满意，当然还谈不上。毕竟大家都知道，这个市场很“卷”，竞争很激烈。

至少我们的竞争对手，在大家心目当中已经是大厂的级别，我们已经跻身到这样一个级别了。我觉得这一点也侧面证明了我们的进步。当然从我个人来讲还远远不够，还要继续努力。

36氪：一年多来，大模型的B端落地成果，会让你对AGI的信仰有改变吗？

张鹏：会，我觉得To B是一个很重要的环节。

像一些很细分的行业，比如客服、营销，AI的渗透应该是非常明显的，而且改善的效果也非常好。现在无非就是性价比的问题，这也是为什么OpenAI会发GPT-4o mini这个小规模或者中等规模的模型，去降低成本、提高速度。

小模型的出现意味着模型落地已经找到了PMF里面的“M”（市场），现在需要解决“F”（匹配度）的问题。在更大范围之内，其实“M”到底是什么，也还在想办法解答。比如能解决人机对话的模型，能不能同时解答天气预报的问题？你要不要把它们做成同一个东西？有没有可能做成同一个东西？

36氪：现在还处于找M的阶段吗？还没有到找F、扩大M份额的阶段？

张鹏：不，这首先是一个寻找M的过程，所有细分的M不可能一次性都能解决，总有容易解决的和难解决的。先找到的M就先落地，落地就要解决F的问题。

36氪：有一点像在B端找Killer App（杀手级应用）。

张鹏：是的，其中技术和场景双方往中间靠，去磨合。

一种是在有些场景，原来的技术解决得不太好，我能不能用技术把质量再提高一点，也就是增效。另一种是说，我能不能用技术解决原来解决不了的问题，这个就是新的M、新的问题、新的场景。

36氪：现阶段哪种情况花的时间更多？在旧市场里解决问题，还是找新市场？

张鹏：两个肯定是同时来做。解决旧问题和提效是最直接，因为企业是很现实的，看到效益才会投入。但我相信AI技术本身是突破性和创新革命性的，它理应会有一些新的应用方式和市场空间出现。

36氪：现在能看到新行业或者新场景的苗头了吗？

张鹏：其实各行业已经跑出来了一些增量，一些常见的问题解决效果已经非常好了，后续要解决的无非就是F的问题，比如怎么把性价比做得更高。

还有一些全新的，以前方法完全解决不了的问题，现在逐渐有了一些方法。比如去比较智能、动态、全面地生成一篇报告，传统的AI搞不定，你只能让人先定好一些模板，剩下的事情不过就是用规则，用一大堆提取、数据、结构化的东西往里填，其实谈不上有太多的人工智能，它只是个IT系统。

但现在的技术具备了一定的像人一样的分析能力，你可以让它学习完后自己按照套路去写、去发挥。

02/
后发者赢在少走弯路
但输在建立认知

36氪：智谱AI是从什么时候开始布局视频生成的？

张鹏：我们2021年左右，很早就在做这个事情，包括最早的CogView（智谱AI的文生图模型）是和DALL·E差不多时间发布的。

迭代了两版后，在2022年之后，我们开始做CogVideo，也就是视频生成，因为大家直觉觉得，反正图片连续起来就变成一个视频了。当时因为比较早期，数据资源等各方面还处于刚开始的研究阶段，所以CogVideo主要解决的还是怎么控制每一帧之间平滑过渡的问题，生成的视频就没有现在这么高清。

36氪：从图像和语言模型，到视频模型，需要补上什么资源？

张鹏：视频和图像的生成确实还隔了一道，比如数据的问题、算力的问题。

资源需要遵循循序渐进的技术路线。从自然语言开始，解决的是理解和生成正确指令的能力，实际上是从基础的认知层面、高层次的抽象认知层面去解决这个问题，然后再把维度降下来，把理解和生成的能力具象化到图片、视频、声音等模态上。

在降维的过程中就会受到数据的约束。图像生成的数据可能会比较多，因为早期CV（计算视觉）有了大量的积累。但对视频生成来说，全球范围内高质量的数据积累只有两三年的时间。

36氪：怎么解决视频数据的获取问题？

张鹏：我们手里没有原生的一些资源，所以获取视频的主要方式还是通过公开的数据集，另外还有一些合作方。

当然这些视频和所谓的高质量视频数据，还是不太一样。比如视频拍得很高清，滤镜、分镜都很不错，但这个对于模型训练来说还不够。“高质量”里面包含了原始数据，和你对原始数据的加工技术。条件都不具备的情况下，强行做视频生成模型，是挺麻烦、挺累的。

不过原生数据的获取是有解法的，比如与视频平台建立合作，现在不管哪个短视频平台，手里都积累了大量的视频数据。但我觉得最大的问题是，即便互联网充斥着大量的数据，但你不太清楚这些数据的质量到底如何，另外还要确保合规。

36氪：定义视频数据质量的标准是什么？

张鹏：其实可以借用文本数据的标准。什么样的文本数据质量可以称为“高”？首先内容之间的逻辑结构要是完整的，其次用词、标点、符号等也要符合行文规范。按照更高的要求，文字还要包括各种知识。

视频也是一样的。首先要考虑视觉内容的丰富性，文字要求的逻辑、内容的连贯性，视频数据同样也要求。比如我们希望生产的视频是一镜到底还是包含若干个分镜，这些放到训练数据上都有讲究。

36氪：你对现在积累的视频训练数据满意吗？

张鹏：视频数据其实没有像文字数据那么好，包括我们去获取的成本会更高一些。我觉得视频数据的积累应该没有一个明确的上限，或者说是满分的状态，大家没有办法制定满分的评判标准。比如文本数据，大家只知道现阶段需要怎样的高质量数据，然后拼命地想办法去寻找或者挖掘、清洗，甚至去生成。

视频数据也一样，我们不断有新的认知、新的发现，然后再增加新的数据，滚动往前发展。

36氪：现阶段，能让不同视频生成模型的性能拉开差距的，会是数据吗？

张鹏：我觉得可以类比语言模型发展的历程，早期大家的数据基本来自公开数据库，差别不大，可能里面有一小部分的差异在于怎么挑出符合我们自己需求的，大家过滤数据的Pipeline可能有些差异。

早期更大的差异来源于算法框架和训练的经验，怎样训练精度更高、时间更短、质量更高、数据的利用率更高。当发展到一定阶段，算法相对稳定，或者说收敛得差不多了，数据反过头来又变成影响比较大的方面。

你会看到，很多新出来的模型反而能够很快速地去爬性能的曲线，原因就在于它省掉了前期摸索的过程——算法上的摸索过程没有了，采取的基本上就是相对比较稳定的算法架构。

数据前人也踩过一些坑了，也有一些怎么优化数据集的经验告诉你了，所以它相对来说可以用更少的算力、更少的数据和更稳定的训练，得到一个相对更好的结果。

36氪：你的意思是模型的后发者反而有优势？

张鹏：后发有后发的优势，只能这么说。

36氪：那后发者的劣势是什么？

张鹏：比如你站在别人肩膀上去做这些事情，其实对底层的很多东西没有很深入的了解。当你碰到一些问题，需要技术内核相关的更新迭代才能够解决的时候，你可能就无能为力，只能跟在别人背后。等别人把那个问题解决了，你才能把技术拿过来用。

从天花板和长久发展的角度来看，应该还是做得越早、认知越深，自己掌握的东西越多，这样会更有优势。

36氪：所以后发优势是阶段性的优势？

张鹏：后发的优势不能说是阶段性的优势，而是在技术探索的前期成本和发展速度上的优势。但优势也就在这儿，因为剩下面临的无非就是两件事：一件是技术本身的更新迭代，一件是技术到产品的PMF（产品-市场匹配度）。看你要聚焦在哪件事情上去做。

36氪：从文本到图像，再到视频，多模态的技术路线行业有共识吗？

张鹏：我们刚才其实聊到一个先发、后发的优势、劣势的问题，先发的优势你也可以理解为对这件事情套路的掌握程度。所以当碰到这个领域中的新问题，你是有一定的思考套路，潜移默化形成一种路径。

比如视频生成，我们可能会认为，自然语言作为抽象层面的智慧，如果能把对自然语言的理解、生成能力解决了，再把这里面的视觉、图像等信息对齐，这样就能帮助我们生成高质量的、可控的内容。再加上其他的一些方法，比如说怎么样更高效地生成分辨率更高的、连续的东西。

这样的话，出来的模型就相对会离我们的目标更近一些，而不是说先把生成这件事情解决了，反过来再去解决理解和对齐，路径可能就不一定能够搞得定。比如说像纯粹的扩散模型，它能生成很高清的图像，但是你纯粹在这个模型上去让它可控，就会很麻烦，要加很多其他的方法。

所以这就是思考路径的问题。我们是由下至上，再从抽象层面往下去解。纯粹地从下面单一的模态开始往上做，那是另外一个思路。

36氪：“从抽象层面往下去解”的路径，有什么好处吗？

张鹏：从直觉来讲，如果你了解这个问题，再往下去解，看它统一的建模如何映射到各个模态，那就相对简单了。如果我从下往上，从单一模态，比如视觉建模，一直往上做，那么当我想要往别的模态上跨的时候，可能不一定跨得过去，因为这个建模不一定最终能达到统一建模上。

当然这也是学术界现在在研究的一些问题，还没有定论。前段时间有篇论文提到了“柏拉图表示”的概念，主要内容提到跨模态的建模，最终会统一到一个一致性的建模上，这可能能证明我们的思路是OK的。

03/
现在模型天花板不算太高
成本却很高

36氪：外界会把智谱AI称作“为数不多能够跟OpenAI媲美的企业之一”。你喜欢这个标签吗？

张鹏：谈不上喜欢或者不喜欢，我觉得这是很中肯的评价。因为我们对AGI有相同的认知、相同的目标，以及目标的内涵和外延基本上一样。

在探索的路径上，他们确实走得比较靠前，很多时候我们要借鉴他们的经验。但是到一定程度以后，也得靠自己摸索，他们也不再公开了。

36氪：你觉得OpenAI哪个层面借鉴后是非常有用的？

张鹏：我觉得从之前Ilya（前OpenAI首席科学家）整个研究路线和研发节奏来看，能看出他对统一建模这件事是有信仰的，所以在这件事上，我们和OpenAI是有共识的。

具体到借鉴的部分，我觉得有两个层面。一个层面是宏观上怎么接近AGI，其次，OpenAI每一次领先我们的新发布，都可以给我们很多的启发，至少能告诉我们哪些方向是有可能的，你沿这个方向走它可能是没错的。但其他的方向到底错没错？不知道。

天下通向真理的道路不一定只有一条。所以这个时候就看我们研发的进展、擅长的事情，还有资源禀赋，去选择我们是要沿着类似的道路去走，还是说走我们自己的一条路。

36氪：但现在Ilya离开OpenAI了，智谱AI还会像之前一样“产品全线对标OpenAI”吗？

张鹏：这取决于共识还在不在。

36氪：你觉得智谱AI现在走的路，跟OpenAI不同的地方在哪？

张鹏：我觉得不同的地方其实还挺多的。最简单的一点，他们从来不愁钱、不愁资源，他们可以非常投入、非常全身心地去做新技术的探索和研发。

对于我们来讲，很多时候可能就不得不受这些东西的约束。挑战更多来自于怎么来把每一份资源、每一份人力、每一份时间都花在刀刃上，效率要提到足够高。

因为我们是一个追赶的角色，你的效率如果赶不上前者的话，其实这件事挺痛苦的，你永远落在后面，还可能会落得越来越远。刚才说后发也有后发的优势，但是后发也有后发麻烦的地方。

36氪：之前Sora的负责人说要给人才足够的GPU，这在资源紧缺的情况下就很难做到了。

张鹏：这就要尽量满足。对于一家AI创业公司来讲，可能主要的成本和压力都来自资源的压力。但我们还算挺舍得，给人才的资源投入占比很大。

36氪：智谱AI“产品全线对标OpenAI”，这个对标相较于OpenAI发布产品的时间，是前置还是后置？

张鹏：大部分情况下，我们大概能想象到他们会往哪个方向走，但是具体产品的形态就没法预测得很明白。比如年初Sora和GPT-4o的发布，从大方向上我们知道要发多模态了，但是具体产品形态很难去精准预测。

36氪：去年和你聊的时候，你提到智谱AI不会做小模型，只做通用底座。最近OpenAI又发了GPT-4o mini，这是一个小模型，你对小模型的看法会改变吗？

张鹏：我觉得这没有什么矛盾的地方。第一，外部大家对GPT-4o mini的认知还是比较统一的，它是用来代替GPT-3.5的。第二，他们要降低使用成本、降低市场的门槛，让更多人来用。GPT-4o mini从能力上讲并不是最高的版本，不是顶天花板的事。

我对小模型的思考在于，它可能是在应对一些特定问题、特定场景时更有性价比的模型。但它对于我们将解决人类现实世界问题的帮助，比如把解决问题的比例从15%，提升到16%，提升到25%，其实没有太大的帮助。

现在的问题不是模型天花板足够高，而是成本高到大家受不了，天花板也不算太高。两个问题同时存在。

04/
预测，是每个员工的必备技能

36氪：以现在的技术储备，应对B端客户的产业落地需求足够吗？

张鹏：其实不分To B、To C，两者没有太大的差距。

To C的好处在于你不用去面对每个人，只要想好了大概率或者共性的需求是什么，把这个解决了，剩下的那部分无非是通过营销手段、市场手段。

但是To B没办法，你必须得面对面地去沟通。一旦面对面沟通，对方的需求又特别容易差异化。

36氪：怎么面对B端的差异化需求？

张鹏：前两天我和产品团队就说，一流的公司是去找到用户的所谓的共性需求，挖掘纷纷扰扰表述后面的痛点部分，用你的技术去解决，再找到最好的性价比。

这说的是一流的公司，但真正牛的公司是引领和创造需求，像苹果在智能手机时代把所有按键取消掉一样。你想C端的公众也好，B端的企业也好，他们会比你更了解技术的本质吗？不会。所以了解技术本质之后，技术先给你提出了创造全新价值的可能。

36氪：这就不是一个技术问题了，是Go to market的问题。

张鹏：是的，甚至Go to market的方式和逻辑都有一些变化。我觉得这是有一些套路的，比如苹果怎么去发掘需求，怎么去预判未来的趋势。

36氪：现在会加一些苹果的工作流到产品团队体系里面？

张鹏：至少大家有这样的一个想法和这样的一种觉悟和认知，就是说你要保留一部分你的想法和精力去预测，预测是很重要的。

36氪：员工都要来预测？

张鹏：我们所有人都必须要有这个觉悟。

36氪：不管对你，还是中层和一线员工来说，预测的难度有多大？

张鹏：是挺有挑战的一件事，不会容易的，容易的事情早被人做了。

36氪：你觉得今天模型公司的产品和技术会有些同质化吗？

张鹏：关键不是在于是不是同质化，也不在于横向比较，而是往前看未来会发生什么，或者说现在的第一性原理、最本质的需求是什么。

举个例子，比如有一个客户和我们说，他们一套给员工用的软件系统迭代了很多年，有7000多个业务和功能菜单的入口，员工上岗前如果不经过一段时间的培训，是搞不定的；就算培训了，工作的时候也会很痛苦。客户说想要一个技术方案，比如用自然语言表达需求，让AI帮忙找到入口。

我就问他，你不觉得7000多个入口本身就不合理吗？还不如想一想我们怎么设计一个方案，把7000多个入口解决掉。还不如换一个角度看这个客户的问题，其实这个问题是个伪命题，那你解决那个问题就好了。

36氪：一线销售可能会觉得客户要什么，我就给他什么。

张鹏：对，这就是会有困难的地方，他需要一种价值观上的认同。

36氪：清华系在大模型圈子里还是很显眼的，你觉得清华为什么能在AI风口很快成为重要的一股推动力？

张鹏：前两天我们几个校友和老师一起吃饭，也聊到这个话题：清华在过去的时间里到底做对了哪一件事情，让清华的计算机和人工智能踩上了台阶？

最后其实没有定论。但我个人认为，过去几十年里，清华培养了一大批非常踏实、勤奋肯干的聪明人，只要给他们一个合适的时机和舞台，我觉得他们就会取得非常好的成绩。

你看这一次的爆发，除了学术和研究上的层面，其实还有很多地方实际上来自工程，来自团队的协作。在这个层面上，不是说只要一批学术做得很好或写论文的人在一起就能搞定的，还要有很多价值观一样的工程人员，团结起来做这件事情。

36氪：说到资源协调，智谱AI也投了很多清华的AI公司。是从什么时候开始有投资的想法的？

张鹏：大概在2022年底就开始考虑了，投一些合作伙伴或者生态企业。因为我们认为AGI的路没那么容易走，在中国也很难单独把这件事搞定。我们本身也是一个创业企业，所以一定要靠生态，把生态拉上一起前进。投资是其中的一种方法。

36氪：现在智谱AI投的企业，有芯片层的，Infra的，也有模型和应用层的。其中一些企业还没有PMF，甚至没有完整的产品。你怎么判断他们所做的事的价值？

张鹏：首先，我觉得生态非常重要——我们到底怎么来看待生态，以及怎么培养生态？我个人的观点，你看硅谷为什么有国际上最领先的科技创新的环境，就在于有大量的科技创新者前赴后继。第二，那里有大量的人愿意支持他们做这件事，用创业投资的方式，很多时候他们甚至不求收益。

所以这两种人、两种力量是相辅相成的，这样才能把生态养得非常肥沃，土壤里面可以长出OpenAI、OpenBI、OpenCI。这是美国创新生态特别好的一个点，有体系，比如我投了企业，就要考虑和它的下游企业互相之间是什么样一个关系，上下游怎么去衔接。

当然从企业来讲，肯定是希望他们能够很快地成长，跟我们一块成长，能给我们正向的收益。但是谁能保证他们就一定会成功？没有人能拍胸脯保证这件事情。

来源 | 36氪
作者 | 周鑫雨
编辑｜苏建勋

启明星 | 智谱AI张鹏：To B还是To C不重要，一流的公司要创造共性需求

More News