Portfolio News

启明星 | 全面对标Sora,生数科技联合清华大学推出中国首个纯自研视频大模型Vidu

27/04/2024 | 中国新闻网

以下文章来源于中国新闻网 ,作者记者 陈溯

4月27日,在中关村论坛未来人工智能先锋论坛上,启明创投投资企业生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

01/
多维度模拟真实世界
全面对标Sora

与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在几个方面:

  • 模拟真实物理世界:能够生成细节复杂的场景,且符合真实的物理规律,例如合理的光影效果、细腻的人物表情等;

  • 具有丰富想象力:能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容;

  • 多镜头语言:能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言;

  • 时空一致性高:在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致;

  • 理解中国元素:能够生成特有的中国元素,例如熊猫、龙等。

值得一提的是,短片中的片段都是从头到尾连续生成,没有明显的插帧现象(注:插帧主要是通过在视频的每两帧画面中增加一帧或多帧来提升视频的长度或流畅度。这种方法需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量,是一个分步骤的过程。但Vidu与Sora则是通过单一步骤直接生成高质量的视频,无需经过多个步骤的关键帧生成和插帧处理),从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

02/
早于Sora提出全球首个U-ViT融合架构

Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。

2023年3月,团队开源全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换。在架构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

自今年2月Sora发布推出后,团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升视频的连贯性与动态性。

从图文任务的统一到融合视频能力,作为通用视觉模型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向未来,灵活架构也将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。

Vidu的问世,不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证,也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。同时生数科技表示,大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合。因此在发布之际,生数科技正式推出“Vidu大模型合作伙伴计划”,诚邀产业链上下游企业、研究机构加入,共同构建合作生态。

请复制下方网址在浏览器打开,获取“Vidu大模型合作伙伴计划”申请信息。

申请链接:

https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph