清华团队国产“Sora”火了:生数科技发布视频大模型「Vidu」

清华团队国产“Sora”火了:生数科技发布视频大模型「Vidu」

    正在检查是否收录...

在中关村论坛的未来人工智能先锋论坛中,生数科技与清华大学携手,正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。

这款引领时代的视频大模型,其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。它不仅能一键生成长达16秒、清晰度达到1080P的高清视频,更能在模拟真实物理世界的同时,展现出惊人的想象力。多镜头生成、时空高度一致,这些都是Vidu的独特魅力。

值得一提的是,Vidu自发布以来,便在全球范围内取得了显著突破,其性能与国际顶尖水平比肩,并仍在不断迭代优化中。这一成就,离不开团队在贝叶斯机器学习和多模态大模型领域的深厚积累和多项原创性成果。

特别是团队于2022年9月提出的U-ViT架构,作为全球首个Diffusion与Transformer的融合架构,为Vidu的诞生奠定了坚实基础。随后,在2023年3月,团队再次领先,开源了基于U-ViT融合架构的多模态扩散模型UniDiffuser,成功验证了U-ViT架构的大规模可扩展性。

基于对U-ViT架构的深入理解和丰富的工程、数据经验,团队在极短的时间内攻克了长视频表示与处理的多项关键技术难题,从而研发出了Vidu视频大模型。这款模型在提升视频连贯性和动态性方面表现出色,进一步推动了视频处理技术的发展。

Vidu的问世,不仅再次验证了U-ViT融合架构在大规模视觉任务中的卓越性能,也展示了生数科技在多模态原生大模型领域的持续创新能力和行业领先地位。作为通用视觉模型,Vidu能够生成更加多样化、更长时长的视频内容,其灵活的架构也将为未来兼容更广泛的模态、拓展多模态通用能力的边界提供无限可能。

申请地址:

https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

大模型多模态diffusiontransformer人工智能多样化无限可能share长视频视频内容一致性视觉模型原创性可扩展可扩展性一键生成想象力视频处理扩散模型机器学习
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-13375.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

苹果OpenAI合作,力争今年生成式AI登陆iPhone

上一篇

利用Spring Boot以及Spring AI构建生成式人工智能应用

下一篇
  • 复制图片
按住ctrl可打开默认菜单