中新社北京4月27日电,在科技浪潮的推动下,中国人工智能领域再次迎来重大突破。今日,在2024中关村论坛年会未来人工智能先锋论坛上,清华大学联合生数科技正式发布了中国首个具有长时长、高一致性、高动态性特点的视频大模型—— Vidu ,标志着中国在视频生成技术领域的领先地位。
Vidu 视频大模型的发布,无疑是中国在人工智能领域取得的又一重要成果。该模型采用了团队原创的 Diffusion 与 Transformer 融合的架构 U-ViT ,这种先进的架构使得Vidu能够一键生成长达16秒、分辨率高达1080 P 的高清视频内容。这不仅在技术上实现了突破,更为视频创作和娱乐产业带来了无限可能。
清华大学教授、生数科技首席科学家朱军在论坛上详细介绍了 Vidu 的特点和优势。他表示, Vidu 不仅能够模拟真实物理世界,还具备丰富的想象力,能够根据提供的文本描述生成各种生动、有趣的视频内容。此外, Vidu 还拥有多镜头生成和时空一致性高等特点,使得生成的视频更加真实、连贯。
值得一提的是 , Vidu 在视频效果方面实现了显著提升。与之前的视频生成技术相比, Vidu 生成的视频更加逼真、细腻,能够充分展现中国文化的独特魅力。例如, Vidu 能够生成具有中国特色的熊猫、龙等形象,充分展示了其对中国文化的深刻理解。
朱军还强调, Vidu 采用的是“一步到位”的生成方式,从文本到视频的转换是直接且连续的,不涉及中间的插帧和其他多步骤的处理。这种高效的生成方式使得 Vidu 在视频生成领域具有更高的效率和更广泛的应用前景。
据了解, Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果。团队基于对 U-ViT 架构的深入理解以及长期积累的工程与数据经验,成功突破了长视频表示与处理的关键技术,研发出了这款具有划时代意义的视频大模型。
Vidu 的发布不仅是对中国人工智能领域的一次重大贡献,更是对全球视频生成技术的一次重要推动。随着 Vidu 技术的不断完善和升级,相信它将为人类生活带来更多精彩和便利。同时,我们也期待更多的企业和研究机构能够加入到这一领域中来,共同推动视频大模型技术的发展和应用。
想获取更多时事资讯,欢迎加入 WhatsApp群组 ,群里将会不定时更新新闻时事汇总和各类干货分享,我们下期再见!
阅读更多文章:PICO内部剧变VR行业面临生死局