阿里视频生成大模型万相2.1开源!效果超Sora,消费级显卡就能跑

【TechWeb】2月27日消息,大模型开源的风吹到了视频生成大模型。阿里云日前放出重磅消息:万相,开源!

阿里云视频生成大模型万相2.1(Wan)正式开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace、魔搭社区下载体验。

从2023年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过10万个。随着万相的开源,阿里云实现了全模态、全尺寸的开源。

四个开源模型

此次开源共有四个模型,文生和图生各两个,两个参数版本。两个文生视频模型分别是1.3B和14B两个规格;两个图生视频模型都是14B,分辨率一个480P一个720P。

14B版本万相模型:在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。

1.3B版本万相模型:不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。

有用户表示,1.3B的万象模型在RTX4090上跑一条5秒钟的480P视频的时间大概只要4分钟。

阿里云特别强调,万相2.1(Wan)大模型是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。

实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相表现出色,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能稳定呈现人物的旋转、跳跃等高难度动作,并逼真模拟物体碰撞、反弹和切割等真实物理效果。

良好表现的背后,是基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。

阿里展示了诸多万相大模型生成的视频,大家看看效果:

开源地址:

Github: Wan-Video

HuggingFace:Wan-AI

魔搭社区:organization/Wan-AI

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: