数币财富链,致力于帮助投资者在数字货币市场中实现财富增长。
首页 / 行业焦点

大模型开源卷至视频生成领域:阿里开源万相2.1,性能超Sora · 科技

该模型是阿里云通义系列AI模型的重要组成部分,于2025年1月发布。在权威评测集VBench中,其以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。

万相2.1采用了自研的高效变分自编码器(VAE)和动态图变换器(DiT)架构,增强了时空上下文建模能力。这种设计使得模型能够更准确地捕捉和模拟现实世界的动态变化,同时通过参数共享机制降低了训练成本。

模型通过将视频划分为多个块(Chunk)并缓存中间特征,避免了传统端到端编解码的复杂性,支持无限长1080P视频的高效生成和处理。

它也是首个支持中文文字生成及中英文文字特效生成的视频生成模型。在指令遵循上,能严格依照镜头移动等指令输出视频,对长文本指令也能准确理解和执行。

此外,该模型能够精准模拟现实世界的物理规律,例如雨滴落在伞上溅起水花、人物运动时的自然过渡等。在处理复杂运动(如花样滑冰、游泳等)时,万相2.1能够保持肢体的协调性和运动轨迹的真实性。

阿里基于Apache 2.0协议将万相2.1的14B和1.3B两个参数规格的全部推理代码和权重全面开源,全球开发者可在 Github、HuggingFace和魔搭社区下载体验。

事实上,开源视频生成模型业内已有先例,此前阶跃星辰就开源了全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V。而阿里的开源,进一步推动了这一趋势。

对AI行业来说,开源可为开发者提供强大的工具,加速视频生成领域的技术创新和应用拓展。目前,国内AI明星公司DeepSeek正在持续开源,百度也已宣布于6月30日起全面开源文心大模型4.5。国外的OpenAI CEO山姆·奥特曼此前承认, “闭源策略站在了错误的一边”,而马斯克的Grok-3则采取了 “有限开源” 模式。

预计未来会有更多企业和团队加入开源行列,推动大模型技术快速传播和普及。

版权说明:
1.版权归本网站或原作者所有;
2.未经本网或原作者允许不得转载本文内容,否则将视为侵权;
3.转载或者引用本文内容请注明来源及原作者;
4.对于不遵守此声明或者其他违法使用本文内容者,本人依法保留追究权等。
搜索
关注我们
关注我们
微信
关注我们
微博
数币财富链,致力于帮助投资者在数字货币市场中实现财富增长。我们提供专业的市场分析、投资策略建议以及最新的区块链金融资讯。无论您是初入币圈的新手还是资深投资者,数币财富链都是您通往财富自由的可靠选择。加入我们,开启数字货币投资之旅!

数币财富链. 鲁ICP备2024111624号