
阿里巴巴集团的科学家近日发布了VACE,这是一款通用AI模型,旨在通过单一系统处理广泛的视频生成与编辑任务。
该模型的核心是基于改进的扩散变换器(Diffusion Transformer)架构,但其最大亮点在于全新的输入格式——“视频条件单元”(Video Condition Unit,简称VCU)。VCU是阿里巴巴为解决多模态输入混乱问题提出的方案,能够将文本提示、参考图像或视频序列以及空间掩码等多样化输入统一转化为标准化表示。研究团队设计了专用机制,确保这些异构输入能够协同工作而非相互冲突。

VACE采用“概念解耦”技术,将图像分割为可编辑区域与固定区域,从而实现对修改目标的精细化控制。|图片来源:Jiang等研究者
处理流程始于通过掩码将图像划分为“反应区”(待修改目标)和“静止区”(保持原状)。所有视觉信息被嵌入共享特征空间,并与对应文本输入结合。为确保生成视频的帧间一致性,VACE将这些特征映射至专为扩散变换器结构设计的潜在空间。时间嵌入层(Time-embedding layers)保障模型对序列的理解不会随帧切换而断裂,而注意力机制则整合不同模态和时序的特征,使系统能够将视频生成或编辑任务作为有机整体处理。
文本生成视频、参考生成视频与视频编辑
VACE的功能覆盖四大核心任务:根据文本提示生成视频、基于参考图像或片段合成新视频、视频到视频的编辑,以及通过掩码实现针对性修改。这种“一模型多用”的设计使其应用场景极为广泛。
实际演示案例丰富多样——VACE可实现人物走出画面的动态效果、生成动漫角色冲浪场景、将企鹅替换为小猫,或是扩展背景以保持视觉连贯性。若想了解其完整能力,可访问项目官网查看更多示例。

从参考动画、物体重排到场景扩展,VACE展现出全面的视觉合成能力。|图片来源:Jiang等研究者
训练过程从基础开始:团队首先聚焦于修复(inpainting)和外绘(outpainting)以强化文本到视频流程,随后引入参考图像并逐步扩展至高阶编辑任务。数据方面,他们从网络视频中提取素材,通过自动过滤、分割并添加深度与姿态标注进行增强。
十二项视频编辑任务的基准测试
为量化评估VACE性能,研究者构建了专用测试集:包含480个样本,覆盖修复、外绘、风格化、深度控制及参考引导生成等12类视频编辑任务。结果显示,VACE在量化指标和用户研究中均超越开源领域专用模型。不过,在参考生成视频任务上,Vidu、Kling等商业模型仍具优势。
阿里巴巴研究者将VACE视为迈向通用多模态视频模型的重要一步,下一步计划明确——通过更大规模数据集和算力进行扩展。该模型部分组件将以开源形式发布于GitHub。
VACE的发布契合阿里巴巴的AI战略布局,与其近期推出的大语言模型(如Qwen系列)形成协同。中国科技巨头如字节跳动也在视频AI领域持续发力,部分成果已媲美或超越OpenAI的Sora、谷歌Veo 2等西方同类产品。