DynamiCrafter：使用视频扩散先验对开放域图像进行动画处理

计算机视觉是当今人工智能界最令人兴奋和研究最深入的领域之一，尽管计算机视觉模型得到了快速增强，但图像动画仍然是困扰开发者的一个长期挑战。即使在今天，图像动画框架也很难将静止图像转换为显示自然动态的相应视频，同时保留图像的原始外观。传统上，图像动画框架主要专注于使用特定领域的运动（如头发或身体运动）或随机动力学（如流体和云）为自然场景设置动画。尽管这种方法在一定程度上有效，但它确实限制了这些动画框架对更通用的视觉内容的适用性。

此外，传统的图像动画方法主要集中于合成振荡和随机运动，或针对特定对象类别进行定制。然而，该方法的一个显著缺陷是，强加在这些方法上的强假设最终限制了它们的适用性，尤其是在开放域图像动画等一般场景中。在过去的几年里，T2V或文本到视频模型在使用文本提示生成生动多样的视频方面取得了显著成功，而T2V模型的演示正是DynamiCrafter框架的基础。

DynamiCrafter框架试图克服图像动画模型目前的局限性，并将其适用性扩展到涉及开放世界图像的通用场景。DynamiCrafter框架试图为开放域图像合成动态内容，并将其转换为动画视频。DynamiCrafter背后的关键思想是将图像作为指导纳入生成过程，试图利用现有文本到视频扩散模型的运动先验。对于给定的图像，DynamiCrafter模型首先实现了一个查询转换器，该转换器将图像投影到文本对齐的丰富上下文表示空间中，有助于视频模型以兼容的方式消化图像内容。然而，DynamiCrafter模型仍然难以在生成的视频中保留一些视觉细节，DynamiCrafter模型通过将图像与初始噪声连接起来，将完整图像提供给扩散模型，从而为模型补充更精确的图像信息，从而克服了这一问题。

本文旨在深入介绍DynamiCrafter框架，并探讨该框架的机制、方法、架构，以及与最先进的图像和视频生成框架的比较。

DynamiCrafter:开放域图像动画

为静止图像制作动画通常为观众提供引人入胜的视觉体验，因为它似乎将静止图像栩栩如生。多年来，许多框架已经探索了为静止图像设置动画的各种方法。最初的动画框架实现了基于物理模拟的方法，这些方法侧重于模拟特定对象的运动。然而，由于每个对象类别的独立建模，这些方法既不有效，也不具有可推广性。为了复制更真实的运动，出现了基于参考的方法，将运动或外观信息从视频等参考信号转移到合成过程中。尽管与基于模拟的方法相比，基于参考的方法提供了更好的结果和更好的时间连贯性，但它们需要额外的指导，这限制了它们的实际应用。

近年来，大多数动画框架主要专注于用随机、特定领域或振荡运动来制作自然场景的动画。尽管这些框架实施的方法在一定程度上有效，但这些框架产生的结果并不令人满意，还有很大的改进空间。文本到视频生成模型在过去几年中取得的显著成果激励了DynamiCrafter框架的开发人员利用文本到视频模型的强大生成能力来制作图像动画。

DynamiCrafter框架的关键基础是结合条件图像，试图控制文本到视频扩散模型的视频生成过程。然而，图像动画的最终目标仍然是不平凡的，因为图像动画需要保留细节以及理解创建动力学所必需的视觉上下文。然而，像VideoComposer这样的多模式可控视频扩散模型已经试图通过图像的视觉引导来实现视频生成。然而，这些方法不适合于图像动画，因为它们由于其不太全面的图像注入机制而导致突然的时间变化或对输入图像的低视觉一致性。为了克服这一障碍，DyaniCrafter框架提出了一种双流注入方法，包括视觉细节指导和文本对齐的上下文表示。双流注入方法允许DynamiCrafter框架确保视频扩散模型以互补的方式合成保留细节的动态内容。

对于给定的图像，DynamiCrafter框架首先使用专门设计的上下文学习网络将图像投影到文本对齐的上下文表示空间中。更具体地说，上下文表示空间由一个可学习的查询转换器和一个预训练的CLIP图像编码器组成，前者用于进一步促进其对扩散模型的适应，后者用于提取文本对齐的图像特征。然后，该模型使用跨注意力层使用丰富的上下文特征，并且该模型使用门控融合将这些文本特征与跨注意力层相结合。然而，这种方法将学习到的上下文表示与文本对齐的视觉细节进行交换，这有助于对图像上下文的语义理解，从而能够合成合理而生动的动态。此外，为了补充额外的视觉细节，该框架将具有初始噪声的完整图像连接到扩散模型。因此，DynamiCrafter框架实现的双注入方法确保了输入图像的视觉一致性以及合理的动态内容。

随着时间的推移，扩散模型或DM在T2I或文本到图像生成方面表现出了非凡的性能和生成能力。为了将T2I模型的成功复制到视频生成中，提出了VDM或视频扩散模型，该模型在像素空间中使用时空分解U-New架构来对低分辨率视频进行建模。将T2I框架的知识转移到T2V框架将有助于降低培训成本。尽管VDM或视频扩散模型能够生成高质量的视频，但它们只接受文本提示作为唯一的语义指导，这些提示可能无法反映用户的真实意图或可能很模糊。然而，大多数VDM模型的结果很少与输入图像一致，并且存在不切实际的时间变化问题。DynamiCrafter方法建立在文本条件下的视频扩散模型之上，该模型利用其丰富的动态先验来制作开放域图像的动画。它通过结合量身定制的设计来更好地理解语义并与输入图像保持一致。

DynamiCrafter:方法与架构

对于给定的静态图像，DyanmiCrafter框架试图将图像动画化为视频，即制作短视频剪辑。视频剪辑继承了图像中的视觉内容，并展示了自然的动态。然而，存在图像可能出现在结果帧序列的任意位置的可能性。在具有高视觉一致性要求的图像条件视频生成任务中，图像在任意位置的出现是一种特殊的挑战。DynamiCrafter框架通过利用预先训练的视频扩散模型的生成先验克服了这一挑战。

基于视频扩散先验的图像动力学

通常，已知开放域文本到视频扩散模型显示基于文本描述的动态视觉内容建模条件。为了用文本到视频的生成先验来动画化静止图像，框架应该首先以全面的方式在视频生成过程中注入视觉信息。此外，对于动态合成，T2V模型应该消化图像以用于上下文理解，同时它还应该能够在生成的视频中保留视觉细节。

文本对齐

为了用图像上下文指导视频生成，DynamiCrafter框架试图将图像投影到对齐的嵌入空间中，从而允许视频模型以兼容的方式使用图像信息。接下来，DynamiCrafter框架使用图像编码器从输入图像中提取图像特征，因为文本嵌入是使用预训练的CLIP文本编码器生成的。现在，尽管来自CLIP图像编码器的全局语义标记与图像字幕对齐，但它主要代表语义级别的视觉内容，因此无法捕获图像的全部内容。DynamiCrafter框架从CLIP编码器的最后一层实现完整的视觉标记，以提取更完整的信息，因为这些视觉标记在条件图像生成任务中表现出高保真度。此外，该框架使用上下文和文本嵌入，使用双重交叉注意力层与U-Net中间特征进行交互。该组件的设计有助于模型以依赖于层的方式吸收图像条件的能力。此外，由于U-Net架构的中间层更多地与对象姿态或形状相关联，因此预期图像特征将主要影响视频的外观，特别是因为两个末端层更多地连接到外观。

视觉细节指导

DyanmiCrafter框架采用了丰富的信息上下文表示，允许其架构中的视频扩散模型生成与输入图像非常相似的视频。然而，如下图所示，由于预训练的CLIP编码器完全保留输入信息的能力有限，生成的内容可能会显示出一些差异，因为它的设计目的是对齐语言和视觉特征。

为了增强视觉一致性，DynamiCrafter框架建议为视频扩散模型提供从输入图像中提取的额外视觉细节。为了实现这一点，DyanmiCrafter模型将条件图像与每帧初始噪声连接起来，并将它们提供给去噪U-Net组件作为指导。

训练范式

DynamiCrafter框架通过两个互补的流集成了条件图像，这两个流在细节指导和上下文控制中发挥着重要作用。为了促进这一点，DynamiCrafter模型采用了三步培训流程

在第一步中，该模型训练图像上下文表示网络。
在第二步中，该模型使图像上下文表示网络适应文本到视频模型。
在第三个也是最后一个步骤中，模型与视觉细节引导组件一起对图像上下文表示网络进行微调。

为了使图像信息与文本到视频（T2V）模型兼容，DynamiCrafter框架建议开发一个上下文表示网络P，旨在从给定图像中捕捉与文本对齐的视觉细节。认识到P需要许多优化步骤才能收敛，该框架的方法包括使用更简单的文本到图像（T2I）模型对其进行初始训练。该策略允许上下文表示网络在通过与P和T2V模型的空间层（而不是时间层）的联合训练将图像上下文与T2V模型集成之前集中精力学习图像上下文。

为了确保T2V的兼容性，DyanmiCrafter框架将输入图像与每帧噪声合并，继续微调P和视觉识别模型（VDM）的空间层。选择这种方法是为了保持T2V模型现有时间洞察力的完整性，而不会受到密集图像合并的不利影响，这可能会影响性能并偏离我们的主要目标。此外，该框架采用了随机选择视频帧作为图像条件的策略，以实现两个目标：（i）避免网络发展出将合并图像与特定帧位置直接关联的可预测模式，以及（ii）通过防止为任何特定帧提供过硬的信息来鼓励更具适应性的上下文表示。

DynamiCrafter：实验和结果

DynamiCrafter框架首先在稳定扩散上训练上下文表示网络和图像交叉注意力层。然后，该框架将稳定扩散组件替换为VideoCrafter，并进一步微调上下文表示网络和空间层以进行自适应和图像拼接。在推理时，该框架采用了无多条件分类器引导的DDIM采样器。此外，为了评估在时间域和空间域合成的视频的时间相干性和质量，该框架报告了FVD或Frechet视频距离以及KVD或内核视频距离，并评估了MSR-VTT和UCF-101基准的所有方法上的零样本性能。为了研究生成的结果与输入图像之间的感知一致性，该框架引入了PIC或感知输入一致性，并采用感知距离度量DreamSim作为距离的函数。

下图演示了生成的具有不同风格和内容的动画内容的视觉比较。

可以观察到，在所有不同的方法中，DynamiCrafter框架很好地遵守了输入图像条件，并生成了时间连贯的视频。下表包含49名参与者参与的用户研究的统计数据，包括对时间连贯性（T.C）和运动质量（M.C）的偏好率，以及对输入图像的视觉一致性的选择率。（I.C）。可以观察到，DynamiCrafter框架能够以相当大的优势胜过现有方法。

下图展示了使用双流注入方法和训练范式所获得的结果。

最后的想法

在这篇文章中，我们讨论了DynamiCrafter，试图克服图像动画模型目前的局限性，并将其适用性扩展到涉及开放世界图像的通用场景。DynamiCrafter框架试图为开放域图像合成动态内容，并将其转换为动画视频。DynamiCrafter背后的关键思想是将图像作为指导纳入生成过程，试图利用现有文本到视频扩散模型的运动先验。对于给定的图像，DynamiCrafter模型首先实现了一个查询转换器，该转换器将图像投影到文本对齐的丰富上下文表示空间中，有助于视频模型以兼容的方式消化图像内容。然而，DynamiCrafter模型仍然难以在生成的视频中保留一些视觉细节，DynamiCrafter模型通过将图像与初始噪声连接起来，将完整图像提供给扩散模型，从而为模型补充更精确的图像信息，从而克服了这一问题。