拖拽下图像就能生成视频，中科大、微软等DragNUWA属实惊艳 | 技术站 | GPU服务器、GPU运算、DELL服务器、超聚变、Inspur、信息安全、解决方案、产品交流分享经验,共同学习进步

拖拽下图像就能生成视频，中科大、微软等DragNUWA属实惊艳

来源：机器之心发布时间：2023-08-24 10:08:35 阅读量：658

随着 ChatGPT、GPT-4、LLaMa 等模型的问世，人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成，视频、语音等模态的 AI 生成还面临着较大的挑战。

现有可控视频生成工作主要存在两个问题：首先，大多数现有工作基于文本、图像或轨迹来控制视频的生成，无法实现视频的细粒度控制；其次，轨迹控制研究仍处于早期阶段，大多数实验都是在 Human3.6M 等简单数据集上进行的，这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。

基于此，来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞，通讯作者段楠。

论文地址：https://arxiv.org/abs/2308.08089

以拖动（drag）的方式给出运动轨迹，DragNUWA 就能让图像中的物体对象按照该轨迹移动位置，并且可以直接生成连贯的视频。例如，让两个滑滑板的小男孩按要求路线滑行：

还可以「变换」静态景物图像的相机位置和角度：

方法简介

该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的，因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示，仅文本和图像的组合不足以传达视频中存在的复杂运动细节，这可以用轨迹信息来补充；仅图像和轨迹组合无法充分表征视频中的未来物体，文本控制可以弥补这一点；在表达抽象概念时，仅依赖轨迹和文本可能会导致歧义，图像控制可以提供必要的区别。

DragNUWA 是一种端到端的视频生成模型，它无缝集成了三个基本控件 —— 文本、图像和轨迹，提供强大且用户友好的可控性，从语义、空间和时间角度对视频内容进行细粒度控制。

为了解决当前研究中有限的开放域轨迹控制问题，该研究重点关注三个方面的轨迹建模：

使用轨迹采样器（Trajectory Sampler，TS）在训练期间直接从开放域视频流中采样轨迹，用于实现任意轨迹的开放域控制；
使用多尺度融合（Multiscale Fusion，MF）将轨迹下采样到各种尺度，并将其与 UNet 架构每个块内的文本和图像深度集成，用于控制不同粒度的轨迹；
采用自适应训练（Adaptive Training，AT）策略，以密集流为初始条件来稳定视频生成，然后在稀疏轨迹上进行训练以适应模型，最终生成稳定且连贯的视频。

实验及结果

该研究用大量实验来验证 DragNUWA 的有效性，实验结果展示了其在视频合成细粒度控制方面的卓越性能。

与现有专注于文本或图像控制的研究不同，DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性，该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。

如下图 4 所示，DragNUWA 虽然没有明确地对相机运动进行建模，但它从开放域轨迹的建模中学习了各种相机运动。

为了评估 DragNUWA 对复杂运动的精确建模能力，该研究使用相同的图像和文本对各种复杂的拖动（drag）轨迹进行了测试。如下图 5 所示，实验结果表明 DragNUWA 能够可靠地控制复杂运动。

此外，DragNUWA 虽然主要强调轨迹控制建模，但也融合了文本和图像控制。研究团队认为，文本、图像和轨迹分别对应视频的三个基本控制方面：语义、空间和时间。下图 6 通过展示文本（p）、轨迹（g）和图像（s）的不同组合（包括 s2v、p2v、gs2v、ps2v 和 pgs2v）说明了这些控制条件的必要性。

© THE END

上一篇：生成式AI的应用路线图：应用领域与典型案例等

下一篇：NVIDIA RTX 助力大型复杂建筑项目应对渲染挑战

推荐阅读

AMD 9950X 4U机架式工作站工业设计 3D建模等设计师首选

AMD 9950X 塔式工作站工业设计 3D建模等设计师首选

Precision 3680 塔式工作站的视图

移除R750xa BOSS S2 模块

最新文章

2025年4月针对windows10-11最近大范围的出现蓝屏反复重启假死的一些简单的解决办法

一文读懂虚拟 GPU（vGPU）技术

AMD 9950X 4U机架式工作站工业设计 3D建模等设计师首选

AMD 9950X 塔式工作站工业设计 3D建模等设计师首选

服务器硬盘与背板、阵列卡的“复杂”关系

AMD锐龙9950X首发评测：桌面旗舰处理器对位，性能稳压14900K一头

热门阅读

DELL R740服务器系统安装详细过程

用于替代英伟达A100的A800芯片是什么？二者对比分析

如何在 Dell PowerEdge 服务器上安装操作系统？（操作系统部署）

升级CPU开不了机？别急，一步步来解决！

装solidworks电脑需要什么配置(安装solidworks电脑配置)

几款开源信息化管理系统

随机文章

如何鉴别服务器及配件的真伪新旧

入门级存储的黄金标准再更新，PowerVault ME5来了！

DELL R740服务器系统安装详细过程

PowerMax——业界首个引入NVIDIA BlueField DPU的高端存储

NIDAO共享云平台（二）

服务器机箱状态指示灯和硬盘托架LED

热评文章

如何鉴别服务器及配件的真伪新旧

新品｜戴尔首款基于PPDM的备份一体机

什么是GPU服务器？如何正确选择？

服务器入侵排查11步

入门级存储的黄金标准再更新，PowerVault ME5来了！

入门级存储首选，PowerVault ME5性能实测！

网站地图
沪ICP备19040636号-1

Catfish(鲶鱼) Blog V 4.7.3