AI 视频「闪烁」难题攻破！轻松改变视频风格，北大校友一作-纵横收藏网

AI 视频「闪烁」难题攻破！轻松改变视频风格，北大校友一作

日期：2023-06-15 14:59:28 来源：量子位

AI 拍视频，竟然已经丝滑到这个程度了吗？

(相关资料图)

输入一段视频，念上一段 " 咒语 "，AI 瞬间就能秒懂，并当场给你把视频重画一遍：

不仅完美 hold 住各类风格，最关键的是，帧帧丝滑流畅。

就连建筑物这种细节较多的视频，也几乎看不出 "AI 出品 " 的 bug：

目前，无论是拍视频还是制作动画，依靠的都是 " 关键帧 "。如果帧与帧之间联系不紧密，就会出现这种诡异的 "闪烁画风" ——而这也是 AI 生成视频最大的瓶颈之一。

现在，来自南洋理工大学的团队，终于解决了这个问题，研究在推特上掀起了不小热度：

那么，这究竟是如何做到的？

如何让 AI 拍的视频不 " 闪烁 "？

AI 生成视频会 " 闪烁 "，本质上是前后帧不连贯导致的。

举个例子，这是同一个视频中截取的两帧画面：

用 AI 根据这两帧 " 重绘 " 图像，乍一看问题不大，细节上却有不少差异。

例如，一帧生成的人物头上有 " 金色发带 "，另一帧中却消失了：

这样一来，看似 AI 生成的几十帧图像风格差不多，连起来细节差异却非常大，视频也就容易出现闪烁现象：为此，研究人员提出了一种新框架，，核心是提升 AI 生成视频时帧与帧之间的连贯性。

这个框架包含关键帧翻译（key frame translation）和完整视频翻译（full video translation）两部分。

第一部分基于扩散模型生成关键帧，基于跨帧约束加强这些关键帧之间的一致性；第二部分则通过基于时间感知的匹配算法将其他帧与关键帧 " 连接 " 起来。

框架的核心，在于第一部分。

研究人员给这部分提出了一种新的分层跨帧一致性约束方法，在原视频基础上，利用光流来约束帧与帧之间的关系。

其中，第一帧相当于整个视频的 " 锚点 "，用于控制视频的整体走向；后续的每一帧，则都会以前一帧作为参考，防止生成的图像偏离最初的风格、形状、纹理和颜色等。

至于视频生成模型，核心采用的则是 Stable Diffusion+ControlNet 的组合，但经过了改进。

如下图所示，红色虚线是原本 Stable Diffusion 等扩散模型采样过程，黑色线条则是经过调整后的过程：

当然，在不同的采样阶段，跨帧约束也不一样，包括形状感知、像素感知等。

相比之前的 AI 视频生成模型，这个框架最大的优势在于，当输入一个新视频的时候，它不需要再用这个视频材料重新进行训练，换而言之就是零样本学习。

只需要输入一段提示词 + 一段视频，框架就能自动将视频 " 翻译 " 出你想要的效果。

例如，这是团队利用改进后的框架，重新生成的一段相同风格视频，和改进前的扩散模型相比，几乎看不出闪烁了：

14 秒生成一张关键帧

所以，生成一段视频是否需要很长时间？

至少从生成帧的效率来看，速度还是不慢的，其中关键帧和 Stable Diffusion 出图的速度差不多，平均在14.23 秒左右；非关键帧就非常快了，每帧只需要1.49 秒。

如果视频不长、甚至只有十几帧的话，不到一分钟就能搞定一段视频的转换。

作者们将这个新框架和之前的几类文生视频框架进行了对比，包括 FateZero、vid2vid-zero、Pxi2Video 和 Text2Video-Zero 等，显然新框架目前是最流畅、鬼影也最少的：

不仅仅是单纯的 " 视频翻译 "，作者们还展示了提示词对于视频生成的控制效果。

例如在相同输入下，只要更改一段提示词中的 " 关键字 "，AI 就能在几乎不改动其他元素的情况下，生成一段新的视频，例如换个发型、换种风格，或是将狗头换成狐狸头：

除此之外，作者们还请来了 23 名志愿者，对新框架生成的视频质量进行了综合评分，评估指标有三个，分别是提示词和输入帧的关联度、时间一致性和视频整体质量。

结果显示，这个框架在 " 人类评分 " 中均取得了不错的水平：

一作北大校友

四位作者均来自南洋理工大学。

一作杨帅，南洋理工大学助理教授，本科和博士毕业于北京大学，目前的研究方向是基于人像的编辑、文本风格化、图像翻译等。

周弈帆，南洋理工大学研究工程师，本科毕业于北京理工大学，拿过 ACM-ICPC 金牌，研究方向包括文本挖掘、基于机器学习重建入射光场等。

刘子纬，南洋理工大学助理教授，香港中文大学博士，研究方向是计算机视觉、机器学习和计算机图形学等。

Chen Change Loy，南洋理工大学和香港中文大学副教授，他的研究兴趣集中在计算机视觉和深度学习方向，包括图像、视频恢复和生成，以及表征学习等。

目前这个项目的代码还没开源，不过论文表示 " 会有的 "。

实测效果如何，我们可以期待一波。

项目地址：

https://anonymous-31415926.github.io/

论文地址：

https://arxiv.org/abs/2306.07954

标签：

上一篇： “绝不降价”的蔚来食言背后，造车新势力经历了什么？世界速读

下一篇：最后一页

AI 视频「闪烁」难题攻破！轻松改变视频风格，北大校友一作

热门推荐

猜你喜欢

市场

“中国历代绘画大系”先秦汉唐、宋、元画特展在杭举行

人民财评：推陈出新，夜经济扮靓春节假期

如何全面提高幼儿园保教质量？教育部详解

冬奥播报丨自由式滑雪女子坡面障碍技巧赛谷爱凌摘银

数字金融强助力高效便捷办“政”事——交通银行支持广东省数字政务再升级

百科

AI 视频「闪烁」难题攻破！轻松改变视频风格，北大校友一作

热门推荐

猜你喜欢

市场

“中国历代绘画大系”先秦汉唐、宋、元画特展在杭举行

人民财评：推陈出新，夜经济扮靓春节假期

如何全面提高幼儿园保教质量？教育部详解

冬奥播报丨自由式滑雪女子坡面障碍技巧赛 谷爱凌摘银

数字金融强助力 高效便捷办“政”事——交通银行支持广东省数字政务再升级

百科

冬奥播报丨自由式滑雪女子坡面障碍技巧赛谷爱凌摘银

数字金融强助力高效便捷办“政”事——交通银行支持广东省数字政务再升级