日期:2023-06-15 14:59:28 来源:量子位
AI 拍视频,竟然已经丝滑到这个程度了吗?
(相关资料图)
输入一段视频,念上一段 " 咒语 ",AI 瞬间就能秒懂,并当场给你把视频重画一遍:
不仅完美 hold 住各类风格,最关键的是,帧帧丝滑流畅。就连建筑物这种细节较多的视频,也几乎看不出 "AI 出品 " 的 bug:
目前,无论是拍视频还是制作动画,依靠的都是 " 关键帧 "。如果帧与帧之间联系不紧密,就会出现这种诡异的 "闪烁画风" ——而这也是 AI 生成视频最大的瓶颈之一。现在,来自南洋理工大学的团队,终于解决了这个问题,研究在推特上掀起了不小热度:
那么,这究竟是如何做到的?如何让 AI 拍的视频不 " 闪烁 "?
AI 生成视频会 " 闪烁 ",本质上是前后帧不连贯导致的。
举个例子,这是同一个视频中截取的两帧画面:
用 AI 根据这两帧 " 重绘 " 图像,乍一看问题不大,细节上却有不少差异。例如,一帧生成的人物头上有 " 金色发带 ",另一帧中却消失了:
这样一来,看似 AI 生成的几十帧图像风格差不多,连起来细节差异却非常大,视频也就容易出现闪烁现象:为此,研究人员提出了一种新框架,,核心是提升 AI 生成视频时帧与帧之间的连贯性。这个框架包含关键帧翻译(key frame translation)和完整视频翻译(full video translation)两部分。
第一部分基于扩散模型生成关键帧,基于跨帧约束加强这些关键帧之间的一致性;第二部分则通过基于时间感知的匹配算法将其他帧与关键帧 " 连接 " 起来。
框架的核心,在于第一部分。
研究人员给这部分提出了一种新的分层跨帧一致性约束方法,在原视频基础上,利用光流来约束帧与帧之间的关系。
其中,第一帧相当于整个视频的 " 锚点 ",用于控制视频的整体走向;后续的每一帧,则都会以前一帧作为参考,防止生成的图像偏离最初的风格、形状、纹理和颜色等。
至于视频生成模型,核心采用的则是 Stable Diffusion+ControlNet 的组合,但经过了改进。
如下图所示,红色虚线是原本 Stable Diffusion 等扩散模型采样过程,黑色线条则是经过调整后的过程:
当然,在不同的采样阶段,跨帧约束也不一样,包括形状感知、像素感知等。相比之前的 AI 视频生成模型,这个框架最大的优势在于,当输入一个新视频的时候,它不需要再用这个视频材料重新进行训练,换而言之就是零样本学习。
只需要输入一段提示词 + 一段视频,框架就能自动将视频 " 翻译 " 出你想要的效果。
例如,这是团队利用改进后的框架,重新生成的一段相同风格视频,和改进前的扩散模型相比,几乎看不出闪烁了:
14 秒生成一张关键帧所以,生成一段视频是否需要很长时间?
至少从生成帧的效率来看,速度还是不慢的,其中关键帧和 Stable Diffusion 出图的速度差不多,平均在14.23 秒左右;非关键帧就非常快了,每帧只需要1.49 秒。
如果视频不长、甚至只有十几帧的话,不到一分钟就能搞定一段视频的转换。作者们将这个新框架和之前的几类文生视频框架进行了对比,包括 FateZero、vid2vid-zero、Pxi2Video 和 Text2Video-Zero 等,显然新框架目前是最流畅、鬼影也最少的:
不仅仅是单纯的 " 视频翻译 ",作者们还展示了提示词对于视频生成的控制效果。例如在相同输入下,只要更改一段提示词中的 " 关键字 ",AI 就能在几乎不改动其他元素的情况下,生成一段新的视频,例如换个发型、换种风格,或是将狗头换成狐狸头:
除此之外,作者们还请来了 23 名志愿者,对新框架生成的视频质量进行了综合评分,评估指标有三个,分别是提示词和输入帧的关联度、时间一致性和视频整体质量。结果显示,这个框架在 " 人类评分 " 中均取得了不错的水平:
一作北大校友四位作者均来自南洋理工大学。
一作杨帅,南洋理工大学助理教授,本科和博士毕业于北京大学,目前的研究方向是基于人像的编辑、文本风格化、图像翻译等。周弈帆,南洋理工大学研究工程师,本科毕业于北京理工大学,拿过 ACM-ICPC 金牌,研究方向包括文本挖掘、基于机器学习重建入射光场等。
刘子纬,南洋理工大学助理教授,香港中文大学博士,研究方向是计算机视觉、机器学习和计算机图形学等。
Chen Change Loy,南洋理工大学和香港中文大学副教授,他的研究兴趣集中在计算机视觉和深度学习方向,包括图像、视频恢复和生成,以及表征学习等。
目前这个项目的代码还没开源,不过论文表示 " 会有的 "。
实测效果如何,我们可以期待一波。
项目地址:
https://anonymous-31415926.github.io/
论文地址:
https://arxiv.org/abs/2306.07954
标签:
上一篇: “绝不降价”的蔚来食言背后,造车新势力经历了什么? 世界速读
下一篇: 最后一页
AI 视频「闪烁」难题攻破!轻松改变视频风格,北大校友一作
“绝不降价”的蔚来食言背后,造车新势力经历了什么? 世界速读
今年一季度上海网约车平台投诉排名出炉
数字人也有“灵魂”?大模型被三六零玩明白了 环球热门
智迪科技创业板IPO申请注册生效
每日快播:「理论研讨征文」学深悟透党的二十大精神 奋力践行新时代使命担当
预计发送旅客209万人次 铁路上海站端午假期“比较忙”
天津搬家迁移立户办理指南|全球今头条
2023年武侯区小学入学划片范围一览
环球观点:内容正在升级改造,请稍后再试!
印尼羽毛球公开赛:陈清晨/贾一凡首轮晋级 全球消息
王鹏点金:重点关注下破!|每日头条
今年暴涨400%大牛股,控股股东股份全遭冻结!
央视尚赫公司是合法的吗_央视是怎样曝光尚赫的|环球热闻
微动态丨百度云怎么搜索资源下载_百度云怎么搜索资源
交换机的作用?_交换机作用是什么|全球热点评
世界今日讯!曼奇尼:西班牙有自己鲜明的风格 我们已经在进化
不及时的近义词两个字(不及时的近义词) 微动态
爱q生活网亮亮qq_爱qq生活网
安怡乐-世界热资讯
环球信息:当陈都灵与周也一前一后出席红毯,我才彻底明白,什么叫顶级骨相
环球今日报丨郑州煤电: 郑州煤电股份有限公司关于国有股东非公开协议转让所持部分股份事宜获省政府国资委批复的公告
试驾比亚迪海鸥:畅游有福之州,一路解锁“高能装备”|环球短讯
天天头条:gta3作弊码翻译手机版_gta3作弊码
三星e6屏幕是护眼屏吗