目前借助 Photoshop 这样的修图软件,我们可以将一张照片很容易地变为彩色,当然利用人工智能技术也能实现这个效果:
但是如果想让黑白视频也变为彩色的话,就没这么容易了。手动为黑白视频上色是一项非常耗费人力和时间的工作,而且非常繁琐。但是目前有了一种新的基于深度学习的算法,可以让黑白视频的上色工作变得非常容易。
近日在德国慕尼黑召开的 ECCV 2018(欧洲计算机视觉大会)上,来自英伟达、加州大学默塞德分校和大连理工大学的研究人员联合发表了一项新成果,他们提出了一种新模型——可切换型时间传播网络(Switchable Temporal Propagation Network),借助它,艺术工作者只需将视频画面中的某一帧彩色化,剩下的部分就可以交给 AI 实时自动完成上色。
在英伟达研究人员看来,视频帧之间包含了高度冗余的信息,虽然业界在视频压缩和编码领域深入研究了这种信息冗余现象,但在更高级的视频处理领域,比如黑白视频彩色化,却鲜有研究。
虽然近年来出现了一些算法比如双边 CNN 模型,探究了视频帧之间的局部关系以传播视频信息。但是它们也存在一些问题:设计的相似度没有真实反映画面结构;也没有表示出视频帧之间的高级成对关系。
英伟达等机构的研究人员开发了一种时间传播网络(TPN),它可以明确地学习成对的视频帧之间像素级的相似度。该网络包含了一台传播模块,它会借助一台卷积神经网络将视频帧的属性(比如颜色、HDR 等)通过一台全局线性转换矩阵传递给邻近的视频帧。
研究人员认为,模型在学习时间域的传播时必须遵守两条准则:具有双向性,即成对数据帧之间的传播应当是可逆的;具有可持续性,即应当在传播期间保存目标属性的“风格能量”(即颜色的全局饱和度)。在时间传播网络中遵守这两项原则,就能确保转换矩阵和每个传播方向产生交汇。通过这种方式,他们搭建了一种全新的特殊模型架构——可切换型时间传播网络。该模型在传播模块中,对成对视频帧使用双向训练的方式,来自指导 CNN 网络的切换后的输出映射会对训练进行指导。
在将黑白视频彩色化的过程中,研究人员充分利用了视频的冗余信息,提出用时间传播网络学习视频帧之间的相似性和传播目标属性。根据一段黑白视频的几个彩色化处理后优艾设计网_平面设计的关键帧,AI 能否自动彩色化整个视频?这个问题其实可转化为根据两个视频帧之间的某些特征(如亮度)的相似性,传播视频帧的目标属性(如颜色)。这两个问题其实是比较容易解决的,因为(1)视频随着播放会产生冗余信息,即相邻帧会出现相似画面,(2)两个帧之间在亮度域的像素关联与颜色域的像素关联保持一致。
研究人员解决这些问题的方法,就是将两个帧之间的目标属性(比如颜色)的传播建模为一台线性转换公式:
其中 Ut 和 Uk 分别为关键帧和相邻帧的属性映射的向量化版本,G 则是需要预估的转换矩阵。
借助这种线性传播机制,研究人员在切换型时间传播网络中保存了传播的持续性和视频风格。
模型架构如上图所示,他们搭建的这个可切换型时间传播网络包含了一台传播模块和一台 CNN 网络。传播模块会将多种视频属性(比如颜色、HDR)从关键帧传递到其它没有这些属性的视频帧里。CNN 网络会根据视频帧的内容对传播提供指导。
卷积神经网络会推断应该从彩色化后的关键帧提取什么色彩,在剩余视频帧中填充什么色彩。这种方法的特殊之处是,后续的彩色化工作能够通过交互的方式实现,用户对图像的一部分注释后,模型会生成上色结果。效果如下:
也就是说,借助他们提出的可切换型时间传播网络,我们只需将一段黑白视频的几处关键帧彩色化,AI 就会学习这些属性,将之传播到剩余黑白帧中,自动彩色化整段黑白视频。
创建完模型后,研究人员使用来自多个视频数据集的数百份视频进行训练,然后用包含了 7260 个视频序列、60 万帧的 ACT 数据集对网络进行调试。
经过和当前几种最新方法相比,这种新方法具有更高的准确度和效率,而且处理速度更快。
上图第一行为原始黑白视频,第三行为 VPN 模型(视觉识别模型)的彩色化结果,最后一行为可切换型时间传播网络的上色结果。
结语
研究作者提出了一种可切换型时间传播网络来传播视频属性,比如颜色和 HDR。这种基于时间域的传播方法能学习视频帧之间的像素和高级语义相似度。通过双向训练和风格正则化,模型可高效完成黑白视频的彩色化工作。
这种新型网络为我们实时传播视频信息提供了一种通用方法,研究人员表示未来会进一步探索如何整合视频中用于时间传播的高级和中级信息,比如检测、追踪和语义分割。未来他们会开放本项目的代码和数据集。
附研究论文:
https://arxiv.org/pdf/1804.08758.pdf
<hr/>
但是如果想让黑白视频也变为彩色的话,就没这么容易了。手动为黑白视频上色是一项非常耗费人力和时间的工作,而且非常繁琐。但是目前有了一种新的基于深度学习的算法,可以让黑白视频的上色工作变得非常容易。
近日在德国慕尼黑召开的 ECCV 2018(欧洲计算机视觉大会)上,来自英伟达、加州大学默塞德分校和大连理工大学的研究人员联合发表了一项新成果,他们提出了一种新模型——可切换型时间传播网络(Switchable Temporal Propagation Network),借助它,艺术工作者只需将视频画面中的某一帧彩色化,剩下的部分就可以交给 AI 实时自动完成上色。
在英伟达研究人员看来,视频帧之间包含了高度冗余的信息,虽然业界在视频压缩和编码领域深入研究了这种信息冗余现象,但在更高级的视频处理领域,比如黑白视频彩色化,却鲜有研究。
虽然近年来出现了一些算法比如双边 CNN 模型,探究了视频帧之间的局部关系以传播视频信息。但是它们也存在一些问题:设计的相似度没有真实反映画面结构;也没有表示出视频帧之间的高级成对关系。
英伟达等机构的研究人员开发了一种时间传播网络(TPN),它可以明确地学习成对的视频帧之间像素级的相似度。该网络包含了一台传播模块,它会借助一台卷积神经网络将视频帧的属性(比如颜色、HDR 等)通过一台全局线性转换矩阵传递给邻近的视频帧。
研究人员认为,模型在学习时间域的传播时必须遵守两条准则:具有双向性,即成对数据帧之间的传播应当是可逆的;具有可持续性,即应当在传播期间保存目标属性的“风格能量”(即颜色的全局饱和度)。在时间传播网络中遵守这两项原则,就能确保转换矩阵和每个传播方向产生交汇。通过这种方式,他们搭建了一种全新的特殊模型架构——可切换型时间传播网络。该模型在传播模块中,对成对视频帧使用双向训练的方式,来自指导 CNN 网络的切换后的输出映射会对训练进行指导。
在将黑白视频彩色化的过程中,研究人员充分利用了视频的冗余信息,提出用时间传播网络学习视频帧之间的相似性和传播目标属性。根据一段黑白视频的几个彩色化处理后优艾设计网_平面设计的关键帧,AI 能否自动彩色化整个视频?这个问题其实可转化为根据两个视频帧之间的某些特征(如亮度)的相似性,传播视频帧的目标属性(如颜色)。这两个问题其实是比较容易解决的,因为(1)视频随着播放会产生冗余信息,即相邻帧会出现相似画面,(2)两个帧之间在亮度域的像素关联与颜色域的像素关联保持一致。
研究人员解决这些问题的方法,就是将两个帧之间的目标属性(比如颜色)的传播建模为一台线性转换公式:
其中 Ut 和 Uk 分别为关键帧和相邻帧的属性映射的向量化版本,G 则是需要预估的转换矩阵。
借助这种线性传播机制,研究人员在切换型时间传播网络中保存了传播的持续性和视频风格。
模型架构如上图所示,他们搭建的这个可切换型时间传播网络包含了一台传播模块和一台 CNN 网络。传播模块会将多种视频属性(比如颜色、HDR)从关键帧传递到其它没有这些属性的视频帧里。CNN 网络会根据视频帧的内容对传播提供指导。
卷积神经网络会推断应该从彩色化后的关键帧提取什么色彩,在剩余视频帧中填充什么色彩。这种方法的特殊之处是,后续的彩色化工作能够通过交互的方式实现,用户对图像的一部分注释后,模型会生成上色结果。效果如下:
也就是说,借助他们提出的可切换型时间传播网络,我们只需将一段黑白视频的几处关键帧彩色化,AI 就会学习这些属性,将之传播到剩余黑白帧中,自动彩色化整段黑白视频。
创建完模型后,研究人员使用来自多个视频数据集的数百份视频进行训练,然后用包含了 7260 个视频序列、60 万帧的 ACT 数据集对网络进行调试。
经过和当前几种最新方法相比,这种新方法具有更高的准确度和效率,而且处理速度更快。
上图第一行为原始黑白视频,第三行为 VPN 模型(视觉识别模型)的彩色化结果,最后一行为可切换型时间传播网络的上色结果。
结语
研究作者提出了一种可切换型时间传播网络来传播视频属性,比如颜色和 HDR。这种基于时间域的传播方法能学习视频帧之间的像素和高级语义相似度。通过双向训练和风格正则化,模型可高效完成黑白视频的彩色化工作。
这种新型网络为我们实时传播视频信息提供了一种通用方法,研究人员表示未来会进一步探索如何整合视频中用于时间传播的高级和中级信息,比如检测、追踪和语义分割。未来他们会开放本项目的代码和数据集。
附研究论文:
https://arxiv.org/pdf/1804.08758.pdf
<hr/>
参考资料:
https://news.developer.nvidia.com/ai-can-convert-black-and-white-clips-into-color/
精彩评论