Abstract
关于时空超分辨(STVSR)模型的设计策略:
- 二阶段模型(two-stage)
- 一阶段模型(one-stage)
模型设计
图1 模型结构图
1. 模型主要由四个部分组成:
-
特征提取模块(feature extractor)
该模块由一个Conv layer + k 1 k_1k1个残差块组成,负责提取输入帧特征。
-
中间帧特征插值模块(frame feature temporal interpolation module)
该模块根据输入的特征序列信息{ F 2 t − 1 L } t = 1 n + 1 \{F^L_{2t-1}\}^{n+1}_{t=1}{F2t−1L}t=1n+1,预测输出中间帧序列的特征{ F 2 t L } t = 1 n \{F^L_{2t}\}^{n}_{t=1}{F2tL}t=1n。
-
Deformable ConvLSTM
该模块则是对整个特征序列进行一个时间对齐和特征聚合 。
-
高分辨率帧重建模块(HR frame reconstructor)
利用经过时空融合后的特征序列生成最后的高清高分辨视频序列
2.主要模块
2.1 中间帧特征插值模块
二阶段方法(VFI+VSR)中往往是在像素级(pixel-wise)上先生成中间帧,然后对插帧后的序列进行超分辨,为了以one-stage的方式完成插帧和超分,该模块对输入帧特征进行采样融合来生成中间帧特征。根据插帧的经验,要生成中间帧特征,需要利用上下文特征间的双向运动信息来近似估计两侧到中间的运动信息(forward motion information and backwarp motion information),然后再进一步融合这两侧运动信息和上下文特征从而生成中间帧特征。
至于如何估计上下文特征间的双向运动信息,该模块采用了可变形卷积,认为其不规则的采样区域,具备比较强大的对几何物体运动建模的能力,能够从上下文特征中捕捉比较丰富的运动信息,以更好应对包含复杂运动和大幅运动的视频场景,运动信息估计模块如下图所示:
图2 可变形卷积估计运动信息近似生成中间特征
值得注意的是这里的blending操作采用的是简单的线性混合函数来结合T 1 T_1T1以及T 3 T_3T3,具体公式如下:
F 2 L = α ∗ T 1 ( F 1 L , Φ 1 ) + β ∗ T 3 ( F 3 L , Φ 3 ) F^L_2 = \alpha*T_1(F^L_1,\Phi_1)+\beta*T_3(F^L_3,\Phi_3)F2L=α∗T1(F1L,Φ1)+β∗T3(F3L,Φ3)
其中,α 和 β \alpha和\betaα和β 指的是两个1x1的卷积核,而∗ *∗则代表的是卷积操作。
2.2 Deformable ConvLSTM
生成完整的视频帧特征序列{ F t L } t = 1 2 n + 1 \{F^L_t\}^{2n+1}_{t=1}{FtL}t=12n+1 后,就需要利用该特征序列来生成HR Frames。显然,对于整个序列来说,时间信息是非常重要的,且为了保证生成HR video的时间一致性,需要有效利用序列所隐藏的帧间信息。这篇工作,则考虑使用ConvLSTM来在序列间传播时间信息,同LSTM一样,ConvLSTM通过融合前面传递到当前时间步t的隐藏状态h t − 1 h_{t-1}ht−1,记忆状态c t − 1 c_{t-1}ct−1和时间步t的特征,输出h t h_tht和c t c_tct然后继续向下传播时间信息,大致公式如下所示:
h t , c t = C o n v L S T M ( h t − 1 , c t − 1 , F t L ) h_t,c_t = ConvLSTM(h_{t-1},c_{t-1},F^L_t)ht,ct=ConvLSTM(ht−1,ct−1,FtL)
h t − 1 h_{t-1}ht−1 [1] [2] 下一页
|