以及 c t − 1 c_{t-1}ct−1 就是t之前序列的时间信息,得益于记忆状态c cc,ConvLSTM具有长期记忆的能力, 而利用Conv来捕捉t时刻的特征与其之前状态的一个运动信息,但是由于卷积时的感受野比较小,所以ConvLSTM处理大幅运动的能力有限,而这会导致错误信息的不断传播和累积。
为了更好处理大幅运动的视频,这篇工作在ConvLSTM中嵌入了可变形卷积操作,利用可变形卷积分别捕捉[ h t − 1 , F t L ] [h_{t-1},F^L_t][ht−1,FtL]和c t − 1 , F t L ] c_{t-1},F^L_t]ct−1,FtL]之间的运行信息并实现时间上的对齐,得到[ h t − 1 a , c t − 1 a ] [h^a_{t-1},c^a_{t-1}][ht−1a,ct−1a] ,然后再利用ConvLSTM继续进行时间信息的聚集和特征融合,并向下传播,过程的示意图如下所示:
图3 嵌入可变形卷积的ConvLSTM
同时,为了更好利用全局的时间信息,实际上使用了双向的可变形 ConvLSTM(Bidirectional Deformable ConvLSTM),生成融合了过去和未来信息的特征序列{ h t } t 2 n + 1 \{h_t\}^{2n+1}_t{ht}t2n+1。
2.3 帧重建模块
帧重建模块则是使用了一个时间共享的合成网络,输入当个时间步的隐藏状态h t h_tht,然后输出对应的HR frame,具体来说就是使用了k 2 k_2k2个残差块提取深度特征信息,然后通过亚像素卷积(sub-pixel)+PixelShuffle重建出HR frames { I t t } t = 1 2 n + 1 \{I^t_t\}^{2n+1}_{t=1}{Itt}t=12n+1。重建损失函数如下: l r e c = ∣ ∣ I G T t − I t H ∣ ∣ 2 + ϵ 2 l_{rec}=\sqrt {||I^GT_t-I^H_t||^2+\epsilon^2}lrec=∣∣IGTt−ItH∣∣2+ϵ2
ϵ 2 \epsilon^2ϵ2是一个经验值,设置为1e-3,为了保证训练的稳定性(我认为:数值稳定---->训练稳定)