首先作者提出了将视频帧按照距离参考帧的大小来分组,如图中(1,2,3,4,5,6,7)的帧就被分为了三组(1,4,7),(2,4,6),(3,4,5)。 这么做的原因有两个:
距离参考帧不同距离的帧所提供的信息是互补的的,尤其在遮挡,大运动,扭曲的情况下。参考帧可以作为提取信息的指引。组内融合模块的作用是为每个分组提供特征提取和信息融合,每个模块包含三个部分,其中使用的卷积层都会依据不同的分组带有不同的膨胀因子(dilation rate)其依据是距离远的帧所带有的运动偏向更大。另外值得一提的是,每个组内融合的权重是共享的。
组间融合模块使用了注意力机制,并且通过softmax,以时间轴压缩不同帧。 组间融合模块的目标是在不同的时间群中聚合信息,并生成高分辨率的残差图。
最后生成的高分辨率残差图和bicubic 图进行融合上采样。
不同以往使用的光流估计方法,作者估计每组连续帧之间的同质性,并且将相邻帧扭曲到参考帧。 与光流估计相比较计算同质性的方法更加的有效和高效率, 由于计算每个像素的光流,不完善的光流估计会给翘曲带来意想不到的像素级失真,破坏原始图像的结构。然而计算同质性(homography)可以利用传递性的性质一次完成,减少了计算的冗余。
表现十分优秀。
论文主体部分分析到这里,关于具体执行的细节和有关的灵敏度分析可以参考具体论文。 论文地址