《论文阅读》Temporal Pyramid Network for Action Recognition

tech2022-08-01  132

留个笔记自用

Temporal Pyramid Network for Action Recognition

做什么

Action Recognition动作识别,这里文章主要探讨的是视频动作识别,即输入一段视频(一个图片序列)输出一个动作

做了什么

视频动作可能有快有慢,比如这里移动物体的速度快慢,会很大程度地影响它的判断,再可以想象一下一段视频是跑步和走路,两者中运动的速度很大程度影响判断。所以对动作实例的视觉节奏中的类内和类间差异进行精确建模,可能会显著改善动作识别准确度。

怎么做

首先是文章的核心,Temporal Pyramid Network时空金字塔网络TPN,也跟FPN一样是即插即用的。这里分为了5个部分,Backbone部分、Spatial Modulation部分、Temporal Modulation部分、Information Flow部分、Final Prediction部分。 首先是Backbone部分 这部分的输入是一段视频(即一段图片序列),这里文中提到了两种方法。第一种是帧采样,根据M个不同的帧采样(比如4帧取一张图T为8,8帧取一张图T为4)分别传送到一个单独的特征提取网络中提取出一系列的信息,但这样会缺少视频的速度类语义信息,因为图片间隔帧均相同,简单来说就是无法理解到快慢差异。第二种方法就是这里的结构,用深度金字塔的方式提取,这里的做法也类似FPN,比如一个特征内含有隔4帧取得几张图,隔8帧取的几张图,主要作用是不同层次特征的提取 第二部分是Spatial Modulation部分即调整模块,因为特征提取得到的结果是金字塔结构,输出的特征维度不相同,所以这里为了融合特征,对每个都进行卷积操作使它们回到同一维度下。 第三部分使Temporal Modulation,经过调整模块后,可以理解成各间隔帧采样得到的特征均在空间上变成了同一大小,于是文中直接使用了下采样将其深度进行改变,目的是为了模拟不同帧的采样 最后部分information Flow和Final Prediction,就是为了把前面收集得到的特征进行融合,这里文中提到了三种融合方式 这里公式中的➕就是矩阵逐元素相加,g表示上采样或者下采样,即不同帧间隔的转换,然后最后的final prediction就是对所有的信息rescale和拼接了 文章中间提到了整个框架训练的LOSS 首先是LCE,o,这个LOSS就是原生的分类cross-entropy,然后是LCE,i,这里用到的loss是auxiliary loss(辅助损失),这是加在 Spatial Modulation部分。以前有见过的辅助损失是在PSPnet中使用,简单来说就是在网络中途加一个LOSS以增强语义的监督效果。在这里M是输入feature的数量,所以在我的理解中这里的意思是对每个feature也就是每个帧间隔取出来的特征进行loss监督

总结

1.TPN即插即用,处理视频流的方式节省了很多branch,说不定还能用在action predict,然后再加一手快慢对抗 2.auxiliary loss在一定程度上能加强语义监督效果,这两个附带品都应该挺好用的

最新回复(0)