《论文阅读》Temporal Pyramid Network for Action Recognition

tech2022-08-01 218

留个笔记自用

Temporal Pyramid Network for Action Recognition

做什么

Action Recognition动作识别，这里文章主要探讨的是视频动作识别，即输入一段视频（一个图片序列）输出一个动作

做了什么

视频动作可能有快有慢，比如这里移动物体的速度快慢，会很大程度地影响它的判断，再可以想象一下一段视频是跑步和走路，两者中运动的速度很大程度影响判断。所以对动作实例的视觉节奏中的类内和类间差异进行精确建模，可能会显著改善动作识别准确度。

怎么做

首先是文章的核心，Temporal Pyramid Network时空金字塔网络TPN，也跟FPN一样是即插即用的。这里分为了5个部分，Backbone部分、Spatial Modulation部分、Temporal Modulation部分、Information Flow部分、Final Prediction部分。首先是Backbone部分这部分的输入是一段视频（即一段图片序列），这里文中提到了两种方法。第一种是帧采样，根据M个不同的帧采样（比如4帧取一张图T为8，8帧取一张图T为4）分别传送到一个单独的特征提取网络中提取出一系列的信息，但这样会缺少视频的速度类语义信息，因为图片间隔帧均相同，简单来说就是无法理解到快慢差异。第二种方法就是这里的结构，用深度金字塔的方式提取，这里的做法也类似FPN，比如一个特征内含有隔4帧取得几张图，隔8帧取的几张图，主要作用是不同层次特征的提取第二部分是Spatial Modulation部分即调整模块，因为特征提取得到的结果是金字塔结构，输出的特征维度不相同，所以这里为了融合特征，对每个都进行卷积操作使它们回到同一维度下。第三部分使Temporal Modulation，经过调整模块后，可以理解成各间隔帧采样得到的特征均在空间上变成了同一大小，于是文中直接使用了下采样将其深度进行改变，目的是为了模拟不同帧的采样最后部分information Flow和Final Prediction，就是为了把前面收集得到的特征进行融合，这里文中提到了三种融合方式这里公式中的➕就是矩阵逐元素相加，g表示上采样或者下采样，即不同帧间隔的转换，然后最后的final prediction就是对所有的信息rescale和拼接了文章中间提到了整个框架训练的LOSS 首先是L_CE,o，这个LOSS就是原生的分类cross-entropy，然后是L_CE,i，这里用到的loss是auxiliary loss（辅助损失），这是加在 Spatial Modulation部分。以前有见过的辅助损失是在PSPnet中使用，简单来说就是在网络中途加一个LOSS以增强语义的监督效果。在这里M是输入feature的数量，所以在我的理解中这里的意思是对每个feature也就是每个帧间隔取出来的特征进行loss监督

总结

1.TPN即插即用，处理视频流的方式节省了很多branch，说不定还能用在action predict，然后再加一手快慢对抗 2.auxiliary loss在一定程度上能加强语义监督效果，这两个附带品都应该挺好用的

最新回复(0)