【论文阅读】Pyramidal Convolution:Rethinking Convolutional Neural Networks for Visual Recognition

tech2022-09-20  125

概述

本文提出了金字塔卷积(PyConv),能够在多尺度的卷积核上处理输入的图像。PyConv包含一个卷积核金字塔,每一层级是大小和深度都不同的卷积核,从而可以捕获场景中不同级别的细节,另外PyConv不会增加计算成本和参数,是十分高效的,而且PyConv十分灵活,具有可扩展性。Motivation 在现实中,有些类别的物体有着非常打的空间尺寸,而有些物体通常是很细小的。即使是同一类别的物体,在尺寸上也可能会有很大的差异。要捕捉到不同种类的物体以及它们在尺寸上的差异性,只采用单一类别的卷积核显然不足以解决如此复杂的问题。

Contributions

提出了金字塔卷积,金字塔卷积包含不同大小和深度的卷积核。能够捕捉不同级别的细节信息,同时,金字塔卷积还十分高效,与标准卷积有着相似的参数数量和计算成本。同时,金字塔卷积非常灵活和可扩展,可以应用于各种网络架构来处理不同的计算机视觉任务。提出了两种用于图像分类的网络,性能卓越,并且在参数数量和计算成本方面表现优异。提出了一种语义分割的新框架,可以捕获局部的、全局的不同级别的语义信息提出了基于金字塔卷积的用于目标检测和视频分类的网络框架

Pyramidal Convolution

图(a)是标准卷积,输入的特征图经过一个单一尺寸的卷积核之后得到输出特征图。 图(b)是金字塔卷积,可以看到输入的特征图会经过不同尺寸的卷积核,然后将每一个特征图按通道连接起来得到输出。卷积核的尺寸不断变大,同时卷积核的深度不断减少。 为了能够使用不同深度的卷积核,采用了分组卷积的方式,这样就能够得到同样通道数的特征图了。

作者在文中论证了参数量和计算量与标准卷积近似。 advantages of the PyConv:

Multi-scale Processing:与标准卷积相比,金字塔卷积在不增加额外计算量的情况下扩大了感受野。在采用了不同尺寸的卷积核后,可以更好地捕获多尺度的细节信息。Efficiency:在标准情况下,金字塔卷积的参数量和计算量与标准卷积类似,此外,金字塔卷积支持并行计算,可以在不同的计算单元上独立执行,然后合并输出。Flexibility:金字塔卷积为各种各样的网络结构打开了大门,用户可以根据实际任务自由地选择金字塔卷积的层数,金字塔卷积所使用的卷积核的尺寸和深度。

PyConv Networks for Image Classification

PyConv Network on Semantic Segmentation

最新回复(0)