本文提出了金字塔卷积(PyConv),能够在多尺度的卷积核上处理输入的图像。PyConv包含一个卷积核金字塔,每一层级是大小和深度都不同的卷积核,从而可以捕获场景中不同级别的细节,另外PyConv不会增加计算成本和参数,是十分高效的,而且PyConv十分灵活,具有可扩展性。Motivation 在现实中,有些类别的物体有着非常打的空间尺寸,而有些物体通常是很细小的。即使是同一类别的物体,在尺寸上也可能会有很大的差异。要捕捉到不同种类的物体以及它们在尺寸上的差异性,只采用单一类别的卷积核显然不足以解决如此复杂的问题。
图(a)是标准卷积,输入的特征图经过一个单一尺寸的卷积核之后得到输出特征图。 图(b)是金字塔卷积,可以看到输入的特征图会经过不同尺寸的卷积核,然后将每一个特征图按通道连接起来得到输出。卷积核的尺寸不断变大,同时卷积核的深度不断减少。 为了能够使用不同深度的卷积核,采用了分组卷积的方式,这样就能够得到同样通道数的特征图了。
作者在文中论证了参数量和计算量与标准卷积近似。 advantages of the PyConv:
Multi-scale Processing:与标准卷积相比,金字塔卷积在不增加额外计算量的情况下扩大了感受野。在采用了不同尺寸的卷积核后,可以更好地捕获多尺度的细节信息。Efficiency:在标准情况下,金字塔卷积的参数量和计算量与标准卷积类似,此外,金字塔卷积支持并行计算,可以在不同的计算单元上独立执行,然后合并输出。Flexibility:金字塔卷积为各种各样的网络结构打开了大门,用户可以根据实际任务自由地选择金字塔卷积的层数,金字塔卷积所使用的卷积核的尺寸和深度。