SRN 阅读报告
参考论文:Side-output Residual Network for Object Symmetry Detection in the Wild ----CVPR 2017
code地址:https://github.com/KevinKecc/SRN
本文主要针对称性目标做轮廓(骨骼)检测一种深度学习方法(SRN),类似于实例分 割的方式得到物体的基本区域,主要为了解决复杂背景下的野外目标对称边缘检测的问题。 提出一个新的数据集 Sym-PASCAL,它比实际场景中不同光照和视角、多个目标、存在部分 遮挡、以及背景复杂等环境更充满挑战;针对对称性检测,提出一种侧边输出(Side-output) 残差网络结构 SRN,它的主体来自 HED 网络,但是不同之处在 Side-output 堆叠多个 RU,RU 最小化对称物体真实标签和 RU 网络输出结果之间的误差,这种方法优化不同尺度的 RU 而 不是仅仅只结合多尺度特征。文中定义的 RU 不仅提高检测性能,而且解决了 HED 收敛较慢 的问题。通过从深到浅的堆叠多个 RU,它的感受可以自适应的匹配不同尺度的对称物体。
(1)提出一个野外对称物体数据集,包括多种不同场景、遮挡、以及数据均衡等野外场景 的对称物体检测的数据集。
(2)提出一种侧边输出残差网络结构,通过堆叠多个由深到浅的 RU,可以有效地拟合对称 物体真实标签和 RU 网络的输出,从而增强模型处理复杂背景下对称物体轮廓检测的能力, 并比之前的基于传统和深度的方法性能表现更好。
(1)Sym-PASCAL
针对现有数据集背景过于简单、对象单一、遮挡较少的缺少对称性的物体的场景,本文 提出一种新的对称目标数据集,均衡各个类别的数据,更接近野外场景。它利用语义分割的 GT 和骨架生成算法生成物体标注标签;包括 20 个类别的对称和非对称物体,并且有很多不 连续的非对称对象。针对明显对称和比较细长物体采用骨架提取算法提取对象对称性标签, 对于非对称物体则基于语义分割的 mask 进行标注,还有一些特殊物体被遮挡物体则手动填 充语义缺失部分的标签。
(2)侧端输出残差网络
SRN 设计一种输出残差单元(RU)和一种由深到浅的学习策略并可以实现端到端的进 行训练。 RU 提供真实标签和不同输出尺度之间的短接,通过 GT 监督 RU 的输入 r 和输出 r+ F(y),这样能更好的拟合复杂的输出。通过堆叠 RU 提出一种新的端侧输出网络,它利 用残差结构和尺度自适应的优点。本文提出两种结构 Deep-to-shallow 和 Shallow-to-deep, 由深到浅结构如图 4a:假设 si是第 i 个侧面输出,并且 ri + 1、ri 是输入和输出第 i 个 RU,对 于第一个堆叠的 RU2,输入设置为最深的 SOP3 即 r3 = s3,使用 SOP2 学习 RUOP3 和真实 GT 之间的残差并将 RUOP3 更新为 RUOP2,RU 堆叠直到最浅的侧边输出,换句话说,其输入被 设置为前一个的输出,Sigmoid 用作最后堆叠的输出的分类器。RU 块结构则将 ri + 1 上采样 乘 wri 拼接 Si并乘上 wic得到输出 Ri ,由浅到深 RU 块则侧边输出 Si进行上采样并拼接输出; 实验证明由深到浅侧输出有利于预测 GT 的初始化,所以本文采用的 Deep-to-shallow 结构 进行轮廓检测。损失函数主要优化最小化改进的交叉熵损失,通过多个堆叠 RU 输出最终的 映射图,这使得 SRN 带有平滑建模多尺度对称图像并跨越深层提取特征的能力。
(3)实验结果
SRN 采用 Caffe 训练并参照 HED 的参数设置,在测试阶段采用 NMS 应用于输出映射以 获得对象对称性检测结果。评估采用准确率-召回率度量,并利用 F 评估对称性检测的性能。 为了获得精确度-召回率曲线,首先将检测到的对称响应作为二进制映射图,然后与 GT 对称 的 mask 进行匹配。通过更改阈值,获得准确率-召回率曲线,得出最好的 F。SRN 对比了不 同结构并做过各种数据增广,最重要的是不增加 conv1,因为它导致感受野太小,感受野太 小会新增局部噪声。通过对比不同网络结构(一阶二阶检测器)并在自建数据集和公开数据 集上对比,最终结果显示 SRN 方法可以更准确地实现物体对称性检测、并比之前的对称检 测网络性能有 0.1 左右提升,而且 SRN 收敛速度更快。
(1)针对背景复杂问题:是否可尝试在 vgg 之前以预设 anchor 或者 RPN 区域生成的方式取 出待检物体,减少边框之外背景干扰,在不影响整体耗时可采用轻量级的区域生成网络。
(2)针对样本不均衡:除 Sym-PASCAL 之外,是否可尝试加上 Focal Loss 来监督正负样本比 例。除此之外,为增加样本骨架像素的学习,可尝试在网络上结构上新增 SE 模块在 channel 维度上做 attention,让模型可以更加关注信息量最大的 channel,类似于一种加权的操作。 还可在读取骨架像素值时,可选取关键点像素点乘以一个加权因子并训练的时候比其余像素 进行更多次迭代学习。SE 和关键点加权我在人脸关键点检测加过,效果较为理想。