利用霍夫投票的方式,采样种子点之后学习偏移量,再用pointNet++中的SA模块提取中心区域特征。
优秀博客:https://blog.csdn.net/weixin_39373480/article/details/103583523
一阶段的,基于双目的 3D 目标检测器;为了弥补 2D 图像和 3D 空间的鸿沟,作者利用立体匹配构建平面扫描体(plane-sweep volume, PSV),并将其转换成 3D 几何体(3D geometric volume, 3DGV),以便能够编码 3D 几何形状和语义信息。
导读:https://zhuanlan.zhihu.com/p/136226176
单目3D目标检测最大的挑战在于没法得到精确的深度信息,传统的二维卷积算法不适合这项任务,因为它不能捕获局部目标及其尺度信息,而这对三维目标检测至关重要。为了更好地表示三维结构,现有技术通常将二维图像估计的深度图转换为伪激光雷达表示,然后应用现有3D点云的物体检测算法。因此他们的结果在很大程度上取决于估计深度图的精度,从而导致性能不佳。在本文中,作者通过提出一种新的称为深度引导的局部卷积网络(LCN),更改了二维全卷积Dynamic-Depthwise-Dilated LCN ,其中的filter及其感受野可以从基于图像的深度图中自动学习,使不同图像的不同像素具有不同的filter。D4LCN克服了传统二维卷积的局限性,缩小了图像表示与三维点云表示的差距。D4LCN相对于最先进的KITTI的相对改进是9.1%,取得了monocular的第一名。
不利用其他多余数据,只利用单目图像,标签是3D物体。速度为25fps,实现了实时的目标。受到CenterNet的启发,检测8个角点和1个中心点。如图所示有多个子任务的约束,主要是来自于标签3D到2D的投影。
研究激光雷达点云采集的过程,在自动驾驶中激光雷达采集的坐标为2.5D的数据, 因为其数据都附着在物体的表面。所以本文研究在采集点云数据中的freespaces区域和unknown区域,在可达到的区域中存在物体是有理由进行检测,而对于unknown区域中存在物体检测不到物体是情有可原的。而在原始的点云数据中,是无法区分这两种情况的。所以针对“可见”和“不可见”,论文进行了阐述,针对如何检测freespaces,本文提出了“raycasting algorithms”(光线投射)方法,用于对voxel-grid高效的计算 visibility性。 本文的贡献:
并证实该加入的信息可以被加入到batch-based的梯度学习中去。在voxel-based的方法上增加了一个简单的数据增方式:作者把voxelized 的visibility map作为额外输入信息。证实了visibility map可以被当前两种数据增广方法的结合所代替:即是虚拟object的数据扩充和lidar sweep之间的融合。推荐博客:https://blog.csdn.net/weixin_40805392/article/details/105575751
两个重要组成部分:
Instance Disparity Estimation Network Pseudo Ground-truth Generation 采用了TSDF 重建方法,对于实例区域根据得到的实例深度图进行重建,得到更为精细的伪雷达数据上面的Disp R-CNN也使用了Stereo R-CNN的网络结构。 除了回归分支,还有关键点检测分支,需要通过一定的方式得到3D框在真实世界的位置: