1.滑窗法 思路很简单,首先需要一个已经训练好的分类器,然后把图像按照一定间隔和不同的大小分成一个个窗口,在这些窗口上执行分类器,如果得到较高的分类分数,就认为是检测到了物体,把每个窗口都用分类器执行一遍之后,再对得到的分数做一些后处理的操作。 2.PASCAL VOC .mAP和IOU简介 他是一套用于评估图像分类,检测,分割和人体姿势动作等的数据集。其中用的最多的就是物体检测,包含4大类和20个细分类别,评价一个检测算法,主要就是看两个标准,也就是是否正确预测了框内的物体类别:预测的框和人工标注框的重合程度,他们的量化指标分别是mAP和IOU,mAP也就是平均精度均值,他把每个类别的AP都单独拎出来,然后计算所有类别AP的平均值,代表着对检测到的目标平均精度的一个综合评价,IOU是用来衡量预测的物体框和真实框的重合程度。 3.Selective Search和R-CNN简介 他的思路就是,可能存在物体的区域都应该是有某种相似性的或连续的区域,针对这两个特点,采用超像素合并的思路,首先用分割算法再图像上产生很多的小区域,或者看做是超像素,再根据这些区域之间的相似性进行区域合并,成为大一点的区域。
他的第一个优点就是高效,因为不再是漫无目的的穷举式搜索,第二个优点就是由于采用了多样的指标,提升了找到物体的可靠性。
4.SPP,ROI POOLING 和FAST R-CNN简介 这个的思路就是,对整张图片执行一次卷积神经网络的前向计算,到了最后一层的激活响应图时,通过某种方式把目标物体所在区域部分的响应图拿出来作为特征给分类器。 5.YOLO和SSD简介 他能预测多种:
1.物体框,包含物体框中心相对格子中心的坐标(x,y)和物体框的宽w和高h 2.每个物体框是否有物体的置信度,其中当前这个格子如何包含物体,则置信度的分数为当前预测的物体框和标注物体框的IOU。 3.每个格子预测一共C个类别的概率分数,并且这个分数和物体框是不相关的,只是基于这个格子。
YOLO在速度上获得了很大的提升,但精度上比RCNN系还是逊色一些,其中一个原因是基于格子回归物体框的方式在一定程度上限制了物体框位置和大小的灵活性。 而SSD算是同时借鉴了YOLO和FR-CNN的思想,在达到实时的检测速度水平下,保持很高的检测精度,SSD也会在卷积神经网路的最后阶段,保持很高的检测精度。
1.距离和度量学习 在机器学习中,有一类算法如K近邻/K-means,SVM,相似比对的算法,非常依赖距离这个度量来对数据执行分类等任务,所以有一个方向专门研究如何让一个算法更好的学习到一种度量,比如欧式距离,提升特定任务的算法性能,这就是度量学习。 1.1欧式距离和马式距离 1.2欧式距离和余弦距离 1.3非线性度量学习和Siamese网络 很多代表性的度量学习的方法都是基于线性变换去做的,这个的优点就是学习出来的metric不容易过拟合,求解很快,但是缺点就是拟合能力往往不够,对输入样本的特征可分性要求也很高。