在目标检测的评价体系中,有一个参数叫做 IoU ,简单来讲就是模型产生的目标窗口和原来标记窗口的交叠率。具体我们可以简单的理解为: 即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集,即为检测的准确率 IoU :
如下图所示:GT = GroundTruth; DR = DetectionResult; 黄色边框框起来的是:GT⋂DR 绿色框框起来的是:GT⋃DR 当然最理想的情况就是 DR 与 GT 完全重合,即 IoU=1
IoU值属于[0,1] 越接近于1表明预测值越接近于真实值,预测效果越好;在目标检测任务中,我们时常会让模型一次性生成大量的候选框(candidate bbox),然后再根据每一个框的置信度对框进行排序,进而依次计算框与框之间的IoU,然后进行NMS非极大值抑制删除多余的检测框。 例如在做人脸检测时,模型的预测结果可能是左图,经过NMS后最终得到的是右图。
在我们得到最终的输出后,计算预测框框与真值框之间的IoU,然后使用1-IoU来作为loss(区间[0,1]找极小值),并以此实现模型的迭代优化。 IoU的计算(坐标格式[left, top, right, bottom], 即bbox左上右下点坐标): xmin = max(pred_bbox[0], gt_bbox[0]) ymin = max(pred_bbox[1], gt_bbox[1]) xmax = min(pred_bbox[2], gt_bbox[2]) ymax = min(pred_bbox[3], gt_bbox[3]) w = np.maximum(xmax - xmin + 1., 0.) h = np.maximum(ymax - ymin + 1., 0.) # 交集 inters = w * h # 并集 union = ((pred_bbox[2] - pred_bbox[0] + 1.) * (pred_bbox[3] - pred_bbox[1] + 1.) + (gt_bbox[2] - gt_bbox[0] + 1.) * (gt_bbox[3] - gt_bbox[1] + 1.) - inters) # 计算IoU值 IoU = inters / union
通过IoU来评判两个图像的重合度具有以下几点优点:
具有尺度不变性;满足非负性;满足对称性;通过IoU来评判两个图像的重合度具有以下几点缺点:
如果|A∩B|=0,也就是两个图像没有相交时,无法比较两个图像的距离远近;无法体现两个图像到底是如何相交的。