Yolo-v3+Python 3.7目标检测 物体识别
前言一、新建工程二、编写.py程序1.获取相机2.读入数据3.读入Coco Names名单4.载入模型5.将图像输入到网络6.获取网络输出7.寻找物体8.运行程序完整代码
总结
前言
运行yolo v3 有很多方法,最简单的一种就是使用opencv与numpy。 此文程序在PyCharm中编译运行。 本文程序和所需yolo文件,coco names, 源代码都可在以下百度云盘链接下载: 链接:https://pan.baidu.com/s/1575DPtD-Zp2ZADWgGJDT0Q 提取码:mhad
一、新建工程
新建工程"Object_Detection",并在File-Setting-Project:Object_Detection中点击右上角加号,搜索并添加我们需要的library:opencv-python,numpy。
接着,我们需要前往yolo官网下载下图中所需的config和weight文件:YOLOv3-tiny.Cfg与YOLOv3-tiny.weights, YOLOv3.Cfg与YOLOv3.weights(YOLOv3即为320p版本) Yolo官网链接如下:https://pjreddie.com/darknet/yolo/ 如果下载速度太慢,可以使用以下百度网盘链接进行下载: 链接:https://pan.baidu.com/s/1575DPtD-Zp2ZADWgGJDT0Q 提取码:mhad
二、编写.py程序
1.获取相机
引入opencv-python,numpy库:
import cv2
import numpy
as np
2.读入数据
为了从相机获取帧,我们将声明一个Video Capture对象,并为其指定摄像机的索引。如果您使用的是笔记本电脑,或者仅连接了一个摄像头,则可以将其保留为0。然后,我们创建一个while循环,以不断获取来自摄像头的最新帧。使用read 方法获取图像,然后使用imshow()函数显示图像 。
cap
= cv2
.VideoCapture
(0)
while True:
success
, img
= cap
.read
()
cv2
.imshow
('Image', img
)
cv2
.waitKey
(1)
运行后可获取摄像头实时画面。 waitKey()是在一个给定的时间内(单位ms)等待用户按键触发, 如果用户没有按下 键,则接续等待(循环)。
3.读入Coco Names名单
加载yolo3模型,由于它是根据coco dataset进行训练的,因此我们将首先收集class names。可以从coco.names文件导入(可在云盘中下载)。当然也可以手动输入所有类名。但由于有80个不同的类,因此最好使用该文件导入。【可以在PyCharm中打开coco.names文件查看这80各不同的类】
classesFile
= "coco.names"
classNames
= []
with open(classesFile
, 'rt') as f
:
classNames
= f
.read
().rstrip
('\n').split
('\n')
print(classNames
)
4.载入模型
任何的模型都有两个主要组成部分:一个是结构体系,另一个是权重。对于yolo-V3,这两个组成部分被分为了两个不同的文件。因此,我们将导入包含结构的configuration文件和包含权重的weights文件。
在Yolo官网上,我们可以找到不同的.cfg和.weight文件。在这个项目里面我们可以先试用tiny来实现快速的识别,以适应不同配置的PC。
modelConfiguration
= "yolov3-tiny.cfg"
modelWeights
= "yolov3
-tiny
.weights
使用readNetFromDarkNet function载入我们的模型。同时将后端设置为openCV,将目标设置为CPU。
net
= cv2
.dnn
.readNetFromDarknet(modelConfiguration
, modelWeights
)
net
.setPreferableBackend(cv2
.dnn
.DNN_BACKEND_OPENCV
)
net
.setPreferableTarget(cv2
.dnn
.DNN_TARGET_CPU
)
5.将图像输入到网络
由于无法将相机拍摄的图像直接发送到网络。它必须采用blob的格式。我们可以使用blobFromImage函数从图像创建4维blob。输入为img, 可选参数分别为: 图像各通道数值的缩放比例,输出图像的空间尺寸, 各通道减去的值,以降低光照的影响, 交换蓝色和红色通道, 图像裁剪,默认为False.。
blob
= cv2
.dnn
.blobFromImage
(img
, 1/255, (320, 320), [0, 0, 0], 1, crop
=False)
net
.setInput
(blob
)
6.获取网络输出
由于Yolo3体系结构具有3个输出层(如下图所示),我们必须找到它们对应的名称,以获得它们的输出。
获取Layer名称,我们需要使用net.getLayerNames函数。我们可以打印这些名称,可以看到这会返回所有的layer名称。 但在这里,我们只需要输出层的名称。因此,我们可以使用getUnconnectedOutLayers函数,该函数只返回输出层的索引。现在我们可以简单地使用这些索引从我们的layersNames列表中找到名称。由于我们将0用作第一个元素,因此必须从getUnconnectedOutLayers函数获得的索引中减去1。
layerNames
= net
.getLayerNames
()
print(layerNames
)
outputNames
= [layerNames
[i
[0]-1] for i
in net
.getUnconnectedOutLayers
()]
print(outputNames
)
现在,我们可以运行前向通过并找到网络的输出。
outputs
= net
.forward
(outputNames
)
print(outputs
[0].shape
)
print(outputs
[1].shape
)
print(outputs
[2].shape
)
'''The first 4 values of 85 are: Center X, Center Y, Width, Height
The 5th value is 'Confidence' that there is an object in the box
The other 80 values are the prediction probabilities of 80 classes'''
这将返回以下大小的3个数组的列表
[300 x 85]
[1200 x 85]
[4800 x 85]
这里的300、1200和4800是我们从各个输出层获得的box数量。但是85的值是多少?
定义一个box,我们需要中心位置center-x,center-y和宽、高w,h定义它。这意味着我们只需要4个值(x,y,w,h),所以我们的数组应该是300×4、1200×4和4800×4,那么剩下的81个值是什么?
第5个值是confidence,它告诉我们此框中有一个对象的可能性有多大。其余的80个值分别对应于每个类别的置信度。因此,如果图像中有汽车,则5 + 3 =第8个元素将显示高置信度值,例如0.93(汽车是coco.names列表中的第3个元素)。
7.寻找物体
由于我们有了包含盒子所有信息的数组,我们就可以过滤掉低confidence的数组,并创建一个包含对象的相关盒子的列表。我们将使用名称findObjects来创建一个子函数。
为了存储相关框的信息,我们将创建3个list。一个包含边界框角点的信息,另一个具有最高confidence的Class ID,最后一个具有最高分类的confidence。
boundingBox
= []
classIDs
= []
confidences
= []
接着,我们将遍历三个输出层,得到所有的box。这里我们引入det(detection的缩写),做获得每个class的confidence时,我们需要先去掉前5个数值。
def findObjects(outputs
, img
):
height
, width
, channel
= img
.shape
boundingBox
= []
classIDs
= []
confidences
= []
for outputs
in outputs
:
for det
in outputs
:
scores
= det
[5:]
classID
= np
.argmax
(scores
)
confidence
= scores
[classID
]
在获得所有的box之后,我们将设置一个阈值。只有当confidence远胜于此阈值时,才有资格作为检测到的对象。然后我们可以得到x,y,w,h的像素值。要获得像素值,我们可以简单地将其分别乘以宽度和高度。注意,我们将使用x,y作为原点,而不是cx,cy作为中心点。最后,我们将这些值append到相应的list中。
if confidence
> threshold
:
w
, h
= int(det
[2]*width
), int(det
[3]*height
)
x
, y
= int((det
[0]*width
) - w
/2), int(det
[1]*height
- h
/2)
boundingBox
.append
([x
, y
, w
, h
])
classIDs
.append
(classID
)
confidences
.append
(float(confidence
))
此时,当我们运行此程序时会发现,会出现有一个以上的盒子指向同一个对象。在这种情况下,尽管实际上我们只有一个对象,但是我们有2次检测。下面是一个示例:
为了避免出现这样的情况,我们将使用 Non Max Suppression(非最大抑制)cv2.dnn.NMSBoxes()。NMS消除了重叠的框。它找到重叠的框,然后根据它们的confidence,将选择confidence最大的框并抑制其他所有非最大框。因此,我们将使用内置的NMSBoxes函数。该函数输入为预测框左上角和右下角的尺寸,它们的confidence置信度,置信度阈值和nmsThreshold。
indices
= cv2
.dnn
.NMSBoxes
(boundingBox
, confidences
, threshold
, nms_threshold
=0.2)
这时,我们已经找到了置信度最大的box,接着,我们可以简单地绘制该box的边框,并显示检测到的对象名称和置信度值。
for i
in indices
:
i
= i
[0]
box
= boundingBox
[i
]
x
,y
,w
,h
= box
[0],box
[1],box
[2],box
[3]
cv2
.rectangle
(img
, (x
,y
),(x
+w
, y
+h
),(255,0,255),2)
cv2
.putText
(img
,f
'{classNames[classIDs[i]].upper()} {int(confidences[i]*100)}%',
(x
,y
-10), cv2
.FONT_HERSHEY_SIMPLEX
, 0.6, (255,0,255),2)
8.运行程序
当我们完成代码编写后(完整代码见底部),可以分别使用320和tiny来测试程序。可以发现他们都可以准确地检测到物体,并显示名称和置信度,但是320的准确度更高(帧率较低),tiny的速度更快,但可靠性稍低于320。
完整代码
import cv2
import numpy as np
cap
= cv2
.VideoCapture(0)
classesFile
= 'coco.names'
classNames
= []
with
open(classesFile
, 'rt') as f
:
classNames
= f
.read().rstrip('\n').split('\n')
print(classNames
)
print("Class number: ", len(classNames
))
# Declare path variable
modelConfiguration
= 'yolov3-tiny.cfg'
modelWeights
= 'yolov3-tiny.weights'
threshold
= 0.4
# Load model
net
= cv2
.dnn
.readNetFromDarknet(modelConfiguration
, modelWeights
)
net
.setPreferableBackend(cv2
.dnn
.DNN_BACKEND_OPENCV
)
net
.setPreferableTarget(cv2
.dnn
.DNN_TARGET_CPU
)
def
findObjects(outputs
, img
):
height
, width
, channel
= img
.shape
boundingBox
= []
classIDs
= []
confidences
= []
for outputs in outputs
:
for det in outputs
:
scores
= det
[5:]
classID
= np
.argmax(scores
)
confidence
= scores
[classID
]
if confidence
> threshold
:
w
, h
= int(det
[2]*width
), int(det
[3]*height
) #Box Width and Height
x
, y
= int((det
[0]*width
) - w
/2), int(det
[1]*height
- h
/2) # Center point
boundingBox
.append([x
, y
, w
, h
])
classIDs
.append(classID
)
confidences
.append(float(confidence
))
# print(len(boundingBox))
indices
= cv2
.dnn
.NMSBoxes(boundingBox
, confidences
, threshold
, nms_threshold
=0.2)
for i in indices
:
i
= i
[0]
box
= boundingBox
[i
]
x
,y
,w
,h
= box
[0],box
[1],box
[2],box
[3]
cv2
.rectangle(img
, (x
,y
),(x
+w
, y
+h
),(255,0,255),2)
cv2
.putText(img
,f
'{classNames[classIDs[i]].upper()} {int(confidences[i]*100)}%',
(x
,y
-10), cv2
.FONT_HERSHEY_SIMPLEX
, 0.6, (255,0,255),2)
while True
:
success
, img
= cap
.read()
blob
= cv2
.dnn
.blobFromImage(img
, 1/255, (320, 320), [0, 0, 0], 1, crop
=False
)
net
.setInput(blob
)
layerNames
= net
.getLayerNames()
#print(layerNames)
outputNames
= [layerNames
[i
[0]-1] for i in net
.getUnconnectedOutLayers()]
#print(outputNames) # Find the output layers [3 different output layers]
# Set the outputs
outputs
= net
.forward(outputNames
)
# print(outputs[0].shape) # Bounding boxes
# print(outputs[1].shape)
# print(outputs[2].shape)
'''The first
4 values of
85 are
: Center X
, Center Y
, Width
, Height
The
5th value is
'Confidence' that there is an object in the box
The other
80 values are the prediction probabilities of
80 classes
'''
findObjects(outputs
, img
)
cv2
.imshow('image', img
)
cv2
.waitKey(1)
总结
以上是yolo v3的一个基本尝试,速度与识别准确度都尚可。我也还在入门学习,如有错误请指正。