目标检测中的非最大值抑制算法

计算机视觉是人工智能的一个重要领域，它可以识别和理解图像和场景。

它包括图像识别、目标检测、图像分割、图像生成、图像超分辨率等多个子领域。由于大量的实际用例，目标检测可能应用地最广。

目标检测

目标检测是指计算机系统定位图像中的目标并识别每个目标的能力。目标检测已广泛应用于人脸检测、车辆检测、行人计数、安全系统和自动驾驶汽车。

目标检测模型从端到端学习范式的发展中受益匪浅：建议、特征和分类器成为一个神经网络，使一般目标检测的结果提高了两倍［1］通常，所有现代目标检测模型都遵循三个步骤：

1．建议窗口的搜索空间（通过滑动窗口或使用建议的稀疏窗口）。

2．使用分类器／回归器对窗口评分。

3．组合可能属于同一对象的窗口。

最后一步称为“非最大抑制”

边界框

在目标检测中，我们通常使用边界框来描述目标在图像中的空间位置。

边界框是一个矩形，使用左上角和右下角坐标绘制。另一种常用的边界框表示法包含矩形的中心以及矩形的高度和宽度。

非最大值算法（NMS）

可以使用以下步骤解释该算法：

输入：边界框列表以及类名称和检测到的每个对象的输出概率。

1．删除输出概率得分小于指定阈值的边界框。

2．按输出概率的降序排列剩余边界框的列表。

3．遍历已排序的边界框列表，直到至少剩下一个元素。

4．从列表中删除第一个边界框，并将其标记为“当前元素”。此外，检查交并比（IOU）。如果IOU高于指定的阈值，则从列表中删除该元素，并将当前元素附加到“最终列表”中

5．重复步骤3和4。

6．返回“最终列表”

NMS算法试运行

假设下面的图像（图1）包含两条狗（左一条：Maya，右一条：Zoro），我们有一个对象检测模型，可以区分图像中的Maya和Zoro。

在使用上图对我们的目标检测模型（无NMS）进行推断时，我们将得到如图2所示的输出。在这里，我们可以看到，我们在单个对象上得到了多个具有各自概率分数的边界框。

我们的目标是为对象选择最合适的边界框。换句话说，我们必须从概率为0．94、0．68和0．47的三个框中选择一个Maya边界框。同样，我们也必须从概率为0．9和0．58的两个边界框中找到Zoro的最佳边界框。

根据算法，我们将首先丢弃所有概率分数低于指定阈值的边界框。例如，如果我们将阈值设置为0．5，我们将丢弃Maya概率为0．47的边界框。

此外，我们将找到概率得分最高的边界框，并将其IOU与同类的所有其他边界框进行检查。如果IOU高于阈值（表示相同的对象），则丢弃概率分数较低的边界框。

同样，我们将对图像中所有检测到的对象执行以下步骤。最终输出如图3所示。

代码

首先，我们将初始化概率置信阈值和IOU阈值。例如，如果一个边界框的概率低于概率置信阈值，那么我们将丢弃该边界框。同样，如果IOU分数高于定义的阈值，我们不会考虑输出概率低的边界框。

import cv2
class NMS：
def ＿＿init＿＿（self）－＞ None：
self．conf ＝ 0．5
self．iou＿threshsold ＝ 0．4

下面截取的代码中的IOU函数计算两个区域的IOU。IOU是两个区域的相交面积与两个区域的并集的比率。在IOU函数中，bboxes1和bboxes2是一个包含以下四个元素的列表：

［ X（top－left）， Y（top－left）， X（bottom－right）， Y（bottom－right）］

def IOU（self， bboxes1， bboxes2）：
bboxes1 ＝［int（i） for i in bboxes1］
bboxes2＝［int（i） for i in bboxes2］

xA ＝ max（bboxes1［0］， bboxes2［0］）
yA ＝ max（bboxes1［1］， bboxes2［1］）
xB ＝ min（bboxes1［2］， bboxes2［2］）
yB ＝ min（bboxes1［3］， bboxes2［3］）
intersection＿area ＝ max（0， xB － xA ＋ 1）＊ max（0， yB － yA ＋ 1）
box1＿area ＝（bboxes1［2］－ bboxes1［0］＋ 1）＊（bboxes1［3］－ bboxes1［1］＋ 1）
box2＿area ＝（bboxes2［2］－ bboxes2［0］＋ 1）＊（bboxes2［3］－ bboxes2［1］＋ 1）

iou ＝ intersection＿area ／ float（box1＿area ＋ box2＿area － intersection＿area）

return iou

下面的代码在图像上绘制边界框，并将概率分数放在框的顶部。参数“images”是图像对象，“bboxes＿list”包含检测到的对象的坐标、类和概率输出。

bboxes＿list ＝［class， X（top－left）， Y（top－left）， X（bottom－right）， Y（bottom－right）， output＿probability］
Sample values：
0 187 90 586 607 0．94
0 120 116 600 370 0．68
1 511 185 961 418 0．58
0 340 145 568 478 0．47
1 524 70 920 565 0．92

def draw＿overlay（self， image， bboxes＿list）：
overlay＿color ＝｛
＇0＇：（0， 255， 0），
＇1＇：（255， 0， 0）
｝
overlay＿thickness ＝ 3
font ＝ cv2．FONT＿HERSHEY＿SIMPLEX
for coord in bboxes＿list：
class＿name ＝ coord［0］
start＿point ＝（int（coord［1］）， int（coord［2］））
end＿point ＝（int（coord［3］）， int（coord［4］））
prob ＝ float（coord［5］）
text＿start＿point ＝（int（coord［1］）， int（coord［2］）－ 10）

image ＝ cv2．rectangle（image， start＿point， end＿point，
overlay＿color［class＿name］， overlay＿thickness）
image ＝ cv2．putText（image， str（prob）， text＿start＿point，
font， 0．8， overlay＿color［class＿name］， overlay＿thickness － 1， cv2．LINE＿AA）

cv2．imshow（＂im＂， image）
cv2．waitKey（0）
cv2．destroyAllWindows（）

以下函数是上述NMS算法的实现。此函数用于在应用非最大值抑制算法后返回所需的边界框。

def nms（self， image， bboxes＿list）：
req＿bboxes， final＿boxes ＝［］，［］
for coord in bboxes＿list：
prob ＝ float（coord［5］）
if prob ＞ self．conf：
req＿bboxes．append（coord）
＃ sorting the bounding boxes based on probability score
bboxes＿sorted ＝ sorted（req＿bboxes， reverse＝True， key＝lambda x： x［5］）
while len（bboxes＿sorted）＞ 0：
＃ removing the best probability bounding box
box ＝ bboxes＿sorted．pop（0）
for b in bboxes＿sorted：
＃ comparing with the same class
if box［0］＝＝ b［0］：
iou ＝ self．IOU（box［1：－1］， b［1：－1］）
if iou ＞＝ self．iou＿threshsold：
＃ if IOU is large then discard the box with lowest probability
bboxes＿sorted．remove（b）
print（len（bboxes＿sorted））
final＿boxes．append（box）
return final＿boxes

以下是NMS类的驱动程序代码。我们首先读取coordinates．txt获取边界框的坐标和其他详细信息；然后，我们应用NMS算法来获得所需的边界框。

if ＿＿name＿＿＝＝＂＿＿main＿＿＂：
image ＝ cv2．imread（＂zoraya．jpg＂）
with open（＂coordinates．txt＂，＇r＇） as f：
data ＝ f．readlines（）
data ＝［i［：－1］．split（＇＇） for i in data］
obj ＝ NMS（）
obj．draw＿overlay（image， data）
final＿boxes ＝ obj．nms（image， data）
obj．draw＿overlay（image， final＿boxes）

coordinates．txt
0 187 90 586 607 0．94
0 120 116 600 370 0．68
1 511 185 961 418 0．58
0 340 145 568 478 0．47
1 524 70 920 565 0．92

结论

本文概述了对非最大值抑制算法的需求以及python实现。此外，我们还使用一个图像示例解释了该算法。

原文标题 : 目标检测中的非最大值抑制算法

目标检测中的非最大值抑制算法

相关推荐