测品娱乐
您的当前位置:首页基于回归深度卷积网络的船舶图像与视频检测

基于回归深度卷积网络的船舶图像与视频检测

来源:测品娱乐
基于回归深度卷积网络的船舶图像与视频检测

作者:黄志坚 张成 王慰慈

来源:《上海海事大学学报》2019年第04期

摘要:

为解决船舶图像与视频检测算法识别率低、实时性差的问题,提出基于回归深度卷积网络的船舶图像与视频检测方法。结合YOLOv2特征提取层和YOLOv3的特征金字塔网络

(featurepyramidnetwork,FPN)层思想设计新的网络结构,验证不同激活函数效果,采用聚类算法设计锚框大小。实验表明,相比于YOLO系列网络,本文的方法在船舶图像与视频检测中效果更好,在测试集上平均精度均值为0.9209,召回率为0.9818,平均交并比为0.7991,在视频检测中每秒钟检测的帧数为78~80。為港口船舶智能管理和无人船视觉处理提供一种准确度高和实时性好的船舶检测方法。 关键词:

船舶检测;回归深度卷积网络;YOLO;港口管理;无人船 中图分类号:U675.79文献标志码:A 收稿日期:2018-11-07 修回日期:2019-03-01

基金项目:国家自然科学基金(61403250) 作者简介:

黄志坚(1979—),男,江西九江人,高级工程师,博士,研究方向为控制算法,(E-mail)zjhuang@shmtu.edu.cn

Shipimageandvideodetectionbasedonregression deepconvolutionalnetwork

HUANGZhijian1,ZHANGCheng1,WANGWeici2

(1.MerchantMarineCollege,ShanghaiMaritimeUniversity,Shanghai201306,China; 2.The711stResearchInstitute,ChinaShipbuildingHeavyIndustryGroup,Shanghai201108,China) Abstract:

Inordertosolvetheproblemsoflowrecognitionrateandpoorreal-timeperformanceofshipimageandvideodetectionalgorithm,

ashipimageandvideodetectionmethodbasedontheregressiondeepconvolutionalnetworkisproposed.CombiningtheYOLOv2featureextractionlayerandtheYOLOv3featurepyramidnetwork(FPN)layer,anewnetworkstructureisdesigned,theeffectsofdifferentactivationfunctionsareverified,

andtheanchorsizeisdesignedbytheclusteringalgorithm.Experimentsshowthat,comparedwiththeYOLOseriesnetwork,

theproposedmethodisbetterinshipimageandvideodetection.Themeanaverageprecisiononthetestsetis0.9209,therecallrateis0.9818,themeanintersectionoverunionis0.7991,

andthenumberofframesdetectedpersecondis78to80inthevideodetection.Itprovidesashipdetectionmethodwithhighaccuracyandgoodreal-timeperformanceforportshipintelligentmanagementandunmannedshipvisualprocessing. Keywords:

shipdetection;regressiondeepconvolutionalnetwork;YOLO;portmanagement;unmannedship 0引言

随着我国经济飞速发展,以及对外贸易日益增长,航运事业的发展也开始向智能化迈进。借助于计算机视觉的船舶图像与视频检测已开始在港口监管服务以及无人船中应用。准确快速的检测方法,不仅对港口管理具有重要的意义,也能够保障无人船的安全行驶。

传统的船舶图像与视频检测分类方法多是基于船舶结构形状进行人工特征设计的方法:2014年蒋少峰等[1]提出基于结构特征的商用船舶分类算法;2016年YKSEL等[2]从三维船舶模型的轮廓图像中提取了船舶特征。这些研究虽然取得了较好的效果,但是在环境背景复杂、船体差异小的情况下不能得到较好的效果,且对船舶的多分类情况识别率不理想。

相对于传统的船舶图像与视频检测分类方法,深度卷积神经网络以其优越的性能在船舶检测分类应用中的地位越来越重要:2016年RAINEY等[3]利用深度卷积神经网络实现了对卫星船舶的分类;2017年戚超等[4]用8层卷积神经网络与支持向量机结合实现了对船舶的精细分类;2018年王新立等[5]通过改进卷积神经网络实现了船舶的目标检测。这些利用深度卷积神经网络的船舶检测分类方法都取得了不错的效果。

随着工程应用中对船舶检测分类的准确率和实时性的要求不断提高,本文提出基于回归深度卷积网络的船舶图像与视频检测方法,结合YOLO[6-8]系列网络,通过端到端的训练,最终在7类船舶图片上实现了定位精度高、平均准确率高、检测速度快的效果。 1深度卷积神经网络

卷积神经网络最早是由加拿大多伦多大学的LeCun教授提出的,主要用于图像的识别。经过十多年的发展,卷积神经网络的深度和宽度不断增加,图像识别的准确率也不断提高。常用的卷积神经网络包括Lenet-5[9]、AlexNet[10]、VGG[11]、GoogLenet[12]、ResNet[13]和DenseNet[14]等。

卷积神经网络的基本结构见图1,主要由输入层、卷积层、池化层、全连接层和输出层组成。

1.1输入层

输入层的功能是接收输入图像,并存储为矩阵

形式。假定卷积神经网络有L层,由x(l)代表第l层的特征,l=1,2,…,L。其中x(l)又由多个特征图组

成,可表示为x(l)=x(l)1,

x(l)2,…,x(l)j,j表示第l层的特征图数量,彩色图像对应的特征表示为 x(1)=x(1)1,x(1)2, x(1)3,其中x(1)1、x(1)2和 x(1)3分别表示R、G和B通道的数据。 1.2卷积层

卷积层的作用是通过卷积操作提取特征。经过合适的设计,随着卷积层的增加,网络的特征表达能力增强。

第l层卷积层的特征图x(l)j通过以下方式计算:

式中:k(l)i,j和b(l)j分别表示卷积核和卷积层的偏移量; G(l)i,j表示该卷积层与前一层特征图之间的连接矩阵,

G(l)i,j取1时x(l-1)i与x(l)j相关联,取0时无关联;符号代表卷积操作;函数f(·)表示激活函数。 1.3池化层

池化层一般设在卷积层后面,池化操作保持了一定的空间不变性,第l层的池化层的特征图x(l)j计算式为

x(l)j=px(l-1)j(2)

式中:p(·)表示池化操作。 1.4全连接层

全连接层设置在特征提取层后面,将提取的深层特征映射为特征向量,全连接层之间的特征向量x(l)计算式为

x(l)=fw(l)x(l-1)+b(l)(3)

式中:w(l)表示权重;b(l)表示偏移量;f(·)表示激活函数。 1.5损失函数

卷积神经网络通过前向传播获得预测值,通过损失函数计算預测值的误差,在图像分类中常用的损失函数交叉熵损失计算式为

C=-1nxyln+(1-y)ln(1-) (4)

式中:x表示样本;y表示预测的输出;表示实际输出;n表示样本总数量。 2本文设计的网络结构

常用的深度卷积神经网络可以分为两类:(1)基于区域提名的RCNN(region-basedconvolutionalneuralnetwork)[15]、Fast-RCNN[16]和Faster-RCNN[17]等;(2)基于回归的ssd[18]、YOLO[6]、YOLOv2[7]和YOLOv3[8]等。基于回归的深度卷积神经网络将卷积神经网

络作为回归器,将待检测图像看成一个候选区输入卷积神经网络,回归目标在待检测图像中的位置信息,通过端到端的训练,快速获得最终的边界框和分类结果。

本次研究结合目前流行的回归深度卷积网络YOLO系列,针对YOLOv2检测效果不理想以及YOLOv3网络庞大、训练识别速度慢的缺点,利用YOLOv2的特征提取层和YOLOv3的特征金字塔(featurepyramidnetwork,FPN)层思想设计新的网络,验证不同激活函数的效果,采用聚类算法设计锚值,在船舶图像与视频检测上取得了较高的准确率和良好的实时性。研究得到的的网络结构见图2。该网络主要由3部分组成:特征提取层、FPN层和预测层,具体介绍如下。 2.1特征提取层

特征提取层的选取是构建网络结构非常重要的一步。在YOLOv3中darknet53为特征提取层,

由于这种提取层层数较多,所以训练的速度和检测的速度都相对较慢。为使网络更加轻量化,本文方法采

用了YOLOv2的特征提取层。YOLOv2的特征提取层具有网络层数相对较少、运算速度快的优势,通过输入416×416×3的彩色图像获取深层特征。

通常情况下,随着特征提取层的增加,网络能获得更具表达能力的深层特征,但是若只是简单地增加网络层数会导致梯度弥散或梯度爆炸。为解决这个问题,在每个卷积层的卷积操作与激活操作之间加入了批标准化策略,见图3。 2.2FPN层

在特征提取层中:浅层特征信息较少,但是位置准确,对预测小目标具有优势;深层特征信息比较丰富,但是位置比较粗略,适合预测大目标。采用YOLOv2的特征提取层使网络轻量化后,为使网络获得更加优秀的效果,利用YOLOv3的多尺度预测思想设计了一种新的FPN层。

利用YOLOv3对3个尺度进行预测,在每个尺度设置3个不同的固定锚值,对于416×416大小的图片,共有107个固定预测框。为减少参数,通过深层特征上采样与特征提取层浅层特征进行融合,最终预测13×13和26×26共2个尺度的特征图,在每个尺度设置5个相同的锚值,总共预测4225个固定预测框。

为更好地使用本文网络结构,用YOLOv2的聚类的方法,并根据收集数据的检测效果进行微调优化,得到的锚值见表1。

2.3预测层

通过在卷积层上进行预测,可以很好地保留空间信息,本文方法在预测层部分采用了YOLOv2的损失函数和预测方法。每个固定框预测7种船舶类别和5个边框信息 (tx,ty,tw,th,to)。目标的置信度Co计算式为 Co=Po×I

I=S(Bdt∩Bgt)S(Bdt∪Bgt) (5)

式中:Po为边界框包含物体的概率,若边界框包含物体则Po=1,否则Po=0;I为预测边界框与真实区域的面积交并比,最大I值对应的物体即为当前检测边界框负责预测的物体;S(·)表示面积;Bgt为训练的参考标准框;Bdt为检测边界框。

通过相对网格坐标来预测目标框的中心位置(图4),如果网格与图像左下角的边距为(cx,cy),以及该网络预测目标框的宽和高分别为pw和ph,修正后的预测目标框的宽和高分别为bw和bh,那么预测值可以表示为

bx=σ(tx)+cx,by=σ(ty)+cy bw=pwexp(tw),bh=phexp(th) Co=σ(to)(6)

式中:σ为sigmoid激活函数,函数值限定在[0,1],用来预测相对于网络中心的偏移;σ(tx)和

σ(ty)分别为预测目标框的中心相对网络左上角的横坐标和纵坐标;σ(to)为预测目标框的置信度。

3实验及分析

本次研究的实验环境配置:CPU为inteli7-77004.2GHz,内存为16GB,显卡为英伟达GTX1080Ti,操作系统Ubantu16.04。实验中采用的数据来自手工选取的4200张船舶图片,包括帆船、集装箱船、游艇、邮轮、渡船、海警船和渔船7个类别,每个类别600张图片。在每个类别中随机抽取其中480张图片作为训练集,其余的120张图片作为测试集,则训练集总共3360张图片,测试集总共840张图片。网络参数设置为:小批量数为等分成8个子批量,迭代次数为8000,动量参数为0.9,权重衰减为0.0005,学习率为0.001。 3.1网络性能评价指标

实验中设I≥0.5对应的样本为真正样本(正样本中被正确预测的样本),I<0.5对应的样本为假正样本。

通过测试集上预测的边界框与实际边界框的交集面积与并集面积之比的平均,记为平均交并比(M),衡量网络的检测定位的精度:

M=1nn-1i=0I(7)

用召回率(R)表示样本中的正样本被正确预测的百分比:

R=tptp+fn(8)

式中:tp表示正样本数,fn表示负样本数。

用准确率(P)表示预测为正的样本中有多少是真正样本:

P=tptp+fp(9)

用准确率曲线与召回率(X轴)圍成的图像面积表示平均精度均值:

A=∫10PdRn(10)

式中:n代表预测类别数目(本文类别为7)。为衡量网络检测视频的速度,实验中使用每秒钟检测的帧数S作为指标。 3.2网络结构有效性实验

为验证本文设计的网络结构的效果,分别采用YOLOv2和YOLOv3在数据集上训练和测试。各网络的评价指标对比见表2。

由表2可知:本文设计的网络结构在3个评价指标上均超过了其他两个网络。 3.3激活函数的有效性验证

为测试激活函数的影响,结合本文设计的网络结构,选取Relu、Elu和Leaky-Relu激活函数作为对比,在测试集上得到表3所示的结果。由于Leaky-Relu激活函数检测效果更好,且比Elu激活函数的运算量更小,故选取Leaky-Relu作为激活函数。 3.4网络效果展示

为达到更好的网络效果,在训练网络时,首先加载使用Imagenet[19]数据集预训练得到的特征提取层权重参数,然后继续训练本文设计的网络和YOLOv3、YOLOv2。通过在测试集上进行测试以及对视频进行测试,最终得到的结果见表4。

可以看出,本文设计的网络在使用预训练权重时平均精度均值稍低于YOLOv3,但是其他指标均优于YOLOv3,尤其在视频检测速度上比YOLOv3的优势更明显。本文设计的网络除视频检测速度略低外,其他各项指标均优于YOLOv2。本文设计的网络检测效果代表性结果见图5。

用本文设计的网络对一张有多艘渔船的图片进行检测,并与用YOLOv3和YOLOv2检测得到的结果做对比。由图6可知,本文设计的网络取得了更好的效果。 4结束语

基于计算机视觉中目标检测技术的理论基础,结合回归深度卷积网络YOLO系列,利用YOLOv2和YOLOv3各自的优势,设计新的网络结构,验证不同激活函数对检测效果的影

响,聚类产生锚值大小,将得到优化的回归深度卷积网络用于对船舶图像与视频的检测,为港口智能化管理和无人船的安全行驶提供了可靠性强、实时性好的视觉信息处理方法。尽管受限于数据集,只做了7种类别的检测,但本文的方法具有一定的指导意义。 参考文献:

[1]蒋少峰,王超,吴樊,等.基于结构特征分析的COSMO-SkyMed图像商用船舶分类算法[J].遥感技术与应用,2014,29(4):607-615.DOI:10.11873/j.issn.1004-0323.2014.4.0607. [2]YKSELGK,YALITUNAB,TARTARF,

etal.Shiprecognitionandclassificationusingsilhouettesextractedfromopticalimages[C]//SignalProcessingandCommunicationApplicationConference.IEEE,2016:1617-1620.DOI:10.1109/SIU.2016.7496065. [3]RAINEYK,REEDERJD,

CORELLIAG.Convolutionneuralnetworksforshiptyperecognition[C]//AutomaticTargetRecognitionXXVI.InternationalSocietyforOpticsandPhotonics,2016,9844:984409.

[4]戚超,王曉峰.基于卷积神经网络的运输船舶分类识别方法[J].微型机与应用,2017,36(17):52-55.DOI:10.19358/j.issn.1674-7720.2017.17.015.

[5]王新立,江福才,宁方鑫,等.基于改进卷积神经网络的船舶目标检测[J].中国航海,2018,41(2):41-45.DOI:CNKI:SUN:ZGHH.0.2018-02-009.

[6]REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylookonce:unified,real-timeobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.IEEE,2016:779-788.DOI:10.1109/CVPR.2016.91.

[7]REDMONJ,FARHADIA.YOLO9000:better,faster,

stronger[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.IEEE,2017:7263-7271.DOI:10.1109/CVPR.2017.690.

[8]REDMONJ,FARHADIA.YOLOv3:anincrementalimprovement[J].arXiv:1804.02767,2018.

[9]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.DOI:10.1109/5.726791.

[10]KRIZHEVSKYA,SUTSKEVERI,

HINTONGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[J].CommunicationsoftheACM,2017,60(6):84-90.DOI:10.1145/3065386.

[11]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[J].arXiv:1409.1556,2014. [12]SZEGEDYC,LIUWei,JIAYangqing,

etal.Goingdeeperwithconvolutions[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.IEEE,2015:1-9.DOI:10.1109/CVPR.2015.7298594. [13]HEKaiming,ZHANGXiangyu,RENShaoqing,

etal.Deepresiduallearningforimagerecognition[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.IEEE,2016:770-778.DOI:10.1109/CVPR.2016.90. [14]HUANGGao,LIUZhuang,VANDERMAATENL,

etal.Denselyconnectedconvolutionalnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.IEEE,2017:4700-4708.DOI:10.1109/CVPR.2017.243. [15]GIRSHICKR,DONAHUEJ,DARRELLT,

etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.IEEE,2014:580-587.DOI:10.1109/CVPR.2014.81.

[16]GIRSHICKR.FastR-CNN[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.IEEE,2015:1440-1448.DOI:10.1109/ICCV.2015.169.

[17]RENShaoqing,HEKaiming,GIRSHICKR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C]//AdvancesinNeuralInformationProcessingSystems.IEEE,2015:91-99.DOI:10.1109/TPAMI.2016.2577031. [18]LIUWei,ANGUELOVD,ERHAND,etal.SSD:

singleshotmultiboxdetector[C]//EuropeanConferenceonComputerVision.Springer,Cham,2016:21-37.DOI:10.1007/978-3-319-448-0_2. [19]RUSSAKOVSKYO,DENGJia,SUHao,

etal.Imagenetlargescalevisualrecognitionchallenge[J].InternationalJournalofComputerVision,2015,115(3):211-252.DOI:10.1007/s11263-015-0816-y. (編辑贾裙平)

因篇幅问题不能全部显示,请点此查看更多更全内容