任朝東,張得禮
(南京航空航天大學(xué)機(jī)電學(xué)院,江蘇 南京 210000)
隨著社會(huì)的快速發(fā)展,新能源汽車逐漸進(jìn)入人們的生活,電動(dòng)汽車是應(yīng)用最為廣泛的一種。在電動(dòng)汽車的實(shí)際使用中,如何安全高效地為電動(dòng)汽車充電問題一直困擾著人們。人工操作的電動(dòng)汽車充電過程存在線路不安全、作業(yè)效率低下等問題,因此,一些由機(jī)器人代替人工完成充電作業(yè)的自動(dòng)化解決方案應(yīng)運(yùn)而生。在這些解決方案中,通常使用視覺或者激光雷達(dá)等手段[1]引導(dǎo)機(jī)器人實(shí)現(xiàn)充電槍的抓取以及與充電插口的插拔對(duì)接,所以對(duì)于一個(gè)機(jī)器人自動(dòng)化充電系統(tǒng),充電口的檢測(cè)和識(shí)別是其中最重要的部分之一,具有較高的研究價(jià)值和意義。
目前的充電口檢測(cè)算法主要利用充電口自身顏色、形狀方面的特性,使用傳統(tǒng)手工特征結(jié)合機(jī)器學(xué)習(xí)的方式進(jìn)行檢測(cè)和識(shí)別,而使用基于深度學(xué)習(xí)的方法進(jìn)行充電口檢測(cè)的相關(guān)研究較少。
隨著硬件算力的提升,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法快速發(fā)展,相比于傳統(tǒng)手工特征,卷積神經(jīng)網(wǎng)絡(luò)可以提取目標(biāo)的高層級(jí)語義特征,在自然場(chǎng)景下具有更高的魯棒性和準(zhǔn)確率。
因此,本文提出一種基于Faster-RCNN的充電口檢測(cè)算法,在自建的充電口數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試;設(shè)計(jì)一種結(jié)合顯著圖像的RPN網(wǎng)絡(luò)和適用于充電口檢測(cè)的多尺度MB-LBP特征與Faster-RCNN框架相結(jié)合,以獲得更高的候選區(qū)域召回率和檢測(cè)準(zhǔn)確率。
目前,應(yīng)用在充電口的檢測(cè)和識(shí)別方法以傳統(tǒng)方法為主。紀(jì)柱[2]提出了一種基于Hu矩不變特征和LBP紋理特征的充電口檢測(cè)算法,使用輪廓查找確定候選區(qū)域,然后基于聯(lián)合特征對(duì)區(qū)域進(jìn)行識(shí)別,在自建的數(shù)據(jù)集上識(shí)別率達(dá)到了93%,但該算法沒有考慮背景影響,復(fù)雜場(chǎng)景下的算法性能沒有體現(xiàn),泛化性能弱。項(xiàng)博良等[3]提出了一種基于橢圓擬合的充電口檢測(cè)算法,基于特定策略的弧段搜索與最小二乘橢圓擬合檢測(cè)充電口,其弧段搜索策略在復(fù)雜背景下是否有效仍有待商榷。Walzel等[4]提出了一種基于形狀匹配的識(shí)別方法,基于模版匹配一類的算法當(dāng)視角改變時(shí),算法準(zhǔn)確率會(huì)大大降低。張輝等[5]提出了一種基于HSI顏色模型的充電口檢測(cè)算法,但是基于固定閾值的分割方法不能很好地解決場(chǎng)景環(huán)境光照變化問題。段崢祺[6]提出了一種基于Hough圓變換的檢測(cè)方法,使用一些自適應(yīng)策略去保證輪廓提取的魯棒性。
綜合上述分析,可以看出,傳統(tǒng)方法的主要問題在于自然場(chǎng)景下的魯棒性和準(zhǔn)確率不夠高,很難對(duì)復(fù)雜場(chǎng)景提取出適用性好的特征[7]。所以,本文引入Faster-RCNN用于電動(dòng)汽車充電口檢測(cè),由于充電口檢測(cè)目前沒有公開數(shù)據(jù)集,所以根據(jù)需求自建數(shù)據(jù)樣本。為了提升模型在自建數(shù)據(jù)集上訓(xùn)練的性能,增加顯著化增強(qiáng)的圖像作為RPN網(wǎng)絡(luò)的輸入,本文設(shè)計(jì)了一種多尺度MB-LBP特征聯(lián)合神經(jīng)網(wǎng)絡(luò)分類進(jìn)充電口行識(shí)別以保證算法的識(shí)別準(zhǔn)確率。
本文設(shè)計(jì)的用于充電口檢測(cè)的算法框架如圖1所示。
圖1 算法流程圖
算法模型主要由圖像特征提取模塊、候選區(qū)域預(yù)測(cè)模塊、候選區(qū)域分類模塊3個(gè)部分組成。特征提取模塊主要由特征提取網(wǎng)絡(luò)(如VGG-16)和顯著化處理構(gòu)成,為了讓2個(gè)部分提取的特征圖尺寸一致,在顯著化處理的圖像后增加一個(gè)卷積層進(jìn)行特征提取,聯(lián)合特征提取網(wǎng)絡(luò)抽取的特征送入RPN網(wǎng)絡(luò)進(jìn)行候選區(qū)域預(yù)測(cè);候選區(qū)域預(yù)測(cè)模塊主要由改進(jìn)的RPN網(wǎng)絡(luò)和ROI池化層構(gòu)成,由于改變了RPN網(wǎng)絡(luò)的輸入,所以根據(jù)檢測(cè)目標(biāo)自身的顏色形狀特性,重新設(shè)計(jì)了RPN網(wǎng)絡(luò)的anchor尺寸。RPN網(wǎng)絡(luò)預(yù)測(cè)的區(qū)域經(jīng)過ROI池化送入識(shí)別模塊進(jìn)行分類預(yù)測(cè);候選區(qū)域分類模塊由2個(gè)部分組成,如圖2所示,由多尺度MB-LBP特征結(jié)合SVM分類器的預(yù)測(cè)模塊以及參照Faster-RCNN的全連接分類預(yù)測(cè)模塊組成,等同于由2個(gè)級(jí)聯(lián)的分類器對(duì)候選區(qū)域做最后綜合判定以及回歸框精修。
圖2 分類預(yù)測(cè)模塊
Faster-RCNN中RPN網(wǎng)絡(luò)的輸入一般通過遷移學(xué)習(xí)直接用訓(xùn)練好的模型(如VGG-16)進(jìn)行特征提取,所以,RPN網(wǎng)絡(luò)的輸出缺少約束,預(yù)測(cè)窗口會(huì)遍布圖像,背景錯(cuò)誤率很高[8],當(dāng)應(yīng)用于充電口檢測(cè)時(shí),過多無用的候選區(qū)域會(huì)影響檢測(cè)速度。因此本文提出一種改進(jìn)的RPN網(wǎng)絡(luò),增加顯著化處理的圖像作為RPN網(wǎng)絡(luò)的輸入,用已經(jīng)在顏色形狀等低級(jí)特征方面增強(qiáng)過的特征圖,使得RPN網(wǎng)絡(luò)更關(guān)注圖像存在充電口的區(qū)域,提升RPN網(wǎng)絡(luò)候選區(qū)域預(yù)測(cè)質(zhì)量。
為了將圖像中包含充電口的區(qū)域顯著化,需要對(duì)圖像預(yù)處理,在各顏色通道做強(qiáng)度值變換。電動(dòng)汽車充電口一般為黑色塑料質(zhì)地,顏色信息不豐富,根據(jù)生物體的注意力機(jī)制,在圖像中一般不如其他顏色信息豐富的區(qū)域或者物體明顯,因此,需要通過圖像預(yù)處理,提升圖像黑色區(qū)域的強(qiáng)度而抑制其他顏色豐富的區(qū)域,保證含充電口區(qū)域能夠被顯著化。
如圖3所示,充電插口整體呈現(xiàn)黑色,RGB三色通道分量的數(shù)值都不高,且各通道數(shù)值相近,一般都會(huì)處于圖像中低灰度值區(qū)域。而自然場(chǎng)景下采集的圖像(非天空區(qū)域)RGB通道分量中至少有一個(gè)顏色通道強(qiáng)度值很低[9]。因此考慮利用RGB通道分量之間的差異度和強(qiáng)度值對(duì)各通道進(jìn)行處理,處理后各通道計(jì)算公式如下:
圖3 充電插座圖像
C(x,y)=(1-N(C(x,y))×255×K
(1)
(2)
N(x)=(x-xmin)/(xmax-xmin)
(3)
式(1)對(duì)每個(gè)像素進(jìn)行全局歸一化后,乘上變換系數(shù)K,變換系數(shù)K與像素RGB各通道分量的最大值最小值有關(guān),差異度越大,系數(shù)越小,差異度越小,系數(shù)越大。經(jīng)過處理后的圖像中黑色區(qū)域的強(qiáng)度值被顯著增強(qiáng),而顏色豐富區(qū)域被有效抑制。
圖像經(jīng)過預(yù)處理后,被增強(qiáng)的區(qū)域不僅包括充電口,還可能包括背景、陰影等同樣是深黑色的區(qū)域,這些非目標(biāo)部分可以通過在原圖上進(jìn)行顯著化處理予以抑制,本文使用Itti[10]提出的快速顯著圖模型模擬生物體視覺注意機(jī)制,對(duì)每個(gè)像素點(diǎn)在顏色、亮度等方面與周圍背景作比較,結(jié)合預(yù)處理得到的圖像確定那些真正可能包含充電口的區(qū)域。至此,如圖4所示,包含充電口的目標(biāo)區(qū)域被顯著化。
圖4 顯著化圖像
沿用Faster-RCNN[11]的思路,本文仍使用RPN網(wǎng)絡(luò)進(jìn)行候選區(qū)域提取,但是增加了顯著圖像作為網(wǎng)絡(luò)的輸入,因此需要對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)做出調(diào)整。調(diào)整后的RPN網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 結(jié)合顯著圖的RPN網(wǎng)絡(luò)
輸入的顯著特征圖像為歸一化的特征圖集在圖像金字塔的第4層合并,與原圖像的尺度比為1∶16,特征圖像的每個(gè)像素可以映射回原圖像一塊大小為16×16的區(qū)域。顯著化特征圖像已經(jīng)將顏色、輪廓等重要的低級(jí)特征顯著化,更有利于網(wǎng)絡(luò)的定位,但是低級(jí)特征的語義信息較弱,高級(jí)特征的語義信息更加豐富,對(duì)于目標(biāo)的識(shí)別貢獻(xiàn)度更高[12]。為了能夠較好地檢測(cè)目標(biāo),在特征圖像后面增加了一層卷積層用于更高級(jí)的特征提取,卷積核的大小為8×8,步長為3。由于RPN網(wǎng)絡(luò)的輸入,結(jié)構(gòu)有所改變,特征圖所對(duì)應(yīng)的感受野[13]發(fā)生了變化,根據(jù)被檢測(cè)目標(biāo)的幾何形狀特性,在原圖映射的anchor尺寸和數(shù)量都需要作出調(diào)整。充電插口的形狀較為方正,所以設(shè)置特征圖每個(gè)點(diǎn)對(duì)應(yīng)的anchor覆蓋面積分別為{224,448}×{224,448},長寬比仍設(shè)置為{1∶1,1∶2,2∶1}。即每一個(gè)特征點(diǎn)對(duì)應(yīng)生成6組anchor用于網(wǎng)絡(luò)的定位預(yù)測(cè)。對(duì)于候選區(qū)域回歸損失仍使用smooth_l1損失函數(shù),該損失函數(shù)的平滑性可以有效防止梯度爆炸[14]。
直接使用Faster-RCNN模型對(duì)充電口進(jìn)行檢測(cè),由于充電口自身顏色形狀的特性,容易與圖像中其他深黑色區(qū)域(如陰影、深色背景)混淆,如圖6所示,錯(cuò)誤地將背景中的黑色區(qū)域以及另一個(gè)黑色物體識(shí)別為充電口。而卷積神經(jīng)網(wǎng)絡(luò)模型具有可解釋性差的特點(diǎn),難以理解計(jì)算機(jī)所學(xué)習(xí)的特征,一般通過增加網(wǎng)絡(luò)層數(shù)或者擴(kuò)充數(shù)據(jù)集來解決這個(gè)問題。但是網(wǎng)絡(luò)層數(shù)的增加容易造成過擬合,訓(xùn)練集的擴(kuò)充也會(huì)增加成本,因此考慮結(jié)合可解釋性良好的傳統(tǒng)手工特征進(jìn)行識(shí)別。
圖6 Faster-RCNN預(yù)測(cè)圖像
LBP紋理特征是一種常用于目標(biāo)檢測(cè)和識(shí)別的二值特征。文獻(xiàn)[2]已證明LBP特征可以用于充電口的檢測(cè)。LBP特征的提取方式是對(duì)于圖像的每一個(gè)像素點(diǎn),與其周圍的點(diǎn)進(jìn)行比較,根據(jù)比較結(jié)果確定該點(diǎn)的LBP特征值。在傳統(tǒng)LBP特征的基礎(chǔ)上,又有學(xué)者提出了對(duì)LBP特征各種改進(jìn),例如圓形LBP特征[15]、MB-LBP特征[16]和LBP特征的等價(jià)模式[17]等。使用圓形LBP特征、MB-LBP特征、等價(jià)模式LBP特征對(duì)含充電口圖像進(jìn)行特征提取結(jié)果如圖7所示。
圖7 各種局部二值特征提取效果圖
可以看出,MB-LBP特征對(duì)充電口紋理的提取效果最精細(xì),對(duì)圖像的特征提取效果最好。因此,本文選擇MB-LBP特征用于充電口識(shí)別。MB-LBP特征將像素點(diǎn)的灰度值比較轉(zhuǎn)化為區(qū)域均值間的灰度值比較,以獲得比傳統(tǒng)的LBP特征更好的抗干擾能力[18]和更高的識(shí)別精度,但是其識(shí)別效果很依賴于子窗口的大小選擇[19],過大或者過小的子窗口都會(huì)造成識(shí)別精度的下降[20]。將數(shù)據(jù)集中含充電口圖像按尺度大、中、小進(jìn)行劃分,使用不同子窗口大小的MB-LBP特征進(jìn)行充電口識(shí)別準(zhǔn)確率如表1所示。
表1 各尺度MB-LBP特征識(shí)別率 單位:%
從表1可以看出,MB-LBP特征子識(shí)別率與窗口尺寸和檢測(cè)目標(biāo)尺度相關(guān),隨著子窗口尺寸的增大,對(duì)大尺度的充電口目標(biāo)檢測(cè)效果越好。因此,本文提出一種應(yīng)用于充電口的檢測(cè)和識(shí)別的多尺度MB-LBP特征,特征提取步驟如下:
1)沿用MB-LBP特征的研究思路,如圖8所示,將圖像劃分為m×n個(gè)子區(qū)域和3×3塊區(qū)域[21],但是對(duì)圖像子區(qū)域的劃分不采用單一子窗口尺寸,在傳統(tǒng)使用3×3的子窗口進(jìn)行均值劃分的基礎(chǔ)上,增加3×6、6×3、6×6子窗口均值劃分,在各個(gè)塊區(qū)域中計(jì)算各個(gè)子窗口劃分下的MB-LBP特征,可以得到一組維度為4×9×256特征向量。
圖8 改進(jìn)的LBP特征計(jì)算流程
2)考慮到使用不同尺度子窗口進(jìn)行的特征采集,將圖像分割的區(qū)域數(shù)量會(huì)存在較大差異[22],因此對(duì)不同尺度子窗口提取的特征進(jìn)行歸一化[23]處理,將特征向量歸一化到其生成區(qū)域數(shù)量,歸一化計(jì)算公式為:
N(L)=N(L(3,3))+N(L(3,6))+N(L(6,3))+N(L(6,6))
(4)
(5)
(6)
其中,L表示歸一化后的融合特征,而Lδ表示在δ尺度子窗口下提取的MB-LBP特征,H、W分別表示原圖的長度和寬度,δh、δw表示δ尺度子窗口的長度和寬度。
3)使用主成分分析(PCA)[24]的方法對(duì)上述提取的LBP特征進(jìn)行特征降維,將特征維數(shù)降至400維,以避免因?yàn)樘卣飨蛄康倪^度冗余而造成檢測(cè)識(shí)別精度下降[25]。
4)將降維后的特征向量送入支持向量機(jī)(SVM)[26]分類器進(jìn)行訓(xùn)練和測(cè)試,考慮到訓(xùn)練集數(shù)據(jù)量大小與特征維數(shù)關(guān)系,本文使用線性核支持向量機(jī)。
本文在實(shí)驗(yàn)室環(huán)境內(nèi)使用國標(biāo)直流快充充電插座進(jìn)行圖像采集,建立充電口識(shí)別數(shù)據(jù)集。共采集充電口圖像900幅,圖像分辨率為864×648,隨機(jī)抽取600幅圖片用于模型訓(xùn)練,剩余300幅用于測(cè)試候選區(qū)域生成質(zhì)量及識(shí)別準(zhǔn)確率,典型圖像如圖9所示。網(wǎng)絡(luò)采用隨機(jī)梯度下降進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置為0.02,設(shè)置迭代次數(shù)為50次。
圖9 數(shù)據(jù)集圖片樣例
為了驗(yàn)證本文改進(jìn)的RPN網(wǎng)絡(luò)的有效性和準(zhǔn)確性,與Faster R-CNN中基于VGG-16為特征提取的網(wǎng)絡(luò)進(jìn)行比較,在交并比IOU分別為0.6、0.7、0.8、0.9條件下的召回率如圖10所示。
圖10 不同交并比IOU下本文改進(jìn)RPN網(wǎng)絡(luò)與基于VGG-16特征提取網(wǎng)絡(luò)召回率
在不同交并比下,本文改進(jìn)的RPN網(wǎng)絡(luò)對(duì)比Faster R-CNN中基于VGG-16特征網(wǎng)絡(luò),在交并比IOU為0.6~0.8之間時(shí),召回率高于VGG-16,但當(dāng)IOU>0.8時(shí),召回率的下降速度高于VGG-16。這是因?yàn)楸疚乃倪M(jìn)的RPN網(wǎng)絡(luò)其輸入的是顯著化的圖像,會(huì)丟失圖像中的一些細(xì)節(jié)信息,但對(duì)目標(biāo)的整體特征有更好的描述,所以當(dāng)交并比設(shè)置在0.7~0.8之間時(shí),本文改進(jìn)的RPN網(wǎng)絡(luò)能夠很好地利用特征圖中的信息進(jìn)行候選區(qū)域的生成和建議。
傳統(tǒng)的目標(biāo)檢測(cè)方法中常用的特征有HOG特征、LBP特征、Haar特征等,或者是上述特征的組合例如LBP+HOG特征,為了驗(yàn)證本文所改進(jìn)的特征與LBP特征的有效性,與傳統(tǒng)特征在自建的數(shù)據(jù)集上結(jié)合SVM分類器進(jìn)行識(shí)別率和算法速度方面的比較,如表2所示。
表2 本文改進(jìn)LBP特征與其他常用的目標(biāo)檢測(cè)特征結(jié)合SVM分類器實(shí)驗(yàn)結(jié)果
本文所改進(jìn)的LBP特征在提取速度上會(huì)略慢于傳統(tǒng)LBP特征和MB-LBP特征,這是因?yàn)樯婕岸鄠€(gè)尺度下的特征計(jì)算與合并,但是精度相比于傳統(tǒng)特征有了較大提升,與基于HOG+LBP的組合特征相比,識(shí)別率提升了8個(gè)百分點(diǎn),識(shí)別耗時(shí)減少了約60 ms。
為了驗(yàn)證本文算法檢測(cè)效果,使用本文算法和Faster-RCNN對(duì)測(cè)試集上不同尺度大小的充電口的檢測(cè)結(jié)果如圖11和圖12所示。
圖11 不同尺度的充電插口本文算法檢測(cè)效果
圖12 不同尺度的充電插口Faster-RCNN檢測(cè)效果
對(duì)測(cè)試集上不同光線條件下的充電口檢測(cè)效果如圖13和圖14所示。
圖13 不同光線條件下本文算法的充電插口檢測(cè)效果
圖14 不同光線條件Faster-RCNN的充電插口檢測(cè)效果
從實(shí)驗(yàn)結(jié)果來看,在自然光條件下或者明亮的場(chǎng)景中,原Faster-RCNN算法和本文算法對(duì)不同尺度的充電口檢測(cè)效果都比較好。但Faster-RCNN可能是由于訓(xùn)練集中缺少對(duì)應(yīng)的反例,錯(cuò)誤地將背景中一些比較相似的目標(biāo)識(shí)別為充電口。而本文算法由于級(jí)聯(lián)了紋理特征對(duì)目標(biāo)區(qū)域進(jìn)行分類,能夠較好地區(qū)分這些非充電口目標(biāo),在自然場(chǎng)景下的檢測(cè)效果有了比較明顯的提升。在光照不足的場(chǎng)景中,如圖13和圖14中的最后一幅圖像所示,當(dāng)背景相對(duì)復(fù)雜時(shí),由于圖像能夠提供的信息很少,不論是對(duì)目標(biāo)區(qū)域的回歸精度還是識(shí)別分類的準(zhǔn)確性,2種算法都有所下降,但本文算法仍能保持不錯(cuò)的檢測(cè)效果。其他檢測(cè)錯(cuò)誤或沒有檢測(cè)到充電口的例子如圖15所示。產(chǎn)生這種現(xiàn)象的原因有2點(diǎn):1)在過于模糊和昏暗的場(chǎng)景下或是光線直接照射的情況下,充電口區(qū)域會(huì)變得很模糊或者泛白反光,造成部分紋理信息丟失,而對(duì)于弱紋理物體,LBP特征的識(shí)別準(zhǔn)確率低;2)當(dāng)圖像整體強(qiáng)度值很低并且圖像上充電口區(qū)域比較小時(shí),即使對(duì)圖像進(jìn)行了預(yù)處理,也很難將充電口區(qū)域進(jìn)行顯著化,所以區(qū)域預(yù)測(cè)網(wǎng)絡(luò)對(duì)這些區(qū)域沒有響應(yīng),導(dǎo)致后面區(qū)域回歸的不準(zhǔn)確和分類錯(cuò)誤。
圖15 漏檢和錯(cuò)檢圖像實(shí)例
為了評(píng)估本文提出的算法精度,在自建數(shù)據(jù)集上與基于VGG-16、ResNet特征提取網(wǎng)絡(luò)的Faster-RCNN進(jìn)行比較,結(jié)果如表3所示。
表3 算法精度比較
從實(shí)驗(yàn)結(jié)果可以看出,本文算法比原Faster-RCNN(基于VGG-16)模型在充電口檢測(cè)精度提升了約2個(gè)百分點(diǎn),提升點(diǎn)在于將一些容易混淆的區(qū)域進(jìn)行了正確的識(shí)別。實(shí)驗(yàn)結(jié)果表明本文所提出的算法能夠有效完成充電口檢測(cè)任務(wù)。
實(shí)驗(yàn)結(jié)果表明,本文算法可以在自然場(chǎng)景下完成充電口檢測(cè)任務(wù),保證機(jī)器人充電自動(dòng)化作業(yè)的穩(wěn)定性和精準(zhǔn)性。
但是本文并未考慮到不同型號(hào)充電口之間的差異,對(duì)于不同型號(hào)充電口本文算法是否具有通用性還有待研究;在更復(fù)雜場(chǎng)景中,例如遮擋、劃痕、強(qiáng)電噪聲等場(chǎng)景也沒有深入探討。為了在真正意義上實(shí)現(xiàn)自動(dòng)化充電作業(yè),實(shí)現(xiàn)智能化,后續(xù)工作可以從上述方向進(jìn)一步開展。