李連偉 秦世引*②
①(北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院 北京 100191)
②(東莞理工學(xué)院電子工程與智能化學(xué)院 東莞 523808)
隨著公共交通出行量的迅猛提升,公共場(chǎng)所的人流量也在不斷增加,使得反恐以及維護(hù)社會(huì)穩(wěn)定的任務(wù)復(fù)雜性和實(shí)際要求也在不斷攀升,從而對(duì)安檢系統(tǒng)的技術(shù)性能提出了新的嚴(yán)峻挑戰(zhàn)。傳統(tǒng)的安檢方式往往要求被檢對(duì)象主動(dòng)配合安檢人員進(jìn)行人體檢查,這不僅限制了檢測(cè)效率,也對(duì)人體隱私保護(hù)造成影響。近年來(lái)被動(dòng)毫米波成像技術(shù)不斷發(fā)展,在安檢系統(tǒng)中的應(yīng)用越來(lái)越廣泛。這主要得益于其穿透性、安全性等諸多優(yōu)良特性[1],并且不需要被檢對(duì)象主動(dòng)配合,可大大節(jié)省檢測(cè)時(shí)間而提高效率。
獲得人體掃描圖像后,如何快速高效檢測(cè)出所攜帶隱匿違禁物是安檢系統(tǒng)研發(fā)中的一個(gè)嚴(yán)峻的技術(shù)挑戰(zhàn)。一方面,被動(dòng)毫米波成像機(jī)制不同于一般的可見(jiàn)光成像,其分辨率比可見(jiàn)光圖像低,且存在復(fù)雜的背景噪聲。同時(shí)在被動(dòng)毫米波圖像(Passive MilliMeter Wave Image, PMMWI)中展示檢測(cè)結(jié)果容易引發(fā)人體隱私泄露問(wèn)題,因此需要將檢測(cè)到的疑似違禁物位置標(biāo)記于可見(jiàn)光圖像(Visible Image,VI)之中,這就需要對(duì)PMMWI與VI中人體輪廓進(jìn)行配準(zhǔn)。另一方面,僅采用PMMWI進(jìn)行違禁物檢測(cè)容易出現(xiàn)誤檢,例如胳膊與人體的間隙區(qū)域容易誤檢為疑似違禁物。因此需要將VI提取到的信息結(jié)合來(lái)判斷違禁物是否存在。此外,面對(duì)公共場(chǎng)所安檢流量大的問(wèn)題,檢測(cè)算法的運(yùn)算速度也是需要考慮的重要因素。
本文將被動(dòng)毫米波成像的穿透性和可見(jiàn)光成像的清晰性相結(jié)合,提出一種基于輕量級(jí)U-Net的人體安檢隱匿違禁物的高性能實(shí)時(shí)檢測(cè)算法。首先,采用輕量級(jí)U-Net分別對(duì)PMMWI和VI中的人體輪廓進(jìn)行快速分割;進(jìn)而采用基于相似性測(cè)度的無(wú)監(jiān)督學(xué)習(xí)方法訓(xùn)練圖像配準(zhǔn)網(wǎng)絡(luò)對(duì)PMMWI與VI分割結(jié)果中的人體輪廓進(jìn)行配準(zhǔn),根據(jù)配準(zhǔn)結(jié)果,初步剔除虛警后檢出疑似違禁物,并將其位置標(biāo)記于VI之中得到單幀圖像檢測(cè)結(jié)果;最后通過(guò)對(duì)多幀序列圖像檢測(cè)結(jié)果的綜合研判,進(jìn)一步剔除虛警,輸出檢測(cè)結(jié)果。
本文的主要貢獻(xiàn)體現(xiàn)在以下3個(gè)方面:(1) 基于MobileNetV2[2]作為編碼器網(wǎng)絡(luò),設(shè)計(jì)了輕量級(jí)UNet分割網(wǎng)絡(luò)以提高處理速度,滿足安檢過(guò)程中大流量的需求。同時(shí),采用參數(shù)共享策略,只需一個(gè)模型便可完成PMMWI與VI中人體輪廓的快速分割。(2) 借鑒醫(yī)學(xué)圖像配準(zhǔn)的經(jīng)驗(yàn),將基于相似性測(cè)度的無(wú)監(jiān)督學(xué)習(xí)策略同輕量級(jí)U-Net相結(jié)合,通過(guò)無(wú)監(jiān)督學(xué)習(xí)生成配準(zhǔn)空間位移場(chǎng),以實(shí)現(xiàn)PMMWI與VI中人體輪廓的高效配準(zhǔn),從而為后續(xù)的高性能實(shí)時(shí)檢測(cè)奠定基礎(chǔ)。(3) 在人體輪廓配準(zhǔn)的基礎(chǔ)上,通過(guò)區(qū)域比對(duì)實(shí)現(xiàn)虛警目標(biāo)濾除,進(jìn)而結(jié)合多幀序列圖像檢測(cè)結(jié)果的綜合推斷得到最終的隱匿違禁物檢測(cè)結(jié)果,并在可見(jiàn)光圖像VI中予以標(biāo)記,從而可實(shí)現(xiàn)無(wú)接觸檢測(cè)和有效的隱私保護(hù)。
在檢測(cè)PMMWI中人體攜帶的隱匿違禁物方面,López-Tapia等人[3]在圖像中抽取以像素為中心的圖像塊并通過(guò)Haar算子提取特征進(jìn)而采用隨機(jī)森林方法在預(yù)處理后的PMMWI上檢測(cè)隱匿物并取得一定成果。文獻(xiàn)[4]采用深度神經(jīng)網(wǎng)絡(luò)的方法識(shí)別圖像塊中的違禁物,同時(shí)利用圖像分割的方法對(duì)違禁物進(jìn)行檢測(cè)定位。文獻(xiàn)[5]采用YOLO v3 (You Only Look Once v3)算法檢測(cè)PMMWI中的違禁物目標(biāo),并在其自建小數(shù)據(jù)集上實(shí)現(xiàn)了實(shí)時(shí)檢測(cè)。受限于PMMWI成像質(zhì)量問(wèn)題,使用單一毫米波圖像容易產(chǎn)生誤檢,因此本文采用PMMWI與VI相結(jié)合的方式以高效檢測(cè)人體所攜帶的隱匿違禁物,主要采用了圖像分割及圖像配準(zhǔn)技術(shù)。
在圖像語(yǔ)義分割方面,基于全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[6]的方法獲得了優(yōu)越性能。特別是隨著U-Net[7]的提出,研究者開(kāi)始使用編解碼器結(jié)構(gòu)融合低、高層特征以獲取更多上下文信息來(lái)實(shí)現(xiàn)更好的分割效果。羅會(huì)蘭等人[8]將基于區(qū)域與基于全卷積兩種方法的優(yōu)點(diǎn)結(jié)合起來(lái),并利用帶擴(kuò)張卷積的殘差網(wǎng)絡(luò)進(jìn)行特征提取,最后通過(guò)多模型融合得到分割結(jié)果。Zhu等人[9]提出一種統(tǒng)計(jì)紋理學(xué)習(xí)網(wǎng)絡(luò)用于圖像分割,以更好地利用網(wǎng)絡(luò)低層的紋理信息從而達(dá)到更好的性能。
圖像配準(zhǔn)目前廣泛應(yīng)用于醫(yī)學(xué)圖像處理領(lǐng)域,基于深度學(xué)習(xí)的配準(zhǔn)方法主要分為有監(jiān)督配準(zhǔn)[10,11]和無(wú)監(jiān)督配準(zhǔn)[12,13]?;诒O(jiān)督學(xué)習(xí)的配準(zhǔn)一般利用已有算法生成標(biāo)簽或者利用模擬變形生成標(biāo)簽,較為復(fù)雜。鑒于此,現(xiàn)在的研究者大多傾向于使用基于無(wú)監(jiān)督學(xué)習(xí)的配準(zhǔn)方法。Balakrishnan等人[14]提出一種快速學(xué)習(xí)圖像配準(zhǔn)的VoxelMorph框架,使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)變形場(chǎng),并通過(guò)最小化圖像之間的相似度代價(jià)來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)優(yōu)化。Ma等人[15]提出一種編解碼結(jié)構(gòu)的配準(zhǔn)網(wǎng)絡(luò),并根據(jù)特征的性能以及特征之間的關(guān)系對(duì)特征進(jìn)行校準(zhǔn),進(jìn)而設(shè)計(jì)了層次代價(jià)函數(shù)用于網(wǎng)絡(luò)訓(xùn)練。本文借鑒文獻(xiàn)[14]處理3維醫(yī)學(xué)圖像的經(jīng)驗(yàn),結(jié)合輕量級(jí)U-Net,將無(wú)監(jiān)督配準(zhǔn)學(xué)習(xí)應(yīng)用于2維PMMWI與VI圖像之中。
U-Net網(wǎng)絡(luò)應(yīng)用跳躍連接結(jié)合低層特征的細(xì)節(jié)信息,能夠有效地彌補(bǔ)下采樣過(guò)程造成的空間信息損失,幫助網(wǎng)絡(luò)恢復(fù)更精確的分割結(jié)果,在圖像分割中具有卓越的性能優(yōu)勢(shì);同時(shí),其所具有的編解碼結(jié)構(gòu)簡(jiǎn)單,設(shè)計(jì)改進(jìn)方便,因此本文根據(jù)安檢過(guò)程中人體輪廓實(shí)時(shí)分割的技術(shù)需求,經(jīng)過(guò)對(duì)實(shí)驗(yàn)結(jié)果的比較分析,選用了U-Net網(wǎng)絡(luò)。MobileNetV2[2]在V1版[16]采用逐通道可分離卷積的基礎(chǔ)上,借鑒ResNet[17]的殘差連接,創(chuàng)新性地提出了“倒置殘差”結(jié)構(gòu),兼具速度與性能優(yōu)勢(shì)??紤]到安檢過(guò)程中人流量大且檢測(cè)算法需要實(shí)時(shí)快速運(yùn)行,本文在采用U型網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,利用MobileNetV2作為編碼器特征提取網(wǎng)絡(luò),進(jìn)行了必要的輕量化設(shè)計(jì)以滿足人體安檢中的快速運(yùn)行需求。所設(shè)計(jì)的輕量級(jí)U-Net網(wǎng)絡(luò)架構(gòu)如圖1(a)所示,本文將其命名為L(zhǎng)ightweight U-Net,簡(jiǎn)記為L(zhǎng)-UNet。L-UNet網(wǎng)絡(luò)中所采用的倒置殘差模塊1~5的組織架構(gòu)如圖1(b)所示,而解碼模塊1~5則由圖1(c)給出。
相較于原始版MobileNetV2,本文對(duì)倒置殘差模塊1~5僅重復(fù)堆疊1次從而減少參數(shù)量和計(jì)算量。其中,除倒置殘差模塊1以外,其余倒置殘差模塊均進(jìn)行下采樣使得特征圖逐漸減小。在圖1(b)所示的倒置殘差模塊中,首先對(duì)輸入特征進(jìn)行1×1卷積并通過(guò)預(yù)設(shè)的擴(kuò)張倍數(shù)使得通道數(shù)增加,進(jìn)而進(jìn)行3×3逐通道卷積(DepthWise Convolution, DW-Conv),最后通過(guò)1×1卷積降低通道數(shù)并與輸入特征信息直接相加得到輸出特征。本文參照原網(wǎng)絡(luò)參數(shù),將倒置殘差模塊1的擴(kuò)張倍數(shù)設(shè)為1,其余倒置殘差模塊擴(kuò)張倍數(shù)均為6。在圖1(c)所示的解碼模塊中,首先進(jìn)行3×3卷積進(jìn)一步提取特征信息,進(jìn)而通過(guò)轉(zhuǎn)置卷積進(jìn)行上采樣以使空間信息得以恢復(fù)。在上采樣過(guò)程中,通過(guò)使用解碼模塊最后可獲得與原圖尺寸相同的輸出結(jié)果。
在實(shí)際毫米波安檢過(guò)程中,人體通過(guò)安檢儀的速度快且人流量大,這對(duì)隱匿違禁物檢測(cè)提出了很強(qiáng)的實(shí)時(shí)性需求。因此需要算法能夠快速高效地檢測(cè)定位出人體所攜帶的隱匿違禁物,本文所提網(wǎng)絡(luò)能夠很好地滿足這些需求。
一方面,以3×3卷積為例,深度可分離卷積的計(jì)算量比標(biāo)準(zhǔn)卷積少8~9倍[16],從而可使模型的運(yùn)行速度顯著提升,對(duì)實(shí)際應(yīng)用具有重要意義。本文所構(gòu)建L-UNet僅具有4.3 M參數(shù)量,相當(dāng)于U-Net的13.9%;計(jì)算量為2.7 G,相當(dāng)于U-Net的6.3%。同時(shí),參數(shù)量的減少也會(huì)使得模型的占用空間降低,從而在實(shí)際應(yīng)用中更具優(yōu)勢(shì)。L-UNet在GTX TITAN Xp GPU上處理分辨率為400×200的圖像時(shí)速度可達(dá)126 fps,遠(yuǎn)超實(shí)時(shí)性要求。
另一方面,由于逐通道卷積是按通道深度進(jìn)行分離卷積,不存在通道間信息的混合,其所提特征受限于通道數(shù)量。而通過(guò)倒置殘差模塊結(jié)構(gòu),先對(duì)特征通道數(shù)進(jìn)行必要的擴(kuò)張,以增加通道數(shù)量,并在通道分離條件下完成卷積運(yùn)算,從而使提取的特征信息得以豐富。
在進(jìn)行人體輪廓分割前,本文首先采用Pixel Annotation Tool[18]軟件進(jìn)行數(shù)據(jù)標(biāo)注以生成分割標(biāo)簽。圖2展示了5張對(duì)應(yīng)的PMMWI和VI的人體輪廓標(biāo)注結(jié)果。需要說(shuō)明的是,在數(shù)據(jù)標(biāo)注中,行人的背包中隱藏了一種違禁物,對(duì)可見(jiàn)光圖像VI而言,是無(wú)法確認(rèn)的,所以對(duì)背包區(qū)域無(wú)標(biāo)注;由于PMMWI的可穿透性,其探測(cè)到該違禁物是理所當(dāng)然的,所以在對(duì)PMMWI的標(biāo)注結(jié)果中凸顯了該隱匿違禁物的所在區(qū)域和位置。
本文采用PyTorch中的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行迭代深度訓(xùn)練,同時(shí)使用交叉熵函數(shù)計(jì)算訓(xùn)練代價(jià)。由于本任務(wù)中僅將圖像分割為人體和背景,因此采用的二分類交叉熵代價(jià)函數(shù)L可表示為
根據(jù)人體安檢需求,本文通過(guò)對(duì)L-UNet網(wǎng)絡(luò)的深度訓(xùn)練,實(shí)現(xiàn)對(duì)人體輪廓的快速分割。圖3給出了面向人體安檢的人體輪廓分割的網(wǎng)絡(luò)化算法的執(zhí)行機(jī)理和邏輯流程。
首先利用圖像分割標(biāo)注軟件對(duì)采集到的PMMWI/VI數(shù)據(jù)進(jìn)行人體輪廓的數(shù)據(jù)標(biāo)注以生成數(shù)據(jù)標(biāo)簽。然后將以訓(xùn)練數(shù)據(jù)激勵(lì)L-UNet網(wǎng)絡(luò)而得到模型預(yù)測(cè)值,進(jìn)而將結(jié)合監(jiān)督標(biāo)簽信息,采用交叉熵代價(jià)函數(shù)計(jì)算訓(xùn)練代價(jià),以SGD最小代價(jià)函數(shù)優(yōu)化器對(duì)L-UNet的網(wǎng)絡(luò)參量進(jìn)行調(diào)優(yōu),隨著調(diào)優(yōu)訓(xùn)練的迭代進(jìn)展,使L-UNet的分割性能得以不斷提高,在滿足終止條件時(shí)得到認(rèn)可。進(jìn)而利用該認(rèn)可的L-UNet實(shí)施人體輪廓的分割,給出有效的分割結(jié)果。
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常需要大量的帶標(biāo)簽數(shù)據(jù)作支撐,醫(yī)學(xué)圖像有監(jiān)督配準(zhǔn)中一般采用以下兩種方式獲取變形場(chǎng)標(biāo)簽:(1)利用傳統(tǒng)方法對(duì)圖像進(jìn)行配準(zhǔn)以獲得變形場(chǎng)作為標(biāo)簽真實(shí)值,如文獻(xiàn)[11]首先采用對(duì)稱圖像歸一化方法對(duì)圖像進(jìn)行初步配準(zhǔn),然后進(jìn)一步對(duì)齊邊界并生成最終的變形場(chǎng)。(2)人工生成變形場(chǎng),如文獻(xiàn)[19]通過(guò)人工合成變形場(chǎng)并對(duì)原始圖像施加變形場(chǎng)生成形變圖像用于訓(xùn)練。可見(jiàn),這兩種方式均復(fù)雜且低效,難以推廣。與此同時(shí),標(biāo)簽的精準(zhǔn)度對(duì)網(wǎng)絡(luò)訓(xùn)練的效果也有影響。區(qū)別于需要標(biāo)簽信息的有監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)不需要數(shù)據(jù)標(biāo)簽,節(jié)省了人工標(biāo)注的時(shí)間。綜合上述考慮,本文采用無(wú)監(jiān)督學(xué)習(xí)的方法來(lái)對(duì)安檢圖像中的人體輪廓進(jìn)行配準(zhǔn)學(xué)習(xí)。
無(wú)監(jiān)督學(xué)習(xí)分為多種,例如聚類、降維等,本文采用基于相似性測(cè)度的無(wú)監(jiān)督學(xué)習(xí),通過(guò)比對(duì)模型輸出與被配準(zhǔn)圖像的相似度,并對(duì)相似度代價(jià)函數(shù)進(jìn)行最小化來(lái)優(yōu)化調(diào)整網(wǎng)絡(luò)參量。
一方面,由于PMMWI與VI成像機(jī)制不同,成像效果存在明顯差異。具體而言,PMMWI成像視野小于VI,且成像質(zhì)量差,分辨率低。但被動(dòng)毫米波能檢測(cè)到隱匿物,具備可見(jiàn)光所沒(méi)有的穿透性。而VI在清晰性與分辨率上比PMMWI有更好的表現(xiàn)。兩種圖像的成像差異性使得讓其優(yōu)勢(shì)互補(bǔ)成為可能。本文同時(shí)利用VI的清晰性與PMMWI的穿透性使得隱匿違禁物的檢測(cè)更加高效。
另一方面,從圖4可以看出,PMMWI與VI的人體輪廓分割結(jié)果中人體區(qū)域均存在黑色空洞,相同位置的空洞是由胳膊與身體的間隙產(chǎn)生的,而PMMWI中存在但VI中沒(méi)有的空洞區(qū)域才是隱匿物所在位置。因此,只有將兩者分割結(jié)果進(jìn)行配準(zhǔn),才能有效去除虛警目標(biāo),獲得隱匿違禁物的位置。此外,由于直接展示PMMWI會(huì)帶來(lái)隱私問(wèn)題,因此需要在VI中對(duì)隱匿物位置進(jìn)行標(biāo)記,這也需要PMMWI/VI的配準(zhǔn)才能得以實(shí)現(xiàn)。
受文獻(xiàn)[14]醫(yī)學(xué)圖像配準(zhǔn)方法啟發(fā),本文設(shè)計(jì)了適合PMMWI和VI圖像的無(wú)監(jiān)督學(xué)習(xí)配準(zhǔn)方法,如圖5所示。本文采用L-UNet作為配準(zhǔn)網(wǎng)絡(luò)骨架,與分割網(wǎng)絡(luò)相比變動(dòng)之處在于去掉了最后的分類層和sigmoid層。將PMMWI分割圖像p及VI分割圖像v定義在2維圖像空間W ?R2中,L-UNet配準(zhǔn)網(wǎng)絡(luò)記為fθ(),θ為神經(jīng)網(wǎng)絡(luò)參數(shù),則基于L-UNet的配準(zhǔn)位移解算過(guò)程可表示為fθ(p,v)=u。其中u是一個(gè)3維的位移場(chǎng)。對(duì)于任一像素點(diǎn)m,u(m)是一個(gè)使得v(m)與[p ?φ](m)表示相同位置的位移,其中映射φ= Id+u,I d表示恒等變換,v(m)表示m在v中的位置,p ?φ表示p通過(guò)映射φ變換后的配準(zhǔn)圖像,[p ?φ](m)表示m在配準(zhǔn)后圖像中的位置。
如圖5所示,將待配準(zhǔn)的PMMWI和VI分割圖像對(duì)拼接后輸入L-UNet配準(zhǔn)網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)運(yùn)算輸出配準(zhǔn)空間位移場(chǎng)u,然后對(duì)PMMWI分割圖像p進(jìn)行坐標(biāo)配準(zhǔn)以變換為p ?φ,得到配準(zhǔn)后的PMMWI圖像pr。本文基于空間變換網(wǎng)絡(luò)[20]的思想并采用文獻(xiàn)[14]的方法計(jì)算p ?φ。對(duì)于配準(zhǔn)后圖像中的每個(gè)像素點(diǎn)m,本文計(jì)算其對(duì)應(yīng)原圖p中的像素點(diǎn)位置,并利用8個(gè)相鄰點(diǎn)的像素值進(jìn)行線性插值得到[p ?φ](m)。
本文通過(guò)衡量配準(zhǔn)后的PMMWI與VI的相似度,并對(duì)相似度代價(jià)最小化以調(diào)優(yōu)配準(zhǔn)網(wǎng)絡(luò)。同時(shí),在代價(jià)函數(shù)中加入配準(zhǔn)位移場(chǎng)梯度的懲罰項(xiàng),以使坐標(biāo)變換更加平滑??偞鷥r(jià)函數(shù)由式(2)給出
其中,λ為正則化系數(shù),?u(m)表示對(duì)u(m)求梯度。式(2)中前半部分計(jì)算配準(zhǔn)后的PMMWI與VI的均方誤差(Mean Square Error, MSE),后半部分對(duì)位移場(chǎng)的梯度施加正則化。如圖5所示,通過(guò)計(jì)算總代價(jià)函數(shù)及其變化梯度,進(jìn)而基于總代價(jià)函數(shù)的變化梯度采用自適應(yīng)矩估計(jì)(Adaptive moment estimation, Adam)優(yōu)化器對(duì)L-UNet進(jìn)行參數(shù)優(yōu)化從而使網(wǎng)絡(luò)性能得以不斷提升。
此外,在訓(xùn)練過(guò)程中,一方面本文將PMMWI/VI分割圖像對(duì)輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練;另一方面,對(duì)于分割過(guò)程產(chǎn)生的人體內(nèi)的空洞區(qū)域,對(duì)其進(jìn)行填充生成填充后的分割圖像,作為訓(xùn)練集的擴(kuò)增集參與訓(xùn)練以提高網(wǎng)絡(luò)性能的魯棒性。
經(jīng)過(guò)輪廓配準(zhǔn)后,PMMWI與VI分割后圖像中人體輪廓形狀基本一致,但PMMWI中包含了疑似隱匿物的位置和形狀信息;而VI中僅包含人體輪廓的形狀信息?;谂錅?zhǔn)結(jié)果,可以將PMMWI中的疑似隱匿物位置標(biāo)注在VI中,不僅便于安檢人員快速查驗(yàn),同時(shí)也能避免人體隱私的泄露問(wèn)題。圖6展示了基于PMMWI/VI輪廓配準(zhǔn)的疑似隱匿物快速檢測(cè)過(guò)程。
具體而言,首先采用L-UNet對(duì)PMMWI/VI圖像對(duì)進(jìn)行人體輪廓分割,得到對(duì)應(yīng)圖像的分割結(jié)果。進(jìn)而基于相似性測(cè)度的無(wú)監(jiān)督學(xué)習(xí)配準(zhǔn)方法對(duì)分割后圖像中的人體輪廓進(jìn)行配準(zhǔn),最后將隱匿物在VI中進(jìn)行標(biāo)記得到最終檢測(cè)結(jié)果。需要說(shuō)明的是,在本文的安檢應(yīng)用場(chǎng)景中,安檢儀1次通過(guò)1人次,且僅針對(duì)檢測(cè)中出現(xiàn)的隱匿違禁物這一類目標(biāo),但隱匿違禁物可能藏于人體的多個(gè)部位,因此屬于多目標(biāo)檢測(cè)。
經(jīng)過(guò)分割或配準(zhǔn)后的PMMWI/VI中可能會(huì)存在噪聲點(diǎn),如圖7中VI分割結(jié)果所示。因此需要在圖像配準(zhǔn)之后進(jìn)行背景噪聲過(guò)濾,以防產(chǎn)生虛警干擾。此外,在人體輪廓配準(zhǔn)過(guò)程中,PMMWI中的疑似隱匿物經(jīng)過(guò)坐標(biāo)變換后會(huì)因形變而導(dǎo)致形狀過(guò)小,如圖7所示,經(jīng)過(guò)噪聲濾除處理容易造成漏檢。
為了對(duì)漏檢目標(biāo)進(jìn)行補(bǔ)正以提高檢測(cè)性能,對(duì)配準(zhǔn)過(guò)程中基于L-UNet骨架網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)的代價(jià)函數(shù)進(jìn)行了優(yōu)化調(diào)整。具體而言,式(2)中λ可以調(diào)節(jié)位移場(chǎng)梯度的正則化項(xiàng)占總代價(jià)函數(shù)的比重大小,影響坐標(biāo)變換的程度也即控制著圖像形變的程度。通過(guò)調(diào)整優(yōu)化λ的值,可使配準(zhǔn)后PMMWI中人體輪廓與VI趨近一致的同時(shí),隱匿物目標(biāo)不會(huì)形變到很小。
此外,由于人體肢體動(dòng)作在VI中產(chǎn)生的虛警目標(biāo),經(jīng)過(guò)圖像配準(zhǔn)后,會(huì)在PMMWI中對(duì)應(yīng)位置出現(xiàn)。本文通過(guò)對(duì)比人體輪廓相同位置出現(xiàn)的空洞區(qū)域,實(shí)現(xiàn)了虛警目標(biāo)的有效濾除。如圖8所示,首先對(duì)配準(zhǔn)后的PMMWI/VI進(jìn)行圖像濾波,本文采用的是依次進(jìn)行形態(tài)學(xué)閉、開(kāi)運(yùn)算以去除噪聲點(diǎn)并平滑人體輪廓。在此基礎(chǔ)上,分別對(duì)PMMWI/VI進(jìn)行空洞填充并與原圖進(jìn)行異或運(yùn)算,得到對(duì)應(yīng)圖像中的空洞區(qū)域。最后,通過(guò)區(qū)域?qū)Ρ葘⑻摼繕?biāo)去除,從而獲得隱匿物目標(biāo)。
在安檢實(shí)際情況中,由于人在不斷走動(dòng)行進(jìn),因此基于單幀圖像的隱匿物檢測(cè)也會(huì)造成漏檢或者誤檢,本文結(jié)合安檢過(guò)程中產(chǎn)生的序列圖像進(jìn)行綜合判斷以提升檢測(cè)性能。采用策略為:序列圖像數(shù)據(jù)中每隔5幀輸出1次檢測(cè)結(jié)果。具體而言,對(duì)每幀圖像檢測(cè)結(jié)果中的疑似隱匿物區(qū)域像素值置1,其余置0,并將5幀檢測(cè)結(jié)果相加,若疊加圖像中某處像素值大于等于n(n ∈[1,5],由實(shí)驗(yàn)確定),則認(rèn)為該區(qū)域存在隱匿物。
為了實(shí)現(xiàn)人體安檢過(guò)程中隱匿違禁物的快速檢測(cè),對(duì)本文所提網(wǎng)絡(luò)與算法進(jìn)行綜合集成,如圖9所示。首先,對(duì)連續(xù)5幀PMMWI/VI圖像對(duì)采用基于L-UNet的分割算法進(jìn)行人體輪廓分割,然后采用基于無(wú)監(jiān)督學(xué)習(xí)的配準(zhǔn)算法對(duì)PMMWI/VI分割后的人體輪廓進(jìn)行配準(zhǔn)。進(jìn)而根據(jù)配準(zhǔn)結(jié)果通過(guò)區(qū)域?qū)Ρ纫詾V除虛警目標(biāo),得到單幀圖像的隱匿違禁物檢測(cè)結(jié)果。最后通過(guò)對(duì)多幀檢測(cè)結(jié)果進(jìn)行綜合判斷,得到最終的隱匿違禁物檢測(cè)結(jié)果并在VI中進(jìn)行標(biāo)記。
根據(jù)第3~5節(jié)的研究結(jié)果,本文提出基于輕量級(jí)U-Net深度學(xué)習(xí)的人體安檢隱匿物的高性能檢測(cè)算法,如表1所示。
表1 基于輕量級(jí)U-Net深度學(xué)習(xí)的人體安檢隱匿物檢測(cè)算法
本文采集并標(biāo)注了1268幀PMMWI及其對(duì)應(yīng)的VI圖像作為本文所用數(shù)據(jù)集,其中PMMWI尺寸為160×80,VI尺寸為400×200。本文數(shù)據(jù)采集所用設(shè)備成像速度為25 fps,即每幀成像時(shí)間為40 ms。所采用數(shù)據(jù)集中,圖像對(duì)來(lái)自多個(gè)個(gè)體;隱匿違禁物分別位于人體的5個(gè)不同位置:前胸、后背、前腰、后腰、側(cè)身,如圖10所示,其中隱匿物所在位置用紅框標(biāo)注以便于展示。在實(shí)驗(yàn)過(guò)程中,1032幀對(duì)的標(biāo)注圖像用于進(jìn)行深度監(jiān)督訓(xùn)練,訓(xùn)練完成后再用236幀對(duì)的標(biāo)注圖像進(jìn)行測(cè)試檢驗(yàn)。
本文算法與網(wǎng)絡(luò)采用基于Python語(yǔ)言的PyTorch深度學(xué)習(xí)框架并在Windows平臺(tái)上實(shí)現(xiàn)。GPU為NVIDIA GTX TITAN Xp,CPU為Intel Core i7-8700k,內(nèi)存為32 GB RAM。
在人體輪廓分割實(shí)驗(yàn)中,采用SGD優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu),學(xué)習(xí)率為0.01,動(dòng)量設(shè)為0.9,深度監(jiān)督訓(xùn)練所設(shè)置的終止條件為2000輪次的迭代。在人體輪廓配準(zhǔn)實(shí)驗(yàn)中,采用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,學(xué)習(xí)率為0.01;經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,網(wǎng)絡(luò)經(jīng)過(guò)100輪次的迭代可以達(dá)到認(rèn)可的效果,因此訓(xùn)練的終止條件設(shè)置為100輪次的迭代。在上述兩部分實(shí)驗(yàn)的訓(xùn)練過(guò)程中,首先對(duì)圖像進(jìn)行隨機(jī)裁剪,使其邊長(zhǎng)隨機(jī)裁剪為原來(lái)的0.6~1倍,然后將圖像縮放到320×160尺寸輸入網(wǎng)絡(luò);在測(cè)試過(guò)程中,直接將圖像縮放到320×160尺寸輸入網(wǎng)絡(luò)進(jìn)行測(cè)試。
6.3.1 基于輕量級(jí)U-Net的人體輪廓分割實(shí)驗(yàn)
為了驗(yàn)證所提L-UNet人體輪廓分割網(wǎng)絡(luò)的有效性,本文在所采集的PMMWI/VI數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)性能驗(yàn)證。同時(shí),采用平均交并比(Mean Intersection over Union, MIoU)作為性能評(píng)價(jià)指標(biāo),MIoU的計(jì)算方式如式(3)所示
其中,pij表示類別標(biāo)簽為第i類的像素點(diǎn)被模型預(yù)測(cè)到第j類 。由于本文圖像分割類別只包含人體區(qū)域和背景區(qū)域兩類,因此i和j的取值范圍只有0和1。
由于可見(jiàn)光和被動(dòng)毫米波成像機(jī)制不同,本文首先將PMMWI和VI分別輸入L-UNet分割網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練,參數(shù)不共享,最終獲得2個(gè)參數(shù)不同的L-UNet分割模型。同時(shí),考慮到實(shí)際應(yīng)用的便捷及安檢系統(tǒng)的實(shí)時(shí)性要求,將兩種不同數(shù)據(jù)輸入同一L-UNet網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,參數(shù)共享,最終獲得1個(gè)L-UNet分割模型。兩種訓(xùn)練策略的結(jié)果對(duì)比如表2所示。
由表2可見(jiàn),采用參數(shù)不共享訓(xùn)練策略的分割性能指標(biāo)比參數(shù)共享策略好。但從實(shí)際應(yīng)用角度出發(fā),將PMMWI和VI數(shù)據(jù)分開(kāi)處理需要使用2個(gè)模型,并消耗額外的計(jì)算資源和存儲(chǔ)資源,獲得的性能提升卻有限。因此權(quán)衡利弊,本文研究將采用參數(shù)共享的訓(xùn)練方式進(jìn)行后續(xù)實(shí)驗(yàn)。
表2 兩種訓(xùn)練策略下人體輪廓分割的MIoU對(duì)比(%)
為了展示L-UNet應(yīng)用于人體輪廓分割的性能優(yōu)勢(shì),本文在所采數(shù)據(jù)集上與FCN-8s[6], SegNet[21]以及U-Net[7]網(wǎng)絡(luò)模型進(jìn)行了對(duì)比實(shí)驗(yàn)。圖11展示了不同網(wǎng)絡(luò)人體輪廓的分割結(jié)果,其中第1列待分割圖像中PMMWI與VI是分別對(duì)應(yīng)的。結(jié)果表明,F(xiàn)CN的分割效果最差,無(wú)法對(duì)PMMWI中的隱匿物進(jìn)行有效分割。SegNet和U-Net的分割效果與L-UNet相似,但處理細(xì)節(jié)能力弱于L-UNet。例如,對(duì)于第1幅PMMWI圖像,在U-Net分割結(jié)果中,手臂細(xì)節(jié)部分分割不準(zhǔn)確,而SegNet分割時(shí)則存在多余空洞,從而可導(dǎo)致隱匿物檢測(cè)過(guò)程中產(chǎn)生虛警。綜合來(lái)看,L-UNet的分割效果較好,精度較高。
為了定量對(duì)比各個(gè)網(wǎng)絡(luò)的分割性能,本文統(tǒng)計(jì)了其在自建數(shù)據(jù)集上的性能指標(biāo),如表3所示。同時(shí)也對(duì)網(wǎng)絡(luò)參數(shù)量、計(jì)算量以及運(yùn)算速度FPS進(jìn)行了對(duì)比分析。從表3可以看出,L-UNet的參數(shù)量和計(jì)算量都大大低于上述網(wǎng)絡(luò),在運(yùn)算速度和性能上也有明顯的優(yōu)勢(shì)。雖然L-UNet的分割性能與UNet相近,但是在參數(shù)量、計(jì)算量和運(yùn)算速度上都明顯優(yōu)于U-Net。
表3 L-UNet及其他網(wǎng)絡(luò)在自建數(shù)據(jù)集上進(jìn)行人體輪廓分割的性能對(duì)比
6.3.2 基于無(wú)監(jiān)督學(xué)習(xí)的人體輪廓配準(zhǔn)實(shí)驗(yàn)
本文采用Dice分?jǐn)?shù)[22]來(lái)衡量配準(zhǔn)后的PMMWI與VI的相似度作為配準(zhǔn)性能的評(píng)價(jià)指標(biāo),其計(jì)算方式為
本實(shí)驗(yàn)將式(2)中的正則化系數(shù)λ設(shè)置為0.25,并對(duì)6.3.1節(jié)使用的不同網(wǎng)絡(luò)進(jìn)行性能對(duì)比。圖12展示了不同網(wǎng)絡(luò)的一組配準(zhǔn)結(jié)果對(duì)比,可以發(fā)現(xiàn),F(xiàn)CN基本保持了分割的結(jié)果,配準(zhǔn)效果最差;SegNet配準(zhǔn)結(jié)果中人體輪廓變形嚴(yán)重。U-Net與L-UNet的性能相似,配準(zhǔn)后的PMMWI分割圖像中人體輪廓與VI分割圖像基本一致的同時(shí),保留了PMMWI中的有效信息,為隱匿物的高效檢測(cè)做好了鋪墊。
圖13展示了不同網(wǎng)絡(luò)輪廓配準(zhǔn)性能的定量對(duì)比,其結(jié)果與圖12一致:L-UNet性能最好,U-Net次之。
6.3.3 面向人體安檢的隱匿物高性能檢測(cè)實(shí)驗(yàn)
本文首先測(cè)試了式(2)中λ值的大小對(duì)于配準(zhǔn)結(jié)果的影響。圖14展示了兩組數(shù)據(jù)中配準(zhǔn)后的PMMWI隨λ值變化的情況。結(jié)果表明,隨著λ的增大,由于對(duì)位移場(chǎng)梯度懲罰項(xiàng)權(quán)重的增加,坐標(biāo)變換更平滑,從而空洞區(qū)域形變程度變小,配準(zhǔn)后的空洞區(qū)域面積變大。
為了定量表示,本文統(tǒng)計(jì)了隨著λ值增大時(shí)配準(zhǔn)指標(biāo)Dice分?jǐn)?shù)與隱匿物尺寸的變化情況,如圖15所示??梢园l(fā)現(xiàn),結(jié)論與圖14一致:對(duì)位移場(chǎng)梯度的懲罰項(xiàng)增大,則空間變換程度減弱,從而使配準(zhǔn)指標(biāo)降低;同時(shí),防止位移場(chǎng)變化過(guò)大,也能盡可能地保留原始圖像的有用信息,從而更有利于隱匿物的檢測(cè)。綜合考慮,本文選擇λ值為0.5時(shí)的模型作為實(shí)驗(yàn)所用模型,以取得在配準(zhǔn)效果與隱匿物尺寸之間的折中。
本文以精確率P、召回率R和 F1分?jǐn)?shù)作為檢測(cè)性能的評(píng)價(jià)指標(biāo),其中 F1分?jǐn)?shù)可以對(duì)檢測(cè)性能進(jìn)行綜合考量。指標(biāo)的計(jì)算方式如式(5)—式(7)所示,真正例(True Positives, TP)表示圖像中違禁物區(qū)域被算法正確檢測(cè)到;假正例(False Positives, FP)表示非違禁物區(qū)域被算法錯(cuò)誤檢測(cè)為違禁物區(qū)域,即出現(xiàn)誤檢;假負(fù)例(False Negatives, FN)表示違禁物區(qū)域未被算法檢測(cè)到,即出現(xiàn)漏檢
表4展示了基于單幀圖像檢測(cè)以及基于連續(xù)幀序列圖像檢測(cè)的性能指標(biāo)對(duì)比。在連續(xù)幀檢測(cè)實(shí)驗(yàn)中,基于6.2節(jié)提出的策略,本文選定n為2~4進(jìn)行了實(shí)驗(yàn)??梢钥吹絥=2時(shí)的R值為100%,這是由于采用單幀檢測(cè)時(shí)召回率R已經(jīng)達(dá)到了90.8%,即FN較小,漏檢較少;當(dāng)采用多幀檢測(cè)時(shí),漏檢會(huì)進(jìn)一步消除,很容易滿足FN = 0,即達(dá)到R= 100%。但是n較小也會(huì)使得圖像中噪聲點(diǎn)所產(chǎn)生的虛警無(wú)法通過(guò)多幀判斷去除,從而使性能下降,導(dǎo)致n=2時(shí)的P值卻小于單幀圖像檢測(cè)的值。同時(shí),表4結(jié)果表明,連續(xù)幀檢測(cè)n=3時(shí) F1分?jǐn)?shù)最高,n=4時(shí)的 F1分?jǐn)?shù)要低于單幀圖像檢測(cè)。這是由于人體在走動(dòng)過(guò)程中,隱匿物位置也在不斷變化,從而使得前后幀圖像中的隱匿物區(qū)域出現(xiàn)差異,導(dǎo)致多幀疊加后檢測(cè)性能隨著n的增加逐漸下降。同時(shí),測(cè)得連續(xù)幀檢測(cè)算法的運(yùn)算速度為每秒可處理34 幀PMMWI/VI圖像對(duì),即每幀對(duì)圖像平均處理時(shí)間為29 ms,小于成像時(shí)間40 ms,完全滿足人體安檢的實(shí)時(shí)性要求。
表4 單幀圖像隱匿物檢測(cè)與連續(xù)幀檢測(cè)性能對(duì)比(%)
圖16展示了2段各5幀視頻的檢測(cè)結(jié)果。第1段視頻中PMMWI與VI分別在第1, 3, 4, 5幀和第1,3幀出現(xiàn)誤檢。但通過(guò)配準(zhǔn)后進(jìn)行虛警濾除,可將第1, 3幀虛警目標(biāo)濾除。因此若采用單幀檢測(cè)方案,則依然會(huì)在第4, 5幀出現(xiàn)虛警目標(biāo),干擾檢測(cè)性能。如若采用連續(xù)幀檢測(cè)并設(shè)置n ≥3,則會(huì)進(jìn)一步將第4, 5幀的虛警目標(biāo)濾除,達(dá)到更高的檢測(cè)性能。需要注意的是,在實(shí)際應(yīng)用中,連續(xù)幀檢測(cè)僅顯示最近一幀的檢測(cè)結(jié)果,圖16為方便展示均標(biāo)注了檢測(cè)結(jié)果。第2段視頻中第2幀圖像出現(xiàn)漏檢,同時(shí)由于人體運(yùn)動(dòng)幅度稍大,造成隱匿物區(qū)域位置變化大,使得多幀檢測(cè)中當(dāng)n ≥4時(shí)檢測(cè)不到目標(biāo),出現(xiàn)漏檢。因此,通過(guò)實(shí)驗(yàn)結(jié)果及上述分析,本文選定n=3作為連續(xù)幀檢測(cè)過(guò)程中的參數(shù)設(shè)定值。
進(jìn)一步,本文對(duì)比了基于L-UNet與基于UNet進(jìn)行分割配準(zhǔn)的檢測(cè)性能,如圖17所示。可以看到,盡管兩者在分割與配準(zhǔn)上的性能相近,但在基于分割與配準(zhǔn)相結(jié)合的隱匿物檢測(cè)上L-UNet性能更優(yōu)。這表明,采用更具優(yōu)勢(shì)的MobileNetV2作為編碼器,L-UNet提取特征更加高效;同時(shí)由于參數(shù)量變少,訓(xùn)練更加充分,因此處理細(xì)節(jié)能力更優(yōu),使得檢測(cè)性能更好。
此外,為了驗(yàn)證本文所提算法性能的優(yōu)越性,本文與文獻(xiàn)[5]中基于YOLO v3的方法進(jìn)行了單幀檢測(cè)的性能對(duì)比,如表5所示。結(jié)果表明,在所有實(shí)采圖像數(shù)據(jù)上,盡管由于YOLO v3本身檢測(cè)性能良好,F(xiàn)P = 0從而P= 100%,沒(méi)有出現(xiàn)誤檢,但其 F1指標(biāo)遠(yuǎn)低于本文所提方法。原因在于部分PMMWI中沒(méi)有違禁物目標(biāo),造成正負(fù)樣本不均衡,導(dǎo)致YOLO v3性能表現(xiàn)不佳,這需要進(jìn)行額外的樣本均衡處理;PMMWI與VI成像機(jī)制的不同也是YOLO v3性能大幅下降的原因之一。同時(shí),雖然YOLO v3在實(shí)采圖像中含隱匿物的圖像上性能稍高于本文所提方法,但由于缺少與VI的配準(zhǔn),不僅不能去除虛警,而且無(wú)法在VI中對(duì)違禁物位置進(jìn)行標(biāo)記,因此在實(shí)際應(yīng)用中仍具有一定的局限性。
表5 YOLO v3單幀圖像隱匿物檢測(cè)性能(%)
本文提出一種基于輕量級(jí)U-Net的人體安檢隱匿違禁物的高性能實(shí)時(shí)檢測(cè)算法。基于MobileNetV2架構(gòu),本文設(shè)計(jì)了L-UNet輕量級(jí)分割網(wǎng)絡(luò)實(shí)現(xiàn)了PMMWI/VI中人體輪廓的快速分割,在所構(gòu)建的數(shù)據(jù)集上,分割性能指標(biāo)MIoU達(dá)到91.6%。進(jìn)而,本文結(jié)合L-UNet工具,采用基于相似性測(cè)度的無(wú)監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)了PMMWI/VI中的人體輪廓配準(zhǔn),在所建數(shù)據(jù)集上Dice分?jǐn)?shù)達(dá)到98.5%。在人體輪廓配準(zhǔn)之后,通過(guò)區(qū)域?qū)Ρ葹V除虛警目標(biāo),得到單幀圖像的隱匿物檢測(cè)結(jié)果,F(xiàn)1分?jǐn)?shù)達(dá)到84.3%。然后,對(duì)多幀序列圖像的檢測(cè)結(jié)果進(jìn)行綜合評(píng)判與優(yōu)化決策,輸出最終檢測(cè)結(jié)果并標(biāo)記于清晰的VI之中,多幀檢測(cè)性能F1分?jǐn)?shù)達(dá)到92.3%。在后續(xù)工作中,將利用主動(dòng)毫米波成像來(lái)獲取清晰的違禁物圖像進(jìn)行分類識(shí)別,從而向安檢工作人員發(fā)出可靠的報(bào)警信號(hào)。