徐衛(wèi)峰 王建鵬 高青
摘 要 目標對象檢測算法屬于計算機視覺領(lǐng)域的重要問題,目前應(yīng)用于無人駕駛、車牌識別、交通違法檢測等領(lǐng)域的應(yīng)用方案已較為成熟。本文介紹了幾種流行的基于深度學(xué)習(xí)的目標對象檢測算法研究進展,然后探討了將其應(yīng)用于衛(wèi)生監(jiān)督執(zhí)法工作的應(yīng)用場景并對未來趨勢做了展望。
關(guān)鍵詞 目標對象檢測算法;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);衛(wèi)生監(jiān)督
Absrtact object detection algorithm is an important problem in the field of computer vision. At present, it has been widely used in driverless, license plate recognition, traffic violation detection and other fields. This paper introduces the research progress of several popular object detection algorithms based on deep learning, and then discusses the application scenarios of applying them to health supervision and law enforcement work, and looks forward to the future trend.
Key words Target object detection algorithm; Deep learning; Convolution neural network; Health supervision
引言
目標檢測,也叫目標提取,是一種基于目標幾何和統(tǒng)計特征的圖像分割,它將目標的分割和識別合二為一,其準確性和實時性是整個系統(tǒng)的一項重要能力。尤其是在復(fù)雜場景中,需要對多個目標進行實時處理時,目標自動提取和識別就顯得特別重要。目標對象檢測算法屬于計算機視覺領(lǐng)域的重要問題,隨著電子設(shè)備的應(yīng)用在社會生產(chǎn)和人們生活中越來越普遍,數(shù)字圖像已經(jīng)成為不可缺少的信息媒介,每時每刻都在產(chǎn)生海量的圖像數(shù)據(jù)。與此同時,對圖像中的目標進行精確識別變得越來越重要[1]。我們不僅關(guān)注對圖像的簡單分類,而且希望能夠準確獲得圖像中存在的感興趣目標及其位置[2],并將這些信息應(yīng)用到執(zhí)法監(jiān)督、視頻監(jiān)控、自主駕駛等一系列現(xiàn)實任務(wù)中,因此目標檢測技術(shù)受到了廣泛關(guān)注。
目標對象檢測算法在醫(yī)學(xué)、交通、航天等領(lǐng)域越來越顯示出巨大的應(yīng)用場景。目前主要應(yīng)用于醫(yī)學(xué)影像的病灶檢測、行人監(jiān)控與識別、飛機航拍、衛(wèi)星物體檢測、交通執(zhí)法等。同時,目標對象檢測也是視覺處理和分析任務(wù)的重要前提,例如行為分析、事件檢測、場景語義理解等都要求利用圖像處理和模式識別技術(shù),檢測出圖像中存在的目標,確定這些目標對象的語義類型,并且標出目標對象在圖像中的具體區(qū)域[3]。在新冠肺炎疫情期間目標對象檢測算法主要被應(yīng)用于行人檢測、遠程溫度檢測的前置溫檢區(qū)定位、大數(shù)據(jù)追蹤等。
1目標對象檢測算法研究進展
應(yīng)用深度學(xué)習(xí)的目標對象檢測算法目前主要有目標區(qū)域建議 (Region proposal)和基于端到端(End-to-End)兩種解決方案?;谀繕藚^(qū)域經(jīng)典算法主要有R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN等。基于端到端的算法有YOLO、SSD等。其算法性能在VOC 2012數(shù)據(jù)集上進行性能測試結(jié)果如表1所示,該表展示了各種算法的平均準確率(AP)。
從表中可以看出R-FCN、YOLOv2、SSD算法準確率較高,但在生產(chǎn)力設(shè)備處理條件能力有限的情況下,SSD和YOLOv2算法處理相較于R-FCN算法更有效率,在筆者電腦上測試表明三種每秒可處理幀數(shù)分別為6、60、58。后兩種算法雖然準確率稍遜色,但其明顯更具有應(yīng)用前景。下面重點介紹下這兩種算法。
YOLO的全拼是You Only Look Once,顧名思義就是只看一次,進一步把目標判定和目標識別合二為一,所以識別性能有了很大提升,達到每秒45幀,而在快速版YOLO(Fast YOLO,卷積層更少)中,可以達到每秒155幀。網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖14所示,針對一張圖片,YOLO的處理步驟為:把輸入圖片縮放到448×448大小;運行卷積網(wǎng)絡(luò);對模型置信度卡閾值,得到目標位置與類別,如圖1所示。
SSD的全拼是Single Shot MultiBox Detector,沖著YOLO的缺點來的。SSD的框架如圖2所示,圖2(a)表示帶有兩個Ground Truth邊框的輸入圖片,圖2(b)和(c)分別表示8×8網(wǎng)格和4×4網(wǎng)格,顯然前者適合檢測小的目標,比如圖片中的貓,后者適合檢測大的目標,比如圖片中的狗。在每個格子上有一系列固定大小的Box(有點類似前面提到的Anchor Box),這些在SSD稱為Default Box,用來框定目標物體的位置,在訓(xùn)練的時候Ground Truth會賦予某個固定的Box,比如圖2(b)中的藍框和圖2(c)中的紅框。
SSD和YOLO的網(wǎng)絡(luò)結(jié)構(gòu)對比如圖3所示。
SSD在保持YOLO高速的同時效果也提升很多,主要是借鑒了Faster R-CNN中的Anchor機制,同時使用了多尺度。但是從原理依然可以看出,Default Box的形狀以及網(wǎng)格大小是事先固定的,那么對特定的圖片小目標的提取會不夠好。YOLO算法目前已有V2、V3版本。YOLO雖然檢測速度很快,但是在檢測精度上卻不如R-CNN系檢測方法,YOLOv1在物體定位方面(localization)不夠準確,并且召回率(recall)較低。YOLOv2在改進中遵循一個原則:保持檢測速度,這也是YOLO模型的一大優(yōu)勢。YOLOv2的改進策略如圖4所示,可以看出其在VOC2007數(shù)據(jù)集上平均準確率(AP)得到了提升。
2應(yīng)用于衛(wèi)生監(jiān)督領(lǐng)域的應(yīng)用探討
目標對象檢測算法在衛(wèi)生領(lǐng)域應(yīng)用廣泛。目前目標對象檢測算法在醫(yī)學(xué)研究應(yīng)用已較為成熟,其主要集中在對醫(yī)學(xué)圖像處理分析。增加經(jīng)過訓(xùn)練后網(wǎng)絡(luò),可以發(fā)現(xiàn)早期結(jié)節(jié)、病變組織,并可進行預(yù)測。在衛(wèi)生監(jiān)督領(lǐng)域,目前應(yīng)用較少,筆者認為可以應(yīng)用于監(jiān)督執(zhí)法工作、案件質(zhì)控快速分析工作、考勤等行政工作等。
在實際監(jiān)督執(zhí)法工作中,可考慮應(yīng)用目標對象檢測算法快速發(fā)現(xiàn)違法行為進行查處。在現(xiàn)場監(jiān)督中,可應(yīng)用執(zhí)法記錄儀實時收集分析上傳加密后的執(zhí)法數(shù)據(jù),在后臺可應(yīng)用目標對象算法實時分析,進行分類然后在利用其他算法對其進行分析發(fā)現(xiàn)問題反饋。在利用攝像頭等遠程監(jiān)督中,可將實時傳回的數(shù)據(jù)進行分析查找違法線索,智能保留證據(jù),方便后續(xù)執(zhí)法。例如某市有相關(guān)控?zé)煑l例,公共場所禁止吸煙,那么可以在公共場所安裝攝像頭等裝置,利用目標檢測算法實時分析吸煙人員,并將其吸煙證據(jù)實時保存,方便對違法行為進行查處,通過監(jiān)督執(zhí)法提高人們的幸福指數(shù),減少違法行為的發(fā)生。
在案件質(zhì)控方面,可以應(yīng)用目標對象檢測算法對執(zhí)法人員全過程執(zhí)法進行分析,例如可以分析執(zhí)法人員衣著是否符合規(guī)范、執(zhí)法過程是否符合規(guī)范。另外也可以對相關(guān)執(zhí)法文書進行分析,提高案卷質(zhì)量。
另外可將目標對象檢測算法應(yīng)用于一些行政工作中。例如在考勤方面可應(yīng)用目標對象檢測算法分析上班人員,提高正確率。
參考文獻
[1] Szegedy C,Toshev A,Erhan D.Deep Neural Networks for object detection[C].Advances in Neural Information Processing Systems. 2013:11-16.
[2] Felzenszwalb P F,Girshick R B,Mcallester D,et al. Object Detection with Discriminatively Trained Part-Based Models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(9):1627-1645.
[3] Zhang X,Yang Y H,Han Z,et al. Object Class Detection: A Survey[J]. ACM Computing Surveys,2014,46(1):1-53.