韓素月 戴奇林 張律
【摘 要】 近年來,隨著計算機技術的發(fā)展,圖像識別技術在各個領域都有了廣泛的應用。同時,圖像識別技術也在不斷地優(yōu)化,其在人們的日常生活中發(fā)揮著越來越重要的作用。本文主要綜述了YOLO模型在圖像識別技術上的研究現(xiàn)狀。
【關鍵詞】 圖像識別 YOLO模型
1 引言
隨著互聯(lián)網(wǎng)技術的不斷向前發(fā)展,人們可以更加便捷地通過個人終端接入互聯(lián)網(wǎng),通過移動終端帶有的攝像頭,隨時隨地對物體進行拍照,利用互聯(lián)網(wǎng)進行共享。由于圖像本身的特點,圖像比傳統(tǒng)文字更加生動形象地傳達了信息,使人們更容易理解,被人們廣泛使用。圖像數(shù)據(jù)的數(shù)據(jù)量十分巨大,不僅包含著對人們有用的有效信息,還包含著無用的無效信息。作為機器視覺的一個重要領域,圖像識別不斷滿足人們?nèi)找嬖鲩L的美好生活需要,如何快速和高效地處理圖像信息有力地推動了圖像識別技術的不斷發(fā)展。近年來,人工智能和機器學習變得越來越熟悉起來,進入了普通大眾的視野,極大地促進了圖像識別技術的發(fā)展。機器識別中的機器視覺是通過模擬人類大腦[1],運用機器來獲取圖像,然后對圖像進行一系列處理,經(jīng)過抽象、傳遞和反復迭代,最終達到識別相關物體的目的,最終讓機器能夠像人一樣識別和處理圖像信息。YOLO算法大幅提高了圖像識別的識別速度和識別準確率,具有良好的經(jīng)濟效益,有很高的研究價值。
2.國內(nèi)外研究現(xiàn)狀
圖像識別技術發(fā)展至今,一共經(jīng)歷了三個階段。①文字識別階段;②圖像處理與識別階段;③物體識別階段。目前,圖像識別領域的重點研究方向是物體識別中的分類識別,目前已經(jīng)廣泛應用于安防領域、交通領域以及互聯(lián)網(wǎng)領域,物體分類識別主要以特征學習為主。
2016年,Redmon J等[2]提出了YOLO算法。利用YOLO算法對圖像中的目標進行特征提取分類識別,可以實現(xiàn)圖像特征提取和分類識別的自動化,摒棄了傳統(tǒng)圖像識別過程中依靠手工標注圖像特征的方法,其網(wǎng)絡結構是在GoogleNet模型之上建立的。YOLO檢測框架把目標檢測問題當成一個回歸問題,通過劃分網(wǎng)格來進行回歸目標的位置和類別。YOLO將圖片進行7×7的劃分,然后通過卷積神經(jīng)網(wǎng)絡也產(chǎn)生這樣的7×7的輸出,7×7中的每一個輸出都去預測中心點落在這個網(wǎng)格上的目標,預測的目標參數(shù)包括目標的類別和目標框的位置。YOLO算法主要通過三步實現(xiàn),首先,將輸入圖像軟寸歸一化;其次,卷積網(wǎng)絡特征提取,預測邊界框置信度;最后,通過非極大值抑制算法過濾邊界框,得到最優(yōu)結果。與Faster R-CNN算法相比,采用這種統(tǒng)一模型,實現(xiàn)了端對端的訓練和預測,其檢測速度更快,背景誤判率低,泛化能力和魯棒性較好。但由于每個單元格僅對同一組類別進行邊界框預測,這使得YOLO算法的定位準確率受到影響。由于YOLO劃分網(wǎng)格的方式,使得對于比較密集的目標無法得到足夠的候選網(wǎng)格來對目標進行預測,造成過多的漏檢。YOLO對于小目標也檢測的不好,主要是網(wǎng)格劃分的比較粗糙,對于小目標的特征無法得到很好的保留。這些原因都造成YOLO檢測精度偏低。之后,再次提出了YOLOv2,在VOC 2007測試集上進行測試后,mAP由原來的67.4%提高到了76.8%。v2相對之前的v1版本,在繼續(xù)保持處理速度的基礎上,在預測更準確尺,速度更快尺,識別對象更多這三個方面做了改進尺。
YOLO9000[3]是YOLOv2的一個延伸,它在YOLOv2的基礎上做了如下改進,使檢測精度得到大幅提升:(1)YOLOv2使用了自己設計的一個基礎網(wǎng)絡,該網(wǎng)絡在設計上考慮了卷積的計算量,使得YOLOv2速度比較快。在YOLO9000中,在基礎網(wǎng)絡上增加了批量歸一化,來使網(wǎng)絡收斂的更快。(2)在檢測時使用比分類更高分辨率的圖片,在訓練檢測網(wǎng)絡之前,對預訓練的分類器在高分辨率的圖片上進行一次微調(diào),使網(wǎng)絡提前適應檢測圖片的分辨率,這也使得分類網(wǎng)絡的精度得到一定的提升,得到更好的分類器。(3)使用卷積來替代YOLOv2的全連接進行回歸目標的參數(shù)。(4)在回歸目標寬高的時候,使用多尺度的基準框來對進行匹配訓練,減小檢測的定位誤差。(5)檢測不僅需要對目標進行分類,還要對目標進行定位,分類需要高層的語義特征,而定位要圖片的細節(jié)信息,在該方法中使用跨層的特征融合得到多尺度的特征,得到的卷積特征可以很好的適用于檢測。2018年4月,再次提出了YOLOv3算法,與YOLO 9000算法相比,該算法采用殘差網(wǎng)絡模型Darknet 53進行特征提取,并且利用特征金字塔網(wǎng)絡實現(xiàn)多尺度檢測。同時,通過分析數(shù)據(jù)集中目標的分布情況,修正anchor box,使得anchor box更加符合目標尺寸,增強了收斂效果。在Pascal VOC數(shù)據(jù)集上的實驗表明,在不影響檢測速度的情況下,YOLOv3準確率提高了1個百分點左右,且收斂速度變快,這使YOLOv3的目標檢測能力進一步提升。
3 結論
通過YOLO算法系列的改進可以看出:通過不斷優(yōu)化算法,可以使YOLO算法的檢測速度達到實時分析的要求[4],滿足人們對高效率、高精度目標識別技術的需要。鑒于圖像識別技術的快速發(fā)展,YOLO等目標檢測算法擁有無比廣闊的發(fā)展空間,推動圖像識別技術不斷向前發(fā)展。由于YOLOv3算法良好的檢測性能與檢測精度,其具有比其他版本更廣泛的應用意義。
【參考文獻】
[1] 高浩宇. 基于機器學習的圖像識別研究與應用[D]. 華中師范大學,2018.
[2] Redmon J, Divvala S, Girshick R, et al. You Only Look Once:Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV, 2016:779-788.
[3] 郭澤方. 圖像物體檢測深度學習算法綜述[J]. 機械工程與自動化,2019(2).
[4] 呂鑠, 蔡烜, 馮瑞. 基于改進損失函數(shù)的YOLOv3網(wǎng)絡[J]. 計算機系統(tǒng)應用, 2019(2).