韓素月 戴奇林 張律
【摘 要】 本文針對圖像識別問題,首先,從圖像處理流程著手,通過收集原始圖像,先對圖像進(jìn)行預(yù)處理,加強(qiáng)圖像的特征,再根據(jù)圖像的差異,結(jié)合形狀、顏色與紋理等全局特征和局部特征的提取方法,提取主要特征。其次,通過對YOLO算法進(jìn)行研究,構(gòu)建了基于YOLO算法的目標(biāo)分類檢測算法模型。
【關(guān)鍵詞】 圖像識別 YOLO算法 TensorFlow 目標(biāo)檢測
1. 引言
當(dāng)今社會,圖像已經(jīng)成為信息傳輸?shù)闹饕d體,它在人類活動中發(fā)揮著巨大的作用。生活中,人們無時(shí)無刻都在接收著圖像信息。為了滿足人們?nèi)找嬖鲩L的美好生活需要,圖像識別技術(shù)應(yīng)運(yùn)而生。本文主要利用YOLO算法對圖像中的目標(biāo)進(jìn)行特征提取分類識別,可以實(shí)現(xiàn)圖像特征提取和分類識別的自動化,摒棄了傳統(tǒng)圖像識別過程中依靠手工標(biāo)注圖像特征的方法,YOLO算法大幅提高了圖像識別的識別速度和識別準(zhǔn)確率。
2. YOLO算法理論
YOLO算法模型借鑒了GoogLeNet算法網(wǎng)絡(luò)結(jié)構(gòu),首先將輸入圖像劃分為若干格子,每個(gè)格子負(fù)責(zé)檢測中心位置坐標(biāo)位于該格子中的目標(biāo)物體,包括預(yù)測出含目標(biāo)物體的邊界框信息及目標(biāo)物體類別的概率信息[1]。因此,輸入圖像只要經(jīng)過一次檢測,就會得到圖像中所有物體的位置及其所屬類別的概率,由于每個(gè)格子只能預(yù)測兩個(gè)邊框信息和一種物體類別,因此會引起相鄰目標(biāo)間檢測的準(zhǔn)確率下降。YOLO算法基礎(chǔ)版的檢測速度可達(dá)45FPS的實(shí)時(shí)檢測,快速版檢測速度可高達(dá)155FPS,并且背景誤差率低[2]。
與其它目標(biāo)檢測識別方法將目標(biāo)檢測劃分成區(qū)域預(yù)測和類別預(yù)測等多個(gè)流程相比,YOLO將區(qū)域預(yù)測和類別預(yù)測整合在一個(gè)網(wǎng)絡(luò)中,以提高檢測速率[3]。YOLO的網(wǎng)絡(luò)結(jié)構(gòu)類似于Google Net,網(wǎng)絡(luò)中卷積層用于特征提取,全連接層用于輸出類別分?jǐn)?shù)以及目標(biāo)所在位置。網(wǎng)絡(luò)系統(tǒng)可以讀取任何大小的圖像,并反饋到網(wǎng)絡(luò)中。
YOLO將輸入的圖像劃分為個(gè)格子,每個(gè)格子會預(yù)測是否有物體的中心位置坐標(biāo)落入格子內(nèi)部。如果某個(gè)物體的中心位置坐標(biāo)落入了某個(gè)格子,那么這個(gè)格子就負(fù)責(zé)識別出這個(gè)物體。如圖(2-3)所示,圖中人的中心坐標(biāo)落在了第4行,第4列的格子中,那么這個(gè)格子就負(fù)責(zé)預(yù)測這個(gè)人。
格子會預(yù)測B個(gè)邊界框,以向量的形式給出這些邊界框的信息。邊界框的信息包括了位置信息,置信度以及物體的類別信息。置信度代表了當(dāng)前格子包含一個(gè)目標(biāo)的概率。邊界框的置信度公式為:
當(dāng)有物體落入格子中時(shí)取1,沒有物體落入格子中時(shí)取0。是預(yù)測邊界框和實(shí)際邊界框的交并比:
是預(yù)測邊界框,是實(shí)際邊界框,area表示面積邊。每一個(gè)單元格還要給出預(yù)測出C個(gè)類別的概率值,其表征的是由該單元格負(fù)責(zé)預(yù)測的邊界框,其目標(biāo)屬于各個(gè)類別的概率。
3.分析
在tensorflow-gpu環(huán)境下,基于構(gòu)建的模型,用數(shù)據(jù)集的16551張圖像對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,之后分別用200張圖像進(jìn)行分類識別測試,運(yùn)行時(shí)間在60ms-70ms之間,測試結(jié)果如下:
其中,100張圖片屬于比較簡單的環(huán)境,其中99張識別準(zhǔn)確,有3張物體并沒有識別完全,但是僅僅只是局部物體。另外100張圖片比較復(fù)雜,有2張圖片存在誤識別,除此之外,有超過10張圖片存在未識別完全的情況。
實(shí)驗(yàn)結(jié)果表明,本文構(gòu)建的圖像分類識別模型對圖像識別的效率和準(zhǔn)確率都比較高,運(yùn)行時(shí)間在60ms-70ms之間,識別準(zhǔn)確率達(dá)到了98%。
【參考文獻(xiàn)】
[1] 戴進(jìn),劉振宇. 基于深度學(xué)習(xí)的圖像識別算法研究的綜述[D]. 計(jì)算機(jī)產(chǎn)品與流通, 2018.
[2] 衣世東. 基于深度學(xué)習(xí)的圖像識別算法研究[D]. 信息工程大學(xué), 2018.
[3] 周瑤. 基于機(jī)器視覺與黃板誘導(dǎo)的有翅昆蟲統(tǒng)計(jì)識別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 重慶大學(xué), 2017.
[4] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV , 2016: 779-788.