陜西師范大學(xué)錦園中學(xué) 徐偉森
近些年來(lái),隨著計(jì)算機(jī)科學(xué)與人工智能的不斷發(fā)展,人們對(duì)于目標(biāo)識(shí)別的關(guān)注度已愈來(lái)愈高。目標(biāo)識(shí)別技術(shù),是指利用圖像處理算法或者機(jī)器學(xué)習(xí)的理論和方法來(lái)確定圖像中是否存在感興趣的目標(biāo)并得出目標(biāo)在圖像中的位置。[1]事實(shí)上,在我們的生活中,在許多領(lǐng)域都可以見(jiàn)到目標(biāo)識(shí)別與人工智能的應(yīng)用。特別是在農(nóng)業(yè)方面,隨著人工成本的增加和農(nóng)業(yè)機(jī)械化的發(fā)展,如何能準(zhǔn)確識(shí)別果實(shí)已成為當(dāng)下研究的一個(gè)熱點(diǎn)。本文針對(duì)目標(biāo)識(shí)別算法在果實(shí)采摘方面的應(yīng)用進(jìn)行比較和分析,并對(duì)其未來(lái)進(jìn)行展望。
傳統(tǒng)的目標(biāo)識(shí)別算法主要是利用圖像處理的基本知識(shí),對(duì)圖像進(jìn)行空間域或者頻率域上的處理,使圖像達(dá)到想要的標(biāo)準(zhǔn),傳統(tǒng)目標(biāo)識(shí)別算法,原理較為清晰,過(guò)程較為簡(jiǎn)單,對(duì)于不太復(fù)雜的圖像場(chǎng)景,有很好的應(yīng)用價(jià)值。
要進(jìn)行目標(biāo)識(shí)別,首先需要解決的問(wèn)題就是圖像的采集。用于采集圖像的設(shè)備大致有單目攝像頭、雙目攝像頭、kinect等,如圖1所示。單目攝像頭只有一個(gè)鏡頭,雙目攝像頭有兩個(gè)鏡頭,類(lèi)似于人眼結(jié)構(gòu),并且可以通過(guò)計(jì)算得出像素的深度值,kinect有一個(gè)rgb攝像頭和一個(gè)紅外攝像頭,也可以得出像素深度信息。其次是圖像處理部分,可采用計(jì)算機(jī)處理和DSP芯片進(jìn)行處理等,針對(duì)不同的處理需求,采用不同性能的處理芯片。最后是圖像輸出部分,可采用LED或者LCD顯示屏進(jìn)行輸出。具體的步驟總結(jié)起來(lái)可分為六步:采集圖像-預(yù)處理-特征生成-特征選擇-檢測(cè)-輸出圖像。
圖1 采集圖像設(shè)備
在很多情況下,圖像在采集和傳輸過(guò)程中可能會(huì)受到一定的干擾,從而產(chǎn)生各種噪聲,使得圖像的質(zhì)量并不滿(mǎn)足實(shí)際處理的要求。對(duì)此,預(yù)處理就變得十分必要了。為了減少圖像的噪聲,可以采用濾波方法進(jìn)行處理[2]。具體的濾波方法可采用平均濾波法,中值濾波法等。經(jīng)過(guò)預(yù)處理后的圖像質(zhì)量可得到一定的提升。
在進(jìn)行彩色圖像處理時(shí),采用不同的顏色空間可以產(chǎn)生不同的處理效果。在果園中進(jìn)行蘋(píng)果采摘時(shí),由于需要采摘的蘋(píng)果與枝葉等背景在顏色特征上差異較大,即蘋(píng)果主要是紅色信息成分、背景是綠色的枝葉等為綠色信息成分,故可以基于圖像的顏色特征對(duì)蘋(píng)果圖像進(jìn)行分割。若采用基于顏色特征的圖像分割算法,則顏色空間的選擇就很重要,選擇不同的顏色空間可以有不同的分割效果,常用的于本采摘環(huán)境相關(guān)的顏色空間有:RGB顏色空間和Lab顏色空間等[3]。
RGB顏色空間是圖像處理中最基礎(chǔ),最常用的顏色空間,分別代表紅綠藍(lán)三色空間,一般常用于圖像的顯示。R代表紅色空間、G代表綠色空間、B代表藍(lán)色空間,RGB顏色空間雖然較為常用,并且在蘋(píng)果圖像處理過(guò)程中只需要通道提取而不需要進(jìn)行額外的空間轉(zhuǎn)換,但是RGB顏色空間的缺點(diǎn)也很明顯:本身由于采集到的蘋(píng)果圖像會(huì)一定程度上受到光照、陰影等因素的影響,而RGB顏色空間受亮度影響比較大。所以RGB顏色空間更適用于圖像的采集與顯示,若作為蘋(píng)果圖像分割采用的顏色空間,則效果較為一般
Lab顏色空間Lab顏色空間是一種類(lèi)似于人眼視覺(jué)感知的顏色系統(tǒng),反映在坐標(biāo)系中L表示亮度信息,a表示顏色從紅色到綠色的變化,b表示顏色從藍(lán)色到黃色的變化,所以在對(duì)蘋(píng)果圖像識(shí)別時(shí),若采用Lab空間,只用a分量即可,而不用L和b分量,這樣既利用了蘋(píng)果圖像中紅色與綠色的顏色信息,也可以降低光照等因素的影響。
在選擇好顏色空間后,便要進(jìn)行圖像背景與目標(biāo)分割。分割方法有顏色聚類(lèi)法,OTSU法等。不同的分割方法有不同的優(yōu)點(diǎn)與缺點(diǎn),要根據(jù)實(shí)際情況進(jìn)行選擇。
顏色聚類(lèi)法,主要原理是讓不同的顏色聚集為不同的群,首先需要根據(jù)實(shí)際情況確定聚類(lèi)的數(shù)目。蘋(píng)果圖像識(shí)別在采用顏色聚類(lèi)法時(shí)主要是通過(guò)讓綠色和紅色聚為不同的類(lèi),從而將綠色和紅色信息分開(kāi),提取出蘋(píng)果信息[4]。該方法較為直觀、容易實(shí)現(xiàn)。在進(jìn)行聚類(lèi)時(shí),首先需要確定聚類(lèi)類(lèi)別數(shù)與初始聚類(lèi)中心,由于采集到的蘋(píng)果圖像紅色分量較大且紅色分量是蘋(píng)果果實(shí)部分,所以可以直接采用RGB顏色空間中的R分量最大作為蘋(píng)果果實(shí)類(lèi),G分量最大的作為背景類(lèi),也就是選取聚類(lèi)數(shù)為K=2,之后進(jìn)行二值化,將果實(shí)類(lèi)別中的像素值賦255,也就是將果實(shí)類(lèi)別進(jìn)行填充白色,背景類(lèi)別中的像素值賦0,將背景信息填充黑色,從而將蘋(píng)果果實(shí)與背景進(jìn)行分割。
OTSU法又叫最大類(lèi)間方差法,屬于基于閾值的分割方法?;陂撝档奶O(píng)果圖像分割算法主要是利用圖像中枝葉等背景與蘋(píng)果目標(biāo)的顏色特征差異,即紅色與綠色等其他背景的差異,通過(guò)選定一個(gè)能夠?qū)⒛繕?biāo)與背景區(qū)分的中間值,從而實(shí)現(xiàn)對(duì)蘋(píng)果圖像的分割,中間值的一邊為背景,另一邊為果實(shí)?;陂撝档姆指钏惴梢苑譃閮煞N,分別是固定閾值法和自動(dòng)閾值法。自動(dòng)閾值法是通過(guò)分析目標(biāo)與背景在顏色空間上的分布差異,自動(dòng)選擇閾值實(shí)現(xiàn)分割。OTSU方法屬于自動(dòng)閾值法,原理是利用圖像中的灰度直方圖,以目標(biāo)和背景之間的最大方差為自動(dòng)分割閾值,對(duì)目標(biāo)和背景進(jìn)行分割。這樣在蘋(píng)果識(shí)別時(shí),可以將蘋(píng)果目標(biāo)與綠葉枝干等背景分離開(kāi)來(lái),從而將蘋(píng)果目標(biāo)提取出來(lái)。該方法較為簡(jiǎn)單,處理速度較快,不需要進(jìn)行閾值的選擇,輸入一幅圖像,可以自行選擇最大類(lèi)間方差的閾值進(jìn)行分割、適用范圍較廣。
得到的分割圖像具有一定程度的噪聲并且有一定的誤分類(lèi)點(diǎn),一般有兩類(lèi)誤分類(lèi)點(diǎn):第一類(lèi):蘋(píng)果目標(biāo)區(qū)域被分類(lèi)成背景,即將蘋(píng)果部分分割成了背景部分;第二類(lèi):枝葉背景被誤分類(lèi)為目標(biāo)區(qū)域,即將背景部分分割為了蘋(píng)果部分;為了將這些誤分類(lèi)的區(qū)域修正,需要對(duì)分割后的圖像進(jìn)行一定程度的處理,處理流程可以包括:降噪處理、形態(tài)學(xué)處理(腐蝕、膨脹、開(kāi)運(yùn)算、閉運(yùn)算),基于這些基本運(yùn)算還可推導(dǎo)和組合成各種數(shù)學(xué)形態(tài)學(xué)實(shí)用算法,用它們可以進(jìn)行圖像形狀和結(jié)構(gòu)的分析及處理。
霍夫變換是一種圖像處理方法,能夠用來(lái)識(shí)別圖像中的基本形狀在目標(biāo)檢測(cè)領(lǐng)域中具有廣泛的應(yīng)用[5]。
霍夫變換最早是用來(lái)檢測(cè)直線的,根據(jù)兩點(diǎn)確定一條直線的原理,將直線的方程轉(zhuǎn)化為參數(shù)空間的方程在在圖像中的像素點(diǎn)可以?xún)蓛山M合成多組直線,對(duì)應(yīng)參數(shù)空間中就是一個(gè)個(gè)的點(diǎn)。統(tǒng)計(jì)這些點(diǎn)出現(xiàn)的次數(shù),找出出現(xiàn)次數(shù)最多的那個(gè)點(diǎn),便能夠得出最有可能的直線的方程。
在蘋(píng)果檢測(cè)過(guò)程中,利用了霍夫變換圓型檢測(cè)。圓在xy坐標(biāo)系中的方程為(x-a)2+(y-b)2=r2,將此方程同樣轉(zhuǎn)化為參數(shù)空間當(dāng)中根據(jù)三個(gè)點(diǎn)能夠確定一個(gè)圓的原理,統(tǒng)計(jì)空間當(dāng)中像素點(diǎn)能夠形成的圓的種類(lèi)與次數(shù)找出出現(xiàn)次數(shù)最多的那個(gè)圓,這個(gè)圓便是我們檢測(cè)出來(lái)的蘋(píng)果的輪廓。
霍夫變換具有很多的優(yōu)點(diǎn):它具有很好的穩(wěn)定性,并且具有很好的容錯(cuò)性。如果分割后的圖像還存在一些噪聲點(diǎn)和干擾點(diǎn),霍夫變換也能夠?qū)A檢測(cè)出來(lái)。當(dāng)然,霍夫變換也有一些缺點(diǎn),缺點(diǎn)是霍夫變換運(yùn)算較為復(fù)雜,處理時(shí)需要耗費(fèi)較多的時(shí)間。
通過(guò)霍夫變換,可以將蘋(píng)果圈出來(lái)并能夠得到蘋(píng)果圓的圓心。如圖2所示:
圖2
深度學(xué)習(xí)仿造人的神經(jīng)網(wǎng)絡(luò)對(duì)圖像當(dāng)中的特征進(jìn)行識(shí)別,人的神經(jīng)網(wǎng)絡(luò)包含非常多的神經(jīng)元與非常多的神經(jīng)層數(shù),深度學(xué)習(xí)也是通過(guò)構(gòu)造人工神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)信息進(jìn)行學(xué)習(xí)并進(jìn)行預(yù)測(cè),判斷等。
深度學(xué)習(xí)的網(wǎng)絡(luò)包含多層,每一層都可以感知圖像中目標(biāo)的不同特征信息,有一些是圖像目標(biāo)中的具體信息,例如:形狀信息、色彩信息等,有一些則是一些無(wú)法直觀感受到的抽象信息。深度學(xué)習(xí)基本的神經(jīng)網(wǎng)絡(luò)圖如圖3所示:
圖3 深度學(xué)習(xí)基本的神經(jīng)網(wǎng)絡(luò)圖
圖3中的圓形為神經(jīng)元,直線為神經(jīng)元連接線。第一層為輸入層,將蘋(píng)果圖像的數(shù)據(jù)輸入進(jìn)去,第二層為隱藏層,能夠感知蘋(píng)果圖像中的目標(biāo)蘋(píng)果特征,隱藏層可以有多層,層數(shù)越多,學(xué)習(xí)的就較為充分,最后一層為輸出層,輸出最終得結(jié)果。
用深度學(xué)習(xí)對(duì)蘋(píng)果圖像進(jìn)行識(shí)別的優(yōu)點(diǎn)在于:不需要掌握數(shù)字圖像處理的基本知識(shí),只需要深度學(xué)習(xí)相關(guān)的知識(shí),便可以進(jìn)行處理與識(shí)別。并且只要構(gòu)造的人工神經(jīng)網(wǎng)絡(luò)合理,識(shí)別率就會(huì)較高。缺點(diǎn)在于,深度學(xué)習(xí)方法前期需要用大量數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練的過(guò)程類(lèi)似于人類(lèi)的學(xué)習(xí)過(guò)程,如果不方便獲取大量的數(shù)據(jù),或者數(shù)據(jù)不準(zhǔn)確,則會(huì)給蘋(píng)果的識(shí)別帶來(lái)難度。
本文研究討論了蘋(píng)果目標(biāo)識(shí)別的識(shí)別過(guò)程,具體包括顏色空間的選擇,分割算法的選擇,分割圖像后處理和霍夫變換圓檢測(cè)。最后還對(duì)當(dāng)下的深度學(xué)習(xí)目標(biāo)檢測(cè)方法進(jìn)行了討論比較。