孫麗萍 陳泓鋼 岳琪 張瑤 張怡卓
(東北林業(yè)大學(xué),哈爾濱,150040)
樹木的葉、枝、皮、根等都可以作為分類依據(jù)[1-3]。由于葉片采集方便、保存時間長、紋理明顯、其二維結(jié)構(gòu)易于圖像技術(shù)處理等優(yōu)勢,所以在樹木識別技術(shù)中,葉片通常被選為首選器官。在國外,早期研究者對葉片的識別都是將其形狀特征等作為依據(jù),如Harish et al.[4]用形態(tài)特征和澤尼克矩識別植物葉片。隨著計算機視覺的發(fā)展,提取的特征拓展到紋理、形狀、顏色等[5-8],如Ambarwari et al.[9]提取葉片的葉緣、形狀、紋理特征,通過改進(jìn)的模糊K-NN算法分類在363個觀測數(shù)據(jù)上的準(zhǔn)確率為73.48%,該研究發(fā)現(xiàn)紋理和形狀特征結(jié)合會使識別率提升。國內(nèi)也提出很多葉片特征提取和分類方法,如帶預(yù)處理項的SIFT算法、葉片脈絡(luò)邊緣特征提取算法等[10-11];分類器也由簡易優(yōu)化為支持向量機等[12]。趙洋[13]使用局部紋理描述子對葉片進(jìn)行識別,結(jié)果顯示,二值化算子雖獲得了在光照、旋轉(zhuǎn)下的魯棒性,但是損失了大量的細(xì)節(jié)信息;馬媛等[14]結(jié)合能提取葉片輪廓的梯度方向直方圖特征識別葡萄葉,解決光照不均勻和背景變化帶來的問題,不足之處是該特征缺少旋轉(zhuǎn)不變性,難以檢測到姿態(tài)不正的葉片。
樹木種類不計其數(shù),為了滿足不斷增長的需求,亟需提高樹葉識別率。影響識別率的主要因素有特征提取精度、分類器模型。提高特征精度,需要使提取的特征能夠充分描述葉片信息,而且受光照、旋轉(zhuǎn)等因素影響較??;細(xì)節(jié)信息是相似葉片分類的主要依據(jù)。在分類器選擇方面,以往的分類器模型結(jié)構(gòu)較為簡單,難以構(gòu)建復(fù)雜的分類模型,在處理高維特征向量時,難以達(dá)到預(yù)想的效果。本文以Pl@ntNet Identify、leafsnap和現(xiàn)場采集的葉片數(shù)據(jù)庫為樣本,將改進(jìn)的局部三值模式(LTP)和梯度方向直方圖(HOG)特征采用零均值標(biāo)準(zhǔn)化方法[15]融合,并使用深度信念網(wǎng)絡(luò)(DBN)作為分類模型進(jìn)行樹木葉片分類識別,旨在為拓展樹木種類識別方法、提供識別率提供參考。
試驗以樹木葉片為研究對象,使用的葉片圖像來自于由Pl@ntNet Identify、leafsnap和現(xiàn)場隨機采集組成的數(shù)據(jù)庫,總共涉及60種、9 500張葉片圖片。每種葉片數(shù)量100、150、200,圖片分辨率為416×416,訓(xùn)練和測試樣本的比例為4∶1。試驗使用Windows10系統(tǒng),MatlabR2018a平臺,工具庫為深度學(xué)習(xí)工具箱,處理器為英特爾酷睿i5-7500(intel core i5-7500)。
樹木葉片的預(yù)處理包括去除葉柄、圖像去噪、葉片區(qū)域提取。去除葉柄——防止其對提取的葉片特征值造成干擾,影響識別率;濾波去噪——將原始圖像轉(zhuǎn)換為灰度圖后,用中值濾波去噪,以增強葉片的信息;輪廓提取——使用大津閾值法提取葉片邊緣部分,最后將灰度圖中葉片的輪廓從背景中分割出來。
由于提取的2種特征維數(shù)過高,含有太多冗余信息,所以使用主成分分析[16]方法降低數(shù)據(jù)維度。試驗選用貢獻(xiàn)率超過98%的特征,既降低了數(shù)據(jù)的復(fù)雜度,又能提高處理效率。關(guān)于特征的融合,使用的是零均值標(biāo)準(zhǔn)化方法,該方法可使2種特征對分類具有相同的影響尺度,還能加速權(quán)重參數(shù)收斂與提高精度。轉(zhuǎn)化函數(shù)為:
x*=(x-μ)/σ。
(1)
式中:x*為標(biāo)準(zhǔn)化后的數(shù)據(jù)集;x為原始數(shù)據(jù)集;μ為所有樣本數(shù)據(jù)的均值;σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
本方法分別與文獻(xiàn)[17]~[20]的方法進(jìn)行了對比試驗,而且進(jìn)行了人為增加光照的試驗,比較每種方法在各種情況下的識別率。
2.1.1 局部三值模式(LTP)特征
LTP是在局部二值模式(LBP)基礎(chǔ)上改進(jìn)得到,用來描述圖像局部紋理特征的算子[21-23];LTP通過自定義閾值,采用三值編碼模式對像素點之間的差值進(jìn)行編碼。與非0即1的LBP表示方法相比,在圖片背景比較復(fù)雜時,LTP比LBP更能精準(zhǔn)地描述葉片圖像的紋理細(xì)節(jié),而且光照變化和噪聲干擾等外界因素對其影響更小。原始LTP特征值(ELTP)計算方法為:
(2)
式中:P為鄰域像素點個數(shù);S(Li)為鄰域各點灰度值被量化后的值,該值選取標(biāo)準(zhǔn)如式(3)。
(3)
式中:t為閾值;Lc為中心像素點灰度;Li為鄰域像素點灰度,i=1、2、…、8。LTP編碼過程如圖2,此處閾值(t)設(shè)置為6,中心像素灰度值為67,則閾值區(qū)間為[61,73]。
改進(jìn)之后的特征向量維數(shù)由原來的2P增加到3P,隨著P的增大,維數(shù)呈指數(shù)級增長。針對維數(shù)過高問題,需要將LTP編碼進(jìn)行分解,變?yōu)檎?fù)兩部分,將正負(fù)模式的LTP編碼進(jìn)行加權(quán)計算獲得特征值(見圖3、圖4)。
2.1.2 改進(jìn)的局部三值模式(LTP)特征
使用原始LTP特征進(jìn)行試驗可知,閾值(t)的選取需要大量的試驗,很難達(dá)到全局最優(yōu)值,而且整幅圖像使用同一閾值(t)必將降低紋理特征的精度。針對該問題,本文對原始的閾值選取方法進(jìn)行改進(jìn),提出一種自適應(yīng)動態(tài)閾值的LTP算法;該算法的原理,依據(jù)中心與鄰域像素點的離散程度。平均差能綜合反映各像素點灰度值的變動程度,平均差越大,則表示變動度越大,反之則表示變動度越小。平均差為:
(4)
所以改進(jìn)的動態(tài)閾值范圍為[Lc-kα,Lc+kα],k為引入的1個權(quán)重系數(shù),則改進(jìn)后的LTP計算公式為:
(5)
與原始LTP算法相比,改進(jìn)后的LTP算法,既保留了中心與鄰域像素的相對關(guān)系,也降低了對中心像素的依賴。此外,在計算像素相對離散度的基礎(chǔ)上,新引入了權(quán)重系數(shù)(k),使得特征表達(dá)更加精確。同時,閾值的大小也隨著局部像素的改變而改變,實現(xiàn)了閾值的自適應(yīng)性,為提升葉片圖像分類的性能提供了保障。
2.1.3 梯度方向直方圖(HOG)特征
HOG特征通過計算像素點梯度并統(tǒng)計,構(gòu)成局部區(qū)域的梯度方向直方圖反映紋理特征;葉片邊緣梯度的變化,也可以顯示圖像中物體的輪廓。該特征的提取步驟為:
①顏色空間歸一化。先將灰度圖像進(jìn)行γ(Gamma)校正,對圖像進(jìn)行顏色空間歸一化處理;目的是調(diào)節(jié)圖像對比度,降低圖像局部陰影和光照變化造成的影響。γ校正公式如下:
L(x,y)=L(x,y)γ。
(6)
式中:L為各像素點的值;γ為系數(shù)。
②梯度計算。選擇2組3×3的索貝爾(Sobel)卷積核作用在圖片上,分別計算水平方向與垂直方向梯度差分近似值,?f/?x=sx?f、?f/?y=sy?f,f為葉片圖像矩陣。再用式(7)、式(8)計算像素點(x,y)的梯度:
‖f‖=[(?f/?x)2+( ?f/?y)2]1/2。
(7)
θ=tan-1[(?f/?y)/(?f/?x)]。
(8)
③構(gòu)成梯度方向直方圖。將整幅圖像分割為小的細(xì)胞單元并作為基本單位,每個細(xì)胞單元內(nèi)的方向分為9塊,即40°為1塊。對梯度直方圖進(jìn)行投影統(tǒng)計,梯度值即為投影的權(quán)值,每個細(xì)胞單元有9維向量(見圖5)。
④重疊塊直方圖歸一化。將相鄰的細(xì)胞單元組合成有重疊的塊,1個塊內(nèi)所有細(xì)胞單元的特征串聯(lián)起來便得到該塊的HOG特征。由于有互相重疊的現(xiàn)象,細(xì)胞單元內(nèi)特征會以不同的結(jié)果多次出現(xiàn)在最終的特征向量中,所以對每個塊內(nèi)的特征進(jìn)行對比度歸一化處理。最后將圖像內(nèi)所有塊的特征串聯(lián)起來得到該圖像的HOG特征。
因為HOG是在圖像的局部單元上進(jìn)行計算,所以和其他的特征描述方法相比,HOG對圖像的幾何、光學(xué)形變都能保持很好的不變性,因為這兩種形變只會出現(xiàn)在更大的空間領(lǐng)域上。
DBN是一個依據(jù)人工神經(jīng)網(wǎng)絡(luò)的概率生成模型,通過訓(xùn)練各層神經(jīng)元的連接權(quán)重,使神經(jīng)網(wǎng)絡(luò)依據(jù)最大概率重構(gòu)訓(xùn)練數(shù)據(jù),獲得深層次抽象特征。DBN由多個受限玻爾茲曼機(RBM)疊加而成,采用逐層訓(xùn)練的方式,將低層特征映射為更加抽象的高層表示特征或?qū)傩灶悇e,求取最接近訓(xùn)練樣本的聯(lián)合概率分布。這能使輸出信息更準(zhǔn)確的還原輸入信息,解決了深層次神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題。
一個RBM含有兩層神經(jīng)元,分別為可見層、隱藏層,兩層之間為全連接,層內(nèi)無連接(見圖6)。底層可見單元由數(shù)據(jù)向量表示,每個神經(jīng)元代表向量的一維,隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出的高階數(shù)據(jù)的相關(guān)性。
訓(xùn)練RBM是為了尋找各層單元節(jié)點間的最優(yōu)權(quán)值,重構(gòu)訓(xùn)練樣本的概率分布??蓪⒕W(wǎng)絡(luò)看作一個能量函數(shù),能量最低時網(wǎng)絡(luò)也達(dá)到了理想狀態(tài),所以訓(xùn)練過程就是最小化該函數(shù)。定義一個能量函數(shù)為:
E(v,h)=-∑iaivi-∑jbjhj-∑i,jviWijhj。
(9)
式中:vi、hj分別為可見單元與隱藏單元的兩種狀態(tài)(激活為1,未激活為0);ai、bj為各層的偏置;Wij為兩層間的權(quán)重矩陣。由此函數(shù)可得可見層與隱含層之間的聯(lián)合概率分布為:
p(v,h)=eE(v,h)/{∑v∑h-E(v,h)}。
(10)
本文使用對比散度算法逐層對RBM進(jìn)行訓(xùn)練,首先將樣本輸入到可視層(v0),計算該樣本使隱元激活的概率:
(11)
(12)
計算依據(jù)重構(gòu)顯層的隱元激活概率:
(13)
最后根據(jù)原始隱層激活概率與重構(gòu)概率之間的差異,更新權(quán)重(W):
W←W+μ(p(h0=1|v0)(v0)T-p(h1=
1|v1)(v1)T)。
(14)
式中:v0、h0表示第一次取樣。訓(xùn)練完第一個RBM的權(quán)重和偏置后,將其隱元的狀態(tài)輸入到下一個RBM的可見層,繼續(xù)重復(fù)上述過程。
訓(xùn)練使RBM獲得初始化參數(shù),組成了初步的網(wǎng)絡(luò)結(jié)構(gòu)。為了優(yōu)化模型,在網(wǎng)絡(luò)的最后一層加入BP網(wǎng)絡(luò)[24],根據(jù)輸出數(shù)據(jù)和給定數(shù)據(jù)的損失函數(shù),利用反向傳播算法微調(diào)各結(jié)點參數(shù)。訓(xùn)練與微調(diào)結(jié)合,會避免參數(shù)陷入局部最優(yōu)的情況,而且會改善訓(xùn)練時間長的問題。
本文提出的算法流程如圖7所示。
網(wǎng)絡(luò)結(jié)構(gòu):本實驗DBN網(wǎng)絡(luò)中BP層的激活函數(shù)為Softmax函數(shù),損失函數(shù)為交叉熵函數(shù)。分別為:
Softmax(qi)=ei/∑iei。
(15)
H(p,q)=-∑ipilogpi。
(16)
使用節(jié)點分別為563—420—270—130—60的4層網(wǎng)絡(luò),學(xué)習(xí)速率設(shè)為0.1。
LTP特征提?。罕驹囼瀸︻A(yù)處理后的圖片進(jìn)行4×4分塊提取,使用鄰域像素數(shù)為8的圓形算子,整幅圖片的特征維數(shù)為256×16=4 096(見圖8)。
HOG特征提?。罕驹囼瀸?6×16的像素組成1個細(xì)胞單元,每2×2個細(xì)胞單元組成1個塊,每個塊內(nèi)有4×9=36個特征,全圖共有25個掃描窗口。所以1張圖片的HOG特征有36×25×25=22 500維(見圖9)。
本文提出的樹木葉片分類模型的試驗分為兩個過程:訓(xùn)練過程、測試過程。經(jīng)過多次試驗發(fā)現(xiàn),當(dāng)隱含層都為563個結(jié)點時,識別效果最好。本次試驗方法與LBP+DBN方法、 HOG+DBN方法、LTP+DBN方法、哈爾(haar)小波+支持向量機(SVM)方法進(jìn)行對比試驗,在30種共6 000張的樣本中,本次試驗方法識別率達(dá)到了95.28%(見表1),均高于對比的方法;而在60種共9 500張圖片的數(shù)據(jù)集里測試,得到了94.87%的識別率。
表1 不同試驗方法的識別率對比
本次試驗還設(shè)置了隨機的不規(guī)則光照影響,在現(xiàn)場采集的10種共1 500張圖片的數(shù)據(jù)集中,隨機對一些圖片進(jìn)行手電筒不規(guī)則弱光照處理,對比各方法識別率(見表2)。由表2可見:雖然在光照影響下識別率有待提高,但與以前的方法相比,本試驗提出的方法在受光照影響時魯棒性更高。
表2 光照影響下不同試驗方法的識別率
為了提高原有方法的葉片識別率,本文提出用改進(jìn)的LTP特征與HOG特征進(jìn)行紋理特征融合,使用DBN網(wǎng)絡(luò)作為分類器進(jìn)行樹木葉片分類識別。在由Pl@ntNet Identify、leafsnap和現(xiàn)場采集的葉片數(shù)據(jù)庫中進(jìn)行試驗,結(jié)果顯示本文的方法比原有方法識別準(zhǔn)確率更高。改進(jìn)后的LTP算子與HOG算子融合,形成具有對光照等影響更強的魯棒性、旋轉(zhuǎn)不變性等優(yōu)點的新特征,可以精準(zhǔn)地反映圖像信息。結(jié)合DBN,并利用網(wǎng)絡(luò)中大量神經(jīng)元的非線性關(guān)系,發(fā)現(xiàn)訓(xùn)練樣本中的特征分布,完成對該復(fù)雜函數(shù)模型的擬合,達(dá)到較高圖像分類性能。但是,對于強烈光照影響下,識別率不理想、訓(xùn)練過程中樣本需求量過大等問題還有待研究。