依據(jù)特征融合和深度學(xué)習(xí)的樹木葉片分類方法1)

2020-06-26 04:40:12孫麗萍陳泓鋼岳琪張瑤張怡卓

東北林業(yè)大學(xué)學(xué)報 2020年6期

孫麗萍陳泓鋼岳琪張瑤張怡卓

(東北林業(yè)大學(xué)，哈爾濱，150040)

樹木的葉、枝、皮、根等都可以作為分類依據(jù)[1-3]。由于葉片采集方便、保存時間長、紋理明顯、其二維結(jié)構(gòu)易于圖像技術(shù)處理等優(yōu)勢，所以在樹木識別技術(shù)中，葉片通常被選為首選器官。在國外，早期研究者對葉片的識別都是將其形狀特征等作為依據(jù)，如Harish et al.[4]用形態(tài)特征和澤尼克矩識別植物葉片。隨著計算機視覺的發(fā)展，提取的特征拓展到紋理、形狀、顏色等[5-8]，如Ambarwari et al.[9]提取葉片的葉緣、形狀、紋理特征，通過改進(jìn)的模糊K-NN算法分類在363個觀測數(shù)據(jù)上的準(zhǔn)確率為73.48%，該研究發(fā)現(xiàn)紋理和形狀特征結(jié)合會使識別率提升。國內(nèi)也提出很多葉片特征提取和分類方法，如帶預(yù)處理項的SIFT算法、葉片脈絡(luò)邊緣特征提取算法等[10-11]；分類器也由簡易優(yōu)化為支持向量機等[12]。趙洋[13]使用局部紋理描述子對葉片進(jìn)行識別，結(jié)果顯示，二值化算子雖獲得了在光照、旋轉(zhuǎn)下的魯棒性，但是損失了大量的細(xì)節(jié)信息；馬媛等[14]結(jié)合能提取葉片輪廓的梯度方向直方圖特征識別葡萄葉，解決光照不均勻和背景變化帶來的問題，不足之處是該特征缺少旋轉(zhuǎn)不變性，難以檢測到姿態(tài)不正的葉片。

樹木種類不計其數(shù)，為了滿足不斷增長的需求，亟需提高樹葉識別率。影響識別率的主要因素有特征提取精度、分類器模型。提高特征精度，需要使提取的特征能夠充分描述葉片信息，而且受光照、旋轉(zhuǎn)等因素影響較??；細(xì)節(jié)信息是相似葉片分類的主要依據(jù)。在分類器選擇方面，以往的分類器模型結(jié)構(gòu)較為簡單，難以構(gòu)建復(fù)雜的分類模型，在處理高維特征向量時，難以達(dá)到預(yù)想的效果。本文以Pl@ntNet Identify、leafsnap和現(xiàn)場采集的葉片數(shù)據(jù)庫為樣本，將改進(jìn)的局部三值模式(LTP)和梯度方向直方圖(HOG)特征采用零均值標(biāo)準(zhǔn)化方法[15]融合，并使用深度信念網(wǎng)絡(luò)(DBN)作為分類模型進(jìn)行樹木葉片分類識別，旨在為拓展樹木種類識別方法、提供識別率提供參考。

1 材料與方法

1.1 數(shù)據(jù)庫與試驗環(huán)境

試驗以樹木葉片為研究對象，使用的葉片圖像來自于由Pl@ntNet Identify、leafsnap和現(xiàn)場隨機采集組成的數(shù)據(jù)庫，總共涉及60種、9 500張葉片圖片。每種葉片數(shù)量100、150、200，圖片分辨率為416×416，訓(xùn)練和測試樣本的比例為4∶1。試驗使用Windows10系統(tǒng)，MatlabR2018a平臺，工具庫為深度學(xué)習(xí)工具箱，處理器為英特爾酷睿i5-7500(intel core i5-7500)。

1.2 圖片預(yù)處理

樹木葉片的預(yù)處理包括去除葉柄、圖像去噪、葉片區(qū)域提取。去除葉柄——防止其對提取的葉片特征值造成干擾，影響識別率；濾波去噪——將原始圖像轉(zhuǎn)換為灰度圖后，用中值濾波去噪，以增強葉片的信息；輪廓提取——使用大津閾值法提取葉片邊緣部分，最后將灰度圖中葉片的輪廓從背景中分割出來。

1.3 特征融合方法與對比試驗

由于提取的2種特征維數(shù)過高，含有太多冗余信息，所以使用主成分分析[16]方法降低數(shù)據(jù)維度。試驗選用貢獻(xiàn)率超過98%的特征，既降低了數(shù)據(jù)的復(fù)雜度，又能提高處理效率。關(guān)于特征的融合，使用的是零均值標(biāo)準(zhǔn)化方法，該方法可使2種特征對分類具有相同的影響尺度，還能加速權(quán)重參數(shù)收斂與提高精度。轉(zhuǎn)化函數(shù)為：

x*=(x-μ)/σ。

(1)

式中：x*為標(biāo)準(zhǔn)化后的數(shù)據(jù)集；x為原始數(shù)據(jù)集；μ為所有樣本數(shù)據(jù)的均值；σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

本方法分別與文獻(xiàn)[17]～[20]的方法進(jìn)行了對比試驗，而且進(jìn)行了人為增加光照的試驗，比較每種方法在各種情況下的識別率。

2 結(jié)果與分析

2.1 特征提取算法

2.1.1 局部三值模式(LTP)特征

LTP是在局部二值模式(LBP)基礎(chǔ)上改進(jìn)得到，用來描述圖像局部紋理特征的算子[21-23]；LTP通過自定義閾值，采用三值編碼模式對像素點之間的差值進(jìn)行編碼。與非0即1的LBP表示方法相比，在圖片背景比較復(fù)雜時，LTP比LBP更能精準(zhǔn)地描述葉片圖像的紋理細(xì)節(jié)，而且光照變化和噪聲干擾等外界因素對其影響更小。原始LTP特征值(ELTP)計算方法為：

(2)

式中：P為鄰域像素點個數(shù)；S(Li)為鄰域各點灰度值被量化后的值，該值選取標(biāo)準(zhǔn)如式(3)。

(3)

式中：t為閾值；Lc為中心像素點灰度；Li為鄰域像素點灰度，i=1、2、…、8。LTP編碼過程如圖2，此處閾值(t)設(shè)置為6，中心像素灰度值為67，則閾值區(qū)間為[61，73]。

改進(jìn)之后的特征向量維數(shù)由原來的2P增加到3P，隨著P的增大，維數(shù)呈指數(shù)級增長。針對維數(shù)過高問題，需要將LTP編碼進(jìn)行分解，變?yōu)檎?fù)兩部分，將正負(fù)模式的LTP編碼進(jìn)行加權(quán)計算獲得特征值(見圖3、圖4)。

2.1.2 改進(jìn)的局部三值模式(LTP)特征

使用原始LTP特征進(jìn)行試驗可知，閾值(t)的選取需要大量的試驗，很難達(dá)到全局最優(yōu)值，而且整幅圖像使用同一閾值(t)必將降低紋理特征的精度。針對該問題，本文對原始的閾值選取方法進(jìn)行改進(jìn)，提出一種自適應(yīng)動態(tài)閾值的LTP算法；該算法的原理，依據(jù)中心與鄰域像素點的離散程度。平均差能綜合反映各像素點灰度值的變動程度，平均差越大，則表示變動度越大，反之則表示變動度越小。平均差為：

(4)

所以改進(jìn)的動態(tài)閾值范圍為[Lc-kα，Lc+kα]，k為引入的1個權(quán)重系數(shù)，則改進(jìn)后的LTP計算公式為：

(5)

與原始LTP算法相比，改進(jìn)后的LTP算法，既保留了中心與鄰域像素的相對關(guān)系，也降低了對中心像素的依賴。此外，在計算像素相對離散度的基礎(chǔ)上，新引入了權(quán)重系數(shù)(k)，使得特征表達(dá)更加精確。同時，閾值的大小也隨著局部像素的改變而改變，實現(xiàn)了閾值的自適應(yīng)性，為提升葉片圖像分類的性能提供了保障。

2.1.3 梯度方向直方圖(HOG)特征

HOG特征通過計算像素點梯度并統(tǒng)計，構(gòu)成局部區(qū)域的梯度方向直方圖反映紋理特征；葉片邊緣梯度的變化，也可以顯示圖像中物體的輪廓。該特征的提取步驟為：

①顏色空間歸一化。先將灰度圖像進(jìn)行γ(Gamma)校正，對圖像進(jìn)行顏色空間歸一化處理；目的是調(diào)節(jié)圖像對比度，降低圖像局部陰影和光照變化造成的影響。γ校正公式如下：

L(x,y)=L(x,y)γ。

(6)

式中：L為各像素點的值；γ為系數(shù)。

②梯度計算。選擇2組3×3的索貝爾(Sobel)卷積核作用在圖片上，分別計算水平方向與垂直方向梯度差分近似值，?f/?x=sx?f、?f/?y=sy?f，f為葉片圖像矩陣。再用式(7)、式(8)計算像素點(x,y)的梯度：

‖f‖=[(?f/?x)2+( ?f/?y)2]1/2。

(7)

θ=tan-1[(?f/?y)/(?f/?x)]。

(8)

③構(gòu)成梯度方向直方圖。將整幅圖像分割為小的細(xì)胞單元并作為基本單位，每個細(xì)胞單元內(nèi)的方向分為9塊，即40°為1塊。對梯度直方圖進(jìn)行投影統(tǒng)計，梯度值即為投影的權(quán)值，每個細(xì)胞單元有9維向量(見圖5)。

④重疊塊直方圖歸一化。將相鄰的細(xì)胞單元組合成有重疊的塊，1個塊內(nèi)所有細(xì)胞單元的特征串聯(lián)起來便得到該塊的HOG特征。由于有互相重疊的現(xiàn)象，細(xì)胞單元內(nèi)特征會以不同的結(jié)果多次出現(xiàn)在最終的特征向量中，所以對每個塊內(nèi)的特征進(jìn)行對比度歸一化處理。最后將圖像內(nèi)所有塊的特征串聯(lián)起來得到該圖像的HOG特征。

因為HOG是在圖像的局部單元上進(jìn)行計算，所以和其他的特征描述方法相比，HOG對圖像的幾何、光學(xué)形變都能保持很好的不變性，因為這兩種形變只會出現(xiàn)在更大的空間領(lǐng)域上。

2.2 深度信念網(wǎng)絡(luò)(DBN)分類模型的構(gòu)建

DBN是一個依據(jù)人工神經(jīng)網(wǎng)絡(luò)的概率生成模型，通過訓(xùn)練各層神經(jīng)元的連接權(quán)重，使神經(jīng)網(wǎng)絡(luò)依據(jù)最大概率重構(gòu)訓(xùn)練數(shù)據(jù)，獲得深層次抽象特征。DBN由多個受限玻爾茲曼機(RBM)疊加而成，采用逐層訓(xùn)練的方式，將低層特征映射為更加抽象的高層表示特征或?qū)傩灶悇e，求取最接近訓(xùn)練樣本的聯(lián)合概率分布。這能使輸出信息更準(zhǔn)確的還原輸入信息，解決了深層次神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題。

一個RBM含有兩層神經(jīng)元，分別為可見層、隱藏層，兩層之間為全連接，層內(nèi)無連接(見圖6)。底層可見單元由數(shù)據(jù)向量表示，每個神經(jīng)元代表向量的一維，隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出的高階數(shù)據(jù)的相關(guān)性。

訓(xùn)練RBM是為了尋找各層單元節(jié)點間的最優(yōu)權(quán)值，重構(gòu)訓(xùn)練樣本的概率分布?？蓪⒕W(wǎng)絡(luò)看作一個能量函數(shù)，能量最低時網(wǎng)絡(luò)也達(dá)到了理想狀態(tài)，所以訓(xùn)練過程就是最小化該函數(shù)。定義一個能量函數(shù)為：

E(v,h)=-∑iaivi-∑jbjhj-∑i,jviWijhj。

(9)

式中：vi、hj分別為可見單元與隱藏單元的兩種狀態(tài)(激活為1，未激活為0)；ai、bj為各層的偏置；Wij為兩層間的權(quán)重矩陣。由此函數(shù)可得可見層與隱含層之間的聯(lián)合概率分布為：

p(v,h)=eE(v,h)/{∑v∑h-E(v,h)}。

(10)

本文使用對比散度算法逐層對RBM進(jìn)行訓(xùn)練，首先將樣本輸入到可視層(v0)，計算該樣本使隱元激活的概率：

(11)

(12)

計算依據(jù)重構(gòu)顯層的隱元激活概率：

(13)

最后根據(jù)原始隱層激活概率與重構(gòu)概率之間的差異，更新權(quán)重(W)：

W←W+μ(p(h0=1|v0)(v0)T-p(h1=

1|v1)(v1)T)。

(14)

式中：v0、h0表示第一次取樣。訓(xùn)練完第一個RBM的權(quán)重和偏置后，將其隱元的狀態(tài)輸入到下一個RBM的可見層，繼續(xù)重復(fù)上述過程。

訓(xùn)練使RBM獲得初始化參數(shù)，組成了初步的網(wǎng)絡(luò)結(jié)構(gòu)。為了優(yōu)化模型，在網(wǎng)絡(luò)的最后一層加入BP網(wǎng)絡(luò)[24]，根據(jù)輸出數(shù)據(jù)和給定數(shù)據(jù)的損失函數(shù)，利用反向傳播算法微調(diào)各結(jié)點參數(shù)。訓(xùn)練與微調(diào)結(jié)合，會避免參數(shù)陷入局部最優(yōu)的情況，而且會改善訓(xùn)練時間長的問題。

2.3 模型驗證

本文提出的算法流程如圖7所示。

網(wǎng)絡(luò)結(jié)構(gòu)：本實驗DBN網(wǎng)絡(luò)中BP層的激活函數(shù)為Softmax函數(shù)，損失函數(shù)為交叉熵函數(shù)。分別為：

Softmax(qi)=ei/∑iei。

(15)

H(p,q)=-∑ipilogpi。

(16)

使用節(jié)點分別為563—420—270—130—60的4層網(wǎng)絡(luò)，學(xué)習(xí)速率設(shè)為0.1。

LTP特征提?。罕驹囼瀸︻A(yù)處理后的圖片進(jìn)行4×4分塊提取，使用鄰域像素數(shù)為8的圓形算子，整幅圖片的特征維數(shù)為256×16=4 096(見圖8)。

HOG特征提?。罕驹囼瀸?6×16的像素組成1個細(xì)胞單元，每2×2個細(xì)胞單元組成1個塊，每個塊內(nèi)有4×9=36個特征，全圖共有25個掃描窗口。所以1張圖片的HOG特征有36×25×25=22 500維(見圖9)。

本文提出的樹木葉片分類模型的試驗分為兩個過程：訓(xùn)練過程、測試過程。經(jīng)過多次試驗發(fā)現(xiàn)，當(dāng)隱含層都為563個結(jié)點時，識別效果最好。本次試驗方法與LBP+DBN方法、 HOG+DBN方法、LTP+DBN方法、哈爾(haar)小波+支持向量機(SVM)方法進(jìn)行對比試驗，在30種共6 000張的樣本中，本次試驗方法識別率達(dá)到了95.28%(見表1)，均高于對比的方法；而在60種共9 500張圖片的數(shù)據(jù)集里測試，得到了94.87%的識別率。

表1 不同試驗方法的識別率對比

本次試驗還設(shè)置了隨機的不規(guī)則光照影響，在現(xiàn)場采集的10種共1 500張圖片的數(shù)據(jù)集中，隨機對一些圖片進(jìn)行手電筒不規(guī)則弱光照處理，對比各方法識別率(見表2)。由表2可見：雖然在光照影響下識別率有待提高，但與以前的方法相比，本試驗提出的方法在受光照影響時魯棒性更高。

表2 光照影響下不同試驗方法的識別率

3 結(jié)論

為了提高原有方法的葉片識別率，本文提出用改進(jìn)的LTP特征與HOG特征進(jìn)行紋理特征融合，使用DBN網(wǎng)絡(luò)作為分類器進(jìn)行樹木葉片分類識別。在由Pl@ntNet Identify、leafsnap和現(xiàn)場采集的葉片數(shù)據(jù)庫中進(jìn)行試驗，結(jié)果顯示本文的方法比原有方法識別準(zhǔn)確率更高。改進(jìn)后的LTP算子與HOG算子融合，形成具有對光照等影響更強的魯棒性、旋轉(zhuǎn)不變性等優(yōu)點的新特征，可以精準(zhǔn)地反映圖像信息。結(jié)合DBN，并利用網(wǎng)絡(luò)中大量神經(jīng)元的非線性關(guān)系，發(fā)現(xiàn)訓(xùn)練樣本中的特征分布，完成對該復(fù)雜函數(shù)模型的擬合，達(dá)到較高圖像分類性能。但是，對于強烈光照影響下，識別率不理想、訓(xùn)練過程中樣本需求量過大等問題還有待研究。