孫婷,田建平,胡新軍*,羅惠波,黃丹,黃浩平
1(四川輕化工大學(xué) 機械工程學(xué)院,四川 宜賓,644000)2(四川輕化工大學(xué) 生物工程學(xué)院,四川 宜賓,644000)3(釀酒生物技術(shù)及應(yīng)用四川省重點實驗室,四川 宜賓,644000)
高粱是我國重要的糧食作物之一,因其籽粒中含有豐富的營養(yǎng)物質(zhì)在釀酒行業(yè)有著“好酒離不開紅糧”的精辟論斷,每年需求量高達2 000萬t[1]。目前,釀酒高粱品種主要以高淀粉含量的瀘州紅、青殼洋、睿糯7號等糯高粱為主。由于釀酒高粱種類繁多,產(chǎn)地各不相同,籽粒中的淀粉、蛋白質(zhì)、脂肪和單寧等含量有較大差異,導(dǎo)致釀造出的白酒在香型、風(fēng)格、品質(zhì)和產(chǎn)酒率上也有很大的差別[2]。由此可見,在高粱原材料分批入庫前準確高效地對高粱品種進行鑒別,對釀造過程中泡糧時間、用水量、蒸糧時間等生產(chǎn)工藝控制,對產(chǎn)出優(yōu)質(zhì)白酒具有十分重要的指導(dǎo)意義[3]。傳統(tǒng)的鑒別方式主要有人工經(jīng)驗判別和生物抽樣檢測[4],前者易受主觀影響,效率低,難以形成統(tǒng)一的標準,后者操作繁瑣、費時費力,兩者都無法滿足現(xiàn)代白酒企業(yè)對釀酒原料高粱的鑒別需求[5],因此急需尋找一種快速、準確且簡便的高粱品種分類檢測方法。
高光譜技術(shù)作為一種高效無損檢測技術(shù),可同時獲取對象的光譜信息和空間信息[6],光譜特征通常在農(nóng)副產(chǎn)品的分類、質(zhì)量檢測和指標評價等領(lǐng)域運用更多[7-9],空間圖像信息的應(yīng)用較少,但也有研究人員試圖將高光譜的光譜信息和圖像信息結(jié)合起來,以提高模型的準確性和可靠性[10]。如王彩霞等[11]利用特征波長、顏色特征以及紋理特征分別建立了偏最小二乘判別模型(partial least squares discriminant analysis,PLS-DA)鑒別5個牛肉品種,結(jié)果顯示特征波長結(jié)合紋理特征的模型識別效果最佳,預(yù)測集識別率為93.55%,均高于純光譜數(shù)據(jù)的精度;HUANG等[12]結(jié)合玉米種子的光譜特征、形態(tài)特征和紋理特征分別建立了支持向量機模型(support vector machine,SVM)來判別17個玉米品種,結(jié)果顯示結(jié)合光譜信息和圖像信息在測試集上的準確率達到92%,高于只使用單一信息建模精度;邢素霞等[13]同樣結(jié)合光譜信息和圖像信息建立徑向基函數(shù)(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)對雞肉品質(zhì)進行分類,測試集分類正確率達到100%。
本研究的目標是結(jié)合光譜信息和圖像信息對11個高粱品種進行分類,同時通過比較及外部驗證優(yōu)化高光譜技術(shù)結(jié)合機器學(xué)習(xí)方法鑒別不同高粱品種,以提高其在應(yīng)用過程中的準確性和效率。主要對高粱高光譜數(shù)據(jù)進行預(yù)處理,選取特征波長,從圖像中提取灰度共生矩陣(gray level co-occurrence matrix,GLCM),分別基于全光譜、特征波長、紋理特征(GLCM)及其融合數(shù)據(jù)建立高粱的分類模型,最后使用未參與建模的驗證集數(shù)據(jù)對所建模型進行外部驗證。
實驗選用2個批次共11種不同品種的高粱,分別來自四川瀘州、宜賓地區(qū)和山東濟南地區(qū),詳細的產(chǎn)地、收獲年份和批次如表1所示,其中矮抗8號、紅塔2號和鐵桿1號為白高粱,其余為紅高粱。樣本去除雜質(zhì),每次選取約120 g高粱裝袋為1個樣本,每種高粱取50個樣本,并均勻平鋪于直徑80 cm的培養(yǎng)皿中,直至與培養(yǎng)皿邊緣齊平,共計550個樣本。使用Kennard-Stone(KS)算法將樣本劃分為400個訓(xùn)練集和150個測試集,此外,每種高粱再采集20個共計220個樣本用于模型外部驗證。
表1 高粱品種參數(shù)Tabel 1 Parameters of sorghum varieties
采用芬蘭Specim公司生產(chǎn)的高光譜采集系統(tǒng),主要部件有:FX10E型號的高光譜相機(Specim,芬蘭),其外形尺寸為150 mm×75 mm×85 mm,質(zhì)量為1.4 kg,探測器類型為InGaAs,視場角FOV為38°,相機輸出為12 bit,空間分辨率為1 024×628像素,2組功率為150 W的鹵素?zé)艄庠?OSRAM,德國),高精度電控載物臺(Specim,芬蘭)、Lumo-scanner專用軟件(DELL,美國)以及輔助支架。
為了保證樣本光譜信息和圖像信息的完整性,具體的參數(shù)設(shè)定如表2所示。
表2 高光譜采集參數(shù)設(shè)置Tabel 2 Hyperspectral acquisition parameter settings
采集前調(diào)整好系統(tǒng)參數(shù),盡量保持外部環(huán)境一致,按照樣本編號將裝滿高粱的培養(yǎng)皿放置在載物臺上依次掃描,得到770組高粱樣本的原始高光譜數(shù)據(jù)。為了減少傳感器暗電流噪聲和光強變化對圖像信號產(chǎn)生的影響,需要對獲得的高光譜圖像進行黑白校正[14],校正公式見公式(1)
(1)
式中:R,校正后的光譜圖像;I0,原始高光譜圖像;Id,蓋上鏡頭采集的暗參考圖像;Iw,采集的標準白板圖像,這樣高光譜圖像的每一個像素點均對應(yīng)一條光滑的光譜曲線。
感興趣區(qū)域(region of interest,ROI)的選取對后續(xù)的建模分析至關(guān)重要,每個高粱樣本統(tǒng)一選取一塊100×100像素?zé)o雜質(zhì)、亮度均勻的區(qū)域,按照校正公式(1)計算出每個像素的反射率,再對ROI區(qū)域內(nèi)所有像素點反射率求平均值,進而得到了樣本的光譜曲線。為了提取高光譜圖像中光譜有效信息,需要對光譜數(shù)據(jù)進行預(yù)處理來減少光譜信號中的光散射、高頻噪聲等干擾信息[6]。多元散射校正(multiplicative scatter correction,MSC)可有效地消除散射帶來的光譜差異,從而增強光譜與數(shù)據(jù)之間的相關(guān)性,該方法通過理想光譜修正光譜數(shù)據(jù)的基線平移和偏移現(xiàn)象[15],具體實現(xiàn)方法見公式(2)~(4)。
①計算平均光譜作為標準光譜:
(2)
②將每個樣本的光譜與平均光譜進行線性回歸運算,得到每個樣本相對于標準光譜的尺度平移量和偏移量:
Si=miP+bi
(3)
③原始光譜減去求得的基線平移量后除以偏移量,得到校正后的光譜:
(4)
式中:Pi,j,標準光譜矩陣;Si,j,原始光譜矩陣;n,樣本數(shù)量;j,波段數(shù)量;Si,每個樣本的光譜向量;mi,相對偏移系數(shù);bi,平移量;Simsc,i樣本的MSC校正光譜。
采集的400~1 000 nm范圍內(nèi)的高光譜數(shù)據(jù)有448個波長,存在大量冗余和多重共線性問題,需要從這些波段中選取最具代表性的特征波長。連續(xù)投影算法(successive projection algorithm,SPA)是一種使矢量空間共線性最小化的前向變量選擇算法[16],其運算過程為:首先隨機選擇一個波長,分別計算該波長與剩余向量的投影,將最大投影值的波長選入特征波長;再對沒選入的波長重復(fù)以上過程,直至獲得特征波長數(shù)量則截止[17]。選用此方法篩選特征波長。
不同品種的高粱顆粒在外形、大小、顏色上都有不同程度的差異,會直接反映在圖像信息中,而目前的相關(guān)研究大部分只使用了光譜信息,卻忽略了圖像信息。GLCM是一種描述圖像信息的常用方法,用于計算相鄰像素之間不同灰度值的組合數(shù)目,以此反映在指定方向上的梯度信息[18]。先將高粱灰度圖轉(zhuǎn)換為固定級數(shù)的灰度圖,分別從0、45°、90°、135°四個方向計算灰度圖的能量、熵、慣性矩和相關(guān)性,計算公式如(5)~(8),再以這4個參數(shù)的平均值和方差作為圖像紋理特征的典型性信息:
(5)
(6)
(7)
(8)
式中:L,灰度級數(shù);P(i,j),轉(zhuǎn)換L級后的圖像;i,一個像素的灰度值;j,距離i固定步長像素的灰度值;μx和μy,平均值;δx和δy,方差;其中:
(9)
(10)
(11)
(12)
SVM是一種以結(jié)構(gòu)風(fēng)險最小化原則為基礎(chǔ)的模式識別算法,主要思路是把訓(xùn)練集數(shù)據(jù)從輸入空間非線性地映射到一個多維度的特征空間,然后在多維度的特征空間中通過最小化某種損失函數(shù)獲得一個線性的擬合函數(shù)[19],尋找新的最優(yōu)分類面作為決策面,實現(xiàn)不同類數(shù)據(jù)的分離。PLS-DA是一種多元分類模型,是基于偏最小二乘回歸的高維線性判別模型分類技術(shù)。該方法首先將樣本類別進行數(shù)值標定并作為反應(yīng)變量,再運用偏最小二乘回歸建立反應(yīng)變量與解釋變量之間的關(guān)系模型,比較模型的反應(yīng)變量預(yù)測值大小,從而確定各樣本的類別[20],適合于變量數(shù)眾多且存在多重共線性的情況,是常用的有監(jiān)督統(tǒng)計模式識別方法[21]。極限學(xué)習(xí)機(extreme learning machine,ELM)作為一種單隱層前饋神經(jīng)網(wǎng)絡(luò),主要由輸入層、隱含層和輸出層組成,隨機產(chǎn)生網(wǎng)絡(luò)的輸入權(quán)值和隱層節(jié)點偏置值,將輸入數(shù)據(jù)與權(quán)值矩陣作乘積運算再加上偏置矩陣的結(jié)果輸入到激活函數(shù),輸出層把激活函數(shù)的輸出與連接權(quán)值作乘積運算,從而得到最終的預(yù)測結(jié)果[22]。訓(xùn)練過程無需過多的人為干預(yù),運算速度快,對于數(shù)據(jù)量很大地情況能夠有效的提高運算效率[23]。
通過正確率、運行時間及外部驗證結(jié)果對預(yù)測模型進行綜合評價分析[24],按公式(13)計算正確率:
(13)
式中:TP,正確分類的高粱類別;FP,錯誤分類的高粱類別。
11類高粱共計550個樣本的原始光譜曲線和MSC預(yù)處理后的光譜曲線如圖1所示,每個顏色代表不同的類別。
a-原始光譜曲線;b-經(jīng)MSC預(yù)處理光譜圖1 高粱樣本的光譜曲線Fig.1 Spectral curve of sorghum samples
2幅圖在400~1 000 nm波長范圍內(nèi)高粱光譜曲線的總體趨勢相似,均呈上升趨勢,波峰波谷變化較平緩,且出現(xiàn)了部分曲線交叉重疊的情況。預(yù)處理后的曲線重疊明顯減少,噪聲也更少,各樣本曲線的辨識度更高。其中白高粱矮抗8號、紅塔2號和鐵桿1號的光譜曲線均在其余高粱的上方,其在430~890 nm的曲線走勢也與其余高粱有明顯差異,這些信息可以將紅白高粱較容易地區(qū)分開。8類紅高粱在400~500 nm的反射率大致相同,這會對分類造成困難;幾乎對于所有品種,光譜均在600、890、950和990 nm附近出現(xiàn)峰和谷,這可能與羧基官能團所帶分子鍵的伸縮振動有關(guān)。以上的差異性為運用高光譜識別高粱品種提供了有效判別依據(jù)。
a-均方根誤差變化趨勢圖;b-SPA選擇的最優(yōu)波長位置;c-典型特征波長下的高光譜圖像圖2 特征波長的提取過程Fig.2 The process of extracting characteristic wavelengths
使用SPA算法從448個波長中篩選特征波長,圖2-a為均方根誤差(root mean square error,RMSE)的變化趨勢圖,可見隨著波長數(shù)量不斷增加,誤差逐漸減少,在數(shù)量達到48之后誤差基本保持穩(wěn)定,說明此時已沒有冗余波長可篩除,最終使用RMSE值為0.485 3時對應(yīng)的48個波長為最優(yōu)特征波長。它們的具體位置如圖2-b紅色標記所示,其中圖2-c是澳洲高粱5個典型特征波長的圖像,能夠代表大部分信息,具有特征性。將特征波長存儲在550×48矩陣中,光譜減少量為89.3%,極大地縮短了計算時間。
將每個樣本的灰度圖像轉(zhuǎn)換成16級灰度圖,依次對770個高粱樣本進行圖像特征提取,距離參數(shù)值取1,方向選取 0、45°、90°和135°,部分代表樣本的紋理特征如表3所示,將其存儲在550×8矩陣中作為圖像特征。
表3 高粱紋理特征參數(shù)Table 3 Sorghum texture feature parameters
使用11類高粱的全光譜數(shù)據(jù)、48個特征波長數(shù)據(jù)及其融合紋理特征的數(shù)據(jù)分別建立SVM、PLS-DA和ELM分類模型。其中SVM使用10折交叉驗證選取最佳的c、g值,核函數(shù)采用RBF;PLS-DA在建模前使用10折交叉驗證選取最佳主成分數(shù),主成分數(shù)根據(jù)建模輸入數(shù)據(jù)不一,圖3為550個樣本全光譜建模前2個主成分PC1(74.04%)、PC2(21.49%)的散點圖,可以看出不同品種的高粱分布較分散,比較容易區(qū)分;ELM則隨機產(chǎn)生輸入層和隱含層之間的連接權(quán)值矩陣W,隱含層偏置矩陣B,激活函數(shù)選取Sigmoid函數(shù)。建模的參數(shù)設(shè)置和各模型的精度如表4所示。
圖3 PLS-DA全光譜建模前兩個主成分圖Fig.3 The first two principal component graphs of PLS-DA full spectrum model
表4 各模型參數(shù)及分類結(jié)果Table 4 Parameters and classification results of each model
對比不同模型在5類數(shù)據(jù)集上的表現(xiàn),整體來看SVM模型在訓(xùn)練集和測試集的正確識別率大于PLS-DA和ELM,但是運行時間也更長。使用紋理特征數(shù)據(jù)建模的精度均在80%~87%之間,相對其他數(shù)據(jù)集精度較低,說明單一的紋理特征信息不能全面地反映不同高粱品種的差異。比較使用全光譜和特征光譜建模時,特征光譜的正確識別率根據(jù)數(shù)據(jù)集而不同,有時高于全光譜,有時低于全光譜,總體來看兩者精度相差不大,說明篩選出的特征光譜中包含了大量有效的光譜信息,使用特征光譜對高粱進行識別是可行的,且減少了計算時間。此外可知,在結(jié)合了圖像信息紋理特征以后,全光譜和特征光譜的正確識別率均有所提升,可以說明結(jié)合紋理特征后的數(shù)據(jù)更全面地表達了樣本的分類信息,可以提高高粱品種的識別率。在上述的所有模型中,特征光譜結(jié)合紋理信息建立的SVM模型精度最高,訓(xùn)練集和測試集的正確識別率分別為96%、95.3%,運行時間為9.561 s。綜上所述,結(jié)合光譜信息和圖像信息的高粱品種識別方法是可行的。
為了進一步驗證上述模型的準確性和穩(wěn)定性,采用外部驗證方式驗證模型效果,即將未參與建模的220個驗證樣本組成的驗證集代入模型進行預(yù)測,代入模型的數(shù)據(jù)集以及模型參數(shù)與上述建立的模型保持一致,外部驗證的正確分類率如表5所示。綜合比較,SVM模型的驗證效果最好,ELM次之,PLS-DA相對來說最差,其中特征光譜結(jié)合紋理特征的SVM模型驗證集識別準確率達到91.8%,能夠滿足精度要求,但是由于SVM分類器訓(xùn)練過程中需要尋找支持向量,所以耗時相對較長,未來可以與粗集理論等結(jié)合提高分類效率。
表5 各模型驗證集分類結(jié)果Table 5 Classification results of validation set of each model
本文基于高光譜技術(shù)光譜和圖像信息結(jié)合的方法對11個品種的高粱進行識別研究。采集高粱的高光譜圖像,使用SPA算法從MSC預(yù)處理后光譜中篩選出48個特征波長,再提取圖像的紋理特征,分別基于紋理特征、全光譜、特征光譜及其結(jié)合圖像信息分別建立了SVM、PLS-DA和ELM分類模型,最后使用未參與建模的數(shù)據(jù)進行外部驗證。結(jié)果表明,使用特征光譜結(jié)合紋理特征建立的SVM分類模型效果最佳,測試集的正確識別率為95.3%,驗證集的精度達到91.8%,可見光譜和圖像結(jié)合的方法可以有效實現(xiàn)釀酒高粱的快速識別,且提高了模型的識別精度,這為不同釀酒原料的檢測和釀酒自動化的實現(xiàn)提供了理論基礎(chǔ)。