李鴻強(qiáng), 孫 紅, 李民贊*
1. 河北建筑工程學(xué)院理學(xué)院, 河北 張家口 075000
2. 中國農(nóng)業(yè)大學(xué)現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083
馬鈴薯是世界第四糧食作物。 商品馬鈴薯貯藏期間, 易發(fā)生干腐病和瘡痂病。 在國標(biāo)《馬鈴薯商品薯分級(jí)與檢測(cè)規(guī)程》[1]中, 干腐病和瘡痂病是規(guī)定檢測(cè)項(xiàng)目, 是商品薯重要定級(jí)依據(jù)。 目前, 干腐病和瘡痂病的檢測(cè)通過目測(cè)完成, 仿照人的檢測(cè)過程, 機(jī)器視覺技術(shù)和光譜分析技術(shù)廣泛用于馬鈴薯病害檢測(cè)[2-3]。
王鑫野[4]等基于特征波段反射率和主成分圖像灰度值建立K最近鄰分類算法、 BP神經(jīng)網(wǎng)絡(luò)、 決策樹算法3種識(shí)別模型對(duì)不同時(shí)期馬鈴薯晚疫病進(jìn)行識(shí)別, 基于二次主成分圖像的灰度值結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立的模型, 識(shí)別率達(dá)96.6%。 趙明富等[5]將主成分圖像的平滑度、 三階矩、 均值、 標(biāo)準(zhǔn)差、 一致性、 熵作為輸入值, 建立了改進(jìn)的貝葉斯分類器, 判別發(fā)芽、 腐爛、 表面碰傷、 機(jī)械損傷、 黑心以及合格馬鈴薯, 預(yù)測(cè)集的識(shí)別率為95%以上。
Liang等[6]試驗(yàn)表明近紅外光譜是一種快速檢測(cè)馬鈴薯斑紋病的方法, 分類準(zhǔn)確率為96.7%。 Zhou等[7]研究了利用513~850nm可見光-近紅外透射光譜技術(shù)結(jié)合偏最小二乘線性判別分析方法對(duì)黑心病馬鈴薯進(jìn)行分類的可行性, 校準(zhǔn)集的分類準(zhǔn)確率可以達(dá)到96.82%, 驗(yàn)證集的分類準(zhǔn)確率可以達(dá)到96.53%。 王麗艷等[8]選出7個(gè)特征波段, 建立全波段、 特征波段的SVM和BP人工神經(jīng)網(wǎng)絡(luò)模型, 紫色、 紅色、 黃色馬鈴薯鑒別準(zhǔn)確率達(dá)到100%。
實(shí)驗(yàn)證明, 機(jī)器視覺和光譜分析技術(shù)都是有效無損檢測(cè)方法, 機(jī)器視覺技術(shù)相較光譜分析技術(shù)更加直觀, 但是在面對(duì)同源(馬鈴薯)但不同種類疾病(干腐病, 瘡痂病)的同時(shí)檢測(cè)問題, 干腐病和瘡痂病外觀顏色相似, 病變區(qū)的物質(zhì)成分不一樣, 利用機(jī)器視覺技術(shù), 難以確定缺陷的性質(zhì), 光譜分析技術(shù)的分析基礎(chǔ)是物質(zhì)成分或濃度的差異, 在無損檢測(cè)馬鈴薯中更具優(yōu)勢(shì)。
利用近紅外高光譜技術(shù)獲取860~1 745 nm正常、 干腐和瘡痂馬鈴薯樣本光譜, 對(duì)正常、 干腐病和瘡痂病馬鈴薯分類檢測(cè)進(jìn)行研究, 為高光譜分析技術(shù)用于馬鈴薯特定外部缺陷檢測(cè)提供參考。
實(shí)驗(yàn)樣本購于本地超市(正常46個(gè), 干腐病42個(gè), 瘡痂病28個(gè)), 隨機(jī)挑選樣本的2/3構(gòu)成建模集, 1/3構(gòu)成驗(yàn)證集。 3類樣本的樣例分別如圖1(a,b,c)所示。
圖1 正常(a)、 干腐(b)、 瘡痂病(c)馬鈴薯樣本
常溫下, 將馬鈴薯清理干凈并靜置24 h。 使用“蓋亞(Gaia Sorter)”高光譜分選儀采集光譜數(shù)據(jù), 光譜范圍890~1 650 nm。
通過ENVI5.1軟件提取感興趣區(qū)域(region of interest, ROI), ROI大小為10×10像素, 同區(qū)域獲取5~6個(gè)ROI, 計(jì)算平均光譜作為原始反射光譜數(shù)據(jù)。
在反射光譜曲線上, 極大值點(diǎn)反映了該處光譜對(duì)物質(zhì)的強(qiáng)反射, 極小限值點(diǎn)反映了該處光譜對(duì)物質(zhì)的深度吸收, 相鄰兩個(gè)極值點(diǎn)間的中點(diǎn)限定了光譜曲線的變化趨勢(shì), 相鄰極值點(diǎn)間連線的斜率反映了光譜對(duì)物質(zhì)反射(吸收)的變化率。 極值點(diǎn)、 相鄰極值點(diǎn)間的中點(diǎn)和斜率, 是反射光譜的“指紋”特征。
利用極值點(diǎn)和中點(diǎn)對(duì)應(yīng)的反射率, 相鄰極值點(diǎn)間光譜的斜率可以組成模式特征向量。 3類樣本極值點(diǎn)和中點(diǎn)處的平均光譜形成標(biāo)準(zhǔn)模式特征向量, 通過計(jì)算待測(cè)樣本的模式特征向量與各標(biāo)準(zhǔn)模式特征向量的馬氏距離, 以最小馬氏距離判定待測(cè)樣本的類別。
對(duì)去噪后的光譜數(shù)據(jù)進(jìn)行主成分分析(principal component analysis, PCA), 利用主成分得分作為輸入變量, 采用貝葉斯分類器[5](Bayesian classifier, BC)和線性判別識(shí)別分析[9-10](linear discriminant analysis, LDA)方法進(jìn)行分類識(shí)別。
使用錯(cuò)誤識(shí)別率評(píng)判模型識(shí)別性能差異, 數(shù)值越小表示模型性能越好, 計(jì)算方法見式(1)。
(1)
所用距離為馬氏距離, 計(jì)算方法見式(2)。
(2)
式(2)中,x為待測(cè)樣本,G為樣本總體,μ為樣本均值,Σ為樣本集協(xié)方差矩陣,d為馬氏距離。
瘡痂病, 干腐病和正常馬鈴薯樣本的平均光譜如圖2所示。
圖2 三類樣本平均光譜
在970和1 450 nm波段, 3類樣本反射光譜均表現(xiàn)深吸收特性, 反射光譜出現(xiàn)極小值, 正常樣本相較兩類病變樣本吸收強(qiáng)度更大, 970和1 450 nm波段是水O—H鍵第2倍頻和水O—H鍵第1倍頻吸收, 干腐和瘡痂病的病變區(qū)域均表現(xiàn)為缺水變黑、 變干, 病變性質(zhì)和反射光譜特征一致。 970 nm處, 瘡痂病樣本的反射光譜低于瘡痂病樣本, 1 450 nm處, 瘡痂病樣本的反射光譜高于干腐病樣本, 兩種病變存在區(qū)別。
瘡痂病, 干腐病和正常馬鈴薯的反射光譜曲線, 起及轉(zhuǎn)折走向相似, 可以理解為3類樣本種源相似。 在相同波長處吸收程度不同, 由樣本內(nèi)在物質(zhì)差異引起。
分別利用1階導(dǎo)數(shù)[11], 多元散射[12]和標(biāo)準(zhǔn)正態(tài)變量變換[13]進(jìn)行光譜預(yù)處理[14]。
經(jīng)過1階導(dǎo)數(shù)處理的光譜, 經(jīng)主成分分析后, 前兩個(gè)主成分的累積貢獻(xiàn)率為84.9%。 基于前2個(gè)主成分得分的樣本散點(diǎn)圖如圖3所示, 3類樣本可以通過第1, 2主成分得分線性分開, 1階導(dǎo)數(shù)去噪處理效果優(yōu)于多元散射和標(biāo)準(zhǔn)正態(tài)變量變換。
圖3 前2個(gè)主成分樣本散點(diǎn)圖
2.3.1 基于光譜曲線結(jié)構(gòu)特征的識(shí)別分析
圖4光譜曲線上圓圈標(biāo)出的是三類樣本的極值點(diǎn), 3類樣本的極值點(diǎn)波長位置相同, 只是物質(zhì)濃度不同引起的反射(吸收)程度不一樣。 同時(shí), 極值點(diǎn)間, 3類樣本的光譜變化趨勢(shì)一致, 但是起伏程度不一樣, 表現(xiàn)為極值點(diǎn)間的連線斜率不同, 從圖上看到: 類似一條曲線, 沿著反射率坐標(biāo)軸上下平移旋轉(zhuǎn)得到另外2條曲線, 圖中顯示出一簇曲線中的3條。 “一簇曲線”說明3類樣本同種同源, “平移旋轉(zhuǎn)”是病變引起的物質(zhì)含量變化。 極值點(diǎn), 中點(diǎn)處的反射率, 極值點(diǎn)間連線的斜率是物質(zhì)反射譜典型“指紋”特征, 符合同物同譜規(guī)律。 干腐病, 瘡痂病, 正常馬鈴薯光譜曲線上的極值點(diǎn), 中點(diǎn)統(tǒng)計(jì)結(jié)果見表1。
圖4 光譜曲線上的極值點(diǎn)
2.3.1.1 基于關(guān)鍵點(diǎn)光譜形成模式特征向量的識(shí)別方法
利用3種樣本平均光譜關(guān)鍵點(diǎn)處的反射率, 形成3類樣品的標(biāo)準(zhǔn)模式特征向量, 正常樣本的向量長度為13, 干腐樣本的向量長度為12, 瘡痂樣本的向量長度為15。 獲取待測(cè)樣本相應(yīng)波長處的反射率, 計(jì)算待測(cè)樣本與各模式向量之間的馬氏距離, 以距離最小識(shí)別待測(cè)樣本的所屬類別。 3類樣本的錯(cuò)誤識(shí)別率均為0。 從識(shí)別正確率來看, 關(guān)鍵點(diǎn)處的反射率可以代表不同樣本的特征。
表1 極值點(diǎn)、 中點(diǎn)對(duì)應(yīng)波長統(tǒng)計(jì)結(jié)果
將3種樣本的平均光譜關(guān)鍵點(diǎn)處的反射率, 組合形成1個(gè)標(biāo)準(zhǔn)模式向量, 向量長度為31。 獲取待測(cè)樣本相應(yīng)波長處的反射率, 計(jì)算待測(cè)樣本與該標(biāo)準(zhǔn)模式向量之間的馬氏距離, 以距離最小識(shí)別待測(cè)樣本的所屬類別。 正常樣本的錯(cuò)誤識(shí)別率均為0, 干腐樣本的錯(cuò)誤識(shí)別率是14.3%, 均被錯(cuò)誤識(shí)別為瘡痂樣本, 瘡痂樣本的錯(cuò)誤識(shí)別率為0。 向量長度為31的模式, 存在冗余數(shù)據(jù), 由于數(shù)據(jù)點(diǎn)的增多, 增加了異類樣本之間的貼合度, 縮小了兩類病害樣本之間的距離, 降低了兩類病害樣本之間的區(qū)分度。
設(shè)置從向量長度為31的模式中, 選定1到30個(gè)波長形成組合, 作為新模式向量, 統(tǒng)計(jì)結(jié)果見表2。 當(dāng)向量長度小于5時(shí), 沒有相關(guān)組合能使3類樣本的錯(cuò)誤識(shí)別率達(dá)到0。 5個(gè)波長的組合中, 有2 269種組合使3類樣本的錯(cuò)誤識(shí)別率達(dá)到0。 5個(gè)波長組合, 各波長的被選情況見表2。 波長組合(911, 955, 962, 973), 以上波段包含有蛋白質(zhì)C—H鍵第3倍頻伸縮振動(dòng)吸收、 水O—H鍵第2倍頻伸縮振動(dòng)吸收, 被選中百分比占到32.9%。 波長組合(1 068, 1 081, 1 108, 1 185, 1 199, 1 275, 1 282), 以上波長包含有機(jī)物質(zhì)C—H鍵第2倍頻伸縮振動(dòng)吸收, 被選中百分比占到43.0%。 波長(1 452, 1 455, 1 500, 1 647)包含有淀粉、 水O—H鍵第1倍頻伸縮振動(dòng)吸收, 蛋白質(zhì)N—H鍵第1倍頻伸縮振動(dòng)吸收, 被選中百分比占到24.1%, 曲線起始波段等其他16個(gè)波段沒有被選擇, 被選建模波長與樣本蛋白質(zhì)、 淀粉物質(zhì)成分直接相關(guān)。
表2 5個(gè)波長選擇統(tǒng)計(jì)結(jié)果
2.3.1.2 基于關(guān)鍵點(diǎn)間斜率組成模式特征向量的識(shí)別方法
3類樣本的平均光譜, 其相同極值點(diǎn)對(duì)應(yīng)波長為: 911, 962, 1 081, 1 199, 1 269和1 455 nm, 共計(jì)6處。 如圖4中極值點(diǎn)連線(圖中黑色細(xì)線)所示, 各類樣本極值點(diǎn)間曲線的走向基本一致, 但是起伏程度不同。 計(jì)算相鄰兩點(diǎn)間連線的斜率(計(jì)算時(shí)將波長進(jìn)行歸一化, 消除量綱影響), 由斜率組成模式向量, 獲取待測(cè)樣本相應(yīng)的斜率, 計(jì)算待測(cè)樣本與各標(biāo)準(zhǔn)模式向量之間的馬氏距離, 以距離最小識(shí)別待測(cè)樣本的所屬類別。 從6個(gè)波長中可以分別選擇其中2, 3, 4, 5, 6個(gè)點(diǎn)組合, 分別有15, 20, 15, 6, 1種組合方式, 共有57種組合。
經(jīng)統(tǒng)計(jì), 3個(gè)波長的組合: 911, 1 269和1 455 nm, 是所有組合情況中識(shí)別錯(cuò)誤率最低的組合, 正常樣本的錯(cuò)誤識(shí)別率為0, 干腐樣本的錯(cuò)誤識(shí)別率為2.4%, 有1個(gè)樣本被識(shí)別為正常樣本, 原因可能是病區(qū)較小或者病情較輕, 在選取感興趣區(qū)域時(shí), 圈入正常區(qū)域面積所占比例較大, 使得平均光譜更接近正常樣本, 瘡痂樣本的錯(cuò)誤識(shí)別率為0。 波長911 nm附近包含蛋白質(zhì)C—H鍵的第3倍頻伸縮振動(dòng)吸收, 波長1 269 nm附近包含C—H鍵的第2倍頻伸縮振動(dòng)吸收, 波長1 455 nm附近包含淀粉和水的O—H鍵的第1倍頻伸縮振動(dòng)吸收。 如圖5所示, 各類樣本波形起伏程度不同, 反映的是內(nèi)部物質(zhì)的差異, 以上3點(diǎn)之間連線的斜率正好能反映出正常樣本和病害樣本, 以及兩種病害樣本之間的成分區(qū)別。
圖5 波段911, 1 269和1 455 nm間光譜連線變化趨勢(shì)
2.3.2 基于主成分的識(shí)別結(jié)果
利用前2個(gè)主成分作為輸入變量, 識(shí)別結(jié)果如表3所示, 用LDA和BC識(shí)別方式錯(cuò)誤識(shí)別率均為0%。
表3 基于主成分識(shí)別結(jié)果
通過采集正常、 干腐、 瘡痂馬鈴薯高光譜, 利用光譜前兩個(gè)主成分得分, 進(jìn)行線性判別分析, 貝葉斯分類器進(jìn)行分類識(shí)別。 利用表征光譜曲線形狀的模式特征向量作為參數(shù), 采用馬氏距離對(duì)3種馬鈴薯識(shí)別建模。 獲得以下主要結(jié)論:
(1)光譜曲線上的極值點(diǎn)和極值點(diǎn)間的中點(diǎn), 這些關(guān)鍵點(diǎn)最能體現(xiàn)反射光譜的“指紋”效應(yīng)。 尋找3類樣本平均光譜的關(guān)鍵點(diǎn), 以平均光譜關(guān)鍵點(diǎn)對(duì)映的反射率形成標(biāo)準(zhǔn)模式向量, 通過計(jì)算待測(cè)樣本對(duì)應(yīng)向量與3個(gè)標(biāo)準(zhǔn)向量的馬氏距離, 以最小距離判定待測(cè)樣本的歸屬, 3類樣本的錯(cuò)誤識(shí)別率均為0。 統(tǒng)一3個(gè)標(biāo)準(zhǔn)向量的對(duì)應(yīng)波長, 以最小馬氏距離判定待測(cè)樣本的歸屬, 由于數(shù)據(jù)整合, 不利于兩類病害樣本的識(shí)別, 干腐樣本的錯(cuò)誤識(shí)別率14.3%, 均被錯(cuò)誤識(shí)別為瘡痂樣本。 對(duì)統(tǒng)一標(biāo)準(zhǔn)向量所含波段, 進(jìn)行重新組合, 可以利用其中5個(gè)波段形成的模式向量, 對(duì)樣本進(jìn)行分類識(shí)別, 3類樣本的錯(cuò)誤識(shí)別率均能達(dá)到0。
(2)三類樣本光譜曲線共有6個(gè)相同極值點(diǎn), 極值點(diǎn)間曲線的走向基本一致, 但是不同樣本起伏程度不同, 波形的起伏反映的是內(nèi)部物質(zhì)的變化, 相鄰兩點(diǎn)間連線的斜率可以體現(xiàn)這種變化。 可以利用波長(911, 1 269, 1 455 nm)處兩點(diǎn)間的斜率形成的模式特征向量, 同樣以最小馬氏距離判定待測(cè)樣本的歸屬, 正常和瘡痂樣本的錯(cuò)誤識(shí)別率為0, 干腐樣本的錯(cuò)誤識(shí)別率為2.4%。
(3)利用表征光譜結(jié)構(gòu)的模式特征進(jìn)行識(shí)別, 使用較少數(shù)據(jù), 即能降低識(shí)別模型的復(fù)雜度, 同時(shí)識(shí)別精度也有保障。