劉 寧, 邢子正, 喬 浪, 李民贊, 孫 紅*, Qin Zhang
1. 中國(guó)農(nóng)業(yè)大學(xué)現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083 2. Center for Precision & Automated Agricultural System, Washington State University, Pullman WA 99350, USA
葉綠素含量是評(píng)價(jià)馬鈴薯作物光合作用能力與營(yíng)養(yǎng)水平的重要指標(biāo)之一[1-2]。 在可見(jiàn)光-近紅外區(qū)域, 分析含氫基團(tuán)(O—H, N—H, C—H)振動(dòng)合頻和各級(jí)倍頻的特性, 是開(kāi)展作物葉綠素、 氮素、 水分等參數(shù)光譜學(xué)檢測(cè)的理論基礎(chǔ), 取得了重要進(jìn)展[3]。
作物葉綠素光譜學(xué)檢測(cè)中, 常通過(guò)篩選特征波長(zhǎng)來(lái)達(dá)到解析光譜變量、 剔除冗余信息、 壓縮計(jì)算量、 提高診斷模型精度與魯棒性等目的[4]。 因?yàn)橄嚓P(guān)分析篩選變量存在高度自相關(guān)導(dǎo)致的多重共線性問(wèn)題, 在主成分分析的基礎(chǔ)上, 連續(xù)投影算法(successive projection algorithm, SPA)、 無(wú)信息變量消除法(uninformative variables elimination, UVE)、 間隔最小二乘波長(zhǎng)選擇方法(interval partial least square, iPLS)、 變量投影重要程度系數(shù)法(variable importance in the projection, VIP)等算法被用于篩選特征波長(zhǎng)并建立診斷模型[5-6]。
上述一次性建模篩選特征波長(zhǎng)的方法, 數(shù)據(jù)處理易受樣本個(gè)數(shù)的影響[7]。 針對(duì)此問(wèn)題Li等提出基于模型集群思想的蒙特卡洛無(wú)信息變量消除(Monte Carlo uninformative variables elimination, MC-UVE)[8]、 隨機(jī)蛙跳(random frog, RF)[9]、 競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling, CARS)[10]等變量篩選算法。 有報(bào)道應(yīng)用CARS算法設(shè)置迭代次數(shù)為50, 選取10個(gè)波長(zhǎng)建立南瓜葉綠素檢測(cè)模型, 精度為0.846。 鄭濤等[11]采用MC-UVE算法迭代次數(shù)為500, 選出12個(gè)馬鈴薯葉綠素特征波長(zhǎng)。 程萌等[12]基于RF算法篩選小麥葉綠素特征波長(zhǎng), 迭代次數(shù)為10 000, 選出8個(gè)最優(yōu)波長(zhǎng)。
此類(lèi)研究中尚有如下問(wèn)題需要深入討論, 一方面應(yīng)用不同算法選取變量是否存在差異, 建立的模型是否最優(yōu)且穩(wěn)?。?另一方面, MC-UVE, RF和CARS等算法中初始參數(shù)迭代次數(shù)普遍采用固定值, 修改迭代次數(shù)與其他約束是否對(duì)變量篩選結(jié)果有影響, 需要開(kāi)展比較和分析。
因而, 在馬鈴薯作物葉綠素光譜學(xué)檢測(cè)中, 分別應(yīng)用MC-UVE, RF和CARS算法, 討論迭代次數(shù)(number of iteration,N)參數(shù)和特征變量個(gè)數(shù)(latent variable, LV)對(duì)特征波長(zhǎng)篩選結(jié)果的影響。 通過(guò)建立PLS模型, 闡明特征波長(zhǎng)分布與葉綠素含量的解析能力, 以模型驗(yàn)證集精度為評(píng)價(jià)標(biāo)準(zhǔn), 明確參數(shù)最優(yōu)組合, 以期為馬鈴薯葉綠素光譜降維與高魯棒性診斷建模奠定基礎(chǔ), 也為同類(lèi)研究提供參考。
2018年在北京市昌平區(qū)小湯山國(guó)家精準(zhǔn)農(nóng)業(yè)示范基地開(kāi)展實(shí)驗(yàn), 馬鈴薯品種為“大西洋”。 30 m×40 m范圍內(nèi)設(shè)80個(gè)采樣區(qū), 在發(fā)棵期(M1)、 塊莖形成期(M2)、 塊莖膨大期(M3)和淀粉積累期(M4)4個(gè)生長(zhǎng)期跟蹤采集馬鈴薯冠層光譜并進(jìn)行理化測(cè)試。
采用ASD FieldSpec HandHeld2 便攜式地物光譜儀測(cè)定325~1 075 nm內(nèi)751個(gè)波長(zhǎng)處作物冠層光譜反射率, 采樣間隔1 nm, 每點(diǎn)重復(fù)采集3次取平均值。 同步隨機(jī)采集葉片經(jīng)浸提后, 利用紫外分光光度計(jì)測(cè)定葉綠素含量, 測(cè)定方法參考相關(guān)文獻(xiàn)。 每個(gè)生長(zhǎng)期采集80組數(shù)據(jù), 其中M1因植被覆蓋度較低導(dǎo)致無(wú)效數(shù)據(jù), 保留74組有效數(shù)據(jù)后, 全生長(zhǎng)期共獲取314組數(shù)據(jù)。 數(shù)據(jù)采集預(yù)處理總體流程如圖1所示。 其中, 采用標(biāo)準(zhǔn)正態(tài)變量(standard normal variate, SNV)方法, 對(duì)原始光譜曲線進(jìn)行預(yù)處理來(lái)消除環(huán)境噪聲的干擾。 光譜與處理、 特征波長(zhǎng)篩選以及PLSR建模均在matlab2014.a環(huán)境中完成。
圖1 數(shù)據(jù)處理總體流程圖
基于模型集群分析的思想, 比較MC-UVE, RF和CARS 3種變量篩選算法, 在matlab2014.a libpls軟件中實(shí)現(xiàn)。
(1)MC-UVE算法
MC-UVE算法基于偏最小二乘回歸(partial least squares regression, PLSR)提出, 從訓(xùn)練集中取出一定數(shù)目(M個(gè))樣本構(gòu)建PLS子集, 重復(fù)M次計(jì)算PLS回歸系數(shù)矩陣, 引入變量穩(wěn)定指數(shù)為篩選標(biāo)準(zhǔn), 計(jì)算得到每個(gè)變量穩(wěn)定指數(shù)值, 并從高到低排序篩選變量[6]。 其中, 保留的LV數(shù)量決定著模型的預(yù)測(cè)能力和模型的穩(wěn)定性。
(2)RF算法
RF算法類(lèi)似于可逆跳轉(zhuǎn)馬爾可夫鏈蒙特卡洛。 與PLSR相結(jié)合, 通過(guò)PLSR結(jié)果模擬一條服從穩(wěn)態(tài)分布的馬爾可夫鏈來(lái)計(jì)算每個(gè)變量被選擇的概率, 從而進(jìn)行重要變量的篩選[7]。
(3)CARS算法
CARS算法基于自適應(yīng)重加權(quán)采樣和指數(shù)衰減函數(shù), 選取在PLSR模型中回歸系數(shù)絕對(duì)值大的變量, 得到一系列波長(zhǎng)變量子集; 然后對(duì)每個(gè)波長(zhǎng)子集采用交叉驗(yàn)證建模, 從中挑選出模型均方根誤差最小的子集[8]。 因此CARS算法篩選得到的特征變量個(gè)數(shù)一定。
為了檢測(cè)作物葉綠素含量, 本研究以馬鈴薯作物為例, 對(duì)CARS算法的迭代次數(shù)(N)參數(shù)、 RF和MC-UVE算法的迭代次數(shù)(N)參數(shù)和特征變量數(shù)(LV)參數(shù)對(duì)葉綠素特征波長(zhǎng)篩選結(jié)果的影響進(jìn)行討論。 迭代次數(shù)設(shè)置6個(gè)梯度, 分別為N=50, 100, 500, 1 000, 5 000和10 000; 特征變量數(shù)設(shè)置4個(gè)梯度, 分別為L(zhǎng)V=15, 20, 25和30, 分析迭代次數(shù)(N)和特征變量數(shù)(LV)兩個(gè)參數(shù)的最優(yōu)組合情況。
SNV校正后的各生長(zhǎng)期的馬鈴薯冠層反射光譜曲線如圖2所示, 總體而言, 在可見(jiàn)光波段, 由于色素體對(duì)藍(lán)、 紅光的強(qiáng)吸收存在400~500與611~710 nm低反射率區(qū), 并在400和680 nm附近出現(xiàn)吸收谷; 520~610 nm體現(xiàn)為色素體的強(qiáng)反射, 550 nm附近為綠色反射峰。 受到葉肉內(nèi)海綿組織結(jié)構(gòu)內(nèi)的空腔反射率增強(qiáng)影響, 近紅外711~760 nm快速攀升后進(jìn)入761~1 000 nm高反射平臺(tái)區(qū), 其中970 nm附近出現(xiàn)水分的微弱吸收谷。 由M1至M4推進(jìn), 在400~500和740~880 nm反射率降低; 在530~640和910~960 nm反射率升高, 且M4和M1分別呈現(xiàn)與其他生長(zhǎng)期較大的差別。 綜上說(shuō)明作物光譜響應(yīng)是對(duì)植物生長(zhǎng)過(guò)程中色素體、 水分分子、 結(jié)構(gòu)等的綜合表現(xiàn), 針對(duì)葉綠素指標(biāo), 挖掘全譜中特征波長(zhǎng)十分必要。
圖2 SNV處理后生長(zhǎng)期冠層平均反射光譜曲線
分析光譜反射率與葉綠素含量的相關(guān)性, 結(jié)果如圖3所示。 在387~509, 519~633和744~844 nm波段, 二者相關(guān)系數(shù)絕對(duì)值(|r|)均高于0.6, 在678 nm達(dá)正相關(guān)峰值0.411; 在702 nm存在負(fù)相關(guān)峰值-0.715。 845~917 nm正相關(guān)系數(shù)逐漸降低, 917 nm之后呈負(fù)相關(guān)。 此結(jié)果與葉綠素吸收可見(jiàn)光藍(lán)、 紅光, 反射綠光的物理現(xiàn)象一致, 但相關(guān)性曲線顯示相鄰波長(zhǎng)之間的相關(guān)系數(shù)接近。 若選取相關(guān)系數(shù)較高者為特征波長(zhǎng), 會(huì)存在波長(zhǎng)冗余與多重共線性問(wèn)題。 因此, 利用SPXY算法劃分樣本集結(jié)果如表1所示, 后續(xù)建模開(kāi)展特征波長(zhǎng)變量篩選方法討論, 用建模集篩選特征波長(zhǎng)、 建立回歸模型, 以驗(yàn)證集的結(jié)果評(píng)價(jià)特征波長(zhǎng)篩選結(jié)果。
圖3 光譜反射率與葉綠素含量相關(guān)性曲線
表1 建模集與驗(yàn)證集劃分統(tǒng)計(jì)
2.3.1 MC-UVE算法
由于MC-UVE算法對(duì)于同一批光譜數(shù)據(jù), 設(shè)置同樣的迭代次數(shù), 運(yùn)行多次計(jì)算變量的穩(wěn)定指數(shù)不一致, 因此分別討論迭代次數(shù)(N)和特征波長(zhǎng)數(shù)量(LV)的影響。
圖4 MC-UVE算法在迭代次數(shù)為500時(shí)的運(yùn)行結(jié)果
圖5 MC-UVE在LV梯度下最佳迭代次數(shù)時(shí)特征波長(zhǎng)位置
表2 基于MC-UVE的葉綠素含量檢測(cè)PLSR模型驗(yàn)證集結(jié)果(RMSEV: mg·L-1)
2.3.2 RF算法
RF算法與MC-UVE算法類(lèi)似, 首先討論迭代次數(shù)N的影響, 分別設(shè)置N為50, 100, 500, 1 000, 5 000和10 000次6個(gè)梯度, 運(yùn)行5次取平均值。 以N=10 000為例的運(yùn)行結(jié)果如圖6所示, 縱坐標(biāo)為每個(gè)波長(zhǎng)的被選擇概率(selection probability), 被選擇概率越高說(shuō)明波長(zhǎng)越重要。 其次討論波長(zhǎng)個(gè)數(shù)LV的影響, 按照選擇概率從大到小設(shè)置LV分別為15, 20, 25和30建立馬鈴薯葉綠素檢測(cè)PLS模型, 共得到24種模型。
圖6 RF算法在迭代次數(shù)為10 000時(shí)的運(yùn)行結(jié)果
圖7 RF在四種LV梯度下最佳迭代次數(shù)時(shí)特征波長(zhǎng)位置
表3 基于RF在不同輸入?yún)?shù)下的葉綠素含量檢測(cè)PLSR 模型驗(yàn)證集結(jié)果(RMSEV: mg·L-1)
圖8 CARS在迭代次數(shù)N為100時(shí)運(yùn)行結(jié)果
由圖7對(duì)比相關(guān)性分析結(jié)果可知, 在LV從15增至30過(guò)程中分布愈加廣泛, 反映的信息愈加全面。 在LV=15時(shí), 在綠光區(qū)域沒(méi)有篩選到特征波長(zhǎng), 而在LV=20, 25和30時(shí), 篩選到的特征波長(zhǎng)在藍(lán)、 綠、 紅區(qū)域均有分布。 LV=30時(shí), 970 nm附近反映水分弱吸收的波長(zhǎng)被選中, 說(shuō)明該方法篩選波長(zhǎng)對(duì)含氫基團(tuán)具有較好的選擇性。
2.3.3 CARS算法
CARS算法與RF和MC-UVE不同, 對(duì)于同一批數(shù)據(jù), 在相同的迭代次數(shù)(N)下變量篩選結(jié)果唯一, 所以?xún)H考慮設(shè)置N為50, 100, 500, 1 000, 5 000和10 000次6個(gè)梯度。N=100時(shí)的運(yùn)行結(jié)果如圖8所示, 圖8(a)為篩選過(guò)程中變量數(shù)隨著迭代次數(shù)N的變化曲線, 篩選的波長(zhǎng)數(shù)(LV)隨運(yùn)行次數(shù)的增加而減少; 圖8(b)為RMSECV隨著迭代次數(shù)的變化曲線, 在前30次時(shí)RMSECV保持不變, 30次后下降, 在迭代61次時(shí)RMSECV的值最小為3.928, 之后逐步攀升; 圖8(c)為各光譜波長(zhǎng)的回歸系數(shù)的變化趨勢(shì), 其中“**”列表示RMSECV最小時(shí)所對(duì)應(yīng)的迭代運(yùn)行次數(shù)。 運(yùn)行后得到的波長(zhǎng)變量集采用交叉驗(yàn)證, 根據(jù)RMSECV的值來(lái)確定最優(yōu)波長(zhǎng)變量子集為21個(gè)特征波長(zhǎng)。
圖9 CARS算法不同迭代篩選到的特征波長(zhǎng)位置
表4 基于CARS算法不同迭代次數(shù)的葉綠素含量檢測(cè)PLSR模型驗(yàn)證集結(jié)果(RMSEV: mg·L-1)
Table 4 PLSR validation results on the chlorophyll content detection with iteration of CARS(RMSEV: mg·L-1)
迭代次數(shù)(N)最佳迭代次數(shù)特征波長(zhǎng)個(gè)數(shù)(LV)R2vRMSEV5021670.6454.40810061210.6894.183500249390.6364.4601 000502380.6494.3795 0002960220.6804.29410 0005918220.6724.301
圖10 MC-UVE, RF和CARS最優(yōu)特征波長(zhǎng)位置
對(duì)比分析MC-UVE, RF和CARS篩選的最優(yōu)特征波長(zhǎng), 位置如圖10所示, 從特征波長(zhǎng)分布角度, 在可見(jiàn)光范圍(400~710 nm), RF算法篩選波長(zhǎng)分布均勻; MC-UVE算法對(duì)550 nm附近綠光區(qū)域不敏感, 而在450 nm附近藍(lán)光區(qū)域“波長(zhǎng)聚集”現(xiàn)象顯著; CARS算法對(duì)該區(qū)域篩選變量較少。 在近紅外區(qū)域(711~1 100 nm), RF算法得到的特征波長(zhǎng)分布仍然較為均勻; MC-UVE在800~1 000 nm只篩選到一個(gè)特征波長(zhǎng); CARS篩選到的特征波長(zhǎng)均聚集在900~1 000 nm內(nèi)。 綜上說(shuō)明RF算法在可見(jiàn)光和近紅外區(qū)篩選得到的特征波長(zhǎng)對(duì)葉綠素光譜吸收和反射等特征具有較為全面的代表性。
從相關(guān)性的角度考慮, RF算法篩選得到的特征波長(zhǎng)在葉綠素高相關(guān)范圍(387~509, 519~633, 744~844和845~917 nm)和相關(guān)性峰值(702 nm)均有分布。 而MC-UVE算法篩選變量只在387~509和744~844 nm兩個(gè)范圍, CARS算法篩選變量則只有391, 392, 393, 394和896 nm五個(gè)波長(zhǎng)落入高相關(guān)性范圍內(nèi), 且前四個(gè)為相鄰波長(zhǎng)而存在波長(zhǎng)信息冗余。 上述結(jié)果在PLSR模型中也得到了驗(yàn)證, RF-PLSR模型的精度最優(yōu), MC-UVE-PLSR模型次之, CARS-PLSR模型最差。
表5 MC-UVE-PLSR, RF-PLSR和CARS-PLSR驗(yàn)證集結(jié)果
綜上表明, 當(dāng)合理選擇N和LV參數(shù)時(shí), RF算法對(duì)馬鈴薯葉綠素特征波長(zhǎng)篩選能力優(yōu)于MC-UVE和CARS兩種算法, 同時(shí)也避免了高相關(guān)性區(qū)間篩選相鄰波長(zhǎng)存在的高度自相關(guān)導(dǎo)致的多重共線性問(wèn)題。 所建立的RF-PLSR模型可為馬鈴薯葉綠素含量診斷提供支持, 而研究討論的變量篩選方法與參數(shù)分析過(guò)程, 可為其他同類(lèi)光譜學(xué)檢測(cè)提供參考。
為了高精度地檢測(cè)馬鈴薯作物葉綠素含量, 利用基于模型集群思想的CARS, RF和MC-UVE三種算法篩選葉綠素特征波長(zhǎng), 建立葉綠素含量檢測(cè)PLS模型。 以PLS模型驗(yàn)證集結(jié)果為評(píng)價(jià)指標(biāo), 討論三種算法的迭代次數(shù)(N)和特征變量個(gè)數(shù)(LV)參數(shù)對(duì)模型結(jié)果的影響, 確定三種算法的最佳輸入?yún)?shù)組合, 對(duì)比分析MC-UVE, RF和CARS篩選的最優(yōu)特征波長(zhǎng), 結(jié)論如下:
對(duì)葉綠素含量和光譜數(shù)據(jù)做相關(guān)性分析, 發(fā)現(xiàn)在387~509, 519~633和744~844 nm三個(gè)波段內(nèi), 葉綠素含量與光譜反射率的相關(guān)系數(shù)較高, 其相關(guān)系數(shù)絕對(duì)值均高于0.6; 在678和702 nm處存在相關(guān)性極值, 相關(guān)系數(shù)分別為0.411和-0.715。