李 斌, 高 攀, 馮 盼, 陳丹艷, 張海輝, 胡 瑾*
1. 西北農林科技大學機械與電子工程學院, 陜西 楊凌 712100 2. 農業(yè)農村部農業(yè)物聯網重點實驗室, 陜西 楊凌 712100 3. 陜西省農業(yè)信息感知與智能服務重點實驗室, 陜西 楊凌 712100
葉綠素熒光技術作為植物光合作用的探針, 能間接反映植物光合系統(tǒng)對光能的吸收、 傳遞、 耗散和分配。 葉綠素熒光參數(Fv/Fm)為光學系統(tǒng)Ⅱ(PSⅡ)反應中心最大光合效率, 是使用頻率最高的參數之一, 被廣泛應用于植物逆境脅迫研究中。 Zhou等[1]采用Fv/Fm進行番茄耐熱性的早期檢測; Hazrati等[2]研究表明水分脅迫和光照脅迫會造成蘆薈的Fv/Fm降低; 秦紅艷等[3]對葡萄幼苗進行不同濃度鹽處理, 發(fā)現其葉片Fv/Fm隨鹽脅迫程度加劇而降低。 實現Fv/Fm的快速檢測對于表征植物生理狀態(tài)具有重要意義。 然而傳統(tǒng)的Fv/Fm檢測方式需對待測葉片進行暗適應, 無法實現實時測量, 另外由于葉綠素熒光儀價格昂貴,Fv/Fm檢測成本高, 不能滿足實際應用中大范圍檢測需求。
光譜檢測技術具有快速、 無損、 成本相對較低的優(yōu)勢, 近年來在植物生理狀態(tài)監(jiān)測方面發(fā)展迅速。 國內外學者對植物葉綠素熒光參數與反射光譜的關系進行了深入研究, 朱艷等[4]對不同施氮水平下, 不同品種和生育時期的不同葉位小麥葉片的葉綠素熒光參數和高光譜反射率進行分析, 發(fā)現小麥頂部兩葉片的熒光參數同其差值植被指數DVI(550和750 nm)相關性最高,Fv/Fm與該指數相關性達0.68; Ibarakip等[5]搭建了一套光學植被指數(PRI)成像系統(tǒng), 采集馬鈴薯葉片的反射光強并計算出PRI指數(530和570 nm), 發(fā)現葉片暗適應后, 在弱光條件下該指數同Fv/Fm存在線性關系。 Zhang等[7]采用主成分分析的方法提取出水稻葉片葉綠素熒光參數的特征波段, 選出多個植被指數與熒光參數建模, 結果表明歸一化植被指數NDSI(680和935 nm)的擬合效果最好, 其Fv/Fm的回歸模型的相關系數R為-0.818, 均方根誤差RMSE為0.03。 有報道分析了緊湊型玉米整個生長期Fv/Fm同高光譜植被指數的關系, 發(fā)現結構色敏指數SIPI(445, 680和800 nm)同Fv/Fm相關性最好, 并以SIPI構建了Fv/Fm監(jiān)測模型, 決定系數可達0.813。 以上研究證明了反射光譜預測Fv/Fm的可行性, 然而多著重于分析植被指數同Fv/Fm的關系, 建立的預測模型以植被指數為輸入, 其包含的波長信息量有限, 且多用固定公式擬合建模, 導致模型精度受限。 然而鮮見研究采用統(tǒng)計學方法分析反射光譜同Fv/Fm的關系, 并以提高精度為目的探尋預測模型建模方法。
本工作以茄子葉片作為研究對象, 測量其可見光-近紅外光譜數據及葉綠素熒光參數Fv/Fm, 采用3種光譜數據預處理方法濾除光譜噪聲; 使用5種變量篩選方法提取特征波長, 并建立偏最小二乘回歸(partial least square regression, PLSR)模型, 根據模型精度確定不同預處理方法下的最優(yōu)特征波長組合; 最后采用4種機器學習算法建立Fv/Fm預測模型, 并與傳統(tǒng)線性回歸算法進行對比, 選出最優(yōu)建模方式, 實現基于可見-近紅外光譜的茄子葉片Fv/Fm準確預測。
實驗于西北農林科技大學農業(yè)農村部農業(yè)物聯網重點實驗室(北緯34°07′39″, 東經107°59′50″, 海拔648 m)進行, 實驗材料為紫紅長茄F1幼苗, 采用基質培養(yǎng)(Pindstrup Substrate, 丹麥)。 為獲取熒光參數差異顯著的茄子葉片, 于2018年11月將生長健康、 長勢一致的茄子幼苗置于光照強度設置為6個梯度(光量子通量密度分別為50, 90, 140, 220, 280和340 μmol·m-2·s-1)的6個CO2人工氣候箱(達斯卡特, RGL-P500D-CO2)內培養(yǎng)。 箱內光周期為晝/夜14h/10h, 環(huán)境溫度為晝/夜25 ℃/16 ℃, 空氣相對濕度為晝/夜60%/50%, CO2濃度為400 μmol·mol-1。 由于各箱內茄子植株接受光輻射不同, 培育15 d后, 產生了長勢良好和受光抑制影響明顯的植株樣本, 其株高、 莖粗, 葉片形狀、 顏色等形態(tài)特征產生明顯區(qū)別, 且葉綠素熒光參數Fv/Fm差異較大, 分布于0.682~0.877的區(qū)間內。 對其進行可見-近紅外光譜和葉綠素熒光參數測定, 共獲取光譜及熒光數據302組。
可見-近紅外反射光譜數據采集系統(tǒng)包括波長范圍為350~1 100 nm, 像素為2068的光譜儀(OFS-1100, Ocean Optics, 美國), 鹵鎢燈(HL-2000, Ocean Optics, 美國), 積分球(SpectroClip-TR, Ocean Optics, 美國)及計算機。 其中測量前, 將鹵鎢燈預熱30 min, 以保證光源強度均勻。 通過光譜校正去除設備暗電流影響, 獲得樣本光譜反射率, 其計算公式如式(1)所示
(1)
式(1)中,R為樣本光譜反射率;I為樣本反射光譜光強;Iw為參考白板的反射光譜光強;Ib為光源關閉時光譜儀采集的光譜光強。
使用SpectraSuite軟件(Ocean Optics, 美國)設置光譜采集參數: 光譜積分時間為80 ms, 掃描次數為10, 平滑度為5。 對每個葉片取避開葉脈的三個點采集反射光譜數據, 取平均值作為單個葉片的原始光譜。
使用便攜式調制葉綠素熒光儀Mini-Pam-II(Walz, 德國)測定葉綠素熒光參數。 測定前使用暗適應葉片夾夾取待測葉片, 充分暗適應20 min后, 通過光纖探頭在葉片相同位置采集葉綠素熒光參數Fv/Fm, 同樣取三點均值作為單個葉片Fv/Fm。
1.4.1 樣本集劃分
由于光譜首尾波段信噪比較低, 選取了400~1 000 nm波長范圍內的1 358個波段進行光譜分析。 在302個樣品中, 利用蒙特卡洛抽樣方法(Monte-Carlo sampling method, MCS)對光譜數據進行分析, 去除9個明顯異常值, 在剩余293個樣本中, 按4∶1隨機劃分出訓練集和測試集, 其樣本數分別為234和59。
1.4.2 光譜數據預處理
為消除儀器產生的隨機噪聲、 葉片表面散射、 光程變化等對光譜產生的影響[7], 保留有效光譜信息, 提高模型精度及適用性, 本研究分別使用SG卷積平滑(savitzky-golay, SG)、 多元散射校正(multiplicative scatter correction, MSC)、 標準正態(tài)變量變換(standard normal variate transformation, SNV)三種方法對光譜進行預處理。
1.4.3 特征波長提取
葉片反射光譜波段線性重復性高、 冗余信息多, 會導致模型復雜且精確性下降[8]。 特征波長篩選可以減少波長變量的個數, 且有利于提高模型預測速度。 本研究采用連續(xù)投影法(successive projections algorithm, SPA)、 隨機蛙跳算法(random frog, RF)、 競爭性自適應加權算法(competitive adaptive reweighted sampling, CARS)及其組合進行特征波長篩選。 其中, SPA是一種前向循環(huán)選擇方法, 通過向量的投影分析, 將含有最少冗余度和最小共線性的波長組合提取出來; RF和CARS則是以優(yōu)化校正模型的預測精度為目的, 通過循環(huán)迭代建立預測模型得到最適于提高模型精度的特征變量。 其不同之處在于RF算法通過計算循環(huán)過程中各波長的被選擇概率作為特征波長選擇的標準[9], 而CARS則在迭代過程中不斷篩去貢獻小的波長, 以精度最高的模型所采用的波長組合為特征波長組合, 其變量選擇的具體步驟見文獻[10]。 為實現在考慮模型精度的同時盡可能地減少特征波長的個數, 選擇將CARS和RF分別與SPA連用, 即先采用CARS和RF提取出有利于預測模型精度的特征波長組合, 而后使用SPA篩去重復性高的冗余變量。
為衡量各方法提取的特征波長組合的性能, 以預處理后的樣本光譜的特征波長反射率為輸入, 葉綠素熒光參數Fv/Fm為輸出, 采用PLSR算法建立預測模型。 以決定系數(R2)和均方根誤差(RMSE)衡量模型精度, 確定最適數據處理方法下的最優(yōu)波長組合。 為評價波長組合內各特征波長的重要性, 對建立的PLSR預測模型中各波長權值的比重進行計算, 如式(2)
(2)
式(2)中,bi為PLSR擬合公式中第i個特征波長的回歸系數,wi是第i個特征波長的權值比重。
為了獲取最優(yōu)的建模方法, 分析4種常用的機器學習算法對Fv/Fm預測模型精度的影響, 并與PLSR模型進行對比, 從而建立預測模型。 機器學習算法分別為: BP神經網絡(back propagation neural network, BP)、 RBF神經網絡(radial basis function neural network, RBF)、 極限學習機(extreme learning machine, ELM)及回歸型支持向量機(support vector regression, SVR)。 以測試集Fv/Fm的實測值與預測值的決定系數(R2)及均方根誤差(RMSE)衡量模型預測效果。
研究中BP神經網絡隱層數量設置為1, 各層之間的傳遞函數為tansig, 優(yōu)化函數為trainlm, 目標誤差為0.000 1, 最大迭代次數為1 000, 學習速率為0.1; RBF神經網絡的目標誤差設置為0.000 1, 徑向基函數擴散速度為13.5。 ELM的隱層神經元個數設置為50, 傳遞函數為sigmod; SVR的核函數設置為徑向基函數, 通過網格搜索法確定正則化參數c與核函數參數g。
取葉片樣本Fv/Fm值區(qū)間為[0.65, 0.90], 按步長為0.05將其劃分為5個子區(qū)間, 將Fv/Fm值落于各子區(qū)間的茄子葉片反射光譜取均值, 其平均光譜如圖1所示。 其光譜符合植物光譜普遍規(guī)律, 在550 nm左右出現反射率峰值“綠峰”, 在680 nm存在反射率低谷“紅谷”[11]。 在可見光與近紅外波段之間, 出現反射率急劇上升的“紅邊”現象。 另外, 隨葉片Fv/Fm的增加, 其光譜反射率整體呈下降趨勢。 其中, 500~700 nm區(qū)域內的光譜幅值降低對該趨勢的反映極為明顯。 分析認為Fv/Fm是植物PSⅡ反映中心的最大光能轉化效率,Fv/Fm值大的葉片樣本對光能的吸收、 利用能力強, 故其在葉綠素吸收光范圍內的反射光強明顯低于Fv/Fm值小的樣本。 這種葉片光譜的統(tǒng)一變化趨勢為建立Fv/Fm預測模型提供了理論依據。
圖1 樣本平均光譜
為篩選建模效果最優(yōu)的特征波長組合, 在光譜預處理及特征波長提取的基礎上, 以PLSR建立的預測模型的精度以及采用的特征波長個數如表1所示。 在三種預處理方法中, MSC和SNV的表現較好, 訓練集和測試集的R2均能達到0.8以上, RMSE均在0.015以下。 而SG平滑效果一般, 除了以RF-SPA方法提取特征波長的建模效果比原光譜有較小提升的效果, 其余的模型精度反而不如原始光譜數據建立的預測模型, 可能是由于SG平滑在過濾噪聲的同時也消除了部分光譜中的有效信息。
表1 不同預處理及變量篩選方法下的PLS模型精度
由表1中三種變量篩選算法單獨使用的結果可知, CARS和SPA的效果較好。 CARS提取的波長建模精度最優(yōu), SPA次之, 但其提取出的特征波長數量最少。 這是由于CARS的選擇策略是基于模型精度最優(yōu), 而SPA則是基于各變量之間的重復性最小。 RF算法表現不佳是因為其根據單個波長被選擇的概率進行變量篩選, 沒有考慮波長之間的組合效果。 而CARS和SPA篩選出的則是特征波長的集合。 兩者的組合使用充分發(fā)揮了各自的優(yōu)點。 各預處理下, CARS-SPA的模型精度與CARS相近, 但其特征波長數量遠少于CARS。 在所有方法中, MSC-CARS-SPA及SNV-CARS-SPA的波長選擇效果最優(yōu)。 MSC-CARS-SPA-PLSR的測試集R2為0.896 1, RMSE為0.011 8, 而SNV-CARS-SPA-PLSR的測試集精度與前者相近而訓練集精度更高, 兩者的特征波長個數均為12個, 僅占全光譜建模中1 358個波長的0.88%。 兩方法均在大幅度降低模型輸入的同時, 提高了模型預測能力, 故將兩者篩選出的波長變量作為最終的特征波長組合。
進一步對兩種方法篩選出的特征波長分布情況及重要性進行分析。 各特征波長的分布及其權值比重如圖2所示, 其中圖2(a)和(b)分別為經MSC及SNV預處理后的光譜圖, 圖2(c)和(d)則是MSC-CARS-SPA和SNV-CARS-SPA兩種方法篩選出的12個特征波長的權重分布, 采用點劃線表示特征波長在預處理光譜中的位置。 由圖2(a)和(b)可知, 兩種方法提取出的特征波長在可見光(400~780 nm)與近紅外區(qū)域(780~1 000 nm)的數量較為均勻, MSC-CARS-SPA的分布比例為1∶1, 而SNV-CARS-SPA的分布比例為5∶7。 但由圖2(c)和(d)可發(fā)現: 在權重分布上, 可見光區(qū)域的權重明顯高于近紅外區(qū)域, MSC-CARS-SPA的可見光范圍特征波長累積權重為71.54%, SNV-CARS-SPA為68.15%; 另外, 兩種方法在400~730 nm范圍提取出的特征波長具有高度相似性。 在該范圍內MSC-CARS-SPA提取出的波長分別為405, 512, 644和729 nm, 而SNV-CARS-SPA的特征波長為402, 512, 648, 708和723 nm。 以上波長的權重也具有類似變化, 隨波長增大, 呈先降后升趨勢, 并在730 nm附近達到最大值, MSC-CARS-SPA篩選的729 nm處的波長權重為18.97%, 而SNV-CARS-SPA對應的723 nm的權重為24.64%, 表明該處波長信息對Fv/Fm的反映最為明顯, 這可能是由于該波長位于植物反射率光譜變化最為明顯的紅邊位置, 而紅邊信息可良好地反映植物的葉綠素含量、 含水率、 氮含量等影響植物生長發(fā)育的重要生理量, 故此處波長的權重最大。
圖2 特征波長分布及權值比重
以樣本光譜數據特征波長組合反射率數據為輸入, 葉綠素熒光參數Fv/Fm為輸出, 分別使用4種機器學習算法構建預測模型, 并與PLSR算法進行對比。 其中, 由于BP神經網絡和ELM算法的隨機性, 選擇以運行十次的決定系數和均方根誤差的平均值評價模型精度。 模型運行結果如表2所示。
由表2可知, 相比于PLSR模型, 四種機器學習模型的訓練集的精度都得到了明顯提升, 這是由于機器學習的非線性擬合能力更強。 另外, 除ELM模型, 其他三種機器學習模型的測試集精度都得到了提高。 但往往存在過擬合現象, 即訓練集精度明顯高于測試集。 在幾種算法中, SVR的建模效果最優(yōu), 其在小樣本訓練的優(yōu)勢得到了體現, 表現為最高的決定系數、 最小的均方根誤差及優(yōu)秀的泛化能力。 在所有模型中, 以SNV-CARS-SPA方法獲取特征波長, 并采用SVR建立的茄子葉片Fv/Fm模型的預測效果最好, 其訓練集與測試集的擬合結果分別如圖3(a,b)所示。 其訓練集R2為0.912 7, RMSE為0.010 5; 測試集R2為0.911 7, RMSE為0.010 8, 且模型輸入僅為12個波長。 而采用PLSR算法建立的全光譜模型的測試集R2為0.875 7, RMSE為0.012 9。 這表明本研究所采用的預處理和變量篩選方法有效地去除了光譜中的冗余信息, 保留了與Fv/Fm最相關的特征波長組合, 且SVR算法更適于構建光譜數據對Fv/Fm的預測關系。
表2 不同建模方法下的模型精度
圖3 基于SVR構建預測模型的擬合結果
以苗期茄子植株為研究對象, 采用可見-近紅外光譜分析技術對其葉綠素熒光參數Fv/Fm進行定量預測, 使用多種預處理方法及變量選擇算法完成特征波長的篩選, 基于多種機器學習算法構建預測模型, 通過模型精度對比確定了最優(yōu)數據處理方法及建模算法。 主要結論有以下四點:
(1) 通過試驗獲取不同Fv/Fm的茄子葉片的反射光譜, 分析發(fā)現光譜反射率隨Fv/Fm的增加呈下降趨勢, 在500~700 nm波段處該現象最為明顯。
(2) 采用SG, MSC和SNV進行光譜數據預處理, 通過SPA, RF, CARS, CARS-SPA和RF-SPA提取特征波長組合, 并使用PLSR建立建模。 發(fā)現MSC-CARS-SPA和SNV-CARS-SPA方法提取的波長組合建模效果最好, 且波長個數僅為12個。
(3) 由特征波長權重分布可知, 可見光區(qū)域的特征波長權重明顯高于近紅外區(qū)域, 表明該處特征波長對于Fv/Fm的預測貢獻更大。 另外, 所有特征波長中紅邊位置的波長權重最大, 對Fv/Fm的反映最為明顯。
(4) 基于兩類特征波長信息, 分別使用BP, RBF, ELM和SVR算法建立預測模型, 發(fā)現SNV-CARS-SPA-SVR方式建立的模型精度最優(yōu), 其測試集R2為0.911 7, RMSE為0.010 8。 其精度高于全光譜PLSR模型, 表明本研究所采用的特征波長篩選方法結合機器學習算法有效地提高了模型預測能力。
本研究基于統(tǒng)計學方法, 探索了以可見-近紅外光譜預測苗期茄子葉綠素熒光參數Fv/Fm的有效方式, 擬進一步推廣至不同生長期的其他作物, 為植物生長逆境的快速、 無損檢測提供技術支撐。