田容才,盧俊瑋*,官春云,2
(1.湖南農業(yè)大學農學院,湖南 長沙,410128;2.南方糧油作物協(xié)同創(chuàng)新中心,湖南 長沙,410128)
油酸是菜籽油脂肪酸的重要成分,高油酸菜籽油不僅營養(yǎng)價值高,而且穩(wěn)定性好,耐貯藏[1]。因此在保持雙低品質的基礎上進一步提高油酸含量是油菜脂肪酸改良的熱點[2]。油菜高油酸育種通常采用定向選擇、雜交選育、誘變育種、基因工程及分子輔助標記選擇等方法[3],但對其后代材料的篩選存在周期長、工作量大、專業(yè)性強等弊端[4],因此建立一種快速、無損、高效的油酸含量檢測方法具有重要意義。
高光譜技術具有波段多、連續(xù)性強、信息量大等特點,已廣泛應用于農作物品質檢測[5,6]。近年來,國內外學者在應用光譜技術對油料作物脂肪酸成分檢測方面進行了較多研究。Niewitetzki 等[7]利用近紅外光譜技術實現(xiàn)了每小時500粒的單粒油菜種子油酸含量檢測,其模型交叉驗證R2達0.96。李建國[8]利用近紅外光譜技術建立了單?;ㄉN子油酸含量估測的PLSR 模型,其建模集R2達0.91,RMSE 為3.46%,且應用該模型成功選育出高油酸花生品種中花215。Parsaeian[9]將數(shù)字圖像技術與多層感知人工神經網絡相結合,實現(xiàn)了對125 份不同基因型的芝麻籽的脂肪酸含量估測,其中對油酸估測R2為0.98,RMSE 為0.62%。Cantarelli 等[10]利用近紅外漫反射光譜儀采集了100份向日葵種子光譜數(shù)據,從而建立了基于一階微分光譜的PLSR 模型,實現(xiàn)了對葵花籽油酸含量的快速測定。Weinstock 等[11]運用近紅外高光譜成像技術,實現(xiàn)了單粒玉米籽粒含油量和油酸含量估測,其PCA-PLSR 模型預測RMSE 分別為0.7%和14%。蔣蘋等[12]比較分析了PLS、PCR 和RBF 等3 種方法在油茶內部品質檢測中的效果,得出RBF 效果最好,其中與油酸含量的交叉驗證相關系數(shù)為0.94。郝勇[13]通過對原始光譜數(shù)據進行一階求倒和多元散射校正的預處理,再采用變量組合集群分析降維,最終建立PLSR模型,實現(xiàn)了山茶油混合油品中油酸和亞油酸的快速測定。常濤[14]通過分析不同生育時期冠層光譜反射率與葉片葉綠素含量及成熟后籽粒含油量的相關關系,得出幼苗期冠層光譜反射率可進行含油量預測,實現(xiàn)高含油油菜種質資源的早期篩選。李施蒙[15]、吳建國[16]、高建芹[17]等應用近紅外光譜法實現(xiàn)了油菜籽脂肪酸組分的估測。由此可知,大多數(shù)研究都是利用近紅外光譜儀對油料作物的群體籽?;騿瘟V舅岢煞诌M行估測,應用高光譜儀器對甘藍型油菜油酸含量檢測研究較少,進行不同部位的籽粒油酸含量估測更是鮮見報道。
本研究將成熟收獲后的44 份高油酸甘藍型油菜按照主莖、一次分枝、二次分枝等部位進行劃分,采集不同部位的籽粒反射光譜及對應的油酸含量數(shù)據,通過相關性分析與反射光譜特征相結合的方法篩選出可用于籽粒油酸含量估測的特征波長,從而建立基于原始及一階微分光譜反射率的全波長和特征波長的不同部位籽粒油酸含量估測的SMLR、PLSR、PCR 模型,以及通過任意兩波長組合構建光譜指數(shù),建立基于光譜指數(shù)的一元線性模型,采用R2、RMSE 和RPD 對模型精度進行評價,以期找到用于高油酸甘藍型油菜油酸含量估測的最佳部位,為高油酸油菜種質資源篩選提供一種低成本、快速的方法。
試驗材料為湘油15 號輻射誘變后代中的高油酸定向育種材料,由湖南農業(yè)大學國家油料改良中心湖南分中心提供,共44 個。試驗于2018 年9 月-2019 年5 月在湖南農業(yè)大學耘園基地(28°10' N,113°4' E,海拔44.9 m)進行,采用完全隨機布置試驗,小區(qū)面積1.8 m × 5 m,株行距15 cm × 25 cm。2018 年9 月24 日播種(穴直播,田間成苗后,每穴留單株),2019 年5 月8 日收獲,施肥量為525 kg/hm2(復合肥15-15-15),其它管理同當?shù)刎S產田。
1.2.1 籽粒樣品采集 44 個小區(qū)各選擇3 株長勢一致,且具體代表性的植株地上部分,平鋪于室內陰涼通風處,自然風干2 個月。按照主莖、一次分枝、二次分枝,脫粒、過篩、除雜。
1.2.2 光譜數(shù)據采集 使用LAMP Pro 50 W 主動光源,光源垂直于置物臺正上方,垂直距離15 cm,探頭向下與垂直方向呈30°夾角,與置物臺中心距離9 cm。籽粒樣品鋪滿于直徑4 cm、高1 cm 的托盤內。采用美國ASD FieldSpec 3 地物波譜儀進行數(shù)據采集。光譜范圍為350~2500 nm,光譜分辨率為3 nm @ 350~100 nm;10 nm @ 1000~2500 nm。首次使用熱機15 min 并進行優(yōu)化與白板定標,測試每個樣品前重新白板定標。每次測量均重新混合取樣,重復測量5次,記錄光譜反射率的平均值。
1.2.3 籽粒油酸含量測定 采用美國Agilent GCMS 7980B 氣相色譜分析脂肪酸組成。脂肪酸測定方法按照GB/T17376-2008 標準,取0.02 g 樣品于2 mL EP 管中,磨碎,加入0.4 mol/L KOH-甲醇溶液400 μL 和乙醚石油醚1:1 混液800 μL,萃取4 h,加蒸餾水分層(靜置30 min或高速離心1 min),取上清100 μL,加乙醚石油醚混液稀釋至600 μL。色譜條件:以氮氣為載氣,HP-5 毛細管柱(30 m × 320 μm× 0.25 μm),恒流流速6.5 mL/mim,進樣口溫度250℃,檢測器溫度330℃;升溫程序:初始溫度為40℃,保存0.1 min,以720℃/min 升至350 ℃保持2 min,再以100℃/min 降至250℃保持10 min。分流比為30:1,進樣體積1.0 μL。
1.3.1 光譜指數(shù)選擇 根據油菜光譜特征及其前人的研究成果[18~20],選取3 個常用的光譜指數(shù)用于油菜籽粒油酸含量的估算,具體計算公式見表1。
表1 光譜指數(shù)的計算公式Table 1 Spectral index calculation formula
1.3.2 模型構建及評價 首先利用ViewSpec Pro 6.2 軟件對各分枝原始光譜數(shù)據進行平均及一階微分計算并導出,然后進行主莖、一次分枝、二次分枝的原始及一階微分光譜數(shù)據與其對應的籽粒油酸含量的相關性分析,再根據Rc 選取β-coefficient 絕對值高的波長及各分枝反射光譜峰谷特征相結合的方式,篩選出特征波長,最后利用Unscrambler 10.4 軟件建立基于全波長和特征波長的SMLR、PLSR、PCR 模型,并用OriginPro 9.1 軟件進行繪圖。任意兩波長組合構建的DSI、NDSI 和RSI,基于最佳光譜指數(shù)的單變量估測模型,利用R 語言編程并繪圖。采用R2、RMSE 和RPD 對模型精度進行驗證與評價。R2越接近1,RMSE 越小,表明模型預測精度越高。RPD 通過衡量預測值與實測值之間的偏差程度來表明模型的預測能力。通常認為RPD<1.5,不具備預測能力;1.5<RPD<2,預測能力可接受;RPD>2,預測能力極好[21]。R2、RMSE 和RPD[22]的計算公式如下:
式中,yi為實測值,y?i為預測值,SD為驗證集標準差,n為樣本數(shù),p為自由度。
將44 個高油酸甘藍型油菜材料,按照主莖、一次分枝、二次分枝測定其籽粒油酸含量,對測得的結果進行升序排序,再按照隔二選一的方式劃分校正集和驗證集,結果如表2。由表2 可知,高油酸甘藍型油菜主莖油酸含量范圍為72.99~87.6,平均含量為83.72±3.64,一次分枝油酸含量范圍為74.34~87.52,平均含量為84.2±2.91,二次分枝油酸含量范圍為74.11~87.37,平均含量為83.49±3.04,說明選用的高油酸材料油酸含量涵蓋范圍較寬,具有一定的代表性。按照2∶1 劃分校正集和驗證集,各部位校正集樣本數(shù)為30,驗證集樣本數(shù)為14,且由表可知,驗證集樣本油酸范圍基本位于校正集樣本油酸含量之內,可用于校正集模型精度的外部驗證。
表2 甘藍型油菜不同部位的籽粒油酸含量Table 2 Oleic acid content in different parts of B.napus seeds
高油酸甘藍型油菜主莖、一次分枝、二次分枝籽粒油酸含量最大值和最小值對應的原始及一階微分光譜反射率曲線如圖1。由圖1A、B、C 可知,甘藍型油菜主莖、一次分枝、二次分枝反射率曲線具有相同的變化趨勢,呈現(xiàn)顯著的“雙峰”特征,即在1119 nm、1305 nm 附近出現(xiàn)反射高峰,在1209 nm 附近呈吸收谷,但不同部位的籽粒反射光譜也有所不同,具體表現(xiàn)為主莖和一次分枝油酸含量最大值對應的反射率高于最小值對應的反射率,而二次分枝相反,總體看來,三個部位在529~1132 nm、1240~1354 nm、1434~1687 nm、1775~1894 nm 和1938~2258 nm 等波段范圍內反射強度存在差異。對原始光譜進行一階微分變換能提高數(shù)據的信噪比,顯示更多的信息,由圖1D、E、F 可知,各部位一階微分光譜最大值和最小值差異較小,但經過一階微分變換后,不同部位油菜籽粒反射光譜的峰與谷數(shù)量顯著增多,共出現(xiàn)14 個反射峰,分別在688 nm、938 nm、1058 nm、1225 nm、1396 nm、1543 nm、1597 nm、1734 nm、1770 nm、1989 nm、2071 nm、2192 nm、2316 nm、2355 nm 等波長附近,共出現(xiàn)12個吸收谷,分別在912 nm、1156 nm、1184 nm、1382 nm、1407 nm、1566 nm、1688 nm、1752 nm、1894 nm、2043 nm、2251 nm、2338 nm 等波長附近。由于1450 nm 和1950 nm 兩波長對水強吸收,因此在后續(xù)的特征波長篩選中剔除1450 nm和1950 nm附近的吸收峰。
圖1 甘藍型油菜不同部位的油酸含量最大和最小值對應的原始及一階微分光譜反射率曲線Fig.1 Original and first derivative spectral reflectance curves corresponding to the maximum and minimum oleic acid content in B.napus seeds from different parts
將高油酸甘藍型油菜主莖、一次分枝、二次分枝的原始及一階微分光譜反射率數(shù)據分別與其對應的籽粒油酸含量進行相關性分析,結果如圖2。由圖2A可知,主莖和一次分枝在大部分波段與籽粒油酸含量呈正相關關系,其中主莖在629~894 nm和1437~1684 nm 兩波段呈極顯著正相關,一次分枝在495~1018 nm 波段達極顯著正相關,二次分枝在350~1176 nm 波段呈正相關,1176 nm 之后變?yōu)樨撓嚓P,且在1651~2487 nm 波段達極顯著負相關。主莖、一次分枝、二次分枝原始光譜最大相關系數(shù)分別位于1583 nm(r=0.54)、723 nm(r=0.7)和2381 nm(r=-0.74)附近。由圖2B 可知,一階微分光譜與籽粒油酸含量的相關系數(shù)在部分波段略高于原始光譜,但相關系數(shù)變異性較大,相關系數(shù)不穩(wěn)定,主莖、一次分枝、二次分枝在498~1945 nm 波段范圍內相關系數(shù)較穩(wěn)定,其中主莖、一次分枝和二次分枝的最大相關系數(shù)分別位于1715 nm(r=-0.79)、1734(r=0.76)和924 nm(r=-0.73)波長處。
圖2 甘藍型油菜不同部位籽粒原始及一階微分光譜與油酸含量相關系數(shù)Fig.2 Correlation coefficients between original and first derivative spectral reflectance and oleic acid content in B.napus seeds from different parts
2.4.1 全波長估測模型的建立 利用主莖、一次分枝和二次分枝的原始、一階微分光譜數(shù)據和對應油菜籽粒油酸含量數(shù)據,建立基于全波長的SMLR、PLSR 和PCR 的籽粒油酸含量估測模型,并用驗證集數(shù)據對估測模型精度進行外部檢驗,建模結果如表3 所示。由表3 可知,在基于原始光譜建立的模型中,主莖、一次分枝和二次分枝均以PLSR 模型估測效果最理想,尤以對主花序角果籽粒估測精度最高,R2C、R2V分別達0.83 和0.71,RMSEC和RMSEV分別為1.63%、1.92%。在一階微分光譜建立的模型中,則以SMLR 估測效果較理想,雖然在主莖和一次分枝的PLSR 模型中,建模集R2達0.93 和0.95,但是用剩余材料驗證效果不理想,R2僅為0.56 和0.37,遠低于建模R2,這可能是對數(shù)據過擬合所致。對比三種建模方法,發(fā)現(xiàn)PCR 模型效果最差,表現(xiàn)為最低,RMSEC最高,其主要原因可能是PCR 只分解光譜陣,沒有充分考慮光譜陣與濃度陣的關系[23]。綜合來看,在基于全波長的估測模型中,以主莖的PLSR模型對籽粒油酸含量估測效果最好,RPD為2.00,說明模型的估測能力可接受。
表3 基于全波長的甘藍型油菜籽粒油酸含量估測Table 3 Estimation of oleic acid content in B.napus seeds based on full wavelength
2.4.2 基于特征波長的估測模型 基于全波長的模型雖估測結果精度較高,但存在信息冗余、運算效率低、設備成本高等弊端,在實際推廣應用中的價值不大,因此在大量的光譜信息中,提取少數(shù)的特征波長,建立基于特征波長的估測模型,具有更大的應用價值。結合高油酸甘藍型油菜反射光譜的波峰、波谷特征及反射光譜與籽粒油酸含量相關系數(shù)絕對值的高低,篩選出用于高油酸甘藍型油菜籽粒油酸含量估測的特征波長,結果見表4。由表4可知,在基于原始光譜的數(shù)據中,主莖、一次分枝、二次分枝分別篩選出5 個、4 個、7 個特征波長,僅占全波長0.23%、0.19%、0.33%的信息量。由于光譜一階微分變換能提高數(shù)據信噪比,顯示更多的信息,因此基于一階微分光譜篩選出的特征波長數(shù)量多于原始光譜數(shù)據,主莖、一次分枝、二次分枝特征波長數(shù)分別占全波長光譜的0.75%、0.75%、0.56%。
將表4 篩選出來的高油酸甘藍型油菜主莖、一次分枝、二次分枝的原始及一階微分特征波長與其對應的籽粒油酸含量進行SMLR、PLSR、PCR 建模,并用驗證集數(shù)據(n=14)對所建模型精度進行外部驗證,結果見表5?;谠继卣鞑ㄩL數(shù)據的主莖和一次分枝油酸含量估測模型效果均不理想,而二次分枝原始特征波長的SMLR、PLSR、PCR模型效果較好,以PLSR 模型估測效果最好,校正集R2為0.67,RMSE 為1.71%,驗證集R2為0.61,RMSE 為1.93%,RPD 為1.37,僅用全波長0.33%的信息量達全波長模型78.21%的效果,這可能是主莖和一次分枝油酸含量光譜估測建模時,入選的特征波長數(shù)少于二次分枝,且波長的相關系數(shù)沒有二次分枝高,因為二次分枝的原始特征波長均與籽粒油酸含量達極顯著相關關系。在基于一階微分特征波長光譜建立的估測模型中,雖然主莖的SMLR、PLSR、PCR 模型具有較高的建模集R2,分別為0.71、0.84、0.73,但驗證集效果不理想,這可能是由于主莖16個特征波長中,僅10個與籽粒油酸含量達極顯著相關,模型過擬合所致;一次分枝的PLSR 模型估測效果較優(yōu),R2C、R2V達0.85、0.87,RMSEC、RMSEV分別為1.08%、1.13%,這可能是因為PLSR 模型能同時對光譜陣和濃度陣進行分解,有利于提高模型精度[24],同時建模所用的16個特征波長中有13個與籽粒油酸含量達極顯著相關;二次分枝的三種模型效果均不理想,模型RPD 為1,不具備預測能力??傮w看來,在基于一階微分特征波長的模型中,對一次分枝籽粒油酸含量的PLSR 模型估測效果最優(yōu),模型RPD為2.57,具有極好的預測能力。
表4 特征波長Table 4 Characteristic wavelengths
表5 基于特征波長的甘藍型油菜不同部位籽粒油酸含量估測Table 5 Estimation of oleic acid content in different parts of B.napus seeds based on characteristic wavelengths
圖3為高油酸甘藍型油菜不同部位籽粒原始光譜反射率任意兩波長進行組合后的光譜指數(shù)(DSI、NDSI、RSI)與其對應的籽粒油酸含量進行相關分析所得決定系數(shù)圖,由圖可知,NDSI 和RSI 與籽粒油酸含量的相關性在主莖、一次分枝、二次分枝等3個不同部位中具有相似性,即決定系數(shù)R2高的歸一化組合其比值組合R2也高。且決定系數(shù)大的波長組合以近紅外區(qū)域居多,說明近紅外區(qū)域波長在進行籽粒油酸含量估測時的表現(xiàn)較好。
圖3 甘藍型油菜任意兩波長構建的光譜指數(shù)與籽粒油酸含量的決定系數(shù)Fig.3 Determination coefficient of spectral index constructed by any two wavelengths and content of oleic acid in B.napus seeds
在任意兩波長構建的光譜指數(shù)中,篩選出與籽粒油酸含量決定系數(shù)最高的波長組合,建立基于最優(yōu)光譜指數(shù)的一元線性回歸模型,并用驗證集數(shù)據對模型精度進行外部檢驗,結果見表6。由表6 可知,在3個部位中,利用NDSI和RSI篩選出的用于油酸含量估測的波長組合一致,分別為2117 nm 和2305 nm、2254 nm 和2304 nm、2199 nm 和2239 nm,且兩者的建模效果相當。對比不同部位的模型效果,發(fā)現(xiàn)對二次分枝籽粒油酸含量的估測效果較好,以DSI(2471,1726)、NDSI(2239,2199)、RSI(2199,2239)為變量構建的模型R2C分別達0.62、0.71、0.71,RMSEC為1.84%、1.62%、1.61%,但用剩余品種驗證效果不理想,驗證集R2為0.4 左右,RMSE 為2.5%左右,RPD 僅為1.1 左右,但效果優(yōu)于對主莖和一次分枝油酸估測的模型。在基于光譜指數(shù)的估測模型中,以DSI(1757,1701)為變量建立的一元線性模型在估測一次分枝籽粒油酸含量時的效果最優(yōu),R2c 為0.69,R2v 為0.57,RPD 為1.35,這與程潛等[25]研究得出基于DVI建立的油酸含量估測模型達顯著或極顯著水平結果相近。但是基于光譜指數(shù)的估測模型中RPD 均小于1.5,均不能有效地估測高油酸油菜籽粒油酸含量,這可能是由于一元線性模型過于簡單,而光譜與油酸含量呈非線性關系所致。
表6 基于光譜指數(shù)的甘藍型油菜不同部位籽粒油酸含量估測Table 6 Estimation of oleic acid content in different parts of B.napus based on spectral index
通過上述分析,發(fā)現(xiàn)PLSR 模型在估測不同部位籽粒油酸含量的效果優(yōu)于SMLR、PCR 和一元線性模型,尤以建立的一階特征波長PLSR 模型對一次分枝籽粒油酸含量的估測效果最優(yōu),建模集R2達0.85,RMSE 為1.08%,說明該模型可有效地估測高油酸油菜籽粒油酸含量,一次分枝可作為油酸含量光譜快速無損估測的特征器官。為評價模型的穩(wěn)定性及適用性,用剩余材料(n=14)對模型精度進行外部驗證,圖4 為一次分枝籽粒油酸含量光譜估測的實測值與預測值的關系??芍?,驗證集R2達0.87,RMSE 為1.13%,RPD 為2.57,說明基于一次分枝特征波長一階微分光譜反射率的籽粒油酸含量PLSR 估測模型效果穩(wěn)定且可靠性高,為高油酸甘藍型油菜品質育種材料篩選提供借鑒方法。
圖4 籽粒油酸含量PLSR模型外部驗證實測值與預測值間的1:1關系Fig.4 The 1:1 relationship between measured and predicted value of PLSR model external verification of oleic acid content in seeds
雖然應用近紅外光譜技術進行油菜脂肪酸含量檢測的報道較多[26~29],但在使用近紅外儀器檢測油菜脂肪酸成分時,對樣品的選擇具有隨機性、受人為因素影響大等弊端。曾宇等[30]認為在品質測定取樣時如果沒有考慮主莖與分枝比例,僅采用充分混勻的樣本,測定結果會受影響。因此本文將油菜植株按照主莖、一次分枝、二次分枝等部位進行細分,分別測定其籽粒反射光譜及對應的籽粒油酸含量,以期找到可用于油酸含量估測的最佳部位,減輕取樣工作量及樣品制備的人為誤差。結果顯示,PLSR 模型在對不同部位籽粒油酸含量估測中效果較其它模型理想,尤以基于一階微分特征波長的PLSR模型估測一次分枝籽粒油酸含量效果最優(yōu),模型外部驗證RPD 為2.57,這一結論與國內外成熟的近紅外光譜分析軟件在進行農產品品質檢測時大多采用PLS 建模[31]的結果相似,但模型缺乏機理解釋,因此接下來將以生育期葉片理化指標為中間量,建立“葉片光譜—葉片理化指標—一次分枝籽粒油酸含量”的關系模型,增強模型的解釋性。
同時,本文的研究是基于成熟收獲后的籽粒光譜,僅可達到估算油酸含量的效果,篩選時間滯后,而高建芹研究得出葉片中油酸含量蕾薹期>花期>苗期、越冬期,且營養(yǎng)器官中的油酸與成熟籽粒中的油酸含量成正相關[32],因此接下來將按照“生育期葉片光譜—生育期葉片油酸含量—一次分枝籽粒油酸含量”的技術路線開展試驗,以期實現(xiàn)高油酸甘藍型油菜新材料的生育前期篩選,縮短選育種周期,降低育種成本。雖然本文得出PLSR 模型估測效果較好,但建模方法對預測模型精度影響較大[33],研究表明[34]支持向量機、隨機森林、人工神經網絡等機器學習算法能有效提高模型精度,故今后將從建模方法上做進一步探究,提高預測精度。