完香蓓,簡麗蓉,辛萍萍,單慧勇,胡 瑾
(西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院,楊凌 712100)
近年來,水培技術(shù)因具有營養(yǎng)均衡、可循環(huán)使用、無污染等優(yōu)點(diǎn),已成為設(shè)施栽培產(chǎn)業(yè)新的研究熱點(diǎn)和發(fā)展趨勢[1-2]。光是光合作用中反應(yīng)能的唯一來源,是影響植物生長發(fā)育最重要的環(huán)境因子之一[3]。由于受到墻體材料的遮擋等因素的影響,設(shè)施水培生產(chǎn)中光照明顯不足,因此面向水培種植的光環(huán)境調(diào)控將成為設(shè)施水培調(diào)控技術(shù)中新的研究熱點(diǎn)。其中,光環(huán)境智能調(diào)控模型可實(shí)現(xiàn)不同條件下光飽和點(diǎn)的動態(tài)獲取,為光環(huán)境高效調(diào)控提供依據(jù),是整個調(diào)控系統(tǒng)的核心。水培種植根溫動態(tài)調(diào)控相較于原有的土壤和基質(zhì)種植形式,成本明顯降低、可行性明顯提高,而且水培中根溫控制對植物光合作用有顯著影響[4]。因此,如何在現(xiàn)有光調(diào)控的基礎(chǔ)上,融合水培根溫等多環(huán)境因素對光合速率的影響,研究面向嵌入式調(diào)控裝備的水培蔬菜光環(huán)境優(yōu)化調(diào)控模型,成為水培技術(shù)發(fā)展中的關(guān)鍵問題。
現(xiàn)有光環(huán)境調(diào)控模型研究主要集中在日光溫室土培作物上。王智永等[5]通過設(shè)計(jì)多因子嵌套試驗(yàn)獲得不同光量子通量密度、CO2濃度、溫度組合條件下的光合速率值,利用支持向量機(jī)算法建立光合速率模型,設(shè)計(jì)基于連續(xù)蟻群尋優(yōu)算法獲取光飽和點(diǎn)并以其為調(diào)控目標(biāo),建立了全范圍溫度、CO2濃度下的光環(huán)境優(yōu)化調(diào)控模型。胡瑾等[6]針對光溫耦合條件下番茄光環(huán)境調(diào)控目標(biāo)值難以快速、精確獲取的問題,在光溫嵌套光合速率試驗(yàn)結(jié)果基礎(chǔ)上,提出了改進(jìn)型魚群算法的光溫耦合尋優(yōu)方法,對不同溫度下光飽和點(diǎn)進(jìn)行快速精準(zhǔn)尋優(yōu),建立了番茄光環(huán)境調(diào)控目標(biāo)值模型。但由于以土培作物為研究對象所建模型均未考慮根溫對光飽和點(diǎn)影響,加之原有模型大多采用非線性回歸方式擬合,在加入根溫影響后模型必然會出現(xiàn)精確度顯著下降、復(fù)雜度明顯上升的問題,故采用原有方法構(gòu)建的模型必然不能滿足需求。隨機(jī)森林算法是Leo Breiman提出的Bagging集成學(xué)習(xí)理論[7]與Tin Kam Ho 提出的隨機(jī)子空間方法[8]相結(jié)合的一種監(jiān)督學(xué)習(xí)算法。它利用bootsrap重抽樣方法從原始樣本中抽取多個樣本并進(jìn)行決策樹建模,再通過組合多棵決策樹的預(yù)測,由投票得出最終預(yù)測結(jié)果[9-10]。隨機(jī)森林回歸算法在一定的樣本含量下,能夠在高維數(shù)據(jù)中有效地分析具有交互作用和非線性關(guān)系的數(shù)據(jù)[11],滿足處理根溫、氣溫、CO2濃度與光飽和點(diǎn)數(shù)據(jù)樣本的需求。且隨機(jī)森林算法作為一種人工智能算法可以實(shí)現(xiàn)對多元數(shù)據(jù)的擬合,具有參數(shù)較少、預(yù)測準(zhǔn)確率高、對異常值和噪聲有很好的穩(wěn)健性、可移植性好且不容易出現(xiàn)過擬合等優(yōu)點(diǎn)。岳繼博等[12]利用隨機(jī)森林算法對冬小麥生物量進(jìn)行了回歸試驗(yàn),探討了利用隨機(jī)森林算法估算冬小麥生物量的最佳方法。李健麗等[13]為監(jiān)測小麥白粉病,基于隨機(jī)森林算法建立模型,提高了大數(shù)據(jù)下的監(jiān)測精度。但是模型中子樹棵數(shù)、特征子集參數(shù)選取等仍存在問題。
本研究在已有光調(diào)控模型研究基礎(chǔ)上,針對水培生菜設(shè)計(jì)多因子嵌套試驗(yàn),建立面向嵌入式控制終端的光調(diào)控目標(biāo)值模型,以期為面向嵌入式系統(tǒng)的光環(huán)境高效精準(zhǔn)調(diào)控提供理論依據(jù)。
試驗(yàn)于2016年9月15日—10月15日在西北農(nóng)林科技大學(xué)北校機(jī)械與電子工程學(xué)院智能農(nóng)業(yè)實(shí)驗(yàn)室進(jìn)行。試驗(yàn)生菜品種為‘波士頓奶油生菜’。植株生長至4、5片真葉時移植于MD1400培養(yǎng)箱(荷蘭sinder公司)內(nèi),進(jìn)行正常的水培栽培管理。營養(yǎng)液采用華南農(nóng)業(yè)大學(xué)葉菜配方A(包括濃縮液A、濃縮液B與徽肥。A液主要成分為四水硝酸鈣、硝酸鉀與硝酸銨,B液主要成分為磷酸二氫鉀、硫酸鉀、七水硫酸鎂,A液與B液按照1∶200分別稀釋后混合,再滴入1∶500濃度稀釋的徽肥,混合而成水培營養(yǎng)液),不噴施任何農(nóng)藥和激素。隨機(jī)選取健康、長勢一致、苗齡一致的長至5、6片真葉的生菜幼苗進(jìn)行試驗(yàn)。
為避免作物午休效應(yīng)影響,選取9:00—11:00和14:00—17:00兩個時間段對植物的各項(xiàng)參數(shù)進(jìn)行測量和獲取。利用美國LI-COR公司生產(chǎn)的LI-6800便攜式光合速率測試儀的不同子模塊設(shè)定測量時所需要的各項(xiàng)環(huán)境參數(shù)。水培試驗(yàn)營養(yǎng)液溫度設(shè)置為13℃、15℃、17℃、21℃、25℃、29℃共6個梯度;葉室溫度控制模塊設(shè)置為15℃、20℃、25℃、30℃共4個梯度;LED光源光強(qiáng)模塊設(shè)置為700μmol(m2·s)、600μmol(m2·s)、550μmol(m2·s)、500μmol(m2·s)、400μmol(m2·s)、300μmol(m2·s)、100μmol(m2·s)、50μmol(m2·s)、20μmol(m2·s)、0 μmol(m2·s)共10個光子通量密度梯度;CO2濃度設(shè)置為400μmolmol、800μmolmol、1 200μmolmol共3個梯度。得到以根溫、氣溫、光量子通量密度、CO2濃度為自變量,凈光合速率為因變量,容量為648的試驗(yàn)樣本集。項(xiàng)目前期利用支持向量機(jī)-量子遺傳算法進(jìn)行光飽和點(diǎn)尋優(yōu),尋優(yōu)模型決定系數(shù)為0.9454,得到以根溫梯度為13℃、15℃、17℃、21℃、25℃、29℃、氣溫梯度為15℃、20℃、25℃、30℃,CO2濃度梯度為400μmolmol、800μmolmol、1 200μmolmol 嵌套下的107組光飽和點(diǎn)值。由圖1可知,在生菜生長過程中,存在適宜的根溫區(qū)間,過低或過高的根溫均對光飽和點(diǎn)存在限制作用;隨著氣溫升高,光飽和點(diǎn)值逐漸升高但增長速率逐漸減緩;CO2濃度增加使得光飽和點(diǎn)值得到提升。
綜上所述,根溫、氣溫、CO2濃度與光飽和點(diǎn)之間存在顯著耦合關(guān)系,故基于隨機(jī)森林算法構(gòu)建模型更適宜。
圖1 光飽和點(diǎn)與根溫、氣溫的關(guān)系圖Fig.1 The relationship between light saturation point and root temperature and air temperature
圖2 基于隨機(jī)森林算法的建模過程Fig.2 Model construction flowchart with random forest algorithm
采用Python scikit-learn 算法包集成方法中的Random Forest Regressor,以根溫、氣溫、CO2濃度為輸入,光飽和點(diǎn)為輸出進(jìn)行光飽和點(diǎn)預(yù)測模型的構(gòu)建。模型構(gòu)建過程主要分為訓(xùn)練集與測試集的選取、特征子集選擇、最優(yōu)決策樹棵數(shù)選取、模型構(gòu)建及驗(yàn)證。具體模型構(gòu)建流程如圖2所示。
基于試驗(yàn)材料與方法部分所述的試驗(yàn)過程及結(jié)論,將試驗(yàn)所獲取的數(shù)據(jù)進(jìn)行分類,以根溫、氣溫,CO2濃度為自變量,光飽和點(diǎn)為因變量的107組試驗(yàn)樣本作為本模型的數(shù)據(jù)源。隨機(jī)選取85組樣本數(shù)據(jù)作為訓(xùn)練集,約占總樣本數(shù)據(jù)的80%。剩余的22組樣本數(shù)據(jù)作為測試集,約占總樣本數(shù)據(jù)的20%。使用bootstrap抽樣方法從訓(xùn)練集中隨機(jī)產(chǎn)生k個子集θ1,θ2,…,θk,,構(gòu)造對應(yīng)的決策樹{T(x,θ1)},{T(x,θ2)},…, {T(x,θk)}。
由于random_state是隨機(jī)數(shù)生成器,n_estimators參數(shù)及max_feature參數(shù)改變對模型預(yù)測結(jié)果的影響將被隨機(jī)性掩蓋。因此,在參數(shù)選擇階段,首先設(shè)定初始尋優(yōu)范圍為random_state∈[250,450]、n_estimators∈[25,500]、max_feature∈[1,2]進(jìn)行網(wǎng)格預(yù)搜索,得到參數(shù)值為random_state為320、n_estimators∈[96,105]、max_feature為2時模型較優(yōu)。再設(shè)定random_state為320,分析模型精度隨max_feature和n_estimators參數(shù)變化趨勢。將特征子集參數(shù)max_feature尋優(yōu)范圍設(shè)定為[1,2]、對數(shù)化處理后的子樹棵數(shù)參數(shù)lg(n_estimators) 尋優(yōu)范圍為[1.982,2.021],選取lg(MSE)為模型評價指標(biāo)作等高線圖,結(jié)果如圖3所示。
圖3 訓(xùn)練樣本均方差隨參數(shù)變化情況圖Fig.3 Variation of mean square error with model parameter for training sample
由圖3可知,當(dāng)max_feature為2時,對于所有n_estimators范圍,模型評價指標(biāo)lg(MSE)均比max_feature為1時好;在max_feature為2時,lg(n_estimators)∈[1.995,2.010]時,lg(MSE)≤1.3,模型精度較高。在此范圍內(nèi)重新進(jìn)行網(wǎng)格搜索,結(jié)果為當(dāng)參數(shù)值random_state為320、max_feature為2、n_estimators為101時,模型均方誤差(MSE)為19.1498、平均絕對誤差(MAE)為2.9396、決定系數(shù)r2為0.9973、程序運(yùn)行時間t為0.1014 s,模型性能最優(yōu)。
隨機(jī)森林算法特征子集與子樹棵數(shù)對模型回歸性能具有顯著影響[14]。通過分析上述參數(shù)在模型建立過程中的意義,對比選取不同參數(shù)時模型誤差、決定系數(shù)及運(yùn)行時間差異來綜合分析不同參數(shù)對模型性能的影響。
光調(diào)控目標(biāo)值模型中需要考慮的特征有根溫、氣溫、CO2濃度3項(xiàng)。為了使模型不被隨機(jī)性影響,此處設(shè)定隨機(jī)數(shù)生成器random_state為整數(shù)320。當(dāng)訓(xùn)練101棵決策樹時,設(shè)定不同特征子集,得到結(jié)果如表1所示。
表1 不同特征子集評價指標(biāo)對比
由表1可以看出,不同特征子集的選擇對于回歸模型性能影響很大,max_feature為2時模型性能明顯更優(yōu),而該參數(shù)對模型運(yùn)行時間沒有影響。通過網(wǎng)格搜索、參考Brieman及多個文獻(xiàn)對于回歸問題的max_feature參數(shù)選取建議[15],選取max_feature參數(shù)為2,即不重復(fù)地隨機(jī)從特征集中選取2個特征,使用選定的特征對決策樹節(jié)點(diǎn)進(jìn)行劃分,結(jié)果表明此時模型性能最優(yōu)?;谝陨嫌?xùn)練決策樹,每棵樹都會產(chǎn)生對應(yīng)的預(yù)測值。而單棵決策樹的預(yù)測通過因變量的觀測值Yi(i=1,2,…,n)的加權(quán)平均得到[16],即:
(1)
其中,ωi(x)為每個觀測值Yi∈(1,2,…,n)的權(quán)重。
隨機(jī)森林算法將所有決策樹預(yù)測的平均值作為最終預(yù)測結(jié)果,因此決策樹的數(shù)量對模型回歸性能具有很大影響。其中,Random Forest Regressor中的n_estimators參數(shù)指定決策樹數(shù)目。對不同決策樹棵數(shù)分別進(jìn)行光調(diào)控目標(biāo)值模型構(gòu)建,計(jì)算模型均方誤差(MSE)、平均絕對誤差(MAE)、決定系數(shù)r2及程序運(yùn)行時間t并進(jìn)行分析比較。選取隨機(jī)數(shù)生成器random_state為整數(shù)320,當(dāng)max_feature參數(shù)為2時,選取子樹棵樹為101時所建模型性能最優(yōu)(表2)。
表2 不同棵數(shù)評價指標(biāo)對比
圖4可知,隨機(jī)森林算法模型受決策樹棵數(shù)影響較明顯,均方誤差(MSE)、平均絕對誤差(MAE)隨著棵數(shù)增加先降低后逐漸趨于平穩(wěn)。同時,決定系數(shù)r2隨子樹棵數(shù)增加而增加后趨于平穩(wěn)。random_state設(shè)定不同可能導(dǎo)致不同結(jié)果,但決策樹棵數(shù)增加將導(dǎo)致模型更加復(fù)雜,使得模型時間、空間開銷增加。
圖4 不同棵數(shù)模型結(jié)果對比Fig.4 Comparsion for different n_estimators on model performance
利用2.1節(jié)剩余22組試驗(yàn)樣本作為測試集進(jìn)行模型精度驗(yàn)證。按圖1步驟完成光飽和點(diǎn)預(yù)測建模并驗(yàn)證,結(jié)果如圖5所示。
圖5 光調(diào)控目標(biāo)值模型驗(yàn)證Fig.5 Verification of the light environment regulation target model
基于隨機(jī)森林算法的光調(diào)控目標(biāo)值模型測試集擬合公式為:
f(x)=0.9617x+11.59
(2)
其中,決定系數(shù)為 0.9955,擬合直線斜率為0.9617,縱軸截距為11.59,均方根誤差為5.677,平均絕對誤差為5.3475,運(yùn)行時間為0.0990s。表明光飽和實(shí)測值與預(yù)測值相關(guān)性高,模型泛化能力強(qiáng),模型具有較高的預(yù)測精度。綜上所述,基于隨機(jī)森林算法的光調(diào)控目標(biāo)值模型可實(shí)現(xiàn)不同環(huán)境參數(shù)下光飽和精準(zhǔn)預(yù)測。
水培作物生長過程中根溫對光合作用存在顯著影響,在已有光調(diào)控的基礎(chǔ)上,本研究設(shè)計(jì)多因子嵌套試驗(yàn)方案,獲得以根溫、氣溫、CO2濃度為自變量,光飽和點(diǎn)為因變量的試驗(yàn)樣本集。項(xiàng)目前期利用支持向量機(jī)-量子遺傳算法獲取不同環(huán)境因子下的光飽和點(diǎn),以此為基礎(chǔ)提出了一種基于隨機(jī)森林算法的面向嵌入式控制終端可高精度移植的光調(diào)控目標(biāo)值模型。
具體結(jié)論如下:(1)在建模過程中,為獲得更好的模型效果,本研究通過網(wǎng)格搜索方法獲得隨機(jī)數(shù)生成器、特征子集及子樹棵樹的最優(yōu)組合為[320,2,101]。通過分析不同參數(shù)對模型回歸性能的影響,獲知特征子集和子樹棵數(shù)的選擇對模型精度具有較大影響,前者對程序運(yùn)行時間無影響,但后者隨著子樹棵數(shù)的增加,程序運(yùn)行時間增加。(2)模型驗(yàn)證結(jié)果表明,模型預(yù)測值與實(shí)測值相關(guān)系數(shù)為0.9955,平均絕對誤差為5.3475。采用隨機(jī)森林算法進(jìn)行水培作物光調(diào)控目標(biāo)值模型構(gòu)建精度較高,為面向嵌入式系統(tǒng)的模型高精度移植提供了一種有效方案。