姚 燕,沈曉敏,邱 倩,王 晶,蔡晉輝,曾九孫,梁曉瑜
中國(guó)計(jì)量大學(xué)計(jì)量測(cè)試工程學(xué)院,浙江 杭州 310018
厭氧發(fā)酵工藝中,生化產(chǎn)甲烷潛力(biochemical methane potential,BMP)是一項(xiàng)重要的測(cè)試指標(biāo)。BMP是指單位有機(jī)物料在厭氧條件下發(fā)酵產(chǎn)生甲烷氣體的能力,通過(guò)BMP測(cè)試可以了解有機(jī)廢棄物的生物降解性能和產(chǎn)氣潛力,從而衡量發(fā)酵效率和過(guò)程穩(wěn)定性、評(píng)估厭氧發(fā)酵工程投資收益[1]。傳統(tǒng)測(cè)量有機(jī)廢棄物BMP的方法是在BMP測(cè)試儀器上將原料厭氧發(fā)酵一定時(shí)間,得到發(fā)酵期間的產(chǎn)氣量[2]。目前得到商化儀的BMP自動(dòng)測(cè)試設(shè)備有瑞典碧普公司AMPTS全自動(dòng)甲烷潛力測(cè)試設(shè)備、德國(guó)WTW公司生產(chǎn)的OxiTop測(cè)試設(shè)備等。這些測(cè)試設(shè)備具有良好的準(zhǔn)確性,但測(cè)試周期長(zhǎng)、成本高、僅適用于事前分析,不適用于大批量實(shí)驗(yàn)。近紅外光譜技術(shù)預(yù)測(cè)有機(jī)廢棄物BMP的方法[3],可以實(shí)現(xiàn)快速、準(zhǔn)確的測(cè)定,這在監(jiān)控厭氧發(fā)酵狀態(tài)以及指導(dǎo)厭氧發(fā)酵系統(tǒng)運(yùn)行具有重要的意義。利用近紅外光譜法測(cè)定有機(jī)廢棄物BMP[4]的主要思想是通過(guò)近紅外光譜儀掃描樣本,將樣本內(nèi)部信息以光譜圖的形式表現(xiàn)出來(lái),通過(guò)建立近紅外光譜定量分析模型預(yù)測(cè)樣本BMP。還對(duì)光譜進(jìn)行波段篩選以及算法優(yōu)化,有效提高了有機(jī)廢棄物生化甲烷潛力預(yù)測(cè)模型的準(zhǔn)確度。
實(shí)驗(yàn)樣本選用中國(guó)東部、南部等地收集的水生植物及能源藻類植物,主要來(lái)源于公園、溝渠、海洋等地。樣品制備:將采集到的水生植物和能源藻類樣本放置于數(shù)顯式101A-2工業(yè)電熱恒溫鼓風(fēng)干燥箱,干燥溫度設(shè)置為60 ℃,干燥時(shí)間為6 h。通過(guò)YB-600A型粉碎機(jī)研磨成粉末狀,通過(guò)100目樣本篩篩成顆粒大小均勻的粉末樣本。根據(jù)Triolo的研究[5],干燥過(guò)程在60 ℃下研磨不會(huì)影響B(tài)MP和其他沼氣生產(chǎn)特性。將干燥后的樣本迅速放入樣本袋中進(jìn)行標(biāo)號(hào),放入干燥皿密封避光保存。實(shí)驗(yàn)共制備64個(gè)樣本,隨機(jī)選取其中的54個(gè)樣本作為校正集,10個(gè)樣本作為預(yù)測(cè)集。
自行搭建實(shí)驗(yàn)平臺(tái),該平臺(tái)及簡(jiǎn)圖如圖1所示。實(shí)驗(yàn)中所用的接種物來(lái)自杭州市七格污水處理廠,底物為64種已制備的粉末樣本。將接種物和底物按5∶1的比率加至500 mL發(fā)酵瓶,在中溫條件(37 ℃)條件下進(jìn)行發(fā)酵,不再產(chǎn)氣時(shí)視為發(fā)酵終止。實(shí)驗(yàn)每批為期30 d,每隔兩天記錄一次排水量,發(fā)酵總歷時(shí)4個(gè)月。實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)組和空白對(duì)照組(無(wú)底物)。
圖1 BMP基礎(chǔ)數(shù)據(jù)測(cè)定實(shí)驗(yàn)系統(tǒng)示意圖Fig.1 Schematic diagram of BMP basic data measurement experiment system
利用美國(guó)Thermo Fisher Scientific公司生產(chǎn)的Nicolet系列NEXUS670型號(hào)的傅里葉變換近紅外光譜儀掃描樣本得到近紅外光譜,用樣品勺取出少量粉末狀樣本使其均勻的覆蓋在光譜儀操作臺(tái)的石英片上,光譜儀的掃描方式為漫反射,測(cè)量范圍806~2 500 nm,分辨率設(shè)為16 cm-1,掃描次數(shù)32次。每個(gè)樣本采集光譜5次,取5次平均值作為最終實(shí)驗(yàn)數(shù)據(jù),以減少隨機(jī)誤差造成的影響。實(shí)驗(yàn)全程在室溫下進(jìn)行,環(huán)境濕度為50%。
1.4.1 遺傳算法
遺傳算法(GA)模擬了遺傳選擇和自然淘汰的生物進(jìn)化過(guò)程計(jì)算模型,是一種具有“生存+檢測(cè)”的迭代過(guò)程的搜索算法,可用于建立校正模型前的波長(zhǎng)優(yōu)選[6],減少建模波長(zhǎng)數(shù)據(jù),提高預(yù)測(cè)精度,主要包括編碼、初始群體生成、適應(yīng)性函數(shù)設(shè)定、復(fù)制、交叉、變異等六個(gè)主要步驟[7]。
1.4.2 支持向量回歸
支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和最小化結(jié)構(gòu)風(fēng)險(xiǎn)基礎(chǔ)上的一種數(shù)據(jù)挖掘方法[8],它根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間找到一個(gè)最佳平衡點(diǎn),以獲得模型最好的推廣能力和適應(yīng)能力[9]。研究中利用遺傳算法選取的特征波長(zhǎng)作為輸入向量,建立支持向量回歸預(yù)測(cè)模型。
64個(gè)樣品產(chǎn)氣量如圖2所示。從圖2中可以看出,64個(gè)水生植物和能源藻類樣品在30天產(chǎn)氣周期里,產(chǎn)氣量范圍為615~1 428 mL,多數(shù)樣本產(chǎn)氣量在800 mL上下浮動(dòng)。其中以64號(hào)樣本紅藻和63號(hào)樣本馬尾藻產(chǎn)氣量最多,1號(hào)樣本羊棲菜產(chǎn)氣量最少。根據(jù)Bryant提出的厭氧降解過(guò)程的四階段原理,碳水化合物經(jīng)過(guò)4個(gè)階段的化學(xué)反應(yīng),產(chǎn)出甲烷和二氧化碳,樣本的生化產(chǎn)甲烷潛力與碳水化合物的含量成正比。實(shí)驗(yàn)測(cè)得的樣本碳水化合物含量與BMP產(chǎn)氣量關(guān)系如圖3所示,BMP產(chǎn)氣量大體上隨碳水化合物含量減少而減少,本研究所得到的實(shí)驗(yàn)數(shù)據(jù)基本與理論重合。實(shí)驗(yàn)中存在個(gè)別樣本如8號(hào)、32號(hào)、35號(hào)、44號(hào)等碳水化合物含量相對(duì)較高,BMP相對(duì)較低的情況,經(jīng)驗(yàn)證得知,該情況的出現(xiàn)可能與這幾種樣本內(nèi)在的特殊成分有關(guān)。
圖2 64個(gè)有機(jī)廢棄物樣本實(shí)際甲烷產(chǎn)氣量Fig.2 The actual methane gas production of 64 organic waste samples
圖4為64個(gè)廢棄物原始近紅外光譜圖。圖中顯示,樣本的吸收峰出現(xiàn)的范圍900~1 500和1 800~2 300 nm,其吸光度隨波長(zhǎng)的增加而增加。1 000,1 200和1 500 nm附近的C—H,N—H和O—H的倍頻吸收帶以及2 000和2 100 nm附近的N—H和O—H倍頻吸收帶均可見(jiàn),這些吸收峰反映了樣本中C—H,N—H和O—H等含氫基團(tuán)的信息,樣本的主要成分如蛋白質(zhì)、碳水化合物等均含有這些含氫基團(tuán),選擇的樣本具有代表性。
圖3 碳水化合物含量與產(chǎn)甲烷潛力關(guān)系Fig.3 The connection between carbohydrate content and gas production
圖4 64個(gè)有機(jī)廢棄物樣本原始近紅外光譜圖Fig.4 Original near infrared spectroscopy of 64 organic waste samples
由于本實(shí)驗(yàn)直接采集樣本光譜,存在信號(hào)噪聲、信號(hào)干擾等問(wèn)題,因此需要對(duì)樣本原始近紅外光譜進(jìn)行預(yù)處理,減弱或消除各種非目標(biāo)因素對(duì)光譜信號(hào)的影響。有研究表明,在建立定量分析模型前,通過(guò)正交的方法,可將與樣本無(wú)關(guān)的信息剔除,提高模型預(yù)測(cè)精度;同時(shí)還可以減少建模所需要的主因子數(shù),進(jìn)一步簡(jiǎn)化模型[10]。在眾多消噪的方法中,選擇利用正交信號(hào)校正(orthogonal signal correction,OSC)進(jìn)行濾除干擾信號(hào)。實(shí)驗(yàn)選擇非線性迭代偏最小二乘(NIPALS)、類主成分分析(類PCA)和直接正交信號(hào)校正(DOSC)三種常用的正交信號(hào)校正算法分析,對(duì)校正后的光譜建立PLS模型,其結(jié)果如表1所示。
在表1中可以看出,與未經(jīng)預(yù)處理的模型預(yù)測(cè)結(jié)果相比,經(jīng)過(guò)預(yù)處理后的模型預(yù)測(cè)結(jié)果顯著提高,說(shuō)明預(yù)處理能夠有效提高模型預(yù)測(cè)效果和穩(wěn)定性。在正交信號(hào)校正的三種算法中,NIPALS算法最佳,與不經(jīng)過(guò)消噪處理的結(jié)果相比,預(yù)測(cè)均方根誤差RMSEP減少了16.33 mL,相關(guān)系數(shù)提高了0.15。
表1 光譜預(yù)處理校正后的模型預(yù)測(cè)結(jié)果Table 1 Model prediction results after spectral preprocessing correction
為了簡(jiǎn)化模型數(shù)據(jù),降低近紅外光譜區(qū)域內(nèi)的冗余信息,提高模型預(yù)測(cè)精度,采用特征波長(zhǎng)選取方法GA-SVM波長(zhǎng)篩選算法選取近紅外原始光譜特征波段,與全波段范圍內(nèi)建立的PCR、PLS及RPLS模型進(jìn)行比較,通過(guò)比較交互驗(yàn)證均方根差(RMSECV)、預(yù)測(cè)均方根誤差(RMSEP)、相關(guān)系數(shù)(R2)、相對(duì)分析誤差(RPD)等模型評(píng)價(jià)參數(shù)來(lái)探討GA-SVM方法的性質(zhì)特點(diǎn)。
按照遺傳算法波長(zhǎng)篩選步驟,將原始光譜譜區(qū)806~2 500 nm包含的2 179個(gè)光譜數(shù)據(jù)分為30個(gè)子區(qū)間,即染色體長(zhǎng)度為30。遺傳算法的各參數(shù)設(shè)定如下:種群大小為54個(gè),最大繁殖代數(shù)為200,交叉概率為0.85,變異概率為0.05,適應(yīng)度函數(shù)為f=RMSECV。
當(dāng)前RMSECV最小值隨遺傳代數(shù)變化趨勢(shì)如圖5所示,當(dāng)遺傳代數(shù)達(dá)到140后,RMSECV基本不再減小,曲線趨于平坦,這時(shí)已經(jīng)搜索到最優(yōu)解。由此挑選出了1 404個(gè)波長(zhǎng)點(diǎn)以及三個(gè)特征波段,如表2所示,與原始2 179個(gè)波長(zhǎng)點(diǎn)相比簡(jiǎn)化了數(shù)據(jù)規(guī)模。
圖5 RMSECV與遺傳代數(shù)關(guān)系圖Fig.5 The connection between RMSECV and Genetic algebra
表2 遺傳算法篩選波段及波長(zhǎng)點(diǎn)Table 2 The characteristic bands and characteristic wavelength points selected by GA
在選取的特征波段上建立支持向量機(jī)回歸模型,利用遺傳算法選取的1 404個(gè)波長(zhǎng)點(diǎn)作為SVM建模的輸入量,采用RBF核函數(shù),選擇懲罰系數(shù)C=1 000,核函數(shù)的寬度參量γ=0.5的條件下,GA-SVM模型的預(yù)測(cè)結(jié)果如圖6所示。將該GA-SVM建模實(shí)驗(yàn)結(jié)果與原始波長(zhǎng)下的PCR,PLS和RPLS三種建模方法進(jìn)行比較,如表3所示。
圖6 GA-SVM模型預(yù)測(cè)結(jié)果圖Fig.6 The prediction results of GA-SVM model
結(jié)合圖6和表3分析發(fā)現(xiàn),在全波譜范圍內(nèi),PCR和PLS模型的預(yù)測(cè)精度較低,且這兩種預(yù)測(cè)模型的RPD均小于2.5,說(shuō)明模型的預(yù)測(cè)效果較差,難以進(jìn)行定量分析。
表3 PCR,PLS,RPLS和GA-SVM預(yù)測(cè)結(jié)果比較分析Table 3 The prediction results of PCR,PLS, RPLS and GA-SVM
RPLS的模型預(yù)測(cè)的準(zhǔn)確性有所提高,R2為0.88,RPD為2.71,但是提高精度有限,仍需進(jìn)一步改善。
相比在全譜區(qū)范圍建模,運(yùn)用GA-SVM選擇特征波長(zhǎng)建模后,模型的預(yù)測(cè)精度得到很大提高,RMSEP從RPLS的43.04 mL下降到16.61 mL,R2由RPLS的0.88提高到0.93,同時(shí)模型的波長(zhǎng)點(diǎn)數(shù)由2 179下降到1 404,模型數(shù)據(jù)得到簡(jiǎn)化。雖然GA-SVM預(yù)測(cè)模型的復(fù)雜程度有所加深,但是模型的RPD值達(dá)到6.56,表明GA-SVM模型預(yù)測(cè)精度有明顯提高,模型預(yù)測(cè)效果良好,可用于實(shí)際檢測(cè)。
綜合評(píng)價(jià)四種方法所建模型的預(yù)測(cè)能力,在提取的特征波段上建立預(yù)測(cè)模型可以有效地提高模型預(yù)測(cè)精度,GA-SVM所建模型各評(píng)價(jià)指標(biāo)均優(yōu)于RPLS,可見(jiàn)遺傳算法對(duì)于提取水生植物和能源藻類有效的BMP近紅外光譜信息具有良好的效果,利用支持向量機(jī)建模大幅提高了預(yù)測(cè)精度和模型穩(wěn)定性,預(yù)測(cè)效果良好。
通過(guò)遺傳算法(GA)和支持向量機(jī)(SVM)對(duì)水生植物和能源藻類生物質(zhì)的近紅外光譜進(jìn)行特征譜區(qū)和特征波長(zhǎng)的選取。結(jié)果發(fā)現(xiàn),與全譜區(qū)建立模型相比,GA-SVM算法能夠提取具有代表性的特征波段從而簡(jiǎn)化了模型數(shù)據(jù),較全譜區(qū)建模具有較高的BMP模型預(yù)測(cè)精度,兩者的結(jié)合有效提高了運(yùn)算效率和模型精度,最終建立的水生植物和能源藻類生物質(zhì)的近紅外光譜模型預(yù)測(cè)生化產(chǎn)甲烷潛力(BMP)的能力和精度更高。