熊智新 劉耀瑤 王 勇 梁 龍 房桂干
(1.南京林業(yè)大學(xué)江蘇省制漿造紙科學(xué)與技術(shù)重點實驗室,江蘇南京,210037;2.中國林業(yè)科學(xué)研究院林產(chǎn)化學(xué)工業(yè)研究所,江蘇南京,210042)
隨著市場需求的擴大以及林紙一體化的現(xiàn)狀,大型造紙企業(yè)已不局限于使用單一木材品種,而是多采用混合木材制漿[1-2]。在制漿造紙過程中,Klason木質(zhì)素含量的高低直接決定漂白劑的用量[3],但由于混合木材制漿無法保證多種制漿材的混合均勻度,使得整個制漿造紙過程中Klason木質(zhì)素含量不同。因此,針對不同批次、品種各異的制漿材建立統(tǒng)一的分析模型,實現(xiàn)快速、準(zhǔn)確地檢測混合制漿材中Klason木質(zhì)素含量,以便在線調(diào)整漂白劑用量等工藝參數(shù),對保證生產(chǎn)穩(wěn)定具有重要意義[4]。然而傳統(tǒng)的Klason木質(zhì)素濕化學(xué)測量方法較為繁瑣,且所使用的化學(xué)藥品也會造成環(huán)境污染問題[5]。近年來,隨著近紅外技術(shù)的發(fā)展,結(jié)合化學(xué)計量學(xué)建模方法對木材材性進行定量分析的研究逐漸增多[6-9]。在實際生產(chǎn)中,制漿廠原料來源相對穩(wěn)定、材性范圍分布窄,短期內(nèi)難以收集到大量代表性樣品;木材的近紅外光譜表征是多種組分綜合吸收的結(jié)果;在固體狀態(tài)下檢測樣本時,難以保證散射系數(shù)的一致性,也使光譜吸收與某一成分含量之間呈現(xiàn)復(fù)雜的非線性[9];這些都對制漿材近紅外化學(xué)計量學(xué)分析模型的及時修正或維護十分不利。最小二乘支持向量機(Least Square Support Vector Machines, LSSVM) 是 Suykens等[10]在 支 持 向 量 機(Support Vector Machines,SVM)的基礎(chǔ)上提出的。LSSVM在利用結(jié)構(gòu)最小化原理較好解決非線性、高維數(shù)和局部極小的前提下,將約束條件轉(zhuǎn)化為等式約束,大大降低了計算復(fù)雜度,具有建模速度快、泛化能力強、可針對小樣本進行統(tǒng)計學(xué)習(xí)等優(yōu)點,并已廣泛應(yīng)用于近紅外定性定量分析[11-13],但將LSSVM回歸建模應(yīng)用于混合制漿材的近紅外定量分析卻鮮有報道;而高性能的光譜數(shù)據(jù)建模方法,能夠提高光譜預(yù)測精度,也是近紅外光譜分析技術(shù)能夠得到推廣應(yīng)用的關(guān)鍵。本研究利用便攜式近紅外光譜儀,針對5種制漿材原料中Klason木質(zhì)素含量,通過粒子群尋優(yōu)(Particle Swarm Optimization,PSO)算法優(yōu)化LSSVM模型參數(shù)建立PSO-LSSVM預(yù)測模型,并與傳統(tǒng)的偏最小二乘回歸(Partial Least Squares Regression,PLS)和主成分降維后的BP神經(jīng)網(wǎng)絡(luò)(PCA-BPNN)算法進行對比,探討在含有較少制漿材代表性樣本的情況下建立最優(yōu)模型的策略,以促進近紅外光譜分析技術(shù)在混合制漿材材性快速檢測領(lǐng)域中的應(yīng)用。
給定n個建模集樣本{xk,yk}其中,xk∈Rm,為m維建模樣本輸入;yk∈R,為建模樣本輸出。則優(yōu)化問題J(ω,ξ)和約束條件 s.t.y(x) 可以分別表示為:
式中,φ(xk):Rm→Rmh,為輸入空間到高維空間的非線性映射函數(shù);ω∈Rmh,為權(quán)系數(shù)向量;C為正則化參數(shù);b為閾值;ξk∈R,為擬合誤差。引入αk∈Rm(k=1,2,…,n),定義拉格朗日函數(shù)為:
又根據(jù)KKT(Karush-Khun-Tucker)條件得到:
通過KKT條件可列出求解α和b的線性方程組:
式中,P1×n是1×n的單位列向量;Pn×1是n×1的單位行向量;I為n×n的單位陣;K(xk,xl)=φ(xk)Tφ(xl)為滿足Mercer條件的核函數(shù),其中k,l=1,2,…,n;y=運用最小二乘法求得關(guān)于α和b的回歸函數(shù)如下:
核函數(shù)的選擇是決定支持向量機性能的關(guān)鍵,常用的核函數(shù)有:線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)(RBF)、Sigmoid核函數(shù)等。本研究選用RBF函數(shù)為RBF函數(shù)的帶寬。
本研究選用RBF函數(shù),因此LSSVM中需要優(yōu)化的參數(shù)為正則化參數(shù)C和RBF核函數(shù)的帶寬σ。在此,采用PSO算法確定這兩個參數(shù)。
假設(shè)對群體規(guī)模為m的粒子群進行搜索,粒子i在群體中的位置為Xi=(x1,x2,…,xn),運動速度為Vi=(v1,v2,…,vn)。每個粒子都有一個目標(biāo)函數(shù)決定的適應(yīng)度(fitness value)。粒子群初始化為一群位置和速度均隨機的粒子,通過迭代找到最優(yōu)解,在每一次的迭代中,粒子通過跟蹤兩個“最優(yōu)值”來更新自己,一個為個體最優(yōu)值(pbest),是粒子本身找到的最優(yōu)解;另一個為全局最優(yōu)值(gbest),是整個群體目前找到的最優(yōu)解。粒子群更新公式如下:
式中,ω是介于[0,1]間的隨機數(shù);c1和c2是學(xué)習(xí)因子或加速系數(shù)。通過不斷更新粒子,直至滿足迭代結(jié)束條件之后,得到粒子的最優(yōu)位置,即為LSSVM模型對應(yīng)的最優(yōu)正則化參數(shù)C和帶寬σ。PSO算法流程圖如圖1所示。
圖1 PSO算法流程圖
模型建立過程采用校正結(jié)果的相關(guān)系數(shù)(Rc)和校正標(biāo)準(zhǔn)偏差(RMSEC)對模型性能進行評價,以便建立最優(yōu)的校正模型[14];模型建立完成后,通常采用預(yù)測結(jié)果的相關(guān)系數(shù)(Rv)、預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)、真實值與預(yù)測值間的絕對偏差(AD)和相對標(biāo)準(zhǔn)偏差(RPD)等指標(biāo)綜合評價模型的性能。RMSEC、AD和RMSEP越小、Rc和Rv越接近1,則所建模型的穩(wěn)定性與預(yù)測性越好;RPD是用來評價模型精度的指標(biāo),當(dāng)RPD大于3時,表明模型具有較高的預(yù)測精度;當(dāng)RPD<1.75時,則模型不可用[15]。但由于相關(guān)系數(shù)(R)的大小與建模預(yù)測樣品濃度分布范圍相關(guān),當(dāng)建模預(yù)測樣品的濃度分布范圍寬,即使R接近于1,模型預(yù)測效果也較差;反之,若建模預(yù)測樣品的濃度范圍窄,R可能較小,但模型預(yù)測精度卻較高[14]。故R并不能完整地反應(yīng)模型預(yù)測精度,因此實際應(yīng)用中,相關(guān)系數(shù)R需根據(jù)實際情況,結(jié)合RMSEP、AD和RPD綜合評價模型的性能。
采用無錫迅杰光遠(yuǎn)科技有限公司生產(chǎn)的IAS-2000系列便捷式近紅外光譜儀,儀器核心部件為基于微機電系統(tǒng)(Micro-Electro-Mechanical System,MEMS)技術(shù)生產(chǎn)的數(shù)字微鏡器件(Digital Mirror Device,DMD)光柵分光系統(tǒng)。儀器基本參數(shù)如下:光柵規(guī)格為300刻線,DMD掃描寬度12.87 nm,波長范圍900~1700 nm,分辨率10 nm,InGaAs探測器。
5種常見制漿材(松木、杉木、相思木、桉木和楊木)由中國林業(yè)科學(xué)研究院林產(chǎn)化學(xué)工業(yè)研究所提供,共計82個原木樣品。將原木樣品切削成木片并磨碎,然后選取40~60目的木粉樣品在近紅外光譜儀上采集光譜。采集樣品光譜時,將樣品放入測量杯中以200 g砝碼壓平以使其分布均勻且需保持固定的高度,每個樣品重復(fù)裝樣6次進行測定以獲得平均光譜。每掃描完一個樣品,用毛刷去除樣品杯中的殘留木粉,以免影響后續(xù)樣品光譜的準(zhǔn)確性。
按照GB/T 2677.8—1994進行制漿材Klason木質(zhì)素的測定。用質(zhì)量分?jǐn)?shù)為(72±0.1)%的硫酸水解制漿材樣品(樣品已經(jīng)過苯醇混合液抽提),然后依次測得所有制漿材樣品水解殘余物(即制漿材的Klason木質(zhì)素)的質(zhì)量,測量結(jié)果如表1所示。由表1可知,82個制漿材樣品Klason木質(zhì)素的含量分布范圍為14.82%~34.20%,平均值為26.43%,標(biāo)準(zhǔn)差達(dá)到5.39%。由此可知,82個樣品分布范圍較廣,具有良好的代表性,有利于建立更準(zhǔn)確、更穩(wěn)定的預(yù)測模型。
表1 5種制漿材樣品Klason木質(zhì)素含量分布
本研究采用NIRSA 4.5系統(tǒng)以及Matlab2010a軟件平臺。NIRSA4.5系統(tǒng)是本實驗室自主研發(fā)的專門用于近紅外光譜數(shù)據(jù)處理的化學(xué)計量學(xué)軟件(計算機軟件著作權(quán)登記號2007SR06801),主要用于近紅外光譜預(yù)處理、樣品集的劃分以及PLS算法和PCA-BPNN算法建模;Matlab2010a平臺則主要用于PSO算法確定系統(tǒng)最優(yōu)參數(shù)以及LSSVM算法建模的程序編制。
用于建立模型的樣品是否具有較強代表性對于所建模型的可靠性具有重要影響,目前常用的建模集樣品選取的方式有含量梯度法、Duplex法、Kennard-Stone(K-S) 法[16]和 SPXY 算法[17]。為建立較廣適用性的常用制漿材Klason木質(zhì)素含量的預(yù)測模型,本研究采用SPXY算法選擇62個樣品作為建模集,剩余20個樣品作為預(yù)測集,經(jīng)部分調(diào)整使兩個集合中都含有5種制漿材。
近紅外光譜儀所采集的光譜除樣品自身信息外,還包含了其他無關(guān)信息和噪聲。因此,在用化學(xué)計量學(xué)方法建模時,消除光譜數(shù)據(jù)中無關(guān)信息和噪聲的預(yù)處理方法變得十分關(guān)鍵[18]。合理的預(yù)處理方式可以有效地過濾近紅外光譜中的噪聲信息,保留有效信息,從而降低近紅外定量模型的復(fù)雜度,提高近紅外模型的穩(wěn)健性。目前,常用的近紅外光譜預(yù)處理方法主要有微分、平滑、多元散射校正(Multiplication Scatter Correction,MSC)、和標(biāo)準(zhǔn)正態(tài)變量變換(Standard Normal Variate Correction,SNV) 等[19]。本研究對樣品集的光譜進行一階微分(First Derivative,1st)、平滑(移動平均平滑(MA)和Savitzky-Golay卷積平滑(SG))、MSC以及SNV預(yù)處理后,再進行PLS回歸,結(jié)果如表2所示。
由表2可知,原始光譜經(jīng)MSC方法預(yù)處理后,模型預(yù)測相關(guān)系數(shù)Rv達(dá)到0.9811,RMSEP最小,為1.0265,RPD最大,為4.1030。綜合3個評價指標(biāo)分析可知,經(jīng)MSC預(yù)處理后建立的PLS模型預(yù)測精度較另外4種預(yù)處理方法更優(yōu)。近紅外漫反射光譜(Near-Infrared Diffuse Reflectance Spectroscopy Analysis,NIRDRSA)技術(shù)是實現(xiàn)粉末狀固體樣品無損快速檢測的常用技術(shù),但是利用該技術(shù)需以樣品散射系數(shù)S的一致性作為前提,而散射系數(shù)S主要受樣品的粒徑及其分布均勻程度等物理因素影響。樣品的粒度越大,粒徑分布越不均勻,散射系數(shù)S的不一致程度也越大,由此導(dǎo)致的誤差也越大[20]。而MSC算法則能夠減少各種因素導(dǎo)致的散射系數(shù)S差異對光譜測量的影響[19],提高近紅外校正模型的精度。因此,本研究選取預(yù)測性能最好的MSC對制漿材樣品的原始近紅外光譜進行預(yù)處理。
表2 不同預(yù)處理方法下的PLS建模結(jié)果
3.2.1 PLS近紅外光譜分析模型的建立
在PLS建模中,隨著主成分?jǐn)?shù)的增多,載荷向量對建模的重要程度逐漸降低,到一定程度后,載荷向量將變成模型的噪聲,因此選擇合適的主成分?jǐn)?shù)顯得尤為重要。本研究選定最大主成分?jǐn)?shù)為15,并采用留一法交叉驗證來選取預(yù)測殘差平方和(PRESS)最小的主成分?jǐn)?shù)作為最終的主成分?jǐn)?shù)。圖2顯示制漿材Klason木質(zhì)素建模集PRESS值隨主成分?jǐn)?shù)的變化,當(dāng)主成分?jǐn)?shù)≥11時,PRESS值趨于穩(wěn)定。因此,選取11個主成分建立PLS近紅外光譜分析模型,對預(yù)測集進行預(yù)測分析。PLS模型實測值和預(yù)測值散點分布結(jié)果如圖3所示。
3.2.2 PCA-BPNN近紅外光譜分析模型的建立
在PCA-BPNN建模方法中,采用PCA的得分作為BPNN的輸入變量,這樣不僅大大降低訓(xùn)練時間,減小網(wǎng)絡(luò)規(guī)模,而且可在幾乎不丟失光譜信息的前提下剔除噪聲[21]。
圖2 建模集PRESS隨主成分?jǐn)?shù)的變化
圖3 PLS模型實測值-預(yù)測值散點圖
圖4 PCA-BPNN模型實測值-預(yù)測值散點圖
建立一個3層的BPNN網(wǎng)絡(luò)。首先對光譜進行主成分分析,根據(jù)方差份額低于0.25%的標(biāo)準(zhǔn)[22]提取前7個成分作為BPNN的輸入變量;然后根據(jù)經(jīng)驗公式[23]確定隱含層單元數(shù)的范圍為6~12,在范圍內(nèi)經(jīng)過多次試驗確定最佳隱含層單元數(shù)為8。建立一個(7,8,1)網(wǎng)絡(luò)結(jié)構(gòu)的PCA-BPNN近紅外光譜分析模型,對預(yù)測集進行預(yù)測分析,模型實測值-預(yù)測值散點分布結(jié)果如圖4所示。
3.2.3 PSO-LSSVM近紅外光譜分析模型的建立
LSSVM建模過程中,RBF核函數(shù)的帶寬σ和正則化參數(shù)C的選擇直接影響到模型的學(xué)習(xí)和泛化能力,如果σ過小則會產(chǎn)生過學(xué)習(xí)現(xiàn)象;如果σ過大則會造成欠學(xué)習(xí)現(xiàn)象[24]。
本研究采用PSO算法對LSSVM模型的參數(shù)進行優(yōu)化,PSO算法參數(shù)設(shè)置為:c1=c2=1.5、ω=0.5、初始粒子數(shù)為70、最大迭代次數(shù)為300。通過對訓(xùn)練數(shù)據(jù)的學(xué)習(xí)及PSO算法對LSSVM模型參數(shù)的優(yōu)化調(diào)整,得到LSSVM模型對制漿材Klason木質(zhì)素進行預(yù)測的最優(yōu)參數(shù)為σ=106.4、C=757.8;PSO-LSSVM模型實測值-預(yù)測值散點分布結(jié)果如圖5所示。
圖5 PSO-LSSVM模型實測值-預(yù)測值散點圖
對經(jīng)過預(yù)處理后的光譜分別建立PLS、PCABPNN和PSO-LSSVM模型,各模型對制漿材Klason木質(zhì)素含量的預(yù)測結(jié)果如表3所示。
由表3可知,對相同光譜數(shù)據(jù)的制漿材Klason木質(zhì)素含量進行預(yù)測,PSO-LSSVM模型的預(yù)測效果優(yōu)于PLS模型和PCA-BPNN模型。在建模樣本的回歸擬合度和精度方面,PSO-LSSVM模型的校正相關(guān)系數(shù)Rc最大,可達(dá)0.9966,校正標(biāo)準(zhǔn)偏差RMSEC最小,為0.4412%,效果最佳,表明PSO-LSSVM模型對于建模集樣本具有較高的回歸精度,擬合能力較強,能夠通過已有的數(shù)據(jù)達(dá)到較高的訓(xùn)練程度,預(yù)測結(jié)果接近建模集樣本的真實值;而PLS模型校正相關(guān)系數(shù)Rc最小,校正標(biāo)準(zhǔn)偏差RMSEC最大,在3種建模方法中表現(xiàn)最差,表明制漿材Klason木質(zhì)素含量的近紅外分析模型的校正過程中,非線性方法(BPNN和LSSVM)的訓(xùn)練能力要優(yōu)于線性方法(PLS)。模型對預(yù)測集樣本的回歸擬合度和精度反映了模型對于預(yù)測集樣本的預(yù)測能力,是衡量模型性能最重要的指標(biāo)。比較3種建模方法的預(yù)測結(jié)果,PSO-LSSVM模型的預(yù)測相關(guān)系數(shù)Rv最大,為0.9857;預(yù)測標(biāo)準(zhǔn)偏差RMSEP最小,為0.7498%,比PLS模型和PCA-BPNN模型分別降低0.2767%和0.1455%;真實值與預(yù)測值間的絕對偏差A(yù)D范圍在3個模型中最小,為0.0065%~1.8449%;相對標(biāo)準(zhǔn)偏差RPD最大,為5.6174,比PLS模型和PCA-BPNN模型分別提高1.5144和0.9138。
通過以上各個指標(biāo)綜合評價可知,相對于PLS模型和PCA-BPNN模型,PSO-LSSVM模型的預(yù)測精度有較為明顯的提高,PSO-LSSVM模型能夠?qū)︻A(yù)測集做出精確的預(yù)測,在3種建模預(yù)測效果中表現(xiàn)最佳;其原因可從多方面分析:存在于制漿材木粉中的Klason木質(zhì)素,其復(fù)雜的物理空間結(jié)構(gòu)及化學(xué)存在狀態(tài)導(dǎo)致其光譜吸收的復(fù)雜性,而NIRDRSA分析技術(shù)中的漫反射吸光度與被測對象含量(如Klason木質(zhì)素)的線性關(guān)系只有在散射系數(shù)保持不變、樣品的粒度合適,以及透射、規(guī)則反射光和儀器光譜特性影響可以忽略不計等各條件均滿足時才能成立[25]。盡管MSC預(yù)處理方法能夠消除部分會導(dǎo)致散射系數(shù)不一致的影響因素,但為了直接利用木粉樣品實現(xiàn)快速無損檢測,其樣品制備和測量條件很難保證嚴(yán)格的規(guī)范性,使得漫反射吸光度和Klason木質(zhì)素濃度必然偏離線性關(guān)系。同時制漿造紙廠木片原料的物理化學(xué)性狀相對穩(wěn)定,其中的化學(xué)組分含量分布范圍也較窄,因此難以收集到足夠數(shù)量的代表性樣品。PLS方法雖然采用了非線性迭代偏最小二乘算法提取與Klason木質(zhì)素相關(guān)的潛變量建立回歸模型,但本質(zhì)上仍是一種線性建模方法。本研究中每個木粉樣品經(jīng)光譜測量后,可同時獲得700個波長處的吸光度,建模集光譜對應(yīng)為62×700的高維矩陣,通過PCA對該高維矩陣降維,可以簡化后續(xù)BP人工神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)以及計算復(fù)雜度,且是一種非線性建模方法;但人工神經(jīng)網(wǎng)絡(luò)需要大量的樣本進行訓(xùn)練,才能較好地使網(wǎng)絡(luò)神經(jīng)元之間的連接權(quán)重充分表達(dá)Klason木質(zhì)素和木粉近紅外光譜之間復(fù)雜的非線性關(guān)系。當(dāng)代表性木材樣本有限時,PCA-BPNN建立的模型精度及其穩(wěn)定性將大大降低。因此,利用LSSVM算法更利于發(fā)揮SVM在解決小樣本、非線性及高維數(shù)據(jù)分析中的許多獨特優(yōu)勢,再結(jié)合PSO方法,又可在全局范圍內(nèi)自動優(yōu)化LSSVM模型中的參數(shù),避免建模中的主觀因素,從而獲得最佳模型。
表3 不同模型對制漿材Klason木質(zhì)素含量的預(yù)測結(jié)果
為優(yōu)化混合制漿材中Klason木質(zhì)素含量的近紅外預(yù)測模型,首次嘗試將粒子群尋優(yōu)-最小二乘支持向量機(PSO-LSSVM)算法用于制漿材Klason木質(zhì)素含量的測定分析,并對比了線性建模方法偏最小二乘(PLS)以及非線性建模方法主成分降維后的BP神經(jīng)網(wǎng)絡(luò)(PCA-BPNN)和PSO-LSSVM 3種模型,主要結(jié)論如下。
(1)由于所測混合制漿材為木粉樣品,因此裝填密度、粒徑分布及其均勻性在測試過程中不易控制,近紅外漫反射時散射系數(shù)S一致性難以保證,導(dǎo)致光譜測量誤差,通過多元散射校正(MSC)預(yù)處理可以部分消除此誤差,有效地增強了與Klason木質(zhì)素組分相關(guān)的光譜信息,提高了Klason木質(zhì)素近紅外分析模型的精度。
(2)與PLS算法及PCA-BPNN算法相比,PSOLSSVM算法建模后的預(yù)測效果最好;其優(yōu)點在于既可以充分利用有限的代表性制漿材樣品,基于光譜和Klason木質(zhì)素含量測得的數(shù)據(jù),從該非線性高維模式空間中提取分析信息,又可利用PSO算法自動優(yōu)化模型參數(shù),簡化建模過程,提高模型精度。
(3)本研究采用近紅外光譜儀器的全部波段,在進行PSO算法優(yōu)化尋優(yōu)時,所用時間較長,不利于制漿材Klason木質(zhì)素含量的快速建模分析,因此未來研究中可以考慮通過降維處理或波長選擇方法來減少LSSVM的輸入變量,以提高建模的速度。