,
(曲靖師范學院 化學與環(huán)境科學學院, 曲靖 655011)
目前,煤的工業(yè)生產常需要進行實時分析,用以滿足生產參數調整、事故分析等[1]。傳統(tǒng)分析方法繁瑣、耗時,難以滿足需求。近紅外光譜包含O-H、N-H、C-H、S-H等化學鍵的合頻及倍頻吸收,具有快速、無損等特點[2]。文獻[3]報道可以從近紅外光譜挖掘煤品質的信息,如水分、相關的揮發(fā)性物質、氧等。最近,近紅外光譜技術開始用于煤的分類、水分、灰分、揮發(fā)分、含硫量、固定碳、發(fā)熱量等檢測[4-5]。
由于近紅外光譜信號嚴重重疊,常需要計量學方法進行解析。偏最小二乘法(PLS)作為一種多元校正模型,常用于解析近紅外光譜[2,6-7]。PLS可以結合變量篩選方法提高模型的預測能力和穩(wěn)健性[8],如間隔法[9]、無信息變量消除法[10]、競爭自適應重加權采樣法(CARS)及其改進方法[11-12]、移動窗口法[13-14]等。間隔偏最小二乘法(iPLS)將整個光譜分割成多個等寬子區(qū)間,根據誤差篩選區(qū)間。CARS模仿進化論中“適者生存”原則,對變量逐步淘汰,具有很高的計算效率。
CARS間隔偏最小二乘回歸法(CARSiPLS),首先對光譜進行分區(qū),在每個區(qū)間進行變量篩選,重復分區(qū)和變量篩選過程,提高變量篩選效率。本工作將CARSiPLS用于煙煤中水分、揮發(fā)分的近紅外光譜測定。
收集100個煙煤樣本,將煤樣粉碎,過0.180 mm篩。
水分測定采用快速熱重分析[15],每個樣品平行測定3次,以平均值作為水分含量。水分的最高含量、最低含量和平均含量分別為0.063 4%,0.007 5%,0.024 6%。揮發(fā)分的測定采用重量法(GB/T 212-2008煤的工業(yè)分析方法),得最高含量、最低含量和平均含量分別為0.374 4%,0.114 3%,0.259 4%。
采用Thermo Antaris Ⅱ傅里葉變換近紅外光譜儀,采集煙煤樣品近紅外漫反射光譜,波數范圍4 000~10 000 cm-1,分辨率8 cm-1,掃描次數64。
CARSiPLS對光譜重復進行分區(qū)策略和CARS[9,16]變量篩選,每次從各區(qū)間篩選出PLS回歸系數權重大的點,去掉權重小的點。整合各區(qū)間篩選出的變量,利用校正樣本集計算模型訓練平均絕對百分誤差(MAPE)。選擇最低MAPE對應的波長組合。從統(tǒng)計學角度出發(fā),變量數過少易造成欠擬合,變量數過多易造成過擬合。為了避免變量過分消除,出現欠擬合現象,限制最終篩選出的變量數不少于5倍PLS建模主成分數。具體步驟如下:
1) 光譜矩陣X(m×n)為全部光譜矩陣,m為樣本數,n為變量數。Y(m×1)為目標變量矩陣。為了保證樣本選擇的無偏性,按照目標變量的分布選擇訓練樣本集、校正樣本集和預測樣本集。訓練樣本集用于建立PLS模型,校正樣本集用于判斷CARS變量篩選結果,預測樣本集用于檢驗CARS篩選出變量的準確性。按照揮發(fā)分含量從低到高排序,從第40號到58號樣本,每隔一個選取為預測樣本集,所構成的預測樣本集(pX)包含10個樣本;從第30號到38號樣本和第60號到68號樣本,每隔一個選擇為校正樣本集,所構成的校正樣本集(xX),包含10個樣本;其余樣本作為訓練樣本集,所構成的訓練樣本集(tX)包含80個樣本。水分和揮發(fā)分采用同樣的集合劃分。
2) 將訓練集和校正集的整條光譜分為nn個nw寬區(qū)間,若變量數小于nw,以變量數為準。
3) 每個區(qū)間建立PLS模型,得到回歸系數bi(nn×1),按式(1)計算每個波長的權重wi。
i=1,2,3…,nn(1)
將wi從大到小排序,存儲于Wi,按式(2)計算各波長的累計權重sWi。
i=1,2,3,…,nn(2)
4) 刪除累計權重超過閾值(per)的波長。
5) 將各區(qū)間篩選出的波長重新組合成新光譜訓練集ntX和相應的校正集nxX,計算MAPE。
6) 重復步驟2~5,直至變量數少于PLS建模主成分個數。
7) 將變量數大于PLS建模主成分個數的5倍且MAPE最小值對應的變量作為最終篩選結果,用篩選出的變量進行預測。
PLS主成分個數決定預測準確性,為了降低CARSiPLS建模參數搜索難度,首先確定PLS全光譜最佳回歸主成分個數,將CARSiPLS的主成分個數同樣設置。水分的PLS最佳回歸主成分個數是5,揮發(fā)分最佳回歸主成分個數是1。試驗將per暫定為0.5,考察了nw在10到200區(qū)間,每隔10個增長區(qū)間獲得的預測均方差(RMSEP),見圖1。
(a) 揮發(fā)分
(b) 水分圖1 nw對RMSEP的影響Fig. 1 Effect of nw on RMSEP
由圖1可知:RMSEP在隨著nw變化上下波動,說明CARSiPLS對nw參數敏感,模型性能易受到nw影響。區(qū)間較寬時,包含的變量數較多,無用信息易混淆在重要信息中。而區(qū)間較窄時,包含的變量數較少,重要信息易被當作無用信息被剔除。在圖1中RMSEP隨nw上下波動,說明有用信息與無用信息混在一起,不易區(qū)分。對于揮發(fā)分,當nw<50和nw>80時,nw的變化對RMSEP影響不大;當nw處于50到80區(qū)間時,RMSEP隨著nw變寬而降低。說明光譜中關于揮發(fā)分的相關信息混雜在光譜中且數量不多,只有適當寬度的nw才利于剔除無用信息。對于水分,當nw≤70時,RMSEP較低;而當nw>70時,RMSEP在較大范圍內劇烈波動。說明光譜中關于水分的信息較多且混在眾多無用信息之中,難以區(qū)分。對于揮發(fā)分,當nw=80時,RMSEP最小,為0.007 9。對于水分,當nw=160時,RMSEP最小,為0.002 8。
為了進一步探討CARS對模型性能的影響,考察了per在0.40~0.95之間變動時對RMSEP的影響,見圖2。對于揮發(fā)分,考察per時nw取80;對于水分,考察per時nw取160。
(a) 揮發(fā)分
(b) 水分圖2 per對RMSEP的影響Fig. 2 Effect of per on RMSEP
由圖2可知,RMSEP隨per增大而波動。較小的per將去除較多變量,既有可能快速篩選變量也可能丟失有用信息。較大的per將去除較少變量,既可能保留有用信息也可能導致混入無用信息。對于揮發(fā)分,當0.75≤per≤0.90時,RMSEP較小,說明揮發(fā)分相關信息易被剔除,需要較大的per才能夠篩選出。對于水分,RMSEP隨per增大而波動上升,說明水分相關信息分散,需要各區(qū)間盡快剔除無用信息。nw與per互相影響制約,nw在10~200區(qū)間、per在0.40~0.95區(qū)間,尋找參數最佳組合,使RMSEP最低,模型預測最準確。對于揮發(fā)分,nw=70、per=0.95時,RMSEP最小,為0.006 7;對于揮發(fā)分,nw=160、per=0.45時,RMSEP最小,為0.002 8。
CARSiPLS根據MAPE確定最終變量篩選結果,變量篩選過程見圖3和圖4。
(a) 揮發(fā)分
(b) 水分圖3 運行次數對MAPE的影響Fig. 3 Effect of number of runs on MAPE
(a) 揮發(fā)分
(b) 水分圖4 運行次數對變量數的影響Fig. 4 Effect of number of runs on number of variables
由圖3和圖4可知:對于揮發(fā)分和水分,變量數隨著運行次數增加由快到慢遞減。說明CARS可以有效去除無用變量,運行次數增多無用變量越來越少,因此變量數減少也逐漸減慢。在變量篩選過程中,MAPE隨著變量數減少出現波動。對于揮發(fā)分,MAPE在前幾次CARS中基本沒有變化,然后略增大,繼而出現明顯減小。說明光譜中揮發(fā)分相關變量較少,需要多次CARS才能有效篩選。對于水分,MAPE先略有減小,而后隨著變量減少而增大。顯而易見,光譜中與水分相關變量數較多,CARS易去除有效變量導致模型預測能力下降。經CARS,揮發(fā)分建模波長個數由1557個減至15個,水分建模波長個數由1557個減至317個,顯著降低了模型的變量數。
CARSiPLS篩選出的揮發(fā)分建模波長分別為4 072.9,4 076.8,4 107.6,4 169.3,4 192.5,4 196.3,4 200.2,4 215.6,4 234.9,4 254.2,4 400.8,4 589.8,4 593.6,4 813.5,4 879.0 cm-1,位于CH、CH2合頻吸收區(qū)域。煤的揮發(fā)分有效成分主要包含甲烷、乙烷、乙烯,主要是C-H鍵成分,CARSiPLS的篩選結果與實際一致。水分的建模分布在全光譜范圍內,水分的有用信息主要是O-H鍵吸收,但是煤中有機物成分也含有O-H鍵,O-H鍵吸收既包含水分信息又包含有機物信息。C-H鍵、S-H鍵、N-H鍵吸收只反映有機物信息。結合C-H鍵、S-H鍵、N-H鍵吸收,從O-H鍵吸收中扣除有機物信息有望獲得水分相關信息。C-H、N-H、O-H、S-H化學鍵在4 878~6 897 cm-1產生第一諧波;在5 882~9 524 cm-1產生第二諧波;在9 524~1 4286 cm-1產生第三諧波。綜上所述,猜測水分相關信息遍布整條光譜。CARSiPLS篩選結果表明水分信息變量數從1 557個減少至317個,分布在整條光譜,通過刪除一部分無用信息可以明顯提高模型預測準確度。
為了進一步考察CARSiPLS的預測性能,表1、表2中分別列出了揮發(fā)分和水分的CARSiPLS、PLS、iPLS的預測結果。
表1 CARSiPLS、PLS、iPLS對揮發(fā)分預測結果Tab. 1 Prediction results of volatiles by CARSiPLS, PLS and iPLS
由表1可知:在揮發(fā)分預測中,CARSiPLS與PLS和iPLS相比,MAPE和RMSEP較小,誤差也較小。CARSiPLS可以有效提取出近紅外光譜中煙煤揮發(fā)分的相關信息,提高預測精度。
表2 CARSiPLS、PLS、iPLS對水分預測結果Tab. 2 Prediction results of moisture by CARSiPLS, PLS and iPLS
由表2可知:iPLS與PLS相比并不能夠有效提取出煙煤水分相關變量,模型預測RMSEP從0.003 6增大到0.005 0。分析其原因,推測iPLS效果不佳是由于水分相關信息分散在整條譜圖中,難以提取。CARSiPLS可以有效提取近紅外光譜中煙煤水分相關信息,將模型預測RMSEP減小至0.002 8;且與iPLS相比,減小了誤差。綜上所述,CARSiPLS可以有效篩選變量、提高預測精度。
本工作結合CARS策略和iPLS提出了CARSiPLS,用于近紅外光譜變量篩選。為了考察模型性能,將該方法用于建立煙煤中水分和揮發(fā)分的近紅外檢測模型,揮發(fā)分建模變量從1557個減少至15個,水分建模變量從1557個減少至317個,模型預測MAPE、RMSEP減小,誤差也減小。研究結果表明CARSiPLS可以有效降低變量數目,提高模型預測精度。
[1] 蘇彩珠,陳曉翔,黃文志,等.應用NIRS分析技術快速檢測煤炭質量[J].檢驗檢疫科學, 2007,17(6):34-35.
[2] FERRARI M, MOTTOLA L, QUARESIMA V. Principles, techniques, and limitations of near infrared spectroscopy[J]. Canadian Journal of Applied Physiology, 2004,29(4):463-487.
[3] MIKIO K, TADAYUKI T, TAKAHIRO A, et al. Application of near infrared spectroscopy to rapid analysis of coals[J]. Spectroscopy Letters, 2002,35(3):369-376.
[4] BONA M T, ANDRéS J M. Coal analysis by diffuse reflectance near-infrared spectroscopy: Hierarchical cluster and linear discriminant analysis[J]. Talanta, 2007,72:1423-1431.
[5] DONG W K, JONG M L, JAE S K. Application of near infrared diffuse reflectance spectroscopy for on-line measurement of coal properties[J]. Korean Journal of Chemical Engineering, 2009,26(2):489-495.
[6] GELADI P, KOWALSKI B R. Partial least square regression: A tutorial[J]. Analytica Chimica Acta, 1986,185:1-17.
[7] WOLD S, MARTENS H, WOLD H. The multivariate calibration problem in chemistry solved by the PLS method[M]. Berlin: Springer, 1983:286-293.
[8] THOMAS E V, CHEM A. A primer on multivariate calibration[J]. Analytical Chemistry, 2008,66(15):795A-804A.
[9] NORGAARD L, SAUDLAND A, WAGNER J, et al. Interval partial least-squares regression (iPLS): A comparative chemometric study with an example from near-infrared spectroscopy[J]. Applied Spectroscopy, 2000,54(3):413-419.
[11] LI H D, LIANG Y Z, XU Q S, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009,648(1):77-84.
[12] ZHENG K Y, LI Q Q, WANG J J, et al. Stability competitive adaptive reweighted sampling (SCARS) and its applications to multivariate calibration of NIR spectra[J]. Chemometrics and Intelligent Laboratory Systems, 2012,112(6):48-54.
[13] JIANG J H, BERRY R J, SIESLER H W, et al. Wavelength interval selection in multicomponent spectral analysis by moving window partial least squares regression with applications to mid-infrared and near-infrared spectroscopic data[J]. Analytical Chemistry, 2002,74(14):3555-3565.
[14] DU Y P, LIANG Y Z, JIANG J H, et al. Spectral regions selection to improve prediction ability of PLS models by changeable size moving window partial least squares and searching combination moving window partial least squares[J]. Analytica Chimica Acta, 2004,501:183-191.
[15] 常宏,李愛啟,王洪偉,等.煤中水分的快速測定[J].煤質技術, 2004(2):50-52.
[16] 張華秀,李曉寧,范偉,等.近紅外光譜結合CARS變量篩選方法用于液態(tài)奶中蛋白質與脂肪含量的測定[J].分析測試學報, 2010,29(5):430-434.