喻其炳, 焦昭杰, 姚行艷, 倪茂飛
(重慶工商大學(xué) 制造裝備機(jī)構(gòu)設(shè)計(jì)與控制重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067)
?
基于連續(xù)投影算法和最小二乘支持向量機(jī)的污水中NH3-N近紅外光譜建模*
喻其炳, 焦昭杰, 姚行艷, 倪茂飛
(重慶工商大學(xué) 制造裝備機(jī)構(gòu)設(shè)計(jì)與控制重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067)
摘要:通過(guò)掃描不同NH3-N含量污水的近紅外光譜,建立了水樣中NH3-N的定量分析模型??紤]到全譜高維數(shù)據(jù)建模較大的計(jì)算負(fù)擔(dān),采用連續(xù)投影算法(SPA)對(duì)水樣光譜全譜進(jìn)行特征波長(zhǎng)篩選,將篩選后的特征變量采用最小二乘支持向量機(jī)(LS-SVM)進(jìn)行建模;所建立的SPA和LS-SVM分析模型對(duì)污水中NH3-N分析的預(yù)測(cè)均方根誤差為3.210 8,相關(guān)系數(shù)為0.984 4,相對(duì)分析誤差5.681 2;與全譜LS-SVM模型和全譜部分最小二乘(PLS)模型相比,此處的建模方法將全譜模型的512維數(shù)據(jù)壓縮為28維特征光譜數(shù)據(jù)(計(jì)算量占全譜的5.47%),但模型分析精度與全譜LS-SVM模型相近,且高于全譜PLS模型;該方法對(duì)實(shí)現(xiàn)水樣NH3-N的快速檢測(cè)以及低維度變量建模具有指導(dǎo)意義。
關(guān)鍵詞:近紅外光譜;NH3-N;連續(xù)投影算法;最小二乘支持向量機(jī);污水
近紅外光譜主要是X-H(C,O,N,S)基團(tuán)振動(dòng)的倍頻和組合頻的分子吸收光譜[1],它具有豐富的組成及結(jié)構(gòu)性質(zhì),非常適合含氫有機(jī)物的組成、結(jié)構(gòu)及性質(zhì)的測(cè)量。近年來(lái)發(fā)展較快且能實(shí)現(xiàn)快速、高效地對(duì)樣品進(jìn)行定性和定量分析的NIRS技術(shù)已經(jīng)成為環(huán)境檢測(cè)領(lǐng)域[2-3]常用的工具之一。
傳統(tǒng)國(guó)標(biāo)法測(cè)定NH3-N不僅涉及各類繁瑣操作,還用到了劇毒化學(xué)品如二氯化汞(HgCl2)、碘化汞(HgI2)、強(qiáng)化學(xué)腐蝕性硫酸等環(huán)境不友好化學(xué)藥品。此外,傳統(tǒng)國(guó)標(biāo)法測(cè)完指標(biāo)后的水樣連同殘留有害的化學(xué)藥品一同被倒入下水道對(duì)水環(huán)境造成一定負(fù)擔(dān)。
基于此現(xiàn)狀,此處通過(guò)配制多個(gè)不同濃度的NH3-N污水結(jié)合近紅外光譜分析技術(shù),將光譜吸光度矩陣X和污水的NH3-N值向量Y關(guān)聯(lián)起來(lái)建立回歸模型,再利用建立好的回歸模型,將預(yù)測(cè)水樣的近紅外光譜矩陣Xa放入回歸模型模擬出一個(gè)NH3-N值向量Yp,將此模擬NH3-N值向量Yp對(duì)比標(biāo)準(zhǔn)溶液配制時(shí)對(duì)應(yīng)的NH3-N值向量Ya來(lái)判斷近紅外光譜分析技術(shù)的準(zhǔn)確性??紤]傳統(tǒng)的全譜建模不僅變量多建模復(fù)雜,而且包含的大量冗余信息會(huì)降低分析精度,因此利用連續(xù)投影算法(SPA)從全譜光譜數(shù)據(jù)中篩選出特征波長(zhǎng),并且結(jié)合最小二乘支持向量機(jī)(LS-SVM)建立回歸模型,對(duì)水樣NH3-N進(jìn)行預(yù)測(cè)分析,旨在提出一種水質(zhì)指標(biāo)近紅外光譜快速定量檢測(cè)方法,簡(jiǎn)化建模難度,提高分析模型的預(yù)測(cè)能力,實(shí)現(xiàn)水樣中NH3-N的快速檢測(cè)。
1實(shí)驗(yàn)過(guò)程與方法
1.1儀器
美國(guó)Ocean Optics公司生產(chǎn)的NIRQuest-512近紅外光譜儀,波長(zhǎng)范圍900~1 722 nm,光學(xué)分辨率3.1 nm,采樣間隔1.6 nm,LS-1溴鎢燈光源,載樣器光程10 mm,InGaAs檢測(cè)器,512個(gè)波長(zhǎng)點(diǎn)組成光譜數(shù)據(jù)。
1.2樣品的配置與光譜數(shù)據(jù)采集
依據(jù)水質(zhì)-氨氮的測(cè)定國(guó)標(biāo)HJ/T 535-2009[4],分別向1 000 mL超純水中加入稱量好且在100~105 ℃干燥箱中干燥兩個(gè)小時(shí)至恒重的不同含量的氯化銨(優(yōu)級(jí)純),人工配制濃度梯度在1~100 mg/L的120個(gè)不同氨氮含量的NH3-N標(biāo)準(zhǔn)溶液,設(shè)計(jì)濃度梯度符合正態(tài)分布。其中120個(gè)水樣NH3-N值均根據(jù)國(guó)標(biāo)HJ/T 535-2009算出,表1為NH3-N標(biāo)準(zhǔn)溶液換算關(guān)系式:
表1 NH3-N標(biāo)準(zhǔn)溶液換算式
根據(jù)表1,3.819 g氯化銨完全溶解在1 000 mL純水中時(shí)NH3-N含量為1 000 mg/L,按此比例關(guān)系配制成的水樣NH3-N含量在1~100 mg/L。將加入試劑的水樣經(jīng)超聲波處理5 min,使試劑充分溶解于溶質(zhì)中,作為實(shí)驗(yàn)樣品采集光譜。
樣本的NH3-N值范圍詳見表2。
表2 選擇樣本的NH3-N含量
采樣時(shí)光譜積分時(shí)間選88 ms,平均次數(shù)10次,平滑度2,主板溫度29.35 ℃,實(shí)驗(yàn)室室溫29 ℃,濕度46%。120個(gè)不同樣品的近紅外光譜見圖1。
圖1 120個(gè)樣品原始光譜Fig.1 Raw spectra of 120 samples
由圖1可見,圖譜中吸收譜帶較寬,120個(gè)樣品光譜圖十分接近,雖然知道某些特定基團(tuán)有吸收峰,但是光譜圖吸收較弱而且嚴(yán)重重疊,因此,必須借助化學(xué)計(jì)量學(xué)相關(guān)知識(shí)來(lái)予以分析。
1.3校正樣本的選擇
1.4建模光譜變量壓縮的連續(xù)投影算法
SPA在近紅外光譜的多元定量和定性分析中應(yīng)用廣泛[6],它是一種向前循環(huán)變量篩選方法[7-8],能在嚴(yán)重重疊的近紅外光譜信息中剔除冗余復(fù)雜的光譜信息,削弱各種非目標(biāo)因素對(duì)近紅外光譜的影響,減少建模變量,從而提高模型校正速度和建模效率。記XN×M為樣品的吸光度矩陣,需要選擇的波長(zhǎng)個(gè)數(shù)為h,下面為SPA的算法步驟[9-10]:
第1步:在第1次迭代(p=1)開始前,在校正集光譜矩陣中任選一列xk,記做xf(0),f(0)=k(1≤k≤M);
第2步:把未被選中的其余波長(zhǎng)點(diǎn)位置集合記為s,s={k, 1≤k≤M,k∈{f(0),…,f(p-1)} };
第3步:計(jì)算剩余列向量xk(k∈s)與當(dāng)前所選向量xf(p-1)的投影:
第5步:令xk=Pxk,k∈s,將最大投影值作為下次迭代初始值;
第6步:p=p+1,若M 第7步:最后提取出波長(zhǎng)位置:{f(p), 0≤p≤h-1} ;對(duì)應(yīng)于每一個(gè)初始f(0),循環(huán)一次后進(jìn)行多元定量回歸分析,得到驗(yàn)證集的最小RMSEP值對(duì)應(yīng)的f(p)就是提取的最優(yōu)結(jié)果。 1.5建立回歸模型的LS-SVM LS-SVM是一種機(jī)器學(xué)習(xí)算法,其目標(biāo)是基于訓(xùn)練數(shù)據(jù)產(chǎn)生出一個(gè)模型,以此模型來(lái)預(yù)測(cè)只給出屬性的驗(yàn)證數(shù)據(jù)的目標(biāo)值,它是標(biāo)準(zhǔn)支持向量機(jī)(SVM)在二次損失函數(shù)形式下的一種擴(kuò)展[11-12]。Suykens[13]用等式約束替代不等式約束,因此只需求解一個(gè)等式方程組,避免了耗時(shí)的求解二次規(guī)劃的問(wèn)題,加快了求解速度。與傳統(tǒng)的支持向量機(jī)(SVM)算法相比,LS-SVM降低了訓(xùn)練時(shí)間,提高了泛化能力,減少了計(jì)算復(fù)雜程度,常應(yīng)用于光譜定性或定量分析中[14-15]。 LS-SVM的目標(biāo)優(yōu)化函數(shù)為 服從于 其中,ω為權(quán)重向量;c為正規(guī)化參數(shù);ξi為誤差;xi和yi分別為校正集的輸入變量和輸出變量;i=1,2,…,l;l為校正集樣本數(shù)。定義如下 Lagrange函數(shù): (1) 式(1)中,αi為L(zhǎng)agrange系數(shù)。上述優(yōu)化問(wèn)題可等價(jià)于求解線性方程: 式中,L=[1,1,…,1]T;I為單位矩陣;Ω=<φ(xi),φ(xi)>=K(xi,xi);i,j=1,2,…,l;α=[α1,α2,…,αl]T;y=[y1,y2,…,yl]T。 對(duì)未知樣本x,LS-SVM的預(yù)測(cè)值如下: 利用上述方法,可以建立污水中NH3-N含量的近紅外光譜預(yù)測(cè)分析定量模型。 1.6建模精度評(píng)價(jià)指標(biāo) 實(shí)驗(yàn)中分別采用RMSEP(Root Mean Square Error of Prediction),驗(yàn)證集的相關(guān)系數(shù)Rv,相對(duì)分析誤差RPD作為精度評(píng)價(jià)指標(biāo),3個(gè)指標(biāo)分別介紹如下。 (1)RMSEP定義為 (2) 式(2)中,yi,actual為第i樣品參考方法的測(cè)定值,yi,predicted為驗(yàn)證集預(yù)測(cè)過(guò)程中第i樣品的光譜方法預(yù)測(cè)值,m為驗(yàn)證集的樣品數(shù)。RMSEP可以預(yù)測(cè)標(biāo)準(zhǔn)偏差,RMSEP越小代表所建模型的預(yù)測(cè)能力越強(qiáng)。 (2) 驗(yàn)證集的相關(guān)系數(shù)Rv定義為 (3) (3) 相對(duì)分析誤差RPD定義為 通常認(rèn)為RPD<2表示預(yù)測(cè)結(jié)果不可接受;RPD>5表示預(yù)測(cè)結(jié)果可以接受。 2結(jié)果與討論 2.1SPA數(shù)據(jù)壓縮結(jié)果 圖1中光譜波長(zhǎng)的采樣點(diǎn)數(shù)為512點(diǎn),表明圖1所示為512維數(shù)據(jù)??紤]到采用512維數(shù)據(jù)進(jìn)行建模的計(jì)算量較大,采用SPA進(jìn)行變量篩選(高維數(shù)據(jù)壓縮)。對(duì)圖1所示的512維數(shù)據(jù)進(jìn)行SPA篩選,篩選結(jié)果如圖2所示。 圖2 SPA篩選結(jié)果Fig.2 Screening results of SPA 從圖2中可以看出,SPA在512個(gè)光譜變量中篩選出了28個(gè)特征變量,這28個(gè)特征變量順序按重要性排序如下:500,191,257,511,289,435,279,335,208,230,202,99,127,183,47,155,2,117,493,10,480,262,248,215,244,161,254,234,與之對(duì)應(yīng)的波長(zhǎng)分別為1 702.9 nm,1 210.4 nm,1 316.8 nm,1 720.2 nm,1 368.2 nm,1 600.4 nm,1 352.2 nm,1 441.7 nm,1 237.9 nm,1 273.4 nm,1 228.2 nm,1 060.7 nm,1 106.4 nm,1 197.4 nm,975.3 nm,1 152.0 nm,900.9 nm,1 090.1 nm,1 691.9 nm,914.1 nm,1 671.4 nm,1 324.9 nm,1 302.4 nm,1 249.2 nm,1 295.9 nm,1 161.7 nm,1 312.0 nm,1 279.8 nm。 這樣,采用SPA可以將512維光譜數(shù)據(jù)壓縮為28維的光譜數(shù)據(jù),下面用這28維變量進(jìn)行LS-SVM建模。 2.2對(duì)SPA壓縮數(shù)據(jù)的LS-SVM建模結(jié)果 表3 30個(gè)驗(yàn)證集建模結(jié)果 根據(jù)表3,畫出NH3-N模型預(yù)測(cè)值與實(shí)際值的相關(guān)系數(shù)圖(圖3)。 采用前述的3個(gè)精度評(píng)價(jià)指標(biāo)對(duì)所建立的模型進(jìn)行計(jì)算,其結(jié)果為Rv=0.984 4,RMSEP=3.210 8, PRD=5.681 2。以上結(jié)果表明,所提出的方法具有較好的建模精度,可以采用NIRS對(duì)污水中NH3-N進(jìn)行定量分析和檢測(cè)。 圖3 SPA+LS-SVM模型預(yù)測(cè)值與實(shí)際值對(duì)比Fig.3 Results of the joint SPA and LS-SVM model 2.3與其他建模方法的比較 為了分析所提出的SPA和LS-SVM聯(lián)合模型的有效性,還與兩種其他模型的建模效果進(jìn)行了比較。為公平起見,建模數(shù)據(jù)都采用圖1的水質(zhì)光譜數(shù)據(jù),評(píng)價(jià)指標(biāo)也是RMSEP,Rv,RPD這3個(gè)指標(biāo)。 首先比較的是全譜(原始光譜)LS-SVM建模方法,其模型預(yù)測(cè)值與實(shí)際值相的關(guān)系數(shù)如圖4。 圖4 原始光譜LS-SVM模型預(yù)測(cè)值與實(shí)際值相關(guān)系數(shù)圖Fig. 4 LS-SVM modelling results using the raw spectrum 通過(guò)定量計(jì)算,原始光譜LS-SVM模型精度指標(biāo)為Rv=0.989 4,RMSEP=2.646 9,PRD=6.891 5。 然后采用全譜(原始光譜)PLS方法進(jìn)行建模預(yù)測(cè)。為了得到可靠穩(wěn)定的PLS模型,建模時(shí)利用Full Cross-Validation驗(yàn)證模型[16]。模型中主因子數(shù)按照最優(yōu)的因子數(shù)進(jìn)行設(shè)置,主因子數(shù)選擇4。全譜PLS模型預(yù)測(cè)值與實(shí)際值相關(guān)系數(shù)如圖5所示。 圖5 原始光譜PLS模型預(yù)測(cè)值與實(shí)際值相關(guān)系數(shù)圖Fig. 5 PLS model prediction results 通過(guò)定量計(jì)算,原始光譜PLS模型精度指標(biāo)為RMSEP=3.862 9,Rv=0.977 3,RPD=4.722 1。 將3種方法建立的模型預(yù)測(cè)精度進(jìn)行比較,其結(jié)果如表4所示。 表4 不同建模方法比較 從表4可以看出,原始光譜(全譜)PLS模型的分析效果一般,其RPD小于5,因而其建模預(yù)測(cè)精度不夠好。而原始光譜(全譜)LS-SVM建模的精度與SPA+LS-SVM建模的精度總體上差不多,略有提升。但是需要指出的是,當(dāng)采用全譜數(shù)據(jù)進(jìn)行LS-SVM建模時(shí),建模變量的維數(shù)是512維,其復(fù)雜度是SPA和LS-SVM聯(lián)合模型建模維數(shù)(28維)的18.3倍。因此,與全譜LS-SVM建模結(jié)果相比,所提出的SPA+LS-SVM模型與全譜LS-SVM建模精度基本差不多,但是計(jì)算復(fù)雜度大幅降低??梢姡岢龅穆?lián)合SPA和LS-SVM的污水中NH3-N的近紅外光譜檢測(cè)模型可以在大幅提高建模效率的同時(shí)獲得滿意的檢測(cè)分析精度。 3結(jié)論 采用近紅外光譜進(jìn)行污水中NH3-N檢測(cè),并提出了聯(lián)合SPA和LS-SVM的定量分析模型。將全譜PLS和全譜LS-SVM建模方法進(jìn)行比較,結(jié)果表明,原始光譜數(shù)據(jù)直接建立PLS模型精度最差,說(shuō)明氨氮水樣的近紅外光譜分析中,非線性校正模型具有比線性校正模型更好的效果。原始光譜直接LS-SVM的相關(guān)系數(shù)最高,驗(yàn)證集的均方根誤差最小,RPD最大,但是建模的維度是512,計(jì)算量較大。SPA在原始光譜的512個(gè)變量中篩選出最具代表性的28個(gè)特征變量(占全譜的5.47%),利用這28個(gè)特征變量建立LS-SVM模型,其精度與512個(gè)變量建模效果相當(dāng)??紤]到SPA可以大幅降低計(jì)算機(jī)的運(yùn)算負(fù)擔(dān),表明SPA是一種有效的特征波長(zhǎng)提取方法,能夠在有效降維的同時(shí)保持分析模型的建模精度,從而提高建模效率。此處所提出的方法對(duì)利用近紅外光譜分析技術(shù)對(duì)水質(zhì)中NH3-N指標(biāo)的快速檢測(cè)具有指導(dǎo)意義。 參考文獻(xiàn)(References): [1] 褚小立.化學(xué)計(jì)量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社,2011 ZHU X L.Stoichiometry and Molecular Spectroscopy[M].Beijing:Chemical Industry Press,2011 [2] 蘇迪,李川,焦昭杰.NIRS中聯(lián)用EEMD與SPA建立變壓器油中微水的LS-SVM回歸模型[J].分析試驗(yàn)室,2013,32(8):77-81. SU D,LI CH,JIAO ZH J.A Joint EEMD and SPA Approach for LS-SVM Modeling of Moisture Content in Transformer Oil Using NIRS[J].Chinese Journal of Analysis Laboratory,2013,32(8):77-81 [3] 焦昭杰,白云,張賢明,等.近紅外光譜法快速測(cè)定油品水分[J].光譜分析,2011,28(6):3120-3123 JIAO ZH J,BAI Y,ZHANG X M,et al.Fast Determination of Water Content in Oil by Near Infrared Spectroscopy[J].Chinese Journal of Spectroscopy Laboratory,2011,28(6):3120-3123 [4] 環(huán)境保護(hù)部HJ 535-2009.水質(zhì)-氨氮的測(cè)定,納什試劑分光光度法[S].北京:中國(guó)環(huán)境科學(xué)出版社,2009 State Environmental Protection Administration HJ 535-2009.Determination of Water 1uality-ammonia Nitrogen,Nessler’s Reagents Spectrophotometer[S].Beijing:Envir-onmental Science Press of China,2009 [5] 展曉日,朱向榮,史新元,等.SPXY樣本劃分法及蒙特卡羅交叉驗(yàn)證結(jié)合近紅外光譜用于橘葉中橙皮苷的含量測(cè)定[J] .光譜學(xué)與光譜分析,2009,29(4):964-968 ZHAN X R,ZHU X Y,SHI X Y,et al.Determination of Hesperidin in Tangerine Leaf by Near-Infrared Spectroscopy with SPXY Algorithm for Sample Subset Partitioning and Monte Carlo Cross Validation[J].Spectroscopy and Spectral Analysis,2009,29(4):964-968[6] KHANMOHAMMADIA M,GARMARUDIA A B,GHASE-MIA K,et al.Artificial Neural Network for Quantitative Determination of Total Protein in Yogurt by Infrared Spectrometry[J].Microchemical Journal,2009,91(1):47-52 [10] 陳斌,孟祥龍,王豪.連續(xù)投影算法在近紅外光譜校正模型優(yōu)化中的應(yīng)用[J].分析測(cè)試學(xué)報(bào),2007,26(1):66-69 CHEN B,MENG X L,WANG H.Application of Successive Projections Algorithm in Optimizing Near Infrared Spectroscopic Calibration Model[J].Journal of Instrumetal Analysis,2007,26(1):66-69 [11] 王宇紅,黃德先,高東杰,等.基于LS-SVM的非線性預(yù)測(cè)控制技術(shù)[J].控制與決策,2004,19(4):383-387 WANG Y H,HUANG D X,GAO D J,et al.Nolinear Predictive Control Based on LS-SVM[J].Control and Decision,2004,19(4):383-387 [12] 安欣,徐碩,張錄達(dá),等.多因變量LS-SVM回歸算法及其在近紅外光譜定量分析中的應(yīng)用[J].光譜學(xué)與光譜分析,2009,29(1):127-130 AN X,XU SH,ZHANG L D,et al.Multiple Dependent Variables LS-SVM Regression Algorithm and its Applica-tion in NIR Spectral Quantiative Analysis[J].Spectroscopy and Spectral Analysis,2009,29(1):127-130 [13] SUYKENS J A K,VANDEWALE J.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3):293-300 [14] 周晶,孫素琴,李擁軍,等.近紅外光譜和聚類分析法無(wú)損快速鑒別不同輔料奶粉[J].光譜學(xué)與光譜分析,2009,29(1):110-113 ZHOU J,SUN S Q,LI Y J,et al.FITR and Classification Study on Powdered Milk with Different Assist Material[J].Spectroscopy and Spectral Analysis,2009,29(1):110-113 [15] 吳桂芳,何勇.應(yīng)用可見/近紅外光譜進(jìn)行紡織纖維鑒別的研究[J].光譜學(xué)與光譜分析,2010,30(2):331-335 WU G F,HE Y.Identification if Varieties of Textile Fibers by Using Vis/NIR Infrared Spectroscopy Technique[J].Spectroscopy and Spectral Analysis,2010,30(2):331-335 [16] 侯明明,喻其炳,焦昭杰,等.基于近紅外光譜的透平油微量水分檢測(cè)[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,29(3):94-98 HOU M M, YU Q B,JIAO ZH J,et al.Near Infrared Spectroscopy Measurement of Moisture Content in Turbine Oil Using Relevance Vector Machines[J].Journal of Chongqing Technology and Bussiness University(Natural Science Edition),2012,29(3):94-98 責(zé)任編輯:李翠薇 doi:10.16055/j.issn.1672-058X.2016.0004.002 收稿日期:2015-10-21; 修回日期:2015-12-04. *基金項(xiàng)目:重慶市科委基礎(chǔ)與前沿研究項(xiàng)目(CSTC2015JCYJA70007). 作者簡(jiǎn)介:喻其炳(1972-),男,重慶市人,高級(jí)工程師,從事環(huán)境與機(jī)械工程研究. 中圖分類號(hào):O657.3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1672-058X(2016)04-0008-07 Near Infrared Spectroscopy Modelling of NH3-N in Wastewater Using Successive Projection Algorithm and Least Squares Support Vector Machine YU Qi-bing,JIAO Zhao-jie,YAO Xing-yan,NI Mao-fei (Chongqing Technology and Business University,Chongqing Key Laboratory of Manufacturing Equipment Mechanism Design and Control,Chongqing 400067,China) Abstract:By scanning near infrared spectrum (NIRS) of wastewater with different NH3-N contents,a quantitative analysis model of NH3-N in wastewater was proposed.Taking into consideration the computational burden of full spectral data,successive projection algorithm (SPA) was employed to choose the feature spectral data.The selected feature variables were then used for modeling based on least squares support vector machine (LS-SVM).The proposed model resulted in RMSEP=3.210 8,correlation coefficient=0.984 4,and RPD=5.681 2.Compared to the full-spectral LS-SVM model and partial least squares (PLS) model,the proposed SPA and LS-SVM model compressed 512-dimentional full-spectral data into 28-dimentional ones whose computation burden is 5.47% of the full-spectral data.Nevertheless,the precision of the proposed model is similar to the full-spectral LS-SVM model and is better than the full-spectral PLS model.The proposed method has good guidance significances for rapid measurement of NH3-N and low-dimensional variable modeling. Key words:near infrared spectroscopy; NH3-N; successive projections algorithm; least squares support vector machine; wastewater.