周銘睿,曲江北,李 彭*,何義亮
1. 上海交通大學(xué)中英國際低碳學(xué)院,上海 201306 2. 上海交通大學(xué)環(huán)境科學(xué)與工程學(xué)院,上海 200240
近年來,隨著國家對環(huán)境保護(hù)政策的相繼提出以及人民的環(huán)境保護(hù)意識的不斷提高,水環(huán)境保護(hù)問題愈來愈成為人們關(guān)注的對象,水環(huán)境中的水質(zhì)在線監(jiān)測也越來越成為關(guān)注的焦點(diǎn)。 在環(huán)境大數(shù)據(jù),環(huán)境智能化的趨勢下,在線監(jiān)測設(shè)備需要有成本低、 監(jiān)測實(shí)時(shí)連續(xù)、 易維護(hù)、 無污染等特點(diǎn)。 無論是城市還是農(nóng)村,污水中溶解性有機(jī)物含量一直是一項(xiàng)重點(diǎn)控制的指標(biāo)[1]。 化學(xué)需氧量(COD)作為一種表征污水中有機(jī)物含量總體水平的重要指標(biāo),有檢測精度很高的傳統(tǒng)化學(xué)法,但傳統(tǒng)化學(xué)法的檢測時(shí)間長、 維護(hù)成本高、 所采用的化學(xué)試劑具有二次污染等不足之處[2],無法滿足在線監(jiān)測的需求,且難以大量布設(shè),無法獲得實(shí)時(shí)的數(shù)據(jù)。 尤其是對于農(nóng)村污水,其采用分散式處理的模式,污水處理設(shè)施規(guī)模小、 設(shè)置位置分散、 數(shù)量多[3]。 所以需要尋求一種快速、 精確、 高效的實(shí)時(shí)在線監(jiān)測方法及模式來滿足水質(zhì)的在線監(jiān)測。
目前,光譜法應(yīng)用于水質(zhì)COD的在線監(jiān)測已具有很多鮮明的優(yōu)勢。 與傳統(tǒng)化學(xué)法相比,光譜法,尤其是紫外-可見光譜法在監(jiān)測COD方面具有操作簡單、 檢測速度較快、 無二次污染、 可實(shí)現(xiàn)實(shí)時(shí)連續(xù)測量等優(yōu)勢[4],使得紫外-可見光譜法在COD的監(jiān)測領(lǐng)域得到了廣泛研究。 但是,對于組分復(fù)雜且種類不同的污水來說,僅僅使用紫外-可見光譜法來預(yù)測水質(zhì)中的COD,其預(yù)測精確度和穩(wěn)定性仍待提高。 現(xiàn)有的研究多采用實(shí)驗(yàn)室配水來進(jìn)行光譜法模型的校準(zhǔn)和預(yù)測,配水多為固定的有機(jī)物組成,但實(shí)際水體中的有機(jī)物成分復(fù)雜且不固定,所以許多研究缺乏不同有機(jī)物組成樣本的研究,導(dǎo)致使用光譜法在不同水體環(huán)境中應(yīng)用時(shí)存在監(jiān)測精度較低,難于推廣應(yīng)用的問題。 而三維熒光光譜法(excitation-emission matrix, EEM)用來描繪熒光有機(jī)物的熒光信息,具有數(shù)據(jù)量大且完整等特點(diǎn)[5]。 三維熒光光譜的熒光數(shù)據(jù)解析得到激發(fā)光譜矩陣、 發(fā)射光譜矩陣以及得分矩陣,其中得分矩陣在一定條件下正比于熒光物質(zhì)濃度,可進(jìn)行半定量表征[6]。 且不同類型的有機(jī)物在三維熒光光譜上的峰位置有顯著差異,因此可以利用不同水樣的三維熒光光譜,按照有機(jī)物組成的近似度劃分類別。 三維熒光體積積分法對特定的熒光區(qū)域進(jìn)行標(biāo)準(zhǔn)體積積分可以間接表示不同組分的相對濃度[7-8]。 高連敬等[9]以三維熒光光譜技術(shù)為手段,結(jié)合熒光區(qū)域積分(FRI)方法,證明其可以有效監(jiān)測和分析水體中低濃度有機(jī)物的去除情況,可以作為一種有效的技術(shù)手段,用于凈水廠的日常運(yùn)行和水質(zhì)監(jiān)測。 孔德明[10]等利用平行因子分析(PARAFAC)方法分解去散射后的三維熒光光譜后的數(shù)據(jù),實(shí)現(xiàn)了對污染物的快速、 有效的檢測。 但是,目前沒有公認(rèn)的用于三維熒光光譜數(shù)據(jù)特征分析處理的方法,也沒有將污水水樣分類再建立預(yù)測模型的嘗試。 我們的研究嘗試將這兩種方法進(jìn)行對比,觀察對COD預(yù)測效果的影響。
以實(shí)際生活污水為研究對象,對水樣的三維熒光光譜分別使用熒光體積積分(FRI)算法、 平行因子分析(PARAFAC)算法,提取水樣的熒光特征信息再使用FCM算法進(jìn)行水樣的聚類。 對聚類后不同類別水樣的紫外-可見全波段光譜和COD數(shù)據(jù)進(jìn)行偏最小二乘法(PLS)模型的回歸及預(yù)測,從而建立一種全新的“聚類-回歸”COD預(yù)測模型,具體過程如圖1所示。
圖1 模型設(shè)計(jì)流程圖Fig.1 Flow chart of model design
水樣采集地點(diǎn)為江蘇省常熟市,采集地點(diǎn)為常熟市周邊的農(nóng)村區(qū)域,采集時(shí)間為2019年3月10日。 為滿足樣品有機(jī)物組成的多樣性,采集時(shí)選取100個(gè)分散式農(nóng)村生活污水處理裝置出水作為采集點(diǎn),每個(gè)采集點(diǎn)采1個(gè)水樣,具體的采集信息見圖2。 采集后的水樣使用250 mL聚乙烯瓶在4 ℃低溫條件下貯存,樣品的COD濃度使用國標(biāo)法測定。
水樣的紫外可見光譜數(shù)據(jù)由HACH DR/6000光譜儀掃描得到,掃描范圍為200~1 000 nm,間隔為1 nm。 水樣的三維熒光光譜數(shù)據(jù)由日立F-7000熒光分光光度計(jì)掃描得到,激發(fā)波長的掃描范圍為200~500 nm,間隔為5 nm; 發(fā)射波長的掃描范圍為250~550 nm,間隔為5 nm。 為了避免儀器本身的散射對三維熒光光譜測試的影響,設(shè)置初始的發(fā)射波長滯后于初始的激發(fā)波長50 nm。
1.2.1 平行因子分析算法(PARAFAC)
平行因子分析(PARAFAC)方法是一種基于三線性模型
圖2 常熟市采樣分布圖Fig.2 The map of sampling sites in Changshu
實(shí)現(xiàn)多維數(shù)據(jù)矩陣分解的經(jīng)典迭代算法。 傳統(tǒng)的三維熒光光譜數(shù)據(jù)通常采用尋峰法進(jìn)行特征熒光團(tuán)的識別,但對于多組分水樣通常會有峰重疊的現(xiàn)象,造成熒光峰被全部或部分掩蓋的情況,導(dǎo)致檢測結(jié)果誤差偏大[11]。 使用平行因子分析(PARAFAC)方法首先需要建立一個(gè)三維矩陣X,矩陣類型為I×J×K。 其中I和J分別是三維熒光光譜的激發(fā)波長和發(fā)射波長的掃描個(gè)數(shù)。 三線性模型分解過程可以表示為
(1)
式(1)中,i=1, 2, …,I;j=1, 2, …,J;k=1, 2, …,K;xijk為三維熒光光譜矩陣X中的元素;aim為相對激發(fā)光譜矩陣中的任一元素;bim為相對發(fā)射光譜矩陣中的任一元素;cim為相對濃度矩陣中的任一元素;eijk為殘差矩陣中的任一元素;M為得分矩陣、 負(fù)荷矩陣的列數(shù)。
1.2.2 熒光體積積分算法(FRI)
將三維熒光光譜的等高線圖分為5個(gè)連續(xù)的區(qū)域Ⅰ,Ⅱ,Ⅲ,Ⅳ和Ⅴ。 王聰穎等在研究中指出,熒光光譜的特定區(qū)域可以間接反映水體中部分可溶性有機(jī)物,區(qū)域Ⅰ(Ex<250 nm, Em<330 nm),區(qū)域Ⅱ(Ex<250 nm, 330 nm250 nm, Em<380 nm),區(qū)域Ⅴ(Ex>250 nm,
圖3 三維熒光物質(zhì)區(qū)域分布Fig.3 Three-dimensional map of the regionaldistribution of fluorescent substances
380 nm (2) 式(2)中,i=1, 2, …, 5;φi是區(qū)域i的區(qū)域積分和;E(λExλEm)為三維熒光光譜在激發(fā)波長λEx和發(fā)射波長λEm處的強(qiáng)度值; ΔdλExΔdλEm分別為激發(fā)波長λEx和發(fā)射波長λEm的積分增量。 1.2.3 最優(yōu)聚類數(shù)與FCM算法 聚類通常是指運(yùn)用特定標(biāo)準(zhǔn)(如距離標(biāo)準(zhǔn))將數(shù)據(jù)集分割成為不同的類或者簇,使得簇內(nèi)的數(shù)據(jù)相似度盡可能高,簇間的數(shù)據(jù)相似度盡可能小,最終使得特征高度相似的數(shù)據(jù)相聚成簇。 聚類與分類不同,聚類是一種無監(jiān)督學(xué)習(xí)模式,即不需要給定特定的數(shù)據(jù)劃分特征,在聚類過程中即可自聚類成簇。 對于成分復(fù)雜的水樣來說,其特征是不明確的,因此使用聚類方法可以對不同特征的樣品進(jìn)行區(qū)分。 最優(yōu)聚類數(shù)的確定也是依據(jù)距離標(biāo)準(zhǔn),通過簇內(nèi)離差矩陣來描述數(shù)據(jù)的緊密度,通過簇間離差矩陣來描述數(shù)據(jù)的分離度。 簇內(nèi)簇間離差度比值指標(biāo)D的定義為 (3) 式(3)中,n表示聚類的數(shù)目;i表示當(dāng)前所運(yùn)算的類; trA(i)表示簇內(nèi)離差矩陣的跡; trB(i)表示簇間離差矩陣的跡。 FCM算法又稱模糊C-均值聚類算法,是基于目標(biāo)函數(shù)最優(yōu)的聚類算法。 通過隸屬度函數(shù)來確定數(shù)據(jù)間的相似度,算法的目標(biāo)函數(shù)和約束條件可以描述為 (4) (5) 式中,m為聚類數(shù)目,即最佳聚類數(shù);n為數(shù)據(jù)總數(shù);uij為每個(gè)樣本j屬于某一類i的隸屬度。 對熒光光譜影響較大的拉曼散射和瑞利散射在使用光譜儀對水樣進(jìn)行測定時(shí)無法被直接去除,兩種散射的存在可能會導(dǎo)致使用熒光體積積分(FRI)算法和平行因子分析(PARAFAC)算法進(jìn)行分析時(shí)有效光譜信息被掩蓋,導(dǎo)致分析結(jié)果產(chǎn)生嚴(yán)重偏差,所以在進(jìn)行光譜信息分析前需要去除散射的干擾。 分析圖4(a)和(b): 通過MATLAB R2018b,使用Delaunay三角形內(nèi)插值方法可以有效去除兩種散射對熒光光譜的影響,使本身的熒光信息更加明顯。 采用熒光體積積分(FRI)算法對預(yù)處理后得到的三維熒光矩陣X進(jìn)行分析,矩陣X結(jié)構(gòu)為100×61×61(100為樣品數(shù)量,61為激發(fā)波長數(shù)量,61為發(fā)射波長數(shù)量)。 熒光積分區(qū)域依據(jù)可被熒光所反映的水體中的溶解性有機(jī)物質(zhì)分為5個(gè)區(qū)域,分別為芳香蛋白類物質(zhì)Ⅰ區(qū)域、 芳香蛋白類物質(zhì)Ⅱ區(qū)域、 富里酸類物質(zhì)區(qū)域、 溶解性微生物代謝產(chǎn)物區(qū)域、 腐殖酸類區(qū)域。 所以由熒光體積積分(FRI)算法得到的熒光特征信息矩陣為二維矩陣X1(100×5)。 但是使用熒光體積積分(FRI)算法就默認(rèn)了每個(gè)水樣均有5個(gè)熒光特征區(qū)域,且重疊的熒光信息無法分開,可能會造成提取的熒光特征信息出現(xiàn)部分冗余,對之后的聚類過程造成一定的影響。 圖4 水樣的熒光光譜圖(a): 去除散射前的三維熒光光譜; (b): 去除散射后的三維熒光光譜Fig.4 Fluorescence spectra of water samples(a): Three-dimensional fluorescence spectra before removal of scattering;(b) Three-dimensional fluorescence spectra after scattering removal 采用平行因子分析(PARAFAC)算法對預(yù)處理后得到的三維熒光矩陣X進(jìn)行分析,對100個(gè)樣本進(jìn)行熒光數(shù)據(jù)的杠桿驗(yàn)證時(shí)發(fā)現(xiàn)33,34和49號樣品的驗(yàn)證杠桿值明顯偏離其他樣品,結(jié)果如圖5(a)所示,應(yīng)當(dāng)剔除此三種樣品。 對剔除異常樣品的97組數(shù)據(jù)進(jìn)行平行因子分析,利用對半分析驗(yàn)證不同組分情況下的模型穩(wěn)定性,分別驗(yàn)證了2~7組分下模型的穩(wěn)定性,由計(jì)算結(jié)果得出只有3組分情況下模型是穩(wěn)定的。 所以由平行因子分析(PARAFAC)算法得到的熒光特征信息矩陣為二維矩陣X2(97×3)。 由圖4(b)和(c)可知三個(gè)特征熒光峰的位置: 第一個(gè)特征熒光峰激發(fā)/發(fā)射波長為335/420 nm; 第二個(gè)特征熒光峰激發(fā)/發(fā)射波長為255/470 nm; 第三個(gè)特征熒光峰激發(fā)/發(fā)射波長為280/350 nm。 使用平行因子(PARAFAC)算法對三維熒光矩陣進(jìn)行處理時(shí),可以去除與其他水樣熒光信息有明顯差異的異常水樣,并應(yīng)用對半分析方法模型對選取的特征組分?jǐn)?shù)進(jìn)行穩(wěn)定性的驗(yàn)證,保證了選取的特征組分?jǐn)?shù)為最優(yōu)組分?jǐn)?shù),使熒光信息的特征更加的明顯。 此外,平行因子分析(PARAFAC)算法還能將重疊的熒光特征峰進(jìn)行數(shù)據(jù)層面的分離,保證了特征信息不出現(xiàn)冗余的情況,使之后的聚類效果更優(yōu)。 圖5 水樣的平行因子分析(a): 樣品的杠桿分析; (b): 組分?jǐn)?shù)為3的發(fā)射波長對半分析;(c): 組分?jǐn)?shù)為3的激發(fā)波長對半分析Fig.5 PARAFAC of water samples 為了更好地將水樣依據(jù)FRI算法和PARAFAC算法提取出來的熒光特征信息進(jìn)行聚類。 首先應(yīng)該選取最優(yōu)聚類數(shù),利用基于距離指標(biāo)的最優(yōu)聚類數(shù)選取方法,分別對使用了FRI算法和PARAFAC算法進(jìn)行熒光特征提取的水樣進(jìn)行最優(yōu)聚類數(shù)選取。 如圖6(a)可知,使用FRI算法提取熒光特征的水樣的最優(yōu)聚類數(shù)為3。 如圖6(b)可知,使用PARAFAC算法提取熒光特征的水樣的最優(yōu)聚類數(shù)為4。 其次在MATLAB R2018b中使用FCM算法分別對FRI算法和PARAFAC算法分析得到的熒光特征數(shù)據(jù)進(jìn)行3類別和4類別的聚類,聚類結(jié)果由圖6(c)和(d)所示。 其中,將FRI算法得到的熒光特征數(shù)據(jù)分為3類: 第一類57個(gè)樣品、 第二類34個(gè)樣品、 第三類9個(gè)樣品,總共100個(gè)樣品。 將PARAFAC算法得到的熒光特征數(shù)據(jù)分為4類: 第一類36個(gè)樣品、 第二類5個(gè)樣品、 第三類29個(gè)樣品、 第四類27個(gè)樣品,總共97個(gè)樣品。 具體的分類結(jié)果由表1所示,由表1中的結(jié)果可知,兩種方法提取出的熒光特征數(shù)據(jù)主要特征較為相似,所以每一類的樣品重合率均較高。 但使用FRI算法提取特征信息再聚類后,每一類的樣品在重復(fù)的樣品之外出現(xiàn)了不少冗余樣品,可能是FRI算法在處理熒光光譜數(shù)據(jù)時(shí)未剔除與特征熒光峰重疊的干擾信息造成的。 表1 具體的聚類結(jié)果Table 1 Specific clustering results 圖6 FCM聚類分析結(jié)果(a): 使用FRI后的最優(yōu)聚類數(shù)選擇; (b): 使用PARAFAC后的最優(yōu)聚類數(shù)選擇;(c): 使用FRI后的聚類結(jié)果; (d): 使用PARAFAC后的聚類結(jié)果Fig.6 FCM cluster analysis results(a): Selection of the optimal cluster number after using FRI; (b): Selection of the optimal cluster number after using PARAFAC;(c): Clustering results after using FRI; (d): Clustering results after using PARAFAC 利用The Unscrambler X軟件中的偏最小二乘法(PLS)對聚類后的各類水樣的紫外-可見全波段光譜與對應(yīng)的COD數(shù)據(jù)進(jìn)行模型的回歸及預(yù)測,回歸及預(yù)測結(jié)果如表2所示。 其中決定系數(shù)R2表示因變量的變異部分可由自變量的變異來解釋,R2越接近1,模型的參考價(jià)值越高; 均方根誤差RMSE指預(yù)測值與真實(shí)值的偏離程度,RMSE越小,模型的參考價(jià)值越高[12]。 由表2結(jié)果可知,無論是運(yùn)用FRI算法還是PARAFAC算法提取的熒光特征數(shù)據(jù)聚類后再建立紫外-可見全波段光譜和對應(yīng)的COD數(shù)據(jù)之間的偏最小二乘(PLS)模型回歸結(jié)果均優(yōu)于未分類的結(jié)果,說明對水樣進(jìn)行聚類后再建模能有效提高模型的精度與穩(wěn)定性; 且由表2可知,由平行因子分析(PARAFAC)算法提取的熒光特征數(shù)據(jù)進(jìn)行聚類后再建立紫外-可見全波段光譜和對應(yīng)的COD數(shù)據(jù)之間的偏最小二乘(PLS)預(yù)測模型的COD預(yù)測精度高于由熒光體積積分(FRI)算法提取的熒光特征數(shù)據(jù)進(jìn)行聚類后再建立紫外-可見全波段光譜和對應(yīng)的COD數(shù)據(jù)之間的偏最小二乘(PLS)預(yù)測模型的COD預(yù)測精度,說明平行因子分析(PARAFAC)算法提取出的熒光特征數(shù)據(jù)的特征性優(yōu)于由熒光體積積分(FRI)算法提取出的熒光特征數(shù)據(jù); 由平行因子分析(PARAFAC)算法聚類后的每一類類內(nèi)的水樣特征相似度高于由熒光體積積分(FRI)算法聚類后的每一類類內(nèi)的水樣特征相似度。 可能是平行因子分析(PARAFAC)算法將與熒光特征峰重疊的無效熒光信息分開,而熒光體積積分(FRI)算法直接進(jìn)行熒光的積分,未考慮重疊的無效熒光信息的影響,使得使用熒光體積積分(FRI)算法提取的熒光特征數(shù)據(jù)存在信息冗余。 使用平行因子分析(PARAFAC)算法結(jié)合FCM聚類后的聚類效果優(yōu)于使用熒光體積積分(FRI)算法結(jié)合FCM聚類后的聚類效果,類內(nèi)水樣的相似度更高,使得預(yù)測精度更高。 表2 模型的回歸及預(yù)測結(jié)果Table 2 The model fitting and prediction results 利用三維熒光光譜結(jié)合平行因子分析(PARAFAC)算法和FCM聚類算法對聚類后的水樣的紫外-可見全波段光譜和相應(yīng)的COD數(shù)據(jù)運(yùn)用偏最小二乘(PLS)模型進(jìn)行回歸和預(yù)測。 研究結(jié)果表明,使用Delaunay三角形內(nèi)插值法去除拉曼和瑞利散射后,使用平行因子分析(PARAFAC)算法提取熒光特征信息并使用FCM算法聚類,使用聚類后各類水樣的紫外-可見全波段光譜數(shù)據(jù)和相應(yīng)COD數(shù)據(jù)進(jìn)行偏最小二乘(PLS)模型的回歸和預(yù)測,具有最佳的擬合和預(yù)測結(jié)果,回歸平均R2為0.940,平均RMSE為9.006,預(yù)測平均R2為0.906,平均RMSE為13.071,相比于未分類的PLS模型預(yù)測平均R2值0.632,R2提高了0.274。 本研究提供了一種使用三維熒光光譜數(shù)據(jù),利用平行因子分析(PARAFAC)算法提取熒光特征的先聚類再建模的方法,可為水樣的快速檢測提供一種新思路。 但是,此方法由于需要測量樣品的三維熒光光譜數(shù)據(jù)和紫外-可見全波段光譜數(shù)據(jù),在實(shí)時(shí)在線監(jiān)測的設(shè)備化方面仍需改進(jìn),后續(xù)可以進(jìn)一步研究,以提高此方法的實(shí)際應(yīng)用性。2 結(jié)果與討論
2.1 光譜預(yù)處理
2.2 基于熒光體積積分和平行因子分析算法
2.3 基于模糊c-均值聚類算法的聚類結(jié)果分析
2.4 聚類后的模型擬合及預(yù)測
3 結(jié) 論