趙立杰,王佳,黃明忠,王國剛
(沈陽化工大學(xué)信息工程學(xué)院,遼寧沈陽110142)
隨著全球水環(huán)境治理要求日益嚴(yán)格,活性污泥生化處理工藝在城市污水處理廠得到廣泛應(yīng)用[1]?;钚晕勰喾ǖ膶?shí)質(zhì)是以污水中的有機(jī)物作為底物,通過微生物凝聚、吸附、氧化分解、沉淀等代謝過程氧化降解污水中的有機(jī)碳和氮污染物,使出水水質(zhì)滿足排放指標(biāo)要求[2]。但是,活性污泥法在運(yùn)行維護(hù)過程中需要大量檢測(cè)儀器,這些檢測(cè)儀器存在價(jià)格昂貴、維護(hù)困難、技術(shù)不完善和測(cè)量誤差大等問題,難以提供實(shí)時(shí)在線的污水質(zhì)量信息和反饋信號(hào)。由于缺乏可靠的在線傳感器來測(cè)量污水水質(zhì)指標(biāo),使得污水處理系統(tǒng)難以實(shí)現(xiàn)控制出水質(zhì)量和運(yùn)行優(yōu)化[3-4],例如,在系統(tǒng)運(yùn)行過程中,難以連續(xù)在線檢測(cè)5 天生化需氧量(biochemical oxygen demand,BOD5)[5-6]和判斷污泥膨脹是否發(fā)生的重要指標(biāo)污泥體積指數(shù)(sludge volume index, SVI)等。因此,快速、準(zhǔn)確、可靠地測(cè)量水質(zhì)指標(biāo)是提高裝置運(yùn)行效率和靈活性的關(guān)健[7-8]。
隨著對(duì)活性污泥生物動(dòng)力學(xué)特征的深入理解,國際水協(xié)會(huì)提出活性污泥模型應(yīng)用于污水處理過程工藝設(shè)計(jì)、過程模擬和運(yùn)行控制[9]。但是生物污水處理過程由于模型動(dòng)力學(xué)參數(shù)和化學(xué)計(jì)量參數(shù)眾多,模型辨識(shí)困難,且受特定現(xiàn)場(chǎng)環(huán)境隨機(jī)和不確定性因素影響嚴(yán)重,受限于模型假設(shè)條件的制約很難準(zhǔn)確描述污水處理過程動(dòng)態(tài)特性,因此基于機(jī)理模型的水質(zhì)指標(biāo)預(yù)測(cè)方法在應(yīng)用中受到了限制。
基于數(shù)據(jù)驅(qū)動(dòng)的水質(zhì)指標(biāo)預(yù)報(bào)軟測(cè)量傳感器既可以替代硬件傳感器,也可以與硬件傳感器并行使用,為解決出水水質(zhì)指標(biāo)在線檢測(cè)問題提供了一種新的途徑[10-13]。目前數(shù)據(jù)驅(qū)動(dòng)的水質(zhì)軟測(cè)量方法主要有支持向量機(jī)[14]、多元統(tǒng)計(jì)法[15]、人工神經(jīng)網(wǎng)絡(luò)[16-18]等。為了更好地估計(jì)污水處理廠的出水指標(biāo),實(shí)現(xiàn)水質(zhì)的實(shí)時(shí)監(jiān)測(cè),本文采用隨機(jī)配置網(wǎng)絡(luò)方法(stochastic configuration networks, SCN)建立輸入輸出模型[19],并對(duì)SCN進(jìn)行了改進(jìn)。
SCN 在網(wǎng)絡(luò)規(guī)模設(shè)置方面人工干預(yù)少,具有隨機(jī)參數(shù)范圍自適應(yīng)、快速學(xué)習(xí)等優(yōu)點(diǎn)。在構(gòu)建SCN過程中,在不等式監(jiān)督機(jī)制下隨機(jī)分配神經(jīng)網(wǎng)絡(luò)的輸入權(quán)值和偏差,隱含層和輸出層之間輸出權(quán)重采用最小二乘方法計(jì)算。但是當(dāng)輸入數(shù)據(jù)維度高,SCN 模型隱含層節(jié)點(diǎn)增多,隱含層節(jié)點(diǎn)輸出矩陣變量間容易產(chǎn)生共線性,出現(xiàn)病態(tài)方差,導(dǎo)致SCN 模型泛化性能惡化,從而使輸出權(quán)值不穩(wěn)定,出現(xiàn)過擬合。因此本文將偏最小二乘方法(partial least squares, PLS)嵌入到SCN 隨機(jī)配置模型框架下,采用PLS 方法取代經(jīng)典最小二乘方法(ordinary least squares,OLS),通過隱含層輸出矩陣分解,保持正交性約束來尋找潛在變量,以克服數(shù)據(jù)奇異帶來的預(yù)報(bào)風(fēng)險(xiǎn)。
本文以沈陽某污水處理廠A/O活性污泥生物脫氮工藝為應(yīng)用背景[20-21],工藝流程如圖1所示。進(jìn)水經(jīng)機(jī)械預(yù)處理、初沉池處理后通過配水計(jì)量槽,進(jìn)入生化反應(yīng)池。生化反應(yīng)池中缺氧池發(fā)生反硝化反應(yīng),將硝酸鹽還原為氮?dú)?,好氧池由鼓風(fēng)機(jī)房曝氣進(jìn)行硝化反應(yīng)。曝氣區(qū)出口混合液一部分回流到缺氧池參與反硝化反應(yīng),一部分進(jìn)入二沉池絮凝沉淀,二沉池底部污泥一部分回流至缺氧池參與生化反應(yīng),一部分廢棄污泥送至泥區(qū)處理。二沉池上清液由溢流口排出,污水得以凈化。
影響污水出水水質(zhì)質(zhì)量的因素很多[22-25],包括入水水量、入水水質(zhì)和回流污泥流量、混合液回流流量、溶解氧濃度、廢棄污泥流量等操作運(yùn)行工況參數(shù)。為建立污水出水水質(zhì)指標(biāo)軟測(cè)量模型,選擇對(duì)出水水質(zhì)指標(biāo)影響較大且生產(chǎn)現(xiàn)場(chǎng)容易采集的17 個(gè)過程變量作為模型的輸入,BOD5、化學(xué)需氧量COD、氨氮和SVI 這4 個(gè)水質(zhì)指標(biāo)分別作為模型的輸出,建立相應(yīng)的函數(shù)關(guān)系。
圖1 A/O生物脫氮工藝流程圖Fig.1 Flow chart of A/O biological denitrification process
當(dāng)輸入數(shù)據(jù)維度較高或隱含層節(jié)點(diǎn)個(gè)數(shù)高于樣本數(shù)時(shí),隱含層輸出矩陣可能存在高度共線性,使得輸出權(quán)重β 的最小二乘解不穩(wěn)定。為了避免SCN在構(gòu)建過程中出現(xiàn)傳統(tǒng)最小二乘算法的病態(tài)問題,本文采用PLS 嵌入到SCN 框架內(nèi)提取隱含層正交潛在變量取代最小二乘方法,從而解決隱含層共線性可能導(dǎo)致的輸出權(quán)值系數(shù)不穩(wěn)定問題,增強(qiáng)SCN模型的可靠性。
2.2.1 PLS-SCN 基本原理 PLS是處理噪聲和高度相關(guān)數(shù)據(jù)的最強(qiáng)大的線性回歸技術(shù)之一,通過正交特征投影將多元回歸轉(zhuǎn)化為若干個(gè)一元回歸,從而有效避免了最小二乘病態(tài)問題[28-30]。在SCN 框架下,假設(shè)構(gòu)造了L 個(gè)隱含節(jié)點(diǎn),當(dāng)H 空間和Y 空間已經(jīng)標(biāo)準(zhǔn)化為零均值和單位方差時(shí),PLS 用于線性建模一組響應(yīng)空間Y(N × m)與每一個(gè)隱含層特征空間HL(N × L)之間的關(guān)系:Y = HLβL,PLS+ EL,其中βL,PLS和EL分別為L 個(gè)隱含層的輸出權(quán)值和期望誤差,對(duì)于SCN 來說,隨機(jī)分配輸入權(quán)值和偏差來滿足式(1),然后生成一個(gè)新的隱含節(jié)點(diǎn)添加到當(dāng)前的學(xué)習(xí)模型中,結(jié)構(gòu)性地確定模型的輸出權(quán)值。PLS-SCN 模型表示為L個(gè)隱含層節(jié)點(diǎn)輸出矩陣和模型輸出矩陣之間的雙線性分解
圖2 SCN結(jié)構(gòu)原理圖Fig.2 Schematic diagram of stochastic configuration network structure
其 中 ,TL=[tL,1,tL,2,…,tL,lv]∈RN×lv和 UL=[uL,1,uL,2,…,uL,lv]∈RN×lv分別為L 個(gè)隱含層節(jié)點(diǎn)具有l(wèi)v 個(gè)主成分的H 空間和Y 空間的分?jǐn)?shù)向量;PL=[ pL,1,pL,2,…,pL,lv]∈RL×lv和QL=[qL,1,qL,2,…,qL,lv]∈Rm×lv分別表示為L 個(gè)隱含層節(jié)點(diǎn)H 空間和Y 空間的負(fù)載矢量;EL∈RN×L和FL∈RN×m分別為L 個(gè)隱含層節(jié)點(diǎn)H空間和Y空間的殘差。在內(nèi)部模型中,L個(gè)隱含層和輸出層之間的線性回歸是建立在潛在變量uk和tk之間的。
圖3為此次實(shí)驗(yàn)的PLS-SCN網(wǎng)絡(luò)結(jié)構(gòu)原理圖。2.2.2 PLS-SCN 基本算法 首先給定一個(gè)輸入X ={x1,x2,…,xN},xi=[xi,1,…,xi,d]T∈Rd的訓(xùn)練數(shù)據(jù)集及其 相 應(yīng) 的 輸 出 Y ={y1,y2,…,yN}, yi=[yi,1,…,yi,m]T∈Rm,i = 1,…,N,將隱含節(jié)點(diǎn)個(gè)數(shù)設(shè)為L,首次構(gòu)建SCN 模型時(shí),初始化模型誤差e0= Y,0 <r <1。設(shè)置最大隨機(jī)配置參數(shù)Tmax和λ,分配不同 輸 入 權(quán) 值 ωL和 偏 差 bL,eL-1(X)=[eL-1,1(X), eL-1,2(X),…,eL-1,m(X)] ∈RN×m作 為 添加第L 個(gè)隱含節(jié)點(diǎn)的誤差,計(jì)算第L 層的隱含層節(jié)點(diǎn)輸出
圖3 PLS-SCN結(jié)構(gòu)原理圖Fig.3 Schematic diagram of stochastic configuration network based on partial least squares structure
如果上述模型不滿足精度,重復(fù)上述步驟,直到lv達(dá)到最優(yōu)個(gè)數(shù)。
以沈陽某城市污水處理廠一年的實(shí)際水質(zhì)指標(biāo)為例,對(duì)提出的PLS-SCN 模型的性能進(jìn)行了測(cè)試。數(shù)據(jù)集采樣周期以天為單位,共收集到365 個(gè)樣本,其中以進(jìn)水COD 濃度、進(jìn)水SS濃度、進(jìn)水pH、進(jìn)水氨氮濃度、進(jìn)水流量、配水計(jì)量槽COD 濃度、配水計(jì)量槽懸浮物濃度、回流污泥流量、缺氧池氧化還原電位、好氧池氧化還原電位、曝氣池曝氣流量、缺氧池中溶解氧濃度、好氧池中溶解氧濃度、生化池污泥體積、生化池pH、生化池中混合液懸浮固體濃度、出水SS 濃度作為模型的輸入變量,以出水BOD5濃度、出水氨氮濃度、出水COD 濃度、生化池污泥體積指數(shù)分別作為模型的輸出變量。采用分段三次樣條插值方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,剔除數(shù)據(jù)中的離群點(diǎn)。數(shù)據(jù)集分為兩組,訓(xùn)練集和測(cè)試集,訓(xùn)練集包括305 個(gè)樣本,X1∈R305×17,Y1∈R305×4,測(cè)試集包括60 個(gè)樣本,X2∈R60×17,Y2∈R60×4,將數(shù)據(jù)集歸一化處理為零均值和單位方差。在SCN 預(yù)測(cè)模型的框架下,利用偏最小二乘正交投影分解隱含層矩陣和輸出矩陣,計(jì)算輸出權(quán)值。
圖4 累計(jì)預(yù)測(cè)殘差平方和PRESS曲線Fig.4 Cumulative predictive residual error sum of squares curve
實(shí)驗(yàn)中,設(shè)置誤差容忍度tol 為0.1,隨機(jī)配置最大次數(shù)Tmax為200,最大隱含節(jié)點(diǎn)個(gè)數(shù)Lmax從10開始每隔20 增加到200,隨機(jī)權(quán)重范圍λ 為{0.5,1,5,10,…,250}。不同隱含層節(jié)點(diǎn)最佳潛在變量個(gè)數(shù)lv 通過交叉校驗(yàn)累計(jì)預(yù)測(cè)殘差平方和(predictive residual error sum of squares,PRESS)自動(dòng)確定,PRESS 最小值對(duì)應(yīng)最佳潛在變量個(gè)數(shù)。圖4為累計(jì)預(yù)測(cè)殘差平方和PRESS 曲線,PRESS 最小值對(duì)應(yīng)最佳潛在變量個(gè)數(shù)為16。實(shí)驗(yàn)獨(dú)立重復(fù)運(yùn)行20 次,根據(jù)預(yù)測(cè)的均方根誤差(root mean square error,RMSE)評(píng)估模型。RMSE的計(jì)算公式如下
BOD、COD、氨氮和SVI 四個(gè)水質(zhì)指標(biāo)的SCN 模型和PLS-SCN模型在不同最大隱含節(jié)點(diǎn)個(gè)數(shù)L下訓(xùn)練與測(cè)試RMSE曲線如圖5所示。從圖5可以看出,在隱含層節(jié)點(diǎn)個(gè)數(shù)較少時(shí),SCN 模型和PLS-SCN 模型訓(xùn)練RMSE 曲線下降趨勢(shì)相同,同時(shí)測(cè)試結(jié)果非常接近,但是隨著隱含層節(jié)點(diǎn)個(gè)數(shù)的增加,SCN模型訓(xùn)練RMSE 持續(xù)降低,PLS-SCN 模型訓(xùn)練RMSE 下降到一定程度后保持穩(wěn)定。從測(cè)試結(jié)果看,隨著隱含層節(jié)點(diǎn)個(gè)數(shù)增加,PLS-SCN 模型測(cè)試RMSE 呈現(xiàn)下降趨勢(shì),但是SCN 模型RMSE 呈上升趨勢(shì),表明SCN模型出現(xiàn)過擬合現(xiàn)象。
表1 列出不同最大隱含層節(jié)點(diǎn)Lmax設(shè)置下,SCN模型與PLS-SCN 模型的訓(xùn)練RMSE 與測(cè)試RMSE,和實(shí)際模型隱含層節(jié)點(diǎn)數(shù)的統(tǒng)計(jì)均值??梢钥闯?,隨著所設(shè)定Lmax的增加,SCN 模型訓(xùn)練誤差呈現(xiàn)迅速下降趨勢(shì),測(cè)試誤差則是先下降,后迅速上升。這一結(jié)果表明了SCN 在Lmax設(shè)置較大時(shí),模型的泛化性惡化,而所提出的PLS-SCN 模型,訓(xùn)練和測(cè)試誤差均呈現(xiàn)下降趨勢(shì)。此外,表中給出了四項(xiàng)水質(zhì)指標(biāo)在相同設(shè)置條件下,模型的實(shí)際大小的統(tǒng)計(jì)量。可以看出隨著Lmax設(shè)置增大,SCN 模型會(huì)在未達(dá)到模型大小前,通過預(yù)先設(shè)定的訓(xùn)練誤差容忍度提前停止模型訓(xùn)練,一定程度上避免了過擬合。PLS-SCN 模型訓(xùn)練誤差下降較平滑,更容易調(diào)整參數(shù)。經(jīng)過實(shí)驗(yàn)對(duì)比可以得出,SCN 模型性能對(duì)于隱含層節(jié)點(diǎn)個(gè)數(shù)和容忍度參數(shù)設(shè)置敏感,PLS-SCN 模型一定程度上可以防止過擬合現(xiàn)象發(fā)生,具有良好的魯棒性能。
圖5 PLS-SCN與SCN模型訓(xùn)練和測(cè)試RMSE曲線對(duì)比Fig.5 The comparison of training and testing RMSE of PLS-SCN and SCN models
為了更直觀地表現(xiàn)PLS-SCN 的模型性能,圖6給出了5 天生化需氧量BOD5、氨氮NH、化學(xué)需氧量COD、污泥體積指數(shù)SVI 的實(shí)際化驗(yàn)值與模型預(yù)測(cè)值的對(duì)比。從圖6 中可以看出,PLS-SCN 模型的預(yù)測(cè)曲線比SCN 模型可以很好地?cái)M合實(shí)際化驗(yàn)值,水質(zhì)預(yù)報(bào)結(jié)果的穩(wěn)定性和可靠性優(yōu)于SCN模型。
為了更好地驗(yàn)證PLS-SCN 模型的性能,本文與偏最小二乘回歸(PLS)、偏最小二乘極限學(xué)習(xí)機(jī)(PLS-ELM)、支持向量機(jī)回歸(SVR)和偏最小二乘神經(jīng)網(wǎng)絡(luò)(PLS-NN)建模方法進(jìn)行了實(shí)驗(yàn)對(duì)比,如表2 所示。從表2 中可以看出,PLS-SCN 模型測(cè)試誤差明顯小于傳統(tǒng)PLS 模型和SVR 模型,PLS-SCN模型泛化性能優(yōu)于PLS-ELM 模型和PLS-NN 模型預(yù)測(cè)性能。通過上述實(shí)驗(yàn)對(duì)比可以得出,在隨機(jī)配置網(wǎng)絡(luò)框架內(nèi),用偏最小二乘法代替經(jīng)典最小二乘法,一定程度上改善了最小二乘方法因數(shù)據(jù)奇異引發(fā)的模型過擬合現(xiàn)象,降低了水質(zhì)預(yù)報(bào)風(fēng)險(xiǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了模型預(yù)報(bào)的有效性,可用于在線監(jiān)測(cè)污水處理過程的性能,能夠?qū)崟r(shí)地給出預(yù)測(cè)信息并進(jìn)行評(píng)估。
表2 不同建模方法水質(zhì)指標(biāo)測(cè)試性能均方根誤差對(duì)比Table 2 Comparison of root mean square error of water quality index test performance of different modeling methods
由于污水生化處理過程中往往存在多變量耦合、強(qiáng)非線性、參數(shù)時(shí)變、關(guān)鍵工藝指標(biāo)難以連續(xù)在線測(cè)量等問題,難以實(shí)現(xiàn)優(yōu)化控制和在線獲取水質(zhì)指標(biāo)。在這種復(fù)雜工況下,本文采用PLS-SCN 網(wǎng)絡(luò)對(duì)污水水質(zhì)指標(biāo)進(jìn)行建模,通過PLS 方法對(duì)SCN 模型的權(quán)重進(jìn)行改進(jìn)與訓(xùn)練,并將PLS-SCN 與傳統(tǒng)SCN 以及其他神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比。結(jié)果表明,在SCN 框架下,采用PLS改進(jìn)模型輸出權(quán)重,對(duì)隱含層矩陣和模型輸出矩陣進(jìn)行雙線性分解,保持正交性約束來提取潛在變量,使模型既保留了傳統(tǒng)SCN 的良好逼近性,又改善了模型過擬合問題,提高了模型泛化能力和預(yù)測(cè)精度,能夠?yàn)槲鬯幚韽S的水質(zhì)指標(biāo)提供良好的預(yù)測(cè)估計(jì)與跟蹤。
符 號(hào) 說 明
DO1——缺氧池中溶解氧濃度,mg·L-1
DO2——好氧池中溶解氧濃度,mg·L-1
MLSS——生化池中混合液懸浮固體濃度,g·L-1
圖6 水質(zhì)指標(biāo)預(yù)測(cè)對(duì)比Fig.6 Prediction comparison of effluent quality index
ORP1——缺氧池氧化還原電位,mV
ORP2——好氧池氧化還原電位,mV
Qair——曝氣池曝氣流量,m3·d-1
Qi——進(jìn)水流量,m3·d-1
Qr——回流污泥流量,m3·d-1
SV——生化池污泥體積,mg·L-1
SVI——生化池污泥體積指數(shù),ml·g-1
Zb,pH——生化池pH
Ze,BOD——出水BOD5濃度,mg·L-1
Ze,COD——出水COD濃度,mg·L-1
Ze,NH——出水氨氮濃度,mg·L-1
Ze,SS——出水SS濃度,mg·L-1
Zi,COD——進(jìn)水COD濃度,mg·L-1
Zi,NH——進(jìn)水氨氮濃度,mg·L-1
Zi,pH——進(jìn)水pH
Zi,SS——進(jìn)水SS濃度,mg·L-1
Zp,COD——配水計(jì)量槽COD濃度,mg·L-1
Zp,SS——配水計(jì)量槽懸浮物濃度,mg·L-1