孫天一,王晨越,劉宏偉,王 斌
(東北農(nóng)業(yè)大學(xué) 水利與土木工程學(xué)院,哈爾濱 150030)
水資源是基礎(chǔ)性的自然資源和戰(zhàn)略性的經(jīng)濟(jì)資源,是人類生存和經(jīng)濟(jì)社會(huì)發(fā)展不可替代的基本要素,良好的水質(zhì)對(duì)于實(shí)現(xiàn)國(guó)家和社會(huì)的可持續(xù)發(fā)展具有重要意義。當(dāng)前,中國(guó)水資源面臨的形勢(shì)仍十分嚴(yán)峻,水資源短缺、水利用效率低、水生態(tài)環(huán)境惡化等問(wèn)題正日益突出,已成為制約中國(guó)經(jīng)濟(jì)社會(huì)可持續(xù)發(fā)展的主要瓶頸,掌握河流、湖泊等水體的水質(zhì)狀況并對(duì)其進(jìn)行合理評(píng)估顯得尤為重要。近年來(lái),隨著研究方法的不斷創(chuàng)新,涌現(xiàn)出了多種水質(zhì)評(píng)價(jià)方法。其中常被采用的是單因子評(píng)價(jià)法,即將實(shí)測(cè)水質(zhì)指標(biāo)數(shù)據(jù)與《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)(GB 3838-2002)》中的基本項(xiàng)目標(biāo)準(zhǔn)限值進(jìn)行對(duì)比,從而選取單個(gè)指標(biāo)評(píng)價(jià)最差的類別作為水質(zhì)最終評(píng)價(jià)結(jié)果,目前,中國(guó)環(huán)境監(jiān)測(cè)總站即采用這種方法評(píng)價(jià)全國(guó)主要流域重點(diǎn)斷面水質(zhì)狀況。單因子評(píng)價(jià)法簡(jiǎn)便快捷,評(píng)價(jià)結(jié)果直觀,當(dāng)監(jiān)測(cè)數(shù)據(jù)有保障時(shí),能夠快速對(duì)水質(zhì)情況做出實(shí)時(shí)判斷。然而,這種利用多個(gè)指標(biāo)進(jìn)行評(píng)判、最后只選取一項(xiàng)指標(biāo)對(duì)應(yīng)類別的評(píng)價(jià)方式過(guò)于片面,沒(méi)有兼顧各個(gè)評(píng)價(jià)指標(biāo)的權(quán)重,夸大了單項(xiàng)指標(biāo)對(duì)水質(zhì)的影響,且忽略了各等級(jí)間存在的界限模糊性,在應(yīng)用中可能會(huì)產(chǎn)生與現(xiàn)實(shí)不符的水質(zhì)評(píng)價(jià)結(jié)果。
投影尋蹤(Projection Pursuit,PP)的基本思想是將高維數(shù)據(jù)投影到低維(通常為1-3維)的子空間上,從而尋找能夠反映原高維數(shù)據(jù)的結(jié)構(gòu)或特征的投影,以達(dá)到研究高維數(shù)據(jù)的目的[1]。引入投影尋蹤方法不但可以解決水質(zhì)評(píng)價(jià)的多指標(biāo)綜合評(píng)判問(wèn)題,還可以對(duì)各種水質(zhì)指標(biāo)對(duì)水質(zhì)評(píng)價(jià)的影響程度進(jìn)行合理分析,這對(duì)于制定及校核水質(zhì)等級(jí)標(biāo)準(zhǔn)具有現(xiàn)實(shí)意義。構(gòu)造與優(yōu)化投影指標(biāo)函數(shù)是應(yīng)用投影尋蹤方法的關(guān)鍵,這項(xiàng)工作較復(fù)雜,也在一定程度上限制了投影尋蹤方法的廣泛應(yīng)用。在采用投影尋蹤方法評(píng)價(jià)水質(zhì)時(shí),以往學(xué)者采用過(guò)遺傳算法、蟻群算法、粒子群算法、蛙跳算法、狼群算法、蜂群算法、差分進(jìn)化算法、螢火蟲(chóng)算法等優(yōu)化投影指標(biāo)函數(shù)[2-9]。自由搜索(Free Search,F(xiàn)S)是KalinPenev等提出的一種基于群體的優(yōu)化算法,具有參數(shù)少、編程實(shí)現(xiàn)簡(jiǎn)便、尋優(yōu)能力高等優(yōu)點(diǎn)[10],文章在傳統(tǒng)投影尋蹤方法基礎(chǔ)上,建立基于自由搜索的投影尋蹤水質(zhì)評(píng)價(jià)模型(Projection Pursuit Model for Assessment of Water Quality based on Free Search,PPFS模型),將水質(zhì)評(píng)價(jià)的多指標(biāo)問(wèn)題綜合成單一指標(biāo)形式,繼而建立一個(gè)簡(jiǎn)單的、可與水質(zhì)實(shí)時(shí)評(píng)價(jià)對(duì)接的回歸模型,以期為我國(guó)主要流域重點(diǎn)斷面水質(zhì)評(píng)價(jià)工作提供參考和借鑒。
設(shè)水質(zhì)標(biāo)準(zhǔn)等級(jí)值及各水質(zhì)指標(biāo)的樣本集分別為y和X=(x1,x2,……,xn)=(xki)q×n,其中q為水質(zhì)指標(biāo)的樣本數(shù)目,k=1,…2,…,q,以下同;n為水質(zhì)評(píng)價(jià)指標(biāo)數(shù)目,i=1,2,……,n,以下同。由于各水質(zhì)評(píng)價(jià)指標(biāo)的量綱及指標(biāo)值的變化范圍都不盡相同,為保證評(píng)價(jià)結(jié)果的可靠性和精度,采用下式對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:
(1)
式中:xi為水質(zhì)指標(biāo)樣本中第i個(gè)指標(biāo)的均值;si為si水質(zhì)指標(biāo)樣本中第i個(gè)指標(biāo)的標(biāo)準(zhǔn)差。
(2)
式中:z為投影值;a(i)為投影方向分量。
為了保證投影值對(duì)因變量具有很好的解釋性,可令z的標(biāo)準(zhǔn)差Sz盡可能大,同時(shí)使z與y相關(guān)系數(shù)的絕對(duì)值|Rzy|也盡可能大,據(jù)此,投影指標(biāo)函數(shù)可構(gòu)造為maxF(a)=Sz|Rzy|。
設(shè)FS中動(dòng)物個(gè)體每步探查行走的位置為投影方向,采用下面的數(shù)組進(jìn)行編碼:
(3)
式中:T為限制步伐數(shù),t=1,2,……,T;n為搜索空間維數(shù),i=1,2,……,n;A為第j個(gè)動(dòng)物T步探查時(shí)的位置矩陣;at為第j個(gè)動(dòng)物第t步探查時(shí)的位置;m為動(dòng)物群體大小,j=1,2,……,m;atij為第j個(gè)動(dòng)物第t步探查時(shí)第i維的位置分量。
1.3.1 算法初始化
采用隨機(jī)化初始策略:
atij=aimin+aimax-aiminrandomij(0,1)
(4)
式中:aimin、aimax為第i維搜索空間的邊界;randomij(0,1)為介于[0,1]之間的隨機(jī)數(shù),以下同。
1.3.2 探查
通過(guò)下式探查行走,更新動(dòng)物個(gè)體位置:
atij=a0ij-atij+2?atijrandomij(0,1)
(5)
式中:atij=Rij(aimax-aimin)randomtij(0,1),Rij∈[Rmin,Rmax]。
在探查行走過(guò)程中,動(dòng)物個(gè)體的行為可以表示為:
Ftj=F(atij),
Fj=max(Ftj)
(6)
信息素Pj按下式更新:
Pj=Fj/max(Fj)
(7)
敏感性Sj按下式更新:
Sj=Smin+Sj
(8)
式中:Sj=(Smax-Smin)randomj(0,1),Smin=Pmin,Smax=Pmax。
最后,選擇和決策下1次探查行走的開(kāi)始位置:
(9)
式中:l=1,2,……,m。
1.3.3 算法終止
算法判斷是否滿足設(shè)定的終止條件,如果滿足說(shuō)明已經(jīng)搜索到可以接受的最優(yōu)解,則輸出尋優(yōu)結(jié)果,不滿足則繼續(xù)探查搜索。
將尋優(yōu)得到的最佳投影方向的估計(jì)值a*代入式(2),得到各樣本投影值z(mì),根據(jù)z與y的散點(diǎn)圖可建立相應(yīng)的數(shù)學(xué)模型。
中國(guó)環(huán)境監(jiān)測(cè)總站對(duì)全國(guó)主要水系(松花江、遼河、海河、淮河、黃河、長(zhǎng)江、珠江、海南島內(nèi)河流、浙閩河流、西南諸河、內(nèi)陸河流、太湖、巢湖、滇池、其它大型湖泊等)的約100-150個(gè)重點(diǎn)斷面進(jìn)行了水質(zhì)自動(dòng)監(jiān)測(cè),監(jiān)測(cè)指標(biāo)包括酸堿度(pH)、溶解氧(DO)、高錳酸鹽指數(shù)(CODMn)和氨氮(NH3-N)4項(xiàng),并將水質(zhì)評(píng)價(jià)結(jié)果以周報(bào)等形式發(fā)布。由于中國(guó)環(huán)境監(jiān)測(cè)總站采用單因子法對(duì)水質(zhì)進(jìn)行分級(jí),水質(zhì)評(píng)價(jià)結(jié)果為評(píng)價(jià)時(shí)段內(nèi)某單個(gè)指標(biāo)所處的最高等級(jí)。文章選取2018年第52周(12月24日-12月30日))的水質(zhì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行建模與分析,由于儀器故障、河流斷流等原因,存在未監(jiān)測(cè)斷面和2個(gè)缺少CODMn、NH3-N指標(biāo)數(shù)據(jù)的斷面,因此,最后選取143個(gè)斷面的水質(zhì)監(jiān)測(cè)數(shù)據(jù),運(yùn)用PPFS模型評(píng)價(jià)水質(zhì)等級(jí)。
根據(jù)《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)GB3838-2002》,選擇pH、DO、CODMn、NH3-N4個(gè)水質(zhì)指標(biāo)的等級(jí)劃分標(biāo)準(zhǔn),全國(guó)主要流域重點(diǎn)斷面水質(zhì)指標(biāo)的等級(jí)劃分標(biāo)準(zhǔn),見(jiàn)表1。
表1 全國(guó)主要流域重點(diǎn)斷面水質(zhì)指標(biāo)的等級(jí)劃分標(biāo)準(zhǔn)
將表1每個(gè)等級(jí)區(qū)間的邊界值作為一個(gè)樣本值,在各等級(jí)區(qū)間內(nèi)利用均勻隨機(jī)數(shù)隨機(jī)產(chǎn)生5個(gè)樣本值,構(gòu)成評(píng)價(jià)指標(biāo)樣本集,與對(duì)應(yīng)水質(zhì)等級(jí)值(即將Ⅰ類、Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類5個(gè)等級(jí)分別賦值為1、2、3、4和5)共組成31個(gè)樣本點(diǎn),考慮到五類水質(zhì)等級(jí)劃分的pH標(biāo)準(zhǔn)均為6-9,對(duì)水質(zhì)等級(jí)的劃分結(jié)果沒(méi)有影響,因此不考慮pH的貢獻(xiàn)。根據(jù)PPFS建模過(guò)程前3個(gè)步驟,利用這些樣本點(diǎn)數(shù)據(jù)進(jìn)行分析,尋優(yōu)得到的最佳投影方向a*為(-0.5337,0.5931,0.6029)。由于最佳投影方向各分量絕對(duì)值的大小實(shí)際上反映了各種水質(zhì)指標(biāo)對(duì)水質(zhì)評(píng)價(jià)的影響程度,分量絕對(duì)值越大則與之對(duì)應(yīng)的水質(zhì)指標(biāo)的影響程度就越大,因此,最佳投影方向表明NH3-N、CODMn、DO對(duì)水質(zhì)影響程度依次減小。將a*代入式(2)得到各樣本投影值的計(jì)算值z(mì),并繪制出z與y之間的散點(diǎn)圖,水樣投影值z(mì)與水質(zhì)等級(jí)y的散點(diǎn)圖,見(jiàn)圖1。
圖1 水樣投影值z(mì)與水質(zhì)等級(jí)y的散點(diǎn)圖
根據(jù)z與y之間散點(diǎn)圖的分布趨勢(shì)性,采用三次曲線來(lái)描述投影值與水質(zhì)等級(jí)之間的關(guān)系,所得水質(zhì)評(píng)價(jià)的PPFS模型見(jiàn)下式:
y=-0.00483z3+0.0027z2+1.1144z+2.9383
(10)
將各斷面的NH3-N、CODMn、DO的實(shí)測(cè)值的投影值,將其帶入上式,即可評(píng)價(jià)個(gè)斷面的水質(zhì)等級(jí)。
經(jīng)統(tǒng)計(jì),在所選取的143個(gè)斷面中,有63個(gè)斷面的水質(zhì)評(píng)價(jià)結(jié)果與單因子評(píng)結(jié)果相同,另有80個(gè)斷面的水質(zhì)結(jié)果與單因子評(píng)價(jià)結(jié)果不同。在相同和不同的評(píng)價(jià)結(jié)果中,分別選取15個(gè)斷面為例,制成2個(gè)表格:PPFS模型計(jì)算值與單因子評(píng)價(jià)值不同的結(jié)果對(duì)比,見(jiàn)表2;PPFS模型計(jì)算值與單因子評(píng)價(jià)值一致的結(jié)果對(duì)比,見(jiàn)表3。
表2 PPFS模型計(jì)算值與單因子評(píng)價(jià)值不同的結(jié)果對(duì)比
表3 PPFS模型計(jì)算值與單因子評(píng)價(jià)值一致的結(jié)果對(duì)比
續(xù)表3 PPFS模型計(jì)算值與單因子評(píng)價(jià)值一致的結(jié)果對(duì)比
從表2和表3結(jié)果可以看出,單因子評(píng)價(jià)方法的評(píng)價(jià)結(jié)果是離散的水質(zhì)等級(jí),對(duì)水質(zhì)級(jí)別的分辨率較粗,即使同屬于同一級(jí)別的水質(zhì),它們對(duì)應(yīng)的各水質(zhì)指標(biāo)值常常相差顯著,而在現(xiàn)實(shí)的水質(zhì)評(píng)價(jià)工作中,水質(zhì)等級(jí)值一般是連續(xù)的實(shí)數(shù)值。PPFS模型的評(píng)價(jià)過(guò)程不需人為干預(yù),所得結(jié)果僅與輸入的指標(biāo)監(jiān)測(cè)數(shù)據(jù)有關(guān),水質(zhì)評(píng)價(jià)結(jié)果是更連續(xù)的實(shí)數(shù)值,且能夠考慮DO、CODMn、NH3-N對(duì)水質(zhì)評(píng)價(jià)的綜合影響,對(duì)于制定和檢驗(yàn)水質(zhì)等級(jí)劃分標(biāo)準(zhǔn)也具有參考意義。
投影尋蹤方法直接面向樣本數(shù)據(jù),并且能夠避免因高維點(diǎn)稀疏分布而導(dǎo)致的一系列問(wèn)題,可以找到樣本間的內(nèi)在規(guī)律,能夠在一定的程度上解決非線性的高維問(wèn)題;自由搜索算法的全局搜索能力好,收斂速度較快,尋優(yōu)精度較高,能夠快速精準(zhǔn)地找到數(shù)據(jù)的最佳投影方向。因此,可以耦合投影尋蹤和自由搜索2種算法構(gòu)建水質(zhì)評(píng)價(jià)模型。單因子水質(zhì)評(píng)價(jià)模型的計(jì)算結(jié)果大多是一些離散的水質(zhì)等級(jí)值,分辨率較粗。文中提出PPFS模型對(duì)水質(zhì)的評(píng)價(jià)結(jié)果為連續(xù)實(shí)數(shù)值,且根據(jù)最佳投影方向各分量的絕對(duì)值的大小可進(jìn)一步分析各水質(zhì)指標(biāo)對(duì)水質(zhì)等級(jí)影響的程度,據(jù)此可檢驗(yàn)水質(zhì)評(píng)價(jià)標(biāo)準(zhǔn)的合理性。實(shí)例的計(jì)算結(jié)果表明PPFS可用于評(píng)價(jià)全國(guó)主要流域重點(diǎn)斷面的水質(zhì)。