薛亞婷 吳升偉 王江濤
(1.中煤航測遙感集團有限公司,陜西 西安 710199;2.中煤地西安地圖制印有限公司,陜西 西安 710199)
隨著社會的發(fā)展,水環(huán)境污染日益加重,水體污染帶來的危害也日益凸顯。因此找到一種合適的方法對小流域水環(huán)境質(zhì)量進行評估,并對變化趨勢進行預(yù)測,提前采取行動緩解污染速度,改善水質(zhì)是非常必要的。機器學(xué)習(xí)算法提供了一種可靠、有效、先進的水質(zhì)預(yù)測方法,它建立的水質(zhì)預(yù)測模型屬于非機理型模型,不依賴于水質(zhì)變化的化學(xué)原理,而是依據(jù)數(shù)據(jù)本身的規(guī)律和特點進行預(yù)測[1]。
當(dāng)前,各國開始將神經(jīng)網(wǎng)絡(luò)、回歸分析、灰色系統(tǒng)理論等融入水質(zhì)預(yù)測中,提高了預(yù)測的廣泛性及準確度[2-5],如肖金球等[6]提出了一種改進型的 GA-BP神經(jīng)網(wǎng)絡(luò),采用雙隱含層和7個隱含層節(jié)點進行仿真訓(xùn)練;Amir et al.[7]探討了不同的核函數(shù)對水質(zhì)預(yù)測結(jié)果的影響;周志青等[8]提出了一種將ARIMA和RBF-NN耦合的模型;馬晉等[9]基于地下水水質(zhì)指標,通過邏輯分析將地下水分為4個等級。本文在現(xiàn)有研究的基礎(chǔ)上,為提高預(yù)測精度,避免模型單一造成的區(qū)域水質(zhì)預(yù)測結(jié)果偏差,分別利用神經(jīng)網(wǎng)絡(luò)模型、支持向量機模型和邏輯回歸模型對赤水河流域的水質(zhì)進行預(yù)測,并分析比較3種模型的預(yù)測結(jié)果。將一部分水質(zhì)、環(huán)境、氣象數(shù)據(jù)作為訓(xùn)練集,利用3種機器學(xué)習(xí)方法對數(shù)據(jù)進行訓(xùn)練建模,對之后一段時間的水質(zhì)等級進行預(yù)測,對赤水河流域水質(zhì)治理提供思路。
赤水河為簡陽市管河流絳溪河的支流,自成都市龍泉驛區(qū)開始,從北向南,途中經(jīng)過石盤水庫、赤水鋪等地區(qū),最終匯入絳溪河,流域面積約60km2,平均流量0.68m3/s,流域內(nèi)存在15個采樣點。流域近年來存在嚴重的污染問題,一是居民在河邊丟棄大量建筑廢料;二是流域內(nèi)養(yǎng)殖業(yè)管理不嚴,加之一些農(nóng)家樂整改不到位,使該流域的水質(zhì)問題一直受到環(huán)保部門的關(guān)注。
實驗數(shù)據(jù)包括2019年流域內(nèi)15個采樣點的日實測水質(zhì)數(shù)據(jù)、研究區(qū)氣象數(shù)據(jù)、研究區(qū)環(huán)境數(shù)據(jù)。
a.水質(zhì)數(shù)據(jù):利用水質(zhì)監(jiān)測設(shè)備,采集了2019年流域內(nèi)15個采樣點的總氮、總磷、COD、氮磷日數(shù)據(jù)。
AntConc統(tǒng)計結(jié)果表明,在52篇中方報道中出現(xiàn)906處介入資源的表達形式,其中“對話性擴展”737處(81.35%),“對話性壓縮”169處(18.65%),具體分布見表1:
b.氣象數(shù)據(jù):數(shù)據(jù)由中國氣象數(shù)據(jù)網(wǎng)下載,選擇離流域最近的龍泉驛區(qū)氣象站點數(shù)據(jù)。氣象數(shù)據(jù)包含累計降水量、風(fēng)速、風(fēng)向、氣溫、濕度、氣壓6項指標。
c.環(huán)境數(shù)據(jù):數(shù)據(jù)包含PM2.5、PM10、SO2、NO2、AQI、CO、O37項指標。
Python是近些年來非常流行的一種深度學(xué)習(xí)語言,相對于Matlab、SPSS這些常規(guī)的水質(zhì)預(yù)測研究平臺來說,它能夠?qū)λ惴ㄟM行修改,將成果制作成程序,既可以用于研究學(xué)習(xí),也可以用于產(chǎn)品開發(fā)。研究中主要使用了Python中的statsmodels模塊,以確定計算自相關(guān)、偏相關(guān)系數(shù),完成ADF單位根檢驗等數(shù)據(jù)統(tǒng)計功能;使用了matplotlib模塊,以實現(xiàn)繪制自相關(guān)圖和偏相關(guān)圖功能;使用了sklearn模塊,以實現(xiàn)對訓(xùn)練集和算法的封裝等功能。
在建模之前需要對數(shù)據(jù)進行預(yù)處理,確定參數(shù)之后再建立模型,具體流程見圖1。
圖1 3種模型的預(yù)測流程
1.4.1 數(shù)據(jù)歸一化
BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層、輸出層構(gòu)成[13]。輸入層神經(jīng)元即輸入的水質(zhì)指標,包括2019年每日的總磷、總氮、溫度等17個指標。隱含層層數(shù)及每層神經(jīng)元個數(shù)需要根據(jù)實際情況確定,由于輸入神經(jīng)元個數(shù)過多,為避免神經(jīng)元過載,故采用4層隱含層,每層神經(jīng)元個數(shù)分別為8、16、16、8。輸出層即為水質(zhì)預(yù)測等級,由《地表水環(huán)境質(zhì)量標準》(GB 3838—2002)將水質(zhì)分為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ5個等級,將其分別對應(yīng)數(shù)字1、2、3、4、5,并以輸出等級作為輸出層。
采用雙盲法閱片,與1位病理醫(yī)師一起獨立觀察每張切片中隨機5個不重疊的視野。評分及陽性判斷標準[7,8]:①按著色強度:無染色為0分,淺黃色為1分,棕黃色為2分,深褐色為3分;②按陽性細胞比例:<5%為 0分,5%~25%為 1分,26%~50%為2分,51%~75%為3分,>75%為4分;兩項相乘,0~1分為陰性,2~4分為弱陽性,5~8分為中度陽性,9分以上為強陽性。
y=(x-xmin)/(xmax-xmin)
(1)
邏輯回歸建模主要過程為:收集各項相關(guān)數(shù)據(jù),確定正則化項及其參數(shù),以及優(yōu)化方法,進行模型訓(xùn)練和精度檢驗。本研究選用2019年前255天的17項水質(zhì)影響因子作為訓(xùn)練樣本,將2019年后110天的水質(zhì)預(yù)測結(jié)果作為驗證集,設(shè)置最大循環(huán)次數(shù)為100次,參數(shù)C為1,選用L2正則化項,運行模型得到預(yù)測結(jié)果。
1.4.2 劃分訓(xùn)練集與測試集
本研究以2019年日采樣數(shù)據(jù)作為實驗數(shù)據(jù),共有365組實驗數(shù)據(jù),將數(shù)據(jù)以7∶3的比例劃分為訓(xùn)練樣本和測試樣本,具體來說,前255組數(shù)據(jù)為訓(xùn)練樣本,后110組數(shù)據(jù)為測試樣本。
本文選取總氮、總磷、化學(xué)需氧量(COD)3個指標作為評價因子。采用《地表水環(huán)境質(zhì)量標準》(GB 3838—2002)作為評價標準,其中總磷、總氮、COD 3項因子具體分類標準見表1。
表1 水質(zhì)等級分類標準
本研究根據(jù)每個采樣點的水質(zhì)等級,利用空間插值的方法實現(xiàn)水質(zhì)等級的空間可視化,從而對水質(zhì)污染空間分布和時間分布進行分析。
國網(wǎng)德陽供電公司所轄10 kV風(fēng)孟線線路以110 kV風(fēng)光變電站10 kV母線為電源點,線路主要信息如下:
a.根據(jù)《地表水環(huán)境質(zhì)量標準》(GB 3838—2002)劃分等級。
b.利用反距離權(quán)重插值表達空間分布。對區(qū)域內(nèi)15個采樣點進行空間插值,得到了整個河流的等級分布[11],結(jié)果見圖2。
臨床常用糖皮質(zhì)激素助減劑還包括羥氯喹、甲氨蝶呤、環(huán)孢素A等。羥氯喹通過對白細胞的抑制作用起到抗炎效果,同時可阻止免疫反應(yīng),對治療DM有一定的效果,與激素同服能顯著改善皮疹癥狀,患者耐受性好,且不良反應(yīng)相對其他免疫抑制劑小,但也需注意神經(jīng)、肌肉、眼部視網(wǎng)膜的損害。甲氨蝶呤長期以來被用于治療IIM 及IIM合并ILD,但此藥可能導(dǎo)致的肺毒性常難以與漸進的IIM合并ILD相區(qū)分,因而目前應(yīng)用很少[32]。環(huán)孢素A聯(lián)合激素能更好地改善患者的生存率[33-34],但須監(jiān)測其血藥濃度及不良反應(yīng)。本研究1例患者治療ARDS后,應(yīng)用環(huán)孢素A效果良好,激素劑量減半。
圖2 2019年每月平均水質(zhì)等級空間分布
根據(jù)評價標準進行綜合評價后,最終將赤水河流域水質(zhì)劃分為5級,各采樣點的水質(zhì)等級占比見表2。
表2 各采樣點水質(zhì)等級占比
從圖2來看,流域上游水質(zhì)污染相對較輕,基本為Ⅱ類水或Ⅲ類水;而流域中游及下游污染較重,大多數(shù)河段為Ⅲ類水或Ⅳ類水。水質(zhì)在不同的季節(jié)出現(xiàn)了不同的污染情況:當(dāng)天氣逐漸變得炎熱多雨時,水質(zhì)開始從Ⅱ類、Ⅲ類水逐漸過渡到Ⅳ類、Ⅴ類水;而在降溫、降水減少之后,水質(zhì)開始好轉(zhuǎn)。7—9月全河段污染最為嚴重,而其他月份污染相對較輕。主要是因為從7月初開始赤水河流域進入雨季,一直到9月中旬降雨強度都較大,化肥農(nóng)藥、生活污水、牲畜排泄物等隨著地表徑流進入河道,加重了水中的氮、磷等污染。隨著溫度的升高,水中的氮、磷等元素為藻類的生長提供了條件,水體持續(xù)惡化。大約10月左右,由于雨水的減少及溫度的下降,水質(zhì)開始好轉(zhuǎn)。
神經(jīng)網(wǎng)絡(luò)建模主要過程為:收集各項相關(guān)數(shù)據(jù),確定模型參數(shù)和模型框架,進行模型訓(xùn)練和精度檢驗。本研究選用2019年前255天的17項水質(zhì)影響因子作為訓(xùn)練樣本,將2019年后110天的水質(zhì)預(yù)測結(jié)果作為驗證集,最大循環(huán)次數(shù)200次,選用L2正則化項,設(shè)置最初學(xué)習(xí)速度0.001。
BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程分為信號正向、反向傳播兩部分,每一相鄰神經(jīng)元之間具有一定初始權(quán)值。水質(zhì)影響因子作為輸入神經(jīng)元由輸入層進入模型,經(jīng)過隱含層以及激活函數(shù)計算處理后,將輸出的結(jié)果與預(yù)計的結(jié)果進行對比,如果相差過大,則向反方向傳輸信號,從而根據(jù)誤差反饋結(jié)果重新調(diào)節(jié)各層之間的權(quán)值。不斷重復(fù)上述過程,經(jīng)過反復(fù)的權(quán)值修正,最后誤差信號被控制在一定范圍內(nèi),樣本訓(xùn)練結(jié)果也更加接近預(yù)期要求[12](見圖3)。
圖3 神經(jīng)網(wǎng)絡(luò)原理示意圖
3.2.1 確定網(wǎng)絡(luò)結(jié)構(gòu)
在進行樣本訓(xùn)練前需要進行歸一化操作,以保證各項因子數(shù)量級在一個層面,避免某些因子過大導(dǎo)致占比較大,或某些因子過小導(dǎo)致占比較小,從而導(dǎo)致一些因子沒有發(fā)揮作用[10]。歸一化公式為
3)開關(guān)量接點豐富,繼電保護測試儀7路接點輸入和2對空接點輸出,輸入接點為空接點和0~250V接點兼容;同時其自我保護結(jié)構(gòu)設(shè)計具備一定散熱性,本身具有可靠完善的多種保護措施和電源軟啟動,因此,微機繼電保護裝置整體性價比較高。
對方似乎是在對第一句“飛翔的種子”進行解釋,但這種解釋,反而令他更加覺得云山霧罩。鴻鵠、月酌、朱雀、鳶楚……這些東西,他隱約覺得有些耳熟,似乎是以前從哪里聽說過,但直到對方最后說出了“青鸞”,他才終于想起,這些東西都是什么了。
網(wǎng)格搜索法(GridSearchCV)是確定最佳參數(shù)C和γ的一個普遍方法,顧名思義其主要思想就是通過搜索網(wǎng)格節(jié)點來確定參數(shù)[14]。設(shè)置C可取數(shù)值為0.1、1、10、100、1000,γ可取數(shù)值為0.001、0.01、0.1、1、10,在網(wǎng)格交點處便可形成兩個參數(shù)的任意組合,共有20種組合方式,通過自動調(diào)參容器對這20種組合進行遍歷,便可得到精度最佳的一組參數(shù)。經(jīng)過實驗,得到最佳參數(shù)C為100,γ為1。
石城地區(qū)含礦偉晶巖一般分帶狀構(gòu)造不明顯,僅在部分礦體內(nèi)見到一、二帶或部分礦體局部地方見到較好的帶狀構(gòu)造,經(jīng)綜合研究分析,石城地區(qū)含礦偉晶巖原生帶狀構(gòu)造和交代的帶狀構(gòu)造在水平和垂直空間上的變化規(guī)律如下:
選擇L2正則化項。正則化項其實是對原函數(shù)的一種約束,它可以避免出現(xiàn)過度擬合的情況。常見的正則化項有L1、L2,其中,L2正則化適應(yīng)性強,能夠有效地抗干擾,它傾向于建立一個參數(shù)較小的模型,具有較廣的應(yīng)用性。
3.2.3 確定激活函數(shù)
選擇relu作為激活函數(shù)。relu是一種非線性激活函數(shù),對于深層網(wǎng)絡(luò)具有意義,能夠利用各層的復(fù)雜組合及運算,模擬各種函數(shù),被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)之中,效率高且精度高,沒有經(jīng)過預(yù)訓(xùn)練也能達到很好的效果,被廣泛應(yīng)用于深度學(xué)習(xí)。
支持向量機建模主要過程為:收集各項相關(guān)數(shù)據(jù),確定核函數(shù)、參數(shù)C和γ,進行模型訓(xùn)練和精度檢驗。本研究選用2019年前255天的17項水質(zhì)影響因子作為訓(xùn)練樣本,將2019年后110天的水質(zhì)預(yù)測結(jié)果作為驗證集,設(shè)置初始參數(shù)C為1,γ為10,并利用網(wǎng)格搜索法確定最佳參數(shù),最后運行模型得到預(yù)測結(jié)果。
利用支持向量機進行回歸預(yù)測,其實質(zhì)就是找到一個分割面來對不同類別進行分類,這個平面稱為超平面。一般來說樣本都是非線性的,只能找到一個曲面來劃分類別,不可能通過一個平面來實現(xiàn),由此引入核函數(shù)的概念,通過升高維數(shù)來解決這個問題。
式(2)代表了超平面,其中ω為權(quán)值向量,xi為樣本向量,a為分類界值。
ωxi+a=0
(2)
(3)
4.2.1 確定核函數(shù)
榜樣是在學(xué)習(xí)過程中表現(xiàn)突出的一個典范,他能帶動其他人一起奮進,影響其他人的學(xué)習(xí)進程。教師在教學(xué)活動中充當(dāng)著學(xué)生的榜樣,教師的一言一行都在無形中影響學(xué)生的學(xué)習(xí)態(tài)度、學(xué)習(xí)效果。在小學(xué)生的心里,教師的語言和行為就是自身語言和行為的指標,他們遵循這個指標來規(guī)范自己的言行,從而完善自身。教師要注意自己的言行舉止,為學(xué)生打下良好的榜樣,促進學(xué)生的發(fā)展。教師還可以將優(yōu)秀的學(xué)生樹立為班級的榜樣,以優(yōu)秀生帶普通生,實現(xiàn)全班的進步。在教學(xué)過程中,教師要讓優(yōu)秀生充分發(fā)揮榜樣的作用,讓學(xué)生跟隨他們的腳步,共同發(fā)展,共同進步。
車輛在運行過程中,隨著線路曲線的變化,車端跨接線纜被動地進行伸展和收縮運動,因此跨接線纜的復(fù)雜受力運動情況成為影響跨接線纜使用壽命的重要因素[2]。
(4)
式中:xc為核函數(shù)中心;σ為函數(shù)寬度。
4.2.2 確定相關(guān)參數(shù)
模型參數(shù)的選擇決定了模型的優(yōu)劣,當(dāng)參數(shù)過小時,可能出現(xiàn)訓(xùn)練不夠、精度不高的情況,反之,可能出現(xiàn)過度學(xué)習(xí)浪費系統(tǒng)資源的情況。懲罰系數(shù)C決定了對實驗誤差的忍受度,C的值越高,表示越不能容忍;γ為徑向基函數(shù)參數(shù),決定了數(shù)據(jù)的學(xué)習(xí)程度。
語言的豐富意蘊體現(xiàn)在它所塑造的人物形象身上。從小說的語言描寫中,可以發(fā)現(xiàn)蘇比是一個可憐而又讓人鄙視的人。說其可憐,那是因為文中的蘇比生活在一個貧窮的環(huán)境里。他在寒冷的冬天因沒有自己的住所而露宿街頭,只好躺在那里因為寒冷而輾轉(zhuǎn)反側(cè)。說其讓人鄙視,那是因為他憑借自己健壯的身體足以改變自己的命運,但他卻把監(jiān)獄當(dāng)作自己的最高追求。于是他想盡辦法來實現(xiàn)自己的這一偉大的構(gòu)想:
3.2.2 確定正則化項
(1)深一含粉細砂壓縮層(B5):處于該層組頂部,由細砂及粉細砂層組成,底板埋深80~100 m,厚度10~20 m,一般呈中密~密實狀態(tài)。
選擇徑向基核函數(shù)。徑向基核函數(shù)運用廣泛,與其他核函數(shù)相比其參數(shù)較少,可以通過升維實現(xiàn)樣本線性可分。其定義為
式中:y為歸一化后的數(shù)值;x為處理前的數(shù)值;xmin、xmax分別為處理前數(shù)據(jù)的最小值和最大值。
邏輯回歸模型可以通過分類實現(xiàn)水質(zhì)的等級劃分,常規(guī)的模型只能實現(xiàn)二分類,為實現(xiàn)5個等級的劃分,引入累計回歸模型,其表達式為