姜志奇,王習東
(北京大學工學院,北京 100000)
通常情況下,大氣污染是指由自然形成與人類活動作用形成的污染。自然環(huán)境本身造成的污染屬于自然污染,人類對環(huán)境作用形成的污染屬于人為污染源[1-2]。其中,人為污染源能夠劃分成兩種不同的形式,分別為:①不可移動污染源;②非固定污染源。人為污染源與自然污染源之間存在一定差異,前者具有普遍性以及規(guī)律性,所以日益受到人們的關注。
近幾年以來,我國環(huán)境污染問題日益嚴峻引起人們極大關注,其中最為嚴重的就是大氣污染問題,它會對人類的生命安全產(chǎn)生威脅,同時由于煙塵污染也十分嚴重,人類的呼吸系統(tǒng)也遭受很大隱患。另外,我國的水污染、垃圾污染問題日益嚴重。我國屬于擁有不少河流的陸地大國,但是我國百分之七十以上的河流中都存在污染問題,大部分的固體垃圾聚集在居民居住地附近,很大程度上降低了人類的生活質(zhì)量。針對我國環(huán)境污染問題日益嚴重的現(xiàn)狀,數(shù)據(jù)采集工作就變得十分重要,實時監(jiān)測大氣污染數(shù)據(jù)的運行狀態(tài),及時采取對應的防護措施是當前的首要工作。
為了有效解決環(huán)境污染問題,構建地區(qū)差異城市群大氣污染多維度數(shù)據(jù)采集模型。引入決策樹組織,結合定點采集監(jiān)測數(shù)據(jù)分析地區(qū)差異城市群大氣污染多維度數(shù)據(jù),以此降低數(shù)據(jù)后續(xù)整合耗時。采用多維度采集數(shù)據(jù)庫,計算不同污染氣體的實際排放量,提升污染數(shù)據(jù)采集精度。通過具體的仿真數(shù)據(jù)全面驗證了所設計模型的有效性以及實用性。
通過構成決策樹來求取大氣污染值的期望值大于等于零的概率,是評價項目風險,判斷其可行性的決策分析方法。本文利用大氣污染的大數(shù)據(jù)構建決策樹。
由于決策樹的組建過程與人為決策行為模型十分相似,因此需要設定一個數(shù)據(jù)集S,在不同的數(shù)據(jù)集中應包含多種不同的屬性,需要采取對應的統(tǒng)計方法對屬性A進行劃分,將其劃分成多個不同的子集。重復上述操作過程,直到獲取特定的終止條件。
在大數(shù)據(jù)環(huán)境中,由于樣本數(shù)量較大,同時存在其它問題,首先需要進行特征選擇,既能有效避免無關特征產(chǎn)生的負面影響,還能夠有效降低運行時間,提升最終采集結果的準確性[6]。在組建大數(shù)據(jù)氣象決策樹的過程中,需要選擇對應的特征并簡化模型,確保模型優(yōu)勢。
在研究區(qū)域內(nèi),組建多個大氣污染監(jiān)測站。各個標準微環(huán)境監(jiān)測站采集的參數(shù)主要包括空氣溫度、空氣濕度等多項指標。監(jiān)測站每隔5分鐘采集一次數(shù)據(jù),一天內(nèi)采集288條數(shù)據(jù),利用GPRS[7-8]網(wǎng)絡或者北斗星報文的形式將數(shù)據(jù)傳輸至遠程服務器,同時存儲在對應的數(shù)據(jù)庫中,具體如圖1所示。
圖1 地區(qū)差異城市群的大氣質(zhì)量監(jiān)測體系
現(xiàn)階段大氣污染監(jiān)測站在運行的過程中,存在能源耗盡等原因?qū)е聰?shù)據(jù)丟失的情況,不僅說明了大氣污染監(jiān)測站可能存在能源短缺的問題,需要減少大氣污染監(jiān)測站的能源消耗。而且在使用數(shù)據(jù)之前,需要對數(shù)據(jù)進行預處理。由于樣本數(shù)據(jù)量較大,后續(xù)的數(shù)據(jù)處理過程十分復雜,因此需要選取對應的指標[9]作為研究對象,具體的操作過程如下所示:
1)導出全部的大氣污染數(shù)據(jù),通過監(jiān)測點的不同設備號ID值,將全部數(shù)據(jù)進行劃分處理。
2)將全部監(jiān)測點的數(shù)據(jù)按照天數(shù)進行劃分,同時設定樣本為每天的大氣污染監(jiān)測數(shù)據(jù),將全部樣本按照列進行排列,組建一個數(shù)據(jù)集。
3)將全部的大氣污染監(jiān)測數(shù)據(jù)樣本組建為樣本集,同時對其進行列歸一化處理[10],并且將其劃分為測試樣本集以及訓練樣本集。
為了實現(xiàn)城市群間大氣污染監(jiān)測數(shù)據(jù)的共享,需要做到以下兩點:
1)實現(xiàn)數(shù)據(jù)庫之間的轉(zhuǎn)換;
2)實現(xiàn)數(shù)據(jù)的透明訪問。
在進行數(shù)據(jù)庫訪問的過程中,不能廢棄原始數(shù)據(jù)庫,而是需要將其轉(zhuǎn)換到新的系統(tǒng)中繼續(xù)發(fā)揮作用,對資源進行再利用。從而實現(xiàn)在不同的數(shù)據(jù)庫之間,也能夠?qū)⒃磾?shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換到目的數(shù)據(jù)庫中的目的。
在進行轉(zhuǎn)換的過程中,實現(xiàn)嚴格的等價轉(zhuǎn)換十分困難,首先需要確保模型中存在的沖突,具體如下所示:
1)命名沖突
源模型中的標識符號可能是目的模型中需要保留的部分,此時需要重新命名;
2)格式?jīng)_突
相同類型的數(shù)據(jù)可能存在不同形式的表示方法以及語義差異,此時需要定義不同模型之間的變換函數(shù);
3)結構沖突
為了實現(xiàn)數(shù)據(jù)共享,服務器需要具有安全、穩(wěn)定等特點,同時要求服務器具有負載均衡以及容錯功能等優(yōu)勢,并支持熱部署,即在不間斷服務條件下能夠?qū)浖姹净蛘吲渲眠M行更新升級。
在實現(xiàn)縱向數(shù)據(jù)整合的過程中,還需要完成數(shù)據(jù)的橫向整合,利用大數(shù)據(jù)共享平臺實現(xiàn)跨部門數(shù)據(jù)共享,豐富橫向數(shù)據(jù)庫,為系統(tǒng)提供有力的數(shù)據(jù)支撐。
導致大氣污染的因素眾多,使得與大氣污染情況關聯(lián)的數(shù)據(jù)種類十分復雜,其中包含不同類型污染源[11]、空氣可見度等氣象數(shù)據(jù)。以上數(shù)據(jù)分別來源于政府不同部門,但是現(xiàn)階段跨部門、跨領域整合存在信息交流阻塞以及數(shù)據(jù)整合分析不足等問題,很大程度上影響了大氣污染的溯源、成因結構等分析。
組建數(shù)據(jù)共享、數(shù)據(jù)管理等功能集成的大型數(shù)據(jù)共享平臺,能夠有效促進大氣污染相關數(shù)據(jù)高效流通,還能夠?qū)崿F(xiàn)數(shù)據(jù)的全面整合分析,最終提升大氣污染監(jiān)測的準確性以及治理決策的科學性。
本文主要采用GPS偽距差分定位方法組建對應的觀測方程,通過序貫平方差方法獲取雙差模糊度浮點解;再利用雙差模糊度浮點解有效提取大氣中的延遲分量,并組建區(qū)域大氣模型[12],利用流動站近似坐標計算獲取流動站和與參考站之間的大氣延遲改正;最后通過差分改正數(shù)改正參考站的觀測值,進而獲取求解單差觀測方程,獲取流動站坐標。
當數(shù)據(jù)采集到需要的全部數(shù)據(jù)上傳至控制卡后,利用這些數(shù)據(jù)編寫對應程序,在此過程中涉及到了數(shù)據(jù)庫設計的問題。通過數(shù)據(jù)管理器為VB以及數(shù)據(jù)庫鏈接提供的基本方法,能夠有效幫助VB程序組建維護數(shù)據(jù)庫,利用查詢放置查找數(shù)據(jù)庫中的相關信息,不必再通過其它的數(shù)據(jù)庫軟件進行數(shù)據(jù)庫管理,通過以上操作能夠有效實現(xiàn)多維度采集數(shù)據(jù)庫的建立。
重點針對污染源的監(jiān)測選取了二氧化硫減排的過程進行分析,其中降低二氧化硫的產(chǎn)生以及排放重點包括以下三種途徑:
1)從源頭上降低二氧化硫排放量
例如通過洗、選煤技術來降低爐煤硫分,用燃氣發(fā)電代替燃煤電廠技術等。該方法在減污之前需要考慮前兩種源頭控制技術的應用,但是并沒有考慮到循環(huán)流化床爐內(nèi)脫硫技術對削污的貢獻。
2)提升發(fā)電效率
有效降低原材料的消耗,提升資源利用效率,同時降低二氧化硫的產(chǎn)量。
3)利用煙氣脫硫技術降低二氧化硫的排放量。
以下給出二氧化硫減排計算公式
Qb,y=ΔQgas+ΔQsar,y+ΔQGT,y+ΔQEPT,y+Qfinal
(1)
式中,Qb,y代表二氧化硫基準減排量;ΔQgas代表燃氣發(fā)電減排量;ΔQsar,y代表硫分變化減排量;ΔQGT,y代表先進發(fā)電技術減排量;ΔQEPT,y代表煙氣治理減排量;Qfinal代表最終的排放量。
基準產(chǎn)污量主要指不采取任何減排措施以及技術的情況下二氧化硫的產(chǎn)生量。基準產(chǎn)物量的計算公式可以表示為以下形式
Qb,y=Fb*Gy/100
(2)
式中,F(xiàn)b代表基準技術單位發(fā)電量二氧化硫的減排績效;Gy代表設定年限內(nèi)的火力發(fā)電量。
燃氣發(fā)電減排量的計算公式能夠表示為以下的形式
ΔQgas=Ggas,y*Fb/100
(3)
式中,Ggas,y代表設定年限內(nèi)的燃氣發(fā)電量。
硫分變化減排量的計算公式為
ΔQsar,y=Gcoal,y*Fb*(1-Sy/Sbasic)/100
(4)
Gcoal,y=Gy-Ggas,y
(5)
先進發(fā)現(xiàn)技術減排量的計算式為
ΔQGT,y=Gcoal,y-ΔFb*(Sy/Sbasic)*(1-My/Mbasic)/100
(6)
煙氣治理技術減排量的計算式為
ΔQEPT,y=(Qbasic-ΔQCPT,y)*ηy
(7)
在上述分析的基礎上,組建地區(qū)差異城市群大氣污染多維度數(shù)據(jù)采集模型:
1)模型自適應參數(shù)優(yōu)化技術研究較長時間段內(nèi)模型預測結果與實際歷史氣象測量數(shù)據(jù)之間的關聯(lián),準確得出模型預測誤差的規(guī)律以及統(tǒng)計特征,進而實現(xiàn)模型參數(shù)的自適應優(yōu)化,有效提升預測結果的準確性。
2)多模型集合預測技術:
將兩個原本獨立的模型進行整合,有效提升數(shù)值的預測能力,同時輸出集合預測的最優(yōu)結果。
通過組建的地區(qū)差異城市群大氣污染多維度數(shù)據(jù)采集模型,能夠?qū)崿F(xiàn)數(shù)據(jù)采集,同時有效提升計算結果的準確性。
為了驗證所提地區(qū)差異城市群大氣污染多維度數(shù)據(jù)采集模型的綜合有效性,需要進行仿真測試,實驗環(huán)境:windows XP,SPI,CPU Pentium(R)4,基本頻率2.4GHZ,軟件平臺為MatlabR2010a。
1)不同方法的數(shù)據(jù)整合時間對比
實驗分別選取文獻[4]、文獻[5]中的傳統(tǒng)采集模型作為對比模型,實驗對比三種采集模型的數(shù)據(jù)整合時間,具體的實驗對比結果如圖2所示。
圖2 不同采集模型的數(shù)據(jù)整合時間對比結果
分析圖2中的實驗數(shù)據(jù)可知,隨著測試樣本數(shù)量持續(xù)增加,各種采集模型的數(shù)據(jù)整合時間也在持續(xù)增加,但是相比傳統(tǒng)的兩種采集模型,所提模型的數(shù)據(jù)整合時間明顯更快。
2)不同方法的采集成本對比
為了更進一步驗證所提采集模型的有效性,以下需要對比三種采集模型的采集成本,具體的實驗對比結果如下表所示。
表1 所提采集模型的采集成本
表2 文獻[4]采集模型的采集成本
表3 文獻[5]采集模型的采集成本
綜合分析以上表格中的實驗數(shù)據(jù)可知,所提采集模型的采集成本在三種模型中為最低;文獻[4]采集模型的采集成本次之;文獻[5]采集模型的采集成本最高。
3)不同方法數(shù)據(jù)采集相對誤差對比
為了驗證采集結果的準確性,實驗選取相對誤差作為評價指標,其中相對誤差越低,則說明采集結果越準確,具體的實驗對比結果如下表所示。
表4 所提采集模型的相對誤差
表5 文獻[4]采集模型的相對誤差
表6 文獻[5]采集模型的相對誤差
綜合分析上述表格中的實驗數(shù)據(jù)可知,相比另外兩種采集模型,所提采集模型的相對誤差明顯更低,這充分說明所提模型具有較高的采集精度。
1)針對傳統(tǒng)的大氣污染多維度數(shù)據(jù)采集模型存在數(shù)據(jù)整合時間較長、采集成本較高等問題,本文提出了地區(qū)差異城市群大氣污染多維度數(shù)據(jù)采集模型。
2)實驗結果顯示:模型的數(shù)據(jù)整合時長不超過9.5min,模型的應用過程成本始終低于9000元人民幣,比其余傳統(tǒng)方法相比,該模型的可應用性更強。在誤差實驗中,模型表現(xiàn)出了在數(shù)據(jù)采集精度方面的優(yōu)越性能。通過具體的實驗數(shù)據(jù)有效驗證了模型的可靠性。
3)但是本文還存在一定的不足,關于模型的時間局限性上后續(xù)將進一步豐富完善。