基于大數(shù)據(jù)的水生態(tài)承載力分析模型①

2020-05-22 04:45:38周曉磊萌1姜秋俚金繼鑫宋春梅陳月王興剛毛立爽

計(jì)算機(jī)系統(tǒng)應(yīng)用 2020年5期

周曉磊,房萌1,,劉樞,姜秋俚,金繼鑫,宋春梅,陳月,王興剛,毛立爽

1(中國(guó)科學(xué)院大學(xué),北京 100049)

2(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168)

3(遼寧省生態(tài)環(huán)境監(jiān)測(cè)中心,沈陽(yáng) 110161)

隨著全球氣候變暖,經(jīng)濟(jì)和人民物質(zhì)的提高,工業(yè)、農(nóng)業(yè)、生產(chǎn)生活的用水量增加,導(dǎo)致對(duì)水資源的使用加劇,水體遭到污染的事件頻發(fā)[1],與此同時(shí)科學(xué)發(fā)展的不斷進(jìn)步,航天遙感在環(huán)境監(jiān)測(cè)上的應(yīng)用及雷達(dá)技術(shù)支持,水質(zhì)環(huán)境監(jiān)測(cè)數(shù)據(jù)的種類和數(shù)量正在急劇增長(zhǎng),監(jiān)測(cè)產(chǎn)生的數(shù)據(jù)量大多為GB 或TB,有時(shí)數(shù)據(jù)量能夠達(dá)到PB.大數(shù)據(jù)技術(shù)、互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展使大數(shù)據(jù)存儲(chǔ)及分析利用的問(wèn)題得到了解決[2].在過(guò)去幾年中,新一代系統(tǒng)被引入大規(guī)模數(shù)據(jù)處理中,基于MapReduce 范式的程序[3],尤其是Apache Hadoop[4]越來(lái)越成為流行,利用大數(shù)據(jù)技術(shù)對(duì)水生態(tài)的歷史數(shù)據(jù)進(jìn)行處理、存儲(chǔ)和分析等,在有效管理水生態(tài)數(shù)據(jù)的同時(shí)利用數(shù)據(jù)的分析結(jié)果對(duì)水生態(tài)環(huán)境保護(hù)提供有效方案.近年來(lái),國(guó)內(nèi)外出現(xiàn)了很多基于大數(shù)據(jù)技術(shù)平臺(tái)對(duì)水資源數(shù)據(jù)進(jìn)行分析處理的應(yīng)用.例如:Moturi 等[5]研究在處理較小的數(shù)據(jù)集上大數(shù)據(jù)系統(tǒng)表現(xiàn)出不理想的速度,但是在足夠大的數(shù)據(jù)集上實(shí)現(xiàn)了合理的加速,數(shù)據(jù)集在補(bǔ)充計(jì)算節(jié)點(diǎn)的數(shù)量下,與正常的數(shù)據(jù)挖掘和處理相比,能夠減少30%的執(zhí)行時(shí)間;Parmar 等[6]將神經(jīng)網(wǎng)絡(luò)模型、模糊模型和小波模型相結(jié)合對(duì)監(jiān)測(cè)站監(jiān)測(cè)的水質(zhì)參數(shù)化學(xué)需氧量(COD)進(jìn)行預(yù)測(cè).李輝等[7]提出了在Hadoop 平臺(tái)上利用MapReduce 并發(fā)處理水文信息的模型,利用大數(shù)據(jù)技術(shù)提高了存儲(chǔ)執(zhí)行的效率.

在水生態(tài)監(jiān)測(cè)環(huán)境中,水文監(jiān)測(cè)站在網(wǎng)絡(luò)互通的條件下,形成網(wǎng)絡(luò)結(jié)構(gòu)或按河流流向分布,由于監(jiān)測(cè)站點(diǎn)分布廣泛,傳感器可監(jiān)測(cè)水生態(tài)、水質(zhì)、氣象等多類數(shù)據(jù),因此隨著傳感器的監(jiān)測(cè)頻率上升,水生態(tài)環(huán)境數(shù)據(jù)大幅度增長(zhǎng),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在存儲(chǔ)與管理數(shù)據(jù)中不足以承載如此海量的數(shù)據(jù);文獻(xiàn)[8]提出一種基于生態(tài)系統(tǒng)服務(wù)的生態(tài)足跡(Ecosystem Service-based Ecological Footprint,ESEF)方法,在考慮或不考慮水質(zhì)標(biāo)準(zhǔn)和環(huán)境分類的條件下,采用求平均值法和并集法分析太湖流域上游湖州市的水生態(tài)承載力,但該方法擴(kuò)展性不強(qiáng).基于上述問(wèn)題,為解決海量水生態(tài)監(jiān)測(cè)數(shù)據(jù)存儲(chǔ)和處理問(wèn)題以及水生態(tài)承載力分析方法的可擴(kuò)展性,本文利用Hadoop 分布式存儲(chǔ)以及基于MapReduce并行計(jì)算提出一種基于大數(shù)據(jù)的水生態(tài)承載力模型,將影響水生態(tài)承載力的數(shù)據(jù)因素劃分為3 個(gè)指標(biāo)層,同時(shí)結(jié)合HDFS 分布式文件系統(tǒng)來(lái)管理存儲(chǔ)海量數(shù)據(jù),利用生態(tài)足跡法計(jì)算水生態(tài)足跡和水生態(tài)承載力[9]以及利用MapReduce 的并行計(jì)算處理來(lái)訓(xùn)練水生態(tài)承載力模型,將生態(tài)足跡與生態(tài)承載力相比較,得到生態(tài)承載力是否赤字或盈余.在可持續(xù)發(fā)展的基礎(chǔ)上控制水生態(tài)環(huán)境在可承載范圍內(nèi),完成海量水文數(shù)據(jù)存儲(chǔ)并能完成有效計(jì)算.

1 水生態(tài)承載力大數(shù)據(jù)處理架構(gòu)

1.1 水信息大數(shù)據(jù)處理總體架構(gòu)

整體的基于大數(shù)據(jù)的水文信息處理架構(gòu)如圖1所示,數(shù)據(jù)源分別由物聯(lián)網(wǎng)、水生態(tài)監(jiān)控站以及互聯(lián)網(wǎng)資源構(gòu)成,通過(guò)遠(yuǎn)程上傳、網(wǎng)絡(luò)爬蟲(chóng)等完成對(duì)數(shù)據(jù)源的數(shù)據(jù)采集.

圖1 水文數(shù)據(jù)中心總體架構(gòu)

數(shù)據(jù)資源庫(kù)是整個(gè)系統(tǒng)平臺(tái)的核心,為了處理海量數(shù)據(jù)存儲(chǔ)問(wèn)題,將其劃分為結(jié)構(gòu)化數(shù)據(jù)庫(kù)、基礎(chǔ)數(shù)據(jù)庫(kù)以及非結(jié)構(gòu)化HDFS 分布式存儲(chǔ)數(shù)據(jù)庫(kù)等部分.是經(jīng)過(guò)數(shù)據(jù)采集及處理后的數(shù)據(jù)存儲(chǔ)部分[10],實(shí)現(xiàn)對(duì)水環(huán)境空間數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)與管理數(shù)據(jù)的管理.提供不同物理結(jié)構(gòu)數(shù)據(jù)資源庫(kù),具有良好擴(kuò)展性.

水生態(tài)環(huán)境管理平臺(tái)應(yīng)用依據(jù)Java 開(kāi)發(fā)框架為基礎(chǔ),將數(shù)據(jù)應(yīng)用開(kāi)發(fā)、運(yùn)行時(shí)環(huán)境與支撐業(yè)務(wù)開(kāi)發(fā)的軟件封裝為資源管理、基礎(chǔ)服務(wù)以及大數(shù)據(jù)支撐應(yīng)用平臺(tái),為水環(huán)境監(jiān)管部門提供業(yè)務(wù)應(yīng)用,全面提升信息化應(yīng)用水平,增強(qiáng)信息資源共享服務(wù)力度.

1.2 大數(shù)據(jù)采集與處理

目前,大量的水資源、水環(huán)境以及水生態(tài)數(shù)據(jù)不斷的由監(jiān)測(cè)站點(diǎn)生成并通過(guò)物聯(lián)網(wǎng)技術(shù)上傳至遠(yuǎn)程服務(wù)中心處.在數(shù)據(jù)倉(cāng)庫(kù)的歸檔過(guò)程中,其中最大的數(shù)據(jù)集就是關(guān)于水質(zhì)、水位和水流量的實(shí)時(shí)數(shù)據(jù)信息.水質(zhì)信息在不同站點(diǎn)處實(shí)時(shí)監(jiān)測(cè)水質(zhì)的水溫、溶解氧、pH、電導(dǎo)率、氨氮離子、余氯等參數(shù),這些數(shù)據(jù)集形成海量的水生態(tài)信息.由于水質(zhì)信息數(shù)據(jù)中的pH 值、污水處理廠的排放濃度等具有時(shí)空連續(xù)性,因此在進(jìn)行監(jiān)測(cè)水質(zhì)數(shù)據(jù)是否超標(biāo)實(shí)現(xiàn)污染超標(biāo)預(yù)警預(yù)報(bào)等服務(wù)時(shí),對(duì)水生態(tài)監(jiān)測(cè)數(shù)據(jù)的存儲(chǔ)和計(jì)算的要求提升.為實(shí)現(xiàn)終端用戶以交互式的豐富方式分析大量后端數(shù)據(jù),使用Hadoop 技術(shù)實(shí)現(xiàn)對(duì)大量水生態(tài)數(shù)據(jù)的存儲(chǔ)與計(jì)算功能,通過(guò)Hadoop 分布式文件系統(tǒng)將接口應(yīng)用程序連接到后端HBase,通過(guò)MapReduce 框架用戶可以輕松的分析和可視化水生態(tài)大數(shù)據(jù).如圖2所示.

圖2 Hadoop 采集處理架構(gòu)圖

使用高性能的Linux 集群構(gòu)建配置,安裝Yarn、HBase 等Hadoop 生態(tài)大數(shù)據(jù)技術(shù).基于Hadoop 作為水生態(tài)數(shù)據(jù)存儲(chǔ)和計(jì)算的基礎(chǔ),主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)加載4 個(gè)模塊.數(shù)據(jù)采集單元負(fù)責(zé)水生態(tài)數(shù)據(jù)監(jiān)測(cè)站點(diǎn)的數(shù)據(jù)采集任務(wù),監(jiān)測(cè)站點(diǎn)自動(dòng)對(duì)水質(zhì)、水量等信息進(jìn)行監(jiān)控,并通過(guò)互聯(lián)網(wǎng)技術(shù)將數(shù)據(jù)信息傳送至數(shù)據(jù)預(yù)處理模塊;數(shù)據(jù)預(yù)處理接收到的數(shù)據(jù)大部分的時(shí)候時(shí)“骯臟”的數(shù)據(jù),極易遭到噪聲的影響導(dǎo)致數(shù)據(jù)丟失、數(shù)據(jù)出現(xiàn)沖突等,采用ETL (Extra、Transform、Load)技術(shù)將數(shù)據(jù)采集單元收集到的數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,完成數(shù)據(jù)加載入庫(kù)操作.

數(shù)據(jù)存儲(chǔ)模塊主要是將經(jīng)過(guò)ETL 技術(shù)處理后的數(shù)據(jù)存放在HDFS 分布式文件系統(tǒng)、HBase 結(jié)構(gòu)化分布式存儲(chǔ)系統(tǒng)中,這種分布式文件系統(tǒng)提高了數(shù)據(jù)的容錯(cuò)能力以及提高了可用性,提供了對(duì)文件的操作和存儲(chǔ)的支持,在必要時(shí)能夠?qū)崟r(shí)讀寫并隨機(jī)訪問(wèn),數(shù)據(jù)被分成塊,以分布式的方式存儲(chǔ)在HDFS 集群中存在的節(jié)點(diǎn)上,解決了數(shù)據(jù)庫(kù)的單點(diǎn)性能極限.既能提供較高的可擴(kuò)展性,又能達(dá)到并發(fā)訪問(wèn)的能力.

分布式計(jì)算框架MapReduce 幫助我們?cè)贖adoop平臺(tái)上完成分布式的計(jì)算編程,完成對(duì)水生態(tài)數(shù)據(jù)的分類處理,Sqoop 工具能夠完成Hadoop 與關(guān)系型數(shù)據(jù)庫(kù)之間數(shù)據(jù)的互相轉(zhuǎn)移,例如通過(guò)Shell 命令將存在于關(guān)系型數(shù)據(jù)庫(kù)中具有結(jié)構(gòu)規(guī)范無(wú)需處理的結(jié)構(gòu)化數(shù)據(jù)備份到Hadoop (HDFS、HBase)中,完成數(shù)據(jù)的轉(zhuǎn)移,從而提高獲取數(shù)據(jù)的速度.

1.3 Hadoop 分布式存儲(chǔ)管理

Hadoop 通過(guò)分布式存儲(chǔ)管理的方式,將數(shù)據(jù)存儲(chǔ)及計(jì)算均衡分布在各個(gè)集群上,從而可保證數(shù)據(jù)的可靠性和高容錯(cuò)性.Hadoop 的核心包括HDFS (Hadoop Distributed File System),Hadoop 的分布式存儲(chǔ)工具,實(shí)現(xiàn)水生態(tài)數(shù)據(jù)的存儲(chǔ);MapReduce 分布式計(jì)算框架處理海量水生態(tài)數(shù)據(jù)的運(yùn)算.HDFS 的存儲(chǔ)結(jié)構(gòu)如圖3所示.

圖3 HDFS 分布式存儲(chǔ)結(jié)構(gòu)

與關(guān)系型數(shù)據(jù)庫(kù)不同,HDFS 將集群中的工作節(jié)點(diǎn)均勻分布,在存儲(chǔ)上文件分塊存儲(chǔ),通過(guò)設(shè)置參數(shù)(dfs.blocksize)來(lái)確定塊的大小,每個(gè)數(shù)據(jù)塊的大小默認(rèn)設(shè)置為64 MB,當(dāng)經(jīng)過(guò)處理的水生態(tài)數(shù)據(jù)上傳至HDFS時(shí),可以被切割成不同的塊分別存放在不同的DataNode上,完成對(duì)水生態(tài)數(shù)據(jù)的備份存儲(chǔ),使得存儲(chǔ)更高效并具有高容錯(cuò)性[7].Mastar/slave 結(jié)構(gòu)是HDFS 的架構(gòu)模式,其一個(gè)Master (NameNode)節(jié)點(diǎn)包含若干個(gè)slave (Data-Node).NameNode 會(huì)記錄文件分塊存儲(chǔ)在DataNode上的位置信息,由dfs.name.dir 指定元數(shù)據(jù)(文件的名稱、副本系數(shù),Block 存儲(chǔ)的NameNode)的存儲(chǔ)位置,負(fù)責(zé)客戶端的請(qǐng)求響應(yīng).DataNode 負(fù)責(zé)存儲(chǔ)Block,在NameNode 的調(diào)度下完成數(shù)據(jù)庫(kù)的創(chuàng)建、刪除和復(fù)制;根據(jù)設(shè)置的時(shí)間間隔定期向NameNode報(bào)告本身以及所有Block 的信息.

HDFS 架構(gòu)中還包含一個(gè)輔助NameNode:Secondary NameNode,它相當(dāng)于NameNode 的助手節(jié)點(diǎn),負(fù)責(zé)fsimage (鏡像文件)備份以及將edits(日志文件)與鏡像定期合并,幫助減小edit logs 的大小,減輕NameNode 重新啟動(dòng)時(shí)的壓力,使NameNode 保持文件系統(tǒng)最新的元數(shù)據(jù).當(dāng)系統(tǒng)發(fā)生突發(fā)事件的時(shí)候,可以保存最新的改動(dòng).

2 水生態(tài)承載力分析模型

2.1 水生態(tài)承載力影響因素

水生態(tài)環(huán)境具備彈性力的特點(diǎn),能夠在一定程度上進(jìn)行自我恢復(fù).對(duì)水生態(tài)承載力的計(jì)算主要從環(huán)境、生活、資源多個(gè)方面進(jìn)行綜合分析,能夠體現(xiàn)數(shù)據(jù)的多元性、動(dòng)態(tài)性以及分析結(jié)果的客觀性,為人們對(duì)水生態(tài)破壞控制在可以恢復(fù)的范圍內(nèi),即水污染、水資源利用控制在水生態(tài)環(huán)境自我恢復(fù)能力中,能夠最大化的利用水資源,凈化對(duì)水體造成的污染.本文通過(guò)研究分析水環(huán)境、水資源與水生態(tài)方面的數(shù)據(jù),分別進(jìn)行分類統(tǒng)計(jì)、比對(duì)、分析,總結(jié)歸納得出影響水生態(tài)承載力評(píng)估的主要因素主要包括:水生態(tài)壓力數(shù)據(jù)、水資源支撐力層數(shù)據(jù)以及彈性力數(shù)據(jù).水生態(tài)壓力數(shù)據(jù)主要包括人口增長(zhǎng)P1、經(jīng)濟(jì)增長(zhǎng)P2、環(huán)境污染P3,支撐力指層標(biāo)數(shù)據(jù)主要包括水資源自身支持S1、人類支持S2,彈性力指標(biāo)數(shù)據(jù)主要包括生態(tài)因素?cái)?shù)據(jù)E1.如表1所示.

2.2 水生態(tài)承載力模型

在研究承載力評(píng)估方法的過(guò)程中,從多個(gè)領(lǐng)域了解到目前計(jì)算承載力的方法主要有系統(tǒng)仿真、灰色關(guān)聯(lián)度計(jì)算、系統(tǒng)統(tǒng)計(jì)學(xué)等方法[11–13].生態(tài)足跡是從可持續(xù)發(fā)展的理念出發(fā),黃林楠等[9]提出了一種水資源生態(tài)足跡計(jì)算方法,本文基于生態(tài)足跡法,參考王文國(guó)等[14]對(duì)生態(tài)足跡計(jì)算相關(guān)參數(shù)的修正,分別計(jì)算水生態(tài)足跡以及水生態(tài)承載力.

式(1)中所述的 λw為區(qū)域水資源產(chǎn)量因子;Qw為該區(qū)域水資源總量;N為人口總數(shù),人;γw為水資源均衡因子,ghm2/km2;Pw為區(qū)域水資源平均產(chǎn)能m3/km2.本文在水生態(tài)足跡計(jì)算過(guò)程中,參考文獻(xiàn)[15]在遼寧省水資源生態(tài)足跡中的研究,其在全球部分國(guó)家數(shù)據(jù)統(tǒng)計(jì)中,選定WWF 確定的均衡因子,在中國(guó)定義范圍下,各區(qū)域的水資源產(chǎn)量因子進(jìn)行生態(tài)承載力計(jì)算,并得到中國(guó)的單位面積產(chǎn)水量也就是水資源平均產(chǎn)能為29.46×102m3/hm2.

其中,WEF為水生態(tài)環(huán)境總生態(tài)足跡,其分別由生活用水生態(tài)足跡WEFl、生產(chǎn)用水生態(tài)足跡WEFp和生態(tài)用水生態(tài)足跡WEFc組成.Wi(i=l,p,c)為各項(xiàng)用水消耗量.

表1 水生態(tài)承載力數(shù)據(jù)

根據(jù)表1所示的壓力層數(shù)據(jù)、承載力層數(shù)據(jù)和彈性力層數(shù)據(jù)的需求,設(shè)計(jì)包含3 層的水生態(tài)承載力分析模型,通過(guò)輸出值不斷調(diào)整模型的權(quán)重以及誤差,如圖4所示.

輸入層有3 個(gè)節(jié)點(diǎn),分別為水資源壓力層數(shù)據(jù)P、水生態(tài)承載力層數(shù)據(jù)S 和水生態(tài)彈性力層數(shù)據(jù)E.隱藏層節(jié)點(diǎn)的個(gè)數(shù)通過(guò)式(4)進(jìn)行計(jì)算,得出節(jié)點(diǎn)的個(gè)數(shù)范圍為[3,12],在本模型中選取6 個(gè)節(jié)點(diǎn),輸出層有一個(gè)節(jié)點(diǎn),為EF 評(píng)估值.

將流域流經(jīng)區(qū)域地區(qū)的水生態(tài)足跡與生態(tài)承載力相比較,就會(huì)得到水生態(tài)資源環(huán)境是否為生態(tài)赤字或者生態(tài)盈余,如式(5)所示,若 ?E>0,水生態(tài)環(huán)境呈現(xiàn)盈余,說(shuō)明該區(qū)域水生態(tài)供給充足,水資源可持續(xù)發(fā)展利用.若 ?E<0,水生態(tài)環(huán)境赤字,水資源的供給大于自身可以提供的生態(tài)環(huán)境支撐,容易對(duì)環(huán)境過(guò)度使用,對(duì)水生態(tài)環(huán)境環(huán)境造成破壞.

圖4 水生態(tài)承載力模型

2.3 水生態(tài)承載力模型MapReduce 并行計(jì)算

本文模型實(shí)現(xiàn)采用傳統(tǒng)的反向傳播算法,并且參考文獻(xiàn)[16]中的一些思想.

MapReduce 是一種編程模型適用于大規(guī)模數(shù)據(jù)處理的相關(guān)實(shí)現(xiàn).開(kāi)發(fā)者只需實(shí)現(xiàn)mapper 函數(shù)和reducer函數(shù)就定義好了MapReduce 作業(yè),mapper 函數(shù)初始鍵/值對(duì)(key-value),根據(jù)初始鍵/值對(duì)計(jì)算產(chǎn)生中間鍵/值對(duì).MapReduce 框架會(huì)將產(chǎn)生的中間鍵值對(duì)中鍵相同的值傳遞給一個(gè)reduce 函數(shù).Reducer 函數(shù)接受一個(gè)鍵以及一組值,將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值[17],具體的操作如下:

將訓(xùn)練集分配到多個(gè)節(jié)點(diǎn),執(zhí)行多個(gè)mapper 任務(wù),每一個(gè)mapper 接收一個(gè)訓(xùn)練項(xiàng),然后使用訓(xùn)練項(xiàng)計(jì)算出模型中權(quán)重的更新值,并將產(chǎn)生的中間鍵/值對(duì),形如(key=權(quán)重;value=更新值)暫存于本地系統(tǒng)文件;然后執(zhí)行多個(gè)reducer 任務(wù),每個(gè)reducer 收集一個(gè)權(quán)重的更新值,并計(jì)算更新值的平均值,然后將計(jì)算所得的平均值作為權(quán)重的更新值;更新模型中所有的權(quán)重的值.重復(fù)執(zhí)行mapper-reducer 任務(wù)直到達(dá)到預(yù)期的精度.

3 實(shí)驗(yàn)應(yīng)用

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境基于Hadoop 大數(shù)據(jù)平臺(tái),實(shí)驗(yàn)應(yīng)用采用Java 做為編程語(yǔ)言,JDK 版本為1.8.0_181,采用分布式搭建大數(shù)據(jù)環(huán)境,選擇5 臺(tái)PC 搭建,其中一臺(tái)作為Master(NameNode),其余4 臺(tái)作為slave(DataNode).環(huán)境信息及配置如表2和表3所示.

表2 節(jié)點(diǎn)配置

表3 Hadoop 參數(shù)信息

3.2 實(shí)驗(yàn)數(shù)據(jù)

本文選取遼河流域2012～2018年的水生態(tài)監(jiān)測(cè)數(shù)據(jù)以及人口數(shù)據(jù)、GDP 增長(zhǎng)基礎(chǔ)數(shù)據(jù)作為研究對(duì)象.數(shù)據(jù)分別來(lái)源于遼寧省環(huán)境監(jiān)測(cè)站監(jiān)測(cè)數(shù)據(jù)、遼寧省沈陽(yáng)市、盤錦市、鞍山市、營(yíng)口市、鐵嶺市的年水資源公報(bào)以及遼寧省統(tǒng)計(jì)年鑒.選取2012～2017年的數(shù)據(jù)作為訓(xùn)練集,2018年的數(shù)據(jù)作為測(cè)試集.

3.3 生態(tài)承載力結(jié)果分析

分析2012～2017年遼河流域流經(jīng)區(qū)域的水生態(tài)承載力是否符合生態(tài)發(fā)展的規(guī)律,是否呈現(xiàn)可持續(xù)發(fā)展?fàn)顟B(tài).選取人口數(shù)量、生活用水、農(nóng)業(yè)灌溉、工業(yè)用水、GDP 增長(zhǎng)率、萬(wàn)元GDP 平均耗水量作為生態(tài)壓力層數(shù)據(jù);選取人均水資源量、城市污水處理量、工業(yè)用水重復(fù)率作為承載力層數(shù)據(jù);選取年降水量、森林覆蓋面積作為彈性力層數(shù)據(jù).對(duì)2012–2017年間的遼河流域流經(jīng)區(qū)域的數(shù)據(jù)通過(guò)EF 計(jì)算方法對(duì)生態(tài)足跡進(jìn)行計(jì)算,通過(guò)30 組輸入數(shù)據(jù)以及EF 所得數(shù)據(jù)對(duì)水生態(tài)承載力模型進(jìn)行訓(xùn)練.

將2018年遼河流域流經(jīng)地區(qū)的壓力層數(shù)據(jù)P、支撐力層數(shù)據(jù)S、彈性力層數(shù)據(jù)E 作為輸入層節(jié)點(diǎn)數(shù)據(jù)輸入到水生態(tài)承載力模型中,計(jì)算出2018年的遼河流域流經(jīng)區(qū)域的水生態(tài)足跡的評(píng)估值,如表4所示.

表4 水生態(tài)承載力盈余/赤字

將ECC 所得值與生態(tài)足跡評(píng)估值進(jìn)行比較,通過(guò)分析,沈陽(yáng)、鐵嶺、盤錦、營(yíng)口的生態(tài)承載力值均小于生態(tài)足跡評(píng)估值,處于水生態(tài)環(huán)境赤字狀況,尤其是盤錦地區(qū)生態(tài)承載力達(dá)到最低值,說(shuō)明對(duì)水資源環(huán)境過(guò)度使用;鞍山生態(tài)承載力值大于生態(tài)足跡評(píng)估值,處于生態(tài)盈余情況,如圖5所示.通過(guò)分析以往數(shù)據(jù)顯示,鞍山水資源總量較往年相比減少了30%,但相較于其他地區(qū)多,水生態(tài)環(huán)境處于可持續(xù)發(fā)展?fàn)顟B(tài).

圖5 生態(tài)承載力分析圖

3.4 Hadoop 集群吞吐能力分析

為了能夠驗(yàn)證利用Hadoop 集群存儲(chǔ)處理海量數(shù)據(jù)方面比單機(jī)數(shù)據(jù)處理技術(shù)上能夠有更優(yōu)越的表現(xiàn)[18],本實(shí)驗(yàn)在選取不同的數(shù)據(jù)量在Local 單機(jī)模式以及Full-Distributed Mode 集群模式下進(jìn)行運(yùn)行時(shí)間測(cè)試,在這兩種情況下都使用“清洗”后的數(shù)據(jù)進(jìn)行規(guī)則計(jì)算.數(shù)據(jù)表包括3 列:唯一標(biāo)識(shí)符、監(jiān)測(cè)時(shí)間、監(jiān)測(cè)值.用“清洗”后的數(shù)據(jù)統(tǒng)計(jì)時(shí)間段內(nèi),監(jiān)測(cè)物的超標(biāo)次數(shù).

從表5可以看出,在數(shù)據(jù)量較小的情況下單機(jī)運(yùn)行的時(shí)間更短,處理數(shù)據(jù)的效率更高,而數(shù)據(jù)在超過(guò)3 GB 之后,Hadoop 集群的運(yùn)行時(shí)間更短,且穩(wěn)定運(yùn)行,時(shí)間跨度不是很大.

表5 Hadoop 集群與單機(jī)運(yùn)行時(shí)間

4 結(jié)論與展望

本文對(duì)水生態(tài)環(huán)境承載力的分析從現(xiàn)實(shí)生態(tài)環(huán)境出發(fā),提出基于大數(shù)據(jù)的水生態(tài)承載力分析模型,利用大數(shù)據(jù)技術(shù)對(duì)水資源、水生態(tài)數(shù)據(jù)處理分析,以及增加生態(tài)足跡計(jì)算的數(shù)據(jù)多樣性,通過(guò)生態(tài)承載力分析模型輸出值與生態(tài)承載力相比較,得出水生態(tài)環(huán)境當(dāng)前發(fā)展情況是否赤字或盈余.應(yīng)用案例表明,在增加數(shù)據(jù)多樣性的同時(shí)能夠通過(guò)水生態(tài)承載力模型對(duì)生態(tài)足跡做出準(zhǔn)確的分析,減少了數(shù)據(jù)進(jìn)行各類公式計(jì)算的過(guò)程,提高了工作的效率并豐富了數(shù)據(jù)來(lái)源的多樣性.基于大數(shù)據(jù)的水生態(tài)承載力模型加深了對(duì)歷史數(shù)據(jù)的分析與挖掘,在未來(lái)科學(xué)和技術(shù)的發(fā)展下,以及數(shù)據(jù)資源庫(kù)資源的不斷完善,能夠?qū)λ鷳B(tài)環(huán)境承載力做出更準(zhǔn)確的分析結(jié)果.