摘要:隨著生態(tài)文明建設(shè)和生態(tài)環(huán)境保護進入了數(shù)據(jù)驅(qū)動的新時代,數(shù)據(jù)挖掘技術(shù)在生態(tài)環(huán)境保護領(lǐng)域中應(yīng)用的廣度和深度都不斷加強。本文首先介紹了數(shù)據(jù)挖掘的過程和當(dāng)前常用的數(shù)據(jù)挖掘工具,然后從生態(tài)系統(tǒng)監(jiān)管、企業(yè)排污狀況監(jiān)管、環(huán)境質(zhì)量預(yù)警、環(huán)境監(jiān)測與評價等角度闡述數(shù)據(jù)挖掘技術(shù)的應(yīng)用??梢?,環(huán)境保護工作能力的提升離不開數(shù)據(jù)挖掘技術(shù)的發(fā)展,從傳統(tǒng)的統(tǒng)計分析技術(shù)到機器學(xué)習(xí)技術(shù)、從依賴計算機軟件的數(shù)據(jù)挖掘技術(shù)到借助物聯(lián)網(wǎng)和云計算的數(shù)據(jù)挖掘技術(shù),環(huán)境保護工作正朝著更加科學(xué)、更加智能、更加高效的方向發(fā)展。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);生態(tài)環(huán)境;環(huán)境保護
中圖分類號:X192 文獻標(biāo)識碼:A 文章編號:2095-672X(2020)02-000-02
DOI:10.16647/j.cnki.cn15-1369/X.2020.02.002
Abstract: With the construction of ecological civilization and the protection of ecological environment, the application of data mining technology in the field of ecological environment protection has been strengthened. First introduce the process of data mining and the common data mining tools, and then expounds the application of data mining technology from ecosystem supervision, enterprise pollution monitoring, environmental quality warning, environmental monitoring and evaluation. Therefore, from the traditional statistical analysis technology to machine learning technology, from the data mining technology relying on computer software to the data mining technology relying on the Internet of things and cloud computing, environmental protection work is moving towards a more scientific, intelligent and efficient direction.
Key words: Data mining technology;Ecological environment;Environmental protection
數(shù)據(jù)挖掘技術(shù)的目的是從多個維度去分析數(shù)據(jù)之間的關(guān)系,并搜索隱藏于數(shù)據(jù)之中的信息,為科學(xué)研究提供決策支持,促進生產(chǎn)生活方式的轉(zhuǎn)變。與此同時,我國生態(tài)文明建設(shè)和生態(tài)環(huán)境保護進入了數(shù)據(jù)驅(qū)動的新時代。堅決打好污染防治攻堅戰(zhàn)、持續(xù)改善生態(tài)環(huán)境質(zhì)量、不斷滿足人民日益增長的優(yōu)美生態(tài)環(huán)境等工作中收集到的數(shù)據(jù)往往是不完整的、不明確的、大量的并且包含噪聲,具有很大隨機性的,因此離不開數(shù)據(jù)挖掘技術(shù)的支持。
1 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘是一個從不完整的、不明確的、大量的并且包含噪聲,具有很大隨機性的真實數(shù)據(jù)中,提取出隱含其中、有應(yīng)用價值的知識或模式的過程。圖1描述了完整的數(shù)據(jù)挖掘過程——以數(shù)據(jù)為核心、目標(biāo)為驅(qū)動,通過挖掘數(shù)據(jù)之間的關(guān)系、控制數(shù)據(jù)模型的質(zhì)量,來提取出隱含其中、有應(yīng)用價值的知識或模式,并在真實環(huán)境下檢驗這些知識或模式的正確性、持續(xù)跟蹤優(yōu)化使其滿足數(shù)據(jù)挖掘的目標(biāo)[1]。同時,新的知識或模式的發(fā)現(xiàn)往往會使人們重新定義數(shù)據(jù)挖掘的目標(biāo),因此數(shù)據(jù)挖掘是一個以數(shù)據(jù)為核心的循環(huán)過程,數(shù)據(jù)挖掘技術(shù)是實施循環(huán)的關(guān)鍵技術(shù)。
2 數(shù)據(jù)挖掘的工具
當(dāng)前,數(shù)據(jù)挖掘技術(shù)隨著數(shù)理統(tǒng)計和人工智能的發(fā)展而不斷進步,各種統(tǒng)計分析、智能分析的工具也廣泛應(yīng)用于數(shù)據(jù)挖掘過程中。
2.1 統(tǒng)計分析工具
數(shù)據(jù)挖掘過程運用的統(tǒng)計方法有:回歸分析、判別分析、聚類分析、列聯(lián)分析等[2]。這些統(tǒng)計功能大部分已經(jīng)集成到常用的數(shù)據(jù)分析軟件中,結(jié)合軟件提供的圖表功能,用戶能在若干維度下挖掘并展示數(shù)據(jù)之間的關(guān)系。這些統(tǒng)計分析軟件通常分為兩類:一類是編程類軟件(如SAS、Matlab、RStudio等),其功能強大適合專業(yè)統(tǒng)計人員使用;另一類是人機交互界面類軟件(如SPSS、Statistica、Excel等),其操作簡便適合非專業(yè)統(tǒng)計人員使用。
2.2 智能分析工具
智能分析是利用計算機根據(jù)算法進行數(shù)據(jù)挖掘的過程。常用的智能分析算法有支持向量機、樸素貝葉斯、K 近鄰和決策樹等傳統(tǒng)機器學(xué)習(xí)算法以及卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法。這些算法的編寫語言主要有Python、C++、Java等。
2.3 數(shù)據(jù)分析網(wǎng)絡(luò)平臺
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的數(shù)據(jù)存儲在云端,為數(shù)據(jù)分析網(wǎng)絡(luò)平臺的發(fā)展提供了機遇。目前,具有統(tǒng)計分析功能的網(wǎng)絡(luò)平臺有網(wǎng)易大數(shù)據(jù)、Splunk、Tableau、神策數(shù)據(jù)以及騰訊云、阿里云等,它們都是交互界面類的平臺,并能按用戶需求實現(xiàn)數(shù)據(jù)的可視化。此外,隨著云計算技術(shù)的發(fā)展,谷歌、facebook、百度、騰訊云、阿里云等都推出了具有智能分析功能的數(shù)據(jù)分析平臺,其中谷歌和百度的數(shù)據(jù)分析平臺是免費開源的,有大量的案例供學(xué)習(xí)者參考。
3 數(shù)據(jù)挖掘技術(shù)在生態(tài)環(huán)境保護中的應(yīng)用
數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù),既能發(fā)現(xiàn)數(shù)據(jù)之間的規(guī)律性,也能檢測出離群數(shù)據(jù),從而為生態(tài)環(huán)境保護提供強大的技術(shù)支持。
3.1 在生態(tài)系統(tǒng)監(jiān)管中的應(yīng)用
綠水青山就是金山銀山,生態(tài)系統(tǒng)的監(jiān)管離不開對生態(tài)系統(tǒng)的結(jié)構(gòu)、功能及其過程的調(diào)查研究。郭瓊借助SPSS分析工具,采用主分成分分析法進行土地生態(tài)系統(tǒng)健康指標(biāo)的歸一化,得出反映榆次區(qū)土地生態(tài)系統(tǒng)健康狀況的綜合指數(shù)[3]。李敏在遙感數(shù)據(jù)和地理信息數(shù)據(jù)的基礎(chǔ)上利用Matlab和SPSS分析全國森林生態(tài)系統(tǒng)總初級生產(chǎn)力與環(huán)境因子的相關(guān)性得出森林總初級生產(chǎn)力的主要影響因子[4]。Mehrbakhsh Nilashi等利用聚類分析和機器學(xué)習(xí)通過75個指標(biāo)對128個國家進行社會可持續(xù)發(fā)展評估和生態(tài)可持續(xù)發(fā)展評估[5]。Aakash Lamba等利用深度學(xué)習(xí)技術(shù)分析動物的行為、山林的演變等,為環(huán)境保護政策制定提供依據(jù)[6]。阿里云ET環(huán)境大腦憑借阿里云飛天強大的計算能力和豐富的人工智能算法,能夠提供全景生態(tài)分析、智能綜合決策、智能環(huán)境監(jiān)督等服務(wù),協(xié)助環(huán)保機構(gòu)監(jiān)督環(huán)境變化及政府執(zhí)法。無錫市借助人工智能和大數(shù)據(jù)分析模型挖掘環(huán)境要素間的相互影響關(guān)系,為環(huán)境管理、決策提供支撐??梢?,數(shù)據(jù)挖掘技術(shù)的應(yīng)用為生態(tài)系統(tǒng)的科研工作和監(jiān)管工作提供可靠的工具。
3.2 在企業(yè)排污狀況監(jiān)管中的應(yīng)用
當(dāng)前,加強企業(yè)排污狀況的監(jiān)管已經(jīng)成為環(huán)保部門的中心工作。自動監(jiān)測、無人機監(jiān)測、第三方環(huán)境監(jiān)測、企業(yè)設(shè)備用水、用電數(shù)據(jù)等信息源源不斷地流入環(huán)保部門,為物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)提供了廣闊的應(yīng)用前景。目前,全國、各省及地級市都已經(jīng)建立了可視化的環(huán)境質(zhì)量數(shù)據(jù)平臺,為環(huán)境科學(xué)研究提供數(shù)據(jù)支持。河南力安科技通過對污染源和環(huán)保設(shè)備用電數(shù)據(jù)、運行工況等進行分析來輔助環(huán)保部門排查偷排企業(yè)。廣東柯內(nèi)特環(huán)境科技有限公司既能通過采集排污企業(yè)產(chǎn)污、治污、排污等維度數(shù)據(jù)來監(jiān)管企業(yè)排污狀況,也能通過分析公交車上環(huán)境自動監(jiān)測數(shù)據(jù)、GPS傳感信息和GIS地圖等信息發(fā)現(xiàn)企業(yè)的偷排行為[7]。劉紅等以企業(yè)污水處理設(shè)施的基礎(chǔ)數(shù)據(jù)的線性網(wǎng)絡(luò)訓(xùn)練和聚類分析為基礎(chǔ),從企業(yè)的排水行為和污水處理行為兩個方面綜合分析,實現(xiàn)對企業(yè)是否存在兌水排污行為的實時判斷[8]。江蘇、內(nèi)蒙古等省份依托ET環(huán)境大腦構(gòu)建排污許可大數(shù)據(jù)平臺,根據(jù)企業(yè)的產(chǎn)量、能耗、規(guī)模、資源化能力、歷史情況等進行評估,構(gòu)建當(dāng)?shù)仄髽I(yè)環(huán)境信用體系??梢?,數(shù)據(jù)挖掘技術(shù)尤其是機器學(xué)習(xí)技術(shù)的應(yīng)用正讓企業(yè)排污狀況的監(jiān)管工作向智能化、全天候的方向發(fā)展。
3.3 在環(huán)境質(zhì)量預(yù)警中的應(yīng)用
環(huán)境質(zhì)量預(yù)警是提高生態(tài)環(huán)境保護工作質(zhì)量、保障人民生命健康安全的重要手段。目前,機器學(xué)習(xí)技術(shù)在赤潮污染預(yù)警[9]、大氣污染物濃度預(yù)測[10-11]、江河水質(zhì)預(yù)測[12]等領(lǐng)域大展身手。此外,SPSS[13-14]、Matlab[15-16]和R[17-18]等工具也被用于構(gòu)建基于氣象條件和污染物排放的環(huán)境污染預(yù)測模型,這些模型為全國各地的空氣質(zhì)量監(jiān)測預(yù)報預(yù)警工作提供決策依據(jù)。同時,為提高環(huán)境質(zhì)量預(yù)警能力,污染源解析工作也很重要。源解析研究通常采用三種方法:源清單法、擴散模型法和受體模型法,其中受體模型在污染源解析的過程中應(yīng)用范圍最廣、準(zhǔn)確性最好,而受體模型中的因子分析法/主成分分析-多元回歸分析法、聚類分析法、正定矩陣因子分解法以及偏最小二乘法、支持向量機、隨機森林回歸等先進統(tǒng)計學(xué)算法都離不開數(shù)據(jù)挖掘技術(shù)的發(fā)展[19-21]。可見,數(shù)據(jù)挖掘技術(shù)在污染預(yù)測和污染源解析方面得到廣泛應(yīng)用,從而為環(huán)境質(zhì)量預(yù)警體系的建立和科學(xué)運作提供技術(shù)支持。
3.4 在環(huán)境監(jiān)測中的應(yīng)用
環(huán)境監(jiān)測是生態(tài)環(huán)境保護中最基礎(chǔ)、最重要的工作之一,監(jiān)測數(shù)據(jù)是生態(tài)環(huán)境保護各項工作的重要依據(jù)。SPSS是監(jiān)測數(shù)據(jù)質(zhì)量控制的重要工具,能及時分析監(jiān)測結(jié)果的可靠性、跟蹤誤差的來源[22-23]。此外,數(shù)據(jù)挖掘技術(shù)還能優(yōu)化監(jiān)測站點布局、實現(xiàn)監(jiān)測業(yè)務(wù)全流程優(yōu)化控制,從而大大提高環(huán)境監(jiān)測效率[24-27]。
3.5 在環(huán)境評價中的應(yīng)用
對環(huán)境質(zhì)量進行科學(xué)合理的評價能使廣大群眾、環(huán)境保護部門更加客觀地了解環(huán)境質(zhì)量,從而做出合理的生活安排以及科學(xué)的防治措施,因此環(huán)境質(zhì)量評價的科學(xué)性倍受關(guān)注。我國現(xiàn)行的環(huán)境質(zhì)量評價方法有單一因子判別法和綜合污染指數(shù)評價法,但這些方法沒有充分考慮環(huán)境的各種要素。為克服這些弊端,大量學(xué)者嘗試使用神經(jīng)網(wǎng)絡(luò)法、支持向量機法等基于機器學(xué)習(xí)技術(shù)的環(huán)境質(zhì)量評價方法。趙楠利用機器學(xué)習(xí)中的隨機森林算法來評價城市環(huán)境的空氣質(zhì)量,通過對隨機森林模型訓(xùn)練,找到多種空氣污染物與空氣質(zhì)量等級之間的內(nèi)在映射關(guān)系,建立隨機森林評價模型,提高評價科學(xué)性[28]。畢溫凱等構(gòu)建了基于支持向量機的湖泊生態(tài)系統(tǒng)健康評價模型,并將該模型用于白云湖生態(tài)系統(tǒng)健康狀況的評價,所建模型更加客觀、科學(xué)地評價了湖泊生態(tài)系統(tǒng)健康狀況,能夠為湖泊生態(tài)系統(tǒng)健康管理提供一定依據(jù)[29]。呂雷昌等針對魯中山地側(cè)柏人工林樣地采用BP神經(jīng)網(wǎng)絡(luò)和灰色關(guān)聯(lián)度進行土壤肥力評價,為該地區(qū)土壤肥力的管理提供理論依據(jù)[30]。研究證明,這些基于機器學(xué)習(xí)技術(shù)的環(huán)境質(zhì)量評價方法更能充分反映環(huán)境信息,更為科學(xué)。
4結(jié)語
隨著生態(tài)文明建設(shè)和生態(tài)環(huán)境保護進入了數(shù)據(jù)驅(qū)動的新時代,數(shù)據(jù)挖掘技術(shù)在生態(tài)環(huán)境保護領(lǐng)域中應(yīng)用的廣度和深度都不斷加強。生態(tài)系統(tǒng)監(jiān)管、企業(yè)排污狀況監(jiān)管、環(huán)境質(zhì)量預(yù)警、環(huán)境監(jiān)測與評價等環(huán)境保護工作能力的提升都離不開數(shù)據(jù)挖掘技術(shù)的發(fā)展,從傳統(tǒng)的統(tǒng)計分析技術(shù)到機器學(xué)習(xí)技術(shù)、從依賴計算機軟件的數(shù)據(jù)挖掘技術(shù)到借助物聯(lián)網(wǎng)和云計算的數(shù)據(jù)挖掘技術(shù),環(huán)境保護工作正朝著更加科學(xué)、更加智能、更加高效的方向發(fā)展。
參考文獻
[1]Robert Nisbe, Gary Miner, Ken Yale. The Data Mining and Predictive Analytic Process[M]. Handbook of Statistical Analysis and Data Mining Applications (Second Edition), Academic Press, 2018: 39-54.
[2]周桂如. 統(tǒng)計學(xué)方法在數(shù)據(jù)挖掘中的應(yīng)用[J]. 甘肅聯(lián)合大學(xué)學(xué)報(自然科學(xué)版), 2009, 23(S2): 29-31+42.
[3]郭瓊.基于SPSS軟件的主成分分析法探析——榆次區(qū)土地生態(tài)系統(tǒng)健康評價[J]. 山西農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版), 2012, 32(01): 58-62.
[4]李敏. 基于RS和GIS的森林生態(tài)系統(tǒng)總初級生產(chǎn)力估算[D]. 西安科技大學(xué), 2019.
[5]Mehrbakhsh Nilashi,Parveen Fatemeh Rupani,Mohammad Mobin Rupani,Hesam Kamyab,Weilan Shao,Hossein Ahmadi,Tarik A. Rashid,Nahla Aljojo. Measuring sustainability through ecological sustainability and human sustainability: A machine learning approach[J]. Journal of Cleaner Production, 2019, 240.
[6]Aakash Lamba,Phillip Cassey,Ramesh Raja Segaran,Lian Pin Koh. Deep learning for environmental conservation[J]. Current Biology, 2019, 29(19).
[7]朱斌.基于物聯(lián)網(wǎng)及大數(shù)據(jù)分析技術(shù)的排污全過程在線監(jiān)管系統(tǒng)研究與應(yīng)用[C]. 中國環(huán)境科學(xué)學(xué)會環(huán)境信息化分會、《中國環(huán)境管理》雜志.2016全國環(huán)境信息技術(shù)與應(yīng)用交流大會暨中國環(huán)境科學(xué)學(xué)會環(huán)境信息化分會年會論文集.中國環(huán)境科學(xué)學(xué)會環(huán)境信息化分會、《中國環(huán)境管理》雜志:中國環(huán)境科學(xué)學(xué)會環(huán)境信息化分會,2016:158-166.
[8]劉紅,方晨昊,易越,胡大偉. 一種基于基礎(chǔ)數(shù)據(jù)分析判斷企業(yè)兌水排污行為的方法[P]. CN106600509A,2017-04-26.
[9]孫東.赤潮多源監(jiān)測數(shù)據(jù)處理與綜合預(yù)測預(yù)報方法研究[D].上海交通大學(xué),2009.
[10]劉杰.北京大氣污染物時空變化規(guī)律及評價預(yù)測模型研究[D].北京科技大學(xué),2015.
[11]蔡旺華.運用機器學(xué)習(xí)方法預(yù)測空氣中臭氧濃度[J].中國環(huán)境管理,2018,10(02):78-84.
[12]趙英.地表水源水質(zhì)預(yù)測模型數(shù)據(jù)挖掘技術(shù)及其適用性研究[D].哈爾濱工業(yè)大學(xué),2008.
[13]錢婧. 基于SPSS模型的陜西省大氣污染物PSR指標(biāo)體系情景預(yù)測[D].西安建筑科技大學(xué),2014.
[14]Li-yan Sun, Cheng-lin Miao, Li Yang. Ecological environmental early-warning model for strategic emerging industries in China based on logistic regression[J]. Ecological Indicators, 2018, 84: 748-752.
[15]于秀麗.基于MATLAB模式識別實現(xiàn)環(huán)境污染等級預(yù)測的研究[J].電腦與信息技術(shù),2017,25(05):16-18.
[16]于秀麗.基于MATLAB動態(tài)神經(jīng)網(wǎng)絡(luò)在環(huán)境污染事件預(yù)測中的研究[J].電子商務(wù),2017(09):31-32+43.
[17]解蕾,狄光智.基于R語言的空氣質(zhì)量概況分析[J].電腦編程技巧與維護,2018(01):49-51.
[18]桂揚,王楊,陳甜甜.基于ARIMA模型的合肥市空氣質(zhì)量指數(shù)預(yù)測[J].陰山學(xué)刊(自然科學(xué)版),2018,32(02):120-123.
[19]陳雅麗,翁莉萍,馬杰,武曉娟,李永濤.近十年中國土壤重金屬污染源解析研究進展[J].農(nóng)業(yè)環(huán)境科學(xué)學(xué)報,2019,38(10):2219-2238.
[20]李楠. 激光誘導(dǎo)擊穿光譜技術(shù)結(jié)合化學(xué)計量學(xué)方法在城市大氣顆粒污染源解析中的初步應(yīng)用研究[D].西北大學(xué),2019.
[21]田騰飛. 基于污染源解析和水質(zhì)模擬的城市黑臭水體整治效果評估[D].天津理工大學(xué),2019.
[22]單金林.SPSS軟件在環(huán)境監(jiān)測實驗數(shù)據(jù)處理中的應(yīng)用[J].高校實驗室工作研究,2009(01):29-31.
[23]曉明.SPSS統(tǒng)計軟件在環(huán)境監(jiān)測實驗中的應(yīng)用[J].實驗技術(shù)與管理,1999,16(06):66-68.
[24]鄭向群,趙政,劉東生.基于數(shù)據(jù)倉庫的土壤環(huán)境監(jiān)測綜合挖掘模型構(gòu)架[J].農(nóng)業(yè)工程學(xué)報,2008(08):162-168.
[25]陸志波,陸雍森.環(huán)境監(jiān)測數(shù)據(jù)分析和監(jiān)測網(wǎng)設(shè)計中SPSS10.0的應(yīng)用[J].環(huán)境監(jiān)測管理與技術(shù),2002(03):12-16.
[26]高爽,朱長軍,李步東.聚類分析法在水質(zhì)監(jiān)測斷面水質(zhì)分析中的應(yīng)用[J].河北工程大學(xué)學(xué)報(自然科學(xué)版),2018,35(01):81-83.
[27]邱順凡. 村鎮(zhèn)地表水體水質(zhì)監(jiān)測點優(yōu)化布置與水質(zhì)評價方法研究[D].湖南大學(xué),2014.
[28]趙楠.基于機器學(xué)習(xí)的城市環(huán)境空氣質(zhì)量評價研究[D].上海應(yīng)用技術(shù)大學(xué),2017.
[29]畢溫凱,袁興中,唐清華,高強,龐志研,祝慧娜,梁婕,江洪煒,曾光明.基于支持向量機的湖泊生態(tài)系統(tǒng)健康評價研究[J].環(huán)境科學(xué)學(xué)報,2012,32(08):1984-1990.
[30]呂雷昌,葛忠強,梁燕,李宗泰,杜振宇,王清華.基于BP神經(jīng)網(wǎng)絡(luò)和灰色關(guān)聯(lián)度的側(cè)柏人工林土壤肥力評價[J].山東農(nóng)業(yè)科學(xué),2019,51(10):104-110.
收稿日期:2020-02-25
基金項目:廣東省高等職業(yè)教育品牌專業(yè)建設(shè)項目“環(huán)境監(jiān)測與控制技術(shù)”
作者簡介:林書樂(1986-),工程師/講師,研究方向為環(huán)境自動監(jiān)測。