劉子伊
(北京國環(huán)清華環(huán)境工程設(shè)計(jì)研究院有限公司 北京 100084)
在我國的生態(tài)環(huán)境領(lǐng)域中,大氣質(zhì)量問題尤為嚴(yán)峻。經(jīng)常發(fā)生的大氣污染降低了大氣質(zhì)量,造成大氣污染的因素多種多樣,其中有自然地理因素,也有工、農(nóng)、商、貿(mào)因素,有居民日常生活因素,也有交通、建筑等因素。正是由于造成大氣污染因素復(fù)雜,從而導(dǎo)致了污染治理途徑的多樣性,但都必須準(zhǔn)確找到污染源和污染因素,分析清楚污染物的種類和污染物的含量,掌握污染物在大氣污染中所起的作用,這就涉及到人們?nèi)粘Ia(chǎn)、運(yùn)輸、貿(mào)易、生活的方方面面。治理大氣污染的成效關(guān)乎到人民群眾的生活質(zhì)量和身體健康,關(guān)乎到國家的前途命運(yùn),為此,要加快大氣污染有效治理的步伐,這離不開先進(jìn)科技的支撐,而我國科技水平的不斷進(jìn)步,使治理大氣污染的技術(shù)多樣化,相對(duì)而言,應(yīng)用大數(shù)據(jù)技術(shù)正在逐步成為今后治理大氣污染的一種科學(xué)有效的途徑。
在大氣污染治理中經(jīng)常使用的主要數(shù)據(jù)稱為傳統(tǒng)數(shù)據(jù),它屬于結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),通常以數(shù)字或符號(hào)等信息為載體,在計(jì)算機(jī)處理中標(biāo)注和存儲(chǔ)相對(duì)容易,其數(shù)量僅僅達(dá)到GB 級(jí)。而對(duì)于大數(shù)據(jù)來說,其定義目前在學(xué)界尚不統(tǒng)一,有不少學(xué)者使用的是描述性的定義。武延軍認(rèn)為,相對(duì)于傳統(tǒng)數(shù)據(jù)而言,大數(shù)據(jù)屬于半結(jié)構(gòu)或非結(jié)構(gòu)化的數(shù)據(jù)集合,大數(shù)據(jù)的信息載體除了數(shù)字之外,更主要的是音像等媒介,或者是計(jì)算機(jī)領(lǐng)域的文本,一般不能像傳統(tǒng)數(shù)據(jù)那樣標(biāo)注和存儲(chǔ)。換言之,大數(shù)據(jù)是指在一定時(shí)間范圍內(nèi),使用特定的方法、流程和計(jì)算資源進(jìn)行處理和分析的數(shù)據(jù)集合,是“人”“機(jī)”“物”高度融合、共同作用而形成的,其數(shù)量可以達(dá)到PB、EB 甚至ZB 級(jí)[1]。袁冰則認(rèn)為大數(shù)據(jù)是高科技的信息產(chǎn)物,是在一定時(shí)間內(nèi)通過全新高效的數(shù)據(jù)處理模式并具有更有效優(yōu)化能力的規(guī)模大和多樣化的數(shù)據(jù)信息資產(chǎn)。
可見,大數(shù)據(jù)不僅僅表現(xiàn)出數(shù)據(jù)的規(guī)模之大,還表現(xiàn)在信息載體種類繁多、數(shù)據(jù)處理效率高等方面[2]。早在2015 年,國務(wù)院曾經(jīng)印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確指出了大數(shù)據(jù)的基本特征和主要優(yōu)勢(shì)及其重要性[3]。俞立平則較好地歸納出了大數(shù)據(jù)具有大規(guī)模、多種類、快速處理、高價(jià)值和真實(shí)性等基本特征[4]。
大數(shù)據(jù)技術(shù)中的數(shù)據(jù)處理在本質(zhì)上仍然屬于統(tǒng)計(jì)分析,或者說是升級(jí)了的傳統(tǒng)統(tǒng)計(jì)分析,在數(shù)據(jù)處理過程中計(jì)算機(jī)具備了學(xué)習(xí)技術(shù)、數(shù)據(jù)挖掘能力、數(shù)據(jù)管理能力;一般而言,計(jì)算機(jī)在進(jìn)行傳統(tǒng)的統(tǒng)計(jì)分析時(shí),主要是進(jìn)行數(shù)據(jù)的計(jì)算和分析。大數(shù)據(jù)技術(shù)的數(shù)據(jù)挖掘,其實(shí)就是對(duì)大量數(shù)據(jù)進(jìn)行相關(guān)性分析,目的是發(fā)掘特定事件的規(guī)律或預(yù)警特定事件發(fā)生的關(guān)鍵節(jié)點(diǎn)。大數(shù)據(jù)挖掘的一個(gè)典型案例就是“谷歌流感趨勢(shì)”(Google Flu Trends,GFT)[5],這款大數(shù)據(jù)處理系統(tǒng)以流感疫情為特定事件,以用戶的搜索記錄中與流感高度關(guān)聯(lián)的頭疼、咳嗽、發(fā)熱、肌肉疼痛等關(guān)鍵詞進(jìn)行挖掘,根據(jù)用戶搜索的次數(shù)與設(shè)定的閾值比較,從而對(duì)某地區(qū)某一時(shí)期的流感疫情進(jìn)行評(píng)估和預(yù)測(cè)。在大數(shù)據(jù)處理流程中也仍然包括傳統(tǒng)統(tǒng)計(jì)分析的基本方法和功能,即對(duì)各種原始數(shù)據(jù)進(jìn)行整理、計(jì)算、編輯、歸類分析等;而對(duì)傳統(tǒng)統(tǒng)計(jì)分析的升級(jí)則表現(xiàn)在對(duì)初始數(shù)據(jù)的過濾和梳理,又稱為數(shù)據(jù)清洗和數(shù)據(jù)集成,這是大數(shù)據(jù)技術(shù)的核心。然而,對(duì)于其它應(yīng)用領(lǐng)域來說,數(shù)據(jù)挖掘除了涉及到統(tǒng)計(jì)學(xué)、計(jì)算機(jī)、數(shù)學(xué)模型等知識(shí)之外,更需要雄厚的應(yīng)用領(lǐng)域的專業(yè)知識(shí)。
在我國的許多行業(yè)已經(jīng)不同程度地使用了大數(shù)據(jù)技術(shù),并取得了比較理想的使用效果。在廣告營銷中增加了廠商與客戶之間的黏性,有助于個(gè)性化營銷和差異化服務(wù);電商行業(yè)不斷及時(shí)獲得顧客的消費(fèi)行為和價(jià)值取向。在政府治理體系的等多個(gè)領(lǐng)域正在普及使用大數(shù)據(jù)技術(shù),特別是在疫情防控中,各級(jí)政府成功地運(yùn)用大數(shù)據(jù)技術(shù)防控,精準(zhǔn)施策恢復(fù)生產(chǎn)、生活正常秩序,同時(shí)助推了無接觸醫(yī)療、影像識(shí)別等遠(yuǎn)程診療和在線診療等新生事物應(yīng)運(yùn)而生[6]。
我國在生態(tài)環(huán)境領(lǐng)域的大數(shù)據(jù)技術(shù)應(yīng)用工作亦已經(jīng)初步展開,并取得了一定的成效,尤其是利用大數(shù)據(jù)技術(shù)從有關(guān)大氣的大數(shù)據(jù)中獲得巨大信息,逐步用于大氣污染治理中的大氣質(zhì)量檢測(cè)、大氣變化預(yù)測(cè),從而不斷提高我國的大氣質(zhì)量水平。2016 年,原環(huán)境保護(hù)部開展了生態(tài)環(huán)境大數(shù)據(jù)體系建設(shè)工作,出臺(tái)了《生態(tài)環(huán)境大數(shù)據(jù)建設(shè)總體方案》,建立了生態(tài)環(huán)境數(shù)據(jù)中心和標(biāo)準(zhǔn)規(guī)范體系,使得數(shù)據(jù)共享在部門間、領(lǐng)域間得以實(shí)現(xiàn);對(duì)不同類型的數(shù)據(jù)資源進(jìn)行了有效整合,涉及到環(huán)評(píng)管理、支撐、業(yè)務(wù)等環(huán)保部內(nèi)部、地方環(huán)保部門、其他相關(guān)部委數(shù)據(jù)等資源網(wǎng)。建成了數(shù)據(jù)采集系統(tǒng)、登記表備案系統(tǒng)、會(huì)商平臺(tái)、智慧監(jiān)管平臺(tái)、互聯(lián)網(wǎng)服務(wù)平臺(tái)[7]。生態(tài)環(huán)境大數(shù)據(jù)體系建設(shè)工作為大氣污染治理中大數(shù)據(jù)的獲取奠定了基礎(chǔ),提供了一些可能的數(shù)據(jù)分析和應(yīng)用途徑。
李云婷等研制了大氣環(huán)境業(yè)務(wù)應(yīng)用系統(tǒng)體系,分析常規(guī)空氣質(zhì)量檢測(cè)數(shù)據(jù),這些數(shù)據(jù)主要來源于網(wǎng)絡(luò)監(jiān)測(cè)、手工采樣和儀器監(jiān)測(cè),還包括基礎(chǔ)的地理信息以及來自目錄、用戶信息、權(quán)限和系統(tǒng)日志等數(shù)據(jù)庫的數(shù)據(jù)。采用多模式集合預(yù)報(bào)、專家調(diào)優(yōu)支撐高性能預(yù)報(bào)會(huì)商,從時(shí)空關(guān)聯(lián)分析中挖掘大氣污染特征與成因[8]。大氣環(huán)境業(yè)務(wù)應(yīng)用系統(tǒng)體系對(duì)充分利用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行多模型分析進(jìn)行了有益嘗試,為大氣質(zhì)量預(yù)測(cè)預(yù)報(bào)進(jìn)行了探索。趙云潔對(duì)2013年到2018 年之間的鄭州市空氣質(zhì)量指數(shù),采用Scrapy 框架爬取技術(shù)處理,以R 軟件統(tǒng)計(jì)分析,主要是描述統(tǒng)計(jì)、相關(guān)分析和回歸分析,并進(jìn)行了可視化的研究,發(fā)現(xiàn)了鄭州空氣污染的主要成因[9]。這一研究僅局限在對(duì)局部地區(qū)大氣污染成因進(jìn)行的可視化分析研究。周俊等研究認(rèn)為由于信息化發(fā)展具有滯后性,環(huán)評(píng)行業(yè)發(fā)展的時(shí)代局限性,使得我國環(huán)評(píng)大數(shù)據(jù)直到目前為止,在一定程度上仍然停留在一些概念形成和認(rèn)知階段[10]。
在今后相當(dāng)長時(shí)間內(nèi),徹底根治大氣污染是我國生態(tài)環(huán)境工作中的一項(xiàng)艱巨任務(wù),而大數(shù)據(jù)技術(shù)的應(yīng)用方興未艾。通常大氣污染治理是在大氣發(fā)生了污染后進(jìn)行的,目標(biāo)是把被污染了的大氣治理成為藍(lán)天白云,從而提高空氣質(zhì)量。然而,大數(shù)據(jù)技術(shù)的應(yīng)用不應(yīng)僅局限在大氣污染后的治理和評(píng)價(jià)環(huán)節(jié),而應(yīng)該更加關(guān)注并逐漸將重點(diǎn)轉(zhuǎn)為預(yù)防大氣污染的發(fā)生,把污染治理在萌芽之中,持續(xù)維持高質(zhì)量空氣指數(shù)。為此,培養(yǎng)大批大氣領(lǐng)域的大數(shù)據(jù)技術(shù)專業(yè)人才、研究創(chuàng)造出大氣污染治理的專有大數(shù)據(jù)應(yīng)用模型、充分利用5G 等先進(jìn)技術(shù)獲取大數(shù)據(jù)將成為我國大氣污染治理中主流發(fā)展趨勢(shì)。
當(dāng)前,大氣領(lǐng)域的大數(shù)據(jù)分析能力匱乏,尤其缺乏具備大氣、大數(shù)據(jù)、計(jì)算機(jī)、化學(xué)、數(shù)學(xué)、生物等多學(xué)科綜合知識(shí)的人才,這對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用十分不利。要培養(yǎng)一大批大氣領(lǐng)域的專門人才,使他們具有互聯(lián)網(wǎng)信息領(lǐng)域的背景,能夠熟練地在大氣領(lǐng)域開展編程和硬件管理工作,深入從事大氣科學(xué)的數(shù)據(jù)挖掘和整理;能夠做出大氣專業(yè)方面的數(shù)據(jù)研判和分析應(yīng)用。
迄今為止,國內(nèi)外還沒有真正意義上大氣污染治理的大數(shù)據(jù)分析模型?,F(xiàn)有的大數(shù)據(jù)技術(shù)中的分析模型都有其特定的非大氣領(lǐng)域使用的條件和范圍,根據(jù)統(tǒng)計(jì)學(xué)常識(shí),在大氣污染治理中直接使用這樣的分析模型處理大氣污染數(shù)據(jù),容易出現(xiàn)系統(tǒng)誤差。開發(fā)大氣污染治理專用大數(shù)據(jù)分析模型,要充分考慮大氣大數(shù)據(jù)的規(guī)模大和種類繁多等特點(diǎn),既要有特定條件下需要采用的專業(yè)模型,也要有不同的環(huán)境條件下數(shù)據(jù)分析的綜合性的開放性模型,在使用過程中會(huì)不斷得到優(yōu)化、調(diào)整和修正。
現(xiàn)在既有的大數(shù)據(jù)技術(shù)突出了“預(yù)測(cè)”功能這一核心,依靠的是大數(shù)據(jù)的關(guān)聯(lián)性分析,利用高維、多模式、網(wǎng)絡(luò)化、非線性技術(shù)手段拓展了傳統(tǒng)統(tǒng)計(jì)學(xué)方法,但這些處理對(duì)大氣污染治理仍不夠?qū)I(yè)。一些關(guān)于大氣污染的分析模型沒有考慮區(qū)域大氣的空間溢出效應(yīng),即大氣污染的區(qū)域性和交叉性;沒有考慮全方位綜合性因素,僅僅分析大氣污染的一個(gè)或幾個(gè)影響因素,這極易導(dǎo)致預(yù)測(cè)時(shí)產(chǎn)生偏差。在開發(fā)大氣污染治理的專業(yè)大數(shù)據(jù)分析模型的時(shí)候,一定要汲取2012 年GFT 預(yù)測(cè)的教訓(xùn),根據(jù)GFT 預(yù)測(cè),當(dāng)年12月美國要大爆發(fā)一次流感,而實(shí)際情況并沒有預(yù)測(cè)的那樣嚴(yán)重[11]。造成GFT 預(yù)測(cè)不準(zhǔn)確的原因在于數(shù)據(jù)分析模型僅僅進(jìn)行數(shù)值之間的關(guān)聯(lián)性分析,沒有對(duì)數(shù)據(jù)進(jìn)行流行病專業(yè)性分析。數(shù)據(jù)分析模型開發(fā)者欠缺流行病專業(yè)知識(shí),即使開發(fā)系統(tǒng)的工程師對(duì)模型不斷地進(jìn)行算法調(diào)優(yōu),其預(yù)測(cè)結(jié)論的誤差仍然不斷增大[12]。
用于大氣污染治理的大數(shù)據(jù)來源要科學(xué)合理,既要符合大氣科學(xué)要求,又要確保各項(xiàng)數(shù)據(jù)客觀真實(shí)、正確完整、及時(shí)無誤,這需要有效的數(shù)據(jù)治理標(biāo)準(zhǔn)與機(jī)制,才能優(yōu)化大氣數(shù)據(jù)資源,提高數(shù)據(jù)整合能力。因?yàn)閭鹘y(tǒng)的結(jié)構(gòu)化數(shù)據(jù)在抽樣過程中,由于布點(diǎn)的局限性和片面性,以及獲取數(shù)據(jù)時(shí)的標(biāo)準(zhǔn)、信息代碼不盡相同等原因,可能造成“信息孤島”現(xiàn)象。抽樣布點(diǎn)要有很好的代表性和不可取代性,徹底避免因?yàn)閬碓床缓侠矶斐傻南到y(tǒng)誤差。5G 技術(shù)可以使衛(wèi)星和航空手段,通過智能化遙感監(jiān)測(cè)實(shí)現(xiàn)遠(yuǎn)程采集視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的來源更加廣泛、全面、準(zhǔn)確,可以充分發(fā)揮半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢(shì),這是使用大數(shù)據(jù)技術(shù)進(jìn)行大氣污染治理的新機(jī)遇,尤其是在獲取大氣數(shù)據(jù)時(shí)具有的及時(shí)、快速、海量、連續(xù)性、多地、多點(diǎn)突出優(yōu)勢(shì),是傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)無法比擬。
在我國的大氣污染治理中,已經(jīng)越來越離不開大數(shù)據(jù)技術(shù)。在充分認(rèn)識(shí)大數(shù)據(jù)技術(shù)重要性的基礎(chǔ)上,不斷培養(yǎng)熟練掌握大數(shù)據(jù)技術(shù)的治理大氣污染專門人才,創(chuàng)新大氣污染治理的大數(shù)據(jù)分析模型,合理布局有利于獲取大數(shù)據(jù)的監(jiān)測(cè)點(diǎn),配備大數(shù)據(jù)存儲(chǔ)的必要設(shè)備,就能夠促進(jìn)我國大氣污染治理工作的科學(xué)、有效、健康、快速地發(fā)展。