陳 征,高明亮,蔣衛(wèi)國,李志濤
(1.生態(tài)環(huán)境部 土壤與農(nóng)業(yè)農(nóng)村生態(tài)環(huán)境監(jiān)管技術中心,北京 100012; 2.首都師范大學 資源環(huán)境與旅游學院,北京 100048; 3.北京師范大學 地理科學學部,北京 100875; 4.中國環(huán)境科學研究院,北京 100012)
隨著物聯(lián)網(wǎng)、云計算、衛(wèi)星遙感技術的快速發(fā)展,數(shù)據(jù)呈爆炸式增長,大數(shù)據(jù)時代到來[1]。遙感技術、人工智能等新技術為污染場地管控帶來了新契機。以調(diào)研為主的單一來源信息已經(jīng)無法滿足污染場地智能化管控技術的需求,因為海量數(shù)據(jù)來源各異,數(shù)據(jù)類型復雜多樣,難以直接用于污染場地管控決策,需采用數(shù)據(jù)融合技術,按照一定規(guī)則,對場地數(shù)據(jù)或敏感受體相關信息進行預處理、特征提取、融合等,以支持最終決策。在充分利用多源數(shù)據(jù)或關聯(lián)關系的同時,充分考慮數(shù)據(jù)的獨特性來提高決策的可靠性。多源異構數(shù)據(jù)融合具有單一來源數(shù)據(jù)無法比擬的優(yōu)越性和典型特征[2],如數(shù)據(jù)的冗余性、互補性、實時性等[3]。目前,數(shù)據(jù)融合技術受到廣泛關注,已成為大數(shù)據(jù)[4]、數(shù)據(jù)挖掘、生態(tài)[5-6]、環(huán)境[7]、地學[8-9]等領域的熱門研究課題[10]。充分利用大數(shù)據(jù)優(yōu)勢及數(shù)據(jù)挖掘等新技術、新方法,實現(xiàn)污染場地的智能化管控已成為污染場地管控及修復等工作迫在眉睫的需求。數(shù)據(jù)融合是通過綜合來自多個數(shù)據(jù)源的特征來減少決策中的不確定性,從而改善決策質(zhì)量。多源異構數(shù)據(jù)融合是針對多源異構數(shù)據(jù)的一種處理手段,通過結構化處理、特征識別及知識推理等方法,從原始數(shù)據(jù)源中得出綜合評估和判斷,增加數(shù)據(jù)及結論的置信度,提高決策的可靠性,降低不確定性。
針對污染場地智能化管控對多源異構數(shù)據(jù)融合的需求,對多源異構數(shù)據(jù)融合技術及方法進行綜述,對其發(fā)展方向進行了展望,以期為污染場地多源異構數(shù)據(jù)融合技術的研發(fā)提供理論框架及科學依據(jù),為污染場地智能化管控提供重要的理論基礎及技術支撐。
數(shù)據(jù)融合概念始于20世紀70年代初,近年來引起了世界的普遍關注。美國JDL(the Joint Directors of Laboratories)從軍事應用角度,將數(shù)據(jù)融合定義為一種將來自多傳感器的數(shù)據(jù)進行關聯(lián)與組合,實現(xiàn)較為準確的位置推斷及身份估計的技術,可對戰(zhàn)場狀況、威脅程度及重要水平做出及時完整的評價[11]。針對更普遍的應用場景,一些學者對數(shù)據(jù)融合的定義做了完善與修訂。張新長[12]等將數(shù)據(jù)融合技術定義為利用計算機對按時序獲得的若干觀測信息在一定準則下加以自動分析、綜合,以完成所需的決策與評估任務而進行的信息處理技術。
數(shù)據(jù)融合的本質(zhì)是一個由底層至頂層對多源數(shù)據(jù)進行整合、逐層抽象的信息處理過程。多源異構數(shù)據(jù)存在不同數(shù)據(jù)結構和冗余特征,在融合前需要執(zhí)行清洗、去異常值、去重等操作等一系列預處理流程。污染場地多源異構數(shù)據(jù)融合需要對來自不同傳感器(或數(shù)據(jù)源)的特征描述信息進行分析處理,按照一定規(guī)則進行冗余整合、信息互補,對產(chǎn)生沖突的數(shù)據(jù)進行判別與評估,從而得出對目標的準確判斷。典型的數(shù)據(jù)融合過程如圖1所示,包括預處理、特征提取、融合計算、結果輸出等步驟。
圖1 污染場地多源異構數(shù)據(jù)融合的基本過程Fig.1 Basic process of multi-source heterogeneous data fusion in contaminated sites
根據(jù)污染場地智能化管控中多源異構數(shù)據(jù)的存儲模式和結構特征,主要在柵格結構層面進行數(shù)據(jù)融合,即對矢量數(shù)據(jù)和非結構化數(shù)據(jù)進行柵格化后再進行融合,主要包括以下3個方面的融合:①污染場地多源、多尺度遙感數(shù)據(jù)融合。②污染場地GIS空間矢量數(shù)據(jù)與遙感數(shù)據(jù)融合。③污染場地非結構化數(shù)據(jù)與空間數(shù)據(jù)融合。
多源異構數(shù)據(jù)融合方法的分類準則較多,如污染場地多源異構數(shù)據(jù)融合主要在柵格結構層面進行,宜采用基于數(shù)據(jù)層級的分類方法[13],將數(shù)據(jù)融合分為像素級、特征級和決策級3個層次,每個層次可以設計不同的融合方法。
像素級融合。在基于數(shù)據(jù)層級的數(shù)據(jù)融合方法分類體系中,像素級融合是最低層次的融合,是直接在預處理后的數(shù)據(jù)層融合,按照一定的策略逐像元計算得到新的融合圖像,在提升數(shù)據(jù)質(zhì)量(如分辨率、數(shù)據(jù)維度等)的同時,最大限度保留圖像的原始信息。它對硬件設施要求較高,逐像元融合處理需要對待融合圖像進行精確配準,融合結果容易受噪聲及預處理效果的影響。常用的像元級融合方法包括代數(shù)法、IHS (Intensity-Hue-Saturation)變換、小波變換[14]、主成分(PCA,Principal component analysis)變換、K-T變換(Kautlr-Thomas Transformation,又稱穗帽變換)等。
特征級融合。特征級融合是中間層次的融合,按照特定的規(guī)則提取目標特征的內(nèi)在描述,對圖像進行特征提取并進行綜合處理。特征是圖像信息的進一步抽象,因此特征級融合是一種代價處理,為了提取特征信息,壓縮數(shù)據(jù)量,損失了部分細節(jié)信息。按特征信息對多源數(shù)據(jù)進行分類、聚集和綜合,產(chǎn)生特征向量,通過多個特征向量的組合增加特征維數(shù),從而提高目標的識別準確率。常用的特征級融合方法包括人工神經(jīng)網(wǎng)絡、特征聚類、卡爾曼濾波、遺傳算法等。
決策級融合。決策級融合是最高層次的融合,融合結果可為決策提供依據(jù)。通過對污染場地多源異構數(shù)據(jù)的預處理、特征抽取、識別及判決,建立對觀察目標的初步結論。在獨立完成決策或分類的基礎上將多個識別結果進行融合,做出全局的最優(yōu)決策。其優(yōu)點是具有很強的容錯性、開放性,處理時間短,數(shù)據(jù)要求低,分析能力強。但是由于決策是最高層次的抽象,同時判別和估計對預處理及特征提取有較高的要求,因此決策級融合的代價在三個層次中是最高的。常用的決策級融合方法包括貝葉斯方法、D-S證據(jù)推理(Dempster-Shafer reasoning)、模糊推理、專家系統(tǒng)等。
此外,污染場地多源異構數(shù)據(jù)融合方法的分類依據(jù)還包括輸入數(shù)據(jù)的關系、輸入/輸出數(shù)據(jù)類型、Joint Directors of Laboratories (JDL)定義的層級[15]、結構類型等。污染場地多源異構數(shù)據(jù)融合方法類型及其特點詳見表1。
表1 污染場地多源異構數(shù)據(jù)融合方法分類體系Tab.1 Classification system of multi-source heterogeneous data fusion method for contaminated sites
基于數(shù)理統(tǒng)計的方法主要包括貝葉斯(Bayes)推理、貝葉斯網(wǎng)絡[19]、支持向量機(Support Vector Machine,SVM)[20]及證據(jù)推理(Evidential Reasoning)等[21]。
基于貝葉斯估計方法。貝葉斯推理是多源異構數(shù)據(jù)融合最常用的方法之一[22]。其基本原理是利用概率原則組合來自多個傳感器的多源信息,并用概率表示每種信息的不確定性,計算在給定條件下某個假設為真的后驗概率,在實際情境中按照一定判定策略來做決策。對于數(shù)據(jù)源提供的屬性(證據(jù))B1,B2,…,Bn,逐一計算各屬性(證據(jù))在各假設為真的條件下的概率P(Bi|Aj)及n個屬性(證據(jù))的聯(lián)合概率:
P(B1,B2,…,Bn|Aj)=P(B1|Aj)·P(B2|Aj)…P(Bn|Aj)
(1)
利用貝葉斯公式,計算在n個證據(jù)為真的條件下假設A的后驗概率為:
P(Aj|B1,B2,…,Bn)=P(B1,B2,…,Bn|Aj)·P(Aj)/P(B1,B2,…,Bn)
(2)
在實際情境下,基于式(2)計算結果按照一定的判定策略做輔助決策。
貝葉斯網(wǎng)絡是一種用來描述不確定性關系的理論方法[23],基于有向圖來描述目標之間的相互關系,用于分析多源異構數(shù)據(jù)融合中多目標的因果關系及依賴關系。根據(jù)貝葉斯定理與特征條件獨立性假設進行輸入數(shù)據(jù)的聯(lián)合概率分布學習與估算,是一種基于獨立事件概率的模型,在圖論中,貝葉斯的結構主要有3種形式,如圖2所示。
圖2 貝葉斯網(wǎng)絡的三種典型結構Fig.2 Three typical structures of Bayesian networks
Head to Head:當AB事件同時發(fā)生時,C事件發(fā)生,則事件同時觸發(fā)的概率為:
(3)
Tail to Tail:當C已知時,則AB事件獨立。
Head to Tail:此時事件同時觸發(fā)的概率為:
(4)
貝葉斯網(wǎng)絡可用于分析數(shù)據(jù)間的關聯(lián)關系,如污染場地相關的源、受體、傳播途徑等量化特征及地理位置信息等。聯(lián)合概率分布通常只能基于觀測數(shù)據(jù)來求解后驗分布,因此對于數(shù)據(jù)質(zhì)量要求較高,需要有大量的高質(zhì)量觀測數(shù)據(jù)才能得到較為準確的推理模型。貝葉斯網(wǎng)絡是一種基于獨立事件的概率圖模型,對于非獨立事件在聯(lián)合概率分布的求解會有較大的誤差。
D-S證據(jù)推理方法。污染場地監(jiān)測與管控依賴多種傳感器采集的數(shù)據(jù),其目的是為了監(jiān)測多種環(huán)境影響及區(qū)域響應參數(shù),包含了多種信息源帶來的不確定性。因此面向污染場地管控的多源異構數(shù)據(jù)融合,需要將多源異構信息的不確定性進行綜合建模和推理,并輸出一個最終決策。D-S證據(jù)推理方法通過建立信任函數(shù),利用信任度而非概率來量化不確定信息的可靠性[24],在數(shù)據(jù)融合過程中不僅要保證證據(jù)的客觀性,還要重視主觀性和綜合因素,具有較強的靈活性[25-26]。其基本思路[27]為:建立識別框架→初始信任分配→計算所有假設命題的信任度→證據(jù)合成→決策。在進行證據(jù)推理過程中需要用到幾個重要的證據(jù)函數(shù),包括基本概率分配函數(shù)、信任函數(shù)及似然函數(shù)。其中,基本概率分配函數(shù)(Basic probability assignment,簡稱BPA)表征各個證據(jù)對命題的信任程度,BPA是否合理對最終結果影響較大。信任函數(shù)(Belief function)表征各個證據(jù)對命題為真的信任程度。似然函數(shù)表征對命題的“非假”信任度,即命題可能成立的不確定性度量,也被稱為上限函數(shù)。
基于估計理論的方法主要包括最小二乘法、加權平均法、卡爾曼濾波(Kalman Filter)等線性估計技術[28-29]及一些非線性估計技術,如高斯濾波方法[30]等。
基于加權平均的方法。加權平均法是數(shù)據(jù)級融合中最簡單易行的方法,在多波段圖像(如遙感圖像)數(shù)據(jù)級融合中應用較為廣泛。該方法將數(shù)據(jù)源所提供的一組有冗余信息的數(shù)據(jù)賦予加權系數(shù)后做加權平均處理,如遙感圖像處理的多波段運算。
用wi代表賦予數(shù)據(jù)源ti的權重,則
(5)
得到的結果即為數(shù)據(jù)融合的結果,這種方法簡單直觀,但權重賦值取決于提取對象的特征且需要一定先驗經(jīng)驗知識,受主觀因素影響。
自適應加權平均法采用自適應的方式,通過迭代尋找各數(shù)據(jù)源的最優(yōu)權重,替代人工確定權重的過程,在滿足總均方誤差最小的前提下獲得最優(yōu)的融合結果。
卡爾曼濾波法。多用于動態(tài)環(huán)境中多傳感器、多源信息的實時融合,可有效利用多源異構數(shù)據(jù)之間的關系,運算效率較高。其核心是計算多源異構數(shù)據(jù)(或信息)之間的加權平均值。其中,各數(shù)據(jù)源(信息源)權重與多次測量結果的方差成反比。在實際應用中通過調(diào)節(jié)各數(shù)據(jù)源(信息源)的方差值來修正權值,從而得到更可靠的結果??柭鼮V波融合算法計算模型為:
(6)
其中,X為狀態(tài)估計矩陣,A為狀態(tài)轉移矩陣,B為系統(tǒng)控制矩陣(通常為0矩陣),u為系統(tǒng)控制量(通常取0),ω為系統(tǒng)噪聲,Z為觀測值矩陣,H為系統(tǒng)觀測矩陣,ν為觀測噪聲。采用最小方差估計方法,根據(jù)測量值Z估計系統(tǒng)狀態(tài)矢量X的Kalman濾波方程,狀態(tài)更新包括時間更新及測量更新兩部分。時間更新方程為:
(7)
狀態(tài)更新方程為:
(8)
從信息論觀點來解釋數(shù)據(jù)融合的過程——實質(zhì)上是不確定性減少的過程。在污染場地多源異構數(shù)據(jù)融合中應用數(shù)理統(tǒng)計方法進行特征信息的處理和傳遞,即基于信息論的多源異構數(shù)據(jù)融合方法。具有代表性的算法包括模糊集理論(Fuzzy Set Theory,FST)[31]、信息熵(information entropy)[32]等。
模糊集理論。在污染場地多源異構數(shù)據(jù)融合過程中,融合系統(tǒng)處理的特征和信息存在一定的模糊性,而模糊集理論以其特有的處理模糊問題能力及模糊推理優(yōu)勢,被廣泛應用于多源數(shù)據(jù)融合、資源環(huán)境評價[33]等領域。它將一個集合的隸屬度定義為一個可能性分布[34],即通過把經(jīng)典集合中的隸屬關系推廣到可以取單位區(qū)間[0, 1]上的任一值,從而達到定量刻畫模糊性對象的目的[35]。
模糊綜合評判是一種常用的基于模糊集理論的評價方法,可參考文獻[36]。利用模糊綜合評判原理進行多源信息融合,具有系統(tǒng)結構簡單、計算復雜度低、耗時小、便于實時處理、容易實現(xiàn)等優(yōu)勢,被廣泛用于多源異構數(shù)據(jù)融合應用中。污染場地多源異構數(shù)據(jù)模糊集融合方法處理流程如圖3所示:
圖3 基于模糊集理論的污染場地多源異構數(shù)據(jù)融合處理流程Fig.3 Multi-source heterogeneous data fusion processing of contaminated sites based on fuzzy set theory
信息熵方法。為了提取污染場地相關的污染源、暴露途徑及受體等特征信息,選擇數(shù)據(jù)模型化處理是最好的方式[37]。但是數(shù)據(jù)信息模型化存在不確定性,常用的解決方法是采用最大熵原理(The Maximum Entropy Principle,MEP)[38]。需要注意的是,這里的“熵”并不是指熱力學概念,而是Claude Elwood Shannon提出的信息熵,用來描述信息的不確定程度[39]。一個離散型隨機變量X的熵H(X)定義為:
(9)
其中:p(x)表示取值為x的概率,log()為以2或e為底的對數(shù)。
對污染場地多源異構數(shù)據(jù)的融合是對同一表達層次、多源異構信息的合成過程,把輸入數(shù)據(jù)(遙感數(shù)據(jù)、GIS空間矢量及非結構化數(shù)據(jù)等)和輸出信息(包含污染源、暴露途徑及受體等信息)定義為兩種不同的信息源,并用兩種概率空間上定義的信息熵進行描述。
通常,最大熵模型假設融合模型C是一個條件概率分布P(Y|X),其中X為特征,Y為輸出。定義在條件概率分布P(Y|X)熵的條件熵[40]為:
(10)
求解H(P)最大時對應的P(y|x),即求解模型集合C中條件熵最大的模型。最大熵統(tǒng)計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型,可靈活地設置約束條件,通過約束條件的多少來調(diào)節(jié)模型對未知數(shù)據(jù)的適應度及對已知數(shù)據(jù)的擬合程度。
人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)。特指淺層神經(jīng)網(wǎng)絡,即包含一個輸入層、一個隱藏層與一個輸出層的神經(jīng)網(wǎng)絡模型。其具有完善的容錯機制及自學習、自組織、自適應能力,能夠模擬復雜的非線性關系映射[8]。人工神經(jīng)網(wǎng)絡的特點和非線性處理能力能夠滿足污染場地多源異構數(shù)據(jù)融合應用的要求。在污染場地智能化管控實際情景中,各數(shù)據(jù)源所提供的環(huán)境信息均具有一定程度的不確定性,對其融合過程實際上是一個不確定性推理過程。通過當前系統(tǒng)所接受的樣本相似性特征來確定分類標準(主要表現(xiàn)在網(wǎng)絡的權值分布上),同時通過學習來獲取知識,得到不確定性推理機制。利用人工神經(jīng)網(wǎng)絡的信號處理能力和自動推理功能,實現(xiàn)污染場地多源異構數(shù)據(jù)融合。
深度學習(深度神經(jīng)網(wǎng)絡)。深度學習是深度神經(jīng)網(wǎng)絡的統(tǒng)稱,深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)通常包括多個隱藏層,其中較低層的輸出作為較高層的輸入,因此能夠從數(shù)據(jù)中獲取到更多的信息,學習到數(shù)據(jù)中更有效的特征表示。相較于淺層網(wǎng)絡,深度神經(jīng)網(wǎng)絡能夠更好地挖掘和表示數(shù)據(jù)特征,具有更強的泛化性能,近年來在數(shù)據(jù)融合領域有了較為廣泛的應用。根據(jù)深度學習在數(shù)據(jù)融合中參與的階段,張紅[41]等將基于深度學習的數(shù)據(jù)融合方法分為3類:基于深度學習特征提取的數(shù)據(jù)融合方法,基于深度學習融合的數(shù)據(jù)融合方法,基于深度學習全過程的數(shù)據(jù)融合方法。深度神經(jīng)網(wǎng)絡的作用及各類方法對應的典型應用案例見表2。在污染場地多源異構數(shù)據(jù)融合應用中宜采用基于深度學習全過程的數(shù)據(jù)融合方法,在特征提取階段及數(shù)據(jù)融合階段有針對性地采用不同的深度神經(jīng)網(wǎng)絡模型組合[42],從而有效提高融合質(zhì)量,提升污染場地智能化管控決策精度。目前已有研究[43]表明,可通過神經(jīng)網(wǎng)絡預訓練等方式,基于有限的訓練樣本得到可靠的訓練精度,將為多源異構數(shù)據(jù)融合帶來更多的途徑和可能性。
表2 基于深度學習的多源異構數(shù)據(jù)融合方法及典型應用案例Tab.2 Multi-source heterogeneous data fusion method based on in-depth learning and typical application cases
針對污染場地智能化管控需求,對多源異構數(shù)據(jù)融合方法進行了綜述。根據(jù)污染場地多源異構數(shù)據(jù)的特點,介紹了像素級、特征級及決策級等多層級數(shù)據(jù)融合方法體系,對數(shù)據(jù)融合方法按照基礎理論進行分類并分析了典型方法。無論是基于數(shù)理統(tǒng)計、估計理論及信息論的傳統(tǒng)數(shù)據(jù)融合方法,還是基于人工神經(jīng)網(wǎng)絡和深度學習的數(shù)據(jù)融合方法,均在不同領域得到了廣泛應用。但數(shù)據(jù)融合技術仍存在一些問題,如針對多源異構數(shù)據(jù)等高維數(shù)據(jù)在表示方式、組織形式、數(shù)據(jù)密度(即數(shù)據(jù)結構)等方面存在差異及異構數(shù)據(jù)間的交叉、關聯(lián)、整合與同化存在問題,深度神經(jīng)網(wǎng)絡模型訓練過程中需要大量數(shù)據(jù)作為訓練樣本,對硬件(計算能力)有較高的需求。因此,對多源異構數(shù)據(jù)進行特征信息提取并進行融合應用,是數(shù)據(jù)融合領域亟待進一步研究的方向。此外,深層神經(jīng)網(wǎng)絡模型訓練的關鍵技術方法也在不斷迭代更新,除了計算機硬件算力的提升外,讓模型在訓練過程中自我學習與優(yōu)化,可大幅提升數(shù)據(jù)融合模型訓練效率,值得深入研究。