霍光杰,胡乃勛,陳濤,甄娜
(1.河南省地質(zhì)環(huán)境監(jiān)測院,河南 鄭州 450000;2.河南省地質(zhì)環(huán)境保護重點實驗室,河南 鄭州 450006;3.中國地質(zhì)大學 地球物理與空間信息學院,湖北 武漢 430074)
隨著社會經(jīng)濟快速發(fā)展,因礦物開采活動帶來的環(huán)境問題日益突出[1]。傳統(tǒng)的礦山地質(zhì)環(huán)境遙感監(jiān)測依靠人工目視解譯,結(jié)合現(xiàn)場驗證的方式進行,這種方式耗時、費力,且結(jié)果受解譯人員主觀影響較大,準確度和可信性存在一定差異[2]。隨著計算機和人工智能技術的快速發(fā)展,越來越多的機器智能學習方法被提出,并開始應用于數(shù)據(jù)提取與挖掘、圖像處理與分析、生物信息學等領域[3],這也為礦區(qū)信息遙感提取提供了新的方向。在20世紀末,隨著遙感技術在高空間分辨率方面的快速發(fā)展,影像空間分辨率進入亞米級別,提供了更多的紋理和幾何信息,面向?qū)ο蟮乃枷腴_始進入人們的視野[4]。M.Baatz等[5]提出了一種多尺度的分割方法,該方法以最小異質(zhì)性原則為基礎,將影像分割為若干對象,在分類過程中具有良好的適用性和高精度,目前已逐漸成為面向?qū)ο笥跋穹指钪谐S玫姆椒?。JIANG Y M等[6]研究了時態(tài)地理信息系統(tǒng)(GIS)和數(shù)字礦山中時空等相關參數(shù)的基本概念,提出一種基于面向?qū)ο蟾拍畹膭討B(tài)變化模擬方法,并應用到湖北開灤數(shù)字礦山,可以更高效地提取礦區(qū)信息;李昊陽[7]針對山地露天鈦鐵礦特征的地質(zhì)環(huán)境,基于面向?qū)ο笏枷?,建立相關規(guī)則集對武定鈦鐵礦區(qū)環(huán)境遙感信息進行提取,得到較好的結(jié)果;夏孟等[8]應用基于ENVI中面向?qū)ο蠓謱臃诸惖姆椒▽ο嫖骰ㄔh某鉛鋅礦區(qū)進行地物信息提取,得到較好的結(jié)果;曹筱瑩[9]應用基于面向?qū)ο蠓诸惣夹g,采用模糊C均值聚類對礦山開發(fā)占地信息進行自動提取方法,在大、小范圍的礦區(qū)均取得了較好的結(jié)果;代晶晶等[10]利用隸屬度函數(shù)法實現(xiàn)面向?qū)ο蟮南⊥灵_采區(qū)分類,提取稀土開采區(qū)的總體精度為92.49%,Kappa系數(shù)為0.858,具有較高的精度;賈玉娜等[11]以唐山市古冶礦區(qū)為研究對象,運用面向?qū)ο蠖喑叨确指罘椒▽ζ溥M行地物信息提取,礦物對該研究區(qū)提取分類總精度可達88.55%,有效避免了“椒鹽現(xiàn)象”;周智勇等[12]應用基于面向?qū)ο笏枷虢Y(jié)合決策樹方法,對露天花崗巖礦山信息進行提取,提取總體精度達到86.29%,Kappa系數(shù)達到0.807。隨著機器學習(machine learning)算法的快速發(fā)展,越來越多的學者們應用其方法對地物進行特征信息提取。陳偉濤等[13]使用WorldView-3影像結(jié)合使用遺傳算法(GA)、K倍交叉驗證(CV)和粒子群優(yōu)化(PSO)3種方法優(yōu)化支持向量機算法,應用于露天礦區(qū)的精細土地覆蓋分類,取得了不錯的結(jié)果。
上述研究結(jié)果表明:基于遙感影像數(shù)據(jù),利用機器學習算法或者利用面向?qū)ο笏悸穼ΦV區(qū)土地利用信息進行提取,可以得到較高的精度。雖然這些方法都取得了不錯的結(jié)果,但大部分是應用國外遙感數(shù)據(jù),很少有學者利用面向?qū)ο蟮乃悸方Y(jié)合機器學習方法,采用國產(chǎn)高分數(shù)據(jù)對露天礦區(qū)地表信息進行提取研究。因此,本文基于高分二號(GF-2)國產(chǎn)高空間分辨率遙感影像數(shù)據(jù),利用機器學習中的支持向量機算法結(jié)合面向?qū)ο笏枷?,對河南省禹州市采礦區(qū)范圍內(nèi)的土地利用信息進行提取,以探索結(jié)合面向?qū)ο笏枷氲臋C器學習方法在礦山環(huán)境遙感監(jiān)測領域的應用,為高效治理礦區(qū)生態(tài)環(huán)境提供及時、準確的數(shù)據(jù)支撐。
研究區(qū)位于河南省禹州市北部,地理位置經(jīng)度113.375°E~113.561°E,緯度34.256°N~34.352N°,面積約為102.59 km2(圖1),屬于伏牛山山脈與豫東平原的分界地帶,研究區(qū)內(nèi)礦物的主要種類為建筑用灰?guī)r和制作水泥用灰?guī)r。
圖1 研究區(qū)區(qū)位圖
本文所用遙感數(shù)據(jù)為一景GF-2影像數(shù)據(jù),成像時間為2018年4月16日。GF-2遙感影像的近紅外、紅、綠、藍4個不同波段與遙感圖像全色融合之后的分辨率可達1 m,成像整體清晰可辨。另有其他礦山輔助數(shù)據(jù),現(xiàn)場驗證數(shù)據(jù)、行政區(qū)劃數(shù)據(jù)以及土地利用數(shù)據(jù)等。由現(xiàn)場驗證數(shù)據(jù)可知,研究區(qū)內(nèi)部共有大小露天采場105處,總面積9.35 km2,占研究區(qū)面積的9.12%。
研究流程如圖2所示,主要包括數(shù)據(jù)準備、面向?qū)ο笥跋穹指?、SVM分類和精度評價等3個部分。
圖2 研究流程圖
分形網(wǎng)絡演化方法(fractal net evolution approach,F(xiàn)NEA)是目前被大范圍運用于遙感影像分割的一種多尺度分割算法,它是利用模糊子集理論對遙感影像進行特征信息提取[14]。其基本思想是遵循異質(zhì)性最小原則,基于像素從下向上的區(qū)域增長的分割算法,將相似光譜信息的像元合并為一個屬性的影像地物,分割后將統(tǒng)一地物的所有像元賦予相同含義。反復進行此算法,當異質(zhì)性的最小增長量超過事先所設定的閾值,則立即終止。
設h為合并前后異質(zhì)度變化的描述,其值變化主要受對象的光譜異質(zhì)性和對象的形狀異質(zhì)性影響。計算方法為
(1)
式中:hcolor為2個對象合并后得到的光譜異質(zhì)性值與合并前對象obj1和obj2各自光譜異質(zhì)性值之和的差異;wc為參與分割合并波段的權重,nmerge,δc,merge分別為合并后的區(qū)域面積和光譜方差,δc,obj1,nc,obj1,δc,obj2,nc,obj2分別為兩個空間相鄰區(qū)域的光譜方差和面積,c為波段數(shù)。
對象合并前后緊湊度指數(shù)的增量公式為
(2)
對象合并前后光滑度指數(shù)的增量公式為
(3)
對象合并前后的形狀異質(zhì)性增量為光滑度指數(shù)增量和緊湊度指數(shù)增量的加權平均值,ωsmoothness與ωcompactness為兩者間的權重調(diào)配,兩者的和為1,其表達形式為
hshape=ωsmoothness×hsmoothness+
ωcompactness×hcompactness,
(4)
式中:hshape為對象的形狀異質(zhì)性;I為對象的實際邊長;b為對象的最短邊長;n為對象面積。
若平滑指標的權重較高,分割后的對象邊界較為平滑,反之,若緊密指標的權重較高,分割后的對象形狀較為緊密,較接近矩形,對于研究礦區(qū)的實際分布情況,調(diào)配不同的影像特性和目標對象特性的權重。在影像分割的過程中加入形狀因子來制約對象形狀的發(fā)展,使分割后的區(qū)域形狀平滑完整。
高分遙感影像地物特征主要包括光譜特征、紋理特征、幾何特征[15]。為高精度提取研究區(qū)地物信息,本文針對研究區(qū)域礦區(qū)分布情況,主要求得光譜特征中標準差、均值、比率、亮度的值;紋理特征中能量、熵、慣性矩、相關系數(shù)、均值的值;幾何特征中形狀指數(shù)、圓度、長寬比、緊致度、主方向、非對稱性、密度的值。
支持向量機(support vector machine,SVM)是一種分類算法,通過尋求結(jié)構(gòu)化風險最小來提高學習機泛化能力,實現(xiàn)經(jīng)驗風險和置信范圍的最小化,從而達到在統(tǒng)計樣本量較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的目的[16]。通俗而言,支持向量機是一種二類分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,即支持向量機的學習策略便是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。因此可以利用已知的有效算法發(fā)現(xiàn)目標函數(shù)的全局最小值。
根據(jù)研究區(qū)地物實際分布情況,本文將研究區(qū)地物分為7類:水體、植被、露天采場、礦山堆積、裸土、道路、建筑。基于eCognition軟件平臺對研究區(qū)遙感圖像進行分割,為提高研究礦區(qū)的信息提取精度,經(jīng)過嘗試不同的分割尺度并采用目視比較其分割效果后,最后確定的分割尺度、形狀/光譜權值、緊致度/平滑度權值如表1所示。
表1 分割尺度和權重值
對研究區(qū)域進行影像分割與特征信息提取之后,最終得到48 227個影像對象,圖3為局部分割結(jié)果。根據(jù)質(zhì)心包含原則,結(jié)合原有的禹州市土地利用數(shù)據(jù)和礦山地貌景觀破壞數(shù)據(jù),選取其中7 318個影像對象作為訓練樣本和7 318個影像對象作為研究區(qū)礦區(qū)精度評價的驗證樣本。
圖3 局部分割結(jié)果
在考慮研究區(qū)特點并參考前人的研究結(jié)果[17],本文選擇了如表2所示的影像對象的特征進行后續(xù)計算。
表2 影像對象的特征選擇
樣本集中訓練、測試樣本共7 318個,其中露天采場2 153個,礦山堆積1 203個,建筑物1 383個,植被1 026個,道路899個,水體149個,裸土505個,按照7∶3的原則隨機劃分成訓練和測試樣本,SVM的核函數(shù)選擇為高斯核函數(shù)(RBF),決策函數(shù)類型使用一對多法(one-versus-rest,OVR),懲罰系數(shù)C和gamma經(jīng)過網(wǎng)格參數(shù)尋優(yōu)后分別為1和0.045。經(jīng)過訓練樣本的訓練后,得到了0.85的測試樣本精度。將分類器應用于全部48 227個對象,對其進行預測,得到SVM的最終分類結(jié)果,如圖4所示。
圖4 SVM分類結(jié)果
為了判斷SVM的分類效果,本研究同時使用融合K近鄰 (K-nearest neighbors,KNN)與面向?qū)ο蟮姆椒ㄟM行礦區(qū)土地利用信息提取,得到KNN的分類結(jié)果并與SVM進行比較。KNN算法是一種廣泛應用于字符識別、文本分類、圖像識別等領域的分類算法[18]。在算法具體應用中,最相鄰樣本的個數(shù)是最關鍵的參數(shù)。在本研究中,K值經(jīng)過多次嘗試后,取值為7。實驗流程中所涉及到的影像分割、特征計算和樣本選取均與SVM分類過程相同,最后得到0.82的測試樣本精度。將分類器應用于全部48 227個對象,對其進行預測,得到KNN的最終分類結(jié)果(圖5)。
圖5 KNN分類結(jié)果
本研究采用監(jiān)督學習中混淆矩陣精度評價方法[19]。在研究范圍內(nèi)選取7 318個影像對象為分類精度驗證樣本,精度評價參數(shù)包括生產(chǎn)者精度(user accuracy,UA)、使用者精度(producer accuracy,PA)、總體分類精度(overall accuracy,OA)、Kappa系數(shù),最終所得分類結(jié)果數(shù)據(jù)如表3所示。
表3 SVM/KNN分類精度融合矩陣
經(jīng)混淆矩陣計算,融合SVM和面向?qū)ο蠓椒ǖ腛A為86.44%,Kappa系數(shù)為0.83,其中露天采場的UA和PA分別為82.86%和87.43%,而融合KNN和面向?qū)ο蠓椒ǖ腛A為82.90%,Kappa系數(shù)為0.79,其中露天采場的UA和PA分別為89.78%和68.71%(表4)。從表3中可以看出,融合SVM和面向?qū)ο蠓椒ǖ木瓤傮w上優(yōu)于融合KNN和面向?qū)ο蟮姆椒?。雖然融合KNN和面向?qū)ο蠓椒ǖ腢A優(yōu)于融合KNN和面向?qū)ο蟮姆椒?,但是從混淆矩陣中可以看到,融合KNN和面向?qū)ο蠓椒短觳蓤龇诸愓_的個數(shù)要遠遠少于融合SVM和面向?qū)ο蠓椒ǖ膫€數(shù)。
表4 SVM/KNN露天采場分類精度對比
本文以提取礦區(qū)露天采場為出發(fā)點展開研究,利用GF-2遙感影像,結(jié)合面向?qū)ο蠓诸愃枷?,?gòu)建了基于SVM的礦區(qū)地表信息提取模型,在此基礎上提取了河南省禹州市以露天采場為主的礦區(qū)占地信息,利用OA,Kappa,UA和PA對提取結(jié)果進行精度評價。得出以下結(jié)論:
(1)將基于面向?qū)ο笏枷氲臋C器學習算法應用于礦山環(huán)境監(jiān)測領域,構(gòu)建了SVM模型并結(jié)合面向?qū)ο蠓椒▽σ月短觳蓤鰹橹鞯牡V區(qū)占地信息進行提取。利用混淆矩陣計算得到模型總體精度為86.44%,Kappa系數(shù)為0.83,露天采場的UA為82.86%,PA為87.43%。
(2)結(jié)果表明,基于SVM和面向?qū)ο笏枷氲牡V區(qū)信息提取方法,在礦山地質(zhì)環(huán)境監(jiān)測中的精度總體上優(yōu)于融合KNN和面向?qū)ο蟮姆椒ǎf明其具有一定的優(yōu)勢和準確性,其結(jié)果具有理想的精度,可以為礦山環(huán)境治理提供快速、可信的技術支持。