賈祎琳, 張文, 孟令奎
(武漢大學遙感信息工程學院,武漢 430079)
歸一化水體指數(shù)(normalized difference water index,NDWI)是根據(jù)水體光譜反射特性,基于近紅外波段與綠波段建立的歸一化比值指數(shù),在遙感影像水體提取中應用十分廣泛。理論上,NDWI>0表示地面有水或冰雪覆蓋,NDWI=0表示地面有巖石或裸土等覆蓋,NDWI<0表示地面有植被覆蓋[1],因而基于NDWI影像可以利用0值進行水體信息的提取。但在實際情況中,由于受到地物復雜性及噪聲等條件的干擾,區(qū)分水體與非水體的閾值往往不為0,這就需要對NDWI影像進行分析,選取合適的分割閾值對影像進行分割,以區(qū)分水體與非水體[2]。因此,使用NDWI進行水體信息提取的最終效果在很大程度上依賴于分割閾值的選取結果,閾值的好壞會直接影響到水體信息提取的精度。段秋亞等[3]針對高分一號(GF-1)衛(wèi)星遙感影像,分別采用NDWI經驗閾值法、支持向量機法和面向對象法對鄱陽湖區(qū)進行水體信息系統(tǒng)實驗,以分析各種方法的優(yōu)勢和不足; 陳文倩等[4]基于GF-1遙感影像,利用單波段閾值法、NDWI閾值法與多波段法進行水體信息提取,通過分析3種方法的利弊,提出了單波段閾值法與陰影水體指數(shù)相結合的決策樹水體信息提取方法。但以上研究選取的分割閾值多是根據(jù)以往經驗和反復實驗確定的,容易受到時空差異與復雜環(huán)境的影響,對于類型或是面積不相同的水體,選取的閾值往往也不相同[5]。因此,這些方法不具備客觀性與普適性,也不能實現(xiàn)水體的自動化提取。
目前,以NDWI灰度直方圖為基礎進行自適應閾值選取在水體自動化提取中越來越得到廣泛的應用。袁欣智等[6]提出了基于大津法的局部范圍閾值自適應確定的方法,并使用環(huán)境小衛(wèi)星影像NDWI對閩江流域進行水體提取實驗; 徐蓉等[7]分別利用大津法和迭代法對波段插值模型、浮藻模型(floating algae index,F(xiàn)AI)以及NDWI和近紅外波段模型計算閾值,以比較3種水體提取模型的應用效果。但以上研究多是以水體提取的整體過程,或是指數(shù)模型的對比分析為主,沒有在NDWI模型的基礎上對不同自適應閾值選取方法進行運行效率、提取結果等方面的具體研究。
為此,本文選取位于我國不同地區(qū)的15個典型湖泊水體作為研究區(qū),在NDWI影像的基礎上對迭代法、大津法和直方圖雙峰法3種常見的自適應閾值選取方法進行比較,分析其閾值選取結果、算法運行效率及其在GF-1衛(wèi)星遙感數(shù)據(jù)水體識別方面的效果,以期為GF-1影像精準水體提取提供自適應閾值分割方法的選取策略。
我國湖泊水體眾多,其中面積在1 km2以上的湖泊就有2 800多個。然而,由于我國地域遼闊,因而湖泊的自然環(huán)境區(qū)域分異鮮明,如青藏高原湖區(qū)和蒙新湖區(qū)的湖泊多表現(xiàn)為封閉的咸水湖或鹽湖,云貴高原湖區(qū)、東北平原與山地湖區(qū)和東部平原湖區(qū)的湖泊多表現(xiàn)為外流的淡水湖[8]。為了比較不同的自適應閾值選取方法在NDWI影像的基礎上對不同湖泊水體的提取效果,本文選取湖泊水體作為實驗湖泊時主要遵循以下3個原則: ①湖泊具有一定的水面面積,以便能夠在GF-1 WFV影像上清楚地分辨出來; ②湖泊盡量廣泛分布在不同的湖區(qū),以便能夠代表各湖區(qū)湖泊的特征; ③湖泊數(shù)量較多的湖區(qū)多選實驗湖泊,湖泊數(shù)量較少的湖區(qū)少選實驗湖泊,以便實驗湖泊能代表盡可能多的湖泊。本文最終選取的15個湖泊為: 查干湖、鄱陽湖、洞庭湖、洪澤湖、太湖、艾比湖、烏梁素海、博斯騰湖、呼倫湖、烏倫古湖、青海湖、納木錯、色林錯、瑪旁雍錯和滇池。實驗湖泊分布情況如表1所示。
表1 實驗湖泊分布情況Tab.1 Distribution of test lakes
以2016年獲取的各實驗湖泊的GF-1 WFV 1A級多光譜影像為數(shù)據(jù)源。WFV傳感器包含藍(B1)、綠(B2)、紅(B3)和近紅外(B4)4個波段,空間分辨率均為16 m。
為保證湖泊水體信息提取的精度和速度,本文對影像進行了輻射定標、大氣校正、正射校正及裁剪等預處理。大氣校正的目的是消除大氣和光照等因素對地物反射的影響,反演地物的真實反射率,提高提取精度。另外本文各湖泊的裁剪范圍都大于湖泊水體區(qū)域的2倍,以保證在NDWI影像的直方圖統(tǒng)計結果中能明顯出現(xiàn)2個分別對應非水體與水體的波峰,有利于提高分割閾值的選取精度。
NDWI于1996年由McFeeters[9]首次提出,用于監(jiān)測濕地環(huán)境中的地表水并測量地表水的范圍,現(xiàn)已廣泛應用于遙感影像監(jiān)測開放水域的過程中。NDWI計算公式為
(1)
式中Green和NIR分別為綠波段與近紅外波段亮度值,分別對應GF-1 WFV影像中的B2與B4波段。NDWI值范圍為[-1,1],通過比值運算,使水體得到最大的亮度增強,非水體受到普遍的抑制,從而達到突出水體的目的[10]。NDWI用于水體分類時,易受到山體陰影和薄云的干擾,導致選取的分割閾值出現(xiàn)偏差,影響分類精度。為了方便閾值選取、提高閾值選取精度,本文將NDWI指數(shù)值范圍由[-1,1]拉伸至[0,2 000]。
2.2.1 迭代法
迭代法主要利用了特征逼近的思想。不斷更新子圖像的直方圖,隨著循環(huán)次數(shù)的增加,越來越細地考慮影像的局部特性,因此可以獲得更精細的分割結果[11]。具體算法如下:
設影像的灰度范圍為[0,T],對應灰度級Ti的像素個數(shù)為f(Ti),則初始閾值t0為
t0=(0+T)/2。
(2)
根據(jù)t0將影像分割為目標A和背景B,則2部分的平均灰度值PA和PB分別為
(3)
(4)
其新的分割閾值tk為
tk=(PA+PB)/2。
(5)
如果tk=tk-1,則tk為所求得的閾值; 否則繼續(xù)迭代,直到滿足tk=tk-1為止。
2.2.2 大津法
大津法又稱最大類間方差法,是由日本學者大津展之[12]提出的,其基本思想是: 取某個閾值,將整幅影像分為目標與背景2部分,使這2部分類間方差最大的閾值即為影像分割的最佳閾值。類間方差最大說明2類之間的差別最大,也就意味著2類之間的錯分概率最小。具體算法如下:
設影像的灰度范圍為[0,T],對應灰度級Ti的像素個數(shù)為f(Ti),則影像總像素數(shù)N為
(6)
設Pi為影像中灰度級為Ti的像素出現(xiàn)的概率,即Pi=f(Ti)/N。將影像中的像素按灰度級t劃分為A和B2部分,則2部分像素在整幅影像中出現(xiàn)的概率ωA和ωB分別為
(7)
(8)
A和B的平均灰度值μA和μB分別為
(9)
(10)
則整幅影像的平均灰度值μ為
(11)
那么,類間方差σ2為
σ2=ωA(μA-μ)2+ωB(μB-μ)2=ωAωB(μA-μB)2。
(12)
在[0,T]范圍內,以1為步長依次遞增閾值t,最終使得σ2達到最大值時的t即為最佳閾值。
2.2.3 直方圖雙峰法
直方圖雙峰法的基本思想是: 當直方圖具有較為典型的雙峰特性時,選取2峰之間的谷底對應的灰度級作為影像分割閾值[13]。拉伸后的NDWI直方圖會在1 000灰度級的左右兩側各出現(xiàn)一個波峰,其中在[0,1 000]灰度級區(qū)間的波峰代表非水體信息,在[1 000,2 000]灰度級區(qū)間的波峰代表水體信息。因此只需以1 000為界,分別找出2個灰度級區(qū)間內的波峰,然后進一步在這2個波峰對應的灰度級區(qū)間內找到波谷對應的灰度級,即可得到水體提取的閾值。當閾值對應直方圖的波谷時,其細小差異只會導致2部分面積的略微變化,因此谷底閾值可以把閾值選擇中出現(xiàn)的誤差影響降到最低[14]。
本文分別利用迭代法、大津法和直方圖雙峰法(以下簡稱為“雙峰法”)對15個實驗湖泊進行閾值選取,得到的結果如表2和圖1所示。可以得出: ①整體上迭代法與大津法獲取的分割閾值相近,而二者與雙峰法得到的分割閾值相差較遠; ②咸水湖的分割閾值普遍比淡水湖的分割閾值高; ③東部平原湖區(qū)分割閾值整體較低,蒙新湖區(qū)和青藏高原湖區(qū)分割閾值整體較高。
表2 不同方法獲得的各湖泊影像閾值Tab.2 Thresholds of lake images obtained by different methods
圖1 不同方法獲取的各湖泊影像閾值關系Fig.1 Relationship between the image thresholds of lakes obtained by different methods
實驗在i7CPU,3.40 GHZ,內存為24.0 GB的計算機上進行,各算法均在IDL中編程實現(xiàn)。以運行15景湖泊影像數(shù)據(jù),并計算其閾值選取過程總用時為一組實驗,對3種方法各進行了10組實驗; 在此基礎上,分別統(tǒng)計了各方法各組實驗的最小用時和最大用時,以及10組實驗的平均用時(表3)。
表3 不同方法閾值選取過程用時Tab.3 Time of different methods in threshold selection process (s)
從表3所示的各個用時統(tǒng)計數(shù)據(jù)來看,迭代法耗時最短,雙峰法次之,大津法耗時最長。雙峰法利用IDL已有函數(shù)尋找波峰和選取閾值,其效率主要依賴于IDL函數(shù)的運行效率; 迭代法在選取閾值時,首先選擇中間值作為初始閾值,而后再按規(guī)則循環(huán)迭代直至分割閾值不再變化為止,這樣就大大減少了循環(huán)迭代的次數(shù),極大地縮短了耗時; 大津法從最小灰度值循環(huán)到最大灰度值,一次閾值選取任務則需要循環(huán)2 000次,因此耗時較長。
為了比較在NDWI的基礎上3種閾值選取方法對不同地物類型的提取精度,本研究在15個湖泊水域上共隨機選取了1 500個檢驗點,分別比較各檢驗點的提取結果與目視解譯結果,如表4所示(統(tǒng)計時將“冰”視為水體)。
表4 不同方法提取結果混淆矩陣Tab.4 Confusion matrix of results extracted by different methods
由表4可知: 707個水體檢驗點中,迭代法、大津法和雙峰法分類的正確個數(shù)分別為654,654和636,說明3種方法都有不同程度的水體漏提現(xiàn)象,但雙峰法的漏提情況最為嚴重; 24個冰層檢驗點中,3種方法的分類正確個數(shù)分別為8,7和23,說明雙峰法對有冰層覆蓋的水體提取效果較佳; 111個灘涂檢驗點中,3種方法分類正確個數(shù)分別為69,68和80,說明3種方法都出現(xiàn)了誤提灘涂的現(xiàn)象,但迭代法與大津法更易誤提灘涂; 89個建筑檢驗點中,3種方法分類正確個數(shù)分別為58,56和75,說明迭代法與大津法較易誤提建筑; 29個云檢驗點中,3種方法的分類正確個數(shù)分別為4,4和22,說明雙峰法對云的分類正確度更高。
參照目視解譯結果評價3種方法的提取精度(表5)。在水體提取結果中,實際為水體而被錯分為非水體的檢驗點數(shù)與實際為水體的檢驗點數(shù)的比值稱為“漏提率”; 實際為非水體而被錯分為水體的檢驗點數(shù)與實際為非水體的檢驗點數(shù)的比值稱為“誤提率”; 分類正確的檢驗點數(shù)與所有檢驗點數(shù)的比值稱為正確率。從表5中可以看出: 大津法的誤提率最高,迭代法次之,雙峰法誤提率最低; 但雙峰法的漏提率最高; 從整體正確率上來看,雙峰法優(yōu)于迭代法與大津法。
表5不同方法提取精度
Tab.5 Extracting precision of different methods(%)
為了更加全面地比較迭代法、大津法和雙峰法得到的結果,本研究還在ArcGIS中針對每一個湖泊進行目視解譯,得到各個湖泊的參考面積值,并計算以上3種方法所得的湖泊面積與參考面積之間的絕對差值,統(tǒng)計面積差值的最大值、最小值、平均值、總差值及標準差,如表6所示??梢钥闯?,雙峰法提取的水體面積與參考面積之間的差異最小,整體最穩(wěn)定; 迭代法與大津法的統(tǒng)計結果相差不大,但就整體誤差及穩(wěn)定性來看,大津法稍優(yōu)于迭代法。
表6 不同方法提取面積與參考面積絕對差值統(tǒng)計Tab.6 Statistics of absolute differences between areas extracted by different methods and reference areas (km2)
圖2為不同方法提取面積與參考面積的線性關系,可以看出: 迭代法、大津法和雙峰法獲得的水體面積與參考面積之間呈顯著的正相關關系,斜率分別為1.041,1.038和1.030; 各方法提取的湖泊面積與參考面積之間的擬合效果都較優(yōu),確定系數(shù)R2分別為0.997,0.997和0.999,其中雙峰法面積與參考面積之間的擬合效果最好。
(a) 迭代法(b) 大津法(c) 雙峰法
圖2不同方法提取面積與參考面積的相關關系
Fig.2Relationshipbetweenareasextractedbydifferentmethodsandreferenceareas
針對水體指數(shù)模型結合閾值進行水體提取的過程中,如何選擇自適應閾值分割方法的問題,本研究面向GF-1 WFV衛(wèi)星遙感影像數(shù)據(jù),針對我國15個典型湖泊的NDWI影像,分別采用迭代法、大津法和直方圖雙峰法3種自適應分割閾值選取方法進行特征閾值的選取及提取效率和效果的檢驗,得到以下結論。
1)整體上迭代法與大津法得到的閾值相近,而兩者都與雙峰法得到的閾值相差較遠。閾值選取的結果與其湖泊湖水的狀態(tài)有關: 咸水湖閾值普遍比淡水湖閾值高; 東部平原湖區(qū)分割閾值整體較低,而蒙新湖區(qū)和青藏高原湖區(qū)整體較高。
2)就閾值選取效率而言,迭代法>雙峰法>大津法。
3)迭代法與大津法的漏提率比雙峰法低,誤提率比雙峰法高,整體精度比雙峰法低; 雙峰法提取的湖泊水體面積與參考面積之間的吻合度最高。
利用遙感數(shù)據(jù)有效地進行水體信息提取,已經成為當前水利遙感技術研究的重點內容之一。因此,在實際生產過程中,如果需要兼顧生產的效率與精度,則使用雙峰法較佳。但在地物類型較復雜時,這3種方法仍然得不到最理想的分割閾值,如何更好地選取分割閾值還有待今后繼續(xù)探索。