楊彬,郭金源,何鵬,葉小敏,劉建強
1.湖南大學(xué) 電氣與信息工程學(xué)院, 長沙 410082;
2.南華大學(xué) 機械工程學(xué)院, 衡陽 421001;
3.國家衛(wèi)星海洋應(yīng)用中心, 北京 100081;
4.自然資源部空間海洋遙感與應(yīng)用重點實驗室, 北京 100081
海洋一號C 衛(wèi)星(HY-1C)于2018年9月7日成功發(fā)射。作為中國首顆海洋水色業(yè)務(wù)衛(wèi)星,HY-1C 能滿足海洋水色水溫、海洋災(zāi)害與陸地環(huán)境監(jiān)測需求,同時可服務(wù)于自然資源調(diào)查、環(huán)境生態(tài)、應(yīng)急減災(zāi)、氣象、農(nóng)業(yè)和水利等行業(yè)(劉建強 等,2020)。HY-1C 上搭載了海岸帶成像儀CZI(Coast Zone Imager)、水色水溫掃描儀COCTS(Chinese Ocean Color and Temperature Scanner)等多套載荷,于2019年6月開始業(yè)務(wù)化運行。相關(guān)數(shù)據(jù)已經(jīng)成功應(yīng)用于多個行業(yè),包括海面溢油識別(沈亞峰 等,2020)、冬小麥和紅樹林等的識別(王利民 等,2019;梁超 等,2020)、以及湖水濁度監(jiān)測(周屈 等,2020)。
地球表面被大量的云覆蓋。相關(guān)研究表明,云的平均覆蓋度高達68%(Stubenrauch 等,2013; 王宇瑤 等,2022)。云覆蓋影響地表信息獲取。特別是對于HY-1C CZI這種大幅寬(>950 km)傳感器,其獲取的數(shù)據(jù)很少有無云的情況。云檢測已經(jīng)成為這類遙感圖像預(yù)處理的必要步驟(Cheng 等,2022)。如果這些云不能被高精度識別并剔除,將極大影響HY-1C CZI數(shù)據(jù)的后續(xù)應(yīng)用。
在過去10年中,針對MODIS、 Landsat、Sentinel、GF等傳感器,科研人員提出了不同的云檢測算法(Mahajan 和Fataniya,2019;隋淞蔓 等,2022)。總體來看,這些算法可以分為監(jiān)督類與非監(jiān)督類兩類。監(jiān)督類方法是指根據(jù)已知云與非云樣本,選擇特征參數(shù)及決策規(guī)則,建立判別函數(shù)對遙感圖像進行云與非云區(qū)域的識別(Luo 等,2020)。如Deng等(2019)利用多張云影像的Gabor特征訓(xùn)練以實現(xiàn)云與冰雪的區(qū)分;Xie 等(2017)利用云的多級別特征,實現(xiàn)薄云和厚云的檢測。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,云的深度特征提取和判別網(wǎng)絡(luò)設(shè)計也可通過神經(jīng)網(wǎng)絡(luò)實現(xiàn),如DeepLabv3+(彭龍康 等,2021),U-Net(徐少壯和鐘來星,2021),RDA-Net(張晨 等,2021)等。這類算法的總體精度較高,??梢赃_到90%以上,但是其對于訓(xùn)練樣本的要求高,訓(xùn)練樣本的質(zhì)量一定程度上決定了算法精度。龐大規(guī)模的訓(xùn)練樣本的標(biāo)注費時費力,而且較大的模型部署困難,這一定程度上限制了監(jiān)督類算法的業(yè)務(wù)化應(yīng)用能力。
非監(jiān)督類方法則無需預(yù)先已知樣本,即可依據(jù)一定規(guī)則實現(xiàn)云與非云區(qū)域的識別(Guo 等,2022)。在這類方法中,一般會對光譜和結(jié)構(gòu)等特征采用聚類技術(shù)(張波 等,2021),實現(xiàn)云與非云區(qū)域的自動提取,如K 均值聚類等;也會通過構(gòu)建物理模型分析云與非云地表之間的空—譜特征差異來實現(xiàn)云檢測,如針對Landsat 數(shù)據(jù)的Fmask算法(Zhu 等,2015)、針對GF 數(shù)據(jù)的MFC 算法(Li 等,2017)等。相比于監(jiān)督類技術(shù),非監(jiān)督類的云檢測技術(shù)應(yīng)用更直觀,對計算和存儲要求較低,常被用于云產(chǎn)品生成算法中(Zhu 等,2015)。
在非監(jiān)督類方法中,Zhu 等(2015)依據(jù)云在不同波段的光譜特性,利用閾值實現(xiàn)云、冰雪和其他地物類別的區(qū)分(Zhu 等,2015)。Zhang 和Xiao(2014)利用細(xì)節(jié)差異實現(xiàn)云的逐步提?。╖hang 和Xiao,2014)。An 和Shi(2015)通過場景學(xué)習(xí)技術(shù),將真彩色圖像轉(zhuǎn)換為顯著性圖,并通過改進Otsu 閾值實現(xiàn)云的精確提?。ˋn 和Shi,2015)。以上算法,要么使用超過4個波段的信息,如Landsat 的7 個波段信息(其中熱紅外信息實現(xiàn)云與冰雪的分離),要么僅使用RGB 信息(對于高渾濁水體、建筑物效果不佳)。一些多光譜傳感器,如GF-1、HY-1C等,只含有4個波段,即藍(lán)、綠、紅、近紅外波段。現(xiàn)有算法無法直接應(yīng)用于4波段遙感圖像的云檢測。如何在沒有熱紅外信息的情況下有效區(qū)分云與冰雪,以及如何有效利用近紅外波段信息,是這類4波段圖像云檢測的重要問題。Li 等(2017)利用光譜、紋理和幾何信息,實現(xiàn)了4波段高分?jǐn)?shù)據(jù)的云檢測。但是該方法涉及了大量閾值,無法直接應(yīng)用于HY-1C CZI 遙感圖像云檢測。另外,上述方法大多按照逐步處理的過程實現(xiàn)云與非云區(qū)域的識別,處理流程復(fù)雜且容易誤差累積。Kang 等(2019)提出了一種基于分類技術(shù)的云與非云區(qū)域識別方法,被證明優(yōu)于現(xiàn)有的非監(jiān)督類方法。該方法的優(yōu)勢在于精確的訓(xùn)練樣本提取以及樣本特征描述。但是,該方法僅適用于RGB 圖像。針對4 通道HY-1C CZI 圖像,如何高精度提取訓(xùn)練樣本以及利用可見光—近紅外信息精確描述其特征是提高云檢測精度的關(guān)鍵。
基于此,本文提出了一種針對HY-1C CZI 遙感圖像的非監(jiān)督云檢測方法,以用于云檢測的業(yè)務(wù)化運行。該方法包含訓(xùn)練樣本選擇、特征提取、分類和后處理這4 個過程。該方法的獨特之處在于既能自動提取區(qū)分云與其他地物的訓(xùn)練樣本,又能有效利用近紅外信息。通過對植被、土壤、濕地和冰雪場景這4 個典型場景的驗證分析,以證明該方法的有效性。
本文使用的遙感圖像是HY-1C CZI 獲取的多光譜數(shù)據(jù),其4 個波段的波譜范圍分別為藍(lán)(0.42—0.50 μm)、綠(0.52—0.60 μm)、紅(0.61—0.69 μm)、近紅外(0.76—0.89 μm)。數(shù)據(jù)可在中國海洋衛(wèi)星數(shù)據(jù)服務(wù)系統(tǒng)(https://osdds.nsoas.org.cn/#/[2022-05-13])下載。HY-1C 于2018年9月7日發(fā)射,運行于782 km 高度的太陽同步回歸軌道,降交點地方時為每日上午10:30±30 min;其數(shù)據(jù)兼顧了海洋水色、陸地生態(tài)和極地冰川的要求,具有中等分辨率(約50 m)、大幅寬(>950 km)、高重訪周期(單顆衛(wèi)星覆蓋周期為3 d)的特點,可為水體—陸地交互作用區(qū)域提供監(jiān)測,對重點河流港口的懸浮泥沙、冰、赤潮和陸地生態(tài)環(huán)境等監(jiān)測和預(yù)警具有重要作用(臧金霞 等,2022; 劉錦超 等,2022)。
CZI 數(shù)據(jù)分為L1A、 L1B、 L1C、 L2A、 L2B和L2C 等6 級。其中L1A 是經(jīng)過幾何校正后的原始數(shù)據(jù),L1B 是經(jīng)過輻射定標(biāo)后的輻亮度數(shù)據(jù)(HDF5 格式),L1C 也是輻射定標(biāo)后的輻亮度數(shù)據(jù)(TIF 格式),L2A 是經(jīng)過大氣校正后的基礎(chǔ)產(chǎn)品數(shù)據(jù),L2B 是標(biāo)準(zhǔn)產(chǎn)品數(shù)據(jù),L2C 是試驗產(chǎn)品數(shù)據(jù)。本文選用L1C(TIF 格式)數(shù)據(jù)用于遙感圖像云檢測研究。在L1C 級數(shù)據(jù)中,每個數(shù)據(jù)值代表了CZI 測量的該點的天頂輻亮度(mW/(cm2·um·sr))。為了方便后續(xù)植被指數(shù)的計算,本文將天頂輻亮度轉(zhuǎn)化為天頂反射率,每個點的天頂反射率R可以計算為:
式中,I為天頂輻亮度,E為大氣層外太陽輻照度,θs為太陽天頂角。需要注意的是,L1C 數(shù)據(jù)中不包含太陽輻照度和太陽天頂角信息,而L2B 數(shù)據(jù)中包含該信息,因此,本文使用與L1C 數(shù)據(jù)對應(yīng)的L2B數(shù)據(jù)用于天頂反射率R的計算。
為更好地評估本文提出的HY-1C CZI 數(shù)據(jù)遙感圖像云檢測方法,選取4個典型陸地場景,即植被、土壤、濕地和冰雪場景進行驗證。在這些場景下,云和背景的差異各不相同。圖1所示即為本文使用的4個場景的RGB真彩色圖像。
圖1 植被、土壤、濕地和冰雪場景真彩色圖Fig.1 Images of vegetation,soil,wetland,and snow scenes
本文的算法流程如圖2 所示。該算法包含4 個主要步驟,即訓(xùn)練樣本自動選擇、特征提取、支持向量機分類以及后處理4 個過程。其中,訓(xùn)練樣本提取與特征提取并行執(zhí)行,通過提取的訓(xùn)練樣本及其對應(yīng)的特征訓(xùn)練SVM;利用訓(xùn)練的SVM 預(yù)測云檢測初步結(jié)果,并后處理獲得最終HY-1C CZI 陸地遙感圖像云檢測結(jié)果。下面將具體介紹這4個步驟。
圖2 云檢測數(shù)據(jù)處理算法流程Fig.2 Flowchart of the algorithm proposed in this paper for cloud detection
訓(xùn)練樣本可用于分類器訓(xùn)練,以實現(xiàn)未知像素點的預(yù)測(云與非云)(汪杰君 等,2021)。與人工標(biāo)注不同的是,本文使用的訓(xùn)練樣本可以通過多重判斷自動獲取。該方法旨在盡可能去除非云樣本干擾,如冰雪、高亮地表建筑和渾濁水體等,以提高訓(xùn)練樣本精度和后續(xù)云檢測精度。圖3 所示即為本文提出的訓(xùn)練樣本自動提取流程圖。用該流程,可將輸入圖像劃分為云樣本區(qū)域、非云樣本區(qū)域和其他區(qū)域,其中云樣本區(qū)域與非云樣本區(qū)域分別作為正負(fù)樣本用于后面的SVM 訓(xùn)練。整體來看,可以分為暗通道反射率判斷,NDVI 判斷和Whiteness 判斷3 個步驟。
圖3 訓(xùn)練樣本提取流程圖Fig.3 Flowchart for selecting training samples
(1)暗通道反射率判斷。暗通道圖像最早被用于圖像去霧(He 等,2011),后面逐漸被用于真彩色圖像的云檢測研究中(Kang 等,2019;Ping 等,2020)。為將暗通道擴展適用于本文研究的HY-1C CZI 的4 個波段圖像,近紅外波段信息也被充分利用,用于暗通道圖像的計算,其暗通道被重新定義為
式中,RB,RG,RR,RNIR分別表示藍(lán)、綠、紅和近紅外波段的反射率。RDC表示該4 個波段圖像的暗通道圖像。也就是說,暗通道圖像每個點的值為該點在4個波段反射率的最小值(He 等,2011)。
云在可見光和近紅外的反射率較高,而自然地物在該光譜范圍內(nèi),很少有反射率均高的情況(冰雪除外)。因此,在暗通道反射率圖像中,云具有較高的反射率,而非云區(qū)域則具有較低的反射率。為了提取出這部分具有較高反射率的暗通道像素,本文采用改進Otsu 方法實現(xiàn)云與背景的區(qū)分(Otsu,1979;段潘 等,2022)。在傳統(tǒng)的Otsu 方法中,假設(shè)圖像中存在兩種類別,通過計算閾值使得類間的方差最大。Otsu 閾值T的獲得可通過優(yōu)化如下方程獲得:
通過傳統(tǒng)Otsu 方法獲取的閾值T,會存在閾值偏移問題,即當(dāng)場景較亮?xí)r,計算獲得的閾值T較大,導(dǎo)致相對較暗的云無法識別;反之,當(dāng)場景較暗時,計算獲得的閾值T較小,導(dǎo)致相對較亮的地面物體被識別為云。通過對500 幅云圖像的統(tǒng)計分析(Zhang 和Xiao,2014)發(fā)現(xiàn),超過95%的云的像素值不會低于100?;诖耍紤]暗通道反射率的取值范圍為0—1,本文首先將暗通道反射率線性拉伸為0—255,以實現(xiàn)式(3)計算。最終獲得的閾值T'為
線性拉伸后的暗通道反射率與T'比較,若大于T',則為潛在的云區(qū)域,若小于T',則為潛在的非云區(qū)域。需要注意的是,若線性拉伸后的暗通道反射率很小,如小于T'·70%,則其為云的概率極低,可直接劃為非云區(qū)域。若拉伸后的暗通道反射率在T'·70% 與T'之間,則將其劃為潛在非云區(qū)域。需要注意的是,在本判斷中,可以容忍一定高亮物體判別為云,因此將閾值的上限設(shè)定為150,后續(xù)的判定方法可進一步去除。
(2)NDVI 判斷。有些水體由于渾濁度較高,或者鏡面反射等原因,其在可見光的表現(xiàn)與薄云類似,無法直接區(qū)分(如圖1 中的濕地場景)。但是,二者在近紅外波段卻有較大差異。水在近紅外具有很低的反射率,而云在近紅外卻有較高的反射率。因此可采用歸一化植被指數(shù)NDVI(Normalized Difference Vegetation Index)剔除這部分水體。NDVI定義為
即近紅外與紅光波段的反射率差值除以二者的和值。由于云在近紅外、紅光波段都具有較高的反射率,因此云的NDVI 值一般較?。╖hai 等,2018)。
借鑒Landsat 云檢測研究,水體的NDVI 值一般小于0.1 而云的NDVI 值一般大于0.1(Zhu 和Woodcock,2012)。基于此,本文設(shè)定0.1為NDVI的閾值用于區(qū)分薄云和渾濁水體。即當(dāng)某像素的NDVI<0.1 時,被劃分為水體,當(dāng)NDVI>0.1 時,被劃分為潛在云區(qū)域。
(3)Whiteness 判斷。Whiteness 是白度指數(shù)(Gomez-Chova 等,2007),用W表示。其主要是針對3 個波段真彩色圖像,為了使其適用于HY-1C CZI 數(shù)據(jù),本文對其進行了擴展:
式中,i= 1,2,3,4 分別表示CZI 的藍(lán)、綠、紅和近紅外4 個波段序號。由于云在4 個波段的反射率差異較小,因此用各波段反射率與平均值的差值的絕對值來判斷4 個波段反射率的差異。若某區(qū)域內(nèi)各波段差值較小,則該區(qū)域內(nèi)W值平滑,細(xì)節(jié)信息少;反之,若某區(qū)域內(nèi)各波段差值較大,則該區(qū)域內(nèi)W值變化大,細(xì)節(jié)信息多(Zhu 等,2015)。
研究發(fā)現(xiàn),云區(qū)域內(nèi)的反射率相對較為光滑,而非云區(qū)域內(nèi)(如自然地物和冰雪)的反射率差異較大,因而在Whiteness 指數(shù)圖像上,云區(qū)域內(nèi)的細(xì)節(jié)信息較少,而非云區(qū)域內(nèi)的細(xì)節(jié)信息較多??刹捎肳hiteness 指數(shù)作為云與非云樣本的提取,去除冰雪對于樣本提取的影響?;诖?,本文使用多尺度邊緣保持分解方法MED(Multiscale Edge-preserving Decompositions)(Farbman 等,2008)獲取Whiteness 指數(shù)圖像在不同尺度上的細(xì)節(jié)信息D,即:
進一步,本文采用Otsu 方法將上述細(xì)節(jié)信息D二值化,只有二值化后值為1 的區(qū)域,才被認(rèn)定為細(xì)節(jié)信息,這部分像素點被劃分為非云樣本,而二值化后值為0 的區(qū)域,被認(rèn)定為非細(xì)節(jié)區(qū)域,這部分像素點被劃分為云樣本區(qū)域(Kang 等,2019)。相較于暗通道細(xì)節(jié)信息提取,利用Whiteness 提取的細(xì)節(jié)信息具有更高的穩(wěn)定性(詳見結(jié)果部分)。
通過上述暗通道反射率判斷、NDVI 判斷和Whiteness 判斷的逐步細(xì)化,提取高精度的云與非云樣本。需要注意的是,通過該方法提取的云樣本區(qū)域與非云樣本區(qū)域分別作為正負(fù)樣本用于后面的SVM 分類訓(xùn)練。訓(xùn)練之后,這些樣本將不再參與云檢測任務(wù)。但在分類之前,還需對每個樣本進行特征表征。下面,本文將詳細(xì)介紹如何提取每個像素點的特征。
特征提取是對每個像素進行表征的數(shù)學(xué)手段。但是并非所有特征都可用于云識別(Yao 等,2020)。合理的特征提取算法能最大程度上反映云的特殊性,在該特征維度上,云與非云像素點的特征值差異最大(An 和Shi ,2015)。而支持向量機分類是比較成熟的機器學(xué)習(xí)方法,故將該分類的簡單描述與特征提取合并。本文選取使云與非云區(qū)域的差異最大化的4 種特征:反射率特征、光譜指數(shù)特征、紋理特征和結(jié)構(gòu)特征,以表征每個像素點的空—譜信息。
(1)反射率特征。反射率特征是最直接的云檢測特征。云在藍(lán)、綠、紅、近紅外通道都具有較高的反射率。一般情況下,若某個測量點的4個通道都有較高的反射率,那么該點具有較高的概率為云(Zhai 等,2018)。令每個像素點的反射率特征為FR,則FR表示為
需要注意的是,除了HY-1C CZI 的4 個波段反射率(藍(lán)、綠、紅和近紅外波段)以外,本文還將暗通道反射率作為反射率特征之一。圖1所示為4 種典型場景的RGB 圖像。為了更好展示反射率特征,圖4 所示為4 種典型場景的近紅外和暗通道圖像。
圖4 4種典型場景的近紅外和暗通道圖像Fig.4 Near infrared and dark images of the four scenes
(2)光譜指數(shù)特征。光譜指數(shù)也是云檢測的有效特征之一(Choi 等,2022)。在本文中,每個像素點的光譜指數(shù)FI表示為
NDVI 和W常用于多波段遙感圖像的云檢測,如Landsat 和GF 系列衛(wèi)星(Zhu 和Woodcock,2012;Li 等,2017)。本文也使用這兩個指數(shù)來描述像素點的光譜指數(shù)特征。圖5 所示即為4 種典型場景的NDVI和W圖。
圖5 4種典型場景的NDVI和白度指數(shù)圖像Fig.5 NDVI and whiteness of the four scenes
(3)紋理特征。紋理特征描述了像素點與像素點之間的空間關(guān)系,這種關(guān)系可以用于云檢測(Kang 等,2019)。與反射率特征和光譜指數(shù)特征不同的是,反射率特征和光譜指數(shù)特征只考慮單個像素點的信息,而紋理特征包含了像素點與鄰近像素點的相關(guān)信息。云覆蓋的區(qū)域內(nèi)的像素點之間差異較小,相對于其他地物,具有更平滑的特點。Gabor 特征是一種可以用來描述圖像紋理信息的特征,Gabor 濾波器的頻率和方向與人類的視覺系統(tǒng)類似,特別適合于紋理表示與判別(An 和Shi,2015;Deng 等,2019; 李軍軍 等,2020)。在空間域,一個二維的Gabor濾波器是一個正弦平面波和高斯核函數(shù)的乘積。前者是調(diào)諧函數(shù),后者是窗口函數(shù)。Gabor濾波器的定義如下:
式中,
式(11)—(13)中,g表示Gabor 濾波器,λ為使用的正弦函數(shù)的波長,θ表示其方向,σ是高斯函數(shù)的方差。在本文中,λ取值為[0.5,1,2],θ取值為[0°,45°,90°,135°],σ取值為[1,2,3]。因此,對于每個二維輸入圖像,可以獲得共36 個二維紋理特征矩陣。該特征矩陣描述了不同濾波情況下的圖像紋理特征。圖6 所示即為λ取值為1,θ取值為90°,σ取值為[1,3]時4 種典型場景的紋理特征圖。
圖6 4種典型場景的Gabor特征,其中λ = 1,θ = 90°,σ = 1和3Fig.6 Gabor features of the four scenes,for which.λ = 1,θ = 90°,σ = 1 and 3
(4)結(jié)構(gòu)特征。與紋理特征相比,結(jié)構(gòu)特征是一種更高級別的圖像特征,它類似于人類視覺感知的初級知識,提供了圖像內(nèi)容的重要信息(Xu 等,2012)。由于云內(nèi)部的結(jié)構(gòu)信息比非云區(qū)域的結(jié)構(gòu)信息要少,因此結(jié)構(gòu)信息對于云檢測具有重要作用。對于輸入圖像I,其結(jié)構(gòu)特征S可以表示為
式中,ε是一個小常數(shù),N為圖像數(shù),λ為平衡值。Φx,Φy(i),Ψx(i)和Ψy(i)表示為窗口R(i)內(nèi)的絕對空間差異,定義為
式中,gi,j為權(quán)值函數(shù),其可以計算為
通過優(yōu)化式(14)即可獲得圖像的結(jié)構(gòu)特征。在本文中,平衡值λ設(shè)定為[0.005,0.010,0.015,0.020]。圖7 所示即為λ設(shè)定0.005 和0.015 時4 種典型場景的結(jié)構(gòu)特征圖。
圖7 4種典型場景的結(jié)構(gòu)特征,其中λ = 0.005和0.015Fig.7 Structural features of the four scenes,for which.λ = 0.005 and 0.015
(5)特征歸一化。在上述反射率、光譜指數(shù)、紋理和結(jié)構(gòu)特征獲取之后,為了降低不同特征值取值范圍對云檢測結(jié)果的影響,將各維特征歸一化(Lin 等,2015),即:
式中,F(xiàn)'和F是歸一化后和歸一化前的特征,F(xiàn)max和Fmin為該維特征的最大值和最小值。
利用上述反射率特征、光譜指數(shù)特征、紋理特征和結(jié)構(gòu)特征,可獲得CZI場景中每個像素點的空—譜特征信息,結(jié)合3.2 節(jié)中自動提取的云與非云訓(xùn)練樣本,即可訓(xùn)練支持向量機SVM(Support Vector Machine)分類器。通過該分類器,實現(xiàn)CZI 場景中的初級云檢測。本文使用的SVM 是臺灣大學(xué)林智仁教授開發(fā)的libsvm 軟件包,該軟件包可在(https://www.csie.ntu.edu.tw/~cjlin/libsvm/[2022-05-13])免費下載。訓(xùn)練過程中,使用徑向基核函數(shù)RBF(Radial Basis Function)和五重交叉驗證法。
經(jīng)過上述SVM 識別的云主要是場景中云的核心區(qū)域,對于邊緣、孔洞等問題無法有效解決(Kang 等,2019)。獲取的識別結(jié)果常出現(xiàn)邊緣不清晰、云區(qū)域中存在未被識別的噪聲點以及非云區(qū)域中被識別的云噪聲點等情況?;诖?,本文通過導(dǎo)向濾波、孔洞填充以及幾何判別進一步提高云檢測精度。
(1)導(dǎo)向濾波。導(dǎo)向濾波是一種邊緣保持,噪聲去除的方法,被廣泛運用于圖像處理中(Zhang和Xiao,2014;Kang 等,2019)。導(dǎo)向濾波包含輸入圖像I、引導(dǎo)圖像G、和經(jīng)過濾波后得到輸出圖像Q。導(dǎo)向濾波的一個重要假設(shè)是輸出圖像Q和引導(dǎo)圖像G在濾波窗口ωk上存在局部線性關(guān)系,即:
以保證在一個局部區(qū)域里,如引導(dǎo)圖像G有一個邊緣時,輸出圖像Q也保持邊緣不變,因為對于相鄰的像素點,存在?Q=αk?G。上式中的αk和βk為
式中,μk和δ2k分別是引導(dǎo)圖像在窗口ωk內(nèi)的均值和方差。|ω|是窗口ωk內(nèi)的像素個數(shù)。是輸入圖像I在窗口ωk內(nèi)的均值。最后,通過導(dǎo)向濾波后的輸出圖像可表示為
式中,和分別表示所有包含像素i的窗口的αk和βk的值的均值。在本文中,導(dǎo)向濾波的窗口大小設(shè)置為10,ε設(shè)置為10-4。
(2)孔洞填充。經(jīng)過導(dǎo)向濾波后,可能會存在一個較大的云區(qū)域中,有較小的無云區(qū)域(即存在小的孔洞)。為了去除這部分孔洞的影響,本文將像素數(shù)小于50 的孔洞進行填充。若存在像素數(shù)大于50 的孔洞,則認(rèn)為該部分為無云區(qū)域,不予填充。
(3)幾何判斷。自然界中的云形狀一般較為規(guī)律,不會出現(xiàn)復(fù)雜的形狀,或者是長條形的形狀。如果檢測出來的結(jié)果中存在長條形或者復(fù)雜的形狀,則可能是冰雪、水陸岸線、道路等,應(yīng)予以剔除。本文采用分型維度指數(shù)FRAC(Fractal dimension index)和長寬比LWR(Length to width ratio)判別。其中,某個區(qū)域的長寬尤其外接最小橢圓的長軸和短軸表示。則,
如果幾何形狀較為簡單,則FRAC 的值接近1,如果幾何形狀非常復(fù)雜,則FRAC 的值接近2。如果幾何形狀狹長,則LWR 的值較大。參考Li 等(2017)對GF 數(shù)據(jù)的分析,本文將FRAC的閾值設(shè)定為1.5,LWR 的閾值設(shè)定為4.5(Li 等,2017)。
本文采用在云檢測中最常用的錯誤率ER(Error rate)指標(biāo)對云檢測結(jié)果精度評價。其定義為
式中,TN是場景圖像的像素總數(shù),CN是將云像素識別為非云像素的像素數(shù),NC是將非云像素識別為云像素的像素數(shù)。
為了驗證本文提出云檢測算法的有效性,其檢測結(jié)果與目前最為常用的非監(jiān)督云檢測算法對比(Kang 等,2019)。這些對比算法包括K 均值、ChanVese、PRS(Zhang 和Xiao,2014)和暗通道算法(Kang 等,2019)。其中,K 均值算法主要通過聚類將遙感圖像分為云和非云兩類;ChanVese通過圖像分割實現(xiàn)云與非云的分類;PRS 算法則通過逐步細(xì)化的方案(包括二值化、細(xì)節(jié)提取和導(dǎo)向濾波)實現(xiàn)云檢測;暗通道法則利用暗通道信息提取云的細(xì)節(jié)信息實現(xiàn)云檢測。
圖8所示為各算法的云檢測結(jié)果圖,其中白色部分表示算法檢測到的云區(qū)域,黑色部分表示非云區(qū)域。最左側(cè)為HY-1C 遙感圖像的真彩色圖,最右側(cè)為人工標(biāo)注的云區(qū)域。從圖8 可以看出,K 均值方法將遙感圖像聚類為云與非云兩類,該方法只利用了遙感圖像的反射率信息,像素點反射率較高的點都會被劃分為云這一類:對于植被和土壤場景,會存在零散的誤檢測的云區(qū)域,而對于濕地和冰雪場景,由于水體的渾濁度較高以及冰雪的反射率較高,都會被劃分為云區(qū)域,精度較低;ChanVese 方法相較于K 均值方法,零散點較小,但是也會存在K 均值方法類似的錯誤分類高亮的水體和冰雪的情況;PRS 算法則在逐步細(xì)化的過程中,會刪除較多云區(qū)域,該算法較少地將非云區(qū)域識別為云區(qū)域,但是會將一部分云區(qū)域識別為非云區(qū)域,造成了較低的精度;暗通道算法在植被、土壤和冰雪場景具有較好的識別結(jié)果,但是對于濕地場景卻無法給出云檢測結(jié)果,這主要是由于濕地場景的云在暗通道上存在較多細(xì)節(jié),這部分細(xì)節(jié)導(dǎo)致無法有效提取云樣本,進而無法實現(xiàn)云識別;本文提出的算法,由于綜合考慮了光譜、指數(shù)、紋理和結(jié)構(gòu)特征,采用的訓(xùn)練樣本提取方法能較精確提取訓(xùn)練樣本,因而給出了最好的云檢測結(jié)果。對比人工標(biāo)注的云分布真實圖,本文算法的云檢測結(jié)果具有較好一致性。
圖8 云檢測結(jié)果對比Fig.8 Comparison of cloud detection results obtained from different algorithms
云檢測算法在植被、土壤、濕地和冰雪的錯誤率如表1 所示。可以看出,K 均值和ChanVese算法在這些場景的錯誤率相對較高;PRS 算法在植被和土壤場景的錯誤率會更高,但是在濕地和冰雪的錯誤率會降低;暗通道算法在植被、土壤和冰雪場景的錯誤率比較低,但是在濕地場景卻沒有檢測出云;本文提出的算法,在各個場景都具有最低的錯誤率。特別是對于濕地場景,渾濁水體所占像素數(shù)比例相對較高,錯誤率降低明顯。證明了本文算法對于HY-1C 遙感數(shù)據(jù)云檢測的有效性。
表1 HY-1C衛(wèi)星CZI圖像數(shù)據(jù)云檢測算法精度Table 1 Accuracy of cloud detection for CZI images of HY-1C satellite
本文使用白度指數(shù)作為遙感圖像細(xì)節(jié)信息提取數(shù)據(jù)源,并通過逐步細(xì)化過程精確提取云/非云樣本。為了定量評價白度指數(shù)對于云檢測的效果,本文對比不使用白度指數(shù)和使用白度指數(shù)(即本文算法)兩種情況下的云檢測錯誤率。云檢測結(jié)果如表2所示。可以看出,白度指數(shù)的引入降低了云檢測的錯誤率,證明了白度指數(shù)對于云檢測的有效性。
表2 不使用/使用白度指數(shù)下的云檢測錯誤率Table 2 Error rate of cloud detection with/without sample selection using whiteness
本文在獲取初步云檢測結(jié)果后,對其進行了導(dǎo)向濾波、孔洞填充以及幾何判別的后處理。為評價后處理對于云檢測精度提升效果,本文分別計算不進行后處理、僅進行導(dǎo)向濾波、僅進行孔洞填充、僅進行幾何判別和進行這3 種后處理方式的錯誤率,結(jié)果如表3 所示。
表3 不同后處理方法下HY-1C衛(wèi)星CZI圖像數(shù)據(jù)的云檢測精度Table 3 Error rate of cloud detection with different postprocessing methods
從表3 可以看出,相較于表1 中的各方法的錯誤率,在不進行后處理的情況下,本文提出的算法相較于K 均值、ChanVese、PRS 和暗通道算法,仍具有較高精度。當(dāng)引入導(dǎo)向濾波、孔洞填充和幾何判別因素后,云檢測精度進一步提升。特別是導(dǎo)向濾波的引入,可較大程度提升檢測精度??锥刺畛浜蛶缀闻袆e對精度提升的作用因場景而異。對于薄云和厚云交替復(fù)雜共存的場景(如土壤場景),孔洞填充能提升薄云的檢測精度。對于地表有復(fù)雜形狀或長條形干擾物的場景(如冰雪場景),幾何判定能提升云的檢測精度。這證明了引入后處理對于HY-1C 遙感數(shù)據(jù)云檢測的有效性,對于云檢測業(yè)務(wù)化運行具有積極作用。
本文圍繞HY-1C CZI 遙感數(shù)據(jù),設(shè)計了一套非監(jiān)督云檢測算法。該方法包含訓(xùn)練樣本選擇、特征提取、SVM分類和后處理4個過程。利用暗通道反射率、歸一化植被指數(shù)和白度指數(shù)自動生成訓(xùn)練樣本,通過提取遙感圖像的反射率、光譜指數(shù)、紋理和結(jié)構(gòu)特征,基于上述訓(xùn)練樣本和特征,利用SVM 實現(xiàn)云/非云區(qū)域的分類,并采用導(dǎo)向濾波、孔洞填充和幾何判斷進一步后處理結(jié)果,實現(xiàn)HY-1C 遙感數(shù)據(jù)的云檢測。該方法最大的優(yōu)勢在于:(1)無需人工標(biāo)注即可自動提取高精度云與非云樣本,提高了算法的應(yīng)用能力;(2)充分利用近紅外波段信息降低渾濁水體、冰雪等干擾物對云檢測影響,提高了算法的檢測精度。為驗證本文算法的有效性,在4 種典型場景(植被、土壤、濕地和冰雪場景)進行測試和分析。結(jié)果表明:從定性結(jié)果來看,相較于K 均值、ChanVese、PRS 和暗通道算法,本文云檢測結(jié)果與人工標(biāo)注的云分布真實圖具有較好的一致性;從定量結(jié)果來看,本文提出的算法在植被、土壤、濕地、冰雪的錯誤率分別為0.027、0.064、0.026 和0.049,相比暗通道算法在各個場景錯誤率分別可以降低0.024、0.061、0.13 和0.003。綜合以上分析,無論定性與定量結(jié)果,本文算法都表現(xiàn)出最好的性能。下一步研究將重點關(guān)注該算法在更多場景下的適用性測試,以及提取更能體現(xiàn)云與其他目標(biāo)差異性的判別性深度特征,以進一步提升該算法對于HY-1C 云檢測的能力。