趙 莎 鄭文武
(衡陽師范學(xué)院城市與旅游學(xué)院,湖南 衡陽421002)
伴隨著航天事業(yè)的快速發(fā)展,遙感圖像獲取方式越來越多樣化,遙感影像分類作為遙感應(yīng)用中重要的信息處理手段,從影像中解讀出不同地物信息應(yīng)用于決策規(guī)劃中顯得尤其重要。使用傳統(tǒng)的遙感影像監(jiān)督分類方法訓(xùn)練樣本的光譜特征或紋理特征的一致性進行分類,因為對訓(xùn)練樣本的依賴性較強,已遠不能滿足對海量數(shù)據(jù)的快速分類要求。同時由于技術(shù)限制目前仍存在異物同譜,同物異譜現(xiàn)象。尤其是處理房屋分類時,由于房屋與道路空間聯(lián)系緊密,光譜特征相似,反射特性相近,若直接根據(jù)光譜特性來從遙感圖像中提取兩者地物信息,則圖像的分類精度明顯下降。因此,如何克服以上問題從大量遙感圖像數(shù)據(jù)中快速提取出有用信息進行遙感自動分類并提高影像分類精度,是遙感圖像應(yīng)用領(lǐng)域的一個研究熱點。傳統(tǒng)的模式下,在對遙感影像分類處理過程中,需要耗費大量的精力才能獲取有用的監(jiān)督信息,影像分類往往假設(shè)數(shù)據(jù)樣本足夠大,對遙感影像數(shù)據(jù)處理時有一定局限性。為了解決了上述問題,本文利用機器學(xué)習(xí)方法,探索在非監(jiān)督分類模式下的基于遙感的房屋自動提取技術(shù)。
在對圖像進行預(yù)處理過程中將無關(guān)或次要特征信息進行刪減,然后對樣本集進行分類分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,將遙感影像通過計算梯度直方圖量化為特征向量,通過用少量的特征向量代替全部的特征向量,通過少量訓(xùn)練數(shù)據(jù)對模型進行訓(xùn)練,通過機器學(xué)習(xí)算法測試出合理的參數(shù),得到一個適合系統(tǒng)性能滿足要求的模型,再對測試影像進行測試。這種方法有三個優(yōu)點:一是訓(xùn)練時間的大大減少;二是原始樣本數(shù)據(jù)要去數(shù)量減少;三是訓(xùn)練過程降低了所需空間內(nèi)存,優(yōu)化了設(shè)備速度。通過這種方式來使模型達到最優(yōu)化,滿足快速自動提取地物,進行影像分類的目的。
圖1 房屋影像a
圖2 房屋影像b
圖3 直方圖a
圖4 直方圖b
本研究選取了華南地區(qū),珠三角區(qū)域的建制鎮(zhèn),房屋類型多樣,分布特點不一,影像地物豐富,有豐富的房屋樣本信息,作為房屋提取的基本影像較為合理。并且以華南地區(qū)作為實驗數(shù)據(jù)進行遙感影像房屋自動提取,可以為進一步的城市擴張研究,建設(shè)用地動態(tài)監(jiān)測,提供技術(shù)支撐。獲取影像數(shù)據(jù)后進行的主要預(yù)處理工作包括輻射定標,大氣校正,幾何校正。對預(yù)處理后的高分辨率遙感影像進行裁剪,選取不同高度,不同紋理,不同稀疏程度的典型房屋樣本區(qū)域,裁剪后影像通過ArcGIS 轉(zhuǎn)化為圖片格式。
選取影像房屋集中區(qū)域進行裁剪導(dǎo)出后,構(gòu)建訓(xùn)練樣本集,樣本集中包含四十幅房屋數(shù)據(jù)。因為房屋提取的關(guān)鍵是自身的紋理特征,為減少計算,其他特征應(yīng)盡量避免,構(gòu)建數(shù)據(jù)集過程中選取的樣本一定要有充分的房屋地物,盡量避免其他地物。通過以上操作去除了其他噪聲數(shù)據(jù),可有效的提高訓(xùn)練效率,加快自動提取的速度。選取了位于十字路口的房屋數(shù)據(jù)(見圖1),紋理特征豐富,建筑結(jié)構(gòu)各異,其中左邊為規(guī)則的磚構(gòu)房屋,高度不超過六層,住宅用途的自建房,是建制鎮(zhèn)中的常見房屋類型。右側(cè)為白色棚房,建筑材料為反射性質(zhì)較強的鋁制板,一般用作商服用途,也作為常見房屋類型之一。圖2 為工廠類型的房屋特征,房屋形狀規(guī)則,分布在硬底化地面,房屋的顏色和紋理特征各不相同。機器學(xué)習(xí)過程中樣本質(zhì)量和樣本大小會影響模型性能,需提供質(zhì)量較高和數(shù)量盡可能多的樣本數(shù)。
模型訓(xùn)練前需要先把數(shù)據(jù)預(yù)處理階段得到的圖片數(shù)據(jù)集利用機器學(xué)習(xí)軟件包sklearn 中的方法train_test_split 分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。接著使用訓(xùn)練數(shù)據(jù)集Xtrain 和類別目標索引Ytrain 來進行模型訓(xùn)練。在sklearn.feature_selection 模塊中的類可以用來對樣本集進行特征選擇和降維,這將會提高估計器的準確度或者增強它們在高維數(shù)據(jù)集上的性能。將單個像素作為特征值,通過在水平和豎直方向上分別乘以[-1,0,1],[1,0,-1]T 之后,計算梯度大小和方向。用單個像素中2π/bin 為組距,統(tǒng)計bin 特征的個數(shù),生成直方圖,由block 窗口大小乘以單個像素的特征數(shù),再乘以block 窗口的個數(shù),得到梯度特征直方圖。利用PCA 算法進行特征降維處理,根據(jù)效果選擇合適的參數(shù),對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集進行特征提取。以圖1,圖2 為例,將圖片輸入scikit-learn 中,計算直方圖,結(jié)果如上圖3,圖4 所示。符合觀察到的圖2 影像整體分布情況,圖片色調(diào)單一,道路區(qū)域和棚房區(qū)域為主的色調(diào)占主要部分。圖3,背景干擾信息較多,色彩豐富,主要的變化區(qū)域房屋邊界區(qū)域。
使用GridSearchCV 來選擇一個最佳的SVC 模型參數(shù),然后使用最佳參數(shù)對模型進行訓(xùn)練。因為GridSearchCV 使用矩陣式搜索法,對每組參數(shù)組合進行一次訓(xùn)練,找到最合適的模型參數(shù)。而后使用這一模型對測試樣本進行預(yù)測,clf 對象就會包含訓(xùn)練出的模型的相關(guān)參數(shù),可以使用這個模型來進行預(yù)測。圖5為南方農(nóng)村自建房屋,排列規(guī)則,房屋分布密集,影像色調(diào)單一,是典型的房屋純凈度較高的圖片,由圖7 可看出提取效果較好,能提取出明顯的房屋邊界。圖6 提取效果相比之下,質(zhì)量較差,未能將房屋與周圍其他地物明顯分開,邊界信息模糊。分析可知純凈房屋窗口的提取效果遠超非純凈房屋窗口,背景干擾因素對模型準確性有極大影響。根據(jù)模型提取房屋時對陰影信息敏感,能區(qū)分出陰影區(qū)域,但對于投射到房屋本身上的陰影也做了相同處理。
我們通過設(shè)置n-jobs=4 來啟動四個線程并發(fā)執(zhí)行,同時設(shè)置verbose=2 來輸出一些過程信息。并且使用confusion-matrix輸出預(yù)測準確性信息。從輸出的對角線的數(shù)據(jù)可以得知大部分預(yù)測數(shù)據(jù)基本正確。再使用classification-report 輸出分類報告,查看測準率,召回率及F1 Score。實驗中使用了39 個圖片樣本,測準率和召回率平均達到了0.75 以上。
圖5 輸入房屋圖像c
圖6 輸入房屋圖d
圖7 輸出房屋圖像c
圖8 輸出房屋圖d
本文提出了一種遙感影像自動識別房屋的機器學(xué)習(xí)方法,對影像進行規(guī)則裁剪獲取房屋影像,構(gòu)建圖片數(shù)據(jù)集,利用機器學(xué)習(xí)算法,實現(xiàn)房屋的自動提取。主要得到如下結(jié)論:
4.1 與基于光譜特征和面向?qū)ο筮M行遙感影像分類的傳統(tǒng)方法相比,本文選擇人工選擇裁剪后的純凈房屋區(qū)域影像作為研究對象,構(gòu)建數(shù)據(jù)集進行識別,避免了其他地物的干擾。研究表明,選擇的房屋區(qū)域純凈度和樣本容量的大小是分類精度的關(guān)鍵。同時因為PCA 算法的加入對高維度的特征向量進行了降維操作,避免了過高的特征維度造成的過擬合情況,減少了計算量,加快了自動提取效率。
4.2 所提出的房屋提取方法可同時處理批量數(shù)據(jù),并且一次訓(xùn)練出的模型可進行保存后多次使用,減少了反復(fù)訓(xùn)練的數(shù)據(jù)需要和訓(xùn)練時間,因此適用于大量遙感數(shù)據(jù)的自動化分類處理。在得到圖片數(shù)據(jù)集后進行特征提取和模型構(gòu)建,通過機器學(xué)習(xí)方法進行房屋自動識別,提高了影像地物提取的自動化程度。
4.3 相較于傳統(tǒng)的遙感影像提取方式,機器學(xué)習(xí)的參與使遙感地物提取實現(xiàn)了智能化,只需輸入數(shù)據(jù)無需軟件操作,無需參數(shù)設(shè)置,直接得到提取后影像圖片,使影像分類的操作更便捷。在軟件方面,sklearn 包含了圖片的多種處理方式,如圖像增強,卷積運算直接調(diào)用即可,減少了數(shù)據(jù)數(shù)據(jù)導(dǎo)入導(dǎo)出步驟,同時分步的代碼塊,可實時獲取任意階段數(shù)據(jù),大大節(jié)省了數(shù)據(jù)存儲空間。