• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于特征選擇的遙感影像分類研究

    2020-01-08 02:22:44李佳城
    現(xiàn)代信息科技 2020年15期
    關(guān)鍵詞:遙感影像特征選擇分類器

    摘 ?要:遙感圖像分類的準(zhǔn)確性很大程度取決于特征選擇。為了解決遙感圖像數(shù)據(jù)量大而導(dǎo)致的分類識(shí)別處理時(shí)間長(zhǎng),對(duì)系統(tǒng)資源要求高的問題,文章提出了使用屬性子集評(píng)估器和最佳優(yōu)先向前搜索方法,并結(jié)合無(wú)監(jiān)督過濾器剔除掉冗余和不相關(guān)特征,最后使用J48算法構(gòu)建遙感影像分類器模型。通過實(shí)驗(yàn)對(duì)比證明,選擇對(duì)于建立分類器貢獻(xiàn)率高的特征不僅可以降低分類的建模時(shí)間,而且節(jié)省系統(tǒng)處理數(shù)據(jù)的資源,對(duì)于實(shí)時(shí)性要求高的遙感圖像應(yīng)用尤為重要。

    關(guān)鍵詞:遙感影像;特征選擇;分類器;數(shù)據(jù)挖掘

    中圖分類號(hào):TP751;P237.4 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)15-0061-03

    Abstract:The accuracy of remote sensing image classification depends largely on feature selection. In order to solve the problem of long processing time and high requirements for system resources caused by the large amount of remote sensing image data,this paper proposes the use of attribute subset evaluator and the best priority forward search method,combined with unsupervised filter to eliminate redundant and irrelevant features,and finally uses J48 algorithm to build remote sensing image classifier model. The experimental results show that the selection of features with high contribution rate can not only reduce the modeling time of classification,but also save the system data processing resources,which is particularly important for remote sensing image applications with high real-time requirements.

    Keywords:sensing image;feature selection;classifier;data mining

    0 ?引 ?言

    遙感探測(cè)獲取的重要遙感信息是遙感影像,對(duì)遙感影像的判讀和各種目標(biāo)地物的分類與識(shí)別在城市規(guī)劃、土地利用及環(huán)境監(jiān)測(cè)等國(guó)民經(jīng)濟(jì)建設(shè)領(lǐng)域有著廣泛的應(yīng)用[1],為此人們不斷利用先進(jìn)技術(shù)對(duì)其進(jìn)行分類和識(shí)別的研究[2-5]。其中遙感圖像的特征選擇是遙感影像分類的重要環(huán)節(jié),特征選擇的有效性對(duì)于提高分類器處理數(shù)據(jù)的速率和減少系統(tǒng)資源的消耗至關(guān)重要。目前越來(lái)越多的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法應(yīng)用在遙感領(lǐng)域中,且使得對(duì)遙感影像的分類和識(shí)別更加快速和智能化。在上述背景下,本文基于遼寧工程技術(shù)大學(xué)“大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目”,重點(diǎn)研究特征選擇對(duì)于各種目標(biāo)地物的分類建模時(shí)間和分類準(zhǔn)確性的影響,該研究成果可以應(yīng)用于土地利用分類,選題具有理論意義和應(yīng)用價(jià)值。

    1 ?特征選擇

    數(shù)據(jù)預(yù)處理是使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)建立分類器的重要步驟,而特征選擇又是其中較為重要的一步。特征選擇是從給定的一組特征集中選擇一組能為分類起良好作用的特征子集,同時(shí)特征選擇也可以有效地減少特征空間的維度。特征選擇屬于機(jī)器學(xué)習(xí)的算法預(yù)處理步驟,優(yōu)秀的特征集可以提高機(jī)器學(xué)習(xí)的準(zhǔn)確性并且縮短分類器建模的時(shí)間。相反,有些算法如果使用不相關(guān)的、冗余的特征屬性會(huì)使得學(xué)習(xí)結(jié)果大打折扣。

    給定一個(gè)特征子集F={f1,f2,…,fn},n是特征集的大小。特征選擇用二進(jìn)制向量表示:D={D1,D2,…,Dn},Dt={0,1}(t=1,2,…,n),D中的每一位1和0分別表示F中相應(yīng)位置的特征被選中與否,即Dt=1表示第t個(gè)特征ft被選中。反之Dt=0,表示第t個(gè)特征ft不被選擇。特征選擇優(yōu)化目標(biāo)函數(shù)值問題可描述為 。

    特征選擇是組合優(yōu)化和搜索過程,是遙感影像進(jìn)行前期數(shù)據(jù)預(yù)處理的關(guān)鍵技術(shù)之一,它在執(zhí)行過程中包含兩個(gè)最重要的階段,即搜索策略和評(píng)價(jià)函數(shù)。

    1.1 ?搜索策略

    由于搜索空間大小不同,可以使用不同搜索策略,包括啟發(fā)式搜索、窮舉搜索、不確定搜索。

    啟發(fā)式搜索是根據(jù)某種特征選擇方向找到近似最優(yōu)解的特征子集。通常它只是對(duì)搜索空間局部進(jìn)行的搜索,一般是在空集和全集之間的一條路徑。因?yàn)樗軌蚩焖俚厮阉鞯揭粋€(gè)可行解,因此可以解決大規(guī)模搜索問題,但它搜索的解不能夠保證為最優(yōu)解。在特征選擇研究領(lǐng)域啟發(fā)式搜索廣泛采用的算法可以歸納為兩大類,即最佳優(yōu)先搜索(Best-first Search)和集束搜索(Beam Search)。Jain等人提出正向搜索和反向搜索及雙向搜索[6]。為了克服局部極小,出現(xiàn)了隨機(jī)性地對(duì)屬性增加和刪除的隨機(jī)搜索。

    窮舉搜索目的是找到符合選擇判據(jù)的最優(yōu)特征子集,不丟失最優(yōu)解。常用窮舉搜索的算法有分支界限法、Focus算法和ABB算法。這種搜索方法當(dāng)特征數(shù)目多時(shí),必將導(dǎo)致搜索空間過大,算法運(yùn)行時(shí)間增加,因此窮舉搜索會(huì)變得困難。

    不確定性搜索是被評(píng)估的子集隨機(jī)生成,而不是順序生成。只要新產(chǎn)生的子集在維度、準(zhǔn)確性等方面比當(dāng)前最佳子集更好,就會(huì)被記錄下來(lái)。不確定搜索方法適用于大規(guī)模數(shù)據(jù)集的特征選擇。一般情況下,這種搜索需要的計(jì)算資源較多,收斂速度較慢,并且在很多情況下得到的是局部最優(yōu)解。典型的不確定搜索算法是Kudo等人提出的遺傳算法[7]。

    1.2 ?評(píng)價(jià)函數(shù)

    對(duì)于一個(gè)新的特征子集,需要根據(jù)一定的條件對(duì)其進(jìn)行評(píng)估,評(píng)估值決定下一個(gè)搜索方向或者停止搜索。特征選擇的評(píng)價(jià)函數(shù)用來(lái)幫助選擇對(duì)于分類器模型建立有用的特征,在評(píng)估特征時(shí)需要使用數(shù)學(xué)上的度量標(biāo)準(zhǔn)來(lái)確定,即適應(yīng)度函數(shù)。根據(jù)評(píng)估函數(shù)與分類器的關(guān)系,特征選擇方法分成過濾器模式和封裝器模式。其中過濾器模式的評(píng)價(jià)函數(shù)與分類器無(wú)關(guān),特征選擇度量上主要采用距離度量、信息度量(如信息增益和信息增益率)、相關(guān)性度量和一致性度量。封裝器模式的評(píng)價(jià)函數(shù)與分類器相關(guān),采用分類正確率作為評(píng)價(jià)函數(shù)。其思想是通過不斷增加或減少屬性集合,觀察分類預(yù)測(cè)準(zhǔn)確性的變化,最終選擇維數(shù)最小且分類準(zhǔn)確性最高的屬性集合。為了綜合過濾器和封裝器兩種模式的算法各自的優(yōu)點(diǎn),也出現(xiàn)了混合型算法。過濾器模式的特征選擇在算法上保留度量簡(jiǎn)單,計(jì)算代價(jià)小和效率高的優(yōu)點(diǎn),不依賴機(jī)器學(xué)習(xí)算法,但是其降維效果一般。封裝器模式的特征選擇在算法上封裝了學(xué)習(xí)算法,使用某一歸納算法結(jié)合重復(fù)統(tǒng)計(jì)抽樣技術(shù)來(lái)評(píng)價(jià)特征的準(zhǔn)確性,所以其計(jì)算復(fù)雜度非常大,但是降維效果非常好。

    2 ?遙感影像分類器的設(shè)計(jì)

    2.1 ?遙感影像數(shù)據(jù)集

    本實(shí)驗(yàn)圖像數(shù)據(jù)集為遙感圖像公共數(shù)據(jù)集UC Merced Land-Use Dataset[8],該數(shù)據(jù)集由UC Merced計(jì)算機(jī)視覺實(shí)驗(yàn)室于2010年發(fā)布,均提取自USGS National Map Urban Area Imagery系列。如圖1所示,此數(shù)據(jù)集公共領(lǐng)域圖像的像素分辨率約為0.3米(1英尺),圖像大小為256×256像素。此數(shù)據(jù)集包含21類土地利用遙感圖像,其中每類包含各100張TIFF格式圖像,共計(jì)2 100張。

    實(shí)驗(yàn)使用WEKA 3.8.2軟件,WEKA是懷卡托智能分析環(huán)境,使用Java語(yǔ)言編寫的數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)軟件,是GNU協(xié)議下分發(fā)的開源軟件[9,10]。ARFF格式是WEKA軟件專用的格式,為此需要將遙感圖像公共數(shù)據(jù)集中的擴(kuò)展名為TIFF格式的文件轉(zhuǎn)換為擴(kuò)展名為ARFF格式的文件,再使用WEKA軟件進(jìn)行后續(xù)的數(shù)據(jù)處理和分類。本實(shí)驗(yàn)中是先使用Python把TIFF格式文件轉(zhuǎn)換成mat文件,再把mat文件轉(zhuǎn)換成ARFF格式文件。

    2.2 ?特征選擇

    遙感圖像公共數(shù)據(jù)集中的TIFF格式文件轉(zhuǎn)化成ARFF格式文件后,每類遙感圖像中的每個(gè)圖像的每條記錄由768個(gè)屬性(包含最后一個(gè)標(biāo)簽屬性)組成,且每個(gè)屬性均為數(shù)值型(numeric)。實(shí)驗(yàn)進(jìn)行特征選擇前先使用ARFF格式文件加載器讀取ARFF格式的源數(shù)據(jù)文件,然后使用屬性子集評(píng)估器選取屬性的一個(gè)子集,并返回一個(gè)指導(dǎo)搜索的度量數(shù)值。實(shí)驗(yàn)中我們選擇CfsSubsetEval評(píng)估器,評(píng)估數(shù)據(jù)集每個(gè)屬性的預(yù)測(cè)能力和其相互之間的冗余度。此評(píng)估器會(huì)根據(jù)算法選擇與類別屬性相關(guān)度高,但相互之間相關(guān)度低的屬性。在搜索方法上,根據(jù)屬性子集評(píng)估器CfsSubsetEval選擇Best-First Search。該方法執(zhí)行帶回溯的貪婪爬山法,這里采用向前搜索,為了提高效率,緩存已評(píng)估的子集。最后使用過濾器模式中的無(wú)監(jiān)督過濾器刪除遙感影像數(shù)據(jù)集中冗余或不相關(guān)屬性,為后續(xù)建立分類模型做準(zhǔn)備。

    實(shí)驗(yàn)從21類遙感圖像隨機(jī)選擇5類進(jìn)行特征選擇。從這5類遙感圖像中每類再隨機(jī)選擇15張遙感圖像,共計(jì)75張。按照上述使用的評(píng)估器和搜索方法,對(duì)每張圖像的256個(gè)實(shí)例進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)767個(gè)屬性中每個(gè)屬性的貢獻(xiàn)率,匯總統(tǒng)計(jì)得到表1所示的屬性貢獻(xiàn)率最高的前6個(gè)屬性。前6種特征屬性在分類預(yù)測(cè)中的貢獻(xiàn)率數(shù)值根據(jù)實(shí)驗(yàn)結(jié)果從大到小依次為att_512、att_256、att_767、att_511、att_255、att_766,如表1所示。

    2.3 ?實(shí)驗(yàn)驗(yàn)證分析

    數(shù)據(jù)挖掘分類算法中的決策樹是一顆由多個(gè)判斷節(jié)點(diǎn)組成的樹。該算法選擇增益值最大的屬性作為判斷節(jié)點(diǎn)進(jìn)行分類。利用屬性對(duì)當(dāng)前分支節(jié)點(diǎn)進(jìn)行相應(yīng)樣本的集合劃分,所獲得的信息增益表示為Gain(A),如式(1)所示。

    Gain(A)=I(S1,S2,…,Sm)-E(A) ? ? ? (1)

    設(shè)屬性A={a1,a2,…,ai},且a1,a2,…,ai互不相等。集合S被屬性劃分為V個(gè)子集{S1,S2,…,Sj,…Sv},其中Sj包含了S集合中屬性A取aj值的數(shù)據(jù)樣本。屬性A被選為測(cè)試屬性用于對(duì)當(dāng)前樣本集進(jìn)行劃分,設(shè)Sij是子集Sj中類Ci的樣本數(shù)。根據(jù)A劃分子集的熵或期望信息E(A)如式(2)所示。

    E(A)=(Sij+…+Smj)/S×I(Sij,…,Smj) ? ?(2)

    設(shè)S是數(shù)據(jù)樣本集合,S1到Sm是m個(gè)不同值的屬性A分隔S而形成的V個(gè)樣本子集。類別屬性對(duì)應(yīng)于m個(gè)不同類別Ci,i∈{1,2,3,…,m}。假設(shè)Si為Ci類別中的樣本數(shù)。I(S1,S2,…,Sm)為給定樣本分類的期望信息如式(3)所示。

    I(S1,S2,…,Sm)=-(Si/S)×log2(Si/S) ? (3)

    本實(shí)驗(yàn)使用對(duì)于分類器形成貢獻(xiàn)率最高的前12種特征屬性att_248、att_255、att_256、att_495、att_499、att_508、att_510、att_511、att_512、att_765、att_766、att_767進(jìn)行決策樹的J48算法實(shí)驗(yàn)。實(shí)驗(yàn)中隨機(jī)使用了21類遙感圖像中的agricultural、baseballdiamond、overpass、golfcourse、tenniscourt類,并從中再次隨機(jī)選取每類中的遙感圖像進(jìn)行分類識(shí)別。對(duì)特征選擇前后使用J48算法的分類模型建模時(shí)間與分類準(zhǔn)確率對(duì)比,如表2所示。

    從表2中的實(shí)驗(yàn)數(shù)據(jù)可以看到,特征屬性由767個(gè)減到12個(gè)關(guān)鍵特征屬性后,在使用J48算法作為分類器的情況下,得到的建模時(shí)間均大大縮減,而分類的準(zhǔn)確率略低于使用全部特征屬性的效果,因此證明這12種特征在進(jìn)行分類時(shí)可以滿足正確分類的要求,且分類速度提升均在10倍以上,證明所進(jìn)行特征選擇的有效性。在使用特征選擇建立分類模型時(shí),所使用的數(shù)據(jù)量大幅減少,但仍然具有較高的分類準(zhǔn)確率,同時(shí)建模時(shí)間也大幅縮短。通過特征選擇,去除不相關(guān)和冗余信息,可有效減少存儲(chǔ)和處理的數(shù)據(jù)量,提高后續(xù)數(shù)據(jù)分析的效率。

    3 ?結(jié) ?論

    正確地選擇出重要的特征屬性,既可以約簡(jiǎn)數(shù)據(jù),壓縮數(shù)據(jù)量,降低建立分類模型所需的時(shí)間,同時(shí)又能保證所建立的分類模型具有較高的分類準(zhǔn)確性。本文根據(jù)屬性子集中每一個(gè)特征的預(yù)測(cè)能力以及它們之間的關(guān)聯(lián)性進(jìn)行評(píng)估,采用啟發(fā)式搜索算法,并使用無(wú)監(jiān)督過濾器刪除冗余和不相關(guān)特征屬性進(jìn)行特征選擇,從而降低數(shù)據(jù)維度,減少需要處理的數(shù)據(jù)量。通過使用數(shù)據(jù)挖掘軟件進(jìn)行實(shí)驗(yàn)證明,經(jīng)過特征選擇后建立的分類模型仍舊具有較高的分類準(zhǔn)確率,同時(shí)極大地縮減了建模時(shí)間,節(jié)省了系統(tǒng)資源。

    參考文獻(xiàn):

    [1] 李曉斌,江碧濤,王生進(jìn).光學(xué)遙感圖像場(chǎng)景分類技術(shù)綜述和比較 [J].無(wú)線電工程,2019,49(4):265-271.

    [2] 何婧媛,阿茹罕.基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類 [J].電子設(shè)計(jì)工程,2020,28(12):109-113.

    [3] 王鑫,李可,寧晨,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)和多核學(xué)習(xí)的遙感圖像分類方法 [J].電子與信息學(xué)報(bào),2019,41(5):1098-1105.

    [4] 王晨安,李浩,李靖.基于改進(jìn)自組織神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究 [J].地理空間信息,2019,17(2):51-53+86+10.

    [5] 李曉斌,江碧濤,王生進(jìn).光學(xué)遙感圖像場(chǎng)景分類技術(shù)綜述和比較 [J].無(wú)線電工程,2019,49(4):265-271.

    [6] JAIN A K,DUIN R P W,MAO J C. Statistical pattern recognition:a review [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(1):4-37.

    [7] KUDO M,SKLANSKY J. Comparison of Algorithms That Select Features for Pattern Classifiers [J]. 2000,33(1):25-41.

    [8] YANG Y,NEWSAM S. Bag-of-Visual-Words and Spatial Extensions for Land-Use Classification [C]//18th ACM SIGSPATIAL International Symposium on Advances in Geographic Information Systems,ACM-GIS 2010.New York:Association for Computing Machinery,2010:270-279.

    [9] 曹洪濤,張拯寧,李明,等.基于C4.5決策樹的多特征遙感分類方法 [J].測(cè)繪工程,2016,25(3):73-76.

    [10] 馬晶,蒲倫,徐月,等.基于Weka平臺(tái)的C4.5算法在影像分類中的應(yīng)用 [J].測(cè)繪與空間地理信息,2017,40(5):52-55.

    作者簡(jiǎn)介:李佳城(2001—),男,漢族,遼寧鞍山人,本科在讀,研究方向:計(jì)算機(jī)技術(shù)在遙感測(cè)繪領(lǐng)域的應(yīng)用。

    猜你喜歡
    遙感影像特征選擇分類器
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    遙感影像資料在海圖制圖中的應(yīng)用研究
    航海(2016年6期)2017-01-09 11:28:24
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    遙感數(shù)字圖像處理課程實(shí)驗(yàn)綜述
    科技視界(2016年13期)2016-06-13 12:01:14
    臥龍湖濕地遙感調(diào)查和演變分析
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    高分遙感影像中道路信息提取方法綜述
    基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
    尚义县| 贵阳市| 绥阳县| 武清区| 德清县| 肇庆市| 缙云县| 博乐市| 东辽县| 田阳县| 八宿县| 庐江县| 澄江县| 五原县| 平舆县| 金沙县| 福安市| 通州区| 鸡东县| 泰安市| 揭阳市| 安化县| 尚志市| 常州市| 郴州市| 蚌埠市| 尉氏县| 静安区| 全椒县| 丹阳市| 苏尼特右旗| 金溪县| 铜陵市| 靖安县| 富阳市| 浦北县| 淮南市| 桂东县| 三原县| 大埔县| 辛集市|