• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進三重訓練算法的高光譜圖像半監(jiān)督分類

      2016-07-28 12:27:40王立國楊月霜劉丹鳳
      哈爾濱工程大學學報 2016年6期

      王立國,楊月霜,劉丹鳳

      (哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001)

      ?

      基于改進三重訓練算法的高光譜圖像半監(jiān)督分類

      王立國,楊月霜,劉丹鳳

      (哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001)

      摘要:高光譜數(shù)據(jù)維數(shù)高,有標簽的樣本數(shù)量少,給高光譜圖像分類帶來困難。本文針對傳統(tǒng)三重訓練(tri-training)算法在初始有標簽樣本數(shù)量較少的情況下分類器間差異性不足的問題提出了一種基于改進三重訓練算法的半監(jiān)督分類框架。該方法首先通過邊緣采樣策略(margin Sampling,MS)選取最富含信息量的無標簽樣本,然后在訓練每個分類器之前通過差分進化算法(differential evolution,DE)利用所選取的無標簽樣本產(chǎn)生新的樣本。這些新產(chǎn)生的樣本將被標記并且加入訓練樣本集來幫助初始化分類器。實驗結(jié)果表明,該方法不僅能夠有效地利用無標簽樣本,而且在有標簽數(shù)據(jù)很少的情況下能夠有效地提高分類精度。

      關(guān)鍵詞:高光譜圖像;半監(jiān)督分類;三重訓練;邊緣采樣;差分進化

      網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20160421.1040.018.html

      高光譜遙感技術(shù)已經(jīng)被廣泛研究并得到了廣泛的應(yīng)用[1]。高光譜圖像高維的數(shù)據(jù)特點,有限的帶標簽樣本給數(shù)據(jù)分析和處理帶來困難,在分類過程中容易引起Hudges現(xiàn)象[2]。并且?guī)撕灥臉颖精@取難度大、代價高,而數(shù)據(jù)集中存在大量的可利用的無標簽樣本,這樣同時利用有標簽數(shù)據(jù)和無標簽數(shù)據(jù)進行學習的半監(jiān)督分類方法成為研究的熱點[3]。總體來說,半監(jiān)督分類方法可以分為四類:模型生成算法[4]、半監(jiān)督支持向量機[5-6]、基于圖的半監(jiān)督算法[7]以及自訓練(self-training)、協(xié)同訓練(co-training)、三重訓練(tri-training)等。自訓練、協(xié)同訓練和三重訓練屬于同一類型,其基本思想是通過分類器的協(xié)作對無標簽樣本進行標記。Co-training要求數(shù)據(jù)集可以分為兩個相互獨立的部分,這種對數(shù)據(jù)集充分性和冗余性的要求在實際情況中是很難滿足的[8]。Goldman 等[9]利用不同的學習算法來訓練兩個獨立的分類器,從而使算法的性能不依賴于數(shù)據(jù)集的劃分。三重訓練算法對數(shù)據(jù)集沒有特殊的要求,它通過訓練三個分類器來實現(xiàn)對無標簽樣本的標記[10]。文獻[11]提出了一種基于co-training的半監(jiān)督元數(shù)據(jù)提取方法。文獻[12]中,三重訓練算法用來改進支持向量機(support vector machine,SVM)。以上提到的算法在許多實際應(yīng)用中都取得了較好的效果。對于三重訓練算法來說,原始有標簽樣本的缺乏限制著三個分類器之間差異性的提高,從而限制著算法分類精度的提高。為了解決這個問題,許多改進算法都采用差異的機制,例如Bootstrapping方法[13]的應(yīng)用。但是,如果有標簽樣本數(shù)目非常小,通過這種方法仍不足以得到差異明顯的分類器,那么最終的分類性能將與自訓練,協(xié)同訓練類似。Li 等[14]通過在半監(jiān)督學習過程中引入一定的隨機因素來產(chǎn)生差異性。Triguero 等[15]利用最大最小采樣和位置調(diào)整得到新合成的樣本用以豐富原始帶標簽樣本的分布并且給多個分類器引入差異,以提高自標記分類過程的性能。其中,樣本的位置調(diào)整是通過差分進化算法[16]對樣本集合進行尋優(yōu)而實現(xiàn)的。

      本文提出了一種新的基于改進三重訓練算法的半監(jiān)督學習框架。所提算法利用主動學習方法選取富含信息量的無標簽樣本并且利用差分進化算法產(chǎn)生新的最優(yōu)樣本集。這些新產(chǎn)生的樣本將幫助原訓練樣本初始化三個分類器。通過這種方法,可以豐富訓練集樣本的分布并且給三重訓練算法中三個分類器引入差異因素。

      1三重訓練算法

      三重訓練算法是一種常用的半監(jiān)督分類算法,與協(xié)同訓練相比,三重訓練既不需要兩個獨立的視圖也不需要對監(jiān)督學習算法有任何限制。它通過從原始標記樣本中進行bootstrap采樣得到三個有差異的集合訓練三個分類器,利用無標簽樣本集中的樣本在訓練過程中對其進行更新。在每一個三重訓練的循環(huán)中,對樣本x屬于無標簽樣本集U,如果其他兩個分類器對其標記一致,則這個樣本被標記且加入到第一個分類器的訓練樣本中。但是那些有用的無標簽樣本在下一次循環(huán)中要再返回無標簽樣本集中。以上過程一直循環(huán)直到?jīng)]有分類器再改變?yōu)橹?。最終的結(jié)果通過投票法進行決策融合。

      如果對某一個無標簽樣本的預(yù)測是正確的,那么分類器將會得到一個新的有效的樣本進行再訓練,否則分類器將會得到一個噪聲樣本。按照文獻[11]所說,在某種條件下,如果新的被標記的樣本足夠多,就可以補償這種噪聲的引入。

      (1)

      假設(shè)h2與h3分類結(jié)果一致的樣本個數(shù)是z,在這些樣本中,二者皆做了正確分類的個數(shù)為z′,這樣et可以由式(2)估計:

      (2)

      (3)

      (4)

      綜合以上條件,這些約束條件可以表達為

      (5)

      根據(jù)以上條件的判定,我們就能判斷滿足何種條件的無標簽樣本才能夠被標記并加入到另一個分類器的訓練樣本集中。

      2改進的三重訓練算法

      在所提出的改進算法中,首先通過訓練SVM分類器并利用邊緣采樣(MS)策略[18-19]選擇信息量豐富的無標簽樣本,然后利用差分進化(DE)算法在所選無標簽樣本基礎(chǔ)上進行尋優(yōu)選擇。這種方法可以產(chǎn)生新的具有差異性的樣本,在三重訓練過程中引入差異性。

      2.1基于SVM分類器和MS策略的無標簽樣本集獲取

      在大量的無標簽數(shù)據(jù)中,并不是所有樣本都有助于分類器分類性能的提高。通過主動學習選取最有價值的樣本參與運算可以很大程度上降低運算成本[17]。主動學習算法大致可以分為3類:第1類依賴于SVM的特性[18-20],例如MS策略,第2類是基于分布函數(shù)的后驗概率估計,第3類是基于評委的方法[21],例如EQB(query-by-bagging)。本文將利用MS策略從大量的無標簽樣本中選取信息量豐富的樣本參與訓練。這種主動學習方法依賴于SVM的幾何特性,是一種針對SVM這種具有大分類間隔特點的分類器的樣本選擇策略,通過計算樣本到分類平面的距離,選擇距離最近的樣本。

      (6)

      通過對應(yīng)的拉格朗日函數(shù)及其對偶問題的求解,得到最終的判別函數(shù):

      (7)

      式中,b*可由Kuhn-Tucher定理推得:

      (8)

      假設(shè)線性分類的情況,支持向量是那些與決策邊界距離為1的樣本。MS的思想是選擇距離分類面最近的那些樣本。對于二分類問題,MS策略可以描述為選擇符合以下條件的樣本:

      (9)

      對于多分類問題,我們通過“one-against-rest”轉(zhuǎn)化為多個二分類問題。通過訓練SVM分類器,可以獲得無標簽樣本集。

      2.2基于差分進化(DE)算法的無標簽樣本尋優(yōu)

      DE算法是基于群體智能理論的優(yōu)化算法,它通過群體內(nèi)個體間的合作與競爭來改善種群中候選解的質(zhì)量。這種優(yōu)化方法原理簡單,操作隨機并且有直接的全局搜索,實現(xiàn)起來非常方便。本文利用DE算法在無標簽樣本集基礎(chǔ)上進行尋優(yōu)操作,產(chǎn)生新的樣本加入訓練集。其流程可以描述如下:

      1)初始化種群。DE利用NP個維數(shù)為D的實數(shù)值參數(shù)向量作為每一代的種群,每個個體表示為

      (10)

      式中:i表示個體在種群中的序列,G為進化代數(shù)。

      當前代的第i個種群向量可以描述為

      (11)

      (12)

      式中randi,j[0,1]在[0,1]產(chǎn)生的均勻隨機數(shù)。

      2)變異操作。對于每個目標向量Xi,G,i=1,2,…,NP,基本DE算法的變異向量按照如下方式產(chǎn)生:

      (13)

      3)交叉。為了增加干擾參數(shù)向量的多樣性,引入交叉操。試驗向量變表示為Ui,G=[u1,i,G,u2,i,G,...,uD,i,G]。

      (14)

      式中:jrand∈[1,2,…,D]為隨機整數(shù),Cr為交叉概率。

      4)選擇。為決定試驗向量是否會成為下一代中的成員,DE按照貪婪準則將試驗向量與當前種群中的目標向量進行比較。選擇過程可以描述為

      (15)

      圖1為本文算法的流程圖。

      圖1 算法流程圖Fig.1 Process of the algorithm

      實驗步驟如下:

      1)利用有標簽樣本訓練SVM分類器,記為h0。

      2)利用MS策略選擇一定量的無標簽樣本,樣本集合記為UM。

      3)利用DE算法在集合UM基礎(chǔ)上進行尋優(yōu)操作,得到一定數(shù)量的新的樣本,并對其進行標記,加入訓練樣本集。新的訓練集記作L′。

      4)利用bootstrap采樣從L′中得到h1的訓練樣本集S1,訓練SVM分類器得到h1。

      5)通過3)和4)得到h2和h3。

      6)利用所得分類器開始三重訓練過程,對無標簽樣本進行標記。

      3實驗部分

      3.1實驗數(shù)據(jù)

      印第安納高光譜AVIRIS圖像數(shù)據(jù)是1992年6月攝于美國西北部印第安納州某農(nóng)林混合試驗場的高光譜圖像的一部分。圖像大小是144×144,去除20個低信噪比波段以及水汽吸收波段,實際參與處理的圖像波段數(shù)為200個。選擇其中類別數(shù)較多的8個主類別參與實驗。其地物圖如圖2(a)。

      Pavia工程學院高光譜數(shù)據(jù)是通過反射光學系統(tǒng)成像光譜儀在帕維亞大學上空獲得,去除12個噪聲波段后,波段數(shù)由115降到103,選取其中144×144大小的圖像用來進行實驗,其中涵蓋8個主要類別。地物圖見圖2(b)。

      圖2 監(jiān)督信息圖Fig.2 Supervised information map

      3.2實驗設(shè)置

      本實驗的仿真條件:電腦處理器為Intel(R)Core(TM)i3-2350M,4G的RAM,電腦系統(tǒng)為32位windows7操作系統(tǒng),MATLAB軟件為matlab2010a。每次實驗進行10次取平均值。

      評價準則:每類的分類精度,總體分類精度(overallaccuracy,OA),平均分類精度(averageaccuracy,AA),Kappa系數(shù)。

      為驗證本文算法的有效性,在實驗中將本文算法與標準SVM,標準Tri-training進行比較。

      在實驗中,所選無標簽樣本數(shù)為20,差分進化算法的參數(shù)為NP=20,F=0.8,Cr=0.8。tri-training算法采用標準SVM作為基分類器。SVM采用徑向基核函數(shù), “one-against-rest”多分類方法。懲罰因子C以及核參數(shù)σ通過網(wǎng)格搜索法在集合[10,103] 和 [10-2,102]中取得最優(yōu)值。

      3.3印第安納高光譜AVIRIS圖像實驗

      實驗中每類隨機選取10%作為訓練樣本,剩余的為測試樣本。在訓練樣本中選取10個作為有標簽數(shù)據(jù),余下的作為無標簽數(shù)據(jù)。

      表1給出了SVM,標準tri-training,改進tri-training算法的分類結(jié)果,其中給出平均分類精度(AA),總體分類精度(OA)以及Kappa系數(shù)。由表1可知,標準tri-training算法的分類性能與SVM相比有了明顯的提高。其中,AA提高了1.45%,OA提高了2.73%,Kappa系數(shù)提高了0.030 5。這是由于半監(jiān)督分類方法能夠有效的利用大量的無標簽樣本所包含的信息,使分類結(jié)果更加準確。對于改進的tri-training算法,其AA比標準tri-training算法提高了1.05%,OA提高了0.52%,Kappa提高了0.007 1。通過MS算法與DE算法的結(jié)合,產(chǎn)生了新的樣本用以豐富訓練集合,并且給tri-training算法的3個分類器增加了差異性從而導致分類性能的提升。

      相應(yīng)的分類灰度圖見圖3所示。由圖3可以看出,圖3(c)中錯分的樣本點明顯少于圖3(a)和(b)。

      表1印第安納高光譜圖像分類結(jié)果

      Table 1Classification results for the AVIRIS data of Indian Pine

      評價準則SVM標準tri-training改進tri-trainingAA78.6280.8381.88OA74.5478.6279.14Kappa0.69950.74590.7530

      圖3 三種方法的分類結(jié)果圖Fig.3 Classification maps for the AVIRIS data of Indian Pine

      為了更清楚的看出本文所提算法的優(yōu)越性,圖4(a)展示了3種算法分類結(jié)果的柱狀圖。由圖可知,改進的tri-training算法能夠有效提高分類精度。

      3.4Pavia工程學院高光譜圖像實驗

      實驗中每類隨機選取10%作為訓練樣本,剩余的為測試樣本。在訓練樣本中選取10個作為有標簽數(shù)據(jù),余下的作為無標簽數(shù)據(jù)。評價準則選取平均分類精度(AA),總體分類精度(OA)和Kappa系數(shù)。表2列出了SVM,標準tri-training,改進tri-training算法的實驗仿真結(jié)果。由表2可知,tri-training算法的AA比SVM提高了0.61%,OA提高了1.21%,Kappa提高了0.0136。而本文所提出的改進算法比標準tri-training算法的分類結(jié)果有進一步的提高,AA 、OA 和Kappa 的提高值分別為1.83%,2.83%和0.043。由此可知本文所提算法通過豐富訓練樣本的分布同時給tri-training算法的3個分類器增加差異性,使其分類性能有了明顯的提高。圖5給出了3種算法的分類灰度圖。圖4(b)以柱狀圖的形式使我們能夠清晰看出本文所提算法的優(yōu)勢。

      圖4 不同算法的分類結(jié)果比較Fig.4 Classification results comparison of different algorithms

      Table 2Classification results for the data of University of Pavia

      評價準則SVM標準tri-training改進tri-trainingAA90.7991.4093.23OA88.9790.1893.01Kappa0.83980.85340.8964

      圖5 Pavia工程學院的分類結(jié)果圖 Fig.5 Classification maps for the data of University of Pavia

      圖6 帶標簽樣本數(shù)s與OA的關(guān)系曲線 Fig.6 Influence of s on the overall accuracy (OA) for the AVIRIS data of Indian Pine

      圖7描述了初始帶標簽樣本數(shù)s與總體分類精度OA的關(guān)系曲線,觀察曲線我們可以得知分類精度在一定范圍內(nèi)隨著初始帶標簽樣本數(shù)的增加而增大,這是由于帶標簽樣本攜帶著更多的監(jiān)督信息,能夠促進分類性能的提升。在s=3時,本文所提算法的OA比標準tri-training方法提高了3.87%,隨著s的增加,這種差距總體上是縮小的,在s=25 時變?yōu)?.4%。這進一步驗證了本文所提算法在初始帶標簽樣本數(shù)目較少的情況下具有很大的優(yōu)勢。

      圖7 Pavia工程學院的帶標簽樣本數(shù)s與OA的關(guān)系曲線Fig.7 Influence of s on the overall accuracy (OA) for the data of University of Pavia

      4結(jié)論

      本文利用MS策略和DE算法對三重訓練算法進行了改進,提出了一種新的半監(jiān)督分類框架。通過MS策略選取最富含信息量的無標簽樣本,并在這些樣本的基礎(chǔ)上利用DE算法產(chǎn)生新的樣本用來豐富初始的訓練樣本集,同時通過這種方法給三重訓練算法的三個分類器引入差異因素。與標準三重訓練算法的對比實驗結(jié)果表明,所提算法具有兩方面的特征:

      1)分類精度和Kappa系數(shù)都有明顯提高;

      2)分類優(yōu)勢在初始有標簽樣本數(shù)目較少的情況下更加明顯。

      在以后的工作中,可以繼續(xù)研究充分利用無標簽樣本的方法,并且探究如何進一步增加三重訓練方法中3個基分類的差異性。

      參考文獻:

      [1]WANG Liguo, JIA Xiuping. Integration of soft and hard classifications using extended support vector machines[J]. IEEE geoscience and remote sensing letters, 2009, 6(3): 543-547.

      [2]SHAHSHAHANI B M, LANDGREBE D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon[J]. IEEE transactions on geoscience and remote sensing, 1994, 32(5): 1087-1095.

      [3]ZHU Xiaojin. Semi-supervised learning literature survey[D]. Madison: University of Wisconsin-Madison, 2008.

      [4]BARALDI A, BRUZZONE L, BLONDA P. A multiscale expectation maximization semisupervised classifier suitable for badly posed image classification[J]. IEEE transactions on image processing, 2006, 15(8): 2208-2225.

      [5]JOACHIMS T. Transductive inference for text classification using support vector machines[C]//Proceedings of the 16th International Conference on Machine Learning. Bled, Slovenia, 1999: 200-209.

      [6]CHI Mingmin, BRUZZONE L. Classification of hyperspectral data by continuation semi-supervised SVM[C]//Proceedings of the 2007 IEEE International Geoscience and Remote Sensing Symposium. Barcelona, 2007: 3794-3797.

      [7]BLUM A, CHAWLA S. Learning from labeled and unlabeled data using graph mincuts[C]//Proceedings of the 18th International Conference on Machine Learning. Williamston, 2001: 19-26.

      [8]BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the 11th Annual Conference on Computational Learning Theory. Madison, 1998: 92-100.

      [9]GOLDMAN S, ZHOU Yan. Enhancing supervised learning with unlabeled data[C]//Proceedings of the 17th international conference on machine learning. San Francisco, CA, 2000: 327-334.

      [10]ZHOU Zhihua, LI Ming. Tri-training: Exploiting unlabeled data using three classifiers[J]. IEEE transactions on knowledge and data engineering, 2005, 17(11): 1529-1541.

      [11]ZHANG Youmin, YU Zhengtao, LIU Li, et al. Semi-supervised expert metadata extraction based on co-training style[C]//Proceedings of the 9th international conference on fuzzy systems and knowledge discovery. Chongqing, 2012: 1344-1347.

      [12]LI Kunlun, ZHANG Wei, MA Xiaotao, et al. A novel semisupervised svm based on tri-training[C]//Proceedings of the 2nd International Symposium on Intelligent Information Technology Application. Shanghai, China, 2008: 47-51.

      [13]BREIMAN L. Bagging predictors[J]. Machine learning, 1996, 24(2): 123-140.

      [14]LI Ming, ZHOU Zhihua. Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J]. IEEE transactions on systems, man, and cybernetics, part A: systems and humans, 2007, 37(6): 1088-1098.

      [15]TRIGUERO I, GARCIA S, HERRERA F. SEG-SSC: a framework based on synthetic examples generation for self-labeled semi-supervised classification[J]. IEEE transactions on cybernetics, 2015, 45(4): 622-634.

      [16]PRICE K V, STORN R M, LAMPINEN J A. Differential evolution: a practical approach to global optimization[M]. Berlin Heidelberg: Springer, 2005: 292.

      [17]MACKAY D J C. Information-based objective functions for active data selection[J]. Neural computation, 1992, 4(4): 590-604.

      [18]SCHOHN G, COHN D. Less is more: Active learning with support vectors machines[C]//Proceedings of the 17th international conference on machine learning. Stanford, CA, 2000: 839-846.

      [19]CAMPBELL C, CRISTIANINI N, SMOLA A. Query learning with large margin classifiers[C]//Proceedings of the 17th international conference on machine learning. Stanford, CA, 2000: 111-118.

      [20]NGUYEN H T, SMEULDERS A. Active learning using pre-clustering[C]/Proceedings of the 21th international conference on machine learning. Banff, AB, Canada, 2004: 79.

      [21]FREUND Y, SEUNG H, SHAMIR E, et al. Selective sampling using the query by committee algorithm[J]. Machine learning, 1997, 28(2/3): 133-168.

      本文引用格式:

      王立國,楊月霜,劉丹鳳. 基于改進三重訓練算法的高光譜圖像半監(jiān)督分類[J]. 哈爾濱工程大學學報, 2016, 37(6): 849-854.

      WANG Liguo, YANG Yueshuang, LIU Danfeng. Semi-supervised classification for hyperspectral image based on improved tri-training method[J]. Journal of Harbin Engineering University, 2016, 37(6): 849-854.

      收稿日期:2015-05-27.

      基金項目:國家自然科學基金項目(60802059);教育部博士點新教師基金項目(200802171003);黑龍江省自然科學基金項目(F201409).

      作者簡介:王立國(1974-),男,教授,博士生導師.

      通信作者:王立國,wangliguo@hrbeu.edu.cn.

      DOI:10.11990/jheu.201505078

      中圖分類號:TP75

      文獻標志碼:A

      文章編號:1006-7043(2016)06-0849-06

      Semi-supervised classification for hyperspectral image based on improved tri-training method

      WANG Liguo, YANG Yueshuang, LIU Danfeng

      (College of Information and Communications Engineering, Harbin Engineering University, Harbin 150001, China)

      Abstract:The classification of hyperspectral images is difficult due to their highly dimensional features and limited number of training samples. Tri-training learning is a widely used semi-supervised classification method that addresses the problem of the deficiency of labeled examples. In this paper, we propose a novel semi-supervised learning algorithm based on an improved tri-training method. The proposed algorithm first uses a margin sampling (MS) technique to select the most informative samples, and then uses a differential evolution (DE) algorithm to generate new samples within the selected unlabeled samples. The newly generated samples are then labeled and added to the training set to help initialize the classifiers. We experimentally validated the proposed method using real hyperspectral data sets, and the results indicate that the proposed method can significantly reduce the need for labeled samples and can achieve high accuracy compared with state-of-the-art algorithms.

      Keywords:hyperspectral image; semi-supervised classification; tri-training; margin sampling; differential evolution

      網(wǎng)絡(luò)出版日期:2016-04-21.

      成安县| 时尚| 兴化市| 高安市| 左权县| 华阴市| 阿坝县| 深水埗区| 额济纳旗| 泰安市| 承德县| 承德市| 荆门市| 三台县| 聊城市| 巴中市| 汉源县| 永修县| 闵行区| 杨浦区| 延寿县| 时尚| 安顺市| 隆林| 茶陵县| 广丰县| 古丈县| 霍林郭勒市| 三门县| 盱眙县| 洪泽县| 巴林右旗| 咸阳市| 长岭县| 化德县| 怀宁县| 依兰县| 永康市| 巢湖市| 萨嘎县| 弥渡县|