楊宏暉, 王蕓, 戴健
(西北工業(yè)大學(xué) 航海學(xué)院, 陜西 西安 710072)
學(xué)習(xí)樣本和決策系統(tǒng)是決定基于有監(jiān)督機(jī)器學(xué)習(xí)理論的水下目標(biāo)識別系統(tǒng)識別性能的2個至關(guān)重要的因素。長期以來,為了提高水下目標(biāo)識別的識別正確率,研究人員研究了特征提取[1-5]、特征選擇[6-8]和決策系統(tǒng)設(shè)計方法,但有關(guān)水下目標(biāo)樣本選擇的研究鮮見報道。提取的特征樣本未經(jīng)過樣本選擇的訓(xùn)練樣本集會存在如下問題:①含有很多冗余樣本;②含有與識別任務(wù)無關(guān)的不相關(guān)樣本;③含有在采集錄制過程中摻入的錯誤樣本和噪聲樣本。學(xué)習(xí)未經(jīng)選擇的訓(xùn)練樣本會導(dǎo)致決策系統(tǒng)的識別性能下降[9-10]。而且以往特征提取、特征選擇和決策系統(tǒng)設(shè)計這3個方面的研究工作相對獨立,致使整個識別系統(tǒng)的性能可能因為一個環(huán)節(jié)沒有協(xié)同合作而下降很多。
本文提出了基于最近鄰收縮樣本選擇的支持向量機(jī)集成算法(SVM ensemble based on weighted reduced nearest neighbor, SVME-WRNN)和基于加權(quán)免疫克隆樣本選擇的支持向量機(jī)集成算法(SVM ensemble based on weighted immune clonal instance selection algorithm, SVME-WICISA),這2種算法將樣本選擇和支持向量機(jī)集成融合在一個框架下,以提高水下目標(biāo)識別系統(tǒng)的識別性能。利用實測水下目標(biāo)數(shù)據(jù)進(jìn)行了識別實驗,結(jié)果證明新方法能夠顯著降低訓(xùn)練樣本數(shù)目和提高綜合分類器分類精度。
所提方法的核心思想是:利用AdaBoost算法[11]構(gòu)造SVM集成模型,并在其框架中融入樣本選擇算法(加權(quán)最近鄰收縮樣本選擇算法WRNN和加權(quán)免疫克隆樣本選擇算法WICISA),以簡化SVM集成模型結(jié)構(gòu),并提高SVM集成模型的識別正確率。該方法在每次循環(huán)首先用隨機(jī)遍歷抽樣法,根據(jù)樣本加權(quán)權(quán)值對原訓(xùn)練樣本集進(jìn)行重抽樣構(gòu)成待選訓(xùn)練樣本集。接著用樣本選擇方法選擇加權(quán)識別錯誤率最小的訓(xùn)練樣本子集,并訓(xùn)練個體SVM分類器。最后用加權(quán)多數(shù)投票法集成個體分類器。集成方法的原理如下所示:
輸入:
訓(xùn)練樣本集X
X={(xi,yi)|xi∈Rd,yi∈{1,…,K},i=1,…,n}
xi的初始加權(quán)值
w1(i)=1/n,i=1,2,…,n
Fort=1, 2, …,T
·用St訓(xùn)練SVM得到分類超平面ft(St)
·更新樣本加權(quán)權(quán)值:
如果ft(Xt(i))=yi,則wt+1(i)=wt(i)×ξt,式中ξt=εt/(1-εt);
如果ft(Xt(i))≠yi,則wt+1(i)=wt(i);
End
Returnf1,f2,…,ft,…,fT(個體分類器集)
輸出:分類器集成
在循環(huán)遞進(jìn)過程中,難分樣本被賦予較大的加權(quán)權(quán)值,個體分類器的學(xué)習(xí)重點自適應(yīng)地放在難分的樣本上,從而使個體分類器分類性能逐漸增強。而且,算法還優(yōu)化選擇了個體分類器的訓(xùn)練樣本集,去除了冗余和噪聲樣本,達(dá)到在精簡分類器集成模型結(jié)構(gòu)的同時提高分類器集成分類性能的目的。
加權(quán)最近鄰收縮算法的原理框圖如圖1所示。
圖1 WRNN算法原理框圖
設(shè)初始化的樣本子集為S=X,從S中依次去除一個樣本,如果這樣的去除不會引起X的加權(quán)正確分類率的降低,就從S移除該樣本,否則保留該樣本。循環(huán)往復(fù),直到S中所有樣本都被檢查一遍,最后得到的S是X的最小子集,并與X有相同正確分類率。該操作能有效刪除無關(guān)樣本、冗余樣本以及噪聲樣本,減少樣本選擇數(shù)目。
WICISA算法如圖2所示,先隨機(jī)生成初始抗體群,利用克隆操作、免疫基因操作(自適應(yīng)海明距離交叉和加權(quán)簡化最近鄰變異)和克隆選擇操作指導(dǎo)種群進(jìn)化,每代計算每個抗體與抗原的加權(quán)親合度、抗體間親合度以及抗體克隆數(shù),并逐代重復(fù)進(jìn)化過程,直到滿足進(jìn)化終止條件,得出優(yōu)化樣本集。
圖2 WICISA算法原理框圖
1.3.1 加權(quán)親和度計算
1) 抗體-抗原加權(quán)親合度函數(shù)
抗體-抗原加權(quán)親合度函數(shù)如(1)式所示,用于度量某抗體(一種樣本選擇方式)對分類貢獻(xiàn)的大小,其中γp是第p個抗體ap選擇的樣本數(shù)目的倒數(shù),則1/n≤γp≤1;εwp是第p個抗體ap的SVM分類器的加權(quán)錯誤分類率。參數(shù)σ可以調(diào)整γp和εwp在加權(quán)親和度計算中所占的權(quán)重,一般識別系統(tǒng)對識別精度的要求高于對運行時間的要求,因此σ可在0.7~1之間取值,本文取σ=0.7。
Fp=σ(1-εwp)+(1-σ)γp
(1)
2) 抗體-抗體間親和度函數(shù)如(2)式所示,其親和度值計算了樣本選擇方式之間的差異,體現(xiàn)抗體群的多樣性。
(2)
3) 克隆數(shù)計算
第k代每個抗體的克隆數(shù)用公式(3)計算,該方法利用抗體間親合度和抗體-抗原親合度來控制每個抗體的克隆數(shù),其中對水下目標(biāo)分類貢獻(xiàn)大且多樣性好的抗體克隆數(shù)目多。
(3)
nc是與克隆規(guī)模相關(guān)的設(shè)定值;「 ?為向上取整符號;Fp(k)是第k代抗體-抗原親合度。
1.3.2 克隆算子的主要操作過程
克隆算子包括3個部分:克隆操作、免疫基因操作和克隆選擇操作。
1) 克隆操作
將原抗體群中的每個抗體按照公式(3)計算的克隆數(shù)進(jìn)行克隆,得到克隆抗體群。
2) 免疫基因操作
加權(quán)簡化最近鄰變異:首先設(shè)待變異抗體所選擇的樣本子集為S=X,按照圖1所示的最近鄰收縮算法原理對待變異抗體進(jìn)行變異操作,最終得到新的X最小子集S,使其與X有相同的正確分類率。
3) 克隆選擇操作
將免疫基因操作后得到的抗體群與父代抗體群進(jìn)行比較,若父代抗體群某個體的加權(quán)抗體抗原親合度值比子代的優(yōu)越,則將父代遺傳至下一代。
采用水下目標(biāo)實測數(shù)據(jù)來驗證樣本選擇與SVME融合方法的有效性。水下目標(biāo)實測數(shù)據(jù)是一種在不同環(huán)境和天氣、不同海區(qū)、不同接收設(shè)備以及不同的時間段內(nèi)對目標(biāo)提取而得到的聲信號。它分為A、B、C、D共4類,每類480個樣本,樣本總數(shù)為1 920個,每個樣本提取了71維多域特征,分別是波形結(jié)構(gòu)特征(過零點分別特征、峰間幅值分布特征和波長差分布特征)、小波分析特征(各級小波信號的過零點的波長分布密度的信息熵、各級小波信號的相似特征和小波分解低頻包絡(luò)特征)以及聽覺譜特征和Mel頻率倒譜特征[6]。數(shù)據(jù)說明如表1所示。
表1 水下目標(biāo)實測數(shù)據(jù)的說明
每類選取水下目標(biāo)實測數(shù)據(jù)中的240個共960個樣本作為訓(xùn)練樣本,所有的1 920個樣本作為測試樣本。對于SVME-WRNN算法,設(shè)訓(xùn)練分類器的個數(shù)為T=20,對于SVME-WICISA算法的參數(shù)設(shè)置如表2所示。
表2 SVME-WICISA算法參數(shù)設(shè)置
將水下目標(biāo)數(shù)據(jù)分別用SVME-WRNN算法和SVME-WICISA算法進(jìn)行分類實驗,實驗結(jié)果的分析與討論如下:
1) WICISA樣本選擇算法中適應(yīng)度變化
圖3給出了實際訓(xùn)練20個分類器對應(yīng)WICISA運算50代的每代歸一化平均適應(yīng)度值的變化曲線。
圖3 WICISA不同分類器歸一化最佳個體適應(yīng)度
從圖3可以看出,每一個分類器對應(yīng)的適應(yīng)度曲線都呈現(xiàn)先上升,且都在50代之前趨于穩(wěn)定的趨勢,這說明WICISA算法具有較好的收斂性,能更快地找到一定條件下的最優(yōu)解,進(jìn)化過程穩(wěn)定,可以抑制優(yōu)化過程中出現(xiàn)的退化現(xiàn)象。
2) 樣本重要性指數(shù)
在實驗中我們定義每個樣本在實際訓(xùn)練的分類器中被選擇的次數(shù)除以訓(xùn)練分類器的個數(shù)T為每個樣本的樣本重要性指數(shù)。用SVME-WRNN與SVME-WICISA得到的樣本重要性指數(shù)分別如圖4和圖5所示。
圖4 SVME-WRNN的樣本重要性指數(shù)圖
圖5 SVME-WICISA的樣本重要性指數(shù)圖
從圖4和圖5中可以看出,SVME-WRNN的樣本重要性指數(shù)在0.5以上的樣本約有250個,SVME-WICISA的樣本重要性指數(shù)在0.5以上的樣本有180個左右,且這些樣本被選擇的次數(shù)明顯高于其他樣本。這說明SVME-WRNN與SVME-WICISA均能有效地指導(dǎo)最優(yōu)樣本子集的搜索。
3) 樣本選擇前后SVM分類性能的比較
表3為樣本選擇后集成的SVM與樣本選擇前SVM的分類性能的比較。其中,原始樣本個數(shù)為960個,選擇前單個的SVM識別率為0.977,未選擇前用Adaboost算法獲得集成的SVM分類時間為5.221 s。
表3 水下目標(biāo)實測數(shù)據(jù)實驗結(jié)果
從表3可以看出,SVME-WRNN與SVME-WICISA中優(yōu)化的樣本子集中被選擇的樣本個數(shù)的平均值分別減少至原始樣本數(shù)目的25%與19%,且選擇后集成的SVM分類器正確識別率與選擇前的SVM分類器識別率相比略有提高;同時這2種算法與用AdaBoost算法直接獲得的分類器集成相比,分類時間明顯減少。這說明樣本選擇的SVM集成方法不僅可以大幅度減少樣本數(shù)目,有效去除冗余樣本、不相關(guān)樣本和噪聲樣本,且經(jīng)過樣本選擇后得到的SVM分類器與選擇前SVM分類器具有更好的分類精度和推廣性能,同時分類效率也有了一定的提高;但WICISA的樣本選擇方法在去除冗余樣本方面比WRNN算法略好一些。
以上的實驗結(jié)論均說明,這種樣本選擇與分類器集成相融合的方法可以在一定條件下解決水下目標(biāo)識別問題。
提出了SVME-WRNN與SVME-WICISA 2種算法,利用樣本選擇的優(yōu)化樣本子集來訓(xùn)練SVM分類器,并將訓(xùn)練所得的分類器進(jìn)行集成得到樣本子集綜合分類器。用水下目標(biāo)實測數(shù)據(jù)進(jìn)行了分類仿真實驗,結(jié)果表明,該種方法不僅可以大幅度降低樣本數(shù)目,而且經(jīng)樣本選擇后集成SVM分類器與選擇前SVM分類器具有更高的正確識別率,綜合的分類器具有良好的分類精度;除此之外,SVME-WICISA的還具有收斂快,穩(wěn)定的特點,為解決水下目標(biāo)識別問題提供了一種新的方法。
參考文獻(xiàn):
[1] 李雪耀,彭圓,林良驥,等. 基于小波與三次樣條插值的包跡譜的水下目標(biāo)分類研究[J]. 聲學(xué)學(xué)報,2004, 29(1): 63-67
Li Xueyao, Peng Yuan, Lin Liangji, et al. Study on Classification of Underwater Targets Based on Modulation Spectrum by Wavelet Transforms and Cubic Spline Technique[J]. Acta Acustica, 2004, 29(1): 63-67 (in Chinese)
[2] Tian Jie, Xue Shanhua, Huang Haining, et al. Classification of Underwater Still Objects Based on Multi-Field Features and SVM[J]. Journal of Marine Science and Application, 2007, 6(1): 36-40
[3] 王磊,彭圓,林正青,等. 聽覺外周計算模型在水中目標(biāo)分類識別中的應(yīng)用[J]. 電子學(xué)報,2012,40(1): 199-203
Wang Lei, Pen Yuan, Lin Zhengqing, et al. The Application of Computational Auditory Peripheral Model in Underwater Target Classification[J]. Acta Electronica Sinica, 2012, 40(1): 199-203 (in Chinese)
[4] 李新欣. 船舶及鯨類聲信號特征提取和分類識別研究[D]. 哈爾濱: 哈爾濱工程大學(xué),2012
Li Xinxin. Research on Feature Extraction and Classification of Ship Noise and Whale Sound[D]. Harbin, Harbin Engineering University, 2012 (in Chinese)
[5] Tucker S, Brown G J. Classification of Transient Sonar Sounds Using Perceptually Motivated Features[J]. IEEE Journal of Oceanic Engineering, 2005, 30(3): 588-600
[6] 楊宏暉,戴健,孫進(jìn)才,等. 用于水聲目標(biāo)識別的自適應(yīng)免疫特征選擇算法[J]. 西安交通大學(xué)學(xué)報, 2011, 45(12): 28-32
Yang Honghui, Dai Jian, Sun Jincai, et al. A New Adaption Immune Feature Selection Algorithm for Underwater Acoustic Target Classification[J]. Journal of Xi′an Jiaotong University, 2011, 45(12): 28-32 (in Chinese)
[7] Peng Yuan. A Study on Several Feature Selection Methods in Target Classification and Recognition[C]∥IEEE Computer Science and Automation Engineering, Shanghai, 2011: 736-739
[8] 楊宏暉,孫進(jìn)才,袁駿. 基于支持向量機(jī)和遺傳算法的水下目標(biāo)特征選擇算法[J]. 西北工業(yè)大學(xué)學(xué)報, 2005, 23(4): 512-515
Yang Honghui, Sun Jincai, Yuan Jun. A New Method for Feature Selection for Underwater Acoustic Targets[J]. Journal of Northwestern Polytechnical University, 2005, 23(4): 512-515
[9] Vapnik V. The Nature of Statistical Learning Theory [M]. New York: Springer-Verlag, 2000
[10] Garcia P N. Constructing Ensembles of Classifiers by Means of Weighted Instance Selection [J]. IEEE Trans on Neural Networks, 2009, 20(2): 258-277
[11] Freund Y, Schapire R E. A Decision-Theoretic Generalization of on-line Learning and an Application to Boosting[C]∥Computational Learning Theory: Second European Conference, 1995: 23-37