楊宏暉,高潔宇,于傳林
(西北工業(yè)大學(xué)航海學(xué)院,陜西 西安710072)
為了提高水聲目標(biāo)識(shí)別的正確率,研究人員不斷通過(guò)多種方法提取水聲目標(biāo)輻射噪聲的多域特征。然而,水聲目標(biāo)樣本獲取的代價(jià)卻很大。因此,要在水聲目標(biāo)樣本數(shù)目保持不變的前提下達(dá)到分類(lèi)識(shí)別正確率損失盡可能小的目的,進(jìn)行特征選擇以去除冗余的、不相關(guān)的和噪聲特征[1],在水聲目標(biāo)識(shí)別任務(wù)中具有重要意義。
根據(jù)訓(xùn)練數(shù)據(jù)集是否含有類(lèi)標(biāo),可將特征選擇算法分為有監(jiān)督和無(wú)監(jiān)督[2-4]。有監(jiān)督特征選擇方法通常依據(jù)特征與類(lèi)標(biāo)的相關(guān)性評(píng)價(jià)特征的重要性[5-6],而無(wú)監(jiān)督特征選擇方法由于缺少類(lèi)標(biāo)的指導(dǎo),則需要依據(jù)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息來(lái)對(duì)特征進(jìn)行評(píng)價(jià)[7-9]。當(dāng)利用未標(biāo)記數(shù)據(jù)進(jìn)行水聲目標(biāo)識(shí)別時(shí),如深度學(xué)習(xí)方法,需要用無(wú)監(jiān)督特征選擇算法來(lái)選出能夠保留樣本內(nèi)在類(lèi)別屬性的特征[3]。本文提出一種基于彈性網(wǎng)回歸的水聲目標(biāo)無(wú)監(jiān)督特征選擇算法(Unsupervised Feature Selection Algorithm Based on Elastic-Net Regression,UFSER),將嵌入函數(shù)的學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一個(gè)回歸框架,且在回歸框架中加入彈性網(wǎng)懲罰項(xiàng),通過(guò)彈性網(wǎng)回歸求解一個(gè)約束優(yōu)化問(wèn)題,最后得到一個(gè)稀疏解。在實(shí)測(cè)水聲數(shù)據(jù)集和UCI公共數(shù)據(jù)集的聲吶數(shù)據(jù)集上驗(yàn)證了該方法的有效性。
水聲數(shù)據(jù)集X∈Rn×d構(gòu)圖G(V,E) 的過(guò)程,實(shí)質(zhì)上是用圖的形式對(duì)水聲數(shù)據(jù)點(diǎn)間的幾何結(jié)構(gòu)和相似度進(jìn)行建模的過(guò)程。圖G(V,E)包含2個(gè)集合:V為頂點(diǎn)集合,E為邊的集合。根據(jù)給定的水聲數(shù)據(jù)集X,使水聲X數(shù)據(jù)的樣本點(diǎn)和圖G的頂點(diǎn)之間建立一一對(duì)應(yīng)關(guān)系,并定義成對(duì)兩兩樣本點(diǎn)之間的相似度為圖G的邊,這樣就使水聲數(shù)據(jù)集X和圖G有著一一對(duì)應(yīng)的聯(lián)系。對(duì)于水聲數(shù)據(jù)集X=(x1,x2,…,xn),xi∈Rn,f1,f2,…,fm是m個(gè)特征。圖G的第i個(gè)頂點(diǎn)vi代表水聲數(shù)據(jù)X的第i個(gè)樣本xi∈X;找到每個(gè)樣本點(diǎn)xi的k個(gè)近鄰,記xi的近鄰集為N(xi),在每個(gè)樣本點(diǎn)和其近鄰點(diǎn)之間設(shè)定一條邊,用高斯核函數(shù)計(jì)算邊Wij權(quán)值,從而得到圖G的相似度矩陣W∈Rn×n,其表達(dá)式如下:
式中:σ是高斯核函數(shù)的尺度參數(shù);N(xi)是樣本xi的k近鄰集。
通過(guò)構(gòu)圖不僅能有效地保留水聲數(shù)據(jù)的內(nèi)在特性和局部結(jié)構(gòu),同時(shí)可以將數(shù)據(jù)以稀疏矩陣的形式存儲(chǔ)起來(lái),大大減少計(jì)算量。
通過(guò)公式(1)得到圖的相似度矩陣后,可以構(gòu)造度量矩陣D和拉普拉斯矩陣L,其中:L=D-W,。本文通過(guò)計(jì)算拉普拉斯矩陣的特征值和特征向量,然后選擇合適的特征向量,將水聲數(shù)據(jù)投影到低維,再進(jìn)行特征選擇。
本文將嵌入函數(shù)融入回歸框架中,并在其中加入了彈性網(wǎng)懲罰項(xiàng)構(gòu)造了一種新的回歸系數(shù)矩陣的學(xué)習(xí)框架。
下面是UFSER算法的目標(biāo)函數(shù)構(gòu)建方法。
第1步,首先根據(jù)1.1節(jié)的構(gòu)圖方法構(gòu)造出水聲數(shù)據(jù)圖并計(jì)算得到拉普拉斯矩陣,然后通過(guò)圖嵌入來(lái)尋找高維水聲數(shù)據(jù)xi的低維表示yi∈Rm,其中,m是嵌入維數(shù)。通過(guò)這種替換得以保留高位水聲數(shù)據(jù)中最有價(jià)值的信息和特性,為后面做特征選擇打好基礎(chǔ)。所以,第1個(gè)目標(biāo)函數(shù)為
第2步,首先通過(guò)公式(2)特征分解得到y(tǒng),然后通過(guò)最小二乘法進(jìn)行線性回歸得到高維水聲數(shù)據(jù)與其低維表示之間的回歸系數(shù)矩陣a,同時(shí)加入彈性網(wǎng)懲罰項(xiàng)優(yōu)化求解回歸系數(shù)矩陣。所以,第2個(gè)目標(biāo)函數(shù)為
綜上,UFSER算法的目標(biāo)函數(shù)如下所示:
式中:λ1≥0和λ2≥0分別是2個(gè)控制收縮量的參數(shù)。
令α=λ1/(λ1+λ2),則上式彈性網(wǎng)回歸等價(jià)于:
利用最小二乘法求解回歸系數(shù)矩陣,令:
同時(shí),Zou和 Hastie(2005),求出了最小二乘參數(shù)表示的彈性網(wǎng)回歸解[10-11]如下:
UFSER算法的原理框圖如圖1所示。
圖1 UFSER算法原理框圖Fig.1 Principle block diagram of UFSER algorithm
本文利用實(shí)測(cè)水聲數(shù)據(jù)集和加州大學(xué)用于機(jī)器學(xué)習(xí)的 UCI(University of California Irvine) 數(shù)據(jù)庫(kù)中的聲吶數(shù)據(jù)集對(duì)所提算法的性能進(jìn)行驗(yàn)證實(shí)驗(yàn),數(shù)據(jù)說(shuō)明如表1所示。
表1 數(shù)據(jù)集說(shuō)明Table 1 Dataset specification
1)實(shí)測(cè)水聲數(shù)據(jù)集。
實(shí)測(cè)水聲數(shù)據(jù)提取了海上71維多域特征,分別是小波分析特征(各級(jí)小波信號(hào)的相似特征、過(guò)零點(diǎn)的波長(zhǎng)分布密度的信息熵和小波分解低頻包絡(luò)特征)、波形結(jié)構(gòu)特征(峰間幅值分布特征,過(guò)零點(diǎn)分布特征和波長(zhǎng)差分布特征)以及Mel頻率倒譜特征和聽(tīng)覺(jué)譜特征等。數(shù)據(jù)分為A、B、C、D共4類(lèi),每類(lèi)480個(gè)樣本,樣本總數(shù)為1 920個(gè)。
2)聲吶數(shù)據(jù)集。
本文實(shí)驗(yàn)中所用的聲吶數(shù)據(jù),通過(guò)在不同的角度和不同的條件下主動(dòng)聲吶獲取的金屬圓柱殼和粗糙的圓柱形巖石的回波信號(hào)。數(shù)據(jù)集包含138個(gè)樣本,金屬圓柱殼和巖石兩類(lèi)樣本數(shù)目分別為72和66。
本文算法需要選擇的參數(shù)有:近鄰數(shù)k、控制收縮量的參數(shù)α和降維數(shù)c。本實(shí)驗(yàn)分別在參數(shù)取值范圍內(nèi),考慮3種參數(shù)的取值對(duì)算法性能的影響。采用5次5折交叉驗(yàn)證,分析3種參數(shù)對(duì)分類(lèi)識(shí)別正確率的影響,實(shí)驗(yàn)結(jié)果如下所示。
1)參數(shù)α和c對(duì)算法性能的影響。
初始化k=5,對(duì)兩種數(shù)據(jù)集,本文在{0.1,0.2,…,0.8,0.9}上討論參數(shù)α對(duì)算法性能的影響,并且在{1,2,…,d}上討論降維數(shù)c對(duì)算法性能的影響,其中d為特征數(shù)。聲吶數(shù)據(jù)的結(jié)果如圖2(a)所示,實(shí)測(cè)水聲數(shù)據(jù)的結(jié)果如圖2(b)所示。
由圖2可以看出,參數(shù)α和c的取值對(duì)分類(lèi)結(jié)果的影響較大。從圖2(a)中可以看出,當(dāng)α=0.6,c=25時(shí),聲吶數(shù)據(jù)集的分類(lèi)識(shí)別正確率最高;而從圖2(b)中可以看出,當(dāng)α=0.6,c=35時(shí),實(shí)測(cè)水聲數(shù)據(jù)集的分類(lèi)識(shí)別正確率最高。
2)近鄰數(shù)對(duì)算法性能的影響。
圖2 α,c參數(shù)對(duì)兩種數(shù)據(jù)集分類(lèi)識(shí)別正確率的影響Fig.2 Influence of parameters a and c on classification identification accuracy of 2 datasets
固定了平衡參數(shù),本文在2~20上討論近鄰數(shù)對(duì)算法性能的影響。實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 近鄰數(shù)k對(duì)數(shù)據(jù)分類(lèi)識(shí)別正確率的影響Fig.3 Influence of nearest neighbor number k on classification identification accuracy
由圖3可以看出,近鄰數(shù)k的取值對(duì)聲吶數(shù)據(jù)集的分類(lèi)結(jié)果的影響較大,且從圖3(a)中可以看出,當(dāng)k=16時(shí),聲吶數(shù)據(jù)集的分類(lèi)識(shí)別正確率最高;而近鄰數(shù)k的取值對(duì)實(shí)測(cè)水聲數(shù)據(jù)集的分類(lèi)結(jié)果的影響不是很大,從圖3(b)中可以看出,當(dāng)k=4時(shí),實(shí)測(cè)水聲數(shù)據(jù)集的分類(lèi)識(shí)別正確率最高。
3)參數(shù)選取結(jié)果。
聲吶數(shù)據(jù)和實(shí)測(cè)水聲數(shù)據(jù)在UFSER算法上的最優(yōu)參數(shù)如表2所示。
表2 最優(yōu)參數(shù)Table 2 Optimal parameters
根據(jù)表2取每個(gè)數(shù)據(jù)集的最優(yōu)參數(shù),分別用上述兩種數(shù)據(jù)集對(duì)UFSER算法的特征選擇結(jié)果進(jìn)行SVM分類(lèi)實(shí)驗(yàn),采用5次5折交叉驗(yàn)證SVM運(yùn)行結(jié)果的分類(lèi)識(shí)別正確率的平均值作為最終的分類(lèi)識(shí)別正確率,結(jié)果得到選擇特征個(gè)數(shù)與SVM分類(lèi)識(shí)別正確率的關(guān)系如圖4所示。
由圖4可以看出,2種數(shù)據(jù)集的特征選擇個(gè)數(shù)與SVM分類(lèi)識(shí)別正確率關(guān)系曲線的變化趨勢(shì)相似:開(kāi)始時(shí)SVM分類(lèi)識(shí)別正確率總體上隨特征選擇個(gè)數(shù)的增加而增加,當(dāng)特征達(dá)到一定數(shù)目后,分類(lèi)識(shí)別正確率趨于相對(duì)穩(wěn)定。由圖4(a)所示,用UFSER算法對(duì)聲吶數(shù)據(jù)進(jìn)行特征選擇后,使用24個(gè)特征,分類(lèi)識(shí)別正確率達(dá)到最高86.62%,在特征數(shù)目減少60%的情況下,分類(lèi)識(shí)別正確率較特征選擇前提升了6.6%;由圖4(b)所示,用UFSER算法對(duì)實(shí)測(cè)水聲數(shù)據(jù)進(jìn)行特征選擇后,使用28個(gè)特征,分類(lèi)識(shí)別正確率達(dá)到最高92.26%,在特征數(shù)目減少60.6%的情況下,分類(lèi)識(shí)別正確率較特征選擇前提升了1.05%。這說(shuō)明UFSER算法可以有效地消除噪聲,冗余和不相關(guān)的特征,選擇最有用的特征子集進(jìn)行分類(lèi)識(shí)別,提高分類(lèi)識(shí)別的準(zhǔn)確率。
圖4 特征選擇后SVM分類(lèi)識(shí)別正確率Fig.4 SVM classification identification accuracy after feature selection
針對(duì)水下目標(biāo)識(shí)別過(guò)程中,由于數(shù)據(jù)集中存在冗余、不相關(guān)和噪聲特征,導(dǎo)致識(shí)別任務(wù)效率降低、性能不佳的問(wèn)題,本文提出的基于彈性網(wǎng)回歸的無(wú)監(jiān)督特征選擇算法(UFSER)在回歸框架中加入彈性網(wǎng)懲罰項(xiàng)優(yōu)化求解回歸系數(shù)矩陣,最后對(duì)回歸系數(shù)矩陣進(jìn)行稀疏化來(lái)評(píng)價(jià)特征的分類(lèi)性能。本文使用UCI聲吶數(shù)據(jù)集和實(shí)測(cè)水聲數(shù)據(jù)集來(lái)驗(yàn)證UFSER算法的性能。UFSER算法在2個(gè)數(shù)據(jù)集上的分類(lèi)實(shí)驗(yàn)結(jié)果表明,這種算法能夠有效地移除冗余、不相關(guān)和噪聲特征,選擇出對(duì)分類(lèi)識(shí)別任務(wù)最優(yōu)的特征子集,降低了運(yùn)算量,提高了分類(lèi)識(shí)別系統(tǒng)的運(yùn)行效率并且提高了分類(lèi)識(shí)別正確率。