王姍姍,王厚鈞,程石磊,楊海芬,王小青
(1.中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610000;2.電子科技大學(xué),四川 成都 610054)
個(gè)體識(shí)別技術(shù)又稱(chēng)為輻射源“指紋”識(shí)別技術(shù),是通過(guò)對(duì)接收到的信號(hào)進(jìn)行特征提取,然后根據(jù)已有的先驗(yàn)信息確定接收到的信號(hào)是由哪一個(gè)個(gè)體產(chǎn)生的。目前,個(gè)體識(shí)別技術(shù)主要有兩種——基于人工特征識(shí)別和基于神經(jīng)網(wǎng)絡(luò)識(shí)別?;谌斯ぬ卣髯R(shí)別主要是人為提取信號(hào)載頻、脈沖寬度以及雜散特征等人工特征來(lái)進(jìn)行個(gè)體識(shí)別。這種方式對(duì)于不同的個(gè)體需要尋找特定的人為特征才能達(dá)到較好的準(zhǔn)確率,泛化性差,效率較低?;谏窠?jīng)網(wǎng)絡(luò)識(shí)別是運(yùn)用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征并進(jìn)行識(shí)別分類(lèi)的過(guò)程,相比于人工特征,能通過(guò)不斷訓(xùn)練提取樣本特征得到數(shù)據(jù)豐富的本質(zhì)信息[1],擁有更好的泛化性和更高的準(zhǔn)確率,因此在個(gè)體識(shí)別領(lǐng)域得到了廣泛應(yīng)用。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與學(xué)習(xí)需要大量有標(biāo)簽數(shù)據(jù),如大型數(shù)據(jù)集ImageNet[2]。但是,在實(shí)際應(yīng)用中,獲得的數(shù)據(jù)集往往難以滿足要求,有標(biāo)簽樣本數(shù)量較少,導(dǎo)致小樣本情況下深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與更新效果不理想[3]。研究小樣本條件下的個(gè)體識(shí)別得到了越來(lái)越多研究者的關(guān)注,如文獻(xiàn)[4]比較了高階譜加主分量分析降維方法[5]、雜散成分方法[6]及高階譜稀疏表示方法[7]在小樣本情況下的表現(xiàn),但均不能令人滿意。
特征融合能夠綜合利用多種特征,實(shí)現(xiàn)各個(gè)特征的優(yōu)勢(shì)互補(bǔ),以獲得更加魯棒與準(zhǔn)確的識(shí)別結(jié)果[8]。文獻(xiàn)[9]將雙譜融合的準(zhǔn)確率與不融合的準(zhǔn)確率進(jìn)行比較,發(fā)現(xiàn)融合后準(zhǔn)確率有一定程度的提升。
在以上文獻(xiàn)研究的基礎(chǔ)上,本文將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的特征與人工提取的特征進(jìn)行融合,將得到的新特征用于小樣本個(gè)體識(shí)別,并最終仿真驗(yàn)證了提出算法的有效性。
本文研究的個(gè)體識(shí)別指通信輻射源個(gè)體識(shí)別。系統(tǒng)模型如圖1 所示。
圖1 個(gè)體識(shí)別系統(tǒng)模型
假定有N個(gè)個(gè)體,原始數(shù)據(jù)經(jīng)過(guò)預(yù)處理提取特征后得到的訓(xùn)練數(shù)據(jù)集為X={X1,X2,…,XN},其中Xi是指第i(i=1,2,…,N)類(lèi)個(gè)體的訓(xùn)練數(shù)據(jù)集。測(cè)試數(shù)據(jù)集為T(mén)={T1,T2,…,TN},其中Ti是指第i(i=1,2,…,N) 類(lèi)個(gè)體的測(cè)試數(shù)據(jù)集。每一類(lèi)個(gè)體均有標(biāo)簽l(xij)=i,其中xij表示第i類(lèi)個(gè)體的第j個(gè)數(shù)據(jù)。訓(xùn)練時(shí)使用X訓(xùn)練初始化的分類(lèi)器,然后將測(cè)試集T輸入到訓(xùn)練好的分類(lèi)器模型中得到分類(lèi)結(jié)果。
Alexnet 網(wǎng)絡(luò)的出現(xiàn)極大地推動(dòng)了深度學(xué)習(xí)在各領(lǐng)域的應(yīng)用[10-13],網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。Alexnet模型有8 層需要訓(xùn)練參數(shù),包括5 層卷積層和3 層全連接層。模型中,卷積層是網(wǎng)絡(luò)提取信號(hào)特征的關(guān)鍵結(jié)構(gòu)。信號(hào)經(jīng)過(guò)的卷積層越多,提取出的特征越復(fù)雜、越有效。全連接層的作用是將經(jīng)過(guò)多層卷積層與池化層后得到的特征圖進(jìn)行處理,將特征圖中的特征進(jìn)行整合,映射成一個(gè)特征向量。這個(gè)特征向量包含了輸入特征的組合信息,保留了特征圖中最具有特點(diǎn)的特征。最后,輸出層使用softmax函數(shù)實(shí)現(xiàn)輸出。
圖2 Alexnet 網(wǎng)絡(luò)結(jié)構(gòu)
Alexnet 模型擁有更多的卷積層與卷積核數(shù)量,能夠發(fā)現(xiàn)與提取數(shù)據(jù)更加細(xì)微的特征,更好地解釋數(shù)據(jù),分類(lèi)效果優(yōu)于Lenet。同時(shí),由于使用了多塊GPU 并行處理,Alexnet 在速度上明顯優(yōu)于VGG[11]、GoogleNet[12]等模型。
分形理論具有統(tǒng)計(jì)意義上的自相似性,可以有效提取信號(hào)的細(xì)微特征,已經(jīng)被廣泛應(yīng)用于個(gè)體識(shí)別領(lǐng)域。分形維數(shù)是分形理論的中心概念,可以定量描述分行集的不規(guī)則度和復(fù)雜度[14],常用的有Hausdorff 維數(shù)、盒維數(shù)與信息維數(shù)等[15]。信息維數(shù)可以反映信號(hào)在平面空間上分布的疏密程度,且計(jì)算比較簡(jiǎn)單。本文采用信息維數(shù)作為個(gè)體識(shí)別特征。
設(shè)X為Rn中任意一個(gè)集合,Xk(k=1,2,…,n)是集合X的一個(gè)有限ε方格覆蓋。Pk表示X中元素落入Xk中的概率,那么有:
式中,N(Xi)與N(X∩Ai)分別表示元素的個(gè)數(shù)。于是,信息熵為:
若信息熵滿足關(guān)系:
那么,信息維數(shù)可以表示為:
在實(shí)際操作中,采用如下步驟求解包絡(luò)信息 維數(shù):
AMAROS試驗(yàn)中將1 425例腫瘤直徑≤5 cm,且前哨淋巴結(jié)有1~2枚轉(zhuǎn)移的病人隨機(jī)分為行腋窩淋巴結(jié)清掃組和行腋窩放療組[10],結(jié)果發(fā)現(xiàn),兩組間無(wú)病生存率及總生存率差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。AMAROS試驗(yàn)表明兩種治療策略均能夠提供很好的局部控制效果,但是并沒(méi)有指出哪部分前哨淋巴結(jié)陽(yáng)性的患者需要進(jìn)一步處理。
(1)提取通信信號(hào)的包絡(luò)并進(jìn)行采樣,得到信號(hào)包絡(luò)序列s(t)(t=1,2,…,M),這里M為信號(hào)序列的長(zhǎng)度;
(2)將包絡(luò)序列s(t)分段,每段長(zhǎng)度為N,分別對(duì)每段求信息維數(shù)DI;
(3)將信號(hào)包絡(luò)序列按照以下方法進(jìn)行重構(gòu),以減弱部分帶內(nèi)噪聲的影響,同時(shí)便于計(jì)算信息 維數(shù):
(4)利用重構(gòu)后的信號(hào)包絡(luò)序列計(jì)算信息維數(shù),令:
本文提出的基于特征融合的小樣本個(gè)體識(shí)別算法流程如圖3 所示。
圖3 小樣本個(gè)體識(shí)別算法流程
具體實(shí)現(xiàn)步驟如下。
(1)對(duì)采集的數(shù)據(jù)做下采樣,過(guò)濾掉數(shù)據(jù)中的空白部分。
(2)對(duì)得到的信號(hào)進(jìn)行短時(shí)傅里葉變換(Short-Term Fourier Transform,STFT),得到信號(hào)的功率譜密度P與經(jīng)過(guò)變換后的信號(hào)Y。
(3)對(duì)Y求希爾伯特變換得到包絡(luò),然后根據(jù)式(5)~式(8)得到信號(hào)的信息維數(shù)矩陣D。
(4)從數(shù)據(jù)中隨機(jī)選取一部分作為小樣本數(shù)據(jù)集A,將A中數(shù)據(jù)對(duì)應(yīng)的功率譜密度PA進(jìn)行歸一化。
(5)將PA作為特征導(dǎo)入到Alexnet 模型中進(jìn)行訓(xùn)練,提取模型中第一個(gè)全連接層的輸出作為神經(jīng)網(wǎng)絡(luò)特征MA。
(6)將A 對(duì)應(yīng)的信息維數(shù)矩陣DA與式(5)中得到的MA進(jìn)行拼接,得到新的特征矩陣Z。
(7)將新的特征矩陣Z歸一化后,導(dǎo)入到構(gòu)建的神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類(lèi)。
構(gòu)建的網(wǎng)絡(luò)模型Net1 結(jié)構(gòu)如圖4 所示。Net1包括兩個(gè)二維卷積層,每個(gè)卷積層的卷積核尺寸均為(5,5),在每個(gè)卷積層后有一個(gè)最大池化層,池化核尺寸為(2,2)。每個(gè)池化層后有一個(gè)Dropout 層來(lái)減少過(guò)擬合,Dropout 率設(shè)為0.25。
圖4 Net1 結(jié)構(gòu)
本文采用10 臺(tái)相同型號(hào)的輻射源來(lái)產(chǎn)生實(shí)驗(yàn)數(shù)據(jù),從實(shí)驗(yàn)數(shù)據(jù)中分別隨機(jī)選取6&、8&、10&、20&、40&的數(shù)據(jù)作為小樣本數(shù)據(jù)集,并使用Alexnet 模型、使用信息維數(shù)以及本文提出的算法的準(zhǔn)確率進(jìn)行比較,比較結(jié)果如圖5 所示。
圖5 選取不同占比數(shù)據(jù)3 種方法準(zhǔn)確率
通過(guò)圖5 可以看出,隨著選取數(shù)據(jù)占原數(shù)據(jù)比重的增大,Alexnet 算法與本文提出算法的識(shí)別準(zhǔn)確率均逐漸增大,而信息維數(shù)算法則會(huì)產(chǎn)生波動(dòng)。當(dāng)只選取6&數(shù)據(jù)做樣本時(shí),Alexnet 只有75.7&的準(zhǔn)確率,而提出的算法能將準(zhǔn)確率提升到84.1&。在小樣本情況下,只使用信息維數(shù)無(wú)法正確分類(lèi);只使用Alexnet 會(huì)導(dǎo)致網(wǎng)絡(luò)無(wú)法進(jìn)行充分的訓(xùn)練,且準(zhǔn)確率不高。本文提出的算法相比Alexnet 至少能提高5&的準(zhǔn)確率,相比只使用信息維數(shù)能提高50&,且在選取原數(shù)據(jù)20&的情況下準(zhǔn)確率接近90&,選取原數(shù)據(jù)40&的時(shí)候準(zhǔn)確率超過(guò)90&,能有效識(shí)別個(gè)體。
實(shí)驗(yàn)過(guò)程中,當(dāng)選取40&數(shù)據(jù)做小樣本集時(shí)出現(xiàn)了過(guò)擬合現(xiàn)象,混淆矩陣如圖6 所示。
圖6 40&數(shù)據(jù)的過(guò)擬合混淆矩陣
從圖6 中可以看出,至少有50&的第1 類(lèi)與第8 類(lèi)的個(gè)體被識(shí)別為第7 類(lèi),有22&的第9 類(lèi)個(gè)體被識(shí)別為第10 類(lèi)。這是由于第1 類(lèi)、第7 類(lèi)與第8 類(lèi)的信號(hào)比較相像,第9 類(lèi)與第10 類(lèi)的信號(hào)比較相似。由于訓(xùn)練數(shù)據(jù)不足,導(dǎo)致網(wǎng)絡(luò)在學(xué)習(xí)與訓(xùn)練的過(guò)程中以犧牲第1 類(lèi)、第8 類(lèi)與第10 類(lèi)的正確率為代價(jià),提高第7 類(lèi)與第10 類(lèi)的準(zhǔn)確率,產(chǎn)生了過(guò)擬合,平均正確率只有79&,相比于正常情況下降7&。
對(duì)于過(guò)擬合的情況,使用本文提出的算法得到的混淆矩陣如圖7 所示。
圖7 過(guò)擬合時(shí)采用本文提出算法的混淆矩陣
從圖7 可以看出,相比于圖6,本文提出的算法能將第1 類(lèi)與第8 類(lèi)的準(zhǔn)確率提升50&以上,同時(shí)也能將第9 類(lèi)的識(shí)別率提升至96&。10 項(xiàng)分類(lèi)的平均準(zhǔn)確率能達(dá)到87.9&,相比于Alexnet 能提升8.9&,說(shuō)明本文提出的算法能有效恢復(fù)因?yàn)檫^(guò)擬合而下降的準(zhǔn)確率。
針對(duì)小樣本情況下,采用神經(jīng)網(wǎng)絡(luò)會(huì)因?yàn)橛?xùn)練不足而導(dǎo)致準(zhǔn)確率下降,且由于訓(xùn)練數(shù)據(jù)不足可能導(dǎo)致過(guò)擬合問(wèn)題,提出將神經(jīng)網(wǎng)絡(luò)提取的特征與人工提取的特征進(jìn)行融合,將得到的新特征導(dǎo)入構(gòu)建的網(wǎng)絡(luò)中進(jìn)行訓(xùn)練與分類(lèi)。仿真結(jié)果表明,在小樣本情況下,本文提出的算法相比只使用Alexnet 能至少提高5&準(zhǔn)確率,且在因訓(xùn)練數(shù)據(jù)不足發(fā)生過(guò)擬合時(shí)能將準(zhǔn)確率恢復(fù)到未發(fā)生過(guò)擬合的情況,充分證明了本文所提算法在小樣本情況下的有效性。