施育鑫,安 康,李玉生
(國(guó)防科技大學(xué)第六十三研究所,江蘇 南京 210000)
由于無(wú)線通信信道的開(kāi)放性,無(wú)線通信信號(hào)容易受到人為有意干擾的攻擊。人為有意干擾主要是指來(lái)自敵方的惡意干擾,是威脅通信生存能力的主要因素[1]。典型的有意干擾樣式有單音干擾、多音干擾、窄帶干擾及梳狀干擾等。干擾方可以根據(jù)不同的干擾動(dòng)機(jī)靈活地切換干擾樣式,有針對(duì)性地破壞合法通信。因此,干擾識(shí)別作為通信抗干擾過(guò)程中的前置環(huán)節(jié),為后續(xù)的抗干擾決策、抗干擾波形的選擇提供先驗(yàn)知識(shí),對(duì)通信抗干擾具有重要的意義。
在通信信號(hào)的調(diào)制識(shí)別中,其識(shí)別對(duì)象一般為合法通信用戶的調(diào)制方式。合法用戶的調(diào)制方式相對(duì)固定,持續(xù)發(fā)送時(shí)間長(zhǎng),發(fā)送信號(hào)結(jié)構(gòu)更具有規(guī)律性,識(shí)別器更容易獲取大量已標(biāo)記的樣本數(shù)據(jù)進(jìn)行訓(xùn)練。文獻(xiàn)[2]采用了基于深度學(xué)習(xí)的方法對(duì)常見(jiàn)的調(diào)制信號(hào)進(jìn)行識(shí)別,表明基于大數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)在提高無(wú)線電信號(hào)識(shí)別的靈敏度和準(zhǔn)確性上的優(yōu)勢(shì)。然而,在復(fù)雜的電磁頻譜環(huán)境和敵我態(tài)勢(shì)矛盾尖銳的戰(zhàn)場(chǎng)環(huán)境下,干擾信號(hào)持續(xù)發(fā)送時(shí)間相對(duì)更短,干擾樣式可能會(huì)不斷切換,所在的信道條件更加惡劣,這使得基于大量已標(biāo)記數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)方法的實(shí)施異常困難。此外,干擾識(shí)別作為抗干擾過(guò)程中的前置環(huán)節(jié),需要盡可能低的計(jì)算復(fù)雜度,以保證干擾識(shí)別的實(shí)時(shí)性。例如,當(dāng)干擾方施加了特定樣式的干擾信號(hào)后,若干擾識(shí)別算法過(guò)于復(fù)雜,在很大的延時(shí)后通信方才能獲取關(guān)于干擾信號(hào)的樣式。此時(shí),干擾方只需要在一段時(shí)間內(nèi)更改干擾樣式,即可使通信方的抗干擾措施失效。
因此,通信干擾的識(shí)別過(guò)程更適合建模為一個(gè)小樣本識(shí)別問(wèn)題,即通信干擾識(shí)別時(shí),僅有少量的已標(biāo)記干擾信號(hào)樣本作為訓(xùn)練數(shù)據(jù)集。針對(duì)典型的干擾樣式,常見(jiàn)的干擾識(shí)別方法有決策樹(shù)[3]、支撐向量機(jī)及反向傳播神經(jīng)網(wǎng)絡(luò)[4-5]等。其中,決策樹(shù)方法基于多維空間的分段線性劃分進(jìn)行分類,但在有噪聲情況下容易造成過(guò)擬合。支撐向量機(jī)與反向傳播神經(jīng)網(wǎng)絡(luò)識(shí)別方法一般具有較高的復(fù)雜度,將帶來(lái)較大的延遲。貝葉斯分類器采用因果推理的方式計(jì)算各類的概率,具有實(shí)現(xiàn)簡(jiǎn)單和計(jì)算方便的特點(diǎn)。在文獻(xiàn)[6-7]中,利用常見(jiàn)的幾種干擾特征作為訓(xùn)練集,使用樸素貝葉斯分類器進(jìn)行干擾識(shí)別。然而,文獻(xiàn)[7]指出當(dāng)訓(xùn)練數(shù)據(jù)樣本較小時(shí)(每類干擾的訓(xùn)練樣本小于20個(gè)),干擾分類器的穩(wěn)定性較差。
小樣本學(xué)習(xí) (Few-Shot Learning,FSL) ,是近年來(lái)受到廣泛關(guān)注的研究方向,被用于解決機(jī)器學(xué)習(xí)方法在訓(xùn)練集很小時(shí)出現(xiàn)性能不佳的情況[8]。小樣本學(xué)習(xí)利用先驗(yàn)知識(shí),可以快速泛化到只包含少數(shù)有監(jiān)督信息的樣本的新任務(wù)。在小樣本學(xué)習(xí)中,數(shù)據(jù)增強(qiáng)(Data Augmentation)方法利用先驗(yàn)知識(shí)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng),以提升訓(xùn)練過(guò)程的精度。在圖像分類識(shí)別領(lǐng)域,通常使用平移、翻轉(zhuǎn)、剪切、縮放及旋轉(zhuǎn)等方式進(jìn)行數(shù)據(jù)增強(qiáng)[8]。上述操作一般不會(huì)改變圖像所屬類別,因此其先驗(yàn)知識(shí)可以用于指導(dǎo)數(shù)據(jù)增強(qiáng)以產(chǎn)生更多的訓(xùn)練樣本。但是,不同于圖像識(shí)別,上述操作可能會(huì)使得待識(shí)別的干擾信號(hào)類別發(fā)生改變。因此,如何在小樣本條件下尋找可行的先驗(yàn)知識(shí)進(jìn)行數(shù)據(jù)增強(qiáng)是一個(gè)亟待解決的問(wèn)題。
受小樣本學(xué)習(xí)中數(shù)據(jù)增強(qiáng)方法的啟發(fā),本文研究了在貝葉斯分類器視角下小樣本干擾信號(hào)識(shí)別可用的先驗(yàn)知識(shí),并根據(jù)所分析的先驗(yàn)知識(shí)提出了兩種貝葉斯分類器的數(shù)據(jù)增強(qiáng)算法,以解決貝葉斯分類器在小樣本條件下的欠擬合問(wèn)題。實(shí)驗(yàn)結(jié)果表明,所提的數(shù)據(jù)增強(qiáng)算法能夠顯著提高貝葉斯分類器在小樣本條件下的識(shí)別準(zhǔn)確率。
為了實(shí)現(xiàn)干擾目的,惡意干擾機(jī)針對(duì)目標(biāo)頻段施加干擾,將調(diào)制的干擾信號(hào)發(fā)送到無(wú)線信道。當(dāng)干擾機(jī)開(kāi)始工作時(shí),合法用戶為了進(jìn)行有效的抗干擾決策,首先進(jìn)行信號(hào)接收和干擾識(shí)別。其接收到的采樣信號(hào)可以表示為:
y(n)=J(n)+w(n),
(1)
式中,J(n)表示干擾信號(hào),w(n)表示白噪聲。y(n)=y(nTs),Ts表示最小采樣間隔。令每T時(shí)間內(nèi)接收到的信號(hào)作為一組干擾樣本數(shù)據(jù),則每組數(shù)據(jù)可用向量形式表示為:
(2)
隨后,合法用戶首先對(duì)接收的時(shí)域信號(hào)y做歸一化:
(3)
接著,對(duì)歸一化的數(shù)據(jù)分散化,可得:
(4)
(5)
(a) 單音干擾
接下來(lái)介紹如何建立基于貝葉斯方法的干擾分類器。圖2給出了兩種貝葉斯干擾分類器的訓(xùn)練過(guò)程。對(duì)于已標(biāo)記的6種干擾信號(hào)計(jì)算對(duì)應(yīng)的4類干擾特征后,可以獲得帶有標(biāo)簽的特征訓(xùn)練集。
圖2 兩種貝葉斯分類器的訓(xùn)練過(guò)程Fig.2 Training processes of two Bayesian classifiers
在正態(tài)貝葉斯分類器中,假設(shè)4類干擾特征向量服從多維正態(tài)分布,其條件概率密度函數(shù)可以表示為[15]:
(6)
式中,x表示4類干擾特征組成的向量,n表示特征向量的維數(shù),這里n=4;ci表示第i類干擾信號(hào),i=1,2,…,6;μ表示均值向量,Σ表示協(xié)方差矩陣。
在識(shí)別過(guò)程中,貝葉斯分類器需要尋找具有最大后驗(yàn)概率的類,作為最后的分類結(jié)果。通過(guò)貝葉斯公式可以得到[15]:
(7)
由于p(ci)表示干擾出現(xiàn)的先驗(yàn)概率,在沒(méi)有該信息時(shí),對(duì)不同干擾下的p(ci)可以視為相等的常數(shù)。p(x)的在所有的干擾類下是相等的,因此式(7)的求解可以簡(jiǎn)化為:
arg maxp(x|ci)。
(8)
在正態(tài)貝葉斯分類器中,可以對(duì)其概率密度函數(shù)求對(duì)數(shù)函數(shù),式(8)可以等價(jià)于:
(9)
其中,Gci=ln(|Σ|)+(x-μ)TΣ-1(x-μ)。即對(duì)于6類干擾信號(hào),分別利用其估計(jì)的均值向量、協(xié)方差矩陣計(jì)算出其等價(jià)度量值Gci,尋找最小Gci的作為干擾分類結(jié)果。
在基于核密度估計(jì)的樸素貝葉斯分類器中,由于各個(gè)特征之間的密度函數(shù)被認(rèn)為是無(wú)關(guān)的,因此有[7]:
(10)
通過(guò)核密度估計(jì)的概率密度函數(shù),計(jì)算出在6類干擾下的p(x|ci)。對(duì)于最大的p(x|ci),其干擾類型輸出為干擾分類結(jié)果。
本節(jié)介紹了兩種基于貝葉斯的干擾分類器的訓(xùn)練和干擾分類過(guò)程。然而,在小樣本條件下,上述的訓(xùn)練過(guò)程將出現(xiàn)較大誤差。接下來(lái),分析了兩類貝葉斯分類器中可利用的先驗(yàn)知識(shí),并提出了基于先驗(yàn)知識(shí)的數(shù)據(jù)增強(qiáng)方法,以提高分類器的識(shí)別準(zhǔn)確率。
在正態(tài)貝葉斯分類器中,若訓(xùn)練樣本過(guò)少,利用訓(xùn)練樣本計(jì)算出的均值向量μ和協(xié)方差矩陣Σ與真實(shí)值將出現(xiàn)較大的誤差。因此,需要通過(guò)增加訓(xùn)練樣本以接近μ與Σ的真實(shí)值。受圖像識(shí)別分類中數(shù)據(jù)增強(qiáng)方法的啟發(fā),圖像在平移、翻轉(zhuǎn)、剪切等數(shù)據(jù)增強(qiáng)的操作過(guò)程中,其實(shí)質(zhì)分類不發(fā)生改變,但輸入特征數(shù)據(jù)更加多樣,這將有效提高識(shí)別器的泛化性能。因此,在干擾識(shí)別的過(guò)程中,數(shù)據(jù)增強(qiáng)需要達(dá)到兩個(gè)目標(biāo):一是使在原干擾樣本上增強(qiáng)的新樣本,這樣不會(huì)改變?cè)械母蓴_類型;二是使得數(shù)據(jù)增強(qiáng)后的干擾特征取值能夠發(fā)生一定的變化,以產(chǎn)生有效的新訓(xùn)練樣本。
根據(jù)上述分析,本文采用剪切的方式進(jìn)行數(shù)據(jù)增強(qiáng)。圖3以單音干擾為例,給出了接收到的干擾信號(hào)的單邊譜數(shù)據(jù)剪切示意圖。對(duì)于單邊譜數(shù)據(jù),可以剪切掉其兩側(cè)的部分?jǐn)?shù)據(jù),這是由于兩側(cè)數(shù)據(jù)往往不包含干擾信號(hào),或者如寬帶干擾和掃頻干擾,即使剪去兩側(cè)的部分?jǐn)?shù)據(jù)也不影響其干擾樣式。依據(jù)上述先驗(yàn)知識(shí),雙側(cè)剪切操作的實(shí)施步驟如算法1所示。
圖3 基于剪切的數(shù)據(jù)增強(qiáng)Fig.3 Data augmentation based on shearing
算法1 雙側(cè)隨機(jī)剪切的數(shù)據(jù)增強(qiáng)算法輸入:長(zhǎng)度為N的信號(hào)單邊譜Y︶s。剪切數(shù)據(jù)后樣本擴(kuò)增的倍數(shù)m。兩端剪切的總長(zhǎng)度2Ns。輸出:數(shù)據(jù)增強(qiáng)后的特征訓(xùn)練集。實(shí)施過(guò)程:Fori=1,i 在基于核密度估計(jì)的樸素貝葉斯分類器中,由于概率密度函數(shù)是利用小樣本進(jìn)行核密度估計(jì)生成的,可以直接生成概率密度函數(shù)觀察失真程度。圖4與圖5給出了經(jīng)過(guò)核密度估計(jì)后的概率密度分布。在訓(xùn)練過(guò)程中,圖4每類干擾有5個(gè)已標(biāo)記訓(xùn)練樣本,圖5每類干擾有100個(gè)已標(biāo)記訓(xùn)練樣本。顯然,通過(guò)更多訓(xùn)練樣本估計(jì)出的概率密度函數(shù)要更加接近真實(shí)的概率密度函數(shù)。比較圖4與圖5可以看出,訓(xùn)練樣本數(shù)量為5的估計(jì)概率密度函數(shù)出現(xiàn)了嚴(yán)重失真的現(xiàn)象。特別是在特征Fse中,估計(jì)的概率密度函數(shù)出現(xiàn)明顯不連續(xù),這將帶來(lái)較大的誤差,使得干擾識(shí)別準(zhǔn)確率將下降。此時(shí),可以利用的先驗(yàn)知識(shí)是概率密度函數(shù)具有光滑而穩(wěn)定的連續(xù)性。這是因?yàn)樗捎玫?類干擾特征反映了頻域特征,不會(huì)隨干擾的動(dòng)態(tài)變化而出現(xiàn)概率密度函數(shù)的凹陷。 基于上述先驗(yàn)知識(shí),提出了均值映射的方法,對(duì)已標(biāo)記的特征訓(xùn)練集合進(jìn)行數(shù)據(jù)增強(qiáng),以提供更多有效的訓(xùn)練樣本。不同于正態(tài)貝葉斯分類器中采用剪切的方法對(duì)單邊譜進(jìn)行數(shù)據(jù)增強(qiáng)后,再計(jì)算干擾特征的方法,均值映射數(shù)據(jù)增強(qiáng)方法的實(shí)施對(duì)象為特征訓(xùn)練集。均值映射的具體實(shí)施步驟如圖4所示。 (a) 特征C的PDF (a) 特征C的PDF 假設(shè)第i類干擾信號(hào)共有K個(gè)已標(biāo)記的訓(xùn)練樣本,則其訓(xùn)練樣本的集合可以表示為: (11) 定義訓(xùn)練樣本的集合中元素的平均值為: (12) 均值映射操作是以訓(xùn)練樣本的均值為對(duì)稱中心,對(duì)數(shù)據(jù)進(jìn)行映射。對(duì)訓(xùn)練集第k個(gè)元素進(jìn)行均值映射,可得映射數(shù)據(jù): (13) 因此,可以得到映射后的訓(xùn)練樣本集合: (14) 最后,將訓(xùn)練樣本集合與映射后的訓(xùn)練樣本集合合并,即完成的數(shù)據(jù)增強(qiáng)的過(guò)程。顯然,通過(guò)上述數(shù)據(jù)增強(qiáng)的方法,可以將訓(xùn)練樣本數(shù)增加一倍。隨后,將新的數(shù)據(jù)集進(jìn)行核密度估計(jì),得到估計(jì)的概率密度函數(shù)輸入樸素貝葉斯分類器,完成訓(xùn)練過(guò)程。 在核密度估計(jì)的樸素貝葉斯分類器中,沒(méi)有采用剪切的數(shù)據(jù)增強(qiáng)技術(shù),這是由于剪切產(chǎn)生的新特征值與原接收信號(hào)計(jì)算出的特征取值差異不大,因此這種數(shù)據(jù)增強(qiáng)的方式無(wú)法解決核密度估計(jì)時(shí)訓(xùn)練樣本過(guò)少,導(dǎo)致概率密度函數(shù)估計(jì)失真的問(wèn)題。通過(guò)均值映射一方面能夠直接獲取新的特征訓(xùn)練集,保證新的特征訓(xùn)練集與原訓(xùn)練集具有相同的均值,避免對(duì)均值估計(jì)帶來(lái)額外的誤差;另一方面,通過(guò)均值映射能夠使特征取值的分布更加均勻,使得小樣本條件下的核密度估計(jì)的失真問(wèn)題得到緩解。 仿真參數(shù)設(shè)置如下:接收端的采樣率為Fs=2 kHz,每組接收信號(hào)的時(shí)間T=2 s。由于每組接收信號(hào)有4 000個(gè)采樣點(diǎn),采用FFT長(zhǎng)度為Nfft=4 096,取單邊譜后長(zhǎng)度為N=2 049。單音干擾和窄帶干擾的中心頻率點(diǎn)在50~600 Hz范圍內(nèi)隨機(jī)設(shè)置;多音干擾的頻率點(diǎn)數(shù)目在10~15的整數(shù)中隨機(jī)設(shè)置,功率為0.9~1.0之間的隨機(jī)變量,服從均勻分布,相鄰頻率點(diǎn)之間的間隙為40 Hz;寬帶干擾是由加性高斯白噪聲利用Kaise窗的低通濾波器產(chǎn)生的;對(duì)于梳狀干擾,將4或5個(gè)窄帶干擾組合在一起,相鄰干擾之間的間隙設(shè)置為100 Hz;對(duì)于掃頻干擾,掃頻速率和初始頻率分別隨機(jī)設(shè)置為0~500 Hz/s和50~100 Hz。 圖6給出了正態(tài)貝葉斯分類器與所提數(shù)據(jù)增強(qiáng)的正態(tài)貝葉斯分類器的平均識(shí)別準(zhǔn)確率比較,其中每種干擾的訓(xùn)練樣本數(shù)K=5。在所提數(shù)據(jù)增強(qiáng)的貝葉斯分類器中,增加的新訓(xùn)練樣本數(shù)與原樣本數(shù)的比值為m=1,即每種干擾特征的訓(xùn)練樣本擴(kuò)增到10個(gè)。兩端數(shù)據(jù)剪切長(zhǎng)度Ns=20,滿足Ns< 圖6 正態(tài)貝葉斯分類器與數(shù)據(jù)增強(qiáng)的正態(tài)貝葉斯分類器的 平均識(shí)別準(zhǔn)確率比較Fig.6 Comparison of average accuracy of classical normal Bayesian classifier and the proposed data augmentation aided normal Bayesian classifier 圖7為數(shù)據(jù)增強(qiáng)方法在不同的新樣本數(shù)條件下進(jìn)行訓(xùn)練對(duì)平均識(shí)別準(zhǔn)確率的影響。固定Ns=20,分別設(shè)置m=1,4,10。可以觀察到,m值的提高會(huì)輕微地提高平均識(shí)別準(zhǔn)確率,但提高的效果并不明顯。 圖7 數(shù)據(jù)增強(qiáng)的正態(tài)貝葉斯分類器在不同m值下的 平均識(shí)別準(zhǔn)確率比較Fig.7 Comparison of average accuracy of the proposed data augmentation aided normal Bayesian classifier with different m 圖8給出了數(shù)據(jù)增強(qiáng)的正態(tài)貝葉斯分類器在不同Ns值下的平均識(shí)別準(zhǔn)確率比較??梢园l(fā)現(xiàn),增大Ns值對(duì)平均識(shí)別準(zhǔn)確率的提高并沒(méi)有顯著幫助。并且當(dāng)Ns=200時(shí),準(zhǔn)確率有所下降,這是因?yàn)榧羟胁糠诌^(guò)程可能產(chǎn)生損傷的干擾信號(hào),這類信號(hào)引入訓(xùn)練可能會(huì)導(dǎo)致錯(cuò)誤的學(xué)習(xí)結(jié)果。 圖8 數(shù)據(jù)增強(qiáng)的正態(tài)貝葉斯分類器在不同Ns值下的 平均識(shí)別準(zhǔn)確率比較Fig.8 Comparison of average accuracy of the proposed data augmentation aided normal Bayesian classifier with different Ns 圖9~圖12為所提均值映射的數(shù)據(jù)增強(qiáng)方法在不同訓(xùn)練樣本數(shù)量下,對(duì)樸素貝葉斯分類器的平均識(shí)別準(zhǔn)確率的影響。 圖9中當(dāng)訓(xùn)練樣本數(shù)為5時(shí),所提出的數(shù)據(jù)增強(qiáng)方法能夠顯著提高干擾的平均識(shí)別準(zhǔn)確率,這表明了所提方法的有效性。圖10與圖11中均值映射的數(shù)據(jù)增強(qiáng)方法能夠在JNR≥-6 dB的范圍內(nèi)提高平均識(shí)別準(zhǔn)確率。 圖9 平均識(shí)別正確率比較(訓(xùn)練樣本為5)Fig.9 Comparison of average accuracy (5 shots) 圖10 平均識(shí)別正確率比較(訓(xùn)練樣本為10)Fig.10 Comparison of average accuracy (10 shots) 圖11 平均識(shí)別正確率比較(訓(xùn)練樣本為20)Fig.11 Comparison of average accuracy (20 shots) 圖12中,數(shù)據(jù)增強(qiáng)在低JNR區(qū)域降低了平均識(shí)別準(zhǔn)確率。這是由于50個(gè)訓(xùn)練樣本已較為充分地減小了核密度估計(jì)帶來(lái)的誤差。此時(shí)因?yàn)榫涤成鋾r(shí)默認(rèn)數(shù)據(jù)是沿均值對(duì)稱分布的,而實(shí)際干擾特征的概率密度函數(shù)不一定沿均值對(duì)稱分布。因此這樣的假設(shè)帶來(lái)的誤差相比核密度估計(jì)誤差成為了當(dāng)前主要誤差來(lái)源,造成了平均識(shí)別準(zhǔn)確率的下降。 圖12 平均識(shí)別正確率比較(訓(xùn)練樣本為50)Fig.12 Comparison of average accuracy (50 shots) 本文研究了小樣本條件下兩類貝葉斯分類器的數(shù)據(jù)增強(qiáng)通信干擾識(shí)別技術(shù),通過(guò)數(shù)據(jù)剪切和均值映射兩種數(shù)據(jù)增強(qiáng)方式,在小樣本訓(xùn)練條件下能夠顯著提高正態(tài)貝葉斯分類器與核密度估計(jì)的樸素貝葉斯分類器的平均識(shí)別準(zhǔn)確率。理論分析與仿真結(jié)果表明,數(shù)據(jù)增強(qiáng)技術(shù)能夠利用先驗(yàn)知識(shí),補(bǔ)償小樣本訓(xùn)練帶來(lái)的欠擬合問(wèn)題。在后續(xù)研究中,可以考慮利用數(shù)據(jù)增強(qiáng)與半監(jiān)督學(xué)習(xí)相結(jié)合的方式進(jìn)一步擴(kuò)增已標(biāo)記訓(xùn)練數(shù)據(jù)集,幫助解決小樣本條件下的欠擬合問(wèn)題,以進(jìn)一步提高對(duì)干擾的識(shí)別準(zhǔn)確率。3.2 核密度估計(jì)的貝葉斯分類器的數(shù)據(jù)增強(qiáng)
4 仿真實(shí)驗(yàn)結(jié)果
4.1 數(shù)據(jù)增強(qiáng)的正態(tài)貝葉斯分類器
4.2 數(shù)據(jù)增強(qiáng)的核密度估計(jì)樸素貝葉斯分類器
5 結(jié)論