張力鋒,殷雪鳳
(1.陸裝駐西安地區(qū)第七軍事代表室,陜西 西安 710065;2.西安電子科技大學(xué),陜西 西安 710071)
隨著雷達技術(shù)的快速發(fā)展,電子對抗所面臨的環(huán)境日益復(fù)雜,雷達輻射源分布范圍廣、密度大,而且信號調(diào)制形式復(fù)雜,調(diào)制參數(shù)轉(zhuǎn)換越來越快捷,信號在時空領(lǐng)域內(nèi)交錯。在如此復(fù)雜的電磁環(huán)境下,電子偵察設(shè)備截獲到的輻射源信號數(shù)目不斷增加,質(zhì)量差異也越來越大,噪聲數(shù)據(jù)與有效數(shù)據(jù)混合在一起,導(dǎo)致獲取戰(zhàn)場態(tài)勢信息的難度加大;另一方面,當今雷達對抗正朝著信息化和智能化的方向發(fā)展,在輻射源信號識別、干擾識別、情報分析和電磁態(tài)勢感知等領(lǐng)域,有不少研究學(xué)者將人工智能、數(shù)據(jù)挖掘等領(lǐng)域的方法引入,用于解決電子對抗的相關(guān)研究難題,并取得了不錯的效果。但這些高性能的數(shù)據(jù)驅(qū)動算法對數(shù)據(jù)質(zhì)量的要求也更高。因此,在進行輻射源信號分析識別之前,對原始雷達輻射源信號進行數(shù)據(jù)清洗,提高數(shù)據(jù)質(zhì)量具有重要意義。
數(shù)據(jù)清洗是一種盡可能多地調(diào)整或去除有質(zhì)量問題的原始數(shù)據(jù)而保留正確信息,使其具有更好的穩(wěn)定性和代表性的數(shù)據(jù)處理方法。目前提出的數(shù)據(jù)清洗方法大多用于分析結(jié)構(gòu)化的數(shù)據(jù),即可以使用二維表結(jié)構(gòu)表示和存儲的數(shù)據(jù)。根據(jù)采用的清洗算法不同可分為基于完整性約束的數(shù)據(jù)清洗算法、基于規(guī)則的數(shù)據(jù)清洗算法、基于統(tǒng)計的數(shù)據(jù)清洗算法和人機結(jié)合的數(shù)據(jù)清洗算法等,廣泛應(yīng)用于醫(yī)療、能源、零售、汽車、金融等領(lǐng)域。對于非結(jié)構(gòu)化數(shù)據(jù),也有部分研究成果,主要用于解決時間序列相關(guān)問題,包括單點大錯誤、單點小錯誤、連續(xù)錯誤、平移錯誤等。主要的清洗方法包括基于平滑的清洗算法、基于約束的清洗算法和基于統(tǒng)計的清洗算法,用于解決土遺址監(jiān)測、風(fēng)機裝備、物流車軌跡等領(lǐng)域的時間序列清洗問題。
針對雷達輻射源數(shù)據(jù),現(xiàn)有的數(shù)據(jù)清洗方法并不適用,因此,本文提出了一種針對雷達輻射源信號的非結(jié)構(gòu)化數(shù)據(jù)清洗方法。該方法首先求取原始信號包絡(luò)與兩個脈沖序列的相像系數(shù),然后將求得的兩個相像系數(shù)組合成特征向量,最后利用基于密度的含噪數(shù)據(jù)空間聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)對數(shù)據(jù)進行聚類劃分,實現(xiàn)清洗。在仿真和實測數(shù)據(jù)上的實驗證明,本文提出的數(shù)據(jù)清洗方法能有效檢測并剔除低質(zhì)量數(shù)據(jù),提高數(shù)據(jù)質(zhì)量。
在電子偵察系統(tǒng)中,因電磁環(huán)境復(fù)雜、接收機性能不佳等原因,導(dǎo)致截獲的原始雷達輻射源信號樣本間質(zhì)量差異較大,不同信號樣本信噪比各異,有的樣本僅含半個脈沖,有的甚至未截獲到輻射源脈內(nèi)信號。經(jīng)分析,本文將原始輻射源數(shù)據(jù)集中的樣本分為脈沖信號樣本和噪聲信號樣本,如圖1所示。其中,脈沖信號分為殘缺脈沖信號和完整脈沖信號,分別如圖1a)和圖1b)所示。噪聲信號如圖1c)所示,其產(chǎn)生原因主要包括兩個方面:信噪比過高導(dǎo)致接收的脈內(nèi)信號被噪聲淹沒;接收機截獲到脈間信號。
圖1 不同質(zhì)量輻射源信號的時域圖
由于噪聲信號不包含雷達輻射源脈內(nèi)信息或是脈內(nèi)信息被噪聲完全淹沒,對其進行進一步的信號處理不能獲取有用的信息,浪費計算資源,還可能影響后續(xù)分析結(jié)果。在傳統(tǒng)的電子偵察系統(tǒng)中,對于這類噪聲樣本往往是通過人為干預(yù),將其手動剔除。但隨著電子對抗逐漸步入大數(shù)據(jù)時代,截獲數(shù)據(jù)越來越多,人工處理工作量不斷增大。因此,本文提出一種針對雷達輻射源信號的數(shù)據(jù)清洗算法,實現(xiàn)對噪聲數(shù)據(jù)的自動檢測和剔除。
本文提出的雷達輻射源數(shù)據(jù)清洗方法總體流程如圖2所示。該數(shù)據(jù)清洗模型包含數(shù)據(jù)預(yù)處理、特征提取、聚類劃分三部分,原始輻射源信號經(jīng)過包絡(luò)提取和歸一化預(yù)處理之后,分別求取包絡(luò)信號的矩形和三角形相像系數(shù),并將二者拼接成特征向量,最后利用DBSCAN算法對數(shù)據(jù)進行聚類劃分,從而達到檢測和剔除噪聲數(shù)據(jù)的目的。
圖2 數(shù)據(jù)清洗流程圖
為減小雷達信號脈內(nèi)特性對于清洗結(jié)果的影響,在特征提取前,利用歸一化香農(nóng)能量算法對原始的雷達信號進行包絡(luò)提取。設(shè)一截獲的雷達輻射源信號序列表示為x(i),則其包絡(luò)P(i)的計算公式如下:
式中:=1,2,…,,為信號采樣點數(shù);max(·)表示求序列的最大值;()為歸一化信號;()為信號的歸一化香農(nóng)能量;()為平滑后的香農(nóng)能量;表示窗內(nèi)的采樣點數(shù);mean(·)表示求序列的均值;(·)表示序列的標準差。
為便于提取相像系數(shù)特征,必須保證包絡(luò)序列非負,因此,對包絡(luò)()進行了min-max歸一化處理,將包絡(luò)幅值約束在0~1之間。min-max歸一化定義如下:
式中:和分別為序列(),=1,2,…,的最大值和最小值。
圖1中不同質(zhì)量信號對應(yīng)的包絡(luò)信號時域圖如圖3所示,可見預(yù)處理方法能有效提取信號包絡(luò)。
圖3 信號包絡(luò)時域圖
設(shè)有兩個一維的離散正值序列{()}和{()},其中,為序列點數(shù),()≥0且()≥0(=1,2,,),兩序列的相像系數(shù)定義為:
由于()和()為非負實數(shù)序列,故由Cauchy Schwartz不等式可得:
因此,相像系數(shù)的取值范圍在0~1之間。
式(8)取等號的條件是序列()和()相等,所以可推導(dǎo)得到序列()和()相等或?qū)?yīng)成比例時相像系數(shù)的取值為1;當序列()和()相互正交時,=0。由于相像系數(shù)這樣的特性能表征兩離散序列趨勢差異程度,兩序列的走勢和輪廓相差越小,相像系數(shù)越大。
經(jīng)過預(yù)處理之后得到的包絡(luò)信號能較好地反映噪聲樣本和脈沖樣本之間的差異,但維度過高,包含大量的冗余信息,聚類劃分時會增大計算量,因此本文對其進行特征提取降低數(shù)據(jù)維度。觀察圖3可知,不同類型的輻射源樣本之間不完全相似,噪聲信號的包絡(luò)能量在整個采樣時間內(nèi)隨機變化,分布均勻,而脈沖信號在有脈沖處和無脈沖處能量差異較大,可認為能量更多地集中在輻射源脈內(nèi)。因此,構(gòu)造一矩形脈沖序列和一三角形脈沖序列作為參照樣本,分別求取輻射源樣本包絡(luò)與兩個脈沖序列的相像系數(shù)和,并將其組合為樣本特征向量,記為[,]。通過此方法一方面將數(shù)據(jù)維數(shù)降為2維,大大減少了運算量;另一方面,也能充分反映脈沖信號和噪聲信號之間的差異,保證了后續(xù)聚類參數(shù)間具有最大的分離度。
雷達輻射源的脈沖信號和噪聲信號間存在一定的相異程度,在空間中表現(xiàn)為不同的簇群。為剔除雷達輻射源數(shù)據(jù)集中的噪聲信號樣本,使用基于密度聚類的DBSCAN算法識別數(shù)據(jù)集中的噪聲數(shù)據(jù)。該算法的聚類結(jié)構(gòu)由樣本分布的緊密程度確定,能對任意形狀分布的簇進行聚類,具有良好的抗噪聲性能。
DBSCAN算法由一組“鄰域”參數(shù)(,MinPts)來刻畫樣本分布的緊密程度。對于給定含個樣本的數(shù)據(jù)集={,,,x},算法中定義了如下概念:
1)-鄰域:對于樣本x∈,其-鄰域定義為樣本集中與x的距離不大于的樣本,即N(x)={∈|dist(x,x)≤};
2)核心對象:對于樣本x,若其-鄰域內(nèi)至少包含MinPts個樣本,即|N|(x)≥MinPts,則x為一個核心對象;
3)密度直達:若x在x的-鄰域中,且x為核心對象,則稱x由x密度直達;
4)密度可達:對于x和x,若存在樣本序列,,,p,其中,=x,p=x且p由p密度直達,則稱x由x密度可達;
5)密度相連:兩個樣本x和x,若存在x使得x和x均由x密度可達,則稱x和x密度相連。
如圖4所示,當MinPts為3時,虛線展示出-鄰域,為核心對象,由密度直達,由密度可達,與密度相連。
圖4 DBSCAN算法概念直觀理解圖
算法中的距離采用歐氏距離進行度量,設(shè)待清洗的雷達輻射源信號數(shù)據(jù)集為,可由相對應(yīng)的相像系數(shù)特征矩陣表示。計算每兩個樣本x和x間的歐氏距離,即:
式中:W 和W 分別為樣本x和x的特征向量;w和w分別為W 和W 第維的特征值。
DBSCAN的核心思想為:以歐氏距離為標準,根據(jù)預(yù)設(shè)的鄰域參數(shù)(,MinPts)找出樣本中所有的核心點,并將所有核心點的密度可達點形成的集合作為一個聚類簇,完成對噪聲樣本和脈沖樣本的劃分。聚類具體步驟如下:
1)提取待清洗樣本的相像系數(shù)特征,建立特征數(shù)據(jù)庫。
2)設(shè)置鄰域參數(shù)(,MinPts)。
3)從特征數(shù)據(jù)庫中選取一個未處理的樣本,并判斷該樣本是否為核心點,若該樣本點為核心點,則轉(zhuǎn)到步驟4);若該樣本點為非核心點,則轉(zhuǎn)至步驟5);若數(shù)據(jù)庫中不存在未處理樣本,則轉(zhuǎn)到步驟6)。
4)找到當前核心點所有密度可達的樣本點,形成一個簇,并將其從數(shù)據(jù)庫中刪除,轉(zhuǎn)到步驟3)。
5)標記當前樣本點為邊界點,轉(zhuǎn)到步驟3)。
6)聚類完成后,提取噪聲信號的聚類簇,并將其從原始數(shù)據(jù)集中刪除,得到數(shù)據(jù)清洗后的數(shù)據(jù)集。
為驗證方法的有效性,本文在兩個數(shù)據(jù)集上進行實驗測試算法性能,分別為仿真數(shù)據(jù)集和實測數(shù)據(jù)集。
仿真數(shù)據(jù)集:利用Matlab隨機生成不同類型的截獲信號樣本,脈內(nèi)調(diào)制方式包括常規(guī)脈沖信號、線性調(diào)頻信號、非線性調(diào)頻信號、二相編碼信號以及二頻編碼信號5種類型,樣本數(shù)目共10 000個,每個樣本的采樣點數(shù)為10 000,信噪比在20 dB、15 dB、10 dB、5 dB、0 dB、-5 dB、-10 dB中通過程序隨機選擇。在進行實驗之前,所有樣本都經(jīng)過人工清洗打上了噪聲信號樣本或脈沖信號樣本的標簽,其中,噪聲信號樣本有5 405個,脈沖信號樣本有4 595個。
實測數(shù)據(jù):某接收機截獲的數(shù)據(jù)由5 000個樣本組成,包含完整脈沖信號、殘缺脈沖信號和噪聲信號樣本,每個樣本采樣點數(shù)為40 000個。同樣對其進行脈沖信號和噪聲信號標簽的人工標注,其中,噪聲信號樣本有3 796個,脈沖信號樣本有1 204個。
為評價本文數(shù)據(jù)清洗方法的性能,以準確率作為評價指標,定義如下:
式中:準確分類的數(shù)據(jù)數(shù)目是指以人工清洗標注的標簽為基準,采用本文的數(shù)據(jù)清洗方法聚類之后得到的樣本對應(yīng)標簽與基準標簽比較正確的個數(shù)。
對仿真數(shù)據(jù)集中的樣本進行預(yù)處理和特征提取后,樣本數(shù)據(jù)可用二維相像系數(shù)特征向量表示,因此利用特征向量對樣本進行可視化。如圖5所示,分別為人工清洗和采用本文數(shù)據(jù)清洗方法得到的可視化結(jié)果。
圖5 仿真數(shù)據(jù)集樣本可視化結(jié)果
圖5a)為人工清洗的噪聲及脈沖樣本分布情況,噪聲樣本和脈沖樣本在特征空間的分布有明顯的差別,噪聲樣本主要分布在圖中的右上角區(qū)域,即噪聲樣本對應(yīng)的兩個特征值都較大??梢娤嘞裣禂?shù)特征能有效反映噪聲樣本和脈沖樣本間的差異。圖5b)為利用本文提出的方法得到的數(shù)據(jù)清洗結(jié)果,對比圖5a)可以看出,大部分的噪聲數(shù)據(jù)能正確被標記為噪聲樣本,有部分特征不太突出的樣本被錯誤標記為脈沖樣本。
進一步統(tǒng)計了采用本文方法聚類后的樣本分類情況,如表1所示,本文提出的數(shù)據(jù)清洗方法準確率達到了95.67%,可見在仿真數(shù)據(jù)集上,有較好的清洗效果,基本達到了人工清洗的水平。
表1 仿真數(shù)據(jù)樣本分類情況統(tǒng)計表
為了探究本文提出的數(shù)據(jù)清洗方法在實測數(shù)據(jù)上的效果,進一步在實測數(shù)據(jù)集上進行實驗。圖6展示了人工方法和本文方法的清洗結(jié)果。
圖6 實測數(shù)據(jù)集樣本可視化結(jié)果
由圖6a)可知,在實測數(shù)據(jù)上,采用相像系數(shù)作為特征時,樣本間具有比仿真數(shù)據(jù)更好的分離度。結(jié)合圖6a)和圖6b)分析可知,人工清洗和采用本文方法自動清洗的差別不大。更進一步,以人工標注標簽為基準,統(tǒng)計了本文提出的數(shù)據(jù)清洗方法對樣本分類的情況如表2所示。由表2可知,在實測數(shù)據(jù)上本文提出的方法準確率能達到99.8%,基本達到了人工清洗的水平,能有效清洗去除噪聲樣本,提高數(shù)據(jù)質(zhì)量。
表2 實測數(shù)據(jù)樣本分類情況統(tǒng)計表
本文提出一種針對雷達輻射源信號的數(shù)據(jù)清洗方法,達到了將噪聲信號樣本從原始輻射源信號數(shù)據(jù)集中剔除的目的。首先對截獲的雷達輻射源信號進行預(yù)處理,提取信號包絡(luò),然后計算包絡(luò)信號的相像系數(shù),最后以相像系數(shù)作為特征,利用DBSCAN聚類算法檢測噪聲信號,并將其剔除。實驗結(jié)果表明,該方法能有效剔除噪聲信號,對仿真數(shù)據(jù)和實測數(shù)據(jù)都能達到很好的數(shù)據(jù)清洗效果,基本達到了人工清洗的水平,有效地提高了數(shù)據(jù)質(zhì)量和清洗效率。
但本文的方法也存在不足之處,DBSCAN聚類劃分部分需要人為預(yù)先設(shè)置鄰域參數(shù),參數(shù)的設(shè)置是否合理直接影響清洗效果。下一步的研究將重點考慮自動設(shè)定參數(shù)的DBSCAN聚類方法,進一步提高數(shù)據(jù)清洗的智能性。