鄒瑛珂,李祖明,劉曉宏,賈云飛
(1.南京理工大學(xué)機械工程學(xué)院,江蘇 南京 210094; 2.南京工程學(xué)院電力學(xué)院,江蘇 南京 211167;3.鹽城供電公司,江蘇 鹽城 224000)
近年來,由于傳感器、芯片和控制理論的快速發(fā)展,大量的廉價小型四旋翼無人機被應(yīng)用在農(nóng)保、安防、攝影、娛樂、軍事等領(lǐng)域。與此同時,四旋翼無人機所產(chǎn)生的各種社會問題(如偷拍、妨礙飛行器飛行、傷害路人等事件)頻發(fā)。而在國防領(lǐng)域,利用無人機進行軍事情報竊取或直接利用無人機進行恐怖襲擊的可能性越來越高。因此如何在各種環(huán)境下對無人機進行探測預(yù)警成為了一個新的課題。由于無人機體積小、速度低、飛行高度較低,很難被常規(guī)電磁波雷達探測。若使用光學(xué)雷達,有被障礙遮擋的問題存在,且在復(fù)雜環(huán)境背景或無人機自身有隱蔽涂裝的情況下識別率很低[1]。但四旋翼無人機的聲音信號較大,且不易被改變,因此成為了比較有效的新穎探測方案。針對無人機聲探測領(lǐng)域的研究開始于2010年,目前取得了一定成果。在國內(nèi),張一聞等[2]提出了利用FFT、EMD+MFCC等特征結(jié)合諸如SVM、VQ等機器學(xué)習(xí)算法分類器以實現(xiàn)對無人機的識別,丘愷彬等[3]也提出利用MFCC+EMD能量占比實現(xiàn)不同型號無人機的區(qū)分。在國外,Jeon等[4]也嘗試使用深度學(xué)習(xí)算法研究UAV聲音檢測,最后發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)效果最好,為將深度學(xué)習(xí)算法應(yīng)用到該領(lǐng)域提供了先例。這些算法在高信噪比條件下識別率較高,但由于這些算法本身存在魯棒性較低的固有缺陷,在面對諸如嘈雜街道等環(huán)境下識別率會有明顯下降,或者需要較多的樣本數(shù)量,然而目前網(wǎng)絡(luò)上并沒有相關(guān)公共數(shù)據(jù)集。本文主要針對無人機聲信號在含噪環(huán)境中的特征提取進行深入研究,探求在該環(huán)境下比較好的特征提取方法,以解決無人機聲信號在高/低信噪比情況下的識別問題。
通過采集四旋翼無人機在飛行時的飛行噪音信號進行分析。時域下無人機噪音信號如圖1所示。與其他聲學(xué)信號一樣,時域信號幅值隨著無人機與聲傳感器的相對距離而發(fā)生變化,距離越大強度越小。
圖1 時域下無人機噪聲信號
通過傅里葉變換可得其頻域特征,如圖2所示??梢钥闯銎淠芰恐饕性?00~2 000 Hz、7 600~9 900 Hz的范圍之間,符合人耳20~20 kHz聽覺范圍。
圖2 無人機噪聲頻譜圖
通過相關(guān)文獻得知,無人機所產(chǎn)生的噪音主要來自3個方面:1)電機轉(zhuǎn)動所產(chǎn)生的機械噪音;2)旋翼與空氣發(fā)生高速相對運動所產(chǎn)生的氣動噪音;3)機體與空氣摩擦所產(chǎn)生的噪音。
但第一個和第三個方面相對氣動噪音頻率高幅度低,在遠場環(huán)境下捕捉困難,信噪比過低。因此應(yīng)針對氣動噪音進行捕捉。由于風的影響和機體自身運動所產(chǎn)生的多普勒效應(yīng),使用傳統(tǒng)的MFCC與FFT進行信號分析效果并不佳,不太適合運用于工程當中。因此需要采用其他特征提取算法能夠解決風噪的問題。
針對該類非線性、非平穩(wěn)信號,傳統(tǒng)方法一般使用經(jīng)驗?zāi)B(tài)分解方法(empirical mode decomposition,EMD),但此方法由于理論自身缺陷存在波形混疊、端點效應(yīng)等負面現(xiàn)象,嚴重影響對信號的分解。K·Dragomiretskiy等[5]提出了一種全新的自適應(yīng)分解方法——變分模態(tài)分解(variational mode decomposition,VMD),該方法不但可以極大程度緩解EMD的固有缺陷,且對噪音的魯棒性好,分解出的IMF分量數(shù)量固定,可以準確分解出不同頻率段的信號。其核心是通過迭代搜索約束變分模型的最優(yōu)解來自動獲取固有模態(tài)函數(shù)的帶寬以及核心頻率,從而按照頻率對信號進行分解。利用其約束變分模型引入二次乘法因子來降低干擾,同時使用拉格朗日乘子法將其轉(zhuǎn)化為非約束變分問題。最后得到增廣拉格朗日表達式[5]為:
式中:f——原始信號;
uk——所得模態(tài)函數(shù);
ωk——各個模態(tài)中心頻率;
α——懲罰因子;
λ——拉格朗日因子。
最后利用ADMM算法迭代更新ωk,uk,λ,從而求得該模型的解。為求解方便將uk轉(zhuǎn)化至頻域,最后可得三者的更新公式[6]為:
跟EMD分解理論一樣,一個信號可以由多個VMD分解所得的IMF疊加而成,可以根據(jù)重構(gòu)算法反向重構(gòu)至原信號。而該種分解得到的每個IMF是由信號中擁有相同中心頻率的特定頻率信號組合。在K=8的情況下無人機噪音、安靜公園與嘈雜街道每個IMF信號能量與原信號的能量占比經(jīng)過歸一化后如圖3~圖5所示。
圖3 無人機噪聲信號IMF能量占比
圖4 安靜公園噪聲信號IMF能量占比
圖5 嘈雜街道噪聲信號IMF能量占比
可以看出二者有較大差別。說明每個分量的能量與原信號的能量占比可以作為識別無人機噪音的特征量之一。且還可利用所分解出的IMF信號進行進一步處理獲取更多特征維度。
人類聽到聲音的原理為機械震動在耳蝸的入口產(chǎn)生駐波,引起基底膜以與輸入聲波頻率相稱的頻率協(xié)調(diào)在此頻率上的最大幅度震動。其中基底膜的工作特點為:1)不同地方的細胞膜頻率響應(yīng)不同;2)基底膜被視為非均勻濾波器組;3)濾波器組中的單個濾波器中心頻率和濾波器帶寬的比值可視為常數(shù)。
因此在語音信號處理方面廣泛采用按照人耳對不同聲音頻率敏感程度所設(shè)計的MEL濾波器組對語音信號進行濾波,獲得其在不同頻率范圍內(nèi)的能量分布。其響應(yīng)函數(shù)為[7]:
其中f(m)為第m個濾波器中心頻率。
通過MEL濾波器組后進行一系列變換后可得MFCC。其提取過程如下所示:1)信號預(yù)處理(包括分幀、預(yù)加重、加窗);2)對信號進行VMD分解得到IMF信號;3)將2)中所得信號作FFT求取能量譜,并將其通過MEL濾波器組;4)取對數(shù)進行離散余弦變換。
無人機噪聲信號VMD分解后IMF0信號某幀MFCC圖像如圖6所示。其中顏色越偏紅,說明該m階MFCC值越大,表示信號頻譜的能量在第m個濾波器對應(yīng)頻率范圍的能量分布大。相反,顏色越偏藍,說明該m階MFCC值越小,表示信號頻譜的能量在第m個濾波器對應(yīng)頻率范圍的能量分布小。
圖6 無人機噪聲信號IMF0某幀MFCC圖
嘈雜街道、安靜公園噪聲信號VMD分解后IMF0信號某幀MFCC如圖7~圖8所示。
圖7 嘈雜街道噪聲信號IMF0某幀MFCC圖
圖8 安靜公園噪聲信號IMF0某幀MFCC圖
為了體現(xiàn)連續(xù)信號每一幀的關(guān)聯(lián)性,得到目標噪聲的MFCC后,通過差分計算得到其一階差分參數(shù)ΔMFCC,與之前的MFCCCt(n)一起作為特征量。ΔMFCC通過如下式求出:
由于之前對信號進行了VMD分解,因此本算法對VMD分解所得IMF信號進行變換得到更多的MFCC特征量。
與MEL濾波器類似,GammaTone濾波器是一組用來模擬耳蝸頻率分解特點的濾波器模型。但前者并沒有考慮到耳蝸基底膜的主動反饋性和對頻率變化響應(yīng)的非線性,因此使用GammaTone濾波器組引入了非線性變化,魯棒性更好、抗噪能力更強,可以用于音頻信號的分解,便于后續(xù)進行特征提取。由于使用該濾波器時中心頻率f0相對于衰減因子b足夠大,因此可以簡化濾波器頻域響應(yīng)表達式。組成其濾波器組的濾波器頻域響應(yīng)表達式[8]為
其中n為濾波器階數(shù)。
經(jīng)過研究取n=4,其中衰減因子b與中心頻率關(guān)系為:
經(jīng)過GammaTone濾波器后所提取的特征參數(shù)稱為GFCC。無人機噪聲信號VMD分解后IMF0信號某幀GFCC圖像如圖9所示。其中顏色越偏紅,說明該m階GFCC值越大,表示信號頻譜的能量在第m個濾波器對應(yīng)頻率范圍的能量分布大。相反,顏色越偏藍,說明該m階GFCC值越小,表示信號頻譜的能量在第m個濾波器對應(yīng)頻率范圍的能量分布小。
圖9 無人機噪聲信號IMF0某幀GFCC圖
嘈雜街道、安靜公園噪聲信號VMD分解后IMF0信號某幀GFCC如圖10~圖11所示。
圖10 嘈雜街道噪聲信號IMF0某幀GFCC圖
圖11 安靜公園噪聲信號IMF0某幀GFCC圖
該濾波器組相比于MEL濾波器組為非線性濾波,因此GFCC擁有更高的魯棒性。與MFCC類似,其提取過程如下所示:1)信號預(yù)處理(包括分幀、預(yù)加重、加窗);2)對信號進行VMD分解得到IMF信號;3)將2)中所得信號作FFT求取能量譜,并將其通過GammaTone濾波器組;4)取對數(shù)進行離散余弦變換。
同樣,為了體現(xiàn)連續(xù)信號每一幀的關(guān)聯(lián)性,得到目標噪聲的GFCC后,通過差分計算得到其一階差分參數(shù),與之前的GFCC一起作為特征量。由于之前對信號進行了VMD分解,因此本算法對VMD分解所得IMF信號進行變換得到更多的GFCC特征量。
隨機森林算法是機器學(xué)習(xí)、計算機視覺等領(lǐng)域內(nèi)應(yīng)用較為廣泛的一個分類器,也可以作為一種數(shù)據(jù)降維的手段[9]。近年來也被廣泛應(yīng)用到了基于各種特征的語音信號識別領(lǐng)域[10]。通過集成學(xué)習(xí)的思想,將原本作為弱分類器的多棵決策樹最后集成到一起,從而形成一個強分類器,以實現(xiàn)比較復(fù)雜的分類。
隨機森林運用Bagging的思想,在變量(列)和數(shù)據(jù)(行)的使用上進行隨機化,對訓(xùn)練集進行有放回地隨機抽樣生成很多分類樹,每個樹都是一個獨立的判斷分支,互相之間彼此獨立。隨機森林的優(yōu)點在運算量沒有顯著提高的前提下提高了預(yù)測精度,解決了決策樹面對高維特征的對象容易過擬合的缺點,對缺失數(shù)據(jù)有良好的魯棒性,可以很好地對擁有多個特征的信息進行分類。其中生成決策樹的算法本文中采用基尼指數(shù)[11]:
式中:D——整個訓(xùn)練集集合;
Ck——訓(xùn)練集中每種樣本的數(shù)目;
D1與D2——每個按特征分類的兩種類別集合。
基尼指數(shù)越小,集合不確定性越小,因此每棵決策樹每個節(jié)點都選取基尼指數(shù)最小的特征分類點進行分類。
當在基于某此屬性對一個新的對象進行分類判別時,隨機森林中的每一棵樹都會給出自己的分類選擇,并由此進行加權(quán)輸出。在本算法中相比其他機器算法,該算法不用進行相關(guān)參數(shù)的調(diào)整,且自帶有降維和特征選擇的功能,比較適合作為解決該類問題的分類器。
結(jié)合上文所述特征和分類器,總結(jié)出本文提出的一種無人機噪音信號識別的算法流程如圖12所示。
圖12 算法流程圖
該算法中,特征值MFCC與GFCC都是從由VMD分解所得的IMF信號中提取的,因此以下稱為VMFCC與VGFCC。
仿真實驗基于Python3.8,樣本語音為利用NI數(shù)采和BM-K-5拾音器采集的的嘈雜街道環(huán)境音以及該環(huán)境下不同距離四旋翼無人機飛行噪音(10~20 m)、安靜公園環(huán)境噪音以及該環(huán)境下的四旋翼無人機飛行噪音(10~20 m)。每種音頻樣本數(shù)為300,歸一化后50%樣本用于訓(xùn)練,采樣頻率為20 kHz,預(yù)加重系數(shù)為0.97,加窗類型為Hamming,幀長100 ms,幀移50 ms。VMD的K取8,GFCC/MFCC的倒譜系數(shù)數(shù)目取13,分別采用EMD能量占比+(Δ)EMFCC、EMD能量占比+(Δ)EGFCC、VMD能量占比+(Δ)VMFCC、VMD能量占比+(Δ)VGFCC、VMD能量占比+(Δ)VGFCC+(Δ)VMFCC特征,投入隨機森林分類器中進行分類,所得結(jié)果如表1所示。
表1 本文特征與其他特征比較
從表中可以看出:
1)在使用VMD分解的特征提取算法中,其準確率比EMD分解后獲取的同類特征提取算法最多高出11%。
2)其中在使用VMD能量占比特征的前提下使用(Δ)VGFCC在面對高信噪比樣本時識別率低于(Δ)VMFCC,但在面對嘈雜環(huán)境下的無人機樣本時識別率高于VMFCC。
3)VMD能量占比+(Δ)VGFCC+(Δ)VMFCC的識別率在面對不同距離高低信噪比的無人機噪音信號都高于二者單獨使用時的識別率。
針對傳統(tǒng)無人機聲噪信號識別魯棒性不高的問題,本文在前人提出的無人機聲音特征提取方法上進行改進,將VMD能量占比和VMD所分解得到的GFCC作為在低信噪比環(huán)境下的識別特征,把可以自動挑選特征量的隨機森林算法作為分類器進行試驗,證明該混合特征對改善低信噪比下無人機聲音識別正確率的有效性。但若距離較遠(大于20 m)的情況下,信噪比進一步降低,其識別準確率有顯著下降。因此下一步工作是尋找更好的分類器和特征提取算法,提高識別距離。