梁雍,陳克安,張冰瑞,楊立學
(西北工業(yè)大學航海學院環(huán)境工程系,西安710072)
沖擊聲的固有結構建模及目標識別
梁雍,陳克安,張冰瑞,楊立學
(西北工業(yè)大學航海學院環(huán)境工程系,西安710072)
將統(tǒng)計數據驅動方法應用于沖擊聲的固有結構建模,研究了單個沖擊信號及沖擊聲組的時域和頻域特征提取方法,并將所提特征用于圓柱殼沖擊聲和公路空洞檢測沖擊聲分類,獲得了良好效果,證實了該方法用于沖擊聲目標分類的有效程度。
振動與波;數據驅動;沖擊聲;固有結構建模;特征提?。荒繕朔诸?/p>
環(huán)境聲識別是信號處理和模式識別等領域的熱點研究方向,在軍事和民用領域都有重要應用。特征提取是聲目標識別的關鍵。目前,主要的特征包括時域特征、頻域特征[1]及時—頻域分析特征[2,3]等。上述方法經過多年的發(fā)展,在處理穩(wěn)態(tài)信號時取得了較好效果,但對于非穩(wěn)態(tài)信號,特別是沖擊聲信號,則有很大的局限性。沖擊聲時域持續(xù)時間短,具有突然發(fā)聲和迅速衰減的特性,且多為寬頻帶信號[4]。環(huán)境聲中,沖擊聲占有特別突出的地位,針對沖擊聲的目標識別有很高的應用價值。
傅里葉分析在信號分析中占有重要地位,它建立了從時域到頻域的變換橋梁,但傅里葉變換是一種域變換方法,缺乏局部信息,在處理非穩(wěn)態(tài)信號時有局限性。對非穩(wěn)態(tài)信號,需要局域性的基函數,用時間和頻域的聯(lián)合函數表示信號。Gabor變換[5]、短時傅里葉變換(short time Fourier transform,STFT)[6]、小波變換[7]等都是線性時頻變換方法,其中小波變換具有多分辨能力,能夠對不同的頻帶使用不同的基函數,但小波分析只將信號分解到已知的固定基函數上,基函數的確定需要預先知道信號參數結構和約束條件。Hilbert-Huang變換[8]將信號分解成一組本征模態(tài)函數(Intrinsic mode function,IMF),并對IMF進行Hilbert變換得到信號的瞬時特征,而不需要固定基函數,是一種更具適應性的時頻局部化分析方法。但該變換多用于分析單個信號的局部特征,大多數情況下,需要獲得一組相似信號的共同特征。Sofia等人[9]提出了一種基于統(tǒng)計數據驅動(statistical data-driven)的方法,利用主成分分析(principle component analysis,PCA)或獨立成分分析(Independent component analysis,ICA)得到信號的時域和頻域基函數,用以反映單個信號或一組信號的固有特征。這種方法不需要聲源或聲事件的先驗知識,能夠更有效地描述同類別聲音的共有特征和變化性。
在文獻[9]的基礎上,本文對沖擊聲采用數據驅動方法獲得時域和頻域基函數,來表達沖擊聲的固有特征,并將其用于沖擊聲的特性研究及目標識別。首先引入基于數據驅動的基函數模型及實現方法;然后針對圓柱殼沖擊聲提取時域和頻域基函數作為固有特征并分析其時頻特性;之后,以圓柱殼沖擊聲和公路空洞檢測聲為例,將提取的特征值用于目標自動分類,同時探討了數據驅動法在沖擊聲特性研究及目標識別中的進一步應用。
統(tǒng)計數據驅動法從數據中學習固有特征,它首先將信號表示為聲譜形式,然后利用PCA或ICA提取時域和頻域基函數,以此描述聲信號的固有特征。下面給出基函數模型及實現方法。
1.1 基函數模型
利用STFT,將沖擊聲信號變換到時間-頻率空間上,獲得聲譜S,其中S的行向量為棧,表示時間歷程上的頻率功率,列向量為幀,表示特定時間的功率譜。
設聲譜S的大小為(F×T),由離散頻率f∈{f1,…,fF}和離散時間t∈{t1,…,tT}確定。此處將聲譜表示成一組按頻率大小順序排列的棧序列,并將其建模為時域基函數φi的線性組合,有
其中bf是S第f個棧的轉置,ci,f為φi在該棧上的系數。I表示基函數φi的個數(I≤T)。φi是時間的函數,描述S中各棧的時域規(guī)律。此時,數據在新的空間中表示,其坐標軸為時域基函數φi,而ci,f為加權系數。由于系數矢量Ci=(ci,f1,…,ci,fF)T分布在整個頻率空間內,稱為譜源信號(spectral source signal)。
對于一組沖擊聲信號,要獲得它們共有的時域特征,即用固定基函數Φ(Φ代表一組時域基函數φi)描述不同聲音的聲譜Sk,需要用不同的譜源信號標度基函數φi,即每個聲音對應一組譜源信號。因此,對于具有相似結構的一組聲譜Sk(S1,S2,...,SK),式(1)可改寫為
結合式(2)和式(3),Sk可表達如下
上式說明,Sk能用時域基函數Φ、頻域基函數ψ(其中ψ包含所有的頻域基函數)和一組系數Vk(其中,Vk包含)表達。時域基函數和頻域基函數分別描述了聲音在時間和頻率上共同的變化規(guī)律,是信號的固有結構或固有特征。
1.2 實現方法
依據上一小節(jié)的描述,給出提取信號固有結構的方法。對一個沖擊聲信號,采用STFT獲得聲譜:取合適長度的滑動漢寧窗處理信號,之后進行傅里葉變換,獲得信號聲譜S。由于ICA[10,11]是尋找能夠最優(yōu)表示數據分布并減少冗余度的方法,因此可以利用ICA技術學習基函數。
假定大小為N的M個信號(稱為源信號,用矩陣Y(M×N)表示,每行表示一個信號)混合成M個混合信號(用矩陣X(M×N)表示,每行表示一個信號)。利用ICA學習獲得矩陣W(M×M),然后用它從矩陣X中提取源信號,即
如果A=W-1,此式可重寫為
對單個沖擊聲,矩陣X為聲譜S,A為時域基函數Φ,Y是譜源信號C。對K個沖擊聲Sk(S1,S2,...,SK),矩陣X由行相關的轉置聲譜((S1)T,(S2)T,...,(SK)T)組成,A為時域基函數Φ,而Y則為行相關的譜源信號(C1,C2,...,CK)。每個譜源信號Ck對應一個沖擊聲,可將矩陣組改寫為(D1,D2,...,DI),其中對應第i個時域基函數。此時,矩陣X由行相關的轉置譜((D1)T,(D2)T,...,(DI)T)組成,A為頻域基函數ψ,Y是得到的系數向量Ui,經過變換可得系數矩陣Vk。
本節(jié)以圓柱殼沖擊聲為例(聲音獲取方法見下節(jié)),提取其時域和頻域基函數,并分析固有特征的特性。下面分別提取單個沖擊聲的固有特征及一組沖擊聲的共有特征。
2.1 時域基函數
如圖1所示為圓柱殼沖擊聲的時域波形,聲信號時長1 s。
圖1 沖擊聲時域圖
用128 ms的滑動漢寧窗計算聲譜,連續(xù)窗之間重疊86 ms,選擇2 048點的傅里葉變換,獲得聲譜S,并對其進行ICA,提取獨立分量作為時域基函數。根據基函數所能解釋的原信號方差的百分比,計算時域基函數解釋信息的百分比。圖2給出了提取的前5個時域基函數(φa—φe)的波形,它們解釋了原信號98.6%的信息見表1。
圖2 單個圓柱殼沖擊聲的前5個時域基函數
表1 單個沖擊聲各時域基函數解釋的信息量
由圖2可以看出,ICA能夠分離聲音的時域特性:基函數φa表現了聲音的尖銳特性,基函數φd能表現聲音的衰減特性,基函數φb、φc聲音的沖擊特性有一定關系。
然后處理由相似沖擊聲組成的一組聲音。首先對該組聲音進行STFT,獲得聲譜Sk,并對聲譜處理,得到行相關的轉置聲譜((S1)T,(S2)T,...,(SK)T),利用ICA學習聲譜。此時,前5個時域基函數能夠解釋該組信號97.9%的信息,表2。圖3為ICA學習一組圓柱殼沖擊聲得到的前5個共同時域基函數的波形。
表2 一組沖擊聲各時域基函數解釋的信息量
圖3 一組圓柱殼沖擊聲的前5個時域基函數
比較圖3與圖2中基函數的波形發(fā)現,它們的形狀基本相似,只是共同基函數在某些地方更為平滑,這說明了同類沖擊聲固有結構的相似性。用沖擊聲組的共同時域基函數也可以描述其中單個沖擊聲的時域結構。
2.2 頻域基函數
對單個沖擊聲進行ICA獲得時域基函數Φ,同時得到圓柱殼沖擊聲的譜源信號C,圖4顯示了與圖2中時域基函數對應的5個譜源信號(Ca—Ce)的頻域曲線。譜源信號是頻率的函數。
由圖2和圖4可以看出,基函數解釋的信息越多,它對應譜源信號占的泛音就越多。圖2中的φa解釋了聲信號74.9%的信息,因此對應的Ca最復雜;而φe僅解釋了聲信號1.2%的信息,對應的Ce僅在單個頻率點處有峰值,而在其他頻率處幾乎為零。觀察發(fā)現,不同的譜源信號在不同的頻率處有峰值,這說明其對應的時域基函數能夠在這些頻率處更好解釋信號。
圖4 單個沖擊聲的譜源信號
對一組沖擊聲進行ICA,可以獲得該組聲音的譜源信號(C1,C2,...,CK)。雖然各譜源信號間存在差異,但它們有很多共同結構。為了提取這些共同結構,可將ICA再用于對譜源信號規(guī)律建模。對于K個沖擊聲信號,有譜源信號組(C1,C2,...,CK),每個源信號Ck對應一個沖擊聲,將矩陣組改寫為(D1,D2,...,DI),其中,對應第i個時域基函數。對矩陣Di進行ICA,得到對應φi的頻域基函數ψi,其中表示第j個頻域基函數。圖5給出了圓柱殼沖擊聲組與圖3中基函數φc對應的前5個頻域基函數,它們共解釋了譜源信號組87%的信息。由圖5可見,頻域基函數與譜源信號Cc有一定的相似性,是譜源信號Cc的細節(jié)展開。
圖5 對應時域基函數φc的頻域基函數
2.3 系數矩陣Vk的物理含義
對于一組相似聲信號,在獲得聲信號組共同的時域和頻域基函數后,可以計算出系數矩陣組(V1,V2,...,VK),其中Vk對應第k個聲信號,標量對應該信號在第i個時域基函數上的第j個頻域基函數??偟恼f來,時域基函數和頻域基函數描述聲音的共有特征,而Vk則描述聲信號的變化性。從特征提取的角度看,時域基函數和頻域基函數表現了信號固有特征的形狀,而vij是特征的幅度,即特征值。在目標識別中,可以將系數矩陣Vk作為特征值用于聲信號分類。
本節(jié)以圓柱殼沖擊聲和公路空洞檢測聲為例,研究基于時域和頻域基函數特征的沖擊聲分類。首先介紹沖擊聲的產生方法,然后利用數據驅動方法獲得兩類基函數及相應的幅值,最后進行聲音分類。
3.1 圓柱殼沖擊聲
3.1.1 聲樣本采集
在消聲室中,用木槌敲擊3個圓柱殼產生沖擊聲。3個圓柱殼長度(50 cm)和直徑(20 cm)相同,僅材料不同。由于直接敲擊鋼管產生的沖擊聲衰減很慢,持續(xù)時間遠遠長于PVC塑料管和鋁管產生的沖擊聲,而內壁貼橡膠層的鋼管產生的沖擊聲迅速衰減,在時域波形上與PVC塑料管和鋁管更相似,故實驗選用內壁貼橡膠層的鋼管。實驗中被擊圓柱殼包括內壁貼0.5 mm橡膠層的鋼管、PVC塑料管和鋁管三種,激勵裝置為木槌。
用木槌敲擊兩端自由的圓柱殼,選擇三個敲擊位置:左端、中間和右端(左右端位置距邊緣10 cm)。敲擊時盡量保持力度一致。由于對圓柱殼的激勵是手動敲擊,每次敲擊的位置和力度不可避免地會有微小變化,但是,這些聲音的結構是相似的。用聲級計采集沖擊聲信號,采樣頻率為48 kHz,每個信號時長為1 s。本次實驗共獲得沖擊聲信號159個,包括60個PVC塑料管沖擊聲、38個鋁管沖擊聲和61個鋼管沖擊聲。
3.1.2 圓柱材料分類
用128 ms的滑動漢寧窗計算聲譜,連續(xù)窗之間重疊86 ms,用2048點的傅里葉變換獲得聲譜(S1,S2,...,S159)。將聲譜轉置獲得行相關的矩陣組((S1)T,(S2)T,...,(S159)T)并對其進行ICA,提取獨立分量作為時域基函數??紤]到前5個時域基函數能夠解釋原始信號的98.2%的信息(各時域基函數解釋的信息百分比見表3),因此選擇前5個時域基函數作為時域特征;同時得到譜源信號組(C1,C2,...,C159),對其進行ICA處理,提取頻域特征,選擇前10個獨立分量作為頻域基函數。
將計算得到的系數向量作為特征,利用徑向基函數神經網絡(RBF)進行目標分類。從每一類中隨機選取20個信號作為訓練信號,其他的用來測試。首先,選用不同時域基函數作為特征,對應的系數向量作為特征值進行分類,每個特征為10維。各時域基函數下的分類正確率如表4所示。
表3 各時域基函數解釋的信息量
表4 不同時域基函數下的分類效果
由表4觀察發(fā)現,最低的正確率達到了93.9%,通過較低的特征維數能夠達到如此好的分類效果,可見時域基函數是良好的分類特征。不同的基函數下的分類結果有差異,這說明了沖擊聲在不同基函數上的變化性不同。例如,在基函數φa下的系數向量分類正確率為95.8%;而在基函數φc下的系數向量分類正確率為97.3%。雖然φa能夠解釋原信號的信息最多(71.8%),但不一定是能夠最好分類的特征。而φc雖然僅解釋了原信號6.4%的信息,但是其對應的系數向量分類效果最好,這說明不同的聲信號在φc上能夠更好區(qū)分。上述特性的機理分析有待進一步深入研究。
與時域基函數相同,頻域基函數應該也能作為分類器特征進行目標分類。選用前6個頻域基函數作為特征,對應的系數向量作為特征值進行分類,發(fā)現分類效果遠不如時域基函數,如表5所示。最高的正確率也僅有92%,這可能是由于頻域基函數不能很好地對聲信號的變化性進行建模。同時發(fā)現,不同頻域基函數對應系數向量的分類效果差異也很大,不同頻域基函數對聲信號的區(qū)分能力也不同。
表5 不同頻域基函數下的分類效果
3.2 公路空洞檢測聲
3.2.1 聲樣本采集
水泥混凝土路面在我國公路網構成中占有較大比重,然而在實際應用中,由于車輛載荷的重復作用及基層變形等原因,導致部分路面混凝土板下局部出現脫空。因此,迅速準確地判定脫空位置和范圍對混凝土路面維修具有重要意義。對此,采用聲振法對路面脫空進行檢測。
實驗中,重5 kg的鐵球從固定高度(98 cm)自由落體,沖擊路面測點,產生沖擊聲用于判斷公路路基狀態(tài)(有無空洞)。利用聲級計采集沖擊聲信號,信號采樣頻率為16 kHz,每個信號時長0.5 s。實驗一共獲得沖擊聲信號550個,其中354個信號對應不空點,196個信號對應空點。路基的實際脫空狀態(tài)通過取芯灌水確定:取芯機在路面取出直徑10 cm、高約30 cm(目前普通國道的混凝土厚度)的混凝土圓柱,對芯洞灌水,若有大量滲水,則認為路基為空。
3.2.2 路基狀態(tài)分類
獲取時域和頻域基函數的方法和參數同上。時域基函數選擇前5個,頻域基函數選擇前20個。將時域基函數作為特征(20維),對應的系數作為特征值,利用RBF分類器進行目標分類。從每一類中隨機選取78個信號作為訓練信號,其他的用來測試。
用時域基函數對應的系數向量進行分類,結果如表6所示。由表6可見,在基函數φa下的分類正確率為72.5%;而在基函數φd下的分類正確率為83.6%;特征組合能夠達到的正確率更高,利用第2、3、4個基函數對應的系數向量作為特征值進行分類,正確率達到86.8%。頻域基函數下的系數向量分類效果較差,此處不再列出。
表6 不同時域基函數下的分類效果
實際工程中,由于信號錄制時的背景噪聲、路面本身脫空的原因非常復雜,脫空檢測的難度很大。本文利用聲振法,并對采集到的信號進行固有特征提取,用于目標分類,得到了較好的檢測效果。
同時,我們利用傳統(tǒng)的信號特征,包括持續(xù)時間、譜下降值、倒譜系數等進行沖擊聲信號的分類,發(fā)現分類結果比基于基函數方法的結果要差這證明基函數特征能夠有效用于沖擊聲分類。
本文引入統(tǒng)計數據驅動方法提取沖擊聲的時域和頻域基函數作為固有特征,并將其用于沖擊聲的特征提取和特性研究,之后將所提特征用于相似沖擊聲目標的分類,獲得了良好的分類效果。通過對兩類實測數據的分類,得到以下結論:
(1)統(tǒng)計數據驅動方法不需要先驗知識,它可以從實測數據中學習聲信號的基函數作為固有特征,并在低維空間進行表達。在實際應用中,這比傳統(tǒng)的時頻分析方法(如Gabor變換、小波變換等)有明顯優(yōu)勢。同時,該方法不僅能夠描述單個沖擊聲的固有特征,而且能夠獲取多個相似聲信號的共有特征;
(2)本文方法不需要預定特征集,通過統(tǒng)計學習可得到信號特征。這些特征能夠表達聲音的共有的變化規(guī)律和獨特的變化性。本文先提取時域特征,然后提取頻域特征,最后得到系數矩陣;當然,也可以嘗試先提取頻域特征,之后提取時域特征,限于本文篇幅,不再列舉;
(3)在對基函數的分析中發(fā)現,基函數(尤其是時域基函數)呈現出與聲源結構密切相關的特征,說明這些基函數具有表達聲源物理屬性的潛能,這為聲源物理屬性辨識研究提供了思路。
[1]章新華.水下目標自動識別的核心技術[J].兵工學報, 1998,19(3):275-280.
[2]王峰,尹力,朱明洪.基于Hilbert-Huang變換的水聲信號特征提取及分類技術[J].應用聲學,2007,26 (4):223-230.
[3]滕月慧,劉平香,董陽澤.經驗模態(tài)分解方法在水下目標分類中的應用[J].艦船科學技術,2010,32(3):66-69.[4]Truax B.Handbook for acoustic ecology[M].Burnaby, BC,Canada:Simon Fraser University,1999.
[5]Gabor D.Theory of communication[J].J.Inst.Elec.Eng., 1946,93:429-457.
[6]Potter R K,Kopp G,Green H C.Visible speech[M].New York:Van Nostrand,1947.
[7]崔錦泰.小波分析導論[M].西安:西安交通大學出版社,1995.
[8]張海勇.一種新的非平穩(wěn)信號分析方法—局部波分析[J].電子與信息學報,2003,10(25):1327-1333.
[9]Sofia C,M ichael S.Statistical modeling of intrinsic structures in impact sounds[J].J.Acoust Soc.Am.,2007, 121(6):3558-3568.
[10]Hyv?rinen A,Karhunen J,Oja E.Independent component analysis[M].New York:Wiley,2001.
[11]Stone J V.Independent component analysis:A tutorial introduction[M].M IT,Cambridge:MA,2004.
Intrinsic Structure Modeling and Target Recognition for Impact Sounds
LIANG Yong,CHEN Ke-an,ZHANG Bing-rui,YANG Li-xue
(School of Marine Engineering,Northwestern Polytechnical University,Xi’an 710072,China)
The statistical data-driven method is used to model the intrinsic structures of impact sounds.The method for extraction of essential features in time and frequency domains of single impact sound and ensembles of similar impact sounds are studied based on the temporal and spectral base functions.Using this method,the temporal and spectral features of sounds from an impacted cylinder hull and road cavity exam ination are extracted and then classified by an RBF-based classifier.It is shown that such a feature extraction method can achieve good classification performances for both types of sounds.
vibration and wave;statistical data-driven method;impact sounds;intrinsic structure modeling;feature extraction;target classification
TB52
A
10.3969/j.issn.1006-1335.2014.01.034
1006-1355(2014)01-0150-05
2013-03-11
國家自然科學基金資助課題(基金號:11074202)
梁雍(1989-),女,河南人,博士研究生,方向為心理聲學。
E-mail:liangyongdejia@126.com