吳 亮,楊會(huì)金
(1. 海軍駐大連地區(qū)軍事代表室,遼寧 大連 116021;2. 大連測(cè)控技術(shù)研究所,遼寧 大連 116021)
聽(tīng)覺(jué)譜特征在水下目標(biāo)回聲識(shí)別中的應(yīng)用
吳 亮1,楊會(huì)金2
(1. 海軍駐大連地區(qū)軍事代表室,遼寧 大連 116021;2. 大連測(cè)控技術(shù)研究所,遼寧 大連 116021)
水下目標(biāo)回聲特征提取是主動(dòng)目標(biāo)識(shí)別的關(guān)鍵內(nèi)容。本文提出將語(yǔ)音識(shí)別領(lǐng)域中較為成熟的 RASTAPLP 聽(tīng)覺(jué)模型應(yīng)用于水中目標(biāo)回波的特征提取,并根據(jù)信號(hào)的特點(diǎn)對(duì) RASTA-PLP 模型進(jìn)行修正。對(duì)比應(yīng)用 PLP 方法進(jìn)行的水中目標(biāo)單頻回波識(shí)別實(shí)驗(yàn),結(jié)果表明:當(dāng)加入卷積噪聲后,修正的 RASTA-PLP 特征表現(xiàn)出更加良好的魯棒性能,在同等測(cè)試條件下識(shí)別率比 PLP 聽(tīng)覺(jué)模型特征高約 3%,顯示了本方法在實(shí)現(xiàn)目標(biāo)回聲自動(dòng)識(shí)別上的重要應(yīng)用前景。
回波信號(hào);識(shí)別;修正的 RASTA-PLP 聽(tīng)覺(jué)模型;魯棒性
使用合適的方法、提取精確表達(dá)水下目標(biāo)的特征來(lái)進(jìn)行目標(biāo)分類(lèi),是水聲領(lǐng)域的一個(gè)難題。人們?cè)?jīng)通過(guò)傳統(tǒng)的信號(hào)處理方法以及時(shí)頻、非高斯、非線性分析方法提取過(guò)水下聲信號(hào)的許多有用特征,但這些特征也只是反映了目標(biāo)信號(hào)特征的某個(gè)側(cè)面,如時(shí)頻分析反映的是隨時(shí)間變化頻率的變化情況,非高斯方法是基于對(duì)噪聲非高斯假設(shè)的限定等[1]。
依靠人耳及其靈敏的聽(tīng)覺(jué)系統(tǒng)和長(zhǎng)期在實(shí)踐中積累的經(jīng)驗(yàn)來(lái)判斷水下目標(biāo)類(lèi)型仍是水下目標(biāo)識(shí)別的重要途徑之一。國(guó)外研究人員提取了水下目標(biāo)的聽(tīng)覺(jué)特征及心理參數(shù)特征,利用這些特征可以識(shí)別目標(biāo)類(lèi)型、甚至可以識(shí)別目標(biāo)的材質(zhì)[2–5]。我國(guó)這方面研究起步較晚,有許多工作需深入展開(kāi)。
感知線性預(yù)測(cè)(PLP)技術(shù)是由 Hynek Hermansky提出的一種語(yǔ)音分析技術(shù)[6]。為了更進(jìn)一步去掉信道干擾,RASTA 濾波處理技術(shù)被提出[7–8],它主要是為了解決緩慢時(shí)變的線性信道帶來(lái)的失真問(wèn)題,即卷積性失真。
本文提出將 RASTA 濾波技術(shù)與 PLP 方法結(jié)合應(yīng)用到了水聲信號(hào)處理領(lǐng)域中,且根據(jù)水聲信號(hào)的特點(diǎn)對(duì) RASTA 濾波算法進(jìn)行了修正。對(duì)比應(yīng)用 PLP 方法進(jìn)行的水中目標(biāo)回聲識(shí)別實(shí)驗(yàn),發(fā)現(xiàn)修正后的 RASTA濾波技術(shù)在抗卷積噪聲方面效果較為理想。
人耳可以聽(tīng)到頻率在 20 Hz~20 kHz 范圍內(nèi)的聲音。人耳聽(tīng)覺(jué)系統(tǒng)是一個(gè)音頻信號(hào)處理器,可以完成對(duì)聲信號(hào)的傳輸、轉(zhuǎn)換及綜合處理的功能,最終達(dá)到感知和識(shí)別目標(biāo)的目的。人耳的聽(tīng)覺(jué)系統(tǒng)有 2 個(gè)重要的特性,一個(gè)是耳蝸對(duì)于聲信號(hào)的分頻特性;另一個(gè)是人耳聽(tīng)覺(jué)掩蔽效應(yīng)。
1.1 掩蔽效應(yīng)
當(dāng) 2 個(gè)響度不等的聲音作用于人耳時(shí),則響度較高的頻率成分的存在會(huì)影響到對(duì)響度較低的頻率成分的感受,使其變得不易察覺(jué),這種現(xiàn)象稱(chēng)為掩蔽效應(yīng)。掩蔽是聽(tīng)覺(jué)系統(tǒng)的一個(gè)重要特征,它表明了人的聽(tīng)覺(jué)系統(tǒng)對(duì)頻率和時(shí)間分辨力的有限性。為了描述這種掩蔽效應(yīng),引入了臨界帶寬的概念。一個(gè)純音可以被以它為中心頻率、并且具有一定頻帶寬度的連續(xù)噪聲所掩蔽,如果在這一頻帶內(nèi)噪聲功率等于該純音的功率,這時(shí)該純音處于剛能被聽(tīng)到的臨界狀態(tài),即稱(chēng)這一帶寬為臨界帶寬。一個(gè)臨界帶寬可以用巴克(Bark)來(lái)表示。在 20~16 kHz 范圍內(nèi)的聲音信號(hào)可以分為 22 個(gè) Bark。臨界頻帶與頻率是非線性關(guān)系,符合人耳基底膜對(duì)聲音的非線性分析特性。
1.2 耳蝸分頻
人耳的掩蔽效應(yīng)和由此而引起的臨界帶寬等都是由耳蝸的基本結(jié)構(gòu)所決定,當(dāng)聲音經(jīng)外耳道傳入中耳時(shí),鐙骨的運(yùn)動(dòng)引起耳蝸內(nèi)流體壓強(qiáng)的變化,從而引起行波沿基底膜的傳播。不同頻率的聲音產(chǎn)生不同的行波,其峰值出現(xiàn)在基底膜的不同位置上。頻率較低時(shí),基底膜振動(dòng)的幅度峰值出現(xiàn)在基底膜的頂部附近;相反,頻率較高時(shí),基底膜振動(dòng)的幅度峰值出現(xiàn)在基底膜的基部附近(靠近鐙骨)。圖 1 形象地說(shuō)明了基底膜的位置-頻率對(duì)應(yīng)關(guān)系。如果信號(hào)是一個(gè)多頻率信號(hào),則產(chǎn)生的行波將沿著基底膜在不同的位置產(chǎn)生最大幅度。在每一聲音頻率上,隨著強(qiáng)度的增加,基底膜運(yùn)動(dòng)的幅度增大,并且?guī)?dòng)更寬的部分振動(dòng)。從這個(gè)意義上講,耳蝸就像一個(gè)頻譜分析儀,基底膜可以看成是一組頻帶重疊的非線性帶通濾波器,這組帶通濾波器將整個(gè)頻帶劃分為若干個(gè)不等寬頻帶,稱(chēng)為臨界頻帶。鑒于此,可把基底膜從外向內(nèi)分成許多段,每段對(duì)應(yīng)于一個(gè)帶通濾波器,這樣整個(gè)基底膜可以看成一組頻帶重疊的帶通濾波器。
圖 1 基底膜的位置-頻率對(duì)應(yīng)關(guān)系Fig. 1 The congruent relationship between the location of basilar membrane
2.1 感知線性預(yù)測(cè)技術(shù)
感知線性預(yù)測(cè)技術(shù)(PLP,Perceptual Linear Predictive Analysis)主要在 3 個(gè)層次上模仿了人的聽(tīng)覺(jué)感知機(jī)理:1)臨界頻帶分析處理。2)等響曲線預(yù)加重。3)信號(hào)強(qiáng)度-聽(tīng)覺(jué)響度變換。從人耳的掩蔽效應(yīng)原理出發(fā),不僅考慮了臨界帶寬這種特性,并且考慮到耳蝸的分頻特性,另外它還具有計(jì)算量小、維數(shù)低的特點(diǎn)。
2.2 RASTA 濾波器
有證據(jù)表明,聽(tīng)覺(jué)通道對(duì) 4 Hz 左右的調(diào)制頻率最為敏感[7]。這一頻率有時(shí)也被稱(chēng)作音節(jié)速率,因?yàn)樗笾聦?duì)應(yīng)了我們正常說(shuō)話時(shí)音節(jié)出現(xiàn)的速率。RASTA處理正是利用了聽(tīng)覺(jué)上對(duì)這一調(diào)制頻率的敏感性來(lái)去除噪聲。首先對(duì)于慢變信道引起的失真,RASTA 對(duì)每一個(gè)通道采用一個(gè)濾波器,用于濾出通道中的直流和鄰近直流的頻率成分。此外,RASTA 濾波器也對(duì)較高調(diào)制頻率進(jìn)行了抑制,以此來(lái)突出人耳對(duì)以 4 Hz 頻率變化的信號(hào)的敏感。
RASTA 處理通常在對(duì)數(shù)譜或?qū)?shù)功率譜域進(jìn)行,其頻率響應(yīng)如下:
式(1)得到的 RASTA 帶通濾波器的頻率響應(yīng)如圖 2 所示。從圖中可以看出,RASTA 頻響的峰值大約在 4 Hz,它去除了慢變信號(hào)成分,且抑制了 16 Hz 以上的調(diào)制頻率成分。
2.3 修正的 RASTA 濾波器
圖 2 RASTA 帶通濾波器的頻率響應(yīng)Fig. 2 The frequency response of RASTA band-pass filter
本文所要分析的數(shù)據(jù)是水聲信號(hào),與語(yǔ)音信號(hào)有著很大的區(qū)別。這就面臨著如何修正該濾波器以適合水聲信號(hào)特點(diǎn)的問(wèn)題??梢约俣ū尘霸肼暤淖兓俾室刃盘?hào)慢,卷積噪聲經(jīng)過(guò) RASTA 濾波器處理后接近直流,因此本文 RASTA 濾波器修正為:RASTA 濾波器用通帶為 1 Hz 的高通濾波器,從而保留了 16 Hz以上的調(diào)制頻率成分。
為了實(shí)現(xiàn)快速運(yùn)算,選用頻域切割法實(shí)現(xiàn)高通濾波功能。對(duì)于輸入的時(shí)域信號(hào),做出其傅立葉變換,保留所需頻帶的值,其余點(diǎn)取為 0,然后對(duì)處理后的頻域信號(hào)進(jìn)行反變換得到濾波后的時(shí)域信號(hào)。
2.4 修正的 RASTA-PLP 聽(tīng)覺(jué)模型
本文提出將 RASTA 濾波技術(shù)與 PLP 方法結(jié)合模仿了人耳的聽(tīng)覺(jué)感知過(guò)程,具體處理流程見(jiàn)圖 3。
圖 3 修正的 RASTA-PLP 算法實(shí)現(xiàn)圖Fig. 3 The instruction of revised RASTA-PLP algorithm
2.4.1 短時(shí)功率譜
對(duì)接收的回波信號(hào)進(jìn)行短時(shí)傅里葉變換計(jì)算其功率譜 P(ω)。
2.4.2 臨界帶分析
功率譜 P(ω)沿其頻率軸 ω 按式(2)規(guī)整到人耳感知的 Bark 域,得到 P(Ω)[6]:
其中 ω 為角頻率,Ω 為 Bark 域頻率。然后將規(guī)整后的功率譜與模擬臨界帶曲線 Ψ(Ω)相卷。在 PLP 技術(shù)中,臨界帶曲線由下式給出:
據(jù)式(3)得到的濾波器在頻率軸上的分布情況如圖 4 所示。
對(duì)海外發(fā)行的重視是嶺南報(bào)刊的重要特色,這一傳播格局的基礎(chǔ)是數(shù)量眾多的華僑。嶺南是中國(guó)移民最早的地區(qū),19世紀(jì)資本主義擴(kuò)張對(duì)勞動(dòng)力的需求,出現(xiàn)了移民潮,移民地區(qū)主要是“美洲、大洋洲、非洲和東南亞的一些國(guó)家”。[12]東南亞許多國(guó)家中粵籍都在華僑中占多數(shù),[13]其他地區(qū),如南美地區(qū),“古巴華僑幾乎全是廣東省人,其中臺(tái)山縣的約占百分之四十”。[14]
功率譜 P(Ω)與臨界帶濾波器組曲線 Ψ(Ω)離散卷積即可得到臨界帶功率譜。
與原始 P(ω)相比,P(Ω)與臨界帶曲線 Ψ(Ω)的卷積在很大程度上減少了 Θ(Ω)的譜分析。
圖 4 23 通道濾波器頻率響應(yīng)Fig. 4 The frequency response of PLP filter
2.4.3 非線性壓縮變換
對(duì)臨界帶功率譜進(jìn)行非線性壓縮變換,把 Bark 譜轉(zhuǎn)化為 Bark 對(duì)數(shù)譜。
2.4.4 等響曲線預(yù)加重
心理聲學(xué)研究成果表明,在聲強(qiáng)一定的情況下,人耳對(duì)不同頻率聲音敏感程度不同,人耳對(duì)中高頻較為敏感,所以要對(duì)臨界帶分析所得到的譜進(jìn)行等響度級(jí)變換,經(jīng)變換后的響度級(jí)譜為[6]:
其中
2.4.5 強(qiáng)度-響度轉(zhuǎn)化
強(qiáng)度-響度轉(zhuǎn)換模仿了人耳對(duì)聲音強(qiáng)度感受的非線性飽和特性,這里用立方根壓縮曲線來(lái)近似[6]。
2.4.6 全極點(diǎn)模型逼近
對(duì) Φ(Ω)做完 IDFT 變換之后得到信號(hào)短時(shí)自相關(guān)函數(shù) R(τ),用全極點(diǎn)模型來(lái)逼近 R(τ),即做LPC 分析,使用萊文遜-杜賓遞推算法解得 p 階線性預(yù)測(cè)系數(shù) ai,i=1,2,…,p。為了增強(qiáng)對(duì)聲音特性的表述能力,又對(duì)預(yù)測(cè)系數(shù)進(jìn)行了譜分析,形成特征向量,以期更好顯現(xiàn)目標(biāo)特征。圖 6 給出了應(yīng)用修正的RASTA-PLP 模型提取的某類(lèi)目標(biāo)的 23 維特征向量。
圖 5 加權(quán)后的 PLP 濾波器響應(yīng)Fig. 5 The frequency response of PLP weighted filter
圖 6 某類(lèi)目標(biāo)基于修正RASTA-PLP聽(tīng)覺(jué)模型的特征圖Fig. 6 The feature pattern of some subjects extracted based on revised RASTA-PLP model
采用實(shí)測(cè)水中回波信號(hào)提取聽(tīng)覺(jué)模型特征,信號(hào)形式為單頻信號(hào),目標(biāo)分為 2 類(lèi),分別用 A 和 B 表示。樣本總數(shù)共 2 990 個(gè)。為了對(duì)該特征的效果進(jìn)行評(píng)估,同時(shí)提取了基于 PLP 聽(tīng)覺(jué)模型的回波特征,把基于PLP 模型的聽(tīng)覺(jué)特征和基于修正 RASTA-PLP 模型的聽(tīng)覺(jué)特征分別送入 FART 神經(jīng)網(wǎng)絡(luò)[9],進(jìn)行對(duì)比驗(yàn)證。
目標(biāo)信號(hào)數(shù)據(jù)分為訓(xùn)練集和測(cè)試集 2 部分,其比例為 1:10。2 類(lèi)目標(biāo)訓(xùn)練集的識(shí)別率均為 100%,測(cè)試結(jié)果如表 1 和表 2 所示,基于 PLP 聽(tīng)覺(jué)模型特征的總識(shí)別率為 97%,基于修正的 RASTA-PLP 聽(tīng)覺(jué)模型特征的總識(shí)別率為 97.29%,基于修正的 RASTA-PLP 聽(tīng)覺(jué)模型特征比基于 PLP 聽(tīng)覺(jué)模型特征的識(shí)別結(jié)果高 0.29%。
表 1 PLP 模型特征測(cè)試結(jié)果Tab. 1 Results obtained via using PLP model and with noise
表 2 修正的 RASTA-PLP 模型特征測(cè)試結(jié)果Tab. 2 Results obtained via using RASTA-PLP model with noise
為了更進(jìn)一步驗(yàn)證 RASTA-PLP 聽(tīng)覺(jué)特征的抗卷積性能,在實(shí)驗(yàn)中引入了高斯白噪聲,與信號(hào)進(jìn)行卷積,由此來(lái)模擬存在卷積噪聲的環(huán)境。圖 7 給出了同一目標(biāo)加噪前后的功率譜圖,由圖可看出功率譜的變化較大。
對(duì)回波信號(hào)加入卷積白噪聲,利用修正的 RASTAPLP 算法提取如圖 6 所示類(lèi)目標(biāo)的特征向量,特征如圖 8 所示。比較圖 6 和圖 8 可看出,特征曲線的趨勢(shì)加噪前后變化較小,這表明該特征抗卷積噪聲能力較強(qiáng)。
仍使用模糊自適應(yīng)共振分類(lèi)器(FART)來(lái)分類(lèi),
圖 7 同一目標(biāo)加噪前后的功率譜圖Fig. 7 The power spectrum of the same subject without and with noise
圖 8 與圖 6 相同目標(biāo)信號(hào)加噪后基于修正 RASTA-PLP 聽(tīng)覺(jué)模型的特征圖Fig. 8 The feature pattern of the same subjects with fig.6 extracted with noise based on revised RASTA-PLP model
表 3 加噪后 PLP 模型特征測(cè)試結(jié)果Tab. 3 Results obtained via using PLP model and with noise
表 4 加噪后修正 RASTA-PLP 模型特征測(cè)試結(jié)果Tab. 4 Results obtained via using RASTA-PLP model with noise
表 3 和表 4 分別給出了 PLP 模型和修正的 RASTA-PLP模型提取的特征分類(lèi)識(shí)別結(jié)果。對(duì)比表 3 和表 4 可以發(fā)現(xiàn),加入卷積噪聲后基于 PLP 模型的特征總識(shí)別率僅為 83.98%,基于修正的 RASTA-PLP 模型的總識(shí)別率為 86.39%,在相同條件下,基于修正的 RASTA-PLP聽(tīng)覺(jué)模型特征識(shí)別率高于基于 PLP 聽(tīng)覺(jué)模型特征識(shí)別率約 3%。這說(shuō)明基于修正的 RASTA-PLP 模型特征具有較強(qiáng)的魯棒性。
目標(biāo)回聲信號(hào)的特征提取是主動(dòng)聲吶的水下目標(biāo)識(shí)別的關(guān)鍵技術(shù)之一。信號(hào)處理的目的就在于尋找信號(hào)的有效表示,并如何去發(fā)現(xiàn)目標(biāo)的本質(zhì)特征,本文通過(guò)跟蹤研究較為成熟的語(yǔ)音識(shí)別技術(shù),提出基于修正的 RASTA-PLP 模型的抗卷積和脈沖噪聲的聽(tīng)覺(jué)特征,實(shí)現(xiàn)對(duì)人的聽(tīng)音識(shí)別過(guò)程的模擬,在此基礎(chǔ)上,利用 FART 神經(jīng)網(wǎng)絡(luò)進(jìn)行有效性驗(yàn)證,通過(guò)實(shí)驗(yàn)表明,對(duì)于水下目標(biāo)回波信號(hào),基于修正的 RASTA-PLP模型提取的特征比基于PLP模型提取的特征在抗卷積噪聲方面有更強(qiáng)的魯棒性。該特征提取技術(shù)開(kāi)辟了水中目標(biāo)回波特征提取的新途徑。
[1]彭圓, 王晟, 王科俊, 等. 感知線性預(yù)測(cè)在水下目標(biāo)分類(lèi)中的應(yīng)用研究[J]. 聲學(xué)學(xué)報(bào), 2006, 31(2): 146–150. PENG Yuan, WANG Sheng, WANG Jun-ke, et al. A study on underwater target classification applying perception linear prediction method[J]. Acta Acustica, 2006, 31(2): 146–150.
[2]ZWICKER E, FASTL H. Psychoacoustics: Facts and models[M]. New York: Springer-Verlag, 1999.
[3]HERMANSKY H, MORGAN N, BAYYA A, et al. RASTAPLP speech analysis technique[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. San Francisco, CA: IEEE, 1992, 1: 121–124.
[4]GHITZA O. Auditory models and human performance in tasks related to speech coding and speech recognition[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(1): 115–132.
[5]USAGAWA T, IWATA M, EBATA M. Speech parameter extraction in noisy environment using a masking model[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Adelaide, SA: IEEE, 1994, 2: II/81-II/84.
[6]DUZENLI O. Classification of underwater signals using wavelet-based decompositions[D]. California: Naval Postgraduate School, 1998.
[7]HERMANSKY H. Perceptual linear predictive (PLP) analysis of speech[J]. The Journal of the Acoustical Society of America, 1990, 87(4): 1738–1752.
[8]HERMANSKY H, MORGAN N. RASTA processing of speech[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(4): 578–589.
[9]CHERKASSKY V, MULIER F. Guest editorial vapnikchervonenkis (VC) learning theory and its applications[J]. IEEE Transactions on Neural Networks, 1999, 10(5): 985–987.
Application of auditory spectrum features into echo target recognition
WU Liang1, YANG Hui-jin2
(1. Naval Military Representative Office in Dalian Region, Dalian 116021, China; 2. Dalian Scientific Test and Control Technology Institute, Dalian 116021, China)
The more mature RASTA-PLP auditory mode in the field of speech recognition is presented to apply to the field of underwater target echo recognition. But also, According to the character of underwater target signal, The RASTAPLP auditory mode is modified. Contrast to the PLP auditory model feature, the modified RASTA-PLP auditory model feature is more robust to underwater target echo signal after the Gauss white noise is convoluted with the signal. At the equal test condition, the recognition ratio of the modified RASTA-PLP auditory model feature is 3% higher than the PLP auditory model feature. It shows the method important foreground in underwater target recognition.
echo;recognition;the modified RASTA-PLP auditory model;robust
TN911.7
A
1672–7619(2016)12–0143–04
10.3404/j.issn.1672–7619.2016.12.029
2016–07–12;
2016–10–15
吳亮(1980– ),男,工程師,研究方向?yàn)榕灤O(jiān)造及水聲電子工程。