馬慶祿, 鄒 政, 劉豐杰
(重慶交通大學交通運輸學院,重慶 400074)
準確的交通量采集方法有助于交通發(fā)展規(guī)劃,便于掌握交通運行規(guī)律,為交通系統(tǒng)的智能管控及道路工程建設提供數(shù)據(jù)支撐[1]。在交通量監(jiān)測系統(tǒng)中,交通量采集的主要方法包括感應線圈檢測[2]和視頻檢測[3]。感應線圈檢測器前期投入較少、可靠性高,但維護、重新安裝困難,需封閉車道、破壞路面,從長期來看運營成本較高[4]。視頻檢測器能提供可視圖像并檢測多條車道的交通量,但檢測精度穩(wěn)定性不高,易受整個系統(tǒng)軟、硬件的限制,大型車輛遮擋隨行的小型車輛、積水反射或晝夜轉換可造成檢測誤差且圖形處理計算量大、實時性差[4]。與感應線圈檢測器相比,音頻檢測器維護成本較低且不會對路面造成破壞;與視頻檢測器相比,音頻檢測器不受遮擋物、光照強度和天氣條件的影響,同時,聲學信號處理所要求的計算負荷與視頻圖像處理相比減少了?;谛熊嚶曇舻慕煌繖z測,正逐步成為交通流參數(shù)采集領域中的重要方法[5-8]。
外國基于行車聲音提取交通流參數(shù)的研究比中國起步要早且研究內(nèi)容涉及交通量、交通密度以及車型等交通流參數(shù)的提取。Nooralahiyan等[9]提取了3種不同車型的行車聲音的線性預測系數(shù)(linear prediction coefficient,LPC)特征,然后利用神經(jīng)網(wǎng)絡對150組行車聲音的LPC特征進行訓練,結果顯示車型的正確識別率為84%。Vij等[10]通過分析從智能手機的麥克風傳感器采集的累積聲信號,提出了一種經(jīng)濟有效的道路交通運行狀態(tài)推斷方法,對于二值交通場景分類(“繁忙街道”與“安靜街道”),梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)特征足以獲得100%的總體準確率。Borkar等[11]開發(fā)了基于MFCC表征的神經(jīng)模糊分類器以分類3種不同交通密度等級的交通流,結果顯示分類精度超過95%。Lefebvre等[12]提取了多車道情況下的行車聲音的MFCC特征向量并利用支持向量機(support vector machine,SVM)估算了11.5 d的交通量,實驗結果顯示交通量的估算誤差在85%左右。Mato-Méndez等[13]提出了一種基于立體聲記錄的系統(tǒng),該系統(tǒng)設計用于檢測車輛通過和識別車輛類別,該系統(tǒng)將車輛類型分為了摩托車、汽車和卡車,實驗測試了約761個信號,結果顯示在每個類別中正確識別的約95%。與外國相比,中國利用行車聲音提取交通流參數(shù)的研究文獻則比較少。曹麗娜等[14]基于美國聯(lián)邦公路管理局(Federal Highway Administration,F(xiàn)HWA)噪聲預測模型推斷出各車型車輛的小時車流量、平均車速是影響交通噪聲變化的主要指標,通過實驗證明了假日期間在大型車輛沒有有效增加的前提下,僅小型車輛大幅增加,交通噪聲增加值相對有限,亦即大型車帶來的噪聲對交通噪聲起決定作用,該結論具有一定的參考價值。但文獻[14]只能根據(jù)交通噪聲變化值判斷大型車輛數(shù)是增加了還是減少了,而不能得出大型車輛數(shù)增加或減少了多少。何小華[15]提出了在單車道、少流量的情況下對采集的行車聲音進行端點檢測的方法,首先判斷汽車信號的存在,然后在檢測到的汽車信號中截取峰值作為后續(xù)提取特征參數(shù)的目標幀,最后將計算所得的模型參數(shù)輸入經(jīng)過學習的反向傳播神經(jīng)網(wǎng)絡(back propagation neural network,BPNN)進行車型的分類識別并統(tǒng)計出交通量。
圖1 MFCC提取過程Fig.1 Extraction process of MFCC
然而,車型識別的前提是要先檢測出有車段,所以,行車聲音有車段端點檢測的準確性對車型識別的準確性有直接重要影響。為了方便研究,采集了雙車道上時間較短且包含重疊有車段的行車聲音,提取了行車聲音的短時能量和MFCC倒譜距離并分析了各自特征在交通量檢測中的優(yōu)劣,提出了短時能量特征和MFCC倒譜距離特征的融合方法。提取行車聲音的梅爾倒譜系數(shù)流程如圖1所示。
目前,語音分析技術已經(jīng)較為成熟,其中被廣泛用于語音分析的表征參數(shù)有短時能量、短時過零率、MFCC和MFCC倒譜距離等,這些技術同樣可以用于行車聲音的分析處理[16]?,F(xiàn)提取MFCC倒譜距離特征和短時能量特征,在此基礎上構造兩種特征相融合的行車聲音端點檢測算法。
MFCC分析方法是基于人的聽覺機理,即依據(jù)人的聽覺實驗結果來分析語音的頻譜,同樣,MFCC也可以用于行車聲音的分析。離散余弦變換(discrete cosine transform,DCT)具有信號譜分量豐富、能量集中且不需對聲音相位進行估算等優(yōu)點,能在較低的運算復雜度下取得較好的聲音增強效果。MFCC系數(shù)的計算方法如式(1)[17]所示:
(1)
式(1)中,CMFCC(i,k)表示第i幀MFCC的第k個系數(shù),1≤k≤M/2;M表示梅爾濾波器數(shù)量,一般取偶數(shù);Si(m)為第i幀信號的第m個梅爾濾波器能量。
MFCC可以用來計算MFCC倒譜距離,借鑒語音分析中MFCC倒譜距離的計算方法,行車聲音的MFCC倒譜距離計算方法如式(2)[18]所示:
(2)
幀信號的短時能量Ei的計算公式[19]為
(3)
短時能量特征曲線具有與原始信號波形相近的特點,且相較其他特征曲線平滑。
為解決傳統(tǒng)方法在重疊有車段檢測中存在的問題,并擴大有車段與無車段的特征差異,考慮將式(1)、式(2)計算得到的dmfcc(i)取λ次方,然后取指數(shù),最后再與式(3)計算得到的Ei相乘,得到一種新的特征參數(shù)并命名為E_EXP_MFCCD。假設Pi表示第i幀行車聲音的E_EXP_MFCCD特征值,則Pi的計算方法如式(4)所示:
(4)
式(4)中,λ為MFCC倒譜距離的調(diào)節(jié)系數(shù),可以在[1.0,2.0]區(qū)間內(nèi)尋優(yōu)。
基于行車聲音的交通量檢測方法,實質上是從整個行車聲音中截取出有車段并統(tǒng)計有車段的數(shù)目,該數(shù)目折合為小時交通量后即為檢測交通量。在語音分析中,經(jīng)常使用基于單參數(shù)的雙門限端點檢測法來區(qū)分有話段和無話段,所以,可以借鑒基于單參數(shù)的雙門限端點檢測法來區(qū)分有車段和無車段。
特征參數(shù)用于端點檢測前要先經(jīng)過平滑處理和歸一化處理。為了使平滑處理效果更好,可以適當增加中值濾波次數(shù)。最大最小歸一化方法將所有數(shù)據(jù)轉化為[0,1]的數(shù)值,避免因為特征數(shù)據(jù)數(shù)量級差別較大而造成計算誤差較大[20]。最大最小歸一化函數(shù)為
Xi=(Xi-Xmin)/(Xmax-Xmin)
(5)
式(5)中,Xi為序列中的第i個值;Xmin為序列中的最小值;Xmax為序列中的最大值。
以行車聲音的短時能量為例來說明基于雙門限判決的端點檢測原理,其他特征參數(shù)的雙門限端點檢測同理?;诙虝r能量的雙門限端點檢測原理[21]如下。
2.2.1 第一級判決
在行車聲音的短時能量特征曲線上選取較高的閾值E1進行粗判,即滿足高于閾值E1的幀一定為有車幀,而有車段的起止點應位于閾值E1與其特征曲線交點所對應的時間點之外。
2.2.2 第二級判決
在行車聲音的短時能量特征曲線上選取較低的閾值E2(E2 2.2.3 端點計算 由以上兩級判決,可以初步求出有車段的起始點位置A和結束點位置B,但考慮到有車段之間的靜音區(qū)所含幀數(shù)目會有一個最小值(經(jīng)實驗測試發(fā)現(xiàn),取值為3~10比較合適),即小于閾值E2并滿足這樣一個最小值后才判斷為該有車段結束,所以實際上延長了有車段AB的長度。同時,有車段所含幀數(shù)目也有一個下限值(經(jīng)實驗測試發(fā)現(xiàn),取值為50~60比較合適),低于這個下限值的一段信號則應當被記為無車段。 特別地,當高低閾值設置為相等時則稱之為基于單門限判決的端點檢測法。 端點檢測的關鍵在于門限值的確定。高門限值等于前導無車段特征參數(shù)均值乘以一個較高系數(shù)α,低門限值等于前導無車段特征參數(shù)均值乘以一個較低系數(shù)β,通過調(diào)節(jié)α和β確定雙門限值。特征參數(shù)曲線中有車段的個數(shù)折合為小時交通量后即為檢測交通量。 以某個周圍環(huán)境較為安靜的雙車道路段為例,利用音頻檢測器采集該路段的行車聲音,采樣時間為35 s,采樣頻率48 kHz。由于采樣頻率較大,如果幀長或幀移均取得過小,則對特征曲線的平滑處理效果是有較大影響的。所以,通過大量的實驗測試發(fā)現(xiàn),幀長取2 000個樣本點、幀移取1 200個樣本點時對行車聲音的分析較為合適。行車聲音的波形如圖2所示,可以直觀地看到,真實車輛數(shù)為5。 圖2 行車聲音波形Fig.2 Waveform of the driving acoustic signals 各個有車段的真實端點時刻如表1所示。 表1 各有車段真實端點時刻Table 1 Actual endpoint time of each vehicle-segment 對于行車聲音的任意特征曲線,定義有車段的波峰、重疊有車段間的波谷及無車段的波谷為該曲線的關鍵點。關鍵點之間的大小關系將會影響雙門限閾值的設定,從而影響端點檢測結果。對行車聲音提取短時能量,其特征曲線如圖3所示,其特征曲線上的關鍵點如圖4所示。實驗測試發(fā)現(xiàn),最小波峰與各個波谷之間的大小關系對閾值設定的影響最大。圖4中,通過比較各個關鍵點的數(shù)據(jù)值可知,V1 圖5 基于短時能量特征的端點檢測結果Fig.5 Endpoint detection results based on short-term energy characteristic 圖3 短時能量特征曲線Fig.3 Short-term energy characteristic curve 圖4 短時能量特征曲線上的各個關鍵點Fig.4 Various key points on the short-timeenergy characteristic curve 為了說明關鍵點對雙門限閾值設定的影響,利用短時能量特征對行車聲音進行端點檢測,取不同的雙門限閾值,得到的端點檢測結果亦不相同,各個結果如圖5所示,圖5(a)~圖5(d)的車輛數(shù)檢測結果依次為2、3、4、4,轉換成小時交通量即206、308、411、411 veh·h-1。 觀察圖5后發(fā)現(xiàn),盡管圖5(a)~圖5(c)的高閾值E1保持不變,但隨著低閾值E2的不斷變大,檢測出的端點數(shù)目也在不斷提高,但是仍然不能分離出重疊有車段。E2繼續(xù)增大,當增大到一定程度,如圖5(d)中E2大于V5時,雖然分離出了重疊有車段,但是卻漏檢了第一個有車段,而且,此時不論如何調(diào)整E1和E2,均無法同時檢測出第一個有車段和重疊有車段。分析后發(fā)現(xiàn),造成上述結果的原因可歸納為兩點:①重疊有車段之間的波谷值明顯大于無車段中的波谷值;②正常有車段波峰值與重疊有車段波谷值的絕對差值較小。 所以,針對圖2所示的行車聲音,基于短時能量特征的端點檢測法是存在缺陷的,接下來考慮基于MFCC倒譜距離特征的端點檢測法。不同梅爾濾波器數(shù)量下的MFCC倒譜距離特征曲線如圖6所示。 圖6 不同梅爾濾波器數(shù)量下的MFCC倒譜距離特征曲線Fig.6 Characteristic curves of MFCC cepstrum distance with different number of Mel filters 觀察圖6后發(fā)現(xiàn),梅爾濾波器數(shù)目M從32逐漸減少到4的過程中,有車段的MFCC倒譜距離特征曲線變得更加平滑,有車段與無車段的區(qū)分度也變得更加明顯,且MFCC倒譜距離特征曲線的第一個關鍵點V0與第6個關鍵點V5的絕對差值也更加明顯。當M繼續(xù)減少時,雖然V0與V5的絕對差值繼續(xù)增大,但MFCC倒譜距離特征曲線的平滑度則又開始降低了,而且可以看到,重疊有車段對應的MFCC倒譜距離特征曲線中明顯出現(xiàn)了第3個波峰(理想情況下不應該存在,因為圖2重疊有車段只包含了兩輛車,所以應當只有2個波峰)。雖然在M=4的情況中,重疊有車段對應的MFCC倒譜距離特征曲線也出現(xiàn)了第3個波峰,但相比M=2的情況還不夠明顯。所以,綜合分析之后認為,梅爾濾波器數(shù)目取4比較合適。 MFCC倒譜距離特征雖然增大了V0關鍵點與V5關鍵點之間的絕對差值,使重疊有車段更容易分離。但是,MFCC倒譜距離特征曲線中的前導無車段和后導無車段卻出現(xiàn)了異常波峰,同時,相比于短時能量特征曲線,MFCC倒譜距離特征曲線仍然不夠平滑,如圖7所示。 所以,這些缺陷的存在對端點檢測的結果仍有較大影響。觀察圖3發(fā)現(xiàn),短時能量特征曲線中的無車段波形均比較平滑,且無車段中各個點的值均和0比較接近,所以,可以考慮將短時能量參數(shù)與MFCC倒譜距離參數(shù)相乘構成一個新的特征參數(shù)(記作E_MFCCD)。行車聲音的E_MFCCD特征曲線如圖8所示。 圖7 MFCC倒譜距離特征曲線中的異常波峰Fig.7 Anomalous peaks of characteristic curve ofMFCC cepstrum distance 圖8 E_MFCCD特征曲線Fig.8 Characteristic curve of E_MFCCD 對比圖8和圖4發(fā)現(xiàn),圖8中的V0值相比圖4的V0值提高了,圖8中的V5值相比圖4的V5降低了,所以,圖8中V0與V5的絕對差值相比圖4提高了。但V5仍沒有接近0。 考慮到指數(shù)函數(shù)ex具有快速變化的特性,所以可先對MFCC倒譜距離的λ次方取指數(shù)(通過微調(diào)發(fā)現(xiàn),取λ=1.5最為合適),然后再將短時能量參數(shù)與其相乘構成一個新的特征參數(shù)(記作E_EXP_MFCCD)。行車聲音的E_EXP_MFCCD特征曲線如圖9所示。 圖9 E_EXP_MFCCD特征曲線Fig.9 Characteristic curve of E_EXP_MFCCD 可以看到,圖9中雖然V0相比圖8降低了,但此時V0與V5的絕對差值相比圖4的仍是提高了。同時E_EXP_MFCCD特征曲線中無車段的波谷值和關鍵點V5幾乎都接近于0。所以可將雙門限判決改為單門限判決(設置高低閾值相等,即令α=β),然后將前導無車段的特征平均值乘以系數(shù)α作為單門限閾值。基于E_EXP_MFCCD特征的端點檢測結果如圖10所示(P0為單門限閾值),共5輛車(轉換成小時交通量即514 veh·h-1)。 圖10 基于E_EXP_MFCC特征的端點檢測結果Fig.10 Endpoint detection results based onE_EXP_MFCC characteristic 結合歸一化后的特征曲線圖,先對各個算法的門限值設定區(qū)間,然后在區(qū)間內(nèi)微調(diào),最后得到最優(yōu)的門限參數(shù)(假設T1為高閾值,T2為低閾值)。對于短時能量算法,將T1、T2設在[0.03,0.09]進行參數(shù)尋優(yōu),端點檢測結果整理如表2所示。 對于MFCC倒譜距離算法,將T1、T2設在[0.25,0.50]進行參數(shù)尋優(yōu),端點檢測結果整理如表3所示。 表2 短時能量算法下的端點檢測結果Table 2 Endpoint detection results based onshort-term energy algorithm 表3 MFCC倒譜距離算法下的端點檢測結果Table 3 Endpoint detection results based onMFCC cepstral distance algorithm 對于E_EXP_MFCCD算法,將單門限閾值P0設在[0.000,0.005]進行參數(shù)尋優(yōu),端點檢測結果整理如表4所示。 表4 E_EXP_MFCCD算法下的端點檢測結果Table 4 Endpoint detection results based onE_EXP_MFCCD algorithm 檢測指標中的端點正檢率rendpoints、車輛誤檢率rerror、車輛漏檢率rmiss和檢測準確率rcorrect分別定義如式(6)所示: (6) 結合表1~表4,得出各個算法的端點檢測結果如表5所示??梢钥吹剑珽_EXP_MFCCD算法的檢測準確率為97.03%,MFCC倒譜距離算法為75.4%,短時能量算法為75.8%,即E_EXP_MFCCD算法的準確率比其他兩個算法要高。 表5 不同算法的端點檢測結果對比Table 5 Comparisons of endpoint detection resultsbased on different algorithms 以雙車道路段上的行車聲音數(shù)據(jù)為基礎,對傳統(tǒng)的短時能量法和MFCC倒譜距離法在端點檢測中的優(yōu)劣進行了分析,并結合各自的優(yōu)點構造了一個新的特征參數(shù)E_EXP_MFCCD,最后統(tǒng)計了車輛數(shù)。得出結論如下。 (1)短時能量特征曲線比MFCC倒譜距離特征曲線更加平滑,與原始的行車聲音波形更加接近且無車段中的各個特征值更趨近于0。 (2)MFCC倒譜距離特征曲線中的V5與V0的絕對差值較短時能量特征曲線中的V5與V0的絕對差值要大許多,這對重疊有車段的分離更加有利,為同時檢測出第一個有車段和重疊有車段提供了依據(jù)。 (3)結合短時能量特征和MFCC倒譜距離特征優(yōu)勢的新特征參數(shù)E_EXP_MFCCD,比單獨的短時能量特征或MFCC倒譜距離特征在端點檢測中的效果更好。同時,基于E_EXP_MFCCD特征的端點檢測法僅僅依賴于單門限參數(shù),降低了調(diào)節(jié)參數(shù)的維數(shù)。 但是,行車聲音的端點檢測并不是交通量檢測的終結,因為不同的車型需要換算成標準車當量才能更準確地統(tǒng)計交通量,所以,接下來的研究內(nèi)容將涉及基于行車聲音的車型識別研究。2.3 門限值求解及交通量估算
3 實驗分析
4 結論