李 鵬,嵇佳麗,丁倩雯
(1.南京信息工程大學(xué) 江蘇省氣象探測與信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210044;2.南京信息工程大學(xué) 江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,江蘇 南京 210044;3.南京信息工程大學(xué) 濱江學(xué)院,江蘇 無錫 214105)
適量降水能促進(jìn)農(nóng)作物生長,而過量的強(qiáng)降水會造成洪澇等災(zāi)害.強(qiáng)降水災(zāi)害,具有時間短、破壞性大、范圍小、突發(fā)性強(qiáng)的特點(diǎn),給工農(nóng)業(yè)生產(chǎn)和人民生命財產(chǎn)帶來極大危害,故對強(qiáng)降水天氣的預(yù)警監(jiān)測就尤為重要.降雹和降雨的監(jiān)測根據(jù)雷達(dá)的回波強(qiáng)度進(jìn)行.文獻(xiàn)[5]利用機(jī)器學(xué)習(xí)處理高分辨率的預(yù)報數(shù)值,改善了冰雹預(yù)報.文獻(xiàn)[6]提出了一種經(jīng)驗(yàn)預(yù)測模型,預(yù)測可提前2至5周.文獻(xiàn)[7]采用基于邊緣檢測的卷積神經(jīng)網(wǎng)絡(luò)方法,對冰雹進(jìn)行預(yù)報.文獻(xiàn)[8]根據(jù)雷達(dá)圖像中冰雹和暴雨特征,設(shè)計了基于聚類評分的暴雨冰雹分類模型.文獻(xiàn)[9]通過實(shí)時探測大氣中水汽含量,對降雨進(jìn)行預(yù)測.文獻(xiàn)[10]建立了基于MapReduce的改進(jìn)加權(quán)樸素貝葉斯降雨等級預(yù)測模型,能較準(zhǔn)確預(yù)測降雨.文獻(xiàn)[11]提出了一種地面與高空聯(lián)合的降雨預(yù)報模型,提高了短期降雨的預(yù)報精度.
該文提出一種基于聲信號特征分析的降雹和降雨識別方案,設(shè)計降雹和降雨聲信號的采集裝置,提取降雹和降雨聲信號的特征參數(shù),且將其作為識別依據(jù),采用基于馬氏距離的模糊聚類算法對聲信號進(jìn)行識別.
降水包括降雨、降雪、降雹3種形式,其中降雨一年四季時常發(fā)生,降雪多發(fā)生在溫度達(dá)到零度以下的冬季,降雹多發(fā)生在春夏秋三季.通常情況下,降雹和降雪不會同時發(fā)生,且考慮到降雪聲信號的能量相對小不易采集,故假設(shè)從天而降的物體只有冰雹和雨水兩種.因此,該文以冰雹和雨水落下時產(chǎn)生的聲信號為研究對象.
圖1為筆者設(shè)計的采集降雹和降雨聲信號的簡易裝置,該裝置由拾音模塊、數(shù)據(jù)采集模塊和計算機(jī)組成.拾音模塊由一塊60 cm×80 cm×0.2 cm不銹鋼拾音板、4個長度為10 cm的支柱以及單通道聲音傳感器組成,聲音傳感器置于拾音板下方.數(shù)據(jù)采集模塊通過Waveform軟件控制的Analog discovery 2-NI edition采集卡采集聲信號.數(shù)據(jù)采集模塊通過USB接口和螺栓端子分別與計算機(jī)和聲波傳感器相連.
圖1 聲信號采集裝置
為保證降雹和降雨聲信號處理的有效性和準(zhǔn)確性,在對聲信號進(jìn)行特征提取之前,需先對信號進(jìn)行預(yù)處理.該文采用小波閾值去噪法,選擇Daubechies4(db4)小波對聲信號去噪.首先利用小波變換對聲信號進(jìn)行多層分解,然后對分解后的各層信號進(jìn)行閾值濾波處理,最后通過重構(gòu)濾波后的各層信號得到去噪信號.小波分解層數(shù)影響去噪結(jié)果,綜合考慮去噪效果、運(yùn)算時間,最終選擇層數(shù)為3.使用db4小波對降雹和降雨信號進(jìn)行分解,結(jié)果如圖2所示.
采用軟閾值方法,對聲音信號去噪.圖3為降雹和降雨的原始信號、加噪信號及去噪信號.
圖3 降雹和降雨的原始信號、加噪信號以及去噪信號
聲信號特征提取主要從時域、頻域和時頻3方面進(jìn)行.圖4為采集到的降雹和降雨原始聲信號的時域波形.從圖4可看出,降雹和降雨聲信號波形的幅度、陡峭度以及分布密度均存在明顯差異.
圖4 采集到的降雹和降雨原始聲信號的時域波形
能量為區(qū)分降雹和降雨聲信號的最重要特征,其大小隨著信號頻率變化而變化.冰雹落下時產(chǎn)生的聲信號頻率主要集中在[0,15 000]Hz,而雨滴落下時產(chǎn)生的聲信號頻率主要集中在[0,10 000]Hz.因聲信號是1維非平穩(wěn)信號,在提取短時能量之前,需先對聲信號進(jìn)行分幀加窗處理.第n
幀聲信號x
(m
)短時能量計算公式為(1)
其中:M
為幀長.帶寬能量比為-3 dB帶寬與短時能量的比值.圖5為不同直徑冰雹和雨的單邊頻譜和帶寬能量比.由圖5(a)~(b),(e)~(f)可知,利用單邊頻譜和帶寬能量比,能區(qū)分大冰雹、中冰雹、中雨、小雨.但對比圖5(c),(d)發(fā)現(xiàn),小冰雹和大雨單邊頻譜存在重疊部分,不易識別.圖5 不同直徑冰雹和雨的單邊頻譜和帶寬能量比
統(tǒng)計分析發(fā)現(xiàn),根據(jù)均方根、波形因子、峰值因子、峭度因子和脈沖因子等特征區(qū)分大雨和小冰雹是可行的.綜合考慮多種因素,該文選擇了均方根、敏感性好的峭度因子、穩(wěn)定好的波形因子作為區(qū)分二者的特征.假設(shè)采集的聲信號為X
={x
,x
,…,x
},N
為樣本數(shù).聲信號的均方根、波形因子、峭度因子的計算公式分別為(2)
(3)
(4)
圖6為降雹及降雨聲信號的時域特征參數(shù).由圖6可知,降雹及降雨的這3個時域特征參數(shù)有顯著差別,根據(jù)它們能區(qū)分降雹和降雨.
圖6 降雹和降雨聲信號的時域特征參數(shù)
該文采用基于馬氏距離的模糊聚類(fuzzy c-means based on Mahalanobis distance,簡稱M-FCM)算法對降雹和降雨聲信號進(jìn)行識別.該算法是一種無監(jiān)督學(xué)習(xí)的識別算法,對目標(biāo)函數(shù)的相似準(zhǔn)則進(jìn)行了改進(jìn),用馬氏距離取代傳統(tǒng)模糊聚類中的歐式距離,消除了量綱不同的特征給聚類帶來的影響,避免了各變量間的相互干擾,更有利于處理復(fù)雜的多維數(shù)據(jù).
假設(shè)樣本集合={,,…,},其中樣本={x
,x
,…,x
},樣本到樣本集合的馬氏距離為(5)
其中:為聚類中心,為協(xié)方差矩陣.M-FCM算法的目標(biāo)函數(shù)為
(6)
其中:=(θ
)×為聚類中心矩陣,=(u
)×為模糊隸屬度矩陣,m
(m
>1)為加權(quán)參數(shù).M-FCM算法步驟如下:
(1) 給定n
個數(shù)據(jù),假定聚類個數(shù)為k
,2≤k
≤n
.設(shè)定迭代閾值ε
=1×10,m
=2,迭代計數(shù)器L
=0.初始化聚類中心矩陣(0).(2) 通過下式更新隸屬度矩陣和聚類中心矩陣
(7)
其中:C
1為第t
個聚類中心,x
為第j
個待識別樣本,n
為待識別樣本的數(shù)目,b
為加權(quán)參數(shù),U
(x
)為隸屬度函數(shù).(3) 計算新的聚類中心、隸屬度函數(shù)和目標(biāo)函數(shù).
(4) 如果‖(L
)-(L
+1)‖<ε
,則算法停止且輸出最終的隸屬度矩陣和聚類中心;否則令L
=L
+1,重復(fù)步驟(2).C
,C
和隸屬度函數(shù)U
.④提取待識別樣本的特征參數(shù),根據(jù)隸屬度函數(shù)U
及式(7)得到待識別樣本的聚類中心C
,C
,分別計算C
到C
,C
及C
到C
,C
的距離.先比較C
到C
的距離與C
到C
的距離大小,后比較C
到C
的距離與C
到C
的距離大小.若待識別樣本的聚類中心C
到訓(xùn)練樣本的聚類中心C
(或C
)的距離最短,則判定屬于聚類中心C
的所有樣本與C
(或C
)的類別相同;同理,若待識別樣本的聚類中心C
到訓(xùn)練樣本的聚類中心C
(或C
)的距離最短,則判定屬于聚類中心C
的所有樣本與C
(或C
)的類別相同.圖7為聲信號識別流程.圖7 聲信號識別流程圖
C
,C
.表1為由上述5個特征參數(shù)構(gòu)成的訓(xùn)練樣本聚類中心.訓(xùn)練樣本的聚類結(jié)果如圖8所示.圖8 訓(xùn)練樣本的聚類結(jié)果
表1 訓(xùn)練樣本聚類中心的5個特征參數(shù)
待識別樣本的聚類結(jié)果如圖9所示.表2為待識別樣本聚類中心的5個特征參數(shù).分別計算C
到C
,C
的距離以及C
到C
,C
的距離,結(jié)果如表3所示.對比表1~3發(fā)現(xiàn),C
到C
的距離比C
到C
的距離更近,C
到C
的距離比C
到C
的距離更近,因此判定待識別樣本1屬于降雨聲信號、待識別樣本2屬于降雹聲信號.但是,圖9中虛線框里的3個紅點(diǎn)表示的樣本應(yīng)是降雹聲信號,卻被誤判為降雨聲信號,故存在一定的誤差.圖9 待識別樣本結(jié)果
表2 待識別樣本聚類中心的5個特征參數(shù)
表3 待識別樣本的聚類中心到訓(xùn)練樣本聚類中心的距離
將K-means,F(xiàn)CM(fuzzy c-means),M-FCM算法應(yīng)用于降雹和降雨聲信號的識別,3種算法在設(shè)置相同實(shí)驗(yàn)參數(shù)的情況下,各進(jìn)行10次實(shí)驗(yàn),結(jié)果如表4所示.由表4可知: K-means的識別準(zhǔn)確率最低,M-FCM的識別準(zhǔn)確率最高,其值為93.333 3%.因此,綜合看來,M-FCM算法識別降雹和降雨聲信號更具優(yōu)勢.
表4 3種算法實(shí)驗(yàn)結(jié)果比較
筆者從聲學(xué)角度,提出一種基于聲信號特征分析的降雹和降雨聲信號識別方案,自主設(shè)計降雹和降雨聲信號的采集裝置,對采集的降雹和降雨聲信號的時域和頻域特征進(jìn)行統(tǒng)計分析.選取均方值、波形因子、峭度因子、平均振幅及最大帶寬能量比5個特征參數(shù)組成特征向量,采用K-means,F(xiàn)CM,M-FCM算法對降雹和降雨聲信號進(jìn)行識別.實(shí)驗(yàn)結(jié)果表明: M-FCM算法的核心指標(biāo)(識別準(zhǔn)確率)最高.