彭 碩,陶 亮,查文文,陳成鵬,辜麗川,朱 誠,焦 俊
(安徽農業(yè)大學信息與計算機學院,合肥 230036)
中國是世界豬肉消費第一大國,豬肉是我國居民肉食的主要來源,在我國居民的膳食結構中扮演著重要角色[1]。在傳統(tǒng)生豬養(yǎng)殖中,飼養(yǎng)人員往往采取放養(yǎng)或者小規(guī)模圈養(yǎng),隨著人民生活水平的提高,人口不斷增長,我國對豬肉的需求量大大增加,豬肉的質量安全也需要把關[2]。在現(xiàn)代養(yǎng)殖場中,豬只養(yǎng)殖密度大,人員工作任務繁重,整體效率較低,信息化與生豬產業(yè)的深度融合已成為必然趨勢,以移動網絡、物聯(lián)網、云計算、大數(shù)據(jù)分析和人工智能等為代表的理論與技術在世界范圍內得到了蓬勃發(fā)展和廣泛應用,給畜禽養(yǎng)殖業(yè)帶來了科技保障。生豬狀態(tài)含有豐富信息,可以一定程度上反映生豬的健康情況。國內外結合計算機相關理論和技術早已對生豬狀態(tài)及行為有一定的研究,主要集中在母豬生產、仔豬精細管理[3-4]和生豬疾病健康預警領域[5-6],而對于豬只生命周期中的多種狀態(tài)及行為的研究相對較少。生豬音頻是伴隨豬只生命周期的一種信息,包含大量語義,能夠反映豬只的狀態(tài)及行為。國內外對生豬的音頻研究主要集中于端點檢測以及不同狀態(tài)下的音頻識別[7-11]。然而在利用現(xiàn)代信息技術[12]對生豬音頻進行監(jiān)測識別時,由于環(huán)境、經濟條件的限制,養(yǎng)殖人員往往將多頭生豬圈養(yǎng)在一起,這就導致了采集到的識別源為多頭生豬共同發(fā)出的混合音頻,不利于音頻的特征提取及識別。為了盡可能從混合生豬音頻信號中分離出各源信號分量,提取有效特征,盲源分離成為了一種有效的解決辦法。
盲源分離(blind source separation, BSS)是從由多個麥克風捕獲到的混合信號中恢復未知的源信號,其普遍應用于語音處理、生物醫(yī)學信號處理、機械故障等領域[13-15],依據(jù)源信號的數(shù)目小于、等于或大于麥克風的數(shù)目,盲源分離可分為超定、正定和欠定3種情況??紤]到養(yǎng)殖場的生豬數(shù)量較多,而采集設備數(shù)量較少,因此本研究重點關注欠定情況下的盲源分離。由于一些理論算法實用性較弱,欠定盲源分離問題在盲源分離中依然具有挑戰(zhàn)性。近年來,國內外一般基于稀疏分量分析(sparse component analysis,SCA)[16-17]的方法來解決欠定盲源分離問題;Chen等[18]通過求解大規(guī)模線性規(guī)劃問題,獲得信號在過完備基中的稀疏表示;Bofill和Zibulevsky[19]提出了基于SCA的兩步法,從兩種混合音頻中分離出了6個源信號,該方法算法復雜度較低,易得到全局收斂值;Georgiev等[20]采用稀疏分量分析方法對稀疏信號進行分離,并與文獻[18]中的方法做對比,得到了更優(yōu)的結果。源信號的稀疏性對于SCA算法的重要性不言而喻,許多時頻域的擴展算法被提出來以增強和充分利用信號的稀疏性。Zhen等[21]發(fā)現(xiàn)并證明了單源點主導的時頻點與一維子空間有關,采用分層聚類算法得到混合矩陣的估計,并通過求解一系列最小二乘問題來恢復源信號;Jourjine等[22]提出了一種簡并混合估計技術,并在語音信號和無線信號上驗證了該方法能夠實現(xiàn)混合源信號的分離;Xie等[23]提出了一種改進的信息論準則方法來檢測欠定情況下的源數(shù),利用四階張量盲辨識方法對混合矩陣進行估計,采用一種lp范數(shù)分集測度方法對源信號重構,獲得了較好的分離結果,并且運行速度快;Arberet等[24]利用局部置信度測量的統(tǒng)計模型檢測出單源點的時頻區(qū)域,并利用DEMIX聚類算法,將來自所有時頻區(qū)域的信息根據(jù)其置信度進行合并,以完成混合矩陣的估計;Hassan和Ramli[25]引入自適應時頻閾值來提高欠定盲源分離中混合矩陣的精度,結果表明該方法較優(yōu),且耗時較少。于和新[26]針對非稀疏信號的線性混合欠定盲源分離問題提出了一種時頻兩步法,通過數(shù)值試驗與分析證明了該算法具有有效性和準確性。國內外對欠定盲源信號分離的音頻試驗主體往往為函數(shù)信號,而對于實際應用的音頻信號方面研究較少。
本研究基于“兩步法”的SCA,提出了一種基于稀疏化理論的欠定生豬盲源信號分離改進方法,擬解決在生豬音頻識別實際應用時采集到的識別源特征難以提取的問題。
本研究的總體設計流程如圖1所示,首先獲取生豬混合音頻信號,然后利用信號的稀疏性提取單源特征點,并用聚類算法估計音頻混合矩陣,最后通過重構算法分離出各音頻源信號。
圖1 研究技術路線Fig.1 Research technical route
本研究根據(jù)所提算法,針對欠定生豬盲源信號分離問題,在MATLAB仿真環(huán)境中做了一些試驗。在試驗設計上,“2.1”節(jié)中,選取生豬的3種聲音,說明3個源信號和2個觀測信號下不同時長的欠定生豬盲源信號分離的一般過程;“2.2”節(jié)選取另外5段15 s左右不同狀態(tài)的單聲道音頻,設置不同數(shù)量的源信號與觀測信號以及幅值衰減矩陣,比較重構信號與源信號在第“1.7”節(jié)的測量指標,來驗證算法的性能。
本研究運用NanoPc-T4作為主控制器,外接iTalk-02麥克風、USB接口等資源,自主實現(xiàn)聲音采集傳輸?shù)挠布到y(tǒng)。音頻格式設置為WAV,采樣大小為8位,采樣率為44.1 kHz,試驗使用的聲音主要源于安徽蒙城京徽蒙養(yǎng)豬場的成年長白豬,音頻在較為安靜的空間中獲取并經過卡爾曼濾波降噪處理。
欠定盲源分離(underdetermined blind source separation, UBSS)問題的線性瞬時混合模型可以表示為:
(1)
式中,XN(t)=[x1(t),x2(t),…,xn(t)]表示觀測信號向量,Sm(t-tnm)表示經過時延tnm到達傳感器的源信號向量,n(t)表示噪聲,anm為幅值衰減矩陣,表示信號的衰減系數(shù)。本研究暫不考慮噪聲帶來的影響。
信號的稀疏性是指其在大多數(shù)時刻幅值為零,而在小部分時刻的幅值較大。根據(jù)文獻[27]中對混合信號可恢復性分析可知,信號在時域或者變換域中越稀疏,每個源信號能被正確分離出來的概率就越高。由于信號在時頻域稀疏性更強,本研究采用短時傅里葉變換對混合生豬音頻信號進行時頻域轉換[19]。
稀疏信號的性質決定了同一時刻出現(xiàn)兩個源信號取值非零可能性很小,根據(jù)非平穩(wěn)信號的短時平穩(wěn)性質可知,一定存在一個頻率不變、時間相鄰的單源點鄰域U(t,f),在此鄰域內的點都是由同一路源信號si主導的,如果能夠從混合信號中提取足夠的單源點,那么由單源點組成的散點圖會清晰地聚集在N條直線附近[28-29],采用聚類算法就可以實現(xiàn)混合矩陣的估計。在不考慮噪聲的前提下,式(1)可以展開為:
(2)
假設t時刻,只有源信號si(t)取值很大,則式(2)可以近似為:
(3)
式中,xi(t,f)為第i個觀測信號在時頻域的復數(shù)表示,Re(.)和Im(.)分別表示實部與虛部。由式(3)可知,源信號si(t)所有取值非零的時刻將確定一條方向為混合矩陣A的第i個列向量的直線,且單源點的實部與虛部比值為定值,因此可以用式(4)作為單源點的判據(jù):
(4)
然而由于噪聲和計算誤差以及大量低能點(聚集在零點附近的點)的影響,僅憑式(4)提取到的單源點的空間分布會與混合矩陣A對應的列方向有所偏差,導致估計的混合矩陣誤差較大。針對這一問題,本研究首先使用式(5)放寬約束條件來初步篩選單源點:
(5)
(6)
(7)
‖x(t,f)i‖2<σ
(8)
在獲得足夠的單源點后,可以使用聚類算法對特征點進行聚類以估計混合矩陣,傳統(tǒng)的聚類算法有K-means、模糊聚類(fuzzy clustering-means,FC-means)等,盡管這些經典的方法的精度高、計算速度快,但其聚類結果對初始聚類中心比較敏感,且聚類個數(shù)需要已知,與實際盲源分離中源信號個數(shù)未知不符。相比之下,近鄰傳播聚類算法不需要指定最終聚類族的個數(shù),其簇中心點是已有的數(shù)據(jù)點,且結果的平方差誤差較小,正好彌補了這一問題。AP聚類將所有樣本點都視為潛在的聚類中心,通過循環(huán)迭代選取中心點,得到最優(yōu)的類代表簇,然而其聚類結果受超參阻尼系數(shù)的影響且算法復雜度較高,因此,本研究結合奇異值分解,提出一種自適應阻尼系數(shù)的AP聚類算法來估計混合矩陣。
1.5.1 奇異值分解 由于提取的單源點一般為總體采樣點的20%~40%,這使得AP聚類在構造相似矩陣時得到的矩陣維度較大,需要大量內存,且計算復雜度較高。為了加快算法的計算速度,本研究引入奇異值分解(singular value decomposition,SVD)來降維以減少復雜度,對矩陣A的奇異值分解定義如下:
A′=UΣVT
(9)
式中,Σ為N階對角矩陣,其對角線上的元素為從小到大排序的奇異值σi;U和V為N階正交矩陣,U的列元素為左奇異向量,V的列元素為右奇異向量,分別由A′A′T和A′TA′的特征向量組成。由于本研究構造的相似矩陣為對稱矩陣,因此,式(9)可寫成:
A′=UΣUT
(10)
經過奇異值分解后,對矩陣A做低秩近似操作,保留Σ中最大的k個奇異值,k值的設定依據(jù)式(11),定義錯失率ER為:
(11)
當ER小于10%時,認為k的取值合理。將剩余奇異值置為0,結合左右對應的奇異向量來近似描述矩陣A:
(12)
經過式(12)低秩近似處理后,A變?yōu)橹葹閗的矩陣A″。
1.5.2 AP聚類算法 AP聚類算法以對數(shù)似然作為樣本點間的相似度度量,一般采用負的歐式距離來計算樣本點間的相似度[30],然而歐氏距離容易受量綱影響,并且不能體現(xiàn)特征點在方向上的特性。因此本研究引入負的余弦距離來構造特征相似度矩陣,其計算公式為:
(13)
式中,xi和xk為第i和k個點。
相似矩陣對角線上的元素為偏向參數(shù)p,其值較大的樣本點容易選取為集群中心(稱為范例),將所有相似度值的中位數(shù)提取出來并賦值給S主對角線上的所有元素,以保證每個數(shù)據(jù)點成為范例的可能性相等[31-32]。
為了找到合適的聚類中心,定義吸引度矩陣R(i,k)描述點k適合作為點i的聚類中心的程度,歸屬度矩陣A(i,k)描述點i選擇點k作為聚類中心的合適程度,選擇合適大小的零矩陣對R和A初始化,樣本點間通過歸屬度和吸引度兩種消息不斷傳遞更新,尋找到最優(yōu)的聚類中心。式(14)、(15)分別為吸引度矩陣R和歸屬度矩陣A的更新規(guī)則:
(14)
(15)
式中,t表示當前迭代次數(shù),i,k為不同行列的索引值。式(14)表明,任意一個候選聚類中心都可以對其他候選聚類中心產生影響,并且可以爭奪其他點的歸屬權,在第一次迭代時,由于A的初值為零,所以R的更新不考慮其他點對于候選范例的影響;在后面的迭代中,當一些點被有效地分配給其他范例時,它們的歸屬度值依據(jù)式(15)的更新規(guī)則將降為負數(shù),這將減少式(14)中輸入相似度的有效值,在競爭中移除相應的候選樣本;若R(k,k)最終是負值,則說明點k更適合歸屬于其他范例而本身不適合作為一個范例。式(15)中,歸屬度A(i,k)的更新規(guī)則為自我吸引度加上從其他點獲得的積極的吸引度,這里只加上積極(數(shù)值為正)的吸引度是因為只有積極的吸引度才會支持點k作為聚類中心;自我歸屬度A(k,k)的值為從其他點獲得的積極吸引度之和,若A(k,k)為負值,則說明點k目前更適合歸屬于另一個范例,而不是作為一個范例本身。
由于更新消息的過程中容易出現(xiàn)數(shù)值振蕩,使得算法不易收斂,引入阻尼系數(shù)(damping factor,DF)來衰減吸引度信息和歸屬度信息,采用公式(16)、(17)更新R和A:
R=(1-λ)×R+λ×Rold
(16)
A=(1-λ)×A+λ×Aold
(17)
式中,Rold表示上一次更新的吸引度矩陣;Aold表示上一次更新的歸屬度矩陣;λ∈[0,1],表示為阻尼系數(shù)。
通過設定最大迭代次數(shù)m來終止算法,同時設置迭代終止次數(shù)n,即在沒達到最大迭代次數(shù)m的前提下,經過連續(xù)迭代n次后,聚類中心始終沒有改變,此時認為算法已收斂,聚類中心已確定。以矩陣R和A對角線元素之和大于0為衡量準則,確定范例,以相似度為衡量,確定其他點歸屬為哪一范例。將每類簇中心的單位方向向量提取出來,完成混合矩陣的估計。
1.5.3 自適應阻尼系數(shù)法 阻尼系數(shù)λ取不同的值會影響算法的全局和局部搜索能力,進而對算法的收斂性能產生干擾。傳統(tǒng)AP聚類時,阻尼系數(shù)往往基于先驗經驗設定為固定值,這使得算法在不同階段無法動態(tài)地調節(jié)搜索性能,為此本研究提出了一種動態(tài)的阻尼系數(shù)自適應方法。
采用一個長度為L的移動窗,比較當前迭代時的聚類數(shù)目和上一次迭代的聚類數(shù)目是否下降或一致,是則記為1,否則記為0,考慮到算法初始階段的不穩(wěn)定以及偶爾出現(xiàn)的少量震蕩情況,認為超過2/3的記錄顯示為0時,發(fā)生了振蕩,此時,對阻尼系數(shù)λ進行調整,考慮算法的收斂性,將λ的初始值設定為系統(tǒng)默認值0.5,當?shù)竭_最大值時不再增加,具體調整規(guī)則為:
λ=λold+0.01λ∈[0.5,1]
(18)
式中,λold表示上一次迭代使用的阻尼系數(shù)值。
1.5.4 聚類評價指標 輪廓系數(shù)(silhouette coefficient)是一種衡量聚類結果的指標,它反映了一個樣本與同簇中其他樣本的相似度與不同簇中樣本的相似度之間的差異。輪廓系數(shù)越接近1,表明聚類結果的效果越好;輪廓系數(shù)越接近-1,表明聚類結果的效果越差。本研究使用輪廓系數(shù)來衡量自適應SVD-AP聚類的效果,它的計算公式為:
(19)
式中,a(i)為向量i與類內所有其他樣本的平均距離,b(i)為向量i到其他每個類中樣本平均距離的最小值。
由于欠定情況下估算得到的混合矩陣是一個非滿秩的矩陣,因此無法直接通過估算的矩陣實現(xiàn)源信號的重建。本研究采用一種基于稀疏性的方法來重構源信號,考慮式(1)所示的瞬時線性混合模型,在混合矩陣α已經估計出的情況下,稀疏源信號S的估計問題可以轉化為如下的優(yōu)化問題:
(20)
(21)
式中,p為設定的值。本節(jié)基于lp范數(shù)完成對生豬音頻的重構。
2)對于某一時刻t,求解lp范數(shù)最小化問題的可能解:
(22)
(23)
(24)
為了衡量算法重構出的音頻質量,本研究引入相似系數(shù)、信噪比和均方誤差。
相似系數(shù)ξij以分離輸出信號yi與源信號sj的相似系數(shù)作為盲源分離性能的度量。其計算公式為:
(25)
式中,ξij取值范圍為[0,1],當ξij=1時,說明第i個分離信號與第j個源信號的波形完全相同,當ξij=0時,yi與sj相互獨立,ξij的取值越大,說明兩者越相似。
信噪比是指系統(tǒng)中信號與噪聲的比例,本研究使用信噪比來描述重構信號較源信號失真的程度,其計算公式為:
(26)
SNR的值越高表示效果越好。
均方誤差是預測數(shù)據(jù)和原始數(shù)據(jù)對應點誤差的平方和的均值,其計算公式為:
(27)
MSE的值說明了源信號與重構信號的差異性,其值越小表示效果越好。
圖2展示了12~16 s不等長的不同生豬狀態(tài)下的音頻信號波形圖,采用補零方式將不同長度的音頻對齊,運用幅值衰減矩陣A(式(28))將圖2展示的生豬哼叫聲、呼嚕聲、咆哮聲進行融合,得到音頻觀測信號波形如圖3所示。在統(tǒng)一采樣率44.1 kHz的前提下,設置不同采樣點數(shù)來獲取5、9、12 s的生豬觀測音頻。由于試驗的一般過程大同小異,只在最終重構的結果上有所差異,因此本研究以在12 s生豬觀測信號下完成的欠定生豬盲源信號分離過程為例,來闡述單源點以及混合矩陣估計的部分,圖3~7和表1均為在12 s觀測音頻前提下得到的試驗結果。
表1 聚類結果迭代次數(shù)和輪廓系數(shù)對比Table 1 Comparison of iteration times and silhouette coefficients of clustering results
圖2 不同狀態(tài)下的生豬原始音頻信號波形圖Fig.2 Original audio signal waveform of pigs in different states
圖3 生豬觀測音頻信號波形圖Fig.3 Waveform of pig observed audio signal
對觀測信號做短時傅里葉變換,選擇漢寧窗為窗函數(shù),窗大小設置為512,窗重疊為256,得到兩個觀測信號的復數(shù)矩陣,圖4展示了觀測信號做STFT后的復數(shù)矩陣可視化散點圖。根據(jù)“1.4”節(jié)所提方法,設置M=6,ε1=0.01,ε2=0.05,σ=0.5,提取單源點。圖5為觀測信號在提取單源點前后的實部對比散點圖,可以直觀的看出,經過本研究所提方法進行單源點篩選后,信號的幅值在二維平面上清晰地呈3條直線分布,且低能點基本剔除。
a.觀測信號1;b.觀測信號2a.Observed signal 1;b.Observed signal 2圖4 時頻域下時長12 s的觀測信號散點圖Fig.4 Scatter plots of observed signals with a duration of 12 s in time-frequency domain
a.觀測信號;b.單源點a.Observed signal;b.Single source points圖5 時頻域下時長12 s的觀測信號和提取到的單源點實部散點圖Fig.5 Scatter plots of the real part of observed signal and extracted single source point with a duration of 12 s in the time-frequency domain
采用改進的AP聚類算法對提取的特征單源點進行聚類,試驗時設置最大迭代次數(shù)為500,迭代終止次數(shù)為50,使用自適應法則對阻尼系數(shù)進行調整,設置窗長度L為6,初始阻尼系數(shù)λ為0.5,記錄每次阻尼系數(shù)調整前的最終聚類數(shù),圖6表明聚類時阻尼系數(shù)以及聚類結果的變化曲線,隨著迭代次數(shù)的逐漸增加,當λ初始值為0.5時,聚類結果較大,數(shù)值振蕩,隨著阻尼系數(shù)的不斷增大,聚類數(shù)目也在不斷變化,當λ的值增大到0.67時,聚類個數(shù)趨于穩(wěn)定。表1展示了AP與SVD-AP在迭代次數(shù)和輪廓系數(shù)上的結果,可以看到,SVD-AP迭代次數(shù)小于AP算法,且輪廓系數(shù)略大。圖7示出了改進AP算法對于觀測信號的實部聚類結果,可以清晰地看到呈一條直線狀的特征點聚為一類,總共聚為3類,分別用不同顏色表示。
圖6 不同阻尼系數(shù)及聚類結果Fig.6 Different damping coefficients and clustering results
圖7 改進AP聚類結果Fig.7 Clustering results of improved AP
(28)
按照“1.6”中的方法從混合音頻中分離音頻信號,表2表明在觀測信號為12 s的前提下,不同p值重構出的音頻信號與源信號的平均信噪比,根據(jù)p值的不同,平均信噪比的值在7.3~9.1 dB之間變化,當p值選取為0.8時,分離出的波形最優(yōu),平均信噪比值最大,因此這里選取p為0.8來完成音頻的重構。
表2 不同p值下源信號與重構信號的平均信噪比Table 2 Average signal-to-noise ratio of the source signals and the reconstructed signals at different p-values
圖8~10展示了觀測信號時長為5、9、12 s下的生豬音頻源信號和重構信號的波形,重構后的音頻排列順序與源信號輸入順序并不一致,文獻[36]采用按頻率聚類解決排序二義性問題,然而本研究的重點在于“兩步法”的欠定生豬音頻信號的盲源分離,因此這里對于排序問題不加討論;從波形上看,不同時長下的源信號2、3與對應的重構信號大致一樣,幅值大小有略微差別,不同之處主要在于無效音頻(噪聲)段,不同時長下的源信號1與對應的重構信號有較明顯的區(qū)別,對比源信號與重構信號可知,重構信號在源信號波形的基礎上增加了其他許多波段,可能是由于源信號1的靜音段較多,在與其他音頻混合后,各靜音段特征不再明顯,受到其他源信號的影響較大,使得最終結果上有所差異;整體上看,觀測信號為5、9、12 s在相同采樣點部分的分離效果基本一致,且算法不受時間長度影響,較為穩(wěn)定。為了衡量重構音頻質量,測得不同時長下的源信號與對應觀測信號的相似系數(shù)、信噪比和均方誤差(表3),從局部上看,不同時長下的重構信號1與對應源信號的相似系數(shù)在0.67~0.76之間,數(shù)值較低,信噪比在7.9~8.2 dB之間,均方誤差在0.006~0.015之間;不同時長下的重構信號2和3與對應源信號的相似系數(shù)在0.88~0.92和0.90~0.93之間,信噪比在9.2~9.5 dB和9.4~9.7 dB之間,均方誤差在0.005~0.08和0.008~0.03之間。從整體上看,分離信號與源信號的相似系數(shù)、信噪比和均方誤差分別在0.67~0.92、7.9~9.7 dB和0.005~0.08之間,各測量值結果不同可能與不同采樣點數(shù)、其他源信號干擾、信號本身在某個時間段特征凸顯較弱和幅值一定程度的衰減有關。將分離后的信號寫成wav文件,經主觀試聽和比較,發(fā)現(xiàn)略有雜音,整體效果良好。
A.源信號;B.重構信號A.Source audio signals;B.Reconstructed audio signals圖8 5 s生豬觀測信號下的重構音頻波形圖Fig.8 Reconstructed audio waveform of pig observed signals at 5 s
A.源信號;B.重構信號A.Source audio signal;B.Reconstructed audio signal圖9 9 s生豬觀測信號下的重構音頻波形圖Fig.9 Reconstructed audio waveform of pig observed signals at 9 s
A.源信號;B.重構信號A.Source audio signal;B.Reconstructed audio signal圖10 12 s生豬觀測信號下的重構音頻波形圖Fig.10 Reconstructed audio waveform of pig observed signals at 12 s
表3 音頻源信號與重構信號指標Table 3 Indicators of audio source signals and reconstructed signals
為了衡量算法的性能,本研究另選取15 s左右的生豬哼叫聲、呼嚕聲、咆哮聲、進食聲和尖叫聲音頻信號,分別設置3×2、4×2、4×3、5×2、5×3、5×4數(shù)值不同的幅值衰減矩陣,構造小于源信號數(shù)的不同數(shù)量的觀測信號,進行欠定生豬盲源信號分離,并與文獻[37]、[38]方法做對比,將測量指標結果展示如圖11,其中x軸坐標數(shù)字為“源信號數(shù)-觀測信號數(shù)”,y軸顯示的數(shù)值為所有分離信號與源信號測得的對應評價指標的平均值。
從圖11可知,對于不同數(shù)量的源信號與觀測信號,分離出來的音頻質量指標各不相同,在源信號數(shù)一定時,觀測信號數(shù)越多,各方法測得的質量指標越好,分離出來的音頻越可靠。在相似系數(shù)上,文獻[37]與[38]分別在0.778~0.939和0.755~0.927,本研究所提方法測得的數(shù)值在0.785~0.957;在信噪比上,文獻[37]與[38]分別在7.268~10.017 dB和7.568~9.897 dB,本研究所提方法測得的數(shù)值在7.468~10.347 dB;在平均均方誤差上,文獻[37]與[38]分別在0.021~0.113和0.025~0.135,而本研究所提方法數(shù)值在0.019~0.092;從整體上看,本研究所提方法所測的平均相似系數(shù)、平均信噪比的值較高,平均均方誤差的值較低,優(yōu)于文獻[38]所述方法,略微好于文獻[37]所提方法。
豬肉是我國主要的肉食來源,生豬的健康至關重要,在豬只生命周期中,其聲音往往會反映所處的狀態(tài)及行為,通過現(xiàn)代計算機技術對豬場音頻的實時監(jiān)測和識別,有助于養(yǎng)殖人員及時獲取生豬信息,捕獲異常。本研究針對生豬音頻在識別過程中特征難以提取的問題,提出一種基于稀疏化理論的欠定生豬盲源信號分離方法,結果表明,該方法能夠較為有效地分離出混合豬聲信號的各源信號分量。
本研究將欠定盲源分離試驗分為2步:混合矩陣估計和音頻信號重構。混合矩陣估計包括單源點的提取和自適應SVD-AP聚類算法。本研究使用的單源點特征利用了音頻信號的稀疏性,在一般單源點提取步驟的基礎上,進行分組,計算每組的方差來進一步篩選,并且通過去除低能點來減少噪聲誤差,結果表明,該方法在使得聚類前的散點分布更為清晰,干擾點大多被剔除。AP聚類算法能獲取單源點的類別數(shù)和各聚類結果,以此得到混合矩陣,本研究通過降維和自適應法則調參,證實了聚類算法估計混和矩陣的有效性,結果表明,該方法在迭代次數(shù)上有所減少,在輪廓系數(shù)上稍高,整體聚類效果良好。同時基于信號的稀疏性,采用最小lp范數(shù)進行重構音頻信號,結果表明,不同的p值對于重構的音頻質量有所影響,通過比較不同p值下分離音頻信號的測量指標,選取最優(yōu)值能夠獲取最大質量的音頻重構信號。
本研究所用方法的好壞以其最終分離的音頻質量和本身的穩(wěn)定性來衡量,為此對5、9、12 s具有相同部分的不同時長的生豬音頻進行試驗,研究結果證實了本研究方法對于生豬欠定盲源分離的可行性,但該方法對于源信號中的靜音段重構有一定誤差。經比對其他方法發(fā)現(xiàn),重構的音頻在平均相似系數(shù)和信噪比較高,平均均方誤差較低,整體情況較優(yōu),重構出的波形和計算的評價指標不受試驗次數(shù)影響,具有一定的穩(wěn)定性。
然而本研究尚存在一些局限性,在未來的研究中需要注意:1)本研究為了便于衡量分離音頻的質量,通過人工設置混合矩陣獲得的觀測信號,但在實際環(huán)境,并沒有單一的源信號作為參考信號,對于通過算法分離音頻信號以及在預處理時經過濾波降噪后的音頻信號的質量如何評價還需進一步思考研究。2)本研究沒有考慮源信號數(shù)如何確定,但在實際環(huán)境中,豬圈中采集到的音頻由幾頭豬共同發(fā)出是未知的(即源信號數(shù)未知),有研究表明勢函數(shù)[39]和蓋氏圓的信源數(shù)估計法[40]可以作為源信號數(shù)的判斷方法,后續(xù)可以結合相關理論,進一步研究源信號數(shù)的獲取方式。3)在實際養(yǎng)殖環(huán)境中,豬舍的四周往往砌有墻壁,豬聲的反射會對音頻的盲源分離和識別帶來一定的影響,有研究表明全局脈沖響應網絡[41-42]能夠降低混響聲音對于盲源分離的影響,在后續(xù)研究中,可以通過模擬試驗來測試該網絡的效果。
本研究提出了一種基于稀疏化理論的欠定生豬盲源信號分離方法,通過調整聚類、重構參數(shù)發(fā)現(xiàn),生豬音頻的幾種源信號在混合后經過本研究所提方法能夠較為有效的分離,另外通過多次試驗和對比,本研究方法具有一定的穩(wěn)定性,在評價指標上有較優(yōu)的表現(xiàn),研究結果為實際環(huán)境中混合生豬音頻的特征提取奠定了基礎,對于豬場生豬音頻的識別與監(jiān)測具有一定的參考價值。