首都醫(yī)科大學(xué)附屬北京婦產(chǎn)醫(yī)院 劉 婷
計算機(jī)來模擬人類識別音樂的過程一項較難的工作,而且,隨著因特網(wǎng)的大興其道,數(shù)字音樂也大量的產(chǎn)生,隨之而來的是如何儲存并建立合理的音樂檢索方法,傳統(tǒng)的音樂文件檢索都是在知道音樂名稱的基礎(chǔ)上完成的,而如何建立基于內(nèi)容的檢索成為一個新興的領(lǐng)域,這不但要求檢索過程可以從音樂的任何一段開始,而且還要求對輸入的錯誤有一定的糾錯能力,因為有時使用者的輸入并不一定與某些音樂對象相匹配,這就要求系統(tǒng)能夠找出類似的樣式來,另外,除了有效性,還應(yīng)該盡可能得節(jié)省儲存空間,因此,必須用一種合理的方式表達(dá)和儲存原始音樂信號,而和弦作為音樂中的重要載體,包括三個或三個以上同時發(fā)聲的音符,能夠表達(dá)音樂中的重要信息成分,利用和弦儲存音樂信息可以減少對冗余信息的存儲,從而能夠節(jié)約儲存空間,提高儲存效率。
音樂信號識別算法大致可以分成三類:一類是利用時頻分析的方法進(jìn)行音樂識別,第二類是基于和聲(harmonic)的和弦識別方法,第三類方法則是利用模式識別的方法,下面就通過一些具有代表性的具體方法來展示這些算法的特點。
將時頻分析應(yīng)用到和弦識別當(dāng)中是較為傳統(tǒng)的一種方法。Zheng Cao等人利用針對頻率域的手段提出了音符與和弦的識別方法,而在整個過程中應(yīng)用小波變換的工具。音樂信號是典型的時頻分布形態(tài),并且具有短時穩(wěn)定的特性,因此我們我們可以通過時頻分析的方法進(jìn)行音樂信號識別。
Chuan-Wang Chang等人提出了一種基于和聲(harmonic)的單聲道音樂和弦識別方法,該方法可以將單音旋律的音樂識別為相同的和弦效果,也就是用和弦來表示若干音符的效果。隨著網(wǎng)絡(luò)和數(shù)字音樂的興起,如何高效地存儲音樂資料是個熱門的研究內(nèi)容,其中,以和弦表示音樂資料可以大量減少存儲空間,并可以提高容錯的效果。
對于專業(yè)的音樂人士,能夠通過聽力來進(jìn)行音樂和弦種類的識別,而在信號分析識別領(lǐng)域,人們希望讓計算機(jī)也具備這樣的能力,從音樂和弦信號中提取出新的特征參量,并利用支持向量機(jī)進(jìn)行和弦識別,其中具體的技術(shù)包括:
(1)相空間重構(gòu)。隨著混沌、分形等非線性理論的發(fā)展,在信號處理領(lǐng)域,非線性特征參量越來越多的被應(yīng)用到信號分析、檢測和識別當(dāng)中,本文利用相空間重構(gòu)提取音頻信號的非線性特征用來構(gòu)造分類器,并作為識別實驗中的特征量。
(2)自適應(yīng)信號分解。相關(guān)的研究表明,對音樂和弦信號直接識別并不能得到較好的準(zhǔn)確率,因此,需要對音頻信號進(jìn)行預(yù)處理,再提取特征參量,本文將獲取后的和弦音頻利用EMD和NSP的方法分解成包含若干特征信息的子信號,然后對子信號進(jìn)行相空間重構(gòu),從而得到和弦信號的非線性特征參量。
(3)支持向量機(jī)。支持向量機(jī)(SVM)是數(shù)據(jù)挖掘中的一種方法,能非常成功地處理回歸問題和模式識別等諸多問題。在音樂和弦識別方法中,利用相空間重構(gòu)后的非線性特征參量進(jìn)行SVM分類器的構(gòu)造,并進(jìn)行相應(yīng)的和弦識別實驗。
基于上述技術(shù)建立的和弦識別的具體算法,可以較為準(zhǔn)確地對不同種類的和弦進(jìn)行識別。
在音樂識別過程中,音樂信號中包含大量的信息,甚至是噪聲,而其中很多信息是冗余的或者與識別無直接作用的,因此,在分類器構(gòu)造和識別前要對音樂信號提取特征參量,既要能夠反映出音樂因素的本質(zhì)特征,同時也要去除對識別無關(guān)緊要的多余信息,以及降低噪聲對識別的影響。
傳統(tǒng)的識別方法是基于線性理論的,假設(shè)音樂信號隨時間的變化是緩慢的,在這一理論下,大多數(shù)的方法是采用時頻分析的手段,將音樂信號的時頻特征作為分類器構(gòu)造和識別的主要依據(jù)。盡管這種方法得到了廣泛的研究和應(yīng)用,但隨著混沌和分形等理論的不斷發(fā)展,語音信號的非線性本質(zhì)特征逐漸被人們所認(rèn)識和應(yīng)用。研究表明,混沌的信號是由確定性系統(tǒng)產(chǎn)生的隨機(jī)性的信號,具有時域不規(guī)則性和頻域?qū)掝l譜的特征,在區(qū)分這兩種信號方面,傳統(tǒng)的時頻方法效果不明顯,而在語音識別過程中,對語音信號和隨機(jī)信號,特別是噪聲的區(qū)分是至關(guān)重要的。
近年來,混沌和分形等理論不斷地發(fā)展,語音信號的非線性特征開始應(yīng)用到信號處理和信號識別當(dāng)中,其中,相空間重構(gòu)(Reconstructed Phase Space,RPS)方法是提取語音信號非線性特征的有效手段,利用RPS提取音樂信號的非線性特征后,用于分類器的構(gòu)造和識別中,可以產(chǎn)生很好的效果。在實際的相空間重構(gòu)中,有兩個參數(shù)是至關(guān)重要的,一個是延遲時間τ,還有一個是嵌入維m。在Takens的理論中,對于沒有噪聲影響的無限長時間序列,這兩個參數(shù)可以取任意值,但是,在實際的應(yīng)用中,大多數(shù)信號都會被噪聲所干擾,因此,延遲時間τ和嵌入維m不能取任意值,需要通過一定的方法來確定,否則,會對重構(gòu)后的特征矩陣產(chǎn)生嚴(yán)重的影響。
支持向量機(jī)的多類分類有四種:一對一分類,一對多分類,有向無環(huán)圖分類,基于二叉樹的多類分類。其中主流的多類分類是有向無環(huán)圖分類,基于二叉樹的多類分類。
有向無環(huán)圖(Dircted Acyclic Graph,簡稱DAG)算法在訓(xùn)練樣本構(gòu)造分類器時,和一對一算法相同,但在分類階段將所有k(k-1)/2個兩類分類器組成一種兩向有向無環(huán)圖的節(jié)點,k個類別是底層的“葉”,如圖1所示。
圖1 有向無環(huán)圖分類法
當(dāng)對未知樣本訓(xùn)練時,從根結(jié)點開始分類,只需k-1步即可完成分類。和一對一分類算法相比,在分類過程中,減少了重復(fù)操作,很大程度上提高了分類的速度,這種分類方法的缺點是沒有考慮樣本不平衡數(shù)據(jù)對分類速度的影響,而且一旦在分類過程中出現(xiàn)分類錯誤就會產(chǎn)生錯誤的傳遞效果。
基于二叉樹的分類方法首先把k類中最相近的k-1類看作是一類,把余下的一類看作另一大類,建立一個兩類的支持向量機(jī)分類器,然后再在那k-1類中,取出最相近的(k-1)-1類看作一個大類,把那k-1類中余下的一類看作另外一大類,建立另外一個兩類的分類器,依此類推,直到最后兩類,其結(jié)構(gòu)如圖2所示。
圖2 基于二叉樹的多類分類法
對于k類分類問題,一共需要構(gòu)造k-1個兩類的分類器,基于二叉樹的算法還可以克服以上幾個算法中無法識別的陰影區(qū)域,而且重復(fù)訓(xùn)練的樣本量少,可以提高訓(xùn)練和分類的速度。
結(jié)語:音樂信號是由混沌音組成的,存在著混沌機(jī)制,近年來很多研究人員都應(yīng)用非線性理論處理相應(yīng)的語音信號,其中相空間重構(gòu)就是一種非常有效的方式。支持向量機(jī)是一種基于統(tǒng)計學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,該方法在模式識別、回歸分析和函數(shù)擬合等問題中得到較為廣泛的應(yīng)用,闡述了各種多類分類方法的優(yōu)缺點,為識別信號實驗打下了基礎(chǔ)。