• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種新的音樂(lè)檢索技術(shù)研究

    2018-05-07 03:27:20伍寅峰張明
    現(xiàn)代計(jì)算機(jī) 2018年9期
    關(guān)鍵詞:基音音高輪廓

    伍寅峰,張明

    (上海海事大學(xué)信息工程學(xué)院,上海 201306)

    0 引言

    音樂(lè)作為一種重要的數(shù)據(jù)形式,充斥著新一代人的生活和工作,傳統(tǒng)的音樂(lè)檢索采用的是文本注釋的方法進(jìn)行標(biāo)記,但是由于標(biāo)記的復(fù)雜性和標(biāo)記者的主觀性,傳統(tǒng)的音樂(lè)檢索技術(shù)已經(jīng)逐漸走下歷史的舞臺(tái)。哼唱檢索(Query By Humming,QBH)作為一種新興的檢索方法由于其方便簡(jiǎn)單的特性被廣大用戶(hù)所接受,它是指用戶(hù)哼唱歌曲的某個(gè)片段作為查詢(xún)輸入,然后從歌曲數(shù)據(jù)庫(kù)中檢索出相對(duì)應(yīng)的音樂(lè)。因此,相對(duì)傳統(tǒng)的以文本注釋的搜索方法,哼唱檢索更能提高用戶(hù)的搜索體驗(yàn)。

    對(duì)于哼唱檢索來(lái)說(shuō),特征的提取好壞對(duì)檢索的結(jié)果影響巨大,大量研究證明對(duì)于歌曲來(lái)說(shuō),旋律是其本質(zhì)的特征,音高、音長(zhǎng)和節(jié)奏是旋律的重要屬性。1995年,Ghias[1]展示了首個(gè)QBH系統(tǒng),創(chuàng)造性的將歌曲轉(zhuǎn)換為音調(diào)輪廓信息進(jìn)行匹配,利用三個(gè)字符S、U、D來(lái)表示音樂(lè)的旋律輪廓。McNab等[2,3]增加了對(duì)音樂(lè)節(jié)奏信息的提取提高檢索成功率。Blackburn[4]、Roland[5]和Shih[6]等發(fā)展了McNab的方法,使用基于樹(shù)的數(shù)據(jù)庫(kù)搜索技術(shù)來(lái)提高搜索精度和速度。隨后Shih[7]在其QBH系統(tǒng)中使用了隱馬爾科夫模型,這項(xiàng)技術(shù)已經(jīng)被成功應(yīng)用到語(yǔ)音識(shí)別等領(lǐng)域。Zhu等[8]用動(dòng)態(tài)時(shí)間規(guī)整(Dy?namic Time Warping,DTW)索引技術(shù)將演唱歌曲直接與數(shù)據(jù)庫(kù)中的歌曲進(jìn)行比較。

    通過(guò)以上的研究分析發(fā)現(xiàn),以往的研究方法總是集中于搜索準(zhǔn)確率或搜索時(shí)間某一點(diǎn)上,很難從兩者之間做出平衡,搜索精度高的算法往往運(yùn)行時(shí)間過(guò)長(zhǎng),而搜索時(shí)間很短的算法精度卻不高,本文在上述研究的基礎(chǔ)上,首先改進(jìn)了基于短時(shí)自相關(guān)法的基音估值算法,然后使用一種新的線(xiàn)性伸縮方法進(jìn)行音高輪廓的匹配。實(shí)驗(yàn)表明,使用該算法提取的音高輪廓進(jìn)行音樂(lè)檢索匹配時(shí),有較好的搜索精度,對(duì)于一定程度的嘈雜壞境具有較強(qiáng)的適應(yīng)性。本文的哼唱檢索系統(tǒng)整體框架如圖1所示。

    圖1 哼唱檢索處理框架

    1 音樂(lè)旋律提取算法

    本文對(duì)哼唱信息處理的過(guò)程分成3步:預(yù)處理、基音提取、旋律匹配。

    1.1 預(yù)處理

    預(yù)處理部分包括預(yù)加重、加窗分幀和降噪等操作。

    (1)預(yù)加重

    對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行預(yù)加重的目的主要是為了加重語(yǔ)音高頻部分,去除聲門(mén)激勵(lì)和口鼻輻射的影響,使信號(hào)的頻譜變得平坦。本文的預(yù)加重是在語(yǔ)音信號(hào)數(shù)字化后,在參數(shù)分析之前在計(jì)算機(jī)里用具有6dB/倍頻程的提升高頻特性的一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)[9],其表達(dá)式如式(1)所示:

    其中u為預(yù)加重系數(shù)。

    (2)加窗分幀

    對(duì)于窗函數(shù)的選擇,由于矩形窗的頻譜泄露較嚴(yán)重,所以我們采用更加平滑的漢明窗,其表達(dá)式如式(1)所示(其中N為幀長(zhǎng))

    (3)降噪

    對(duì)語(yǔ)音信號(hào)中加性噪聲的抑制方法有多種。本文采用最小均方誤差估計(jì)語(yǔ)音增強(qiáng)方法,它是由Yariv Ephraim和David Malah[10]于1985年提出,是一種對(duì)特定的失真準(zhǔn)則和后驗(yàn)概率不敏感的估計(jì)方法,能有效地降低音樂(lè)噪聲的干擾。

    1.2 基音提取

    短時(shí)自相關(guān)函數(shù)是對(duì)信號(hào)進(jìn)行短時(shí)相關(guān)分析時(shí)最常用到的特征函數(shù)。音樂(lè)信號(hào)s(m)經(jīng)窗長(zhǎng)為N的窗口截取為一段加窗信號(hào)Sn(m),對(duì)其進(jìn)行分幀,Sn(m)為一幀內(nèi)的信號(hào),定義Sn(m)的自相關(guān)函數(shù)Rn(k)為:

    由于信號(hào)的短時(shí)自相關(guān)函數(shù)在基音周期的整數(shù)倍位置上會(huì)出現(xiàn)峰值,因此可以通過(guò)檢測(cè)峰值的位置來(lái)提取基音周期值?;诙虝r(shí)自相關(guān)法進(jìn)行基音提取是目前比較常見(jiàn)的基音提取算法,但是這種方法有著很明顯的缺陷:

    (1)聲道共振峰有時(shí)會(huì)嚴(yán)重影響激勵(lì)信號(hào)的諧波結(jié)構(gòu)。

    (2)語(yǔ)音信號(hào)本身是準(zhǔn)周期性的,而且其波形的峰值點(diǎn)或過(guò)零點(diǎn)受共振峰結(jié)構(gòu)和噪聲的影響。

    鑒于此,我們提出一種改進(jìn)的基于短時(shí)自相關(guān)法的基音周期提取算法,在傳統(tǒng)方法的基礎(chǔ)上,進(jìn)行預(yù)處理,實(shí)現(xiàn)對(duì)基音周期的準(zhǔn)確提取。本文對(duì)語(yǔ)音信號(hào)先進(jìn)行中心削波處理,同時(shí)在中心削波法的基礎(chǔ)上,再采用三電平削波法,從而大大節(jié)省了計(jì)算時(shí)間。

    中心削波函數(shù)如式(4)所示:

    三電平削波函數(shù)如式(5)所示

    實(shí)驗(yàn)表明,將削波后的序列 f(x)用短時(shí)自相關(guān)函數(shù)估計(jì)基音周期,在周期位置的峰值更加尖銳,可以有效地減少倍頻或半頻錯(cuò)誤,同時(shí)計(jì)算時(shí)間會(huì)大大縮短。

    基于以上處理,即可較好地求出每一幀哼唱信號(hào)的基音頻率,然后使用下式轉(zhuǎn)換成半音單位:

    其中,freq是以Hz為單位的基頻值。

    一個(gè)音符總會(huì)延續(xù)若干幀,得到每一幀的音高之后,可采取加權(quán)求特征值的方式得到每個(gè)音符的音高。設(shè)一個(gè)音符由n幀構(gòu)成,每幀的音高分別是P1,P2,…,Pn,則每一幀的權(quán)重定義如下:累加具有相同音高幀的權(quán)重,權(quán)重最大者即為整個(gè)音符的音高,進(jìn)而得出音高輪廓,圖2是作者哼唱的一段音樂(lè)的音高輪廓和時(shí)域波形。

    1.3 旋律匹配

    得到音高輪廓后,我們就可以與音樂(lè)數(shù)據(jù)庫(kù)中的歌曲進(jìn)行旋律匹配,音樂(lè)數(shù)據(jù)庫(kù)中的每一首歌曲也必須事先轉(zhuǎn)換成音高輪廓的形式,旋律匹配的目的在于找到與我們哼唱片段最相似的目標(biāo)音高輪廓。其中相似度的大小取決于我們所用到的距離函數(shù),距離越小,則相似度越高。在計(jì)算兩段音高的距離時(shí),一些問(wèn)題不可忽視:每個(gè)人唱歌的音高基準(zhǔn)不一樣,女生唱歌的key比較高,而男生比較低;每個(gè)人唱歌的速度也不一樣,唱歌的快慢可能都與數(shù)據(jù)庫(kù)中的歌曲速度不同。

    圖2 哼唱片段的音高輪廓與時(shí)域波形

    對(duì)于第一個(gè)問(wèn)題,可以將兩段音高都平移到同一個(gè)音高基準(zhǔn),再進(jìn)行比對(duì)。對(duì)于第二個(gè)問(wèn)題,假設(shè)速度的變化是均勻的,此時(shí)就可以采用線(xiàn)性伸縮算法來(lái)進(jìn)行比對(duì)。

    在不切音符情況下,最簡(jiǎn)單高效的匹配算法就是線(xiàn)性伸縮,其原理就是以線(xiàn)性方式伸展或收縮哼唱片段音高輪廓來(lái)搜索數(shù)據(jù)庫(kù)中的歌曲,其算法過(guò)程如下:

    (1)使用內(nèi)插法,將哼唱片段的音高輪廓進(jìn)行線(xiàn)性的伸展或收縮,例如伸縮比例可以是從0.5到1.5,跳距是0.25,共產(chǎn)生5個(gè)版本。

    (2)將這5個(gè)處理過(guò)的音高輪廓和歌曲數(shù)據(jù)庫(kù)中的一首歌曲的音高輪廓進(jìn)行比對(duì),得到了5個(gè)距離,取距離最小者,作為哼唱片段的音高輪廓和這首歌的距離。

    (3)對(duì)歌曲庫(kù)中的所有歌曲進(jìn)行比較,距離最短的既是與哼唱片段的最佳匹配,匹配結(jié)果如圖3所示。

    從上面我們可以看出,線(xiàn)性收縮算法的匹配準(zhǔn)確率在于伸縮系數(shù)的跳距,跳距越小,則匹配的準(zhǔn)確度會(huì)隨之上升,但是匹配的時(shí)間在到達(dá)一個(gè)閾值后會(huì)呈線(xiàn)性增長(zhǎng)。同時(shí)當(dāng)用戶(hù)哼唱速度快慢不一時(shí),線(xiàn)性伸縮的效果也會(huì)受到很大的影響。基于這兩個(gè)問(wèn)題,本文對(duì)線(xiàn)性伸縮的匹配準(zhǔn)則做出了改進(jìn),提出了限定閾值的多分段式線(xiàn)性伸縮算法,當(dāng)用戶(hù)哼唱的速度快慢不一時(shí),對(duì)哼唱速度發(fā)生明顯變化的點(diǎn)進(jìn)行分割,這樣在短時(shí)間內(nèi)分割出來(lái)的哼唱片段的速度變化可以看作是均勻的,同時(shí)我們需要限定一個(gè)閾值,用來(lái)限制分割的段數(shù),分割的段數(shù)與跳距的大小選擇呈反比關(guān)系。下面對(duì)限定閾值的多分段式線(xiàn)性伸縮算法的過(guò)程作具體闡述:

    (1)給定閾值α,閾值的選擇不應(yīng)過(guò)大,應(yīng)由哼唱片段的實(shí)際質(zhì)量做出衡量。哼唱片段的質(zhì)量越高閾值取值可越小,反之則越大。但不可過(guò)大,實(shí)驗(yàn)證明,一旦閾值選取過(guò)大,匹配時(shí)間會(huì)呈線(xiàn)性增長(zhǎng)。

    (2)根據(jù)閾值α將目標(biāo)音高輪廓和哼唱片段音高輪廓切割成α段,先對(duì)第一段進(jìn)行處理。

    圖3 線(xiàn)性伸縮的匹配結(jié)果示意

    (3)使用線(xiàn)性?xún)?nèi)插將哼唱片段的音高輪廓線(xiàn)性伸展或收縮,跳距θ根據(jù)閾值的大小判斷,跳距θ和閾值α總是呈現(xiàn)正反比關(guān)系。本文給出一種選擇方法。

    σ2和σ1分別表示伸縮比例,伸縮比例的一般在0到2之間選取,本文選取的伸縮比例范圍是0.5至1.5。

    (4)將n個(gè)伸縮后的哼唱片段與歌曲數(shù)據(jù)庫(kù)中的一首歌曲的音高輪廓數(shù)據(jù)比較,獲到n個(gè)距離,將其中的最小值作為目標(biāo)音高輪廓和哼唱片段音高輪廓之間的最小距離Dist1。

    (5)對(duì)于之后的 α-1段重復(fù)步驟(3)和步驟(4)的操作,得到α-1段的最小距離Dist2,Dist3,…,Distα。

    (6)相加所有的獨(dú)立最小距離得到最終距離 DistSum=Dist1+Dist2+…+Distα。

    (7)與數(shù)據(jù)庫(kù)中所有歌曲進(jìn)行步驟(1)到步驟(6)的操作,為了哼唱片段匹配過(guò)程的一致性,應(yīng)選擇與以上操作相同的閾值α和跳距θ,進(jìn)而得到m個(gè)DistSum。

    (8)比較m個(gè)DistSum,最小者則是我們要檢索的目標(biāo)歌曲。

    實(shí)驗(yàn)證明,該算法能很好地解決跳距的選擇問(wèn)題和哼唱速度不均的問(wèn)題。

    2 實(shí)驗(yàn)結(jié)果與分析

    為了測(cè)試本文所提出的檢索方法的有效性,本文基于MIR-QBSH數(shù)據(jù)集(MIREX競(jìng)賽用于QBSH任務(wù)的語(yǔ)料庫(kù))上進(jìn)行了相關(guān)實(shí)驗(yàn),MIR-QBSH數(shù)據(jù)集包含48個(gè)地面實(shí)況MIDI文件和約195個(gè)主題的4431個(gè)查詢(xún)片段,測(cè)試片段都是頻率為8kHz、8位的單聲道WAV文件。所有實(shí)驗(yàn)均在主頻為2.3GHz的Intel Core i5-6300HQ CPU、內(nèi)存為 8GB、顯示適配器為NVIDIA GeForce GTX 960M的PC上完成,使用的系統(tǒng)是Windows10,64位,編程語(yǔ)言采用C++。

    2.1 限定閾值的多分段線(xiàn)性伸縮算法的效率實(shí)驗(yàn)

    為了能更加客觀地表示新算法的執(zhí)行效率,我們選擇了目前使用較多的兩種旋律匹配算法:字符串匹配算法和DTW匹配算法作為比較,比較結(jié)果如圖4所示。

    從圖中我們可以看到,三種旋律匹配算法中,DTW匹配算法作為當(dāng)前最主流的匹配算法,其準(zhǔn)確率達(dá)到了最高,限定閾值的多分段線(xiàn)性伸縮算法其次,字符串匹配算法排在最后,但是DTW算法卻因?yàn)槠浞彪s的計(jì)算過(guò)程而在搜索時(shí)間上遠(yuǎn)落后于其他兩種算法,如表1所示。新算法在匹配準(zhǔn)確率上雖然稍遜于DTW匹配算法,但是在搜索時(shí)間上卻取得了勝利,綜合兩方面考慮,新算法在現(xiàn)實(shí)生活中更加具有實(shí)用性。

    表1 三種方法檢索時(shí)間對(duì)比

    2.2 哼唱系統(tǒng)的性能實(shí)驗(yàn)

    同時(shí)我們選擇了10位未經(jīng)專(zhuān)業(yè)音樂(lè)訓(xùn)練的測(cè)試人員,男女各5人,每人隨機(jī)哼唱數(shù)據(jù)庫(kù)中的一首歌曲,哼唱片段的長(zhǎng)度在7秒至15秒之間不等。對(duì)哼唱結(jié)果的成功率我們進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表2所示。

    表2 哼唱檢索實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)能夠很好地對(duì)哼唱片段進(jìn)行識(shí)別,并能給出滿(mǎn)意的結(jié)果。

    圖4 三種不同的匹配算法比較

    3 結(jié)語(yǔ)

    本文在分析現(xiàn)有的基音提取算法的基礎(chǔ)上,提出了當(dāng)前算法的不足,并加以改進(jìn),使其能夠更好地為旋律匹配提供支持。同時(shí)在旋律匹配算法的選擇上,提出了新的限定閾值額多分段線(xiàn)性伸縮算法,在提升匹配準(zhǔn)確率的同時(shí)降低了計(jì)算量,在匹配正確率和搜索時(shí)間兩者之間做出了平衡。接下來(lái)如何在不犧牲搜索時(shí)間的基礎(chǔ)上進(jìn)一步提升匹配準(zhǔn)確率,需要進(jìn)一步深入的研究。

    參考文獻(xiàn):

    [1]Ghias A,Logan J,Chamberlin D,et al.Query By Humming:Musical Information Retrieval in an Audio Database[C].ACM International Conference on Multimedia.ACM,1995:231-236.

    [2]Mcnab R J,Smith L A,Witten I H,et al.Towards the Digital Music Library:Tune Retrieval From Acoustic Input[J],1996:11-18.

    [3]Mcnab R J,Smith L A,Witten I H,et al.Tune Retrieval in the Multimedia Library[J].Multimedia Tools&Applications,2000,10(2-3):113-132.

    [4]Blackburn S,Deroure D.A Tool for Content Based Navigation of Music[C].ACM International Conference on Multimedia.ACM,1998:361-368.

    [5]Rolland P Y,Raskins G,Ganascia J G.Music Content-based Retrieval:an Overview of Melodiscoc Approach And Systems[C].ACM Multimedia Conference,1999.

    [6]Shih H H,Zhang T,Kuo C C J.Real-Time Retrieval of Songs from Musical Databases with Query-by-Humming[J].

    [7]Shih H H,Narayanan S S,Kuo C C J.An HMM-based Approach to Humming Transcription[C].IEEE International Conference on Multimedia and Expo,2002.ICME'02.Proceedings.IEEE,2002:337-340 vol.1.

    [8]Zhu Y,Shasha D.Warping Indexes with Envelope Transforms fFor Query by Humming[C].Proceedings of the 2003 ACM SIGMOD International Conference on Management of data.ACM,2003:181-192.

    [9]周明全,耿國(guó)華,王小鳳,李鵬.基于內(nèi)容的音頻檢索技術(shù)[M].北京:科學(xué)出版社,2014:29-29

    [10]Ephraim Y,Malah D.D Malah,Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator[J].IEEE Trans.Acoust.Speech Signal Process 32,1109-1121[J].IEEE Transactions on Acoustics Speech&Signal Processing,1985,32(6):1109-1121.

    猜你喜歡
    基音音高輪廓
    喬治·克拉姆《大宇宙Ⅲ》音高組織分析
    里蓋蒂《小提琴協(xié)奏曲》中的“雙律制音高組織”研究
    OPENCV輪廓識(shí)別研究與實(shí)踐
    基于實(shí)時(shí)輪廓誤差估算的數(shù)控系統(tǒng)輪廓控制
    基于基音跟蹤的語(yǔ)音增強(qiáng)研究
    改進(jìn)音高輪廓?jiǎng)?chuàng)建和選擇的旋律提取算法
    音樂(lè)是一種特殊的語(yǔ)言——聊聊音高的魅力
    學(xué)與玩(2017年5期)2017-02-16 07:06:28
    在線(xiàn)學(xué)習(xí)機(jī)制下的Snake輪廓跟蹤
    樂(lè)理小知識(shí)
    小演奏家(2014年11期)2014-12-17 01:18:52
    一種改進(jìn)的基音周期提取算法
    淅川县| 肥乡县| 玛曲县| 张家界市| 平江县| 福海县| 梅河口市| 巴彦淖尔市| 云梦县| 吉木乃县| 浦东新区| 凉山| 独山县| 阿城市| 三都| 巫溪县| 柳州市| 铜梁县| 韶关市| 舞钢市| 崇明县| 阿图什市| 嘉黎县| 德庆县| 清丰县| 太和县| 静安区| 昔阳县| 工布江达县| 定南县| 呼玛县| 乌拉特后旗| 永仁县| 沾化县| 孟连| 礼泉县| 寿宁县| 旬邑县| 临海市| 桐城市| 呼图壁县|