• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      維吾爾語廣播新聞敏感詞檢索系統(tǒng)的研究

      2011-06-28 06:36:54木合塔爾沙地克布合力齊姑麗瓦斯力
      中文信息學(xué)報 2011年4期
      關(guān)鍵詞:維吾爾語置信度廣播

      木合塔爾·沙地克,李 曉,布合力齊姑麗·瓦斯力

      (1. 中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國科學(xué)院 研究生院,北京 100084;3. 新疆教育學(xué)院 數(shù)學(xué)與信息技術(shù)分院,新疆 烏魯木齊 830043)

      1 引言

      截止到2004年,我國廣播節(jié)目為1 789套,平均每日播出廣播節(jié)目21 378小時,全天候地為我國13億人口提供資訊信息和文化娛樂服務(wù)[1]。隨著廣播節(jié)目的增多,采用現(xiàn)代化的手段,對大量的廣播節(jié)目進(jìn)行快速高效的內(nèi)容檢索已經(jīng)成為一項重要任務(wù)。維吾爾語廣播新聞敏感詞檢索系統(tǒng)的基本原理是根據(jù)需要為系統(tǒng)設(shè)定若干敏感詞,當(dāng)廣播新聞節(jié)目語音中出現(xiàn)所設(shè)定的敏感詞的語音時,系統(tǒng)將把對應(yīng)的語音段保存在存儲設(shè)備中,以便進(jìn)一步處理。不包含敏感詞內(nèi)容的語音段則不予處理。語音關(guān)鍵詞識別(Speech Keyword Spotting)是實現(xiàn)維吾爾語敏感詞檢索的技術(shù)核心。

      作為語音識別領(lǐng)域的一個重要研究方向,語音關(guān)鍵詞識別技術(shù)是指從連續(xù)語音中檢出和識別一組預(yù)先定義好的特定詞和特定短語。它無需像連續(xù)語音識別(Continuous Speech Recognition,CSR)那樣對連續(xù)語音的整體進(jìn)行識別,而只需提取出語音段中的關(guān)鍵詞信息。跟語音關(guān)鍵詞識別相比,目前連續(xù)語音識別有資源耗費大,速度慢,抗噪能力不強(qiáng)等缺點,這是連續(xù)語音識別短期內(nèi)難以突破的問題所在。因此在當(dāng)前技術(shù)水平下,許多應(yīng)用領(lǐng)域不適合連續(xù)語音識別,而要求語音關(guān)鍵詞識別,這一系統(tǒng)的研究如能取得突破性進(jìn)展,則將大大有助于拓寬維吾爾語語音識別系統(tǒng)的應(yīng)用領(lǐng)域,而維吾爾語語音信息檢索是一個有很好應(yīng)用前景的領(lǐng)域。目前,國內(nèi)外的語音關(guān)鍵詞識別系統(tǒng)通常采用連續(xù)概率密度的隱馬爾可夫模型(CHMM)或半連續(xù)的隱馬爾可夫模型(SCHMM)作為聲學(xué)模型。隨著研究的逐漸深入和完善,語音關(guān)鍵詞識別越來越趨向于借鑒大詞匯量連續(xù)語音識別(LVCSR)的技術(shù),諸多研究表明,實現(xiàn)語音關(guān)鍵詞識別的最好手段就是連續(xù)語音識別技術(shù)[2]。

      2 國內(nèi)外現(xiàn)狀

      2.1 廣播新聞?wù)Z音識別的歷史與現(xiàn)狀

      最早的針對廣播新聞?wù)Z音識別的研究開始于1995年[3]。1995年2月21日,美國國家標(biāo)準(zhǔn)技術(shù)局(NIST)在華盛頓組織了一次研討會,商討下一步DARPA(Defense Advanced Research Projects Agency)資助的連續(xù)語音識別評測項目。在這個研討會上,卡內(nèi)基梅隆大學(xué)的Roni Rosenfeld提出了不同的評測項目,即“Possibly Involving the use of ‘Real’ Transcription of CNN Broadcasts or general Broadcast Audio”。從那時起,語音識別的研究就漸漸地從朗讀式語音的識別轉(zhuǎn)移到了現(xiàn)實生活中“真實語音”(比如廣播新聞?wù)Z音或電話語音等)的識別上來。目前,國際上開展廣播語音識別研究的單位包括: 卡內(nèi)基梅隆大學(xué)(CMU)、劍橋大學(xué)(CU)、LIMSI(Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur)、IBM的Watson研究中心、SRI、BBN、ICSI(International Computer Science Institute)等。近些年,國內(nèi)的中國科學(xué)院聲學(xué)研究所、中國科學(xué)院自動化研究所、清華大學(xué)和北京大學(xué)等單位也開始了在這方面的研究工作。

      在美國DARPA項目的資助下,從1995年到2003年,NIST先后組織了多次關(guān)于廣播新聞?wù)Z音識別的國際評測,這極大地推動了這方面研究的進(jìn)展。從1995年至2003年間的5次HUB-4評測可以大致看出近些年來在廣播新聞?wù)Z音識別方面研究的發(fā)展過程,概括地說,包括以下幾個方面的變化:

      ? 訓(xùn)練數(shù)據(jù): 廣播新聞?wù)Z音的聲學(xué)模型訓(xùn)練數(shù)據(jù)逐年增加,從幾十個小時數(shù)據(jù)到上百個小時數(shù)據(jù),這也帶來了識別性能的相應(yīng)提高,由此可以看出廣播新聞?wù)Z音數(shù)據(jù)對于這方面的研究的重要性;同時,當(dāng)前針對漢語廣播新聞?wù)Z音的數(shù)據(jù)還是偏少,需要國內(nèi)的研究者在這方面的努力和貢獻(xiàn)。

      ? 技術(shù)和方法: 盡管用于廣播新聞?wù)Z音識別的大多數(shù)技術(shù)和方法與傳統(tǒng)的大詞匯量連續(xù)語音識別相比并沒有本質(zhì)的改變,依然是基于統(tǒng)計模型,但是一些具體的相關(guān)技術(shù),比如自動分割、分類和聚類,聲學(xué)模型自適應(yīng)等,都針對廣播新聞?wù)Z音的特點進(jìn)行了深入的研究;同時,也出現(xiàn)了將人工神經(jīng)網(wǎng)絡(luò)方法用于廣播新聞?wù)Z音識別中的系統(tǒng)。

      ? 性能: 隨著針對廣播新聞?wù)Z音的聲學(xué)模型訓(xùn)練數(shù)據(jù)的增加和相關(guān)技術(shù)方法的改進(jìn),廣播新聞?wù)Z音識別系統(tǒng)的詞錯誤率逐年下降,詞錯誤率從最初的27%下降到2003年的9.9%。

      ? 任務(wù): 隨著廣播新聞?wù)Z音識別研究工作的進(jìn)展,研究的任務(wù)從最初單一的英語識別擴(kuò)大到了后來的漢語、西班牙語以及阿拉伯語等語言的識別;識別模式從最初的不限時方式擴(kuò)大到了后來的10倍實時和1倍實時等方式;識別結(jié)果也從最初的字錯誤率評價擴(kuò)大到了后來的更具“可讀性(Readability)”的元數(shù)據(jù)標(biāo)注(Rich Transcription)等。

      廣播新聞?wù)Z音識別通常包括語音的自動分割、分類和聚類,自動語音識別以及后續(xù)的自動標(biāo)注等處理過程。下面,將簡要分析一下語音自動分割、分類和聚類以及自動語音識別方面研究的技術(shù)現(xiàn)狀。

      在語音的自動分割、分類和聚類研究方面: BBN的Byblos系統(tǒng)首先用一個上下文無關(guān)(Context-independent, CI)而性別相關(guān)(Gender-dependent,GD)的音子解碼器,把整個廣播新聞?wù)Z音分成一些小的語音片斷,這些片斷通過自動聚類算法得到各個不同說話人的語音數(shù)據(jù)用于下一步的自適應(yīng)。性別相關(guān)而說話人無關(guān)(Speaker-independent, SI)的模型通過說話人自適應(yīng)訓(xùn)練(Speaker Adapted Training, SAT)算法得到說話人相關(guān)(Speaker dependent,SD)的模型,用于二遍識別。實驗結(jié)果表明,通過SAT自適應(yīng)得到的SD模型的識別準(zhǔn)確率比SI模型相對提高了10%。劍橋大學(xué)的Woodland等人在HTK中使用了更加復(fù)雜的前端預(yù)處理算法。首先把語音分成三大類: 寬帶語音、窄帶語音和音樂。在去掉了音樂后,用一個性別相關(guān)的音子識別器來定位靜音點和說話人轉(zhuǎn)折點,并通過一系列的平滑處理,得到了語音片斷邊界。這些語音片斷先經(jīng)過初始的分類后,然后對每個類別分布的均值應(yīng)用最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)自適應(yīng)算法,得到的自適應(yīng)后的模型用于第二遍的處理??▋?nèi)基梅隆大學(xué)的Sphinx-3系統(tǒng)采用了和劍橋大學(xué)的HTK類似的算法。

      在自動語音識別研究方面,大多數(shù)主流系統(tǒng)采用的還是基于隱馬爾可夫模型(HMM)的統(tǒng)計方法。針對于廣播新聞?wù)Z音識別的任務(wù),這些系統(tǒng)有以下的特點: 1) 采用自適應(yīng)技術(shù)來提高聲學(xué)建模性能;2) 多遍的識別過程。這其中值得一提的一個是SPRACH(Speech Recognition Algorithms for Connectionist Hybrids)系統(tǒng),該系統(tǒng)基于人工神經(jīng)網(wǎng)絡(luò)方法對聲學(xué)模型進(jìn)行建模,并用于大詞匯量廣播語音識別中。該系統(tǒng)是由ICSI、劍橋大學(xué)、謝菲爾德大學(xué)等單位共同開發(fā)的。相比于傳統(tǒng)的基于HMM模型的語音識別系統(tǒng),該系統(tǒng)最大的特點在于其直接利用人工神經(jīng)網(wǎng)絡(luò)模型估計公式(1)中定義的后驗概率P(W|X),這樣一來就可以采用一些更直接的方法進(jìn)行置信度估計、發(fā)音建模和解碼搜索等。

      2.2 關(guān)鍵詞識別研究現(xiàn)狀

      關(guān)鍵詞識別技術(shù)的研究開始于20世紀(jì)70年代[4]。1973年,Bridle的文章揭開了關(guān)鍵詞識別的序幕,但那時只是稱“給定詞”的識別,Christiansen 等的文章中有了“關(guān)鍵詞”的叫法,他利用信號的LPC表示對連續(xù)語音中的關(guān)鍵詞進(jìn)行檢測和定位,文章稱該方法對4 個詞和10個數(shù)字取得了很好的效果。真正的關(guān)鍵詞識別研究是在20世紀(jì)80年代。Myers等人利用基于DTW 的局部最小算法對關(guān)鍵詞識別和連接詞識別進(jìn)行了研究,但沒有系統(tǒng)的實現(xiàn)。美國ITT(國際電話電報公司)國防通訊部的Higgins與Wohlford用模板連接的方法實現(xiàn)了KWS,并提出了填充詞(Filler)模板(該模板由詞表外詞的語音訓(xùn)練而得)的概念,結(jié)果表明: 如果詞表的顯式知識沒有那么重要的話,則使用詞的填充模型就很重要了。此后AT&T BELL實驗室Wilpon等實現(xiàn)了一個基于HMM的5個電話用語的、可以實用的KWS系統(tǒng),標(biāo)志著關(guān)鍵詞識別研究的崛起。美國BBN系統(tǒng)和技術(shù)公司的Rohliced等也研究了非特定人KWS的連續(xù)HMM建模問題,同時給出了KWS系統(tǒng)的性能評價基準(zhǔn)。到20世紀(jì)90年代,MIT的Lincoln實驗室、CMU的計算科學(xué)學(xué)院、Dragon系統(tǒng)辦公室以及日本的Toshiba公司等,也相繼報告了他們的研究成果。

      國內(nèi)漢語關(guān)鍵詞識別起步較晚,這主要是國內(nèi)在80年代才開始語音識別技術(shù)的研究,關(guān)鍵詞識別技術(shù)的發(fā)展離不開語音識別技術(shù)。90年代國內(nèi)在大詞匯量漢語關(guān)鍵詞識別上的研究才大大興起,中國科學(xué)院、清華大學(xué)、北京郵電大學(xué)、浙江大學(xué)等在這個領(lǐng)域都進(jìn)行了深入研究,表現(xiàn)突出。由于在這個時期中國經(jīng)濟(jì)的發(fā)展,世界各國對漢語也越來越重視,很多國外公司在漢語的語音識別和關(guān)鍵詞識別上都進(jìn)行了大量的投入,并取得了較大的進(jìn)展。

      關(guān)鍵詞識別系統(tǒng)中,置信度估計的研究在國外近幾年來成為了一個熱點,所以下面對國外置信度估計的研究方法進(jìn)行分析和總結(jié)。置信度,是識別結(jié)果正確概率的一種量度,也可以認(rèn)為是識別結(jié)果的可靠程度?,F(xiàn)在大部分的語音識別系統(tǒng)都是基于后驗概率P(W|X)進(jìn)行識別的,即找到能夠使P(W|X)最大的詞序列:

      (2)

      根據(jù)貝葉斯定理,可以得到:

      (3)

      一般都假設(shè)P(X)是常數(shù),所以P(X)通常被省略,所以根據(jù)公式(3)可以將公式(2)改寫成:

      (4)

      在實際應(yīng)用中如果認(rèn)為P(X)不一定是常數(shù),那么公式(4)與貝葉斯定理得到的公式(2)是有區(qū)別的。但是往往P(X)都是很難準(zhǔn)確得到的,這時就需要在公式(4)的基礎(chǔ)上,進(jìn)行各種各樣的校正,使利用公式(4)得到的結(jié)果與利用公式(2)得到的結(jié)果盡可能一致。這樣就引出了置信度定義的必要性。但如果進(jìn)一步考慮,公式(2)所得到結(jié)果的可靠程度又是多少呢,這就引出了各種各樣一般意義的置信度的估計方法。

      近年來,國內(nèi)的研究人員在關(guān)鍵詞識別領(lǐng)域取得了一定的進(jìn)展。其中,鄭方提出了一個基于音節(jié)模型的漢語無限制語音流的關(guān)鍵詞識別系統(tǒng),利用分布的臨界區(qū)域內(nèi)落入的特征向量百分比進(jìn)行拒識判別。張國亮在實現(xiàn)的關(guān)鍵詞識別系統(tǒng)中提出了關(guān)鍵詞的動態(tài)確認(rèn)策略和上下文相關(guān)的語音確認(rèn)方法。陳一寧實現(xiàn)了一個基于音節(jié)格的關(guān)鍵詞檢測系統(tǒng),采用了幀歸一化的后驗概率模型作為置信度。嚴(yán)斌峰提出了主題指導(dǎo)的關(guān)鍵詞檢出策略,并采用了LPC 二次識別置信特征和聯(lián)合得分的識別確認(rèn)方法[5]。

      2.3 維吾爾語語音識別的歷史與現(xiàn)狀

      連續(xù)語音識別的研究雖然在漢語、英語等語料資源豐富的語言上發(fā)展很快,但是由于缺乏專業(yè)人才及完備的語料資源,目前維吾爾語這方面的研究工作剛剛起步。另外,由于維吾爾語有其本身的特點,不能簡單地套用現(xiàn)有的連續(xù)語音識別的方法。近年來,有不少的維吾爾語識別研究,利用通用的語音識別軟件HTK,采取與其他語言同樣的方式嘗試了語音識別。因為經(jīng)濟(jì)及技術(shù)等條件,準(zhǔn)備的語料庫一般不像其他語言那樣規(guī)模龐大(英語語言一般用70~500小時的語音語料庫來訓(xùn)練聲學(xué)模型,7~10年的報刊雜志等文本語料庫來訓(xùn)練語言模型)。雖然目前獲得第一手語料較容易,但語料的手工標(biāo)注等方面花錢費時困難大。因此,如何有效地利用有限的、容量最小的語料庫,并保持較高的識別率,已經(jīng)成為目前一個重要的研究工作[6]。

      維吾爾語語音識別研究工作開始于20世紀(jì)90年代初。1990年8月至1994年6月期間,吾守爾·斯拉木在承擔(dān)國家863計劃智能機(jī)主體研究項目——維漢聲、圖、文一體化辦公自動化系統(tǒng)中,采用獨特的音節(jié)訓(xùn)練詞識別方法和詞匯擴(kuò)充方法、語音信號的自適應(yīng)自學(xué)習(xí)VQ方法、語音信號的分割和狀態(tài)段分布HMM模型等技術(shù),研制出1 200個識別音節(jié)、4萬個識別詞匯的聯(lián)想式特定人維吾爾語音識別系統(tǒng),其識別率達(dá)到95%[7]。2005年專門成立多語種語音信息處理研究室,開展了維吾爾語語音識別、語音合成的研發(fā)工作。

      新疆大學(xué)、中國科學(xué)院新疆理化技術(shù)研究所、新疆師范大學(xué)等高校和科研機(jī)構(gòu),先后進(jìn)行了很多維吾爾語語音識別與合成方面的技術(shù)研究,積累了一定的經(jīng)驗。然而,這些研究都是在高質(zhì)量的實驗條件下,采用標(biāo)準(zhǔn)發(fā)音的、仔細(xì)朗讀的語音進(jìn)行的。但是要真正完成一個能夠處理自然語言識別系統(tǒng),就現(xiàn)有的技術(shù)水平來說還是非常困難的。

      3 系統(tǒng)的設(shè)計與實現(xiàn)

      3.1 系統(tǒng)功能設(shè)計

      敏感詞檢索系統(tǒng)由兩個部分組成,即敏感詞檢出和語音確認(rèn)(敏感詞確認(rèn))。在敏感詞檢出過程中,訓(xùn)練得到的敏感詞和Filler的模型作為參考模板,語音信號經(jīng)過預(yù)處理和特征提取之后,通過幀同步Viterbi搜索算法與參考模板相比較,生成中間結(jié)果,即N-Best列表、詞圖或網(wǎng)格的假想命中。

      在敏感詞檢索系統(tǒng)中,對識別中間結(jié)果的確認(rèn)(也稱拒識)是非常重要的,系統(tǒng)在識別階段為了保證有比較高的正識率,常常給出盡可能多的候選,以便把正確的候選包含進(jìn)來。所以,確認(rèn)必須使用有效的方法,拒識那些錯誤的候選,以降低系統(tǒng)的誤識率,同時也要保證正識率不受影響。

      當(dāng)廣播新聞?wù)Z音中包含有敏感詞時,必須使它的分?jǐn)?shù)得到提高,來增加它被檢出的機(jī)會;反之當(dāng)語音中不包含敏感詞,使其分?jǐn)?shù)受到抑制,來增加它被拒絕的機(jī)會。利用置信度可以對識別結(jié)果的可靠性進(jìn)行假設(shè)檢驗,定位識別結(jié)果中的錯誤所在,提高系統(tǒng)的識別率和穩(wěn)健性。圖1為本系統(tǒng)所設(shè)計的敏感詞檢索系統(tǒng)的示意性結(jié)構(gòu)圖。語音輸入后經(jīng)過語音處理模塊(包含敏感詞檢出部分)得到中間結(jié)果。這個中間結(jié)果可能是詞網(wǎng)格,N-Best列表,或是其他方式的敏感詞的假想命中。二次處理(即語音確認(rèn)部分)對中間結(jié)果,利用各種各樣的知識源和分類的方法進(jìn)行置信度評估,最后輸出敏感詞的最終假設(shè)。總之,可以概括成兩個部分: 識別部分和確認(rèn)部分。

      圖1 關(guān)鍵詞檢出系統(tǒng)的示意性結(jié)構(gòu)

      3.1.1 語音處理模塊

      語音處理模塊由如下四個子模塊構(gòu)成(如圖2): 語音前端處理、語音特征提取、聲學(xué)模型接口、敏感詞檢出解碼器。

      圖2 語音處理模塊結(jié)構(gòu)示意圖

      其中,語音前端處理主要是利用語音信號時域或頻域的自身特點和規(guī)律,對語音進(jìn)行預(yù)處理。這些預(yù)處理有: 語音和非語音分離,降低噪音,性別判定或是其他輔助的處理,目的是為了提高識別的速度和正確率。本系統(tǒng)擬采?。?8KHz采樣,16bit量化,幀長25ms,幀移10ms。

      語音特征提取,是對前端處理過的信號進(jìn)行一定的計算,得到只反映語音內(nèi)容的特征?,F(xiàn)在使用的特征提取方法主要有兩類: MFCC和PLP。但是,這兩種特征中實際上不僅僅只包含語音的內(nèi)容信息,還包含說話人、聲調(diào)、語氣、口音等其他與語音識別關(guān)系不大的特征信息。一般情形下,識別中用到的特征提取方法應(yīng)該和聲學(xué)模型訓(xùn)練時用的特征提取方法一致,這樣就保證了模型訓(xùn)練與解碼器使用的特征是一致的。本系統(tǒng)擬采?。?分幀后的語音經(jīng)過預(yù)加重、加漢明窗后提取得到12維MFCC參數(shù)。為了消除信道畸變采用倒譜均值減(Cepstrum Mean Subtraction,CMS)的方法;為了對含噪語音進(jìn)行補(bǔ)償采用一階矢量泰勒級數(shù)(1st Vector Taylor Series,VTS-1)的方法。26維特征矢量由12維MFCC參數(shù)、12維一階差分MFCC參數(shù)、1維歸一化能量及1維一階差分能量組成。

      聲學(xué)模型接口,負(fù)責(zé)獲得特定語音特征在不同聲學(xué)模型上的似然度。聲學(xué)模型是離線訓(xùn)練構(gòu)建的。本系統(tǒng)擬采取: 對擴(kuò)展的敏感詞集合建立HMM模型。使每一個敏感詞分別對應(yīng)一個HMM,模型的狀態(tài)對應(yīng)這個敏感詞所包含的全部可能的詞素。對應(yīng)于該敏感詞的一個觀測樣本,這些詞素會按照一定的順序出現(xiàn),這樣就形成了HMM中的狀態(tài)序列,是實際中不可觀測的?,F(xiàn)實中,可以觀測每個敏感詞聲信號的振幅。

      為了建立上述對應(yīng)關(guān)系,需要對該敏感詞的一組觀測樣本進(jìn)行學(xué)習(xí),也就是進(jìn)行HMM參數(shù)估計。學(xué)習(xí)了每個敏感詞的參數(shù)后,就可以用于識別。也就是對任意的一組觀測樣本,找到最大可能產(chǎn)生該樣本的模型作為該敏感詞的代表。

      關(guān)鍵詞檢出解碼器,即搜索算法的實現(xiàn)部分,是語音處理模塊的核心部分。負(fù)責(zé)根據(jù)特征流和聲學(xué)模型給出最佳的識別結(jié)果。常用的搜索結(jié)構(gòu)主要有兩種。一種是基于Filler的搜索系統(tǒng)結(jié)構(gòu);另一種是基于無Filler的搜索系統(tǒng)結(jié)構(gòu)。本系統(tǒng)擬采取基于Filler的搜索結(jié)構(gòu)(如圖3)。

      圖3 基于Filler模型的搜索網(wǎng)絡(luò)結(jié)構(gòu)

      基于Filler的搜索結(jié)構(gòu),搜索過程大致分成了兩個部分。第一部分從本質(zhì)上來說是一個連續(xù)語音的搜索。搜索的輸入是語音特征,搜索的詞表是所有敏感詞加上所有Filler。搜索過程實際是對所有敏感詞和Filler進(jìn)行連續(xù)語音識別的過程。第二部分實際上是對第一部分搜索結(jié)果的一個確認(rèn)過程。根據(jù)各種知識源計算所得中間結(jié)果的置信度,最終根據(jù)計算得到的置信度,對中間結(jié)果識別出的敏感詞做出接受或拒絕的判斷?;贔iller 的搜索結(jié)構(gòu),敏感詞的搜索網(wǎng)絡(luò)是提前生成的,識別耗費資源較少,易于在桌面和嵌入式應(yīng)用中的優(yōu)化處理。

      基于無Filler的搜索結(jié)構(gòu),搜索過程大致分成了三個部分。第一部分是對語音基元的搜索。所謂語音基元就是搜索過程中得到結(jié)果的基本單位。在維吾爾語音中,一個詞素由一至多個音節(jié)組成,一個音節(jié)由一至四個音素(一個元音和零至三個輔音,如: V, VC, CV, CVC, VCC, CVCC)組成。敏感詞識別中,詞素是一個很明顯的標(biāo)準(zhǔn)語音基元。通過對輸入語音中所有詞素的連續(xù)解碼,可以得到一個N-Best詞素序列的列表。第二部分是根據(jù)敏感詞表和上一步得到的詞素序列列表,進(jìn)行敏感詞的搜索。這時由于純聲學(xué)搜索難免會出現(xiàn)大量的插入、刪除和替代錯誤,所以需要定制專門的算法進(jìn)行處理,然后得到敏感詞的候選結(jié)果。第三部分是根據(jù)敏感詞候選結(jié)果和其他知識源,對結(jié)果進(jìn)行置信度分析,給出敏感詞的最終識別結(jié)果?;跓oFiller的搜索結(jié)構(gòu),往往是先將語音通過連續(xù)詞素識別器后,得到詞素的識別結(jié)果,然后再對這個結(jié)果利用敏感詞詞表進(jìn)行處理。

      3.1.2 二次處理模塊

      敏感詞檢出模塊輸出的中間結(jié)果在識別準(zhǔn)確性上往往不能滿足用戶的需求。一方面,敏感詞檢出模塊無法用大量模型精確描述所有語音,從而使誤識的發(fā)生概率增大;另一方面,誤識(特別是誤警)帶來的對語音的錯誤理解對系統(tǒng)的友好程度破壞很大,因此敏感詞系統(tǒng)又希望把誤警率降到盡可能低的程度。語音確認(rèn)就是在誤識存在的前提下仍然使系統(tǒng)盡量保證正常工作的一種手段。

      本系統(tǒng)在幀同步Viterbi搜索算法的基礎(chǔ)上,擬采取一種基于敏感詞假設(shè)二次識別的置信度策略,對檢出模塊的中間結(jié)果進(jìn)行語音確認(rèn)。

      Q={qt},(t=1,2,…,T)

      其中,qt∈{{q11,q12,…,q1s1},{q21,q22,…,q2s2},…,{qv1,qv2,…,qvsv}}

      s1,s2,…,sv分別為模型W1,W2,…,Wv的狀態(tài)數(shù)。不妨設(shè)其中W1,W2,…,Wk為敏感詞模型。如果搜索結(jié)果中有關(guān)鍵詞模型出現(xiàn),根據(jù){qt}可以給出搜索結(jié)果中關(guān)鍵詞起止位置tks和tke的假設(shè)。

      對于O′={otks,…,otke},計算其對Wk的孤立詞模型的匹配分類。其中Wk是用關(guān)鍵詞的孤立詞語料專門訓(xùn)練的孤立詞模型,這樣可以消除Viterbi模型訓(xùn)練過程中狀態(tài)匹配不準(zhǔn)確帶來的模型缺陷。采用針對孤立詞模型的Viterbi搜索算法計算O′對Wk的匹配分?jǐn)?shù),對結(jié)果按時間長度進(jìn)行歸一化,并以此結(jié)果作為置信度,即

      敏感詞識別系統(tǒng)中,詞分為兩類: 詞表內(nèi)的詞和詞表外的詞。詞表內(nèi)的詞(In-Vocabulary, INV),是敏感詞表內(nèi)的敏感詞;詞表外的詞(Out-of-Vocabulary,OOV)則是敏感詞表以外的詞,即非敏感詞。系統(tǒng)沒有檢測出敏感詞表中出現(xiàn)的敏感詞,這種錯誤稱為漏報(False Rejection, FR);系統(tǒng)檢測到的敏感詞沒有在敏感詞表中出現(xiàn),這種錯誤稱為誤警(False Alarm, FA)。

      3.2 編程實現(xiàn)

      本系統(tǒng)以MATLAB為開發(fā)平臺,用HMM實現(xiàn)維吾爾語敏感詞識別功能,從廣播新聞?wù)Z音文件中檢出含有敏感詞的語音段。

      在此,將通過一個具體的例子來說明獨立的敏感詞識別過程,具體背景為: 利用HMM識別獨立的10個敏感詞,每個敏感詞都有重復(fù)的10次發(fā)音。

      (1) 信號預(yù)處理

      將采集的語音信號分成長度為N的塊,相鄰塊起點之間的間隔為ΔN。比如,長度為Ns=10 000的樣本,取N=320,ΔN=80,則塊的數(shù)目為T=1+[(Ns-N)/ ΔN]=122。這樣,觀測時間可以表示為t={1,2,…,T}。

      (2) 特征提取

      對觀測信號來說,可以有很多不同的特征,包括時域和頻域的。在語音識別中,常用的方法是利用線性預(yù)測編碼(LPC)對語音信號進(jìn)行特征分析。我們先進(jìn)行LPC分析,再將LPC系數(shù)轉(zhuǎn)化為倒譜系數(shù)。記LPC分析的階次為M,倒譜系數(shù)的數(shù)目為Q,為了增加動態(tài)信息,將Q個倒譜系數(shù)的差也作為特征參數(shù),因此特征參數(shù)的長度為2×Q。實際應(yīng)用時,對每一塊的語音信號都進(jìn)行同樣的處理,這樣可以得到特征向量序列{y1,y2,…,yT}。

      特征提取的過程可以用下面的函數(shù)實現(xiàn):

      function y=hmmfeatures(s,N,deltaN,M,Q)

      Ns=length(s); %信號長度

      T=1+fix((Ns-N)/deltaN); %塊的數(shù)目

      a=zeros(Q,1);

      gamma=zeros(Q,1);

      gamma_w=zeros(Q,T);

      win_gamma=1+(Q/2)*sin(pi/Q*(1:Q)′); %計算倒譜的窗函數(shù)

      for t=1:T

      idx=(deltaN*(t-1)+1):(deltaN*(t-1)+N);

      sw=s(idx).*hamming(N);

      [rs,eta]=xcorr(sw,M,′biased′);

      %基于Levinson-Durbin遞歸的LPC分析

      [a(1:M),xi,kappa]=durbin(rs(M+1:2*M+1),M);

      %倒譜系數(shù)

      gamma(1)=a(1);

      for i=2:Q

      gamma(i)=a(i)+(1:i-1)*(gamma(1:i-1).*a(i-1:-1:1))/i;

      end

      %加權(quán)的倒譜序列

      gamma_w(:,t)=gamma.*win_gamma;

      end

      %倒譜序列的差

      delta_gamma_w=gradient(gamma_w);

      %特征向量

      y=[gamma_w;delta_gamma_w];

      (3) 矢量量化

      矢量量化是一種重要的信號壓縮方法。其過程是: 將語音信號波形的k個樣點的每一幀,或有k個參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個矢量,然后對矢量進(jìn)行量化。量化時,將k維無限空間劃分為M個區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書(Code Book),從實際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比。

      為了應(yīng)用離散概率密度型的HMM,需要對上述觀測的特征向量進(jìn)行矢量量化,它的作用是產(chǎn)生一個包含K個可能的觀測向量的碼本。這樣,通過特征提取過程,從每個敏感詞的一次發(fā)音的信號中可以得到觀測序列{y1,y2,…,yT};再通過矢量量化,產(chǎn)生離散的觀測序列{y1,y2,…,yT}。其中,每個yt可能取1≤k≤K之間的整數(shù)(對應(yīng)碼本中的索引)??梢岳肒-均值(K-means)聚類方法進(jìn)行矢量量化。

      矢量量化的過程可以用如下的函數(shù)實現(xiàn):

      function [Yc,c,errlog]=kmeans(Y,K,maxiter)

      [M,N]=size(Y);

      if(K>M)

      error(′More centroids than data vectors.′)

      end

      errlog=zeros(maxiter,1); %每次迭代誤差的對數(shù)值

      %初始聚類中心

      perm=randperm(M);

      Yc=Y(perm(1:K),:);

      d2y=(ones(K,1)*sum((Y.^2)′))′;

      for i=1:maxiter

      %保留舊聚類中心,以判斷是否迭代終止

      Yc_old=Yc;

      %Y與Yc行之間的Euclidean距離的平方

      d2=d2y+ones(M,1)*sum((Yc.^2)′)-2*Y*Yc′;

      %分配Y中的每一個向量到最近的中心

      [errvals,c]=min(d2′);

      %調(diào)整聚類中心

      for k=1:K

      if (sum(c==k)>0)

      Yc(k,:)=sum(Y(c==k,:))/sum(c==k);

      end

      end

      errlog(i)=sum(errvals);

      fprintf(1,′...Iteration %4d...Error %11.6f ′,i,errlog(i));

      %判斷終止條件

      if (max(max(abs(Yc-Yc_old)))<10*eps)

      errlog=errlog(1:i);

      return

      end

      end

      (4) 模型訓(xùn)練

      接下來就可以利用這些碼本對HMM進(jìn)行訓(xùn)練,下面以某一敏感詞的訓(xùn)練為例進(jìn)行說明,其他敏感詞的訓(xùn)練類似。

      其實現(xiàn)的MATLAB程序代碼如下:

      clear all;

      %讀取某一敏感詞的語音信號

      load ti46

      data=ti46.case(27:36);

      L=length(data);

      %信號預(yù)處理參數(shù)

      N=320;

      deltaN=80;

      M=12;

      Q=12;

      %矢量量化參數(shù)

      K=10;

      maxiter=500;

      %HMM模型初始化參數(shù)

      %狀態(tài)數(shù)

      states=5;

      %HMM模型訓(xùn)練

      estA=zeros(5,5,L);

      estB=zeros(5,10,L);

      %提取特征

      for i=1:L

      %初始狀態(tài)轉(zhuǎn)移概率矩陣

      A0=rand(states,states);

      A0=A0./repmat(sum(A0),states,1);

      B0=rand(K,states);

      B0=(B0./repmat(sum(B0),K,1))′;

      for j=1:l

      xdata=load(data{l}{i});

      %特征提取

      y=hmmfeatures(xdata,N,deltaN,M,Q);

      %矢量量化

      [yc,c,errlog]=kmeans(y,K,maxiter);

      %訓(xùn)練: 隱馬爾可夫模型參數(shù)的極大似然估計

      [A0,B0]=hmmtrain(c,A0,B0);

      end

      estA(:,:,i)=A0;

      estB(:,:,i)=B0;

      end

      (5) 語音識別

      訓(xùn)練完以后,就可以利用這些HMM對給定的語音信號進(jìn)行識別。

      for i=1:10

      %計算給定觀測序列的概率

      [pStats,logp]=hmmdecode(c,estA(:,:,i),estB(:,:,i));

      p(i)=logp;

      end

      %概率大小

      p

      概率最大的HMM模型對應(yīng)的敏感詞就是識別的結(jié)果。

      4 結(jié)束語

      研發(fā)本系統(tǒng)有以下三個有利條件: (1)由于維吾爾語敏感詞數(shù)量不多,本系統(tǒng)語音語料庫容量很小。(2)由于廣播新聞中的發(fā)音較為標(biāo)準(zhǔn)規(guī)范,在識別中避免了說話人發(fā)音上的不規(guī)范,這有利于語音識別系統(tǒng)性能的提高。(3)由于選擇詞素為識別基元,易于識別基元端點檢測。

      但是,維吾爾語屬于阿爾泰語系突厥語族,是黏著性語言,同一詞干利用豐富的詞綴可產(chǎn)生超大詞匯。維吾爾語發(fā)音時有若干音素拼接而成,在元音和諧、輔音結(jié)合等方面有自己獨特的規(guī)律。這會對識別基元端點檢測帶來一定的難題。

      [1] 崔朝陽,王建綱.廣播電視語音識別現(xiàn)狀與應(yīng)用策略[J].計算機(jī)工程與應(yīng)用,2007,43(23):181-183.

      [2] 林茜,歐建林,蔡駿. 基于Microsoft Speech SDK的語音關(guān)鍵詞檢出系統(tǒng)的設(shè)計和實現(xiàn)[J].心智與計算, 2007,1(4):433-441.

      [3] 黃松芳.廣播新聞?wù)Z音的自動標(biāo)注和檢索[D].北京大學(xué):信息科學(xué)技術(shù)學(xué)院智能科學(xué)系,2005.

      [4] 蔣鑫.基于Julian的語音關(guān)鍵詞識別系統(tǒng)[DB/OL].[2009.2.13].中國科技論文在線.

      [5] 劉建.可定制關(guān)鍵詞識別系統(tǒng)的研究與實現(xiàn)[D].清華大學(xué):計算機(jī)科學(xué)與技術(shù)系,2004.

      [6] 伊·達(dá)瓦,匂坂芳典,中村哲.語料資源缺乏的連續(xù)語音識別方法的研究[J].自動化學(xué)報,2010,36(4):550-557.

      [7] 那斯?fàn)柦ね聽栠d,吾守爾·斯拉木.基于隱馬爾可夫模型的維吾爾語連續(xù)語音識別系統(tǒng)[J].計算機(jī)應(yīng)用,2009,29(7):2009-2011.

      [8] Muhetaer Shadike,LI Xiao,Buheliqiguli Wasili:Large Vocabulary Continuous Speech Recognition:Basic research of Trigram Language Model[C]//Yang Li.ICMCE (2010).Chengdu: IEEE Press.2010:753-757.

      [9] Muhetaer Shadike,LI Xiao,Buheliqiguli Wasili:Large Vocabulary Continuous Speech Recognition:Basic research of Acoustic Model[C]//CSIE 2011.Changchun.IEEE Press.2011.

      [10] Muhetaer Shadike,LI Xiao,Buheliqiguli Wasili:Large Vocabulary Continuous Speech Recognition:Basic research of Front-end Processor[C]//NCIS’11.Guilin.IEEE Press.2011.

      [11] Muhetaer Shadike,LI Xiao,Buheliqiguli Wasili:Large Vocabulary Continuous Speech Recognition:Basic research of Decoder[C]//ISNN2011.Guilin.Springer’s LNCS Press.2011: 594-600.

      [12] 張德豐,許華興,王旭寶,等.MATLAB概率與數(shù)理統(tǒng)計分析[M].北京:機(jī)械工業(yè)出版社,2010:319-332.

      [13] 武健,鄭方,吳文虎,方棣棠.基于音調(diào)的特征提取在非特定人語音識別中的運用[C]//NCCIIIA:第三屆全國計算機(jī)智能接口與智能應(yīng)用學(xué)術(shù)會議.1997:93-97.

      猜你喜歡
      維吾爾語置信度廣播
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      STK及IGS廣播星歷在BDS仿真中的應(yīng)用
      航天控制(2020年5期)2020-03-29 02:10:28
      廣播發(fā)射設(shè)備中平衡輸入與不平衡輸入的轉(zhuǎn)換
      電子制作(2018年10期)2018-08-04 03:24:48
      正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
      網(wǎng)絡(luò)在現(xiàn)代廣播中的應(yīng)用
      維吾爾語話題的韻律表現(xiàn)
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      維吾爾語詞重音的形式判斷
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
      語言與翻譯(2014年3期)2014-07-12 10:32:09
      永胜县| 青河县| 西充县| 安徽省| 南澳县| 洛隆县| 霍邱县| 保山市| 隆化县| 福安市| 平安县| 辽源市| 武隆县| 玛沁县| 康平县| 永顺县| 根河市| 建始县| 修水县| 桑日县| 武强县| 虎林市| 合水县| 河东区| 新巴尔虎左旗| 广安市| 玛沁县| 潼南县| 深圳市| 临猗县| 长治市| 麦盖提县| 疏附县| 萨迦县| 竹溪县| 台江县| 巫溪县| 阿拉善左旗| 积石山| 重庆市| 鄂温|