福建船政交通職業(yè)學(xué)院 吳毅君
面對(duì)日益增長(zhǎng)的需要,播音自動(dòng)識(shí)別系統(tǒng)的開發(fā)設(shè)計(jì)需要引入人工智能的技術(shù)理念,通過人工智能技術(shù)的支撐,可以讓播音自動(dòng)識(shí)別系統(tǒng)更加智能化、精確化和快速化。針對(duì)這種需求,本文從硬件層面和軟件層面完成了人工智能技術(shù)下的播音自動(dòng)識(shí)別系統(tǒng)的設(shè)計(jì),系統(tǒng)硬件由VS78型號(hào)的主機(jī)、結(jié)構(gòu)框架解調(diào)設(shè)備、信號(hào)接收機(jī)、芯片以及TI處理器組成,廣播自動(dòng)識(shí)別系統(tǒng)的工作需求采用HI89型號(hào)的芯片、軟件系統(tǒng)關(guān)鍵詞程序、自動(dòng)識(shí)別程序和音頻處理程序三個(gè)部分組成,文章將針對(duì)整個(gè)硬件和軟件的設(shè)計(jì)過程進(jìn)行詳細(xì)地說明和分析。
隨著科學(xué)技術(shù)的發(fā)展,信息傳播的方式越來越豐富,除了傳統(tǒng)的實(shí)體刊物、報(bào)紙、電視廣播等方式,人們還可以通過智能手機(jī)、電腦等終端設(shè)備從網(wǎng)絡(luò)獲取信息資訊,極大地方便了人們的生活。對(duì)于播音來說,聽是最主要的信息接收方式,但是在一些特殊的場(chǎng)合下也需要文字字幕來配合,文字字幕目前流行的匹配方式是人工手打和智能識(shí)別兩種試,人工匹配準(zhǔn)確率高但是費(fèi)時(shí)費(fèi)力,帶來極大的工作量;智能識(shí)別是利用算法自動(dòng)識(shí)別語音內(nèi)容,并將語音內(nèi)容轉(zhuǎn)化為文字內(nèi)容的方式,在目前的技術(shù)水平下,識(shí)別速度已經(jīng)達(dá)到了一個(gè)可以接受的水平,但是準(zhǔn)確率有待提升。
播音自動(dòng)識(shí)別系統(tǒng)主要是進(jìn)行兩個(gè)步驟的處理,即提取信息和處理信息,提取信息是指的取得音頻信息,并將音頻信息進(jìn)行預(yù)處理而轉(zhuǎn)化成可處理的數(shù)字信號(hào)。在播音信號(hào)中存在大量的非線性、非平穩(wěn)特征的常見信息,同時(shí)也存在大量的無用信號(hào)和干擾信息,需要通過智能算法對(duì)此進(jìn)行分類處理,自動(dòng)識(shí)別出有價(jià)值的、內(nèi)部時(shí)域和頻域中所包含的信息。想要實(shí)現(xiàn)自動(dòng)識(shí)別需要借助于人工智能技術(shù)和智能算法,通過程序的自我學(xué)習(xí)來不斷的優(yōu)化算法以達(dá)到精確識(shí)別的目的。想要實(shí)現(xiàn)自動(dòng)識(shí)別就需要用到人工智能技術(shù),人工智能是近十年間興起的熱門技術(shù)。人工智能包括智能人、語言識(shí)別、圖像識(shí)別和轉(zhuǎn)接系統(tǒng),通過人工智能來模擬真實(shí)世界的行為是人工智能技術(shù)最高層次的應(yīng)用。傳統(tǒng)的播音識(shí)別系統(tǒng)最大的問題就是準(zhǔn)確率低,還需要在后期由人工進(jìn)行核檢,無法達(dá)到“智能”的水平,通過引用人工智能技術(shù),可以設(shè)計(jì)一種新的播音自動(dòng)識(shí)別系統(tǒng),大幅度改良識(shí)別的速度和準(zhǔn)確率。
硬件部分的設(shè)計(jì)首先要考慮的是其性能和功能要滿足軟件設(shè)計(jì)的需求,即在硬件水平上做到與軟件程序相匹配,合理的硬件設(shè)計(jì)可以讓系統(tǒng)的運(yùn)行更加高效穩(wěn)定。在設(shè)計(jì)硬件時(shí)要充分考慮軟件正常運(yùn)行所需要的配置水平。本系統(tǒng)的設(shè)計(jì)是基于人工智能的播音自動(dòng)識(shí)別系統(tǒng),其硬件部分整體結(jié)構(gòu)如圖1所示。
圖1 播音自動(dòng)識(shí)別系統(tǒng)硬件設(shè)計(jì)
硬件部分的信號(hào)接收機(jī)使用無線網(wǎng)絡(luò)連接到局域網(wǎng)中,無線網(wǎng)絡(luò)的設(shè)計(jì)使得其便攜性和擴(kuò)展性更強(qiáng),同時(shí)也不需要再進(jìn)行硬件器材結(jié)構(gòu)上的改進(jìn)。無線連接時(shí),數(shù)據(jù)信息通過無線電波傳輸,接收到的信號(hào)類型分為兩種,一種是來自于定向的信息,一種是來自于全局的信息,在接收信號(hào)時(shí)為了防止無關(guān)信號(hào)的干擾,將頻率段設(shè)置為100~1300Hz,這一頻段擁有較強(qiáng)的抗干擾能力,同時(shí)也符合國際波段使用標(biāo)準(zhǔn)。
在本系統(tǒng)中,信號(hào)接收機(jī)對(duì)于在可識(shí)別范圍內(nèi)存在的聲音的識(shí)別分析速度為210MHz/s,速度設(shè)計(jì)合理,并且還能夠?qū)Σ煌ㄐ?、不同頻率的廣播輸出信號(hào)進(jìn)行識(shí)別,性能方面可以保證能夠同時(shí)并行處理來自6個(gè)不同頻道的廣播音頻。該接收機(jī)擁有多方面的優(yōu)點(diǎn),比如可以充分地保證數(shù)據(jù)的安全性和完整性,同時(shí)還擁有自動(dòng)錄音備份功能,防止接收機(jī)突出現(xiàn)宕機(jī)故障而損失已經(jīng)接收到的關(guān)鍵音頻信息。在系統(tǒng)的設(shè)計(jì)中,有幾個(gè)需要特別注意的點(diǎn),其中最重要的一個(gè)方面是需要在廣播節(jié)目開始播報(bào)前的5min進(jìn)入到對(duì)應(yīng)頻道中,然后運(yùn)行系統(tǒng)開始進(jìn)行錄音和備份,這樣做的主要目的是為了保證可以在最一時(shí)間接收到開始的廣播信息,防止信息出現(xiàn)不完整的情況。
主處理芯片使用的是HI89型號(hào)的芯片,作為系統(tǒng)中最主要的一個(gè)部分,芯片的選擇需要考慮很多方面的問題,不僅要有強(qiáng)大的數(shù)據(jù)存儲(chǔ)性能,還需要滿足穩(wěn)定、安全等要求。這一款芯片是最新研究發(fā)布的高新技術(shù)芯片,其性能和設(shè)計(jì)規(guī)格符合人工智能技術(shù)的實(shí)現(xiàn)要求,HI89有四個(gè)通道的接口,在讀寫性能上表現(xiàn)尤為突出,可以在不到一分鐘的時(shí)間內(nèi)完成1GB數(shù)據(jù)量的廣播音頻識(shí)別,是保證系統(tǒng)運(yùn)行速度的關(guān)鍵器件。
基于人工智能的播音自動(dòng)識(shí)別系統(tǒng)的TI處理器主要是負(fù)責(zé)對(duì)音頻的自動(dòng)識(shí)別功能,執(zhí)行的主要操作是數(shù)據(jù)處理,是整個(gè)系統(tǒng)的核心元器件。TI處理器睿頻頻率高達(dá)4.1GHz,額外具備300個(gè)系列的主板功能,處理器的基礎(chǔ)頻率為3GHz,完全可以滿足本系統(tǒng)性能需求和功能需求,運(yùn)行效率強(qiáng)大,并且可以對(duì)運(yùn)行時(shí)的功耗及處理器溫度進(jìn)行動(dòng)態(tài)監(jiān)測(cè),根據(jù)溫度的高低智能控制散熱風(fēng)扇的開啟,實(shí)現(xiàn)節(jié)能的目的。
硬件需要配合軟件程序才能完成工作,軟件部分的設(shè)計(jì)由自動(dòng)識(shí)別、音頻處理和關(guān)鍵詞處理三個(gè)主要功能組成,通過這三個(gè)功能共同實(shí)現(xiàn)了人工智能語音識(shí)別功能。關(guān)鍵詞處理模塊的功能是利用關(guān)鍵詞詞庫來實(shí)現(xiàn)關(guān)鍵詞的對(duì)比和匹配,通過關(guān)鍵詞進(jìn)行音頻文字的識(shí)別;音頻處理程序主要實(shí)現(xiàn)的功能是對(duì)音頻信息的加工處理,過濾掉一些由噪音帶來的物理化信號(hào),方便進(jìn)行后續(xù)的識(shí)別工作;自動(dòng)識(shí)別程序主要的功能是進(jìn)行音頻的識(shí)別,通過復(fù)雜的數(shù)據(jù)分析將音頻信息轉(zhuǎn)化為文字信息。針對(duì)此三個(gè)軟件的功能和設(shè)計(jì)思路,下面將對(duì)這三個(gè)部分進(jìn)行詳細(xì)說明:
音頻處理程序是一個(gè)預(yù)處理階段,由于音頻是實(shí)時(shí)播放的,在收集到音頻數(shù)據(jù)之后這些信號(hào)并不能直接交由處理器來處理,而是需要進(jìn)行預(yù)加工。預(yù)加工的主要目的是過濾以一些物理化的音頻數(shù)據(jù),這些數(shù)據(jù)主要是由環(huán)境噪聲和其他噪音組成,如果不將這些噪音數(shù)據(jù)過濾掉就會(huì)讓后續(xù)的自動(dòng)識(shí)別準(zhǔn)確率和成功率降低。整個(gè)調(diào)解流程大致是先對(duì)播音數(shù)據(jù)進(jìn)行識(shí)別,分析數(shù)據(jù)是否存在異常情況,如果存在異常情況就將異常數(shù)據(jù)傳輸給主機(jī),如果沒有發(fā)現(xiàn)異常則繼續(xù)運(yùn)行。
通過人工智能技術(shù),可以對(duì)播音信號(hào)頻率進(jìn)行有效的掃描和識(shí)別,再根據(jù)已經(jīng)設(shè)計(jì)好的算法將這些波形信號(hào)和頻率信息轉(zhuǎn)換為文字。自動(dòng)識(shí)別程序處理的步驟是首先程序會(huì)對(duì)播音音頻進(jìn)行預(yù)處理操作,并參照相應(yīng)的聲學(xué)參數(shù)進(jìn)行分析,識(shí)別出播音音頻的初始文檔,再對(duì)初始文檔與播音音頻進(jìn)行二次對(duì)比,對(duì)比之后加以核對(duì)和糾正,增加識(shí)別的準(zhǔn)確率。數(shù)據(jù)的處理的時(shí)候需要進(jìn)行拼音文法比對(duì)和聲學(xué)模型對(duì)比,同時(shí)還要進(jìn)行關(guān)鍵詞識(shí)別,通過多方面的分析、糾正和比對(duì)之后最終得出最后的輸出。
關(guān)鍵詞處理的本質(zhì)是進(jìn)行關(guān)鍵詞匹配,這也是整個(gè)自動(dòng)識(shí)別系統(tǒng)的關(guān)鍵之處。在人的正常發(fā)言中,一段話可以拆解成多個(gè)關(guān)鍵詞,通過檢索關(guān)鍵詞可以得到整句話大致的意思,而人工智能識(shí)別系統(tǒng)之所以可以快速地將音頻信息轉(zhuǎn)化為文字信息,主要的實(shí)現(xiàn)手段也是對(duì)信號(hào)進(jìn)行匹配。在處理的過程中,程序會(huì)對(duì)整個(gè)句子進(jìn)行拆分,并將拆分的部分與庫中的關(guān)鍵詞進(jìn)行快速掃描匹配,這樣一來,只有關(guān)鍵詞庫的詞充足且結(jié)構(gòu)合理,才可以準(zhǔn)確地完成自動(dòng)識(shí)別工作。詞庫的獲取可以從網(wǎng)絡(luò)上進(jìn)行收集,網(wǎng)絡(luò)上有許多特定領(lǐng)域的詞庫,這里主要是使用廣播電視臺(tái)的廣播詞庫。為了保證關(guān)鍵詞的獨(dú)立性,關(guān)鍵詞的字節(jié)需要控制到6個(gè)字節(jié)以內(nèi)。
關(guān)鍵詞處理程序的核心設(shè)計(jì)要點(diǎn)除了詞庫的建立還有智能檢索和匹配,每一個(gè)關(guān)鍵詞都擁有自己的數(shù)據(jù)特征,在傳輸而來的音頻數(shù)據(jù)經(jīng)過其他步驟和處理之后,就可以根據(jù)信號(hào)的數(shù)據(jù)特征來進(jìn)行匹配,檢索速度是決定匹配速度的關(guān)鍵性因素,基于人工智能的檢索機(jī)制可以實(shí)現(xiàn)檢索匹配的智能化。當(dāng)在自動(dòng)識(shí)別的過程中查詢到了幾個(gè)相似的關(guān)鍵詞,為了提高準(zhǔn)確性,通常需要進(jìn)行反向傳播識(shí)別,反向傳播的公式如下所示:
在反向傳播公式中,Wij代表著關(guān)鍵詞的總長(zhǎng)度,a為關(guān)鍵詞的個(gè)數(shù),α為文字相似的關(guān)聯(lián)度,L(w, b)是播音音頻文檔的總字節(jié)長(zhǎng)度,是降階階數(shù)。通過這一公式可以計(jì)算出關(guān)鍵詞與播音文檔的字節(jié)是否是同一長(zhǎng)度。在解釋相似度的時(shí)候,還需要借助于一些百科工具,這里選用的百度平臺(tái),通過百度可以解釋兩個(gè)關(guān)鍵詞之間的匹配度,從而完成最佳關(guān)鍵詞的最佳匹配,這一過程被稱為降階匹配法,如果一個(gè)關(guān)鍵詞與對(duì)比片段的關(guān)聯(lián)度很低,則繼續(xù)匹配下一個(gè)關(guān)鍵詞,直到找出最優(yōu)解為止。
播音自動(dòng)識(shí)別系統(tǒng)的設(shè)計(jì)由硬件層面設(shè)計(jì)和軟件層面設(shè)計(jì)組成,其主要作用是可以實(shí)現(xiàn)將實(shí)時(shí)的音頻廣播轉(zhuǎn)化為文字信息,滿足特殊場(chǎng)景下信息資訊獲得需求。本播音自動(dòng)識(shí)別系統(tǒng)是基于人工智能技術(shù),經(jīng)驗(yàn)證后表明本系統(tǒng)擁有較快的識(shí)別速度和較高的識(shí)別準(zhǔn)確率,完全可以滿足日常的使用需要。本播音自動(dòng)識(shí)別系統(tǒng)是人工智能應(yīng)用的一個(gè)重要體現(xiàn),也是智能化語言識(shí)別的一次大膽嘗試,相信會(huì)對(duì)語音自動(dòng)識(shí)別領(lǐng)域的發(fā)展起到一定的促進(jìn)作用。