黃偉潛
(廣東嶺南現(xiàn)代高級技工學(xué)校,廣東廣州,510663)
社會的飛速發(fā)展,人類對機(jī)器人的需求越來越迫切,提高與機(jī)器人的交互性能需要不斷地改進(jìn)新技術(shù)。而各國政府對智能機(jī)器人的研究進(jìn)行大力的支持和資金投入。語音識別技術(shù)的出現(xiàn)使得機(jī)器人能聽懂人類的自然語言,給人類帶來了極大的方便。因此研究并開發(fā)實(shí)用的機(jī)器人語音識別系統(tǒng)對于機(jī)器人的廣泛應(yīng)用具有重要的意義。
語音,是語言通過聲學(xué)進(jìn)行表現(xiàn)的一種形式。一直以來,人類運(yùn)用語音來進(jìn)行溝通交流是最自然和有效的方式。語音識別技術(shù)能讓計(jì)算機(jī)理解人類語音,最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信,從而根據(jù)其信息執(zhí)行人的某種意圖,圖1是語音識別的結(jié)構(gòu)圖。語音識別的關(guān)鍵技術(shù)主要包括以下四個方面:語音信號的預(yù)處理、特征參數(shù)提取、模型訓(xùn)練和模式匹配。
圖1 語音識別結(jié)構(gòu)圖
在對語音信號進(jìn)行分析和處理之前,必須對信號進(jìn)行預(yù)處理。預(yù)處理包含了采樣、去除噪音、端點(diǎn)檢測、預(yù)加重、分幀、加窗等過程;語音信號完成端點(diǎn)檢測和分幀處理后,再進(jìn)行特征參數(shù)的提取工作,由于語音信號數(shù)據(jù)量比較大,為了壓縮數(shù)據(jù)信息量,應(yīng)當(dāng)對其進(jìn)行特征提取,也就是對語音信號進(jìn)行分析處理,從語音波形中提取出比較有代表性的反映語音特征的相關(guān)信息,去掉那些相對不重要的信息,如信道失真的信息和現(xiàn)場環(huán)境的噪聲等。對語音識別出次要的冗余信息,獲得影響語音識別的重要信息。去除對于非特定人語音識別,希望特征參數(shù)盡可能多的反映語義信息。而從信息論的角度來說,這是實(shí)際就是信息壓縮的過程;模型的訓(xùn)練是按照規(guī)定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配就是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個模型獲得最佳匹配。
從圖1.1可以發(fā)現(xiàn),語音識別過程實(shí)際上就是模式匹配的全過程。我們應(yīng)當(dāng)首先創(chuàng)建一個較完美的數(shù)據(jù)模板,這就需要有較多的原始語音數(shù)據(jù)來訓(xùn)練這個語音模型,而語音識別是根據(jù)模式匹配的原則,計(jì)算未知語音模式與語音模板庫中的每個模板的距離參數(shù),從而得出了最合適的匹配模式。通常比較成熟的識別方式有隱馬爾可夫模型、人工神經(jīng)網(wǎng)絡(luò)和動態(tài)時間規(guī)整技術(shù)等。
隱馬爾可夫模型分析方法是運(yùn)用了概率統(tǒng)計(jì)學(xué)理論來對語音信號進(jìn)行分析與處理的方式。它一方面用隱含的狀態(tài)對應(yīng)聲學(xué)層穩(wěn)定的發(fā)音單位,通過狀態(tài)轉(zhuǎn)移和狀態(tài)駐留來表示發(fā)音的變化狀況,而另一方面引入概率的統(tǒng)計(jì)模型,用概率密度函數(shù)來統(tǒng)計(jì)語音參數(shù)對模型輸出的概率,通過最佳路徑的搜索獲得最佳狀態(tài)序列,最終通過識別準(zhǔn)則找到識別的結(jié)果輸出,這種模型歸屬于統(tǒng)計(jì)語音識別。
2017年,作者參與了廣東嶺南現(xiàn)代高級技工學(xué)校的機(jī)器人制作項(xiàng)目,并負(fù)責(zé)語音對話系統(tǒng)的設(shè)計(jì)。本校制作的機(jī)器人身高有2.5米,如圖3.1右部所示,軀體是指導(dǎo)學(xué)生采用廢舊汽車材料焊接而成,包括了齒輪、氣缸、輪軸及排氣筒等材料。機(jī)器人的外觀模仿了電影《變形金剛》中“大黃蜂”的形象,機(jī)器人的說話聲音模仿度也相對較高。
該機(jī)器人能夠?qū)υ挘且驗(yàn)樵跈C(jī)器人的軀體嵌入了語音對話功能系統(tǒng)。該語音系統(tǒng)的硬件模塊主要由拾音器、主機(jī)、可觸電容屏、功放機(jī)和揚(yáng)聲器等部件組成。拾音器的功能是將人類的講話內(nèi)容轉(zhuǎn)換為電波信號,再送入主機(jī)的語音識別模塊;主機(jī)是核心部件,由拾音器送入的音頻信號經(jīng)過A/D 轉(zhuǎn)換,傳輸給語音處理器;功放機(jī)的作用是把主機(jī)的結(jié)果信號通過放大電路變成功率較大的音頻信號;揚(yáng)聲器作用是把電信號轉(zhuǎn)換成聲音,是輸出部件。我校機(jī)器人制作項(xiàng)目的硬件構(gòu)成和實(shí)物如圖2所示。
圖2 本?!按簏S蜂”機(jī)器人的硬件組成和實(shí)物
語音識別軟件系統(tǒng)主要能使機(jī)器人準(zhǔn)確識別語音命令,以數(shù)據(jù)字典的方式快速地對交流的內(nèi)容進(jìn)行調(diào)整,再根據(jù)識別到的數(shù)據(jù)進(jìn)行對比,調(diào)用之前設(shè)計(jì)好了的結(jié)果進(jìn)行輸出,這樣便能與人類進(jìn)行簡單的溝通。語音識別模塊的前期準(zhǔn)備工作是用語音樣本訓(xùn)練,這一過程主要是用來建立語音模型,通過大量訓(xùn)練樣本中提取特征參數(shù)建立樣本數(shù)據(jù)庫,可以進(jìn)行實(shí)時識別。第二階段是運(yùn)用識別算法進(jìn)行語音識別,在實(shí)時識別時,系統(tǒng)通過麥克風(fēng)拾取外界語音,語音由話筒輸入,以8KHZ頻率采樣,以16bit進(jìn)行A/D轉(zhuǎn)換,再經(jīng)過高頻預(yù)加重運(yùn)算,然后對語音分幀,幀長為 20ms。經(jīng)過同樣的前端預(yù)處理后,提取出實(shí)時語音信號的特征矩陣,送入實(shí)時識別模塊。通過訓(xùn)練后得到其參數(shù)存入模板庫,將機(jī)器人預(yù)定工作噪聲的模型參數(shù)也存入模板庫中,從而提高抗噪聲性能。
軟件系統(tǒng)設(shè)計(jì)了一個迎賓介面程序,如圖4.1所示。點(diǎn)擊啟動系統(tǒng)后進(jìn)入語種選擇,可選普通話、英文和廣州話模式,本系統(tǒng)能夠準(zhǔn)確識別語音命令,調(diào)用設(shè)計(jì)好的結(jié)果進(jìn)行回答,能和人進(jìn)行簡單的語音對話。系統(tǒng)運(yùn)行后,通過語音指令“對話”進(jìn)入該模塊,模塊運(yùn)行時首先進(jìn)行語音檢測,直接調(diào)用語音識別模塊,對檢測結(jié)果進(jìn)行分析,然后將分析結(jié)果作為文本信息,在數(shù)據(jù)字典中進(jìn)行搜索,若能找到則將答案內(nèi)容反饋給語音識別模塊,朗讀出來。但是沒有找到對應(yīng)的結(jié)果,則將該命令作為一條新的記錄添加到數(shù)據(jù)字典中,同時提示輸入相對應(yīng)的答案內(nèi)容。
實(shí)驗(yàn)結(jié)果表明,在噪聲存在的環(huán)境下,系統(tǒng)識別率約為90%。識別率有一定的提高。由于語音信號經(jīng)過同態(tài)變換,將聲道激勵分量和音源激勵分量從中分離而出,濾除掉音源激勵分量對語音系統(tǒng)識別率的負(fù)面影響,在頻域內(nèi)能更好地描述語音信號,因此系統(tǒng)識別率有較好的提升。但是如何更能改進(jìn)這部分的功能,提高機(jī)器人的交互性,將是未來的重點(diǎn)工作。
圖4.1 “大黃蜂”機(jī)器人的程序界面
本文以實(shí)現(xiàn)一個簡單高效的、性能良好、應(yīng)用性強(qiáng)的機(jī)器人語音識別控制系統(tǒng)為目的,對語音識別的關(guān)鍵技術(shù)與語音對話系統(tǒng)的設(shè)計(jì)進(jìn)行了淺析。但由于作者的時間和水平有限,還有許多難點(diǎn)問題還需要進(jìn)一步學(xué)習(xí),比如對于非特定人識別率方面的提高,因?yàn)樵撓到y(tǒng)的面向的使用者是大眾,這樣就需要支持非特定人識別的算法。需要擁有足夠的訓(xùn)練數(shù)據(jù),數(shù)據(jù)量較大,這也對系統(tǒng)的硬件提出了更高的要求。
[1]李翠, 羅小妮.基于語音識別技術(shù)的智能對話機(jī)器人的設(shè)計(jì)[J].濟(jì)南職業(yè)學(xué)院學(xué)報(bào), 2015, (01): 94-96.
[2]詹新明, 黃南山, 楊燦.語音識別技術(shù)研究進(jìn)展[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2013, (9): 43-45.
[3]楊世強(qiáng), 梁丁洪, 傅衛(wèi)平.智能機(jī)器人語音遠(yuǎn)程控制系統(tǒng)的設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用, 2012, (25): 71-73.
[4]萬軍, 呂值敏, 熊建國.基于語音識別的機(jī)器人控制技術(shù)綜述[J].科技展望, 2016, 26(22): 9.
[5]和興敏.基于HMM算法的仿人機(jī)器人語音識別技術(shù)的研究[D].哈爾濱工業(yè)大學(xué), 2013.