張子辰
摘 要語音識別和反饋技術(shù)是一種重要的人機交互技術(shù),隨著語音識別算法和硬件性能的提升,語音識別率和識別速度得到顯著提升,使得目前廣大的信息系統(tǒng)、科學(xué)計算平臺和輔助系統(tǒng)集成語音輔助技術(shù)的可行性大大提高,有效增強各種信息服務(wù)平臺、辦公系統(tǒng)、信息輔助系統(tǒng)等信息系統(tǒng)的易用性和場景適應(yīng)性。本文提出一種基于有限狀態(tài)機的語音輔助系統(tǒng),通過采用有限狀態(tài)機,提高辦公系統(tǒng)的命令輸入準(zhǔn)確性,同時,通過模式識別優(yōu)化,提高指令輸入效率。
【關(guān)鍵詞】語音識別 語音輔助 辦公系統(tǒng) 有限狀態(tài)機
語音交互是人們最廣泛使用和適應(yīng)的一種日常交互方式,在電子信息領(lǐng)域,也是一種理想的人機交互方式,隨著語音識別算法的發(fā)展和相關(guān)硬件技術(shù)進步,語音識別技術(shù)逐步走向成熟,目前在語音輸入領(lǐng)域、語音大數(shù)據(jù)分析、語音生活輔助等領(lǐng)域已經(jīng)有較多的應(yīng)用場景。但是語音輔助技術(shù)目前仍存在一定難點,例如語音開集庫識別、語音交互速度等方面。同時,語音識別技術(shù)在辦公輔助系統(tǒng)上應(yīng)用還較少,尤其是某些工作人員不方便進行手動指令輸入操作的場景或手動指令輸入效率較低場景,如果利用語音輔助技術(shù),可以有效提高用戶辦公效率和系統(tǒng)適應(yīng)性。
本文基于上述問題,針對性地提出了一種語音輔助系統(tǒng)模型,通過合理的模型設(shè)計和算法設(shè)計,有效改進了上述技術(shù)難點帶來的語音識別效率和指令輸入效率問題,提高用戶使用語音輔助時的工作效率和用戶體驗。
1 系統(tǒng)概述
1.1 系統(tǒng)整體框架介紹
系統(tǒng)整體框架如圖1所示,系統(tǒng)分為三層架構(gòu),分別為用戶交互層、邏輯處理層和底層框架。用戶交互層主要負責(zé)與用戶進行指令交互工作和信息反饋工作,主要包含三個模塊,為語音監(jiān)聽模塊、用戶輸入模塊和語音反饋模塊,三個分別負責(zé)用戶語音監(jiān)聽,用戶手動指令輸入和系統(tǒng)信息語音反饋。
邏輯層為系統(tǒng)核心部分,包含模式識別模塊、指令執(zhí)行模塊和語音識別模塊,其中,語音識別模塊獲取交互層提交的用戶語音音頻信息,將用戶語音指令或語音輸入轉(zhuǎn)換為輸入字符串,以便進一步處理。模式識別模塊的主要作用是將用戶輸入語音轉(zhuǎn)換獲得的字符串進行模式匹配,將無結(jié)構(gòu)的字符串轉(zhuǎn)換為結(jié)構(gòu)化的指令樹,從中提取用戶真正的指令信息。指令執(zhí)行模塊的主要功能是進行用戶數(shù)據(jù)和系統(tǒng)操作的指令執(zhí)行,其中為其他模塊提供系統(tǒng)操作接口,供其他模塊調(diào)用。
底層框架提供了系統(tǒng)基礎(chǔ)運行平臺,分別包含系統(tǒng)運行框架和數(shù)據(jù)庫平臺,底層框架根據(jù)不同的系統(tǒng)部署要求可以進行對應(yīng)的調(diào)整。
2 系統(tǒng)關(guān)鍵部分
2.1 語音監(jiān)聽與識別模塊
語音監(jiān)聽與識別屬于用戶交互端和邏輯預(yù)處理端,其核心部分為語音識別技術(shù)(Auto Speech Recognize,簡稱ASR),在本論文的實現(xiàn)過程中,采用科大訊飛的語音識別SDK,其語音識別算法采用深度神經(jīng)網(wǎng)絡(luò)(DNN)聲學(xué)建模,同時采用多重降噪算法進行降噪處理,經(jīng)測試,能夠充分滿足本系統(tǒng)針對的多樣化使用場景需求。
系統(tǒng)在啟動后,語音監(jiān)聽模塊將進行常駐監(jiān)聽,保證用戶指令隨時處于輸入狀態(tài),減少用戶手動操作效率降低問題,獲取語音信息經(jīng)壓縮后傳遞給語音識別模塊,語音識別模塊將音頻信息識別后轉(zhuǎn)換為字符串,此生成信息作為模式匹配樣本交給邏輯層處理。
2.2 指令模式識別模塊
指令識別模塊的主要作用是獲取經(jīng)過對用戶輸入語音轉(zhuǎn)換后的字符串,通過與系統(tǒng)預(yù)先設(shè)置的用戶指令進行對比匹配,提取用戶輸入信息中的指令部分,再交由指令執(zhí)行模塊進行信息處理。
為提升用戶指令匹配成功率,在指令模式識別過程中,采用有限狀態(tài)機模型(Finite-state machine),采用有限狀態(tài)機,可以建立指令樣本,在對用戶輸入信息進行指令匹配時,采用順序字符串匹配算法,這樣可以高效過濾用戶信息,快速提取用戶指令。
3 系統(tǒng)關(guān)鍵技術(shù)
3.1 基于有限狀態(tài)機的指令匹配模型
此部分主要包含兩個方面,一是系統(tǒng)指令的預(yù)設(shè)定,如上文所述,在某信息系統(tǒng)嵌入該語音輔助系統(tǒng)時,首先要確定該系統(tǒng)所需要對用戶提供的指令內(nèi)容,將每個指令內(nèi)容作為有限狀態(tài)機中的單一狀態(tài),例如圖2所示。
第二部分為用戶輸入信息指令提取,由于用戶指令數(shù)有限,所以,在獲取用戶模式匹配樣本之后,可以采用順序字符串匹配計算,當(dāng)匹配到預(yù)設(shè)指令時,便將該指令作為狀態(tài)機狀態(tài)轉(zhuǎn)移標(biāo)志,進而獲取用戶所需要進行的操作,達到指令匹配目的。在匹配過程中,采用KMP算法,有效提高用戶指令輸入效率。
3.2 指令快速匹配優(yōu)化
在大多數(shù)信息系統(tǒng)中,除了用戶操作有限之外,還具有上下層級關(guān)系,為提高用戶輸入效率,在系統(tǒng)初始化設(shè)定過程中,針對具有層級關(guān)系的指令,將其構(gòu)筑為指令樹結(jié)構(gòu),如圖3中所示,如果用戶輸入指令為“AABB0246CC”,系統(tǒng)在匹配至“0”時,將不再向用戶返回確認請求,將繼續(xù)進行指令匹配,直至匹配至“C”,那么最終狀態(tài)將跳轉(zhuǎn)至狀態(tài)7,向用戶返回請求指令7執(zhí)行,得到確認后,將執(zhí)行指令。按照上述流程,在面對多層指令操作時,用戶只需要語音輸入連續(xù)狀態(tài)指令,將直接跳轉(zhuǎn)至目標(biāo)狀態(tài),執(zhí)行目標(biāo)執(zhí)行,達到指令快速匹配目的,這樣極大提升了用戶輸入效率,省去大量重復(fù)語音指令輸入步驟。
4 總結(jié)
目前語音識別正在進入越來越多的領(lǐng)域,利用本文設(shè)計的語音輔助系統(tǒng),用戶指令輸入效率得到顯著提升,同時給出整體模型,以便其他信息系統(tǒng)平臺高效接入此語音輔助系統(tǒng)。
參考文獻
[1]王炳錫.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005.
[2]童亞拉.辦公自動化系統(tǒng)中語音功能的設(shè)計和實現(xiàn)[J].湖北工業(yè)大學(xué)學(xué)報,2005,20(02):71-73.
[3]訊飛開放平臺.科大訊飛股份有限公司.2017.http://www.xfyun.cn/.
作者單位
淄博市實驗中學(xué) 山東省淄博市 255000