李夢瑤 向卓元
摘要:隨著人工智能中語音識別技術的快速發(fā)展,以及Android手機的普及,加上中央近期提出“互聯(lián)網+”計劃,語音與文本及時、快速、準確的轉換以及信息的即時傳輸將緩解紙質資源浪費現(xiàn)狀,突破傳統(tǒng)會議局限性,提高工作、生活效率。將語音識別技術與Android平臺相結合,構建移動全能語音秘書平臺,利用基于線性預測特征的語音識別算法實現(xiàn)語音模式匹配,提高語音識別率,實現(xiàn)工作生活智能化、無紙化。
關鍵詞:語音識別技術;Android;移動全能秘書;互聯(lián)網+;線性預測特征模型
DOIDOI:10.11907/rjdk.151595
中圖分類號:TP319
文獻標識碼:A 文章編號文章編號:16727800(2015)008012702
0 引言
隨著地球資源的日益減少,加上人們環(huán)境意識的逐步增強,辦公無紙化、生活無紙化逐漸得以實現(xiàn)。當前辦公環(huán)境下,會議記錄需要秘書通過人工錄入方式將會議信息錄入電腦中,大大降低了辦事效率,增加了人力成本。并且由于人工輸入速度與語速不成正比,記錄的真實性也有待提高[1]。鑒于此,本文基于語音識別技術設計移動秘書平臺。該系統(tǒng)主要功能如下:用戶通過注冊擁有自己的賬號,在生活模式下,通過個人語音直接錄音以記錄自己的生活瑣事,系統(tǒng)將錄音轉換為文本存入本機中形成備忘錄或者個人日記;工作模式下,可以通過系統(tǒng)邀請在線好友進行語音會議,錄音會及時轉換為文字,做到即時通信,最終形成完整會議記錄,并通過郵件發(fā)送給參會的每一個人。
1 語音識別與即時通信技術
1.1 語音識別——語音轉文本
語音識別即自動語音識別(Automatic Speech Recognition,ASR),其目標是將人類語音中的詞匯內容轉換為計算機可讀的輸入內容。語音識別包括語音合成、語音聽寫、語音翻譯[2]。
一個完整的語音識別系統(tǒng)可大致分為3部分:①語音信號預處理與特征提取;②模式匹配;③語言模型與語言處理。
語音轉文本通過語音識別第一階段得到機器識別的內容之后再進行模型匹配,查找詞典中高頻詞組并進行前后語意分析,得出最終轉化的文本。
1.2 即時通信——移動會議室(Android平臺)
移動互聯(lián)網成為了人們生活中必不可少的部分,而傳統(tǒng)會議室對空間的要求限制了人們的行動。會議移動化,與會者可以通過智能手機端在會前、會中或者會后瀏覽會議相關文檔,以及會議時間、會議主題、會議記錄等會議相關信息。智能化、標準化、集成化將是辦公會議系統(tǒng)的發(fā)展趨勢。
隨著移動互聯(lián)網的發(fā)展,互聯(lián)網即時通信也在向移動化擴張,與此同時,Android系統(tǒng)的開放性及其強大的通信功能,以及在手機和平板電腦等移動設備的普遍應用,使得移動會議室能夠得以實現(xiàn)。
根據2014Q2中國智能手機市場操作系統(tǒng)分布狀況可知,Android市場占有率達78.6%,ios占比為13.7%,Windows、BlackBerryOS以及其它操作系統(tǒng)占比較小。由此可以看出,Android平臺市場應用廣泛,這為系統(tǒng)的兼容性打下了堅實基礎。
2 系統(tǒng)結構設計
2.1 總體架構設計
移動全能秘書系統(tǒng)總體架構設計如圖1所示,其采用成熟穩(wěn)定的數據庫設計模式:客戶機/服務器(Client/Server)模式??蛻魴C端為移動手機端,手機端使用目前最流行的Android操作系統(tǒng),服務器端使用Windows Server 2003。這種設計在當前更具有代表性和普遍性。
本系統(tǒng)分前端和后端,系統(tǒng)前端包括客戶端和系統(tǒng)后臺??蛻舳酥饕鞘謾C端,這里采用普及最廣的Android系統(tǒng)作為平臺,用于向用戶提供整個服務。同時本系統(tǒng)采用熱門的語音識別技術,移動端和語音云之間采用HTTP協(xié)議交互信息,以提高整個系統(tǒng)的數據傳輸效率,完成各種業(yè)務需求。平臺管理員PC端則用于維護系統(tǒng)信息并完成前臺信息對接工作,采用.net框架進行開發(fā),用C#實現(xiàn)。移動端和管理員后臺端,都采用TCP通信協(xié)議,以保障通信的穩(wěn)定與快速。
后端采用Windows+Http+Servlet+sqlsever的組合,首先Http網絡協(xié)議可提高整個系統(tǒng)數據傳輸效率, sqlsever的開源性和極快的響應速度使得系統(tǒng)在成本上能夠得到控制,并且Servlet經典的客戶端和服務器數據傳輸模式與json數據傳輸類型保證了語音轉化為文本數據傳輸過程的完整性,也能夠實現(xiàn)更好的用戶體驗。后端為平臺數據庫及Android本地sqlite數據庫,會議記錄保存在后臺服務器端,保證了記錄的不可篡改性與安全性。而備忘錄保存在本地則提高了用戶對系統(tǒng)的體驗度,減輕了對服務器端數據的堆積。整個后端既能滿足系統(tǒng)所有的業(yè)務需求,同時也保證了用戶信息的私有化。前端為Android移動端,都采用TCP通信協(xié)議,保障了通信的穩(wěn)定與快速。
圖1 系統(tǒng)總體架構設計
2.2 Android系統(tǒng)語音識別設計
本系統(tǒng)在個人語音、在線會議環(huán)節(jié)利用語音識別技術,實現(xiàn)快速語音錄制及聲音轉文本功能。可用手機代替現(xiàn)有的會議記錄秘書、個人日記本、個人備忘錄,實現(xiàn)會議記錄、備忘錄、個人日記的無紙化。
在Android平臺運用語音識別,建立聽寫識別對象,創(chuàng)設聽寫監(jiān)聽,利用信號處理的方法對說話人語音進行檢測、降噪等預處理,以便得到最適合識別引擎處理的語音。將得到的音頻錄制結果通過語言云的SDK接口掃描到云端詞庫進行識別,得到最適合的結果。語音識別基本架構如圖2所示。
圖2 語音識別架構
3 系統(tǒng)功能設計
移動全能秘書平臺是基于語音識別技術、即時通信技術和Android系統(tǒng)而建立,可解決資源匱乏、信息流通延遲、傳統(tǒng)會議時空局限性等問題,實現(xiàn)會議和生活的高效和“無紙化”。
系統(tǒng)前端為客戶端,主要分為會議模式和生活模式。會議模式下實現(xiàn)查看在線用戶、組建會議室、應邀進入會議室、語音轉文本會議錄制、結束會議并向參會人發(fā)送會議記錄、瀏覽會議記錄等功能。生活模式下實現(xiàn)個人備忘錄語音轉文本錄制、瀏覽備忘錄等功能。后端為平臺管理員端,可進行會議記錄管理、用戶管理。其功能結構如圖3所示。
圖3 用戶APP功能
4 語音模式匹配實現(xiàn)
語音會議與個人日記中的關鍵點在于如何實現(xiàn)模式匹配,以及如何查詢最高頻的文字,做到模塊匹配。查閱資料發(fā)現(xiàn),線性預測編碼(LPC)及動態(tài)規(guī)劃技術算法,能夠很好地解決模板匹配中遇到的模板與待識別語音時間長度不一致的問題,可顯著提高識別率。線性預測特征的基本原理是建立在語音的數字模型基礎上,為估計數字模型中的參數,線性預測法提供了一種可靠精確的有效方法[3]。
將自回歸信號模型(AR模型)作為語音信號處理的常用模型。此時H(z)可寫為:
H(z)=S(z)[]U(z)=z[]1-p[]i=1aiz-i(1)
語音抽樣信號s(n)和激勵信號之間的關系可用下列差分方程來表示:
s(n)=p[]i=1ais(n-i)+Gu(n)(2)
所以預測誤差濾波器A(z)和H(z)的逆濾波器,有下式成立:
H(z)=G[]A(z)(3)
H(z)稱為合成濾波器。
線性預測誤差濾波相當于一個逆濾波過程或逆逼近過程,當調整濾波器A(z)的參數使輸出e(n)逼近一個白噪聲序列u(n)時,A(z)和H(z)是等效的,而按最小均方誤差準則求解線性預測系數正是使輸出e(n)白化的過程。
通過語音數據采集,集合線性預測過濾誤差聲波,再通過語音云中有海量中文高頻詞的詞典,查找與模式匹配庫中相匹配的最高頻的字詞進行文本翻譯,為用戶提供準確率較高的語意翻譯。
5 結語
本系統(tǒng)所提供的功能可以在很大程度上突破傳統(tǒng)會議局限,解決文檔保存、紙資源浪費、打字困擾等問題,用戶借助該軟件可以提高工作效率,其生活也更加便捷。目前,人工智能技術逐漸滲透到人們的日常生活與工作中,且中央近期提出“互聯(lián)網+”,“互聯(lián)網+”行動計劃重點在于促進計算機信息技術與生活及其它行業(yè)的融合創(chuàng)新,本系統(tǒng)正好響應此計劃,為人們的工作與生活提供了極大方便。及時推送與語音識別技術的緊密結合,也將為本系統(tǒng)打開廣闊的應用前景。
參考文獻:
[1] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J].中文信息學報,2009(1):112123.
[2] 高新濤,陳乖麗.語音識別技術的發(fā)展現(xiàn)狀及應用前景[J].甘肅科技縱橫,2007(4):13.
[3] 高翔.計算機語音錄入系統(tǒng)中準確性問題的研究[J].自動化與儀器儀表,2015(2):103104.
[4] 蔡敏.基于多特征組合優(yōu)化的漢語數字語音識別研究[J].電子器件,2013(2):282284.
(責任編輯:孫 娟)