于安迎 劉中濤 項鴻雁 高玉領(lǐng) 盧鳳
摘 要:為增強語音識別技術(shù)在不同行業(yè)的應用,需要針對不同行業(yè)建設相應的語料庫。目前,中文語料庫構(gòu)建尚處于起始階段,以THCHS-30語料庫為代表的大眾新聞語料初步投入應用。本文面向電力行業(yè)設計、構(gòu)建電力行業(yè)語音語料,提出電力行業(yè)語料庫設計規(guī)范并建立電力行業(yè)初級語料庫,填補電力行業(yè)中文語料庫的空白。本文分別實現(xiàn)語料音頻錄制和文本語料構(gòu)成規(guī)范分析,完成包括發(fā)音、錄制及存儲等的錄制和包括語料及詞典的編制規(guī)范。采用音頻標注技術(shù),完成長音頻切分以及短語料標注,實現(xiàn)文字和音素的兩層級標注,建立電力音頻標注規(guī)范。最后對語料庫進行準確度測試,語料標注平均準確率為99.75%,滿足語料庫應用需求。
關(guān)鍵詞:電力行業(yè);語料庫;語音標注;詞庫
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1671-2064(2018)16-0148-03
1 概述
隨著人工智能(AI, Artificial Intelligence)技術(shù)[1]的推廣和深入,以帶電作業(yè)機器人、AI控制器為代表的一批智能產(chǎn)品已率先進入電力行業(yè),并發(fā)揮了極大的效用。因此,將人工智能技術(shù)與電力、能源等行業(yè)相結(jié)合,促進傳統(tǒng)行業(yè)的轉(zhuǎn)型升級,是研究人員重點關(guān)注的領(lǐng)域之一。語音作為人類最自然、最有效地交流方式,使得語音識別技術(shù)成為當下熱門研究方向。目前,電力行業(yè)語音識別應用主要集中在移動作業(yè)、語音報警和智能調(diào)度等[2]短語音指令交互控制的基礎應用層面,鮮少研究具有電力行業(yè)特性的大規(guī)模商用級語音識別服務。
運用大規(guī)模語料訓練DNN、CNN語音識別模型是現(xiàn)階段實現(xiàn)較高語音識別率的有效方法之一,那么構(gòu)建足夠大的語音語料庫就至關(guān)重要。目前,開源的語音語料庫大多是大眾新聞[3]等語料為主。但該類語料庫幾乎不涉及電力系統(tǒng)相關(guān)音頻和專業(yè)詞匯,對電力系統(tǒng)的適用性較差,有較大的專業(yè)隔閡,語音識別率較低。因此本文研究分析中文語料庫構(gòu)建現(xiàn)狀和電力行業(yè)語料特點,提出面向電力行業(yè)的語音語料庫設計方案,構(gòu)建包含17小時的電力行業(yè)音頻語料庫,為電力系統(tǒng)音頻語料的研究提供數(shù)據(jù)支持。
2 中文語料庫構(gòu)建分析
如今語音識別技術(shù)已經(jīng)廣泛應用于各行各業(yè),車載語音、語音助手等產(chǎn)品也已較為成熟。但是,絕大部分研究機構(gòu)尚不具備大規(guī)模商用級中文語料庫,這就制約了語音識別技術(shù)的深入研究和推廣。目前,中文語料庫構(gòu)建尚處于起始階段:2016年清華大學語音與語言研究中心開源了THCHS-30語料庫[4],該語料庫由40人完成錄制,時長約30小時;2017年北京希爾貝殼科技有限公司開源了AISHELL -ASR0009-OS1語料庫[5],該語料庫錄制時長178小時,由400名來自中國不同口音區(qū)域的發(fā)言人參與錄制。
隨著智能家居等系列語音產(chǎn)品的上線,其對應領(lǐng)域語料庫也隨之更新。清華大學的THCHS-30語料庫由大眾新聞語料構(gòu)成。與THCHS-30語料庫相比,北京希爾貝殼科技有限公司的AISHELL-ASR0009-OS1語料庫行業(yè)覆蓋雖然更為廣泛,由50萬條常用語料構(gòu)成,但是涉及領(lǐng)域也以智能家居、無人駕駛、工業(yè)生產(chǎn)等語音識別產(chǎn)品覆蓋領(lǐng)域為主。
因此,現(xiàn)有中文語料庫開源資源較為有限,數(shù)據(jù)量較少。且語料庫文本大多集中在新聞類語料、經(jīng)濟、科技等常見語料,對特定專業(yè)領(lǐng)域語料覆蓋較少或基本無覆蓋。因此,構(gòu)建適用于某一特定行業(yè)的專用語料庫,對豐富現(xiàn)有中文語料庫具有重要意義。本文面向電力行業(yè),綜合考慮電力行業(yè)語料特點,設計、構(gòu)建電力行業(yè)專用語料庫,實現(xiàn)科技進步與傳統(tǒng)行業(yè)的有效結(jié)合,對促進電力行業(yè)語音識別等技術(shù)的推廣具有重要的意義。
3 語料庫構(gòu)建
現(xiàn)有開源中文語料庫基本不包括電力行業(yè)通用語料,并且電力行業(yè)語料庫研究大多集中在電力客服情感分析以及電力英文語料的構(gòu)建上[6]。本文提出一套電力行業(yè)語料庫設計規(guī)范,構(gòu)建17小時面向電力行業(yè)語音識別的語音語料庫,填補了電力行業(yè)語料庫的空白。分別從音頻語料錄制、文本語料設計及音頻標注闡述語料庫設計規(guī)范。
3.1 音頻語料錄制
3.1.1 錄音規(guī)范
面向電力行業(yè)的語音語料庫由17小時多通道中文普通話音頻語料構(gòu)成。由12名來自不同口音區(qū)域發(fā)音人錄制。其中,男性發(fā)音人有7人,女性發(fā)音人5人。
錄制過程中保持安靜的室內(nèi)環(huán)境,采用高保真麥克風(44.1kHz,16bit)采集音頻。語音語料庫設定音頻頻率為16kHz,16bit wav格式錄音,滿足音頻識別應用主流設置。發(fā)音人和麥克風距離保持在30cm左右,保證語音采集清晰、不失真。
3.1.2 數(shù)據(jù)集
語料庫數(shù)據(jù)集有訓練集、開發(fā)集和測試集構(gòu)成。訓練集由8人錄制10511條電力行業(yè)語料構(gòu)成,錄制時長約為13.5小時。開發(fā)集由2人錄制1459條語料構(gòu)成,錄制時長約為2小時。測試集由2人錄制1030條語料構(gòu)成,測試音頻語料約為1.5小時。語料庫數(shù)據(jù)結(jié)構(gòu)如表1所示。
3.2 文本語料設計
3.2.1 語料規(guī)范
面向電力行業(yè)的語料庫文本覆蓋電力發(fā)電、電網(wǎng)輸配電及電能消耗等電力生產(chǎn)、應用具體環(huán)節(jié),由1.3萬條電力行業(yè)各個環(huán)節(jié)常用語料構(gòu)成,文本語料信息如表2所示。本語料庫對電力行業(yè)中涉及數(shù)字、單位、特殊符號等進行了處理,均以漢字進行描述,如“1KV”的漢字表述為“一千伏”。
3.2.2 專用詞庫構(gòu)建
本文在實現(xiàn)構(gòu)建電力行業(yè)的語料庫基礎上,完成對電力行業(yè)語料的自然語言處理實現(xiàn)語料分詞,生成電力行業(yè)專用詞典[7]。該詞典由1.3萬條語料分析提取而成,電力詞匯覆蓋發(fā)電、輸電、配電和用電等電力系統(tǒng)主要應用場景。
本文首先采用自然語言處理技術(shù)實現(xiàn)對1電力語料的分詞處理,得到常用電力詞匯約1.2萬個,基本覆蓋電力行業(yè)日常用詞。為保證電力行業(yè)專用詞典的通用性、增強對通用音頻詞匯的匹配度,本文對電力行業(yè)專用詞庫新增13萬個通用領(lǐng)域常用詞,提高詞庫適用性。同時,本文采用音素標注技術(shù),完成詞語發(fā)音音素的標注處理。通過音素標注實現(xiàn)對音頻信號、音素和文字詞匯的準確匹配,為語音識別訓練和解碼[8]提供基礎數(shù)據(jù)。
3.3 語料庫標注
語音標注是語料庫構(gòu)建的重要環(huán)節(jié)。為了有效避免發(fā)音人機械式表達,保證電力系統(tǒng)采集音頻表達連續(xù)性和發(fā)音人狀態(tài)自然有效,本語料庫采取對長文本統(tǒng)一錄音,再按語義結(jié)構(gòu)進行切分、標注的方法,保證錄制語料流暢、自然。
本文采用中文拼音和音素[9]相結(jié)合的方式,運用開源軟件Praat實現(xiàn)多層級音頻有效標注。最大程度反應發(fā)音人講話狀態(tài),保留語氣詞、嘆氣、咳聲等多種錄音信息。
對發(fā)音人錄制的長達半小時或一小時以上的長音頻首先運用Praat工具[10],按語義進行語句切分。設置語音標注TextGrid為一層,即標注出每條音頻對應文字內(nèi)容。然后,通過編寫超長音頻切分腳本,對標注音頻進行批處理切分。最終得到以語句為單位,長度約為3s~10s的標準wav音頻。超長音頻標注結(jié)果如圖1所示。
4 測試結(jié)果
為保證語料庫的正確性,本文隨機抽取1000條測試語料,對語音切分及標注的準確性進行測試。對測試語料原文利用自然語言處理技術(shù)進行分詞處理,以詞語為單位計算語音標注的準確度。通過測試得出電力行業(yè)語料庫準確率約為99.75%,滿足語料庫應用需求,如表3所示為部分測試結(jié)果。
5 結(jié)語
本文面向電力行業(yè)完成電力行業(yè)語音語料庫的設計和構(gòu)建,提出電力行業(yè)語音標注規(guī)范。通過對現(xiàn)有中文語料庫的分析,分析構(gòu)建電力行業(yè)語料庫的必要性。在對電力行業(yè)語料特點進行分析后,介紹音頻語料錄制及文本語料錄制和采集規(guī)則。從超長音頻切分和短語料標注闡述語音標注實現(xiàn)方法。電力行業(yè)語料庫的構(gòu)建從一定程度上豐富了電力行業(yè)音頻數(shù)據(jù)庫,為電力行業(yè)語音識別的深入研究提供了真實數(shù)據(jù)。在研究過程中發(fā)現(xiàn),本語料庫與其他語料庫相比,錄制音頻相對較少,下一步將繼續(xù)豐富電力行業(yè)語料庫數(shù)據(jù)。
參考文獻
[1]鄭南寧.人工智能面臨的挑戰(zhàn)[J].自動化學報,2016,(05):641-642.
[2]楊樸,游大海.電力系統(tǒng)中的語音應用技術(shù)研究[J].計算機仿真,2004,21(03):91-93.
[3]蔣泰,張林軍.語音識別自適應算法在智能家居中的應用[J].計算機系統(tǒng)應用,2017,26(03):150-155.
[4]Dong Wang, Xuewei Zhang. THCHS-30: A Free Chinese Speech Corpus[C]. CSLT TECHNICAL REPORT-20150016 2016.02.
[5]Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Zheng. Aishell-1: an open-source mandarin soeech corpus and a speech recognition baseline. in Proc. Oriental COCOSDA,2017.
[6]奚雪峰,褚曉敏,孫慶英.漢語篇章微觀話題結(jié)構(gòu)建模與語料庫構(gòu)建[J].計算機研究與發(fā)展,2017,54(08):1833-1852.
[7]楊皓東,江凌,李國俊.國內(nèi)自然語言處理研究熱點分析——基于共詞分析[J].圖書情報工作,2017.55(10):112-117.
[8]張仕良.基于深度神經(jīng)網(wǎng)絡的語音識別模型研究[D].合肥: 中國科學技術(shù)大學,2017.
[9]魏星,王瑋,陳靜萍.基于發(fā)音特征的漢語發(fā)音偏誤自動標注[J].北京大學學報(自然科學版),2017,152:1-7.
[10]鄒琳琳.基于PRAAT軟件的陜西學生英語前元音聲學研究[J].自動化與儀器儀表,2017,(02):192-195.