白娟
摘要:語音識別技術(shù)迅速發(fā)展,如何將其更好地應(yīng)用于教育教學(xué)領(lǐng)域成為廣大信息技術(shù)工作者關(guān)注的問題。文章對語音識別技術(shù)的工作方法及其教學(xué)應(yīng)用進(jìn)行探究,著重介紹了語音識別技術(shù)在教育教學(xué)領(lǐng)域應(yīng)用的幾種主要形式,包括:口語測評、學(xué)習(xí)記錄、智能演講臺、多媒體信息檢索等,闡述了語音識別技術(shù)應(yīng)用于教學(xué)領(lǐng)域的可行性,并對語音識別技術(shù)目前存在的問題以及未來發(fā)展走向成熟的可行之路進(jìn)行探討。
關(guān)鍵詞:語音識別;教學(xué)應(yīng)用;口語測評;學(xué)習(xí)記錄
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-8228(2020)07-105-03
0引言
語音識別技術(shù)就是把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的命令,從而使計算機(jī)能夠理解的一項技術(shù)。
計算機(jī)模擬人類交流信息的過程主要經(jīng)歷①自然語言生成→②語音合成→③語音識別→④自然語言理解這幾個步驟。如圖1。
1語音識別技術(shù)概述
1.1語音識別的基本原理
語音識別主要包括特征提取、模式匹配、參考模式庫等三個基本環(huán)節(jié),它的基本結(jié)構(gòu)如圖2所示。
經(jīng)過預(yù)處理、特征提取、訓(xùn)練、模式匹配等單元,計算機(jī)將自動獲取識別結(jié)果。從這個過程可以看出,語音識別本質(zhì)上是一種模式識別系統(tǒng),語音模板質(zhì)量高低與算法優(yōu)劣,決定識別的效率和準(zhǔn)確度。
1.2語音識別的基本方法
語音識別的基本方法主要有如下三種。
(1)語音學(xué)和聲學(xué)的方法
語音學(xué)方法起步較早,但由于相應(yīng)模型庫和語音知識過于復(fù)雜,在實際應(yīng)用中存在多種問題,因而沒能得到大規(guī)模推廣使用。
(2)模板匹配的方法
模板匹配方法發(fā)展的較為成熟,目前常用的技術(shù)包括:動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。
(3)神經(jīng)網(wǎng)絡(luò)的方法
基于神經(jīng)網(wǎng)絡(luò)的語音系統(tǒng)目前在識別中逐步得到廣泛應(yīng)用,其主要由神經(jīng)元、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等三大要素構(gòu)成。
2語音識別技術(shù)在教育教學(xué)領(lǐng)域的應(yīng)用
2.1自動口語測評
使用人工智能的口語測評技術(shù)會告訴用戶,標(biāo)準(zhǔn)發(fā)音是什么,用戶讀的音又是什么,如同有老師在線輔導(dǎo)一般。目前,語言學(xué)習(xí)類的手機(jī)APP可以通過發(fā)音、重音、語調(diào)這3個層面去判斷用戶的發(fā)音。語言學(xué)習(xí)訓(xùn)練系統(tǒng)不僅能提供糾錯反饋,判斷發(fā)音錯誤的類型并給出相應(yīng)的矯正建議,同時還兼顧語音、重音、語調(diào)等多個方面,能為用戶提供更全面的語言學(xué)習(xí)體驗。把語言學(xué)習(xí)技術(shù)深入到教育行業(yè),是語音識別技術(shù)在教育領(lǐng)域的一個重要應(yīng)用方向。
2.2智能學(xué)習(xí)助手
智能學(xué)習(xí)助手系統(tǒng),可以通過自動做筆記解放學(xué)生的雙手,使學(xué)生更專注于聽講,并且在課下為學(xué)生推薦題目查漏補(bǔ)缺,提高學(xué)生的學(xué)習(xí)效率。
2.3基于語音的演講控制系統(tǒng)
基于語音識別技術(shù)的智慧演講系統(tǒng),由LCD顯示屏來展示不同形式的信息內(nèi)容,通過語音指令來控制講臺提詞系統(tǒng)的運行,有效提高講臺提詞控制的智能化和個性化水平。
基于語音的演講控制系統(tǒng)則是增加語音識別程序,從而能夠控制提詞系統(tǒng)的進(jìn)度。自動提詞系統(tǒng)軟件通過講臺桌面的USB接口,通過自動讀取優(yōu)盤里的文檔內(nèi)容,用于演講者脫稿演講。講稿內(nèi)容的操作包括手動和自動兩種模式。手動模式下,演講者通過操作鼠標(biāo)來對講稿點擊翻頁;自動模式下,通過語音識別技術(shù)與提詞系統(tǒng)聯(lián)動,做到演講稿不讀不走、已讀標(biāo)注、嚴(yán)格與演講人演講進(jìn)程同步。
2.4基于內(nèi)容的多媒體信息檢索
傳統(tǒng)信息檢索技術(shù)主要是面向文本(text),早期階段,百度等搜索引擎主要采用文本檢索技術(shù),隨著技術(shù)發(fā)展,搜索引擎及手機(jī)APP融入語音、圖像等多種跨信息檢索方式。
基于內(nèi)容的多媒體信息檢索技術(shù)主要包括對圖像、視頻和音頻等多媒體信息的內(nèi)容處理和分析、自動標(biāo)注、構(gòu)建索引和相似檢索等。例如:通過輸入語音信息,檢索需要的音視頻片段?;趦?nèi)容的多媒體信息檢索可以融入語音、視頻、圖像,以及其他信息,從而分析語義,獲取用戶需要的信息。
3語音技術(shù)存在的問題探討
3.1語音環(huán)境
受制于復(fù)雜的環(huán)境,像含糊不清的口音、噪聲環(huán)境、多人對話場所等都能給語音識別造成影響,一旦識別錯誤就可能改變整句話的意思。
3.2語言對象
語音信息隨說話對象的不同而產(chǎn)生較大變化。例如,一個演講者在正式場合說話和私底下交談時的語音信息是有較大變化的。因此,進(jìn)行語音識別時,不同語音信息量也需要根據(jù)不同環(huán)境進(jìn)行優(yōu)化處理。
3.3噪聲干擾
環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響,致使識別率低。目前所提到高識別率,還停留在“近場語音識別”的階段,達(dá)不到自然的人機(jī)交互模式,即“遠(yuǎn)場語音識別”的階段。
3.4語音與語義
將語音轉(zhuǎn)換成文字并不是最終目的,語音識別的目標(biāo)是讓機(jī)器可以理解人類,如何將語音識別和語義理解結(jié)合起來可能是未來更為重要的一個方向。語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是—個難題。
4語音技術(shù)的未來與發(fā)展
4.1從“近場語音識別”向“遠(yuǎn)場語音識別發(fā)展”
“近場語音識別”要求必須是低噪聲、無混響、距離聲源很近的場景,比如用戶總是要對著手機(jī)講話才能獲得符合近場語音識別要求的聲音信號,同時還要求用戶滿足標(biāo)準(zhǔn)發(fā)音,其識別率才有可能達(dá)到95%以上?!斑h(yuǎn)場語音識別”即聲源距離距離較遠(yuǎn),并且真實環(huán)境中存在大量的噪聲、多徑反射和混響等,在這種情況下,會導(dǎo)致拾取信號的質(zhì)量下降,影響目前的語音識別率。
遠(yuǎn)場語音交互技術(shù)正在逐步成熟。亞馬遜Echo的初步成功,已經(jīng)佐證了遠(yuǎn)場語音識別的強(qiáng)大需求。目前,科大訊飛和聲智科技都在這個方面不斷前進(jìn)發(fā)展。
4.2自然語言理解還有很長的路要走
目前的語音識別,很多還停留在speech-to-text的階段,還需要繼續(xù)向speech-to-meaning的階段發(fā)展。語音識別,得益于基礎(chǔ)聲學(xué)和語音識別的巨大進(jìn)步,但還需要自然語言處理(NamrM Language Process,NLP),以及自然語言理解(Natural Language Under-standing,NLU)方向繼續(xù)前進(jìn)。
基礎(chǔ)聲學(xué)和語音識別解決的是計算機(jī)“聽得見”的問題,而在未來“聽得懂”才是最為關(guān)鍵的問題。自然語言處理的進(jìn)展還沒有找到理想的突破點,若想要達(dá)到人類的這種理解層次,還需要走很長的路。
4.3全同聲傳譯系統(tǒng)還需不斷走向完善成熟
全自動同聲傳譯系統(tǒng)包含語音識別、機(jī)器翻譯以及語音合成等模塊,實現(xiàn)語種間的翻譯,實現(xiàn)過程流暢,核心技術(shù)采用深度學(xué)習(xí)算法?,F(xiàn)有的同聲傳譯系統(tǒng)在語義理解、語音識別、斷句切割、語音合成等方面還存在不足,還不能做到譯音質(zhì)量的高標(biāo)準(zhǔn)要求,還不能完全與同傳譯員競爭。因此,提高語言翻譯質(zhì)量,加強(qiáng)全自動同傳系統(tǒng)在背景噪聲、較快語速下的語音識別,增強(qiáng)不同語種間的互譯,是未來語音識別與機(jī)器翻譯結(jié)合的重點發(fā)展方向之一。
5結(jié)束語
語音識別技術(shù)的應(yīng)用必將隨著人工智能的整體發(fā)展不斷趨向成熟,在未來,語音識別技術(shù)必將深入應(yīng)用到教育教學(xué)的各個方面,促進(jìn)信息技術(shù)與教育教學(xué)的深度融合。語音技術(shù)的發(fā)展將進(jìn)一步助力外語及語言教學(xué),提高教學(xué)效率、改善教學(xué)效果,促進(jìn)人工智能技術(shù)的整體發(fā)展。