季莉
摘要:慕課學(xué)習(xí)平臺(tái)的建設(shè)與應(yīng)用正蓬勃發(fā)展,目前海量的視頻學(xué)習(xí)資源只能按照學(xué)校名稱或課程名稱去搜索,學(xué)習(xí)者很難精準(zhǔn)快速定位到具體知識(shí)技能點(diǎn)的講課視頻?;谡Z(yǔ)音識(shí)別技術(shù)來(lái)解決慕課學(xué)習(xí)中的痛點(diǎn)問題,幫助學(xué)習(xí)者快速精準(zhǔn)搜索到目標(biāo)視頻,從而獲得更好的學(xué)習(xí)體驗(yàn),進(jìn)一步提升教育資源的價(jià)值,是人工智能技術(shù)在慕課平臺(tái)的創(chuàng)新應(yīng)用。
關(guān)鍵詞:語(yǔ)音識(shí)別;慕課平臺(tái);人工智能
中圖分類號(hào):G43? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)22-0058-02
人工智能的熱潮席卷全球,也正深度影響著教育行業(yè)。2018年,教育部發(fā)布了《高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃》,從高等教育領(lǐng)域推動(dòng)落實(shí)人工智能發(fā)展;2019年2月,《中國(guó)教育現(xiàn)代化2035》發(fā)布,提出新一代智能技術(shù)要融合傳統(tǒng)教學(xué),統(tǒng)籌建設(shè)一體化智能化教學(xué)、管理與服務(wù)平臺(tái),打造智能化校園,推動(dòng)和促進(jìn)人才培養(yǎng)模式改革。
同時(shí)期,我國(guó)的在線課程建設(shè)與應(yīng)用正蓬勃發(fā)展,學(xué)習(xí)平臺(tái)不斷涌現(xiàn)、課程數(shù)量不斷增加、學(xué)習(xí)者規(guī)模越來(lái)越大。截至2020年3月,我國(guó)共2.3萬(wàn)余門慕課上線,學(xué)習(xí)人次達(dá)3.8億,超過(guò)1億人次獲得慕課學(xué)分[1]。學(xué)術(shù)上關(guān)于慕課的研究成果豐富、熱點(diǎn)多元,研究多集中在混合教學(xué)模式、高等教育影響、信息素養(yǎng)教育、商業(yè)模式、困境與對(duì)策、可視化分析等角度[2],而關(guān)于人工智能技術(shù)在慕課應(yīng)用的論文,卻明顯數(shù)量較少,研究不足。本文從語(yǔ)音識(shí)別技術(shù)的角度,探索提升慕課深度應(yīng)用的新途徑。
1 慕課學(xué)習(xí)資源精準(zhǔn)搜索的困境
慕課突破傳統(tǒng)教育的時(shí)空界限,聚集海量名師名課,共享優(yōu)質(zhì)教學(xué)資源,極大地豐富了學(xué)習(xí)者的選擇性。目前慕課的學(xué)習(xí)平臺(tái)資源的搜索方式,基本按照學(xué)校名稱、專業(yè)名稱或者具體課程名稱,則能得到精準(zhǔn)的回應(yīng),這種搜索方式適合學(xué)習(xí)者系統(tǒng)地學(xué)習(xí)一門課程;但是如果學(xué)習(xí)者想從海量視頻資源中迅速找到某個(gè)具體知識(shí)技能點(diǎn),則往往無(wú)法得到精準(zhǔn)的回應(yīng),甚至沒有返回結(jié)果,而現(xiàn)實(shí)中,無(wú)論是復(fù)習(xí)考試或者是求職工作,確實(shí)存在著大量的學(xué)習(xí)者急需要快速搜索到精準(zhǔn)講解視頻的需求。
如何從繁雜的視頻數(shù)據(jù)庫(kù)中檢索出人們感興趣的視頻,一直是信息時(shí)代的難題。傳統(tǒng)的依靠手工標(biāo)注的基于文本的視頻檢索,已經(jīng)無(wú)力應(yīng)對(duì)如今海量的數(shù)據(jù);近年來(lái),基于內(nèi)容的視頻檢索也應(yīng)運(yùn)而生,但該技術(shù)依據(jù)的是顏色、大小、形狀、紋理等視頻的底層特征[3];隨著深度學(xué)習(xí)技術(shù)的發(fā)展,視頻檢索往高層特征的深度學(xué)習(xí)發(fā)展,可以解決依據(jù)一段視頻在海量數(shù)據(jù)庫(kù)中檢索出相似視頻的需求[4]。然而,上述解決方案都無(wú)法解決本文提到的問題。
2 語(yǔ)音識(shí)別技術(shù)在慕課學(xué)習(xí)平臺(tái)的應(yīng)用方案
語(yǔ)音識(shí)別是利用機(jī)器設(shè)備接收和理解人類語(yǔ)言的交叉學(xué)科應(yīng)用技術(shù),涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)和信號(hào)處理等眾多領(lǐng)域,是實(shí)現(xiàn)人機(jī)交互的關(guān)鍵性技術(shù)[5]。近年來(lái)由于人工智能方向上的進(jìn)步,語(yǔ)音識(shí)別取得了突破性的發(fā)展,在智能家居、聲控語(yǔ)音撥號(hào)系統(tǒng)、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域進(jìn)入實(shí)用化階段[6-7]。本文研究和關(guān)注基于語(yǔ)音識(shí)別技術(shù)來(lái)解決慕課學(xué)習(xí)中的痛點(diǎn)問題,幫助學(xué)習(xí)者既能快速精準(zhǔn)搜索到目標(biāo)視頻,而背后又無(wú)須耗費(fèi)大量人力做支持,從而獲得更好的用戶體驗(yàn),進(jìn)一步提升平臺(tái)的價(jià)值。
在慕課學(xué)習(xí)平臺(tái)中增加語(yǔ)音識(shí)別功能,不更改原慕課平臺(tái)的主體,以節(jié)省開發(fā)成本、降低風(fēng)險(xiǎn)。應(yīng)用方案架構(gòu)圖如圖1所示,具體流程包括:
首先,進(jìn)行語(yǔ)音識(shí)別的語(yǔ)音來(lái)自慕課平臺(tái)上現(xiàn)存的講課視頻以及智慧教室形成的上課實(shí)錄語(yǔ)音流,其中視頻文件需要抽取語(yǔ)音流,形成語(yǔ)音庫(kù);
然后,語(yǔ)音識(shí)別前需要對(duì)語(yǔ)音做一定的處理,包括降噪、設(shè)置比如采樣率及聲道等參數(shù)、轉(zhuǎn)換文件壓縮格式等,否則會(huì)影響語(yǔ)音識(shí)別率。語(yǔ)音識(shí)別引擎有兩大模塊:聲學(xué)模型和語(yǔ)言模型。聲學(xué)模型就是用語(yǔ)音訓(xùn)練集來(lái)進(jìn)行訓(xùn)練學(xué)習(xí)語(yǔ)音;語(yǔ)言模型就是通過(guò)對(duì)文本訓(xùn)練集的反復(fù)訓(xùn)練和迭加優(yōu)化,來(lái)刻畫文本和文本之間的概率權(quán)重。這兩個(gè)模塊合起來(lái)執(zhí)行就能得到識(shí)別結(jié)果。
最后,識(shí)別的授課語(yǔ)音形成文檔返回。而關(guān)于文檔的搜索技術(shù)則已經(jīng)非常成熟,這樣,學(xué)習(xí)者就解決了如何從浩如煙海的慕課視頻,快速搜索定位到具體知識(shí)技能點(diǎn)課件的難題。
3 關(guān)鍵問題及擬采取的解決措施
3.1 抽取慕課視頻中的語(yǔ)音流數(shù)據(jù)
慕課平臺(tái)的老師講課視頻多采用MP4(mp4,m4a,m4v,f4v,f4a,m4b,m4r,f4b,mov)或者WMV (wmv, wma, asf*)等格式,常用的音頻格式則有MP3、WMA、AAC等格式,具體要講視頻抽取轉(zhuǎn)換成哪種音頻格式取決于下一步語(yǔ)音識(shí)別模塊中支持的格式。
MoviePy是一個(gè)用于視頻編輯的Python庫(kù),可以實(shí)現(xiàn)切割、拼接、標(biāo)題插入、視頻合成、視頻處理和自定義效果的創(chuàng)造。安裝Moviepy庫(kù),運(yùn)用VideoFileClip函數(shù)讀取MP4視頻,然后提取音頻并輸出,即可以實(shí)現(xiàn)從教師的講課視頻中抽取語(yǔ)音流數(shù)據(jù)的功能。
3.2 使用語(yǔ)音識(shí)別模型識(shí)別語(yǔ)音流數(shù)據(jù)
使用語(yǔ)音模型識(shí)別語(yǔ)音流數(shù)據(jù),該系統(tǒng)通常由語(yǔ)音信號(hào)預(yù)處理、語(yǔ)音特征提取、聲學(xué)模型、語(yǔ)言模型和語(yǔ)音搜索解碼算法構(gòu)成[8],最終目標(biāo)是將一段語(yǔ)音信號(hào)轉(zhuǎn)換為輸出的文本文字。語(yǔ)音識(shí)別模塊技術(shù)要求較高,可以借助第三方云AI。目前公開的云AI有微軟的Azure Machine Learning或IBM的IBM Bluemix、亞馬遜網(wǎng)站服務(wù)的Amazon Machine Learing等海外公司產(chǎn)品,以及百度AI、騰訊AI等國(guó)內(nèi)產(chǎn)品。比如在百度AI注冊(cè)后建立應(yīng)用并記錄對(duì)應(yīng)的API_KEY和SECRET_KEY,作為調(diào)用API(Application Programming Interface,簡(jiǎn)稱API) 的身份憑識(shí)。根據(jù)音頻url、音頻格式、語(yǔ)言id以及采樣率等參數(shù)創(chuàng)建音頻轉(zhuǎn)寫任務(wù)。創(chuàng)建成功后,音頻會(huì)開始進(jìn)行語(yǔ)音轉(zhuǎn)寫任務(wù),再通過(guò)查詢結(jié)果接口進(jìn)行結(jié)果查詢,獲得識(shí)別結(jié)果。
首先是創(chuàng)建賬號(hào)及應(yīng)用,獲取AppID、API Key、Secret Key,并通過(guò)請(qǐng)求鑒權(quán)接口換取 token,主要代碼如下。
grant_type = "client_credentials"
client_id = "API Key"
client_secret = "Secret Key"? ? ? ? ? ? ? ? ? ? ? ? ? ?# 創(chuàng)建應(yīng)用所獲取的API Key、Secret Key
url='https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}'.format(client_id, client_secret)
res = requests.post(url)
token = json.loads(res.text)["access_token"]
print(token)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? # 獲取token
然后是音頻文件轉(zhuǎn)碼,需要將抽取到的音頻轉(zhuǎn)成符合語(yǔ)音識(shí)別模塊輸入要求格式的音頻。百度語(yǔ)音支持pcm、wav、amr、m4a格式,音頻參數(shù)為單聲道、16000的采樣率以及16bits編碼。最后是創(chuàng)建識(shí)別請(qǐng)求,通過(guò)POST方式提交音頻,返回識(shí)別結(jié)果。
headers = {'Content-Type': 'application/json'}? ?# 固定頭部
url = "https://vop.baidu.com/server_api"
data = {
"format":"pcm",
"rate": 16000,
"dev_pid": 1537,
"speech": speech,
"cuid": CUID,
"len": size,
"channel": 1,
"token": token,
}? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# 語(yǔ)音數(shù)據(jù)JSON格式參數(shù)
req = requests.post(url, json.dumps(data), headers)? ? ? ? ? ?# 通過(guò)post方式提交音頻
result = json.loads(req.text)
return result["result"][0][:-1]? ? ? ? ? # 返回識(shí)別結(jié)果
4 測(cè)試與結(jié)論
邀請(qǐng)14位老師,其中男性7位,女性7位,年齡為26~60歲,口齒清晰,發(fā)音流利。通過(guò)佩戴收音耳麥在授課環(huán)境下錄音,語(yǔ)音信號(hào)以16bit量化的16KHZ采樣,形成語(yǔ)音文件。
為簡(jiǎn)化測(cè)試,將每堂課的授課錄音選取約5分鐘作為測(cè)試語(yǔ)音。授課老師整理各自的授課實(shí)錄形成人工文本文件。語(yǔ)音文件和人工文本文件一一對(duì)應(yīng),以便后續(xù)作比對(duì)處理。創(chuàng)建應(yīng)用,將測(cè)試語(yǔ)音文件上傳,調(diào)用接口進(jìn)行測(cè)試。譬如選擇某段中國(guó)文化課堂測(cè)試語(yǔ)音,時(shí)長(zhǎng)為5分10秒,大小為54M,字?jǐn)?shù)為1188個(gè),測(cè)試的識(shí)別結(jié)果與人工文本比對(duì)后發(fā)現(xiàn)75個(gè)錯(cuò)字,錯(cuò)字率為6.31%。同樣的方法,將所有學(xué)科的授課測(cè)試語(yǔ)音做識(shí)別比對(duì),得出以下結(jié)論:首先,授課語(yǔ)音識(shí)別錯(cuò)字率在6.21%~8.13%區(qū)間內(nèi),識(shí)別效果可以滿足后續(xù)對(duì)某個(gè)具體知識(shí)技能點(diǎn)的文本搜索;其次,專業(yè)領(lǐng)域的課程語(yǔ)音識(shí)別效果略低于通識(shí)課程語(yǔ)音,原因主要是核心詞匯的識(shí)別率,某些生冷的專業(yè)詞匯不收錄在語(yǔ)音模型詞庫(kù)中;最后,授課老師的一些發(fā)音習(xí)慣,如吞音、音量過(guò)小或過(guò)大都會(huì)影響識(shí)別效果。
后續(xù)進(jìn)一步提高慕課課堂語(yǔ)音識(shí)別正確率的有效途徑是對(duì)專業(yè)領(lǐng)域的語(yǔ)言模型實(shí)施迭代優(yōu)化,獲得對(duì)應(yīng)領(lǐng)域的訓(xùn)練文本,動(dòng)態(tài)更新詞典,反復(fù)改進(jìn)初始語(yǔ)言模型,直到達(dá)到滿意的閾值為止。
參考文獻(xiàn):
[1] 韓筠.在線課程推動(dòng)高等教育教學(xué)創(chuàng)新[J].教育研究,2020,41(8):22-26.
[2] 黃斌,吳成龍.MOOC的研究現(xiàn)狀、熱點(diǎn)領(lǐng)域與發(fā)展建議——基于CNKI期刊論文的可視化分析[J].成人教育,2021,41(7):20-26.
[3] Megrhi S,Souidene W,Beghdadi A.Spatio-temporal salient feature extraction for perceptual content based video retrieval[C]//2013 Colour and Visual Computing Symposium (CVCS).Gjovik,Norway.IEEE,2013:1-7.
[4] 胡志軍,徐勇.基于內(nèi)容的視頻檢索綜述[J].計(jì)算機(jī)科學(xué),2020,47(1):117-123.
[5] 程風(fēng),翟超,呂志,等.基于語(yǔ)音識(shí)別技術(shù)的智能家居主控設(shè)計(jì)[J].工業(yè)控制計(jì)算機(jī),2018,31(5):29-31.
[6] 戴禮榮,張仕良,黃智穎.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理,2017,32(2):221-231.
[7] Xiong W,Wu L,Alleva F,et al.The microsoft 2017 conversational speech recognition system[C]//2018 IEEE International Conference on Acoustics,Speech and Signal Processing.Calgary,AB,Canada.IEEE,2018:5934-5938.
[8] 梁靜.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別研究[D].北京:北京郵電大學(xué),2014.
【通聯(lián)編輯:唐一東】