劉文開 伍俊謙 焦飛
摘要:隨著學(xué)校教學(xué)規(guī)模的擴(kuò)大和教育信息化的高速發(fā)展,為提高智慧教室管理的信息化程度,提出并研制了一種基于語音識別的智慧教室管理系統(tǒng),探討了面向多媒體設(shè)備控制這一領(lǐng)域的應(yīng)用。系統(tǒng)依托成熟的校園網(wǎng),以云的方式結(jié)合本地語音庫進(jìn)行語音識別。系統(tǒng)應(yīng)用證明了云架構(gòu)的基于語音識別的智慧教室管理系統(tǒng)與傳統(tǒng)多媒體教室管理系統(tǒng)相比更有優(yōu)勢和可擴(kuò)展性。同時方便了學(xué)校統(tǒng)一管理,提高了管理員的工作效率,為師生提供了智能服務(wù),節(jié)約了大量的人力和財(cái)力,大大促進(jìn)了學(xué)校信息化建設(shè)的發(fā)展。
關(guān)鍵詞:云架構(gòu);語音識別;智慧校園;智慧教室
中圖分類號:TP273 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)33-0182-03
開放科學(xué)(資源服務(wù))標(biāo)識碼( OSID):
引言
現(xiàn)代計(jì)算機(jī)科學(xué)技術(shù)飛速發(fā)展,學(xué)校傳統(tǒng)的多媒體教室經(jīng)過不斷改進(jìn)和升級,逐漸形成智慧教室。多媒體教室的管理從傳統(tǒng)的人工操縱各種多媒體設(shè)備到通過中控集中控制,然后發(fā)展到通過校園網(wǎng)遠(yuǎn)程控制,再到現(xiàn)在基于人工智能的自動化管理,充分說明了教育的發(fā)展過程中逐漸開始應(yīng)用人工智能,學(xué)校重點(diǎn)建設(shè)智慧教室、智慧校園已成為未來的趨勢[1]。國內(nèi)有關(guān)智慧教室設(shè)計(jì)理念和教學(xué)模式的構(gòu)建相對豐富,但仍然缺乏全面實(shí)踐。教育部提出要推動云計(jì)算和大數(shù)據(jù)等新興技術(shù)在學(xué)校教育中的應(yīng)用,大力建設(shè)教育現(xiàn)代化。關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”的應(yīng)用,國務(wù)院的指導(dǎo)意見標(biāo)志著新的科技革命走向當(dāng)今的舞臺[2]。因此,開發(fā)云計(jì)算架構(gòu)的基于語音識別的智慧教室管理系統(tǒng)是必要的。智慧校園是綜合性的系統(tǒng),牽連到云計(jì)算、校園網(wǎng)、大數(shù)據(jù)和遠(yuǎn)程控制等多領(lǐng)域的技術(shù),因此,只有經(jīng)過充分的整合和協(xié)同工作,才能更好地服務(wù)于廣大師生[3]。智慧校園實(shí)現(xiàn)的基礎(chǔ)是物聯(lián)網(wǎng),依賴眾多應(yīng)用服務(wù)系統(tǒng),融合教學(xué)管理、學(xué)術(shù)研究和師生校園生活,最終構(gòu)造工作、學(xué)習(xí)和生活一體化、智慧化的校園環(huán)境。智慧教室是建設(shè)智慧校園中最重要的部分,是高校實(shí)現(xiàn)信息化戰(zhàn)略目標(biāo)的重點(diǎn)工作。目前,大部分學(xué)校都已具備校園網(wǎng)的基礎(chǔ),特別是一些高校,在學(xué)校信息化建設(shè)中經(jīng)多次的新建、升級、改造,校園網(wǎng)已相當(dāng)成熟,這為實(shí)現(xiàn)智慧教室奠定了良好基礎(chǔ)。從現(xiàn)代化技術(shù)手段人手,利用現(xiàn)有的校園網(wǎng)絡(luò),通過云計(jì)算結(jié)合本地定制的語音庫,設(shè)計(jì)一套智慧教室管理系統(tǒng)是可行的。
1 技術(shù)原理
語音識別研究對象是語音,首先對語音信號進(jìn)行處理,通過模式識別計(jì)算機(jī)能夠自動識別和理解人聲[4]。云計(jì)算和大數(shù)據(jù)的結(jié)合與共同發(fā)展,一定程度上促進(jìn)了語音識別技術(shù)的進(jìn)步。深度學(xué)習(xí)框架在云端的部署可以增強(qiáng)云計(jì)算的能力,因此深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算三者的相互促進(jìn),大大提高和增強(qiáng)了語音識別模型對復(fù)雜數(shù)據(jù)的挖掘和學(xué)習(xí)能力[5]。語音識別系統(tǒng)主要分為三種:嵌入式的語音識別系統(tǒng)、服務(wù)器模式的語音識別系統(tǒng)及云計(jì)算模式的語音識別系統(tǒng)[6]。根據(jù)學(xué)校的特點(diǎn),智慧教室管理系統(tǒng)的人機(jī)交互模塊基于語音識別技術(shù),而基于云模式的語音識別這一塊還不夠成熟,服務(wù)商提供的可定制語音識別服務(wù)還處于初級水平,所以本系統(tǒng)的語音識別模塊要分成兩個部分:語音云和本地語音庫。語音云負(fù)責(zé)日常聊天功能,自主開發(fā)的本地語音庫負(fù)責(zé)多媒體設(shè)備控制指令的識別。本地語音庫可以通過定制,提供針對教室中多媒體設(shè)備控制的語音識別服務(wù),專注于這些設(shè)備控制的減少了識別范圍,實(shí)現(xiàn)更高的識別率。本地語音庫的實(shí)現(xiàn)需要下載和安裝微軟SpeechRecognition庫,語音識別的引擎由Windows自帶的語音識別引擎驅(qū)動,可實(shí)現(xiàn)隨時接受用戶發(fā)出的指令[7]。
1.1云計(jì)算
云計(jì)算是虛擬化的資源,該計(jì)算方式通過互聯(lián)網(wǎng)動態(tài)地提供服務(wù)擴(kuò)展,是一種按使用量付費(fèi)的模式,提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問。云計(jì)算是未來發(fā)展的重要研究領(lǐng)域,在應(yīng)用上它對客戶端的設(shè)備要求很低,設(shè)備之間由于使用的資源來自云,所以自身無須太高的配置,只要網(wǎng)絡(luò)流暢,就能實(shí)現(xiàn)數(shù)據(jù)與應(yīng)用共享[8]。目前,云計(jì)算和語音識別技術(shù)已經(jīng)成為教育行業(yè)新興的教學(xué)方法[9],云架構(gòu)的智慧教室管理系統(tǒng)中語音識別模塊可以應(yīng)對用戶的多種請求,可以利用云數(shù)據(jù)的量大的優(yōu)勢來提高語音識別系統(tǒng)的性能。語音云采用云計(jì)算的方式實(shí)現(xiàn)快速的語音應(yīng)用,本系統(tǒng)中主要是識別人聲。云模式的語音識別和交互服務(wù)是未來研究與應(yīng)用的新方向,這方面,科大訊飛、阿里云、百度、騰訊云等的技術(shù)處于國內(nèi)領(lǐng)先地位。
1.2語音識別
聲音識別技術(shù)主要分為兩類,即聲音的意義識別和聲音的相似性識別。聲音的意義識別是通過對人聲進(jìn)行分析,從中找到發(fā)音的特征,將人聲轉(zhuǎn)變?yōu)槲淖?,通常用于快速輸入信息、人工智能、人和?jì)算機(jī)通過聲音交流等領(lǐng)域。聲音的相似性識別是對比要識別的目標(biāo)聲音對象和聲音樣本,檢驗(yàn)?zāi)繕?biāo)聲音和樣本的相似度能否達(dá)到要求[10]。語音識別處理過程上,計(jì)算機(jī)與人基本上是相似的。完整的語音識別系統(tǒng)一般分為三個部分,即語音去噪音預(yù)處理與提取語音的特征、聲學(xué)模型與模式匹配、語言模型與語言處理。是在嘈雜的環(huán)境,由于實(shí)際環(huán)境的復(fù)雜性,降噪處理具有很大的現(xiàn)實(shí)意義。為了提高語音消噪的水平,提高語音識別系統(tǒng)的準(zhǔn)確度,小波去噪技術(shù)常應(yīng)用于語音識別[11]。語音識別的流程如圖1所示。
2 系統(tǒng)設(shè)計(jì)
目前,語音云在通用領(lǐng)域的應(yīng)用是很廣泛的,擁有海量的用戶語音數(shù)據(jù),語音識別準(zhǔn)確度相對高。但在教育領(lǐng)域,學(xué)校智慧教室多媒體設(shè)備控制方面,需要識別的指令是比較固定的,因此可以定制本地語音庫,滿足用戶個性化需求,彌補(bǔ)語音云搜索范圍太廣導(dǎo)致識別速度慢、嚴(yán)重依賴網(wǎng)絡(luò)、多環(huán)節(jié)泄密、風(fēng)險集中和用戶對數(shù)據(jù)和技術(shù)的掌控靈活度下降等不足。
2.1系統(tǒng)結(jié)構(gòu)
云計(jì)算架構(gòu)的基于語音識別的智慧教室管理系統(tǒng)總體結(jié)構(gòu)如圖2所示。
2.2 系統(tǒng)工作流程
智慧教室的電腦按設(shè)定時間自動開機(jī),管理系統(tǒng)客戶端也隨之啟動。首先,軟件加載登錄的基礎(chǔ)語法包,初始化登錄語音識別引擎,初始化界面,等待用戶登錄;然后,登錄成功后,等待用戶的語音指令;教師用戶發(fā)出正確的語音登錄指令后,系統(tǒng)開始判斷,如果是控制多媒體設(shè)備的指令,則連接本地語音庫,識別后通過中控串口控制設(shè)備,如果是屬于普通聊天的語音對話類,則連接語音云,識別后查找答案,通過聲音或文本反饋給用戶。系統(tǒng)工作的流程圖如圖3所示。
3 實(shí)踐應(yīng)用
3.1 阿里云的應(yīng)用
師生與機(jī)器實(shí)現(xiàn)人機(jī)互動,涉及人聲識別,需要連接語音云。目前,科大訊飛的語音識別接口不是免費(fèi)的,騰訊云的語音識別申請和審批過程比較漫長,手續(xù)煩瑣,最后比較了一下阿里和百度的語音云,相對來說阿里云的易用一些,于是使用了阿里云語音識別的SDK。此外,常用的語音識別模塊FreeSWITCH,優(yōu)點(diǎn)就是開源、跨平臺、伸縮性和多協(xié)議等,它基于阿里云,使用方便,因此深受二次開發(fā)者青睞。它的主要開發(fā)語言是C,某些模塊中使用了C++,支持SIP、H323、Skype、Google Talk等多種通信協(xié)議。阿里云語音服務(wù)SDK源碼在Github開源平臺可以找到,在開發(fā)中使用CommonRequest方式直接調(diào)用SDK的核心庫非常方便。此功能實(shí)現(xiàn)的流程為:首先將收集到的用戶語音數(shù)據(jù)發(fā)送至后臺,然后后臺會把接收到的語音輸入流發(fā)送到阿里云服務(wù)器端,由服務(wù)器端將語音轉(zhuǎn)換成文字,最后將處理后的語音數(shù)據(jù)流返回到前臺。
3.2 本地語音庫的應(yīng)用
Microsoft Speech SDK是微軟公司推出的開發(fā)Windows平臺上的語音應(yīng)用程序和語音引擎的工具包,程序員在語音處理的應(yīng)用程序編程時用到的接口多是來自于該工具包。其中包含了語音識別的各種組件[12]。使用微軟的語音識別開發(fā)工具包進(jìn)行二次開發(fā)的實(shí)例很多,這里參考了其他研究的方法和思路[13]。為了引用SDK提供的COM組件,以VisuaIStudio.NET開發(fā)平臺為例,在菜單選擇工程l添加引用,然后點(diǎn)擊COM標(biāo)簽,選擇Microsoft Speech Object Library,即可完成對該組件的引用。使用C#.NET進(jìn)行語音識別模塊開發(fā)時主要用到三個API:ISpRecognizer接口負(fù)責(zé)與底層的RecognitionEngine交互,是語音識別引擎接口;ISpRecoContex接口負(fù)責(zé)發(fā)送和接收消息,是完成識別任務(wù)的主要接口;ISpRecoGramma接口負(fù)責(zé)創(chuàng)建、載人和激活的語法規(guī)則,是語法器接口。Microsoft Speech SDK軟件開發(fā)包提供了語音識別的組件,而.NET平臺為調(diào)用封裝好的COM組件非常方便。系統(tǒng)的開發(fā)使用了C#語言,它與.NET平臺與生俱來的良好結(jié)合簡化了語音識別應(yīng)用程序的開發(fā)。開發(fā)中還要注意,因?yàn)橄螺d的SDK只支持英語,而師生多是通過中文實(shí)現(xiàn)人機(jī)交流的,所以還要下載并安裝SDK語言包SpeechSDK5ILangPack。
3.3 串口控制
目前市面上的多媒體設(shè)備中央集中控制系統(tǒng)(簡稱中控)越來越先進(jìn),其中有些智慧教室產(chǎn)品是為滿足信息化教學(xué)的需求而設(shè)計(jì),它們將廣播級產(chǎn)品技術(shù)應(yīng)用于校園,引領(lǐng)了智慧教學(xué)新潮流。但是由于各個學(xué)校的多媒體設(shè)備或多或少都有不同,中控就可能無法控制部分多媒體設(shè)備,所以有必要去進(jìn)行二次開發(fā)適合本校實(shí)際的、具有學(xué)校自身特點(diǎn)的模塊。
大多數(shù)計(jì)算機(jī)和多媒體設(shè)備都有RS-232接口,如果沒有也可以通過“USB to RS-232”數(shù)據(jù)線把USB口轉(zhuǎn)換為RS-232接口,然后,某些中控?zé)o法直接控制的多媒體設(shè)備,可通過設(shè)備串口用網(wǎng)線直接連接到計(jì)算機(jī),由計(jì)算機(jī)來直接控制。串口通信的優(yōu)勢在于可遠(yuǎn)距離傳輸數(shù)據(jù),使用普通網(wǎng)線焊接則成本低,帶寬也完全能達(dá)到要求,還可自定義傳輸?shù)膮f(xié)議,數(shù)據(jù)傳輸比較可靠[14]。RS-232接口有九個針腳,其中針腳2用于接收數(shù)據(jù),針腳3用于發(fā)送數(shù)據(jù),針腳5為信號地。9針串口只用其中第二、第三和第五三個針腳來發(fā)送和接收數(shù)據(jù),即一端按串口三針腳順序焊接網(wǎng)線,另外一端把第二和第三針腳對調(diào)一下,第五針腳不變,焊接網(wǎng)線。最后制作出來的交叉線如圖4所示。
4 結(jié)語
高校信息化進(jìn)入智慧校園階段,而教室是教學(xué)的主陣地,智慧教室的構(gòu)建是未來發(fā)展的大趨勢。經(jīng)過完善和優(yōu)化數(shù)字化校園建設(shè)、堅(jiān)持以服務(wù)為主線構(gòu)建智慧校園,讓師生享受到學(xué)校的信息化服務(wù)帶來的便捷效果是學(xué)校信息中心的首要任務(wù)。智慧教室實(shí)現(xiàn)了主動學(xué)習(xí),視聽設(shè)備智能化和人性化,把Internet和校園網(wǎng)的信息服務(wù)應(yīng)用于教學(xué)領(lǐng)域。在人機(jī)互動上,以云的方式結(jié)合本地語音庫進(jìn)行語音識別,自主開發(fā)管理系統(tǒng),可節(jié)省財(cái)力、物力,增強(qiáng)學(xué)校資料信息的安全性,系統(tǒng)將來升級和優(yōu)化的靈活性較高,也能提高學(xué)??蒲袌F(tuán)隊(duì)的開發(fā)與實(shí)踐應(yīng)用能力。目前,人臉識別作為圖像分析與處理領(lǐng)域成功的應(yīng)用之一,逐漸融人人們生活,那么智慧校園和智慧教室的建設(shè),除了改善語音識別的精度,將來還應(yīng)研究人臉識別技術(shù)在這方面的應(yīng)用,讓人工智能技術(shù)給人們生活的各個方面帶來更大的便捷。
參考文獻(xiàn):
[1]肖紅,韓紅幫,申時凱,高校智慧教室的設(shè)計(jì)與研究[J].電腦知識與技術(shù),2019,15(13):134-135.
[2]鄧嘉明,葉忠文,王榮華.以數(shù)據(jù)聚合為核心的高校智慧校園體系建設(shè)[J].現(xiàn)代電子技術(shù),2019,42(3):134-138.
[3]蔣東興,付小龍,袁芳,等,大數(shù)據(jù)背景下的高校智慧校園建設(shè) 探討[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(S1): 119-125,131.
[4]楊海峰,張德祥.模式識別理論和技術(shù)在語音識別研究中的應(yīng)用[J].合肥學(xué)院學(xué)報(bào)f自然科學(xué)版),2009,19(1):20-23.
[5]王海坤,潘嘉,劉聰.語音識別技術(shù)的研究進(jìn)展與展望[J].電信科學(xué),2018,34(2):1-11.
[6]張巍,賈玉輝,張志楠.一種語音識別的可定制云計(jì)算方法[J].中國海洋大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,44(1):112-117.
[7]郭海智,楊大全,郭亮.基于云計(jì)算和語音識別的控制系統(tǒng)[J].電腦與電信,2016(21):84-86.
[8] Jiao F,Huang T W.Research on development and applicationof remote control system for multimedia classroom based oncloud computing[J]. Education and Information Technologies,2019,24(2):1603-1613.
[9] Jiang N,Qiu M K,Dai W Y.SROC:a speaker recognition withdata decision level fusion method in cloud envlronment[J].Jour-nal of Signal Processing Systems,2017,86(2/3):123-133.
[10]郭利剛,趙凡,聲音匹配識別算法的研究與實(shí)踐[J].中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,14(1):20-25.
[11] Zhong X M,Dai Y Z,Dai Y,et aI.Study on processing of wave-let speech denoising in speech recognition system[J].lnterna-tional Journal of Speech Technology,2018,21(3):563-569.
[12]白林如,紀(jì)浩哲,基于C#語言的Microsoft Speech SDK應(yīng)用[J].電腦開發(fā)與應(yīng)用,2013,26(9):54-56,59.
[13]劉歡,基于微軟語音引擎的語音識別設(shè)計(jì)[J].電腦知識與技術(shù),2017,13(20):178-179,185.
[14]周陽,周美嬌,黃波,等.基于C#的串口通信系統(tǒng)的研究與設(shè)計(jì)[J]電子測量技術(shù),2015,38(7):135-140.
【通聯(lián)編輯:唐一東】
作者簡介:劉文開(1989-),男,廣東茂名人,助理實(shí)驗(yàn)師,主要從事數(shù)字化校園建設(shè)的研究;伍俊謙(1983-),男,廣東云浮人,助理實(shí)驗(yàn)師,主要從網(wǎng)絡(luò)工程的研究;通訊作者:焦飛(1980-),男,河南虞城人,高級實(shí)驗(yàn)師,碩士,主要研究領(lǐng)域?yàn)樵朴?jì)算、數(shù)據(jù)挖掘。