郭徐東 朱偉杰 王雪梅
[摘? ? ? ? ? ?要]? 為了方便手機(jī)用戶智能識(shí)別語音,快捷體驗(yàn)音樂,運(yùn)用科大訊飛先進(jìn)的語音識(shí)別技術(shù),可以識(shí)別用戶“哼”和“唱”,通過Webview方式展現(xiàn)匹配的歌曲列表,供用戶選擇播放,識(shí)別過程中幾乎不受周圍冗雜環(huán)境的影響,提升用戶體驗(yàn)感以及識(shí)別效率、準(zhǔn)確率。系統(tǒng)還可以自由切換用戶識(shí)別引擎,可以導(dǎo)入APP中一段音頻來識(shí)別,甚至可以識(shí)別生活中遇到的各種聲音,并顯示在手機(jī)屏幕上,APP讓我們的生活更智能,更便捷。
[關(guān)? ? 鍵? ?詞]? 智能語音;語音識(shí)別;Webview
[中圖分類號(hào)]? TB51+8? ? ? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? ?[文章編號(hào)]? 2096-0603(2019)31-0056-02
人們可以通過很多方式來感受音樂,音樂播放器是最便捷、最實(shí)用的一種。傳統(tǒng)的音樂播放器通過兩種方式實(shí)現(xiàn)控制:一是按鍵控制,二是無線藍(lán)牙控制,這兩種方式對手不空閑或者是疲憊、殘疾等特殊人群是不方便的,為了減少手動(dòng)操作,發(fā)明了語音控制,但也帶來新的問題。
示例場景:你走在大街上,聽到一陣熟悉的音樂,想知道歌曲名字,因此出現(xiàn)了隨時(shí)隨地識(shí)別音樂的軟件。
本系統(tǒng)就是為了方便用戶識(shí)別音樂,提供的一款完整、高效、快捷的移動(dòng)端軟件。
一、研究意義
最早的智能語音出現(xiàn)在20世紀(jì)90年代末,市場有搭載語音識(shí)別功能的手機(jī),那時(shí)的語音識(shí)別是通訊功能的一個(gè)附加選項(xiàng),而現(xiàn)在語音技術(shù)已脫離通訊功能獨(dú)立存在,語音不僅可以幫人撥打電話、發(fā)送短信,還可以用來遙控手機(jī)或者控制其他機(jī)器進(jìn)行拍照或播放音樂,甚至運(yùn)用于汽車行業(yè)。
有些場景有必要用語音來完成,如開車時(shí)突然有電話要接聽,正在炒菜時(shí)想回復(fù)一條短信,在這兩個(gè)虛擬場景中,如果使用手指來操作手機(jī),顯然不夠方便,甚至?xí)形kU(xiǎn),而采用語音來完成這些功能,比較方便和安全。智能語音的出現(xiàn),更促進(jìn)了人們對聲音技術(shù)的追求。
我國語音識(shí)別研究工作起步于20世紀(jì)50年代,雖然起步比較晚,但由于國家重視,近年來發(fā)展速度也很快,緊跟國際步伐。中國地大物博,人口眾多,因而有龐大的消費(fèi)市場。國外對中國的語音識(shí)別技術(shù)也很關(guān)注,由于漢語復(fù)雜,對語音識(shí)別的技術(shù)研究更具有挑戰(zhàn)性,到目前為止,國內(nèi)的語音識(shí)別還是商業(yè)應(yīng)用,在各個(gè)銀行已經(jīng)逐漸實(shí)現(xiàn)了智能語音技術(shù)的廣泛應(yīng)用,有自動(dòng)取款機(jī)、自主辦卡等業(yè)務(wù),在醫(yī)院、家庭等場所還沒有普及,因此需要加快推廣步伐。
現(xiàn)如今,許多用戶已經(jīng)在手機(jī)上享受到了語音識(shí)別技術(shù)的方便,比如智能手機(jī)操作典型的例子就是小米手機(jī)中的小愛同學(xué),已經(jīng)實(shí)現(xiàn)了智能語音交互,但是這與真正的人機(jī)交流還有很遙遠(yuǎn)的距離。
二、系統(tǒng)設(shè)計(jì)
智能語音APP基于IOS平臺(tái),采用MVC框架、Webview、單例傳值、對象模型、代理等技術(shù)。系統(tǒng)有三個(gè)界面:登錄界面、語音識(shí)別界面、設(shè)置界面,系統(tǒng)功能結(jié)構(gòu)如圖1所示。
(一)登錄界面
登錄界面主要是負(fù)責(zé)用戶登錄,可以通過第三方軟件登錄,如QQ、微信,也可以短信驗(yàn)證登錄。
管理員使用另外的界面登錄,登錄后可以進(jìn)行各種系統(tǒng)設(shè)置操作。
(二)語音識(shí)別界面
語音識(shí)別界面主要是利用各種引擎來識(shí)別語音,分為語音識(shí)別、哼歌識(shí)曲和唱歌識(shí)曲,調(diào)用不同的接口,判斷用戶的音頻特征。語音識(shí)別界面如圖2所示。
用戶登錄該軟件之后,跳轉(zhuǎn)到用戶識(shí)別界面,點(diǎn)擊開始按鈕可以開始識(shí)別自己的語音。其主要的工作原理是啟動(dòng)麥克風(fēng)設(shè)備,收集用戶音頻,將音頻壓縮成指定的rmvb格式上傳到云端,通過云端返回的json字符串,解析識(shí)別歌曲相似度、歌手、歌曲名等信息,解析字符串中可能會(huì)出現(xiàn)曲名相同,但是由不同歌手演唱的歌曲,再通過json字符串轉(zhuǎn)化為我們所需要的數(shù)據(jù),通過model傳輸將數(shù)據(jù)顯示在自定義cell中,用戶可以通過點(diǎn)擊相對應(yīng)的歌曲名,引用Webview的方式來播放歌曲,操作流程圖如圖3所示。
(三)設(shè)置界面
設(shè)置界面可以設(shè)置用戶信息、設(shè)置引擎、識(shí)別記錄、軟件分享、軟件評(píng)價(jià)、信息反饋、軟件介紹等。
“設(shè)置引擎”功能可以方便用戶設(shè)置語音識(shí)別引擎,以便識(shí)別不同的語音進(jìn)行判斷。軟件自動(dòng)獲取的是AUTO接口,即自動(dòng)判斷音頻的格式,而用戶可以選擇afs接口,即哼唱選項(xiàng),也可以選擇原生接口,即調(diào)用aas接口。
為了軟件的推廣以及完善,設(shè)置了“軟件分享”和“信息反饋”功能,用戶可以通過微信或QQ進(jìn)行分享,用戶點(diǎn)擊時(shí)會(huì)跳轉(zhuǎn)到APP Store進(jìn)行下載;若用戶發(fā)現(xiàn)軟件有不足之處,可以通過“信息反饋”功能,進(jìn)行反饋,以便公司完善軟件。
在管理界面通過第三方MOB,管理員還可以觀看軟件下載量和下載次數(shù)以及某個(gè)軟件界面的瀏覽次數(shù)等信息,便于觀察用戶的使用狀況,更加方便地管理軟件。
三、結(jié)語
語音交互已經(jīng)成為人工智能領(lǐng)域最成熟,也是落地最快的技
術(shù)。尤其是深度學(xué)習(xí)的興起,讓語音識(shí)別、語音合成以及自然語言處理的發(fā)展速度提升到了一個(gè)新的高度。
智能語音應(yīng)用前景廣闊,這是人機(jī)交互的一大特點(diǎn),而音樂播放器中的語音識(shí)別更是與人們的生活密不可分,識(shí)別的正確率、效率尤為重要,因此,軟件要以用戶的體驗(yàn)為前提。語音識(shí)別技術(shù)發(fā)展到今天,已經(jīng)能夠識(shí)別中小詞匯和很多方言,識(shí)別精度也越來越高,未來語音識(shí)別產(chǎn)品的前景以及市場會(huì)更加廣闊。
但是,目前計(jì)算機(jī)對用戶語音的識(shí)別度還不是非常理想,人機(jī)交互中還存在一些問題,語音識(shí)別技術(shù)還有很長的一段路要走,必須要取得突破性的發(fā)展,才能更好地應(yīng)用于商業(yè),這也是未來語音識(shí)別技術(shù)的發(fā)展方向以及努力目標(biāo)。
參考文獻(xiàn):
[1]齊立波,黃俊偉.C#入門經(jīng)典(第七版)[M].北京:清華大學(xué)出版社,2016.
[2]JohnAlbritton,Albritton,京京工作室.Cisco IOS技術(shù)基礎(chǔ)[M].北京:機(jī)械工業(yè)出版社,1999.
[3]許學(xué),孟利民.基于ios的音視頻監(jiān)控軟件的設(shè)計(jì)與實(shí)現(xiàn)[J].電聲技術(shù),2014,38(4):74-78.
[4]北鼻.iOS開發(fā)者成長之路:入門準(zhǔn)備篇[J].計(jì)算機(jī)應(yīng)用文摘,2013(3).
[5]JohnRay.Ipad開發(fā)入門經(jīng)典[M].北京:人民郵電出版社,2011.
[6]曾源.iOS編程實(shí)戰(zhàn)寶典[M].北京:清華大學(xué)出版社,2014.
[7]吳海勇.基于單個(gè)項(xiàng)目的《iOS應(yīng)用編程》課程教學(xué)[J].軟件導(dǎo)刊(教育技術(shù)),2017(12):30-31.
[8]胡輝.IOS環(huán)境下使用MVC模式進(jìn)行APP開發(fā)的設(shè)計(jì)思路探索[J].數(shù)字技術(shù)與應(yīng)用,2015(6):204.
[9]ShawnWelch,韋爾奇,郭華豐.iOS App界面設(shè)計(jì)創(chuàng)意與實(shí)踐[M].北京:人民郵電出版社,2013.
[10]吳寧.iOS APP開發(fā)安全框架設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2015.
[11]劉哲.基于IOS系統(tǒng)的app開發(fā):圖書閱讀助手[D].濟(jì)南:山東大學(xué),2014.
[12]達(dá)爾林普爾.Objective-C基礎(chǔ)教程[M].北京:人民郵電出版社,2009.
[13]杜艷美.基于web前端的性能優(yōu)化框架模型研究[D].綿陽:西南科技大學(xué),2018.
編輯 武生智