黃鑫皓,張旭燁,許璟倩,諶鴻淼
(華北理工大學(xué) 人工智能學(xué)院,河北 唐山 063210)
智能交互電子閱讀器可以根據(jù)用戶(hù)的問(wèn)題,通過(guò)語(yǔ)音輸入的方式,快速為用戶(hù)解答問(wèn)題。智能交互電子閱讀器的主要研究?jī)?nèi)容在于語(yǔ)音識(shí)別和語(yǔ)音生成的實(shí)現(xiàn)。基于LCS(Longest Common Subsequence)算法與LSTM(Long Short-Term Memory)算法的精準(zhǔn)答案搜索功能,最后將算法集成到樹(shù)莓派中,構(gòu)建一款智能交互電子閱讀器。
近年來(lái),隨著我國(guó)社會(huì)經(jīng)濟(jì)的迅速發(fā)展,九年義務(wù)制教育的實(shí)施以及實(shí)行擴(kuò)大普通高校本專(zhuān)科院校招生人數(shù)的政策,國(guó)民受教育程度大幅提升。學(xué)習(xí)是世界上唯一一種穩(wěn)賺不賠的投資。在生活中,我們需要在電子書(shū)刊中獲取知識(shí),而電子書(shū)刊中的知識(shí)是海量的,包括不同的專(zhuān)業(yè),不同程度,不同的方向。大多情況下我們只需要一些片段來(lái)解決自己的問(wèn)題,所以在海量知識(shí)中獲取需要的部分是待解決的問(wèn)題。智能閱讀交互技術(shù)可以很好地解決這個(gè)問(wèn)題。說(shuō)話總比打字快,用戶(hù)只需要說(shuō)出自己想要解決的問(wèn)題,智能閱讀交互技術(shù)可以精確,智能的檢索并組合出用戶(hù)所需要的內(nèi)容,而不是像百度和其他搜索引擎一樣一搜一大堆,然后需要用戶(hù)一個(gè)一個(gè)網(wǎng)站找。
(1)更快捷的語(yǔ)音輸入,能夠精確地識(shí)別出用戶(hù)所說(shuō)的話(此系統(tǒng)還可以打字輸入),更能聽(tīng)懂用戶(hù)的需求的語(yǔ)音播報(bào),可以跟用戶(hù)“交流”的語(yǔ)音搜索。
(2)更智能的檢索系統(tǒng),對(duì)用戶(hù)提出的問(wèn)題進(jìn)行更精確的相似度對(duì)比分析,綜合合并出多種解決方案。
(1)語(yǔ)音識(shí)別與語(yǔ)音生成功能
在語(yǔ)音識(shí)別與語(yǔ)音生成方面,目前已有較為成熟的API接口,項(xiàng)目采用百度提供的人工智能API實(shí)現(xiàn)語(yǔ)音識(shí)別功能,采用微軟提供的Win32com庫(kù)實(shí)現(xiàn)語(yǔ)音生成功能。
(2)基于LCS算法與LSTM算法的答案檢索功能
LCS算法的主要思想是分析兩個(gè)不同文本的最大公共字串來(lái)計(jì)算這兩個(gè)文本的語(yǔ)義相似度[1],在智能電子閱讀器的快速搜索模式中,通過(guò)LCS算法計(jì)算用戶(hù)給出的問(wèn)題與文檔中可被使用文本的語(yǔ)義相似度[2],從而選出最優(yōu)答案。相較于LSTM算法,LCS 算法具有更高的效率,但準(zhǔn)確率精度較低。
LSTM算法是深度學(xué)習(xí)領(lǐng)域中最適合處理長(zhǎng)文本序列的一種算法,目前已廣泛應(yīng)用于自然語(yǔ)言處理,在智能電子閱讀器的精準(zhǔn)搜索模式中,通過(guò)LSTM算法可以計(jì)算出用戶(hù)所給出的問(wèn)題與文檔中可被使用文本的語(yǔ)義相似度[3],從而選出最優(yōu)答案[4]。相較于LCS算法,LSTM算法具有更高的準(zhǔn)確率,但速度較慢。
本項(xiàng)目的硬件平臺(tái)采用樹(shù)莓派,并擴(kuò)展了外接LED顯示屏,能夠滿(mǎn)足相應(yīng)功能對(duì)于處理速度的要求;界面設(shè)計(jì)采用了ZLG/GUI圖形用戶(hù)界面[5]。在樹(shù)莓派上成功移植了ZLG/GUI,用于系統(tǒng)所有界面設(shè)計(jì);各傳感器模塊可以直接采購(gòu)和自行設(shè)計(jì)。該項(xiàng)目摒棄了傳統(tǒng)的理念,有效地將樹(shù)莓派、LED顯示屏和深度學(xué)習(xí)算法結(jié)合在一起,大大提高了可行性[6]。并且改項(xiàng)目實(shí)用性比較強(qiáng),可以跟上現(xiàn)在人工智能大數(shù)據(jù)的快速發(fā)展[7]。
另外在語(yǔ)音識(shí)別這一塊,本項(xiàng)目通過(guò)獲取token,把需要識(shí)別的語(yǔ)音信息、語(yǔ)音數(shù)據(jù)、token等發(fā)送給百度的語(yǔ)音識(shí)別服務(wù)器,獲取到對(duì)應(yīng)的文字。因?yàn)榉?wù)器支持REST API,我們可以用任何語(yǔ)言來(lái)實(shí)現(xiàn)客戶(hù)端的代碼,這里我們將采用的是python。
該項(xiàng)目有效地將智能閱讀交互軟件,語(yǔ)音交互系統(tǒng)和樹(shù)莓派結(jié)合在一起,并且包含閱讀文本及語(yǔ)音播放功能,可以使使用者在閱讀過(guò)程中更加方便、迅速地找到自己所不理解部分的答案如果產(chǎn)品投入市場(chǎng),肯定會(huì)受到廣大閱讀人士的喜愛(ài)。其不僅有閱讀的功能,并且大大節(jié)約了查找文獻(xiàn)資料的時(shí)間。使用及攜帶方便,作品大小合適,方便攜帶,在閱讀器的基礎(chǔ)上增加語(yǔ)音查找及語(yǔ)音反饋功能,對(duì)閱讀者帶來(lái)了許多的便利,可以有效地解決諸多問(wèn)題。
智能交互閱讀器實(shí)現(xiàn)了更快捷的語(yǔ)音輸入,能夠精確地識(shí)別出用戶(hù)所說(shuō)的話(此系統(tǒng)還可以打字輸入),更能聽(tīng)懂用戶(hù)的需求的語(yǔ)音播報(bào),可以跟用戶(hù)“交流”的語(yǔ)音搜索。更智能的檢索系統(tǒng),對(duì)用戶(hù)提出的問(wèn)題進(jìn)行更精確的相似度對(duì)比分析,綜合合并出多種解決方案。在日常生活中帶來(lái)了許多便利,方便攜帶,易于查詢(xún)。