張 亮
(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院泰興分院(江蘇省泰興中等專業(yè)學(xué)校),江蘇 泰州 225400)
人機(jī)交互領(lǐng)域,尤其是基于語音的交互領(lǐng)域,是一個(gè)新興的領(lǐng)域,幾乎每天都在不斷發(fā)展。目前,語音和教學(xué)資源的交互正在從多個(gè)方向融合。
隨著語音控制系統(tǒng)的加入,智能手機(jī)、平板電腦和電視等以屏幕為先的設(shè)備功能正在得到增強(qiáng)。目前語音交互主要用在個(gè)人和家庭使用領(lǐng)域,未來也將在教育中得到應(yīng)用。通過利用交互方式的優(yōu)勢,真正集成的語音加屏幕系統(tǒng)可以改變教師和學(xué)生的體驗(yàn)[1]。
語音是一種高效的輸入方式,它允許用戶根據(jù)自己的條件快速向系統(tǒng)發(fā)出命令。交互教學(xué)是一種高效的教學(xué)輸出方式,它允許系統(tǒng)同時(shí)顯示大量信息,通過體驗(yàn)加強(qiáng)認(rèn)知,減少用戶記憶負(fù)擔(dān)。從邏輯上講,將語音和交互組合成一個(gè)系統(tǒng)將會提升教育教學(xué)優(yōu)勢,發(fā)揮教學(xué)資源的特色[2]。
文本到語音的合成以自然和人性化的方式自定義用戶交互,使用語音合成技術(shù),實(shí)時(shí)將任何文本轉(zhuǎn)換為語音。在此應(yīng)用方式中,只需將文本內(nèi)容(即相應(yīng)教學(xué)資源文字)嵌入功能程序模塊,軟件通過語音合成軟件進(jìn)行識讀,與傳統(tǒng)配音不同的是,傳統(tǒng)配音一般采用人工配音,而現(xiàn)在是機(jī)器通過編程軟件進(jìn)行配音,配音的方式由軟件提供。
從語音到語音交互識別是允許人與使用實(shí)時(shí)語音識別的任何系統(tǒng)之間進(jìn)行對話的最新技術(shù)。這種交互方式簡單、靈活、有趣,其語音交互質(zhì)量取決于語音數(shù)據(jù)庫建設(shè)及交互中說話人的語音質(zhì)量。如果交互中說話人的語音不標(biāo)準(zhǔn),會產(chǎn)生與預(yù)料結(jié)果不一致的效果,同時(shí),如果語音數(shù)據(jù)庫不強(qiáng)大,其語音交互質(zhì)量和結(jié)果也會不盡如人意。
從語音到文本的語音轉(zhuǎn)錄是將兩個(gè)或更多人之間的對話音頻轉(zhuǎn)換為格式化文本,并使用語音和說話人識別技術(shù)按時(shí)間順序分隔短語。這種應(yīng)用,首先是將說話人的說話內(nèi)容進(jìn)行錄音,再進(jìn)行語音識別,最后產(chǎn)生文本內(nèi)容。這種應(yīng)用比較適用于會議記錄,但其質(zhì)量也取決于說話人的說話質(zhì)量和軟件的識別技術(shù)質(zhì)量。
從語音到用戶身份認(rèn)證識別是一種智能認(rèn)證技術(shù),它允許用戶基于語音和面部生物特征進(jìn)行身份驗(yàn)證,它是一種最簡單、最有效的身份驗(yàn)證形式,以自然、安全、快速和靈活的方式執(zhí)行。這種技術(shù)主要是通過識別操作者的語音特征,從而實(shí)施下一步操作。在教學(xué)資源建設(shè)中,有助于快速認(rèn)證及打開軟件。
從特定代碼語音實(shí)現(xiàn)語音喚醒,就是在系統(tǒng)軟件中內(nèi)置語音喚醒特定代碼,任何操作者都可以通過此特定代碼打開軟件。如前面所述,屏幕的打開,就可以采用特定代碼語音交互識別技術(shù)。這種技術(shù)與用戶身份認(rèn)證語音識別不同,語音身份識別需區(qū)分語音的吻合度,而特定代碼只要操作者語音文字與特定代碼一致即可打開。
從語音朗讀到即時(shí)翻譯是在語音識別、語音錄音、語音文字技術(shù)后,通過內(nèi)置翻譯軟件,對所述語音文字進(jìn)行翻譯。這是語音技術(shù)的拓展應(yīng)用,在教學(xué)資源建設(shè)中,可以適當(dāng)應(yīng)用。
語音交互教學(xué)資源的開發(fā)基礎(chǔ)主要指語音交互開發(fā)的軟件、實(shí)施語音交互的載體、交互語音集成系統(tǒng)及開發(fā)者。從人工智能及交互技術(shù)的發(fā)展來看,手機(jī)是最適宜的載體;而語音交互開發(fā)軟件,可以是各類手機(jī)軟件開發(fā)工具;交互語音集成系統(tǒng),可以采用各類大公司語音系統(tǒng),筆者推薦采用百度語音實(shí)施開發(fā);開發(fā)者必須具有較強(qiáng)的手機(jī)軟件編程能力,并熟知百度語音的接口技術(shù)及應(yīng)用技術(shù)。
語音交互教學(xué)資源開發(fā)路徑,從教學(xué)資源設(shè)計(jì)立項(xiàng)開始,進(jìn)而交互語音創(chuàng)意構(gòu)思,實(shí)施屏幕設(shè)計(jì)及功能設(shè)計(jì),最后測試運(yùn)行,安裝使用。例如在視頻配音的教學(xué)資源設(shè)計(jì)中,采用文字轉(zhuǎn)語音的交互語意構(gòu)思,在屏幕設(shè)計(jì)中增加視頻播放區(qū)及文字顯示區(qū),在功能設(shè)計(jì)中,采用后臺百度語音調(diào)用文字發(fā)音,采用計(jì)時(shí)器實(shí)時(shí)控制分段語音播放進(jìn)度,在測試運(yùn)行合格后,安裝使用,推廣輻射。
為方便更多教師開展語音交互教學(xué)資源開發(fā),推薦使用AppInventor軟件,這是一款語音交互教學(xué)資源低代碼構(gòu)建的利器。
在其人工智能模塊中,有百度語音識別、百度語音合成、百度語音喚醒3個(gè)組件(見圖1)。其中百度語音喚醒可使用百度語音開放平臺,實(shí)現(xiàn)語音喚醒。百度語音合成需提供相關(guān)接口參數(shù),如APPID值等,而在合成模式、發(fā)音人等可以多種選擇。在教學(xué)資源構(gòu)建時(shí),可以通過后臺設(shè)置或操作者選擇實(shí)施變更。
圖1 人工智能組件
本例開發(fā),主要功能是通過點(diǎn)擊圖片,進(jìn)行詩歌語音播放,現(xiàn)簡單介紹其開發(fā)方法。先設(shè)計(jì)教學(xué),準(zhǔn)備好素材(圖片、文字);設(shè)計(jì)界面布局,如圖2所示;設(shè)計(jì)編程,本例采用百度語音合成;模擬測試,發(fā)現(xiàn)普通女聲發(fā)音較快,將其速度調(diào)整為3(見圖3),最后打包下載。
圖2 界面設(shè)計(jì)
圖3 百度語音參數(shù)設(shè)置
低代碼編程程序如圖4所示,在代碼編程中,要注意語句的分隔,例如在作者 “李白” 前后分別加上 “.” 號,讓機(jī)器語音識讀時(shí)自動(dòng)語句分隔。
圖4 低代碼編程
本例只是一個(gè)簡單的開發(fā)示例,如需增加其他古詩和圖片,編程設(shè)計(jì)時(shí)更換圖片名稱,詩詞隨同變更的方式,就可以完成一個(gè)教學(xué)資源的設(shè)計(jì)和開發(fā)。簡單構(gòu)建,就是一圖一詩歌,簡單遞增設(shè)計(jì)及編程;相對復(fù)雜設(shè)計(jì)及開發(fā)可采用數(shù)據(jù)庫的方式構(gòu)建,將文字、圖片名稱制作為數(shù)據(jù)庫,編程中需采用文件識讀器等技術(shù),如果采用英語單詞,則會英語發(fā)音[3];可利用網(wǎng)絡(luò)技術(shù),將資源上傳至網(wǎng)絡(luò),直接調(diào)用即可。