閔 捷
(1.人民教育電子音像出版社,北京100081;2.人民教育出版社課程教材研究所,北京100081)
錄音教材是我國教科書體系中的重要組成部分,在國內(nèi)應(yīng)用于教學已有50多年的歷史。在基礎(chǔ)教育領(lǐng)域,錄音教材主要應(yīng)用于英語、語文、音樂等學科。特別在語言類學科中,錄音教材對培養(yǎng)學生的聽、說能力有著不可或缺的作用。
我國的錄音教材從20世紀60年代開始被教育工作者普遍認識和接受,至今已有50多年時間。錄音教材在今天我們所說的教學立體化配套資源中算得上是“古老”的一類。在新中國建立初期,英語等學科的聽力教學只能在少數(shù)幾所大學中開設(shè),由于缺少錄音教材的支持,只能由教師口頭朗讀聽力內(nèi)容進行教學。從60年代開始,隨著電化教育的逐漸發(fā)展和普及,錄音教材作為聽力教學的基礎(chǔ)性課程資源進入課堂,也使得越來越多的學生享受到了優(yōu)質(zhì)的聽力教育。
長期以來,錄音教材始終是促進中小學生提高語言學科聽、說技能的理想課程資源,錄音教材的使用效果也早已被廣大教師實踐和論證過?,F(xiàn)在我們常見的英語錄音教材在語速、音色、背景聲音的選擇上都經(jīng)過了嚴謹?shù)脑O(shè)計。錄音內(nèi)容按照不同學段學生的學習特點以及課程標準的要求實現(xiàn)循序漸進、由易到難的過渡,以促進學生在英語的聽、說、讀、寫技能上的全面發(fā)展。
在進入基礎(chǔ)教育課堂之后的30多年中,從早期單一的盒式錄音帶,到現(xiàn)今各類各樣的數(shù)字化錄音教材,錄音教材并沒有固步自封,而是在發(fā)生著與時俱進的變化。特別是進入21世紀后,教育信息化發(fā)展得到了廣泛的重視,也取得了一系列的重大進展。筆者在多年錄音教材編輯、出版工作的基礎(chǔ)上,對數(shù)字環(huán)境下錄音教材的交互性進行一些研究工作,從交互方式、原理、特征等方面整理了近年來錄音教材的數(shù)字化進展情況。以下筆者嘗試梳理和分析在我國當前教育信息化的大趨勢下,錄音教材交互性發(fā)展的一些典型實例。
從信息傳播的方式和教學應(yīng)用的角度看,傳統(tǒng)的磁帶型錄音教材有教學性、經(jīng)濟性、易用性三個顯著特點。教學性是指錄音教材的內(nèi)容與課程匹配,錄音的語調(diào)、語速等方面符合教學要求;經(jīng)濟性是指磁帶的技術(shù)成熟、磁帶本身和播放工具的價格低廉,能在最廣大范圍內(nèi)被接受;易用性是指磁帶在使用時操作簡單,對環(huán)境的要求很低,在各種環(huán)境下都能穩(wěn)定使用。與上述特點相比,磁帶型錄音教材的交互性則是一個較為薄弱的環(huán)節(jié)。
在教育信息化環(huán)境中,“交互性”一詞通常指用戶(包括教師、學生)與教學系統(tǒng)、課程資源之間的雙向信息傳遞程度。用戶與系統(tǒng)、資源之間的雙向信息傳遞方式越多樣、信息量越豐富,則交互性越強。對早期的磁帶型錄音教材來說,錄音機是最常見的播放工具。用戶與錄音教材之間只能通過機械裝置進行“指令式”交互。這里說的“指令式”交互,是指用戶通過播放工具向錄音教材發(fā)出具有特定功能含義的指令,錄音教材則通過播放工具響應(yīng)用戶指令(見圖1)。常見的指令包括播放、停止、倒退、快進等?;阡浺魴C的機械裝置,用戶想要反復(fù)播放某一段聲音,或者準確定位到某一個聲音內(nèi)容上都是比較困難的,操作時的反復(fù)倒帶也比較浪費時間,對學習效率有一定影響。
圖1用戶與錄音教材之間的“指令式”交互模型
到20世紀90年代,復(fù)讀機的發(fā)明開啟了錄音教材的數(shù)字化。復(fù)讀機是一種現(xiàn)在仍在廣泛使用的、能夠播放盒式錄音帶的新式錄音機。它的特點是能將磁帶中播放的模擬信號音頻暫時轉(zhuǎn)化為數(shù)字信號音頻,并存儲在數(shù)字芯片中,從而實現(xiàn)同聲對比、跟讀、復(fù)讀等人機交互功能,增強了錄音教材使用時的交互功能并使交互更為便捷。
復(fù)讀機的本質(zhì)特點是能將磁帶型錄音教材的聲音信息進行暫時的數(shù)字信號轉(zhuǎn)換,這使得數(shù)字化信息交互方式得以出現(xiàn)。用戶下達的指令不必通過機械裝置傳遞,而是直接發(fā)給臨時的數(shù)字音頻文件。數(shù)字音頻文件執(zhí)行定位、播放等指令都在瞬間完成,因此提高了錄音教材使用效率。復(fù)讀機除了能將錄音教材的聲音暫時存儲為聲音文件外,也可以將用戶的語音用同樣的方式進行存儲,從而實現(xiàn)跟讀、對比等功能。
CD和Mp3是錄音資源全數(shù)字化的典型代表。我們今天所說的CD一般都是指CD-DA(Compact Disc-Digital Audio,即密致激光數(shù)字唱盤)的簡稱。CD形式的錄音資源進入教育,標志著錄音資源的數(shù)字化時代正式開始。CD是較早采用的數(shù)字錄音教材形式。在CD的音頻文件中,聲音信息全部以數(shù)字形態(tài)(二進制)儲存和使用。Mp3則是一種壓縮的聲音文件,與CD相比,Mp3占據(jù)的數(shù)據(jù)空間小得多,而聲音的質(zhì)量從教學應(yīng)用角度看又相對完好,因此在網(wǎng)絡(luò)時代更受到教師、學生的喜愛。
在實現(xiàn)了錄音資源的全數(shù)字化轉(zhuǎn)型后,CD、Mp3等形式的錄音資源都能夠支持時間軸上的精確定位,這使用戶與錄音教材之間的交互更為便捷和精確。此外,數(shù)字形式的錄音資源可根據(jù)課程、教材的內(nèi)容進行拆分,可將整段音頻根據(jù)課程章節(jié)、欄目拆分為單個文件,使交互更為便捷。
盡管進入錄音資源的全數(shù)字化時代后,CD、Mp3等形式的錄音資源在交互性上有了大幅度的進展,但也仍存在不足之處。首先在定位交互方面,錄音資源僅支持基于時間軸的精確定位,但并不支持基于課程內(nèi)容的精確定位。使用者在定位時,只能定位于幾分幾秒,而不能基于內(nèi)容定位于第幾節(jié)第幾段。除非我們把課程內(nèi)容完全“翻譯”為時間信息,即確定每個具有內(nèi)容含義的字、詞或其他聲音的具體時間點,才能夠?qū)崿F(xiàn)基于內(nèi)容的定位交互,但這在實際中很難操作。此外,雖然前面提到了CD、Mp3具有依據(jù)課程內(nèi)容的結(jié)構(gòu)對錄音進行拆分的優(yōu)點,但拆分后的音頻文件之間無法進行有效的信息關(guān)聯(lián),只能采用物理關(guān)聯(lián)或主觀關(guān)聯(lián)。例如,我們可以把屬于同一冊教科書的錄音資源刻制在一張光碟上,或者把屬于同一章節(jié)內(nèi)容的錄音資源文件放在同一文件夾下,類似這樣把相關(guān)錄音資源進行歸類的方式都屬于物理關(guān)聯(lián)和主觀關(guān)聯(lián)。而在信息化發(fā)展過程中,資源之間的信息關(guān)聯(lián)是一種主流趨勢,也是進行復(fù)雜交互的基礎(chǔ)。從這個角度看,CD、Mp3等形式的錄音教材仍有待進一步發(fā)展。
多媒體印刷讀物(英文為Multimedia Print Reader,通常簡稱為MPR,下同)是由動態(tài)聲音壓縮和播放同二維條碼印刷與微距釋讀技術(shù)結(jié)合而制成的新型紙質(zhì)有聲讀物,可與普通紙書刊一樣進行閱讀,在閱讀的同時,用點讀筆指點可發(fā)出相應(yīng)的聲音。
在教育領(lǐng)域,點讀教材是最常見的MPR型課程資源。點讀教材由印有二維隱碼的紙質(zhì)教材、錄音資源和點讀筆三者組成。印有二維隱碼的教材,粗看起來與普通教科書一樣,但仔細觀察則能看見教材的圖、文之中套印有一層淺淺的二維碼。教材中的二維碼采用了隱碼技術(shù),不影響讀者對教材內(nèi)容的閱讀,但卻可以被專用的光學設(shè)備識別。點讀教材的錄音資源是根據(jù)紙質(zhì)教材內(nèi)容錄制并進行碎片化、編碼化處理的音頻文件。點讀筆則是一種筆狀的手持閱讀器,它能夠?qū)滩闹械亩S隱碼進行光學識別,從而播放出二維碼對應(yīng)的錄音資源內(nèi)容。通俗點說,就是把錄音帶“印”在了書上,點讀筆就相當于復(fù)讀機,能夠讀取印在書上的“磁帶”信息。基于這種新技術(shù),錄音資源實現(xiàn)了與紙制印刷讀物的整合。
從交互性角度看,點讀教材最大的特點在于實現(xiàn)了基于課程內(nèi)容的交互。如前文所述,CD、Mp3等形式錄音教材在進行定位、復(fù)讀等交互時,都只能基于時間軸進行,課程內(nèi)容必須轉(zhuǎn)化為時間信息后才能被利用,不夠便利。而在點讀教材中,當用戶想聽課程內(nèi)容中的任何一段聲音時,只需要將點讀教材翻到該頁,通過文字信息進行定位,然后用點讀筆即可播放錄音。從本質(zhì)上說,這是將設(shè)備可讀的錄音文件數(shù)字信息與用戶可讀的文字信息進行了有序關(guān)聯(lián)。當前,實現(xiàn)“技術(shù)與學科教學深度融合”是我國教育信息化重點工作之一,點讀教材基于課程內(nèi)容的交互方式正體現(xiàn)了技術(shù)與教學的融合性。此外,點讀教材還可以對錄音內(nèi)容進行拓展,例如在英語學科中錄制中英翻譯的音頻,通過“翻譯”指令實現(xiàn)課程內(nèi)容的雙語互譯。
點讀教材之所以能夠?qū)崿F(xiàn)基于課程內(nèi)容的交互性,其核心創(chuàng)新點是錄音文件的碎片化和編碼結(jié)構(gòu)化。在點讀教材中,原本長則幾十分鐘、短則三四分鐘的錄音文件通過內(nèi)容語義進行碎片化。例如英語教材中的單詞表,在傳統(tǒng)錄音教材中只能依據(jù)單詞表的次序錄制全部單詞的讀音,較好的Mp3音頻文件也只能做到以教材單元為單位,每單元的單詞錄一段。這是因為在傳統(tǒng)錄音教材中,如果將每個單詞作為一個文件,那么一冊教材總共將有數(shù)百乃至近千個單詞音頻文件。面對如此大量的文件,用戶將無法管理和使用。而在點讀教材中,最小的錄音文件是“一個單詞”。數(shù)百乃至上千個聲音文件通過標準化的MPR編碼規(guī)則進行了統(tǒng)一編碼,并與紙質(zhì)教材內(nèi)容進行有序關(guān)聯(lián)。這就提供了單詞的獨立點讀。讀者可以根據(jù)自己的需要,播放想聽的一個或一些在單詞表中排列不連續(xù)單詞,即無須費心管理和挑選碎片化音頻,也不用把整個單詞表都聽一遍。
縱觀錄音教材的交互性發(fā)展,從磁帶到點讀教材,在數(shù)字化方面已取得重大進展。但筆者認為錄音教材發(fā)展至此,在交互性方面依然存在一些明顯的不足。首先,無論是磁帶、CD還是點讀教材,交互依然停留在“指令式”交互上,無法進行更復(fù)雜的交互方式;其次,上述各類錄音教材都受到載體限制,無法充分利用信息網(wǎng)絡(luò)形成高級交互。筆者認為:盡管像點讀教材這樣的新型錄音教材能夠?qū)ⅰ爸噶钍健苯换グl(fā)揮到極限,但與錄音內(nèi)容相比,交互性只能作為這些錄音教材的附屬功能存在,對推動學習模式變革的影響十分有限。
從技術(shù)角度看,對聲音信息的數(shù)字化解析是制約錄音教材交互性進一步發(fā)展的主要瓶頸。當錄音教材及配套的軟、硬件系統(tǒng)在人工智能方面不夠強大時,就只能“理解”數(shù)量有限的指令信息,而無法直接對變化萬千的用戶語音信息進行有效解析。語音分析系統(tǒng)在教育領(lǐng)域的應(yīng)用,是錄音教材交互性的一次發(fā)展飛躍。語音分析系統(tǒng)將錄音教材的交互性上升為與錄音教材的內(nèi)容同等重要水平。
基于語音識別的錄音教材包括錄音內(nèi)容和語音識別系統(tǒng)兩個核心部分。其中錄音內(nèi)容是錄音教材的基礎(chǔ),既為整套錄音教材提供了基礎(chǔ)性資源,也為語音識別和分析提供基礎(chǔ)依據(jù)。語音識別系統(tǒng)則是錄音教材中的創(chuàng)新關(guān)鍵,能夠使計算機或其他智能數(shù)字終端“聽懂”用戶的語言。這種技術(shù)應(yīng)用于錄音教材后,對錄音教材全面輔助學生的“聽”、“說”學習將有大幅的強化效果。
基于語音識別的錄音教材在進行語音交互時,通常經(jīng)歷五個環(huán)節(jié)。①提取語音特征,從語音波形中提取出隨時間變化的語音特征序列;②匹配聲學模型與模式,將獲取的語音特征通過識別算法找到對應(yīng)的發(fā)音模板;③將輸入的語音特征同聲學模型(聲學模型包括全部發(fā)音模板)進行比較,得到最佳的識別結(jié)果;④依據(jù)語音評價模型,對語音進行評價分析;⑤將分析結(jié)果反饋給用戶。通過這五個環(huán)節(jié)后,系統(tǒng)就完成一次語音交互,能夠把識別、解析、評價后的信息反饋給用戶。反饋信息中可以包括對用戶語音的評價結(jié)果、口語能力的強化和改進方案、標準語音范例等內(nèi)容,最終實現(xiàn)面向用戶口語能力提升的教學過程。
應(yīng)該指出的是,盡管語音識別技術(shù)在近年來有了巨大的進步,相關(guān)的教育、出版機構(gòu)也推出了一些學習輔助產(chǎn)品,但語音識別技術(shù)在教育領(lǐng)域的應(yīng)用仍處于初級階段,當前實現(xiàn)的語音交互也僅僅是基礎(chǔ)層次的語音交互。對教育應(yīng)用來說,一個有效的語音識別系統(tǒng)包括聲音模型、語言模型和評價模型三個核心部分,其中的評價模型是專門面向教育領(lǐng)域口語教學的算法模型。而就目前筆者所見的各種語音識別錄音教材或一般教育產(chǎn)品,都普遍缺少合理有效的口語評價模型。這是未來信息技術(shù)在錄音教材中實現(xiàn)與教育、教學深度融合的一個關(guān)鍵難點,需要進一步研究和突破。
圖2基于語音分析系統(tǒng)的用戶與錄音教材交互模型
在分析了過去幾十年中錄音教材的交互性發(fā)展過程和典型案例后,筆者認為有必要對其發(fā)展過程中的共性進行一些小結(jié)。錄音教材自身的形式和交互的方式隨著技術(shù)的進步發(fā)生了多樣的變化,但作為教材的一個種類,其課程和教學性始終作為基礎(chǔ)屬性存在,并引導著交互性的發(fā)展。
無論是“指令式”交互還是語音交互,最終的目標都是為課程和教學服務(wù)。因此,錄音教材的交互性發(fā)展始終緊隨著課程內(nèi)容和教學需求。“指令式”交互從單純的播放、進、退到復(fù)雜的點讀、翻譯,實際是隨著課程目標進行的逐步升級過程,并能夠越來越多地滿足教學需求。應(yīng)該看到,隨著教育的整體發(fā)展,課程和教學對語言類學科的聽說技能要求不斷提高。以2011版義務(wù)教育英語課程標準為例,和課程標準(實驗稿)相比,新標準中“語言技能”的分級標準對學生在各階段的聽、說技能都提出了更細致要求。面對新要求的提出,錄音教材的交互性發(fā)展則是對這些教育需求的回應(yīng)。
未來的錄音教材可能會在基于行為分析的語言學習交互、基于互聯(lián)網(wǎng)的多元交互和基于語音合成技術(shù)的全語音交互等方面有進一步的進展。錄音教材可能能夠基于學生的學習行為進行精確內(nèi)容推送、聽說輔導,能夠在學生、錄音教材二元交互的基礎(chǔ)上進一步發(fā)展為教師、學生、錄音教材、家長等共同參與的多元交互,可能在語音合成技術(shù)支持下實現(xiàn)錄音教材“學會說話”,并于用戶之間實現(xiàn)全語音交互。
從上世紀末開始,信息技術(shù)的發(fā)展呈現(xiàn)出爆炸的態(tài)勢,許多我們今天看上去不可思議的交互功能都可能在不遠的將來被實現(xiàn)。但筆者認為,無論技術(shù)發(fā)展到什么程度,當我們將技術(shù)應(yīng)用于教育時,都必須重視兩者之間的融合。課程和教學需求永遠是教育中引入技術(shù)的目的,指導著我們采用什么樣的技術(shù)以及如何應(yīng)用技術(shù)。
[1]教基二[2014]8號.中小學教科書選用管理暫行辦法[Z].
[2]武桂香.錄音教材在農(nóng)村中小學英語教學中的作用[J].山西財經(jīng)大學學報,2012(S2).
[3]規(guī)劃編制專家組.《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》解讀[M].北京:人民教育出版社,2013.
[4]段軍.MPR:傳統(tǒng)出版業(yè)的新課題[J].出版發(fā)行研究,2013(8).
[5]劉江華.信息技術(shù)與中職英語口語教學整合模式的研究[D].長春:東北師范大學,2012.
[6]夏祖煃.怎樣培養(yǎng)一年級學生的聽力[J].外語教學與研究,1960(2).
[7]中國出版科學研究所.MPR出版物 第1部分:MPR碼編碼規(guī)則(GB/T 27937.1-2011)[S].中國國家標準化管理委員會,2011.