余 麗
(渭南職業(yè)技術(shù)學(xué)院基礎(chǔ)課部 渭南 714023)
產(chǎn)出導(dǎo)向理論的前身是“輸出驅(qū)動假設(shè)”和“輸出驅(qū)動的輸入使能假設(shè)”。作為外語教學(xué)的“局部”理論,產(chǎn)出導(dǎo)向理論在“輸出假設(shè)”和語言學(xué)習(xí)的社會文化視角的基礎(chǔ)上,運用了SLA理論的研究成果[1~4]。本文提出了新的基于語料庫的產(chǎn)出驅(qū)動型教學(xué)理念,以提高大學(xué)英語單詞教學(xué)效果。
作為語言學(xué)教學(xué)的補(bǔ)充工具,語料庫可以提供豐富而真實的英語資料,充分保證學(xué)習(xí)者有充足的真實語料輸入,并提供真實的詞匯,幫助學(xué)生積極探索具有重要前提的目標(biāo)詞的深層意義[5]。語料庫可以被廣泛使用的一個重要原因是它可以提供關(guān)聯(lián)搜索。與傳統(tǒng)的英語教學(xué)方法相比,使用語料庫練習(xí)英語的優(yōu)勢在于擺脫了孤立學(xué)習(xí)詞匯的傳統(tǒng)方法。通過使用語料庫提供的關(guān)聯(lián)搜索學(xué)習(xí)單詞搭配和上下文語義,可以節(jié)省花在詞匯深度知識上的學(xué)習(xí)時間,并且可以快速掌握大量的詞匯信息[6~8]。通過對相同語境下同義詞挖掘等手段可以提高學(xué)習(xí)目標(biāo)詞的速度,并為掌握相關(guān)詞匯和詞匯學(xué)習(xí)奠定良好的基礎(chǔ)。從而提高學(xué)生的詞匯知識水平和詞匯應(yīng)用能力。
大學(xué)英語實踐訓(xùn)練必須以英語語境為實際,必須精心運用大量的英語培訓(xùn)教材,在實踐中可以獲得更理想的教學(xué)效果[9]。因此,高質(zhì)量、大規(guī)模、多元化的語料庫對于推動大學(xué)教學(xué)的研究與應(yīng)用具有重要意義。根據(jù)不同的標(biāo)準(zhǔn),語料庫分類也各不相同。原始語料庫采用僅由手動注釋的文本數(shù)據(jù)集的形式。隨著信息能力的提高,研究人員建立了一個大規(guī)模的信息語料庫,通過信息收集和處理大規(guī)模的語料庫數(shù)據(jù),將語料庫的語料從文本格式擴(kuò)展到大學(xué)英語教學(xué)。大規(guī)模的信息語料庫可以廣泛應(yīng)用于大學(xué)英語教學(xué)。隨著現(xiàn)代信息多媒體技術(shù)的發(fā)展,人們對英語活動性質(zhì)的認(rèn)識逐漸增強(qiáng),出現(xiàn)了多語種語料庫。多模式語料庫是音頻、視頻和文本語料庫等信息的集合[10~11]。研究人員可以通過多種方式處理、檢索和統(tǒng)計相關(guān)研究的語料庫。本文從詞匯知識的深度入手,將基于語料庫的數(shù)據(jù)驅(qū)動學(xué)習(xí)方法與大學(xué)英語課堂教學(xué)實踐相結(jié)合,探索如何利用產(chǎn)出導(dǎo)向語料庫方法促進(jìn)大學(xué)生詞匯深度的掌握,激發(fā)大學(xué)生自主學(xué)習(xí)英語的興趣。
大學(xué)英語實踐教學(xué)過程包括五個方面:教學(xué)語料庫文檔預(yù)處理;基于語料庫的詞表掃描;動態(tài)規(guī)劃方法以找到基于詞頻的最大分詞組合;利用隱馬爾可夫模型實現(xiàn)未注冊大學(xué)英語單詞的預(yù)測;以及教學(xué)效果的評估[12~13]。教學(xué)建模過程的具體內(nèi)容如下。
用動態(tài)規(guī)劃方法找出最大概率路徑。根據(jù)已經(jīng)形成的語料庫和要教學(xué)的句子的有向無環(huán)圖(DAG),基于語料庫的教學(xué)模式首先找到語料庫中單詞的不同組合的頻率,然后使用基于詞典的反向最大匹配原理來找到最大概率路徑按照動態(tài)規(guī)劃方法從待教學(xué)的句子的右側(cè)進(jìn)行計算,最后得到分割組合的最大概率。對于大學(xué)英語的教學(xué),句子長度為n,字符串組合為C=C1C2C3Cn,輸出字符串為S=S1S2S3Sm,其中m≤n。對于一個特定的字符串C,將會有與該任務(wù)對應(yīng)的各種分詞程序S,并且應(yīng)該從最大值的S概率中找到教學(xué)結(jié)果,并且這是最有可能的單詞所構(gòu)成的大學(xué)英語教學(xué)句子。
假定每個單詞之間的概率是上下文無關(guān)的,那么S概率是
這里,N是語料庫中單詞的總數(shù)。在求解動態(tài)規(guī)劃的過程中,并未預(yù)先生成所有可能的方案Si,并且具有最大值并且獲得,然后通過回溯方法直接輸出Si。
節(jié)點Ni的最大概率稱為節(jié)點Ni的概率:
其中,英語教學(xué)節(jié)點的末尾是Ni,它被稱為Sj和 Ni前體詞。這里,prev(Ni)是節(jié)點i的緊前詞集。StartNode(Wj)是Wj的起始節(jié)點,也是節(jié)點i的緊前節(jié)點。因此,在JIEBA教學(xué)中,對于n的長度,最后一個單詞是Sm,在教學(xué)英語教學(xué)句子的教學(xué)中,得到 P(Noden)=1:
依此類推,可以得出最大的分割概率P(S)。
通過對大學(xué)英語教學(xué)的分析,處理和分割,以前綴樹為思想構(gòu)建了基于大學(xué)英語教學(xué)的語料庫。前綴樹是一個多樹結(jié)構(gòu),它具有三個基本屬性:1)根節(jié)點不包含任何字符,并且除根節(jié)點外的每個子節(jié)點都包含單個字符。2)從根節(jié)點到其他節(jié)點,連接經(jīng)過該路徑的字符,即該節(jié)點對應(yīng)的字符串。3)每個節(jié)點的所有句子都包含不同的字符。前綴樹的核心思想是使用字符串的公共前綴來減少字符串之間不必要的比較以提高查詢效率。基于前綴樹構(gòu)建字典的優(yōu)點是插入和查詢效率很高,并且都具有O(n)的復(fù)雜度,其中n是要插入或查詢的字符串的長度。同時,前綴樹中的不同關(guān)鍵字不會造成任何沖突,并且前綴樹可以按照字典順序?qū)﹃P(guān)鍵字進(jìn)行排序。
大學(xué)英語語料庫是以前綴樹為代表的關(guān)鍵詞。它突出了大學(xué)英語語料庫的兩個特點。一個是它們具有獨立的中文詞匯的特點,另一個是大學(xué)英語的特點。在語料庫中,大學(xué)英語教學(xué)關(guān)鍵字存儲在路徑中,而不是節(jié)點。另外,如果同一路徑前綴部分的結(jié)構(gòu)中有兩個公共前綴關(guān)鍵字,則是大學(xué)英語教學(xué)語料庫。通過對大學(xué)英語教學(xué)的統(tǒng)計和處理,完成了基于詞頻和詞性的大學(xué)英語教學(xué)語料庫建設(shè),為后續(xù)基于語料庫教學(xué)模式的改進(jìn)提供了有力的數(shù)據(jù)支持。本文認(rèn)為基于前綴樹的字典構(gòu)造方法可以提高插入的效率,并可以刪除和查詢英文字典,因為它可以擴(kuò)展到其他教學(xué)英語字典的建設(shè)項目中。
通過語料庫在大學(xué)英語教學(xué)中的實驗,對英語教學(xué)存在的主要問題進(jìn)行了以下研究:
1)英語教學(xué)利用現(xiàn)有的教學(xué)體系進(jìn)行漢語教學(xué)。一方面,字典的教學(xué)沒有被黃金標(biāo)準(zhǔn)所證實,這帶來了錯誤的教學(xué)問題。另一方面,詞典的數(shù)據(jù)量超過30萬字,對大學(xué)英語教學(xué)沒有多大用處。一些大學(xué)英語培訓(xùn)教學(xué)詞匯和語料庫從未出現(xiàn),后續(xù)預(yù)測效果不好,整體識別效果約為86%。
2)在將該詞典引入產(chǎn)出導(dǎo)向語料庫詞典之后,盡管整體識別效果僅略微提高,但使用詞典模型的教學(xué)時間增加,并且HMM模型具有與預(yù)測未記錄詞相同的效果。
3)通過修改JIEBA的教學(xué)模式,采用基于英語教學(xué)詞典的方法,消除了HMM模型的引入,增加了模型初始化時間,略微提高了整體識別效果。但是,模型訓(xùn)練時間過長,并沒有大學(xué)英語教學(xué)的共性。
針對以上問題,本文提出了一種新的大學(xué)英語教學(xué)方法,這是對JIEBA方法的改進(jìn),是一種基于概率英語模型的詞典教學(xué)方法。對于大學(xué)英語教學(xué)而言,一方面,大學(xué)英語教學(xué)的運行時間和準(zhǔn)確性都優(yōu)于JIEBA大學(xué)英語教學(xué)方法。另一方面,大學(xué)英語教學(xué)方法的實驗證明,運用英語概率統(tǒng)計模型和英語詞典教學(xué)可以提高英語教學(xué)效率的準(zhǔn)確性。因此,它具有大學(xué)英語教學(xué)方法的普及性和普遍性。
本文采用標(biāo)注語料庫和大學(xué)英語培訓(xùn)庫的兩個語料庫數(shù)據(jù)集進(jìn)行培訓(xùn)?;贘IEBA的大學(xué)英語教學(xué)建模過程如圖1所示。
圖1 基于產(chǎn)出導(dǎo)向語料庫與訓(xùn)練語料庫的實踐步驟
基于產(chǎn)出導(dǎo)向語料庫的教學(xué)模式的方法是將英語模型與英語詞典結(jié)合應(yīng)用于大學(xué)英語語料庫教學(xué)。大學(xué)英語教學(xué)建模過程的具體內(nèi)容是,在大學(xué)英語語料庫預(yù)處理教學(xué)時,首先判斷它是否是注冊詞匯。如果是注冊詞匯,則使用大學(xué)英語詞典詞將地圖掃描,并用DAG語句進(jìn)入大學(xué)英語教學(xué),從而實現(xiàn)初步的塊教學(xué)。然后,動態(tài)規(guī)劃方法可以計算塊的部分的最大概率來實現(xiàn)詞典中的教學(xué)。對于未注冊的詞匯,我們使用具有漢語識別能力的HMM模型進(jìn)行預(yù)測。本文認(rèn)為這種教學(xué)模式的方法可以擴(kuò)展到大學(xué)英語其他教學(xué)模式。
本文選擇國際計算語言學(xué)英語處理協(xié)會SIGHAN標(biāo)準(zhǔn)作為教學(xué)效果的評估,并用Perl腳本進(jìn)行測試。SIGHAN標(biāo)準(zhǔn)的三個評估因子包括:準(zhǔn)確率、召回率和F值[14]。
Ccorrec表示所有準(zhǔn)確提取的候選關(guān)鍵字,Cextract表示提取的關(guān)鍵字總數(shù)。Cstandard是所有手動注釋的標(biāo)準(zhǔn)關(guān)鍵字答案總數(shù)。P=Presison表示準(zhǔn)確率,r=Recall表示召回率。
本文的實驗環(huán)境是Windows10和Anaconda平臺,基于產(chǎn)出導(dǎo)向語料庫方法是基于Python語言實現(xiàn)的,并且用該語言實現(xiàn)了不同的教學(xué)對比實驗方法。本文的數(shù)據(jù)包括基于詞典教學(xué)方法、基于閱讀英語詞典的教學(xué)方法、基于產(chǎn)出導(dǎo)向語料庫的字典教學(xué)方法等15種大學(xué)英語教學(xué)方法。表1顯示了四種給定方法的教學(xué)效果。圖2顯示了不同模型的教學(xué)結(jié)果。
表1 不同模式的大學(xué)英語自動教學(xué)效果對比
圖2 大學(xué)英語不同模式的教學(xué)效果
本文的測試程序是選擇8個大學(xué)英語教學(xué)與培訓(xùn)語料庫,并將包含訓(xùn)練語料的訓(xùn)練語料詞典和另外7個語料庫一起作為測試語料庫,并將未注冊詞(OOV)的概率設(shè)定為15.2%。不同方法的測試結(jié)果如圖3所示。
圖3 基于語料庫的大學(xué)英語教學(xué)效果對比
實驗結(jié)果表明,基于產(chǎn)出導(dǎo)向語料庫的方法在大學(xué)英語教學(xué)中的召回率、準(zhǔn)確率、F值或OOV回憶率方面優(yōu)于其他的方法。其中,產(chǎn)出導(dǎo)向語料庫方法的準(zhǔn)確率為93.5%,OOV預(yù)測回憶率為90.7%,模型訓(xùn)練速度為其他方法的十分之一。這說明該方法適用于大學(xué)英語教學(xué)實踐,結(jié)果更加準(zhǔn)確,實驗發(fā)現(xiàn)使用英語模型和詞典可以使英語教學(xué)更加準(zhǔn)確地教學(xué),因此可以擴(kuò)展到其他英語翻譯。
本文研究了基于產(chǎn)出導(dǎo)向語料庫和信息技術(shù)相結(jié)合的大學(xué)英語教學(xué)模式。研究表明,通過基于產(chǎn)出導(dǎo)向語料庫和信息技術(shù)相結(jié)合的教學(xué)方法來提高大學(xué)生的詞匯知識、單詞運用能力、課堂教學(xué)效果和以及單詞的語境意義的理解是有效和可行的。學(xué)生可以通過上下文語境來總結(jié)目標(biāo)單詞的靈活運用?;诋a(chǎn)出導(dǎo)向理論的語料庫和信息技術(shù)相結(jié)合的英語教學(xué)方法優(yōu)于傳統(tǒng)的英語教學(xué)方法。通過問卷調(diào)查表明,面向產(chǎn)出導(dǎo)向的教學(xué)方法有調(diào)動學(xué)生積極的英語學(xué)習(xí)態(tài)度。在大學(xué)英語詞匯教學(xué)中,引入面向產(chǎn)出導(dǎo)向的信息英語培訓(xùn)教學(xué)方法,提高了大學(xué)生的英語學(xué)習(xí)能力和詞匯應(yīng)用水平。同時,他們也將學(xué)生的被動學(xué)習(xí)轉(zhuǎn)變?yōu)橹鲃訉W(xué)習(xí)。在教師激勵的指導(dǎo)下,學(xué)生一目了然地觀察豐富的語料和語境,找到自己對歸納詞匯的用法,探索英語學(xué)習(xí)的規(guī)律,提高大學(xué)生英語學(xué)習(xí)的自主性和積極性。