胡韌奮
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
漢語詞匯測(cè)試自動(dòng)命題研究
胡韌奮
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
為了提升漢語詞匯測(cè)試的命題效率,該文從漢語語言特性和二語教學(xué)需求出發(fā),對(duì)詞語聽力、多空詞語選擇、詞語排序和單空詞語選擇四種詞匯測(cè)試題型進(jìn)行自動(dòng)命題嘗試,以滿足不同語言信息、不同難度的詞匯知識(shí)考查。在詞語特征的提取上,構(gòu)建了一個(gè)覆蓋詞音、詞形、詞義、語法、搭配、偏誤各層次信息的詞匯知識(shí)庫(kù),在句子特征的提取上,實(shí)現(xiàn)了語法項(xiàng)目自動(dòng)識(shí)別、句子難度分析等算法,為自動(dòng)命題中的題干句、目標(biāo)詞和干擾項(xiàng)選擇提供依據(jù)。通過詞句選擇和語塊合成等步驟,生成四種題型共計(jì)7 263道詞匯測(cè)試題。人工測(cè)試數(shù)據(jù)顯示,詞匯測(cè)試自動(dòng)命題的初步嘗試取得了較好的效果,約58%的試題被評(píng)價(jià)為完全合理,經(jīng)人工簡(jiǎn)單調(diào)整,試題接受率達(dá)到75.7%。
二語教學(xué);詞匯測(cè)試;自動(dòng)命題
在語言能力測(cè)試中,詞匯是一項(xiàng)核心考察內(nèi)容。Nation[1]將二語學(xué)習(xí)者需要掌握的詞匯知識(shí)分為八個(gè)方面:(1)詞的口語形式; (2)詞的書寫形式; (3)詞的語法行為; (4)詞的搭配形式; (5)詞的使用頻率; (6)該詞應(yīng)用的文體; (7)詞的意義; (8)詞的語義聯(lián)想網(wǎng)絡(luò)。因而,進(jìn)行科學(xué)合理的詞匯測(cè)試命題,需要對(duì)多維度的語言信息進(jìn)行綜合考慮,并選擇合適的文本作為試題來源,這對(duì)命題者的知識(shí)和經(jīng)驗(yàn)有較高要求,也是一項(xiàng)較為耗時(shí)的工作。
隨著自然語言處理技術(shù)及相關(guān)語言資源的發(fā)展,語言能力測(cè)試及評(píng)估逐步向信息化、智能化發(fā)展。在試題自動(dòng)生成領(lǐng)域,Mitkov和Ha[2]、Brown et al[3]、Correia et al[4]、Goto et al[5]等學(xué)者做出了有益的探索,涉及題型主要為單空詞語選擇和多空詞語選擇,命題對(duì)象為英語二語學(xué)習(xí)者。
雖然漢語熱在全球持續(xù)升溫,但截至目前,針對(duì)漢語的試題生成研究仍然十分罕見。與英語等印歐語系語言相比,漢語是一種形態(tài)變化較少的語言,不具備性、數(shù)、格、時(shí)、體、態(tài)等特征,其語法功能主要通過虛詞和語序表示。從詞匯測(cè)試的角度來說,漢語與英語的詞匯知識(shí)框架存在較大差異。例如,英語詞語選擇題中,給出的選項(xiàng)常常是一個(gè)詞語的不同變體,如run、runs、running、ran,需要學(xué)生基于句子的時(shí)態(tài)、語態(tài)等信息做出合理的判斷。而漢語的詞匯測(cè)試題則側(cè)重對(duì)語序和虛詞的考察,例如,在新HSK漢語水平考試*新HSK漢語水平考試是一項(xiàng)國(guó)際漢語能力標(biāo)準(zhǔn)化考試,重點(diǎn)考查漢語非第一語言的考生在生活、學(xué)習(xí)和工作中運(yùn)用漢語進(jìn)行交際的能力,共分六個(gè)級(jí)別。中,常見對(duì)量詞、介詞、連詞等漢語特有詞匯知識(shí)的考察,并且從HSK三級(jí)開始設(shè)有詞語排序題,多涉及一些漢語特殊句式或結(jié)構(gòu),如把字句、述補(bǔ)結(jié)構(gòu)等。
基于以上考慮,我們將詞音、詞義、詞頻、語法、搭配等知識(shí)融入漢語詞匯測(cè)試,結(jié)合新HSK考試方案及需求,選擇對(duì)詞語聽力、多空詞語選擇、詞語排序和單空詞語選擇四種題型進(jìn)行自動(dòng)命題嘗試,以滿足不同語言信息、不同難度的詞匯知識(shí)考查。
在試驗(yàn)中,為了設(shè)置合理的目標(biāo)詞和干擾項(xiàng),我們綜合運(yùn)用教材語料庫(kù)、中介語語料庫(kù)等資源,對(duì)詞音、詞語難度、詞頻、偏誤信息、搭配信息、相近詞、語法信息等特征進(jìn)行提取,構(gòu)建了一個(gè)面向試題自動(dòng)生成的詞匯知識(shí)庫(kù),作為自動(dòng)命題的基礎(chǔ)資源。在進(jìn)行題干句選擇時(shí),我們構(gòu)建了語法項(xiàng)目自動(dòng)識(shí)別、句子難度分析等算法,為自動(dòng)命題提供依據(jù)。
我們以一個(gè)漢語教材語料庫(kù)[6]為文本來源,生成了四個(gè)類型共計(jì)7 263道詞匯測(cè)試題,并通過人工評(píng)估測(cè)試了自動(dòng)命題的有效性。數(shù)據(jù)表明,約58%的詞匯測(cè)試題被評(píng)價(jià)為完全合理,經(jīng)人工簡(jiǎn)單調(diào)整,試題接受率可達(dá)75.7%,詞匯測(cè)試自動(dòng)命題的初步嘗試取得了較好的效果。
怎樣才算習(xí)得了一個(gè)詞語?詞匯的教學(xué)和測(cè)試應(yīng)該注重哪些方面?Nation[1]所提出的八條詞匯知識(shí)給出了很好的解答。值得注意的是,二語詞匯習(xí)得具有階段性特征,學(xué)習(xí)者并非一次性習(xí)得一個(gè)詞語的所有知識(shí),而是在長(zhǎng)期的積累和運(yùn)用中實(shí)現(xiàn)對(duì)各層次知識(shí)的充分掌握。我們可以將這些知識(shí)的習(xí)得分為三個(gè)階段。初級(jí):習(xí)得詞音、詞形和詞義,并構(gòu)建三者之間的關(guān)聯(lián);中級(jí):習(xí)得語法行為和搭配形式;高級(jí):進(jìn)一步熟悉語法行為和搭配形式,了解詞語的文體和使用頻率信息,與其他詞語建立意義和用法上的關(guān)聯(lián)。
可以看出,初級(jí)重在詞匯的認(rèn)識(shí)和理解,而中高級(jí)則重在詞匯的運(yùn)用,不僅包括使用詞語造句,也包括在寫作中配合文體和主題選擇恰當(dāng)?shù)脑~語。由此看來,針對(duì)二語學(xué)習(xí)者的詞匯測(cè)試題應(yīng)當(dāng)對(duì)不同階段的測(cè)試需求予以考慮。通過對(duì)漢英多種語言標(biāo)準(zhǔn)化測(cè)試的調(diào)研,考慮漢語詞匯知識(shí)的特性及自動(dòng)命題的可行性,我們選擇了四種詞匯測(cè)試題型作為自動(dòng)命題的初步實(shí)驗(yàn)對(duì)象,這四種題型分別側(cè)重不同層次的語言信息,適應(yīng)不同水平的學(xué)習(xí)者。
如表1所示,詞語聽力題側(cè)重對(duì)詞音和詞形關(guān)聯(lián)的考察,干擾項(xiàng)被設(shè)置為發(fā)音相近的詞語。多空詞語選擇,又稱“word bank question”,是一種語言測(cè)試中廣泛應(yīng)用的題型,主要考察詞形和詞義的對(duì)應(yīng)。該題型在新HSK三級(jí)、四級(jí)考試中出現(xiàn),多涉及介詞、連詞等語法詞的使用,要求學(xué)習(xí)者不僅能夠理解目標(biāo)詞含義及上下文語境信息,也對(duì)基本的語法格式有所了解。詞語排序題需要學(xué)習(xí)者在理解詞義的基礎(chǔ)上熟悉漢語各種特有的語法格式,例如,示例中涉及的語法項(xiàng)目包括“選擇疑問句”和“意愿表達(dá)”。在試題生成中,我們對(duì)《國(guó)際漢語教學(xué)通用課程大綱》中列出的語法項(xiàng)目進(jìn)行了系統(tǒng)考察,并在命題時(shí)注重融入這些語法知識(shí)。單空詞語選擇題則對(duì)語法、搭配、甚至部分語用知識(shí)(如文體)進(jìn)行考察,與多空選擇題相比,單空選擇的干擾項(xiàng)多為詞性一致、詞義相近、用法相似的詞語,故而難度較大。這四種題型中,除了詞語聽力題外,其他三種題型均在新HSK漢語水平考試中有所涉及,因而我們的自動(dòng)命題程序可以在一定程度上參考人工命題的數(shù)據(jù)及策略。
表1 詞匯測(cè)試自動(dòng)命題題型及示例
進(jìn)行詞匯測(cè)試自動(dòng)命題時(shí),主要面臨兩個(gè)問題:第一,選擇合適的句子作為題干;第二,選擇合適的詞語作為目標(biāo)詞或干擾項(xiàng)。因而,我們需要從命題需求出發(fā),對(duì)詞匯和句子層面的特征進(jìn)行提取,構(gòu)建詞語屬性知識(shí)庫(kù)和句子分析模塊,為自動(dòng)命題提供基礎(chǔ)資源及決策依據(jù)。
3.1 詞匯知識(shí)庫(kù)
由于自動(dòng)命題面向漢語二語學(xué)習(xí)者,我們將國(guó)家漢辦發(fā)布的新HSK大綱五千詞*新漢語水平考試(HSK)詞匯(2012年修訂版):http://www.chinesetest.cn/godownload.do作為詞匯考察對(duì)象,并對(duì)其詞音、難度、詞頻、偏誤信息、搭配知識(shí)、相近詞、語法項(xiàng)目等特征進(jìn)行提取??紤]到實(shí)詞和虛詞的詞匯屬性有所差異,表2分別給出了一個(gè)實(shí)詞示例和一個(gè)虛詞示例。這些詞匯知識(shí)不僅可服務(wù)于詞匯測(cè)試題的自動(dòng)生成,也可為二語教學(xué)、二語詞典編纂及相關(guān)研究工作提供參考。
表2 詞匯自動(dòng)命題知識(shí)庫(kù)示例
3.1.1 詞音特征
在詞音特征的提取上,我們使用Python工具包pypinyin為所有詞語注音,并調(diào)用微軟Bing Speech提供的語音合成API*Bing Speech API:https://www.microsoft.com/cognitive-services/en-us/speech-api生成MP3格式的詞語發(fā)音。由于詞匯聽力題中將字?jǐn)?shù)相等、讀音相近的一組詞語設(shè)為選項(xiàng),我們構(gòu)建了一個(gè)詞匯語音相似度模型進(jìn)行音近詞的提取。計(jì)算詞匯語音相似度時(shí),若二者字?jǐn)?shù)不等,則相似度計(jì)為0,當(dāng)字?jǐn)?shù)相等時(shí),依次計(jì)算每個(gè)字的語音相似度,并取算術(shù)平均值作為詞匯語音相似度。漢字的語音相似度計(jì)算取聲母、韻母和音調(diào)作為特征,由于韻母對(duì)讀音的影響大于聲母,音調(diào)影響最低,故將聲韻調(diào)的權(quán)值設(shè)置為0.35,0.55,0.1。令I(lǐng)、F、T分別表示聲母(initial)、韻母(final)、音調(diào)(tone)的相似度,兩個(gè)漢字之間的語音相似度S可采用式(1)進(jìn)行估計(jì)。
(1)
我們使用了胡韌奮等[7]提出的聲母、韻母、音調(diào)相似度矩陣來取得I、F、T值,論文中聲母的相似度估計(jì)考慮了發(fā)音部位和發(fā)音方法,韻母的相似度基于元音舌位圖分別對(duì)介音、韻腹、韻尾的語音距離進(jìn)行測(cè)量,音調(diào)的相似度則基于調(diào)值線之間的平均距離進(jìn)行估計(jì)。在對(duì)大綱五千詞每?jī)蓚€(gè)詞之間的語音相似度進(jìn)行計(jì)算后,對(duì)于單字、雙字詞,選擇相似度在90%以上(不等于100%)的詞語作為音近詞,對(duì)于多字詞,選擇相似度在80%以上(不等于100%)的詞語作為音近詞,共獲取到13 413對(duì)符合條件的音近詞。圖1表示出了音近詞網(wǎng)絡(luò)中核心節(jié)點(diǎn)關(guān)系圖,不難發(fā)現(xiàn),這些詞語發(fā)音多包含由i韻母和舌尖后音(zh,ch,sh)、舌尖前音(z,c,s)組合的音節(jié),這在一定程度上反映了漢語發(fā)音的聲韻頻率。語音相似度數(shù)據(jù)不僅能夠服務(wù)于二語教學(xué)相關(guān)應(yīng)用,也可作為漢語語音研究的一個(gè)基礎(chǔ)資源。
圖1 基于語音相似度計(jì)算的核心音近詞關(guān)系圖
3.1.2 詞語難度
詞語難度來源于新HSK五千詞中的級(jí)別信息,詞表中包括一級(jí)詞150個(gè),二級(jí)詞150個(gè),三級(jí)詞300個(gè),四級(jí)詞600個(gè),五級(jí)詞1 300個(gè),六級(jí)詞2 500個(gè)。在設(shè)置目標(biāo)詞及干擾項(xiàng)時(shí),可根據(jù)題型的目標(biāo)語言水平來選擇合適級(jí)別的詞匯。
3.1.3 詞頻
詞語在不同的文體及語境中的使用頻率有所差異,為了服務(wù)于二語詞匯測(cè)試的需求,我們選擇漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)[6]作為詞頻統(tǒng)計(jì)來源,統(tǒng)計(jì)時(shí)不計(jì)標(biāo)點(diǎn)及外文詞。漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)中的文本來源于197冊(cè)經(jīng)典對(duì)外漢語教材,規(guī)模約14萬句,可以幫助我們較好地估計(jì)二語教學(xué)情境下的詞頻信息。
3.1.4 詞語偏誤信息
學(xué)習(xí)者在哪些詞匯上容易犯錯(cuò)?哪些詞語之間容易相互混淆?真實(shí)的詞匯偏誤信息不僅可以有效地幫助教師把握詞匯教學(xué)要點(diǎn),也可以為語言測(cè)試命題提供重要的參考。我們從HSK動(dòng)態(tài)作文語料庫(kù)*HSK動(dòng)態(tài)作文語料庫(kù)是一個(gè)由北京語言大學(xué)建立的中介語語料庫(kù):http://202.112.195.8/hsk/login.asp中提取了詞匯層面的偏誤信息,主要包括詞語的偏誤頻次及易混淆詞。易混淆詞的界定標(biāo)準(zhǔn)為:當(dāng)目標(biāo)詞偏誤頻次在十次以上時(shí),目標(biāo)詞誤用為該詞的頻次占偏誤總頻次的20%以上。在提取偏誤信息的過程中,我們發(fā)現(xiàn),漢語中特有的虛詞或意義較為虛化的詞語偏誤頻次較高,如圖2所示,這些詞語與漢語的語法知識(shí)密切相關(guān),需要在自動(dòng)命題中給予特別關(guān)注。
圖2 學(xué)習(xí)者高頻偏誤詞詞云
3.1.5 詞匯搭配知識(shí)
結(jié)合二語教學(xué)需求,我們定義了九種詞語搭配形式,除了主謂搭配、動(dòng)賓搭配、定中搭配、狀中搭配這四種通用的語法搭配類型外,我們還考慮到漢語中特有的五種搭配類型:量詞—名詞搭配(如 “張”—“紙”)、介詞—謂詞搭配(如“把”—“放下”)、連詞搭配(如“不但”—“而且”)、介詞—方位詞搭配(如“在”—“旁邊”)、述語—補(bǔ)語搭配(如“吃”—“飽”)。搭配知識(shí)同樣從漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)中進(jìn)行抽取。我們采用基于依存分析的搭配抽取方法[8],首先調(diào)用LTP—Cloud[9]提供的自然語言處理工具對(duì)語料庫(kù)中的句子進(jìn)行分詞、詞性標(biāo)注、依存語法分析,然后基于詞形、詞性、詞語位置、依存邊、父子節(jié)點(diǎn)等信息構(gòu)建了47條規(guī)則,分別實(shí)現(xiàn)對(duì)每種搭配類型的提取。圖3表示一個(gè)例句的依存分析樹。
圖3 依存分析樹示例
在分析句子時(shí),依次讀取每個(gè)節(jié)點(diǎn)的位置、詞形、詞性、父節(jié)點(diǎn)位置和依存邊信息,并與規(guī)則進(jìn)行匹配。例句通過匹配規(guī)則生成了六條搭配:“套 公寓”(量名)、“可能 合適”(狀中)、“很 合適”(狀中)、“對(duì) X 合適”(介謂)、“公寓 合適”(主謂)、“覺得 合適”(動(dòng)賓)。以下為一條提取狀中搭配的規(guī)則示例,表示當(dāng)詞語滿足詞性為副詞或動(dòng)詞、依存邊為ADV(狀中結(jié)構(gòu))、其父節(jié)點(diǎn)詞性為動(dòng)詞或形容詞這三個(gè)條件時(shí),可提取該節(jié)點(diǎn)和父節(jié)點(diǎn)詞形組成一條狀中搭配。為了保證搭配提取的準(zhǔn)確率,詞語搭配屬性中僅保留頻次>=3的搭配。
ifword[pos]in[“d”,”v”]andword[relate] == “ADV”andparent[pos]in[“v”,”a”]:collocation=word[cont]+parent[cont],type= “狀中搭配”
3.1.6 相近詞
搭配知識(shí)可以反映詞匯的語義和語法特征,那么,當(dāng)兩個(gè)詞語擁有較多相同的搭配知識(shí)時(shí),則意味著二者在用法和意義上有共通之處[8]?;谶@一前提假設(shè),我們進(jìn)行了基于搭配數(shù)據(jù)的相近詞(similar words)提取。近似度的計(jì)算需要首先計(jì)算搭配詞語之間的互信息,令W1和W2代表兩個(gè)搭配詞,R代表搭配類型,互信息I(W1,W2,R)可通過式(2)進(jìn)行計(jì)算[10]:
I(W1,W2,R)=
(2)
令T(W)表示所有令I(lǐng)(W,W′,R)值為正的搭配詞及搭配類型對(duì)(W′,R),則詞語W1和W2之間的近似度S(W1,W2)可通過式(3)進(jìn)行計(jì)算[11]:
(3)
得到計(jì)算結(jié)果后,取字?jǐn)?shù)相等、近似度大于0.1的詞語作為意義和用法上相近的詞語,共計(jì)得到12 360對(duì)相近詞。以表2中的詞語“把”為例,該詞具有介詞和量詞兩種詞性,采用這種基于搭配互信息的近似度計(jì)算方法,既可以提取出“將”、“被”、“由”等介詞,又可以提取出“串”、“雙”、“升”、“斤”等量詞。搭配知識(shí)和意義用法相近詞主要服務(wù)于詞語選擇題中的干擾項(xiàng)設(shè)置。
3.2 句子分析模塊3.2.1 語法項(xiàng)目識(shí)別
國(guó)家漢辦發(fā)布的《國(guó)際漢語教學(xué)通用課程大綱》中給出了“常用漢語語法項(xiàng)目分級(jí)表”[12],該表將62個(gè)常用語法項(xiàng)目按從簡(jiǎn)到難分為五級(jí)。其中,一級(jí)和二級(jí)語法項(xiàng)目中涉及一些基本語法知識(shí),如基本語序、代詞、時(shí)間的表達(dá)等,考慮到詞匯測(cè)試中對(duì)語法知識(shí)的考察側(cè)重漢語特殊用法,且相關(guān)題型以中高級(jí)水平學(xué)習(xí)者為命題對(duì)象,我們過濾了15個(gè)基礎(chǔ)語法項(xiàng)目,將余下47個(gè)語法項(xiàng)目作為句子分析目標(biāo)*47個(gè)語法項(xiàng)目分級(jí)列表:http://101.200.121.46/apendix1.pdf。
語法項(xiàng)目的自動(dòng)識(shí)別同樣基于語料的分詞、詞性標(biāo)注和依存分析結(jié)果,我們根據(jù)每個(gè)語法項(xiàng)目的形式制定了共計(jì)52條識(shí)別規(guī)則。規(guī)則原理與搭配提取類似,以圖3依存樹為例,該句實(shí)現(xiàn)了三個(gè)語法項(xiàng)目的識(shí)別:程度副詞(“很”)、常用量詞(“套”)、介詞_引進(jìn)對(duì)象(“對(duì)他”)。
3.2.2 句子難度分析
除了句子包含的語法項(xiàng)目信息外,句長(zhǎng)和詞語等級(jí)信息也對(duì)其復(fù)雜程度有重要影響。在分詞和詞性標(biāo)注的基礎(chǔ)上,我們對(duì)句中詞語個(gè)數(shù)及包含各級(jí)別詞語的比例進(jìn)行統(tǒng)計(jì)。計(jì)算詞數(shù)及比例時(shí)不計(jì)標(biāo)點(diǎn)、英文、數(shù)字和姓名。
李桂梅等[13]對(duì)新HSK考試中的詞語控制原則進(jìn)行了介紹,一級(jí)至四級(jí)考試中不允許出現(xiàn)超綱詞,五級(jí)可出現(xiàn)15%超綱詞,六級(jí)試題語料不受規(guī)定的五千詞限制,但考點(diǎn)和詞語題選項(xiàng)中的詞語應(yīng)該在大綱五千詞范圍內(nèi)。由此可見,人工命題對(duì)于詞語等級(jí)信息要求十分嚴(yán)格,我們可參考新HSK樣卷中詞語測(cè)試題的句長(zhǎng)及等級(jí)信息來設(shè)定題干句的選擇標(biāo)準(zhǔn)。
四種題型雖然有不同的生成流程,但普遍涉及句子選擇和詞語選擇。我們首先對(duì)國(guó)家漢辦公布的30套新HSK樣卷中相關(guān)題型的數(shù)據(jù)進(jìn)行了分析,并根據(jù)每類題型的目標(biāo)語言知識(shí)和目標(biāo)語言水平制定了候選詞句的基本特征提取標(biāo)準(zhǔn),如表3所示。在得到候選句和候選詞后,我們還需要針對(duì)不同題型的命題需求對(duì)候選詞句做進(jìn)一步選擇。
表3 候選詞句基本特征提取標(biāo)準(zhǔn)
4.1 詞語聽力
新HSK初級(jí)水平測(cè)試中,考察詞音的聽力試題多將選項(xiàng)設(shè)為圖片??紤]到自動(dòng)命題的可行性,我們?cè)O(shè)計(jì)了聽錄音、選詞語的題型,選項(xiàng)由讀音相近的一組詞語組成。由于詞音、詞形知識(shí)的考察面向初級(jí)漢語水平測(cè)試,故而,我們選擇新HSK一級(jí)、二級(jí)、三級(jí)詞匯的錄音作為題干,干擾項(xiàng)的設(shè)置則基于詞匯語音相似度模型的計(jì)算結(jié)果,取相似度最高的三個(gè)音近詞與目標(biāo)詞組成最終選項(xiàng),并隨機(jī)排列選項(xiàng)順序(若知識(shí)庫(kù)中符合條件的音近詞數(shù)目小于3,則不做生成)。最終,生成了170道符合要求的詞匯聽力題。
4.2 多空詞語選擇
參考表3列出的特征提取標(biāo)準(zhǔn),我們首先從漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)中提取了8 560句語料作為候選題干。命題時(shí),需要將五句一組進(jìn)行組合,由于句中可能涉及多個(gè)目標(biāo)詞,在選擇每句的目標(biāo)詞時(shí),遵循以下原則:①目標(biāo)詞在句中僅能出現(xiàn)一次,②五個(gè)目標(biāo)詞詞性不重復(fù)。如無法滿足條件則讀取下一個(gè)候選句。確定五個(gè)句子和相應(yīng)目標(biāo)詞后,將選項(xiàng)隨機(jī)排序,共計(jì)生成了1 081組多空詞語選擇題。
4.3 詞語排序
首先,基于詞數(shù)、詞語等級(jí)比例和語法項(xiàng)目自動(dòng)識(shí)別結(jié)果得到符合要求的語料4 255句,包括中級(jí)語料3 636句,高級(jí)語料621句。樣卷中的排序題一般設(shè)置5—8個(gè)排序單元,排序單元可以為詞,也可以為詞構(gòu)成的語塊,例如,新HSK五級(jí)樣卷中的一道排序題為“從 不同的角度 我們 要學(xué)會(huì) 觀察 事物”,其中,“不同的角度”和“要學(xué)會(huì)”均為語塊構(gòu)成的排序單元。因而,進(jìn)行排序題的自動(dòng)生成時(shí),需要結(jié)合語法知識(shí)的考察來對(duì)句中部分詞語進(jìn)行組合。
具體來說,我們首先參考樣卷數(shù)據(jù),對(duì)句中詞數(shù)和排序單元的個(gè)數(shù)進(jìn)行了規(guī)定:當(dāng)句中詞數(shù)小于7時(shí),排序單元數(shù)目可為4或5,當(dāng)詞數(shù)大于或等于7時(shí),排序單元數(shù)目可為4、5或6。進(jìn)行語塊合成時(shí),我們基于語法知識(shí)的考察需求確立了一批排序特征詞或詞序列,使其不參與詞語組合,例如連動(dòng)句中的兩個(gè)動(dòng)詞、動(dòng)詞與前置賓語、動(dòng)詞與間接賓語等。同時(shí),按照短語中的詞粘合度高低對(duì)詞語組合確立了從高到低四個(gè)優(yōu)先級(jí)。
一級(jí):詞語粘合度很高的數(shù)量短語、動(dòng)詞重疊形式。
二級(jí):詞語粘合度較高的名詞、動(dòng)詞短語,一般為由兩個(gè)單字詞構(gòu)成的定中、狀中、述補(bǔ)、動(dòng)賓結(jié)構(gòu)。
三級(jí):詞語粘合度較低的名詞、動(dòng)詞短語,一般為一個(gè)單字詞與一個(gè)雙字詞組成的定中、狀中、述補(bǔ)、動(dòng)賓結(jié)構(gòu)。
四級(jí):詞語黏合度很低的介詞短語,以及此前階段未合成的定中結(jié)構(gòu)名詞短語、狀中或述補(bǔ)結(jié)構(gòu)動(dòng)詞短語等。
進(jìn)行語塊合成時(shí),一旦當(dāng)排序單元數(shù)目達(dá)到要求,則返回當(dāng)前結(jié)果。我們按照該方法生成了詞語排序題4 029道。
4.4 單空詞語選擇
按照表3標(biāo)準(zhǔn),首先從漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)中提取了3 135句符合單空選擇題條件的句子作為題干候選。當(dāng)句中候選目標(biāo)詞多于一個(gè)時(shí),則需考慮詞匯知識(shí)庫(kù)中語法項(xiàng)目、偏誤信息、詞頻等特征,按如下優(yōu)先級(jí)做進(jìn)一步篩選:(1)選擇語法項(xiàng)目中的語法詞; (2)選擇偏誤頻次較高的詞語; (3)選擇詞頻較高的詞語。與多空詞語選擇一致,限制目標(biāo)詞在句中只能出現(xiàn)一次。
確定句子和目標(biāo)詞之后,則可從知識(shí)庫(kù)中偏誤易混淆詞和相近詞中提取干擾項(xiàng),實(shí)驗(yàn)中優(yōu)先提取高頻易混淆詞為干擾項(xiàng),若無易混淆詞或數(shù)目不足三時(shí),則按相似度從高到低從相近詞中提取。為了確保干擾項(xiàng)不是一個(gè)正確選項(xiàng),我們使用搭配數(shù)據(jù)對(duì)其進(jìn)行校驗(yàn)。首先提取句中目標(biāo)詞的所有搭配,然后將搭配中的目標(biāo)詞更換為干擾項(xiàng),在知識(shí)庫(kù)的搭配數(shù)據(jù)中查找,如果全部能查找到,則認(rèn)為該干擾項(xiàng)可能是一個(gè)正確選項(xiàng),需做排除。得到三個(gè)合理的干擾項(xiàng)后,將其與目標(biāo)詞隨機(jī)排序進(jìn)行輸出。該過程生成單空詞語選擇題共計(jì)1 983道。
為了測(cè)試自動(dòng)命題的效果,我們邀請(qǐng)了兩名語言學(xué)專業(yè)背景的對(duì)外漢語教師對(duì)試題進(jìn)行人工評(píng)價(jià)。評(píng)價(jià)數(shù)據(jù)為770道自動(dòng)生成的詞匯測(cè)試試題,包括全部170道詞語聽力題、隨機(jī)抽取的200道多空詞語選擇題、200道詞語排序題和200道單空詞語選擇題。
人工評(píng)價(jià)一方面需要觀察自動(dòng)生成的試題在多大程度上可直接使用,另一方面也需要關(guān)注自動(dòng)命題輔助人工命題的可行性。因而,在提供測(cè)試數(shù)據(jù)時(shí),當(dāng)句中符合要求的目標(biāo)詞多于一個(gè),或者符合要求的干擾項(xiàng)數(shù)目多于三個(gè)時(shí),我們會(huì)給出候選目標(biāo)詞和候選干擾項(xiàng),供評(píng)價(jià)者比較和參考。以下為一個(gè)單空選擇題的測(cè)試樣例*四類題型的測(cè)試樣題:http://101.200.121.46/apendix2.pdf:
例題1 好的比喻來自對(duì)生活的深入________和深刻思考。
A.觀察 B.觀看 C.視察 D.觀測(cè)
候選干擾項(xiàng):總結(jié),分析,修改,琢磨,腐蝕,尋找,打量,對(duì)待
候選目標(biāo)詞:比喻,思考,深刻
人工評(píng)價(jià)主要從以下幾個(gè)維度展開:(1)判斷題干句的選擇是否合理,需考慮句子內(nèi)容、難度、用詞情況、語法知識(shí)等因素; (2)判斷目標(biāo)詞的選擇是否合理,需考慮詞義、難度、上下文信息等因素; (3)判斷干擾項(xiàng)的設(shè)置是否合理,需考慮難度、與目標(biāo)詞具有足夠區(qū)分度等因素; (4)對(duì)于詞語排序題來說,需判斷語塊的合成是否合理,主要考慮構(gòu)成語塊的詞語粘合度、語法知識(shí)的考察等因素。
我們通過計(jì)算接受率(AR)來對(duì)不同層次的評(píng)價(jià)結(jié)果進(jìn)行量化,原始接受率(OAR)為評(píng)價(jià)者判斷為完全合理的項(xiàng)數(shù)與總項(xiàng)數(shù)的百分比值,調(diào)整接受率(AAR)為評(píng)價(jià)者認(rèn)為在簡(jiǎn)單修改后合理可用的項(xiàng)數(shù)與總項(xiàng)數(shù)的百分比值。簡(jiǎn)單修改的標(biāo)準(zhǔn)為:(1)句子:進(jìn)行1-2個(gè)詞的替換或增刪; (2)目標(biāo)詞:可以從候選目標(biāo)詞中找到合適的替換詞; (3)干擾項(xiàng):可以從候選干擾項(xiàng)中找到合適的替換詞。統(tǒng)計(jì)原始接受率時(shí),僅當(dāng)兩名評(píng)價(jià)者均認(rèn)為該項(xiàng)合理時(shí)才接受其為合理,統(tǒng)計(jì)調(diào)整接受率時(shí),則需兩名評(píng)價(jià)者就修改情況達(dá)成一致意見方可接受。測(cè)試結(jié)果如表4所示。
由表中數(shù)據(jù)可見,測(cè)試集中有58%的試題被評(píng)價(jià)者認(rèn)為命題完全合理,經(jīng)簡(jiǎn)單修改后試題接受率達(dá)到75.7%。這說明自動(dòng)命題的初步嘗試取得了較好的效果,也說明自動(dòng)命題可作為提升人工命題效率的一個(gè)有效輔助手段。從題型數(shù)據(jù)來看,詞語聽力和詞語排序效果較為理想,多空和單空選擇題的則接受率偏低,這主要是由于兩類詞語選擇題涉及的信息較多,如每道多空選擇題在統(tǒng)計(jì)數(shù)據(jù)時(shí)僅當(dāng)五組詞句均選擇合理且組合搭配得當(dāng)時(shí)才能將該題視為完全合理,而單空選擇則涉及句子、目標(biāo)詞和三個(gè)干擾項(xiàng),命題難度相對(duì)較大。
表4 試題人工評(píng)價(jià)數(shù)據(jù)
從命題的各個(gè)模塊數(shù)據(jù)來看,目標(biāo)詞選擇、語塊合成和干擾項(xiàng)選擇效果要優(yōu)于題干句的選擇。我們對(duì)試題的評(píng)價(jià)結(jié)果進(jìn)行了具體分析,發(fā)現(xiàn)不合理的題干句主要可分為以下幾類:(1)句義理解依賴背景知識(shí)或上下文信息,如例句1; (2)句中詞語如代詞、連詞的使用與上下文有較大關(guān)聯(lián),如例句2; (3)從時(shí)效性、題材的角度看,句子內(nèi)容不適于二語學(xué)習(xí)者,如例句3; (4)來源于對(duì)話文本,口語特征明顯,不適于做測(cè)試題題干,如例句4。
例句1 這樣一來,愚公和家人只要往前一直走,就可以到對(duì)面的村莊,方便多了。
例句2 原來他現(xiàn)在住在中國(guó)人的家里。
例句3 從來不向外來壓力屈服的中國(guó)政府和人民將沿著自己制定的計(jì)劃生育政策繼續(xù)前進(jìn)。
例句4 跟您這么說吧,我們誰也不認(rèn)識(shí)誰。
在單空和多空詞語選擇題中,目標(biāo)詞的選擇不當(dāng)主要有以下兩點(diǎn)原因:(1)該詞詞義在語境中不夠典型,作為測(cè)試對(duì)象的意義不大,如例句5中的“婦女”; (2)該詞與背景知識(shí)或上下文信息相關(guān),不宜作為測(cè)試目標(biāo)詞,如例句6中的“家庭”。
例句5 我很高興有機(jī)會(huì)跟大家談?wù)勚袊?guó)婦女的地位問題。
例句6 《金瓶梅》是中國(guó)第一部以家庭生活為題材的長(zhǎng)篇小說。
干擾項(xiàng)生成中,聽力題的不當(dāng)干擾項(xiàng)主要是由于與目標(biāo)詞的語音相似度過高或過低,而單空選擇題中,雖然我們采用搭配數(shù)據(jù)對(duì)干擾項(xiàng)進(jìn)行了排除,仍然難以避免正確干擾項(xiàng)的出現(xiàn),如下例中,目標(biāo)詞為“優(yōu)美”,而干擾項(xiàng)“美妙”也可視為一個(gè)合理選項(xiàng),評(píng)價(jià)者認(rèn)為需要從候選干擾項(xiàng)中選擇詞語“壯麗”或“流利”對(duì)其進(jìn)行替換。生成正確干擾項(xiàng)的主要原因在于我們的搭配數(shù)據(jù)集從教材語料庫(kù)中抽取,相對(duì)規(guī)模較小,“美妙”-“協(xié)奏曲”這樣合理但頻率較低的搭配無法通過該數(shù)據(jù)集進(jìn)行校驗(yàn)。
例題2 梁祝的故事伴隨著________的小提琴協(xié)奏曲傳向世界。
A.通俗 B.壯觀 C.優(yōu)美 D.美妙
候選干擾項(xiàng):美麗,迷人,惡劣,壯麗,自信,感激,惡化,流利
在排序題的生成上,評(píng)價(jià)者反映部分排序題可以有多種正確排序方式,如例句7中,“現(xiàn)在”可以出現(xiàn)在主語前或主語后。 200道排序測(cè)試題中共有22道存在這種情況,考慮到漢語的詞序語序具有靈活性,測(cè)試中并未將這種現(xiàn)象歸入不合理情形。
例句7 現(xiàn)在我們?nèi)e的城市也方便了。(排序題:我們 現(xiàn)在 了 去 也方便 別的城市)
通過對(duì)測(cè)試結(jié)果的分析,我們發(fā)現(xiàn),在目前的命題策略中,通過新HSK詞語等級(jí)信息計(jì)算、語法項(xiàng)目自動(dòng)識(shí)別和對(duì)樣卷數(shù)據(jù)的分析利用,詞句選擇在難度控制上普遍效果較好,而對(duì)詞義和句義的把握則存在不足,這需要我們?cè)诤罄m(xù)的自動(dòng)命題研究中從以下幾個(gè)方面進(jìn)行改進(jìn):第一,在句子的選擇上,一方面需要選擇合適的文本來源,除了難度信息外,也需對(duì)題材、體裁等信息進(jìn)行篩選,另一方面需要從語法層面深入到語義層面,聯(lián)系上下文對(duì)句子結(jié)構(gòu)和意義的獨(dú)立性進(jìn)行判斷;第二,在目標(biāo)詞的選擇上,除了詞語等級(jí)、詞性、語法屬性等較為表層的特征外,還需對(duì)詞義的屬性進(jìn)行考慮,同時(shí)注重詞語與上下文信息的關(guān)聯(lián)度;第三,在干擾項(xiàng)的選擇上,需要引入更完善的排除和過濾方法,如基于更大規(guī)模的語料庫(kù)提取搭配數(shù)據(jù)集,或使用Chinese Web N-Gram數(shù)據(jù)集[14]進(jìn)行校驗(yàn)等。此外,注意到詞語聽力題受初級(jí)詞數(shù)量限制,命題數(shù)量較少,僅有170道,我們還需要探索更多的聽力測(cè)試題型,如聽句子選擇詞語、聽句子回答問題等,以豐富測(cè)試的形式和內(nèi)容。
詞匯知識(shí)涉及語音、語義、語法、語用各個(gè)層次的信息,是二語教學(xué)中的重點(diǎn)和難點(diǎn)。本文以漢語詞匯測(cè)試題的自動(dòng)生成為研究對(duì)象,從漢語語言的特殊性和實(shí)際教學(xué)需求出發(fā),選擇對(duì)詞語聽力、多空詞語選擇、詞語排序和單空詞語選擇四種題型進(jìn)行了自動(dòng)命題的初步嘗試。在詞語特征的提取上,我們綜合運(yùn)用教材語料庫(kù)、中介語語料庫(kù)等資源,基于自然語言處理技術(shù),構(gòu)建了一個(gè)面向自動(dòng)命題的詞匯知識(shí)庫(kù),覆蓋詞音、詞語難度、詞頻、偏誤、搭配、相近詞、語法等多層面信息。在句特征的提取上,我們實(shí)現(xiàn)了語法項(xiàng)目自動(dòng)識(shí)別和句子難度分析,為自動(dòng)命題提供參考和依據(jù)。
通過題干句選擇、目標(biāo)詞選擇、語塊合成、干擾項(xiàng)選擇等命題步驟,我們共計(jì)生成了7 263道詞匯測(cè)試題。人工測(cè)試結(jié)果顯示,詞匯測(cè)試自動(dòng)命題的初步嘗試取得了較好的效果,漢語語言測(cè)試自動(dòng)命題具有進(jìn)一步發(fā)展的可行性,同時(shí),自動(dòng)命題也可作為人工命題的有效輔助手段,提升其命題效率。此外,服務(wù)于命題特征提取的詞匯知識(shí)庫(kù)和句子分析模塊還可為二語教學(xué)、二語詞典編纂及相關(guān)研究工作提供輔助和參考。
在后續(xù)研究中,我們計(jì)劃通過挖掘更深層次的語言信息和引入其他語言資源,來提升詞句選擇的有效性,完善自動(dòng)命題策略,并希望探索自動(dòng)命題技術(shù)在其他語言測(cè)試題型中的應(yīng)用。此外,我們還計(jì)劃組織不同漢語水平的學(xué)習(xí)者參與詞匯測(cè)試,通過實(shí)驗(yàn)從學(xué)生角度收集反饋,并對(duì)試題自動(dòng)生成的實(shí)用性進(jìn)行驗(yàn)證。
[1] Nation I S P.Learning vocabulary in another language[M].Stuttgart:Ernst Klett Sprachen,2001:33.
[2] Mitkov R,Ha L A.Computer-aided generation of multiple-choice tests[C]//Proceedings of the HLT-NAACL workshop on building educational applications using natural language processing-Volume 2.Association for Computational Linguistics,Edmonton,Canada,2003:17-22.
[3] Brown J C,Frishkoff G A,Eskenazi M.Automatic question generation for vocabulary assessment[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.Association for Computational Linguistics,Vancouver,Canada,2005:819-826.
[4] Correia R,Baptista J,Mamede N,et al.Automatic generation of cloze question distractors[C]//Proceedings of the Interspeech Satellite Workshop on Second Language Studies:Acquisition,Learning,Education and Technology,Waseda University,Tokyo,Japan.2010.
[5] Goto T,Kojiri T,Watanabe T,et al.Automatic generation system of multiple-choice cloze questions and its evaluation[J].Knowledge Management & E-Learning:An International Journal,2010,2(3):210-224.
[6] 楊麗姣,肖航.漢語深層語義理解與知識(shí)表示——面向語義搜索的語料庫(kù)語境信息標(biāo)注研究[J].語言文字應(yīng)用,2015,(1):107-116.
[7] 胡韌奮,曹冰,杜健一.現(xiàn)代漢字形聲字聲符在普通話中的表音度測(cè)查[J].中文信息學(xué)報(bào),2013,27(3):41-48.
[8] Lin D.Extracting collocations from text corpora[C]//Proceedings of the First workshop on computational terminology.University of Montreal,Montreal,Canada,1998:57-63.
[9] Che W,Li Z,Liu T.LTP:A Chinese language technology platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Demonstrations.Association for Computational Linguistics,Beijing,China,2010:13-16.
[10] Hindle D.Noun classification from predicate-argument structures[C]//Proceedings of the 28th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,University of Pittsburgh,Pittsburgh,USA,1990:268-275.
[11] Lin D.Automatic retrieval and clustering of similar words[C]//Proceedings of the 17th International Conference on Computational linguistics-Volume 2.Association for Computational Linguistics,University of Montreal,Montreal,Canada,1998:768-774.
[12] 國(guó)家漢辦/孔子學(xué)院總部.國(guó)際漢語教學(xué)通用課程大綱[Z].北京:外語教學(xué)與研究出版社,2009:80-96.
[13] 李桂梅,張晉軍,解妮妮,符華均.新HSK詞匯控制對(duì)試卷難度影響的研究[J].中國(guó)考試,2015,03:38-40.
[14] Liu,F,Yang M,Lin D.Chinese Web 5-gram Version 1LDC2010T06[Z].Philadelphia:Linguistic Data Consortium,2010.
Automatic Generation of Chinese Vocabulary Test Questions
HU Renfen
(Institution of Chinese Information Processing,Beijing Normal University,Beijing 100875,China)
This paper discusses the automatic generation strategy of four types of vocabulary test questions:word listening,multi-word selection,word order and single word selection..A knowledge base is built to extract word-level features including pronunciation,senses,grammars,collocations,learners’ errors,etc.Sentence analysis modules are also developed for automatic identification of grammatical constructions and the estimation of sentence difficulty degrees.By selecting proper sentences,target words and distractors,7263 vocabulary test questions are automatically generated in the experiment.The manual evaluation shows that the automatic generation strategy performs well with 58% of the questions evaluated as completely reasonable.After slight manual modification,the question acceptance rate is increased to 75.7%.
second language acquisition; vocabulary test; automatic question generation
胡韌奮(1988—),博士研究生,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)輔助語言教學(xué)。E-mail:irishere@mail.bnu.edu.cn
1003-0077(2017)01-0041-09
2016-09-10 定稿日期:2016-10-15
國(guó)家語委“十二五”科研規(guī)劃項(xiàng)目(YB125-124)
H087
A