昝紅英,張騰飛,張坤麗
(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001)
介詞的研究是自然語言處理技術(shù)中的重要部分,計(jì)算機(jī)對(duì)介詞的正確識(shí)別將極大的提高機(jī)器對(duì)自然語言的理解和應(yīng)用。
目前,已經(jīng)有不少人對(duì)虛詞用法自動(dòng)識(shí)別有了一定的研究,周麗娟等提出了一種基于規(guī)則的現(xiàn)代漢語連詞用法自動(dòng)識(shí)別方法[1];昝紅英等采用了統(tǒng)計(jì)的方法對(duì)副詞 “就”的用法自動(dòng)識(shí)別進(jìn)行的研究[2]。本文旨在對(duì)介詞用法進(jìn)行討論,分析總結(jié)規(guī)則方法和統(tǒng)計(jì)方法單獨(dú)使用的優(yōu)劣,使用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,提高介詞用法自動(dòng)識(shí)別的準(zhǔn)確率。
本文以現(xiàn)代漢語廣義虛詞知識(shí)庫[3-4]為研究背景和基礎(chǔ),其中介詞共有139個(gè),207個(gè)義項(xiàng),327個(gè)用法。介詞在漢語文本中出現(xiàn)頻率是非常高的,以2000年5月 《人民日?qǐng)?bào)》語料為例,約120萬詞的文本中共出現(xiàn)介詞43697次。介詞短語主要充當(dāng)狀語,修飾動(dòng)詞或形容詞,如 “從車上下來”“比他高”。有的介詞短語可以作定語,但要加“的”,如 “對(duì)歷史人物的評(píng)價(jià)”。少數(shù)介詞短語可以充當(dāng)補(bǔ)語,如 “睡在床上”。介詞在句子中有一定的指示作用,指出后面詞所代表的內(nèi)容,包括時(shí)間、處所、范圍、對(duì)象、目的、原因、方式、排除、被動(dòng)、比較等[4-7]。
介詞用法的規(guī)則識(shí)別是虛詞規(guī)則庫建設(shè)之一,虛詞知識(shí)庫由三部分組成:虛詞用法詞典、虛詞規(guī)則庫和虛詞用法標(biāo)注語料庫[8]。本文規(guī)則方法使用了鄭州大學(xué)自然語言實(shí)驗(yàn)室開發(fā)的基于規(guī)則的介詞用法識(shí)別工具包[9]。
介詞的用法特征擁有不同的表現(xiàn)形式,規(guī)則識(shí)別方法采用介詞用法特征中可以操作的判斷條件特征,然后以有序的巴科斯范式對(duì)介詞進(jìn)行規(guī)則的描述[2,4],利用規(guī)則識(shí)別介詞用法[9]。
抽取的介詞用法特征有:F為句首,表示句首出現(xiàn)的詞語或詞性特征;M為左搭配,表示介詞左邊搭配的詞語或詞性的特征;L為左緊鄰,表示介詞左邊緊鄰的詞語或詞性特征;R為右緊鄰,表示介詞右邊緊鄰的詞語和詞性特征;N為右搭配,表示介詞右邊搭配的詞語或詞性特征;E為句末,表示句末出現(xiàn)的詞語或詞性的特征。
介詞用法規(guī)則的樣例如下[4,9]:
MYM在
@<p_zai4_5>→N^N→看來|來說|而言|說來|來看|來講
@<p_zai4_3b>→L^L→控制|限制|保持|維持|穩(wěn)定|表現(xiàn)|體現(xiàn)
@<p_zai4_3a>→N^N→方面|問題上|實(shí)踐上|生活中|生活上|領(lǐng)域|工作上
@<p_zai4_4>→N^N→ (v|<vn>)<下/f>|(條件|前提|情況|情形|形勢(shì)|背景|原則|努力)下|基礎(chǔ)上
@<p_zai4_1c>→N^N→過程中|活動(dòng)中|活動(dòng)上|會(huì)議中|會(huì)議上|會(huì)上|會(huì)中|賽中|塞上|斗爭(zhēng)中|接觸中|實(shí)踐中
@<p_zai4_1a>→N^N→ (年|月|日|天|號(hào)|星期|世紀(jì)|期間|初|時(shí)|秒|之后|之前|之際|夜晚|同時(shí)|t)*v
@<p_zai4_1b>→LN^L→v^N→年|月|日|號(hào)|天|星期|世紀(jì)|期間|初|時(shí)|秒|之后|之前| 之際|夜晚|t
@<p_zai4_2a>→N^N→ (<ns>|s)*v
@<p_zai4_2b>→LN^L→v^N→n|f
@<p_zai4_2a>→N^N→ (<ns>|s)
@<p_zai4_1a>→N^N→ (年|月|日|天|號(hào)|星期|世紀(jì)|期間|初|時(shí)|秒|之后|之前|之際|夜晚|t)
@<p_zai4_3a>→R^R→a|v|n
在生成規(guī)則時(shí)需要對(duì)介詞的規(guī)則設(shè)有優(yōu)先級(jí),前面的優(yōu)先級(jí)大于后面的,所以,規(guī)則之間允許交叉覆蓋,同一條用法也允許有多條規(guī)則。優(yōu)先級(jí)的情況不同,對(duì)用法的識(shí)別準(zhǔn)確率有很大影響。
實(shí)驗(yàn)選用2000年5月份 《人民日?qǐng)?bào)》語料,以使用頻率最高的20個(gè)介詞為例,在5月份語料中出現(xiàn)次數(shù)33904次,識(shí)別介詞用法的過程就是在語料中進(jìn)行標(biāo)注的過程,原始語料采用已經(jīng)完成了分詞的 《人民日?qǐng)?bào)》語料,標(biāo)注前后如下[4]:
沒有標(biāo)注的原始語料:
“圍/v 在/p 機(jī)場(chǎng)/n 和/c 醫(yī)院/n 門口/s 歡迎/v 的/ud 人群/n 揮動(dòng)/v 著/uz 旗子/n ,/wd 高舉/v 皮諾切特/nr 的/ud 畫像/n ,/wd 把/p 他/rr 當(dāng)成/vl “/wyz 英雄/n ”/wyy 來/vi 歡迎/v。/wj”
機(jī)器標(biāo)注后的語料:
“圍/v 在/p<p_zai4_2b> 機(jī)場(chǎng)/n 和/c 醫(yī)院/n 門口/s 歡迎/v 的/ud 人群/n 揮動(dòng)/v 著/uz 旗子/n,/wd 高舉/v 皮諾切特/nr 的/ud 畫像/n,/wd把/p<p_ba3_5b> 他/rr 當(dāng)成/vl “/wyz 英雄/n”/wyy 來/vi 歡迎/v 。/wj”
實(shí)驗(yàn)結(jié)果見表1。
表1 基于規(guī)則方法的自動(dòng)識(shí)別結(jié)果
在采用基于規(guī)則的方法進(jìn)行標(biāo)注實(shí)驗(yàn)時(shí),標(biāo)注正確的總個(gè)數(shù)有22844個(gè),總準(zhǔn)確率為67.38%,從表1可以看出,各個(gè)介詞的準(zhǔn)確率有較大不同,說明基于規(guī)則的方法具有簡(jiǎn)單、直觀、針對(duì)性強(qiáng)等優(yōu)點(diǎn),對(duì)于結(jié)構(gòu)比較明確的介詞,有很大優(yōu)勢(shì)。但一般也有覆蓋程度低、難于進(jìn)一步優(yōu)化等缺點(diǎn)。
近年來,許許多多的機(jī)器學(xué)習(xí)統(tǒng)計(jì)模型在自然語言處理領(lǐng)域得到了廣泛應(yīng)用,其中包括:條件隨機(jī)場(chǎng) (conditional random fields,CRF)、支持向 量機(jī) (support vector machine,SVM)、最大熵 (maximum entropy,ME)、最大熵馬爾科夫 (maximum entropy markov model,MEMM)以及隱馬爾科夫模型 (hidden Markov model,HMM)[2]。本文采用了條件隨機(jī)場(chǎng)統(tǒng)計(jì)模型,它可以充分利用的上下文信息作為特征,還可以任意地添加其他外部特征,可有效地解決前述數(shù)據(jù)稀疏問題[10]。
條件隨機(jī)場(chǎng) (CRF)由Lafferty等人于2001年提出[11],結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),是一種在給定輸入點(diǎn)的條件下計(jì)算輸出點(diǎn)概率的無向圖模型,它考察輸入序列對(duì)應(yīng)的標(biāo)注序別的條件概率,目的是獲得最大化的條件概率。近年來在分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中取得了很好的效果。
條件隨機(jī)場(chǎng)的定義為:G= (V,E)是一個(gè)無向圖,Y= {Yv|v(V}是以G中的節(jié)點(diǎn)v作為索引的隨機(jī)變量Yv構(gòu)成的集合,在已知X條件下,如果所有隨即變量Yv都服從馬爾科夫?qū)傩?,即:P(Yv|X,Yu,u≠v)=P(Yv|X,Yu,u~v),(X,Y)就是一個(gè)條件隨機(jī)場(chǎng)。在介詞識(shí)別中,X表示漢語句子集合,Y表示句中介詞的用法集合。
實(shí)驗(yàn)選用2000年2、3、4月 《人民日?qǐng)?bào)》語料作為訓(xùn)練語料,用2000年5月 《人民日?qǐng)?bào)》語料作為測(cè)試語料,統(tǒng)計(jì)方法用的特征包括詞和詞性,比較不同特征窗口訓(xùn)練實(shí)驗(yàn)的結(jié)果,確定每個(gè)介詞最佳特征窗口大小。測(cè)試實(shí)驗(yàn)結(jié)果見表2。
表2 基于統(tǒng)計(jì)方法的自動(dòng)識(shí)別結(jié)果
采用基于統(tǒng)計(jì)的方法進(jìn)行標(biāo)注,標(biāo)注正確的總個(gè)數(shù)有26037個(gè),總準(zhǔn)確率為76.80%。從表2可以看出,基于統(tǒng)計(jì)的介詞自動(dòng)識(shí)別方法總體效果比較好,覆蓋面廣,當(dāng)改變了介詞用法或義項(xiàng)后,也有很好的適應(yīng)性。不過對(duì)于一些結(jié)構(gòu)性較強(qiáng)的介詞就不如規(guī)則效果好,比如 “據(jù)”、“同”、“比”等詞。同時(shí)與規(guī)則方法相比,統(tǒng)計(jì)方法不能很好發(fā)現(xiàn)用法的不足,因?yàn)榻y(tǒng)計(jì)方法是在用法確定的情況下,通過訓(xùn)練得到每個(gè)用法的模型,然后識(shí)別測(cè)試語料中介詞的用法,它不能判斷用法本身的合理性,不能發(fā)現(xiàn)新的用法,不利于完善介詞用法的劃分和確定,比如 “由于”,只有一個(gè)用法,如果一個(gè)用法不能包含其運(yùn)用時(shí)的全部情況,規(guī)則方法可以發(fā)現(xiàn)這種不足,而統(tǒng)計(jì)方法卻不能。
鑒于規(guī)則與統(tǒng)計(jì)方法各自的優(yōu)劣,本文使用了規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,提高機(jī)器的識(shí)別能力。規(guī)則與統(tǒng)計(jì)相結(jié)合的方法有多種,本文使用兩種結(jié)合方法:宏觀結(jié)合與微觀結(jié)合。
基于規(guī)則的自動(dòng)識(shí)別和基于統(tǒng)計(jì)的自動(dòng)識(shí)別有著不同的準(zhǔn)確率,以每個(gè)介詞為單位,比較規(guī)則與統(tǒng)計(jì)準(zhǔn)確率的高低,進(jìn)行分析結(jié)合。針對(duì)某個(gè)介詞,選用準(zhǔn)確率高的方法作為優(yōu)先識(shí)別方法,準(zhǔn)確率低的方法作為輔助識(shí)別方法,如圖1所示。
宏觀結(jié)合算法分為5步:
步驟1 從語料中依次提取句子,判斷是否含有介詞,如果含有介詞,從準(zhǔn)確率文檔中找到此介詞的規(guī)則準(zhǔn)確率與統(tǒng)計(jì)準(zhǔn)確率;否則重復(fù)步驟1,繼續(xù)提取句子;
步驟2 判斷找到的介詞規(guī)則與統(tǒng)計(jì)各自準(zhǔn)確率的大小,以此確定主要的識(shí)別方法和輔助識(shí)別方法;
步驟3 采用步驟2確定的主要識(shí)別方法進(jìn)行自動(dòng)識(shí)別;
步驟4 判斷主要識(shí)別方法能否識(shí)別,能夠識(shí)別時(shí),輸出識(shí)別結(jié)果;不能識(shí)別時(shí)使用輔助識(shí)別方法進(jìn)行識(shí)別,能夠識(shí)別時(shí),輸出識(shí)別結(jié)果,不能識(shí)別時(shí),輸出識(shí)別失??;
步驟5 判斷句子是否還有介詞,如果還有介詞,從步驟2繼續(xù)執(zhí)行,否則從步驟1執(zhí)行。
相對(duì)于宏觀結(jié)合,微觀結(jié)合從更細(xì)小的結(jié)構(gòu)進(jìn)行結(jié)合,以每個(gè)介詞的每個(gè)用法為單位,進(jìn)行分析結(jié)合。同樣以準(zhǔn)確率作為參數(shù),進(jìn)行比較,如圖2所示。
微觀結(jié)合算法分為7步:
步驟1 從語料中依次提取句子,判斷句子是否含有介詞,如果含有介詞,執(zhí)行步驟2;否則,重復(fù)步驟1,繼續(xù)提取句子;
步驟2 對(duì)找到的介詞進(jìn)行規(guī)則識(shí)別和統(tǒng)計(jì)識(shí)別;
步驟3 判斷統(tǒng)計(jì)是否識(shí)別,如果統(tǒng)計(jì)不能識(shí)別,從步驟4執(zhí)行,否則,從步驟5執(zhí)行;
步驟4 判斷規(guī)則是否識(shí)別,如果規(guī)則識(shí)別,輸出規(guī)則識(shí)別結(jié)果;否則,輸出識(shí)別失敗,然后從步驟7執(zhí)行;
步驟5 判斷規(guī)則是否識(shí)別,如果不能識(shí)別,則輸出統(tǒng)計(jì)識(shí)別結(jié)果,然后從執(zhí)行步驟7;否則,執(zhí)行步驟6;
步驟6 規(guī)則以及統(tǒng)計(jì)都識(shí)別時(shí),分別從規(guī)則準(zhǔn)確率文檔中找到規(guī)則識(shí)別的用法準(zhǔn)確率,從統(tǒng)計(jì)準(zhǔn)確率文檔中找到統(tǒng)計(jì)識(shí)別的用法準(zhǔn)確率,比較大小 (與宏觀結(jié)合時(shí)不同,微觀結(jié)合時(shí)準(zhǔn)確率是介詞每個(gè)用法的,宏觀結(jié)合時(shí)是介詞總體的),如果規(guī)則的準(zhǔn)確率高,輸出規(guī)則識(shí)別結(jié)果;否則,輸出統(tǒng)計(jì)識(shí)別結(jié)果;
步驟7 判斷句子中是否還有介詞,如果還有介詞,從步驟2繼續(xù)執(zhí)行;否則,從步驟1執(zhí)行。
實(shí)驗(yàn)選用2000年2、3、4月 《人民日?qǐng)?bào)》語料作為訓(xùn)練語料,用2000年5月 《人民日?qǐng)?bào)》語料作為測(cè)試語料,實(shí)驗(yàn)結(jié)果見表3和表4。
表3 規(guī)則統(tǒng)計(jì)結(jié)合的自動(dòng)識(shí)別結(jié)果
由表3可以看出,規(guī)則統(tǒng)計(jì)相結(jié)合的方法對(duì)每個(gè)介詞自動(dòng)識(shí)別都有一定的提高,宏觀結(jié)合標(biāo)注正確的總個(gè)數(shù)有26605個(gè),總的準(zhǔn)確率為78.47%,比規(guī)則方法高11.09%,比統(tǒng)計(jì)提高1.67%。微觀結(jié)合標(biāo)注正確的總個(gè)數(shù)有27808個(gè),總的準(zhǔn)確率為82.02%,比規(guī)則方法高14.64%,比統(tǒng)計(jì)方法高5.22%。由此可以看出,微觀結(jié)合效果最好。同時(shí),因?yàn)槲⒂^結(jié)合是以用法為單位的結(jié)合,對(duì)于介詞的每個(gè)用法識(shí)別準(zhǔn)確率,同樣是可以比較的,而宏觀結(jié)合方法是以詞為單位進(jìn)行結(jié)合,不能比較。在比較單個(gè)介詞中不同用法識(shí)別情況時(shí),我們以F值為參考 (對(duì)于整個(gè)介詞來說,由于介詞的個(gè)數(shù)是確定的,所以整個(gè)介詞的準(zhǔn)確率、召回率和F值是相同的),以介詞 “在”為例,由表4可以看出,微觀結(jié)合的方法對(duì)單個(gè)用法的識(shí)別能力比另兩種方法強(qiáng)。
本文分別對(duì)介詞用法進(jìn)行了規(guī)則方法、統(tǒng)計(jì)方法以及規(guī)則與統(tǒng)計(jì)相結(jié)合方法的自動(dòng)識(shí)別研究,實(shí)驗(yàn)表明微觀規(guī)則與統(tǒng)計(jì)相結(jié)合的方法吸收了規(guī)則方法和統(tǒng)計(jì)方法各自的優(yōu)點(diǎn),具有更高的自動(dòng)識(shí)別能力。規(guī)則與統(tǒng)計(jì)結(jié)合的方法是多種多樣,找到最有效的結(jié)合方法,同時(shí)進(jìn)一步的完善介詞用法規(guī)則庫,將是提高介詞用法自動(dòng)識(shí)別能力的有效和主要途徑,也是本文下一步研究的主要方向。另外,介詞用法在信息抽取、句法分析、機(jī)器翻譯等方面的應(yīng)用是本文研究的主要?jiǎng)恿蛯?shí)際意義,是未來的應(yīng)用研究方向。
表4 介詞 “在”用法自動(dòng)識(shí)別結(jié)果
:
[1]ZHOU Lijuan,ZHANG Kunli,YUAN Yingcheng,et al.The studies on automatic recognition of rule-based modern Chinese conjunctions usages [C]// Wuhan:Proceedings of the 5th YWCL,2010:96-102 (in Chinese). [周麗娟,張坤麗,袁應(yīng)成,等.基于規(guī)則的現(xiàn)代漢語連詞用法自動(dòng)識(shí)別研究 [C]//武漢第五屆全國(guó)青年計(jì)算語言學(xué)研討會(huì),2010:96-102.]
[2]ZAN Hongying,ZHANG Junhui,ZHU Xuefeng,et al.Research on usages of Chinese adverb JIU and its automatic indentification [J].Journal of Chinese Information Processing,2010,24 (5):10-16 (in Chinese).[昝紅英,張軍琿,朱學(xué)鋒,等.副詞 “就”的用法及其自動(dòng)識(shí)別研究 [J].中文信息學(xué)報(bào),2010,24 (5):10-16.]
[3]YU Shiwen,ZHU Xuefeng,LIU Yun.Natural language understanding oriented the researches on Chinese functional words[C]//Xishuangbanna:Proceedings of the 11th the Chinese Language Information Seminar,2007:270-279 (in Chinese).[俞士汶,朱學(xué)鋒,劉云.面向自然語言理解的漢語虛詞研究[C]//西雙版納:第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集,2007:270-279.]
[4]ZAN Hongying,ZHANG Kunli,CHAI Yumei,et al.Studies on the functional word knowledge base of modern Chinese [J].Journal of Chinese Information Processing,2007,21 (5):107-111 (in Chinese).[昝紅英,張坤麗,柴玉梅,等.現(xiàn)代漢語虛詞知識(shí)庫的研究 [J].中文信息學(xué)報(bào),2007,21 (5):107-111.]
[5]LV Shuxiang.Modern Chinese eight hundred words [M].Beijing:Commercial Press,1980 (in Chinese).[呂叔湘.現(xiàn)代漢語八百詞 [M].北京:商務(wù)印書館,1980.]
[6]The Chinese social sciences academy language research laboratory dictionary editorial office. Modern Chinese Dictionary[M].5th ed.Beijing:Commercial Press,2007 (in Chinese).[中國(guó)社會(huì)科學(xué)院語言研究所詞典編輯室.現(xiàn)代漢語詞典[M].5版 北京:商務(wù)印書館,2007.]
[7]ZHANG Bin.Modern Chinese function word dictionary [M].Beijing:Commercial Press,2005 (in Chinese). [張斌.現(xiàn)代漢語虛詞詞典 [M].北京:商務(wù)印書館,2005.]
[8]HAN Yingjie,ZAN Hongying,ZHANG Kunli,et al.Auto-matic annotation of auxiliary words usage in rule-based Chinese language [J].Journal of Computer Applications,2011,31(12):3271-3274 (in Chinese).[韓英杰,昝紅英,張坤麗,等.基于規(guī)則的現(xiàn)代漢語常用助詞用法自動(dòng)識(shí)別 [J].計(jì)算機(jī)應(yīng)用,2011,31 (12):3271-3274.]
[9]YUAN Yingcheng,ZAN Hongying,ZHANG Kunli,et al.The automatic annotation algorithm design and system implementation rule-based function word usage [C]//Proceedings of the 11th CLSW,2010:163-169 (in Chinese).[袁應(yīng)成,昝紅英,張坤麗,等.基于規(guī)則的虛詞用法自動(dòng)標(biāo)注算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn) [C]//第十一屆漢語詞匯語義學(xué)研討會(huì)論文集,2010:163-169.]
[10]LIU Li,HE Zhongshi,XING Xinlai,et al.Chinese time expression recognition based on semantic role [J].Application Research of Computers,2011,28 (7):2543-2545 (in Chinese).[劉莉,何中市,刑欣來,等.基于語義角色的中文時(shí)間表達(dá)式識(shí)別 [J].計(jì)算機(jī)應(yīng)用研究,2011,28 (7):2543-2545.]
[11]ZHOU Yihui,ZAN Hongying,MU Lingling.Studies on usagesrecognition of Chinese modality based on CRFs [J].Computer Enfineering and Design,2011,32 (11):3929-3933(in Chinese).[周溢輝,昝紅英,穆玲玲.基于條件隨機(jī)場(chǎng)的語氣詞用法自動(dòng)識(shí)別 [J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(11):3929-3933.]