劉洪超,黃居仁,侯仁魁,2,李洪政
(1. 香港理工大學(xué) 中文及雙語學(xué)系,香港; 2. 魯東大學(xué)文學(xué)院,山東 煙臺 264001;3.北京師范大學(xué) 中文信息處理研究所,北京 100875)
事件類型的研究由來已久,可以追溯到古希臘和古印度時期。亞里士多德時期,事件類型被明確提出[1]。Vendler根據(jù)[telic]、[durative]、[dynamic]這三個特征將事件類型劃分為四種,如表1所示。
表1 Vendler (1967)事件類型[2]
事件類型實(shí)際上反映的是事件的內(nèi)部時間結(jié)構(gòu)(internal temporal structure)。內(nèi)部時間結(jié)構(gòu)包括幾個不同的階段(phase): 起點(diǎn)(inception)、續(xù)段(duration)和終點(diǎn)(final)[3-4]。而事件類型的劃分事實(shí)上就是根據(jù)事件在各個時間階段上表現(xiàn)出的特點(diǎn)進(jìn)行的。
首先,根據(jù)在事件發(fā)生的過程中,事件是否具有同質(zhì)性(homogeneity),將事件劃分為狀態(tài)的(stative)和非狀態(tài)的(non-stative)。狀態(tài)與其他三種事件類型的最大區(qū)別就在于其在發(fā)生過程中的同質(zhì)性,狀態(tài)沒有起點(diǎn)和終點(diǎn),在其發(fā)生的續(xù)段內(nèi),性質(zhì)不發(fā)生任何變化。例如,Mary knows Tom. 因?yàn)镸ary在任何時間都是認(rèn)識Tom的,所以這個狀態(tài)不隨著時間發(fā)生變化。
其次,在非狀態(tài)事件類型中,根據(jù)是否有界(telic),即是否具有起點(diǎn)和終點(diǎn),可以將活動與其他兩種事件類型區(qū)分開來。這里需要強(qiáng)調(diào)的是語言學(xué)上的有界和現(xiàn)實(shí)世界中的有界并不同?!皉un”本身的詞義中并沒有起點(diǎn)和終點(diǎn),盡管一個人在現(xiàn)實(shí)世界中跑步有起點(diǎn),最終也會有停止的終點(diǎn)。
最后,根據(jù)是否具有持續(xù)性(durative),可以將完成和達(dá)成區(qū)分開。達(dá)成沒有持續(xù)性,其時間結(jié)構(gòu)是點(diǎn)狀,即起點(diǎn)和終點(diǎn)重合,因此也被稱為點(diǎn)狀事件(punctual)。完結(jié)事件,顧名思義,即事件發(fā)生并最終實(shí)現(xiàn)了某一個目標(biāo)(attain a goal),比如“draw a circle”,既包含“draw”這個動作,又包含“a circle”這個最終的目標(biāo)。
事件類型跟語言中的時間,尤其是體(aspect)有非常密切的關(guān)系。英語等屈折語言有相對豐富的時體標(biāo)記,但是漢語中時體標(biāo)記相對較少。因此,通過事件類型來認(rèn)識漢語時體非常有必要,對于自然語言處理,尤其是機(jī)器翻譯等有較為重要的意義。
展開討論前,需要廓清本文的幾個基本問題:
第一,動詞、短語和句子都可以按照內(nèi)部時間結(jié)構(gòu)劃分事件類型,事件類型具有組合性。我們同意文獻(xiàn)[4]關(guān)于事件結(jié)構(gòu)(event structure)的看法: 事件結(jié)構(gòu)與論元結(jié)構(gòu)(argument structure)和物性結(jié)構(gòu)(qualia structure)一樣,都是詞語語義實(shí)現(xiàn)(semantic specification)的層面之一,都具有遞歸性;由于遞歸性的存在,從詞語到短語和句子,都具有事件類型的屬性。
第二,事件類型具有組合性。正如動詞與動詞的組合不一定是動詞性短語一樣,詞語的事件類型與其組成的短語的事件類型并不一定相同[4]。如“破”的事件類型是“狀態(tài)”,但是“破了”作為一個整體,其事件類型是“變化”。我們不同意將組成成分的事件類型與結(jié)構(gòu)整體事件類型混淆的觀點(diǎn)。以往不少研究就是沒有認(rèn)清事件類型的組合性和遞歸性,要么將整個結(jié)構(gòu)的事件類型強(qiáng)加給其中的動詞,如文獻(xiàn)[5-8],要么就是將事件類型換了個名字,如文獻(xiàn)[4]用體特征值(aspectual value)代替了事件類型,但是本質(zhì)上卻是一樣的。
第三,事件類型所涉及的最小單位是詞語的義項(xiàng)。事件結(jié)構(gòu)是結(jié)構(gòu)的語義層面之一,因此是由語義決定的,對于詞語來說,就是由詞義決定的。同一個動詞有不同的義項(xiàng),不同的義項(xiàng)可能對應(yīng)不同的事件類型,從詞語層面來講,一個動詞很可能同時具有多種事件類型。如動詞“去”有三個義項(xiàng),分別是“除去,去掉”(去皮);“從所在地到別的地方”(去了三次);“從事,做”(去討論一下)。這三個義項(xiàng)分別對應(yīng)了三種事件類型,第一個義項(xiàng)的事件類型是“狀態(tài)”,第二個義項(xiàng)的事件類型是“變化”,第三個義項(xiàng)的事件類型是“狀態(tài)”。
第四,本文不將體強(qiáng)迫現(xiàn)象(aspectual coercion)納入考慮范圍之內(nèi),如,“He played the sonata for one day.”如果不考慮體強(qiáng)迫,則事實(shí)上不合語法。因?yàn)椤皃layed the sonata”是一個完結(jié)事件,不能受持續(xù)性狀語(durative adverbials)修飾。但是如果謂語事件類型隨著持續(xù)性狀語進(jìn)行調(diào)整,即賦予“played the sonata”一個反復(fù)義(iterative interpretation),則又變得可以接受了。
體強(qiáng)迫(aspectual coercion)是非常有趣的現(xiàn)象,但是其事件類型的預(yù)測更多地與語用相關(guān),超出了本文的研究范圍。本文主要涉及的是非體強(qiáng)迫句中的漢語動詞的事件類型。
本文研究的是漢語動詞的事件類型,事件類型的組合性及其向量化表示將在另外一篇文章討論。
漢語動詞事件類型的標(biāo)注主要包括了三個步驟,即動詞的選取、事件類型標(biāo)注體系的確定及事件類型的標(biāo)注。下文將分別介紹。
本文所選擇的動詞全部來自《漢語動詞用法詞典》[10]。詞典從《現(xiàn)代漢語詞典》[11]選擇1223個動詞,共劃分出兩千多個義項(xiàng)。
雖然詞典中的動詞都是以義項(xiàng)存在,但是語料庫中的詞語卻只有詞形及其詞性標(biāo)記,語料庫中的詞語及其詞性標(biāo)記與義項(xiàng)之間并沒有規(guī)律性的對應(yīng)關(guān)系。因此,只能對所有的動詞,按照在語料庫中的詞性標(biāo)記重新建立詞條,對這些詞條進(jìn)行逐一標(biāo)注。本文所使用的語料庫為臺灣中央研究院語料庫[12],建立詞條主要包括以下幾步:
第一步,從臺灣中央研究院語料庫中抽取《漢語動詞用法詞典》收錄的所有詞形及其PoS。如果一個詞形對應(yīng)多個PoS則視為不同的詞處理。如“長”有兩個詞性標(biāo)記,VC和VH分別對應(yīng)zhang3和chang2。這實(shí)際上是兩個詞,需要分別記錄。
第二步,抽取第一步保留的動詞在臺灣中央研究院語料庫中的所有例句,按照句子和《漢語動詞用法詞典》中的義項(xiàng)描述判定動詞的語義或義項(xiàng)歸屬。如“除”有兩個記錄,一個PoS是VC,對應(yīng)的例句表示的意義是“去掉”;另一個的PoS是VJ,對應(yīng)的例句表示的是“用一個數(shù)把另一個數(shù)分為若干份”。對應(yīng)這兩個詞性標(biāo)記分別建立詞條。
建立詞條之后再對照文獻(xiàn)[3]標(biāo)注的動詞事件類型進(jìn)行標(biāo)注就變得相對簡單了。文獻(xiàn)[3]對《漢語動詞用法詞典》中的所有義項(xiàng)進(jìn)行了事件類型的標(biāo)注。表2是其事件類型及其語言學(xué)特征。
表2 文獻(xiàn)[3]事件類型及其語言學(xué)特征
注釋: I表示“開始”(inception);F表示“結(jié)束”(final);TP表示“時間短語”。
文獻(xiàn)[13]又進(jìn)一步合并了上表中的事件類型,形成了一個事件類型體系,如圖1所示。
圖1 文獻(xiàn)[13]的事件類型分類體系
本文并沒有照搬文獻(xiàn)[3]的事件類型體系,而是對其進(jìn)行了驗(yàn)證和調(diào)整。
文獻(xiàn)[3]的事件類型劃分是以動詞能否與其選擇的體標(biāo)記詞(aspectual marker)共現(xiàn),以及共現(xiàn)后表示的語義劃分的事件類型,那么這種劃分就是可以用計(jì)算方法驗(yàn)證的。驗(yàn)證實(shí)驗(yàn)的基本假設(shè)是按照文獻(xiàn)[3]對事件類型及其與特征詞的共現(xiàn)情況構(gòu)建矩陣,那么按照語義距離形成的層級分類體系應(yīng)當(dāng)與文獻(xiàn)[13]的層級分類體系相似。
表3是按照表2構(gòu)建的矩陣。
表3 文獻(xiàn)[3]的事件類型小類與其語言學(xué)特征矩陣
續(xù)表
注釋: I表示“開始”(inception);F表示“結(jié)束”(final);T表示“時間短語”
以此矩陣為基礎(chǔ)進(jìn)行的層次聚類如下: 我們用同表象相關(guān)系數(shù)(CPCC,cophenetic correlation coefficient)來衡量聚類的好壞。CPCC主要是衡量未經(jīng)建模的原始矩陣和建模之后的矩陣之間的相似度,后者代表的是層次聚類算法的矩陣[14-15]。實(shí)際上CPCC可以表示層次聚類算法所使用的矩陣在多大程度上保留了原始矩陣的信息。這個值越接近1,表明層次聚類采用的矩陣與原始矩陣之間的相似度越高。聚類結(jié)果如圖2所示。
圖2 文獻(xiàn)[3]的典型事件類型聚類結(jié)果
上圖結(jié)果的CPCC為0.85,表明聚類結(jié)果令人滿意。從上圖可以看出,Vb與Vc1的語義距離最近,Vc2與Vc3的語義距離最近,Vb、Vc1、Vc2和Vc3又聚成一個大類;Vc4與Vc5的語義距離最近,兩者組成一個類別;Vd2和Ve的語義距離最近,Vd1、Vd2和Ve組成了一個大類;Va單獨(dú)成類。
這基本上與文獻(xiàn)[13]的分類一致。Vb、Vc1、Vc2和Vc3組成了“狀態(tài)”;Vc4和Vc5組成“活動”;Vd1、Vd2和Ve組成“變化”。但是也有幾點(diǎn)不同:
首先,文獻(xiàn)[13]將Vc3歸入activity,但是根據(jù)語義距離的計(jì)算,Vc3與Vc2的相似性更大,而不是Vc4。文獻(xiàn)[3]事實(shí)上指出過,Vc1、Vc2和Vc3在以往的研究中都屬于狀態(tài)動詞,但是他認(rèn)為Vc3的“動作性已經(jīng)非常強(qiáng)”??墒鞘聦?shí)上,如果嚴(yán)格按照文獻(xiàn)[3]提出的標(biāo)準(zhǔn)進(jìn)行劃類,則類似“愛”、“病”和“承擔(dān)”這類Vc3詞,事實(shí)上應(yīng)當(dāng)與Vc2和Vc1歸入一類,同屬于“狀態(tài)”。
其次,文獻(xiàn)[3]和文獻(xiàn)[13]都將Va歸入“狀態(tài)”,但是層次聚類將其單獨(dú)列為一類。Va是一個比較特殊的類別,其內(nèi)部的詞如“是”、“等于”和“敢”等表示的是一種絕對的狀態(tài),文獻(xiàn)[6]將之稱為“絕對狀態(tài)動詞”(absolute stative verb),這類詞與其他狀態(tài)動詞的最大區(qū)別是無法用“很”進(jìn)行修飾。
再次,文獻(xiàn)[3]和文獻(xiàn)[13]將“活動”和“變化”合并為“非狀態(tài)動詞”,而層次聚類的結(jié)果表明,“狀態(tài)”跟“活動”的距離更近。
這實(shí)際上不能說是兩者的不同,因?yàn)榘凑瘴墨I(xiàn)[2]提出的標(biāo)準(zhǔn),完全可以將“狀態(tài)”和“活動”合并為“無界動詞”(non-telic verb),而將“變化”(包括“完結(jié)”和“達(dá)成”)稱為“有界動詞”(telic verbs)。由于文獻(xiàn)[2]提出了telic、dynamic(或stative)和durative三個要素來區(qū)分三者,所以怎么樣合并“狀態(tài)”、“活動”和“變化”,實(shí)際上取決于采取什么樣的觀察角度,即首先使用哪個要素來對三者進(jìn)行劃類。如果按照文獻(xiàn)[3]的標(biāo)準(zhǔn),從語義距離上說,“狀態(tài)”跟“活動”更相似,也就是文獻(xiàn)[3]的標(biāo)準(zhǔn)實(shí)際上更接近于使用[telic]作為首次劃類的標(biāo)準(zhǔn)。
所以實(shí)際需要解決的問題是Va和Vc3的歸類問題。后文將通過多元邏輯回歸分析證明,Va和Vc3歸入state是較為合適的。
所以最終,本文所采用的分類體系實(shí)際上如下:
A. 狀態(tài): Va, Vb, Vc2, Vc3
B. 活動: Vc4, Vc5
C. 變化: Vd1, Vd2, Ve
最后一個問題是,文獻(xiàn)[3]只是對占數(shù)據(jù)集絕大多數(shù)的10個典型類別進(jìn)行了劃類,對于剩余的29個其他例外類別并沒有進(jìn)行劃類。之所以稱之為例外類別,并不是因?yàn)檫@些類別不能通過選擇的語言學(xué)特征來衡量,而是它們與選擇的特征詞的共現(xiàn)情況與10個典型的類別都不一致,所以無法對之進(jìn)行歸類。
但是通過層次聚類則可以解決這一點(diǎn),層次聚類會按照語義距離對所有的類別進(jìn)行聚類,結(jié)果如圖3所示。
圖3 文獻(xiàn)[3]所有事件類型的聚類結(jié)果
CPCC為0.75,表明聚類結(jié)果也是令人滿意的。例如,ex1與Vc4和Vc5的語義距離最近,因此可以歸入“活動”,ex1包括的詞如“表決”、“挑撥”及“提倡”;再如ex18與Va的語義距離最近,可以歸為一類,ex18包含的詞如“叫”(他叫張三)、“愿意”及“尊敬”等。
如此一來,所有的例外類別也都按照與典型類別的語義距離劃入了相應(yīng)的典型事件類型中去。本文所使用的標(biāo)注體系也最終確定下來。我們采用人工標(biāo)注的方式,對由臺灣中央研究院語料庫和《漢語動詞用法詞典》對照產(chǎn)生的各個詞條進(jìn)行了事件類型的標(biāo)注,基本統(tǒng)計(jì)情況如表4所示。
表4 事件類型分布狀況
事件類型的預(yù)測是非常困難也很有意義的任務(wù)[16]。其困難在于即便是人工對其判定,未經(jīng)訓(xùn)練的標(biāo)注者準(zhǔn)確率也非常低,只有經(jīng)過專門的語言學(xué)訓(xùn)練的可靠標(biāo)注者,準(zhǔn)確率才令人滿意。文獻(xiàn)[16]采用“眾包”(crowd sourcing)的方式對意大利語進(jìn)行事件類型的標(biāo)注試驗(yàn),經(jīng)過與金標(biāo)準(zhǔn)(golden standard)對比發(fā)現(xiàn),普通標(biāo)注者的準(zhǔn)確率只有43%,而經(jīng)過語言學(xué)訓(xùn)練的可靠標(biāo)注者(trusted rater)準(zhǔn)確率可以達(dá)到93%。
Siegel[17]是較早進(jìn)行英語事件類型預(yù)測的研究者之一。他選擇了14個語言學(xué)特征用于構(gòu)建矩陣,在此基礎(chǔ)上采用了決策樹(decision tree)、邏輯回歸(logistics regression)和基因編程(genetic programming)分類器實(shí)現(xiàn)了動詞事件類型的預(yù)測,表5是其對“狀態(tài)”和“非狀態(tài)”(他稱之為event)的區(qū)分。
表5 文獻(xiàn)[17]區(qū)分“狀態(tài)”和“非狀態(tài)”結(jié)果
但是也存在一些問題。
正如文獻(xiàn)[7]所指出的,文獻(xiàn)[17]分開兩次進(jìn)行分類試驗(yàn),沒有測試模型在多分類任務(wù)上的總體準(zhǔn)確率。第二次試驗(yàn)通過分類回歸樹(classification and regression tree,CART)達(dá)到了最高的準(zhǔn)確率74%(Basline: 63.3%);兩次試驗(yàn)采用的均是hold out檢驗(yàn)法,即簡單地將數(shù)據(jù)集分為了訓(xùn)練集和測試集,這種方法對模型的驗(yàn)證說服力不強(qiáng),應(yīng)當(dāng)進(jìn)行K-fold cross validation。
文獻(xiàn)[7]采用了兩種方法構(gòu)建用于事件類型分類的特征。一種是有監(jiān)督的方法,一種是無監(jiān)督的方法。其中有監(jiān)督的方法通過在對動詞標(biāo)注大量的句法信息包括論元結(jié)構(gòu)等構(gòu)建向量矩陣,最終實(shí)現(xiàn)了85.4%的總體準(zhǔn)確率;采用無監(jiān)督的方法構(gòu)造向量矩陣主要是基于分布式語義模型,通過抽取上下文(一定窗口范圍內(nèi))的共現(xiàn)詞頻率來構(gòu)建矩陣,最終實(shí)現(xiàn)了72.5%的準(zhǔn)確率。
但是關(guān)于漢語動詞事件類型預(yù)測的研究幾乎沒有。而且漢語的識別難度要高于英語和意大利語。這兩者都是屈折語,帶有豐富的屈折語標(biāo)記,所以可以直接使用這些標(biāo)記進(jìn)行預(yù)測,取得較高的識別效果。但是漢語幾乎沒有這樣的標(biāo)記,根據(jù)以往的語言學(xué)研究如文獻(xiàn)[3,6,13,18-20]等,只能發(fā)現(xiàn)“很”“在”“正在”“著”“了”“過”等幾個體標(biāo)記(aspectual marker)。
本文通過兩種方式構(gòu)建動詞事件類型的特征矩陣。一種是使用語言學(xué)特征構(gòu)建向量矩陣,另一種是使用word2vec構(gòu)建向量矩陣。下面將分別介紹通過這種方式構(gòu)建向量矩陣實(shí)現(xiàn)動詞事件類型的預(yù)測過程。
對于語言學(xué)特征,本文選擇了“很”“在”“正在”“著”“了”“過”及動詞在臺灣中央研究院語料庫中的頻率信息。值得注意的是,除了“很”之外,其他幾個體標(biāo)記都有同形詞,如“在”既可以是介詞(在家里),也可以是體標(biāo)記(在吃飯),依靠詞性標(biāo)記可以將之區(qū)分開,特征詞及其詞性標(biāo)記如表6所示。
表6 特征詞及其詞性標(biāo)記
前文提及了只有將Va和Vc3歸入“狀態(tài)”才是較為合適的做法,這可以通過構(gòu)建的語言學(xué)特征向量矩陣進(jìn)行驗(yàn)證。既然文獻(xiàn)[3]提出的事件類型都是按照其提出的語言學(xué)特征進(jìn)行歸類,那么如果依靠這些特征構(gòu)建出的動詞的特征向量應(yīng)該可以實(shí)現(xiàn)動詞事件類型的預(yù)測。我們采用動詞與目標(biāo)詞的共現(xiàn)頻率作為特征向量值。共現(xiàn)頻率的計(jì)算是在臺灣中央研究院的精標(biāo)語料庫上實(shí)現(xiàn)的。我們采用了多元邏輯回歸分析來驗(yàn)證兩者之間的關(guān)系。
實(shí)驗(yàn)的基本假設(shè)是,如果Va和Vc3歸入“狀態(tài)”才是較為合適的,那么使用選擇的語言學(xué)特征就可以擬合出比隨機(jī)模型好的多元邏輯回歸模型;同時,將Va和Vc3歸入其他事件類型,則不能實(shí)現(xiàn)比隨機(jī)模型好的多元邏輯回歸模型。
多元邏輯回歸是邏輯回歸的一種,使用最大似然估計(jì)出相關(guān)參數(shù)。使用多元邏輯回歸對自變量和因變量進(jìn)行分析時,需要先進(jìn)行似然比檢驗(yàn),以確定特征的有效性,其基本原理就是通過引入了特征的模型和未引入特征的隨機(jī)模型進(jìn)行對比。由于兩者似然值的差值服從χ2分布,因此可以借助該統(tǒng)計(jì)檢驗(yàn)量來驗(yàn)證模型的有效性。
表7是將Va和Vc3歸入“狀態(tài)”時的似然比檢驗(yàn)結(jié)果。
表7 將Va和Vc3歸入“狀態(tài)”時的似然比檢驗(yàn)結(jié)果
p值表明模型是有效的,我們也檢驗(yàn)了將Va和Vc3放入其他類別,p值都為1.00,這表明模型都是無效的。由于篇幅原因,不再具體展開。由此證明,Va和Vc3應(yīng)當(dāng)歸入“狀態(tài)”。
作為對比,本文引入了詞性標(biāo)記的語言學(xué)特征向量。基于這些語言學(xué)特征向量矩陣,除多元邏輯回歸外,本文進(jìn)一步使用支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)分類器對標(biāo)注的數(shù)據(jù)集進(jìn)行了分類試驗(yàn),所有的實(shí)現(xiàn)使用的都是十折交叉檢驗(yàn)。表8是各個分類器在選擇不同特征的情況下實(shí)現(xiàn)的總體準(zhǔn)確率(overall accuracy):
表8 基于語言學(xué)特征向量的試驗(yàn)結(jié)果
注: MNLogit表示多元邏輯回歸;SVM表示支持向量機(jī);ANN表示人工神經(jīng)網(wǎng)絡(luò)。
僅僅使用體標(biāo)記副詞(aspectual adverb)基于多元邏輯回歸了65.4%的準(zhǔn)確率;作為對比的詞性標(biāo)記(PoS)基于多元邏輯回歸實(shí)現(xiàn)了67.83%的準(zhǔn)確率,單單從數(shù)字上看,似乎使用詞性標(biāo)記效果好于使用體標(biāo)記副詞,但是使用配對樣本檢驗(yàn)結(jié)果表明兩者的差異并不具有顯著性,如表9~10所示。
表9 MNLogit(adv)和MNLogit(PoS)試驗(yàn)結(jié)果統(tǒng)計(jì)
表10 MNLogit(adv)和MNLogit(PoS)試驗(yàn)結(jié)果配對樣本t檢驗(yàn)結(jié)果
所以兩種特征在預(yù)測動詞事件類型的能力上都相似。將所有特征考慮進(jìn)來,實(shí)現(xiàn)了最高69.32%的整體準(zhǔn)確率,與其他情況進(jìn)行配對t檢驗(yàn)表明,差異是顯著的。
基于aspectual marker等共現(xiàn)詞來判定動詞的事件類型實(shí)際上是在某種程度上根據(jù)上下文來預(yù)測動詞的事件類型,只是這里的上下文是經(jīng)過了篩選的上下文。篩選工作是由語言學(xué)家進(jìn)行的,但是這些信息很有可能是不全的,缺失的信息在一定程度上會影響動詞事件類型的預(yù)測準(zhǔn)確率。
既然很難將能夠影響動詞事件類型的所有上下文信息依靠人工的方式挑選出來,那么解決這個問題的一個辦法是把上下文的所有信息都用來預(yù)測動詞的事件類型。其理論基礎(chǔ)就是分布式語義假設(shè)。
Distributional semantic hypothesis認(rèn)為出現(xiàn)在相似的上下文中的詞,在語義上更加相近[21]?;诜植际秸Z義假設(shè)構(gòu)建的詞與上下文共現(xiàn)詞形成矩陣就稱為分布式語義模型。由于基于上下文共現(xiàn)詞不需要人工的選擇,因此是一種非常好的無監(jiān)督構(gòu)建向量矩陣的方法,并且目前在多種任務(wù)上都被證明有相當(dāng)不錯的表現(xiàn)[22-23]。
基于分布式語義假設(shè),我們的推斷是: 上下文相似的動詞,其事件類型也相似。我們選擇了與當(dāng)前動詞的距離為5(左5,右5)的所有的上下文,通過word2vec構(gòu)建了500維的向量矩陣。Word embedding向量是在sinica corpus[12]及Chinese Gigaword corpus[24]上訓(xùn)練完成。所有的詞性標(biāo)記都與Sinica corpus一致。
分別采用多元邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)作為分類器進(jìn)行了試驗(yàn),模型的整體準(zhǔn)確率如表11所示。
表11 基于詞嵌入向量的動詞事件類型預(yù)測效果
可以看出,使用支持向量機(jī)作為分類器達(dá)到了最高的分類準(zhǔn)確率73.60%,比Baseline高12.9%,比使用語言學(xué)特征的模型的最高準(zhǔn)確率69.32%,高4.3%。下面我們用配對t檢驗(yàn)檢查差異是否是顯著的,如表12所示。
表12 SVM(word2vec)和MNLotgit(adv+freq+pos)的配對t檢驗(yàn)結(jié)果
統(tǒng)計(jì)結(jié)果顯示,使用無監(jiān)督方式構(gòu)造的上下文向量構(gòu)建的模型,其預(yù)測準(zhǔn)確率顯著地高于使用語言學(xué)特征構(gòu)建的模型。表13中是每個小類的分類效果。
表13 基于word2vec的支持向量機(jī)分類結(jié)果
本文分別基于語言學(xué)特征向量和詞嵌入向量實(shí)現(xiàn)了動詞事件類型的預(yù)測,本文的主要貢獻(xiàn)有:
第一,基于文獻(xiàn)[3]對《漢語動詞用法詞典》重新標(biāo)注和驗(yàn)證了動詞事件類型,形成了總量達(dá)到1 610個的漢語動詞事件類型數(shù)據(jù)集,可以直接用于相關(guān)模型的訓(xùn)練和評價;
第二,實(shí)現(xiàn)了漢語動詞事件類型的預(yù)測,最高準(zhǔn)確率達(dá)到73.60%。
我們的未來工作將集中于短語和句子事件類型的識別。
[1]Binnick R I. Time and the verb: A guide to tense and aspect[M]. Oxford: Oxford University Press,1991.
[2]Vendler Z. Linguistics and philosophy[M]. New York: Cornell University Press,1967.
[3]郭銳.漢語動詞的過程結(jié)構(gòu)[J].中國語文, 1993,6: 410-419.
[4]Pustejovsky J. The syntax of event structure[J]. Cognition, 1991,41(1): 47-81.
[5]Smith C S. The parameter of aspect[M]. Berlin: Springer Science & Business Media,1991.
[6]He B. Situation types and aspectual classes of verbs in Mandarin Chinese[D]. The Ohio State University Ph.D.thesis, 1992.
[7]Zarcone A, A Lenci. Computational Models for Event Type Classification in Context[C]//Proceedings of LREC. 2008.
[8]Xu H. The Chinese aspectual system[D]. The Hong Kong Polytechnic University Ph.D.thesis, 2015.
[9]Verkuyl H J. On the compositional nature of the aspects[M]. Dordrecht: Reidel, 1972.
[10]孟琮.漢語動詞用法詞典[M].北京: 商務(wù)印書館, 1982.
[11]中國社會科學(xué)院語言研究所詞典編輯, 現(xiàn)代漢語詞典[M]. 北京: 商務(wù)印書館, 1990.
[12]Chen K-J, et al. Sinica corpus: Design methodology for balanced corpora[J]. Language, 1996. 167: 176.
[13]郭銳.過程和非過程--漢語謂詞性成分的兩種外在時間類型[J].中國語文, 1997,(3): 162-175.
[14]Hou R, M Jiang. Analysis on Chinese quantitative stylistic features based on text mining[J]. Digital Scholarship in the Humanities, 2014: 67.
[15]Hou R, J Yang, M Jiang. A Study on Chinese Quantitative Stylistic Features and Relation Among Different Styles Based on Text Clustering[J]. Journal of Quantitative Linguistics, 2014. 21(3): 246-280.
[16]Tommaso C, C-R Huang. Sourcing the Crowd for a Few Good Ones: Event Type Detection[C]//Proceedings of COLING. 2012.
[17]Siegel E V. Linguistic indicators for language understanding: using machine learning methods to combine corpus-based indicators for aspectual classification of clauses[D]. Columbia University Ph.D.thesis, 1998.
[18]Tai J. Verbs and times in Chinese: Vendler’s four categories[C]//Proceedings of the parasession on lexical semantics. 1984.
[19]鄧守信. 漢語動詞的時間結(jié)構(gòu)[J].語言教學(xué)與研究, 1985,(4): 7-17.
[20]陳平. 論現(xiàn)代漢語時間系統(tǒng)的三元結(jié)構(gòu)[J].中國語文, 1988,6: 22.
[21]Harris Z S. Distributional structure[J]. Word, 1954,10(2-3): 146--162.
[22]Liu H, et al. EVALution-MAN: A Chinese Dataset for the Training and Evaluation of DSMs[C]//Proceedings of the Tenth International Conference on Language Resources and Evaluation.Paris: European Language Resources Association (ELRA), 2016.
[23]Santus E, et al.EVALution 1.0: an Evolving Semantic Dataset for Training and Evaluation of Distributional Semantic Models[C]//Proceedings of ACL-IJCNLP 2015, 2015.
[24]Hong J-F, C-R Huang. Using chinese gigaword corpus and chinese word sketch in linguistic research[C]//Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC-20).2006.