?
基于最大熵模型的漢語標(biāo)點句缺失話題自動識別初探*
通信地址:100871 北京市北京大學(xué)中國語言文學(xué)系A(chǔ)ddress:Department of Chinese Language and Literature,Peking University,Beijing 100871,P.R.China
盧達威1,宋柔2
(1.北京大學(xué)中國語言文學(xué)系,北京 100871;2.北京語言大學(xué)語言信息處理研究所,北京 100083)
摘要:本文的任務(wù)是判別標(biāo)點句缺失話題是上句的主語還是賓語,將該任務(wù)作為標(biāo)點句缺失話題自動識別研究的切入點。首先歸納了判別這一任務(wù)的一系列字面特征和語義特征,然后結(jié)合規(guī)則和最大熵模型,進行自動判別實驗。結(jié)果顯示,對特定類別動詞的實驗F值達到82%。對實驗結(jié)果的分析說明,動詞特征和語義特征對判別該任務(wù)的作用最大,規(guī)則方法和統(tǒng)計方法在判別任務(wù)中不能偏廢,精細化的知識對判別的性能有重要影響。
關(guān)鍵詞:廣義話題結(jié)構(gòu);新支話題;自動識別;最大熵模型 關(guān)系句的判斷以一系列作為代表,包括表判斷的“是”、“屬于”、“當(dāng)作”、“稱為”等,表相似比喻關(guān)系的“像、好像、比如”等,以及表比較的“比”等。如:
1引言
標(biāo)點句是指漢語文本中逗號、分號、句號、嘆號、問號、直接引語的引號以及這種引號前的冒號所分隔出的詞語串,是漢語篇章的基本單位[1~3]。文獻[4]在大規(guī)模語料庫統(tǒng)計中發(fā)現(xiàn),漢語篇章中,標(biāo)點句的話題缺失是常態(tài)。如:
c2:
‖
說住在火車站旁一家旅館內(nèi),
c3:便搬去了。
上例有3個標(biāo)點句,除c1的話題—說明結(jié)構(gòu)完整外,c2、c3都缺話題。標(biāo)點句的話題缺失對機器翻譯、文本摘要等都是一大挑戰(zhàn)。話題屬于語用范疇的問題,不容易通過統(tǒng)計獲得。
細讀c2、c3發(fā)現(xiàn),它們所缺話題并不一樣。c2的話題是“李顧留的紙條”,是c1的賓語;c3的話題是“三人”,是c1的主語。在英語中,話題是上句的賓語還是主語可以用一定的形式手段來表達,如c2可以用關(guān)系從句來表現(xiàn)。漢語缺乏形式標(biāo)記,雖然漢語母語者也很容易憑借語感判斷標(biāo)點句所缺的話題是什么,但讓計算機自動判別就十分困難。另外,通過對大規(guī)模語料的調(diào)查發(fā)現(xiàn),標(biāo)點句所缺話題除了上句的主語和動詞賓語外,還可能是上句的介詞賓語、主謂語句小主語、從句主語等,甚至上句整句作為話題[5]。因此,計算機自動識別標(biāo)點句缺失話題是一項十分困難的任務(wù)。
文獻[6]針對百科全書語料通過人工語義泛化標(biāo)注和計算相似度的方法來識別標(biāo)點句的缺失話題,F(xiàn)值達到73.64%,文獻[7,8]又作了改進。由于上述方法需要大量語料標(biāo)注,且針對百科全書語料的,對通用語料來說,全面的語義泛化十分困難。本文嘗試從另一個角度切入,將問題的范圍限定為:僅對給定的樣本,區(qū)分標(biāo)點句所缺話題是上句的主語還是賓語。這樣就將問題簡化為樣本的二值分類問題。本文首先從語言學(xué)和認(rèn)知方面入手,挖掘上下文的特征,進而使用統(tǒng)計機器學(xué)習(xí)方法,學(xué)習(xí)各個特征的權(quán)重,實現(xiàn)計算機的自動判別。
2實驗樣本選擇
(1)每個樣本以文本中相鄰的兩個標(biāo)點句為原型,由前一標(biāo)點句的話題自足句(標(biāo)點句如果不缺少話題或說明,則本身就是話題自足句,否則按照廣義話題結(jié)構(gòu)流水模型的規(guī)律,從上下文補足所缺的話題或說明,補足后稱為話題自足句。定義詳見文獻[3]。)和后一標(biāo)點句組成一個句對。其中,前一個標(biāo)點句的話題自足句稱為上句,后一個標(biāo)點句稱為本句。
(2)上句必須是主動賓結(jié)構(gòu)。
(3)本句必須是缺話題的標(biāo)點句,而且話題一定在上句出現(xiàn),且話題不是上句主語就是上句賓語。
如果樣本中本句所缺話題是上句的賓語,這類樣本稱為新支樣本,本句稱為新支句,上句的賓語稱為新支話題,如例1中c1的“李顧留的紙條”就是新支話題;如果本句所缺話題是上句的主語,則該樣本稱為非新支樣本。
本文實驗的目標(biāo)就是讓計算機自動區(qū)分新支樣本和非新支樣本。
本文以“廣義話題結(jié)構(gòu)標(biāo)注語料”(“北京語言大學(xué)語言信息處理研究所廣義話題結(jié)構(gòu)標(biāo)注語料(2014年5月28日版)”共有37萬余字,含3萬多個標(biāo)點句,包括小說、百科全書、政府工作報告等多種語體的語料,詳見文獻[9]。語料免費公開使用,地址為:http://pan.baidu.com/s/1i3qpibb。)為基礎(chǔ),從中篩選出所有符合以上要求的新支樣本,共有431例。另從《圍城》全文和北京語言大學(xué)CCRL語料庫中,抽取符合要求的新支樣本228例。實驗的新支樣本合共641例,組成新支樣本集。
經(jīng)統(tǒng)計,在新支樣本集中,引出新支話題的不同的動詞(如例1的“看見”)共有267個,這些動詞的詞形在本文實驗中將直接作為實驗的特征。
我們以這267個動詞為基礎(chǔ)來篩選非新支樣本,篩選條件是:非新支樣本的上句必須主動賓齊全,且動詞必須是這267個詞之一,同時本句以上句主語為話題。在“廣義話題結(jié)構(gòu)標(biāo)注語料”中,共選出符合上述條件的非新支樣本集1 508例。
3特征的分析與標(biāo)注
通過對新支樣本和非新支樣本的詳細分析發(fā)現(xiàn),影響本句話題所指的上下文因素非常復(fù)雜,涉及句法、語義、語用、常識,甚至專業(yè)知識等。從工程計算的角度,我們將這些特征分為六類:動詞特征、接續(xù)特征、信息量特征、句法特征、語義特征和其他特征。
動詞特征是指以樣本上句主動賓句式中動詞的詞形為特征(即2.3節(jié)中提到的267個動詞)。文獻[10]對動詞引出新支話題能力已有初步研究。由于每個動詞對于是否能帶賓語,以及所帶賓語是否容易作為下一個標(biāo)點句的話題,能力不一樣,因此動詞詞形本身具有重要的區(qū)別意義。有些動詞在語料庫中出現(xiàn)頻率很高,但沒有引出過新支話題,如“去”“沒有”“工作”等。語料中,引出新支話題數(shù)量最多的動詞是“有”(84例)、“是”(46例)、“為”(26例),其他都不超過20例。
接續(xù)特征的計算方法是:以二元語言模型為基礎(chǔ),分別計算上句動詞賓語與本句首詞接續(xù)概率,和主語與本句首詞分別的接續(xù)概率,再以兩者概率之差為判別新支樣本的候選特征。
漢語缺少主謂一致等形態(tài)變化(性、數(shù)、格等),無法通過語言中的標(biāo)記來判斷話題接續(xù),故我們通過接續(xù)概率來預(yù)測。如果樣本中本句的話題是上句主語/賓語,那么對于漢語來說,上句主語/賓語與本句通??梢圆唤?jīng)刪改直接連成句法通順、語義合理的句子。既然如此,這種接續(xù)情況在大規(guī)模語料下應(yīng)該會出現(xiàn)在一個完整的句子中,接續(xù)概率相對高。反之,若上句主語/賓語與本句首詞接不起來,那么這種接續(xù)概率在大規(guī)模語料庫中很可能較低。例如:
‖里面想是米
該例是新支樣本的例子,上句主語是“他”,賓語是“滾圓的麻袋”,統(tǒng)計時以“麻袋”為賓語核心詞。本句首詞是“里面”。從接續(xù)概率上看,“麻袋里面”比“他里面”概率高,故按接續(xù)概率計算,傾向于將該例判斷為新支樣本。
由于句法的多樣性和復(fù)雜性,目前漢語自動句法分析的準(zhǔn)確率不高,故在計算時,對上句賓語,我們通過人工標(biāo)記出每個樣本上句動詞賓語的核心成分,再在語言模型中查詢該成分和本句首詞的接續(xù)概率;對上句主語,我們既不做句法分析,也不做人工標(biāo)注主語核心詞,而是直接分詞處理,計算上句動詞前每個詞與本句首詞的接續(xù)概率,取其最大值作為該樣本上句主語和本句的接續(xù)概率。
文獻[11]指出,信息量對新支句的形成有重要作用。若上句賓語的信息量越小,則越有必要對賓語所指事物進一步說明,故賓語成為新支話題的可能性越大。反之,若上句賓語信息量越大,則對賓語所指事物再加以說明的必要性越小,賓語成為新支話題的可能性越小。此時,本句傾向于說明主語的某些結(jié)果,上句主語成為本句話題的可能性大。
由于信息量不容易計算,在實驗中,我們用了兩個特征進行粗糙的模擬,即賓語詞數(shù)和字?jǐn)?shù)比所有樣本賓語平均詞數(shù)和字?jǐn)?shù)多還是少。
這里的句法特征是指能夠從字面識別的特征,這些特征是人的認(rèn)知和語義在字面上的體現(xiàn)。這類特征可以被計算機直接識別,包括:
(1) 標(biāo)點符號特征:若上句標(biāo)點為句號、嘆號、問號、分號,本句一般不成為新支句。
上句句末為句號、分號、嘆號、問號等有較大停頓的標(biāo)點符號時,表示上句意義相對完整,故本句難以就上句的賓語作進一步說明。
例3①顎針魚科下咽骨被有細小尖齒;
鼻骨大,
②顎針魚科兩頜具細小尖齒,
‖呈帶狀排列,
上例都是百科全書中的原文,例中①和②的上句意思相當(dāng),賓語相同。①的上句句末用分號,提示讀者,后文不會再對“細小尖齒”做進一步說明。②的上句句末用逗號,提示后文可能繼續(xù)說明“細小尖齒”。
(2) 本句句首是后連詞時,一般不成為新支句。
例4王腳擦汗時看到兒子王肝和女兒王膽,
便大聲喝斥
該例的上句主語“王腳”和賓語“兒子王肝和女兒王膽”,在語義上都能與本句“大聲喝斥”搭配。位于標(biāo)點句句首的連詞“就”、“便”等表示上文動作的順承。因此,本句話題傾向于“王腳”。
(3)上句特征動詞后有趨向動詞時,其動詞賓語傾向于成為新支話題。
趨向動詞往往表示句中主體(人或事物)的位置移動[12],若移動的主體是賓語時,該主體往往因位置移動而從隱蔽處顯現(xiàn),有進一步說明的需要,容易成為新支話題。
例5阿劉手向口袋里半天掏出來一只發(fā)釵,
‖就是那天鮑小姐擲掉的。
例中“發(fā)釵”是因位移引介出來的新事物,成為了新支話題。
(4) 本句是關(guān)系句而上句不是關(guān)系句時,本句傾向成為新支句。
例6老大這個孩子后來看中蘇鴻業(yè)的女兒,
‖也是有錢有勢的人家。
該例上句不是關(guān)系句,本句是表歸類的關(guān)系句,是對上句賓語“蘇鴻業(yè)的女兒”描寫,成為新支句。
(5)本句是有字句而上句不是有字句時,本句傾向成為新支句。
例7車?yán)椒ㄗ饨邕吷希?/p>
‖有一個法國巡捕領(lǐng)了兩個安南巡捕在搜檢行人,
“有”字的一大功能是表存在。該例動詞賓語“法租界邊上”是方位短語,與本句構(gòu)成存現(xiàn)句,故本句成為新支句。
例8沙發(fā)旁一個小書架猜來都是張小姐的讀物。
‖有原文小字白文《莎士比亞全集》、《新舊約全書》、《家庭布置學(xué)》、翻版的《居里夫人傳》、《照相自修法》、《我國與我民》等不朽大著以及電影小說十幾種
該例的本句表列舉,是對動詞賓語外延的進一步擴充。
語義特征是判斷是否新支樣本的最主要因素。實際上,上文的接續(xù)特征本身就是語義特征的一種,它模擬了人的認(rèn)知中某兩個詞語之間的緊密程度。這里的語義特征專指需要人工語義標(biāo)注的特征。
(1)語義泛化。
實驗中,我們對上句主/賓語核心詞、本句主語核心詞以及本句謂語核心詞進行了人工語義泛化標(biāo)注。主/賓語核心詞的語義泛化類型有:人、人的部件、人的部位、人的屬性、人的反應(yīng)性部位(如“心里”)、事物、事物部位、事物部件、事物屬性、書信、書信部件、書信屬性、信息、指示詞、抽象物。
對本句謂語核心詞的語義泛化類型有:一般行為、反應(yīng)性行為、反應(yīng)性形容詞、一般形容詞、狀態(tài)動詞、具有“是”“有”“說”“看”“聽”意義的動詞、關(guān)系動詞、一般名詞。
(2) 基于語義泛化的平行結(jié)構(gòu)。
若經(jīng)過語義泛化后,上句中存在某一個后段與本句結(jié)構(gòu)相似,則標(biāo)記該樣本為平行結(jié)構(gòu)。此時,本句共享上句平行結(jié)構(gòu)前的部分作為話題。為避免句法分析,平行結(jié)構(gòu)均人工標(biāo)注。
例9阿古柏本為浩罕的軍官,
初為浩罕國王呼達雅爾汗的”穆合熱本”,
該例上句和本句構(gòu)成“時間副詞+擔(dān)任+隸屬者+職務(wù)”的平行結(jié)構(gòu),本句共享“阿古柏”為話題。
例10自薊城向南可直下中原,
向西北徑上蒙古高原,
該例上句和本句構(gòu)成“自+處所A+向+方向+到達+處所B”的平行結(jié)構(gòu),本句共享“自薊城”為話題。
除了以上列舉的特征外,常識和專業(yè)知識對新支樣本的判斷也有影響。
例11他們路上碰見兩個潰兵,
‖搶去方老先生的錢袋,從語義上看,“他們搶去了錢袋”也是通順的。但是常識上“潰兵”容易讓人與“搶”的施動者聯(lián)系起來,故人傾向?qū)⒈揪淅斫獬尚轮Ь洹?/p>
例12鰺尾鰭分叉深,
下葉比上葉略長;
若不具備專業(yè)知識,就不知道“下葉”是“尾鰭”的組成部件,還是“鰺”的身上與“尾鰭”同等地位的部件。有了魚類部件的專業(yè)知識,才知道下葉是尾鰭的一部分。
但是,由于常識和專業(yè)知識類特征過于復(fù)雜,難以提取,本文實驗暫沒采用。
在以上特征中,動詞特征、信息量特征、接續(xù)特征、句法特征都是可以通過字面統(tǒng)計或推導(dǎo)出來的,實驗中統(tǒng)稱為字面特征,而區(qū)別于需要人工標(biāo)注的語義特征。
4實驗方法
通過上節(jié)的分析可見,判別新支樣本的特征是分別從句法、語義、語用甚至常識中提取出來的,這些特征的粒度差異大,特征間的同質(zhì)性不高,難以預(yù)測在自然語言中的概率分布,故我們采用最大熵模型作為機器學(xué)習(xí)模型。因為最大熵模型的特征選擇較為靈活[13],且特征之間不需要獨立性假設(shè)或者其他內(nèi)在約束,能夠較好地把人的知識以特征的形式融合到統(tǒng)計模型中,最大限度將人的知識與統(tǒng)計方法相結(jié)合。
由于最大熵模型是以整體準(zhǔn)確率來評價結(jié)果好壞的,而新支句判別問題是一個非均衡的分類問題。總體樣本中,新支樣本641例,非新支樣本1 508例,比例約為1∶2.35。這種情況下,即使把全部樣本2 149例全部判為非新支句,整體準(zhǔn)確率也能達到70.2%。但是,這并非實驗所要達到的目標(biāo)。我們更關(guān)注新支樣本的準(zhǔn)確率和召回率,故在實驗中,我們調(diào)整新支樣本的權(quán)重。方法是:在構(gòu)造訓(xùn)練集時,將新支樣本復(fù)制若干份,使得新支樣本和非新支樣本比例約為1∶1左右,而測試集則保持原來的比例不變。
由于總體樣本較少,為了更充分地利用有限的樣本,我們采取“留一交叉驗證”的方法進行測試。具體方法如下:將非新支樣本集和未經(jīng)復(fù)制的新支樣本集合起來作為“原始庫”;將非新支樣本集和復(fù)制了若干份的新支樣本集合起來作為“調(diào)整庫”。每次實驗,在原始庫中取一個樣本作為唯一測試對象,調(diào)整庫中臨時除去這個測試對象后的數(shù)據(jù)作為訓(xùn)練集。如此,對原始庫中的每個樣本都測試一次,最后對原始庫所有樣本的測試結(jié)果進行統(tǒng)計。
5實驗過程和結(jié)果
原語料中,新支樣本641例,非新支樣本1 508例。訓(xùn)練時,經(jīng)權(quán)重調(diào)整,新支樣本調(diào)整為原來的3倍,即1 923例;測試時,按原語料逐一進行留一交叉驗證。由于時間和精力有限,全語料的判別實驗僅采用字面特征,包括:動詞特征、接續(xù)特征、句法特征和信息量特征,沒有引入語義特征。實驗結(jié)果如表1所示。
Table 1 New branch recognition results in full data
注:表中“新支正確”指的是新支樣本被判為新支;“新支錯誤”指的是新支樣本被判為非新支;“非新支正確”指的是非新支樣本被判為非新支;“非新支錯誤”指的是非新支樣本被判為新支。下同。
這一結(jié)果是新支樣本自動判別實驗的Baseline。新支樣本判斷的準(zhǔn)確率為47.85%,召回率為62.40%,非新支樣本的判斷正確率要高于新支樣本近10個百分點。為衡量各個特征的貢獻度,我們計算了每個特征的信息增益(如表2所示)以及各特征權(quán)重值λ(如表3所示)。
Table 2 Information gain of each literal
表2是按照調(diào)整庫來計算特征的信息增益,按照信息增益的值由大到小列出了特征信息增益前5的特征。其中,區(qū)分度最明顯的是上句核心謂語動詞的特征,遠高于其他特征。其次是標(biāo)點符號。
Table 3 Weight value λ of each non-verbal
注:(1)表中的lambda函數(shù)是最大熵實現(xiàn)程序中的特征權(quán)重的表現(xiàn)形式。lambda函數(shù)的參數(shù)中,第一個參數(shù)值0表示新支,1表示非新支,第二個參數(shù)是特征值,如FinishedSent表示句號類標(biāo)點。lambda函數(shù)表明經(jīng)過模型訓(xùn)練后,該特征傾向于對新支樣本還是非新支樣本有貢獻,等號后的數(shù)字表示其權(quán)重。下同。(2)動詞特征權(quán)重表中沒有列出,如排名在1~87、89~90等的特征,均為動詞特征。
表3列出了排在前5名的非動詞特征值。本實驗中,含動詞在內(nèi)全部特征值有248個,而排在前88的都是動詞特征(即各動詞詞形,表中沒有列出),可見動詞特征是影響新支判別最重要的因素。除動詞特征外,上句句末的標(biāo)點符號為句號、嘆號、問號等標(biāo)點符號作為特征值的權(quán)重最大,從lambda函數(shù)看,模型認(rèn)為遇到這類特征傾向于判斷為非新支樣本。其次是本句句首為“就”或“便”這種后連詞,模型傾向于判斷為非新支樣本。
結(jié)合以上兩個表可見,動詞特征對新支樣本的判別效果是最顯著的。故,為了進一步考察不同動詞對于其他各種特征及特征值敏感程度的差異,我們選擇了兩類有代表性的典型動詞進行實驗。一類是動詞“有”;另一類是“看聽”類動詞,包括“看”“聽”“見”“瞧”“看見”“聽見”“瞧見”“看看”等。我們把含有這些典型動詞的新支樣本和非新支樣本挑出來,單獨組成該類實驗動詞的語料庫,進一步做語義泛化標(biāo)注和實驗。
挑選“有”作為典型動詞進行實驗,有以下幾個原因:從統(tǒng)計上看,動詞“有”新支樣本數(shù)量最多,且總體樣本數(shù)量也最多,有較好的統(tǒng)計意義。從語義上看,“有”的義項中出現(xiàn)最多的是擁有和存在,它們的語用意義很多情況下是引出上文中未出現(xiàn)過的新事物,很可能接下來要介紹這個新事物,因此“有”的賓語成為新支話題的可能性大。在語料中,含有“有”的新支樣本共84例,非新支樣本446例。訓(xùn)練時,調(diào)整庫中,新支樣本調(diào)整為原來的6倍,即504例;測試時,按原語料逐一進行留一交叉驗證。我們首先做基于字面特征的實驗,然后加入語義特征再次實驗。
(1)基于字面特征。
對“有”的實驗,按照接續(xù)特征、句法特征、信息量特征等字面特征進行最大熵的訓(xùn)練,結(jié)果如表4右欄。全語料中“有”樣本判別結(jié)果和“有”單獨實驗相比,二者選取的特征是相同的。全語料實驗中,新支樣本判斷的正確率只有29.76%,模型把大部分“有”類樣本判定為非新支樣本,包括410個非新支樣本和59個新支樣本,共469個,占全體530個樣本的88.5%。而“有”類樣本單獨實驗中,模型把大部分新支樣本都判斷正確了,新支樣本判斷正確率90.48%,但也把179個非新支樣本判為新支樣本。我們考察“有”類樣本單獨實驗的特征權(quán)重值如表5所示。
Table 4 Comparison of the new branch recognition
Table 5 Weight value λ of each literal feature of “YOU”
對比表3和表5,兩個實驗使用了相同的字面特征,但是權(quán)重值排序不一樣,有些具體的特征傾向性也不一樣。因為在全語料中,“有”的樣本的判斷正確率受到其他動詞的干擾。
(2)基于字面特征+語義泛化。
“有”類樣本的語義特征標(biāo)注包括平行結(jié)構(gòu)和賓語語義泛化。
平行結(jié)構(gòu)定義如3.5節(jié),具有平行結(jié)構(gòu)的樣本,本句傾向于成為非新支句。
“有”的賓語語義泛化可以分為兩類,一類指具體事物,一類指抽象事物。具體事物較容易作為新支話題,而抽象事物作新支話題通常比較困難。如:
‖規(guī)模均很小
上例“紡織廠”是一個具體的事物,被“有”引出后,從認(rèn)知上,有需要介紹其更多情況,如規(guī)模、產(chǎn)量、產(chǎn)品等屬性。
曾任國際天文學(xué)聯(lián)合會恒星光譜組和恒星結(jié)構(gòu)組主席。
上例“聲望”是一種抽象的概念,內(nèi)涵比較單一且明確,被“有”引出后,不需要對其屬性進一步說明。
這兩種特征引入模型后,含語義特征在內(nèi)的各特征的信息增益情況如表6所示。在“有“的語料中,所有平行結(jié)構(gòu)的樣本都為非新支樣本,而上句賓語為抽象名詞的樣本也大多數(shù)是非新支樣本,故這兩種特征的信息增益都較大。
Table 6 Information gain of each literal and semantic feature
實驗結(jié)果如表7所示。
Table 7 New branch recognition results in “YOU”
表7顯示,添加語義特征后,召回率不變,而準(zhǔn)確率提高了60%。可見平行結(jié)構(gòu)和賓語語義泛化作用明顯。但仔細考察新支判別錯誤的例子發(fā)現(xiàn),雖然都是8個錯誤,但分別有4個樣本在不添加語義特征時判斷正確的,添加語義后判斷錯了,還有4個樣本是不添加語義時判斷錯誤而添加語義特征后判斷正確。
不添加語義特征時判斷正確,添加語義特征后反而判斷錯誤的示例為:
‖一種是非和平的方式,
例15的“方式”是抽象名詞,由于語義特征的重要影響,根據(jù)特征的信息增益和模型的權(quán)重,傾向于判為非新支樣本。但是,仔細分析例15錯判的原因發(fā)現(xiàn),雖然“方式”是抽象名詞,但其前面有數(shù)量短語“兩種”。通常數(shù)量名短語作為句末的賓語時,有進一步解釋的需求。而這個特征之前沒有發(fā)現(xiàn)??梢?,特征選取還有很大的研究空間。但是,特征越多、越細,樣本數(shù)據(jù)就越稀疏,越可能發(fā)生過度擬合,這是另一個令人糾結(jié)的問題。
Table 8 Weight value λ of each literal and semantic feature
“看聽”類動詞語義上通過感官的認(rèn)知引入一個對象,這個對象通常是較為具體的對象,如一個人、一個物體,一條消息等,故有深入介紹其特性或內(nèi)容的需要。實驗所用“看聽”類動詞包括:看、看見、看到、看得(“他看得幾頁”)、細看、偷看、瞧、瞧見、瞧著、見、聽、聽見、聽到、聽清、聽說、碰到、碰見。在語料中,含“看聽“的新支樣本有62例,非新支樣本有101例。訓(xùn)練時,把新支樣本調(diào)整為原來的2倍,即124例,非新支樣本101例保持不變。測試時,仍使用留一交叉驗證。
(1)基于字面特征。
對“看聽”的樣本,首先按照接續(xù)特征、句法特征、信息量特征等字面特征進行最大熵的訓(xùn)練,不包括語義泛化的特征,結(jié)果如表9所示。
Table 9 New branch recognition results of
對“看聽”類樣本而言,僅基于字面特征的效果已經(jīng)達到60.24%的準(zhǔn)確率和80.65%的召回率??梢?,實驗選用的特征,比較適合判別“看聽”類動詞引起新支話題。
表10列出了除動詞特征外,字面特征的權(quán)重值排前5的特征??梢钥闯?,排在前列的還是以動詞特征居多,但前幾個實驗中區(qū)別顯著的標(biāo)點符號類特征并沒有排在前列。
Table 10 Weight value λ of each literal feature
(2)基于字面特征+語義泛化。
僅有上述一些特征,顯然不足以描述新支話題的形成原因,進一步,我們針對動詞的主語、賓語和本句核心動詞以及本句句首副詞或主語,進行語義泛化。泛化內(nèi)容如3.5節(jié)。
加入對上句主/賓語、本句主/謂語的人工語義泛化的標(biāo)注后,效果有了明顯的提升,召回率達到87.10%,準(zhǔn)確率也達到76.06%,如表11所示。
Table 11 New branch recognition results in “KAN-TING”
表12顯示了包括語義泛化后各特征的信息增益。本句核心謂語和上句核心謂語相關(guān)的特征信息增益都較大,在“有”類實驗中作用顯著的標(biāo)點符號增益最小。
Table 12 Information gain of each literal and semantic
表13顯示,權(quán)重靠前的特征都是語義泛化特征,其作用還大于動詞特征。而且,本句相關(guān)的語義特征比上句有關(guān)的語義特征作用更明顯。
有意思的是,比較“看聽”類樣本“基于字面特征”和“基于字面特征+語義泛化”兩組實驗中的新支錯誤的數(shù)據(jù)時發(fā)現(xiàn),原來“基于字面特征”的12個新支樣本判斷錯誤,經(jīng)過語義泛化,“基于字面特征+語義泛化”中有9個判斷正確了,但卻有5個原來判斷正確的新支樣本,語義泛化后反而判斷錯了。這5個例子如下:
Table 13 Weight value λ of each literal and semantic
例16
‖一副怡然自得的樣子,
‖確是身量高了
‖正要說話,
‖說正要來問趙叔叔的事。
‖也還是亂蓬蓬的須發(fā);
例中列出了各個例子的特征和具體例子,①~④主賓語都是人;⑤的主語是人,賓語是人的屬性,在語義上,上句的主語和賓語基本沒有區(qū)別,模型沒能判斷孰優(yōu)孰劣。
再看非新支判斷錯誤的例子,有些是不應(yīng)該判斷錯的,如:
例17他看得幾頁,
眼前金光一閃,
系統(tǒng)把該例判斷成了新支樣本,而例中,上句主語是人,賓語是書信類,本句句首“眼前”是人體部位,而“書信”是無法和人體部位相連接的。但是,由于把語義泛化作為特征時,并沒有考慮上句主語、賓語語義和本句句首主語或者謂語的接續(xù)關(guān)系,所以這種不合理的接續(xù)未被發(fā)現(xiàn)。而由于實驗語料太少,學(xué)習(xí)這種接續(xù)關(guān)系,將面臨數(shù)據(jù)嚴(yán)重稀疏的問題。因此,下面我們使用規(guī)則的辦法,把這種不可能相接的關(guān)系作為規(guī)則引入判斷體系中。
(3)基于字面特征+語義泛化+規(guī)則。
計算機能夠根據(jù)概率給出答案,但無法斷言某種答案不可能存在,只能指定小概率的范圍。因此,通過人為給出規(guī)則判定,可以幫助計算機提高性能。具體方法是:把上句主語、賓語的語義類型和本句句首、本句主語、本句核心動詞的語義類型一一比對,根據(jù)人的認(rèn)知:將不可能匹配的語義二元組建立為否定規(guī)則,實驗中遇到滿足否定規(guī)則的情況,直接確定相反的情況為判斷結(jié)果。對于不滿足否定規(guī)則的情況不做判斷。語義接續(xù)否定規(guī)則舉例如表14所示。
Table 14 Semantic negation rules(with examples)
例如,例17,上句賓語“幾頁”泛化成“書信”,本句主語(亦即首詞)“眼前”泛化為“人體部位”,“書信”和“人體部位”滿足否定規(guī)則,直接判為不可能發(fā)生新支,于是只能判為非新支。
加入規(guī)則后,我們的實驗方案修改為:先通過規(guī)則,把能夠判定的先判定,不能夠判定的交給最大熵模型處理。實驗結(jié)果如表15所示,并跟沒有添加規(guī)則的結(jié)果(表11)相比較。
可以看出,添加語義規(guī)則后,對新支判斷沒有影響,對非新支的錯誤數(shù)從17例下降到15例,有2例非新支原來判斷錯誤的,現(xiàn)在正確了。如:
例18
不由得嚇了一跳,
心里都非常感奮,
上例中,①句的賓語“幾頁”是書信類,本句首詞“不由得”是反應(yīng)性副詞,不可能相接。②句的賓語“這面‘治崗紅旗’”是事物,本句首詞“心里”是人反應(yīng)部件,不能相接。這兩個例子是規(guī)則判斷的結(jié)果。
Table 15 New branch recognition results in
Figure 1 Experimental results comparison 圖1 各實驗結(jié)果比較
在以上實驗的基礎(chǔ)上,我們嘗試把“看聽”“有”兩類動詞樣本綜合起來,考察它們的表現(xiàn)情況。由于“有”和“看聽”使用的語義泛化方法不一樣,故本實驗僅使用基于字面特征的方法進行訓(xùn)練和測試,不加入語義泛化的特征。“看聽”“有”共有新支樣本146例,非新支547例,訓(xùn)練時,把新支語料調(diào)整為原來的4倍,即584例,非新支語料547例不變。測試結(jié)果如表16所示。
Table 16 New branch recognition results in “KAN-
從表現(xiàn)測試結(jié)果看(表16),準(zhǔn)確率在“有”和“看聽”類樣本實驗之間,但是,召回率卻比“有”和“看聽”類樣本實驗都要低??梢?,兩類動詞由于表現(xiàn)不一樣,需要的特征和權(quán)重不一樣,把他們混到一起會出現(xiàn)兩類特征出現(xiàn)相互制約的情況。這正是全語料字面特征實驗(Baseline)中,結(jié)果不太好的一大原因。
6討論
通過新支樣本和非新支樣本的判別實驗,我們嘗試將統(tǒng)計方法和認(rèn)知規(guī)則及人的語義知識結(jié)合起來進行判定??偟膩碚f,自動判別是比較復(fù)雜的。
圖1比較了各實驗的新支準(zhǔn)確率、召回率和F值,由實驗可知:
(1)動詞特征起重要作用。一方面,動詞特征在訓(xùn)練后,權(quán)重皆比較高;另一方面,同樣的特征,對不同動詞專門訓(xùn)練,所得到的其他特征的權(quán)重也不一樣。動詞特征的重要作用從另一個方面說明,對不同的動詞應(yīng)該使用不同的特征進行判定。反推人的認(rèn)知,我們提出一種可能性,即人在判斷后標(biāo)點句的話題是上句的主語還是賓語時,也是根據(jù)動詞的語義、語用等因素,調(diào)取不同的模板進行判斷,而不是通過同一套特征及其權(quán)重來判定。
(2)語義泛化對新支判斷的影響重大。凡經(jīng)過泛化,都能使得效果有較大提高。而且語義泛化特征的權(quán)重都排在較前的位置,證明語義泛化標(biāo)注具有較好的一致性。語義泛化需要人的知識的介入和標(biāo)注,再輔以統(tǒng)計學(xué)習(xí)方法才能獲得較為良好的效果。
(3)規(guī)則能夠幫助提高判斷的準(zhǔn)確率。如果僅靠規(guī)則,由于變化因素多,相互關(guān)系復(fù)雜,寫規(guī)則時難以面面俱到,準(zhǔn)確無誤地描述。但是,統(tǒng)計的一大缺點是無法對否定進行斷言,只能按照一個小概率的范圍來估計和拒絕。如果能總結(jié)出不可能的規(guī)則,則能夠幫助計算機提高效率和準(zhǔn)確率,減少對不可能的事情的錯誤估計。
誠然,本實驗還有許多能夠改進的地方:
(1)有幾個特征的獲取依賴于句法分析,如果提高句法分析的準(zhǔn)確性,可以減少人工標(biāo)注,獲得更多的訓(xùn)練數(shù)據(jù)。如主賓語核心成分的提取,以及平行結(jié)構(gòu)的識別,它們都在特征中起到重要作用。
(2)有些特征的計算方法不科學(xué),比如賓語信息量的特征,作用甚微,甚至有時起到反作用,應(yīng)重新設(shè)計計算方法。
(3)統(tǒng)計方法上,不一定只選擇最大熵模型,可以結(jié)合多種方法進行嘗試,本文由于時間關(guān)系,沒有開展更多的實驗。
從本文的實驗及其分析,我們認(rèn)為可以得出以下幾點結(jié)論:
(1)統(tǒng)計方法和規(guī)則方法不能偏廢。隨著大數(shù)據(jù)的興起,深度學(xué)習(xí)的出現(xiàn),學(xué)術(shù)界對統(tǒng)計方法有了新一輪的期待。越來越多的聲音認(rèn)為統(tǒng)計方法將能取代規(guī)則或者自動發(fā)現(xiàn)規(guī)則。規(guī)則的作用在于斷言,能夠把不可能的情況排除在外。我們的實驗表明,規(guī)則確實能夠提高系統(tǒng)的性能,系統(tǒng)的設(shè)計應(yīng)留有接口,介入規(guī)則。
(2)注意精細知識的使用。本實驗的一條重要結(jié)論是,不同動詞適用不同的特征。這就要求對特征的描述非常準(zhǔn)確和精細,對每類動詞,應(yīng)根據(jù)其語義、語用、認(rèn)知等構(gòu)造一套語義特征模板。這不能缺少人的參與。
(3)統(tǒng)計模型和人的作用并重。統(tǒng)計中的特征選取,包括字面特征和精細的語義泛化,以及規(guī)則的確定等,這一系列的過程都不能離不開人的參與。人在認(rèn)知時,依賴于許許多多的知識模板,這些精細的模板必須由人來提供一定的知識支持,再輔以統(tǒng)計模型,才能取得更好的效果。因此,自然語言處理中,不僅不能忽視人的因素,還需要有大量深入的人的智力投入,深入到語言事實語言現(xiàn)象中,發(fā)掘和思考認(rèn)知原理。
7結(jié)束語
本文嘗試讓計算機自動判別標(biāo)點句所缺的話題。考慮到任務(wù)的復(fù)雜性,最后限制在上句主語和賓語的判別上,即僅區(qū)分新支樣本和非新支樣本。主要工作內(nèi)容是實驗語料的獲取、統(tǒng)計模型的確定、特征的選取、實驗的組織。實驗組織中涉及到不同對象語料、不同特征類的多種組合以及規(guī)則的加入。實驗結(jié)果是:僅用字面特征的全語料的最大熵模型計算中,新支句判斷的F值為54%,對于“看聽”類動詞的樣本單獨實驗,加入比較豐富的語義特征并使用否定型的規(guī)則后,新支句判斷的F值達到82%。實驗說明,即使在有限范圍內(nèi)的自動識別,工作難度也較大,且嚴(yán)重依賴于人的語言知識。
本文的實驗只是進行初步的探索,而且由于時間關(guān)系,實驗過程使用的特征和模型參數(shù)還比較粗糙,本實驗的目的并不在于令標(biāo)點句缺失話題的自動判別達到實用化,實驗結(jié)果并非十分理想,但實驗表明,基于把統(tǒng)計模型和認(rèn)知方法相結(jié)合是可行的,其結(jié)果的正誤是基本可解釋的。
參考文獻:附中文
[1]Song Rou.The delesion of the fronts of clauses in Chinese narratives [J].Journal of Chinese Information Processing,1992,6(3):62-68.(in Chinese)
[2]Song Rou.Research on properties of syntactic relation between P-clauses in modern Chinese [J].Chinese Teaching in the World,2008(2):26-44.(in Chinese)
[3]Song Rou.Stream model of generalized topic structure in Chinese text[J].Studies of The Chinese Language,2013(6):483-494.(in Chinese)
[4]Lu Da-wei,Song Rou,Shang Ying.Cognitive complexity of topic in Chinese text based on generalized topic structure theory [J].Journal of Chinese Information Processing,2014,28(5):112-124.(in Chinese)
[5]Lu Da-wei.The cognitive and computational research of generalized topic structure in Chinese discourse:A corpus-driven approach [D].Beijing:Beijing Language and Culture University,2015.(in Chinese)
[6]Jiang Yu-ru,Song Rou.Topic clause identification based on generalized topic theory [J].Journal of Chinese Information Processing,2012,26(5):114-119.(in Chinese)
[7]Jiang Yu-ru,Song Rou.Topic clause identification method based on specific features [J].Journal of Computer Applications,2014,36(5):1345-1349.(in Chinese)
[8]Jiang Yu-ru,Song Rou.Optimization of candidate topic clause evaluation function in topic clause indentification [J].Jouranl of Beijing University of Technology,2014,40(1):43-48.(in Chinese)
[9]Shang Ying.Empirical research of generalized topic structure theory [D].Beijing:Beijing Language and Culture University,2014.(in Chinese)
[10]Ji Cui,Lu Da-wei,Song Rou.Research on pragmatic function of verbs addressing new branch topic [J].Journal of Chinese Information Processing,2014,28(3):22-27.(in Chinese)
[11]Zhang Rui-peng.The research about the constraint rules of syntax relation in cross-puctuation sentence in written mordern Chinese [M].Beijing:China Social Sciences Press,2013.(in Chinese)
[12]Zhang Bin. Descriptive Grammar of Modern Chinese[M].Beijing:The Commerical Press, 2010.(in Chinese)
[13]Berger A L, Pietra V J D, Pietra S AD. A maximum entropy approach to natural language processing [J].Computational Linguistics,1996,22(1):39-71.
[1]宋柔.漢語敘述文中的小句前部省略現(xiàn)象初析[J].中文信息學(xué)報,1992,6(3):62-68.
[2]宋柔.現(xiàn)代漢語跨標(biāo)點句句法關(guān)系的性質(zhì)研究[J].世界漢語教學(xué),2008(2):26-44.
[3]宋柔.漢語篇章廣義話題結(jié)構(gòu)的流水模型[J].中國語文,2013(6):483-494.
[4]盧達威,宋柔,尚英.從廣義話題結(jié)構(gòu)考察漢語篇章話題的認(rèn)知復(fù)雜度[J].中文信息學(xué)報,2014,28(5):112-124.
[5]盧達威.語料庫實證的漢語篇章廣義話題結(jié)構(gòu)認(rèn)知和計算研究[D].北京:北京語言大學(xué),2015.
[6]蔣玉茹,宋柔.基于廣義話題理論的話題句識別[J].中文信息學(xué)報,2012,26(5):114-119.
[7]蔣玉茹,宋柔.基于細粒度特征的話題句識別方法[J].計算機應(yīng)用,2014,34(5):1345-1349.
[8]蔣玉茹,宋柔.話題句識別中候選話題句評估函數(shù)的優(yōu)化[J].北京工業(yè)大學(xué)學(xué)報,2014,40(1):43-48.
[9]尚英.漢語篇章廣義話題結(jié)構(gòu)理論的實證性研究[D].北京:北京語言大學(xué),2014.
[10]季翠,盧達威,宋柔.動詞引出新支話題的語用功能研究[J].中文信息學(xué)報,2014,8(3):22-27.
[11]張瑞朋.現(xiàn)代漢語書面語中跨標(biāo)點句句法關(guān)系約束條件的研究[M].北京:中國社會科學(xué)出版社,2013.
[12]張斌.現(xiàn)代漢語描寫語法[M].北京:商務(wù)印書館,2010.
盧達威(1983-),男,廣東廣州人,博士后,講師,研究方向為自然語言處理。E-mail:wedalu@163.com
LU Da-wei,born in 1983,postdoctor,lecturer,his research interest includes natural language processing.
宋柔(1946-),男,北京人,教授,博士生導(dǎo)師,研究方向為自然語言處理。E-mail:songrou@126.com
SONG Rou,born in 1946,professor,PhD supervisor,his research interest includes natural language processing.
Automatic recognition of the absent topics in Chinese punctuation clauses based on maximum entropy model
LU Da-wei1,SONG Rou2
(1.Department of Chinese Language and Literature,Peking University,Beijing 100871;
2.Institute of Language Information Processing,Beijing Language and Culture University,Beijing 100083,China)
Abstract:We focus on the task of the automatic recognition,which identify whether an absent topic of a punctuation clause is the subject or object of its previous sentence. We regard this task as the pointcut of the automatic recognition of absent topics in Chinese punctuation clauses. Several literal features and semantic features are summerized to achieve this task by combining the rules and the maximum entropy model. Experimental results show that F-score of this recognition approach reaches 82% for the samples of some specific verbs. Experimental results analysis shows that verb features and semantic features play the most important role in the recognition process; neither rules nor statistics can be neglected, and refined knowledge has great influence on the performance of the recognition .
Key words:generalized topic structure;new branch topic;automatic recognition;maximum entropy model
作者簡介:
doi:10.3969/j.issn.1007-130X.2015.12.014
中圖分類號:TP391.1
文獻標(biāo)志碼:A
基金項目:國家自然科學(xué)基金資助項目(61171129);國家973計劃資助項目(2014CB340502)
收稿日期:修回日期:2015-11-05
文章編號:1007-130X(2015)12-2282-12