劉明童,張玉潔,徐金安,陳鈺楓
(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
自然語(yǔ)言理解是自然語(yǔ)言處理的終極目標(biāo),其判定標(biāo)準(zhǔn)包括復(fù)述、翻譯、問(wèn)答和文摘,復(fù)述處理的復(fù)雜性和重要性可見(jiàn)一斑[1]。復(fù)述廣泛應(yīng)用于信息抽取[2-5]、機(jī)器翻譯[6-8]和自動(dòng)問(wèn)答[9]等自然語(yǔ)言處理任務(wù)中。近年來(lái),復(fù)述研究日益成為關(guān)注熱點(diǎn),成為自然語(yǔ)言處理的重要方向之一。
在自然語(yǔ)言處理具體任務(wù)中,復(fù)述技術(shù)包括復(fù)述識(shí)別和復(fù)述生成,而這兩項(xiàng)任務(wù)都是以復(fù)述知識(shí)為基礎(chǔ),因此,復(fù)述知識(shí)的獲取方法一直是復(fù)述研究的核心內(nèi)容。復(fù)述知識(shí)的獲取一般集中在短語(yǔ)、句子、模板及篇章四個(gè)級(jí)別[1]。由于復(fù)述模板具有對(duì)復(fù)述知識(shí)高度抽象的概括能力,因此,復(fù)述模板獲取方法的研究成為了主要課題。例如,“曹雪芹寫(xiě)了《紅樓夢(mèng)》”和“《紅樓夢(mèng)》的作者是曹雪芹”是一個(gè)句子級(jí)別的復(fù)述實(shí)例。復(fù)述模板指一組語(yǔ)義上等價(jià)的模板,每個(gè)模板由詞語(yǔ)和變量槽組成。對(duì)上述復(fù)述實(shí)例泛化可以得到復(fù)述模板:“[X]寫(xiě)了[Y]”和“[Y]的作者是[X]”。
早期的方法通過(guò)對(duì)復(fù)述實(shí)例泛化獲取復(fù)述模板,但復(fù)述實(shí)例資源較為匱乏,因此,難以獲取多樣化的復(fù)述模板。后來(lái),從大規(guī)模單語(yǔ)語(yǔ)料中抽取復(fù)述模板的自舉迭代方法受到關(guān)注[11],因?yàn)樗纫?guī)避了對(duì)復(fù)述實(shí)例語(yǔ)料的依賴(lài),又能不受特定語(yǔ)料的限制,從而可以獲取多樣化的復(fù)述模板。例如早期方法中需要“《紅樓夢(mèng)》的作者是曹雪芹”和“曹雪芹寫(xiě)了《紅樓夢(mèng)》”這樣的復(fù)述實(shí)例才能獲取復(fù)述模板:“[作者]寫(xiě)了[作品]”和“[作品]的作者是[作者]”;而之后的自舉迭代方法即使沒(méi)有這樣的復(fù)述實(shí)例,也可以從“曹雪芹寫(xiě)了《紅樓夢(mèng)》”和“《西游記》的作者是吳承恩”這樣的例子中抽取出同樣的復(fù)述模板。其主要原理是利用具有特定關(guān)系的實(shí)體對(duì)從大規(guī)模語(yǔ)料中抽取實(shí)例進(jìn)行泛化獲取模板,進(jìn)而利用模板抽取實(shí)例擴(kuò)展實(shí)體對(duì),如此迭代地獲取具有特定關(guān)系的模板作為復(fù)述模板。但是該方法自舉迭代過(guò)程中存在語(yǔ)義飄移問(wèn)題和獲取關(guān)系模板存在語(yǔ)義差異問(wèn)題,導(dǎo)致復(fù)述模板的質(zhì)量不高,后續(xù)需要人工按照語(yǔ)義進(jìn)一步細(xì)分類(lèi)。
本文提出開(kāi)放域上基于深度語(yǔ)義計(jì)算的復(fù)述模板獲取方法,針對(duì)自舉迭代過(guò)程中的語(yǔ)義飄移問(wèn)題,設(shè)計(jì)基于統(tǒng)計(jì)特征的模板裁剪方法;針對(duì)需要人工細(xì)分類(lèi)的問(wèn)題,設(shè)計(jì)基于語(yǔ)義組合計(jì)算的模板自動(dòng)聚類(lèi)方法,從而提升復(fù)述模板的質(zhì)量。
本文剩余部分組織如下:第一節(jié)介紹相關(guān)研究;第二節(jié)針對(duì)自舉迭代方法中的語(yǔ)義飄移問(wèn)題,描述基于統(tǒng)計(jì)特征的模板裁剪方法;第三節(jié)針對(duì)需要人工細(xì)分類(lèi)的關(guān)系模板語(yǔ)義差異問(wèn)題,描述基于深度語(yǔ)義計(jì)算的模板自動(dòng)聚類(lèi)方法;第四節(jié)介紹實(shí)驗(yàn)評(píng)價(jià)和結(jié)果分析;第五節(jié)對(duì)本文研究進(jìn)行總結(jié)。
復(fù)述模板的獲取起源于信息抽取的需求,早期的方法通過(guò)對(duì)復(fù)述實(shí)例泛化獲取復(fù)述模板。Barzilay等人[10]使用詞性序列泛化獲得復(fù)述模板,李維剛[11]使用語(yǔ)義分類(lèi)標(biāo)識(shí)表示模板槽變量。
由于獲取大量復(fù)述實(shí)例較為困難,研究者開(kāi)始在單語(yǔ)語(yǔ)料展開(kāi)研究,利用單語(yǔ)語(yǔ)料獲取復(fù)述模板的方法主要依賴(lài)分布式假設(shè)。Lin等人[12]提出以英語(yǔ)為對(duì)象的DIRT方法,利用句子依存路徑兩端的詞語(yǔ)作為分布特征,尋找相近路徑生成復(fù)述模板;Shinyama等人[13]以日語(yǔ)為對(duì)象,收集依存路徑兩端的命名實(shí)體作為分布特征,然后將相近路徑泛化得到模板;Biran[14]探索了基于知識(shí)庫(kù)的復(fù)述模板獲取方法,首先利用知識(shí)庫(kù)對(duì)句子泛化得到特定語(yǔ)義類(lèi)型的模板,然后通過(guò)聚類(lèi)尋找復(fù)述關(guān)系;RELLY系統(tǒng)[15]利用知識(shí)庫(kù)中的上下位關(guān)系作為特征獲得復(fù)述模板。隨著深度學(xué)習(xí)在自然語(yǔ)言處理上的應(yīng)用,在模板語(yǔ)義特征的計(jì)算中, Takase等人[16-17]通過(guò)分布式表示學(xué)習(xí)模板的語(yǔ)義向量,然后對(duì)模板間的語(yǔ)義相關(guān)性進(jìn)行排序。
因?yàn)閱握Z(yǔ)語(yǔ)料沒(méi)有語(yǔ)義等價(jià)的線(xiàn)索,使得復(fù)述識(shí)別和復(fù)述獲取極具挑戰(zhàn)性,已有研究方法使用了高精度的句法分析和大規(guī)模知識(shí)庫(kù),主要工作集中在英語(yǔ)和日語(yǔ),而漢語(yǔ)上的復(fù)述模板研究很少。本文研究開(kāi)放域上漢語(yǔ)復(fù)述模板的獲取方法,采用自舉迭代方法,針對(duì)其中語(yǔ)義飄移問(wèn)題和模板語(yǔ)義差異問(wèn)題,探索結(jié)合統(tǒng)計(jì)特征和深度語(yǔ)義計(jì)算的復(fù)述模板獲取方法。Biran的方法與我們較為接近,但他們僅利用了表層字符特征作為復(fù)述模板聚類(lèi)依據(jù),同時(shí),他們利用了英語(yǔ)豐富的知識(shí)庫(kù)獲取復(fù)述模板,所以這一方法難以擴(kuò)展到語(yǔ)言學(xué)資源不豐富的語(yǔ)言中。
根據(jù)分布式假說(shuō)(distributional hypothesis)[18-19],分布特征越相近的詞語(yǔ)在語(yǔ)義上越接近,因而成為復(fù)述的可能性也越大。我們以實(shí)體對(duì)(entity pairs)作為兩個(gè)實(shí)體之間語(yǔ)義關(guān)系的分布特征,首先利用種子實(shí)體對(duì)獲取反映實(shí)體關(guān)系的句子(關(guān)系實(shí)例);然后通過(guò)循環(huán)迭代擴(kuò)展實(shí)體對(duì),以獲取大量具有相同實(shí)體關(guān)系的實(shí)例;最后對(duì)實(shí)例泛化獲取關(guān)系模板。給定實(shí)體對(duì)意味著兩個(gè)實(shí)體之間具有指定的語(yǔ)義關(guān)系,因此包含實(shí)體對(duì)的句子也具有指定的語(yǔ)義關(guān)系。自舉迭代獲取關(guān)系模板的過(guò)程由以下三個(gè)部分組成。
參考前人的方法[20],我們將一個(gè)種子實(shí)體對(duì)中的兩個(gè)實(shí)體(E1,E2)和關(guān)系關(guān)鍵詞(Key)以“E1+Key+E2”的形式作為查詢(xún)輸入搜索網(wǎng)絡(luò)數(shù)據(jù),從實(shí)體對(duì)出發(fā)自舉迭代獲取大量具有相同關(guān)系的實(shí)體對(duì)。例如,我們將“百度+CEO+李彥宏”三個(gè)元素輸入搜索引擎,通過(guò)自舉的方法可以獲取如<騰訊,馬化騰>,<阿里巴巴,馬云>等具有相同關(guān)系的實(shí)體對(duì)。
我們利用第2.1節(jié)獲取的實(shí)體對(duì)作為查詢(xún)輸入從網(wǎng)絡(luò)獲取關(guān)系實(shí)例,獲取過(guò)程如圖1所示。由于自舉迭代擴(kuò)展實(shí)體對(duì)的過(guò)程會(huì)導(dǎo)致語(yǔ)義飄移問(wèn)題,我們采用如下策略進(jìn)行數(shù)據(jù)預(yù)處理。
圖1 關(guān)系實(shí)例獲取流程圖
(1) 對(duì)搜索返回結(jié)果中排名靠前的N(N=30)個(gè)網(wǎng)頁(yè),我們只收集頁(yè)面標(biāo)題和摘要作為數(shù)據(jù),并進(jìn)行語(yǔ)句切分。
(2) 篩選句子,只保留完全包含查詢(xún)實(shí)體對(duì)的句子。
(3) 進(jìn)行分詞、詞性標(biāo)注,以及命名實(shí)體識(shí)別。為了保證檢索到的句子具有指定語(yǔ)義關(guān)系,我們進(jìn)一步利用命名實(shí)體標(biāo)注的詞性類(lèi)別,只保留和種子實(shí)體對(duì)詞性類(lèi)別一致的句子。
(4) 計(jì)算實(shí)體對(duì)間的距離,去掉距離超過(guò)一定長(zhǎng)度的句子,本文取5。因?yàn)閷?shí)體間距離過(guò)大,包含詞匯信息較多,會(huì)降低模板的抽象能力。
過(guò)濾后的句子構(gòu)成關(guān)系實(shí)例集合,我們利用以上方法篩選句子以獲取高質(zhì)量的關(guān)系實(shí)例。
首先將實(shí)例中的實(shí)體對(duì)泛化成變量槽,并以實(shí)體的詞性類(lèi)別作為語(yǔ)義限制獲取關(guān)系模板,如從實(shí)例“李彥宏/nr 擔(dān)任/v 百度/nt CEO/nx”可以獲得關(guān)系模板“PERSON/nr 擔(dān)任/v ORGANIZATION/nt CEO/nx”。
模板泛化的主要問(wèn)題是,從較長(zhǎng)實(shí)例中獲取的模板也較長(zhǎng),而較長(zhǎng)模板的泛化能力較弱,為此我們參考前人方法[11],采取如下模板裁剪策略:
(1) 基于長(zhǎng)度的裁剪:以實(shí)體對(duì)包圍的單詞序列為中心,向左右分別擴(kuò)展一定長(zhǎng)度的窗口,作為初始模板,以此限制模板的長(zhǎng)度。
(2) 基于統(tǒng)計(jì)特征的裁剪:為了對(duì)左右窗口部分進(jìn)一步裁剪,對(duì)初始模板左右窗口中的單詞分別計(jì)算與實(shí)體對(duì)的語(yǔ)義相關(guān)度作為邊界可信度,分別選擇邊界可信度最大的單詞作為左右邊界。如此,保留和實(shí)體語(yǔ)義最相關(guān)的詞語(yǔ),刪除不相關(guān)的詞語(yǔ),以提高模板泛化能力。我們基于統(tǒng)計(jì)特征設(shè)計(jì)邊界可信度計(jì)算函數(shù),詞語(yǔ)Wi的邊界可信度計(jì)算如下:
(1)
其中:
式(2)表示當(dāng)單詞詞性為名詞、動(dòng)詞和形容詞時(shí),函數(shù)取值為1,否則為0,因?yàn)檫@類(lèi)詞性的詞語(yǔ)通常具有實(shí)質(zhì)性的語(yǔ)義信息;式(3)計(jì)算單詞出現(xiàn)在左右窗口的概率,其中tfAsContext(Wi)是Wi在左右窗口出現(xiàn)的次數(shù),tfTotal(Wi)是Wi在整個(gè)實(shí)例集合中出現(xiàn)的次數(shù),如此可以降低“的”這類(lèi)功能性詞匯作為模板邊界的可能性;式(4)主要考察了相鄰候選詞對(duì)當(dāng)前候選詞邊界可信度的影響,確定左邊界時(shí)j取-1,右邊界時(shí)j取1,其中λ是一個(gè)常數(shù),本文取1,主要是對(duì)P(Wi+j)作為分母其值為0時(shí)做一個(gè)平滑處理;式(5)考察了候選詞與最近實(shí)體之間的距離對(duì)邊界可信度的影響,Loc(Wi)表示W(wǎng)i在句子中的位置,距離實(shí)體越近的詞在語(yǔ)義上和實(shí)體越相關(guān)。
利用基于統(tǒng)計(jì)特征的方法,我們選取邊界可信度最高的單詞作為邊界,進(jìn)行模板裁剪。對(duì)裁剪后的模板統(tǒng)計(jì)數(shù)量,設(shè)定閾值,保留一定頻度以上的模板。我們認(rèn)為出現(xiàn)次數(shù)越多的模板質(zhì)量越高。
按照第二節(jié)介紹方法,由給定實(shí)體對(duì)獲取的關(guān)系模板應(yīng)具有指定語(yǔ)義關(guān)系,但是研究結(jié)果表明,其中依然存在細(xì)微語(yǔ)義差異,導(dǎo)致關(guān)系模板不能直接作為復(fù)述模板,還需要人工進(jìn)行細(xì)分類(lèi)[11]。例如,給定實(shí)體對(duì)<百度,李彥宏>,在我們獲取的關(guān)系模板結(jié)果中,模板中的詞語(yǔ)包括“創(chuàng)新”“創(chuàng)業(yè)”“發(fā)言”“致辭”等,這些模板在語(yǔ)義上有一定差異。針對(duì)這一問(wèn)題,本文提出的基于深度語(yǔ)義計(jì)算的關(guān)系模板自動(dòng)聚類(lèi)方法,希望能將上面例子中的“發(fā)言”和“致辭”這些模板分為一類(lèi),而將表達(dá)“創(chuàng)新”和“創(chuàng)業(yè)”語(yǔ)義的模板分為另一類(lèi)。
模板由變量槽和單詞兩部分構(gòu)成,其中單詞具有更加具體的語(yǔ)義信息,因此,我們利用單詞部分計(jì)算模板的語(yǔ)義表示。如對(duì)模板p=“ORGANIZATION/nt 董事長(zhǎng)/nnt PERSON/nr 表示/v”,我們抽取單詞集合{董事長(zhǎng)、表示}計(jì)算模板的語(yǔ)義。首先,計(jì)算每個(gè)單詞的語(yǔ)義表示,我們利用Word2Vec*http://word2vec.googlecode.com.獲取單詞的詞向量,采用skip-gram模型,上下文窗口設(shè)置為5,利用中文維基百科語(yǔ)料*https://dumps.wikimedia.org.作為訓(xùn)練數(shù)據(jù),設(shè)置維度大小為200。然后,利用單詞的語(yǔ)義表示組合計(jì)算得到模板的語(yǔ)義表示。模板的語(yǔ)義組合計(jì)算方式有算術(shù)平均和幾何平均兩種,根據(jù)已有研究結(jié)果[14,16-17],本文采用效果較好的算術(shù)平均方法進(jìn)行語(yǔ)義組合計(jì)算,具體公式如(6)所示。
(6)
其中,n表示模板中單詞個(gè)數(shù),vi表示第i個(gè)單詞對(duì)應(yīng)的詞向量。
語(yǔ)義越相近的模板在語(yǔ)義空間上的距離也越接近,由此可以在同一語(yǔ)義空間尋找復(fù)述模板。我們以K-means聚類(lèi)算法[21]為基礎(chǔ)獲取復(fù)述模板,針對(duì)聚類(lèi)效果不穩(wěn)定的初始中心點(diǎn)選擇問(wèn)題進(jìn)行了改進(jìn),改進(jìn)算法如圖1所示。我們對(duì)聚類(lèi)個(gè)數(shù)K值的設(shè)置基于如下考慮,從前期實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)具有相同語(yǔ)義關(guān)系的復(fù)述模板一般為5個(gè)左右,即聚類(lèi)后每個(gè)類(lèi)的元素為5,故設(shè)置聚類(lèi)后的復(fù)述集合個(gè)數(shù)K=待聚類(lèi)的模板個(gè)數(shù)/5。
1.K?means初始質(zhì)心選擇算法:2.從輸入模板集合中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類(lèi)中心u1;3.對(duì)于集合中的每一個(gè)點(diǎn)pi,計(jì)算它與已選擇的聚類(lèi)中心中最近聚類(lèi)中心的距離:D(p)=argmax∑kselectedr=1‖pi-ur‖24.選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類(lèi)中心,選擇的原則是:D(p)較大的點(diǎn)被選取作為聚類(lèi)中心;5.重復(fù)步驟3和4,直到選擇出K個(gè)聚類(lèi)質(zhì)心;6.利用這K個(gè)質(zhì)心作為初始化質(zhì)心運(yùn)行K?means算法。1.基于K?means的模板聚類(lèi)算法:2.輸入:模板向量表示集合S(p)={p1,p2,p3,…,pN};N為模板總數(shù);最大迭代次數(shù)為T(mén);設(shè)置聚類(lèi)個(gè)數(shù)為K3.輸出:模板聚類(lèi)集合{C1,C2,C3,……CK}4.初始化:按照上述初始質(zhì)心選擇方法,從數(shù)據(jù)集S(p)中選擇K個(gè)樣本點(diǎn)作為模板聚類(lèi)的質(zhì)心向量{u1,u2,u3,…,uK}5.Fort=1toT:初始化模板集合:將模板劃分C初始化為Ck=?,k=1,2,…,K6.Fori=1toN:計(jì)算樣本pi和各個(gè)質(zhì)心向量uj(j=1,2,…,K)的距離:dij=‖pi-uj‖2,將pi標(biāo)記為最小的為dij所對(duì)應(yīng)的類(lèi)別λi,更新cλi=cλi∪pi7.EndFor8.Forj=1toK:更新聚類(lèi)中心uj=1|Cj|∑p∈Cjp9.EndFor10.如果所有的K個(gè)質(zhì)心向量都沒(méi)有發(fā)生變化,則轉(zhuǎn)到步驟1211.EndFor12.輸出聚類(lèi)后的模板集合{C1,C2,C3,…,CK}
圖1K-means聚類(lèi)算法獲取復(fù)述模板
為了驗(yàn)證本文所提方法的有效性,我們?cè)诰W(wǎng)絡(luò)開(kāi)放域的數(shù)據(jù)上進(jìn)行了評(píng)測(cè)實(shí)驗(yàn)。
本文選取四類(lèi)語(yǔ)義關(guān)系的實(shí)體對(duì)作為初始種子進(jìn)行實(shí)驗(yàn)。這四類(lèi)關(guān)系分別是CEO關(guān)系、發(fā)明關(guān)系、病理關(guān)系、作品作者關(guān)系。我們利用百度搜索引擎*https://www.baidu.com擴(kuò)展實(shí)體對(duì),擴(kuò)展結(jié)果的部分示例見(jiàn)表1所示。然后利用這些實(shí)體對(duì)和百度搜索引擎獲取實(shí)例,獲取結(jié)果的部分示例見(jiàn)表2所示。本文使用HanLP*http://hanlp.linrunsoft.com自然語(yǔ)言處理工具進(jìn)行分詞、詞性標(biāo)注、實(shí)體識(shí)別處理。下面是以這些實(shí)體對(duì)和實(shí)例作為模板泛化和聚類(lèi)獲取復(fù)述模板的實(shí)驗(yàn)數(shù)據(jù)。
表1 實(shí)體對(duì)擴(kuò)展結(jié)果的部分示例
表2 關(guān)系實(shí)例結(jié)果的部分示例
利用第二節(jié)描述的方法對(duì)上面獲得的關(guān)系實(shí)例泛化、裁剪,獲得關(guān)系模板。本文采用人工評(píng)測(cè)的方法,并使用下面的評(píng)測(cè)指標(biāo)。
(1) 準(zhǔn)確率(P):如果一個(gè)模板能夠正確表達(dá)“某人(PERSON)是某組織(ORGANIZATION)的CEO”的含義,則判斷這個(gè)模板是正確的,準(zhǔn)確率計(jì)算公式如式(7)所示。
(2) 覆蓋率(C):給定若干具有指定語(yǔ)義關(guān)系的實(shí)例,使用模板匹配這些實(shí)例,以能夠匹配的實(shí)例個(gè)數(shù)計(jì)算覆蓋率,覆蓋率計(jì)算如式(8)所示。
本文只在CEO關(guān)系的數(shù)據(jù)上進(jìn)行了覆蓋率評(píng)測(cè),我們按以下方法構(gòu)建評(píng)測(cè)數(shù)據(jù):對(duì)一個(gè)給定的實(shí)例,如果實(shí)例中包含有一對(duì)實(shí)體,且實(shí)體對(duì)應(yīng)的詞性分別為人名和機(jī)構(gòu)名,若這樣的實(shí)例表達(dá)了CEO語(yǔ)義關(guān)系,就選擇該實(shí)例作為標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)。最終,我們構(gòu)建500個(gè)關(guān)系實(shí)例集合用于覆蓋率評(píng)測(cè)。
我們主要評(píng)價(jià)模板裁剪中不同閾值和窗口大小對(duì)關(guān)系模板準(zhǔn)確率和覆蓋率的影響,實(shí)驗(yàn)結(jié)果分別如表3和表4所示。
表3 頻率閾值對(duì)模板獲取的影響
表4 窗口大小對(duì)模板獲取的影響
從表3中可以看出,隨著閾值的增加,模板準(zhǔn)確率隨之提升,覆蓋率隨之下降,但覆蓋率下降趨勢(shì)較為緩慢。由此可以發(fā)現(xiàn)設(shè)置較高閾值獲取的模板具有更好的泛化能力,可以覆蓋更多的實(shí)例,這表明我們的方法可以獲取到高質(zhì)量的模板。同時(shí),我們也發(fā)現(xiàn)隨著閾值的不斷增加,關(guān)系模板的數(shù)量下降較快。
從表4中可以看出,隨著窗口的增大,模板的準(zhǔn)確率和覆蓋率都不斷提升。分析其原因,當(dāng)窗口增大時(shí),有更多的上下文信息可以幫助判斷模板的邊界。當(dāng)窗口增加到4時(shí),準(zhǔn)確率和覆蓋率的提升變得緩慢。
針對(duì)獲取的關(guān)系模板,我們利用第4節(jié)描述的自動(dòng)聚類(lèi)方法獲取復(fù)述模板,表5顯示了從CEO關(guān)系模板獲得的復(fù)述模板的六個(gè)聚類(lèi)結(jié)果。本文對(duì)聚類(lèi)結(jié)果按如下方法進(jìn)行過(guò)濾:如果某類(lèi)中只有一個(gè)模板,舍棄該類(lèi);如果某類(lèi)中的模板數(shù)量超過(guò)10,舍棄該類(lèi),我們假設(shè)復(fù)述模板的數(shù)量最多為10,若超過(guò)10個(gè),則認(rèn)為該類(lèi)中包含過(guò)多不正確的復(fù)述模板,將這樣的類(lèi)過(guò)濾。然后,我們對(duì)過(guò)濾后的聚類(lèi)結(jié)果進(jìn)行評(píng)測(cè),評(píng)測(cè)方法如下:對(duì)每一類(lèi)中的模板按照語(yǔ)義人工進(jìn)行分組,每一組內(nèi)的模板互為復(fù)述,然后選取模板數(shù)量最多的一組作為正確的復(fù)述模板集合,并計(jì)算正確復(fù)述模板的個(gè)數(shù)占類(lèi)中模板總數(shù)的比例,得到每一類(lèi)的正確率(P),并對(duì)所有類(lèi)計(jì)算平均正確率。
表5 聚類(lèi)獲取復(fù)述模板的部分示例
我們對(duì)CEO關(guān)系模板聚類(lèi)后的結(jié)果進(jìn)行評(píng)測(cè),將聚類(lèi)結(jié)果中的復(fù)述模板數(shù)量和正確率的關(guān)系列在表6中,PC表示復(fù)述模板正確率。從表6的結(jié)果來(lái)看,當(dāng)類(lèi)中模板數(shù)量為2和3時(shí),互為復(fù)述模板的可能性很高,隨著類(lèi)中模板數(shù)量的增多,正確率有所下降。
表6 CEO關(guān)系模板自動(dòng)聚類(lèi)后的復(fù)述模板
續(xù)表6
表7給出了四類(lèi)關(guān)系模板的聚類(lèi)結(jié)果,其中PR表示關(guān)系模板正確率,PAC表示復(fù)述模板平均正確率。
表7 4類(lèi)關(guān)系模板的聚類(lèi)評(píng)測(cè)結(jié)果
從表7的分析結(jié)果來(lái)看,本文基于深度語(yǔ)義計(jì)算的聚類(lèi)方法可以有效過(guò)濾噪聲模板,實(shí)現(xiàn)關(guān)系模板在細(xì)微語(yǔ)義層面上的深入分類(lèi),最終獲得質(zhì)量較高的復(fù)述模板。
關(guān)系模板的正確率與復(fù)述模板的平均正確率之間的關(guān)系如圖2所示。從圖2中可以看出,關(guān)系模板的質(zhì)量對(duì)聚類(lèi)結(jié)果有較大影響,當(dāng)關(guān)系模板的質(zhì)量提高時(shí),自動(dòng)聚類(lèi)的效果就變好,獲取復(fù)述模板的質(zhì)量也隨之提高,說(shuō)明了本文關(guān)系模板裁剪方法的有效性和重要性。
圖2 關(guān)系模板正確率和復(fù)述模板正確率的關(guān)系
本文提出開(kāi)放域上基于深度語(yǔ)義計(jì)算的復(fù)述模板獲取方法,針對(duì)自舉迭代過(guò)程中的語(yǔ)義飄移問(wèn)題,設(shè)計(jì)基于統(tǒng)計(jì)特征的模板裁剪方法;針對(duì)需要人工細(xì)分類(lèi)模板語(yǔ)義的問(wèn)題,設(shè)計(jì)基于語(yǔ)義組合計(jì)算的模板自動(dòng)聚類(lèi)方法。實(shí)驗(yàn)結(jié)果顯示,本文可以獲取到高質(zhì)量的復(fù)述模板。針對(duì)未來(lái)的研究工作,我們需要進(jìn)一步提高模板語(yǔ)義組合計(jì)算的精度,包括更精準(zhǔn)的詞向量學(xué)習(xí)方法,以及更有效的自動(dòng)聚類(lèi)算法,以提高自動(dòng)獲取復(fù)述模板的準(zhǔn)確度。
[1]趙世奇,劉挺,李生.復(fù)述技術(shù)研究[J].軟件學(xué)報(bào),2009(08):2124-2137.
[2]Zhang Y, Yamamoto K.Paraphrasing of Chinese utterances[C]//Proceedings of COLING,2002:1163-1169.
[3]Ravichandran D,Hovy E.Learning surface text patterns for a question answering system[C]//Proceedings of ACL,2002:41-47.
[4]Rahul Bhagat,Deepak Ravichandran.Large scale acquisition of paraphrases for learning surface patterns//Proceedings of ACL,Columbus,OH,2008:674-682
[5]Chen B,Sun L,Han X,et al.Sentence rewriting for semantic parsing[C]//Proceedings of Meeting of the Association for computational linguistics,2016:766-777.
[6]Nitin Madnani,Necip Fazil Ayan,Philip Resnik,et al.Using paraphrases for parameter tuning in statistical machine translation[C]//Proceedings of the Workshop on Statistical Machine Translation,Prague,2007:120-127
[7]Su J S,Dong H L,Chen Y D,et al.Improved statistical machine translation model with topic-based paraphrase[J].Zhejiang Daxue Xuebao (Gongxue Ban)/Journal of Zhejiang University (Engineering Science Edition,2014,48(10):1843-1849.
[8]Zhang L,Weng Z,Xiao W,et al.Extract domain-specific paraphrase from monolingual corpus for automatic evaluation of machine translation[C]//Proceedings of Conference on Machine Translation:Volume 2,Shared Task Papers.2016:511-517.
[9]Zhao S,Zhou M,Liu T.Learning question paraphrases for QA from encarta logs[C]//Proceedings of IJCAI,2007:1796-1800.
[10]Barzilay R,McKeown K.Extracting paraphrases from a parallel corpus[C]//Proceedings of Meeting of the Association for Computational Linguistics,2001:50-57.
[11]李維剛.中文復(fù)述實(shí)例與復(fù)述模板抽取技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué)博士學(xué)位論文,2008:1-139.
[12]Lin D, Pantel P.Discovery of inference rules for question answering[J].Natural Language Engineering,2001,7(4):343-360.
[13]Yusuke Shinyama,Satoshi Sekine.Paraphrase acquisition for information extraction[J].Spinal Cord,2003,52(4):264-267.
[14]Biran O,Blevins T,Mckeown K.Mining paraphrasal typed templates from a plain text corpus[C]//Proceedings of Meeting of the Association for Computational Linguistics,2016:1913-1923.
[15]Grycner,Adam and Weikum,Gerhard and Pujara,Jay and Foulds,James and Getoor,Lise,RELLY:Inferring hypernym relationships between relational phrases[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:971-981.
[16]Takase S,Okazaki N,Inui K.Composing distributed representations of relational patterns[C]//Proceedings of Meeting of the Association for Computational Linguistics,2016:2276-2286.
[17]Takase S,Okazaki N,Inui K.Modeling semantic compositionality of relational patterns[J].Engineering Applications of Artificial Intelligence,2016(50):256-264.
[18]Harris Z.Distributional structure[J].Word,1954,10 (23):146-162.
[19]Firth J R.A synopsis of linguistic theory 1930-1955.Studies in Linguistic Analysis[M].Oxford:Philological Society,1957:1-32.
[20]李維剛,劉挺,李生.基于網(wǎng)絡(luò)挖掘的實(shí)體關(guān)系元組自動(dòng)獲取[J].電子學(xué)報(bào),2007,35(11):2111-2116.
[21]王千,王成,馮振元,等.K-means聚類(lèi)算法研究綜述[J].電子設(shè)計(jì)工程,2012,20(7):21-24.
劉明童(1993—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、神經(jīng)機(jī)器翻譯、復(fù)述。E-mail:16112075@bjtu.edu.cn
張玉潔(1961—),通信作者,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理和機(jī)器翻譯。E-mail:yjzhang@bjtu.edu.cn
徐金安(1970—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理和機(jī)器翻譯。E-mail:jaxu@bjtu.edu.cn