• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      地質(zhì)領(lǐng)域開放式實體關(guān)系聯(lián)合抽取

      2021-04-22 10:06:28王智廣文紅英申昊鍇
      計算機工程與設(shè)計 2021年4期
      關(guān)鍵詞:句法結(jié)構(gòu)三元組語料

      王智廣,文紅英,魯 強,申昊鍇

      (1.中國石油大學(xué)(北京) 計算機科學(xué)與技術(shù)系,北京 102249;2.中國石油大學(xué)(北京) 石油數(shù)據(jù)挖掘北京市重點實驗室,北京 102249)

      0 引 言

      實體關(guān)系抽取是信息抽取的核心任務(wù)之一[1],其目的就是從文本中抽取實體及實體間的語義關(guān)系,并將其表示為結(jié)構(gòu)化的三元組(實體1,關(guān)系,實體2),用于構(gòu)建知識圖譜或推薦等任務(wù)。與通用領(lǐng)域相比,地質(zhì)領(lǐng)域的實體關(guān)系抽取的研究面臨兩大難點。第一,地質(zhì)領(lǐng)域的實體和關(guān)系種類多樣,難以對實體及關(guān)系類型進行準確的定義。例如,我們很難給出實體“若爾蓋坳陷”、“千佛巖組”、“奧陶紀”和關(guān)系“沉積巖最大厚度”、“上覆巖層最早時期”的準確定義,這些實體和關(guān)系與通用領(lǐng)域的實體和關(guān)系差異較大,難以把通用領(lǐng)域的實體及關(guān)系類型定義遷移到地質(zhì)領(lǐng)域。第二,地質(zhì)領(lǐng)域缺乏類似于Wikipedia或Freebase的大規(guī)模知識庫。而人工標注依靠領(lǐng)域?qū)<?,難以獲得大量的高質(zhì)量的標注數(shù)據(jù)(三元組及來源語句)。為了應(yīng)對這一挑戰(zhàn),一些研究者提出了一種可以自動標注大規(guī)模標注數(shù)據(jù)的遠監(jiān)督方法[2,3]。但是,遠監(jiān)督方法可能會產(chǎn)生嘈雜的數(shù)據(jù),這會阻礙基于此類嘈雜數(shù)據(jù)訓(xùn)練的模型的性能。盡管遠監(jiān)督方法在過濾噪聲數(shù)據(jù)方面已取得重大進展,但遠監(jiān)督方法只能抽取知識庫中已存在的關(guān)系。而地質(zhì)領(lǐng)域?qū)嶓w關(guān)系抽取中另一個主要挑戰(zhàn)是領(lǐng)域語料庫中實體和關(guān)系種類的多樣性,這使得我們很難準確地預(yù)定義實體和關(guān)系。因此,遠監(jiān)督和基于神經(jīng)網(wǎng)絡(luò)的方法在地質(zhì)領(lǐng)域難以取得較好的效果。開放式實體關(guān)系抽取直接從文本中抽取實體及實體間的關(guān)系,對標注語料的依賴小且解決了預(yù)先定義關(guān)系類型體系的問題[4]。因此,本文主要研究大規(guī)模地質(zhì)領(lǐng)域語料背景下的開放式實體關(guān)系抽取。

      目前,通用領(lǐng)域的實體和關(guān)系抽取方法仍然存在同一對實體間存在多種關(guān)系的關(guān)系重疊等問題,并且這些方法仍然需要大量的標注語料庫[5],無法有效解決地質(zhì)等專業(yè)領(lǐng)域?qū)嶓w關(guān)系抽取的兩個主要挑戰(zhàn):①實體和關(guān)系類型復(fù)雜;②缺少標注數(shù)據(jù)。上述方法很難從通用領(lǐng)域遷移到地質(zhì)領(lǐng)域。受遠監(jiān)督方法[6]和DSNFs系統(tǒng)[7]的啟發(fā),本文建立了一種根據(jù)中文句法結(jié)構(gòu)抽取實體及關(guān)系的聯(lián)合開放式抽取模型CSSEM(Chinese syntactic structure extraction mo-del)。該模型解決了地質(zhì)領(lǐng)域?qū)嶓w關(guān)系類型復(fù)雜和缺少標注數(shù)據(jù)的問題,為地質(zhì)等專業(yè)領(lǐng)域的知識圖譜的構(gòu)建提供知識支持,為需要訓(xùn)練數(shù)據(jù)的有監(jiān)督和遠監(jiān)督方法建立了基礎(chǔ)。

      1 相關(guān)工作

      實體關(guān)系抽取的研究主要歸類為兩大類方法:流水線方法和聯(lián)合學(xué)習(xí)方法。流水線方法首先對句子進行命名實體識別,然后對識別出來的實體進行兩兩組合,再進行關(guān)系分類,最后把存在關(guān)系的三元組作為輸出。這種方法存在錯誤傳播和產(chǎn)生冗余信息的缺點,實體識別的結(jié)果影響關(guān)系抽取的性能。Jia等提出了一種基于抽取范式的開放式關(guān)系抽取系統(tǒng)DSNFs[7]。該系統(tǒng)是基于流水線方法的系統(tǒng),它根據(jù)定義的范式直接抽取關(guān)系。抽取范式的普適性有待商榷;且其抽取結(jié)果依賴于命名實體識別任務(wù),實體識別的結(jié)果影響關(guān)系抽取的性能,抽取結(jié)果的準確率和召回率都有待提高。盡管深度神經(jīng)模型的最新進展使我們能夠構(gòu)建可靠的命名實體識別系統(tǒng),而無需人工構(gòu)建特征[8,9]。但是,這樣的方法需要大量的手動標注的訓(xùn)練數(shù)據(jù)。人們一直在努力通過遠監(jiān)督(結(jié)合外部詞典)來代替人工標注,而生成的嘈雜標簽對學(xué)習(xí)有效的神經(jīng)模型提出了重大挑戰(zhàn)[10]。因此,基于流水線的模型不適用于地質(zhì)領(lǐng)域中的實體關(guān)系抽取。理想的聯(lián)合學(xué)習(xí)可以描述為:輸入一個句子,通過實體識別和關(guān)系抽取聯(lián)合模型,直接得到實體關(guān)系三元組。這種方法可以克服上面流水線方法的缺點,更適合地質(zhì)等專業(yè)領(lǐng)域的實體關(guān)系抽取。同時,由于用于關(guān)系抽取的深度神經(jīng)網(wǎng)絡(luò)(DNN)的快速發(fā)展,一些研究者提出使用神經(jīng)網(wǎng)絡(luò)抽取實體和關(guān)系的聯(lián)合模型。Zheng等[11]提出一個使用LSTM和CNN分別抽取實體和關(guān)系的模型,該模型無需設(shè)計復(fù)雜的特征工程,但其實體識別和關(guān)系抽取是分離的,會產(chǎn)生信息冗余。Zheng等[12]提出了一個新穎的標注機制,將聯(lián)合抽取問題轉(zhuǎn)換為序列標注問題,解決了分離地抽取實體和關(guān)系并且產(chǎn)生信息冗余的問題。但該方法無法解決一個實體和多個實體之間存在關(guān)系以及同一實體對存在多個關(guān)系的關(guān)系重疊的問題。Wang等[13]通過設(shè)計一個有向圖機制將聯(lián)合抽取任務(wù)轉(zhuǎn)換為一個有向圖問題,使用基于轉(zhuǎn)移的解析框架來解決實體和關(guān)系的信息未能完全利用的問題,該方法解決了一個實體和多個實體之間存在關(guān)系的問題,但無法解決同一實體對存在多個關(guān)系的問題。

      現(xiàn)有的通用領(lǐng)域?qū)嶓w和關(guān)系聯(lián)合抽取方法仍然存在諸如關(guān)系重疊之類的問題。同時,大多數(shù)現(xiàn)有方法需要大量的手動標注語句來訓(xùn)練監(jiān)督模型。這在地質(zhì)等專業(yè)領(lǐng)域尤其具有挑戰(zhàn)性,因為專業(yè)領(lǐng)域的標注代價昂貴且獲取較慢。為了解決上述問題,本文提出了一種地質(zhì)領(lǐng)域的開放式實體關(guān)系抽取模型CSSEM,該模型從少量地質(zhì)領(lǐng)域標注數(shù)據(jù)中學(xué)習(xí)模式,并將提取模式應(yīng)用于新的領(lǐng)域特定語料庫以提取實體和關(guān)系。CSSEM模型主要解決的問題及創(chuàng)新點如下:

      (1)為解決地質(zhì)領(lǐng)域存在的實體及關(guān)系類型復(fù)雜的問題,CSSEM模型給出了一種基于模式的地質(zhì)領(lǐng)域?qū)嶓w識別和關(guān)系抽取方法。模型基于抽取模式開放式地抽取三元組,解決了關(guān)系類型復(fù)雜的問題;同時,在抽取基本三元組之后,模型基于實體識別模式擴展實體信息,解決了地質(zhì)領(lǐng)域?qū)嶓w類型復(fù)雜而難以準確定義的問題;

      (2)為解決地質(zhì)領(lǐng)域存在的缺乏標注語料(三元組及來源語句)的問題,模型采用Bootstrapping算法基于少量的高精度初始標注語料獲得一定量的訓(xùn)練語料,之后在訓(xùn)練語料上依據(jù)句法結(jié)構(gòu)從訓(xùn)練語料中學(xué)習(xí)高頻抽取模式,最后使用模式從非結(jié)構(gòu)化的文本中開放式地抽取出大量的三元組,解決了地質(zhì)領(lǐng)域缺少標注數(shù)據(jù)的問題。模型使用基于句法結(jié)構(gòu)的模式抽取實體和關(guān)系,模式不限定關(guān)系類型,解決了同一實體對存在多個關(guān)系的關(guān)系重疊問題。

      2 開放式關(guān)系抽取模型

      圖1為CSSEM模型的整體框架思想,模型主要包括訓(xùn)練語料的獲取、開放抽取模式的學(xué)習(xí)和基于抽取模式的開放式實體識別及關(guān)系抽取3個模塊。其中,n代表句子個數(shù),m代表實體個數(shù),r代表關(guān)系個數(shù)。2.1小節(jié)~2.3小節(jié)分別對CSSEM模型的3個模塊進行分析。

      圖1 CSSEM模型框架

      2.1 訓(xùn)練語料的獲取

      Bootstrapping算法是一個能利用知識庫反復(fù)迭代以獲取到置信度較高的標注語料的過程。對于知識庫中的三元組,BootStrapping算法提取包含三元組中所有詞的句子,選擇置信度較高的句子和三元組一起作為標注數(shù)據(jù)加入到標注語料中。由于地質(zhì)領(lǐng)域缺乏類似于Wikipedia或Freebase的大規(guī)模知識庫,我們首先人工標注少量的高精度初始標注語料InitialSet(三元組T和來源語句S)。CSSEM模型基于Bootstrapping算法使用初始標注語料InitialSet來獲得大量的置信度較高的訓(xùn)練語料TrainSet。例如,初始標注語料InitialSet中存在三元組(萬安盆地,位于,南沙海域西部)。我們將該三元組與地質(zhì)領(lǐng)域文檔中的所有語句相匹配后得到包含三元組所有詞語的語句“萬安盆地位于南沙海域西部”。獲取包含三元組的語句之后,我們將該句子和三元組一起作為標注語料加入到訓(xùn)練語料TrainSet。

      2.2 開放式抽取模式的學(xué)習(xí)

      獲取到訓(xùn)練語料TrainSet之后,在TrainSet上學(xué)習(xí)開放抽取模式。實體關(guān)系抽取中的模式是指基于語義分析的詞法、句法和語法結(jié)構(gòu)的結(jié)合,它需要符合人類表達的語言規(guī)律,是對人類復(fù)雜語言表示的一種總結(jié)[14]。圖1中的抽取模式是從地質(zhì)領(lǐng)域文檔的句法結(jié)構(gòu)和少量標注中學(xué)習(xí)出的開放式模式。所謂開放式指的是在抽取之前并不知道實體和關(guān)系的類型和結(jié)果,直接從文本中抽取實體及實體間的關(guān)系。但與傳統(tǒng)的基于Bootstrapping的OLLIE系統(tǒng)[15]不同,OLLOE系統(tǒng)基于語句學(xué)習(xí)抽取模板,而模型CSSEM學(xué)到的抽取模式是基于中文句法結(jié)構(gòu)的。句法結(jié)構(gòu)的基本類型有主謂結(jié)構(gòu)、動賓結(jié)構(gòu)、偏正結(jié)構(gòu)、補充結(jié)構(gòu)和聯(lián)合結(jié)構(gòu)[7]。這5種類型體現(xiàn)了漢語的基本語法關(guān)系。中文句子的表述沒有通用的模版,但中文的句法結(jié)構(gòu)包括5種基本的類型,也就是說,中文的句法結(jié)構(gòu)是有通用定義的。因此,CSSEM模型基于中文句法結(jié)構(gòu)學(xué)習(xí)的抽取模式是具有代表性和普適性的,同樣適用于地質(zhì)領(lǐng)域。

      CSSEM模型基于句法結(jié)構(gòu)學(xué)習(xí)開放式抽取模式以抽取實體及實體之間的關(guān)系,而依存句法分析的任務(wù)是通過分析語言單位內(nèi)成分之間的依存關(guān)系來揭示其句法結(jié)構(gòu)[16]。因此,CSSEM模型依賴依存句法分析的結(jié)果。

      本文依存句法分析的實現(xiàn)基于LTP[16]平臺。基于依存關(guān)系的模型已被驗證在關(guān)系提取中非常有效,它們捕獲了表現(xiàn)形式模糊的遠距離句法關(guān)系[17]。因此,本文的模型在句子較長或句子結(jié)構(gòu)復(fù)雜的地質(zhì)領(lǐng)域能夠取得較好的效果。以圖2為例,圖2是例句經(jīng)過LTP依存句法分析后得到的結(jié)果。圖中連接線上的標簽是由LTP定義的依賴標簽,代表不同句法成分的關(guān)系即句法結(jié)構(gòu)。例如,圖2中的“礫巖”和“分布”之間是主謂關(guān)系,以SBV標簽標識。圖中從左到右標簽的含義分別是:HED代表整個句子的核心,ATT代表定中關(guān)系,SBV代表主謂關(guān)系,ADV代表狀中結(jié)構(gòu),POB代表介賓關(guān)系,VOB代表動賓關(guān)系,WP代表著標點,COO代表并列關(guān)系,CMP代表動補結(jié)構(gòu)。圖2包含了下文中圖3、圖4和圖5中提到的所有標簽。

      圖2 依存句法分析標簽

      為了學(xué)習(xí)模式,我們首先在依存句法分析結(jié)果上提取連接每個三元組和相關(guān)句子的實體和關(guān)系詞的依賴路徑。使用標簽注釋路徑中的實體和關(guān)系節(jié)點,即將具體實體詞變?yōu)椤皩嶓w”標簽,并用“關(guān)系”標簽替換依賴路徑中關(guān)系內(nèi)容詞來創(chuàng)建每個三元組的關(guān)系模式。模型統(tǒng)計訓(xùn)練語料中相似的關(guān)系模式,同時,對所有相似的關(guān)系模式進行排序以獲得高頻的抽取模式。學(xué)習(xí)的關(guān)系抽取模式如圖3所示。圖中的模式是模型達到穩(wěn)定后的抽取模式,可覆蓋大部分地質(zhì)領(lǐng)域的語句。關(guān)系抽取模式1屬于主謂結(jié)構(gòu),關(guān)系抽取模式2是動賓結(jié)構(gòu)的抽取模式,模式3~模式5屬于偏正結(jié)構(gòu)的關(guān)系抽取模式,模式6代表補充結(jié)構(gòu)的關(guān)系抽取模式,模式7~模式9代表聯(lián)合結(jié)構(gòu)的關(guān)系抽取模式。實體識別模式10如圖4所示,[ ]*代表出現(xiàn)一次或多次。

      圖3 高頻的關(guān)系抽取模式

      圖4 擴展實體信息的實體識別模式

      2.3 基于抽取模式的開放式實體和關(guān)系抽取

      得到高頻的抽取模式之后,CSSEM模型在抽取時應(yīng)用學(xué)習(xí)到的抽取模式。本節(jié)描述如何使用這些開放模式從新句子中識別實體及抽取關(guān)系。雖然模型中實體識別和關(guān)系抽取是一同進行的,但為闡述清晰,本節(jié)將其分成兩小節(jié)分析。

      2.3.1 基于抽取模式的實體識別

      由于地質(zhì)領(lǐng)域的實體種類復(fù)雜,難以對實體類型進行準確的定義。例如:“大巴山構(gòu)造烴源巖”、“四川盆地油氣儲層”。通用領(lǐng)域的實體類型包括人名、地名、機構(gòu)名、專有名詞等,該實體類型分類在地質(zhì)領(lǐng)域意義不大。分析地質(zhì)領(lǐng)域的實體特點,本文中地質(zhì)領(lǐng)域的實體類型包括地名、專業(yè)術(shù)語、地名+專業(yè)術(shù)語、專業(yè)術(shù)語+專業(yè)術(shù)語的組合等。例如“四川盆地油氣儲層”就是專業(yè)術(shù)語“四川盆地”和專業(yè)術(shù)語“油氣儲層”的組合,代表地質(zhì)領(lǐng)域的實體。由于地質(zhì)領(lǐng)域缺乏相應(yīng)的實體標注語料,采用已有的實體識別模型進行訓(xùn)練和識別較為困難。并且分析地質(zhì)領(lǐng)域?qū)嶓w特點可知,地質(zhì)領(lǐng)域文檔的實體在句子成分中充當(dāng)主語或賓語的成分。綜合以上領(lǐng)域?qū)嶓w特點,并結(jié)合基于訓(xùn)練集TrainSet學(xué)習(xí)出的抽取模式,模型給出了一種不依賴實體標注語料的基于抽取模式的地質(zhì)領(lǐng)域?qū)嶓w識別方法,方法包括抽取基本實體和擴展實體信息兩部分。

      (1)抽取基本的實體詞:首先基于依存句法分析結(jié)果,從ROOT節(jié)點出發(fā),找到與HED標簽連接的“關(guān)系詞”節(jié)點。再根據(jù)“關(guān)系詞”和“實體”以某種依存關(guān)系相連定位基本的“實體”,不同句法結(jié)構(gòu)對應(yīng)的依存標簽不同,如圖3所示。圖3主謂結(jié)構(gòu)中與關(guān)系節(jié)點以SBV標簽相連的節(jié)點代表基本的實體,圖3動賓結(jié)構(gòu)中與關(guān)系節(jié)點以VOB標簽相連的是基本的實體。

      (2)擴展實體信息:定位基本實體后,采用圖4中的實體識別模式擴展實體的信息,獲得語義完整的且具有實際意義的實體。

      結(jié)合圖5中例句“背景因素主要包括盆地類型、沉積巖厚度”對實體識別方法進行解釋,圖中步驟2中依存句法分析結(jié)果中的ROOT節(jié)點是抽取模型的入口。我們在步驟3中首先找到與ROOT節(jié)點以HED標簽相連的關(guān)系詞“包括”;再根據(jù)模式8關(guān)系詞找到基本的實體詞“因素”;最后,由于基本的實體詞“因素”和前面的擴展詞“背景”之間存在依存句法分析標簽ATT,匹配擴展實體信息的實體識別模式可得完整的實體“背景因素”。

      傳統(tǒng)的基于流水線的實體關(guān)系抽取是在實體已經(jīng)識別的情況下抽取實體間的關(guān)系。但地質(zhì)領(lǐng)域難以訓(xùn)練命名實體識別模型,所以導(dǎo)致基于命名實體識別任務(wù)的關(guān)系抽取模型效果較差。一般情況下,關(guān)系是存在于兩個實體之間的。我們的模型CSSEM首先獲得關(guān)系詞,之后在關(guān)系詞的基礎(chǔ)上利用句法層面的信息輔助識別實體,識別的實體類型不受限制。經(jīng)分析和實驗結(jié)果驗證可知,本文提出的實體識別方法利用句法層面的信息輔助抽取實體,在地質(zhì)專業(yè)領(lǐng)域的實體識別上取得較好的效果,解決了地質(zhì)領(lǐng)域的實體識別存在的問題。

      2.3.2 基于抽取模式的關(guān)系抽取

      上一節(jié)介紹模型中的實體識別,本節(jié)進一步分析基于抽取模式的地質(zhì)領(lǐng)域關(guān)系抽取。

      基于抽取模式的地質(zhì)領(lǐng)域關(guān)系抽取如圖1中模塊3所示。輸入是一系列非結(jié)構(gòu)化文本,模型預(yù)處理這些文本,即將這些文本按句子劃分;然后,模型通過依賴分析工具(如LTP)分析句子成分;再用學(xué)習(xí)到的抽取模式匹配句子的依存關(guān)系的結(jié)構(gòu)并識別出實體和關(guān)系節(jié)點,從而得到三元組。如圖5所示,根據(jù)學(xué)習(xí)的關(guān)系抽取模式8匹配句子“背景因素主要包括盆地類型、沉積巖厚度”的依存句法結(jié)構(gòu)從而獲得三元組(背景因素,包括,盆地類型)、(背景因素,包括,沉積巖厚度)。最后,對抽取結(jié)果進行評估,將高質(zhì)量的三元組加入訓(xùn)練集TrainSet中。對于有一定代表性的不正確的三元組,可人工修改為正確的三元組,并將其反饋到訓(xùn)練集TrainSet中。人工參與步驟是可以選擇的,若人工修正難度較大,可忽略人工干預(yù)步驟,直接將評估結(jié)果進行反饋。當(dāng)模型將評估結(jié)果擴充加入TrainSet中,重新進行學(xué)習(xí),但學(xué)習(xí)到的高頻抽取模式?jīng)]有發(fā)生很大的變化時,我們認為該模型學(xué)習(xí)到的抽取模式已經(jīng)較為完善了。圖3中的抽取模式是我們反復(fù)迭代后模型達到穩(wěn)定時的高頻抽取模式,具有一定的代表性,能完成大部分地質(zhì)領(lǐng)域語句的實體識別關(guān)系抽取,模型在地質(zhì)領(lǐng)域取得了較好的應(yīng)用效果。

      圖5 基于抽取模式的實體識別和關(guān)系抽取流程

      3 實驗與結(jié)果分析

      3.1 實驗設(shè)計

      3.1.1 語料數(shù)據(jù)選取

      CSSEM模型是基于地質(zhì)領(lǐng)域的實體及關(guān)系特點進行研究的,但其模型同樣適用于其它領(lǐng)域。為驗證CSSEM模型可以抽取不同領(lǐng)域的開放式實體及關(guān)系,選擇兩種類型的測試數(shù)據(jù)進行實驗。第一種是從中文維基百科中獲得初始標注集Initial_GSA,標注集包括維基百科的文本及從該文本抽取的三元組。同時隨機選取的包含歷史、文學(xué)、新聞等類型的數(shù)據(jù)集GSA,共計37 102個語句。劃分GSA數(shù)據(jù)集,一部分在Initial_GSA上使用Bootstrapping算法擴充訓(xùn)練語料以學(xué)習(xí)抽取模式,另一部分作為測試數(shù)據(jù)使用學(xué)習(xí)的抽取模式識別實體和抽取關(guān)系。

      第二種是領(lǐng)域?qū)<覙俗⒌纳倭繕俗⒓疘nitial_OSA,標注集包含地質(zhì)領(lǐng)域的文本及從該文本抽取的三元組。之后從地質(zhì)領(lǐng)域文本中隨機選取的語料集合OSA,共計93 287個語句。將OSA數(shù)據(jù)集分為兩部分,一部分在Initial_OSA上使用Bootstrapping算法擴充訓(xùn)練語料以學(xué)習(xí)抽取模式,另一部分作為測試數(shù)據(jù)使用學(xué)習(xí)的抽取模式識別實體和抽取關(guān)系。

      3.1.2 模型抽取

      模型抽取包括CSSEM和DSNFs兩個模型的抽取任務(wù)。引言中還提到了目前中文開放式關(guān)系抽取的UnCORE、ZORE和其它聯(lián)合抽取方法,但這些模型都需要大量的標注語料來訓(xùn)練。地質(zhì)領(lǐng)域缺乏相應(yīng)的數(shù)據(jù),因此本文沒有與這些模型進行對比。

      如圖1所示,模型基于少量標注語料從非結(jié)構(gòu)的文檔中擴充訓(xùn)練語料;依據(jù)句法結(jié)構(gòu)從訓(xùn)練語料中學(xué)習(xí)高頻抽取模式;然后基于模式從非結(jié)構(gòu)化的文本中開放式地抽取出大量的三元組;最后對抽取結(jié)果進行評估,將高質(zhì)量的三元組加入訓(xùn)練集中。對于有一定代表性的不正確的三元組,可人工修改為正確的三元組,并將其反饋到訓(xùn)練集中。不斷迭代學(xué)習(xí)直到高頻抽取模式不再發(fā)生大的變化時,我們認為該模型學(xué)習(xí)到的抽取模式已經(jīng)較為完善了,可結(jié)束學(xué)習(xí)過程,直接將抽取模式應(yīng)用于新語句的實體識別和關(guān)系抽取。

      3.1.3 模型性能評價

      由于本文研究的是地質(zhì)領(lǐng)域的開放式關(guān)系抽取,該領(lǐng)域缺乏標準評估數(shù)據(jù)。因此我們采用人工投票統(tǒng)計的方式,多個領(lǐng)域?qū)<彝瑫r對三元組進行評估,如果多數(shù)人投票認為抽取出的某個三元組是正確的,本文就認為該三元組抽取正確。

      本文采用3個標準作為模型性能評價指標,即精確率(P)、召回率(R)和F值(F)。計算公式如下

      (1)

      (2)

      (3)

      其中,C1表示抽取出的正確三元組的個數(shù),C2表示實際抽取出的三元組的個數(shù),C3表示測試集中應(yīng)該抽取出的三元組的個數(shù)。

      3.2 實驗對比分析

      3.2.1 依存句法分析效果

      CoreNLP是斯坦福大學(xué)NLP(natural language processing)小組開發(fā)的自然語言處理項目,Stanford CoreNLP集成了分詞、詞性標注、命名實體識別、依存句法分析等工具。語言技術(shù)平臺(language technology platform,LTP)是哈工大研制的一整套開放中文自然語言處理系統(tǒng),語言技術(shù)平臺提供中文分詞、詞性標注、命名實體識別、依存句法分析等自然語言處理技術(shù)。兩者都提供了通用領(lǐng)域的依存句法分析技術(shù),因此,我們設(shè)計了相關(guān)的實驗,從通用領(lǐng)域文本GSA和地質(zhì)領(lǐng)域文本OSA兩種語料中隨機選取300條語句分別構(gòu)成測試集GSA_300、OSA_300。CoreNLP和LTP兩種平臺分別在測試集上進行依存句法分析,并在地質(zhì)領(lǐng)域測試集上加入專業(yè)詞典進行對比。實驗結(jié)果見表1。

      表1 兩種NLP工具對比

      由實驗結(jié)果可知,同樣條件下,CoreNLP在中文通用領(lǐng)域語料GSA_300的依存句法分析正確的語句數(shù)量為145,LTP依存句法分析結(jié)果正確的語句數(shù)量為240。CoreNLP和LTP在地質(zhì)領(lǐng)域語料OSA_300的依存句法分析正確的語句數(shù)量分別為40和184。因此可以推斷,CoreNLP在中文上的依存句法分析正確率不如LTP,且CoreNLP和LTP在地質(zhì)領(lǐng)域的效果都不如通用領(lǐng)域的效果。但加入詞典后兩者在地質(zhì)領(lǐng)域語料OSA_300上的依存分析正確的語句數(shù)量分別提升為115和225,正確率有了明顯的提高,如圖6所示。分析原因可知是由于地質(zhì)領(lǐng)域有些詞匯較為專業(yè)和復(fù)雜,CoreNLP和LTP等自然語言處理工具無法正確處理專業(yè)詞匯,而加入專業(yè)詞典后兩者的分析效果都明顯提升。依存句法分析的效果影響模型的性能,本文選擇LTP作為通用領(lǐng)域和地質(zhì)領(lǐng)域的依存分析的工具。

      圖6 地質(zhì)領(lǐng)域加入詞典前后依存句法分析對比

      3.2.2 實驗結(jié)果對比及分析

      依據(jù)3.1節(jié)的實驗設(shè)計,對語料GSA和OSA進行實驗。由于抽取出的三元組數(shù)量較多,表2只給出了抽取出的部分三元組結(jié)果。實驗抽取出的三元組數(shù)量結(jié)果見表3。

      表2 模型抽取出的部分三元組結(jié)果

      表3 兩種模型抽取出的三元組數(shù)量

      由表3可看出本文模型(CSSEM)抽取出的三元組數(shù)量明顯多于DSNFs模型。分析造成上述差異的主要原因:

      (1)在領(lǐng)域?qū)嶓w關(guān)系抽取上同樣數(shù)量的語料下CSSEM模型實際輸入的語句數(shù)量多于現(xiàn)有的DSNFs模型。DSNFs屬于流水線方法,其關(guān)系抽取是基于命名實體識別的。命名實體識別的任務(wù)是識別文本中具有特定意義的實體,例如人名、地名、組織名等。而地質(zhì)領(lǐng)域缺乏相應(yīng)的實體標注語料,采用已有的實體識別模型進行訓(xùn)練和識別較為困難。文本中大多數(shù)實際存在的實體不會被此任務(wù)識別出來。DSNFs過濾掉了文本中實體個數(shù)少于兩個的語句,導(dǎo)致幾乎大部分語句由于命名實體沒有被識別出來都被過濾掉了。如例句“沉積學(xué)研究主要包括粒度、礦物學(xué)”,其中實體有“粒度”、“礦物學(xué)”,DSNFs中采用命名實體識別任務(wù)抽取實體,實驗顯示上述例句經(jīng)命名實體識別后識別出的實體個數(shù)為0,DSNFs會過濾掉上述例句,而我們的模型CSSEM能抽取出上述兩個實體,因此抽取出的三元組數(shù)量更多。表4是模型CSSEM在GSA語料上隨機選取200、400、600條測試語句后實際用于關(guān)系抽取的語句個數(shù),以及DSNFs系統(tǒng)在同樣的測試語句上錯誤地過濾后實際用于關(guān)系抽取的語句個數(shù)??梢钥闯鯟SSEM模型在領(lǐng)域關(guān)系抽取上的優(yōu)勢是同樣的,語料下模型實際輸入的語句數(shù)量多于現(xiàn)有的DSNFs模型。

      表4 模型實際輸入的語句數(shù)量

      (2)DSNFs的模型考慮了主語和賓語的并列情況,但其未考慮謂語并列或混合并列等更復(fù)雜的情況。而謂語并列和混合并列等復(fù)雜的情況在地質(zhì)領(lǐng)域的文本中較為常見,不能忽略不計。本文模型學(xué)習(xí)得到聯(lián)合結(jié)構(gòu)的3種抽取模式,如圖3模式7~模式9所示,這3種模式能夠解決謂語和混合并列的問題,我們的模型CSSEM學(xué)習(xí)的模式將主語、賓語、謂語及混合并列情況考慮進了模型中,并且涵蓋了5種基本的句法結(jié)構(gòu),因而召回率有了顯著的提高,更加準確和豐富地表達了語句的語義信息。

      由于GSA和OSA語料數(shù)據(jù)規(guī)模較大,我們只從兩種語料中隨機選取500條語句分別構(gòu)成測試集GSA_500、OSA_500。為保證評估的可靠性,我們選取的500條輸入語句是DSNFs和CSSEM實際輸入的不會由于命名實體識別被DSNFs過濾掉的語句。即兩個模型的實際輸入語句數(shù)量都是相同的。在上述兩種測試集上比較兩種模型的準確率、召回率、F值。評估結(jié)果見表5。結(jié)果表明,在通用領(lǐng)域,本文的模型準確率、召回率、F值略高于DSNFs模型;在地質(zhì)領(lǐng)域,本文的模型抽取性能明顯高于DSNFs模型。

      表5 模型抽取結(jié)果評價

      值得注意的是,我們的模型解決了地質(zhì)領(lǐng)域關(guān)系抽取的關(guān)系重疊問題。關(guān)系重疊問題指的是同一對實體之間存在多個關(guān)系的問題。由于大多的基于神經(jīng)網(wǎng)絡(luò)模型屬于關(guān)系分類模型。關(guān)系分類模型一般預(yù)先定義好待抽取的關(guān)系,使用模型中的分類器判別新輸入的句子中實體之間的關(guān)系屬于預(yù)先定義好關(guān)系中的哪一種,兩個實體之間有且只能有一種關(guān)系。而我們的模型CSSEM屬于開放式關(guān)系抽取模型,直接從文本中抽取實體及實體之間的關(guān)系,無需預(yù)先定義關(guān)系類型,因此,不限制抽取出的關(guān)系類型。如例句“晚古生代油頁巖主要沉積在新疆妖魔山地區(qū)”和“晚古生代油頁巖主要分布于新疆妖魔山地區(qū)”,其中實體對“晚古生代油頁巖”和“新疆妖魔山地區(qū)”有兩種關(guān)系“沉積”和“分布”。我們的模型CSSEM可直接從文本中抽取上述兩種關(guān)系,解決了關(guān)系抽取的重疊問題。

      3.2.3 基于AUC評價性能

      在GSA和OSA數(shù)據(jù)集下對召回率進行評估是困難的。由于抽取的三元組的數(shù)量與召回成正比,且抽取的三元組數(shù)量容易計算,因此,本文參考OLLIE系統(tǒng)的評估,將抽取的三元組數(shù)量與準確率的曲線近似為準確率召回率曲線(PR曲線),其面積差異與標準PR曲線等效。

      通用領(lǐng)域和地質(zhì)領(lǐng)域的近似PR曲線分別如圖7、圖8所示。AUC(area under curve)被定義為ROC曲線下與坐標軸圍成的面積。使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應(yīng)AUC更大的分類器效果更好。比較曲線下的面積(AUC),可知我們的模型在通用領(lǐng)域AUC。DSNFs高2.64%,在地質(zhì)領(lǐng)域AUC比DSNF高42.93%。

      圖7 通用領(lǐng)域GSA數(shù)據(jù)集近似PR曲線

      圖8 地質(zhì)領(lǐng)域OSA數(shù)據(jù)集近似PR曲線

      3.3 誤差分析

      由實驗結(jié)果分析可知,模型抽取的三元組有一部分是不完整的或不正確的。同時,還存在一些實際應(yīng)該抽取但模型沒有抽取的三元組。這兩種錯誤分別影響評價的準確率和召回率,對模型的改進有重要作用。通過本模型抽取結(jié)果中存在問題的三元組,分析通用領(lǐng)域影響抽取性能的原因,不同錯誤原因占比結(jié)果見表6。其中自然語言預(yù)處理錯誤占比72%,包括分詞效果不佳、詞性標注錯誤、依存句法分析結(jié)果出錯等。28%的錯誤是由于模型設(shè)計缺陷,主要是因為中文表達方式多種多樣,模型中的抽取模式只覆蓋了出現(xiàn)頻率較高的句法結(jié)構(gòu),還存在一些不常見但確實存在的復(fù)雜語句。地質(zhì)領(lǐng)域分析結(jié)果見表7,其中,自然語言處理錯誤仍為主要原因,主要是由于地質(zhì)領(lǐng)域語句結(jié)構(gòu)復(fù)雜、專業(yè)詞匯較多。同時,模型仍存在設(shè)計缺陷,錯誤占比13%。

      表6 通用領(lǐng)域數(shù)據(jù)集錯誤分析

      表7 地質(zhì)領(lǐng)域數(shù)據(jù)集錯誤分析

      4 結(jié)束語

      針對地質(zhì)領(lǐng)域?qū)嶓w和關(guān)系類型復(fù)雜且缺乏標注數(shù)據(jù)的特點,提出了一個基于漢語句法結(jié)構(gòu)實現(xiàn)開放式關(guān)系抽取的聯(lián)合模型CSSEM。模型主要包括訓(xùn)練語料的獲取、開放抽取模式的學(xué)習(xí)和基于抽取模式的開放式實體識別及關(guān)系抽取三部分。同時,盡管NLP技術(shù)目前存在性能局限,但是該技術(shù)對缺乏標注數(shù)據(jù)的專業(yè)領(lǐng)域的實體關(guān)系抽取的研究有重要意義。本文提出的模型CSSEM為地質(zhì)等專業(yè)領(lǐng)域的知識圖譜的構(gòu)建提供了知識支持,為需要標注數(shù)據(jù)的遠監(jiān)督和有監(jiān)督方法建立了基礎(chǔ)。值得注意的是,本文中的抽取模式只覆蓋了出現(xiàn)頻率較高的句法結(jié)構(gòu),并不能適用于全部的中文語句。

      猜你喜歡
      句法結(jié)構(gòu)三元組語料
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      關(guān)于余撓三元組的periodic-模
      現(xiàn)代漢語句法結(jié)構(gòu)解讀
      山西青年(2017年7期)2017-01-29 18:25:26
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      《基本句法結(jié)構(gòu):無特征句法》評介
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      三元組輻射場的建模與仿真
      垫江县| 石景山区| 双柏县| 高尔夫| 巴林左旗| 河南省| 珠海市| 舞阳县| 简阳市| 乌恰县| 太康县| 建瓯市| 水富县| 兴海县| 新兴县| 金沙县| 博湖县| 油尖旺区| 芜湖市| 博爱县| 宁晋县| 太仆寺旗| 曲周县| 云林县| 东山县| 韩城市| 仙游县| 东兰县| 缙云县| 府谷县| 宕昌县| 白城市| 蓝山县| 日喀则市| 莫力| 老河口市| 广宗县| 永泰县| 潞城市| 台湾省| 剑阁县|