• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于中文句法結(jié)構(gòu)的關(guān)系挖掘

      2014-09-29 10:31:56李付民
      計(jì)算機(jī)工程 2014年7期
      關(guān)鍵詞:元組句法結(jié)構(gòu)挖掘機(jī)

      李付民,楊 靜,賀 樑

      (華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系,上海 200241)

      1 概述

      關(guān)系挖掘是指從文本中找出多個(gè)實(shí)體和能夠表示這些實(shí)體之間關(guān)系的過程。根據(jù)所挖掘的關(guān)系類型的不同,關(guān)系挖掘可以分為2個(gè)主要類別:(1)針對特定關(guān)系類型(如夫妻、總部)進(jìn)行的挖掘[1-2]。這類挖掘方法的好處是準(zhǔn)確率和召回率高,但是由于在實(shí)際情況下總會(huì)存在一些關(guān)系類型是沒有包含在預(yù)定義的關(guān)系集合中的,因此該類方法不具有良好的拓展性和移植性。(2)開放的關(guān)系挖掘方法[3-4]。這類方法不對關(guān)系的具體類型作任何限制而僅僅定義關(guān)系的表現(xiàn)形式。例如:將關(guān)系關(guān)鍵詞定義為動(dòng)詞,即可從句子中挖掘出以動(dòng)詞表現(xiàn)出來的關(guān)系;當(dāng)然也可以將關(guān)系關(guān)鍵詞定義為名詞,這樣就可以挖掘出以名詞為關(guān)鍵詞的關(guān)系。由于開放式關(guān)系挖掘方法中并沒有預(yù)定義關(guān)系種類,可以從不同類型的數(shù)據(jù)集中找到更多的關(guān)系類型和關(guān)系元組實(shí)例,因此既可以應(yīng)用于封閉數(shù)據(jù)集[5],又可以應(yīng)用于網(wǎng)絡(luò)環(huán)境中[3-4],具有良好的移植性。

      文獻(xiàn)[3]提出一種傳統(tǒng)的開放式關(guān)系挖掘方法,可以從文本中挖掘關(guān)系元組,并且這個(gè)挖掘過程中并不需要人的參與,但存在以下問題:(1)需要大量的訓(xùn)練數(shù)據(jù)來得到挖掘機(jī),并且對訓(xùn)練集的依賴性很大;(2)在挖掘過程中,其將挖掘問題轉(zhuǎn)化為序列標(biāo)記問題,而序列標(biāo)記帶有一定的不確定性,當(dāng)句子長度增大時(shí)錯(cuò)誤率會(huì)快速上升;(3)存在一些無信息關(guān)系和不連續(xù)關(guān)系。其中,無信息關(guān)系是指在挖掘到的關(guān)系元組中的關(guān)系關(guān)鍵詞沒有包含一些重要的信息,“不連續(xù)”關(guān)系是指挖掘到的關(guān)系元組中的關(guān)鍵詞是由一些不連續(xù)的詞組成。為解決問題(1)和問題(2),文獻(xiàn)[6]將維基百科作為訓(xùn)練集來得到挖掘機(jī)并且在挖掘過程中使用到了語法解析,其準(zhǔn)確率和召回率在文獻(xiàn)[3]的基礎(chǔ)上取得了進(jìn)一步的提升。但文獻(xiàn)[6]方法的缺點(diǎn)也非常明顯,其需要大批量的數(shù)據(jù)作為訓(xùn)練集,與文獻(xiàn)[3]方法相比,該方法的挖掘速度明顯降低。為解決問題(3),文獻(xiàn)[4]對文獻(xiàn)[3]的挖掘方法進(jìn)行了改進(jìn),其改進(jìn)集中在以下3點(diǎn):(1)定義了關(guān)系的詞性模板,這些詞性模板是由以動(dòng)詞為核心的連續(xù)詞語組成的。該改進(jìn)有效地避免了不連續(xù)關(guān)系,同時(shí)也減少了無信息關(guān)系;(2)規(guī)定了關(guān)系詞的位置,即關(guān)系詞必須出現(xiàn)在實(shí)體對的中間;(3)要求關(guān)系詞必須具有一定的通用型,即如果一個(gè)關(guān)系詞僅僅滿足很少的實(shí)體對,則說明這個(gè)關(guān)系詞太特殊化了,這種關(guān)系詞是不能表達(dá)實(shí)體間真正的關(guān)系的,所以在挖掘的過程中將會(huì)被丟棄。

      文獻(xiàn)[4]將關(guān)系關(guān)鍵詞定義為以動(dòng)詞為核心的連續(xù)詞語,導(dǎo)致無法挖掘以名詞或其他詞性的詞作為關(guān)系的實(shí)體之間的關(guān)系。將關(guān)鍵詞定義為名詞也會(huì)遇到類似的問題。因此,把關(guān)系關(guān)鍵詞定義為簡單的詞性組合是不合適的,尤其是對于復(fù)雜的中文結(jié)構(gòu)而言。筆者通過對中文語法的觀察和統(tǒng)計(jì),發(fā)現(xiàn)中文中存在一些典型的句法結(jié)構(gòu),并且這些句法結(jié)構(gòu)和實(shí)體關(guān)系之間存在映射,因此,本文提出一種基于中文句法結(jié)構(gòu)的關(guān)系挖掘算法,直接利用句法結(jié)構(gòu)進(jìn)行中文文本的關(guān)系挖掘。

      2 基于中文句法結(jié)構(gòu)的關(guān)系挖掘算法

      2.1 相關(guān)概念

      本文算法涉及的相關(guān)概念如下:

      (1)動(dòng)態(tài)關(guān)系R:動(dòng)態(tài)關(guān)系也可以稱之為事件關(guān)系,是指未預(yù)先定義具體的關(guān)系,而通過現(xiàn)實(shí)世界中的某個(gè)事件表現(xiàn)出來的實(shí)體關(guān)系。與之相對應(yīng)的靜態(tài)關(guān)系,是指在挖掘之前就預(yù)定義的關(guān)系,本文挖掘的關(guān)系類型是一種動(dòng)態(tài)關(guān)系。

      (2)實(shí)體集EC=(E1E2…En):在一個(gè)句子中出現(xiàn)的命名實(shí)體構(gòu)成的集合。

      (3)關(guān)系關(guān)鍵詞集RKWC=(KW1KW2…KWm):在一個(gè)句子中出現(xiàn)的所有可以作為關(guān)系關(guān)鍵詞成分的詞語構(gòu)成的集合。

      (4)實(shí)體關(guān)鍵詞映射矩陣AEK:這個(gè)矩陣中的元素Aij是實(shí)體集EC中實(shí)體Ei和關(guān)系關(guān)鍵詞集RKWC中關(guān)鍵詞在語法樹上的語法關(guān)系,如果不存在就用null表示。AEK是一個(gè)n×m的矩陣,其中,n表示實(shí)體集EC的大小;m表示關(guān)系關(guān)鍵詞集RKWC的大小。

      (5)關(guān)鍵詞映射矩陣AKK:這個(gè)矩陣中的元素Aij是關(guān)系關(guān)鍵詞集合中的關(guān)鍵詞KWi和KWj在語法樹上的語法關(guān)系,如果不存在就用null表示。AKK是一個(gè)m×m的矩陣,其中,m是關(guān)系關(guān)鍵詞集合的大小。

      (6)挖掘模板P=(ER1ER2… ERnRR1RR2…RRm):模板是由實(shí)體和關(guān)鍵詞及關(guān)鍵詞和關(guān)鍵詞在語法樹上的關(guān)系組成的,而這種關(guān)系通常以路徑或者圖的形式表現(xiàn)出來[7]。本文將這個(gè)路徑或圖表示成詞對的集合。在這個(gè)集合中,包含2種不同的元素:1)實(shí)體和關(guān)鍵詞及它們之間的語法關(guān)系構(gòu)成的三元組:;2)關(guān)鍵詞之間的語法關(guān)系構(gòu)成的三元組:,其中,M表示其在語法樹上的關(guān)系;E表示實(shí)體;KW表示關(guān)鍵詞。

      例如:“攝影師/n丁玉珍/nr把/p沖/v好/a的/u照片/n交給/v了/u孔玲/nr”,從這個(gè)句子里可以得到實(shí)體集EC=(丁玉珍,孔玲),關(guān)系關(guān)鍵詞集RKWC=(攝影師,把,沖,照片,交給),實(shí)體關(guān)鍵詞映射矩陣AEK和關(guān)鍵詞映射矩陣AKK:

      可以發(fā)現(xiàn)這個(gè)矩陣實(shí)際上是個(gè)稀疏矩陣,可便于在實(shí)驗(yàn)中使用。其中,nsubj表示的是名詞性主語;dobj表示的是直接賓語;nn表示的是名詞修飾;ba表示的是把字結(jié)構(gòu)[8]。

      2.2 方法流程

      本文提出的算法利用實(shí)體和關(guān)系關(guān)鍵詞在句法結(jié)構(gòu)上的映射關(guān)系來挖掘關(guān)系實(shí)例。算法主要流程如圖1所示。該算法主要由3個(gè)部分構(gòu)成:挖掘機(jī)訓(xùn)練過程,關(guān)系挖掘過程和關(guān)系元組準(zhǔn)確化過程。首先利用訓(xùn)練集訓(xùn)練得到一個(gè)單通道挖掘機(jī);然后使用這個(gè)挖掘機(jī)對目標(biāo)語料中蘊(yùn)含的關(guān)系進(jìn)行挖掘;最后對挖掘到的關(guān)系元組進(jìn)行進(jìn)一步的準(zhǔn)確化。

      圖1 基于句法結(jié)構(gòu)的關(guān)系挖掘流程

      2.2.1 挖掘機(jī)訓(xùn)練過程

      這一部分主要是根據(jù)訓(xùn)練數(shù)據(jù)集訓(xùn)練單通道挖掘機(jī)。單通道挖掘是指對數(shù)據(jù)集中的每個(gè)句子只進(jìn)行一次挖掘就完成了整個(gè)挖掘過程[3]。訓(xùn)練集的句子都包含了一個(gè)關(guān)系元組(E1RKWC E2),其中,E1和E2是實(shí)體;RKWC是能夠表示實(shí)體間關(guān)系的關(guān)鍵詞集合。挖掘機(jī)訓(xùn)練過程如下:首先對每個(gè)句子進(jìn)行語法解析;然后根據(jù)這些關(guān)系元組中實(shí)體和關(guān)鍵詞在語法樹上的語法關(guān)系及關(guān)鍵詞和關(guān)鍵詞在語法樹上的語法關(guān)系得到用于關(guān)系挖掘過程的挖掘模板;最后得到的所有模板就構(gòu)成單通道挖掘機(jī)。

      例如:“攝影師/n丁玉珍/nr把/p沖/v好/a的/u照片/n交給/v了/u孔玲/nr”,已知實(shí)體E1=“丁于珍”,實(shí)體E2=“孫玲”,關(guān)系關(guān)鍵詞集RKWC=(KW1=把,KW2=照片,KW3=交給),利用解析器可以得到圖2所示的句子結(jié)構(gòu)。

      圖2 句子結(jié)構(gòu)

      可以發(fā)現(xiàn),實(shí)體對和關(guān)系關(guān)鍵詞在結(jié)構(gòu)上的映射關(guān)系,從而得到挖掘模板:

      將該模板保存在挖掘機(jī)里。由于從不同的結(jié)構(gòu)形式中可以得到不同的挖掘模板,因此挖掘機(jī)可以方便地拓展。

      本文設(shè)計(jì)了一個(gè)基于漢語中類雙賓語和單賓語的單通道挖掘機(jī)。對于類雙賓語結(jié)構(gòu),將關(guān)系定義為:2個(gè)實(shí)體通過在一個(gè)事物上發(fā)生的動(dòng)作而產(chǎn)生的聯(lián)系,這種關(guān)系表現(xiàn)形式為:動(dòng)詞+名詞或者介詞+名詞。之所以稱為類雙賓語而不是雙賓語,是因?yàn)樵诒疚乃惴ㄖ杏行┑湫途涫皆跐h語的句法結(jié)構(gòu)里并不屬于嚴(yán)格意義上的雙賓語結(jié)構(gòu),但它也能表達(dá)出本文所定義的關(guān)系表現(xiàn)形式,即2個(gè)實(shí)體通過在一個(gè)事物上的動(dòng)作或行為產(chǎn)生的聯(lián)系。例如:“約翰偷了瑪麗的蘋果”,這個(gè)句子在漢語中并不是雙賓語結(jié)構(gòu),但卻也能表達(dá)出實(shí)體“約翰”和“瑪麗”通過在物體“蘋果”上的動(dòng)作“偷”發(fā)生了聯(lián)系,因此,他們之間是有關(guān)系的。對于單賓語結(jié)構(gòu),把關(guān)系定義為2個(gè)實(shí)體通過一個(gè)相互之間的行為產(chǎn)生的聯(lián)系。例如:“下崗的馬林接替戰(zhàn)績不佳的唐堯東”中,“馬林”和“唐堯東”通過一個(gè)“接替”行為而產(chǎn)生了聯(lián)系。

      由于雙賓語結(jié)構(gòu)和單賓語結(jié)構(gòu)在漢語研究中占有很重要的地位,因此很容易得到這些句式集合,表1給出了部分典型結(jié)構(gòu)和實(shí)例。表中并沒有列舉所有的結(jié)構(gòu),但是只要發(fā)現(xiàn)了這種類型的結(jié)構(gòu)都可以加入到表中,而訓(xùn)練過程不需要變化。

      表1 REBSS系統(tǒng)中用到的主要句式結(jié)構(gòu)

      2.2.2 關(guān)系挖掘過程

      本過程主要是利用前面訓(xùn)練得到的“挖掘機(jī)”對文本進(jìn)行關(guān)系挖掘。

      (1)文本預(yù)處理:這一過程中會(huì)去除文本中的一些噪音,并對文本進(jìn)行分句,以形成后續(xù)過程中使用到的數(shù)據(jù)集。

      (2)分詞、詞性標(biāo)注和命名實(shí)體識(shí)別:對句子進(jìn)行分詞是為了形成句子的“詞序列”:W1W2… Wi… Wm-1Wm,其中,Wi代表了在句子的一個(gè)詞并且“詞序列”中的每個(gè)詞Wi的排列順序和句子中的順序是一致的。對句子進(jìn)行命名實(shí)體識(shí)別的過程中,如果該句子中沒有實(shí)體或者實(shí)體的個(gè)數(shù)少于2個(gè),則把該句子拋棄。此步驟完成后,可以得到每個(gè)句子的實(shí)體集EC和關(guān)系關(guān)鍵詞集RKWC。

      (3)語法解析:在這一部分主要是根據(jù)前面得到的每個(gè)句子的“詞序列”來進(jìn)行語法解析,得到每個(gè)詞之間在語法上的關(guān)系,最終形成實(shí)體關(guān)鍵詞映射矩陣AEK和關(guān)鍵詞映射矩陣AKK。

      (4)關(guān)系挖掘:首先取出挖掘機(jī)里的一個(gè)挖掘模板P;然后把這個(gè)模板中的所有元素都映射到實(shí)體關(guān)鍵詞映射集合AEK和關(guān)鍵詞映射矩陣AKK,如果元素包含實(shí)體就映射到AEK,否則就映射到AKK中;最后,如果所有的元素都可以映射成功就表示這個(gè)映射過程成功完成,就把矩陣AEK和AKK中的實(shí)體和關(guān)系關(guān)鍵詞取出,形成關(guān)系元組;否則繼續(xù)從挖掘機(jī)中取下一個(gè)模板,直到取到最后一個(gè)模板。如果所有的模板都無法成功映射,就表示該句子中沒有挖掘到關(guān)系。

      2.2.3 關(guān)系元組準(zhǔn)確化過程

      這一部分主要是對關(guān)系挖掘過程得到的關(guān)系元組進(jìn)行進(jìn)一步的準(zhǔn)確化。所謂準(zhǔn)確化是指從句子中再找到一些能夠更清楚明白地表達(dá)實(shí)體間關(guān)系的詞,主要包括形容詞、副詞,將其合并到關(guān)系關(guān)鍵詞中。本文把對關(guān)鍵詞的準(zhǔn)確化分為2種:

      (1)對動(dòng)詞關(guān)鍵詞的準(zhǔn)確化,而對于這種情況可以作為準(zhǔn)確成分的是這個(gè)動(dòng)詞前后直接相連的動(dòng)詞和副詞。

      (2)對名詞關(guān)鍵詞的準(zhǔn)確化,而對于這種情況可以作為準(zhǔn)確成分的是和這個(gè)名詞直接相連的名詞和形容詞。

      準(zhǔn)確化算法的具體描述如下:

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)設(shè)置

      為證明本文提出方法的可行性,針對漢語中的類雙賓語結(jié)構(gòu)和單賓語結(jié)構(gòu),設(shè)計(jì)一個(gè)單通道挖掘機(jī)——賓語結(jié)構(gòu)挖掘機(jī),并利用這個(gè)賓語結(jié)構(gòu)挖掘機(jī)對預(yù)料庫中的句子進(jìn)行關(guān)系挖掘。為說明本文提出方法既可以應(yīng)用于網(wǎng)絡(luò)環(huán)境中也可以應(yīng)用于封閉的環(huán)境中,實(shí)驗(yàn)主要使用了3個(gè)數(shù)據(jù)集:(1)新浪新聞?wù)Z料:從新浪新聞中搜集整理得到的新聞?wù)Z料,其中包括體育、娛樂等不同的類型。(2)搜狗語料庫:從網(wǎng)上下載得到的語料,其中包括財(cái)經(jīng)、體育、教育等不同分類的文章。(3)1998年1月《人民日報(bào)》:1998年1月份《人民日報(bào)》報(bào)道的所有文章,所有文章都經(jīng)過人工標(biāo)注。本文主要進(jìn)行以下2個(gè)實(shí)驗(yàn):(1)利用賓語結(jié)構(gòu)挖掘機(jī)對3個(gè)不同的語料庫進(jìn)行初步的挖掘?qū)嶒?yàn):在這個(gè)過程中會(huì)把來自網(wǎng)絡(luò)的語料庫(新浪語料和搜狗語料)和封閉的語料庫(人民日報(bào))都交給賓語結(jié)構(gòu)挖掘機(jī),進(jìn)行單通道挖掘。挖掘完成后,可以得到初步的挖掘結(jié)果,并對結(jié)果進(jìn)行評估。(2)對得到的初步的挖掘結(jié)果進(jìn)行準(zhǔn)確化實(shí)驗(yàn):在這個(gè)過程中,會(huì)把在每個(gè)語料庫上得到的所有的關(guān)系元組(包含判定為正確的和判定為錯(cuò)誤的元組)作為準(zhǔn)確化實(shí)驗(yàn)的輸入部分,然后利用關(guān)系元組準(zhǔn)確化算法進(jìn)行實(shí)驗(yàn),并對這個(gè)準(zhǔn)確化后的結(jié)果進(jìn)行評估。

      3.2 實(shí)驗(yàn)結(jié)果

      對實(shí)驗(yàn)結(jié)果的評估標(biāo)準(zhǔn)仍然是采用最為常見也是最重要的標(biāo)準(zhǔn):準(zhǔn)確率P=C1C2,召回率R=C1C3,綜合評價(jià)指標(biāo)F值:F=2 PR(P + R)。其中,C1表示挖掘到的關(guān)系元組中正確的個(gè)數(shù);C2表示挖掘到的關(guān)系元組的總數(shù);C3表示文本中的類雙賓語結(jié)構(gòu)和單賓語結(jié)構(gòu)所包含的關(guān)系元組個(gè)數(shù)。

      3.2.1 關(guān)系挖掘?qū)嶒?yàn)

      利用賓語結(jié)構(gòu)挖掘機(jī)對3個(gè)不同的語料庫進(jìn)行初步的挖掘?qū)嶒?yàn),結(jié)果如表2所示。從中可以發(fā)現(xiàn),本文算法在新浪網(wǎng)絡(luò)語料和搜狗語料庫上的性能稍微低于《人民日報(bào)》,這是由于對開放語料的“清洗”處理并不是完美的,因此其中存在一些噪音,而這些噪音導(dǎo)致了挖掘性能的差異。但是這種差異并不大,從這個(gè)方面也說明了提出的方法既可以應(yīng)用于網(wǎng)絡(luò)環(huán)境中也可以應(yīng)用于封閉的環(huán)境中。

      表2 關(guān)系挖掘?qū)嶒?yàn)結(jié)果 %

      對于一些結(jié)構(gòu)復(fù)雜的句子有時(shí)并不能找到實(shí)體間的關(guān)系,這是因?yàn)榫渥咏Y(jié)構(gòu)的復(fù)雜性導(dǎo)致了語法解析器的解析正確性下降了,導(dǎo)致了這個(gè)句子中所蘊(yùn)含的關(guān)系元組是無法被本文訓(xùn)練的“單通道挖掘機(jī)”找到的。例如:“養(yǎng)路工/n邵永東/nr躲/v到/v路旁/s退休/vn工人/n朱允友/nr家里/s”對于這個(gè)句子找到的關(guān)系關(guān)鍵詞集是(退休,家),也就是實(shí)體“邵永東”和“朱允友”通過“退休”和“家”建立起了聯(lián)系??墒峭ㄟ^觀察這個(gè)句子可以發(fā)現(xiàn)實(shí)際上關(guān)系關(guān)鍵詞集應(yīng)該是(躲到,家),也就是說“邵永東”通過“躲到”“朱允友”的“家”里而使他們之間建立起了聯(lián)系。之所以會(huì)出現(xiàn)這個(gè)問題就是因?yàn)闆]能正確得到其句法結(jié)構(gòu)的原因,而這個(gè)原因也是提出的方法的一個(gè)限制。一方面,未來如果語法解析的效果更好一些,這個(gè)問題可以得到一部分的解決;另一方面以后在挖掘方法上可以加入一些統(tǒng)計(jì)的方法,來改善這個(gè)問題。

      而對于一些句子能夠正確得到其結(jié)構(gòu),但是得到的關(guān)系關(guān)鍵詞卻不能清晰地表達(dá)出實(shí)體之間的關(guān)系。例如:“/w肯尼亞選舉委員會(huì)/nt宣布/v現(xiàn)任/b總統(tǒng)/n莫伊/nr在/p 1997年/t底/f舉行/v的/u大選/vn中/f獲勝/v”。從這個(gè)句子中可以得到關(guān)系元組(肯尼亞選舉委員會(huì),宣布,莫伊),雖然這個(gè)關(guān)系可以被“挖掘機(jī)”找到,但是這個(gè)關(guān)系關(guān)鍵詞“宣布”卻沒有清晰地表達(dá)出實(shí)體間的關(guān)系,也即挖掘出了“無信息”的關(guān)系[8]。

      3.2.2 關(guān)系元組準(zhǔn)確化實(shí)驗(yàn)

      針對關(guān)系關(guān)鍵詞無法正確而清晰地表達(dá)實(shí)體間關(guān)系的情況,對挖掘得到的關(guān)系元組進(jìn)一步準(zhǔn)確化,具體見準(zhǔn)確化算法。通過對關(guān)系元組的準(zhǔn)確化可在原來結(jié)果的基礎(chǔ)上進(jìn)一步提高性能,結(jié)果如表3所示。從中可以發(fā)現(xiàn)一個(gè)有趣的問題:在《人民日報(bào)》上的性能要稍低于新浪網(wǎng)絡(luò)語料和搜狗語料庫,這一點(diǎn)和表2中的結(jié)果恰好相反。通過觀察數(shù)據(jù)集,發(fā)現(xiàn)這是因?yàn)樵谛吕司W(wǎng)絡(luò)語料和搜狗語料庫中的一些原來是錯(cuò)誤的元組經(jīng)過準(zhǔn)確化后可以得到正確的元組,而在《人民日報(bào)》中,這樣的元組所占的比例較少。其中,在新浪語料庫可以通過準(zhǔn)確化得到的正確元組占元組總數(shù)的比例為15%,在搜狗語料庫中這樣的元組所占的比例為17%,而在《人民日報(bào)》中只占了7%。

      表3 關(guān)系元組準(zhǔn)確化實(shí)驗(yàn)結(jié)果 %

      從表3來看,準(zhǔn)確化后的關(guān)系元組的準(zhǔn)確率確實(shí)比之前要有所提高。例如:“/w脫/v下/v鐵道兵/n軍裝/n的/u石學(xué)海/nr調(diào)/v到/v大連電視臺(tái)/nt”。最初從這個(gè)句子中得到了關(guān)系元組(石學(xué)海,到,大連電視臺(tái)),但關(guān)系關(guān)鍵詞“到”卻沒有能清晰地表達(dá)出“石學(xué)海”和“大連電視臺(tái)”的關(guān)系,甚至使人無法理解“到”是什么含義。在進(jìn)行準(zhǔn)確化后,可以得到關(guān)鍵詞是“調(diào)到”,這個(gè)詞就使人們很容易理解了。然而在極少的一些情況下,準(zhǔn)確化過程會(huì)把原來清晰的關(guān)系變得不清晰。例如:“被害人/n桂召金/nr因/p支氣管炎/n發(fā)作/vi找/v吳偉/nr1醫(yī)治/v”,最初可以從這個(gè)句子中得到關(guān)系元組(桂召金,找,吳偉),但在經(jīng)過準(zhǔn)確化后得到的關(guān)系元組是(桂召金,發(fā)作找,吳偉),這個(gè)關(guān)系關(guān)鍵詞“發(fā)作找”反而就很難理解了。

      將本文算法的實(shí)驗(yàn)結(jié)果與文獻(xiàn)[9-10]方法的實(shí)驗(yàn)結(jié)果相比,可以看出,本文算法可以獲得比傳統(tǒng)方法更豐富的關(guān)系類型。

      4 結(jié)束語

      本文提出一種基于中文句法結(jié)構(gòu)的關(guān)系挖掘算法,同時(shí)設(shè)計(jì)一個(gè)針對漢語中類雙賓語結(jié)構(gòu)和單賓語結(jié)構(gòu)的單通道挖掘機(jī),利用其進(jìn)行關(guān)系挖掘。本文算法無需大量訓(xùn)練集,降低了對訓(xùn)練集的依賴性,并且在挖掘過程中使用語法解析提高了準(zhǔn)確率,同時(shí)也減少了無信息關(guān)系元組的出現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該算法具有良好的拓展性,能夠獲得較為豐富的關(guān)系類型。下一步工作將主要集中在以下2個(gè)方面:(1)由于現(xiàn)在的方法對挖掘到的關(guān)系元組沒有采取自動(dòng)的有效性驗(yàn)證,因此將來考慮采用一種有效性驗(yàn)證方法來對關(guān)系元組的正確性進(jìn)行自動(dòng)驗(yàn)證,例如可以采用基于冗余的驗(yàn)證[11]。(2)利用漢語中其他典型句法結(jié)構(gòu)來訓(xùn)練單通道挖掘機(jī),以增強(qiáng)其挖掘關(guān)系元組的能力。

      [1]Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-text Collections[C]//Proc.of the 5th ACM International Conference on Digital Libraries.Boston,USA:ACM Press,2000:85-94.

      [2]Brin S.Extracting Patterns and Relations from the World Wide Web[R].Palo Alto,USA:The Stanford University InfoLab,Technical Report:SIDL-WP-1999-0119,1998.

      [3]Banko M,Cafarella M J,Scderland S,et al.Open Information Extraction from the Web[C]//Proc.of the 20th International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2007:2670-2676.

      [4]Fader A,Soderland S,Etzioni O.Identifying Relations for Open Information Extraction[C]//Proc.of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2011:87-96.

      [5]Shinyama Y,Sekine S.Preemptive Information Extraction Using Unrestricted Relation Discovery[C]//Proc.of HLTNAACL’06.Stroudsburg,USA:Association for Computational Linguistics,2006:304-311.

      [6]de Marneffe M,MacCartney B,Manning C D.Generating Typed Dependency Parses from Phrase Structure Parsers[C]//Proc.of International Conference on Language Resources and Evaluation.Genoa,Italy:[s.n.],2006:449-454.

      [7]Takamatsu S,Sato I,Nakagawa H.Reducing Wrong Labels in Distant Supervision for Relation Extraction[C]//Proc.of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2012:721-729.

      [8]Chang P C,Tseng H,Jurafsky D,et al.Discriminative Reordering with Chinese Grammatical Relations Features[C]//Proc.of the 3rd Workshop on Syntax and Structure in Statistical Translation.Stroudsburg,USA:Association for Computational Linguistics,2009:51-59.

      [9]李維剛,劉 挺,李 生.基于網(wǎng)絡(luò)挖掘的實(shí)體關(guān)系元組自動(dòng)獲取[J].電子學(xué)報(bào),2007,35(11):2111-2116.

      [10]鄧 擘,鄭彥寧,傅繼彬.漢語實(shí)體關(guān)系模式的自動(dòng)獲取研究[J].計(jì)算機(jī)科學(xué),2010,37(2):183-185.

      [11]Downey D,Etzioni O,Soderland S.A Probabilistic Model of Redundancy in Information Extraction[C]//Proc.of International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2005:1034-1041.

      猜你喜歡
      元組句法結(jié)構(gòu)挖掘機(jī)
      Python核心語法
      挖掘機(jī)尿素噴嘴散熱改進(jìn)
      海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
      基于減少檢索的負(fù)表約束優(yōu)化算法
      現(xiàn)代漢語句法結(jié)構(gòu)解讀
      山西青年(2017年7期)2017-01-29 18:25:26
      《基本句法結(jié)構(gòu):無特征句法》評介
      露天采礦挖掘機(jī)的維修保養(yǎng)
      徐工XW1300C大型挖掘機(jī)
      挖掘機(jī)的較量:履帶式挖掘機(jī)VS.輪式挖掘機(jī)
      面向數(shù)據(jù)流處理的元組跟蹤方法
      简阳市| 龙江县| 湘阴县| 镇巴县| 汽车| 巩留县| 吴桥县| 讷河市| 如皋市| 驻马店市| 隆回县| 汤阴县| 平定县| 盐山县| 莎车县| 嘉义县| 大兴区| 乌兰县| 岫岩| 长武县| 玛纳斯县| 共和县| 屏东县| 尼木县| 益阳市| 芜湖市| 吐鲁番市| 陕西省| 红安县| 大洼县| 隆子县| 崇州市| 德清县| 观塘区| 夏邑县| 新晃| 肃宁县| 鹤岗市| 蒙城县| 澄迈县| 海淀区|