王加楠,魯 強
(中國石油大學(北京) 計算機科學與技術系,北京 102249)
基于模式的遠監(jiān)督關系抽取算法
王加楠,魯 強
(中國石油大學(北京) 計算機科學與技術系,北京 102249)
遠監(jiān)督關系抽取算法能夠自動將關系庫中的關系與無標注的文本對齊,以進行文本中的關系抽取。目前提出的遠監(jiān)督關系抽取算法中,大多數是基于特征的。然而,此類算法在將實例轉換為特征時,經常會出現關鍵信息不突出、數據集線性不可分等問題,影響關系抽取的效果。該文提出了一種基于模式的遠監(jiān)督關系抽取算法,其中引入了基于模式的向量,并使用了基于核的機器學習算法來克服上述問題。實驗結果表明,該文提出的基于模式的遠監(jiān)督關系抽取算法,能夠有效地提升遠監(jiān)督關系抽取的準確率。
遠監(jiān)督;關系抽??;模式;核方法
Abstract: Distant supervision for relation extraction is an approach that can extract relations from texts automatically by aligning a database of facts with texts. Most of existing solutions are feature-based algorithms with certain defects. In this paper, we propose a pattern-based algorithm for distant supervised relation extraction with pattern-based vector. A kernel-based method is used in the algorithm to overcome the problems in feature-based algorithm. The experimental result shows that our algorithm can successfully improve the precision of distant supervision for relation extraction.
Key words: distant supervision; relation extraction; pattern; kernel method
文本信息提取是指自動從文本中提取出人們感興趣的信息,并以結構化的形式存儲,以便進一步利用。關系抽取作為文本信息抽取中一項重要任務,其主要目標是識別并獲取實體間的關系信息。基于機器學習的關系抽取算法主要包括: 有監(jiān)督的關系抽取算法[1-3],無監(jiān)督的關系抽取算法[4-5],以及遠監(jiān)督的關系抽取算法[6-8]。
有監(jiān)督的關系抽取算法發(fā)展得相對成熟,具有較高的性能。然而,由于所需的人工標注代價太大,導致訓練數據缺乏,使其無法勝任海 量 數 據背景下的關系抽取任務。無監(jiān)督的關系抽取算法無需人工標注,通常用于開放領域及未知領域的關系抽取。然而,其準確率相對較低,且得到的關系沒有名稱,因此在抽取后需要進一步篩選和命名才可以使用。遠監(jiān)督的關系抽取算法,主要解決了有監(jiān)督關系抽取算法中對標注數據的依賴問題。其利用已有的關系庫,將關系庫中的關系與文本數據中的實例建立映射,這一過程也被稱為“對齊”。由于遠監(jiān)督的關系抽取算法很好地解決了有監(jiān)督和無監(jiān)督關系抽取算法中的問題,既不依賴于標注數據,又具有標準的關系名稱,因此在提出后獲得了很多學者的研究。
在實現遠監(jiān)督關系抽取的眾多算法中,有一類使用特征對文本實例進行表示的算法,稱為基于特征的遠監(jiān)督關系抽取算法。基于特征的表示方法廣泛應用于自然語言處理任務中,然而在關系抽取任務中,該方法具有以下局限性。 首先,沒有突出關鍵的特征信息?;谔卣鞯膶嵗硎痉椒?,通過獲取文本語句中所含的詞法、句法、語法等特征信息,構造特征向量,并應用于分類器中。在關系抽取任務中,應盡量選取有利于關系識別的特征信息,特別要突出具有決定作用的特征信息。例如,要確定圖1中句1中兩個實體間的關系,關鍵的特征信息是兩個實體的類型“PER”和“ORG”,以及連接兩個實體的動詞“創(chuàng)辦”。而對于圖1中的句2,最重要的特征信息則是詞項“CEO”。基于特征的方法選取了大量的特征信息,但每個特征都是獨立平等的,沒有針對關系抽取任務做出優(yōu)化。其次,實例在特征空間中往往是線性不可分的。一些特征,如實體之間的距離特征,具有普遍性。這類特征出現在大量甚至所有的實例中,使得所構造的特征向量在向量空間中通常是線性不可分的。而基于特征的模型大多使用了具有線性性質的分類器,如邏輯回歸分類器等,導致算法的準確率在一定程度上打了折扣。
圖1 “實例—關系”示例
在有監(jiān)督的關系抽取中,為了解決以上問題,提出了基于核的實例表示方法?;诤说姆椒ú⒉伙@式地抽取特征信息,而是直接使用核函數對實例進行計算。由于不同方法中核函數的設計不同,因此其對不同特征的側重也不同。例如,最短依賴路徑核函數以實體間的最短依賴路徑作為計算的主要依據。此外,當對線性不可分的數據進行線性分類的時候,基于核的算法能夠在一定程度提升分類的準確率[9]?;诤说膶嵗硎痉椒ㄔ谟斜O(jiān)督關系抽取中得到了廣泛的應用,并取得了良好的效果。
核函數本質上是特征空間中的內積函數,因此要求相關的算法模型在執(zhí)行過程中僅依賴于內積。然而此類算法多為有監(jiān)督的學習算法,如支持向量機等。遠監(jiān)督關系抽取算法中無法直接利用監(jiān)督信息,因此不能直接應用核函數。為了解決這一問題,本文對基于特征的遠監(jiān)督關系抽取算法做了擴展,提出了基于模式的遠監(jiān)督關系抽取算法。本文的主要工作如下:
(1) 提出了基于模式的遠監(jiān)督關系抽取算法(第3.2節(jié))。該算法對已有的基于特征的遠監(jiān)督關系抽取算法做了擴展,在其中使用了基于模式的向量。該算法提供了通用的擴展接口,因此可應用于任何基于特征的遠監(jiān)督關系抽取算法。
(2) 借鑒無監(jiān)督關系抽取中模式的概念,設計了基于模式的向量(第4.1節(jié))。在傳統(tǒng)的特征向量中,每一個維度對應一個特征。但在本文設計的模式向量中,每一個維度對應一個模式。為了與傳統(tǒng)的特征向量相區(qū)分,本文中所使用的向量稱為模式向量。模式向量能夠有效地區(qū)分不同關系的實例,從而提升關系抽取的準確率。
(3) 提出了模式向量的構造方法(第4.2節(jié))。以分層聚類為基礎,在其中應用了基于核的實例表示方法,從而克服了基于特征的實例表示方法帶來的局限性。
(4) 通過實驗,驗證了基于模式的遠監(jiān)督關系抽取算法能夠有效地提升關系抽取的準確率(第5節(jié))。
2.1 遠監(jiān)督關系抽取 遠監(jiān)督關系抽取的基本思想是將關系庫中的關系與文本實例進行對齊[10-11],對齊的主要依據是關系與文本實例所共有的實體對。因此,可以將實例與關系按照實體對進行分組。圖2即是一個簡單的分組,可以看到,關系庫中的兩個關系與文本庫中的四個實例通過其共有的實體“比爾蓋茨”、“微軟”建立了簡單的聯(lián)系,每一個實例都可能表達了其中的某個關系。遠監(jiān)督關系抽取的目標就是自動地將實例與其真正表達的關系對應起來。
圖2 遠監(jiān)督關系抽取中的實例與關系分組示例
2.2 基于核的實例表示方法
基于特征的方法將實例轉化為一系列的特征,然后生成特征向量。在自然語言處理中,實例大多具有內在的句法、語法結構,轉換為特征后會損失一定的結構信息。例如,解析樹被轉化為特征后,丟失了其樹形的結構,形式上與其他特征并無二致。
基于核的實例表示方法[12]保持了實例原有的表達形式,使用一個精心設計的核函數直接對實例進行計算。核函數是符合特定條件的相似度函數,一個核函數必須是對稱且半正定的。核函數本質上是在高維空間中計算實例間的內積,從而將一對實體(x,y)映射為它們的相似度得分K(x,y)∈[0,∞]。
核函數無需顯式地對實例進行轉換,而是直接對實例中的特征進行計算。例如,在解析樹核[13]中,直接對實例的解析樹進行計算。其核函數計算了兩個實例的解析樹中公共子樹的數量。
基于核的方法的關鍵問題在于核函數的構建。針對不同的任務,核函數應盡量利用對該任務的效果具有關鍵意義的特征信息。
許多算法中直接利用了實例間的內積,這類算法被稱為dual學習算法。將其中的內積替換為特定的核函數,即可用在基于核的學習算法中。支持向量機是應用最為廣泛的dual學習算法。
3.1 問題 基于特征的實例表示方法,從文本中獲取詞法、句法、語法等特征信息,并構造特征向量。特征向量的每一個維度均對應一個特征,維數等于語料庫中所有不重復的特征的數量。每一個維度上的分量取值為0或1,代表實例是否具有該維度所對應的特征。表1給出了兩個實例、對應的關系,以及從實例獲取的部分特征。
表1 基于特征的實例表示示例
從表1可以看出,雖然兩個實例所表達的關系并不相同,但它們的特征中卻有相當一部分是重復的,如surface_distance。這些重復的特征幾乎在所有關系的實例中均會出現,對識別、區(qū)分關系的意義并不大。而表1中真正關鍵的特征,如argtype,僅占特征中的一小部分。此外,依賴樹包含了句子的主干結構,對于關系抽取具有重要意義。而表1中的依賴樹特征僅僅是一個簡單的字符串,已經丟失了結構信息。由此可見,基于特征的方法并沒有突出關系抽取任務中所需的關鍵特征。
此外,由于特征的重復出現,導致實例在該特征空間中往往是線性不可分的?;谔卣鞯倪h監(jiān)督關系抽取模型,通常使用具有線性性質的分類器,如邏輯回歸分類器等,從而導致關系抽取的準確率在一定程度上打了折扣。
3.2 算法設計
本文的目標是使用基于核的方法,替代基于特征的方法,從而改善后者的局限性。為了實現這一目標,本文對基于特征的遠監(jiān)督關系抽取算法進行了擴展,提出了基于模式的遠監(jiān)督關系抽取算法。算法中訓練部分的描述見圖3。
圖3 基于模式的遠監(jiān)督關系抽取訓練算法
由圖3可見,基于模式的遠監(jiān)督關系抽取算法,使用模式向量替換了已有算法模型中的特征向量。而訓練算法中所用到的模型,仍然為原有算法中的模型。模式向量在形式上與特征向量一致,因此具有通用性,任何基于特征的遠監(jiān)督關系抽取算法均可使用本文提出的算法進行擴展?;谀J降倪h監(jiān)督關系抽取算法是一種簡單易行的解決方案。
4.1 基本定義
4.1.1 模式的定義 在人工制定的關系抽取規(guī)則中,模式是特定的詞法、句法、語法結構的組合,這符合人們書寫文本的規(guī)律。例如,要表達“雇員(A,B)”這一關系,可以使用“A在B工作”這樣的模式,而該模式則唯一表達了上述關系。一個定義完善的模式,其所表達的語義是唯一且確定的,從而能夠準確地對實體間的關系進行判別。
由于語言的多樣性,對同一種關系的表述可能有多種模式。如圖4所示,可以建立“關系—模式—
實例”三級關聯(lián),其中每種關系對應的模式的數量是有限的。因此,表達某種關系的所有實例,可以依據其模式分為多個組。
圖4 關系—模式—實例三級關系示例
本文中采用Bunescu與Mooney[14]對模式的定義,即: 模式是由兩個實體的類型以及實體間的最短依賴路徑組成的。實體間的最短依賴路徑通常包含了一句話的骨干結構,與人工制定的規(guī)則中的模式類似。
4.1.2 模式向量的定義
本節(jié)提出了模式向量的定義。模式向量中每一個維度均對應于一個模式,因此模式向量的維數等于模式的數量。在理想情況下,每個實例唯一對應一個模式,則該實例的特征向量中,除了相應模式對應維度的分量為1,其他維度的分量均為0。模式向量建立了“模式—實例”這兩級間的關聯(lián),而訓練后所得到的模型,則建立了“關系—模式”兩級間的關聯(lián)。
然而,在實際的學習過程中,很難準確地建立實例與模式間的聯(lián)系。因此,本文采用以下方法定義模式向量,作為對理想的模式向量的近似。對每個實例x,定義其模式向量為式(1)。
f(x)=[K(x,p1),K(x,p2),…,K(x,pN)]
(1)
其中,pi(i=1,2,…,N)為所有的模式,N為模式的數量,K(x,pi)∈[0,1]表示實例x對應于模式pi的可能程度,f(x)即為所構造的模式向量。同時,該模式向量為歸一化的向量,即所有維度的分量之和為1。
4.2 模式向量的構造算法
根據上一節(jié)中的定義,模式向量的構造算法如圖5所示。
圖5 模式向量構造算法
4.2.1 相似度函數
模式向量中的分量K(x,pi)表示實例x與模式pi對應的可能性,本文以實例x與模式pi之間的相似度作為可能性的近似值。具體的計算方法如下: 首先提取實例x的模式px,然后計算兩個模式的相似度K′(px,pi),最后對各個分量進行歸一化。
對于兩個模式a和b,按照4.1.1節(jié)對模式的定義,a1a2…am和b1b2…bn為對應的兩條最短依賴路徑。Bunescu和Mooney[14]通過式(2)計算相似度。
(2)
其中,c(ai,bi)=|ai∪bi|是ai與bi共有特征的數量。例如,在圖6中,S為原始語句所對應的依賴圖,P為實體Protesters與實體stations對應的模式,包括最短依賴路徑及該路徑上元素的特征(方括號中)。
圖6 最短依賴路徑核示例
本文對該最短依賴路徑核函數做了部分改動,去除了實體詞特征,如圖6方括號中的protesters與stations。因為對于模式的相似度而言,無需考慮實體詞。
4.2.2 模式提取
構造模式向量之前,首先要提取出所有模式,即pi(i=1,2,…,N)。本文根據模式的相似度,將實例進行聚簇,并認為每個簇中的實例具有相同的模式。之后,選擇位于簇中心的實例,提取其模式作為該簇對應的模式。
本文所使用的聚簇方法基于分層聚類。分層聚類可以分為凝聚的分層聚類(HAC)和分裂的分層聚類,前者采用自底向上的策略,后者采用自頂向下的策略。本文采用改進的HAC方法。
如圖7所示,基本的HAC算法首先將每個實例視為一個簇,然后迭代地合并最相似的兩個簇,直到所有簇之間的相似度都小于某個特定的閾值為止。描述簇與簇之間的相似度通常有三種方法: 單連接、全連接和平均連接。算法從兩簇中各選取一個實例組成一對,計算其相似度。上述三種方法分別取所有實例對中的最大相似度、最小相似度和平均相似度作為簇與簇之間的相似度。
圖7 HAC算法示例
HAC算法中,最終得到的聚簇的數量,取決于上文提到的相似度閾值。本文采用Rosenfeld和Feldman[4]提出的方法進行計算,該方法無需設定相似度閾值,因此無需指定聚簇的數目。在聚簇中使用單連接來刻畫簇間相似度,并將聚簇的停止條件設置為: “兩個簇的元素之間的平均相似度小于最大相似度的α倍”,其中,α為一常數且0<α<1。
聚簇完成之后,對每一個簇,要選擇該簇的中心元素,并提取其模式作為該簇的模式。根據K-medoids算法中對聚簇中心的定義,本文通過以下方法選擇聚簇中心實例: 對簇中每一個實例,分別計算其與簇中其他實例的相似度并求和,相似度總和最大的元素則為該簇的聚簇中心。
整個模式提取算法的描述見圖8。
圖8 模式提取算法
5.1 實驗數據 本文實驗使用了Google Research提供的數據集。該數據集包含了維基百科中的文本片段,以及從該片段中提取出的關系三元組。每個關系三元組均對應有人工的評估結果,可用于判斷關系的正確性。本文以該數據集為基礎,將其中的語料與Freebase進行對齊,并選取其中的出生日期、出生地、教育程度及機構四種關系進行實驗。
實驗前,對Google Research提供的數據集進行了以下處理,以便實驗使用。
首先,將數據集中的三元組與文本片段建立關聯(lián)。由于三元組中的兩個實體均以Freebase中MID的形式表示,而文本片段中含有多個實體,需要確定關系三元組對應于文本中的哪一對實體。處理過程中,少量文本未能與關系三元組進行對應,這一部分數據未在實驗中使用。
其次,數據集中包含了五位評估者對關系正確性的判斷。實驗中,當有四位或超過四位評估者給出“yes”的判斷時,則認為該實例表達了相應關系,否則認為該實例并未表達關系。
最終在實驗中使用的數據集構成見表2。其中,訓練集與測試集按照4∶1的比例隨機采樣生成。
表2 實驗數據集的構成
5.2 實驗結果與評估
5.2.1 模式向量評估 與傳統(tǒng)的特征向量相比,模式向量能夠有效地區(qū)分不同關系的實例。即表達不同關系的兩個實例,其相似度應盡量小。本文使用以下方法進行驗證。
對任意兩個關系r1、r2、X1、X2分別為對應于這兩個關系的實例集合。對每個實例對(a,b)∈{(x1,x2)|x1∈X1,x2∈X2},分別使用特征向量和模式向量計算實例間的余弦相似度,稱為特征相似度和模式相似度。最后,對相似度為0的實例對進行統(tǒng)計,結果見表3。
表3 相似度為0的實例對的數量及占比
從表3中可見,使用傳統(tǒng)特征向量的情況下,僅有不到10%的實例對的相似度為0。這意味著不同關系的實例或多或少共享了一部分特征,正是造成數據集線性不可分的主要原因。而模式向量則大幅提升了這一結果,90%以上的實體對的相似度為0,因此能夠對不同關系的實例進行更好的區(qū)分,從而提高關系抽取的準確率。
5.2.2 基于模式的關系抽取算法評估
本文提出的關系抽取算法,能夠對使用特征向量作為輸入的算法模型進行擴展。通過對基準模型進行擴展,并比較擴展后與擴展前模型的性能,對本文提出的算法進行評估。本文選擇了以下三種基準模型進行實驗。
(1) Mintz++。該模型基于Mintz等[6]提出的模型,主要做了如下改進: (1)對應于同一實體對的實例不再合并,(2)允許同一實體對具有多種關系。
(2) Hoffmann。即Hoffmann[15]提出的MultiR模型。該模型將關系抽取視為多實例、多標簽問題,并基于“at-least-one”假設。在學習過程中并未使用分類器,而是使用感知器算法。
(3) MIML-RE。該模型由Surdeanu[16]提出,將關系抽取視為多實例、多標簽問題,并在學習過程中使用邏輯回歸分類器。其中,關系級的分類器在“at-least-one”假設的基礎上,還對關系間的依賴進行了建模。
具體的實驗結果見表4??梢钥闯?,與三種基準模型相比,基于模式的關系抽取算法在準確率上均有一定的提升,但在召回率上則有小幅的下降。
實驗結果對應的準確率/召回率曲線見圖9。從Mintz模型可以看出,當召回率達到0.7左右時,基于模式的算法保持了一定的準確率,沒有出現大幅度的下滑。在Hoffmann模型中,在召回率達到0.7左右時,基于模式的算法在準確率方面 表 現 得 較
為穩(wěn)定。在MIML-RE模型中,基于模式的算法均維持了較高的準確率。在上述三個模型中,基于模式的算法對應的曲線的最右端橫坐標均小于原始算法的最右端橫坐標。
表4 三種基準模型及其改進模型的實驗結果
綜上所述,基于模式的算法對基準模型的提升主要體現在召回率達到一定高度時,在召回率略微下降的前提下,明顯地提升了關系抽取的準確率。對于使用線性分類器的多實例、多標簽模型,如MIML-RE模型,本算法帶來的準確率提升更加顯著。
有監(jiān)督的關系抽取通常被視為分類問題,按照實例表示方法的不同可以分為基于特征的分類模型和基于核的分類模型。多位研究者提出了不同的特征提取策略,用來將序列、解析樹、依賴樹等結構中可能有用的信息轉換為特征向量[2]?;谔卣鞯姆椒y點在于如何選擇合適的特征。Jiang和Zhai[17]對此做了詳細的研究?;诤说姆椒ㄊ褂酶幼匀坏姆椒?,允許使用大量特征但并不顯式地提取它們。在之前的研究中,多種核函數被提出,如卷積樹核[18],子序列核[19],依賴樹核[14]等。
圖9 三種基準模型及其改進模型的PR曲線圖
遠監(jiān)督關系抽取方法的提出,主要是為了解決有監(jiān)督關系抽取中缺乏標注數據的問題。遠監(jiān)督方法最早由Craven和Kumlien[10]引入信息抽取領域,主要用于抽取蛋白質與基因間的關系,使用Yeast Protein Database作為關系庫。之后,Mintz等[6]將其引入關系抽取中,并作出如下假設: (1)每個實體對僅具有一種關系,(2)所有包含該實體對的實例均表達了此關系。Riedel等[7]放松了假設(2),提出了重要的“at-least-one”假設,即“至少有一個包含該實體對的實例表達了該關系”。Hoffmann等[15]則進一步放松了假設(1),允許兩個實體間具有多種關系。之后,Surdeanu等[16]引入了多實例、多標簽學習框架,建立了更為形式化的模型。除了上述基于特征的模型之外,部分學者從其他角度提出了多種模型。Alfonseca等[20]提出了分層主題模型,使用三個主題模型分別來捕捉背景模式、對應于實體對的模式和對應于關系的模式。Takamatsu等[8]則通過對常見模式的預測,判斷其是否真正表達了目標關系,從而移除錯誤的關系標簽。
無監(jiān)督關系抽取算法主要利用無監(jiān)督的聚簇技術來發(fā)現文本中的關系。Rosenfeld和Feldman[4]使用實體詞之間的文本作為模式,并利用k-means和HAC算法來進行聚類。Bollegala等[21]不僅使用了詞法特征,還使用了淺層的句法特征作為模式,并同時對實體對和模式進行聚類。Wang等[22]在聚類時,利用過濾技術去除了不太可能表達關系的實例。
本文提出了一種基于模式的遠監(jiān)督關系抽取算法,利用模式向量,對現有的基于特征的遠監(jiān)督關系抽取算法進行了擴展。在模式向量的構造過程中,應用了基于核的實例表示方法。因此,擴展后的算法克服了基于特征的算法中的局限性。實驗結果表明,模式向量能夠有效地區(qū)分不同關系的實例,基于模式的遠監(jiān)督關系抽取算法對關系抽取的準確率有明顯的提升。
下一步的工作,是設計出更為合理的核函數及聚類算法,使基于模式的特征向量能夠更加準確地對實例進行表示,從而進一步提升算法的性能。
此外,現階段的研究尚未能做到直接將基于核的方法應用到遠監(jiān)督關系抽取中,在今后的工作中可以更深入地探討基于核的遠監(jiān)督關系抽取算法的設計與實現。
[1] Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction[J]. The Journal of Machine Learning Research, 2003(3): 1083-1106.
[2] Kambhatla N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on interactive poster and demonstration sessions. Association for Computational Linguistics, 2004: 22.
[3] GuoDong Z, Jian S, Jie Z, et al. Exploring various knowledge in relation extraction[C]//Proceedings of the 43rd annual meeting on association for computational linguistics. Association for Computational Linguistics, 2005: 427-434.
[4] Rosenfeld B, Feldman R. Clustering for unsupervised relation identification[C]//Proceedings of the sixteenth ACM conference on Conference on Information and Knowledge Management. ACM, 2007: 411-418.
[5] Yan Y, Okazaki N, Matsuo Y, et al. Unsupervised relation extraction by mining Wikipedia texts using information from the web[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 1021-1029.
[6] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 1003-1011.
[7] Riedel S, Yao L, McCallum A. Modeling relations and their mentions without labeled text[M].Machine learning and knowledge discovery in databases. Springer Berlin Heidelberg, 2010: 148-163.
[8] Takamatsu S, Sato I, Nakagawa H. Reducing wrong labels in distant supervision for relation extraction[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 721-729.
[9] Pham A T, Raich R. Kernel-based instance annotation in multi-instance multi-label learning[C]//Proceedings of Machine Learning for Signal Processing (MLSP), 2014 IEEE International Workshop on. IEEE, 2014: 1-6.
[10] Craven M, Kumlien J. Constructing biological knowledge bases by extracting information from text sources[C]//Proceedings of the ISMB, 1999: 77-86.
[11] Bunescu R, Mooney R. Learning to extract relations from the Web using minimal supervision[C]//Proceedings of the Annual meeting-Association for Computational Linguistics. 2007, 45(1): 576.
[12] Cristianini N, Shawe-Taylor J. An introduction to support vector machines and other kernel-based learning methods[M]. Cambridge university press, 2000.
[13] Collins M, Duffy N. Convolution kernels for natural language[C]//Proceedings of the Advances in Neural Information Processing Systems. 2001: 625-632.
[14] Bunescu R C, Mooney R J. A shortest path dependency kernel for relation extraction[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005: 724-731.
[15] Hoffmann R, Zhang C, Ling X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 541-550.
[16] Surdeanu M, Tibshirani J, Nallapati R, et al. Multi-instance multi-label learning for relation extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 455-465.
[17] Jiang J, Zhai C X. A Systematic exploration of the feature space for relation extraction[C]//Proceedings of the HLT-NAACL. 2007: 113-120.
[18] Qian L, Zhou G, Kong F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 697-704.
[19] Mooney R J, Bunescu R C. Subsequence kernels for relation extraction[C]//Proceedings of the Advances in neural information processing systems. 2005: 171-178.
[20] Alfonseca E, Filippova K, Delort J Y, et al. Pattern learning for relation extraction with a hierarchical topic model[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Association for Computational Linguistics, 2012: 54-59.
[21] Bollegala D T, Matsuo Y, Ishizuka M. Relational duality: Unsupervised extraction of semantic relations between entities on the web[C]//Proceedings of the 19th international conference on World wide Web. ACM, 2010: 151-160.
[22] Wang W, Besan?on R, Ferret O, et al. Filtering and clustering relations for unsupervised information extraction in open domain[C]//Proceedings of the 20th ACM international conference on Information and knowledge management. ACM, 2011: 1405-1414.
王加楠(1990—),碩士,主要研究領域為自然語言處理、信息抽取。
E-mail: piovano@outlook.com
魯強(1977—),通信作者,博士,副教授,碩士生導師,主要研究領域為知識工程、演化計算。
E-mail: luqiang@cup.edu.cn
Pattern-Based Distant Supervision for Relation Extraction Algorithm
WANG Jianan, LU Qiang
(Department of Computer Science and Technology, China University of Petroleum, Beijing 102249, China)
1003-0077(2017)04-0122-10
TP391
A
2015-12-17 定稿日期: 2016-03-23
國家自然科學基金(61402532)