• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    采用多尺度注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取

    2018-04-04 01:12:57郝佳云李海生
    中文信息學(xué)報(bào) 2018年1期
    關(guān)鍵詞:示例注意力實(shí)體

    蔡 強(qiáng),郝佳云,曹 健,李海生

    (1. 北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,北京 100048;2. 北京工商大學(xué) 食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)

    0 引言

    信息抽取技術(shù)在自然語(yǔ)言處理領(lǐng)域十分重要。關(guān)系抽取作為信息抽取的重要分支,用來(lái)識(shí)別文本中實(shí)體預(yù)先定義的語(yǔ)義關(guān)系[1]。即對(duì)于實(shí)體對(duì)e1和e2,二者之間相關(guān)關(guān)系可以形式化地表示為三元組形式,其中r為關(guān)系描述類型。例如,給定一個(gè)簡(jiǎn)單的包含實(shí)體關(guān)系的句子: "Bill Gates is the founder of the Microsoft.",其中實(shí)體對(duì)"Bill Gates"與“Microsoft”之間的關(guān)系為"founder"。關(guān)系抽取技術(shù)已經(jīng)被廣泛應(yīng)用于信息檢索、基因疾病關(guān)系挖掘、知識(shí)圖譜等重要領(lǐng)域。

    近年來(lái),深度學(xué)習(xí)在很多自然語(yǔ)言處理任務(wù)中取得了較好效果,因此大量算法采用深度學(xué)習(xí)的方法進(jìn)行特征提取以及關(guān)系抽取。2012年,Socher[2]提出使用遞歸神經(jīng)網(wǎng)絡(luò)來(lái)解決關(guān)系分類問(wèn)題,通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)得到句子向量表示,從而用于關(guān)系分類。之后,Zeng[3]等人采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合詞向量及詞語(yǔ)位置信息進(jìn)行關(guān)系分類。雖然這些方法取得了較好效果,但是在對(duì)模型進(jìn)行訓(xùn)練時(shí)需要大量標(biāo)注數(shù)據(jù),耗費(fèi)了大量的人力物力。因此,本文重點(diǎn)研究遠(yuǎn)程監(jiān)督方法。

    遠(yuǎn)程監(jiān)督關(guān)系抽取首次由Craven[4]等人提出,利用知識(shí)庫(kù)信息來(lái)發(fā)現(xiàn)蛋白質(zhì)與細(xì)胞/疾病/藥物之間的關(guān)系。Mintz[5]等人通過(guò)將知識(shí)與文本集對(duì)齊來(lái)進(jìn)行大規(guī)模關(guān)系抽取。但是,錯(cuò)誤標(biāo)簽引入了大量噪聲,因此文獻(xiàn)[6]提出了使用多示例學(xué)習(xí)的遠(yuǎn)程抽取策略,大規(guī)模減少了人工標(biāo)注數(shù)據(jù)的工作,但是由于在句子編碼時(shí)未充分利用句子中重要的語(yǔ)義信息,抽取結(jié)果準(zhǔn)確率并不高。針對(duì)這一不足,一些算法進(jìn)行關(guān)系抽取時(shí)采用了注意力機(jī)制的方式,用于豐富編碼的語(yǔ)義信息并且減少編碼過(guò)程中的噪聲問(wèn)題。

    注意力機(jī)制曾在序列到序列任務(wù)中大放異彩,在對(duì)句子進(jìn)行建模中取得了較好效果。因此,2016年,Lin[7]等人提出了句子級(jí)別的注意力模型,用來(lái)降低遠(yuǎn)程監(jiān)督關(guān)系抽取模型中錯(cuò)誤標(biāo)簽帶來(lái)的噪聲問(wèn)題。Zhou[8]等人在采用長(zhǎng)短期記憶模型(long short-term memory,LSTM)得到句子高層語(yǔ)義之后,使用注意力權(quán)重矩陣進(jìn)行高層語(yǔ)義表示,提高了句子表示的準(zhǔn)確性。但是這些方法在表征句子的局部及全局信息時(shí)仍有不足。

    Yang[9]等人曾將層次化的注意力機(jī)制應(yīng)用到文本分類任務(wù)中,采用詞語(yǔ)和句子層面的注意力模型對(duì)文本進(jìn)行分類,并且取得了不錯(cuò)的效果。而在關(guān)系抽取任務(wù)中詞語(yǔ)和句子的特征向量表示對(duì)分類效果同樣有著重要影響。在生成句子向量時(shí),用于分類的關(guān)系對(duì)于句子編碼的重要程度不同。例如,在句子“The burst has been caused by water hammer pressure.”中,關(guān)系“cause”對(duì)句子中詞語(yǔ)的相關(guān)程度要強(qiáng)于關(guān)系“l(fā)ocation”。因此句子中各詞語(yǔ)與關(guān)系之間的相關(guān)性影響著句子的向量表示。同時(shí),在同一實(shí)體對(duì)對(duì)應(yīng)的句子集合中,實(shí)體對(duì)在知識(shí)庫(kù)中對(duì)應(yīng)的關(guān)系對(duì)于不同句子的影響程度也不同。例如,實(shí)體對(duì)“Bill Gates”與“Microsoft”在知識(shí)庫(kù)中對(duì)應(yīng)的關(guān)系為“founder”,關(guān)系標(biāo)簽“founder”對(duì)于句子“Bill Gates is the founder of the Microsoft.”有較高的相關(guān)性,而對(duì)于句子“Bill Gates continues to serve on Microsoft’s Board as an advisor on key development projects.”相關(guān)性較低。所以,通過(guò)計(jì)算關(guān)系對(duì)不同句子的相關(guān)性,一方面可以降低錯(cuò)誤標(biāo)簽帶來(lái)的噪聲問(wèn)題,另一方面可以獲得不同句子中豐富的語(yǔ)義信息。因此本文提出一種多尺度的注意力模型,采用注意力機(jī)制提取更加豐富的詞語(yǔ)及句子特征。模型使用雙向門控循環(huán)單元(bidirectional gated recurrent unit,Bi-GRU)得到高層語(yǔ)義信息,在詞語(yǔ)層面,通過(guò)在池化層采用權(quán)重矩陣來(lái)捕捉不同詞語(yǔ)與關(guān)系之間的相關(guān)性;在句子層面,通過(guò)計(jì)算句子與知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體對(duì)之間預(yù)測(cè)關(guān)系的相關(guān)程度得到最終的句子向量表示。

    1 多尺度注意力關(guān)系抽取模型

    為了更好地利用句子語(yǔ)義信息,捕捉句子中較為重要的部分,并且降低錯(cuò)誤標(biāo)簽帶來(lái)的噪聲問(wèn)題,本文結(jié)合詞語(yǔ)層面及句子層面的注意力機(jī)制,提出了多尺度注意力關(guān)系抽取模型,模型設(shè)計(jì)方式如圖1所示:

    (1) 輸入映射層: 將詞語(yǔ)與實(shí)體對(duì)之間位置向量作為神經(jīng)網(wǎng)絡(luò)模型輸入。

    (2) Bi-GRU層: 采用雙向GRU得到高層語(yǔ)義信息。

    (3) 注意力池化層: 通過(guò)計(jì)算句子中詞語(yǔ)與所有關(guān)系之間的相關(guān)程度,建立詞語(yǔ)層面權(quán)重矩陣進(jìn)行池化,并且將詞語(yǔ)水平的向量合并成為句子水平向量。

    (4) 多示例注意力層: 計(jì)算實(shí)體對(duì)集合中句子向量和預(yù)測(cè)關(guān)系之間的相關(guān)程度,建立句子層面權(quán)重矩陣,得到最終的句子向量表示。

    1.1 輸入映射層

    為了捕捉詞語(yǔ)的句法和語(yǔ)義信息,需要將輸入句子中的詞語(yǔ)映射為詞向量。對(duì)于包含m個(gè)詞語(yǔ)的句子s={w1,w2,…,wm},其中每個(gè)詞語(yǔ)wi均被表示為實(shí)值向量wi。

    其中,Wwrd∈Rdw×|V|是由word2vec訓(xùn)練得到的向量矩陣,dw是詞向量的維度,|V|是詞典的大小,i是輸入詞語(yǔ)的詞袋表示(one-hot形式)。由此得到一個(gè)向量序列w={w1,w2,…,wm}。

    1.2 Bi-GRU層

    GRU是Chung[10]等人提出的LSTM的一個(gè)變種,包含更新門和重置門二個(gè)門結(jié)構(gòu)和一個(gè)隱藏狀態(tài)。為了得到序列中過(guò)去和未來(lái)的上下文信息,本文采用雙向GRU得到高層語(yǔ)義表示。根據(jù)文獻(xiàn)[3]的假設(shè),在關(guān)系抽取任務(wù)中,越靠近實(shí)體的詞語(yǔ)包含抽取關(guān)系的信息越豐富,本文采用詞向量及詞語(yǔ)位置向量映射作為雙向GRU的輸入,因此對(duì)于第i個(gè)詞語(yǔ)的輸入為:

    圖1 多注意機(jī)制關(guān)系抽取模型

    其中,wi為第i個(gè)詞語(yǔ),pi,1,pi,2分別表示第i個(gè)詞語(yǔ)與第一個(gè)實(shí)體和第二個(gè)實(shí)體間的位置關(guān)系。

    更新門zi決定了過(guò)去隱含狀態(tài)hi-1向下一個(gè)狀態(tài)傳遞的程度:

    其中,V(n)、U(n)、V(m)、U(m)、V(s)、U(s)是在訓(xùn)練GRU時(shí)學(xué)習(xí)得到的參數(shù)。

    1.3 注意力池化層

    對(duì)于關(guān)系抽取任務(wù),用于分類的關(guān)系集合對(duì)于句子中詞語(yǔ)的重要程度不同。因此,本文采用詞語(yǔ)層面的注意力權(quán)重矩陣捕捉句子中與目標(biāo)關(guān)系更加密切的信息。不同于傳統(tǒng)的池化操作,為了得到與分類任務(wù)更相關(guān)的特征,本文采用注意力機(jī)制的池化操作。將通過(guò)雙向GRU層得到的句子向量與注意力權(quán)重矩陣相乘,之后采用最大池化的操作獲得最顯著的特征表示,從而將詞向量轉(zhuǎn)化為句子向量。

    圖2 注意力池化層權(quán)重矩陣

    在1.2節(jié)得到的句子H(H∈Rd×t,d為經(jīng)過(guò)雙向GRU層后得到的表示單個(gè)詞語(yǔ)向量的維度,t為句子的長(zhǎng)度)表示為[h1,h2,…,ht]。所有關(guān)系組成的集合為Y(Y={r1,r2,…,rl},r是關(guān)系的向量表示,l是關(guān)系的數(shù)量),如圖2所示,通過(guò)計(jì)算句子向量和關(guān)系向量的內(nèi)積,得到句子及關(guān)系相關(guān)度權(quán)重矩陣U(0):

    其中,參數(shù)矩陣V(0)(V(0)∈Rd×l)是在訓(xùn)練過(guò)程中更新得到。

    通過(guò)將經(jīng)雙向GRU層得到的句子向量H與權(quán)重矩陣相乘,從而突出詞語(yǔ)層面的重要部分。之后,采用文獻(xiàn)[11]的策略,采用最大化的策略選擇最顯著的特征。因此,句子表示為:

    1.4 多實(shí)例注意力層

    在傳統(tǒng)的遠(yuǎn)程監(jiān)督抽取關(guān)系任務(wù)中,不可避免會(huì)引進(jìn)錯(cuò)誤標(biāo)簽,從而為關(guān)系抽取帶來(lái)噪聲。針對(duì)這一問(wèn)題,本文采用多示例建模[7]的方式,對(duì)于實(shí)體對(duì),考慮實(shí)體與預(yù)測(cè)關(guān)系之間的相關(guān)程度,建立注意力矩陣,降低噪聲對(duì)正確關(guān)系的影響,并且充分利用這些句子中的語(yǔ)義信息得到最終句子向量表示。

    對(duì)于包含相同實(shí)體對(duì)的句子集合S,假定其中包含句子的數(shù)目為n,即S={s1,s2…sn}。由1.3節(jié)得到的集合S中句子向量可以表示為s1,s2,…,sn,為了計(jì)算輸入句子si與關(guān)系r之間的相關(guān)程度,通過(guò)計(jì)算句子集合中句子向量與知識(shí)庫(kù)中實(shí)體對(duì)對(duì)應(yīng)關(guān)系向量的內(nèi)積,得到注意力矩陣。

    權(quán)重矩陣的計(jì)算公式如下:

    其中,A(A∈Rd×d)為加權(quán)對(duì)角矩陣,r是實(shí)體對(duì)在知識(shí)庫(kù)中對(duì)應(yīng)的預(yù)測(cè)關(guān)系r的向量表示,由于關(guān)系向量在測(cè)試過(guò)程中是未知的,因此,其在訓(xùn)練過(guò)程中為實(shí)體對(duì)在知識(shí)庫(kù)中對(duì)應(yīng)的預(yù)測(cè)關(guān)系,在測(cè)試過(guò)程中通過(guò)隨機(jī)初始化得到。

    為了使與關(guān)系向量更為相關(guān)的句子被賦予較高權(quán)重,因此,將實(shí)體對(duì)對(duì)應(yīng)的句子表示為:

    其中,b為偏置向量。

    1.5 訓(xùn)練和優(yōu)化策略

    本文采用交叉熵代價(jià)函數(shù)作為目標(biāo)函數(shù),定義如下:

    其中,θ表示模型中所有的參數(shù),T代表句子集合數(shù),本文使用Adam優(yōu)化器進(jìn)行參數(shù)更新。

    為了防止模型過(guò)擬合,采用Dropout進(jìn)行正則化約束。Dropout最先是由Hinton[12]等人提出,在每次前向傳播時(shí),隨機(jī)地丟棄一些隱層節(jié)點(diǎn)特征,即權(quán)值更新不依賴于固定的節(jié)點(diǎn)共同作用。本文在雙向GRU層采用Dropout。

    另外,本文采用了L2正則化,在迭代時(shí)乘以一個(gè)小于1的因子λ,用于減小參數(shù)θ的值。正則化操作降低了數(shù)據(jù)偏移對(duì)結(jié)果的影響,增強(qiáng)了模型的抗擾動(dòng)性,避免了過(guò)擬合現(xiàn)象。

    2 實(shí)驗(yàn)結(jié)果及分析

    2.1 數(shù)據(jù)集及評(píng)價(jià)準(zhǔn)則

    為了評(píng)估多尺度注意力關(guān)系抽取模型,采用2010年由Riedel[13]等人提出的數(shù)據(jù)集。該數(shù)據(jù)集是將知識(shí)庫(kù)Freebase和文本集New York Times通過(guò)啟發(fā)式的匹配對(duì)應(yīng)生成的,并被廣泛應(yīng)用于遠(yuǎn)程抽取任務(wù)中。具體地,本文采用2005—2006年的句子作為訓(xùn)練示例,2007年的句子作為測(cè)試示例。數(shù)據(jù)集中包含53種關(guān)系(包含“NA”,表示實(shí)體對(duì)之間沒(méi)有關(guān)系),其中訓(xùn)練集中包含實(shí)體對(duì)數(shù)目為281 270,測(cè)試集中包含實(shí)體對(duì)個(gè)數(shù)為96 678。

    為了評(píng)價(jià)本文的方法是否有效,采用平均準(zhǔn)確率(P@N)、準(zhǔn)確率-召回率(PR)曲線來(lái)進(jìn)行評(píng)價(jià)。通過(guò)對(duì)比前N項(xiàng)準(zhǔn)確率以及PR曲線下的面積來(lái)評(píng)估算法的好壞。

    2.2 參數(shù)設(shè)置

    在實(shí)驗(yàn)過(guò)程中,采用交叉驗(yàn)證的方式進(jìn)行模型調(diào)優(yōu),驗(yàn)證集從訓(xùn)練集中隨機(jī)抽樣獲取。參數(shù)設(shè)置的過(guò)程參考文獻(xiàn)[7]中的經(jīng)驗(yàn)值,句子向量的維度取值范圍為{50,60,…,300};關(guān)系向量的維度與句子向量一致;學(xué)習(xí)率的取值范圍為{0.01,0.001,0.000 1};批大小的取值范圍為{50,100,150,200}。經(jīng)過(guò)實(shí)驗(yàn),本文采取的參數(shù)設(shè)置如表1所示。

    表1 參數(shù)設(shè)置

    2.3 實(shí)驗(yàn)驗(yàn)證

    為了驗(yàn)證多尺度注意力模型對(duì)關(guān)系抽取性能的提高,本文將單注意力機(jī)制及采用多尺度注意力機(jī)制對(duì)模型影響的效果進(jìn)行了對(duì)比,結(jié)果如圖3和表2所示,其中sentence表示僅采用句子層面的注意力模型,all表示本文提出的多尺度注意力模型;表2是這兩種方法前100、200、300的準(zhǔn)確率以及平均準(zhǔn)確率。從圖表中可以看出,相較于采 用 了 單 個(gè)注意力機(jī)制的模型,結(jié)合多尺度的注意力模型提高了關(guān)系抽取的準(zhǔn)確性。

    表2 句子層面注意力模型與多尺度注意力模型準(zhǔn)確率表

    圖3 句子層面注意力模型與多尺度注意力模型對(duì)比曲線

    另外,本文選取五種已經(jīng)發(fā)表的方法進(jìn)行對(duì)比,如圖4所示。Mintz是由Mintz[5]等人提出,采用全部示例來(lái)抽取特征,Hoffmann[14]采用了多示例學(xué)習(xí)的方法,MIMLRE[15]采用多示例多標(biāo)簽的方法,CNN+ATT與PCNN+ATT是由Lin[7]等人提出,采用Zeng等人在文獻(xiàn)[3,6]中的工作,增加句子注意力機(jī)制的方法所得到的模型。圖4表明,相較于其他模型,我們提出的模型有相對(duì)較高的準(zhǔn)確率和召回率。另外,本文采用GRU獲得句子的向量表示,相較于CNN方式更能表征句子中的上下文信息,但同時(shí)對(duì)于局部特征的表征要弱于CNN,因此如圖4所示,在獲得較高召回率的同時(shí),由于引入了更多的噪聲,對(duì)句子的向量表示影響較大,所以本文方法在準(zhǔn)確率上要弱于采用CNN的方法。未來(lái)我們也將嘗試將CNN與GRU進(jìn)行結(jié)合來(lái)表征句子向量,以獲得更加豐富的特征。

    3 結(jié)束語(yǔ)

    在本文中,我們提出了一種采用多尺度注意力機(jī)制的模型。在詞語(yǔ)層面及句子層面均采用了注意力機(jī)制。充分利用了關(guān)系對(duì)于句子中詞語(yǔ)的影響,并且考慮到了同一實(shí)體對(duì)所在句子集合中預(yù)測(cè)關(guān)系對(duì)句子編碼的影響。實(shí)驗(yàn)表明,本文提出的模型適用于遠(yuǎn)程實(shí)體關(guān)系抽取任務(wù)。未來(lái)工作將嘗試采用多類模型表征句子向量;并且在句子注意力機(jī)制方面,探索不同的方式解決多示例帶來(lái)的噪聲問(wèn)題。

    圖4 本文方法與其他五種方法對(duì)比曲線

    [1]Li J, Zhang Z, Li X, et al. Kernel-based learning for biomedical relation extraction[J]. Journal of the Association for Information Science and Technology, 2008, 59(5):756-769.

    [2]Socher R, Huval B, Manning C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the EMNLP-CoNLL 2012. Korea, 2012:1201-1211.

    [3]Zeng D, Liu K, Lai S, et al. Relation classification via convolutional deep neural network[C]//Proceedings of the COLING 2014. Ireland, 2014: 2335-2344.

    [4]Craven M, Kumlien J. Constructing biological knowledge bases by extracting information from text sources[C]//Proceedings of the ISMB 1999. Heidelberg, 1999: 77-86.

    [5]Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the ACL-IJCNLP 2009. Singapore, 2009:1003-1011.

    [6]Zeng D, Liu K, Chen Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of the EMNLP 2015. Lisbon, 2015: 1753-1762.

    [7]Lin Y, Shen S, Liu Z, et al. Neural relation extraction with selective attention over instances[C]//Proceedings of the ACL 2016. Berlin, 2016: 2124-2133.

    [8]Zhou P, Shi W, Tian J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the ACL 2016. Berlin, 2016:207-212.

    [9]Yang Z, Yang D, Dyer C, et al. Hierarchical attention networks for document classification[C]//Proceedings of the NAACL 2016. San Diego, 2016:1480-1489.

    [10]Chung J, Gulcehre C, Chol K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[J]. arXiv preprint arXiv:1412.3555, 2014.

    [11]Santos C, Tan M, Xiang B, et al. Attentive pooling networks[J]. arXiv preprint arXiv:1602.03609, 2016.

    [12]Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4):212-223.

    [13]Riedel S, Yao L, McCallum A. Modeling relations and their mentions without labeled text[J]. Machine Learning and Knowledge Discovery in Databases, 2010: 148-163.

    [14]Hoffmann R, Zhang C, Ling X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]//Proceedings of the ACL HLT 2011. Portland, Oregon, USA: DBLP, 2011:541-550.

    [15]Surdeanu M, Tibshirani J, Nallapati R, et al. Multi-instance multi-label learning for relation extraction[C]//Proceedings of the EMNLP-CoNLL 2012. Korea, 2012:455-465.

    猜你喜歡
    示例注意力實(shí)體
    大還是小
    讓注意力“飛”回來(lái)
    2019年高考上海卷作文示例
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    常見(jiàn)單位符號(hào)大小寫混淆示例
    山東冶金(2019年5期)2019-11-16 09:09:22
    “全等三角形”錯(cuò)解示例
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    安吉县| 旬阳县| 华安县| 和政县| 酒泉市| 沁阳市| 江永县| 武穴市| 鄂尔多斯市| 达拉特旗| 兴安盟| 丽江市| 宜州市| 朝阳市| 阿坝县| 宣武区| 巴中市| 河西区| 铁力市| 陆河县| 永吉县| 南陵县| 东城区| 崇信县| 黔西县| 五台县| 襄樊市| 靖西县| 华安县| 呼伦贝尔市| 五大连池市| 兰坪| 雅江县| 睢宁县| 朝阳市| 阜新市| 洮南市| 炉霍县| 张家港市| 富民县| 高密市|