• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多示例學(xué)習(xí)的化學(xué)物致病關(guān)系抽取

    2019-02-15 11:20:44馮靖焜楊志豪羅凌林鴻飛王健
    關(guān)鍵詞:示例文檔實(shí)體

    馮靖焜,楊志豪,羅凌,林鴻飛,王健

    (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

    0 引言

    隨著生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)數(shù)目的迅速增長(zhǎng),大量的生物醫(yī)學(xué)知識(shí)蘊(yùn)含其中。調(diào)查表明,化學(xué)物質(zhì)(藥物)、疾病以及二者間的關(guān)系是PubMed用戶最常搜索的主題之一[1-2],這反映出化學(xué)物(藥物)-疾病關(guān)系(Chemical-disease relation,CDR)在生物醫(yī)學(xué)和醫(yī)療健康等領(lǐng)域的重要意義[3]。例如,藥物具有兩重性,一方面可以防病治病,促進(jìn)患者生理機(jī)能的恢復(fù),另一方面也可能引起危害人體的藥物不良反應(yīng),藥物副作用(adverse drug reaction,ADR)成為困擾病人、醫(yī)療服務(wù)提供者、監(jiān)管機(jī)構(gòu)和藥品制造商的一個(gè)非常嚴(yán)重的問題,給社會(huì)、家庭造成沉重的經(jīng)濟(jì)負(fù)擔(dān)。據(jù)有關(guān)資料評(píng)估,中國(guó)每年約有5 000萬人住院,其中至少250萬人(20%)是因ADR住院,50萬人是嚴(yán)重的ADR,每年死亡約19萬人,從而增加醫(yī)藥費(fèi)近40億元。近年來,人們?cè)絹碓阶⒅貜姆墙Y(jié)構(gòu)化文本中提取結(jié)構(gòu)化的CDR,一些通過人工標(biāo)注而構(gòu)建的生物醫(yī)學(xué)數(shù)據(jù)庫如CTD(Comparative Toxicogenomics Database)應(yīng)運(yùn)而生[4]。然而,生物醫(yī)學(xué)文獻(xiàn)迅速增長(zhǎng)的需求,與需要耗費(fèi)大量人力、物力而且耗時(shí)的人工標(biāo)注之間存在矛盾。因此,利用文本挖掘技術(shù)從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)抽取CDR信息對(duì)于生物醫(yī)學(xué)研究而言具有重要意義。

    BioCreative評(píng)測(cè)是國(guó)際上用于生物自然語言處理研究的重要評(píng)測(cè)[5]。其中,化學(xué)物致病(Chemical-induced disease,CID)關(guān)系抽取是BioCreative V評(píng)測(cè)任務(wù)中有關(guān)關(guān)系抽取的一項(xiàng)子任務(wù)[3]。該任務(wù)以來自PubMed文章的標(biāo)題和摘要為輸入,要求參加評(píng)測(cè)的系統(tǒng)從輸入文本中抽取并返回具有CID關(guān)系的化學(xué)物-疾病實(shí)體對(duì)。與先前的句子級(jí)別的生物關(guān)系抽取任務(wù)(如蛋白質(zhì)交互關(guān)系抽取,藥物關(guān)系抽取等任務(wù)[6-7])不同的是,CDR抽取任務(wù)是文檔級(jí)別的關(guān)系抽取任務(wù),即對(duì)出現(xiàn)的CID關(guān)系在文檔級(jí)別進(jìn)行標(biāo)注,而不指明關(guān)系所在的具體句子。圖1展示了CDR數(shù)據(jù)集中一篇文檔標(biāo)注示例,首先給出了該文檔相應(yīng)的PubMed編碼以及題目和摘要,然后人工標(biāo)注出了化學(xué)物、疾病實(shí)體以及其相應(yīng)的醫(yī)學(xué)主題詞概念標(biāo)識(shí)符(Medical Subject Headings Concept Identifiers,MeSH?IDs)[3]。從圖1可以看到文檔級(jí)別的關(guān)系抽取,不僅有句子內(nèi)的CID關(guān)系,還存在跨句子的CID關(guān)系(例如“AMNS-FSGS”)。

    Fig.1 CDR labeling example圖1 CDR標(biāo)注示例

    目前在CDR任務(wù)上,很多研究者將CID關(guān)系分成句內(nèi)和句間兩部分,然后對(duì)這兩部分分別訓(xùn)練模型,作出判斷后返回融合后的結(jié)果。例如,Xu等人使用豐富的基于知識(shí)的特征,分別訓(xùn)練了文檔級(jí)和句子級(jí)的支持向量機(jī)(SVM)分類器[8]。Gu等人則使用詞法、句法等特征,分別訓(xùn)練了文檔級(jí)的最大熵(ME)模型和句子級(jí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,并運(yùn)用了規(guī)則預(yù)處理和后處理來進(jìn)一步提高關(guān)系抽取性能[9]。在對(duì)關(guān)系示例進(jìn)行構(gòu)造時(shí),大部分研究者假設(shè):若一篇文檔中兩個(gè)實(shí)體存在CID關(guān)系,那么該文檔中任何包含這兩個(gè)實(shí)體的句子均被認(rèn)為是表達(dá)了這種關(guān)系[9-10]。此外,有少部分研究者直接忽略了句間部分的CID關(guān)系[11]。然而,基于上述假設(shè)構(gòu)造的關(guān)系示例會(huì)引入大量噪音,這是因?yàn)椴⒉皇撬刑峒皩?shí)體對(duì)的句子均表示了實(shí)體對(duì)間的關(guān)系。

    從圖2可以看出,盡管“hypertensive”與“dobutamine”間存在CID關(guān)系,但是僅a句表達(dá)了這種關(guān)系。若根據(jù)上述提到的假設(shè),將b句作為正例參與分類器的訓(xùn)練,那么這種噪音會(huì)干擾分類器,導(dǎo)致其性能下降。為了緩解這個(gè)問題,本文借鑒多示例學(xué)習(xí)的思想來進(jìn)行文檔級(jí)別的化學(xué)物致病關(guān)系抽取。

    多示例學(xué)習(xí)[12]思想由Dietterich等人首次提出,并率先被用于預(yù)測(cè)藥物分子活性。多示例學(xué)習(xí)的假設(shè)是將樣本集看作是一個(gè)包含了很多包的集合,每一個(gè)包中包含了若干數(shù)量的示例,每個(gè)包中的示例數(shù)量是任意的。當(dāng)且僅當(dāng)一個(gè)包中最少有一個(gè)示例為正時(shí),這個(gè)包是正包;反之,是負(fù)包。近年來,多示例學(xué)習(xí)框架也被廣泛應(yīng)用在基于弱監(jiān)督的關(guān)系抽取方法中[13-16]。

    Fg.2 Example with noise圖2 包含噪音的示例

    針對(duì)現(xiàn)存CID關(guān)系抽取方法構(gòu)建訓(xùn)練樣本正負(fù)例引入大量噪聲的問題,本文提出了一種基于多示例學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(multi-instance convolutional neural network,MICNN)的方法來抽取文檔級(jí)別的化學(xué)物致病關(guān)系。將每個(gè)樣本(一對(duì)候選化學(xué)物-疾病實(shí)體對(duì))看成是一個(gè)包,候選實(shí)體對(duì)所在文檔中的共現(xiàn)句子被當(dāng)作它的示例。對(duì)于跨句子的實(shí)體對(duì),則將兩個(gè)實(shí)體所在句以及介于二者間的句子合并作為它的一個(gè)示例,然后使用MICNN模型對(duì)每個(gè)包進(jìn)行分類,預(yù)測(cè)是否存在CID關(guān)系。實(shí)驗(yàn)結(jié)果表明,相比其他現(xiàn)有方法,MICNN僅使用了詞向量特征、位置特征和實(shí)體特征三種基本特征,就在BioCreative V CDR任務(wù)提供的測(cè)試集取得很好的性能表現(xiàn),F值達(dá)到了62.7%。

    1 基于MICNN的CID關(guān)系抽取方法

    本文方法的流程圖如圖3所示主要包括三個(gè)階段。在預(yù)處理階段,首先根據(jù)CDR語料的實(shí)體標(biāo)注,為每對(duì)候選化學(xué)物-疾病實(shí)體對(duì)構(gòu)造對(duì)應(yīng)的實(shí)體共現(xiàn)句集合(即多示例學(xué)習(xí)中的包),然后使用生物主題詞表(medical subject headings,MeSH)制定規(guī)則進(jìn)行過濾。在關(guān)系抽取階段,使用MICNN模型進(jìn)行文檔級(jí)的CID關(guān)系抽取。后處理階段,使用簡(jiǎn)單而有效的啟發(fā)式規(guī)則來進(jìn)一步提高關(guān)系抽取性能。下面將對(duì)每個(gè)階段進(jìn)行細(xì)節(jié)描述。

    Fig.3 Method flow chart圖3 方法流程圖

    1.1 預(yù)處理

    1.1.1 構(gòu)造候選實(shí)體對(duì)包

    在關(guān)系抽取之前,需要構(gòu)建用于訓(xùn)練,驗(yàn)證和測(cè)試階段的候選實(shí)體對(duì)包。首先根據(jù)CDR語料中的實(shí)體標(biāo)注信息生成候選化學(xué)物-疾病實(shí)體對(duì)。假設(shè)一篇文檔中存在a個(gè)不同的化學(xué)物實(shí)體和b個(gè)不同的疾病實(shí)體,那么可以從該文檔中生成a×b個(gè)候選化學(xué)物-疾病實(shí)體對(duì)。

    然后為每對(duì)候選實(shí)體對(duì)生成相應(yīng)的包。在多示例學(xué)習(xí)中,包為多個(gè)示例的集合[12]。對(duì)于每對(duì)候選實(shí)體對(duì),本文根據(jù)以下規(guī)則生成相應(yīng)的示例:對(duì)于句間實(shí)體對(duì),實(shí)體1所在句、實(shí)體2所在句以及這兩句間的所有句子一同合并作為該實(shí)體對(duì)的一個(gè)示例;對(duì)于句內(nèi)實(shí)體對(duì),該實(shí)體對(duì)共現(xiàn)所在句作為其一個(gè)示例。根據(jù)上述規(guī)則,可為候選實(shí)體對(duì)產(chǎn)生這篇文檔中的所有示例,其示例集合為該實(shí)體對(duì)的包。

    最后根據(jù)CID關(guān)系標(biāo)注信息為生成的包打上正或負(fù)的標(biāo)簽。在多示例學(xué)習(xí)中,標(biāo)簽僅與包對(duì)應(yīng),包中的示例并無標(biāo)簽[12]。若包對(duì)應(yīng)的候選實(shí)體對(duì)存在CID關(guān)系,該包為正包;反之則為負(fù)包。

    1.1.2 上位詞過濾

    在某些情況下,相同類型的實(shí)體概念間存在上下位關(guān)系,即一個(gè)概念從屬于另一個(gè)更一般的概念。CDR任務(wù)要求提取最具體的化學(xué)物和疾病間的關(guān)系,這要求研究者應(yīng)該只關(guān)注下層概念間的關(guān)系,忽視上位概念間的關(guān)系[10]。例如下面的句子:

    a) Carbamazepine-induced cardiac dysfunction.

    b) A patient with bradycardia and atrioventricular block, induced by carbamazepine, prompted an extensive literature review of all previously reported cases.

    上面兩句話摘自同一篇文章(PMID:1728915)。句a和b分別是文章的標(biāo)題和部分摘要,其中“Carbamazepine”和“carbamazepine”是同一化學(xué)物實(shí)體(C1);疾病實(shí)體則為“cardiac dysfunction”(D1)、“bradycardia”(D2)及“atrioventricular block”(D3).句中存在三種CID關(guān)系,分別為C1-D1,C1-D2,C1-D3。D1是D2和D3的上位詞,因此后兩種關(guān)系要比第一種關(guān)系更為具體,根據(jù)CDR語料的標(biāo)注準(zhǔn)則[17],僅C1-D2,C1-D3應(yīng)被標(biāo)為正例。

    然而,從關(guān)系抽取的角度來看,句a是表達(dá)CID關(guān)系的常用句式,若在訓(xùn)練中將它看作負(fù)例,那么它會(huì)干擾分類器,導(dǎo)致其性能下降。因此在該階段,本文參照Gu等人的方法[9],利用MeSH詞典尋找并過濾了上位概念關(guān)系的負(fù)例。如上面的例子,C1-D1關(guān)系被直接過濾。

    1.2 關(guān)系抽取

    本文提出的MICNN模型將候選化學(xué)物-疾病實(shí)體對(duì)(e1,e2)及對(duì)應(yīng)的包作為輸入,最后輸出一個(gè)二維向量來判斷實(shí)體對(duì)間是否存在CID關(guān)系。圖4所示為MICNN整體結(jié)構(gòu)圖。該模型主要分為三個(gè)部分:(1)示例級(jí)別特征抽取;(2)多示例池化;(3)二元關(guān)系分類,具體介紹如下。

    Fig.4 MICNN structure diagram圖4 MICNN結(jié)構(gòu)圖

    1.2.1 示例級(jí)別特征抽取

    該過程為包中示例生成矢量特征。本文定義單示例的最大長(zhǎng)度為h,長(zhǎng)度小于h的示例用0填充至h,長(zhǎng)度大于h的示例則被截?cái)唷?duì)包中的每個(gè)示例,本文使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征抽取,該網(wǎng)絡(luò)包括表示層,卷積層和池化層。圖5對(duì)該過程的具體流程進(jìn)行展示。

    Fig.5 Instance level feature extraction圖5 示例級(jí)別關(guān)系抽取

    1.2.1.1 表示層

    在對(duì)每個(gè)示例進(jìn)行輸入表示的過程中,本文使用了以下三種特征:

    (1)詞特征:將示例中的每個(gè)單詞映射成dw維的詞向量,最終獲得詞向量矩陣Ew,即詞嵌入。為了獲得高質(zhì)量的詞向量,本文以disease和chemical為關(guān)鍵字,從PubMed上下載了200 000篇摘要,然后利用word2vec[18]工具進(jìn)行訓(xùn)練,最后獲得了200維的詞向量表示。

    (2)位置特征:對(duì)當(dāng)前示例對(duì)應(yīng)的兩個(gè)實(shí)體出現(xiàn)的位置用整數(shù)進(jìn)行標(biāo)記。下面以化學(xué)物實(shí)體為例對(duì)標(biāo)記過程進(jìn)行說明:首先以化學(xué)物實(shí)體所在位置為原點(diǎn),將其標(biāo)記為0。對(duì)于該實(shí)體以前的單詞,位置標(biāo)記隨著與原點(diǎn)距離的增加依次減1;對(duì)于該實(shí)體以后的單詞,位置標(biāo)記隨著與原點(diǎn)距離的增加依次加1。然后按照預(yù)先為[-h,h]間的所有整數(shù)隨機(jī)初始化的dp維向量表,將標(biāo)記中的每個(gè)整數(shù)映射成dp維的向量,即位置嵌入。最終,每個(gè)示例擁有兩個(gè)分別表示化學(xué)物實(shí)體和疾病實(shí)體位置特征的位置矩陣Ep1和Ep2.

    (3)實(shí)體特征:對(duì)當(dāng)前示例中出現(xiàn)的所有化學(xué)物和疾病實(shí)體的所在位置用整數(shù)進(jìn)行標(biāo)記。若當(dāng)前位置為化學(xué)物實(shí)體,則用1標(biāo)記;若為疾病實(shí)體,則標(biāo)記為2;若未出現(xiàn)實(shí)體,則標(biāo)記為0。為每個(gè)標(biāo)記隨機(jī)初始化一個(gè)de維的向量后,根據(jù)標(biāo)記情況對(duì)其進(jìn)行實(shí)體標(biāo)記嵌入。最終獲得實(shí)體標(biāo)記矩陣Ee.

    最后將以上三種特征矩陣進(jìn)行拼接,得到矩陣X=[Ew,Ep1,Ep2,Ee] 作為示例的輸入表示。其中,ds=dw+2dp+de.

    1.2.1.2 卷積層

    卷積運(yùn)算旨在從輸入矩陣X中提取特征,公式如下:

    (1)

    其中,W∈wc×ds是卷積矩陣,wc是卷積窗口大小,b為偏置值;f()是激活函數(shù),本文使用ReLU作為卷積層的激活函數(shù)。為了學(xué)習(xí)更高層的特征,連續(xù)使用了兩層卷積層。它們的卷積窗口大小分別為wc1和wc2,那么兩次卷積完成后,得到一個(gè)特征映射c=[c1,c2, …,c(h-wa+2)],其中,wa=wc1+wc2。為了從每個(gè)示例中抽取出n個(gè)特征,本文在每層卷積層中均設(shè)置了n個(gè)權(quán)重不同的卷積窗口。最后得到特征集矩陣C∈n×(h-wa+2).

    1.2.1.3 全局池化層

    為了捕獲全局最重要的特征,在卷積層后進(jìn)行全局最大池化,公式如下:

    pij=max(cij) ,

    (2)

    其中,1≤i≤n, 1≤j≤h-wa+2。池化完成后,將特征集中的每個(gè)特征拼接起來,最終得到當(dāng)前示例的特征表示p∈n.

    1.2.2 多示例池化

    根據(jù)多示例學(xué)習(xí)的思想,同一包的所有示例共同表示了對(duì)應(yīng)候選實(shí)體對(duì)的關(guān)系,因此有必要在多示例間抽取跨示例信息。在上節(jié)中,盡管已經(jīng)將包中的每個(gè)示例均表示成了n維的特征向量p,但并未充分考慮示例間的信息。

    (3)

    由(3)可以看出,多示例池化融合了所有實(shí)例的特征,構(gòu)造出實(shí)體對(duì)級(jí)別的特征,從而使分類器可以根據(jù)來自不同示例的多個(gè)特征對(duì)同一實(shí)體對(duì)進(jìn)行預(yù)測(cè)。

    1.2.3 二元關(guān)系分類

    在本文中,將CDR任務(wù)定義成一個(gè)二分類問題,因此在獲得實(shí)體對(duì)級(jí)別的特征表示后,又經(jīng)過一個(gè)全連接層來學(xué)習(xí)更高層次的特征,最后使用Softmax層進(jìn)行分類。

    在Softmax層,首先計(jì)算每個(gè)標(biāo)簽的置信值:

    o=Woutv+bout,

    (4)

    其中,Wout是每個(gè)標(biāo)簽對(duì)應(yīng)的權(quán)重矩陣,v為上層全連接層的維度,bout為偏置值。隨后對(duì)向量o的每個(gè)元素值應(yīng)用softmax函數(shù),從而獲得每個(gè)標(biāo)簽的概率值,計(jì)算過程如下:

    (5)

    其中,M為當(dāng)前實(shí)體對(duì)對(duì)應(yīng)的包,θ為模型的全部參數(shù)。

    最后,本文選擇具有最大概率值的元素所對(duì)應(yīng)的標(biāo)簽作為當(dāng)前候選實(shí)體對(duì)的預(yù)測(cè)結(jié)果。

    1.3 后處理

    為了進(jìn)一步提升CID關(guān)系抽取性能,本文也采用了已有相關(guān)工作中常使用的后處理規(guī)則[9]。具體地,當(dāng)模型未能從一篇文檔中提取到CID關(guān)系時(shí),則使用啟發(fā)式規(guī)則來尋找該文檔中最可能為CID關(guān)系的實(shí)體對(duì):文章標(biāo)題中若出現(xiàn)化學(xué)物實(shí)體,則認(rèn)為該實(shí)體與該篇文章提到的所有疾病實(shí)體均存在CID關(guān)系;若未出現(xiàn)化學(xué)物實(shí)體,則文章中提及次數(shù)最多的化學(xué)物實(shí)體與該篇文章中所有的疾病實(shí)體存在CID關(guān)系。

    2 實(shí)驗(yàn)結(jié)果及分析

    本節(jié)首先介紹CDR語料的數(shù)據(jù)分布以及實(shí)驗(yàn)設(shè)置,然后展示模型在CDR任務(wù)上的實(shí)驗(yàn)結(jié)果,最后對(duì)模型的表現(xiàn)進(jìn)行系統(tǒng)分析。

    2.1 實(shí)驗(yàn)數(shù)據(jù)和設(shè)置

    本文在BioCreative V CID關(guān)系抽取子任務(wù)上進(jìn)行實(shí)驗(yàn)。CDR數(shù)據(jù)集一共包括1 500篇PubMed文章(僅有標(biāo)題和摘要),訓(xùn)練集,開發(fā)集和測(cè)試集各500篇,表1展示了數(shù)據(jù)集中文章數(shù)量和CID關(guān)系的統(tǒng)計(jì)情況[17]。

    表1 CDR數(shù)據(jù)集

    為了與現(xiàn)存的相關(guān)工作比較,采用同樣的實(shí)驗(yàn)數(shù)據(jù)設(shè)置,即原始訓(xùn)練集和開發(fā)集合并作為新的訓(xùn)練集,測(cè)試集保持不變[9]。為了選擇超參數(shù)模型,抽取20%的訓(xùn)練集作為開發(fā)集。在實(shí)驗(yàn)結(jié)果的評(píng)估上,使用常用的準(zhǔn)確率(Precision),召回率(Recall),綜合分類率F值(F-score)作為實(shí)驗(yàn)數(shù)據(jù)的評(píng)估指標(biāo),其中F值為主要參考指標(biāo)。

    在MICNN模型的訓(xùn)練中,使用Adam算法[19]進(jìn)行參數(shù)優(yōu)化,并使用開發(fā)集對(duì)模型超參數(shù)進(jìn)行優(yōu)化調(diào)整,最后根據(jù)在開發(fā)集上的模型性能使用早停機(jī)制選擇訓(xùn)練迭代次數(shù)。表2展示了本文模型的主要超參數(shù)。

    2.2 示例個(gè)數(shù)對(duì)模型性能影響實(shí)驗(yàn)

    為了調(diào)查一個(gè)包中示例個(gè)數(shù)對(duì)模型性能的影響,實(shí)驗(yàn)測(cè)試了使用不同示例個(gè)數(shù)的模型性能,實(shí)驗(yàn)結(jié)果如表3所示。

    由表3我們可以看出:隨著包中示例個(gè)數(shù)的增加,模型性能呈先上升后下降趨勢(shì),當(dāng)一個(gè)包中含有5個(gè)示例時(shí),模型性能最好,后面的實(shí)驗(yàn)均設(shè)置包大小為5。從以上結(jié)果可知,當(dāng)包中示例個(gè)數(shù)過少時(shí),噪音(即僅提及候選實(shí)體對(duì),未表示實(shí)體對(duì)間關(guān)系的示例)在包中所占的比重大,多示例的優(yōu)點(diǎn)未能得到發(fā)揮,對(duì)模型的表現(xiàn)造成了一定損害;隨著包中示例的增加,噪音所占的比重下降,對(duì)模型的干擾也隨之降低,模型的性能因此得到提升;然而,當(dāng)包中的示例個(gè)數(shù)過多時(shí),由于引入了額外的噪音,對(duì)模型的干擾增加,從而導(dǎo)致模型的性能下降。

    表2 MICNN超參數(shù)列表

    2.3 策略和特征對(duì)模型性能影響實(shí)驗(yàn)

    為了探索預(yù)處理策略和輸入特征對(duì)模型性能的影響,在使用了預(yù)處理策略和全部輸入特征的MICNN模型基礎(chǔ)上,每次單獨(dú)減去一個(gè)策略或特征來考察它們對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果如表4所示,其中,-preprocessing表示去掉上位詞過濾;-word表示將詞向量替換為隨機(jī)初始化向量;-position表示去掉位置特征;-entity tag則表示去掉實(shí)體標(biāo)記特征。

    表4 策略和特征實(shí)驗(yàn)

    通過表4可以看出,上位詞過濾能顯著提升性能;詞特征、位置特征亦能大幅提升模型的性能;此外,實(shí)體標(biāo)記特征也能比較明顯地改進(jìn)模型的性能。原因在于,在預(yù)處理階段利用上位詞對(duì)負(fù)例過濾后,之前會(huì)干擾分類器的負(fù)例被過濾,分類器的性能因此得到提升;同時(shí),過濾負(fù)例后會(huì)在一定程度上提高結(jié)果的準(zhǔn)確率,這對(duì)F值的提升而言也是有益的。除此之外,通過分析語料,發(fā)現(xiàn)除了候選實(shí)體對(duì),其他相關(guān)的實(shí)體往往對(duì)要抽取的關(guān)系有一定影響,標(biāo)注出這些實(shí)體的位置和類型會(huì)在某種程度上為分類器預(yù)測(cè)提供額外的信息,提高關(guān)系抽取性能。

    2.4 方法性能對(duì)比實(shí)驗(yàn)

    為了探索文檔級(jí)別模型在當(dāng)前任務(wù)上的性能,本文分別使用BiLSTM和CNN模型,以整篇文檔作為輸入,使用和MICNN同樣的特征直接進(jìn)行文檔級(jí)別的CID關(guān)系抽取,作為基線系統(tǒng),實(shí)驗(yàn)結(jié)果如表5所示。可以看出與這兩種基線系統(tǒng)方法相比,MICNN的性能有了很大的提升,原因在于以整個(gè)文檔作為輸入包含了大量與候選實(shí)體對(duì)關(guān)系無關(guān)的噪音內(nèi)容,使得模型抽取性能不理想。

    表5 方法性能對(duì)比實(shí)驗(yàn)

    其他的現(xiàn)存系統(tǒng)可被分為兩類:機(jī)器學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法。

    對(duì)于基于機(jī)器學(xué)習(xí)的系統(tǒng),Xu等人[8]和Gu等人[9]使用基于語義的特征,為句內(nèi)和句間候選實(shí)體對(duì)訓(xùn)練了兩個(gè)分類器。在基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)中,Gu等人[9]使用了詞法、句法特征,為句間,句內(nèi)候選實(shí)體對(duì)分別訓(xùn)練了ME模型和CNN模型,并進(jìn)行了后處理;Zhou等人[11]僅對(duì)句內(nèi)候選實(shí)體對(duì)做預(yù)測(cè),使用了SVM與LSTM結(jié)合的混合模型。

    由表5可以看出,基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)達(dá)到的F值普遍高于基于機(jī)器學(xué)習(xí)的系統(tǒng)。此外,除了MICNN,另外兩種未使用KB的系統(tǒng)在未進(jìn)行后處理時(shí),其準(zhǔn)確率均比召回率高,原因可能是這些系統(tǒng)使用了較為復(fù)雜的詞法、句法特征,獲得了較高的準(zhǔn)確率;然而,由于跨越句子邊界的CID關(guān)系未能被系統(tǒng)有效識(shí)別,因此召回率偏低。

    與這些現(xiàn)有的先進(jìn)方法相比,MICNN模型能夠同時(shí)對(duì)句間和句內(nèi)CID關(guān)系進(jìn)行抽取,無須進(jìn)行多模型結(jié)果融合,并且獲得了比其他多模型更好的結(jié)果。從使用特征方面來看,MICNN僅使用了三種基本特征,即詞向量特征、位置特征和實(shí)體特征,并未使用詞法分析,句法分析等特征。在不使用任何后處理的情況下,MICNN在測(cè)試集上獲得了比其他方法更高的召回率和F值。在使用了與其他方法同樣的后處理規(guī)則后,F值由61.7%進(jìn)一步提升至62.7%。

    3 噪聲及錯(cuò)誤分析

    3.1 噪聲分析

    為了驗(yàn)證模型在降低噪聲影響上的有效性,利用圖2中的示例a和噪聲b,分別構(gòu)造包,并用模型做預(yù)測(cè),結(jié)果如表6所示。其中,A包僅包含示例a,其余示例由0表示;B包僅包含噪聲b,其余示例由0表示;C包包含示例a和噪聲b,其余示例由0表示。

    表6 預(yù)測(cè)結(jié)果

    由表6可知,當(dāng)包中僅包含噪聲時(shí),模型會(huì)做出錯(cuò)誤的預(yù)測(cè);當(dāng)示例與噪聲共存時(shí),模型能做出正確的預(yù)測(cè)。這是因?yàn)樵诙嗍纠龑W(xué)習(xí)中,只要包中的一個(gè)示例是正例(比如C包),MICNN便認(rèn)為該包對(duì)應(yīng)的實(shí)體對(duì)存在CID關(guān)系;當(dāng)且僅當(dāng)示例中全為負(fù)例或噪聲時(shí)(比如B包),MICNN才會(huì)為實(shí)體對(duì)打上負(fù)標(biāo)簽。因此,MICNN能對(duì)噪聲數(shù)據(jù)起到一定的改善作用。

    3.2 錯(cuò)誤分析

    在與現(xiàn)有先進(jìn)方法的比較中發(fā)現(xiàn),盡管MICNN擁有比其他系統(tǒng)高的召回率,但是其準(zhǔn)確率偏低。為了分析準(zhǔn)確率低的原因,同時(shí)也為了進(jìn)一步評(píng)估模型在句間和句內(nèi)上的分類性能,本文在未經(jīng)后處理的測(cè)試集結(jié)果上對(duì)句間和句內(nèi)的評(píng)價(jià)指標(biāo)分別進(jìn)行了計(jì)算,結(jié)果如表7所示。

    表7 句內(nèi)和句間CID關(guān)系的抽取結(jié)果

    由表7可以看出,模型在句間的表現(xiàn)遠(yuǎn)低于句內(nèi)的表現(xiàn),原因可能在于,在句間CID關(guān)系中,實(shí)體對(duì)跨度往往較大,另外由于僅使用了簡(jiǎn)單特征,模型不能很好地在長(zhǎng)距離上捕獲實(shí)體間信息;此外,在CDR語料中,句間CID關(guān)系的數(shù)量遠(yuǎn)遠(yuǎn)少于句內(nèi)CID關(guān)系的數(shù)量,導(dǎo)致模型的訓(xùn)練不充分,進(jìn)而影響了在句間的表現(xiàn)。由此可見,在句間CID關(guān)系提取上的低準(zhǔn)確率表現(xiàn),是模型整體準(zhǔn)確率低下的重要原因。

    4 結(jié)論

    本文提出了一種用于CID關(guān)系抽取的MICNN方法。與現(xiàn)存的CID關(guān)系抽取方法相比,MICNN方法能夠從文檔級(jí)別同時(shí)對(duì)句間和句內(nèi)CID關(guān)系進(jìn)行抽取,無須訓(xùn)練多模型再進(jìn)行結(jié)果融合;基于多示例學(xué)習(xí)的思想,本文方法為每對(duì)候選實(shí)體對(duì)構(gòu)造相應(yīng)的包,包中含有多個(gè)示例。與現(xiàn)有方法使用單示例對(duì)候選實(shí)體對(duì)進(jìn)行訓(xùn)練和預(yù)測(cè)不同的是,MICNN使用包進(jìn)行訓(xùn)練和預(yù)測(cè),有效地降低了噪音對(duì)當(dāng)前實(shí)體對(duì)的干擾;MICNN僅使用關(guān)系抽取基本特征(即詞向量特征、位置特征和實(shí)體特征),無須大量特征工程,通過神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)文檔級(jí)別特征具有較好的魯棒性和泛化能力。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)存的先進(jìn)方法相比,MICNN具有更好的性能表現(xiàn),在CDR數(shù)據(jù)集上F值達(dá)到了62.7%。

    然而現(xiàn)階段,抽取CID關(guān)系的相關(guān)系統(tǒng)仍有很大的提升空間,句間CID關(guān)系抽取的性能也需要得到進(jìn)一步的提高。而從現(xiàn)有方法來看,依存句法這類特征對(duì)模型性能而言是有益的,因此將在未來工作中嘗試使用這類額外特征。除此之外,額外的知識(shí)庫已經(jīng)被證明能夠有效提升CID關(guān)系抽取性能,探索在MICNN中加入知識(shí)庫的方法也是我們未來的工作。

    猜你喜歡
    示例文檔實(shí)體
    大還是小
    有人一聲不吭向你扔了個(gè)文檔
    2019年高考上海卷作文示例
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    常見單位符號(hào)大小寫混淆示例
    山東冶金(2019年5期)2019-11-16 09:09:22
    “全等三角形”錯(cuò)解示例
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    碌曲县| 大新县| 精河县| 庐江县| 南城县| 齐河县| 隆昌县| 庐江县| 阳泉市| 彰化县| 定襄县| 徐州市| 大丰市| 宁波市| 英山县| 缙云县| 舒兰市| 汝阳县| 济南市| 颍上县| 土默特左旗| 宁安市| 广德县| 泽州县| 双江| 鲁甸县| 博白县| 无锡市| 凌云县| 太湖县| 府谷县| 三台县| 丹东市| 册亨县| 玉环县| 蓬莱市| 顺义区| 安多县| 正宁县| 碌曲县| 方城县|