• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BiLSTM_Att的軍事領(lǐng)域?qū)嶓w關(guān)系抽取研究

    2019-09-12 10:41:42朱珊珊唐慧豐

    朱珊珊 唐慧豐

    摘 要:軍事領(lǐng)域中實(shí)體關(guān)系的抽取是該領(lǐng)域相關(guān)體系知識(shí)圖譜建設(shè)的重要步驟。本文設(shè)計(jì)了基于BiLSTM和注意力模型(Attention)的實(shí)體抽取模型,該模型分為詞向量表示、句子上下文特征提取以及關(guān)系分類三個(gè)階段。在詞向量表示階段,模型創(chuàng)新性地加入詞性特征。在對(duì)相關(guān)語料進(jìn)行實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上,結(jié)果顯示該模型對(duì)軍事類實(shí)體關(guān)系抽取有較好的F值。

    關(guān)鍵詞:關(guān)系抽取; BiLSTM_Att; 向量表示; 詞性特征

    文章編號(hào):2095-2163(2019)04-0096-04 中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

    0 引 言

    作為國家政治集體的軍事武裝力量,軍隊(duì)有著嚴(yán)格的組織關(guān)系,且具有分工明確、又可以聯(lián)合聯(lián)動(dòng)的關(guān)系特性。對(duì)于軍事類實(shí)體進(jìn)行關(guān)系抽取是豐富軍隊(duì)軍事結(jié)構(gòu)資料庫,構(gòu)成完整明晰關(guān)系網(wǎng)的重要組成部分。

    近年來,F(xiàn)reeBase、DBpedia、百度百科等知識(shí)庫的建設(shè)為諸多互聯(lián)網(wǎng)應(yīng)用提供了可靠的數(shù)據(jù)來源。知識(shí)圖譜作為一種智能、高效的信息組織形式,能夠?qū)?shí)體本身以及實(shí)體的各類關(guān)系以網(wǎng)狀連接的圖譜形式完整地描述出來,并進(jìn)行可視化的展示,是一種清晰明了的數(shù)據(jù)內(nèi)容及其內(nèi)部關(guān)系展示形式。

    知識(shí)圖譜的發(fā)展經(jīng)歷了3個(gè)時(shí)代。知識(shí)圖譜早期被稱為本體時(shí)代。2001 年隨著Wikipedia出現(xiàn),知識(shí)圖譜進(jìn)入語義網(wǎng)時(shí)代。前期2個(gè)階段的知識(shí)圖譜構(gòu)建方式包括人工編輯和自動(dòng)抽取,但自動(dòng)抽取方法主要是基于在線百科中結(jié)構(gòu)化信息而忽略了非結(jié)構(gòu)化文本,而互聯(lián)網(wǎng)中大部分的信息恰恰是以非結(jié)構(gòu)化的自由文本形式呈現(xiàn)。與鏈接數(shù)據(jù)發(fā)展的同期,許多知識(shí)獲取的方法被提出,這些方法大多基于信息抽取技術(shù),用以構(gòu)建基于自由文本的開放域知識(shí)圖譜。隨著信息抽取技術(shù)的不斷進(jìn)步,2012年Google Knowledge graph上線,自此進(jìn)入了知識(shí)圖譜時(shí)代。

    早期的實(shí)體和關(guān)系抽取,包括實(shí)體關(guān)系的特征設(shè)計(jì)、語料的標(biāo)注等,基本都是由人工完成的。但是由于自然語言處理的標(biāo)注工具使用因人而異,并且人工選擇的特征會(huì)直接影響到關(guān)系抽取和分類的效果,因此即使耗費(fèi)巨大的人力物力,關(guān)系抽取的效果也并非十分理想。而基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型則可以通過多層次網(wǎng)絡(luò)分析對(duì)大規(guī)模文本語料自動(dòng)挖掘特征信息[1]。例如,循環(huán)神經(jīng)網(wǎng)絡(luò)在捕捉句子的上下文信息方面有著良好表現(xiàn),可以反映一個(gè)句子中多實(shí)體間的關(guān)系。但循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)長距離依賴不夠,因此本文使用雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)捕獲句子更多的上下文信息。同時(shí),在對(duì)單詞進(jìn)行向量表示時(shí),除了加入位置信息外,還加入詞性特征,并使用注意力機(jī)制提取語句層面的特征,根據(jù)最后輸出向量進(jìn)行分類,完成實(shí)體關(guān)系抽取任務(wù)。

    1 相關(guān)研究

    在知識(shí)圖譜的發(fā)展需求推動(dòng)下,關(guān)系抽取的方法從上世紀(jì)后半葉的基于人工編寫規(guī)則的方法,逐漸發(fā)展到基于統(tǒng)計(jì)的方法,直至近十年來基于機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法的陸續(xù)涌現(xiàn)[2]。

    早期基于規(guī)則的方法雖然促進(jìn)了關(guān)系抽取研究的長足進(jìn)步,但其自身的局限性也很明顯,如:人工編寫規(guī)則的過程較復(fù)雜、規(guī)則產(chǎn)生的效率較低、系統(tǒng)針對(duì)性好、通用性差等,所以后來的研究逐漸又轉(zhuǎn)向基于統(tǒng)計(jì)的方法。隨著網(wǎng)絡(luò)開放程度增加,以及電子元器件計(jì)算速度、存儲(chǔ)能力的提升,文本數(shù)據(jù)體量和規(guī)模迅速增長。基于統(tǒng)計(jì)的方法開始快速發(fā)展并獲得廣泛應(yīng)用,主要包括監(jiān)督學(xué)習(xí)、Bootstrap方法、遠(yuǎn)程監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)等。

    基于統(tǒng)計(jì)的學(xué)習(xí)方法,首先需要大量完整已進(jìn)行實(shí)體標(biāo)注和實(shí)體間關(guān)系標(biāo)注的語料庫,然后根據(jù)定義的關(guān)系類型和定義的實(shí)體類型,通過提取文本特征,將詞特征、位置特征等通過不同的分類算法訓(xùn)練模型,在測(cè)試時(shí)根據(jù)訓(xùn)練的模型抽取訓(xùn)練語料的實(shí)體對(duì),并判斷其關(guān)系類型。由于在特征提取的過程中需要依賴自然語言處理的自動(dòng)分詞、詞性標(biāo)注等工具,就使得在對(duì)語料處理時(shí)工具操作中所造成正確率損失,會(huì)對(duì)最終的分類性能產(chǎn)生影響。除此之外,文本特征提取過程還需要參照專家經(jīng)驗(yàn),因此特征的設(shè)計(jì)和驗(yàn)證需要耗費(fèi)大量人力物力。但統(tǒng)計(jì)方法不僅可以在無標(biāo)注文本中抽取出實(shí)體對(duì)及其關(guān)系,也在一定程度上脫離了對(duì)領(lǐng)域知識(shí)的依賴。

    近十年來,深度學(xué)習(xí)成為實(shí)體關(guān)系抽取中頗受業(yè)界矚目的研究新方法,深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí)方法,具有靈活性好、性能高等特點(diǎn)。相比于基于統(tǒng)計(jì)的方法,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型可以自動(dòng)獲取文本特征,并不需要對(duì)文本特征進(jìn)行復(fù)雜的設(shè)計(jì)和驗(yàn)證?;谏疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法和基于統(tǒng)計(jì)的監(jiān)督方法相比主要有2個(gè)優(yōu)勢(shì),可闡釋分述如下。

    (1)在字、詞、短語等結(jié)構(gòu)上統(tǒng)一使用低維、連續(xù)的向量表示,具體根據(jù)不同模型需要的不同顆粒度進(jìn)行調(diào)整。

    (2)在更大單元,即句子、篇章等向量表示上,使用不同的神經(jīng)網(wǎng)絡(luò)模型組合各類較小語言單元的特征向量。

    研究中選用深度學(xué)習(xí)框架下的神經(jīng)網(wǎng)絡(luò)模型,對(duì)特征進(jìn)行抽取和選擇是自動(dòng)完成的,因此其在效率和正確率上也超過了傳統(tǒng)的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。

    2 BiLSTM_Att模型

    為了表示更豐富的上下文信息,模型選取雙向LSTM,即BiLSTM對(duì)提取的詞向量進(jìn)行特征表示,隨后加入注意力模型(Attention)對(duì)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行加權(quán),在此基礎(chǔ)上輸出關(guān)系分類的結(jié)果。因此BiLSTM_Att模型分為3個(gè)階段,即:首先,進(jìn)行詞的向量表示;然后,是BiLSTM融合上下文信息;最后,是注意力模型對(duì)LSTM的輸出訓(xùn)練權(quán)重矩陣。該模型的框架設(shè)計(jì)如圖1所示。這里,擬對(duì)此展開研究論述如下。

    2.1 加入詞性的詞向量表示

    對(duì)詞進(jìn)行向量表示主要包括2個(gè)部分。一是詞語本身的詞向量訓(xùn)練,在訓(xùn)練過程中加入了詞性信息。二是詞的位置特征,指的是一個(gè)詞距離該句子中2個(gè)實(shí)體詞的位置關(guān)系。

    在詞向量訓(xùn)練前,根據(jù)詞性標(biāo)注結(jié)果,輸入的詞由“詞-詞性”表示,例如句子“Evo Morales has put Bolivia on the map.”經(jīng)過預(yù)處理并加入詞性信息后輸入為“/Evo Morales_n /has_v /put_v /Bolivia_n /on_p /the_rzt /map_n”。由于word2ver是對(duì)word embedding的優(yōu)化,因此本文的詞向量訓(xùn)練使用word2ver工具中的CBOW模型。CBOW模型的輸入是一個(gè)詞對(duì)應(yīng)的上下文詞的詞向量,而輸出是該詞的詞向量。例如一個(gè)句子片段“…distributed representations which encode the relevant grammatical relations…”上下文大小為6,輸出詞是“encode”,那么輸出的是“encode”的前3個(gè)詞和后3個(gè)詞的詞向量。需要說明的是,這6個(gè)詞是沒有先后順序的,使用了詞袋模型。該模型的訓(xùn)練過程中,研究定義了詞向量的維度大小M,以及CBOW的上下文大小2c,這樣對(duì)于訓(xùn)練樣本中的每一個(gè)詞,其前面的c個(gè)詞和后面的c個(gè)詞作為CBOW模型的輸入,所有詞匯詞向量w作為輸出。

    除此之外,由于word2ver訓(xùn)練詞向量使用的是詞袋模型,沒有包含詞的位置信息,因此文本加入了詞的位置向量以描述位置信息。例如在句子“Evo Morales has put Bolivia on the map.”中,單詞“has”距離“Evo Morales”和“Bolivia”兩個(gè)實(shí)體分別為1和-2。將單詞相對(duì)“head entity”和“tail entity”的距離映射成2個(gè)距離向量,組合詞向量成為這個(gè)單詞的向量表示。

    該階段對(duì)句子中詞向量訓(xùn)練結(jié)束后,得到的是一個(gè)實(shí)數(shù)矩陣并傳遞給下一層,矩陣中包括了一個(gè)句子所有詞的特征信息。

    2.2 BiLSTM

    LSTM最早由Hochreiter和Schmidhuber[3]提出,為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失問題。主要思想是引入門機(jī)制,從而能夠控制每一個(gè)LSTM單元保留的歷史信息的程度以及記憶當(dāng)前輸入的信息,保留重要特征,丟棄不重要的特征。為了將上文信息和下文信息都進(jìn)行表征,本文采用雙向LSTM,將上一個(gè)細(xì)胞狀態(tài)同時(shí)引入到輸入門、遺忘門以及新信息的計(jì)算當(dāng)中。該LSTM模型也同樣包含4個(gè)部分,如圖2所示。由圖2研究可知,其功能設(shè)計(jì)過程可解析概述如下。

    輸出門包含了當(dāng)前輸入、上一個(gè)隱狀態(tài)、上一個(gè)細(xì)胞狀態(tài),組成權(quán)重矩陣,以決定加入多少新信息。對(duì)應(yīng)的數(shù)學(xué)公式為:

    遺忘門則決定丟棄多少舊的信息。對(duì)應(yīng)的數(shù)學(xué)公式為:

    細(xì)胞狀態(tài)包含了上一個(gè)細(xì)胞狀態(tài)以及基于當(dāng)前輸入和上個(gè)隱狀態(tài)層信息生成的新信息。對(duì)應(yīng)的數(shù)學(xué)公式為:

    輸出門則包含了當(dāng)前輸入、上一個(gè)隱狀態(tài)、當(dāng)前細(xì)胞狀態(tài),組成權(quán)重矩陣,以決定哪些信息被輸出。對(duì)應(yīng)的數(shù)學(xué)公式為:

    最終,輸出的當(dāng)前隱狀態(tài)可由當(dāng)前細(xì)胞狀態(tài)乘以輸出門的權(quán)重矩陣得到。對(duì)應(yīng)的數(shù)學(xué)公式為:

    2.3 Attention機(jī)制

    注意力模型是從心理學(xué)上的注意力模型中引入的。人腦的注意力模型指的是,當(dāng)一個(gè)人看到了整幅畫面時(shí),在特定的時(shí)刻t,人的意識(shí)和注意力的焦點(diǎn)是集中在畫面中的某一個(gè)部分上,其它部分雖然還在人的眼中,但是分配給這些部分的注意力資源是很少的。深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上看和人類觀察事物的選擇性視覺注意力機(jī)制類似,就是從視覺所觀察范圍內(nèi)的眾多信息中選擇核心觀察點(diǎn),也就是對(duì)完成當(dāng)前任務(wù)最重要的一部分信息。

    3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

    相比于無領(lǐng)域關(guān)系抽取,軍事類實(shí)體關(guān)系抽取要在更大程度上受制于軍隊(duì)組織機(jī)構(gòu)隸屬關(guān)系、人員隸屬關(guān)系以及武器裝備系統(tǒng)的分隊(duì)等。因此,針對(duì)軍事領(lǐng)域?qū)嶓w關(guān)系抽取,本文選取了3 000條相關(guān)語料進(jìn)行標(biāo)注,其中涉及到的實(shí)體關(guān)系共有7種,詳見表1。

    對(duì)3 000條標(biāo)注語料進(jìn)行篩選,補(bǔ)全核對(duì)標(biāo)注信息,并進(jìn)行預(yù)處理后,將其中的2 500條作為訓(xùn)練語料,500條作為測(cè)試語料。各個(gè)類別測(cè)試結(jié)果見表2。

    測(cè)試結(jié)果顯示,“校友”關(guān)系和“歸屬”關(guān)系的整體識(shí)別率較高,但是“上下級(jí)”關(guān)系的識(shí)別效果不理想,并且該關(guān)系類型也是召回率最低的。

    4 結(jié)束語

    文本使用BiLSTM_Att模型完成了對(duì)軍事類中文語料的關(guān)系抽取任務(wù)。該模型由加入詞性和位置信息的詞向量訓(xùn)練、雙向LSTM上下文特征抓取以及注意力模型的權(quán)重分配三個(gè)階段組成。在對(duì)語料進(jìn)行實(shí)驗(yàn)后發(fā)現(xiàn),該模型整體效果較好,但是對(duì)于“上下級(jí)”、“平行”關(guān)系類型的識(shí)別召回率還是略有遜色。因此,在接下來的實(shí)驗(yàn)中,應(yīng)更關(guān)注于實(shí)體關(guān)系抽取召回率的提升。除此之外,對(duì)軍事領(lǐng)域關(guān)系抽取的語料建設(shè)也應(yīng)有所關(guān)注。

    參考文獻(xiàn)

    [1] 莊成龍, 錢龍華, 周國棟. 基于樹核函數(shù)的實(shí)體語義關(guān)系抽取方法研究[J]. 中文信息學(xué)報(bào), 2009, 23(1):3-8,34.

    [2]車萬翔, 劉挺, 李生. 實(shí)體關(guān)系自動(dòng)抽取[J]. 中文信息學(xué)報(bào), 2005, 19(2):1-6.

    [3] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

    [4] RINK B, HARABAGIU S. Utd:Classifying semantic relations by combining lexical and semantic resources[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden:Association for Computational Linguistics, 2010:256-259.

    [5] KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on Interactive poster and demonstration sessions. Barcelona,Spain:Association for Computational Linguistics, 2004:1-5.

    [6] 杜嘉,劉思含,李文浩,等. 基于深度學(xué)習(xí)的煤礦領(lǐng)域?qū)嶓w關(guān)系抽取研究[J]. 智能計(jì)算機(jī)與應(yīng)用,2019,9(1):114-118.

    [7] 萬靜,李浩銘,嚴(yán)歡春,等. 基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取方法研究[J/OL]. 計(jì)算機(jī)應(yīng)用研究:1-6[2018-12-26]. http://kns.cnki.net/kcms/detail/51.1196.TP.20181225.1615.003.html.

    汾西县| 磐石市| 盐城市| 四川省| 尼玛县| 奎屯市| 怀柔区| 阿拉善盟| 万宁市| 长岛县| 新兴县| 乐清市| 成武县| 鹤峰县| 琼海市| 商城县| 雅安市| 怀来县| 永兴县| 从化市| 赤壁市| 洪湖市| 红安县| 上栗县| 海林市| 侯马市| 新密市| 额济纳旗| 江北区| 武汉市| 永吉县| 阳西县| 东山县| 霍州市| 新干县| 延庆县| 嵊州市| 山阳县| 浦城县| 平度市| 海原县|