• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于實(shí)體關(guān)系抽取的軍事裝備圖譜構(gòu)建

      2024-09-15 00:00:00王依科吳振乾
      現(xiàn)代電子技術(shù) 2024年15期
      關(guān)鍵詞:軍事裝備知識(shí)圖譜

      摘 "要: 由于信息技術(shù)的不斷進(jìn)步,許多軍事裝備數(shù)據(jù)庫結(jié)構(gòu)松散,難以有效利用,導(dǎo)致效率低下、管理混亂等問題。針對(duì)上述問題,提出一種基于CRF和句法分析樹的實(shí)體關(guān)系提取方法。通過海量數(shù)據(jù)訓(xùn)練,優(yōu)化軍事知識(shí)圖譜構(gòu)建方法,將單算法提取方法改進(jìn)為三元數(shù)據(jù)提取方法,完成軍事裝備圖譜構(gòu)建。實(shí)驗(yàn)結(jié)果表明,該方法準(zhǔn)確率可達(dá)72%,且加入置信模型后,準(zhǔn)確率提高了12.6%,綜合評(píng)價(jià)準(zhǔn)確率可達(dá)78.11%。這一結(jié)果對(duì)軍事裝備領(lǐng)域知識(shí)圖譜的構(gòu)建具有重要的實(shí)用價(jià)值。

      關(guān)鍵詞: 軍事裝備; 關(guān)系抽??; 知識(shí)圖譜; 數(shù)據(jù)庫結(jié)構(gòu); 置信模型; 三元數(shù)據(jù)提取

      中圖分類號(hào): TN919?34; TP399 " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " " 文章編號(hào): 1004?373X(2024)15?0163?06

      Military equipment knowledge graph construction based on entity relationship extraction

      WANG Yike, WU Zhenqian

      (Jiangsu Automation Research Institute, Lianyungang 222000, China)

      Abstract: Because of the continuous advancement of information technology, it is difficult to utilize many military equipment databases effectively due to their incompact structures, which results in low efficiency and chaotic management. In view of the above, an entity relationship extraction method based on CRF (conditional random field) and syntax analysis tree is proposed. The construction method of military knowledge graph is optimized by the training of massive data, and the single algorithm extraction method is changed into a three element extraction method, so as to complete the construction of military equipment graph. The experimental results show that the accuracy of the method can reach 72%. After adding the confidence model, its accuracy is increased by 12.6%, and its comprehensive evaluation accuracy can reach 78.11%. This result has important practical value for the construction of knowledge graphs in the field of military equipment.

      Keywords: military equipment; relationship extraction; knowledge graph; database structure; confidence model; three element data extraction

      0 "引 "言

      隨著信息化的不斷發(fā)展,各行業(yè)產(chǎn)生的數(shù)據(jù)也大幅增加。然而,對(duì)于這些大量產(chǎn)生的數(shù)據(jù),并沒有進(jìn)行深入研究和利用。同時(shí),在軍事裝備領(lǐng)域,裝備類型、型號(hào)、參數(shù)等數(shù)據(jù)對(duì)新型軍事裝備的研究和開發(fā)至關(guān)重要[1]。文獻(xiàn)[2]提出了一種基于移動(dòng)網(wǎng)絡(luò)的算法,該算法可以通過多種數(shù)據(jù)方法實(shí)時(shí)監(jiān)控坦克運(yùn)動(dòng)。文獻(xiàn)[3]提出了一種基于武器數(shù)據(jù)來監(jiān)控裝備質(zhì)量的方法。

      然而,這些數(shù)據(jù)的使用和算法研究都只是聚焦在特定領(lǐng)域,對(duì)于軍事裝備相關(guān)數(shù)據(jù)的研究具有一定局限性。有研究表明,由于軍事領(lǐng)域相關(guān)數(shù)據(jù)相對(duì)稀少,數(shù)據(jù)形態(tài)較為單一,目前業(yè)界沒有一個(gè)較為完善的軍事裝備圖譜系統(tǒng)。因此,軍事裝備領(lǐng)域?qū)τ谙嚓P(guān)的數(shù)據(jù)利用程度也不高,研究不夠深入[4]。

      網(wǎng)絡(luò)上許多條目是通過人工編輯的,存在大量離散、高質(zhì)量、半結(jié)構(gòu)化的知識(shí)數(shù)據(jù),包含了標(biāo)準(zhǔn)化的信息,如文章標(biāo)題、信息框架和分類標(biāo)簽。這些數(shù)據(jù)往往比較可靠,可以用于構(gòu)建知識(shí)圖譜。雖然互聯(lián)網(wǎng)上的數(shù)據(jù)很多,但它們通常分散在不同的地方。因此,如何快速準(zhǔn)確地獲取所需數(shù)據(jù),需要遵循特定的規(guī)則,這是一個(gè)值得思考的問題。

      知識(shí)圖譜是借助計(jì)算機(jī)信息技術(shù),根據(jù)特定規(guī)則從互聯(lián)網(wǎng)海量知識(shí)系統(tǒng)中提取信息的一種方式,可以快速顯示信息并清晰掌握信息結(jié)構(gòu)[5]。文獻(xiàn)[6]提出了知識(shí)圖譜的概念,并將其應(yīng)用于Google的搜索功能,以提高檢索質(zhì)量[7]。維基百科也使用這種技術(shù)來構(gòu)建多語言知識(shí)圖譜[6]。Microsoft還構(gòu)建了大規(guī)模、高質(zhì)量的中文概念圖,提高數(shù)據(jù)使用率。上海交通大學(xué)還構(gòu)建了第一個(gè)中文通用領(lǐng)域的知識(shí)圖譜[8]。構(gòu)建知識(shí)圖譜的大部分?jǐn)?shù)據(jù)來自維基百科和百度百科。

      不同于其他領(lǐng)域,軍事裝備領(lǐng)域因?yàn)槠湫再|(zhì)的特殊性,相關(guān)領(lǐng)域數(shù)據(jù)大都涉密,獲取門檻高,可利用的數(shù)據(jù)集較少。因此,對(duì)軍事裝備領(lǐng)域知識(shí)圖譜的研究很少。研究知識(shí)圖譜在軍事情報(bào)分析、作戰(zhàn)指揮、情報(bào)研究與判斷、目標(biāo)分析等專業(yè)任務(wù)中起著至關(guān)重要的作用。情報(bào)之間的相關(guān)性是各類情報(bào)之間綜合分析的橋梁和手段,是情報(bào)相關(guān)性分析的重要工具。本文專注于實(shí)體關(guān)系抽取任務(wù),旨在構(gòu)建一個(gè)完整的知識(shí)圖譜。其中,提出兩種方法用于處理不同類型的實(shí)體關(guān)系抽取任務(wù):有限實(shí)體關(guān)系抽取和無限制實(shí)體關(guān)系抽取。同時(shí),還研究了知識(shí)圖譜的存儲(chǔ)技術(shù)。通過構(gòu)建一個(gè)軍事裝備知識(shí)圖譜,為軍事裝備工作者提供一個(gè)全面且準(zhǔn)確的知識(shí)體系,以幫助他們快速準(zhǔn)確地獲取所需知識(shí)。

      1 "方法研究

      本節(jié)主要介紹知識(shí)圖譜的理論框架和構(gòu)建過程,包括整個(gè)知識(shí)圖譜數(shù)據(jù)的預(yù)訓(xùn)練和知識(shí)抽取的過程。針對(duì)知識(shí)抽取的任務(wù),實(shí)驗(yàn)比較分析了三種不同的實(shí)體關(guān)系抽取方法。

      1.1 "理論框架

      通常,知識(shí)圖譜構(gòu)建的方法可以分為三種類型:專家構(gòu)建、眾包構(gòu)建和自動(dòng)構(gòu)建。專家構(gòu)建方法是知識(shí)圖譜早期研究階段的標(biāo)準(zhǔn),由于硬件和技術(shù)的限制,大部分資源描述框架(RDF)三元組都是由專家學(xué)者通過人工編譯構(gòu)建的,其中代表性的知識(shí)庫包括WordNet和同義詞Cilin[9]。專家構(gòu)建方法的優(yōu)勢(shì)在于其知識(shí)的高度準(zhǔn)確性,然而,也必須認(rèn)識(shí)到其明顯的不足之處。專家手工編制知識(shí)的數(shù)量相對(duì)有限,并受到規(guī)模和速度方面的限制。因此,需要尋找其他方法來解決這個(gè)問題,以降低重復(fù)率并提高知識(shí)圖譜的建設(shè)效率。眾包建設(shè)依靠各地志愿者的合作,以結(jié)構(gòu)化的形式表達(dá)相關(guān)知識(shí),從而組織出大規(guī)模的常識(shí)圖譜[10]。眾包構(gòu)建方法具有低成本構(gòu)建大規(guī)模知識(shí)圖譜的優(yōu)勢(shì)。然而,由于知識(shí)是通過人工編輯獲得的,因此其質(zhì)量和效率難以保證。相比之下,自動(dòng)構(gòu)造方法主要使用基于規(guī)則的技術(shù)來獲取RDF三元組。研究人員通過定義相應(yīng)的規(guī)則和使用啟發(fā)式方法來提取實(shí)體、屬性和關(guān)系,從維基百科和WordNet等網(wǎng)頁中提取本體知識(shí)庫。目前發(fā)布的一些知識(shí)圖譜項(xiàng)目可以分為常識(shí)圖譜和領(lǐng)域知識(shí)圖譜,兩者有不同的特點(diǎn)。常識(shí)圖譜涵蓋了自然界中的所有事物,重點(diǎn)關(guān)注知識(shí)的廣度,通過獲取實(shí)體及其關(guān)系來構(gòu)建知識(shí)圖譜;而領(lǐng)域知識(shí)圖譜則是專門為特定領(lǐng)域而構(gòu)建的,旨在描述該領(lǐng)域的專業(yè)知識(shí),注重對(duì)知識(shí)的深入探索,并具有高度的專業(yè)性。為降低重復(fù)率和提高知識(shí)圖譜的質(zhì)量,需要結(jié)合眾包和自動(dòng)構(gòu)造方法進(jìn)行知識(shí)圖譜的構(gòu)建。

      實(shí)體關(guān)系抽取是構(gòu)建知識(shí)圖譜過程中的核心任務(wù)。它的目標(biāo)是解析文本中的豐富語義關(guān)系,并以三元組的形式將這些關(guān)系提取出來。實(shí)體關(guān)系抽取包括分類關(guān)系抽取和非分類關(guān)系抽取。在技術(shù)方面,目前分類關(guān)系抽取并沒有太多障礙,主要困難在于非分類關(guān)系的提取。非分類關(guān)系抽取可以分為兩個(gè)問題:首先是發(fā)現(xiàn)概念之間的關(guān)系,其次是根據(jù)語義對(duì)這些關(guān)系進(jìn)行標(biāo)記。對(duì)于非分類關(guān)系的抽取,需要綜合使用自然語言處理技術(shù)、機(jī)器學(xué)習(xí)算法等方法來解決問題。通過持續(xù)不斷的研究和改進(jìn),可以提高實(shí)體關(guān)系抽取的準(zhǔn)確性和效率,從而更好地構(gòu)建知識(shí)圖譜。對(duì)于實(shí)體關(guān)系提取算法,文獻(xiàn)[11]研究了5個(gè)最權(quán)威的評(píng)估語料庫中的基于特征的核方法、擴(kuò)展路徑圖核法和多核學(xué)習(xí)法,結(jié)果表明,融合核心法在5個(gè)語料庫中的性能優(yōu)于2個(gè)單獨(dú)的單核方法。文獻(xiàn)[12]在實(shí)體關(guān)系提取任務(wù)中使用深度神經(jīng)網(wǎng)絡(luò)(DNN),優(yōu)于傳統(tǒng)關(guān)系提取方法;通過比較實(shí)體關(guān)系提取任務(wù)下注意力長短期記憶(ALSTM)模型和雙向LSTM模型的性能,添加主動(dòng)學(xué)習(xí)的方法更有效[13]。上述結(jié)果表明,實(shí)體關(guān)系提取的研究主要集中在深度學(xué)習(xí)相關(guān)算法上。

      深度學(xué)習(xí)算法通常需要許多數(shù)據(jù)進(jìn)行訓(xùn)練。然而,目前知識(shí)圖譜的構(gòu)建不太受關(guān)注。因此,在軍事裝備領(lǐng)域可用于研究使用的數(shù)據(jù)較少。由于其保密性,軍事數(shù)據(jù)難以獲取,實(shí)體之間的關(guān)系復(fù)雜[11?12],從非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)的準(zhǔn)確性有限,因此,構(gòu)建軍事裝備知識(shí)圖譜面臨一系列困難。本文利用自然機(jī)器學(xué)習(xí)的研究方法,包括最新的基于CRF和句法分析算法,對(duì)其進(jìn)行了分析并與最大熵算法進(jìn)行了比較,通過引入置信模型,合理調(diào)整參數(shù)以確保模型的最佳性能。

      1.2 "軍事裝備知識(shí)圖譜的構(gòu)建過程

      由于軍事數(shù)據(jù)的保密性和軍事裝備的特殊性,導(dǎo)致結(jié)構(gòu)化數(shù)據(jù)很少,數(shù)據(jù)收集具有挑戰(zhàn)性。非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)在于其可靠性和準(zhǔn)確性存在一定挑戰(zhàn),特別是在抽取和標(biāo)準(zhǔn)化過程中。這可能導(dǎo)致難以滿足軍事使用的嚴(yán)格標(biāo)準(zhǔn)。由于非結(jié)構(gòu)化數(shù)據(jù)的來源多樣,并且可能存在錯(cuò)誤、不完整或模糊的信息,因此在進(jìn)行實(shí)體關(guān)系抽取和知識(shí)圖譜構(gòu)建時(shí)需要面對(duì)這些挑戰(zhàn)。為了提高數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,可以采用多種方法,如數(shù)據(jù)清洗、語義標(biāo)注、實(shí)體鏈接等技術(shù)來處理非結(jié)構(gòu)化數(shù)據(jù)。此外,還可以通過引入領(lǐng)域?qū)<业闹R(shí)和使用自動(dòng)化算法進(jìn)行驗(yàn)證和校正,以確保軍事使用的嚴(yán)格標(biāo)準(zhǔn)得到滿足。因此,采用自上而下的循環(huán)方法構(gòu)建軍事裝備知識(shí)圖譜,這種方法可以保證知識(shí)圖譜的準(zhǔn)確性和結(jié)構(gòu)層次的正確性,其構(gòu)建過程如圖1所示。首先,定義特定的規(guī)則以確保數(shù)據(jù)結(jié)構(gòu)層次結(jié)構(gòu)的正確性;然后,對(duì)不同的數(shù)據(jù)采用不同的知識(shí)提取方法,經(jīng)過知識(shí)的融合和系統(tǒng)規(guī)則的評(píng)估,最終得到精度更高的三元組,實(shí)現(xiàn)數(shù)據(jù)的可視化。整個(gè)過程循環(huán)迭代來不斷擴(kuò)充更新知識(shí)圖譜的數(shù)據(jù)。

      1.3 "軍事裝備知識(shí)圖譜訓(xùn)練語料預(yù)處理

      提取知識(shí)時(shí),需要根據(jù)計(jì)算機(jī)識(shí)別的語言對(duì)數(shù)據(jù)進(jìn)行分類。開源Java工具包的中文分類系統(tǒng)HanLP可以根據(jù)特定的規(guī)則(詞性、函數(shù)、實(shí)體)分離不同的文本。此方法由一系列模型和算法組成,可以支持詞性標(biāo)記、命名實(shí)體識(shí)別、依賴項(xiàng)語法分析和關(guān)鍵字提取等功能。具有高性能、結(jié)構(gòu)清晰等特點(diǎn)。該方法使用雙數(shù)組Ttie樹和DAWG等數(shù)據(jù)顯示方法,效率更高,可以通過其工具實(shí)現(xiàn)自定義函數(shù)。

      1.4 "基于最大熵模型的實(shí)體關(guān)系提取方法

      基于最大熵模型的實(shí)體關(guān)系提取方法是一種基于關(guān)系樹的關(guān)系結(jié)構(gòu),依靠最大熵模型預(yù)測(cè)原始數(shù)據(jù)或文本之間的關(guān)系,識(shí)別句子中的關(guān)鍵詞,完成提取任務(wù)。這種方法最突出的特點(diǎn)是可以根據(jù)句子特征進(jìn)行分類。這一特征可以充分挖掘句子和短語之間的關(guān)系,從而產(chǎn)生更好的分類關(guān)系。因此,提取的結(jié)果是理想的。該方法采用特殊算法對(duì)訓(xùn)練語料庫進(jìn)行預(yù)處理,綜合分析詞性、語法特征和[n]元語法特征后,從句子中提取特征;然后,根據(jù)最大熵模型對(duì)關(guān)系進(jìn)行分類。最大熵的原理是:基于一定數(shù)量的數(shù)據(jù)結(jié)構(gòu),通過數(shù)據(jù)的組合可以得到一個(gè)典型的模型;然后根據(jù)最新數(shù)據(jù)對(duì)后續(xù)事件進(jìn)行預(yù)測(cè)并盡可能均勻的分布。軍事裝備需要分類,由于涉及的參數(shù)較多,宜采用最大熵法作為分類模型。首先,在不需要獨(dú)立性的情況下估計(jì)條件概率。根據(jù)原理,對(duì)于句子文本[x]和相應(yīng)的標(biāo)簽[y],給出[x]得到的條件概率,可以定義為公式(1):

      [Pyx=1Z(X)exp i=1kλifix,y] " (1)

      式中:[fix,y]表示[f]特征對(duì)應(yīng)的特征模型;[λi]表示特征模型[fix,y]計(jì)算的權(quán)重;[k]表示特征總數(shù);[Z(X)]表示歸一化因子。要確保概率之和為1,需要特征模型[fix,y]通過將句子文本[x]和相應(yīng)標(biāo)簽[y]進(jìn)行定義而得到。根據(jù)特定條件,如果[x]和[y]滿足這些條件,則它們的值為1,否則為0。通過對(duì)句子文本之間的關(guān)系進(jìn)行分類后,可以使用式(2)來定義特征方程。

      [fix,y=1, " "(y=relation)∧(x=feature)0, " "otherwise] " (2)

      式中定義了一個(gè)特征([x]=feature),它與句子文本[x]具有特定關(guān)系。最大熵模型通常使用最大似然法估計(jì)這個(gè)特征的相關(guān)性,常用的兩種算法是GIS和I2S,GIS算法用于計(jì)算參數(shù)。

      在本次實(shí)驗(yàn)中,測(cè)試數(shù)據(jù)來自從互聯(lián)網(wǎng)搜索引擎上的文本中選取的500句文本,以表達(dá)軍事裝備名稱、裝備分類和裝備屬性之間的關(guān)系。

      1.5 "CRF和句法分析樹的實(shí)體關(guān)系提取方法

      結(jié)合CRF和語法分析樹的實(shí)體關(guān)系提取方法,是一種根據(jù)不同的注釋和語法分析規(guī)則對(duì)原始數(shù)據(jù)進(jìn)行分類的方法,具體步驟如下。

      1) 所有特征數(shù)據(jù)詞根據(jù)四個(gè)不同級(jí)別(句子特征、詞性特征、實(shí)體類別和詞邊界特征)和CRF序列模型的順序進(jìn)行打亂和注釋。

      2) 將特定的手動(dòng)標(biāo)注方法結(jié)合起來,形成特定的訓(xùn)練集。

      3) 將這些集合放入CRF序列模型中進(jìn)行多級(jí)驗(yàn)證,得到大量具有關(guān)系特征的子集。

      4) 以句法分析樹的結(jié)構(gòu)形式分析每個(gè)詞匯在句子中的作用,以識(shí)別三元實(shí)體與關(guān)系特征詞的最可能組合。

      此外,提取實(shí)體關(guān)系的任務(wù)也已完成。其中,改進(jìn)后的算法是將所有數(shù)據(jù)集放入置信模型中,以評(píng)估其三元組合結(jié)果的質(zhì)量。最后,通過設(shè)置適當(dāng)?shù)拈撝等コ|(zhì)量系數(shù)較低的三元關(guān)系組合,以保證詞匯表中實(shí)體關(guān)系提取的質(zhì)量。

      基于基礎(chǔ)訓(xùn)練語料預(yù)處理數(shù)據(jù),利用能夠自動(dòng)提取句子中實(shí)體和特征的關(guān)系詞匯表,進(jìn)一步形成實(shí)體關(guān)系?實(shí)體三元結(jié)構(gòu)組合,目的是解決注釋序列的問題。具體步驟如下。

      1) 將提取任務(wù)分解為相應(yīng)的關(guān)系特征詞進(jìn)行標(biāo)注。關(guān)系特征詞注釋可以看作是一個(gè)被建模為序列的注釋模型,通過對(duì)數(shù)據(jù)的持續(xù)訓(xùn)練,生成基于CRF的序列標(biāo)記模型。

      2) 數(shù)據(jù)三元提取的組合主要是在實(shí)體關(guān)系抽取的階段中可以利用句法分析樹來識(shí)別關(guān)系特征詞,以區(qū)分?jǐn)?shù)據(jù)中最有可能形成三元組的實(shí)體對(duì),這可以用于進(jìn)一步完成實(shí)體關(guān)系抽取的任務(wù)。通過分析句法結(jié)構(gòu),可以確定句子中哪些詞語是與實(shí)體之間的關(guān)系密切相關(guān)的。這些關(guān)系特征詞可以作為指引,幫助識(shí)別出可能的實(shí)體對(duì)和相應(yīng)的關(guān)系。通過提取這些特征詞,能夠更準(zhǔn)確地抽取實(shí)體關(guān)系,提高抽取結(jié)果的準(zhǔn)確性。因此,在實(shí)體關(guān)系抽取任務(wù)中,使用關(guān)系特征詞是一種有效的方法,可以幫助從非結(jié)構(gòu)化數(shù)據(jù)中提取出有用的知識(shí)。

      1.6 "基于句法分析樹的三元提取算法

      句法分析在關(guān)系三元提取過程中與傳統(tǒng)方法有所不同。它主要依賴于實(shí)體對(duì)和句子中關(guān)系特征詞之間的相對(duì)位置關(guān)系來進(jìn)行實(shí)體關(guān)系抽取。這種方法與傳統(tǒng)方法相比具有一定的區(qū)別,并且可以有效提高關(guān)系三元的提取質(zhì)量。具體步驟如下。

      1) 進(jìn)行句子的句法分析,將分析結(jié)果呈現(xiàn)在句法分析樹的結(jié)構(gòu)中,這樣可以清晰地展示每個(gè)詞匯和短語在句子結(jié)構(gòu)中扮演的角色。通過理解句子組成部分之間的關(guān)系,可以更好地定位實(shí)體和關(guān)系特征詞的位置。

      2) 在句法分析樹的基礎(chǔ)上,通過觀察實(shí)體對(duì)與句子中的關(guān)系特征詞之間的相對(duì)位置關(guān)系進(jìn)行實(shí)體關(guān)系抽取。例如,當(dāng)關(guān)系特征詞位于實(shí)體對(duì)之間時(shí),可以認(rèn)為這個(gè)特征詞可能與實(shí)體之間存在某種關(guān)系。通過分析這些相對(duì)位置關(guān)系,可以提取出實(shí)體之間的關(guān)系,并以三元組的形式表示。

      3) 找出最有可能與關(guān)系詞形成三元關(guān)系的實(shí)體對(duì),使用StanfordParser用于完成句子的依賴結(jié)構(gòu)分析任務(wù),并生成分析樹。分析樹的結(jié)果如圖2所示。

      圖2顯示了每兩個(gè)單詞之間的最佳連接路徑。根據(jù)語法提取的規(guī)則,通??梢垣@得距離最短的連接路徑。確定數(shù)據(jù)詞匯表和特征關(guān)系的最佳三元組合的步驟如下。

      1) 根據(jù)規(guī)則計(jì)算特征關(guān)系和實(shí)體詞匯,計(jì)算它們之間的最短連接距離總和。

      2) 根據(jù)實(shí)體關(guān)系的最小特征距離,形成最優(yōu)三元關(guān)系組合。經(jīng)過計(jì)算發(fā)現(xiàn),實(shí)體對(duì)“現(xiàn)在?我國”和關(guān)系詞“我國”之間的最短距離之和是最小的?;谶@一結(jié)果,成功抽取出了關(guān)系對(duì)應(yīng)于三元組“l(fā)t;現(xiàn)在?我國?驅(qū)逐艦gt;”的關(guān)系。通過對(duì)CRF標(biāo)記的句子執(zhí)行類似的操作,可以提取出句子中包含的其他關(guān)系三元組。這種方法利用了實(shí)體對(duì)和關(guān)系特征詞之間的相對(duì)位置關(guān)系,從而有效地完成實(shí)體關(guān)系抽取任務(wù)。根據(jù)這些抽取的關(guān)系三元組,可以進(jìn)一步構(gòu)建知識(shí)圖譜或進(jìn)行其他相關(guān)的應(yīng)用。

      1.7 "實(shí) "驗(yàn)

      本實(shí)驗(yàn)側(cè)重于不同類型的實(shí)體關(guān)系提取任務(wù),即基于最大熵模型的實(shí)體關(guān)系提取和結(jié)合CRF和語法分析樹的實(shí)體關(guān)系提取。

      基于最大熵模型的實(shí)體關(guān)系引入了[n]元匹配特征提取方法,并通過實(shí)驗(yàn)設(shè)計(jì)了三種比較方案。在關(guān)系提取實(shí)驗(yàn)的基礎(chǔ)上,選擇一定數(shù)量的數(shù)據(jù)來表示三種類型的關(guān)系。

      最后,確定了實(shí)驗(yàn)結(jié)果的最佳性能提取模型。通過結(jié)合CRF和句法分析樹的方法,可以在軍事裝備句子中提取各種類型的關(guān)系文本,為了評(píng)估提取結(jié)果,采用實(shí)驗(yàn)評(píng)價(jià)指標(biāo)設(shè)計(jì)實(shí)驗(yàn)方案。在實(shí)驗(yàn)中,使用遠(yuǎn)程監(jiān)督方法獲取的語料庫作為訓(xùn)練數(shù)據(jù)。針對(duì)這兩種實(shí)體關(guān)系提取方法進(jìn)行特征提取和標(biāo)注操作,以適應(yīng)訓(xùn)練數(shù)據(jù)。隨后,使用依存模型對(duì)這兩種方法進(jìn)行了訓(xùn)練,根據(jù)不同的實(shí)驗(yàn)方案,選擇不同的數(shù)據(jù)集,并引入了各自的實(shí)驗(yàn)環(huán)節(jié),對(duì)這兩種方法進(jìn)行了實(shí)驗(yàn)比較。通過對(duì)實(shí)驗(yàn)結(jié)果的分析,可以評(píng)估這兩種方法在軍事裝備句子中進(jìn)行關(guān)系抽取的效果。這樣的實(shí)驗(yàn)設(shè)計(jì)有助于驗(yàn)證提出方法的有效性和可行性,并為進(jìn)一步改進(jìn)和優(yōu)化提供參考。

      1.8 "實(shí)驗(yàn)指標(biāo)

      在提取關(guān)系的性能評(píng)價(jià)指標(biāo)中,選取準(zhǔn)確率、召回率、[F]值。其中,精度的計(jì)算公式如式(3)所示:

      [AccuracyP=T1T2×100%] (3)

      召回率計(jì)算如式(4)所示:

      [Recall RateR=T1T3×100%] (4)

      [F]值的計(jì)算方法如式(5)所示:

      [F ValueF=2×P×RP+R×100%] " (5)

      式中:[T1]表示正確預(yù)測(cè)的關(guān)系結(jié)果數(shù);[T2]表示總共預(yù)測(cè)的關(guān)系結(jié)果數(shù);[T3]表示語料庫中包含的關(guān)系總數(shù)。

      2 "實(shí)驗(yàn)結(jié)果

      2.1 "基于最大熵模型的性能對(duì)照實(shí)驗(yàn)

      不同特征模式下關(guān)系抽取準(zhǔn)確性、召回率、[F]值如圖3~圖5所示。圖3顯示,在[n]元語法和[n]元匹配特征選擇模式下,地址關(guān)系提取結(jié)果的精度幾乎相同。在提取“建立時(shí)間與組織性質(zhì)”的關(guān)系時(shí),所提出的[n]元匹配特征選擇模式比[n]元語法模式具有更好的提取性能。比較了不同[n]值下的提取精度。通過將特征選擇模式的準(zhǔn)確率作為二元匹配模式特征進(jìn)行提取的訓(xùn)練模型,在[n]值為3時(shí)可以達(dá)到超過72%的準(zhǔn)確率。這表明對(duì)現(xiàn)有的實(shí)體關(guān)系提取算法進(jìn)行了特定的優(yōu)化,并取得了顯著的效果。通過引入準(zhǔn)確率作為特征選擇模式的衡量標(biāo)準(zhǔn),能夠選擇最有效的特征,從而提高算法的性能和準(zhǔn)確性。這樣的優(yōu)化措施對(duì)于實(shí)體關(guān)系提取任務(wù)具有重要意義。

      為了比較不同特征模式下關(guān)系提取結(jié)果的召回率,對(duì)應(yīng)數(shù)據(jù)被計(jì)算出來,結(jié)果如圖4所示。在三元關(guān)系提取中,[n]元匹配特征選擇模式優(yōu)于[n]元語法模式,表明所提出的特征選擇模式更容易區(qū)分文本的特征。[F]值是召回率和準(zhǔn)確率的綜合度量,可以更全面地評(píng)估不同功能選擇模式的性能。根據(jù)圖5的結(jié)果可以明顯看出,所提出的[n]元匹配特征選擇模式在實(shí)體關(guān)系提取方面的表現(xiàn)優(yōu)于[n]元語法模式。考慮到軍工裝備領(lǐng)域關(guān)系提取任務(wù)的特點(diǎn),與[n]元語法相比,[n]元匹配特征選擇模式能夠有效地解決稀疏特征的問題,并在提取性能上取得較好的表現(xiàn)。這是因?yàn)閇n]元匹配特征選擇模式能夠更準(zhǔn)確地捕捉關(guān)系三元組之間的關(guān)聯(lián)特征,從而提高關(guān)系抽取的準(zhǔn)確率和召回率。因此,[n]元匹配是用于本文中進(jìn)行特征提取的方法。

      2.2 "CRF和句法分析樹的性能比較實(shí)驗(yàn)

      篩選模型用于將提取的結(jié)果與優(yōu)化的結(jié)果進(jìn)行比較,結(jié)果如表1所示。分析表1結(jié)果可知,選擇置信模型后,基于CRF和句法分析樹融合的實(shí)體關(guān)系提取方法的準(zhǔn)確性將得到顯著提高??梢酝ㄟ^過濾一些低質(zhì)量的關(guān)系三元來降低召回率,但綜合評(píng)價(jià)指標(biāo)的[F]值基本保持不變。結(jié)果表明,本文方法對(duì)大型軍事裝備領(lǐng)域的知識(shí)提取具有實(shí)用性,應(yīng)更加注重知識(shí)的準(zhǔn)確性來提升提取器的精度。

      對(duì)于置信模型的閾值設(shè)置進(jìn)行了幾組比較檢驗(yàn),具體性能對(duì)比結(jié)果如表2所示。對(duì)表2中結(jié)果進(jìn)行分析可知,通過增加閾值,可以觀察到提取結(jié)果的準(zhǔn)確性會(huì)提高,但召回率會(huì)下降。這導(dǎo)致綜合評(píng)價(jià)指標(biāo)[F]值增加。然而,當(dāng)置信度超過0.34時(shí),準(zhǔn)確率的提高速度會(huì)減緩,召回率會(huì)減少,從而導(dǎo)致[F]值下降。因此,可以選擇0.34作為最佳閾值來平衡準(zhǔn)確性和召回率,并獲得較高的[F]值,這樣的選擇能夠在實(shí)體關(guān)系提取任務(wù)中取得更好的綜合結(jié)果。需要注意的是,最佳閾值的選擇可能因不同的數(shù)據(jù)集和任務(wù)而有所差異,因此在具體應(yīng)用時(shí)需要進(jìn)行針對(duì)性地調(diào)整和優(yōu)化。

      3 "結(jié) "語

      本文提出了一種基于知識(shí)抽取和融合的方法,并根據(jù)該方法構(gòu)建了一個(gè)簡(jiǎn)單的軍事裝備圖譜,具有較高的準(zhǔn)確性和可行性。三元匹配特征選擇方法可以更好地捕捉實(shí)體之間的關(guān)系,從而提高實(shí)體關(guān)系抽取的準(zhǔn)確性,為軍事裝備領(lǐng)域的知識(shí)圖譜構(gòu)建提供有效的技術(shù)支持,并協(xié)助軍事裝備行業(yè)的從業(yè)人員快速了解到領(lǐng)域前沿的軍事裝備知識(shí)。

      參考文獻(xiàn)

      [1] PEAKE J M, GRAHAM K, SULLIVAN J P. A critical review of consumer wearables, mobile applications and equipment for providing biofeedback, monitoring stress and sleep in physically active populations [J]. Frontiers in physiology, 2018, 9: 743.

      [2] CHANG T Y, TSAI J, HUANG W T. A multicast?tree construction algorithm for efficient data collection over mobile networks of military vehicles [J]. Journal of computers, 2018, 29(5): 1?4.

      [3] WANG J, HE C L, WU W, et al. Track quality evaluation method research on tactical data link [C]// 2018 International Conference on Advanced Cloud and Big Data. [S.l.: s.n.], 2018: 89?92.

      [4] HU L Q, HE C F, CAI Z Q, et al. Track circuit fault prediction method based on grey theory and expert system [J]. Journal of visual communication and image representation, 2019, 58: 22?23.

      [5] 劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582?600.

      [6] PUJARA J, MIAO H, GETOOR L, et al. Knowledge graph identification [C]// Proceedings of 12th International Semantic Web Conference. Heidelberg, Germany: Springer, 2013: 542?557.

      [7] LIU Q, LI Y, DUAN H, et al. Knowledge graph construction techniques [J]. Journal of computer research and development, 2016, 53(3): 582?600.

      [8] ZHAO Z, HAN S K, SO I M. Architecture of knowledge graph construction techniques [J]. International journal of pure applied mathematics, 2018, 118(19): 1869?1883.

      [9] CHEN Z Y, BAO J S, ZHENG X H, et al. An assembly information model based on knowledge graph [J]. Journal of Shanghai Jiaotong University (Science), 2020, 25(5): 578?588.

      [10] ZHANG Y, XIAO Q L, DENG X Y, et al. A multi?source information fusion method for ship target recognition based on Bayesian inference and evidence theory [J]. Journal of intelligent amp; fuzzy systems: Applications in engineering and technology, 2022, 42(3): 2331?2346.

      [11] XU D L, PAN J C, WANG B L, et al. Biological entity relationship extraction method based on multiple kernel learning [C]// IEEE International Conference on Bioinformatics amp; Biomedicine. New York: IEEE, 2017: 1669?1672.

      [12] SHI M Y, HUANG J Y, LI C F. Entity relationship extraction based on BLSTM model [C]// 2019 IEEE/ACIS 18th International Conference on Computer and Information Science (ICIS). New York: IEEE, 2019: 266?269.

      [13] BRADLEY C N, HEIKKI K. Editorial: Military human performance optimization—Contemporary issues for sustained and improved readiness [J]. European journal of sport science, 2022, 22(1): 1?3.

      [14] 楊玉基,許斌,胡家威,等.一種準(zhǔn)確而高效的領(lǐng)域知識(shí)圖譜構(gòu)建方法[J].軟件學(xué)報(bào),2018,29(10):2931?2947.

      [15] RAMAMOORTHY U, LOGANATHAN A. Analysis of video steganography in military applications on cloud [J]. International Arab journal of information technology, 2022, 19(6): 897?903.

      [16] SKOPIK F, BONITZ A, GRANTZ V, et al. From scattered data to actionable knowledge: Flexible cyber security reporting in the military domain [J]. International journal of information security, 2022, 21(6): 1323?1347.

      作者簡(jiǎn)介:王依科(1993—),男,山東臨沂人,碩士,工程師,研究方向?yàn)榇髷?shù)據(jù)與知識(shí)圖譜。

      吳振乾(1992—),男,山東臨沂人,碩士,工程師,研究方向?yàn)榇髷?shù)據(jù)與知識(shí)圖譜。

      猜你喜歡
      軍事裝備知識(shí)圖譜
      把眼睛“搬”給軍事裝備
      淺析軍事裝備采購現(xiàn)狀和軍事代表工作新思路
      基于管理者視角的軍事裝備市場(chǎng)準(zhǔn)入管理制度研究
      “民營企業(yè)參與軍事裝備研制和配套相關(guān)政策培訓(xùn)班”在浙江瑞安舉辦
      加快推進(jìn)軍事裝備作戰(zhàn)運(yùn)用學(xué)科專業(yè)建設(shè)
      國內(nèi)圖書館嵌入式服務(wù)研究主題分析
      國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢(shì)
      近十五年我國小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對(duì)策
      基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
      井研县| 鄂温| 堆龙德庆县| 固始县| 呼伦贝尔市| 皮山县| 健康| 沂源县| 双城市| 天门市| 福海县| 南康市| 墨竹工卡县| 响水县| 安福县| 岳阳市| 普兰店市| 竹山县| 昆明市| 金塔县| 隆安县| 大同县| 北宁市| 长寿区| 甘孜| 疏勒县| 潞西市| 阆中市| 永城市| 武冈市| 邵阳市| 玛曲县| 兰西县| 峡江县| 涿鹿县| 肇州县| 淳安县| 保定市| 卢湾区| 莫力| 庆安县|