• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于規(guī)則和CRFs的部隊組合名稱識別方法*

    2017-11-17 06:38:58單赫源吳照林張海粟
    火力與指揮控制 2017年10期
    關(guān)鍵詞:軍用文書名稱

    單赫源,吳照林,張海粟,周 紅

    (1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安 710077;2.國防科技大學(xué)信息通信學(xué)院,武漢 430010)

    基于規(guī)則和CRFs的部隊組合名稱識別方法*

    單赫源1,吳照林2,張海粟2,周 紅1

    (1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安 710077;2.國防科技大學(xué)信息通信學(xué)院,武漢 430010)

    在軍用文書處理中,提出了一種基于規(guī)則和CRFs的部隊組合名稱識別方法,旨在識別部隊組合名稱中包含的建制單位。首先在詞語粗切分的軍用文書上使用CRFs模型識別出部隊組合名稱,然后采用拆分規(guī)則識別部隊組合名稱中包含的建制單位。實驗表明,基于規(guī)則和CRFs的部隊組合名稱識別方法識別準確率達到79.48%,識別的召回率為93.93%。

    部隊組合名稱,CRFs模型,實體識別,拆分規(guī)則

    0 引言

    通過自動抽取軍用文書中部隊、地點、時間、動作等命名實體及其相互關(guān)系,將作戰(zhàn)文書中以自然語言記述的指揮員和參謀對作戰(zhàn)行動的構(gòu)想,轉(zhuǎn)化為便于計算機分析挖掘的結(jié)構(gòu)化數(shù)據(jù),使指揮信息系統(tǒng)能夠正確理解軍用文書的語義,對于提高指揮信息系統(tǒng)的輔助決策能力,使指揮信息系統(tǒng)真正融入指揮鏈具有十分重要的意義。

    準確識別軍用文書中包含的部隊名稱實體,是使用計算機分析部隊命名實體所指代的部隊建制單位之間的關(guān)系,進而理解軍用文書語義的基礎(chǔ)工作,直接影響文檔信息抽取、內(nèi)容檢索、主題提取等工作的性能。在軍用文書擬制過程中為了行文簡潔,在表述部隊名稱實體時會經(jīng)常使用部隊組合名稱,如“第1營2、3連”,這種部隊組合名稱對計算機識別其中包含的部隊建制單位造成了困難。為準確識別部隊組合名稱中所指代的部隊建制單位,提出了一個基于規(guī)則和CRFs的部隊組合名稱識別方法。該方法首先使用CRFs模型識別文書中小粒度部隊名稱并生成完整的部隊名稱,根據(jù)部隊名稱中的觸發(fā)字判斷該名稱是表示單個建制單位的一般部隊名稱,還是表示多個建制單位的部隊組合名稱。最后使用規(guī)則對部隊組合名稱進行進一步識別,得到其中包含的所有建制單位。

    1 研究現(xiàn)狀

    與部隊名稱識別類似的研究是對機構(gòu)名稱的識別。目前主要做法是生成機構(gòu)名稱后綴詞典、機構(gòu)常用人名詞典和地名詞典[1],以此確定機構(gòu)名稱的邊界,再使用規(guī)則[2]或機器學(xué)習(xí)[3-5]的方法識別文本中的機構(gòu)名稱[6-7]。在一般文本中出現(xiàn)的諸如公司、企業(yè)等機構(gòu)名稱,使用組合名稱的情況很少。機構(gòu)名稱識別的難度在于排除機構(gòu)名稱內(nèi)部包含的人名、地名等其他命名實體的干擾,正確劃分出機構(gòu)名稱的左右邊界。相比一般文本,軍用文書中部隊組合名稱出現(xiàn)的頻率較高。因此,對軍用文書中部隊名稱的識別,不僅存在部隊名稱邊界難以確定的問題,而且正確識別出部隊組合名稱中所包含的建制單位名稱也成為一個難點。目前在已知公開發(fā)表的文獻中,對部隊名稱的識別工作,是對表示部隊單個建制單位的名稱的識別,尚未見對表示多個建制單位的部隊組合名稱識別的研究。

    2 部隊組合名稱結(jié)構(gòu)特征

    軍用文書中的部隊名稱由建制單位性質(zhì)、建制單位序列、建制單位級別3部分組成。其中,建制單位性質(zhì)標識該單位所屬軍兵種、從事專業(yè)或編配的主戰(zhàn)裝備,如“陸軍航空兵”、“機械化步兵”;建制單位序列以數(shù)字或“漢字+數(shù)字”的方式標識該單位在軍隊體制編制中的編組排列和建制關(guān)系,如“第十三”、“第一一三”;建制單位級別反映了該單位在軍隊編制序列中的層級,如“軍、師、旅、團、營、連、排、班”等。當建制單位名稱中包含有多個建制單位級別時,級別由高至低排列,軍種信息只和最高級別搭配,該建制單位的級別為該名稱中最低的單位級別,如“陸軍第XX集團軍第XX師XX團”標識了一個團級建制單位,其中“X”表示0到9的任意阿拉伯數(shù)字或漢字小寫數(shù)字。

    部隊組合名稱,是軍用文書中為了表達簡潔,而在一個部隊名稱中標識了多個建制單位的描述形式。部隊組合名稱有兩種類型,一種是標識不同軍種,如“陸、海、空軍”;第二種是標識同一軍種的不同建制單位,如“陸軍第XX、第XX集團軍”、“第XX集團軍裝甲旅第X、X營”、“XX集團軍機步第X師第X團第X、X營”。本文研究的是第二種部隊組合名稱的識別方法,這種類型的部隊組合名稱在軍用文書中出現(xiàn)的頻率更高且自身構(gòu)成較第一種類型更為復(fù)雜,具有以下結(jié)構(gòu)特征:

    ①部隊組合名稱中建制單位由頓號或“和”、“及”等漢字隔開,這些字符是判斷一個部隊名稱是否為組合名稱的觸發(fā)字;

    ②部隊組合名稱中的第一個建制單位包含了建制單位性質(zhì)信息,形式一般為“建制單位性質(zhì)+一個建制單位序列”或“建制單位性質(zhì)+多個建制單位序列和建制單位級別+一個建制單位序列”;

    ③部隊組合名稱中的最后一個建制單位包含了單位級別信息,形式一般為“建制單位序列+建制單位級別”;

    ④中間的建制單位只包含有單位序列信息,形式為“漢字+數(shù)字”或僅由數(shù)字構(gòu)成。

    總的來看,部隊組合名稱構(gòu)成較為靈活,單純依靠規(guī)則方法難以完全準確識別,因此,我們采用規(guī)則和CRFs相結(jié)合的方法,識別部隊組合名稱。

    3 基于規(guī)則和CRFs的部隊組合名稱識別方法

    3.1 CRFs模型介紹

    條件隨機場(Condition Random Fields CRFs)模型[8]是一種無向圖模型,可以在給定輸入節(jié)點的條件下,用于計算輸出節(jié)點的條件概率,常被用于序列數(shù)據(jù)的分割和標注。CRFs能夠利用字、詞及詞性等上下文信息和其他豐富的外部特征,在自然語言處理領(lǐng)域取得了非常好的效果。使用CRFs識別部隊組合名稱的基本過程包括部隊組合名稱標注、特征模板的選擇和模型訓(xùn)練等。

    3.2 基于規(guī)則和CRFs的部隊組合名稱識別步驟

    基于規(guī)則和CRFs的部隊組合名稱識別方法的基本思路是:使用CRFs模型對小粒度的部隊名稱進行識別,確定部隊組合名稱的左右邊界;再運用拆分規(guī)則對部隊組合名稱進行進一步識別,獲得部隊組合名稱中包含的所有部隊建制單位名稱。識別的步驟包括文書預(yù)處理,CRFs模型訓(xùn)練,基于CRFs的部隊組合名稱識別,基于拆分規(guī)則的部隊組合名稱中的建制單位識別?;谝?guī)則和CRFs的部隊組合名稱識別步驟如圖1。

    圖1 基于規(guī)則和CRFs的部隊組合名稱識別步驟

    ①文書預(yù)處理。文書預(yù)處理的目的是將軍用文書內(nèi)容的格式轉(zhuǎn)換為CRFs模型的輸入格式,并生成CRFs模型所需要的識別特征。預(yù)處理的主要內(nèi)容包括分詞、詞性標注、特征選擇和生成CRFs模型輸入格式。在基于規(guī)則和CRFs的部隊組合名稱識別方法中,文書預(yù)處理是基礎(chǔ)的步驟,直接影響到后續(xù)步驟的效果。

    ②CRFs模型訓(xùn)練。要使CRFs模型能正確地識別出軍用文書中的部隊組合名稱,首先要對CRFs模型進行訓(xùn)練,訓(xùn)練目標是使給定輸入序列對應(yīng)的標注序列的條件概率最大化。包括訓(xùn)練集標注、特征模板選擇和CRFs模型訓(xùn)練。通過訓(xùn)練集標注可以告訴CRFs模型在訓(xùn)練集中有哪些部隊組合名稱。標注采用“BIO”標簽的方法,標注一個實體的開頭(B)、實體的內(nèi)部(I)和非實體的詞語(O)。在標注時需要注意的是部隊名稱粒度大小的選擇,我們采取的策略是使部隊名稱的標注粒度最小,如“第XX集團軍裝甲旅第X、X營”分別被標注為“第XX集團軍”、“裝甲旅”和“第X、X營”3個部隊名稱,如圖2所示。標注部隊的粒度最小策略,可以充分利用部隊層級表述規(guī)范的特點提高CRFs模型識別的準確率。

    圖2 部隊名稱實體的小粒度標注

    ③基于CRFs的部隊組合名稱識別。在步驟①、②的基礎(chǔ)上,對擬識別的軍用文書使用CRFs模型識別并得到小粒度的部隊名稱,并將連續(xù)出現(xiàn)的相同類型小粒度部隊名稱組合起來,可最終得到部隊組合名稱。

    ④基于拆分規(guī)則的部隊組合名稱中建制單位識別。使用拆分規(guī)則對步驟③中得到的部隊組合名稱進行進一步識別,得到其包含的所有建制單位名稱。

    3.3 部隊組合名稱拆分規(guī)則

    使用拆分規(guī)則識別部隊組合名稱[9]中的建制單位。首先要識別并拆分出部隊組合名稱中的建制單位性質(zhì),并將其作為部隊組合名稱中所有建制單位的前綴;其次要識別并拆分出建制單位的級別,并將其作為后綴。為此使用以下6個拆分規(guī)則識別部隊組合名稱中的建制單位,使用拆分規(guī)則識別組合部隊名稱的流程如圖3所示。

    規(guī)則1 如果部隊組合名稱N中包含“和”或“及”等連詞,以連詞為分割字符,分割部隊組合名稱 N 為子名稱 Nx,(x=1,2),并執(zhí)行規(guī)則 2;如果部隊組合名稱中不包含“和”、“及”等連詞,則稱部隊組合名稱為子名稱N1,并執(zhí)行規(guī)則2。

    圖3 使用拆分規(guī)則識別組合部隊名稱的流程

    規(guī)則2 如果部隊子名稱Nx中包含有頓號,以頓號為分割字符,分割子名稱Nx為n個元素Nxy,(y=1,2…n,),并執(zhí)行規(guī)則 3 和規(guī)則 4;如果部隊子名稱Nx中不包含頓號,則稱子名稱為建制單位名稱Sx,并執(zhí)行規(guī)則6。值得注意的是,根據(jù)漢語書寫習(xí)慣,由頓號分隔的并列內(nèi)容不會太多,一般情況下n<10。

    規(guī)則3 如果第一個元素Nx1中至少含有一個阿拉伯數(shù)字“0123456789”或漢字小寫數(shù)字“〇一二三四五六七八九十”,遍歷Nx1,將Nx1的首字符到Nx1中最后的連續(xù)數(shù)字部分首個數(shù)字字符之前的所有字符構(gòu)成的字符串作為建制單位的前綴prefixNx,默認值為空。

    規(guī)則4 如果最后一個元素Nxn中至少含有一個阿拉伯數(shù)字“0123456789”或漢字小寫數(shù)字“〇一二三四五六七八九十”,遍歷Nxn,將Nxn中最后的連續(xù)數(shù)字部分之后的第一個非數(shù)字字符到Nxn的最后一個字符所構(gòu)成的字符串,作為建制單位的后綴suffixNx,默認值為空。

    規(guī)則5 將從第一個元素Nx1中最后的連續(xù)數(shù)字部分首個數(shù)字字符到Nx1的最后一個字符所構(gòu)成的字符串、元素 Nxy,(1<y<n)以及從最后一個元素Nxn的首字符到Nxn中最后的連續(xù)數(shù)字部分之前的最后一個非數(shù)字字符所構(gòu)成的字符串,分別作為n個建制單位的序列號Sxy。

    規(guī)則6 部隊組合名稱中第y個建制單位為prefixNx+Sxy+suffixNx,其中 11n<10.1<x12,1<y<n。

    4 實驗結(jié)果與分析

    4.1 實驗條件設(shè)置

    本文構(gòu)建了一個280篇文檔規(guī)模的實驗語料來驗證算法。其中選擇軍用文書80份作為訓(xùn)練集,計16 324字,訓(xùn)練集中共有485個部隊名稱,其中有39個部隊組合名稱。選擇軍用文書200份作為測試集,計26 242字,測試集中共有951個部隊名稱,其中有66個部隊組合名稱。此外,還從各類戰(zhàn)例資料中收集整理了797個部隊組合名稱專門用于驗證拆分規(guī)則對部隊組合名稱識別的適用性。對軍用文書使用中科院ICTCLAS工具進行分詞和詞性標注,手工對分詞后的軍用文書語料進行部隊組合名稱的標注。使用MALLET工具包實現(xiàn)CRFs模型。MALLET的輸入和輸出格式如圖4。輸入格式中最后一列是對實體的標注,其他各列分別代表一類特征。輸出為預(yù)測的實體標注。

    圖4 MALLET的輸入和輸出格式

    實驗所用計算機配置為:處理器Intel CORE i7 2.93 GHz,內(nèi)存容量為8 GB,操作系統(tǒng)為Windows7旗艦版64位。

    4.2 實驗評價標準

    本文從召回率(R)、準確率(P)和F值等3個方面對算法性能的進行評價。其計算方法為:

    4.3 實驗結(jié)果及分析

    4.3.1 實驗結(jié)果

    使用基于規(guī)則和CRFs的部隊組合名稱識別方法對200篇文檔組成的測試集中的部隊組合名稱進行識別。CRFs模型識別部隊組合名稱,識別的準確率為82%,識別的召回率為96.96%,F(xiàn)值為0.889。使用拆分規(guī)則識別部隊組合名稱中的建制單位,識別的準確率為97.53%,召回率為96.96%(與CRFs模型結(jié)果相同),F(xiàn)值為0.889?;谝?guī)則和CRFs的部隊組合名稱識別方法的識別準確率為79.48%,識別的召回率為93.93%,F(xiàn)值為0.861。

    單獨使用拆分規(guī)則對從各類戰(zhàn)例資料中收集的797個部隊組合名稱進行識別的實驗結(jié)果表明,拆分規(guī)則具有較好的效果。識別后得到部隊建制單位名稱2 183個,部隊組合部隊名稱包含的建制單位數(shù)量分布如圖5所示。其中,識別錯誤的部隊組合名稱14個,識別的準確率為98.24%,召回率為98.24%,F(xiàn) 值為 0.991。

    圖5 部隊組合名稱包含建制單位數(shù)量分布圖

    4.3.2 實驗結(jié)果分析

    圖5表明,在797個部隊組合名稱中,有444個部隊組合名稱包含2個建制單位,有229個部隊組合名稱包含3個建制單位,有124個部隊組合名稱包含4個以上建制單位。797個部隊組合名稱實際標識了2 183個部隊建制單位。56%的部隊組合名稱標識了2個部隊建制單位,6%的部隊組合名稱標識了5個以上的部隊建制單位,即僅用52個部隊組合名稱就標識了320個部隊建制單位。從以上分析可見,部隊組合名稱的數(shù)量和其實際標識的部隊建制單位的數(shù)量相差較大,如果不能準確識別部隊組合名稱中的部隊建制單位,將會對計算機理解軍用文書語義產(chǎn)生較大影響。

    5 結(jié)論

    基于規(guī)則和CRFs的部隊組合名稱識別方法的實驗結(jié)果表明,采用該方法識別部隊組合名稱具有較好的性能。識別錯誤的主要原因是CRFs模型識別部隊組合名稱時,名稱邊界判斷錯誤。因此,下一步要提高CRFs模型識別部隊組合名稱的準確率和召回率。一方面可以通過部隊編制詞典提高原始語料的分詞精度以改善詞特征,提高不同部隊組合名稱之間的區(qū)分度。另一方面,在CRFs模型中引入前綴、后綴等部隊名稱的上下文特征。以期進一步提高部隊組合名稱識別方法的準確率和召回率。

    [1]沈嘉懿,李芳,徐飛玉,等.中文組織機構(gòu)名稱與簡稱的識別[J].中文信息學(xué)報,2007,21(6):17-21.

    [2]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學(xué)報,2002,16(2):1-6.

    [3]鄭家恒,張輝.基于HMM的中國組織機構(gòu)名自動識別[J].計算機應(yīng)用,2002,22(11):1-2.

    [4]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構(gòu)名自動識別 [J]. 電子學(xué)報,2006,34(5):804-809.

    [5]黃德根,李澤中,萬如.基于SVM和CRF的雙層模型中文機構(gòu)名識別[J]. 大連理工大學(xué)學(xué)報,2010,50(5):782-787.

    [6]張金龍,王石,錢存發(fā).基于CRF和規(guī)則的中文醫(yī)療機構(gòu)名稱識別[J].計算機應(yīng)用與軟件,2014,31(3):159-164.

    [7]李元沉,何路,王爽,等.組織機構(gòu)名稱簡稱與全稱的自動識別研究初探[J].標準科學(xué),2014,54(8):82-86.

    [8]WIEBE J,WILSON T,BELL M.Identifying collocation for recognizing opinions[C]//Proc of Workshop on Collocation Computational Extraction Analysis,and Exploitation,2001:24-31.

    [9]胡福東,白宏陽,李成美,等.基于改進的胡氏不變矩的坦克識別方法[J].兵器裝備工程學(xué)報,2016,37(12):100-104.

    An Army Combine Name Recognition Method Based on Rules and CRFs

    SHAN He-yuan1,WU Zhao-lin2,ZHANG Hai-su2,ZHOU Hong1
    (1.School of Information and Navigation,Air Force Engineering University,Xi’an 710077,China;2.School of Information and Communications,National University of Defense Technology,Wuhan 430010,China)

    In military documents processing,an Army Combined Name (ACN)recognition method based on Rules and CRFs,which aims to recognize all organic units in ACNs.ACNs is proposed can be identified by CRFs,and organic units in ACNs would be recognized by splitting rules.Experiments show that,the precise and recall rate of our method for organic units in ACNs recognition is 79.48%and 93.93%.

    Army Combined Name(ACN),CRFs model,named entity recognize,splitting rules

    1002-0640(2017)10-0030-04

    TP11

    A

    10.3969/j.issn.1002-0640.2017.10.007

    2016-08-09

    2016-10-17

    國防預(yù)研基金資助項目(9140A15090112JB93180)

    單赫源(1979- ),男,黑龍江佳木斯人,博士,講師。研究方向:信息資源管理。

    猜你喜歡
    軍用文書名稱
    太行山文書精品選(17)
    威力無比的軍用霰彈槍
    軍事文摘(2020年14期)2020-12-17 06:27:24
    監(jiān)獄執(zhí)法文書規(guī)范探討
    黑水城出土《宋西北邊境軍政文書》中“砲”類文書再討論
    西夏學(xué)(2019年1期)2019-02-10 06:22:40
    軍用機器人揭秘
    中國工農(nóng)紅軍軍用號譜
    滬港通一周成交概況
    滬港通一周成交概況
    滬港通一周成交概況
    滬港通一周成交概況
    福泉市| 定边县| 威信县| 武强县| 沛县| 谢通门县| 准格尔旗| 金门县| 阳西县| 旅游| 台南市| 安宁市| 龙南县| 肥西县| 大名县| 乌兰浩特市| 旌德县| 论坛| 炉霍县| 临夏市| 呼和浩特市| 新源县| 珲春市| 北海市| 新源县| 尼玛县| 灯塔市| 饶阳县| 麦盖提县| 永吉县| 东阿县| 星子县| 陇川县| 怀集县| 桃源县| 鄂州市| 胶南市| 宣汉县| 普兰县| 黔南| 买车|