• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于NLP的技術(shù)體制符合性審查方法

    2021-09-15 02:36:18樊志強凌冬怡
    計算機與現(xiàn)代化 2021年9期
    關(guān)鍵詞:文檔體制關(guān)鍵

    樊志強,凌冬怡,牛 嬋

    (1.華北計算技術(shù)研究所,北京 100083; 2.軍事科學(xué)院,北京 100091)

    0 引 言

    技術(shù)體制是指系統(tǒng)論證研制過程中所采用的技術(shù)途徑,是實現(xiàn)系統(tǒng)功能和性能要求的主要技術(shù)框架,也是制定系統(tǒng)需遵循技術(shù)標(biāo)準(zhǔn)的主要依據(jù)。技術(shù)體制對于系統(tǒng)的論證建設(shè)發(fā)揮著重要的作用,因此,有不少研究人員開展了多個領(lǐng)域的系統(tǒng)技術(shù)體制研究工作[1-5]。吳紅兵等人[6]和李西娟[7]給出了電子信息系統(tǒng)的技術(shù)體制分類,楊怡等人[8]利用基于DoDAF的多視圖描述方法,提出了目前綜合電子信息系統(tǒng)的一般技術(shù)體制框架,薛曉飛等人[9]針對電子信息系統(tǒng)集成過程中遇到的通信方式、網(wǎng)絡(luò)構(gòu)建、體系結(jié)構(gòu)等信息數(shù)據(jù)交換技術(shù)體制不一致問題,提出了一種能夠在研制過程中保證體制兼容的研制方法。

    系統(tǒng)技術(shù)體制審查驗證,是有效構(gòu)建完整統(tǒng)一網(wǎng)絡(luò)信息體系的基礎(chǔ),是保障各類武器裝備、作戰(zhàn)節(jié)點、信息資源互聯(lián)互通互操作、入網(wǎng)成體系的關(guān)鍵,對系統(tǒng)論證建設(shè)整個過程具有重要作用?,F(xiàn)有研究大多關(guān)注在系統(tǒng)研制后進行技術(shù)體制標(biāo)準(zhǔn)符合性測試驗證[10-13]。然而,現(xiàn)有管理規(guī)定要求在系統(tǒng)立項論證時,就明確其技術(shù)體制,并開展技術(shù)體制符合性審查工作。

    技術(shù)體制符合性審查(下文簡稱“技術(shù)體制審查”)是信息系統(tǒng)立項評審前的一個重要環(huán)節(jié),是對新立項系統(tǒng)在網(wǎng)絡(luò)信息體系中定位和作用及相關(guān)技術(shù)要求符合性的綜合評估,也是控制項目研發(fā)成本和運行風(fēng)險的有效手段。目前技術(shù)體制符合性審查的常用方法以人工審查、專家經(jīng)驗判斷為主,主要存在以下問題:1)專家領(lǐng)域知識受局限,容易出現(xiàn)評價不客觀、不全面的現(xiàn)象;2)人工進行問題分析定位困難,系統(tǒng)在使用時出現(xiàn)互聯(lián)、互通、互操作、互理解等方面的問題時,難以快速有效確定是哪些系統(tǒng)違反了哪些技術(shù)體制要求。

    因此,針對上述存在的問題,本文開展基于自然語言處理(NLP)的技術(shù)體制審查方法研究,為技術(shù)體制審查工作提供有效的技術(shù)支撐手段。

    1 技術(shù)體制符合性審查需求分析

    1.1 技術(shù)體制審查內(nèi)容分析

    根據(jù)審查的不同維度,技術(shù)體制審查的主要內(nèi)容可以概括為3類:1)遵循標(biāo)準(zhǔn)符合性審查;2)體系結(jié)構(gòu)一致性審查;3)項目關(guān)聯(lián)性審查。標(biāo)準(zhǔn)符合性是指新立項項目所需構(gòu)建的項目標(biāo)準(zhǔn)體系與已有標(biāo)準(zhǔn)體系的符合情況。標(biāo)準(zhǔn)復(fù)合性是指待審項目的執(zhí)行標(biāo)準(zhǔn)與同類項目的標(biāo)準(zhǔn)體系的的符合情況。體系結(jié)構(gòu)一致性是指新立項研制信息系統(tǒng)的體系結(jié)構(gòu)與現(xiàn)有頂層體系結(jié)構(gòu)的一致性。項目關(guān)聯(lián)性是指待審查項目與體系中已有項目的關(guān)聯(lián)關(guān)系。

    1.2 智能化技術(shù)體制審查手段必要性分析

    鑒于現(xiàn)有人工審查過程中存在的問題,急需有效的智能化審查手段,以提高技術(shù)體制審查的效率和質(zhì)量。此外,由于技術(shù)體制審查的內(nèi)容既包括對項目本身立項依據(jù)、項目背景、可行性等的概況審查,又包括對系統(tǒng)頂層設(shè)計合理性、體系架構(gòu)一致性的審查,同時也包括與項目相關(guān)標(biāo)準(zhǔn)體系符合性的審查,審查涉及相關(guān)的關(guān)鍵信息的比對,審查流程和結(jié)論還與相關(guān)頂層指導(dǎo)文件緊密相關(guān)。因此,需要根據(jù)技術(shù)體制審查的特點,研究一套智能化的技術(shù)體制審查方法,以支持科學(xué)、高效的技術(shù)體制審查工作。

    2 基于NLP的技術(shù)體制審查方法

    基于技術(shù)體制審查文檔,開展智能化審查工作的總體技術(shù)思路如圖1所示。首先需要進行關(guān)鍵信息抽取,即提取文檔中待審查內(nèi)容對應(yīng)的技術(shù)體制關(guān)鍵要素特征。在這個過程中,基于提取的技術(shù)體制審查關(guān)鍵特征信息,構(gòu)建歷史技術(shù)體制審查知識庫,利用知識工程方法提高技術(shù)體制審查關(guān)鍵特征提取的效率。在得到技術(shù)體制審查文件的關(guān)鍵特征之后,利用自然語言處理(NLP)、圖像特征匹配以及信息特征識別等技術(shù),結(jié)合知識庫中的技術(shù)體制符合性審查的歷史知識,進行技術(shù)體制審查內(nèi)容(標(biāo)準(zhǔn)符合性、體系結(jié)構(gòu)一致性以及項目關(guān)聯(lián)性)的精準(zhǔn)匹配和審查工作,同時審查結(jié)果也會反饋到技術(shù)體制審查知識庫中。

    圖1 技術(shù)體制審查總體技術(shù)思路

    2.1 技術(shù)體制審查關(guān)鍵信息抽取

    在技術(shù)體制文件審查過程中,首先需要做的工作就是進行技術(shù)體制審查關(guān)鍵內(nèi)容的信息抽取。只有將技術(shù)體制審查的關(guān)鍵內(nèi)容進行抽取,才能有效地進行相關(guān)內(nèi)容的審查。

    在進行技術(shù)體制審查文本的信息抽取過程中,由于申報項目書中詞和詞之間是連續(xù)的漢字組成的,它們之間沒有明顯的分隔,要想通過自動化手段進行分詞達到人工分析一樣的效果,需要采用機器學(xué)習(xí)領(lǐng)域的相關(guān)方法,對分詞進行相關(guān)屬性的標(biāo)注[14],通過機器學(xué)習(xí)算法開展訓(xùn)練,得到與人工識別一樣的提取效果。本文主要展開如何合理得到技術(shù)體制審查過程中,如立項系統(tǒng)項目管理信息、體系結(jié)構(gòu)、戰(zhàn)技術(shù)指標(biāo)、網(wǎng)絡(luò)接入等幾個技術(shù)體制審查關(guān)鍵內(nèi)容關(guān)鍵信息識別的研究,以及在后期如果有相關(guān)審查關(guān)鍵內(nèi)容的擴充,系統(tǒng)能自動識別并且自主進行新增審查項的技術(shù)體制審查。

    為了解決以上問題,本文基于NLP技術(shù)中的命名實體識別技術(shù),提出針對技術(shù)體制審查領(lǐng)域的解決方案。命名實體識別[15](Named Entity Recognition, NER)是指提取和識別文本中具有特定意義的單詞。NER是自然語言處理領(lǐng)域進行基本信息處理的基礎(chǔ)。判斷識別中文中一個命名實體是否是一個有意義的名詞,主要包括2個方面的判斷:一是命名實體的上下文相關(guān)邊界是否被正確識別并劃分;二是實體的類別是否被正確標(biāo)記。二者之間的關(guān)系在于,兩者是互相獨立的條件,其中一條的正確性并不決定另一條的正確性,且兩者需要同時滿足才視為提取成功。NER的識別主要需要考慮2個方面:1)實體邊界的上下文劃分;2)實體類別的標(biāo)記。針對以上需求,本文提出的技術(shù)體制審查文檔關(guān)鍵信息抽取技術(shù)的主要方法流程如圖2所示,本文提出基于規(guī)則和統(tǒng)計(條件隨機場)相結(jié)合的方法進行技術(shù)體制審查關(guān)鍵信息提取,旨在實現(xiàn)技術(shù)體制審查過程中對相關(guān)關(guān)鍵審查要素的高準(zhǔn)確以及高概率的識別。本文假設(shè)技術(shù)體制審查文檔圖模型已經(jīng)生成完畢。在此基礎(chǔ)上開展基于NLP以及圖像處理的技術(shù)體制審查方法研究。

    圖2 技術(shù)體制審查文件信息抽取流程

    2.2 基于規(guī)則的技術(shù)體制審查命名實體識別算法

    基于規(guī)則的NER一般采用的方法是首先由語言學(xué)的專家制定句法和語法切分規(guī)則和規(guī)范,接著由各領(lǐng)域?qū)<以趯W(xué)習(xí)語法的基礎(chǔ)上,對本領(lǐng)域相關(guān)的規(guī)則進行各分詞的標(biāo)記,針對規(guī)則定義相關(guān)的程序模板,進行自動化提取。本文采用的語法語義規(guī)則是提取專家在評審過程中關(guān)注的關(guān)鍵特征詞,接著對關(guān)鍵特征詞進行標(biāo)記,對實際中正確的關(guān)鍵特征詞以及特征詞的邊界進行標(biāo)記和識別,從而得到技術(shù)體制審查命名實體識別知識庫,最后在識別與提取命名實體時,采用正則匹配或者模式匹配的方式開展命名實體的提取。該方法在操作上比較直觀,但是缺點在于難以在專家審查過程中提取領(lǐng)域規(guī)則,這一原理往往使得規(guī)則不能窮舉,在實際操作中會使得提取的規(guī)則不完備,即具有較低的召回率。

    本文采用基于規(guī)則和條件隨機場相結(jié)合的方法,在本節(jié)首先考慮基于規(guī)則的方法,算法的運行流程如圖3所示。該算法主要的邏輯是利用規(guī)則,對關(guān)鍵信息進行抽取,并將抽取出來的信息存儲至技術(shù)體制審查知識庫中。實現(xiàn)該算法的重點是將規(guī)則庫和知識庫的查找編排算法盡量合理編排,提高執(zhí)行效率。通過以上的研究,可以通過規(guī)則將技術(shù)體制審查文本文件中的重點審查要素識別出來。其中基于規(guī)則的技術(shù)體制審查關(guān)鍵信息抽取如算法1所示。

    圖3 基于規(guī)則算法解決方案

    算法1 基于規(guī)則的技術(shù)體制審查關(guān)鍵信息抽取算法[16]

    輸入:技術(shù)體制審查申報書集合setD

    輸出:技術(shù)體制審查關(guān)鍵信息setE

    1) if setD≠?

    2) get a txt from setD

    3)以(。???;:)對文檔進行切分。

    4)scan txt

    5)對每一個句子。

    6)對每一個分詞。

    7)去除規(guī)定的感嘆詞、疑問詞、語氣詞等(如啊、哈、咦等)。

    8)匹配體制審查規(guī)則庫。

    9)根據(jù)規(guī)則庫中的規(guī)則識別并抽取技術(shù)體制審關(guān)鍵信息。

    10)根據(jù)抽取出的關(guān)鍵信息(如技術(shù)標(biāo)準(zhǔn)、信息交互等),存入到實體信息庫setE中。

    11)轉(zhuǎn)到步驟1直到文檔集合為空。

    2.3 基于條件隨機場的技術(shù)體制審查命名實體識別算法

    根據(jù)上一節(jié)的分析,采用的基于規(guī)則的NER算法準(zhǔn)確率高但召回率低,在提取過程中會遺漏很多關(guān)鍵信息。特別是在技術(shù)體制審查過程中,由于目前技術(shù)更新速度很快,專家在審查過程中遵循的審查規(guī)則往往會潛移默化的變化,而相關(guān)的知識庫和規(guī)則庫不能實現(xiàn)實時的更新迭代,會出現(xiàn)召回率很低的情況。

    本文在基于規(guī)則方法的基礎(chǔ)上進一步提出采用條件隨機場模型,來解決召回率較低的問題。條件隨機場模型屬于圖模型中的無向圖——馬爾可夫隨機場[17],可以在已有目標(biāo)的概率統(tǒng)計信息的基礎(chǔ)上進行目標(biāo)的下一個狀態(tài)的預(yù)測,同時又避免了HMM模型和ME模型兩者本身需要根據(jù)對象的特征輸入太多參數(shù)的問題,對以上2個模型進行適當(dāng)?shù)牟眉?。針對序列?biāo)注及切分問題,條件隨機場模型可以通過識別上下文已識別的序列的標(biāo)注信息和切分關(guān)系,判斷待識別的序列的標(biāo)注信息和切分關(guān)系[19]。

    基于條件隨機場的技術(shù)體制審查的NER過程主要包含5個步驟:中文詞語詞性標(biāo)注、標(biāo)注后的文檔材料生成、基于條件隨機場的分詞模型訓(xùn)練、NER關(guān)鍵信息識別與抽取、結(jié)果評價與評測等[20]。圖4給出本文方法提出的基于條件隨機場的NER的計算流程,具體算法過程如算法2~算法4所示。

    圖4 條件隨機場算法解決方案

    算法2 基于條件隨機場的命名實體識別算法[21]

    輸入:訓(xùn)練技術(shù)體制申報書集合set D,測試申報書set T

    輸出:識別出的命名實體集合set NE

    1)對給定的技術(shù)體制申報書集合set D和測試申報書集合set T進行分詞和詞性標(biāo)注。

    2)采用算法3對相關(guān)分詞規(guī)則進行標(biāo)注后的技術(shù)體制申報書集合set D生成標(biāo)注后的文檔材料圖模型。

    3)采用算法4對生成的標(biāo)注后的文檔材料圖進行算法訓(xùn)練,從而生成技術(shù)體制審查命名實體識別的訓(xùn)練模型。

    4)采用算法1中編寫的關(guān)鍵信息提取模塊進行關(guān)鍵信息的抽取。

    5)基于訓(xùn)練集合,開展算法評價。

    算法3 標(biāo)注后的文檔材料圖模型生成算法[22]

    輸入:進行算法訓(xùn)練的技術(shù)體制申報書集合set D

    輸出:文檔材料圖模型

    1)對待開展算法訓(xùn)練的技術(shù)體制申報書集合set D中的文檔進行分詞與詞性標(biāo)注。

    2)打開技術(shù)體制審查關(guān)鍵特征文檔。

    3)采用算法1中編寫的關(guān)鍵信息提取模塊進行關(guān)鍵信息抽取。

    4)在得到抽取信息之后,繼續(xù)在特征詞的前或后開展判斷,查看是否有停止或擴展的規(guī)定詞語。

    5)轉(zhuǎn)換特征表示形式,將特征進行標(biāo)注。

    6)輸出特征標(biāo)注結(jié)果。

    算法4 基于條件隨機場的模型訓(xùn)練算法[23]

    輸入:生成的文檔材料圖模型

    輸出:機器學(xué)習(xí)文檔訓(xùn)練模型

    1)讀取算法3生成的文檔材料圖模型。

    2)以“?!睘榉指罘纸?,將訓(xùn)練文檔材料圖模型表示成以詞分割的成組數(shù)據(jù)對,標(biāo)記成(a,b),并將獲得的所有數(shù)據(jù)對保存到樣本集合S中。

    3)根據(jù)之前標(biāo)記的技術(shù)體制審查特征集合,提取相關(guān)數(shù)據(jù)對的特征。

    4)將特征集合中每一個特征在訓(xùn)練的文檔材料圖模型中出現(xiàn)的次數(shù)記為i,刪除特征次數(shù)i≤n的特征(n為設(shè)定的某個閾值)。

    應(yīng)用條件隨機場的技術(shù)體制審查命名實體識別方法具有較高的召回率,但準(zhǔn)確率比基于規(guī)則的方法低。在實際應(yīng)用中,為了提高準(zhǔn)確率和召回率,將基于規(guī)則的方法與基于條件隨機場的方法相結(jié)合,首先用基于規(guī)則的方法進行命名實體的識別與抽取,然后再采用基于條件隨機場的方法進行命名實體識別的補充,做二次識別和抽取,最終得到針對技術(shù)體制審查領(lǐng)域完備的關(guān)鍵審查要素信息。

    通過以上方法,可以將技術(shù)體制審查文件中的關(guān)鍵信息進行提取,得到關(guān)鍵審查要素,支持技術(shù)體制的重點審查要素的審查和匹配工作。

    3 技術(shù)體制審查系統(tǒng)實現(xiàn)與應(yīng)用

    根據(jù)本文研究的技術(shù)體制審查方法,筆者進行了技術(shù)體制審查的系統(tǒng)的設(shè)計和實現(xiàn)。系統(tǒng)架構(gòu)模式采用B/S模式,借鑒J2EE技術(shù)4層結(jié)構(gòu)框架,可以實現(xiàn)數(shù)據(jù)的共享與交互,保持較強的可重組性和定制性。系統(tǒng)采用的是4層結(jié)構(gòu)設(shè)計,即表現(xiàn)層、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層和信息數(shù)據(jù)層,如圖5所示。

    圖5 系統(tǒng)總體架構(gòu)

    以技術(shù)標(biāo)準(zhǔn)符合性審查為例,給出系統(tǒng)的實現(xiàn)效果,如圖6所示,首先在項目申報書任意位置右鍵選擇“對比標(biāo)準(zhǔn)體系”,可以展示出系統(tǒng)內(nèi)保存的標(biāo)準(zhǔn)體系分類,用戶自行選擇部分或全部需要對比的標(biāo)準(zhǔn)體系,如圖7所示。選擇好待比較的標(biāo)準(zhǔn)以后,系統(tǒng)會自動通過審查命名實體識別算法識別系統(tǒng)的技術(shù)標(biāo)準(zhǔn),并通過語義相似性比較等NLP技術(shù),自動判斷識別系統(tǒng)技術(shù)標(biāo)準(zhǔn)與標(biāo)準(zhǔn)體系的符合情況,重點展示系統(tǒng)新增和缺失的技術(shù)標(biāo)準(zhǔn),如圖8所示。

    圖6 右鍵選擇“對比標(biāo)準(zhǔn)體系”

    圖7 選擇相關(guān)聯(lián)的標(biāo)準(zhǔn)體系

    圖8 標(biāo)準(zhǔn)體系符合性結(jié)果展示

    本系統(tǒng)實現(xiàn)基于NLP的智能審查外,也同時支持專家根據(jù)智能審查結(jié)果進行補充審查的功能。用戶在待審項目申報書相應(yīng)章節(jié)可以編輯專家審查意見,如圖9所示。意見最終會以<專家ID,意見內(nèi)容>的形式顯示在被審項目申報書的相應(yīng)位置。最后該項目的所有專家審查意見可以進行匯總查看,并能生成審查報告。

    圖9 專家審查信息編輯

    本文提出的基于NLP的技術(shù)體制符合性審查方法以及研制的審查系統(tǒng)已在部隊技術(shù)體制符合性審查工作中進行了試用,與傳統(tǒng)以專家手工審查的方式相比,使用該方法和審查系統(tǒng)能夠幫助專家快速發(fā)現(xiàn)技術(shù)體制不符合的情況,并準(zhǔn)確定位具體位置,再通過專家確認(rèn)后即可快速得出審查結(jié)論。以一天(8 h)的審查工作量為例進行實驗,能夠減少50%以上的審查時間,采用基于規(guī)則與統(tǒng)計相結(jié)合的NER算法,與僅采用基于規(guī)則的NER算法相比,平均準(zhǔn)確率和平均召回率對比如表1所示。實驗說明了本文方法和系統(tǒng)的有效性。

    表1 不同算法的實驗對比說明

    4 結(jié)束語

    隨著信息技術(shù)、人工智能技術(shù)的發(fā)展和深度應(yīng)用,科學(xué)有效的技術(shù)體制審查手段在信息系統(tǒng)建設(shè)項目申報中的作用會越來越凸顯。在基于NLP的技術(shù)體制審查方法中,實體識別的準(zhǔn)確性對最終智能審查效果的好壞有著重大影響。本文提出了一種基于規(guī)則與統(tǒng)計相結(jié)合的方法,能夠同時兼顧NER的準(zhǔn)確率和召回率,提升識別準(zhǔn)確性和完備性。未來將重點研究基于架構(gòu)模型的技術(shù)體制智能化審查方法,從審查項目的文字和規(guī)范化架構(gòu)模型等多個維度,實現(xiàn)技術(shù)體制的智能審查。

    猜你喜歡
    文檔體制關(guān)鍵
    試論烏俄案對多邊貿(mào)易體制的維護
    高考考好是關(guān)鍵
    有人一聲不吭向你扔了個文檔
    基于RI碼計算的Word復(fù)制文檔鑒別
    建立“大健康”體制是當(dāng)務(wù)之急
    為“三醫(yī)聯(lián)動”提供體制保障
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    建立高效的政府辦醫(yī)體制
    獲勝關(guān)鍵
    NBA特刊(2014年7期)2014-04-29 00:44:03
    生意無大小,關(guān)鍵是怎么做?
    中國商人(2013年1期)2013-12-04 08:52:52
    高清| 始兴县| 东台市| 探索| 哈尔滨市| 德令哈市| 缙云县| 孝感市| 堆龙德庆县| 永嘉县| 日喀则市| 白玉县| 鹤山市| 大关县| 岱山县| 昔阳县| 克山县| 祥云县| 苍梧县| 藁城市| 白河县| 玉林市| 南投县| 泉州市| 民丰县| 得荣县| 久治县| 浙江省| 丹江口市| 托克托县| 金坛市| 南开区| 盖州市| 罗甸县| 江北区| 吉林市| 阳新县| 文登市| 蓬安县| 宁陵县| 永德县|