• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢

      2015-06-15 19:10:58呼凱凱徐宗昌
      裝甲兵工程學院學報 2015年1期
      關鍵詞:語句編碼向量

      呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

      (裝甲兵工程學院技術保障工程系,北京 100072)

      基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢

      呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

      (裝甲兵工程學院技術保障工程系,北京 100072)

      為了提高IETM數(shù)據(jù)查詢的準確率,通過對數(shù)據(jù)模塊編碼層與XML內(nèi)容層進行分析,結合N層向量空間模型查詢算法,從IETM數(shù)據(jù)模塊編碼層中的型號識別碼、系統(tǒng)層次碼、信息碼以及數(shù)據(jù)模塊內(nèi)部數(shù)據(jù)信息入手,提出了一種基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢算法,并通過IETM實例驗證了該算法的正確性與實用性。

      N層向量空間模型;IETM;數(shù)據(jù)查詢

      交互式電子技術手冊(Interactive Electronic Technical Manual, IETM)作為裝備綜合保障領域一項新的研究內(nèi)容,為裝備綜合保障活動提供了一種全新的信息處理與獲取手段,其涵蓋了裝備維修保障活動過程中所需的各種技術信息。然而,隨著武器裝備的發(fā)展以及高新技術的不斷應用,裝備維修保障活動中所需的技術信息越來越多,如何從IETM中準確、快速地獲取所需的信息已成為IETM研究急需解決的問題。N層向量空間模型作為一種常用的信息檢索模型,已被廣泛應用于不同領域的信息檢索和數(shù)據(jù)分類過程[1-3]。因此,本文將N層向量空間模型引入到IETM的數(shù)據(jù)查詢之中,提出了一種基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。

      1 基本概念

      1.1 向量空間模型

      向量空間模型(Vector Space Model,VSM)最早是由G.Salton提出的一種代數(shù)模型[4]。該模型將每一個對象都映射為一個向量,進而利用相似法計算查詢對象與查詢語句的相似度,另外,通過設定相應的相似度閾值,篩選出查詢結果,并根據(jù)相似度大小對查詢結果進行排序[5]。

      向量空間模型作為傳統(tǒng)的查詢模型具有簡單、直觀、處理快速等優(yōu)點。但是,在實際應用中,向量空間模型也表現(xiàn)出了一些弊端,具體表現(xiàn)在:1)未考慮文檔不同位置對特征項權重的影響;2)對查詢語句與數(shù)據(jù)對象進行向量化的過程中,由于文檔集合中特征項的數(shù)量往往大于單獨一篇文檔中特征項的數(shù)量,致使所得到的向量中多數(shù)項都為0,最終影響相似度查詢結果的準確性。因此,在實際應用中,向量空間模型在很多情況下無法滿足用戶的實際查詢需求。

      1.2N層向量空間模型

      N層向量空間模型是在向量空間模型的基礎上提出的,其根據(jù)文檔的結構將文檔劃分為N層,并針對不同層的內(nèi)容設定不同的向量空間模型和權重,進而計算出不同層與查詢語句的相似度。另外,在不同層的權重計算上,不同的部分也采用不同的標準,將各層中關鍵詞的權重分別乘以不同的比例系數(shù),這樣就可以顯著地提高相似度計算結果的精度,得到更好的查詢結果[6-7]。

      N層向量空間模型是對傳統(tǒng)向量空間模型的一種改進,其通過對查詢對象進行分層,解決不同位置上的特征項權重的區(qū)分,另外,分層很大程度上解決了查詢對象向量化后所得到的向量中多數(shù)項為0的弊端,從而提升了查詢結果的準確度。

      2 IETM數(shù)據(jù)查詢算法

      IETM作為一種電子技術手冊,其界面文檔顯示的數(shù)據(jù)內(nèi)容主要來源于IETM內(nèi)部的數(shù)據(jù)模塊;而數(shù)據(jù)模塊內(nèi)部各個層次代表的文檔信息,其重要程度各不相同,層次較為分明。因此,可以根據(jù)IETM數(shù)據(jù)模塊的結構層次,提出基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。

      2.1 數(shù)據(jù)層次劃分

      1) 數(shù)據(jù)模塊編碼層。IETM是通過數(shù)據(jù)模塊編碼(Data Module Code,DMC)來實現(xiàn)對數(shù)據(jù)模塊的區(qū)分。DMC的一般結構如圖1所示。DMC最長是由37個數(shù)字和字母組成,最小長度是17個字符,其中主要是型號識別碼(Model Identification code,MI)、系統(tǒng)區(qū)分碼(System Difference Code,SDC)、系統(tǒng)層次碼(Standard Numbering System,SNS)、分解碼(Disassembly Code,DC)、分解差異碼(Disassembly Code Variant,DCV)、信息碼(Information Code,IC)、信息差異碼(Information Code Variant,ICV)和位置碼(Item Location Code,ILC)[8]。其中MI、SNS、IC分別描述了裝備的相關型號、基本系統(tǒng)結構以及數(shù)據(jù)模塊所描述的信息類型,這3種編碼是數(shù)據(jù)模塊編碼中最重要、最具代表性的編碼體系結構[9-10]。因此,對于數(shù)據(jù)模塊編碼層的查詢主要從這3個編碼結構進行查詢。

      圖1 數(shù)據(jù)模塊編碼的一般結構

      2) XML內(nèi)容層。IETM中內(nèi)容信息的描述采用可擴展標記語言(eXtensible Markup Language,XML),它具有和HTML相似的性質,因此,同樣可以根據(jù)N層向量空間模型對頁面進行層次劃分。由于頁面的特殊格式,一個數(shù)據(jù)模塊內(nèi)容層最少由指向該數(shù)據(jù)模塊的標題、副標題以及正文3部分組成。因此,對XML內(nèi)容層進行查詢時也可以分為3部分:第1部分是標題部分;第2部分是副標題部分;第3部分是正文部分。

      2.2 特征項選取

      特征項作為N層向量空間模型查詢算法過程中對數(shù)據(jù)進行向量表示的元素,其合理性的選擇直接決定了查詢語句與查詢對象向量化的正確性,并將決定查詢結果的準確性。因此,在查詢計算之前,必須合理地選擇特征項。特征項的選取必須遵循以下原則。

      1) 獨立性原則。在對特征項進行選擇時,必須使得所選取的多個特征項之間相互獨立,不存在任何包含與被包含的關系,進而使得查詢向量以及每個數(shù)據(jù)模塊對象能夠準確地進行表示。如:在對相關故障信息進行查詢時,不能選取故障、故障隔離和故障描述同時作為其特征項,而應只選取故障隔離與故障描述作為查詢的特征項。

      2) 代表性原則。特征項的選取必須能夠對查詢對象進行完整性表達,并且能夠突出不同查詢對象之間的本質區(qū)別,即不同的特征項能夠代表不同類的查詢對象。同時,在特征項選取過程中要確保該詞是出現(xiàn)在查詢對象當中,尤其是標題、副標題這類具有明顯性與總結性的詞語。

      3) 簡潔性原則。在特征項選擇過程中應盡量對選詞進行簡化,在確保能夠表達相應對象的基礎上,盡量地對詞語進行縮減,進而減小向量化計算的復雜度,提高系統(tǒng)的計算速度。同時,所選擇的特征詞中應去除虛詞、感嘆詞以及連詞等修飾詞,實現(xiàn)對特征項的簡潔化。

      2.3 相似性計算

      在基于N層向量空間模型的IETM數(shù)據(jù)查詢算法中,首先需要根據(jù)相應的特征項對查詢語句與查詢對象進行向量化,但是,并不是每一個特征項都同等重要,因此需要對特征項的權重進行調整,常用的是文件集的統(tǒng)計頻率權值(Term Frequency-Inverse Document Frequency,TF-IDF),其由2部分組成:一部分是檢索單元在文件中出現(xiàn)的頻率wTF;另一部分則被稱為反轉文件頻率wIDF。其中:

      (1)

      式中:d為整個文件集的文件總數(shù);dj為在整個文件集中包含特征詞j的文件數(shù)。

      而對于一個給定的檢索單元,其TF-IDF權值是兩者的乘積,即

      (2)

      通過對N層向量空間模型進行分析并結合IETM數(shù)據(jù)模塊內(nèi)部結構,本文在N層向量空間模型的基礎上對其特征項權重的計算進行完善。

      在N層向量空間模型中,由于文檔同一區(qū)域內(nèi)不同的特征項所表達文檔內(nèi)容的能力不同,故為了提升查詢結果的精確度,需要對不同的特征項賦予不同的權重。在計算特征項頻率wTFijk時應乘以一個比例因子log2(M/mk),其中:M為該特征項在數(shù)據(jù)模塊Di中出現(xiàn)的總次數(shù);mk為該特征項在第k個區(qū)域出現(xiàn)的次數(shù)。但是在對數(shù)據(jù)模塊層的特征項進行加權的過程中,當M=mk時,相應的加權計算將無法進行。因此,在基于N層向量空間模型的IETM數(shù)據(jù)查詢計算中,本文將其頻率計算公式調整為

      (3)

      在對查詢語句以及查詢對象進行向量化表示后,還需要選定合適的方法對兩者之間的相似度進行計算,判定查詢對象是否是用戶需求的內(nèi)容。余弦相似法作為一種常用的相似性計算方法,常被用于向量空間模型中的相似性計算。因此,在基于N層向量空間的IETM數(shù)據(jù)查詢中,可以選用該方法來計算數(shù)據(jù)模塊di和查詢語句q的相似度:

      (4)

      (5)

      式中:λk為不同層所計算出的相似度的權重;n為向量di和q的維數(shù)。

      3 算法驗證

      為了驗證本文所提出算法的正確性,以含有5個數(shù)據(jù)模塊的某型裝備IETM為例,對其發(fā)動機故障信息進行查詢。

      1) 對查詢語句與數(shù)據(jù)模塊進行簡單形象地描述。

      Q:“發(fā)動機,故障描述”。

      D1:“發(fā)動機/曲軸連桿機構的一般故障描述”數(shù)據(jù)模塊。

      D2:“發(fā)動機的密封”數(shù)據(jù)模塊。

      D3:“發(fā)動機/曲軸連桿機構的組成和功能描述”數(shù)據(jù)模塊。

      D4:“傳動裝置的主離合器一般故障隔離”數(shù)據(jù)模塊。

      D5:“通信設備VCR-8000電臺的一般故障描述”數(shù)據(jù)模塊。

      2) 查詢語句與數(shù)據(jù)模塊的向量表示以及相似性計算。

      第1步:根據(jù)式(1)計算各詞語所對應的IDF權值。計算結果如下:

      IDF發(fā)動機=0.222;

      IDF傳動裝置=0.699;

      IDF通信設備=0.699;

      IDF發(fā)動機一般故障=0.699;

      IDFVCR-8000電臺一般故障描述=0.699;

      IDF主離合器一般故障隔離=0.699;

      IDF發(fā)動機密封=0.699;

      IDF發(fā)動機組成和功能描述=0.699。

      第2步:根據(jù)式(1)中關于區(qū)域特征項頻率(k=1,2,分別對應系統(tǒng)層次碼、信息碼),計算出wTFijk,再由式(2)、(3)計算出在不同數(shù)據(jù)模塊中不同特征詞所對應的ωij和wTFij(假定w1=1.2,w2=1.1),進而得到查詢語句和不同數(shù)據(jù)模塊的表示向量。

      q=(0.222, 0, 0, 0.699, 0, 0, 0, 0);

      d1=(0.266, 0, 0, 0.739, 0, 0, 0, 0);

      d2=(0.266, 0, 0, 0, 0, 0, 0.739, 0);

      d3=(0.266, 0, 0, 0, 0, 0, 0, 0.739);

      d4=(0, 0.839, 0, 0, 0, 0.739, 0, 0);

      d5=(0, 0, 0.839, 0, 0.739, 0, 0, 0)。

      第3步:利用第2步所得的向量模型,再根據(jù)式(5),得到不同數(shù)據(jù)模塊的編碼層與查詢語句的相似度,如表1所示。

      表1 數(shù)據(jù)模塊編碼層與查詢語句的相似度

      同理,得到不同數(shù)據(jù)模塊的XML內(nèi)容層與查詢語句的相似度,如表2所示。

      表2 數(shù)據(jù)模塊XML內(nèi)容層與查詢語句的相似度

      第4步:把利用向量空間模型進行計算的結果按照一定權重比例進行匯總計算,分別將數(shù)據(jù)模塊編碼層、XML內(nèi)容層相似度計算結果的權重設為0.4、0.6。利用式(4)計算出不同數(shù)據(jù)模塊與查詢語句的最終相似度,結果如表3所示。

      表3 數(shù)據(jù)模塊與查詢語句的相似度

      綜合所得查詢排序結果為D1、D3、D2、D5、D4??梢钥闯觯翰捎迷撍惴ㄓ嬎愠龅南嗨贫扰c實際結果完全吻合;另外,該算法要優(yōu)于現(xiàn)有IETM系統(tǒng)根據(jù)關鍵字進行排序的算法。

      4 結論

      本文以N層向量空間模型為基礎,提出了基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。與傳統(tǒng)的IETM查詢算法相比,從數(shù)據(jù)模塊的不同數(shù)據(jù)結構層出發(fā)進行數(shù)據(jù)查詢具有良好的查詢效果。然而由于不同的用戶在查詢過程中對相同查詢請求的表達上存在一定的差異,因此,針對查詢詞的語義分析將是下一步研究的方向。

      [1] Jing L P,Ng M K,Huang J Z. Knowledge-based Vector Space Model for Text Clustering [J].Knowledge and Information Systems,2010,25(1):35-55.

      [2] 王方,阮梅花,朱海剛,等. 基于向量空間模型的科技文獻自動分類研究[J].情報探索,2009,194(12):1-3.

      [3] De Smet W,Moens M F. Representations for Multi-document Event Clustering [J]. Data Mining and Knowledge Discovery, 2013,26(3):533-558

      [4] 張凌宇,陳淑鑫,張光妲,等.一種基于向量空間模型的模糊本體映射方法[J].計算機應用研究,2014,31(5):1459-1462.

      [5] 夏立新,陸偉,沈吟東,等.信息檢索可視化[M].北京:科學出版社,2009:19-21.

      [6] 劉紅芝. 基于N層向量空間模型和兩重過濾方法的文本過濾系統(tǒng)的研究[J].科技信息,2009,32(1):36-37.

      [7] 仲華,崔志明. 基于XML的信息抽取和多層向量空間技術研究[J].計算機技術與發(fā)展,2007,17(7):49-52.

      [8] 徐宗昌. 裝備IETM研制工程總論[M].北京:國防工業(yè)出版社,2012:259-260.

      [9] 安釗. 裝備交互式電子技術手冊若干關鍵技術研究[D].北京:裝甲兵工程學院,2009.

      [10] 徐宗昌. 裝備IETM技術標準實施指南[M].北京:國防工業(yè)出版社,2012:64-66.

      (責任編輯:尚彩娟)

      IETM Data Retrieval of Equipment Based onN-level Vector Model

      HU Kai-kai, XU Zong-chang, LIU Kai, GUO Jian, JIN Fei

      (Department of Technical Support Engineering, Academy of Armored Force Engineering, Beijing 100072, China)

      Aiming at improving the accuracy of IETM data retrieval, through analyzing the levels of data module code and XML content, in combination with the retrieval algorithm ofN-level vector space model, this paper presents a data retrieval method of IETM based onN-level vector space model from model identification code, standard numbering system, information code of data module coding layer and the information in the data module. At last, it proves the correctness and practicability of the algorithm in accordance with IETM instance.

      N-level vector space model; IETM; data retrieval

      1672-1497(2015)01-0086-04

      2014- 07- 16

      呼凱凱(1987-),男,博士研究生。

      TP391

      A

      10.3969/j.issn.1672-1497.2015.01.017

      猜你喜歡
      語句編碼向量
      向量的分解
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
      聚焦“向量與三角”創(chuàng)新題
      《全元詩》未編碼疑難字考辨十五則
      重點:語句銜接
      子帶編碼在圖像壓縮編碼中的應用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      精彩語句
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉圓錐曲線
      莱西市| 桃江县| 安阳市| 西丰县| 鄄城县| 稷山县| 田阳县| 乌海市| 庐江县| 正安县| 沙洋县| 陇南市| 东莞市| 藁城市| 原平市| 陈巴尔虎旗| 浦城县| 天峨县| 桃园市| 邢台市| 乌海市| 临洮县| 石城县| 宁德市| 绥中县| 喀喇沁旗| 元朗区| 都匀市| 永修县| 榆社县| 镇安县| 化州市| 仁怀市| 定远县| 中西区| 渝中区| 那坡县| 巴塘县| 铁岭市| 新民市| 南开区|