• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向工業(yè)軟件開發(fā)的半結(jié)構(gòu)化知識(shí)語(yǔ)義檢索方法

    2021-09-13 03:27:54王春雨蔣祖華王福華吉永軍
    關(guān)鍵詞:子網(wǎng)知識(shí)庫(kù)結(jié)構(gòu)化

    王春雨,蔣祖華+,王福華,吉永軍,江 輝

    (1.上海交通大學(xué) 機(jī)械與動(dòng)力工程學(xué)院,上海 200240;2.上海宏路數(shù)據(jù)技術(shù)股份有限公司,上海 200080)

    0 引言

    工業(yè)軟件開發(fā)是智力密集型的系統(tǒng)工程活動(dòng),企業(yè)在日常開發(fā)活動(dòng)中積累了許多工程知識(shí),如問題解決方案、版本更新說明、項(xiàng)目開發(fā)公告等。為解決遇到的工程問題,工程師需要花費(fèi)大量時(shí)間從企業(yè)知識(shí)庫(kù)中尋找和篩選工程知識(shí)來輔助解決問題[1-2],知識(shí)檢索效果對(duì)開發(fā)效率有顯著的影響。因此,面向工業(yè)軟件開發(fā),研究快速定位經(jīng)驗(yàn)知識(shí)的檢索工具,對(duì)提高企業(yè)知識(shí)的利用水平具有重要的意義。

    知識(shí)檢索采用多種相關(guān)性度量,從工程師輸入的自然語(yǔ)言形式查詢語(yǔ)句中挖掘描述用戶需求的語(yǔ)義信息,將工程知識(shí)按相關(guān)性高低排序后推薦給工程師?,F(xiàn)有的知識(shí)檢索技術(shù)分為基于關(guān)鍵詞匹配和基于深層語(yǔ)義匹配兩大類。

    (1)基于關(guān)鍵詞匹配的知識(shí)檢索技術(shù)按照用戶查詢和文本域的匹配關(guān)系細(xì)分為一對(duì)一的結(jié)構(gòu)化檢索和一對(duì)多的多文本域檢索。前者要求輸入與屬性、特征、分類等數(shù)據(jù)域?qū)?yīng)的結(jié)構(gòu)化查詢語(yǔ)句,系統(tǒng)在多個(gè)數(shù)據(jù)域上進(jìn)行關(guān)鍵詞匹配[3],這類技術(shù)依賴開發(fā)者定制的結(jié)構(gòu)化查詢語(yǔ)句,難以用于缺乏嚴(yán)格類型約束的知識(shí)檢索;后者計(jì)算并匯總知識(shí)中多個(gè)文本域與用戶查詢的相關(guān)性[4-5],可用于格式靈活的知識(shí)?;陉P(guān)鍵詞匹配的檢索技術(shù)只使用了淺層的字符統(tǒng)計(jì)學(xué)特征,忽視了實(shí)體間的深層關(guān)聯(lián),不能深入評(píng)估查詢和知識(shí)的語(yǔ)義相關(guān)性,在語(yǔ)義豐富的工程知識(shí)庫(kù)上的檢索效果不夠理想。

    (2)基于深層語(yǔ)義匹配的檢索技術(shù)多面向非結(jié)構(gòu)化的文本型知識(shí),按推理方法的不同細(xì)分為基于概念知識(shí)的檢索技術(shù)和基于語(yǔ)言模型的檢索技術(shù)。概念知識(shí)描述了實(shí)體概念間的語(yǔ)義關(guān)聯(lián)[6],基于概念知識(shí)的語(yǔ)義推理即利用實(shí)體間的關(guān)聯(lián)關(guān)系計(jì)算用戶查詢與知識(shí)間的語(yǔ)義相關(guān)性[7],其符合人類的推理直覺,檢索結(jié)果的準(zhǔn)確度高[8],然而通用的概念知識(shí)庫(kù)普遍缺乏軟件開發(fā)中的領(lǐng)域語(yǔ)義知識(shí)[9],如何利用概念知識(shí)描述知識(shí)復(fù)雜的上下文是研究的一個(gè)方向。語(yǔ)言模型通過捕獲自然語(yǔ)言的表達(dá)模式計(jì)算兩段文本的語(yǔ)義相關(guān)性[10],HUANG等[11]設(shè)計(jì)的雙塔式語(yǔ)義搜索模型將文本分解為三聯(lián)字符袋嵌入低維語(yǔ)義空間,用余弦值計(jì)量查詢—知識(shí)間的語(yǔ)義相關(guān)性?;谡Z(yǔ)言模型的深層語(yǔ)義匹配方法通過捕獲表達(dá)模式等語(yǔ)義信息,較好地解決了用戶檢索中“詞不達(dá)意”和“一詞多義”的問題[10,12],克服了基于關(guān)鍵詞匹配方法忽視自然語(yǔ)言文本中實(shí)體間語(yǔ)義關(guān)聯(lián)的缺點(diǎn),但也存在領(lǐng)域概念知識(shí)獲取難和語(yǔ)言模型計(jì)算復(fù)雜、響應(yīng)速度慢等缺點(diǎn)。

    近年來,根據(jù)應(yīng)用場(chǎng)景的獨(dú)特語(yǔ)義結(jié)構(gòu)設(shè)計(jì)算法成為檢索領(lǐng)域[13-15]的研究熱點(diǎn)。已有研究從問題結(jié)構(gòu)[16]、評(píng)分特征[17]等出發(fā)提出一些面向軟件開發(fā)的語(yǔ)義檢索方法。筆者在研究中發(fā)現(xiàn),軟件開發(fā)中會(huì)重用大量代碼模塊,工程知識(shí)會(huì)隨代碼重用影響所有導(dǎo)入的產(chǎn)品,因此產(chǎn)品適用的工程知識(shí)集存在重疊的現(xiàn)象,然而已有方法未考慮軟件開發(fā)中這種結(jié)構(gòu)的產(chǎn)品關(guān)聯(lián)關(guān)系。另外,軟件企業(yè)以半結(jié)構(gòu)化形式記錄的工程知識(shí)兼有標(biāo)簽和文本兩類信息,標(biāo)簽包含稠密直觀的概念語(yǔ)義信息,文本則隱含稀疏的自然語(yǔ)義信息,兩類語(yǔ)義產(chǎn)生于工程知識(shí)形成的不同階段,單類語(yǔ)義不能全面地解釋采用工程知識(shí)解答問題的可行性和合理性[18]。針對(duì)上述工業(yè)軟件開發(fā)工程知識(shí)檢索存在的問題,本文提出一種基于知識(shí)超網(wǎng)絡(luò)的語(yǔ)義檢索方法,通過軟件開發(fā)工程知識(shí)的提取、工程知識(shí)超網(wǎng)絡(luò)的構(gòu)建、復(fù)合語(yǔ)義相關(guān)性的推理,解決半結(jié)構(gòu)化知識(shí)復(fù)合語(yǔ)義檢索的困難,為軟件工程師提供更有效的知識(shí)檢索方法。

    1 面向軟件開發(fā)的半結(jié)構(gòu)化知識(shí)語(yǔ)義檢索方法框架

    1.1 軟件開發(fā)中的工程知識(shí)

    半結(jié)構(gòu)化數(shù)據(jù)既不同于文本流、音頻流、視頻流等完全非結(jié)構(gòu)數(shù)據(jù),也不同于數(shù)據(jù)庫(kù)中嚴(yán)格規(guī)范約束的結(jié)構(gòu)化元數(shù)據(jù),是具有模式信息隱含、數(shù)據(jù)結(jié)構(gòu)不規(guī)則、類型約束弱等[19]特征的數(shù)據(jù)。企業(yè)在軟件開發(fā)中常以半結(jié)構(gòu)化的格式記錄知識(shí),并在未來的工作中重用這些知識(shí)[20],如圖1所示。文檔結(jié)構(gòu)的多樣性不會(huì)對(duì)人類閱讀造成障礙,但是不便于機(jī)器進(jìn)行計(jì)算和推理。因此,需要先將軟件開發(fā)工程知識(shí)規(guī)范化表征為便于計(jì)算機(jī)處理的統(tǒng)一形式。

    1.2 工程知識(shí)的規(guī)范化表征

    將原始的半結(jié)構(gòu)化異構(gòu)文檔中的工程知識(shí)表征為規(guī)范化單元以便統(tǒng)一檢索,然后采用軟件開發(fā)中工程知識(shí)通用的4個(gè)屬性描述核心特征,構(gòu)建規(guī)范化表征的工程知識(shí)元EKU=AP,AO,KT,CD。從原始文檔中提取的工程知識(shí)元如圖2所示,各屬性的內(nèi)涵如下:

    (1)適用產(chǎn)品(Applicable Production,AP) 該方案/說明/公告生效的產(chǎn)品情境,如.Net Core。

    (2)應(yīng)用對(duì)象(Apply-to Object,AO) 該方案/說明/公告應(yīng)用的具體模塊,如身份認(rèn)證程序。

    (3)知識(shí)類型(Knowledge Type,KT) 工程知識(shí)的類型,用于識(shí)別內(nèi)容描述的敘述模式。

    (4)內(nèi)容描述(Content Description,CD) 知識(shí)內(nèi)容正文,包含原始文檔的文本信息。

    1.3 考慮復(fù)合語(yǔ)義信息的工程知識(shí)語(yǔ)義檢索方法框架

    本文的語(yǔ)義檢索方法框架如圖3所示,其中知識(shí)超網(wǎng)絡(luò)包括產(chǎn)品樹、應(yīng)用對(duì)象的概念語(yǔ)義子網(wǎng)和知識(shí)內(nèi)容的自然語(yǔ)義子網(wǎng)。3個(gè)語(yǔ)義子網(wǎng)對(duì)應(yīng)工程知識(shí)“在某產(chǎn)品情境針對(duì)某應(yīng)用對(duì)象,產(chǎn)生了某工程知識(shí)”的形成過程,構(gòu)成工程知識(shí)解答用戶查詢的推理邏輯。通過貝葉斯方法模擬工程知識(shí)的推理過程,以評(píng)估工程知識(shí)元和用戶查詢的語(yǔ)義相關(guān)性,相關(guān)性表現(xiàn)為條件概率P(EKU|QAP,QAO,Q),即工程知識(shí)元EKU被推薦的概率,其中Q表示用戶查詢,QAP,QAO表示用戶查詢中的產(chǎn)品情境和應(yīng)用對(duì)象。

    (1)屬性抽取和規(guī)范化表征 將原始知識(shí)文檔數(shù)據(jù)轉(zhuǎn)化為規(guī)范的工程知識(shí)元,解決工程知識(shí)弱類型約束問題。

    (2)知識(shí)超網(wǎng)絡(luò)的構(gòu)建 基于原始知識(shí)文檔規(guī)范化表征的工程知識(shí)元,將工程知識(shí)元映像為超網(wǎng)絡(luò)中的超邊,組成工業(yè)軟件開發(fā)知識(shí)庫(kù)的產(chǎn)品、對(duì)象、知識(shí)3層超網(wǎng)絡(luò),計(jì)算各節(jié)點(diǎn)間的子網(wǎng)內(nèi)關(guān)聯(lián)度和子網(wǎng)間節(jié)點(diǎn)超度等統(tǒng)計(jì)指標(biāo)。

    (3)基于超網(wǎng)絡(luò)的深度語(yǔ)義推理 包括概念語(yǔ)義相關(guān)性計(jì)算、自然語(yǔ)義相關(guān)性計(jì)算和超網(wǎng)絡(luò)的貝葉斯概率推理。概念語(yǔ)義相關(guān)性的計(jì)算過程如圖4所示,基于超網(wǎng)絡(luò)的統(tǒng)計(jì)指標(biāo)用于評(píng)估用戶查詢和工程知識(shí)元間的語(yǔ)義相關(guān)性;自然語(yǔ)義相關(guān)性基于語(yǔ)言模型計(jì)算,用于評(píng)估工程知識(shí)元中文本信息和用戶查詢的語(yǔ)義相關(guān)性;最后用貝葉斯定理推理工程知識(shí)元和用戶查詢的匹配程度。

    2 方法的具體實(shí)現(xiàn)

    2.1 工程知識(shí)的屬性抽取和規(guī)范化表征

    原始文檔存在的屬性缺失問題,可以通過分離和抽取知識(shí)中的實(shí)體概念來補(bǔ)全。

    (1)

    (2)

    (3)

    2.2 知識(shí)超網(wǎng)絡(luò)模型的構(gòu)建

    工業(yè)軟件開發(fā)中,工程師對(duì)知識(shí)的需求可以分解到適用產(chǎn)品、應(yīng)用對(duì)象、知識(shí)內(nèi)容3個(gè)屬性維度匹配來語(yǔ)義上下文,因此本文搭建產(chǎn)品子網(wǎng)、對(duì)象子網(wǎng)、知識(shí)子網(wǎng)組成的超網(wǎng)絡(luò)模型描述工程知識(shí)元的3種語(yǔ)義元素。工程知識(shí)元映像到模型中的超邊[22]HE表示在產(chǎn)品情境中針對(duì)應(yīng)用對(duì)象產(chǎn)生的具體工程知識(shí)內(nèi)容。

    (1)產(chǎn)品子網(wǎng)NP工程知識(shí)產(chǎn)品情境實(shí)體VP及其之間的關(guān)聯(lián)EP構(gòu)成一個(gè)有向加權(quán)樹。父子節(jié)點(diǎn)間為單向關(guān)聯(lián)關(guān)系(Kind-of),參考文獻(xiàn)[1]的領(lǐng)域本體構(gòu)建方法,父子節(jié)點(diǎn)間的關(guān)聯(lián)系數(shù)取0.7;同級(jí)節(jié)點(diǎn)間為雙向關(guān)聯(lián)關(guān)系(Similar-with),考慮軟件開發(fā)中代碼模塊復(fù)用的情況,同級(jí)節(jié)點(diǎn)間的關(guān)聯(lián)系數(shù)與產(chǎn)品間重疊度相關(guān),即

    (4)

    (5)

    (6)

    (7)

    (8)

    知識(shí)子網(wǎng)NK和對(duì)象子網(wǎng)NO間節(jié)點(diǎn)的超關(guān)聯(lián)度

    (9)

    2.3 融合概念知識(shí)和自然語(yǔ)言信息的深度語(yǔ)義檢索方法

    2.3.1 用戶查詢的解析

    在語(yǔ)義相關(guān)性計(jì)算前,基于知識(shí)超網(wǎng)絡(luò)中的實(shí)體概念,查詢解析器將自然語(yǔ)言形式的用戶查詢映射到知識(shí)超網(wǎng)絡(luò)中,稱為起始超邊HEQ,

    2.3.2 考慮類型特性的自然語(yǔ)義相關(guān)性計(jì)算

    工程知識(shí)元的CD屬性蘊(yùn)含了自然語(yǔ)言的深層語(yǔ)義,考慮知識(shí)內(nèi)容的邏輯結(jié)構(gòu)差異,在語(yǔ)義相關(guān)性計(jì)算中需要區(qū)別處理不同類型工程知識(shí)。例如,在本文使用的原始知識(shí)庫(kù)中存在“解決方案”、“軟件包說明”和“開發(fā)公告”3類工程知識(shí),“解決方案”類知識(shí)內(nèi)容描述由標(biāo)題(摘要)→癥狀(問題描述)→解決方案3段組成,其中標(biāo)題(摘要)→癥狀(問題描述)是匹配用戶查詢的核心;“軟件包說明”類知識(shí)內(nèi)容描述由摘要→已知問題→關(guān)聯(lián)信息3段信息組成,其中對(duì)軟件包的核心功能描述只有摘要部分,已知問題和關(guān)聯(lián)信息與用戶查詢不匹配;“開發(fā)公告”類知識(shí)的正文是參考信息,取公告標(biāo)題與用戶查詢進(jìn)行匹配。

    基于注意力機(jī)制的語(yǔ)言模型具有強(qiáng)大的深層語(yǔ)義理解能力,本文采用基于Transformers的雙向編碼表示(Bidirectional Encoder Representations from Transformers, BERT)模型評(píng)估用戶查詢和工程知識(shí)元在自然語(yǔ)義層面的相關(guān)性。計(jì)算用戶查詢與工程知識(shí)元CD屬性文本域的相關(guān)性分?jǐn)?shù),評(píng)估每個(gè)文本域和用戶查詢的相關(guān)性,而非工程知識(shí)元整體與用戶查詢間的相關(guān)性。因此,本文的計(jì)算模塊采用孿生網(wǎng)絡(luò)和平均池化設(shè)計(jì),模塊的架構(gòu)如圖6所示。

    2.3.3 基于貝葉斯定理的深度語(yǔ)義推理

    基于知識(shí)超網(wǎng)絡(luò)的語(yǔ)義推理,即搜索起始超邊HEQ相關(guān)性最高的工程知識(shí)元,P(EKU|QAP,QAO,Q)為在QAP產(chǎn)品情境中針對(duì)應(yīng)用對(duì)象QAO,工程知識(shí)元EKU可以滿足用戶查詢Q的概率:

    P(EKU|QAP,QAO,Q)=

    (10)

    式中:

    (11)

    (12)

    (13)

    (14)

    合并式(10)~式(14),最終得到知識(shí)超網(wǎng)絡(luò)中每個(gè)工程知識(shí)元與用戶查詢之間的相關(guān)性評(píng)分

    (15)

    式中S(EKU,Q)為介于[0,1]的值。按分?jǐn)?shù)倒序排列知識(shí)庫(kù)中的工程知識(shí),取得分最大的若干條輸出給工程師。

    3 案例實(shí)驗(yàn)與分析

    3.1 實(shí)驗(yàn)設(shè)計(jì)

    為了驗(yàn)證本文方法的有效性,在Core i7 7700HQ@2.81 GHz,16 G內(nèi)存Windows 10系統(tǒng)下編寫和運(yùn)行實(shí)驗(yàn)用程序。

    3.1.1 數(shù)據(jù)來源與采集方法

    本文從微軟知識(shí)庫(kù)(Microsoft knowledge base)爬取實(shí)驗(yàn)所用原始知識(shí)文檔,過濾無正文知識(shí)內(nèi)容的文檔,按前文所述方法規(guī)范化表征為工程知識(shí)元,存儲(chǔ)在JSON格式的交換文件中,用于本文實(shí)驗(yàn)。實(shí)驗(yàn)前先構(gòu)建原始知識(shí)庫(kù)的知識(shí)超網(wǎng)絡(luò)模型,并以節(jié)點(diǎn)列表+邊列表的形式存儲(chǔ),對(duì)象子網(wǎng)和知識(shí)子網(wǎng)以鄰接表的形式保存。

    為降低計(jì)算耗時(shí),工程師輸入用戶查詢后最多召回100條候選項(xiàng),然后采用本文方法進(jìn)行排序,最后將返回的20條相關(guān)工程知識(shí)推薦列表給工程師。測(cè)試使用的用戶查詢語(yǔ)句是一段自然語(yǔ)言文本,摘取自微軟Q&A和SegmentFault,共計(jì)10條用戶查詢。用戶查詢“基于.Net Framework 3.5的開發(fā)項(xiàng)目,多線程并行模塊調(diào)用的線程池維護(hù)線程未按預(yù)期方式工作”的輸入,解析得到的起始超邊和評(píng)分輸出如表1所示。

    表1 一次檢索對(duì)應(yīng)的輸入(用戶查詢)和輸出(知識(shí)推薦列表)

    續(xù)表1

    表中,“起始超邊”是“用戶查詢”經(jīng)解析后得到的,對(duì)應(yīng)2.3.1節(jié);“文章ID”對(duì)應(yīng)微軟知識(shí)庫(kù)中的KBNumber,通過該ID可以鏈接到富文本的知識(shí)原文;“文章標(biāo)題”是知識(shí)原文的標(biāo)題;“相關(guān)性評(píng)分”是式(15)的計(jì)算結(jié)果。請(qǐng)工程師評(píng)判檢索結(jié)果,其中正確符合用戶查詢需求的知識(shí)用下劃線加粗顯示。

    3.1.2 評(píng)估方法

    與文獻(xiàn)[4,10,12]中的知識(shí)檢索方法對(duì)比檢索結(jié)果的準(zhǔn)確率Precision。文獻(xiàn)[10]選擇Doc2Vec作為語(yǔ)義分析模塊,RM3作為查詢擴(kuò)展模塊,相似度閾值設(shè)為0.6;文獻(xiàn)[12]采用和本文方法相同的方式精調(diào),實(shí)驗(yàn)時(shí)將工程知識(shí)元的CD屬性合并為整段文本送入,準(zhǔn)確率計(jì)算如下:

    (16)

    式中:P@N表示檢索的推薦列表中前N項(xiàng)的準(zhǔn)確率,P是Precision的縮寫;TP為檢索的推薦列表中符合用戶查詢需求的知識(shí)數(shù)量;FP為推薦列表中不符合用戶查詢需求的知識(shí)數(shù)量。

    3.2 實(shí)驗(yàn)結(jié)果

    3.2.1 自然語(yǔ)義相關(guān)性計(jì)算模塊訓(xùn)練測(cè)試

    表2 不同預(yù)訓(xùn)練模型的檢索準(zhǔn)確率

    從實(shí)驗(yàn)結(jié)果來看,兩種mask方式的模型對(duì)整體檢索性能的影響沒有顯著差異。這是由于字mask模型以中文字為單元,分詞時(shí)會(huì)將一個(gè)完整的詞切分為若干子詞,全詞mask模型則以完整的中文詞為單元。而本文使用的軟件開發(fā)領(lǐng)域知識(shí)庫(kù)中,存在許多預(yù)訓(xùn)練模型未登錄的專有詞,全詞mask模型中這些專有詞會(huì)被歧義切分,降低了P@10和P@15的準(zhǔn)確率。而P@20中全詞mask的準(zhǔn)確率略高于字mask,則是因?yàn)槿~mask對(duì)通用中文詞的完整切分,可以發(fā)現(xiàn)更多相關(guān)的長(zhǎng)尾知識(shí)??傮w來看,自然語(yǔ)義相關(guān)性為先驗(yàn)概率,修正概念語(yǔ)義相關(guān)性后,先驗(yàn)概率的決定性降低,同時(shí)受限于預(yù)訓(xùn)練模型對(duì)領(lǐng)域?qū)S性~的收錄,兩種mask方式的模型對(duì)本文知識(shí)檢索性能的影響不顯著。

    3.2.2 與其他方法的對(duì)比

    對(duì)比文獻(xiàn)[4]基于關(guān)鍵詞的方法、文獻(xiàn)[10]基于本體概念推理的方法、文獻(xiàn)[12]基于語(yǔ)言模型的方法和本文方法,記為BM25F,SELM,NDSSM,CNDSSM,實(shí)驗(yàn)使用10組用戶查詢,統(tǒng)計(jì)4種方法輸出的P@10,P@15,P@20,結(jié)果如表3和圖8所示。

    表3 4種語(yǔ)義檢索方法檢索結(jié)果的準(zhǔn)確率

    由對(duì)比試驗(yàn)可見,本文方法的工程知識(shí)檢索準(zhǔn)確率高于其他方法。SELM雖然同樣基于概念知識(shí)進(jìn)行上下文推理的語(yǔ)義檢索,但是只使用了本體的單類概念語(yǔ)義,沒有充分利用半結(jié)構(gòu)化工程知識(shí)中復(fù)合概念語(yǔ)義信息和文本的自然語(yǔ)義信息,因此檢索準(zhǔn)確率低于CNDSSM方法。NDSSM是基于語(yǔ)言模型的交互式深度語(yǔ)義搜索方法,所用模型從自然表達(dá)的上下文判斷兩段文本的相關(guān)性,并未考慮工程知識(shí)產(chǎn)生上下文對(duì)相關(guān)性的影響,因此準(zhǔn)確率低于CNDSSM方法。在取前10個(gè)最相關(guān)工程知識(shí)時(shí)(P@10),BM25F方法的準(zhǔn)確率僅有0.25,CNDSSM的領(lǐng)先優(yōu)勢(shì)較P@20時(shí)更為顯著,這是由于BM25F基于關(guān)鍵詞進(jìn)行匹配,受信息密度變化的影響,不能公平地計(jì)算不同類型知識(shí)與用戶查詢語(yǔ)句的相關(guān)性,在返回的推薦列表前部給出了更多長(zhǎng)文本的工程知識(shí)。而CNDSSM在定制多文本域自然語(yǔ)義計(jì)算模塊、解決長(zhǎng)度問題的同時(shí),利用工程知識(shí)元中的實(shí)體信息計(jì)算概念語(yǔ)義,提高了語(yǔ)義相關(guān)性評(píng)估的準(zhǔn)確性??梢钥闯?,采用本文提出的CNDSSM方法對(duì)軟件開發(fā)中的工程知識(shí)進(jìn)行檢索時(shí)效果更好。

    4 結(jié)束語(yǔ)

    針對(duì)傳統(tǒng)檢索方法的不足,本文面向工業(yè)軟件開發(fā)提出一種基于超網(wǎng)絡(luò)模型的知識(shí)檢索方法。該方法針對(duì)代碼模塊重用的現(xiàn)象,使用產(chǎn)品樹表示語(yǔ)義關(guān)聯(lián);基于已知的概念知識(shí)抽取屬性信息解決屬性缺失的問題,并將多類型的工程知識(shí)規(guī)范化表征為適合機(jī)器處理的工程知識(shí)元;通過知識(shí)超網(wǎng)絡(luò)表示復(fù)合的語(yǔ)義關(guān)聯(lián),將工程知識(shí)的產(chǎn)品情境、應(yīng)用對(duì)象、知識(shí)內(nèi)容3種信息整合到統(tǒng)一框架下,采用貝葉斯方法計(jì)算用戶查詢和工程知識(shí)的語(yǔ)義相關(guān)性。本文有兩個(gè)特點(diǎn):①針對(duì)半結(jié)構(gòu)化工程知識(shí)的特點(diǎn),設(shè)計(jì)了一種多信息域聯(lián)合的實(shí)體識(shí)別方法,適用于工程知識(shí)的規(guī)范化表征;②基于預(yù)訓(xùn)練語(yǔ)言模型,設(shè)計(jì)了一種考慮知識(shí)類型的自然語(yǔ)義相關(guān)性計(jì)算模塊,以在相關(guān)性推理中融合概念語(yǔ)義和自然語(yǔ)義,適用于工程知識(shí)庫(kù)的檢索。實(shí)驗(yàn)結(jié)果表明,本文方法有效利用了軟件開發(fā)工程知識(shí)的深層語(yǔ)義,其準(zhǔn)確率較其他語(yǔ)義檢索方法提高了至少12.5%。

    因?yàn)楸疚姆椒▽?duì)不同類型知識(shí)的識(shí)別和處理還需人工干預(yù),所以將其應(yīng)用于載體類型復(fù)雜的異構(gòu)知識(shí)庫(kù)時(shí)難度較大。下一步研究將考慮更多的知識(shí)類型,從識(shí)別異構(gòu)工程知識(shí)的通用性出發(fā),捕獲多維語(yǔ)義信息,擴(kuò)展方法在不同工程場(chǎng)景下的應(yīng)用。

    猜你喜歡
    子網(wǎng)知識(shí)庫(kù)結(jié)構(gòu)化
    一種簡(jiǎn)單子網(wǎng)劃分方法及教學(xué)案例*
    促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
    結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
    基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    子網(wǎng)劃分問題研究及應(yīng)用
    子網(wǎng)劃分的簡(jiǎn)易方法
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
    基于安全協(xié)議的虛擬專用子網(wǎng)研究
    河南科技(2014年16期)2014-02-27 14:13:04
    青铜峡市| 庆安县| 望江县| 绥中县| 庆元县| 姜堰市| 鄱阳县| 贵州省| 错那县| 丘北县| 荔浦县| 朔州市| 常德市| 黔西| 兰溪市| 台东县| 西吉县| 微山县| 青铜峡市| 阜城县| 祥云县| 德钦县| 读书| 宁化县| 石楼县| 宜城市| 玉树县| 兴隆县| 阿拉善左旗| 武夷山市| 枞阳县| 西华县| 石楼县| 阜宁县| 陵水| 临海市| 秦安县| 佳木斯市| 东山县| 禹城市| 建水县|