• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      高速列車零部件知識圖譜的智能問答知識子圖匹配研究

      2024-01-08 04:16:30曾文驅(qū)馬自力王淑營
      鐵路計算機應(yīng)用 2023年12期
      關(guān)鍵詞:子圖圖譜情景

      曾文驅(qū),馬自力,王淑營

      (1.西南交通大學(xué) 機械工程學(xué)院,成都 610031;2.廣州地鐵設(shè)計研究院股份有限公司,廣州 130062;3.西南交通大學(xué) 計算機與人工智能學(xué)院,成都 611756)

      知識圖譜的智能問答中最關(guān)鍵的一步是識別用戶的問句意圖,并根據(jù)意圖進(jìn)行知識圖譜中知識的定位。但高速列車零部件知識存在海量、復(fù)雜及多層級性的特點,高速列車零部件知識圖譜智能問答系統(tǒng)(簡稱:問答系統(tǒng))如果不經(jīng)由知識的篩選,直接由意圖識別模型進(jìn)行知識定位,會增加檢索的復(fù)雜度,影響知識圖譜智能問答的效果,所以,應(yīng)先通過知識子圖匹配模型進(jìn)行知識的篩選。知識子圖就是知識圖譜中與問句相關(guān)的部分知識所構(gòu)成的子圖譜。高速列車零部件知識依據(jù)情景可被劃分為不同知識域,因此,可設(shè)定知識子圖匹配的目標(biāo)是將用戶問句定位到所屬知識域,并將該知識域所包含的知識作為用戶問句相關(guān)的知識子圖,剔除其他知識域的無關(guān)知識。依據(jù)該思路,可采用分類模型進(jìn)行用戶問句所屬知識域的劃分,而分類模型的改進(jìn)則需要依靠情景感知,并基于用戶當(dāng)前所處環(huán)境下的情景信息。

      國內(nèi)外研究人員針對如何利用情景感知改進(jìn)分類模型,從而實現(xiàn)知識子圖匹配,展開了眾多研究。情景感知研究的核心課題是情景模型的構(gòu)建。Sheng等人[1]提出了一種面向情景感知的Web 服務(wù)的建模語言ContextUML;GuermaH 等人[2]探索了一種以本體為核心的情景感知服務(wù)模式,聚焦于情景元模型的構(gòu)建與推理過程;SOCAM[3]是一種基于情境感知技術(shù)的系統(tǒng)架構(gòu),可有效幫助場景的捕獲、識別、理解及使用功能;周維琴等人[4]改進(jìn)了感知機制,依據(jù)AutoCAD 的特點研究了一種實用性更好的感知模型。目前,應(yīng)用較為廣泛的文本分類模型有Text-CNN 模型[5]、Bilstm-CRF 模型[6]、BERT(Bidirectional Encoder Representation from Transformers)模型[7],三者中效果最好的是BERT 模型,所以選用該模型作為本文的分類模型,但分類模型如果不結(jié)合領(lǐng)域情景信息,其效果在知識子圖匹配這樣的領(lǐng)域任務(wù)中會大打折扣。

      因此,本文將情景感知與分類模型相結(jié)合,構(gòu)建高速列車零部件知識圖譜智能問答知識子圖匹配模型(簡稱:知識子圖匹配模型),將問句的情景因素轉(zhuǎn)化成向量,輸入到BERT 模型內(nèi),從而完成知識子圖匹配。

      1 高速列車零部件知識圖譜

      高速列車零部件知識圖譜構(gòu)建流程包括本體構(gòu)建、知識抽取、知識融合及知識存儲等。即先構(gòu)建高速列車零部件知識本體,再整理數(shù)據(jù)集,從這些數(shù)據(jù)集中抽取知識,并將其按知識本體組裝成知識三元組后,存進(jìn)Neo4j 圖形數(shù)據(jù)庫,從而得到高速列車零部件知識圖譜。本文抽取的數(shù)據(jù)集包含14282條數(shù)據(jù),其中,7728 條高速列車零部件運行維護(hù)(簡稱:運維)數(shù)據(jù)、3991 條高速列車零部件設(shè)計需求數(shù)據(jù)、2563 條高速列車零部件設(shè)計參數(shù)數(shù)據(jù)。最終構(gòu)成知識圖譜共包含節(jié)點19781 個、關(guān)系15003 條、知識三元組 18835 個。高速列車零部件知識圖譜的知識本體結(jié)構(gòu)如圖1 所示。

      圖1 高速列車零部件知識圖譜知識本體結(jié)構(gòu)

      由圖1 可看出,本文構(gòu)建的高速列車零部件知識圖譜主要包含高速列車零部件的運維域、設(shè)計需求域和設(shè)計參數(shù)域等3 個知識域。由該知識圖譜的結(jié)構(gòu)可看出,高速列車零部件的知識存在海量性、多層級及復(fù)雜性的特點,每個域內(nèi)的知識依然存在階段性特征。因此,本文以高速列車零部件知識圖譜的不同知識域為依據(jù),對用戶問句進(jìn)行分類,將其定位到正確知識域,剔除域外的無用知識,實現(xiàn)從知識圖譜中匹配到符合問句語義的知識子圖。

      2 知識子圖匹配模型

      本文利用知識子圖匹配模型進(jìn)行高速列車零部件知識圖譜的知識篩選。該模型包含情景特征提取模塊和分類模塊2 部分,模型架構(gòu)如圖2 所示。情景特征提取模塊基于情景模型,分類模塊基于BERT模型。BERT 模型包含用戶問句向量提取、向量融合及模型訓(xùn)練等3 個步驟,其中,向量提取步驟包括了詞向量的提取和情景向量的提取。完成向量提取后,將2 者融合后的問句向量輸入到BERT 模型內(nèi),進(jìn)行問句所屬知識域的劃分。

      圖2 知識子圖匹配模型架構(gòu)

      2.1 情景特征的提取模塊

      2.1.1 高速列車零部件知識情景模型構(gòu)建

      高速列車零部件知識情景模型(簡稱:情景模型)的構(gòu)建以零部件的相關(guān)任務(wù)為線索,通過對高速列車零部件情景的抽象化處理,構(gòu)建多維層次的情境模型,可表達(dá)為

      其中,PDC為情景模型,CiEj表示第i個零部件的第j個情境要素。

      為適應(yīng)情景感知需要,本文將情景因素提煉為任務(wù)、零部件、領(lǐng)域、人員4 項,情景模型架構(gòu)如圖3 所示。

      圖3 高速列車零部件知識情景模型架構(gòu)

      其中,任務(wù)是指用戶在運維研發(fā)活動中所處的活動階段,以需求域人員為例,其任務(wù)階段包含需求采集、需求映射等;零部件指當(dāng)前人員所處理的具體零部件,包含零部件名稱及所屬結(jié)構(gòu);領(lǐng)域和人員指當(dāng)前的任務(wù)域,在本文中被細(xì)分為3 類,即設(shè)計需求、設(shè)計參數(shù)及運維。

      2.1.2 情景因素提取

      建立情景模型后,需提取用戶問句中的情景因素,并將其轉(zhuǎn)化為相應(yīng)的情景向量。

      (1)任務(wù)

      任務(wù)情景因素屬于用戶問句中不可見的成分,即無法直接從用戶問句中提取。因此,本文參考該用戶在問答系統(tǒng)中的歷史任務(wù)。例如,若該用戶在問答系統(tǒng)中的上一個任務(wù)為需求采集任務(wù),則當(dāng)前任務(wù)很可能為需求采集的下一階段任務(wù),即需求映射任務(wù);如果無歷史任務(wù),則選取符合用戶身份的第1 階段任務(wù),以設(shè)計需求人員為例,其第1 階段需求采集任務(wù)即為該用戶的當(dāng)前任務(wù)。

      (2)零部件

      零部件情景因素指用戶當(dāng)前任務(wù)所處理的具體零部件,包括零部件名稱及其所屬結(jié)構(gòu)。本文采用詞典匹配的方式進(jìn)行此類情景因素的提取,因此,需要建立高速列車零部件實體及其所屬結(jié)構(gòu)詞典。本文采用從知識圖譜中導(dǎo)出所有零部件實體的方式建立實體詞典,根據(jù)相關(guān)規(guī)范文檔,手動建立每個實體的所屬結(jié)構(gòu),從而建立結(jié)構(gòu)詞典。高速列車零部件實體名稱及其所屬結(jié)構(gòu)詞典(部分)如表1 所示。

      表1 高速列車零部件實體及其所屬結(jié)構(gòu)詞典(部分)示意

      (3)人員及領(lǐng)域

      人員和領(lǐng)域情景因素都屬于用戶問句中的不可見成分,但人員情景因素在用戶登錄問答系統(tǒng)時便會被記錄,所以人員情景因素可根據(jù)問答系統(tǒng)記錄的用戶身份進(jìn)行提取。而領(lǐng)域與用戶身份具有密切聯(lián)系,假設(shè)一位用戶是零部件的運維人員,則其進(jìn)行的任務(wù)極大概率屬于運維領(lǐng)域,所以可認(rèn)定為運維領(lǐng)域任務(wù)。

      2.1.3 情景因素向量轉(zhuǎn)化

      (1)任務(wù)

      本文采用分詞模型中已進(jìn)行預(yù)訓(xùn)練的詞向量對情景因素進(jìn)行向量轉(zhuǎn)化,該方式能抓取到更多的語義特征,且可與BERT 模型的句向量嵌入相契合,任務(wù)情景向量公式為

      (2)零部件

      由于零部件名稱向量和所屬結(jié)構(gòu)向量維度相同,且其代表了零部件的結(jié)構(gòu)信息,所以將兩向量進(jìn)行加權(quán)平均后便得到了零部件情景向量,公式為

      式中,Vectorp為零部件名稱向量;VectorS為零部件所屬結(jié)構(gòu)向量。

      (3)人員及領(lǐng)域

      人員及領(lǐng)域情景因素均被分為運維、設(shè)計需求及設(shè)計參數(shù)3 類。較小的類別數(shù)及與問句間較小的語義聯(lián)系使得可用詞袋模型對該情景因素進(jìn)行轉(zhuǎn)化。將原始向量設(shè)為[a,b,c],其中,a為運維的向量位、b為設(shè)計需求的向量位、c為設(shè)計參數(shù)的向量位,根據(jù)人員及領(lǐng)域情景因素的值,將相應(yīng)向量位置設(shè)為1,其余位置設(shè)為0。

      2.2 分類模塊

      2.2.1 文本向量的提取

      文本向量提取的形式化描述為:給定一句文本S,得出S的文本向量序列Vectors={V1,V2,V3,···,VN},在本文中,向量的提取包含情景向量和句向量2 部分,因此,N的大小由情景向量的長度和問句長度共同決定。此小節(jié)主要闡述問句的句向量提取方式。

      BERT 模型采取字符級嵌入的方式對用戶問句文本的句向量進(jìn)行提取,將用戶問句的每個字符的字向量加權(quán)平均就得到了句向量。以運維域問句“轉(zhuǎn)向架有哪些故障”為例,其句向量的提取方式如圖4 所示。

      圖4 句向量提取

      2.2.2 向量的融合

      得到用戶問句的情景向量和句向量后,需要將兩者融合,形成用戶問句的總特征向量。因為句向量和情景向量是相互獨立的,故本文采用向量拼接的方式實現(xiàn)句向量與情景向量的融合。以高速列車轉(zhuǎn)向架需求設(shè)計問句“聯(lián)軸節(jié)的使用壽命需求有哪些具體指標(biāo)?”為例,假設(shè)其句向量為[0,0,1],其情景向量為[X1,X2,0,1,0,0,1,0],則其總特征向量為[0,0,1,X1,X2,0,1,0,0,1,0]。其中,X1、X2 分別代表用戶問句的任務(wù)情景向量和產(chǎn)品情景向量。

      2.2.3 BERT 模型數(shù)據(jù)集及預(yù)測

      (1)數(shù)據(jù)集

      BERT 模型的訓(xùn)練需要有相應(yīng)的數(shù)據(jù)集作支撐。需要構(gòu)建相應(yīng)知識域類別所對應(yīng)的訓(xùn)練問句。數(shù)據(jù)集構(gòu)建方式為人工編寫對應(yīng)知識域類別下的問句,共編寫4897 條問句,其中,非領(lǐng)域類別1021 條、運維域類別1472 條、設(shè)計參數(shù)域類別1310 條、設(shè)計需求域類別1094 條,部分訓(xùn)練數(shù)據(jù)的形式如表2 所示。

      表2 訓(xùn)練數(shù)據(jù)(部分)

      將訓(xùn)練數(shù)據(jù)集進(jìn)行向量轉(zhuǎn)化后,輸入到BERT模型內(nèi)進(jìn)行訓(xùn)練,完成模型的構(gòu)建。

      (2)模型預(yù)測

      BERT 模型訓(xùn)練完成后,可利用其進(jìn)行問句所屬知識域的預(yù)測。BERT 模型依據(jù)問句的特征向量,計算并得出每個知識域類別在此特征向量下的權(quán)重,權(quán)重最高的知識域類別即為該用戶問句所對應(yīng)的知識域類別。以高速列車運維域問句“轉(zhuǎn)向架有哪些故障”為例,BERT 模型依據(jù)其特征向量,計算出各個知識域類別的權(quán)重分別為:非領(lǐng)域問句0.03、運維域問句0.88、設(shè)計需求域問句0.06、設(shè)計參數(shù)域問句0.03,因此,將該問句劃分為運維域問句。問答系統(tǒng)可依據(jù)其知識域類別將“轉(zhuǎn)向架”相關(guān)的運維域知識提交到下一板塊進(jìn)行后續(xù)處理,從而剔除與運維域無關(guān)的知識(如設(shè)計參數(shù)域及設(shè)計需求域的知識),避免在進(jìn)行具體知識定位時知識數(shù)量過大的情況。

      3 實驗設(shè)置及結(jié)果分析

      3.1 評價指標(biāo)和對比模型選擇

      知識子圖匹配問題的本質(zhì)是文本多分類問題。常見評價指標(biāo)為準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 值(F1-score)。本文采取的評價指標(biāo)是在上述指標(biāo)的基礎(chǔ)上形成的宏準(zhǔn)確率、宏召回率和宏F1 值。宏指標(biāo)是取所有類別的統(tǒng)一評價指標(biāo)的算數(shù)平均值。

      為驗證模型的有效性,本文測試了單BERT 模型,以及其他研究者提出的Kg-BERT 和K-BERT 模型對高速列車零部件知識問句的知識域分類效果。

      3.2 實驗設(shè)計與結(jié)果評估

      本文的實驗步驟為:(1)使用本文的向量轉(zhuǎn)化策略將數(shù)據(jù)集中的文本向量化;(2)將數(shù)據(jù)集的85%作為模型訓(xùn)練的訓(xùn)練集,15%作為測試集;(3)使用本文模型及單BERT 模型、Kg-BERT 模型、K-BERT 模型等 4 種多分類模型基于數(shù)據(jù)集進(jìn)行訓(xùn)練;(4)將測試數(shù)據(jù)輸入到訓(xùn)練好的模型內(nèi)進(jìn)行分類效果比對。

      本文模型與其他模型的分類效果比對如表3 所示。由表3 可知,本文模型的評價指標(biāo)優(yōu)于其余模型,在執(zhí)行高速列車零部件知識圖譜智能問答知識子圖匹配的任務(wù)上具有先進(jìn)性。

      表3 4 種模型實驗結(jié)果對比

      4 結(jié)束語

      本文提出了一種高速列車零部件知識圖譜智能問答的知識子圖匹配模型。該模型通過情景模型進(jìn)行情景特征提取及向量轉(zhuǎn)換;再將詞向量和情景向量相融合輸入到BERT 模型中,進(jìn)行用戶問句的所屬知識域分類,分類結(jié)果即為知識子圖的匹配結(jié)果。經(jīng)試驗證明,本文模型能夠滿足高速列車零部件知識圖譜智能問答知識子圖匹配的需求,且模型分類性能要優(yōu)于未融合情景向量的其他通用分類模型,具有參考價值。

      猜你喜歡
      子圖圖譜情景
      情景交際
      繪一張成長圖譜
      石化企業(yè)情景構(gòu)建的應(yīng)用
      臨界完全圖Ramsey數(shù)
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      樓梯間 要小心
      基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
      主動對接你思維的知識圖譜
      把美留在心里
      不含2K1+K2和C4作為導(dǎo)出子圖的圖的色數(shù)
      镇沅| 鞍山市| 安康市| 柳林县| 高州市| 汝城县| 娱乐| 无极县| 梅河口市| 奉贤区| 罗山县| 老河口市| 东方市| 陇西县| 且末县| 镶黄旗| 方正县| 全南县| 日照市| 邓州市| 泰安市| 淮北市| 漳平市| 文水县| 南部县| 保靖县| 兰考县| 开原市| 黔西| 南丹县| 绍兴市| 香港| 磴口县| 克拉玛依市| 华阴市| 南昌县| 天气| 长垣县| 阿荣旗| 兴化市| 三穗县|