• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于信息匹配方法的中文知識(shí)庫(kù)問(wèn)答系統(tǒng)

      2022-03-16 03:36:36宋井寬唐向紅
      關(guān)鍵詞:分詞知識(shí)庫(kù)詞典

      彭 懷,宋井寬,唐向紅

      (1.貴州大學(xué),貴州 貴陽(yáng) 550025;2.電子科技大學(xué),四川 成都 610054)

      0 引 言

      知識(shí)庫(kù)問(wèn)答任務(wù)是自然語(yǔ)言處理學(xué)術(shù)界和工業(yè)界的熱門(mén)研究方向。知識(shí)庫(kù)是知識(shí)表現(xiàn)和存儲(chǔ)的載體,目前知識(shí)庫(kù)主要通過(guò)三元組表示(頭實(shí)體1,關(guān)系,尾實(shí)體)實(shí)體與實(shí)體之間可能存在的語(yǔ)義關(guān)系,例如:博爾赫斯是阿根廷人,可以表示為:(博爾赫斯,出生地,阿根廷)。知識(shí)庫(kù)問(wèn)答任務(wù)是識(shí)別自然語(yǔ)言處理問(wèn)題中所包含的實(shí)體、實(shí)體關(guān)系、實(shí)體類(lèi)型、實(shí)體組合后,通過(guò)知識(shí)庫(kù)查詢語(yǔ)言到知識(shí)庫(kù)中查詢答案。

      目前在英文數(shù)據(jù)集上主要有兩類(lèi)知識(shí)庫(kù)問(wèn)答方法,第一種是語(yǔ)義解析方法,該方法是直接通過(guò)編寫(xiě)規(guī)則庫(kù)、輔助詞典、人工推理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)手段從問(wèn)句中識(shí)別實(shí)體、實(shí)體關(guān)系、實(shí)體組合。Wang等人使用序列標(biāo)注模型識(shí)別問(wèn)題中的實(shí)體,使用序列到序列模型預(yù)測(cè)問(wèn)題中的關(guān)系序列,并使用答案驗(yàn)證機(jī)制和循環(huán)訓(xùn)練方式提升模型的性能,在英文多關(guān)系問(wèn)題數(shù)據(jù)集WebQuestion上達(dá)到了先進(jìn)水平。Hu等人提出了一種狀態(tài)轉(zhuǎn)移的框架,設(shè)計(jì)了四種狀態(tài)轉(zhuǎn)移動(dòng)作和限制條件,結(jié)合多通道卷積神經(jīng)網(wǎng)絡(luò)等多種方法,在英文復(fù)雜問(wèn)題數(shù)據(jù)集ComplexQuestion上達(dá)到了最先進(jìn)水平?;谡Z(yǔ)義解析的方法通常使用分類(lèi)模型進(jìn)行關(guān)系的預(yù)測(cè),面臨著未登錄關(guān)系的問(wèn)題,即訓(xùn)練集未出現(xiàn)的關(guān)系難以被預(yù)測(cè)出來(lái)。在中文數(shù)據(jù)上通常包含幾千種以上的關(guān)系,語(yǔ)義解析方法在關(guān)系數(shù)量非常大的情況下效果往往都不太好,使得語(yǔ)義解析方法在應(yīng)用于中文知識(shí)庫(kù)問(wèn)答(Chinese knowledge based question answering,CKBQA)上受到了極大限制。第二種是信息檢索的方法,首先通過(guò)實(shí)體識(shí)別技術(shù)、實(shí)體詞典等其他方式識(shí)別問(wèn)句中的候選實(shí)體集合,之后根據(jù)預(yù)定義的邏輯形式,從知識(shí)庫(kù)中查詢候選實(shí)體在知識(shí)庫(kù)中的所有一跳或多跳關(guān)系,從而得到候選查詢路徑集合。最后通過(guò)計(jì)算候選查詢路徑與問(wèn)句的相似度獲得匹配度最高的候選查詢路徑,到知識(shí)庫(kù)中查詢答案。Yu等人提出了一種增強(qiáng)關(guān)系匹配的方法,使用二層BILSTM與候選關(guān)系進(jìn)行多層次的匹配,并使用關(guān)系匹配對(duì)實(shí)體鏈接結(jié)果進(jìn)行重排序,在英文多關(guān)系問(wèn)題數(shù)據(jù)集上取得了最先進(jìn)水平。目前在中文領(lǐng)域知識(shí)庫(kù)問(wèn)答方法主要是基于信息檢索和向量建模兩種方法進(jìn)行改進(jìn)。如Lai等人使用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別問(wèn)句中語(yǔ)義特征,并通過(guò)答案和問(wèn)句匹配度確定結(jié)果;周博通等人提出一種方式,首先進(jìn)行命名實(shí)體識(shí)別,之后通過(guò)基于注意力機(jī)制的雙向LSTM進(jìn)行屬性映射,最后基于前兩步的結(jié)果從知識(shí)庫(kù)中選擇答案;張芳容等提出一種融合人工規(guī)則的關(guān)系抽取方法,提高了關(guān)系識(shí)別準(zhǔn)確率;段江麗等提出基于依賴結(jié)構(gòu)的語(yǔ)義關(guān)系識(shí)別方法,通過(guò)依賴結(jié)構(gòu)從問(wèn)句中挖掘有價(jià)值的語(yǔ)義信息。

      在CKBQA任務(wù)上,Yang等人提出了一種聯(lián)合抽取實(shí)體的關(guān)系的流水線方法,在CCKS2018 COQA任務(wù)上取得了第二名的成績(jī)。參考流水線方法,針對(duì)CKBQA任務(wù),該文提出一種信息匹配的方法:先進(jìn)行實(shí)體和屬性值識(shí)別,再進(jìn)行實(shí)體鏈接,進(jìn)而從知識(shí)庫(kù)中抽取候選查詢路徑,使用文本匹配模型選擇與問(wèn)題最相似的候選路徑,最后使用實(shí)體拼接技術(shù)探索多實(shí)體情況的可能結(jié)果。該方法在CCKS2019 CKBQA測(cè)試集上的F值達(dá)到了75.6%。

      1 相關(guān)工作

      1.1 整體流程

      該文使用的信息匹配方法的主要流程:多種輔助詞典構(gòu)建、實(shí)體與實(shí)體屬性值識(shí)別、 實(shí)體鏈接與篩選、候選查詢路徑生成與文本匹配、實(shí)體拼接與答案檢索。模型流程:(1)通過(guò)CCKS官方提供的數(shù)據(jù)和搜狗詞典文件構(gòu)造實(shí)體分詞詞典、實(shí)體鏈接詞典、實(shí)體詞頻詞典、實(shí)體屬性詞典輔助后續(xù)流程工作;(2)使用命名實(shí)體識(shí)別技術(shù)識(shí)別出問(wèn)句中的實(shí)體、使用知識(shí)庫(kù)實(shí)體詞表識(shí)別問(wèn)句中的實(shí)體,將前面識(shí)別出的實(shí)體放入候選實(shí)體列表,之后通過(guò)屬性識(shí)別得到最終的候選實(shí)體列表;(3)通過(guò)分析實(shí)體、知識(shí)庫(kù)實(shí)體的特點(diǎn)構(gòu)建特征值,使用機(jī)器學(xué)習(xí)的方式訓(xùn)練模型將實(shí)體鏈接到知識(shí)庫(kù)中的實(shí)體,從而獲得候選實(shí)體列表。該文使用邏輯回歸算法訓(xùn)練實(shí)體鏈接模型;(4) 通過(guò)知識(shí)庫(kù)查詢語(yǔ)句查詢候選實(shí)體在知識(shí)庫(kù)中的一度,二度關(guān)系獲取候選查詢路徑列表,之后通過(guò)訓(xùn)練好的文本匹配模型預(yù)測(cè)候選路徑和問(wèn)句的匹配度獲得前

      N

      個(gè)候選查詢路徑;(5)使用實(shí)體拼接方式生成多實(shí)體候選查詢路徑,最后通過(guò)候選查詢路徑和問(wèn)句的字符重合度得到重合度最高的候選查詢路徑,查詢知識(shí)庫(kù)獲得答案。流程如圖1 所示。

      圖1 問(wèn)答流程

      1.2 技術(shù)介紹

      BERT是谷歌在2018年提出的一個(gè)自然語(yǔ)言處理預(yù)訓(xùn)練模型,在很多NLP任務(wù)中都取得了很好的效果,例如:命名實(shí)體識(shí)別、閱讀理解、文本匹配、文本分類(lèi)等。BERT內(nèi)部是使用雙向Transformer網(wǎng)絡(luò),是真正意義上第一個(gè)可以雙向提取特征的模型,如圖2所示。Transformer是谷歌在2017年提出的一種網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)Transformer模塊由編碼器和解碼器構(gòu)成,它是基于自注意力機(jī)制的,與RNN不同的是,它采用并行結(jié)構(gòu)可以加快計(jì)算,其輸入由詞向量、位置向量、注意力權(quán)重向量構(gòu)成。因此,它既有CNN可以并行計(jì)算的優(yōu)點(diǎn),同時(shí)也可以捕獲詞在句子中的位置信息,還可以通過(guò)自注意機(jī)制調(diào)整詞對(duì)句子結(jié)果的權(quán)重。

      圖2 BERT核心結(jié)構(gòu)

      LSTM模型是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型的改進(jìn),也是深度學(xué)習(xí)方法的卓越代表之一。RNN模型在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型上,為神經(jīng)網(wǎng)絡(luò)中各層的隱層單元增加時(shí)間序列特征,之后通過(guò)隱藏層權(quán)重將上一個(gè)時(shí)間點(diǎn)的神經(jīng)單元的值傳遞至當(dāng)前的神經(jīng)單元,從而使神經(jīng)網(wǎng)絡(luò)具備了記憶功能。LSTM模型是在RNN模型的基礎(chǔ)上進(jìn)行了改進(jìn),RNN模型存在時(shí)間序列比較長(zhǎng)的時(shí)候,當(dāng)前神經(jīng)元很難捕獲之前較遠(yuǎn)的時(shí)間序列信息。為解決RNN的缺陷,LSTM在RNN每層中增加了記憶單元,同時(shí)LSTM還增加了門(mén)控機(jī)制,在隱藏層中各單元傳送信息是通過(guò)幾個(gè)可控門(mén)來(lái)控制每層信息輸入、遺忘、傳遞的比例。從而使RNN模型同時(shí)具備長(zhǎng)期存儲(chǔ)信息和控制信息輸入輸出的功能。

      2 模型和方法

      2.1 輔助詞典構(gòu)建

      該方法在流程中需要多個(gè)詞典用于分詞、計(jì)算詞頻等,均來(lái)自于PKUBase知識(shí)庫(kù)或外部資源,詞典介紹如下:

      (1)實(shí)體鏈接詞典:此詞典是問(wèn)句中的實(shí)體到知識(shí)庫(kù)實(shí)體的映射,由CCKS2019 CKBQA主辦方提供;

      (2)分詞詞典:分詞詞典參照Yang等人的方法,通過(guò)實(shí)體鏈接詞典中的所有實(shí)體,以及知識(shí)庫(kù)中所有實(shí)體的主干成分構(gòu)建。例如<紅樓夢(mèng)_(中國(guó)古典長(zhǎng)篇小說(shuō)四大名著之一)>這個(gè)實(shí)體,只保留下劃線之前的部分“紅樓夢(mèng)”;

      (3)詞頻詞典:該詞典用于計(jì)算實(shí)體和屬性值的詞頻特征,使用搜狗開(kāi)源的中文詞頻詞典構(gòu)建;

      (4)屬性詞典:該詞典用于識(shí)別屬性值的模糊匹配,使用知識(shí)庫(kù)中所有屬性值,構(gòu)建字到詞的映射。

      2.2 實(shí)體識(shí)別和屬性值識(shí)別

      2.2.1 實(shí)體識(shí)別

      該文采用詞典分詞和神經(jīng)網(wǎng)絡(luò)模型結(jié)合進(jìn)行實(shí)體識(shí)別。首先將分詞詞典導(dǎo)入分詞工具,對(duì)自然語(yǔ)言問(wèn)題進(jìn)行分詞,如果問(wèn)句中的分詞在詞表中就將分詞加入候選實(shí)體中,中文分詞可能會(huì)存在一定錯(cuò)誤,并且還存在嵌套實(shí)體問(wèn)題,這種情況下只會(huì)保留最長(zhǎng)的實(shí)體,比如問(wèn)句“華為的董事長(zhǎng)是誰(shuí)?”,正確的分詞結(jié)果應(yīng)當(dāng)為“華為|的|董事長(zhǎng)|是|誰(shuí)|?”,但詞典中存在”華為的董事長(zhǎng)”這種更長(zhǎng)的實(shí)體,所以實(shí)際的分詞結(jié)果為“華為的董事長(zhǎng)|是|誰(shuí)|?”,進(jìn)而得到錯(cuò)誤的實(shí)體。針對(duì)這樣的問(wèn)題,該文基于預(yù)訓(xùn)練語(yǔ)言模型BERT,將訓(xùn)練集的標(biāo)注實(shí)體還原為問(wèn)句實(shí)體,訓(xùn)練一個(gè)命名實(shí)體識(shí)別模型,之后通過(guò)模型識(shí)別問(wèn)句中的實(shí)體,將識(shí)別出的實(shí)體加入候選實(shí)體列表中。實(shí)體識(shí)別模型具體流程:(1)對(duì)問(wèn)句進(jìn)行實(shí)體和非實(shí)體標(biāo)注,目前標(biāo)注主要有IO、BIO、BIEO、BIOES這幾種方式,通過(guò)測(cè)試BIO標(biāo)注在數(shù)據(jù)集中效果最好,因此,該文采用BIO標(biāo)注。B表示實(shí)體的頭部位置,I表示實(shí)體非頭部位置,O表示問(wèn)句中非實(shí)體部分。(2)使用BERT-LSTM-CRF模型進(jìn)行命名實(shí)體識(shí)別,可分為特征提取和實(shí)體標(biāo)注兩部分。在特征提取部分中,長(zhǎng)度為

      m

      的輸入問(wèn)句被分割成詞的序列{

      w

      ,

      w

      ,…,

      w

      }送入BERT網(wǎng)絡(luò)中,經(jīng)分詞及詞嵌后得到

      m

      個(gè)詞向量。將詞向量經(jīng)過(guò)

      N

      層的Transformer模塊進(jìn)行上下特征提取后,得到一個(gè)[句子長(zhǎng)度,隱藏層大小]的特征矩陣,即完成了問(wèn)句的特征提取。實(shí)體識(shí)別部分該文采用BiLSTM-CRF模型,首先將特征矩陣作為輸入放入BI-LSTM層,通過(guò)雙向LSTM層進(jìn)行前后向語(yǔ)義特征提取,之后輸出帶語(yǔ)義信息的特征向量,此時(shí)特征向量隱藏層包含前向和后向LSTM層信息。將特征向量依次經(jīng)過(guò)dropout層、全連接層、線性層之后獲得的特征向量作為CRF層的輸入。該文采用BIO標(biāo)注,實(shí)體識(shí)別本質(zhì)上是一個(gè)三分類(lèi)問(wèn)題,B、I、O代表詞的三種類(lèi)型。在CRF中,是通過(guò)維比特算法算出每個(gè)詞的最大概率,從而識(shí)別詞的類(lèi)型。CRF還可約束詞的類(lèi)型,例如B后面只能接I、不能接O。

      2.2.2 屬性值識(shí)別

      問(wèn)題中包含的屬性值規(guī)范性較低,可能是很長(zhǎng)的字序列,也可能沒(méi)辦法直接與知識(shí)庫(kù)實(shí)體進(jìn)行對(duì)應(yīng),僅通過(guò)分詞詞典會(huì)忽略一些實(shí)體。因此針對(duì)大部分實(shí)體的屬性值,使用特殊方式進(jìn)行識(shí)別:

      (1)特殊數(shù)字、別名、簡(jiǎn)稱、書(shū)名等,構(gòu)建規(guī)則庫(kù),判斷匹配結(jié)果是否在知識(shí)庫(kù)的屬性值中,在則加入候選屬性值;

      (2)時(shí)間屬性:構(gòu)建正則表達(dá)式,將其還原為知識(shí)庫(kù)中規(guī)范的時(shí)間表達(dá),如“2009年6月”還原為“2009.06”,加入候選屬性值;

      (3)模糊匹配屬性:得到問(wèn)題中每個(gè)字對(duì)應(yīng)的所有屬性值,統(tǒng)計(jì)每個(gè)屬性值的次數(shù),選擇top3的屬性加入候選屬性值。

      2.3 實(shí)體鏈接及篩選

      對(duì)于2.2部分得到候選實(shí)體列表中的每個(gè)實(shí)體進(jìn)行過(guò)濾,先判斷實(shí)體詞性是否是名詞,刪除掉所有非名詞的實(shí)體。之后通過(guò)構(gòu)建好的實(shí)體鏈接詞典,將問(wèn)句中實(shí)體可以連接的知識(shí)庫(kù)實(shí)體加入到候選實(shí)體中。平均每個(gè)問(wèn)題初步得到的候選實(shí)體數(shù)量為12.6,多余的候選實(shí)體會(huì)引入干擾,同時(shí)增加后續(xù)步驟的時(shí)間成本。因此,參考Yang等人的方法,根據(jù)實(shí)體特點(diǎn)為每個(gè)實(shí)體計(jì)算一些特征。

      (1)問(wèn)句中實(shí)體的長(zhǎng)度:實(shí)體的長(zhǎng)度,例如:華為,長(zhǎng)度為2;

      (2)問(wèn)句中實(shí)體的詞頻:實(shí)體在搜狗詞典中詞頻數(shù);

      (3)實(shí)體在問(wèn)句中的位置:?jiǎn)柧鋵?shí)體離句首的位置距離;

      (4)知識(shí)庫(kù)實(shí)體兩跳內(nèi)關(guān)系和問(wèn)句中詞的重疊數(shù)量;

      (5)知識(shí)庫(kù)實(shí)體在實(shí)體鏈接詞典中的排序,序列越小,實(shí)體鏈接概率越高。

      構(gòu)建實(shí)體鏈接數(shù)據(jù)集,實(shí)體鏈接分類(lèi)器該文使用支撐向量機(jī)模型進(jìn)行訓(xùn)練,實(shí)體特征包括問(wèn)句中實(shí)體的長(zhǎng)度

      X

      、問(wèn)句中實(shí)體的詞頻、實(shí)體在問(wèn)句中的位置、知識(shí)庫(kù)實(shí)體兩跳內(nèi)關(guān)系和問(wèn)句中詞的重疊數(shù)量、知識(shí)庫(kù)實(shí)體在實(shí)體鏈接詞典中的排序,

      Y

      為0、1,0代表問(wèn)句中實(shí)體沒(méi)有正確鏈接到知識(shí)庫(kù)實(shí)體,1代表問(wèn)句中實(shí)體正確鏈接到知識(shí)庫(kù)實(shí)體。通過(guò)實(shí)體鏈接分類(lèi)器得到分?jǐn)?shù)排名前

      N

      個(gè)候選知識(shí)庫(kù)實(shí)體。

      2.4 候選查詢路徑生成及文本匹配

      在CCKS2019中文知識(shí)庫(kù)問(wèn)答任務(wù)中提供的數(shù)據(jù)集,大部分的問(wèn)題都是單實(shí)體單關(guān)系,單實(shí)體雙關(guān)系這種情況,更復(fù)雜的情況也可以由簡(jiǎn)單問(wèn)題拼接得到。該文采用查詢候選實(shí)體在知識(shí)庫(kù)中單跳路徑和兩跳路徑結(jié)果作為候選查詢路徑,查詢形式為(實(shí)體,關(guān)系)或者(實(shí)體,關(guān)系1,關(guān)系2)。 用文本匹配模型(如ESIM)進(jìn)行用戶問(wèn)句和候選查詢路徑相似度匹配,但是此模型非常依賴大量標(biāo)注好的數(shù)據(jù)集,導(dǎo)致在一些小樣本的數(shù)據(jù)集上效果很不理想。因此,該文使用BERT預(yù)訓(xùn)練模型來(lái)降低對(duì)大量標(biāo)注數(shù)據(jù)的依賴,經(jīng)過(guò)測(cè)試,在少量數(shù)據(jù)集上使用BERT模型進(jìn)行文本匹配的效果要遠(yuǎn)遠(yuǎn)好于ESIM模型。BERT模型使用mask機(jī)制對(duì)上下文單詞進(jìn)行預(yù)測(cè)、句子對(duì)分類(lèi)等無(wú)需人工標(biāo)注的監(jiān)督學(xué)習(xí)任務(wù),學(xué)習(xí)到詞級(jí)別、句子級(jí)別的信息。將預(yù)訓(xùn)練語(yǔ)言模型遷移到下游自然語(yǔ)言處理任務(wù),作用類(lèi)似于擴(kuò)大了語(yǔ)料,增加了模型的性能和泛化能力。目前典型的預(yù)訓(xùn)練模型有EMLO、BERT、ROBERTA、ALBERT、ELECTRA。

      該文基于預(yù)訓(xùn)練的BERT模型,使用訓(xùn)練集進(jìn)行文本匹配的微調(diào),在驗(yàn)證集和測(cè)試集上,使用該模型計(jì)算問(wèn)題和候選查詢路徑的相似度。在訓(xùn)練中,文本匹配模型是基于符合自然語(yǔ)言語(yǔ)義問(wèn)題數(shù)據(jù)集訓(xùn)練的,但是生成的候選查詢路徑是不符合問(wèn)題語(yǔ)義的。針對(duì)這種情況,該文對(duì)候選路徑進(jìn)行一些特殊處理,例如:(周杰倫,血型)改為“周杰倫的血型?”,在訓(xùn)練集上使用一些多負(fù)例的手段,通過(guò)增加負(fù)例的數(shù)量提升模型的泛化能力,訓(xùn)練集中一個(gè)正例數(shù)據(jù)對(duì)應(yīng)4個(gè)負(fù)例數(shù)據(jù)。使用訓(xùn)練好的文本匹配模型對(duì)問(wèn)句和改進(jìn)后的候選路徑進(jìn)行打分。

      2.5 實(shí)體拼接及答案檢索

      上述2.4節(jié)描述的方法只適用于單實(shí)體的情況,實(shí)際上,仍然有一部分問(wèn)題包含兩個(gè)及以上的主語(yǔ)實(shí)體,例如“北京大學(xué)出了哪些哲學(xué)家”。因此,該文采用實(shí)體拼接的方式,探索每個(gè)問(wèn)題作為雙實(shí)體問(wèn)題的候選答案。對(duì)于每個(gè)問(wèn)題,首先對(duì)2.4節(jié)打分后的候選查詢路徑進(jìn)行排序,選取前10個(gè)單關(guān)系查詢路徑,之后到知識(shí)庫(kù)中對(duì)這些查詢路徑進(jìn)行檢索,通過(guò)查詢結(jié)果判斷這些單關(guān)系路徑是否可以拼接為多關(guān)系查詢路徑,將可以拼接后的多關(guān)系路徑加入候選查詢路徑集合,最后,將2.4節(jié)獲得的候選查詢路徑和本節(jié)得到拼接后的查詢路徑,同問(wèn)句進(jìn)行重疊字的計(jì)算,選擇字?jǐn)?shù)最多的作為查詢答案路徑。

      3 實(shí)驗(yàn)與分析

      3.1 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)運(yùn)行環(huán)境:操作系統(tǒng)ubuntu18.04,顯卡NVIDIA TITAN Xp 12 GB顯存,Python版本3.6.10、pytorch版本1.2.0、pytorch-transformers版本1.2.0、scikit-learn 版本0.20.3、torchtext版本0.6.0、torchvision版本0.4.0。

      模型配置:預(yù)訓(xùn)練模型使用BERT基礎(chǔ)版,不區(qū)分大小,隱藏層維度大小為512,隱藏層有12層,隱藏層激活函數(shù)使用gelu,詞表大小30 522。LSTM模型輸入維度為300,輸出維度為300。GRU模型輸入維度為300,輸出維度為300。

      該文使用由北京大學(xué)和恒生電子公司共同發(fā)布的中文開(kāi)放領(lǐng)域知識(shí)庫(kù)問(wèn)答數(shù)據(jù)集。該任務(wù)中問(wèn)題的標(biāo)注SQL語(yǔ)句均來(lái)自于PKUBase知識(shí)庫(kù)(http://pkubase.gstore-pku.com/)。數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)如表1所示。

      表1 語(yǔ)料集數(shù)據(jù)統(tǒng)計(jì)

      3.2 命名實(shí)體識(shí)別結(jié)果

      對(duì)于實(shí)體識(shí)別和屬性環(huán)節(jié),該文在測(cè)試上針對(duì)不同實(shí)體識(shí)別模型進(jìn)行消融實(shí)驗(yàn),并且記錄了保留不同數(shù)量的候選實(shí)體的召回率,實(shí)驗(yàn)結(jié)果如表2所示,其中f1@n表示在保留前

      n

      個(gè)候選實(shí)體情況下所有問(wèn)題標(biāo)注實(shí)體的f1值。

      表2 測(cè)試集上實(shí)體識(shí)別結(jié)果

      結(jié)果表明:(1)LSTM、GRU、CRF模型對(duì)候選實(shí)體的篩選均有促進(jìn)作用;(2)BERT預(yù)訓(xùn)練模型在命名實(shí)體識(shí)別任務(wù)上相對(duì)于其他模型有著巨大優(yōu)勢(shì)。

      3.3 實(shí)體鏈接結(jié)果

      對(duì)于實(shí)體鏈接環(huán)節(jié),在測(cè)試集上針對(duì)5種特征進(jìn)行了消融實(shí)驗(yàn),并且記錄了保留不同數(shù)量的候選實(shí)體的召回率。實(shí)驗(yàn)結(jié)果如表3所示,Recall@n表示在保留前

      n

      個(gè)候選實(shí)體情況下所有問(wèn)題標(biāo)注實(shí)體的召回率。

      表3 測(cè)試集上實(shí)體鏈接結(jié)果

      結(jié)果表明:(1)選擇的問(wèn)句實(shí)體特征和知識(shí)庫(kù)實(shí)體的特征對(duì)實(shí)體鏈接準(zhǔn)確度有很大影響;(2)從實(shí)驗(yàn)結(jié)果來(lái)看,僅保留前5的候選實(shí)體就可以達(dá)到接近全部數(shù)量的結(jié)果,同時(shí)選擇僅保留前五的實(shí)體還可以降低訓(xùn)練時(shí)間、數(shù)據(jù)噪音。

      3.4 知識(shí)庫(kù)問(wèn)答結(jié)果

      進(jìn)一步,在測(cè)試集上計(jì)算了文本匹配環(huán)節(jié)使用不同數(shù)量負(fù)例及不同檢索方案的F值。該文對(duì)比了三種方案的性能:(1)直接選擇文本匹配后相似度最高的查詢路徑;(2)對(duì)所有問(wèn)題使用橋接獲得可能的多實(shí)體情況查詢路徑,對(duì)于可以獲得多實(shí)體查詢路徑的問(wèn)題,直接覆蓋方案一的路徑;(3)對(duì)文本匹配排名前3的路徑和多實(shí)體路徑和問(wèn)題重新進(jìn)行重疊字?jǐn)?shù)的匹配,選擇字面上最相近的作為最終查詢路徑。

      從表4的實(shí)驗(yàn)結(jié)果及分析可以得到:在文本匹配環(huán)節(jié)上,合適數(shù)量的負(fù)例可以獲得更好的學(xué)習(xí)文本相似性,本任務(wù)上3個(gè)負(fù)例效果最佳;實(shí)體拼接可以考慮多實(shí)體的情況,但會(huì)引入一些錯(cuò)誤,即一些實(shí)際為單實(shí)體的問(wèn)題得到了多實(shí)體情況的查詢路徑,而重疊字?jǐn)?shù)匹配可以有效緩解該問(wèn)題。

      表4 測(cè)試集上知識(shí)庫(kù)問(wèn)答結(jié)果

      4 結(jié)束語(yǔ)

      該文提出了一種信息匹配的模型,依次對(duì)問(wèn)題進(jìn)行實(shí)體及屬性識(shí)別、實(shí)體鏈接及篩選、文本匹配和答案檢索等,驗(yàn)證了預(yù)訓(xùn)練語(yǔ)言模型在知識(shí)庫(kù)問(wèn)答上的性能,在CCKS2019 CKBQA測(cè)試集上的F值達(dá)到了75.6%。模型優(yōu)點(diǎn):(1)使用預(yù)訓(xùn)練模型和知識(shí)庫(kù)分詞技術(shù)大大提升了問(wèn)句主題詞的識(shí)別準(zhǔn)確率;(2)使用文本匹配技術(shù)將問(wèn)句與實(shí)體在知識(shí)庫(kù)中的查詢路徑進(jìn)行匹配,避免存在未登錄關(guān)系的問(wèn)題;(3)使用實(shí)體拼接探索多實(shí)體多關(guān)系問(wèn)題。模型缺陷:(1)基于機(jī)器學(xué)習(xí)的實(shí)體鏈接技術(shù)比較依賴問(wèn)句實(shí)體、知識(shí)庫(kù)實(shí)體特征;(2)產(chǎn)生了過(guò)多的候選查詢路徑,影響了模型運(yùn)行效率。因此,筆者認(rèn)為未來(lái)可以使用深度學(xué)習(xí)技術(shù)進(jìn)行實(shí)體鏈接,減少特征依賴,提升準(zhǔn)確率;在問(wèn)句中增加實(shí)體類(lèi)型、實(shí)體數(shù)量信息以進(jìn)一步提升多實(shí)體多關(guān)系問(wèn)題的準(zhǔn)確率。

      猜你喜歡
      分詞知識(shí)庫(kù)詞典
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      結(jié)巴分詞在詞云中的應(yīng)用
      基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      值得重視的分詞的特殊用法
      高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
      基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      《胡言詞典》(合集版)刊行
      广饶县| 平遥县| 大埔县| 平乡县| 祁门县| 宁远县| 尚志市| 德兴市| 阆中市| 土默特左旗| 波密县| 东兰县| 甘肃省| 鲁甸县| 蓬溪县| 法库县| 洛浦县| 五莲县| 舟曲县| 桐庐县| 千阳县| 高青县| 武功县| 洛扎县| 长寿区| 博白县| 郯城县| 石阡县| 渝中区| 永康市| 平顶山市| 武宁县| 手机| 砚山县| 岑巩县| 涡阳县| 井冈山市| 定南县| 孟津县| 科尔| 读书|