張楚婷,常 亮,王文凱,陳紅亮,賓辰忠
(桂林電子科技大學(xué) a.廣西可信軟件重點(diǎn)實(shí)驗(yàn)室;b.衛(wèi)星導(dǎo)航定位與位置服務(wù)國(guó)家地方聯(lián)合工程研究中心,廣西 桂林 541004)
隨著知識(shí)圖譜的發(fā)展,基于知識(shí)圖譜的各項(xiàng)應(yīng)用研究也不斷深入。在深度學(xué)習(xí)技術(shù)未被廣泛應(yīng)用前,傳統(tǒng)的問(wèn)答旨在用語(yǔ)義解析的方式將自然語(yǔ)言問(wèn)句通過(guò)語(yǔ)義解析器轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)言,從而到數(shù)據(jù)庫(kù)中查詢答案。然而,隨著數(shù)據(jù)量的迅速增多,該方法已不能滿足人們快速獲取正確答案的需求?,F(xiàn)有多數(shù)關(guān)于知識(shí)圖譜問(wèn)答的研究方法,都將問(wèn)句和知識(shí)庫(kù)里的事實(shí)映射到一個(gè)共同的低維度空間內(nèi),通過(guò)計(jì)算問(wèn)句向量與答案向量的余弦相似性來(lái)找到問(wèn)句的正確答案。但此類方法在候選主實(shí)體的篩選上步驟繁瑣,并且忽略了問(wèn)句中主實(shí)體與關(guān)系之間以及問(wèn)句中原始詞語(yǔ)之間的相關(guān)性。
針對(duì)上述問(wèn)題,本文構(gòu)建一種基于BiLSTM-CRF與N-Gram算法的細(xì)粒度知識(shí)庫(kù)問(wèn)答模型。受知識(shí)圖譜表示學(xué)習(xí)中翻譯模型的啟發(fā),將問(wèn)句與答案的關(guān)系表示為三元組的形式,把問(wèn)答過(guò)程分為實(shí)體識(shí)別和關(guān)系預(yù)測(cè)2個(gè)部分。采用BiLSTM+CRF模型進(jìn)行命名實(shí)體識(shí)別,并使用N-Gram算法為候選實(shí)體建立倒排索引,其中每個(gè)索引結(jié)點(diǎn)包含一個(gè)由萊溫斯坦距離計(jì)算得到的權(quán)值。在此基礎(chǔ)上,利用注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型,分別從語(yǔ)義層次和詞層次捕獲問(wèn)句主實(shí)體與候選關(guān)系之間和問(wèn)句與關(guān)系原始詞語(yǔ)之間的相互關(guān)系。
知識(shí)圖譜又稱為科學(xué)知識(shí)圖譜,由谷歌公司于2012年正式提出,其本質(zhì)是一張巨大的圖,也可以稱為有向圖結(jié)構(gòu)的知識(shí)庫(kù),即語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù)。在知識(shí)圖譜中,結(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體之間的關(guān)系。知識(shí)圖譜的表示學(xué)習(xí)旨在學(xué)習(xí)實(shí)體和關(guān)系的向量化表示[1],其中基于多元關(guān)系的翻譯模型TransE[2],將每個(gè)三元組實(shí)例(head、relation和tail)中的關(guān)系看作從頭實(shí)體head到尾實(shí)體tail的翻譯,通過(guò)不斷調(diào)整h、r和t(分別表示head、relation和tail),使(h+r)盡可能與t相等,即h+r≈t。
目前基于知識(shí)圖譜的問(wèn)答研究,已經(jīng)從先前基于語(yǔ)義解析的研究,逐漸轉(zhuǎn)變?yōu)橛尚畔⑻崛⊙苌幕谏疃葘W(xué)習(xí)的知識(shí)圖譜問(wèn)答研究。文獻(xiàn)[3]提出將詞向量的表示學(xué)習(xí)方法用于基于知識(shí)圖譜的問(wèn)答,因?yàn)橹R(shí)庫(kù)總是以三元組的形式存放大量事實(shí),所以該文提出將單一關(guān)系的自然語(yǔ)言問(wèn)答視作已知三元組的頭實(shí)體和關(guān)系,尋找三元組尾實(shí)體的過(guò)程,即
注意力機(jī)制本質(zhì)上與人類的選擇性視覺(jué)注意力機(jī)制類似,其核心目標(biāo)是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。文獻(xiàn)[7]設(shè)計(jì)注意力與全局信息相結(jié)合的知識(shí)庫(kù)問(wèn)答,采用注意力機(jī)制給問(wèn)句中的各個(gè)詞語(yǔ)賦予權(quán)重,該權(quán)重表示答案的不同方面對(duì)問(wèn)題表示的影響。文獻(xiàn)[8]則將模型分為2個(gè)部分,即答案問(wèn)句端和問(wèn)句答案端。該模型的第一部分采用注意力機(jī)制計(jì)算答案問(wèn)句端的問(wèn)句向量與答案向量相似性得分,第二部分同樣通過(guò)注意力機(jī)制計(jì)算問(wèn)句答案端問(wèn)句向量對(duì)答案各方面向量的不同關(guān)注程度,最后將第二部分的計(jì)算結(jié)果作為第一部分相似性得分的權(quán)值,從而求得問(wèn)句向量與答案向量最終的相似性得分。受以上方法的啟發(fā),本文模型在關(guān)系預(yù)測(cè)部分采用注意力機(jī)制捕獲問(wèn)句向量與關(guān)系向量語(yǔ)義層次上的相似性。
對(duì)于文本或字符串的相似性判斷,現(xiàn)有方法和多數(shù)實(shí)驗(yàn)都選擇通過(guò)將文本或字符串向量化后用余弦值[9]來(lái)判斷其是否相似。文獻(xiàn)[10]提出利用圖像識(shí)別的方法進(jìn)行文本匹配,構(gòu)造文本的相似度矩陣,然后用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取矩陣特征。本文將該方法應(yīng)用于問(wèn)答領(lǐng)域,在關(guān)系預(yù)測(cè)部分通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)抽取問(wèn)句向量與關(guān)系向量相似性矩陣的特征,從而得到問(wèn)句向量與關(guān)系向量在詞層次上的相似性。
本文模型分為2個(gè)部分,即實(shí)體識(shí)別和關(guān)系預(yù)測(cè)。在實(shí)體識(shí)別部分,提出采用BiLSTM-CRF模型進(jìn)行命名實(shí)體識(shí)別,與傳統(tǒng)基于BiLSTM的命名實(shí)體識(shí)別方法相比,CRF層的加入進(jìn)一步提高了命名實(shí)體識(shí)別的準(zhǔn)確性。同時(shí),采用N-Gram算法為與實(shí)體名和實(shí)體別名相同的候選實(shí)體建立倒排索引,并以萊溫斯坦距離[11]作為得分為候選實(shí)體排序。在關(guān)系預(yù)測(cè)部分,將關(guān)系視為2個(gè)部分,一部分代表實(shí)體的類型,另一部分代表問(wèn)句主實(shí)體與答案之間真實(shí)的關(guān)系,分別應(yīng)用注意力機(jī)制和CNN模型捕獲問(wèn)句主實(shí)體與候選關(guān)系之間的相互聯(lián)系以及原始詞語(yǔ)之間的相互聯(lián)系。
2.1.1 BiLSTM-CRF模型
在對(duì)于問(wèn)句的處理中,問(wèn)句的命名實(shí)體識(shí)別是極為關(guān)鍵的一個(gè)步驟。最初的命名實(shí)體識(shí)別方法主要分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法,而目前多數(shù)研究更傾向于使用神經(jīng)網(wǎng)絡(luò)來(lái)提取問(wèn)句特征進(jìn)行命名實(shí)體的識(shí)別。BiLSTM由2個(gè)LSTM拼接而成,其包含1個(gè)正向輸入序列和1個(gè)反向輸入序列,同時(shí)考慮了過(guò)去的特征和未來(lái)的特征。當(dāng)用BiLSTM進(jìn)行命名實(shí)體識(shí)別時(shí),BiLSTM的輸出為實(shí)體標(biāo)簽的分?jǐn)?shù)且選擇最高分?jǐn)?shù)對(duì)應(yīng)的標(biāo)簽。然而有時(shí)BiLSTM不能得到真正正確的實(shí)體標(biāo)簽,在這種情況下,就需要加入CRF層。CRF結(jié)合了最大熵模型和隱馬爾科夫模型的特點(diǎn),且近年來(lái)在分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中取得了較好的效果。
例如,對(duì)問(wèn)句“Where is Tsinghua University located?”用BiLSTM-CRF算法進(jìn)行命名實(shí)體識(shí)別,實(shí)驗(yàn)效果如圖1所示,可得“Tsinghua University”的實(shí)體標(biāo)簽為“B-Organization I-Organization”。同理,對(duì)于問(wèn)句“What is the height of Yao Ming?”,經(jīng)BiLSTM-CRF模型處理后可得到“Yao Ming”的實(shí)體標(biāo)簽為“B-Person,I-person”。
圖1 BiLSTM-CRF模型結(jié)構(gòu)
通過(guò)實(shí)驗(yàn)可知,CRF層的作用不僅在于可以進(jìn)一步得到實(shí)體標(biāo)簽的得分,同時(shí)還可以在訓(xùn)練過(guò)程中自動(dòng)學(xué)習(xí)對(duì)于最后預(yù)測(cè)標(biāo)簽的限制規(guī)則。以上述問(wèn)句為例,限制條件如下:
1)因?yàn)閱?wèn)句中第1個(gè)詞通常為疑問(wèn)詞,所以第1個(gè)詞的標(biāo)簽應(yīng)為“O”。
2)在“B-label1,I-label2,I-label3”中,“l(fā)able1,label2,label3”等要有同樣的標(biāo)簽類型,即“B-organizationI-organization”有效,“B-Person I-organization”無(wú)效。
2.1.2 基于N-Gram算法的候選實(shí)體的倒排索引
通過(guò)BiLSTM-CRF模型識(shí)別出問(wèn)句實(shí)體后,還需要將該實(shí)體與知識(shí)圖譜中的相應(yīng)結(jié)點(diǎn)進(jìn)行關(guān)聯(lián)。本文實(shí)驗(yàn)中采用N-Gram算法(其中N∈{1,2,3})為與實(shí)體名和實(shí)體別名相同的候選實(shí)體建立倒排索引,并用萊溫斯坦距離計(jì)算得到的權(quán)值為候選實(shí)體排序。
倒排索引以詞或字符串作為關(guān)鍵字,對(duì)每種關(guān)鍵字都設(shè)立一個(gè)索引,每個(gè)關(guān)鍵字對(duì)應(yīng)的是該詞或字符串在所有文檔中的位置信息以及頻率,圖2所示為一個(gè)小型數(shù)據(jù)集基于2-gram的倒排索引。
圖2 2-gram倒排索引
數(shù)據(jù)集N-Gram倒排索引Ientity形式如下:
Ientity(“qi”)→{node:ei,score:LLSD}
其中,LLSD為萊溫斯坦距離。萊溫斯坦距離為編輯距離的一種方法,主要用來(lái)量化字符串之間的相似度,即計(jì)算從一個(gè)字符串轉(zhuǎn)換成另外一個(gè)字符串所需要的最少操作步驟,通過(guò)刪除、插入、替換操作來(lái)定義萊溫斯坦距離。因此,萊溫斯坦距離越大表示字符串的相似度越低。
在本文提出的細(xì)粒度知識(shí)庫(kù)問(wèn)答方法中,候選關(guān)系rk的識(shí)別分別從語(yǔ)義層次和詞層次進(jìn)行(其中rk表示候選實(shí)體ei所關(guān)聯(lián)的所有關(guān)系R)。在語(yǔ)義層次上,引入注意力機(jī)制表示關(guān)系r對(duì)于問(wèn)句中不同詞語(yǔ)的關(guān)注程度;在詞層次上,構(gòu)建問(wèn)句向量與關(guān)系向量的相似度矩陣,并用CNN抽取該矩陣的特征。最后,將兩部分的特征向量用一個(gè)線性層連接起來(lái),從而得到最后候選關(guān)系rk與問(wèn)題模式Q的相似性得分,即最終預(yù)測(cè)的關(guān)系為:
rf=argmax(S(Q,rk))=Sigmoid(WT[zi+b])
圖3 關(guān)系預(yù)測(cè)模型整體結(jié)構(gòu)
2.2.1 語(yǔ)義層次
在Freebase中關(guān)系通常由2個(gè)部分構(gòu)成,一部分代表問(wèn)句中實(shí)體的類型,另一部分代表實(shí)體與答案之間真正的關(guān)系。因此,在實(shí)驗(yàn)中關(guān)系的嵌入向量分別為r1和r2。
wij=vTtanh(wT[qi;ri]+b)
rf=argmax(S(Q,rk))=Sigmoid(WT[zi+b])
2.2.2 詞層次
文獻(xiàn)[7]指出,詞語(yǔ)的相似性匹配也可以看作采用卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別過(guò)程,此處的“圖像”通常為詞語(yǔ)的相似度矩陣。卷積神經(jīng)網(wǎng)絡(luò)[13]是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是圖像識(shí)別領(lǐng)域的核心算法之一[14]。
實(shí)驗(yàn)中相似性矩陣Mij=qi.uj,其中qi表示問(wèn)句中第i個(gè)詞的嵌入向量,uj表示關(guān)系中第j個(gè)詞的嵌入向量,且通過(guò)計(jì)算2個(gè)向量的余弦相似度來(lái)構(gòu)建相似性矩陣。
在卷積層中當(dāng)?shù)趉個(gè)方形卷積核wk掃描相似性矩陣Mij時(shí)可以得到特征映射矩陣,矩陣元素表示如下:
其中,γ為ReLU激活函數(shù),rk為第k個(gè)卷積核的大小。
在最大池化層,本文實(shí)驗(yàn)用2個(gè)大小分別為s1和s2的池化核抽取卷積后的相似性矩陣fk,得到特征矩陣yi和yj,且s1代表問(wèn)句的長(zhǎng)度,s2代表關(guān)系的長(zhǎng)度:
在全連接層,用兩層感知機(jī)得到最后的特征向量z3、z4:
z3=w2γ(w1[y(1,0);y(1,k)+b1])+b2
z4=w2γ(w1[y(2,0);y(2,k)]+b1)+b2
其中,k代表卷積核的總個(gè)數(shù),[y(i,0);y(i,k)]為池化層的輸出,wi為多層感知機(jī)的權(quán)重,γ代表ReLU激活函數(shù)。
實(shí)驗(yàn)中用損失排名來(lái)優(yōu)化候選關(guān)系池R中的正例關(guān)系r+和負(fù)例關(guān)系r-:
其中,S(P,r-)、S(P,r+)分別表示負(fù)例關(guān)系與問(wèn)題模板的相似性得分和正例關(guān)系與問(wèn)題模板的相似性得分,γ為常量參數(shù)。
實(shí)驗(yàn)環(huán)境:操作系統(tǒng)Ubuntu 16.04,CUDA 8.0,cudnn 6;處理器4顆CPU核心,1顆Nvidia Tesla P100共享GPU核心;內(nèi)存大小60 GB,顯存大小16 GB;編譯平臺(tái)Pycharm Profession,Python 3.5,Pytorch 0.2.0。
實(shí)驗(yàn)數(shù)據(jù):實(shí)驗(yàn)數(shù)據(jù)采用文獻(xiàn)[3]中的SimpleQuestion數(shù)據(jù)集。該數(shù)據(jù)集針對(duì)單一關(guān)系問(wèn)題,且數(shù)據(jù)集的每一對(duì)問(wèn)題與答案都能在FreeBase中找到相應(yīng)的三元組與之對(duì)應(yīng),如表1所示。
表1 問(wèn)句與三元組
實(shí)驗(yàn)將數(shù)據(jù)集分為訓(xùn)練集、有效集、測(cè)試集3個(gè)部分,其中包含的三元組個(gè)數(shù)分別為78 360、10 825和21 580。同時(shí),實(shí)驗(yàn)中的知識(shí)庫(kù)采用Freebase下的FB2M和FB5M數(shù)據(jù)集。
本文的實(shí)驗(yàn)分為2個(gè)部分,即實(shí)體識(shí)別和關(guān)系預(yù)測(cè)。在實(shí)體識(shí)別部分,先用Glove將詞語(yǔ)訓(xùn)練成向量,再將詞語(yǔ)向量輸入BiLSTM-CRF得到最后的實(shí)體預(yù)測(cè)得分;在關(guān)系預(yù)測(cè)部分,先用BiGRU訓(xùn)練問(wèn)句,再用CNN抽取問(wèn)句向量與關(guān)系向量的相似性矩陣,在此部分的實(shí)驗(yàn)中參數(shù)訓(xùn)練采用一階梯度隨機(jī)優(yōu)化目標(biāo)函數(shù)[15]。兩部分具體參數(shù)設(shè)置如表2和表3所示。
表2 實(shí)體識(shí)別參數(shù)設(shè)置
表3 關(guān)系預(yù)測(cè)參數(shù)設(shè)置
本文將召回率R和準(zhǔn)確率P作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
其中,Nr表示預(yù)測(cè)正確的數(shù)據(jù)的數(shù)目,Ntotal表示測(cè)試集總的數(shù)據(jù)數(shù)目,Npre表示實(shí)驗(yàn)中預(yù)測(cè)的數(shù)據(jù)數(shù)目。
本文使用SimpleQuestion數(shù)據(jù)集在Freebase下的FB2M和FB5M數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn),以實(shí)體關(guān)系對(duì)的識(shí)別準(zhǔn)確率作為評(píng)價(jià)指標(biāo),將本文模型與同樣在該數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)的模型相比。對(duì)比的5種模型分別為基于記憶網(wǎng)絡(luò)的簡(jiǎn)單關(guān)系問(wèn)答模型[3]、基于字符層面和自注意力機(jī)制的簡(jiǎn)單關(guān)系問(wèn)答模型[16]、基于自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單問(wèn)答[17]、基于大規(guī)模知識(shí)圖譜的條件聚集神經(jīng)網(wǎng)絡(luò)問(wèn)答模型[18]、基于字與字符的神經(jīng)網(wǎng)絡(luò)問(wèn)答模型[19]。實(shí)驗(yàn)結(jié)果如表4所示,可以看出,本文方法在FB2M和FB5M數(shù)據(jù)集上準(zhǔn)確率達(dá)到了78.5%和77.3%的Top-k值,相比其他在FB2M和FB5M數(shù)據(jù)集上準(zhǔn)確率相對(duì)較高的模型,分別提高了1.9%和1.6%。對(duì)比模型在實(shí)體識(shí)別部分都單一地采用N-gram算法或者神經(jīng)網(wǎng)絡(luò),實(shí)體識(shí)別的準(zhǔn)確率不高,而本文方法通過(guò)采用BiLSTM-CRF與N-gram結(jié)合的模型,進(jìn)一步提高了命名實(shí)體識(shí)別的準(zhǔn)確率,從而使模型的整體性能相比之前的實(shí)驗(yàn)有所提升。
表4 Top-k實(shí)體關(guān)系對(duì)預(yù)測(cè)準(zhǔn)確率
3.4.1 實(shí)體識(shí)別
為體現(xiàn)本文模型在實(shí)體識(shí)別部分的優(yōu)勢(shì),將本文模型與文獻(xiàn)[17,19]模型進(jìn)行比較。文獻(xiàn)[17]模型在實(shí)體識(shí)別部分提出2種方法,分別為計(jì)算LCCS(即最長(zhǎng)連續(xù)公共子序列)的被動(dòng)實(shí)體鏈接方法和通過(guò)BiGRU-CRF進(jìn)行命名實(shí)體識(shí)別的激活實(shí)體鏈接方法,而文獻(xiàn)[19]模型在實(shí)體識(shí)別部分用GRU處理問(wèn)句且實(shí)體的表示由字符層面的實(shí)體標(biāo)簽和詞層面的實(shí)體標(biāo)簽兩部分構(gòu)成。
本文模型在實(shí)體識(shí)別部分采用BiLSTM-CRF的命名實(shí)體識(shí)別方法,同時(shí)應(yīng)用N-Gram算法(N∈{1,2,3})為候選實(shí)體建立倒排索引并且給每個(gè)實(shí)體結(jié)點(diǎn)賦予一個(gè)基于萊溫斯坦距離的權(quán)重,從而提高了命名實(shí)體識(shí)別和候選實(shí)體篩選的準(zhǔn)確率。表5顯示了3種方法在排名在前k(k∈{1,5,20,50,100,400})的候選實(shí)體上的召回率,可以看出,本文模型在Top-k的召回率上相比文獻(xiàn)[17,19]模型有顯著提升。
表5 Top-k候選實(shí)體的召回率
3.4.2 關(guān)系預(yù)測(cè)
在關(guān)系預(yù)測(cè)部分,本文采用文獻(xiàn)[17]中的數(shù)據(jù)集測(cè)試本文模型。表6比較了BICNN[20]、AMPCNN[17]和HR-BiLSTM[21]這三個(gè)模型和本文模型的關(guān)系預(yù)測(cè)準(zhǔn)確率。上述3個(gè)模型都在一個(gè)編碼框架下,將問(wèn)題和關(guān)系都映射成向量從而通過(guò)向量之間的比較來(lái)判斷問(wèn)題和關(guān)系的語(yǔ)義相似性。從表6可知本文模型關(guān)系預(yù)測(cè)的準(zhǔn)確率高于目前關(guān)系預(yù)測(cè)準(zhǔn)確率相對(duì)較高的HR-BiLSTM模型。HR-BiLSTM模型采用層次殘差BILSTM模型提取問(wèn)句的不同粒度表示,同時(shí)分別從關(guān)系的詞層次和關(guān)系本身編碼關(guān)系,最后通過(guò)計(jì)算問(wèn)句和關(guān)系的相似度來(lái)對(duì)候選關(guān)系排序。而本文模型分別從語(yǔ)義層次和詞層次找尋關(guān)系向量與問(wèn)句模板向量之間的相似性。在語(yǔ)義層次上,采用自注意力機(jī)制為問(wèn)句中的詞語(yǔ)賦予不同的權(quán)重,從而表現(xiàn)關(guān)系向量對(duì)問(wèn)句中不同詞向量的不同關(guān)注程度;在詞層次上,采用CNN抽取問(wèn)句向量與關(guān)系向量構(gòu)成的相似性矩陣。
表6 關(guān)系預(yù)測(cè)準(zhǔn)確率
本文構(gòu)建一種基于BiLSTM-CRF模型和N-Gram算法的細(xì)粒度知識(shí)庫(kù)問(wèn)答模型,用于單一關(guān)系問(wèn)答。該模型解決了傳統(tǒng)模型在實(shí)體識(shí)別上使用單一的神經(jīng)網(wǎng)絡(luò)方法導(dǎo)致命名識(shí)別準(zhǔn)確率不高的問(wèn)題,同時(shí)采用自注意力機(jī)制和CNN提高了關(guān)系預(yù)測(cè)的準(zhǔn)確率,減小了人工定義規(guī)則對(duì)模型準(zhǔn)確率的影響和模型的復(fù)雜性。在FB2M和FB5M數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型可顯著提高整體識(shí)別準(zhǔn)確率。盡管本文模型在單一關(guān)系數(shù)據(jù)集上表現(xiàn)良好,但并不能滿足實(shí)際應(yīng)用中復(fù)雜問(wèn)句的需要。因此,下一步將結(jié)合知識(shí)圖譜表示學(xué)習(xí)中對(duì)于一對(duì)多和多對(duì)多問(wèn)題的研究,構(gòu)建針對(duì)多個(gè)實(shí)體和多種關(guān)系的知識(shí)庫(kù)問(wèn)答模型。