潘雨黛,張玲玲,蔡忠閩,趙天哲,魏筆凡,劉 均
1.西安交通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,西安 710049
2.陜西省大數(shù)據(jù)知識(shí)工程重點(diǎn)實(shí)驗(yàn)室,西安 710049
3.西安交通大學(xué) 系統(tǒng)工程研究所,西安 710049
知識(shí)圖譜(knowledge graph,KG)通過由實(shí)體和關(guān)系組成的三元組(頭實(shí)體,關(guān)系,尾實(shí)體)來存儲(chǔ)大量事實(shí),例如經(jīng)典的通用知識(shí)圖譜YAGO(yet another great ontology)[1]、DBpedia[2]和Wikidata[3]等。知識(shí)圖譜上的推理是預(yù)測不完整三元組中缺失的實(shí)體或關(guān)系,并用于各種下游任務(wù),如信息抽取[4]、語義檢索[5]、問答任務(wù)[6]和對(duì)話系統(tǒng)[7]等。典型的知識(shí)圖譜推理方法主要針對(duì)于關(guān)系和實(shí)體的表征與嵌入[8],如TransE[9]和RESCAL[10]等方法。然而,這些基于實(shí)體與關(guān)系表征的推理方法屬于黑盒模型,在推理過程中缺乏一定的可解釋性。因此在近幾年的知識(shí)圖譜推理中,規(guī)則學(xué)習(xí)已成為被廣泛研究的一種可解釋范式[11]。規(guī)則學(xué)習(xí)的方法旨在從結(jié)構(gòu)化的知識(shí)圖譜中抽取一階邏輯規(guī)則,并將其運(yùn)用于知識(shí)圖譜的補(bǔ)全與推理等任務(wù)中。
從知識(shí)圖譜中抽取的一階邏輯(first-order logic,F(xiàn)OL)規(guī)則以霍恩子句(Horn clause)[12]的形式呈現(xiàn)如下:
其中,bornInCity(X,Z)為構(gòu)成規(guī)則的原子公式,知識(shí)圖譜中的關(guān)系bornInCity 在規(guī)則中為組成原子公式的謂詞。X、Y、Z為從知識(shí)圖譜中的實(shí)體泛化而來的變量。蘊(yùn)含符號(hào)→從規(guī)則體指向規(guī)則頭,指代從條件到結(jié)論的推理過程。但是在從知識(shí)圖譜中抽取規(guī)則的過程中,依然有以下幾個(gè)問題。
第一,一階邏輯規(guī)則的結(jié)構(gòu)信息表示為離散的符號(hào),而知識(shí)圖譜上的推理大多由連續(xù)的嵌入向量來實(shí)現(xiàn)。不管是基于翻譯模型的方法,還是基于圖網(wǎng)絡(luò)的方法,知識(shí)圖譜上的推理都需要將實(shí)體與關(guān)系表示成為連續(xù)的低維向量,而后通過最大化得分函數(shù)的值來進(jìn)行推理。如何將離散的符號(hào)信息與連續(xù)的向量空間進(jìn)行融合,實(shí)現(xiàn)可解釋的知識(shí)圖譜上的推理是一個(gè)挑戰(zhàn)。
第二,在實(shí)現(xiàn)可微推理的過程中,使用的一階邏輯規(guī)則不僅需要從三元組中泛化得到,同時(shí)需要考慮構(gòu)成一階邏輯規(guī)則的原子公式的順序以及變量信息。改變原子公式的順序會(huì)對(duì)可微推理的結(jié)果產(chǎn)生巨大影響。比如,對(duì)于一階邏輯規(guī)則:
該規(guī)則表示X是Z的兄弟,且Z是Y的父親,則X是Y的叔叔(伯伯)。如果將規(guī)則體中的原子公式進(jìn)行順序的調(diào)換:
該規(guī)則表示的是X是Z的父親,且Z是Y的兄弟,則X是Y的叔叔(伯伯)。顯然,該規(guī)則是不合理的。如何將正確的原子公式信息融入推理過程是一個(gè)難點(diǎn)。
因此,提出了一種融合大規(guī)模預(yù)訓(xùn)練語言模型的可微推理方法DRaM 來解決以上問題。為解決連續(xù)空間與離散空間的融合問題,使用一種可微的推理范式來將連續(xù)的嵌入推理過程與離散的規(guī)則符號(hào)進(jìn)行融合;在編碼過程中,為解決一階邏輯規(guī)則中原子公式的順序問題,設(shè)計(jì)了一種基于大規(guī)模語言模型(large language model,LLM)的編碼方法。最終通過評(píng)估與最大化推理過程的得分來對(duì)連續(xù)的模型進(jìn)行優(yōu)化。
DRaM做出了以下三個(gè)貢獻(xiàn):
(1)提出了一種知識(shí)圖譜上的可微推理方法DRaM,通過將嵌入向量與一階邏輯規(guī)則進(jìn)行融合,緩解連續(xù)空間與離散空間的語義鴻溝。
(2)引入大規(guī)模預(yù)訓(xùn)練語言模型的可微推理,融合了一階邏輯規(guī)則中的順序信息,使得一階邏輯規(guī)則更準(zhǔn)確地提升可微推理的結(jié)果。
(3)通過在三個(gè)知識(shí)圖譜數(shù)據(jù)集上進(jìn)行鏈接預(yù)測,驗(yàn)證了DRaM的可行性與有效性。同時(shí)通過抽取出的規(guī)則及其置信度,增強(qiáng)可微推理過程的可解釋性。
知識(shí)圖譜上的表示學(xué)習(xí)方法通過對(duì)知識(shí)圖譜中的實(shí)體與關(guān)系進(jìn)行嵌入表示,來用于下游推理任務(wù)。該方法主要可以分為三類,分別為基于翻譯模型的方法、基于語義分解的方法以及基于圖網(wǎng)絡(luò)的方法。
基于翻譯模型的表示學(xué)習(xí)將知識(shí)圖譜中的實(shí)體與關(guān)系表示為低維向量。在知識(shí)圖譜表示中廣泛使用的算法包含TransE[9]、RotatE[13]和ConvE[14]。RESCAL[10]、HolE[15]和DisMult[16]是基于語義分解的表示學(xué)習(xí)方法,將每個(gè)實(shí)體的語義信息表示為低維向量,且將每個(gè)關(guān)系表示為一個(gè)矩陣。這些方法通過嵌入模型來處理每個(gè)三元組,從而獲得知識(shí)圖譜中關(guān)系和實(shí)體的低維嵌入。此外,考慮到知識(shí)圖譜中的結(jié)構(gòu)信息和鄰居信息,一些模型通過圖神經(jīng)網(wǎng)絡(luò)表示整個(gè)知識(shí)圖譜。例如,R-GCN[17]和CompGCN[18]使用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)來捕獲鄰居信息對(duì)關(guān)系進(jìn)行建模。另外,一些融合文本嵌入信息的模型,例如pTransE[19]、DKRL[20]和StAR[21]同樣可以通過得到嵌入向量來解決知識(shí)圖譜上的推理問題。
知識(shí)圖譜上的規(guī)則學(xué)習(xí)方法主要可以分為兩類,分別為基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法。
1.2.1 基于統(tǒng)計(jì)方法的規(guī)則學(xué)習(xí)方法
最早的規(guī)則學(xué)習(xí)研究始于利用統(tǒng)計(jì)方法抽取一階邏輯規(guī)則。此類方法通過不同度量方式,比如支持度(support)、置信度(confidence)、相對(duì)概率估計(jì)(relative probability estimate)和其他簡單的度量方式篩選高質(zhì)量的一階邏輯規(guī)則。比如,一階邏輯學(xué)習(xí)方法SHERLOCK[22]使用逐點(diǎn)互信息(pointwise mutual information,PMI)作為評(píng)估指標(biāo),并使用相對(duì)概率估計(jì)來評(píng)估Horn子句,以此抽取合理的一階邏輯規(guī)則。此外,Galarraga 等人提出的AMIE[23]和AMIE+[24]算法,通過計(jì)算部分完整性假設(shè)(partial completeness assumption,PCA)置信度從知識(shí)庫(knowledge base,KB)和知識(shí)圖譜中挖掘相關(guān)規(guī)則。AnyBURL[25]提取有效時(shí)間跨度內(nèi)的規(guī)則,并通過置信度在更短的時(shí)間內(nèi)獲取有效的一階邏輯規(guī)則。與AMIE與AMIE+算法相比,AnyBURL 的推理結(jié)果在性能上有所提高,但抽取的結(jié)果并不穩(wěn)定。
1.2.2 基于深度學(xué)習(xí)的規(guī)則學(xué)習(xí)方法
隨著深度學(xué)習(xí)與知識(shí)圖譜表示學(xué)習(xí)的發(fā)展,一些規(guī)則學(xué)習(xí)方法融合深度學(xué)習(xí),進(jìn)一步從知識(shí)圖譜的事實(shí)中抽取一階邏輯規(guī)則?;谏疃葘W(xué)習(xí)的規(guī)則學(xué)習(xí)方法例如RLvLR[26],是通過知識(shí)圖譜中關(guān)系與實(shí)體的嵌入表示來從大量一階邏輯規(guī)則中進(jìn)行篩選。RLvLR調(diào)用知識(shí)圖譜表征的RESCAL模型來減少規(guī)則的搜索空間。Ho等人[27]不僅通過知識(shí)圖譜中已知的事實(shí),并且通過從知識(shí)圖譜中抽取的規(guī)則推理出的事實(shí)來擴(kuò)展規(guī)則。在此過程中,模型通過不同的知識(shí)圖譜表征模型來評(píng)估所添加的事實(shí)。此外,最近的規(guī)則學(xué)習(xí)方法也提出了針對(duì)邏輯規(guī)則的可微學(xué)習(xí)。例如,Yang 等人[28]提出了NeuralLP 來學(xué)習(xí)知識(shí)圖譜中的一階邏輯規(guī)則,提出了一種神經(jīng)控制器系統(tǒng)來構(gòu)成一階規(guī)則中的可微運(yùn)算。Sadeghian等人[29]通過改進(jìn)NeuralLP 提出DRUM 算法,利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)實(shí)現(xiàn)端到端的可微規(guī)則抽取。
1.2.3 基于大規(guī)模語言模型的規(guī)則抽取
隨著大規(guī)模語言模型在自然語言處理問題上獲得的優(yōu)秀結(jié)果,一些規(guī)則抽取方法利用大規(guī)模語言模型的表征學(xué)習(xí)能力來提升推理過程的可解釋性。在邏輯文本的推理任務(wù)中,一些基于大規(guī)模語言模型的方法[30-31]通過挖掘上下文中的邏輯關(guān)系來抽取邏輯規(guī)則。例如,Logiformer[32]構(gòu)建了兩種不同的基于Transformer 的圖網(wǎng)絡(luò),通過挖掘文本中的邏輯規(guī)則解決邏輯推理問題。在知識(shí)圖譜的邏輯規(guī)則抽取中,大規(guī)模語言模型被用來提升實(shí)體與關(guān)系的表征,進(jìn)而增強(qiáng)規(guī)則抽取的結(jié)果。例如,Lotus[33]利用已有的語言模型對(duì)實(shí)體的外部文本進(jìn)行表征,通過融合知識(shí)圖譜的結(jié)構(gòu)信息與文本語義信息抽取高質(zhì)量規(guī)則。相較于傳統(tǒng)方法,此類方法不僅可以通過大語言模型構(gòu)成可微的端到端規(guī)則抽取模型,并且更專注于利用大規(guī)模語言模型中的Transformer模塊對(duì)一階邏輯規(guī)則的原子公式以及序列進(jìn)行編碼,更有利于一階邏輯規(guī)則的表征與抽取,進(jìn)而增強(qiáng)邏輯推理的結(jié)果。
然而,目前的方法沒有利用大規(guī)模語言模型構(gòu)建出一個(gè)端到端的可微模型在知識(shí)圖譜中抽取一階邏輯規(guī)則。
本文針對(duì)知識(shí)圖譜上的推理任務(wù),提出了一種端到端的具有可解釋性的可微規(guī)則學(xué)習(xí)方法DRaM。此方法分為兩部分:可微推理以及規(guī)則學(xué)習(xí)。
知識(shí)圖譜上的推理定義如下:給定知識(shí)圖譜G={R,E,T},其中T?E×R×E為知識(shí)圖譜中的三元組集合,E為實(shí)體集合,R為關(guān)系集合。通過規(guī)則學(xué)習(xí)的方法抽取形式為式(1)的一階邏輯規(guī)則集合C。C中提取的規(guī)則可用于實(shí)現(xiàn)可微的知識(shí)圖譜上的推理,即預(yù)測三元組中缺失的實(shí)體,例如r(h,?)或者r(?,t)。圖1顯示了解決此任務(wù)的模型的具體實(shí)現(xiàn)方法。
不同于經(jīng)典的基于黑盒的表示學(xué)習(xí)方法進(jìn)行的知識(shí)圖譜的推理,基于規(guī)則的可微推理需要解決推理過程中的實(shí)體無關(guān)性問題。比如,在利用規(guī)則(1)進(jìn)行推理時(shí),G中的三元組cityOf(Beijing,P.R.C.)和cityOf(LA,U.S.)會(huì)泛化為原子公式cityOf(X,Y),以此解決實(shí)體無關(guān)性問題。DRaM 不同于基于統(tǒng)計(jì)計(jì)算的規(guī)則學(xué)習(xí)方法,它將包含置信度的離散的邏輯規(guī)則與連續(xù)的嵌入空間融合,通過梯度來對(duì)模型進(jìn)行優(yōu)化。
在規(guī)則學(xué)習(xí)融合可微推理的過程中,若將作為推理結(jié)果的原子公式看作一個(gè)問題query,則利用一個(gè)一階邏輯規(guī)則推理的過程如下:
其中,r1,r2,…,rn作為一階邏輯規(guī)則中的謂詞,其實(shí)質(zhì)為知識(shí)圖譜G中的關(guān)系。此時(shí),根據(jù)TensorLog框架[34],基于邏輯規(guī)則的推理可以用矩陣與向量的乘法來實(shí)現(xiàn)。
在推理過程中,對(duì)于給定的問題query 和已知的實(shí)體x,不同結(jié)果y的得分為規(guī)則集合中能夠得到結(jié)果y的所有規(guī)則的置信度之和。根據(jù)TensorLog 框架,在推理過程中,形如規(guī)則(4)的規(guī)則體可量化為:
其中,αm為第m個(gè)可能規(guī)則的置信度;βm為第m個(gè)規(guī)則的結(jié)構(gòu)信息,主要由n個(gè)有順序的關(guān)系序列(r1,r2,…rn) 構(gòu)成;Mrk為rk的謂詞矩陣,矩陣元素Mrk[i,j]的初始值為:
可微的推理過程旨在將融合規(guī)則的推理過程通過梯度下降來進(jìn)行優(yōu)化,因此在此過程中,將推理過程的得分函數(shù)f(y|x)定義為:
其中,ex向量初始值為將實(shí)體x映射成為one-hot 編碼,其第x個(gè)元素值為1;ey同理。此過程可舉例如下,對(duì)于規(guī)則(1)中規(guī)則體的推理過程bornIn-City(X,Z)∧cityOf(Z,Y),可以將實(shí)體轉(zhuǎn)化為向量,關(guān)系轉(zhuǎn)化為謂詞矩陣,并通過矩陣的乘法來模擬實(shí)例化的邏輯規(guī)則推理過程,表示為MbornInCity×McityOf×ey。進(jìn)行矩陣與向量的乘法后,向量中非零項(xiàng)位置與ex相同的話,說明通過該規(guī)則可以得到從實(shí)體y到實(shí)體x的推理結(jié)果。規(guī)則的長度可以根據(jù)推理過程中做乘法的矩陣個(gè)數(shù)來實(shí)現(xiàn)??晌⑼评磉M(jìn)行梯度優(yōu)化的目標(biāo)是將所有滿足query實(shí)體對(duì)的得分最大化:
其中,x、y分別為滿足query(X,Y)中變量X、Y的頭、尾實(shí)體。αm、βm分別代表學(xué)習(xí)到的規(guī)則的置信度與結(jié)構(gòu)信息。通過這兩個(gè)參數(shù)可以確定用于推理的一階邏輯規(guī)則,該參數(shù)是在優(yōu)化推理模型的過程中進(jìn)行學(xué)習(xí)優(yōu)化的。
然而,從式(5)來看,該得分函數(shù)依舊是離散的形式,不利于進(jìn)行可微推理。因此,若將式(5)轉(zhuǎn)化為注意力權(quán)重的形式,則該權(quán)重可以進(jìn)行可微學(xué)習(xí):
根據(jù)上述得分函數(shù)的形式,考慮到規(guī)則的長度L可以進(jìn)行變化,采用預(yù)訓(xùn)練模型來對(duì)query的序列進(jìn)行編碼,如圖2 所示。在query 的最后加入可學(xué)習(xí)的token,[END]。對(duì)于長度為L+1(L>0)的輸入q1,q2,…,qL,[END],將其送入預(yù)訓(xùn)練語言模型M,得到隱藏層的輸出:
利用多層感知機(jī)(multilayer perceptron,MLP)模型進(jìn)行維度的調(diào)整:
通過隱藏層的輸出向量,得到推理過程中所用到的規(guī)則參數(shù){al|1 ≤l≤L}和{bl|1 ≤l≤L+1}:
其中,W為可學(xué)習(xí)的轉(zhuǎn)換矩陣,?為偏置向量。由兩個(gè)注意力al和bl,可以得到求解query時(shí)規(guī)則體的第l個(gè)謂詞的向量:
當(dāng)l′為0時(shí),初始推理向量為ey。對(duì)于用于推理的規(guī)則,每一個(gè)在規(guī)則體序列中的原子公式代表推理的“一步”l。因此,最終可微的得分函數(shù)可表示為:
通過最大化可微推理過程中的得分函數(shù),可以得到增強(qiáng)知識(shí)圖譜上的推理過程的規(guī)則。參考NeuralLP 中的規(guī)則還原算法,從兩個(gè)注意力參數(shù)al和bl抽取顯式的規(guī)則。最終,通過該算法得到每個(gè)可能規(guī)則的αm、βm,并將連續(xù)的向量al和bl恢復(fù)為離散的一階邏輯規(guī)則。
本文比較了DRaM 與經(jīng)典的知識(shí)圖譜上的推理方法,包含基于表示學(xué)習(xí)以及基于規(guī)則學(xué)習(xí)的方法。另外,通過消融學(xué)習(xí)證明了DRaM的有效性。最后,通過其他實(shí)驗(yàn),包括參數(shù)分析以及案例分析實(shí)驗(yàn),驗(yàn)證了該方法的效果。
知識(shí)圖譜上的可微推理實(shí)驗(yàn)在三個(gè)不同的數(shù)據(jù)集上進(jìn)行[35]。統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS)由生物醫(yī)學(xué)中的概念組成,如藥物和疾病名稱,以及它們之間的關(guān)系,比如如何診斷及治療。親屬關(guān)系(Kinship)中的三元組為澳大利亞中部土著部落成員之間的親屬關(guān)系。家族數(shù)據(jù)集(Family)包含多個(gè)家族個(gè)體之間的血緣關(guān)系。每個(gè)數(shù)據(jù)集的信息如表1所示。
表1 數(shù)據(jù)集信息Table 1 Dataset statistics
在對(duì)比過程中,選擇了經(jīng)典且具有代表性的知識(shí)圖譜上的推理方法作為基線方法。這些方法具體分為兩類,分別是可微推理方法與表示學(xué)習(xí)方法。
可微推理方法:NeuralLP 和DRUM 為知識(shí)圖譜上的可微推理方法。NeuralLP 提出一種神經(jīng)控制系統(tǒng),在知識(shí)圖譜的推理過程中,可微地挖掘一階邏輯規(guī)則。DRUM通過利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRNN)對(duì)NeuralLP進(jìn)行拓展。
表示學(xué)習(xí)方法:選擇了最普遍的基于表示學(xué)習(xí)的方法進(jìn)行推理性能的比較。此種方法包含基于翻譯模型的方法、基于語義分解的方法、基于卷積層與全連接層的方法以及基于預(yù)訓(xùn)練語言模型的方法。
(1)基于翻譯模型的方法利用分布式表示來描述知識(shí)庫中的三元組,如TransE[9]、TransH[36]、TransR[37]、TransD[38];
(2)基于語義分解的方法將知識(shí)庫中關(guān)系表示為矩陣,如DisMult[16]、ComplEx[39];
(3)基于卷積層的方法解決全連接層在訓(xùn)練時(shí)的過擬合問題,如ConvE[14];
(4)基于預(yù)訓(xùn)練語言模型的方法通過對(duì)三元組語義信息以及結(jié)構(gòu)信息編碼來對(duì)知識(shí)圖譜進(jìn)行表示,如KG-BERT[40]與StAR[21]。
正如之前的介紹,實(shí)驗(yàn)通過知識(shí)圖譜上的推理結(jié)果來判斷模型的有效性。知識(shí)圖譜上的推理通常為鏈接預(yù)測,用以下幾個(gè)指標(biāo)來評(píng)估有效性:Hits@k,平均倒數(shù)排名(mean reciprocal ranking,MRR),平均排名(mean ranking,MR)。
Hits@k表示測試集S中目標(biāo)三元組的得分在候選三元組中得分排名在前k個(gè)的比例:
MRR計(jì)算目標(biāo)三元組在候選三元組中排名的平均倒數(shù):
MR 計(jì)算目標(biāo)三元組在候選三元組中排名的平均倒數(shù):
本節(jié)使用Hits@1、Hits@10 和MRR 來全面展示DRaM的有效性。
該方法實(shí)現(xiàn)的硬件環(huán)境是Tesla V100 GPU。深度學(xué)習(xí)的平臺(tái)為Python 3.6 與tensorflow1.14。其他參數(shù)設(shè)置如下:預(yù)訓(xùn)練模型含有12 個(gè)Transformer層、768維隱藏層以及12個(gè)多頭注意力機(jī)制。最大序列長度為256,學(xué)習(xí)率為0.1,訓(xùn)練批次為64,Dropout為0.1,優(yōu)化器選擇Adam[41],迭代次數(shù)為10。
對(duì)于可微的知識(shí)圖譜上的推理,將DRaM與其他方法進(jìn)行性能比較,具體結(jié)果如表2和表3所示。
表2 可微推理比較結(jié)果Table 2 Comparison results of differentiable reasoning
表3 可微推理與表示學(xué)習(xí)方法比較結(jié)果Table 3 Comparison results of differentiable reasoning and representation learning
(1)與可微推理方法結(jié)果比較
表2中的結(jié)果說明了DRaM在鏈接預(yù)測中能取得有競爭力的效果。例如,與經(jīng)典的可微方法NeuralLP和DRUM比較,對(duì)于鏈接預(yù)測的指標(biāo)Hits@1與MRR,雖然沒有達(dá)到最優(yōu)結(jié)果,但是對(duì)于Hits@3 與Hits@10,DRaM幾乎已經(jīng)達(dá)到最佳的推理結(jié)果。尤其在數(shù)據(jù)集Kinship上,Hits@3與Hits@10已經(jīng)到達(dá)了1.00,充分說明了DRaM 的有效性。造成這種結(jié)果的原因可能是大語言模型對(duì)于計(jì)算三元組的得分函數(shù)上有很大的幫助,而鏈接預(yù)測的排名是由模型中的得分函數(shù)來進(jìn)行排序,因此所有三元組的整體得分排名都在前10。但是對(duì)于每個(gè)三元組預(yù)測時(shí)的準(zhǔn)確率,也就是Hits@1,還有待提高。
DRaM 在三個(gè)數(shù)據(jù)集上MRR 與Hits@1 的推理結(jié)果相較其他基線方法結(jié)果較低。兩個(gè)指標(biāo)相較于Hits@3 和Hits@10 主要反映了三元組得分的準(zhǔn)確程度。出現(xiàn)該現(xiàn)象主要原因是大規(guī)模語言模型的編碼部分會(huì)被數(shù)據(jù)集中謂詞的頻率影響[42]。在DRaM中,可微的規(guī)則抽取過程會(huì)將推理過程用一階邏輯公式(4)來表示,從而通過謂詞向量得到推理向量,并得到推理過程中抽取到的規(guī)則與其置信度。而對(duì)于Family 數(shù)據(jù)集,有限的關(guān)系個(gè)數(shù)會(huì)導(dǎo)致有限的謂詞,每個(gè)謂詞出現(xiàn)頻率不同,會(huì)對(duì)query 的表征產(chǎn)生偏差。在Family 數(shù)據(jù)集中,12 個(gè)謂詞不足以涵蓋所有的家庭成員關(guān)系。例如,以下一階邏輯對(duì)應(yīng)的推理過程:
在12 個(gè)謂詞中沒有可以正確匹配father_in_law 語義的答案。因此,在對(duì)query表征時(shí)不同謂詞出現(xiàn)頻率會(huì)使大規(guī)模語言模型影響表征結(jié)果,進(jìn)而影響抽取的一階邏輯規(guī)則與三元組的得分,尤其是影響得分的準(zhǔn)確程度,如MRR 與Hits@1 的結(jié)果。而對(duì)于Hits@3和Hits@10,盡管不能準(zhǔn)確得到其得分,但query的語義信息也與謂詞father_in_law語義有一定的相似性。
(2)與表示學(xué)習(xí)方法結(jié)果比較
表3 中的結(jié)果說明了DRaM 與基于表示學(xué)習(xí)的方法相比也能取得較好的結(jié)果。例如,對(duì)于平均排名指標(biāo)MR,相比于基于翻譯模型和基于語義分解的方法,DRaM可以得到具有競爭力的結(jié)果。對(duì)比同樣引入大語言模型的方法KG-BERT和StAR,雖然指標(biāo)MR略低于這兩種方法,但是對(duì)于Hits@10,不管是基于翻譯模型、基于語義分解模型的方法,還是基于大語言模型的方法,DRaM都可以得到最優(yōu)的結(jié)果。同時(shí),將DRaM 與黑盒的表示學(xué)習(xí)方法比較,可以獲得一階邏輯規(guī)則,為知識(shí)圖譜上的推理過程提供可解釋性。
表4 的結(jié)果說明了在DRaM 中運(yùn)用大規(guī)模預(yù)訓(xùn)練語言模型LLM與MLP的作用,同時(shí)在UMLS數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。分別去掉LLM以及MLP后的兩種方法表示為“DRaM-w/o-LLM”和“DRaM-w/o-MLP”。通過知識(shí)圖譜上的推理結(jié)果可以看到,當(dāng)去掉LLM后,鏈接預(yù)測指標(biāo)Hits@10下降了16.0個(gè)百分點(diǎn),MR 上升了375.9%。去掉MLP后,鏈接預(yù)測指標(biāo)Hits@10下降了35.7個(gè)百分點(diǎn),MR上升了628.9%。由此結(jié)果可以驗(yàn)證DRaM中主要模塊的有效性。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experiment results
本節(jié)通過對(duì)重要參數(shù)的分析來說明參數(shù)選值對(duì)可微推理的重要性。
(1)對(duì)規(guī)則最大長度的分析
在DRaM中,通過抽取一階邏輯規(guī)則來進(jìn)行可微推理。這一過程中,規(guī)則的長度以及數(shù)量會(huì)影響可微推理的效果。圖3(a)記錄了當(dāng)抽取的規(guī)則最大長度L=2,3,4 時(shí)對(duì)鏈接預(yù)測結(jié)果的影響。從推理結(jié)果可以看出,當(dāng)L=3 時(shí),DRaM可以獲得最佳的推理效果。這說明完整且較長的一階邏輯規(guī)則可以得到更好的推理結(jié)果,但是過多的規(guī)則也會(huì)存在噪聲,影響模型效果。
圖3 不同參數(shù)對(duì)DRaM可微推理結(jié)果的影響Fig.3 Impact of different parameters on differentiable reasoning by DRaM
(2)對(duì)預(yù)訓(xùn)練語言模型類別的分析
考慮到方法實(shí)現(xiàn)的效率與復(fù)雜度,比較了不同的大規(guī)模語言模型對(duì)可微推理結(jié)果的影響。這里,選擇BERT(bidirectional encoder representation from transformers)[43]和輕量級(jí)的ALBERT(a lite bidirectional encoder representation from transformers)[44]作為預(yù)訓(xùn)練語言模型對(duì)DRaM 進(jìn)行編碼。如圖3(b)所示,可以看出,不同的LLM 會(huì)影響可微推理的結(jié)果。對(duì)于4個(gè)鏈接預(yù)測指標(biāo),Hits@1 在使用ALBERT 時(shí)相比較BERT 結(jié)果較低,其他指標(biāo)如Hits@3、Hits@10 和MRR只是略低于BERT。
(3)對(duì)嵌入向量維度的分析
除此之外,比較了不同的嵌入向量維度對(duì)可微推理結(jié)果的影響。如圖3(c)所示,記錄了當(dāng)嵌入向量維度分別為128、256 以及512 時(shí)鏈接預(yù)測的結(jié)果。從記錄的結(jié)果可以得到,當(dāng)維度為128 時(shí),鏈接預(yù)測中的Hits@1 指標(biāo)較低。而當(dāng)維度為512 時(shí),Hits@1同樣會(huì)有較為明顯的下降。當(dāng)嵌入向量維度為256時(shí),DRaM可以得到最好的可微推理結(jié)果。這說明嵌入向量的維度會(huì)對(duì)三元組的得分以及鏈接預(yù)測的準(zhǔn)確率有較大影響。
DRaM 在進(jìn)行可微推理的時(shí)候可以抽取出一階邏輯規(guī)則。每個(gè)一階邏輯規(guī)則都有置信度來表示其合理性。表5 為在數(shù)據(jù)集UMLS 和Family 進(jìn)行可微推理的過程中,DRaM抽取出的一階邏輯規(guī)則。如表中所示,當(dāng)query 為Isa 時(shí),抽取出的置信度更高的規(guī)則更加合理。比如,對(duì)于規(guī)則Isa(B,A)←equal(B,A),置信度值為1,這條規(guī)則是一條正確的規(guī)則。而對(duì)于置信度為0.5 的規(guī)則Isa(C,A)←Indicates(C,B) ∧Indicates(B,A),Indicates(C,B)意為“表示”,但不代表完全相同,因此,置信度并不為1。這說明通過DRaM抽取出的置信度和規(guī)則結(jié)構(gòu)合理。
表5 規(guī)則抽取結(jié)果Table 5 Extracted rules with confidences
本文在知識(shí)圖譜的推理任務(wù)上,提出了一種可微的推理范式,通過融合一階邏輯規(guī)則對(duì)知識(shí)圖譜上的推理提供了可解釋性。在實(shí)現(xiàn)過程中,針對(duì)連續(xù)空間與離散空間的鴻溝,設(shè)計(jì)得分函數(shù)對(duì)推理結(jié)果進(jìn)行評(píng)估,同時(shí)融合離散的邏輯符號(hào)公式以及連續(xù)的嵌入向量空間;對(duì)于一階邏輯規(guī)則中原子公式的順序問題,通過引入大規(guī)模語言模型對(duì)邏輯規(guī)則進(jìn)行編碼,提升規(guī)則融合效果。此過程不僅能夠在三個(gè)知識(shí)圖譜數(shù)據(jù)集上得到較好的推理結(jié)果,同時(shí)可以為模型提供可解釋性。
未來,將會(huì)在更多的知識(shí)圖譜上驗(yàn)證方法的有效性,比如通用知識(shí)圖譜、教育領(lǐng)域的知識(shí)圖譜。同時(shí)也會(huì)在更多場景驗(yàn)證可微推理的作用,比如歸納學(xué)習(xí)領(lǐng)域等。