基于大規(guī)模語言模型的知識(shí)圖譜可微規(guī)則抽取

2023-10-29 04:20:44潘雨黛張玲玲蔡忠閩趙天哲魏筆凡

計(jì)算機(jī)與生活 2023年10期

潘雨黛，張玲玲，蔡忠閩，趙天哲，魏筆凡，劉均

1.西安交通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，西安 710049

2.陜西省大數(shù)據(jù)知識(shí)工程重點(diǎn)實(shí)驗(yàn)室，西安 710049

3.西安交通大學(xué) 系統(tǒng)工程研究所，西安 710049

知識(shí)圖譜（knowledge graph，KG）通過由實(shí)體和關(guān)系組成的三元組（頭實(shí)體，關(guān)系，尾實(shí)體）來存儲(chǔ)大量事實(shí)，例如經(jīng)典的通用知識(shí)圖譜YAGO（yet another great ontology）[1]、DBpedia[2]和Wikidata[3]等。知識(shí)圖譜上的推理是預(yù)測不完整三元組中缺失的實(shí)體或關(guān)系，并用于各種下游任務(wù)，如信息抽取[4]、語義檢索[5]、問答任務(wù)[6]和對(duì)話系統(tǒng)[7]等。典型的知識(shí)圖譜推理方法主要針對(duì)于關(guān)系和實(shí)體的表征與嵌入[8]，如TransE[9]和RESCAL[10]等方法。然而，這些基于實(shí)體與關(guān)系表征的推理方法屬于黑盒模型，在推理過程中缺乏一定的可解釋性。因此在近幾年的知識(shí)圖譜推理中，規(guī)則學(xué)習(xí)已成為被廣泛研究的一種可解釋范式[11]。規(guī)則學(xué)習(xí)的方法旨在從結(jié)構(gòu)化的知識(shí)圖譜中抽取一階邏輯規(guī)則，并將其運(yùn)用于知識(shí)圖譜的補(bǔ)全與推理等任務(wù)中。

從知識(shí)圖譜中抽取的一階邏輯（first-order logic，F(xiàn)OL）規(guī)則以霍恩子句（Horn clause）[12]的形式呈現(xiàn)如下：

其中，bornInCity(X,Z)為構(gòu)成規(guī)則的原子公式，知識(shí)圖譜中的關(guān)系bornInCity 在規(guī)則中為組成原子公式的謂詞。X、Y、Z為從知識(shí)圖譜中的實(shí)體泛化而來的變量。蘊(yùn)含符號(hào)→從規(guī)則體指向規(guī)則頭，指代從條件到結(jié)論的推理過程。但是在從知識(shí)圖譜中抽取規(guī)則的過程中，依然有以下幾個(gè)問題。

第一，一階邏輯規(guī)則的結(jié)構(gòu)信息表示為離散的符號(hào)，而知識(shí)圖譜上的推理大多由連續(xù)的嵌入向量來實(shí)現(xiàn)。不管是基于翻譯模型的方法，還是基于圖網(wǎng)絡(luò)的方法，知識(shí)圖譜上的推理都需要將實(shí)體與關(guān)系表示成為連續(xù)的低維向量，而后通過最大化得分函數(shù)的值來進(jìn)行推理。如何將離散的符號(hào)信息與連續(xù)的向量空間進(jìn)行融合，實(shí)現(xiàn)可解釋的知識(shí)圖譜上的推理是一個(gè)挑戰(zhàn)。

第二，在實(shí)現(xiàn)可微推理的過程中，使用的一階邏輯規(guī)則不僅需要從三元組中泛化得到，同時(shí)需要考慮構(gòu)成一階邏輯規(guī)則的原子公式的順序以及變量信息。改變原子公式的順序會(huì)對(duì)可微推理的結(jié)果產(chǎn)生巨大影響。比如，對(duì)于一階邏輯規(guī)則：

該規(guī)則表示X是Z的兄弟，且Z是Y的父親，則X是Y的叔叔（伯伯）。如果將規(guī)則體中的原子公式進(jìn)行順序的調(diào)換：

該規(guī)則表示的是X是Z的父親，且Z是Y的兄弟，則X是Y的叔叔（伯伯）。顯然，該規(guī)則是不合理的。如何將正確的原子公式信息融入推理過程是一個(gè)難點(diǎn)。

因此，提出了一種融合大規(guī)模預(yù)訓(xùn)練語言模型的可微推理方法DRaM 來解決以上問題。為解決連續(xù)空間與離散空間的融合問題，使用一種可微的推理范式來將連續(xù)的嵌入推理過程與離散的規(guī)則符號(hào)進(jìn)行融合；在編碼過程中，為解決一階邏輯規(guī)則中原子公式的順序問題，設(shè)計(jì)了一種基于大規(guī)模語言模型（large language model，LLM）的編碼方法。最終通過評(píng)估與最大化推理過程的得分來對(duì)連續(xù)的模型進(jìn)行優(yōu)化。

DRaM做出了以下三個(gè)貢獻(xiàn)：

（1）提出了一種知識(shí)圖譜上的可微推理方法DRaM，通過將嵌入向量與一階邏輯規(guī)則進(jìn)行融合，緩解連續(xù)空間與離散空間的語義鴻溝。

（2）引入大規(guī)模預(yù)訓(xùn)練語言模型的可微推理，融合了一階邏輯規(guī)則中的順序信息，使得一階邏輯規(guī)則更準(zhǔn)確地提升可微推理的結(jié)果。

（3）通過在三個(gè)知識(shí)圖譜數(shù)據(jù)集上進(jìn)行鏈接預(yù)測，驗(yàn)證了DRaM的可行性與有效性。同時(shí)通過抽取出的規(guī)則及其置信度，增強(qiáng)可微推理過程的可解釋性。

1 相關(guān)工作

1.1 知識(shí)圖譜上的表示學(xué)習(xí)方法

知識(shí)圖譜上的表示學(xué)習(xí)方法通過對(duì)知識(shí)圖譜中的實(shí)體與關(guān)系進(jìn)行嵌入表示，來用于下游推理任務(wù)。該方法主要可以分為三類，分別為基于翻譯模型的方法、基于語義分解的方法以及基于圖網(wǎng)絡(luò)的方法。

基于翻譯模型的表示學(xué)習(xí)將知識(shí)圖譜中的實(shí)體與關(guān)系表示為低維向量。在知識(shí)圖譜表示中廣泛使用的算法包含TransE[9]、RotatE[13]和ConvE[14]。RESCAL[10]、HolE[15]和DisMult[16]是基于語義分解的表示學(xué)習(xí)方法，將每個(gè)實(shí)體的語義信息表示為低維向量，且將每個(gè)關(guān)系表示為一個(gè)矩陣。這些方法通過嵌入模型來處理每個(gè)三元組，從而獲得知識(shí)圖譜中關(guān)系和實(shí)體的低維嵌入。此外，考慮到知識(shí)圖譜中的結(jié)構(gòu)信息和鄰居信息，一些模型通過圖神經(jīng)網(wǎng)絡(luò)表示整個(gè)知識(shí)圖譜。例如，R-GCN[17]和CompGCN[18]使用圖卷積網(wǎng)絡(luò)（graph convolutional network，GCN）來捕獲鄰居信息對(duì)關(guān)系進(jìn)行建模。另外，一些融合文本嵌入信息的模型，例如pTransE[19]、DKRL[20]和StAR[21]同樣可以通過得到嵌入向量來解決知識(shí)圖譜上的推理問題。

1.2 知識(shí)圖譜上的規(guī)則學(xué)習(xí)方法

知識(shí)圖譜上的規(guī)則學(xué)習(xí)方法主要可以分為兩類，分別為基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法。

1.2.1 基于統(tǒng)計(jì)方法的規(guī)則學(xué)習(xí)方法

最早的規(guī)則學(xué)習(xí)研究始于利用統(tǒng)計(jì)方法抽取一階邏輯規(guī)則。此類方法通過不同度量方式，比如支持度（support）、置信度（confidence）、相對(duì)概率估計(jì)（relative probability estimate）和其他簡單的度量方式篩選高質(zhì)量的一階邏輯規(guī)則。比如，一階邏輯學(xué)習(xí)方法SHERLOCK[22]使用逐點(diǎn)互信息（pointwise mutual information，PMI）作為評(píng)估指標(biāo)，并使用相對(duì)概率估計(jì)來評(píng)估Horn子句，以此抽取合理的一階邏輯規(guī)則。此外，Galarraga 等人提出的AMIE[23]和AMIE+[24]算法，通過計(jì)算部分完整性假設(shè)（partial completeness assumption，PCA）置信度從知識(shí)庫（knowledge base，KB）和知識(shí)圖譜中挖掘相關(guān)規(guī)則。AnyBURL[25]提取有效時(shí)間跨度內(nèi)的規(guī)則，并通過置信度在更短的時(shí)間內(nèi)獲取有效的一階邏輯規(guī)則。與AMIE與AMIE+算法相比，AnyBURL 的推理結(jié)果在性能上有所提高，但抽取的結(jié)果并不穩(wěn)定。

1.2.2 基于深度學(xué)習(xí)的規(guī)則學(xué)習(xí)方法

隨著深度學(xué)習(xí)與知識(shí)圖譜表示學(xué)習(xí)的發(fā)展，一些規(guī)則學(xué)習(xí)方法融合深度學(xué)習(xí)，進(jìn)一步從知識(shí)圖譜的事實(shí)中抽取一階邏輯規(guī)則?；谏疃葘W(xué)習(xí)的規(guī)則學(xué)習(xí)方法例如RLvLR[26]，是通過知識(shí)圖譜中關(guān)系與實(shí)體的嵌入表示來從大量一階邏輯規(guī)則中進(jìn)行篩選。RLvLR調(diào)用知識(shí)圖譜表征的RESCAL模型來減少規(guī)則的搜索空間。Ho等人[27]不僅通過知識(shí)圖譜中已知的事實(shí)，并且通過從知識(shí)圖譜中抽取的規(guī)則推理出的事實(shí)來擴(kuò)展規(guī)則。在此過程中，模型通過不同的知識(shí)圖譜表征模型來評(píng)估所添加的事實(shí)。此外，最近的規(guī)則學(xué)習(xí)方法也提出了針對(duì)邏輯規(guī)則的可微學(xué)習(xí)。例如，Yang 等人[28]提出了NeuralLP 來學(xué)習(xí)知識(shí)圖譜中的一階邏輯規(guī)則，提出了一種神經(jīng)控制器系統(tǒng)來構(gòu)成一階規(guī)則中的可微運(yùn)算。Sadeghian等人[29]通過改進(jìn)NeuralLP 提出DRUM 算法，利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）實(shí)現(xiàn)端到端的可微規(guī)則抽取。

1.2.3 基于大規(guī)模語言模型的規(guī)則抽取

隨著大規(guī)模語言模型在自然語言處理問題上獲得的優(yōu)秀結(jié)果，一些規(guī)則抽取方法利用大規(guī)模語言模型的表征學(xué)習(xí)能力來提升推理過程的可解釋性。在邏輯文本的推理任務(wù)中，一些基于大規(guī)模語言模型的方法[30-31]通過挖掘上下文中的邏輯關(guān)系來抽取邏輯規(guī)則。例如，Logiformer[32]構(gòu)建了兩種不同的基于Transformer 的圖網(wǎng)絡(luò)，通過挖掘文本中的邏輯規(guī)則解決邏輯推理問題。在知識(shí)圖譜的邏輯規(guī)則抽取中，大規(guī)模語言模型被用來提升實(shí)體與關(guān)系的表征，進(jìn)而增強(qiáng)規(guī)則抽取的結(jié)果。例如，Lotus[33]利用已有的語言模型對(duì)實(shí)體的外部文本進(jìn)行表征，通過融合知識(shí)圖譜的結(jié)構(gòu)信息與文本語義信息抽取高質(zhì)量規(guī)則。相較于傳統(tǒng)方法，此類方法不僅可以通過大語言模型構(gòu)成可微的端到端規(guī)則抽取模型，并且更專注于利用大規(guī)模語言模型中的Transformer模塊對(duì)一階邏輯規(guī)則的原子公式以及序列進(jìn)行編碼，更有利于一階邏輯規(guī)則的表征與抽取，進(jìn)而增強(qiáng)邏輯推理的結(jié)果。

然而，目前的方法沒有利用大規(guī)模語言模型構(gòu)建出一個(gè)端到端的可微模型在知識(shí)圖譜中抽取一階邏輯規(guī)則。

2 方法

本文針對(duì)知識(shí)圖譜上的推理任務(wù)，提出了一種端到端的具有可解釋性的可微規(guī)則學(xué)習(xí)方法DRaM。此方法分為兩部分：可微推理以及規(guī)則學(xué)習(xí)。

2.1 問題定義

知識(shí)圖譜上的推理定義如下：給定知識(shí)圖譜G={R,E,T}，其中T?E×R×E為知識(shí)圖譜中的三元組集合，E為實(shí)體集合，R為關(guān)系集合。通過規(guī)則學(xué)習(xí)的方法抽取形式為式（1）的一階邏輯規(guī)則集合C。C中提取的規(guī)則可用于實(shí)現(xiàn)可微的知識(shí)圖譜上的推理，即預(yù)測三元組中缺失的實(shí)體，例如r(h,?)或者r(?,t)。圖1顯示了解決此任務(wù)的模型的具體實(shí)現(xiàn)方法。

2.2 可微推理

不同于經(jīng)典的基于黑盒的表示學(xué)習(xí)方法進(jìn)行的知識(shí)圖譜的推理，基于規(guī)則的可微推理需要解決推理過程中的實(shí)體無關(guān)性問題。比如，在利用規(guī)則（1）進(jìn)行推理時(shí),G中的三元組cityOf(Beijing,P.R.C.)和cityOf(LA,U.S.)會(huì)泛化為原子公式cityOf(X,Y)，以此解決實(shí)體無關(guān)性問題。DRaM 不同于基于統(tǒng)計(jì)計(jì)算的規(guī)則學(xué)習(xí)方法，它將包含置信度的離散的邏輯規(guī)則與連續(xù)的嵌入空間融合，通過梯度來對(duì)模型進(jìn)行優(yōu)化。

在規(guī)則學(xué)習(xí)融合可微推理的過程中，若將作為推理結(jié)果的原子公式看作一個(gè)問題query，則利用一個(gè)一階邏輯規(guī)則推理的過程如下：

其中，r1,r2,…,rn作為一階邏輯規(guī)則中的謂詞，其實(shí)質(zhì)為知識(shí)圖譜G中的關(guān)系。此時(shí)，根據(jù)TensorLog框架[34]，基于邏輯規(guī)則的推理可以用矩陣與向量的乘法來實(shí)現(xiàn)。

在推理過程中，對(duì)于給定的問題query 和已知的實(shí)體x，不同結(jié)果y的得分為規(guī)則集合中能夠得到結(jié)果y的所有規(guī)則的置信度之和。根據(jù)TensorLog 框架，在推理過程中，形如規(guī)則（4）的規(guī)則體可量化為：

其中，αm為第m個(gè)可能規(guī)則的置信度；βm為第m個(gè)規(guī)則的結(jié)構(gòu)信息，主要由n個(gè)有順序的關(guān)系序列(r1,r2,…rn) 構(gòu)成；Mrk為rk的謂詞矩陣，矩陣元素Mrk[i,j]的初始值為：

可微的推理過程旨在將融合規(guī)則的推理過程通過梯度下降來進(jìn)行優(yōu)化，因此在此過程中，將推理過程的得分函數(shù)f(y|x)定義為：

其中，ex向量初始值為將實(shí)體x映射成為one-hot 編碼，其第x個(gè)元素值為1；ey同理。此過程可舉例如下，對(duì)于規(guī)則（1）中規(guī)則體的推理過程bornIn-City(X,Z)∧cityOf(Z,Y)，可以將實(shí)體轉(zhuǎn)化為向量，關(guān)系轉(zhuǎn)化為謂詞矩陣，并通過矩陣的乘法來模擬實(shí)例化的邏輯規(guī)則推理過程，表示為MbornInCity×McityOf×ey。進(jìn)行矩陣與向量的乘法后，向量中非零項(xiàng)位置與ex相同的話，說明通過該規(guī)則可以得到從實(shí)體y到實(shí)體x的推理結(jié)果。規(guī)則的長度可以根據(jù)推理過程中做乘法的矩陣個(gè)數(shù)來實(shí)現(xiàn)?？晌⑼评磉M(jìn)行梯度優(yōu)化的目標(biāo)是將所有滿足query實(shí)體對(duì)的得分最大化：

其中，x、y分別為滿足query(X,Y)中變量X、Y的頭、尾實(shí)體。αm、βm分別代表學(xué)習(xí)到的規(guī)則的置信度與結(jié)構(gòu)信息。通過這兩個(gè)參數(shù)可以確定用于推理的一階邏輯規(guī)則，該參數(shù)是在優(yōu)化推理模型的過程中進(jìn)行學(xué)習(xí)優(yōu)化的。

然而，從式（5）來看，該得分函數(shù)依舊是離散的形式，不利于進(jìn)行可微推理。因此，若將式（5）轉(zhuǎn)化為注意力權(quán)重的形式，則該權(quán)重可以進(jìn)行可微學(xué)習(xí)：

2.3 規(guī)則學(xué)習(xí)

根據(jù)上述得分函數(shù)的形式，考慮到規(guī)則的長度L可以進(jìn)行變化，采用預(yù)訓(xùn)練模型來對(duì)query的序列進(jìn)行編碼，如圖2 所示。在query 的最后加入可學(xué)習(xí)的token,[END]。對(duì)于長度為L+1(L>0)的輸入q1,q2,…,qL,[END]，將其送入預(yù)訓(xùn)練語言模型M，得到隱藏層的輸出：

利用多層感知機(jī)（multilayer perceptron，MLP）模型進(jìn)行維度的調(diào)整：

通過隱藏層的輸出向量，得到推理過程中所用到的規(guī)則參數(shù){al|1 ≤l≤L}和{bl|1 ≤l≤L+1}：

其中,W為可學(xué)習(xí)的轉(zhuǎn)換矩陣，?為偏置向量。由兩個(gè)注意力al和bl，可以得到求解query時(shí)規(guī)則體的第l個(gè)謂詞的向量：

當(dāng)l′為0時(shí)，初始推理向量為ey。對(duì)于用于推理的規(guī)則，每一個(gè)在規(guī)則體序列中的原子公式代表推理的“一步”l。因此，最終可微的得分函數(shù)可表示為：

通過最大化可微推理過程中的得分函數(shù)，可以得到增強(qiáng)知識(shí)圖譜上的推理過程的規(guī)則。參考NeuralLP 中的規(guī)則還原算法，從兩個(gè)注意力參數(shù)al和bl抽取顯式的規(guī)則。最終，通過該算法得到每個(gè)可能規(guī)則的αm、βm，并將連續(xù)的向量al和bl恢復(fù)為離散的一階邏輯規(guī)則。

3 實(shí)驗(yàn)結(jié)果

本文比較了DRaM 與經(jīng)典的知識(shí)圖譜上的推理方法，包含基于表示學(xué)習(xí)以及基于規(guī)則學(xué)習(xí)的方法。另外，通過消融學(xué)習(xí)證明了DRaM的有效性。最后，通過其他實(shí)驗(yàn)，包括參數(shù)分析以及案例分析實(shí)驗(yàn)，驗(yàn)證了該方法的效果。

3.1 數(shù)據(jù)集與基線方法

知識(shí)圖譜上的可微推理實(shí)驗(yàn)在三個(gè)不同的數(shù)據(jù)集上進(jìn)行[35]。統(tǒng)一醫(yī)學(xué)語言系統(tǒng)（unified medical language system，UMLS）由生物醫(yī)學(xué)中的概念組成，如藥物和疾病名稱，以及它們之間的關(guān)系，比如如何診斷及治療。親屬關(guān)系（Kinship）中的三元組為澳大利亞中部土著部落成員之間的親屬關(guān)系。家族數(shù)據(jù)集（Family）包含多個(gè)家族個(gè)體之間的血緣關(guān)系。每個(gè)數(shù)據(jù)集的信息如表1所示。

表1 數(shù)據(jù)集信息Table 1 Dataset statistics

在對(duì)比過程中，選擇了經(jīng)典且具有代表性的知識(shí)圖譜上的推理方法作為基線方法。這些方法具體分為兩類，分別是可微推理方法與表示學(xué)習(xí)方法。

可微推理方法：NeuralLP 和DRUM 為知識(shí)圖譜上的可微推理方法。NeuralLP 提出一種神經(jīng)控制系統(tǒng)，在知識(shí)圖譜的推理過程中，可微地挖掘一階邏輯規(guī)則。DRUM通過利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（BiRNN）對(duì)NeuralLP進(jìn)行拓展。

表示學(xué)習(xí)方法：選擇了最普遍的基于表示學(xué)習(xí)的方法進(jìn)行推理性能的比較。此種方法包含基于翻譯模型的方法、基于語義分解的方法、基于卷積層與全連接層的方法以及基于預(yù)訓(xùn)練語言模型的方法。

（1）基于翻譯模型的方法利用分布式表示來描述知識(shí)庫中的三元組，如TransE[9]、TransH[36]、TransR[37]、TransD[38]；

（2）基于語義分解的方法將知識(shí)庫中關(guān)系表示為矩陣，如DisMult[16]、ComplEx[39]；

（3）基于卷積層的方法解決全連接層在訓(xùn)練時(shí)的過擬合問題，如ConvE[14]；

（4）基于預(yù)訓(xùn)練語言模型的方法通過對(duì)三元組語義信息以及結(jié)構(gòu)信息編碼來對(duì)知識(shí)圖譜進(jìn)行表示，如KG-BERT[40]與StAR[21]。

3.2 實(shí)驗(yàn)指標(biāo)與參數(shù)設(shè)置

正如之前的介紹，實(shí)驗(yàn)通過知識(shí)圖譜上的推理結(jié)果來判斷模型的有效性。知識(shí)圖譜上的推理通常為鏈接預(yù)測，用以下幾個(gè)指標(biāo)來評(píng)估有效性：Hits@k，平均倒數(shù)排名（mean reciprocal ranking，MRR），平均排名（mean ranking，MR）。

Hits@k表示測試集S中目標(biāo)三元組的得分在候選三元組中得分排名在前k個(gè)的比例：

MRR計(jì)算目標(biāo)三元組在候選三元組中排名的平均倒數(shù)：

MR 計(jì)算目標(biāo)三元組在候選三元組中排名的平均倒數(shù)：

本節(jié)使用Hits@1、Hits@10 和MRR 來全面展示DRaM的有效性。

該方法實(shí)現(xiàn)的硬件環(huán)境是Tesla V100 GPU。深度學(xué)習(xí)的平臺(tái)為Python 3.6 與tensorflow1.14。其他參數(shù)設(shè)置如下：預(yù)訓(xùn)練模型含有12 個(gè)Transformer層、768維隱藏層以及12個(gè)多頭注意力機(jī)制。最大序列長度為256，學(xué)習(xí)率為0.1，訓(xùn)練批次為64，Dropout為0.1，優(yōu)化器選擇Adam[41]，迭代次數(shù)為10。

3.3 不同模型的性能對(duì)比

對(duì)于可微的知識(shí)圖譜上的推理，將DRaM與其他方法進(jìn)行性能比較，具體結(jié)果如表2和表3所示。

表2 可微推理比較結(jié)果Table 2 Comparison results of differentiable reasoning

表3 可微推理與表示學(xué)習(xí)方法比較結(jié)果Table 3 Comparison results of differentiable reasoning and representation learning

（1）與可微推理方法結(jié)果比較

表2中的結(jié)果說明了DRaM在鏈接預(yù)測中能取得有競爭力的效果。例如，與經(jīng)典的可微方法NeuralLP和DRUM比較，對(duì)于鏈接預(yù)測的指標(biāo)Hits@1與MRR，雖然沒有達(dá)到最優(yōu)結(jié)果，但是對(duì)于Hits@3 與Hits@10，DRaM幾乎已經(jīng)達(dá)到最佳的推理結(jié)果。尤其在數(shù)據(jù)集Kinship上，Hits@3與Hits@10已經(jīng)到達(dá)了1.00，充分說明了DRaM 的有效性。造成這種結(jié)果的原因可能是大語言模型對(duì)于計(jì)算三元組的得分函數(shù)上有很大的幫助，而鏈接預(yù)測的排名是由模型中的得分函數(shù)來進(jìn)行排序，因此所有三元組的整體得分排名都在前10。但是對(duì)于每個(gè)三元組預(yù)測時(shí)的準(zhǔn)確率，也就是Hits@1，還有待提高。

DRaM 在三個(gè)數(shù)據(jù)集上MRR 與Hits@1 的推理結(jié)果相較其他基線方法結(jié)果較低。兩個(gè)指標(biāo)相較于Hits@3 和Hits@10 主要反映了三元組得分的準(zhǔn)確程度。出現(xiàn)該現(xiàn)象主要原因是大規(guī)模語言模型的編碼部分會(huì)被數(shù)據(jù)集中謂詞的頻率影響[42]。在DRaM中，可微的規(guī)則抽取過程會(huì)將推理過程用一階邏輯公式（4）來表示，從而通過謂詞向量得到推理向量，并得到推理過程中抽取到的規(guī)則與其置信度。而對(duì)于Family 數(shù)據(jù)集，有限的關(guān)系個(gè)數(shù)會(huì)導(dǎo)致有限的謂詞，每個(gè)謂詞出現(xiàn)頻率不同，會(huì)對(duì)query 的表征產(chǎn)生偏差。在Family 數(shù)據(jù)集中，12 個(gè)謂詞不足以涵蓋所有的家庭成員關(guān)系。例如，以下一階邏輯對(duì)應(yīng)的推理過程：

在12 個(gè)謂詞中沒有可以正確匹配father_in_law 語義的答案。因此，在對(duì)query表征時(shí)不同謂詞出現(xiàn)頻率會(huì)使大規(guī)模語言模型影響表征結(jié)果，進(jìn)而影響抽取的一階邏輯規(guī)則與三元組的得分，尤其是影響得分的準(zhǔn)確程度，如MRR 與Hits@1 的結(jié)果。而對(duì)于Hits@3和Hits@10，盡管不能準(zhǔn)確得到其得分，但query的語義信息也與謂詞father_in_law語義有一定的相似性。

（2）與表示學(xué)習(xí)方法結(jié)果比較

表3 中的結(jié)果說明了DRaM 與基于表示學(xué)習(xí)的方法相比也能取得較好的結(jié)果。例如，對(duì)于平均排名指標(biāo)MR，相比于基于翻譯模型和基于語義分解的方法，DRaM可以得到具有競爭力的結(jié)果。對(duì)比同樣引入大語言模型的方法KG-BERT和StAR，雖然指標(biāo)MR略低于這兩種方法，但是對(duì)于Hits@10，不管是基于翻譯模型、基于語義分解模型的方法，還是基于大語言模型的方法，DRaM都可以得到最優(yōu)的結(jié)果。同時(shí)，將DRaM 與黑盒的表示學(xué)習(xí)方法比較，可以獲得一階邏輯規(guī)則，為知識(shí)圖譜上的推理過程提供可解釋性。

3.4 消融實(shí)驗(yàn)

表4 的結(jié)果說明了在DRaM 中運(yùn)用大規(guī)模預(yù)訓(xùn)練語言模型LLM與MLP的作用，同時(shí)在UMLS數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。分別去掉LLM以及MLP后的兩種方法表示為“DRaM-w/o-LLM”和“DRaM-w/o-MLP”。通過知識(shí)圖譜上的推理結(jié)果可以看到，當(dāng)去掉LLM后，鏈接預(yù)測指標(biāo)Hits@10下降了16.0個(gè)百分點(diǎn)，MR 上升了375.9%。去掉MLP后，鏈接預(yù)測指標(biāo)Hits@10下降了35.7個(gè)百分點(diǎn)，MR上升了628.9%。由此結(jié)果可以驗(yàn)證DRaM中主要模塊的有效性。

表4 消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experiment results

3.5 參數(shù)分析

本節(jié)通過對(duì)重要參數(shù)的分析來說明參數(shù)選值對(duì)可微推理的重要性。

（1）對(duì)規(guī)則最大長度的分析

在DRaM中，通過抽取一階邏輯規(guī)則來進(jìn)行可微推理。這一過程中，規(guī)則的長度以及數(shù)量會(huì)影響可微推理的效果。圖3（a）記錄了當(dāng)抽取的規(guī)則最大長度L=2,3,4 時(shí)對(duì)鏈接預(yù)測結(jié)果的影響。從推理結(jié)果可以看出，當(dāng)L=3 時(shí)，DRaM可以獲得最佳的推理效果。這說明完整且較長的一階邏輯規(guī)則可以得到更好的推理結(jié)果，但是過多的規(guī)則也會(huì)存在噪聲，影響模型效果。

圖3 不同參數(shù)對(duì)DRaM可微推理結(jié)果的影響Fig.3 Impact of different parameters on differentiable reasoning by DRaM

（2）對(duì)預(yù)訓(xùn)練語言模型類別的分析

考慮到方法實(shí)現(xiàn)的效率與復(fù)雜度，比較了不同的大規(guī)模語言模型對(duì)可微推理結(jié)果的影響。這里，選擇BERT（bidirectional encoder representation from transformers）[43]和輕量級(jí)的ALBERT（a lite bidirectional encoder representation from transformers）[44]作為預(yù)訓(xùn)練語言模型對(duì)DRaM 進(jìn)行編碼。如圖3（b）所示，可以看出，不同的LLM 會(huì)影響可微推理的結(jié)果。對(duì)于4個(gè)鏈接預(yù)測指標(biāo)，Hits@1 在使用ALBERT 時(shí)相比較BERT 結(jié)果較低，其他指標(biāo)如Hits@3、Hits@10 和MRR只是略低于BERT。

（3）對(duì)嵌入向量維度的分析

除此之外，比較了不同的嵌入向量維度對(duì)可微推理結(jié)果的影響。如圖3（c）所示，記錄了當(dāng)嵌入向量維度分別為128、256 以及512 時(shí)鏈接預(yù)測的結(jié)果。從記錄的結(jié)果可以得到，當(dāng)維度為128 時(shí)，鏈接預(yù)測中的Hits@1 指標(biāo)較低。而當(dāng)維度為512 時(shí)，Hits@1同樣會(huì)有較為明顯的下降。當(dāng)嵌入向量維度為256時(shí)，DRaM可以得到最好的可微推理結(jié)果。這說明嵌入向量的維度會(huì)對(duì)三元組的得分以及鏈接預(yù)測的準(zhǔn)確率有較大影響。

3.6 可解釋性與規(guī)則抽取

DRaM 在進(jìn)行可微推理的時(shí)候可以抽取出一階邏輯規(guī)則。每個(gè)一階邏輯規(guī)則都有置信度來表示其合理性。表5 為在數(shù)據(jù)集UMLS 和Family 進(jìn)行可微推理的過程中，DRaM抽取出的一階邏輯規(guī)則。如表中所示，當(dāng)query 為Isa 時(shí)，抽取出的置信度更高的規(guī)則更加合理。比如，對(duì)于規(guī)則Isa(B,A)←equal(B,A)，置信度值為1，這條規(guī)則是一條正確的規(guī)則。而對(duì)于置信度為0.5 的規(guī)則Isa(C,A)←Indicates(C,B) ∧Indicates(B,A)，Indicates(C,B)意為“表示”，但不代表完全相同，因此，置信度并不為1。這說明通過DRaM抽取出的置信度和規(guī)則結(jié)構(gòu)合理。

表5 規(guī)則抽取結(jié)果Table 5 Extracted rules with confidences

4 結(jié)論與未來工作

本文在知識(shí)圖譜的推理任務(wù)上，提出了一種可微的推理范式，通過融合一階邏輯規(guī)則對(duì)知識(shí)圖譜上的推理提供了可解釋性。在實(shí)現(xiàn)過程中，針對(duì)連續(xù)空間與離散空間的鴻溝，設(shè)計(jì)得分函數(shù)對(duì)推理結(jié)果進(jìn)行評(píng)估，同時(shí)融合離散的邏輯符號(hào)公式以及連續(xù)的嵌入向量空間；對(duì)于一階邏輯規(guī)則中原子公式的順序問題，通過引入大規(guī)模語言模型對(duì)邏輯規(guī)則進(jìn)行編碼，提升規(guī)則融合效果。此過程不僅能夠在三個(gè)知識(shí)圖譜數(shù)據(jù)集上得到較好的推理結(jié)果，同時(shí)可以為模型提供可解釋性。

未來，將會(huì)在更多的知識(shí)圖譜上驗(yàn)證方法的有效性，比如通用知識(shí)圖譜、教育領(lǐng)域的知識(shí)圖譜。同時(shí)也會(huì)在更多場景驗(yàn)證可微推理的作用，比如歸納學(xué)習(xí)領(lǐng)域等。