李 源,馬新宇,楊國利,趙會群,宋 威
1.北方工業(yè)大學 信息學院,北京 100144
2.北京大數(shù)據(jù)先進技術(shù)研究院,北京 100195
“因果關(guān)系”[1]是指存在于事件之間的一種關(guān)系,即“原因”與“結(jié)果”之間的對應關(guān)系,是一種重要的關(guān)系類型。一般來講,一個事件是很多原因綜合產(chǎn)生的結(jié)果,且原因都發(fā)生在較早時間點,而該事件又可成為其他事件的原因。與描述性或預測性任務不同,因果關(guān)系推斷旨在理解干預一個變量如何影響另一個變量[2]。
因果關(guān)系推斷作為一項重要的研究課題,在許多領(lǐng)域中有極高的應用價值。一旦做到真正理解因果關(guān)系背后的邏輯,即可在計算機上進行模擬,進而創(chuàng)造出一個“因果關(guān)系推斷專家系統(tǒng)”。這個系統(tǒng)將可能為解釋或發(fā)現(xiàn)未知的現(xiàn)象或規(guī)律,解決久而未解的科學問題,開發(fā)和設(shè)計新的實驗,并不斷地從環(huán)境中獲取更多的因果知識,進而為社會和民眾帶來福祉。例如:在數(shù)據(jù)庫領(lǐng)域,從文本數(shù)據(jù)中提取出事件的因果信息可以填充事件數(shù)據(jù)庫,為事件數(shù)據(jù)庫提供有價值的事件數(shù)據(jù)[3];在事件預測領(lǐng)域,因果關(guān)系推斷可應用于重大事件或突發(fā)事件的預測,有助于政府迅速做出反應和決策[4];在生物制藥領(lǐng)域,因果關(guān)系推斷可以用來識別藥物分子之間的相互作用或藥物分子對某疾病的治療效果及作用,以了解其性質(zhì)和疾病的發(fā)病機制[5]?,F(xiàn)如今,隨著越來越多的深度學習模型的誕生,模型的可解釋性也成為研究人員越來越關(guān)注的問題,因此研究模型輸入與輸出之間的因果關(guān)系可以增強模型的可解釋性[6]??傊S多領(lǐng)域在未來都可以從因果關(guān)系推斷技術(shù)或系統(tǒng)中獲益。
傳統(tǒng)的因果關(guān)系推斷方法分為兩種:一是面向樣本數(shù)據(jù)的因果關(guān)系推斷。以隨機對照實驗為例,為了研究發(fā)現(xiàn)藥物的療效,患者將被隨機地分為治療組和對照組,通過比較兩組患者的平均結(jié)果來衡量藥物對某疾病的康復效果的影響[7]。二是面向文本語義分析進行因果關(guān)系發(fā)現(xiàn)。具體過程是首先通過自然語言處理技術(shù),將文本數(shù)據(jù)轉(zhuǎn)換成可計算的形式,例如提取文本中的實體、關(guān)系等信息;然后利用機器學習、深度學習等技術(shù)對獲得的信息進行建模,得到變量之間的因果關(guān)系。
知識圖譜是一種用于表示實體關(guān)系的圖形結(jié)構(gòu),其中蘊含豐富的實體間的關(guān)系信息(例如因果關(guān)系信息)。大語言模型擁有海量參數(shù),可以從上下文信息和對語義理解進行因果推斷。但在目前眾多有關(guān)因果關(guān)系推斷的文獻中[8],尚未涌現(xiàn)對知識圖譜和大模型因果關(guān)系推斷的總結(jié)性文獻。鑒于此,經(jīng)過深入的調(diào)查研究(見表1),本文對面向知識圖譜和大模型的相關(guān)因果關(guān)系推斷方法進行總結(jié),將傳統(tǒng)因果關(guān)系推斷方法進行了分類詳述,并對未來因果關(guān)系推斷的發(fā)展趨勢(如圖1)進行了詳細總結(jié)和對比。
表1 因果關(guān)系推斷相關(guān)文獻Table 1 Related literature on causality inference
本文對因果關(guān)系推斷的方法和模型進行了深入的分類討論。從多個關(guān)鍵方面出發(fā),包括面向樣本數(shù)據(jù)、文本語料、知識圖譜以及大模型等,從而更加準確和詳盡地對因果關(guān)系推斷方法進行討論。(1)傳統(tǒng)的因果關(guān)系推斷方法:這一類方法主要分為面向樣本觀測數(shù)據(jù)和文本語料兩類。面向樣本數(shù)據(jù)的方法基于統(tǒng)計學原理,挖掘數(shù)據(jù)變量之間的因果關(guān)系;而面向文本語料的因果關(guān)系發(fā)現(xiàn)方法通過分析文本中的邏輯關(guān)系、因果信號和主題詞等,可以從大規(guī)模文本語料中挖掘出潛在的因果關(guān)系。(2)面向知識圖譜的因果關(guān)系推斷方法:知識圖譜是一種用于表示實體關(guān)系的圖狀結(jié)構(gòu),其中蘊含豐富的因果關(guān)系信息?;谥R圖譜的方法可以通過對圖譜中的實體和關(guān)系進行推理,揭示出潛在的因果聯(lián)系。這類方法有助于將外部領(lǐng)域知識融入因果關(guān)系推斷過程。(3)面向大語言模型的因果關(guān)系推斷方法:大模型可以從多源數(shù)據(jù)中學習因果關(guān)系的模式,利用上下文信息和語義理解進行推斷,從而提高因果關(guān)系的準確性和普適性。(4)知識圖譜與大模型相結(jié)合的因果關(guān)系推斷方法:旨在利用知識圖譜的結(jié)構(gòu)信息和大型語言模型的文本理解能力來深入理解和推斷因果關(guān)系。
通過從以上幾個方面進行分類,能夠更全面地理解不同因果關(guān)系推斷方法的優(yōu)勢和局限性。本文旨在為讀者提供一個系統(tǒng)性的視角,幫助研究此方向的學者以及對此方向感興趣的讀者能夠更好地把握因果關(guān)系推斷領(lǐng)域的發(fā)展趨勢和前沿動態(tài)。通過綜合考慮統(tǒng)計學、文本語料、知識圖譜和大語言模型等多個方面,本文希望能夠為因果關(guān)系推斷方法的討論提供更加深入和全面的內(nèi)容,促進該領(lǐng)域的研究和發(fā)展。
早期因果關(guān)系推斷是在沒有實驗設(shè)計或者隨機分配的情況下,通過觀察變量之間的關(guān)系來推斷因果關(guān)系的方法。這種方法可以追溯到18世紀的哲學家大衛(wèi)·休謀,他提出了“常見的連續(xù)性”(常見的聯(lián)系)的概念,即通常只能通過經(jīng)驗觀察到兩個事件的關(guān)系,而無法知道其中一個事件是因果于另一個事件。
隨著統(tǒng)計學等學科的發(fā)展,一些早期的因果關(guān)系推斷方法逐漸得到了發(fā)展和完善,例如卡方檢驗[9]、Pearson相關(guān)系數(shù)[10]、多元回歸分析[11]等方法。這些方法都可以用于檢驗兩個或多個變量之間的關(guān)系(因果效應),并推斷其中的因果關(guān)系。但是,由于沒有實驗設(shè)計,這些方法并不能完全消除混淆變量的影響。因此,現(xiàn)代的因果推斷方法則更加嚴格,例如隨機化對照實驗、自然實驗和文本數(shù)據(jù)統(tǒng)計分析等。通過這些方法通常更能保證因果關(guān)系推斷的準確性。
本文從多個關(guān)鍵方面出發(fā),包括面向樣本數(shù)據(jù)文本語料、知識圖譜以及大模型等,從而更加準確和詳盡地對因果關(guān)系推斷方法展開討論。
傳統(tǒng)的因果關(guān)系推斷方法根據(jù)其面向的對象可以分為兩大類:面向樣本觀測數(shù)據(jù)和面向文本語料的方法。面向樣本觀測數(shù)據(jù)的因果關(guān)系推斷方法主要依賴于統(tǒng)計學相關(guān)技術(shù)來推斷因果關(guān)系[12]。這些方法建立在統(tǒng)計學的基礎(chǔ)上,基于假設(shè),即如果兩個變量之間存在因果關(guān)系,那么它們之間必定存在一定的統(tǒng)計聯(lián)系。因此,通過分析這兩個變量之間的統(tǒng)計關(guān)系,可以得出它們之間可能存在因果關(guān)系的結(jié)論。而面向文本數(shù)據(jù)的因果關(guān)系推斷方法則側(cè)重于從文本中提取因果關(guān)系,通常需要進行一系列文本處理步驟,如分詞、詞性標注、實體識別等。接著,借助自然語言處理技術(shù)來分析文本中的語義信息,以發(fā)現(xiàn)其中隱藏的因果關(guān)系。這類方法通常需要倚賴領(lǐng)域知識和語言模型的支持,以更準確地提取和理解文本中的因果關(guān)系信息。
在統(tǒng)計學領(lǐng)域,許多優(yōu)秀學者為因果關(guān)系推斷的研究與發(fā)展做出了卓越貢獻,F(xiàn)isher[13]及Neyman等[14]各自從統(tǒng)計學家的立場出發(fā),分別提出了從潛在結(jié)果和隨機的視角來討論因果關(guān)系。Fisher提出了“隨機對照實驗”的概念,而Neyman 提出“潛在結(jié)果”并將其應用于隨機對照實驗。Rubin在文獻[15]中進一步結(jié)合了“潛在結(jié)果”和“隨機對照實驗”這兩個概念,系統(tǒng)性地提出了潛在結(jié)果模型的理論假設(shè)、核心內(nèi)容和推理方法。Neyman 利用數(shù)學語言描述了潛在結(jié)果框架下的因果效應,Rubin將這一數(shù)學定義推廣到觀察性研究中。
隨機對照實驗是推斷因果關(guān)系的最高效的方式,將對象隨機分成兩組,并且控制兩組只有待驗證的變量不同,其他變量相同,觀察結(jié)果。在科學研究中,使用隨機分配機制將子對象分配給不同的治療組的隨機對照實驗作為建立因果關(guān)系的黃金標準有著悠久的歷史。然而,在許多情況下,隨機實驗在實踐中既不可行,也不符合倫理,因此研究人員需要依靠觀察數(shù)據(jù)來推斷因果關(guān)系,進而將隨機對照實驗方法進行了推廣。
推廣隨機對照實驗的一種常見方法是通過傾向評分。Rosenbaum 和Rubin 在文獻[16]中表明,如果治療分配沒有根據(jù)隨機變量的情況確定,那么它同樣沒有根據(jù)傾向評分確定,這表明根據(jù)傾向評分進行調(diào)整可以消除觀察性研究中的混淆。一旦估計了傾向得分,即可進一步應用匹配、分層和逆概率加權(quán)等方法進行因果關(guān)系推斷。
但是觀察性研究僅針對觀測數(shù)據(jù)進行觀察,以推斷變量間的因果效應,但這種方法不能由研究者決定是否針對某些研究對象采取干預或?qū)φ詹僮?,并且如果忽略了協(xié)變量的作用,僅使用隨機對照實驗進行因果關(guān)系推斷就會產(chǎn)生偏差,這種偏差又稱為“混淆因素”。文獻[17]在相關(guān)關(guān)系的基礎(chǔ)上定義混淆因素為:假如兩個變量之間的相關(guān)關(guān)系受到第三個變量的影響,則稱第三個變量為混淆因素。文獻[2]則從潛在結(jié)果的角度出發(fā)對混淆因素進行了定義:p(Y1|X=1)=p(Y1|X=0)且p(Y0|X=1)=p(Y0|X=0),即若潛在結(jié)果Y0和Y1的分布情況與對照總體的潛在結(jié)果分布情況相同,則說明干預組與對照組之間無混淆因素干擾。因此觀察性研究不再滿足隨機對照實驗的條件。為了表述因果關(guān)系,Rubin 在文獻[18]中提出了一種潛在結(jié)果框架,其中一個重要概念為“因果效應”。因果效應是指在給定一些特定的干預措施(例如藥物或教育方案)下,響應變量(例如治愈率或考試成績)發(fā)生的變化。為了衡量這種效應,Rubin提出了一個符號體系來表述潛在結(jié)果框架:
其中,τ表示因果效應,E表示期望值,Y(i),i=0,1 表示潛在結(jié)果下的響應變量。
在實際應用中,由于無法同時觀察到Y(jié)(0) 和Y(1),需要利用統(tǒng)計學的方法來估計因果效應,從而進行因果關(guān)系推斷。然而潛在結(jié)果框架只能觀察和實現(xiàn)其中一個潛在結(jié)果,因此存在缺失數(shù)據(jù)的問題。并且當涉及到識別因果路徑或可視化因果網(wǎng)絡(luò)時,潛在結(jié)果框架具有自身的局限性。
因此,Munch等在文獻[19]中提出了一種交互式方法,從已知邊圖表示的任何給定相關(guān)領(lǐng)域建立概率關(guān)系模型。結(jié)合本體論和專家知識,定義了一組轉(zhuǎn)化為關(guān)系模式的約束。通過此關(guān)系模式可以學習概率關(guān)系模型,并可以應用因果關(guān)系推斷。此方法的主要思想是在給定因果約束下的學習概率模型,從學習到的模型中,提取因果知識。Yuan等在文獻[20]提出結(jié)構(gòu)方程模型(structural equation model,SEM),研究可觀測變量與潛在變量,以及潛在變量之間關(guān)系。SEM是一種能夠把樣本數(shù)據(jù)間復雜的因果聯(lián)系用相應的模型方程表現(xiàn)出來并加以測量、進行分析的模型方法。結(jié)構(gòu)方程模型針對一些數(shù)據(jù)本身不能直接詢問或測量得到,即所謂以潛在變量的形式,對數(shù)據(jù)模型進行估計的分析方法。結(jié)構(gòu)方程模型包括兩個基本模型,分別為測量模型和結(jié)構(gòu)模型,測量模型由潛在變量、觀測變量以及測量誤差項組成,主要分析潛在變量對觀測變量的影響效果。Awang等在文獻[21]中引入了非參數(shù)結(jié)構(gòu)方程模型(non-parametric structural equation model,NPSEM),對結(jié)構(gòu)方程模型和松弛的線性假設(shè)進行了調(diào)整。對于NPSEM,它允許研究人員更自由地探索變量之間的關(guān)系,而不受事先設(shè)定的參數(shù)假設(shè)的束縛。這有助于發(fā)現(xiàn)潛在的非線性關(guān)系、交互作用和因果關(guān)系,從而提供更準確和全面的分析結(jié)果。
面向圖模型的結(jié)構(gòu)因果模型(structure causal model,SCM)是傳統(tǒng)因果推斷中最常用的模型之一。在文獻[22]中,Pearl詳細闡述了潛在結(jié)果模型與結(jié)構(gòu)因果模型之間的等價性。相比之下,潛在結(jié)果模型更加精確地代表觀察數(shù)據(jù),從而有助于推斷因果關(guān)系模型,而結(jié)構(gòu)因果模型更加直觀。Pearl 在貝葉斯網(wǎng)絡(luò)領(lǐng)域提出了外部干預的概念,并為面向外部干預提供了一種形式化表達方法,這一概念開創(chuàng)了一種從數(shù)據(jù)中挖掘因果關(guān)系和理解數(shù)據(jù)生成機制的方法。因此,本節(jié)總結(jié)了因果圖模型方法以及面向知識圖譜的因果關(guān)系推斷相關(guān)的概念和方法。這些方法為人們更深入地理解因果關(guān)系提供了強大工具。
圖論是一種廣泛被應用的數(shù)學語言,它能夠直觀地描述事物之間的相互影響關(guān)系,并且可以通過簡單的計算解決因果問題。在數(shù)學中,有向圖[23]中節(jié)點X和Y之間的路徑是指從X開始到Y(jié)結(jié)束的一系列由邊連接的節(jié)點。路徑上的第一個節(jié)點稱為該路徑上所有節(jié)點的祖先節(jié)點,而其他節(jié)點則是祖先節(jié)點的后代節(jié)點[24]。如果路徑沿著箭頭方向追蹤,那么這條路徑就稱為有向路徑。當圖中存在一個節(jié)點存在回到自身的有向路徑時,這個圖被稱為有環(huán)圖,而沒有環(huán)的有向圖則稱為有向無環(huán)圖(directed acyclic graph,DAG)[25]。
結(jié)構(gòu)因果模型是一種圖形表示的因果關(guān)系模型,可以描述一個或者多個變量之間的因果關(guān)系的圖形表示。形式上,SCM 可以表示為一個四元組
面向有向無環(huán)圖的結(jié)構(gòu)因果模型[26]因果關(guān)系的推斷依賴于有向無環(huán)圖的三種基本路徑結(jié)構(gòu),即因果鏈條、共同原因和共同結(jié)果三種結(jié)構(gòu)。因果鏈條結(jié)構(gòu)可以表示為X→Y→Z,表示信息盡可以單向傳遞;共同原因結(jié)構(gòu)X←Y→Z表示信息可以從中間節(jié)點傳遞給兩端節(jié)點;共同結(jié)果結(jié)構(gòu)X→Y←Z表示中間節(jié)點同時接收兩端節(jié)點的消息。通過這三種結(jié)構(gòu)(如圖2)可以將結(jié)構(gòu)因果模型中任意路徑進行拆分,以至于考慮到結(jié)構(gòu)因果模型中全部的因果路徑,從而可以準確推斷出因果關(guān)系。
Richardson和Robins等在文獻[27]中引入單一世界干預圖,該圖統(tǒng)一了圖形理論和潛在結(jié)果框架。具體來說,對于在系統(tǒng)中設(shè)置的XA=xA的任何干預,表示為G[X(XA=xA)]的單一世界干預圖可以從DAG中構(gòu)造而來,從而進行因果關(guān)系推斷。該模型利用DAG表示隨機變量之間的因果關(guān)系,并引入干預變量的概念來描述針對某些變量進行的干預操作。SWIG(single world intervention graph)模型通過對DAG 上的治療節(jié)點進行“分裂”操作,形成新的圖形,該圖形上的節(jié)點對應于對治療變量進行干預后的反事實變量,即對于干預前原始的變量取值的替代值。Pearl[22]通過將結(jié)構(gòu)方程和有向圖結(jié)合進行因果結(jié)構(gòu)建模,并以此推斷因果關(guān)系。
傳統(tǒng)的面向圖模型的因果關(guān)系推斷方法可以分為兩類:第一類方法是面向條件獨立性關(guān)系,其代表性算法為(Peter Clark,PC)算法[28]、FCI(fast causal inference)算法[28]和GES(greedy equivalence search)算法[29]。這類方法通過判斷變量之間的條件獨立性來構(gòu)建無向圖,然后通過一系列的步驟來判斷圖中邊的方向。第二類方法是面向結(jié)構(gòu)方程模型的方法,其代表性模型為非時序線性非高斯(linear non-Gaussian acyclic model,LINGAM)模型、非線性加性噪聲(additive noise model,ANM)模型和后非線性因果模型(post-nonlinear causal model,PNL)。
PC算法的核心思想是面向條件獨立性關(guān)系來推斷DAG 的結(jié)構(gòu),并通過刪邊和方向傳播等操作來確定DAG 中邊的方向。PC 算法詳細步驟如下所示:(1)PC 算法從一個完整的無向圖G開始。(2)對于每一對變量i和j,算法逐個檢查當n=0,1,…,d-2 時,是否存在一些其他n個變量的條件使得i和j之間獨立。如果滿足條件,移除i和j之間的無向邊,并更新條件變量到分離集。算法繼續(xù)執(zhí)行,得到修建后的骨架。(3)算法確定V-結(jié)構(gòu),從而獲得CPDAG(completed partially directed acyclic graph),并根據(jù)其他規(guī)則確定剩余的無向邊。PC算法在提取非時間數(shù)據(jù)中的因果關(guān)系時具有高效、可擴展性強等優(yōu)點。同時在處理大規(guī)模數(shù)據(jù)時也能夠得到比較準確的結(jié)果。
同時,F(xiàn)CI算法是PC算法的一種改進,可以處理存在未知混淆變量的情況,能夠更加準確地推斷DAG 結(jié)構(gòu)。FCI 算法的開始步驟類似于PC 算法,構(gòu)建包含無向邊的完整圖,然后進行迭代條件獨立性測試來移除邊緣。FCI 算法利用Prossible-Dsep 和Sepsets 進行條件化時,首先移除獨立的邊緣。對剩下的邊應用10 個方向規(guī)則進行遞歸定向,構(gòu)建適當?shù)挠邢驘o環(huán)圖。詳細的步驟可以在文獻[30]中找到,此文的作者詳細闡述了此算法的正確性和完備性。GES(optimal structure identification with greedy search)算法首先從一個完全無向圖出發(fā),采用貪心的方式不斷地向模型中添加邊(依賴關(guān)系),從而得到打分函數(shù)局部最大的結(jié)構(gòu)圖。其次利用貪心算法逐步刪除有向邊,直到得分函數(shù)不再變化,得到最后的因果結(jié)構(gòu)圖。GES 算法結(jié)合了PC 算法的優(yōu)點,在準確性和計算效率之間取得了良好的平衡,尤其適用于中等規(guī)模的數(shù)據(jù)集。PC算法與FCI算法均基于一種稱為D-分離(D-Separation)[31]的方法。D-分離是圖形模型中的一個基本概念,用于確定在DAG中,給定一個第三個節(jié)點集合Z,兩個節(jié)點集合X和Y是否在條件下相互獨立,其中這三個集合是不相交的。如果X和Y之間的所有路徑都被條件集合Z所阻斷,那么稱X和Y在Z的條件下是通過D-分離的。
非時序線性非高斯(LINGAM)模型[32]也是一種用于因果關(guān)系推斷的方法,基于LINGAM 的因果關(guān)系推斷需要滿足3個假設(shè):(1)因果順序假設(shè),觀測變量按照一定的因果順序進行排序。在這個排序中,原因變量必須位于結(jié)果變量之前,換言之,各種觀測變量的因果圖模型必須是有向無環(huán)圖。這是應用此方法進行因果發(fā)現(xiàn)最基本的假設(shè),它指示了變量之間的因果關(guān)系的方向。(2)因果充分性假設(shè),在模型中,變量集合中的任意兩個變量的直接原因都存在于已觀測的變量集合中。(3)數(shù)據(jù)生成方式假設(shè),數(shù)據(jù)生成的過程是線性的,原因變量和結(jié)果變量之間的函數(shù)關(guān)系服從線性關(guān)系(式(2))。
其中,ei為噪聲項,ci為偏置常數(shù)項。噪聲項ei之間相互獨立。噪聲項ei服從高斯分布。
傳統(tǒng)的面向得分的因果推斷方法[33]依賴于各種局部啟發(fā)式方法,根據(jù)預定義的得分函數(shù)搜索DAG。雖然這些方法在樣本無限且符合某些模型假設(shè)時可能具有顯著的效果,但在實驗過程中由于數(shù)據(jù)有限且可能存在假設(shè)違規(guī)的情況,其表現(xiàn)是不令人滿意的。因此,Zhu 等在文獻[34]中提出使用強化學習(reinforcement learning,RL)來搜索得分最高的DAG。其將編碼器-解碼器模型以可觀測數(shù)據(jù)作為輸入,并生成用于計算獎勵的圖鄰接矩陣。獎勵預先定義的得分函數(shù)和強制保持無環(huán)性而引入的兩個懲罰項。與典型的RL 應用不同,其目標是學習一種策略,并將RL用作搜索策略,最終得到的輸出是在訓練過程中生成的所有圖中獲得最佳獎勵的圖。其在合成數(shù)據(jù)集和真實數(shù)據(jù)集進行了實驗,結(jié)果顯示所提出的方法不僅具有改進的搜索能力,而且在滿足無環(huán)性約束的情況下可以使用更靈活的得分函數(shù)。
面向統(tǒng)計學的方法利用數(shù)據(jù)分析,它試圖從觀察到的數(shù)據(jù)中推斷出兩個變量之間的相關(guān)性。然而相關(guān)性并不意味著因果關(guān)系。因此,這種方法假設(shè)通過對數(shù)據(jù)進行統(tǒng)計分析,可以確定變量之間的因果關(guān)系。Heckerman在文獻[35]中引入了一種面向約束的貝葉斯網(wǎng)絡(luò)的因果關(guān)系推斷方法。該方法通過建立節(jié)點之間的概率依賴關(guān)系從而推斷因果關(guān)系。由于面向約束的方法容易受到數(shù)據(jù)集中可能出現(xiàn)的錯誤分類決策的影響,在之后的研究中Heckerman在文獻[36]中引入了面向貝葉斯的方法用于因果關(guān)系推斷。將先驗分布和似然函數(shù)結(jié)合起來計算后驗分布,從而得到模型參數(shù)的估計值,通過參數(shù)的估計值進行因果關(guān)系推斷。完全依賴于統(tǒng)計學的方法通常會帶來誤導性、偏見性和泛化性差的結(jié)果,在解決特性領(lǐng)域的問題時可能需要更廣泛的領(lǐng)域知識。
Morgan 在文獻[37]中介紹了使用傳統(tǒng)(非文本)數(shù)據(jù)集進行有效因果推斷的技術(shù),但將這些技術(shù)應用于自然語言數(shù)據(jù)會帶來新的挑戰(zhàn)。面向文本語料的因果關(guān)系抽取主要分為兩種方法,一種是基于模式匹配的方法,一種是基于自然語言處理(natural language processing,NLP)技術(shù)和機器學習算法來從文本數(shù)據(jù)中抽取出因果關(guān)系。
2.2.1 基于模式匹配的方法
文獻[38]分析了法語中具有因果含義的動詞,并實現(xiàn)了一個名為COATIS的系統(tǒng),用于抽取帶有標記的顯示因果關(guān)系的句子,其中句子具有“CauseVerb Effect”的結(jié)構(gòu)。這意味著COATIS 系統(tǒng)可以識別并標記出表達因果關(guān)系的句子,其中動詞在句子中起到因果關(guān)系的作用。但COATIS 系統(tǒng)只考慮動詞作為因果連接詞。因此,文獻[39]在考慮動詞的基礎(chǔ)上,同時考慮一些介詞(如“for”和“from”等)、狀語連接詞(如“so”“hence”和“therefore”等)以及子句(如“that's why”和“the result is”等)也可以表達因果關(guān)系。為了抽取帶標記的因果關(guān)系,采用了模式匹配的方法,并從人工標注的華爾街日報的語料中提取帶有標記的因果關(guān)系。
2.2.2 基于機器學習的方法
當今基于機器學習或深度學習模型對因果關(guān)系抽取主要從三方面進行研究。
(1)對文本進行分類。根據(jù)句子是否包含因果關(guān)系進行分類。通過文獻[40]的提出,有兩種方法可供選擇:一種是面向知識特征的分類模型;另一種是面向深度學習的方法,通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對句子中的因果關(guān)系進行分類。這個模型能夠識別明顯的因果關(guān)系和隱含的因果關(guān)系,并確定因果關(guān)系的方向。而根據(jù)文獻[41]的研究,通過使用平行的維基百科語料庫,可以識別新的標記,這些標記是已知因果短語的變體。通過遠程監(jiān)督創(chuàng)建訓練集,并利用開放類標記的特征和上下文信息的語義特征來訓練因果關(guān)系分類器。
(2)對文本中包含的關(guān)系進行抽取。根據(jù)文獻[42]的研究,他們將SemEval 數(shù)據(jù)集中的單詞擴展為短語,并將一對一的因果關(guān)系擴展為多對多的因果關(guān)系。他們提出了一種新的約束隱藏樸素貝葉斯模型,用于提取文本中的顯式因果關(guān)系。但此模型需要事先知道先驗概率,因此增加了特征工程的繁瑣度。而根據(jù)文獻[43]的研究,他們利用生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GANs)的對抗學習特性,將帶有注意力機制的雙向門控循環(huán)單元網(wǎng)絡(luò)(bidirectional gated recurrent unit,BiGRU)與對抗學習相融合,提出了一種融合對抗學習的因果關(guān)系抽取方法,從而避免了繁瑣的特征工程。另外,根據(jù)文獻[44]的研究,他們采用多列卷積神經(jīng)網(wǎng)絡(luò)來抽取因果關(guān)系,利用從網(wǎng)絡(luò)文本中提取的背景知識以及從原始句子中提取的因果關(guān)系候選信息,但需要進行大量的自然語言處理(NLP)預處理工作。
(3)進行序列標注。根據(jù)文獻[45]的研究,他們采用層疊條件隨機場來抽取事件間的因果關(guān)系,并將因果關(guān)系擴展到跨句、跨段、多因多果等多種類型。在這個過程中,進行了大量的特征工程構(gòu)建。而根據(jù)文獻[46]的研究,他們利用單詞級別的詞向量和語義特征,通過雙向長短期記憶網(wǎng)絡(luò)(bi-directional long-short term memory,BiLSTM)標注句子中的原因、結(jié)果和因果連接詞,并將標記擴展到短語,包括虛詞“of”等。另外,根據(jù)文獻[47]的研究,他們利用因果關(guān)系的時間特性,重新定義因果抽取為一種特殊的時間提取方法,并通過引入多層條件隨機場模型將任務轉(zhuǎn)化為序列標注的過程。此外,王朱君等在文獻[3]中引入了面向流水線的因果關(guān)系發(fā)現(xiàn)方法:在流水線方式的因果關(guān)系抽取中,關(guān)系分類任務利用事件檢測階段標注出的語料。這一任務是對已標記事件的語料進行因果關(guān)系的判別。因果關(guān)系抽取是目前研究較少的領(lǐng)域之一。雖然因果關(guān)系分類是特殊的關(guān)系分類任務,但其主要目標是抽取出語料中實體對之間存在的關(guān)系。因此,它與抽取事件間的關(guān)系的任務類似。
此外,Blei 等在文獻[48]中提出了潛在狄利克雷分配(latent Dirichlet allocation,LDA)模型,該模型是一種面向概率圖的主題模型。它假設(shè)每個文檔包含多個主題,每個主題又由一組詞項構(gòu)成。LDA 通過對文檔中的詞項分布和主題分布進行推斷,從而得到文本的主題結(jié)構(gòu)。LDA具有更好的靈活性和可解釋性,能夠更準確地捕捉到文本中的主題關(guān)系。Devlin等在文獻[49]中提出了從文本上下文嵌入,為從文本中提取出有效信息以估計因果效應提供了有效的方法,以估計因果效應。Veitch 等在文獻[50]中使用文本嵌入的方式進行因果關(guān)系推斷。由于文本的維度非常高,作者在這篇文章中提出了一種對文本的因果嵌入的方式。這種方式結(jié)合了兩個思路:第一是在有監(jiān)督的前提下對文本進行降維;第二是進行高效的語言建模,將語言上不相關(guān)(這些信息因果上也不相關(guān))的文本剔除,有效提高了利用文本嵌入方式進行因果推斷的準確度。
在面向文本語料的因果關(guān)系發(fā)現(xiàn)中,存在一些混淆的因素,這些混淆因素會對因果發(fā)現(xiàn)的結(jié)果產(chǎn)生影響,因此需要在因果關(guān)系發(fā)現(xiàn)中加以考慮。一些學者應用面向自然語言處理(NLP)的方法發(fā)現(xiàn)混淆因素:一組方法應用無監(jiān)督的降維方法,將高維文本數(shù)據(jù)降維為低維變量集。這些方法包括潛在變量模型,如主題模型、嵌入方法和自動編碼器。Roberts等[51]以及Sridhar 和Getoor[52]應用主題模型從文本數(shù)據(jù)中提取混淆因素。Mozer 等[53]在單詞袋表示上使用距離度量來匹配文本。
知識圖譜(knowledge graphs,KGs)是一種用于表示現(xiàn)實世界知識的圖形化結(jié)構(gòu),在2012年,由谷歌正式提出[54]。其將結(jié)構(gòu)化數(shù)據(jù)存儲為三元組KG={(ο,γ,τ)?E ×R×E },其中E和R 分別代表實體和關(guān)系。目前,知識圖譜可以分為四類(如圖3)[55]:(1)百科全書式知識圖譜;(2)常識性知識圖譜;(3)領(lǐng)域特定知識圖譜;(4)多模態(tài)知識圖譜。KGs通過將實體、關(guān)系和屬性等元素組織成圖譜的形式,提供了對知識的豐富而精準的表達和查詢[56]。而因果關(guān)系推斷則是在對知識圖譜中的實體和關(guān)系進行分析和推理的基礎(chǔ)上,通過識別和分析不同實體之間的因果關(guān)系,進一步深化了對知識圖譜所代表的現(xiàn)實世界的理解和認識。因此,知識圖譜與因果關(guān)系推斷密切相關(guān),相互促進,為因果關(guān)系推斷領(lǐng)域的發(fā)展提供了重要的支持和應用基礎(chǔ)。
因果關(guān)系推斷是針對知識圖譜中已有的事實或關(guān)系的不完備性,是在現(xiàn)存知識的基礎(chǔ)上推斷出未知的或者新知識的過程[57],是對頭尾實體之間關(guān)系的推斷[58]。現(xiàn)有的KGs從文本中提取因果關(guān)系,面向名詞短語的語言模式來表示原因和結(jié)果,例如ConceptNet[59]和WordNet[60]。KGs 表示因果關(guān)系為“原因”和“效應”實體之間的“有因果關(guān)系”“歸因于”和“中介”關(guān)系。KGs 應該面向?qū)嶓w而不僅僅是名詞短語來對因果關(guān)系進行建模,例如Wikidata 和DBpedia。面向?qū)嶓w的表示模型通過將因果實體與KGs中相關(guān)的效果實體或概念進行關(guān)聯(lián),從而擴大搜索空間。因果關(guān)系是一種復雜的關(guān)系,不能像現(xiàn)有的KGs 中表示的那樣用單個鏈接來表示原因和效果之間的關(guān)系。現(xiàn)有KGs中因果關(guān)系的表示方法使得支持反事實推理變得具有挑戰(zhàn)性。因此,需要在面向KGs 的方法中更豐富地表示和建模因果關(guān)系。
Jaimini 等在文獻[61]中提出了一種因果知識圖框架(CausalKG,如圖4),該框架首先創(chuàng)建一個因果貝葉斯網(wǎng)絡(luò)和特定領(lǐng)域的觀測數(shù)據(jù)集,之后創(chuàng)建一個因果本體并用因果關(guān)系豐富領(lǐng)域本體,并在給定上下文中估計治療、中介和結(jié)果變量的因果效應。其目的是將因果知識集成到知識圖譜中,以改善某領(lǐng)域的可解釋性,促進干預、反事實推理和因果推斷在下游任務中的應用。其提供了對知識圖譜進行因果關(guān)系推斷的可能性,但是并未考慮到元數(shù)據(jù)類包含和重疊以及完整性約束等問題。因此,Huang在文獻[62]中引入了CareKG 方法。CareKG 是一種新的形式化方法,用于在知識圖譜中表達概念(類和關(guān)系)之間的因果關(guān)系,以及使用元數(shù)據(jù)語義實現(xiàn)知識圖譜中的因果查詢。其主要原理是通過將因果結(jié)構(gòu)嵌入到元數(shù)據(jù)語義中,擴展了現(xiàn)有的知識表示方法,使得知識圖譜中的實體和關(guān)系能夠表示因果關(guān)系,并允許進行因果推斷。
圖4 CausalKG框架Fig.4 Framework of CausalKG
Munch 等在文獻[63]中引入了一種利用本體論和專家知識將數(shù)據(jù)轉(zhuǎn)換為關(guān)系模式的方法,利用貝葉斯網(wǎng)絡(luò)模型學習概率關(guān)系模型。然后,提出了變量之間的聯(lián)合概率分布,但這并不一定表明是因果關(guān)系。因此,Simonne 等在文獻[64]中引入了一種差異因果規(guī)則的挖掘方法。差異因果規(guī)則挖掘在知識圖譜中使用控制變量的概念來檢查可能的因果關(guān)系,旨在比較目標類別的相似實例,研究治療效果對目標類別及其子類的影響。并使用比值比的質(zhì)量度量方法來評估因果關(guān)系的強度。此方法與實體或類別密切相關(guān)。一些方法挖掘類別中可以用于描述或分類實例的對比模式[65]。然而,這種方法不適用于計算兩個特定實例之間的差異。其他方法側(cè)重于發(fā)現(xiàn)在KGs中兩個實例共享的屬性集[66],或旨在生成實例之間差異最大的屬性集[67]。這些方法不允許描述一組實例對的相似性和差異性并且缺乏可解釋性。
Du 等在文獻[68]中提出了一個事件圖譜知識增強的可解釋因果關(guān)系推斷算法ExCAR。該算法首先從大規(guī)模因果事件圖中獲取額外的證據(jù)信息作為因果推斷的邏輯規(guī)則;其次應用條件馬爾可夫神經(jīng)邏輯網(wǎng)絡(luò)(conditional Markov neural logic network,CMNLN)學習邏輯規(guī)則的條件概率,并且以端到端可微的方式結(jié)合了邏輯規(guī)則的表示學習和結(jié)構(gòu)學習。實驗結(jié)果表明,ExCAR 的性能優(yōu)于以往的基線方法并擁有良好的可解釋性。
本章對面向知識圖譜的因果關(guān)系推斷方法和框架進行了總結(jié)。這些方法主要通過利用知識圖譜中的結(jié)構(gòu)信息和屬性信息來進行因果關(guān)系推斷。其中,一些方法采用了基于圖的推理和因果推斷工具,通過分析知識圖譜中的實體之間的關(guān)系,識別因果路徑和推斷因果效應。另一些方法則將因果關(guān)系建模為圖神經(jīng)網(wǎng)絡(luò)模型[69],將知識圖譜作為輸入,通過學習實體之間的表示來捕捉因果關(guān)系。同時,研究者們也提出了一些特定領(lǐng)域的因果關(guān)系推斷框架,如基于知識圖譜的因果推薦系統(tǒng)[70]。這些框架結(jié)合了知識圖譜中的屬性信息和用戶行為數(shù)據(jù),通過因果推斷來解決推薦系統(tǒng)中的偏差和用戶偏好建模的問題。
總體而言,面向知識圖譜的因果關(guān)系推斷方法和框架提供了一種利用知識圖譜來理解和推斷變量之間因果關(guān)系的途徑[71]。這些方法和框架有助于揭示知識圖譜中的因果機制,提供更深入的理解和洞察,并為相關(guān)領(lǐng)域的研究和應用提供了新的工具和方法。
近來,隨著GPT-4和ChatGPT進入公共大眾的視野,對于大語言模型(large language models,LLMs)在因果關(guān)系推斷方法的探討也隨之增多[72]。對于面向大模型的因果關(guān)系推斷方法,其因果關(guān)系推斷具有如下幾方面的優(yōu)勢:(1)數(shù)據(jù)驅(qū)動的學習,大模型通過在大量文本數(shù)據(jù)上進行訓練,可以學習到更多復雜的語言和語境表達方式。這使得它們能夠從各種來源中自動提取因果關(guān)系的線索,而不僅僅依賴于預先構(gòu)建的知識圖譜。(2)上下文理解,大模型在文本中可以理解上下文,并將先前提到的信息融合到后續(xù)推理中。這對于因果關(guān)系的推斷尤其有用,因為往往需要考慮事件之間的時間順序和因果鏈條。(3)概念聯(lián)想,大模型可以將不同領(lǐng)域的信息進行關(guān)聯(lián),從而找到不同領(lǐng)域中的因果關(guān)系。這種概念聯(lián)想能力使得模型能夠挖掘出傳統(tǒng)知識圖譜中可能不存在的因果關(guān)系。(4)適應多樣性,大型模型在處理多種語言和領(lǐng)域的數(shù)據(jù)時表現(xiàn)良好。它們可以通過學習不同語言和文化中的因果表達方式,從而更全面地理解因果關(guān)系。
Jin 等在文獻[73]中引入了一項新的任務(數(shù)據(jù)集)CORR2CAUSE,此任務可以從相關(guān)性中推斷因果關(guān)系,從而評測大模型的因果推斷的能力。此任務首先是在原始數(shù)據(jù)的基礎(chǔ)上構(gòu)造一個因果圖,再由D-分離原理將其轉(zhuǎn)化為自然語言。Jin等收集了40萬樣本的大規(guī)模數(shù)據(jù)集,并在6個常用的基于BERT的NLI 模型以及GPT-3.5(即CharGPT)和最新的GPT-4等模型上進行了實驗(實驗數(shù)據(jù)引自文獻[73],如表2)。從實驗結(jié)果上看,普遍認為的版本更高的或者推理能力更好的大模型在因果關(guān)系推斷任務中并沒有表現(xiàn)出正相關(guān)的結(jié)果。因為大模型在因果關(guān)系推斷任務中的性能表現(xiàn)是隨機的。
表2 大語言模型因果關(guān)系推斷實驗數(shù)據(jù)Table 2 Experimental data on causal inference using large language models 單位:%
知識圖譜與大語言模型(LLMs)結(jié)合在因果關(guān)系推斷方面具有巨大的潛力。知識圖譜提供了大量的結(jié)構(gòu)化知識,包括實體、關(guān)系和屬性,這些知識可以用于驗證、補充和增強LLMs的因果推斷能力。首先,知識圖譜可以用于驗證和補充LLMs的推理過程中的假設(shè)。LLMs 在推斷中可能會產(chǎn)生與事實不符的錯誤,而知識圖譜中的信息可以用來驗證這些錯誤并提供更準確的因果關(guān)系。其次,知識圖譜可以用于建模實體之間的因果關(guān)系。LLMs 可以通過學習知識圖譜中的關(guān)系來理解實體之間的因果聯(lián)系,并在推斷中應用這些關(guān)系,從而提高因果推斷的準確性。此外,知識圖譜為LLMs 提供了上下文信息,幫助它們更好地理解文本中的信息。通過將文本中的實體和關(guān)系與知識圖譜中的實體和關(guān)系關(guān)聯(lián)起來,LLMs 可以更準確地理解文本中的因果關(guān)系,特別是在存在歧義或隱含信息的情況下。知識圖譜還具有高度的可解釋性,因為它們是結(jié)構(gòu)化的且具有明確的語義。因此,與知識圖譜結(jié)合,LLMs 可以生成更具可解釋性的因果推斷結(jié)果,增強了結(jié)果的可理解性和可信度。最后,知識圖譜通??缱愣鄠€領(lǐng)域和主題,因此結(jié)合LLMs可以擴展因果推斷的應用范圍,使其在各種領(lǐng)域中發(fā)揮更大的作用。綜合而言,知識圖譜與LLMs結(jié)合可以為因果關(guān)系推斷提供強大的支持,促進了在知識表示和推理領(lǐng)域的進一步發(fā)展。
大模型(LLMs)在很多自然語言處理的任務中取得了讓人滿意的結(jié)果。然而,LLMs在推理的過程中產(chǎn)生與事實不符的錯誤,以及在推理后得到的結(jié)果缺乏可解釋性等方面并不令人滿意。知識圖譜可以為解決這些問題提供有力的支持。知識圖譜是一種結(jié)構(gòu)化的數(shù)據(jù)表示方式,其中包含了實體、關(guān)系和屬性的信息。通過將LLMs與知識圖譜相結(jié)合,從而可以利用圖譜中的豐富信息來指導推理過程,進而提高推理的準確性和可解釋性。
本節(jié)首先介紹了知識圖譜增強LLMs 推理的方法。其次介紹了KGs增強LLMs的可解釋性,目的是提高LLMs的可解釋性。KGs增強LLMs的典型方法總結(jié)在表3中。
表3 知識圖譜增強大模型Table 3 Large model enhanced with knowledge graph
5.1.1 知識圖譜增強大模型的推理
在利用大模型進行推理的過程中,由于LLMs可能無法很好地推廣到未見過的知識,很多方法致力于研究在推理過程中注入知識[74]。這些方法主要關(guān)注問答任務,因為問答任務要求模型捕捉文本含義和最新的現(xiàn)實世界的知識。
(1)知識動態(tài)融合。當處理文本輸入和相關(guān)KGs輸入時,有幾種不同的方法,每種方法在文本和知識之間的交互方式上存在一些特點。一個直接的方法是雙塔架構(gòu)方法:這種方法使用兩個獨立的模塊,一個處理文本輸入,另一個處理知識圖譜輸入[75]。然而,這種方法缺乏文本和知識之間的交互。在之后的研究過程中Lin 等在文獻[76]中引入了KagNet 框架,KagNet首先對輸入的知識圖譜進行編碼,然后增強輸入的文本表示。這種方法強調(diào)在文本和知識之間建立關(guān)聯(lián)。Feng 等在文獻[77]中引入MHGRN(multi-hop graph relation network)方法,MHGRN 則是使用輸入文本的最終LLMs 的輸出來指導對知識圖譜的推理過程。然而,這些方法通常只考慮文本到知識的單向交互。因此,為了解決此問題,Yasunaga 等在文獻[78]中引入了QA-GNN(question answering graph neural network)方法。QA-GNN 使用基于GNN 的模型,通過消息傳遞共同推理輸入上下文和知識圖譜信息。它將文本信息表示為特殊節(jié)點,并將其與知識圖譜中的實體相連。然而,這些方法在信息融合方面可能受限,因為文本輸入只被匯集成一個密集向量。Sun 等在文獻[79]中提出JointLK(joint reasoning with language models and knowledge graphs)方法。JointLK 提出了一個具有細粒度交互的框架,通過LM到KGs和KGs到LM的雙向注意機制,在文本輸入的標記和知識圖譜實體之間進行交互。該方法通過計算成對的點積分數(shù)來實現(xiàn)交互,同時動態(tài)修剪知識圖譜以便后續(xù)層可以關(guān)注更重要的子圖結(jié)構(gòu)。
(2)檢索增強知識融合。不同于上述將所有知識存儲在參數(shù)中的方法,RAG(retrieval augmentation)[80]提出了結(jié)合非參數(shù)和參數(shù)模塊來處理外部知識。給定輸入文本,RAG 首先在非參數(shù)模塊中通過MIPS(maximum inner product search)搜索相關(guān)的知識圖譜,以獲取多個文檔。然后,RAG將這些文檔視為隱藏變量z,并將它們作為額外的上下文信息饋送到由Seq2SeqLLMs 強化的輸出生成器中。研究表明,在不同的生成步驟中使用不同的檢索文檔作為條件比僅使用單個文檔來指導整個生成過程效果更好。實驗結(jié)果顯示,在開放域問答中,RAG要優(yōu)于僅使用參數(shù)的基線模型和僅使用非參數(shù)的基線模型。RAG還可以生成比其他僅參數(shù)基線更具體、多樣和真實的文本。Story-fragments[81]進一步通過添加額外的模塊來確定顯著的知識實體,并將它們?nèi)谌肷善髦校蕴岣呱傻拈L篇故事的質(zhì)量。MAT(external memoryaugmented transformers)[82]進一步通過將外部知識編碼成鍵值內(nèi)存,并利用快速的最大內(nèi)積搜索來進行內(nèi)存查詢,提高了這種系統(tǒng)的效率。REALM(retrievalaugmented language model pre-training)[83]提出了一種新穎的知識檢索器,幫助模型在預訓練階段從大型語料庫中檢索和關(guān)注文檔,并成功提高了開放域問答的性能。KGLM(knowledge graphs for fact-aware language modeling)[84]使用當前上下文從知識圖譜中選擇事實,以生成事實性句子。在外部知識圖譜的幫助下,KGLM 可以使用領(lǐng)域外的詞語或短語描述事實。
5.1.2 知識圖譜增強大模型可解釋性
雖然LLMs 在自然語言處理的許多任務中獲得了顯著的成功,但是其仍然面臨缺乏可解釋性的困難或不足。LLMs的可解釋性指的是對模型內(nèi)部的運轉(zhuǎn)以及推理過程的解釋或理解[85]。解決這項不足將提高LLMs 的信任度。為此,研究人員對增強LLMs的可解釋性進行了相關(guān)研究。研究的大致方向可分為:(1)知識圖譜增強LLMs 探測;(2)知識圖譜增強LLMs分析。
(1)知識圖譜增強LLMs探測:LLMs探測目的是理解已經(jīng)存儲在LLMs 中的知識。經(jīng)過規(guī)模龐大的語料庫鎖訓練好的LLMs 通常會被認為包含大量知識。但是LLMs是采用一種隱藏的方式存儲知識,這使得研究人員難以弄清楚或理解LLMs 中存儲的知識。此外,LLMs存在幻視問題[86],幻視問題即生成的與事實真理相矛盾的陳述。這個問題會嚴重影響LLMs 的可靠性。因此,探測和驗證LLMs 中存儲的知識的可靠性與真實性是十分必要的。
Patroni 等在文獻[87]中提出了LAMA(language model analysis)框架,其是第一個使用知識圖譜來探測LLMs 中知識的工作。LAMA 首先通過預定義的提示模板將知識圖譜中的事實轉(zhuǎn)換為填空陳述,然后使用LLMs 來預測缺失的實體。預測結(jié)果用于評估LLMs 中存儲的知識。例如,嘗試探測LLMs 是否知道事實(馬禮,職業(yè),院長)。首先將事實三元組轉(zhuǎn)換成一個帶有對象掩碼的填空問題“馬禮的職業(yè)是什么?”,然后測試LLMs 是否能夠正確預測出對象“院長”。然而,LAMA忽視了提示不恰當?shù)氖聦崱@?,提示“Mali worked as a”可能比“Mali is a by profession”更有利于語言模型預測空白部分。因此,Jiang 等在文獻[88]中提出了LPAQA(language model prompt augmentation for question answering),這是一種基于挖掘和改寫的方法,LPAQA 可以自動生成高質(zhì)量且內(nèi)容豐富的提示,從而可以更準確地評估LLMs中所包含的知識。此外,Adolphs 等在文獻[89]中嘗試使用示例來讓LLMs理解查詢,并在T-REx數(shù)據(jù)集上取得了對BERT-large 的實質(zhì)性改進。相比手動定義提示模板不同,AutoPrompt[90]是一種自動化方法,此方法基于梯度引導的搜索來創(chuàng)建提示。與使用百科和常識知識圖譜探測一般知識不同,在BioLAMA[91]和MedLAMA[92]中通過應用醫(yī)學知識圖譜來探測LLMs中的醫(yī)學知識。Mallen等在文獻[93]中對LLMs保留相對缺乏流行性的事實知識的能力進行了相關(guān)研究。他們從維基數(shù)據(jù)知識圖譜中選擇具有低頻率點擊實體的低流行性事實。然后將這些事實用于評估,結(jié)果表明LLMs 在處理這種知識時存在困難,并且擴展未能明顯改善LLMs對尾部事實知識的記憶。
(2)知識圖譜增強LLMs 的分析:知識圖譜對于LLMs 的分析目的在回答諸如“LLMs 怎樣生成結(jié)果?”或者“LLMs中的功能和架構(gòu)是如何工作的?”等問題。因此,為了分析LLMs的推理過程,如Lin等在文獻[94]中引入了KagNet,Yasunaga 等在文獻[78]中引入了QA-GNN。通過KGs 將LLMs 生成的每個推理步驟的結(jié)果進行了實質(zhì)性的支持。通過這種方式,可以通過從KGs中提取圖結(jié)構(gòu)來解釋LLMs的推理過程。Li 等[95]研究了LLMs 如何正確生成結(jié)果。他們采用了從知識圖譜中提取的事實的因果關(guān)系分析。該分析定量地衡量了LLMs 生成結(jié)果所依賴的詞語模式。結(jié)果顯示,LLMs生成缺失的事實更多地依賴于位置封閉的詞語,而不是依賴于知識相關(guān)的詞語。因此,他們聲稱LLMs由于不準確的依賴關(guān)系而不能很好地記憶事實知識。為了解釋LLMs 的訓練過程,Swamy等[96]采用了在預訓練期間生成知識圖譜的語言模型。LLMs 在訓練過程中獲得的知識可以通過KGs中的事實來揭示。為了探索隱含知識如何存儲在LLMs 的參數(shù)中,Dai 等在文獻[97]提出了“知識神經(jīng)元”的概念。具體而言,已識別的知識神經(jīng)元的激活與知識表達高度相關(guān)。因此,他們通過抑制和放大知識神經(jīng)元來探索每個神經(jīng)元所表示的知識和事實。
ChatGPT 是OpenAI 開發(fā)的一種高級LLMs,主要用于進行類似人類的對話。在最終調(diào)整過程中,ChatGPT利用文獻[98],從而增強其與人類偏好和價值觀的一致性。作為OpenAI開發(fā)的一種尖端的大型語言模型,GPT-4是在GPT-3和ChatGPT等前輩的成功基礎(chǔ)上構(gòu)建的。這一發(fā)展是通過利用大規(guī)模的計算和數(shù)據(jù)規(guī)模進行訓練的結(jié)果,它在不同領(lǐng)域表現(xiàn)出非凡的泛化、參考和解決問題的能力。這種進步為未來LLMs的發(fā)展提供了新的見解,同時也為構(gòu)建KGs提供了新的方法和機會,以及提供了通過問答類LLMs幫助因果關(guān)系推斷的新思路。
此外,GPT-4 作為一個大規(guī)模的多模態(tài)模型,具備處理圖像和文本輸入的能力,進一步擴展了其應用領(lǐng)域。這一多模態(tài)特性使其在處理復雜信息時更加全面。與此同時,ChatGPT也在信息提取[99]和推理[100]的能力方面引起了研究者的關(guān)注,為在自然語言處理領(lǐng)域的知識推斷提供了新的機會。這些發(fā)展彼此之間存在因果關(guān)系,共同推動了LLMs 技術(shù)的前進,為在大語言模型領(lǐng)域的創(chuàng)新和探索因果關(guān)系推斷開辟了新的道路。
在涉及到KGs 構(gòu)造和推理的實驗中[101],通??梢杂^察到大型語言模型(LLMs)在推理能力方面表現(xiàn)優(yōu)于它們在KGs構(gòu)造任務上的性能。對于KGs構(gòu)造任務,LLMs在零樣本和一次性方式上都未能超越當前最先進的模型。這一發(fā)現(xiàn)與之前在信息提取任務上的實驗[102]結(jié)果一致,表明LLMs通常不是有效的信息提取器,尤其是對于少數(shù)鏡頭的信息提取任務。相反地,在KGs 推理任務中,所有LLMs 在一次性設(shè)置中表現(xiàn)出卓越的性能,而GPT-4甚至在零樣本設(shè)置中也達到了最先進水平。這些觀察結(jié)果為后續(xù)研究提供了有意義的見解,強調(diào)了大型語言模型在知識圖譜領(lǐng)域內(nèi)的適應性和性能提升的重要性。這一現(xiàn)象[101]可以解釋如下:首先,KGs構(gòu)建任務涉及到實體、關(guān)系、事件等復雜元素的識別和提取,使得任務更加復雜和困難。相比之下,KGs 推理任務,尤其是以鏈接預測為代表的推理任務,主要依賴于已有的實體和關(guān)系進行推理,因此任務相對較簡單。其次,LLMs在推理任務中的卓越表現(xiàn)可能歸因于它們在預訓練階段暴露于廣泛的知識,這有助于更好地理解和處理與知識圖譜相關(guān)的信息,從而提高了推理性能。這些發(fā)現(xiàn)強調(diào)了大型語言模型在增強知識圖譜中的因果關(guān)系推斷方面的潛力,尤其是在KGs推理任務中。
實體和關(guān)系在知識圖譜中以結(jié)構(gòu)化的方式進行表示,因此在面向知識圖譜的因果關(guān)系推斷和圖譜推理等許多下游任務中得到了廣泛的應用,但是傳統(tǒng)的知識圖譜通常是不完整的,且對文本信息的利用并不完全。因此,考慮通過大語言模型來增強知識圖譜。LLMs對KGs進行增強是一種新穎的方法,其能夠補全知識圖譜的不足并提供更準確、更全面的知識因果推理,LLMs可以通過增強知識圖譜的嵌入、知識圖譜的完整性、知識圖譜的結(jié)構(gòu)等方面對KGs進行增強(如表4)。
表4 大語言模型增強知識圖譜的方法Table 4 Methods for enhancing knowledge graphs using large language models
5.2.1 大模型增強知識圖譜嵌入
知識圖譜嵌入(knowledge graph embedding,KGE)的主要目標是將每個實體和關(guān)系映射到低維向量空間中,以捕捉知識圖譜的語義和結(jié)構(gòu)信息,從而可以應用于多種任務,包括因果關(guān)系推斷、知識圖譜推理[103]和推薦等領(lǐng)域。傳統(tǒng)的知識圖譜嵌入方法主要依賴于知識圖譜的結(jié)構(gòu)信息,通過優(yōu)化定義的得分函數(shù)(例如DisMult)來實現(xiàn)。然而,由于結(jié)構(gòu)連接性的限制,這些方法通常難以有效地表示未見實體和長尾關(guān)系。為了解決這一問題,近期的研究采用了大型語言模型(LLMs)來增強知識圖譜的表示能力,通過編碼實體和關(guān)系的文本描述來提高表征的質(zhì)量。例如,Nayyeri等在文獻[104]中使用LLMs生成全球級、句子級和文檔級的表示,然后將這些表示與圖結(jié)構(gòu)融合為四維超復數(shù)的Dihedron 和Quaternion 表示。Huang等在文獻[105]中將LLMs與其他視覺和圖形編碼器相結(jié)合,以學習多模態(tài)知識圖嵌入,從而提高了下游任務的性能。CoDEx[106]提出了一種新型的、由LLMs強化的損失函數(shù),通過考慮文本信息來指導KGE模型測量三元組的可能性。這種損失函數(shù)對于模型結(jié)構(gòu)是不可知的,因此可以與任何知識圖譜嵌入模型相結(jié)合使用。除了考慮圖結(jié)構(gòu)外,另一類方法則直接利用LLMs 將圖數(shù)據(jù)和文本信息融合到嵌入空間中。例如,KNN-KGE[107]將實體和關(guān)系視為LLMs中的特殊標記,然后將每個三元組(h,r,t)及相應的文本描述轉(zhuǎn)化為一個句子。訓練結(jié)束后,LLMs中對應的標記表示被用作實體和關(guān)系的嵌入。LambdaKG[108]采用對比學習的方法,同時為了更好地捕捉圖結(jié)構(gòu),對1跳鄰居實體進行采樣,然后將它們的標記與三元組拼接為一個句子,最后輸入到LLMs中進行訓練。
總的來說,這些研究展示了大型語言模型在增強知識圖譜嵌入中的潛力,尤其在將文本信息與圖結(jié)構(gòu)相結(jié)合以更好地進行因果關(guān)系推斷方面。通過利用LLMs,可以更全面地理解和分析知識圖譜,為因果關(guān)系推斷提供了更強大的工具和方法。
5.2.2 大模型增強知識圖譜完整性
知識圖譜補全(knowledge graph completion,KGC)是指在給定知識圖譜中推斷缺失的事實,增強知識圖譜的完整性,將有利于因果關(guān)系推斷。與知識圖譜嵌入(KGE)相似,傳統(tǒng)的知識圖譜補全方法主要考慮和關(guān)注圖結(jié)構(gòu),但并未考慮更廣泛的文本信息。近來,LLMs的整合使得知識圖譜補全方法能夠?qū)ξ谋具M行編碼或生成事實,從而可以獲得更好的知識圖譜補全性能。LASS(language and structure-sensitive embeddings)[109]認為語言語義與圖結(jié)構(gòu)對于KGC 同等重要。因此LASS 提出了聯(lián)合學習兩種類型的嵌入:語義嵌入和結(jié)構(gòu)嵌入。在此方法中,三元組的完整文本信息被傳入到LLMs中,并分別計算h、r和t對應的LLMs 輸出的平均池化。最后將得到的嵌入傳入給基于圖的方法,從而重建出知識圖譜結(jié)構(gòu)。之后,許多方法引入了掩碼語言模型(MLM)的概念對知識圖譜文本進行編碼。MEM-KGC(meta-embedding models for knowledge graph completion)使用掩碼實體模型分類機制來預測三元組中的掩碼實體。Open-World KGC[110]對MEM-KGC模型進行了擴展,從而解決OpenWorld KGC的挑戰(zhàn),其采用一個流水線框架,其中定義了兩個基于MLM的順序模塊:實體描述預測(entity description prediction,EDP)和不完整三元組預測(incomplete triple prediction,ITP)。EDP首先對三元組進行編碼,并生成最終的隱藏狀態(tài),然后將其作為頭實體的嵌入,傳遞給ITP 以預測目標實體。LPBERT(language-pretrained BERT)[111]是一種混合式的知識圖譜補全方法,結(jié)合了MLM編碼和分離編碼。該方法由預訓練和微調(diào)兩個階段組合而成,在預訓練階段利用MLM 機制對KGC 數(shù)據(jù)進行預訓練。在微調(diào)階段,LLMs 對兩個部分進行編碼,并采用對比學習方法進行優(yōu)化。AutoKG[112]采用提示工程方法設(shè)計定制的提示語,這些提示語包含任務描述、少樣本示例和測試輸入,指導LLMs預測知識圖譜補全中的尾部實體。這些方法結(jié)合了文本信息和圖結(jié)構(gòu),使知識圖譜補全更加強大和精確。同時,它們也為因果關(guān)系推斷提供了有用的框架,可以用于分析知識圖譜中的因果關(guān)系。
5.2.3 大模型增強知識圖譜構(gòu)建
知識圖譜構(gòu)建是指對特定領(lǐng)域內(nèi)創(chuàng)建的知識進行結(jié)構(gòu)化表示[113]。傳統(tǒng)知識圖譜構(gòu)建主要包含實體發(fā)現(xiàn)、共指消解和關(guān)系提取。近來的方法探索了端到端的知識圖譜構(gòu)建,即可以在一步中構(gòu)建完整的知識圖譜,或直接從LLMs 中提取知識圖譜。LRN(label-relational reasoning network)[114]考慮了標簽之間的內(nèi)在和外在的依賴關(guān)系。它使用BERT 對上下文和實體進行編碼,并利用這些輸出嵌入進行演繹和歸納推理。CrossCR[115]利用端到端模型進行跨文檔共指消解,該模型在黃金提及跨度上進行了提及得分器的預訓練,并使用成對得分器來比較所有文檔中的所有提及及跨度之間的關(guān)系。PiVE(prompt with iterative verification for KGs enhancement)[116]提出了一個迭代驗證的提示框架,利用像T5 這樣較小的LLMs來糾正較大的LLMs(例如ChatGPT等)生成的知識圖譜中的錯誤。West等在文獻[117]中提出一個符號知識提取框架,從LLMs 中提取符號知識,從而增強知識圖譜的結(jié)構(gòu)。
近來,LLMs和KGs的協(xié)同作用引來了越來越多的關(guān)注。因此,大語言模型與知識圖譜的結(jié)合可以成為因果關(guān)系推斷強大的工具。知識圖譜提供了結(jié)構(gòu)化的知識表示,而大語言模型則能夠理解和推理文本信息。通過結(jié)合兩者,可以彌補知識圖譜的不足,例如自動補全和擴展知識圖譜、理解上下文和隱含知識、整合多模態(tài)數(shù)據(jù)等。大語言模型通過語義理解和推理能力,提供更全面和準確的因果關(guān)系推斷。它可以從大規(guī)模的文本數(shù)據(jù)中學習,并通過在線學習和增量更新,不斷提升因果關(guān)系推斷的準確性和可靠性。這種結(jié)合為在理解和應用因果關(guān)系方面提供了一種強大的方法。
(1)跨模態(tài)知識圖譜構(gòu)建的方向
跨模態(tài)知識圖譜自動構(gòu)建[101]是一個充滿前景的研究方向,如何在跨模態(tài)知識圖譜上進行因果關(guān)系推斷涉及到將來自不同模態(tài)(如文本、圖像、語音等)的信息融合到一個統(tǒng)一的知識圖譜中。因此,在未來的研究方向中可以對跨模態(tài)知識圖譜的表示學習進行探索:①探索如何將來自不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示,以便在知識圖譜中進行一致性建模。研究關(guān)注如何捕捉不同模態(tài)之間的關(guān)聯(lián),提高跨模態(tài)表示的語義一致性。②探索多模態(tài)數(shù)據(jù)之間的融合與對齊,開發(fā)融合和對齊技術(shù),將不同模態(tài)的數(shù)據(jù)融合到一個綜合的知識圖譜中。這需要解決模態(tài)差異、異構(gòu)性和不完整性等問題,以實現(xiàn)模態(tài)之間的有效對應。③探索基于大模型的問答及推理能力,從而發(fā)現(xiàn)已有知識圖譜上尚未關(guān)聯(lián)的具有潛在關(guān)系的圖節(jié)點,將信息反饋給知識圖譜,進而幫助知識圖譜自動更新。
(2)多元因果關(guān)系推斷的方向
目前面向知識圖譜的因果關(guān)系推斷主要是面對兩個節(jié)點建立的,即一因一果關(guān)系,但對于一對多、多對一的多元因果關(guān)系的推斷效果并不理想,因此,現(xiàn)如今對于多元的因果關(guān)系推斷還亟需進一步的研究。引入圖神經(jīng)網(wǎng)絡(luò)可以解決部分的問題,但是多因果關(guān)系的推斷、標注和評價體系,都需要進一步的完善和發(fā)展[118]。現(xiàn)實生活場景中,氣壓低是降水的原因,而降水又是城市交通擁堵的原因,這就是一個典型的多元關(guān)系結(jié)構(gòu)[119-120]。
(3)動態(tài)知識圖譜更新的方向
在面向知識圖譜的因果關(guān)系推斷中,動態(tài)更新知識圖譜亦是一個十分重要的研究方向,動態(tài)更新知識圖譜以發(fā)現(xiàn)圖中的新的具有因果關(guān)系的節(jié)點。未來可以考慮如何根據(jù)事件觸發(fā)來自動更新知識圖譜。例如,從新聞、社交媒體等信息源中識別事件并將其反映到知識圖譜中。其次可以考慮從時間角度對知識圖譜建模,在知識圖譜中引入時間維度,以更好地建模實體和關(guān)系的演化。時間感知的建模有助于揭示知識圖譜中的動態(tài)模式和趨勢。
(4)面向大模型的因果關(guān)系推斷的可解釋性方向
解釋大模型的復雜因果推斷結(jié)果對于應用和領(lǐng)域?qū)<抑陵P(guān)重要,因為這有助于確保結(jié)果的可理解性、可信度和有效應用。然而,將這些復雜的結(jié)果以可解釋的方式呈現(xiàn)給非專業(yè)人士是一個具有挑戰(zhàn)性的問題,因為這涉及到如何將高度技術(shù)性的概念和分析轉(zhuǎn)化為易于理解和可操作的信息。未來可以考慮應用可視化工具提高大模型因果關(guān)系推斷結(jié)果的可解釋性。利用可視化工具來呈現(xiàn)因果推斷結(jié)果,將抽象的概念轉(zhuǎn)化為圖表、圖像等可視化形式。這有助于非專業(yè)人士更直觀地理解因果關(guān)系和結(jié)果。
“因果關(guān)系”推斷作為近幾年熱門的研究方向,得到了越來越多的研究人員和學者關(guān)注研究。隨著知識圖譜的興起,面向知識圖譜的因果關(guān)系推斷逐漸成為了研究熱門。因此,通過閱讀近年來大部分有關(guān)因果關(guān)系推斷的方法和應用的文獻,本文對因果關(guān)系推斷進行了較為系統(tǒng)的綜述。本文在介紹傳統(tǒng)因果關(guān)系推斷方法的同時,重點分析討論了現(xiàn)如今流行的面向知識圖譜和大模型的因果關(guān)系推斷方法。本文對面向知識圖譜和大模型的因果關(guān)系推斷方法研究現(xiàn)狀進行了深入的綜述和討論,并對這兩類方法的未來研究趨勢進行了展望和總結(jié)。