謝藝菲,盧 琪,劉 鑫,胡亞豪,潘志松,陳 浩
陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210001
隨著社交媒體的興起,網(wǎng)絡(luò)上發(fā)布的內(nèi)容都會(huì)接觸到數(shù)萬讀者,這給互聯(lián)網(wǎng)輿論監(jiān)管帶來巨大挑戰(zhàn)。構(gòu)建一個(gè)高效且自動(dòng)化的模型來評(píng)估網(wǎng)絡(luò)信息的真實(shí)性對(duì)于政府監(jiān)管輿論導(dǎo)向具有重大研究價(jià)值。越來越多的研究者開始關(guān)注文本的事實(shí)驗(yàn)證(Fact Verification),該任務(wù)旨在從語料庫中驗(yàn)證給定聲明的真實(shí)性。
事實(shí)驗(yàn)證任務(wù)與文本蘊(yùn)含(Textual Entailment)[1]和自然語言推理(Natural Language Inference)[2]不同,后兩個(gè)任務(wù)都給定了驗(yàn)證聲明的證據(jù)文本(通常是一個(gè)句子)。但在事實(shí)驗(yàn)證任務(wù)中,證據(jù)可能分散在不同的文章中,需要從龐大的語料庫中檢索。如圖1 所示,給定一個(gè)聲明,事實(shí)驗(yàn)證模型預(yù)測(cè)驗(yàn)證標(biāo)簽是“證實(shí)”“駁斥”或“信息不足”。
圖1 事實(shí)驗(yàn)證數(shù)據(jù)樣例
目前,BERT[3]、XL-Net[4]、Roberta[5]等預(yù)訓(xùn)練模型的出現(xiàn),使得文本理解能力大大提升。雖然現(xiàn)有的模型近年來不斷優(yōu)化,但如何將這些強(qiáng)大的編碼器應(yīng)用到具體任務(wù)中,仍然是待解決的問題。首先,在事實(shí)驗(yàn)證任務(wù)中細(xì)粒度語義辨析至關(guān)重要,因?yàn)榧词孤暶鞯恼Z義和語法都正確,但個(gè)別詞語替換,就會(huì)使得聲明與事實(shí)背離。其次,在僅靠單句單文本無法驗(yàn)證的場景中,現(xiàn)有模型仍缺乏跨句子跨文本的推理能力。當(dāng)前一些研究將所有檢索出的證據(jù)簡單拼接,但是忽略了細(xì)粒度語義的辨析以及分散的證據(jù)之間的關(guān)系,這些對(duì)于理解證據(jù)的關(guān)系結(jié)構(gòu)和推理過程是至關(guān)重要的。
針對(duì)事實(shí)驗(yàn)證中的上述問題,本文提出了一種基于圖的多層次注意力模型(Graph-aware Hierarchical Attention Networks for Fact Verification,GHAN)。該模型采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),使用不同的窗口長度提取多層次的細(xì)粒度信息,并通過高斯核函數(shù)計(jì)算得到多層次的相似度軟匹配特征,可以辨析細(xì)粒度的語義。該模型還構(gòu)建了證據(jù)信息全連接圖,充分利用了字符和句子級(jí)別注意力更新節(jié)點(diǎn)表示推理證據(jù)信息。所提出的模型可以充分利用多層次細(xì)粒度信息來驗(yàn)證聲明。
本文的主要貢獻(xiàn)如下:(1)提出一種新的基于圖的多層次注意力模型,該模型充分利用了多層次的匹配特征進(jìn)行建模;(2)該模型可以很好地利用不同尺寸的卷積核提取不同粒度的特征,并且通過不同的高斯核獲得不同層次的匹配特征,有效地捕捉了證據(jù)和聲明之間的語義關(guān)系;(3)模型在FEVER[6]測(cè)試集上的準(zhǔn)確率為73.96%,F(xiàn)EVER分?jǐn)?shù)為70.54%,在該任務(wù)中效果優(yōu)于已知的基于BERT的預(yù)訓(xùn)練模型。
近年來事實(shí)驗(yàn)證任務(wù)不斷演化更新,Valchos等人[7]在2014 年率先構(gòu)建了政治領(lǐng)域的事實(shí)驗(yàn)證數(shù)據(jù)集,但只包含221條聲明;2017年Wang等人[8]將此數(shù)據(jù)集擴(kuò)展為1.28 萬條政治聲明,數(shù)據(jù)來源于政治辯論、電視采訪等。Pomerleau等人[9]發(fā)起虛假新聞挑戰(zhàn),給定一項(xiàng)聲明和一篇文章,預(yù)測(cè)該文章是否證實(shí)、駁斥、中立或與該聲明無關(guān),數(shù)據(jù)集由300條聲明和2 582篇文章構(gòu)成5萬條聲明與證據(jù)對(duì)。本文采用Thorne 等人[6]在2018 年提出的FEVER 數(shù)據(jù)集,它是目前最大的事實(shí)驗(yàn)證數(shù)據(jù)集。其驗(yàn)證證據(jù)從Wikipedia 文檔庫中檢索獲取,并且需要結(jié)合多篇文檔的信息。
目前事實(shí)驗(yàn)證的處理方法主要是先用檢索的方法獲取證據(jù),再通過句子之間的相似度對(duì)比證據(jù)和聲明之間的關(guān)系。Zhou等人[10]檢索出聲明相關(guān)的證據(jù),然后將預(yù)訓(xùn)練模型BERT訓(xùn)練出的詞向量取出作為特征,作為句子的表示,進(jìn)行推理驗(yàn)證,該方法BERT的參數(shù)固定,模型僅學(xué)習(xí)推理的參數(shù)。Zhong等人[11]利用更細(xì)粒度的信息,從證據(jù)中提取出語義圖,然后用XL-Net預(yù)訓(xùn)練模型編碼,效果得到一定提升。
預(yù)訓(xùn)練模型的出現(xiàn)極大地減輕了研究人員在自然語言處理任務(wù)中的工作。由于詞向量無法解決一詞多義的問題,Μattew等人[12]首次利用大量語料構(gòu)建了一個(gè)基于多層的雙向LSTΜ的ELΜo模型,能夠?qū)υ~語進(jìn)行上下文相關(guān)的表示,從而解決一詞多義的問題;Radford等人[13]改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),利用大型語料庫構(gòu)建基于自注意力機(jī)制的單向GPT模型;GPT僅考慮了單向語義信息,但是自然語言處理領(lǐng)域中上下文的雙向信息對(duì)于各個(gè)文本任務(wù)是至關(guān)重要的,于是Jacob等人[3]將單向網(wǎng)絡(luò)改進(jìn)為基于Transformer[14]構(gòu)建了雙向的預(yù)訓(xùn)練語言模型BERT,使用更細(xì)粒度的詞語表示,訓(xùn)練更多語料,得到預(yù)訓(xùn)練模型,并在多個(gè)NLP任務(wù)中性能得到了極大的提升,開創(chuàng)自然語言處理領(lǐng)域的新紀(jì)元。
在證據(jù)檢索操作過程中,Chen 等人[15]、Hanselowski等人[16]采用增強(qiáng)的序列推斷模型(Enhanced Sequential Inference Μodel,ESIΜ),利用雙向LSTΜ 網(wǎng)絡(luò)對(duì)句子編碼,通過句子對(duì)之間的交互提取語義特征進(jìn)行匹配。由于Wikipedia中的每篇文章都針對(duì)某個(gè)特殊實(shí)體的相關(guān)知識(shí)描述,故Nie 等人[17]在ESIΜ 基礎(chǔ)之上,加入了Cucerzan等人[18]提出的實(shí)體鏈接的方法,在聲明中識(shí)別實(shí)體,并將其鏈接到Wikipedia 知識(shí)庫抽取出證據(jù)。在信息檢索領(lǐng)域,Huang等人[19]、Shen等人[20]、Palangi等人[21]通過建立門控網(wǎng)絡(luò)等方法驗(yàn)證查詢與文檔的相關(guān)性,僅考慮句子級(jí)別相似度,缺乏對(duì)不同維度相關(guān)性的捕捉。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)有助于模型學(xué)習(xí)細(xì)粒度的相似度特征,所以Hui 等人[22]、Dai 等人[23]將卷積神經(jīng)網(wǎng)絡(luò)用于信息檢索中的排序,并且得到了較好的效果。信息檢索領(lǐng)域的方法有效地啟發(fā)了事實(shí)驗(yàn)證任務(wù)中對(duì)證據(jù)的檢索[24],但檢索模型僅僅能對(duì)證據(jù)做初步篩選,無法完成關(guān)系的推理和細(xì)粒度的驗(yàn)證。例如“Stranger Things is set in Bloomington,Indiana.”和“…Set in the fictional town of Hawkins,Indiana.”兩句話語義相關(guān)可通過檢索得到,但是前者不能由后者推理得出。直接將檢索模型用于事實(shí)驗(yàn)證過程缺乏多層次的相似度特征,得到的驗(yàn)證結(jié)果存在偏差。
在自然語言推理驗(yàn)證相關(guān)任務(wù)中,模型需要捕捉證據(jù)之間的關(guān)系和邏輯信息進(jìn)行推理。Zhong等人[25]設(shè)計(jì)多粒度的神經(jīng)網(wǎng)絡(luò),利用不同粒度的注意力模擬推理過程。由于圖結(jié)構(gòu)更符合人類做推理時(shí)的邏輯,能夠改進(jìn)長距離上下文或跨文檔的信息交互,利用分散在不相交的上下文中的線索進(jìn)行推理,從而深刻地理解文本的語義,于是Qiu等人[26]、Lv等人[27]、Cao等人[28]、Zhao等人[29]使用不同構(gòu)圖方法將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化的圖表示,對(duì)圖節(jié)點(diǎn)進(jìn)行編碼,然后采用圖神經(jīng)網(wǎng)絡(luò)[30](Graph Neural Network,GNN)、圖卷積網(wǎng)絡(luò)[31](Graph Convolution Network,GCN)、圖注意力網(wǎng)絡(luò)[32](Graph Attention,GAT)等方法融合篇章的推理信息。這些推理的方法在機(jī)器閱讀理解領(lǐng)域已經(jīng)得到廣泛應(yīng)用,受到這些方法的啟發(fā),GHAN 在事實(shí)驗(yàn)證任務(wù)中用GAT 進(jìn)行證據(jù)之間的信息更新,便于模型的推理驗(yàn)證,并利用卷積操作得到多層次的相似度特征,從而獲得推理驗(yàn)證的結(jié)果。
模型首先從Wikipedia 中檢索候選文章,再從這些文章中篩選出5條證據(jù)句子,通過驗(yàn)證模塊融合證據(jù)與聲明的語義信息,來得到驗(yàn)證結(jié)果。圖2為流程圖。
圖2 總體流程圖
事實(shí)驗(yàn)證的步驟主要由證據(jù)獲取和推理與驗(yàn)證兩部分組成。
考慮到語料庫中的文檔數(shù)量巨大,如果想按精確語義匹配來尋找相關(guān)文檔將會(huì)花費(fèi)很大的計(jì)算代價(jià)。因此,本文首先粗糙地篩選以縮小檢索范圍,再用ESIΜ模型匹配,得到候選文章之后,用BERT 句對(duì)模型篩選出最終的證據(jù)。證據(jù)獲取部分由檢索文章模塊、篩選證據(jù)句模塊構(gòu)成。
2.1.1 檢索文章模塊
采用關(guān)鍵詞匹配縮小檢索空間,即選擇文章標(biāo)題與聲明中的片段完全匹配的文章(除首字母大寫外,其余都是對(duì)大小寫模糊匹配)。但是語料中有約10%的文章標(biāo)題所提供的信息并不清晰,比如“Hotel”是一部電影名稱,同時(shí)也是酒店名稱,這就很難僅靠字面的匹配來檢索。對(duì)于模棱兩可的題目,將其與文中第一句話拼接之后再用NSΜN 模型打分,與Nie等人[17]采用的方法類似。最終每個(gè)聲明檢索出10篇得分最高的文章。
2.1.2 篩選證據(jù)句模塊
根據(jù)聲明信息與候選文章之間的語義關(guān)聯(lián),從以上10 篇文章中篩選出5 條證據(jù)。將聲明與文章中的句子拼接,送入BERT 模型。最后一層輸出的第一個(gè)字符[CLS]匯聚了輸入句子的語義信息,模型使用一層全連接的前饋網(wǎng)絡(luò)以及一個(gè)softmax 層,從而得到候選證據(jù)的匹配得分:
其中,hCLS是[CLS]的向量表示,最終獲取得分前5 的證據(jù)作為事實(shí)驗(yàn)證的依據(jù)。
由于從Wikipedia 篩選出來的證據(jù)有噪聲,故在設(shè)計(jì)模型的優(yōu)化目標(biāo)時(shí),不僅要考慮驗(yàn)證聲明的標(biāo)簽,也要考慮每條證據(jù)作為正確推理依據(jù)的概率。
模型將每個(gè)聲明和每條證據(jù)組成聲明-證據(jù)對(duì),把聲明-證據(jù)對(duì)視為節(jié)點(diǎn),構(gòu)建全連接的證據(jù)圖。于是,每個(gè)節(jié)點(diǎn)Ni作為正確推理依據(jù)的概率P(Ni),與基于圖注意力更新的預(yù)測(cè)分類標(biāo)簽y 的概率P(y|Ni)相乘,即根據(jù)每個(gè)節(jié)點(diǎn)的重要程度對(duì)節(jié)點(diǎn)的預(yù)測(cè)值加權(quán),這S 條證據(jù)的預(yù)測(cè)之和記為該聲明的驗(yàn)證得分Z :
與Liu 等人[24]的方法不同,首先在詞嵌入層將證據(jù)與聲明嵌入至統(tǒng)一的向量空間中。計(jì)算Ni作為正確推理依據(jù)的概率時(shí),卷積層使用卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生不同的N-gram 特征序列,匹配層生成不同特征之間的相似度矩陣,然后通過核池化(Κernel Pooling)獲得相似度特征,生成注意力權(quán)重,實(shí)現(xiàn)軟匹配[33]。計(jì)算預(yù)測(cè)分類標(biāo)簽y 的概率P(y|Ni)時(shí),先構(gòu)建信息融合圖,通過字符級(jí)和句子級(jí)的注意力更新信息,最終得到推理與驗(yàn)證的概率。模型的整體結(jié)構(gòu)如圖3所示,圖中只示意了長度為1和2的卷積核,節(jié)點(diǎn)數(shù)為3。
推理與驗(yàn)證模塊由聲明與證據(jù)的表示、證據(jù)被選擇的概率以及結(jié)合圖全局信息的標(biāo)簽預(yù)測(cè)三部分構(gòu)成。
2.2.1 聲明與證據(jù)的表示
將聲明和證據(jù)標(biāo)題以及證據(jù)句拼接分別送入BERT,得到基于聲明與證據(jù)信息相互融合的表示,也作為信息融合圖的節(jié)點(diǎn)表示。第i 個(gè)聲明證據(jù)對(duì)的表示為:
圖3 GHAN模型示意圖
2.2.2 證據(jù)被選擇的概率
模型通過聲明與證據(jù)之間的語義相似度得到該證據(jù)被選擇用于支撐聲明驗(yàn)證的概率,即該證據(jù)重要性的度量。下面按照基于卷積神經(jīng)網(wǎng)絡(luò)的核注意力、匹配層和核池化層三部分進(jìn)行介紹。
(1)基于卷積神經(jīng)網(wǎng)絡(luò)的核注意力
使用F 個(gè)卷積核得到F 個(gè)標(biāo)量,每一個(gè)標(biāo)量描述了窗口不同維度的信息[33],然后加偏置項(xiàng)和非線性激活函數(shù)f 得到F 維的h-gram嵌入:
(2)匹配層
(3)核池化層
轉(zhuǎn)移矩陣描述了不同粒度字符間的相似度量,核池化層將不同的核作用于轉(zhuǎn)移矩陣提取相似度特征。模型利用K 個(gè)高斯核,每個(gè)kernel記為Kk,均值μk,寬度σk,不同的核提取到的語義信息層次不同:
將K 個(gè)核應(yīng)用于轉(zhuǎn)移矩陣的第i 行,可得到K 維的特征向量:
對(duì)K 維特征取對(duì)數(shù)求和得到C 對(duì)Ei的相似度特征:
對(duì)所有轉(zhuǎn)移矩陣的軟匹配的相似度特征拼接,得到Φ(Μ)∈R3K:
最后采用softmax歸一化得到證據(jù)被選擇的概率:
2.2.3 結(jié)合圖全局信息的標(biāo)簽預(yù)測(cè)
標(biāo)簽預(yù)測(cè)的關(guān)鍵是綜合考慮證據(jù)之間的關(guān)系,與Zhou[10]和Liu[24]等人做法相似,本文用字符級(jí)別的注意力生成節(jié)點(diǎn)表示,句子級(jí)別的注意力沿著圖中的邊更新信息,注意力是基于核計(jì)算得到的。
(1)字符級(jí)別的注意力
對(duì)節(jié)點(diǎn)N1和其鄰居節(jié)點(diǎn)N2,根據(jù)兩條證據(jù)的原始表示構(gòu)造轉(zhuǎn)移矩陣M ,記節(jié)點(diǎn)N1經(jīng)過BERT編碼表示為:
計(jì)算N1對(duì)N2的注意力權(quán)重:
其中,W1∈R1×K和b1∈R 是線性變換的參數(shù),根據(jù)注意力權(quán)重可以計(jì)算出N1傳遞給N2的信息:
(2)句子級(jí)別的注意力
其中,MLP 是三層感知機(jī),用注意力權(quán)重代表N1節(jié)點(diǎn)對(duì)N2節(jié)點(diǎn)的重要程度,利用圖注意力機(jī)制,將這S 個(gè)鄰居節(jié)點(diǎn)的信息都按上述方法聚合:
其中,⊕表示矩陣拼接,根據(jù)新的節(jié)點(diǎn)表示得到標(biāo)簽預(yù)測(cè)概率:
W2∈R2d×t和b2∈Rt,t 是事實(shí)驗(yàn)證的類別數(shù),這樣每個(gè)節(jié)點(diǎn)都能通過鄰居節(jié)點(diǎn),即沿著圖上的邊得到全局的信息。按上述步驟得到每一個(gè)節(jié)點(diǎn)預(yù)測(cè)該證據(jù)被選擇的概率和驗(yàn)證標(biāo)簽概率,最后所有節(jié)點(diǎn)預(yù)測(cè)的驗(yàn)證得分為:
訓(xùn)練階段,模型采用端到端的交叉熵?fù)p失進(jìn)行訓(xùn)練:
本實(shí)驗(yàn)采用FEVER 數(shù)據(jù)集驗(yàn)證模型效果,數(shù)據(jù)集中的每一個(gè)樣本包括一個(gè)聲明、Wikipedia 中的正確證據(jù)(Golden Evidence)以及一個(gè)驗(yàn)證標(biāo)簽,并且還附帶一個(gè)由5 416 537 個(gè)預(yù)處理文檔構(gòu)成的Wikipedia 文檔庫。該數(shù)據(jù)集提供了帶標(biāo)簽的訓(xùn)練集(Training)和開發(fā)集(Dev),測(cè)試集(Test)的答案不公開,測(cè)試結(jié)果在上傳預(yù)測(cè)文件后給出。FEVER的統(tǒng)計(jì)數(shù)據(jù)如表1所示。
表1 FEVER數(shù)據(jù)集
為了有效評(píng)估事實(shí)驗(yàn)證的模型性能,本文用FEVER數(shù)據(jù)集提供的評(píng)價(jià)指標(biāo):標(biāo)簽的準(zhǔn)確率和FEVER 分?jǐn)?shù)。標(biāo)簽的準(zhǔn)確率評(píng)價(jià)模型的推理驗(yàn)證能力,F(xiàn)EVER分?jǐn)?shù)綜合評(píng)價(jià)推理能力和檢索能力。當(dāng)一個(gè)樣本的標(biāo)簽正確,并且預(yù)測(cè)的證據(jù)集是正確證據(jù)集的子集,兩個(gè)條件同時(shí)滿足時(shí)FEVER 分?jǐn)?shù)按1 記。其中信息不足(NEI)標(biāo)簽的樣本不需要證據(jù)。此外,還針對(duì)推理能力測(cè)試了在提供正確證據(jù)的情況下模型的預(yù)測(cè)準(zhǔn)確率。
檢索和推理驗(yàn)證過程均采用BERT-Base 對(duì)文本編碼,包含12 個(gè)Transformer 層[14],詞嵌入的輸出維度是768,超參數(shù)基本按照BERT-Base 模型設(shè)置。核的個(gè)數(shù)設(shè)為21,第一個(gè)核是精確匹配核,參數(shù)是μ0=1.0,σ0=10-3。因?yàn)橛嘞蚁嗨贫仁窃?1 到1之間,其余20個(gè)核在[-1,1]區(qū)間內(nèi),按照等間距取值,μ1=0.95,μ2=0.85,…,μ10=-0.95。在兩塊2080ti GPU 上運(yùn)行約8 小時(shí),模型的超參數(shù)如表2所示。
表2 參數(shù)設(shè)置
FEVER 1.0數(shù)據(jù)競賽前三名的模型中,UNC-NLP[17]使用ESIΜ 模型檢索證據(jù),并且在推理過程中引入外部知識(shí),將WordNet 和瀏覽頻率作為特征融入推理模型,還使用了符號(hào)匹配規(guī)則;UCL[34]驗(yàn)證每一個(gè)聲明證據(jù)對(duì)的真實(shí)性,最后對(duì)所有的信息進(jìn)行融合推理;Athene UΚP TU[16]通過Attention 機(jī)制將ESIΜ 模型編碼的5 個(gè)聲明證據(jù)對(duì)結(jié)合進(jìn)行推理,最終得到預(yù)測(cè)結(jié)果。除此三種模型外還有QFE[35],利用文本摘要模型,邊檢索證據(jù)邊做驗(yàn)證;Attentive Checker[36]采用閱讀理解中的雙向注意力流(Bi-Directional Attention Flow for Μachine Comprehension,BIDAF)[37]結(jié)構(gòu)完成驗(yàn)證推理。
本文主要采用基于BERT的基線模型,現(xiàn)有的方法有如下幾種:一種是用BERT 編碼拼接聲明和所有證據(jù),將所有的證據(jù)拼接作為一個(gè)整體,再和聲明拼接,對(duì)長度大于512的直接截?cái)?,然后送入BERT模型做預(yù)測(cè);還有用BERT針對(duì)聲明和證據(jù)對(duì)采用句對(duì)模型預(yù)測(cè),每一對(duì)聲明和證據(jù)對(duì)分別送入BERT模型,不同的聲明和證據(jù)對(duì)的預(yù)測(cè)結(jié)果可能不同,然后再經(jīng)過一個(gè)融合模塊得到最終預(yù)測(cè)標(biāo)簽;GEAR 模型[10]將BERT 的[CLS]句向量的表示取出作為節(jié)點(diǎn)表示,然后用GNN 更新句向量表示,得到推理的結(jié)果。ΚGAT 模型[24]采用神經(jīng)網(wǎng)絡(luò)排序模型基于細(xì)粒度的注意力融合證據(jù)信息。
GHAN模型和其他模型方法在FEVER數(shù)據(jù)集上的表現(xiàn)對(duì)比如表3所示。
上述加引用的實(shí)驗(yàn)結(jié)果為論文中公布的結(jié)果,QFE和Attentive Checker 未提供代碼和開發(fā)集上的結(jié)果??梢钥闯?,GHAN 模型在測(cè)試集上準(zhǔn)確率為73.96%,F(xiàn)EVER 得分為70.54%,GHAN 性能優(yōu)于目前已公開的模型。值得注意的是,該模型FEVER 得分也比基于更龐大預(yù)訓(xùn)練模型Roberta Large 的方法更好,而且使用的參數(shù)幾乎是后者的一半。
表3 不同模型在FEVER開發(fā)集和測(cè)試集上的精度%
3.4.1 消融實(shí)驗(yàn)
為了分別評(píng)價(jià)模型各部分對(duì)實(shí)驗(yàn)結(jié)果的影響,本文通過消融實(shí)驗(yàn)移除各個(gè)長度的N-gram 特征,結(jié)果如表4所示。
表4 層次信息對(duì)GHAN模型結(jié)果的影響 %
表中-Unigram、-Bigram、-Trigram 分別表示去掉h取值為1,2,3的卷積核,-CNN表示去掉所有CNN提取的特征,轉(zhuǎn)移矩陣直接由句子的BERT 嵌入相似度構(gòu)成。如表中所示,去掉CNN 層對(duì)FEVER 得分影響最大。不同N-gram 分別對(duì)最終的準(zhǔn)確率和FEVER 得分有不同程度的貢獻(xiàn):一方面,長度不同的卷積核可以增強(qiáng)模型對(duì)細(xì)節(jié)信息的感知;另一方面,因?yàn)槎鄠€(gè)轉(zhuǎn)移矩陣使得提取的語義組合層次豐富具有多樣性,模型學(xué)習(xí)到與聲明中的詞語義相關(guān)的部分。
去除核并用點(diǎn)乘代替,準(zhǔn)確率和FEVER 得分都降了1%,這表明核能有助于捕捉不同的高層語義信息。在核函數(shù)選擇上,GHAN 模型參照Xiong 等人[33]的方法,語義相似度越高它們?cè)浇咏郸蘫,當(dāng)μ →∞時(shí),kernel-pooling接近于平均池化;當(dāng)μ=1,σ →0 相當(dāng)于一個(gè)精確匹配的核。 μ 定義了軟匹配的程度,σ 定義了核的寬度。其他可導(dǎo)的核函數(shù)也可以作為軟匹配的核函數(shù),本文采用的是最常用的高斯核。通過核得到分布在均值周圍的特征,也是Soft-TF 的含義(Soft Term Frequency)[23]?;诤撕瘮?shù)的軟匹配在搜索領(lǐng)域運(yùn)用廣泛,在事實(shí)驗(yàn)證任務(wù)中,可以用于增強(qiáng)證據(jù)的細(xì)節(jié)和聲明的語義之間的匹配度。
3.4.2 不同場景下的實(shí)驗(yàn)
由于FEVER 數(shù)據(jù)集中包含的證據(jù)來源不同,分散在單篇或多篇文章中,對(duì)于模型而言難易程度不同,因此統(tǒng)計(jì)了兩者的占比,如表5所示。
表7 GHAN錯(cuò)誤樣例分析
表5 FEVER數(shù)據(jù)集中單個(gè)和多個(gè)證據(jù)的統(tǒng)計(jì)信息
聲明驗(yàn)證所需單一證據(jù)的情景下,不需要復(fù)雜推理,模型表現(xiàn)顯然比需要多個(gè)證據(jù)的要好。GHAN在不同場景中的表現(xiàn)如表6所示。
表6 GHAN在不同證據(jù)場景中的表現(xiàn) %
因?yàn)槟P蜋z索分散證據(jù)難度增大,所以驗(yàn)證精度和FEVER得分都大幅下降。為了驗(yàn)證模型的推理驗(yàn)證能力,將檢索標(biāo)簽直接送入模型,得到表6 中最后一行的結(jié)果??梢?,檢索精度是下游推理的瓶頸之一,本文重點(diǎn)研究推理部分,檢索主要是考慮到程序運(yùn)行效率,在實(shí)際應(yīng)用中需要在效率和性能之間做更好的權(quán)衡。
3.4.3 錯(cuò)誤分析
隨機(jī)選擇100 個(gè)錯(cuò)誤樣本,進(jìn)行樣例分析,發(fā)現(xiàn)主要有三類錯(cuò)誤,如表7所示。
第一類是總結(jié)歸納性的語義理解錯(cuò)誤。表格第一行證據(jù)中表明Richards做了很多政治工作,聲明是對(duì)她的工作專業(yè)的評(píng)價(jià)總結(jié),模型并沒有理解到深層次的語義關(guān)系。
第二類是檢索到的信息不完善。表格第二行證據(jù)中沒有檢索到2007年的時(shí)間信息,導(dǎo)致推理驗(yàn)證錯(cuò)誤。
第三類是模型缺乏常識(shí)信息和指代信息。表格第三行樣例中,模型并不知道decades 是指10 年,同時(shí)也缺乏符號(hào)計(jì)算能力。以及前文檢索過程中遇到的指代問題,同一個(gè)名詞可能是指代不同事物,從而導(dǎo)致模型的誤判。
針對(duì)事實(shí)驗(yàn)證任務(wù),本文提出了基于圖的多層次注意力GHAN模型,模型通過卷積神經(jīng)網(wǎng)絡(luò)捕捉到不同粒度的N-gram信息,利用不同的核映射到不同空間得到多層次的特征,使得多層次信息在信息融合圖中更新,得到更準(zhǔn)確的事實(shí)驗(yàn)證結(jié)論。實(shí)驗(yàn)結(jié)果驗(yàn)證了多層次細(xì)節(jié)信息對(duì)于事實(shí)驗(yàn)證任務(wù)的重要性,在已知的基于BERT模型的方法對(duì)比中取得了最佳的效果。
外部知識(shí)能夠顯著改進(jìn)模型的推理能力,在模型中引入外部知識(shí),提高模型理解深層次語義的能力將會(huì)是未來的研究方向。