高 峰,倪建成,高 鵬,周子力,李艷艷
(1. 曲阜師范大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,山東 曲阜 273165;2. 華東師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200062;3. 曲阜師范大學(xué) 網(wǎng)絡(luò)信息中心,山東 曲阜 273165)
機(jī)器閱讀理解(Machine Reading Comprehension,MRC)一直以來(lái)是人工智能領(lǐng)域中一項(xiàng)具有挑戰(zhàn)性的研究任務(wù),是檢驗(yàn)機(jī)器是否具有人工智慧的一項(xiàng)重要參考[1]。作為具有較長(zhǎng)研究歷史的任務(wù),按研究方法區(qū)分,機(jī)器閱讀理解經(jīng)歷了三個(gè)較為清晰的階段: 早期系統(tǒng)時(shí)代(1970—2012)、傳統(tǒng)機(jī)器學(xué)習(xí)時(shí)代(2013—2015)、深度學(xué)習(xí)時(shí)代(2015— )[2]。得益于深度學(xué)習(xí)理論和框架的成熟,機(jī)器閱讀理解任務(wù)目前正處于繁榮發(fā)展的階段,從傳統(tǒng)的單文檔閱讀理解任務(wù)逐漸轉(zhuǎn)向?qū)﹂喿x理解能力、推理能力和概括能力要求更高的多文檔機(jī)器閱讀理解任務(wù),形成了以數(shù)據(jù)驅(qū)動(dòng)方法創(chuàng)新的局面。
單文檔機(jī)器閱讀理解(Single-Document Machine Reading Comprehension)是閱讀理解的最初任務(wù)形式,在深度學(xué)習(xí)時(shí)代其可被形式化為一個(gè)有監(jiān)督的學(xué)習(xí)問(wèn)題: 對(duì)于給定的問(wèn)題q、文本段落d,要求模型f輸出預(yù)測(cè)答案a,如式(1)所示。
f:q,d→a
(1)
表1 單文檔機(jī)器閱讀理解任務(wù)形式描述
多文檔機(jī)器閱讀理解(Multi-Document Machine Reading Comprehension)是在單文檔的基礎(chǔ)上,將給定的文檔數(shù)量從單個(gè)擴(kuò)增為多個(gè),并進(jìn)一步關(guān)注問(wèn)題與多個(gè)文檔間的內(nèi)部邏輯關(guān)系。因此,多文檔機(jī)器閱讀理解任務(wù)對(duì)模型的理解、推理和概括能力要求更高,引領(lǐng)了利用機(jī)器理解人類復(fù)雜語(yǔ)言邏輯關(guān)系的研究浪潮。在式(1)的基礎(chǔ)上,多文檔機(jī)器閱讀理解任務(wù)的形式化如下: 對(duì)于給定問(wèn)題q、多個(gè)文檔集合D,要求預(yù)測(cè)器f能夠輸出預(yù)測(cè)答案a,如式(2)所示。
f:q,D→a
(2)
隨著大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),在多個(gè)單文檔機(jī)器閱讀理解數(shù)據(jù)集任務(wù)上,人類的作答結(jié)果已逐漸被機(jī)器模型超越[4]。如何以貼近人類思維的方式完成更復(fù)雜的機(jī)器閱讀理解任務(wù),成為了閱讀領(lǐng)域的研究熱點(diǎn),其中推理能力成為了研究主流方向之一,如SQuAD 2.0[5]數(shù)據(jù)集在SQuAD 1.1[6]的基礎(chǔ)上,要求模型不僅能正確地作答問(wèn)題,還要求模型在無(wú)法根據(jù)給定文檔作出問(wèn)題的正確答案時(shí),主動(dòng)停止預(yù)測(cè),以判斷模型是否對(duì)問(wèn)題和文檔有足夠的理解能力,而不是強(qiáng)行作答。
多文檔機(jī)器閱讀理解可以視作單文檔閱讀理解的升級(jí)任務(wù),其內(nèi)部存在緊密的聯(lián)系。首先,兩者作為自然語(yǔ)言處理領(lǐng)域中的文本理解類任務(wù),前序處理流程相似,如利用文本嵌入將自然語(yǔ)言映射至向量空間中,或通過(guò)編碼層將線性文本信息轉(zhuǎn)化為序列編碼等;其次,兩者可共享閱讀理解任務(wù)的形式與評(píng)價(jià)指標(biāo),即使多文檔閱讀更注重文檔間的關(guān)系理解和邏輯推理,然而在具體的任務(wù)形式上,雖然兩者仍可保持一致,如中文單文檔閱讀數(shù)據(jù)集C3[7]與英文多文檔閱讀數(shù)據(jù)集WikiHop[8],兩者給定的閱讀文檔數(shù)量不同,但問(wèn)題和答案的形式均是多項(xiàng)選擇問(wèn)答。
多文檔閱讀理解與單文檔閱讀理解的區(qū)別主要表現(xiàn)在以下三個(gè)方面:
信息源多元化與單文檔閱讀理解僅有單個(gè)文檔不同,多文檔閱讀理解需要協(xié)調(diào)處理來(lái)自多個(gè)文檔的信息。由于不同數(shù)據(jù)集的創(chuàng)建方式和任務(wù)定義不同,同一樣本下的多個(gè)文檔可能存在不同的語(yǔ)義關(guān)系,如文檔間存在觀點(diǎn)矛盾[9-10],或需在多個(gè)文檔中進(jìn)行線性推理[8],甚至文檔集合內(nèi)存在噪聲文檔干擾正常的閱讀推理[11]等,這些現(xiàn)象都增加了模型閱讀理解的難度,需要進(jìn)行適應(yīng)化處理。
對(duì)推理能力與可解釋性要求的提升由于多文檔的閱讀過(guò)程更貼近人類閱讀時(shí)復(fù)雜的信息選擇過(guò)程,研究者們大多通過(guò)多種啟發(fā)式方法為模型賦予推理能力,以提升任務(wù)表現(xiàn)與魯棒性。如在閱讀過(guò)程中引入事理、知識(shí)圖譜等外部知識(shí),將信息轉(zhuǎn)換為模型內(nèi)部的判斷機(jī)理,可以進(jìn)一步提升推理過(guò)程的感知和分析能力[12]。而閱讀過(guò)程的可解釋性,則需要分析模型的預(yù)測(cè)過(guò)程是否符合人類思維認(rèn)知的模式,進(jìn)而探討在不同數(shù)據(jù)集或應(yīng)用場(chǎng)景下模型的泛化可能。
對(duì)時(shí)空伸縮性的要求無(wú)文檔數(shù)量上限的多文檔閱讀理解任務(wù),有時(shí)會(huì)導(dǎo)致答案搜索空間的爆炸,這就要求算法模型在作答時(shí)具有協(xié)調(diào)時(shí)空消耗的能力: 即使文檔規(guī)模增大,但在回答問(wèn)題時(shí)仍需要保持相對(duì)穩(wěn)定的響應(yīng)時(shí)間,同時(shí)也要有策略地選擇文檔集合并將其調(diào)入模型,以控制閱讀時(shí)機(jī)器的算力和存儲(chǔ)開(kāi)銷,保證問(wèn)答系統(tǒng)運(yùn)行的穩(wěn)定。
總之,多文檔機(jī)器閱讀理解脫胎于單文檔機(jī)器閱讀理解,但提出了更復(fù)雜的邏輯推理要求,其形式也更接近人類閱讀的真實(shí)過(guò)程[13],這決定了其在具有較高研究難度的同時(shí),擁有廣闊的商業(yè)應(yīng)用前景。
在深度學(xué)習(xí)領(lǐng)域,高質(zhì)量的海量數(shù)據(jù)集將直接助益模型達(dá)到更好的效果[13],進(jìn)一步推動(dòng)研究的發(fā)展。我們選取了8個(gè)有代表意義的多文檔閱讀理解數(shù)據(jù)集,從數(shù)據(jù)集創(chuàng)建的驅(qū)動(dòng)原因、語(yǔ)料來(lái)源、生成方式、任務(wù)特點(diǎn)和應(yīng)用意義等角度對(duì)它們進(jìn)行了總結(jié),并在表2中詳細(xì)展示各項(xiàng)指標(biāo)參數(shù),以期從數(shù)據(jù)集的角度呈現(xiàn)多文檔機(jī)器閱讀理解的發(fā)展趨勢(shì)。
表2 多文檔閱讀理解數(shù)據(jù)庫(kù)(2016—2020年)橫向比較
2.1.1 MS MARCO
2016年,Nguyen等人[10]認(rèn)識(shí)到當(dāng)時(shí)的閱讀理解數(shù)據(jù)集嚴(yán)重依賴于文檔中顯式的信息,缺少對(duì)內(nèi)容的深入理解,因此基于微軟必應(yīng)搜索引擎的用戶搜索記錄和網(wǎng)頁(yè)文檔,構(gòu)建了能反映真實(shí)世界中人類問(wèn)題需求的多文檔機(jī)器閱讀理解數(shù)據(jù)集——MS MARCO。每樣本包含6個(gè)字段: ①用戶在搜索時(shí)預(yù)期可通過(guò)搜索引擎直接獲得答案的問(wèn)題; ②10個(gè)來(lái)自必應(yīng)搜索引擎并經(jīng)過(guò)人工確認(rèn)與問(wèn)題相關(guān)的獨(dú)立文檔; ③由人工從文檔中直接抽取的答案; ④由人工根據(jù)文檔重新編寫的答案,并要求此答案比③更符合自然語(yǔ)言的語(yǔ)法與邏輯,且保證與原文檔的內(nèi)容具有一定區(qū)分度; ⑤文檔的原文鏈接、原文標(biāo)題、原主體文本等未經(jīng)加工的源信息; ⑥對(duì)問(wèn)題的分類標(biāo)簽,如“數(shù)字型”“實(shí)體型”“地點(diǎn)型”、“人物型”或“描述型”等。MS MARCO數(shù)據(jù)集是一項(xiàng)里程碑式的工作,它較早地認(rèn)識(shí)到利用搜索引擎日志,從用戶的主觀意圖和海量網(wǎng)絡(luò)文檔入手,產(chǎn)出可反饋人類社會(huì)真實(shí)需求的多文檔閱讀理解數(shù)據(jù)集。
2.1.2 TriviaQA
2017年,Joshi等人[14]提出,如果直接將智力問(wèn)答競(jìng)賽中涉及多個(gè)知識(shí)領(lǐng)域的賽題作為閱讀理解任務(wù)的問(wèn)題,不僅可以避免需要人工針對(duì)文檔重新編造問(wèn)題的繁瑣過(guò)程,還能減少因問(wèn)題文本語(yǔ)言風(fēng)格或問(wèn)題與文檔信息相關(guān)性過(guò)強(qiáng)而導(dǎo)致的數(shù)據(jù)偏置問(wèn)題。他們基于約9.5萬(wàn)個(gè)智力問(wèn)答“問(wèn)題-答案”對(duì),將維基百科與網(wǎng)絡(luò)文檔作為語(yǔ)料庫(kù),創(chuàng)建了面向智力問(wèn)答的多文檔閱讀理解數(shù)據(jù)集——TriviaQA。平均每個(gè)樣本有6個(gè)相關(guān)文檔用于答案的預(yù)測(cè)。
與其他數(shù)據(jù)集相比,TriviaQA有3個(gè)特點(diǎn): (1)不僅涵蓋了多個(gè)領(lǐng)域的智力挑戰(zhàn)問(wèn)題,而且真實(shí)地遷移了人類社會(huì)在“問(wèn)答”方面的興趣愛(ài)好到機(jī)器世界中;(2) 通過(guò)對(duì)隨機(jī)采樣樣本進(jìn)行定性分析,發(fā)現(xiàn)分別在維基百科抽取到和從網(wǎng)絡(luò)文檔篩選的兩種文檔集合中,能夠涵蓋正確回答問(wèn)題的比例分別為79.7%和75.4%,同時(shí),與SQuAD相比,超過(guò)三倍以上的問(wèn)題需要通過(guò)對(duì)多個(gè)句子的推理才能得出答案,證明了其有效性和全面性;(3) TriviaQA不僅可用于信息檢索式閱讀理解,而且為構(gòu)建基于結(jié)構(gòu)化知識(shí)的問(wèn)答系統(tǒng)提供了可用素材,為文本結(jié)合外部知識(shí)的閱讀問(wèn)答方法研究奠定了語(yǔ)料基礎(chǔ)。
2.1.3 DuReader
2018年,為了增添閱讀理解數(shù)據(jù)集語(yǔ)言的多樣性,He等人[9]利用百度搜索引擎日志和大型互助問(wèn)答社區(qū)“百度知道”,建立了中文的多文檔閱讀理解問(wèn)答數(shù)據(jù)集——DuReader,創(chuàng)新性地引入了針對(duì)答案是否為“主觀觀點(diǎn)/客觀事實(shí)”和“實(shí)體性/描述性/是否命題”的兩種分類標(biāo)準(zhǔn),利用人工匯總多個(gè)網(wǎng)絡(luò)文檔和百度知道社區(qū)回答,生成針對(duì)問(wèn)題的人工準(zhǔn)確答案。DuReader數(shù)據(jù)集包含了約20萬(wàn)個(gè)問(wèn)題,42萬(wàn)個(gè)答案和100萬(wàn)個(gè)文檔,是發(fā)布時(shí)最大的中文閱讀理解數(shù)據(jù)集。
2.1.4 WikiHop
2018年,Welbl等人[8]認(rèn)為當(dāng)時(shí)的多文檔閱讀理解數(shù)據(jù)集中缺少對(duì)文檔間邏輯推理的要求,因此他們基于Wikidata(1)https://www.wikidata.org的關(guān)系三元組和維基百科,利用有向二部圖,構(gòu)建了文檔間存在線性邏輯關(guān)系的開(kāi)放域多文檔閱讀理解數(shù)據(jù)集QAngaroo WikiHop。首先將先驗(yàn)知識(shí)三元組(Subject Entity,Relation,Object Entity),轉(zhuǎn)化為問(wèn)答的形式: Question=(Subject Entity,Relation,?),Answer=(Object Entity);然后構(gòu)建如圖1所示的有向二部圖,左側(cè)為實(shí)體節(jié)點(diǎn),右側(cè)為文檔節(jié)點(diǎn),當(dāng)文檔中包含某個(gè)實(shí)體時(shí)則從文檔連接至實(shí)體;最后利用廣度優(yōu)先搜索(Breadth-First Search)算法構(gòu)建從Subject Entity到Object Entity的搜索路徑,收集路徑中命中的文檔與相關(guān)的實(shí)體并保存為一個(gè)樣本,其中與答案實(shí)體類型一致的其他實(shí)體將被保存為問(wèn)題的干擾候選項(xiàng)。特別地,若在收集的單個(gè)樣本中,存在多個(gè)同時(shí)成立的先驗(yàn)知識(shí),即在答案實(shí)體和干擾項(xiàng)中同時(shí)滿足先驗(yàn)知識(shí)(s,r,o)與先驗(yàn)知識(shí)(s,r,o′),則舍棄候選項(xiàng)o′,以保證在同一問(wèn)題下存在唯一的答案o。圖1中有底色的項(xiàng)目表示在搜索時(shí)命中的文檔和實(shí)體,對(duì)號(hào)表示為正確答案,叉號(hào)表示為候選項(xiàng)中的干擾答案。為了驗(yàn)證數(shù)據(jù)集的有效性,Welbl等人對(duì)開(kāi)發(fā)集與測(cè)試集中的每條數(shù)據(jù)邀請(qǐng)了3名志愿者,進(jìn)行問(wèn)題與文檔間邏輯關(guān)系的驗(yàn)證,結(jié)果顯示有約74%的數(shù)據(jù)遵循或可能遵循“回答問(wèn)題需要在多個(gè)文檔間進(jìn)行邏輯推理”的假設(shè)。
圖1 WikiHop數(shù)據(jù)集創(chuàng)建示意圖引用自原論文
2.1.5 MedHop
近年來(lái),分子生物學(xué)(Molecular Biology)的出版物數(shù)量呈指數(shù)級(jí)增長(zhǎng)[15],而且其相關(guān)的數(shù)據(jù)分析經(jīng)歷了嚴(yán)格生物化學(xué)實(shí)驗(yàn)驗(yàn)證,具有較強(qiáng)的科學(xué)性和客觀性。在此背景下Welbl等人[8]以DrugBank[16-17]為結(jié)構(gòu)化知識(shí)、Medline藥物文獻(xiàn)摘要為語(yǔ)料庫(kù),復(fù)用WikiHop的創(chuàng)建方式,提出了面向封閉域的QAngaroo MedHop[8]數(shù)據(jù)集,目的在于利用記錄了藥物生化性質(zhì)的文獻(xiàn)摘要,通過(guò)機(jī)器閱讀理解的形式進(jìn)行藥物間反應(yīng)(Drug-Drug Interactions,DDIs)預(yù)測(cè)。
藥物反應(yīng)預(yù)測(cè)涉及藥物-蛋白質(zhì)反應(yīng)、蛋白質(zhì)-蛋白質(zhì)反應(yīng)等多種生物化學(xué)過(guò)程,因此MedHop數(shù)據(jù)集具有一定的挑戰(zhàn)性,其將多文檔機(jī)器閱讀任務(wù)的研究領(lǐng)域擴(kuò)展到了分子生物學(xué),使用完全基于自然語(yǔ)言理解的方式對(duì)DDIs進(jìn)行預(yù)測(cè)。利用科學(xué)、嚴(yán)謹(jǐn)和定量分析的生物化學(xué)研究成果能促進(jìn)自然語(yǔ)言領(lǐng)域的相關(guān)研究,而自然語(yǔ)言領(lǐng)域預(yù)測(cè)的結(jié)果又可以有針對(duì)性地指導(dǎo)生物化學(xué)的相關(guān)實(shí)驗(yàn)過(guò)程,提高實(shí)驗(yàn)效率,減少實(shí)驗(yàn)損耗,實(shí)現(xiàn)兩研究領(lǐng)域的共同發(fā)展。
2.1.6 HotpotQA
2018年,Yang等人[4]指出多文檔閱讀理解任務(wù)中存在的一個(gè)關(guān)鍵缺陷,即當(dāng)時(shí)的數(shù)據(jù)集不能在閱讀理解過(guò)程中明確地提供文檔間前進(jìn)或后退的邏輯關(guān)系證據(jù),進(jìn)而導(dǎo)致在學(xué)習(xí)過(guò)程只關(guān)注如何預(yù)測(cè)答案,卻忽視了分析預(yù)測(cè)過(guò)程的邏輯性。為此,Yang等人通過(guò)人工標(biāo)記出在人類思維閱讀、推理時(shí)使用的相關(guān)句子,以Wikipedia為語(yǔ)料庫(kù)創(chuàng)建了帶有摘選標(biāo)記的多文檔數(shù)據(jù)集——HotpotQA。HotpotQA有4個(gè)主要特征: (1) 問(wèn)題需要在提供的多個(gè)文檔中進(jìn)行選擇和推理才能回答;(2) 問(wèn)題形式多樣,且問(wèn)題的生成未依賴于任何先驗(yàn)知識(shí);(3) 提供了語(yǔ)句級(jí)別的支持性邏輯鏈條,幫助模型學(xué)習(xí)人類的閱讀推理過(guò)程,并提出了對(duì)模型的回答過(guò)程進(jìn)行合理性驗(yàn)證的要求;(4) 新增了兩實(shí)體間屬性比較的問(wèn)題種類,用于測(cè)評(píng)模型提取信息和比較信息的能力。
HotpotQA數(shù)據(jù)集具有112 779個(gè)樣本,其中訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集包含的樣本數(shù)量分別為90 564個(gè)、7 405個(gè)和7 405個(gè)。由于此數(shù)據(jù)集的設(shè)計(jì)理念先進(jìn),更貼合人類閱讀理解習(xí)慣,在發(fā)布后迅速得到了大量研究者的關(guān)注和評(píng)測(cè)提交。
2.1.7 AmazonQA
2019年,Gupta等人[18]觀察到每天有幾千名的顧客在亞馬遜購(gòu)物網(wǎng)站的商品詳情頁(yè)面進(jìn)行提問(wèn),而這些問(wèn)題能在廣泛地瀏覽來(lái)自其他用戶的評(píng)論后得出答案。因此,Gupta等人從亞馬遜網(wǎng)站15.6萬(wàn)件商品中的1 400萬(wàn)位用戶的評(píng)論文檔中收集了92.3萬(wàn)個(gè)問(wèn)題和360萬(wàn)個(gè)答案,開(kāi)發(fā)了基于用戶社區(qū)商品問(wèn)答的多文檔機(jī)器閱讀理解數(shù)據(jù)集——AmazonQA。與其他數(shù)據(jù)集相比,該數(shù)據(jù)集著眼于電子商務(wù)領(lǐng)域的數(shù)據(jù)信息,完整地反映真實(shí)用戶的問(wèn)題需求,是發(fā)布時(shí)最大的描述性問(wèn)答數(shù)據(jù)集。為了訓(xùn)練與檢測(cè)模型對(duì)數(shù)據(jù)的理解能力,與SQuAD 2.0類似,AmazonQA提供了是否可以通過(guò)文檔回答問(wèn)題的指示標(biāo)記。
2.1.8 R4C
在實(shí)際應(yīng)用中,類似于HotpotQA提供的支持性事實(shí)(Supporting Facts)是以句子形式出現(xiàn)的,而語(yǔ)句中僅有少部分內(nèi)容是有效的驅(qū)動(dòng)信息,大部分為冗余信息。為了使推理過(guò)程更準(zhǔn)確、清晰,Inoue等人[19]于2020年提出了半結(jié)構(gòu)化、具有更細(xì)粒度的派生事實(shí)(Derivation)驅(qū)動(dòng)的多文檔推理數(shù)據(jù)集——R4C。從文檔中抽取的派生事實(shí)d的形式化如式(3)所示。
d≡
(3)
其中,dh與dt是名詞性短語(yǔ)實(shí)體,dr是動(dòng)詞性短語(yǔ),用于表示dh和dt的邏輯關(guān)系。式(3)半結(jié)構(gòu)化邏輯表示結(jié)構(gòu),可以為模型提供更清晰明確的邏輯跳轉(zhuǎn)事實(shí),細(xì)化、充實(shí)了推理鏈路的完整性、可靠性和合理性。
由于派生事實(shí)粒度較細(xì)且提取困難,R4C數(shù)據(jù)集的規(guī)模小于HotpotQA,其包含約4 600個(gè)樣本,每個(gè)樣本均包含3條人工提取的優(yōu)質(zhì)派生事實(shí)。盡管數(shù)據(jù)集規(guī)模較小,但這種小粒度的推理鏈條,模擬了人類閱讀中細(xì)粒度可解釋理解的過(guò)程,是多文檔閱讀理解任務(wù)中研究的新趨勢(shì),有助于模型在細(xì)節(jié)推理方向的創(chuàng)新。
2.2.1 準(zhǔn)確率
對(duì)于分類式閱讀理解任務(wù),一般采用準(zhǔn)確率(Accuracy)評(píng)價(jià)模型的預(yù)測(cè)結(jié)果[6,20-22],準(zhǔn)確率是預(yù)測(cè)結(jié)果正確的樣本數(shù)占樣本總數(shù)的比值。
2.2.2 聯(lián)合F1和EM
對(duì)于邏輯鏈路預(yù)測(cè)要求的多文檔閱讀理解任務(wù),一般需要采用聯(lián)合F1(JointF1)指標(biāo)以評(píng)價(jià)模型在預(yù)測(cè)過(guò)程中生成鏈路的質(zhì)量[11,19]。計(jì)算時(shí),以詞語(yǔ)為粒度分別計(jì)算正確答案、正確推理鏈路與預(yù)測(cè)答案、預(yù)測(cè)推理鏈路之間的答案查準(zhǔn)率Pans、推理鏈路查準(zhǔn)率Psup、答案查全率Rans、推理鏈路查全率Rsup,并分別將答案與推理鏈路的查準(zhǔn)率和查全率作積得到聯(lián)合查準(zhǔn)率與聯(lián)合查全率。聯(lián)合查準(zhǔn)率Pjoint、聯(lián)合查全率Rjoint和聯(lián)合F1的定義如式(4)~式(6)所示。
EM精確匹配(Exact Match) 是一項(xiàng)較為嚴(yán)格的評(píng)價(jià)指標(biāo),對(duì)于模型給出的候選答案詞組、句子,只有在候選答案與參考答案完全相同時(shí)才可視為匹配成功。若數(shù)據(jù)集中共有N個(gè)問(wèn)題,模型給出M個(gè)匹配成功的候選答案,其EM得分計(jì)算如式(7)所示。
(7)
2.2.3 BLEU
對(duì)于生成式閱讀理解任務(wù),可使用BLEU(Bilingual Evaluation Understudy)[23]進(jìn)行答案質(zhì)量評(píng)價(jià)。該指標(biāo)最初被應(yīng)用在機(jī)器翻譯任務(wù)中,評(píng)價(jià)生成譯文相對(duì)于標(biāo)準(zhǔn)譯文的質(zhì)量,如式(8)~式(10)所示。
(8)
(9)
(10)
其中,N-gram表示采用N元精度(N-gram precision),一般選用四元精度(4-gram Precision)進(jìn)行句子級(jí)別的評(píng)價(jià);BP(Brevity Penalty)為簡(jiǎn)潔懲罰因子,以懲罰候選語(yǔ)句在低召回率下語(yǔ)句過(guò)短的情況。
2.2.4 ROUGE
對(duì)于生成式閱讀理解任務(wù),還可使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[24]進(jìn)行答案質(zhì)量評(píng)價(jià)。該指標(biāo)起初主要用于評(píng)價(jià)自動(dòng)摘要生成任務(wù)的生成語(yǔ)句[25],與BLEU不同的是其可從查全率的角度對(duì)候選語(yǔ)句與參考語(yǔ)句進(jìn)行評(píng)價(jià)。在生成式機(jī)器閱讀理解任務(wù)的實(shí)際應(yīng)用中,最常用的指標(biāo)是ROUGE-L,假定對(duì)于某模型有長(zhǎng)度為m的參考序列文本答案X和長(zhǎng)度為n的候選序列文本答案Y,ROUGE-L得分Flcs計(jì)算過(guò)程如式(11)~式(13)所示。
其中,LCS(X,Y)為X與Y的最長(zhǎng)公共子序列長(zhǎng)度;Rlcs為查全率;Plcs為查準(zhǔn)率;β為平衡因子,在機(jī)器閱讀理解任務(wù)中一般可取值為1.2;而當(dāng)β足夠大時(shí),得分Flcs=Rlcs,即指標(biāo)關(guān)注查全率。
基于深度學(xué)習(xí)的多文檔機(jī)器閱讀理解模型,可按照模型的線性處理順序,抽象為如圖2所示的自底向上的模型層次圖,包含映射自然語(yǔ)言至向量空間的嵌入層、捕捉線性文本序列特征的編碼層、理解文本與實(shí)體間語(yǔ)義關(guān)系的閱讀理解層和適應(yīng)任務(wù)特性的答案輸出層。通過(guò)研究模型在各層,尤其是閱讀理解層的技術(shù)方法,實(shí)現(xiàn)研究者的設(shè)計(jì)思路以適應(yīng)數(shù)據(jù)集任務(wù)的特點(diǎn),是提升模型在多文檔閱讀理解任務(wù)中表現(xiàn)的重要手段。
嵌入層(Embedding Layer)負(fù)責(zé)將問(wèn)題、文檔和答案等文字信息投射到高維稠密的向量空間中,實(shí)現(xiàn)文本信息的數(shù)字化與向量化表示。依據(jù)嵌入過(guò)程中的粒度級(jí)別、語(yǔ)境依賴和詞性等特征,嵌入方法可以分為字級(jí)嵌入、詞級(jí)嵌入、語(yǔ)境嵌入和特征嵌入等方法。在應(yīng)用中可組合多種嵌入方法以提高模型效果。
3.1.1 字級(jí)嵌入方法
如圖3所示,字級(jí)嵌入(Character Embedding)通常是以字母為單位并結(jié)合諸如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)[26]等深度學(xué)習(xí)框架的文本嵌入方法。此方法可用來(lái)解決噪聲字符(Noisy Character)、未登錄詞(Out-of-Vocabulary)和生僻詞(Rare Word)等問(wèn)題[27-33],在Tu等人[34]提出的多文檔閱讀模型HDE中,將N-gram字級(jí)嵌入[29]作為文本特征的一部分,以緩解因粗粒度嵌入方法導(dǎo)致的信息表示不足的問(wèn)題。
圖3 字級(jí)嵌入示意圖
3.1.2 詞級(jí)嵌入方法
如圖4所示,詞級(jí)嵌入(Word Embedding)是將文本以單詞為單位,基于單詞分布式假設(shè)進(jìn)行的實(shí)值向量化表示。2013年,Mikolov等人[35-36]提出了基于連續(xù)詞袋模型和連續(xù)跳躍元語(yǔ)法模型,用于單詞相似性檢驗(yàn)的詞向量嵌入模型Word2Vec,實(shí)現(xiàn)了對(duì)詞語(yǔ)關(guān)系的建模。2014年,為了更好地利用大規(guī)模語(yǔ)料庫(kù)的語(yǔ)言共現(xiàn)(Co-occurrence)統(tǒng)計(jì)特性, Pennington等人[37]基于全局對(duì)數(shù)雙線性回歸方法提出了GloVe模型,結(jié)合了局部上下文窗口和全局矩陣分解兩種方法的優(yōu)點(diǎn),并在多個(gè)多文檔閱讀理解模型的應(yīng)用中提高了答案預(yù)測(cè)的準(zhǔn)確率[34,38-39]。
圖4 詞級(jí)嵌入示意圖
3.1.3 語(yǔ)境嵌入方法
雖然在詞級(jí)嵌入方法中固定的實(shí)值嵌入方法取得了很大的成功,但是研究者發(fā)現(xiàn)如圖5所示結(jié)合了上下文的語(yǔ)境嵌入方法展現(xiàn)出更強(qiáng)大的語(yǔ)言表示能力。此類方法一方面可以區(qū)分一詞多義,另一方面還可以通過(guò)利用預(yù)訓(xùn)練深度網(wǎng)絡(luò)模型中的高低階層來(lái)表示語(yǔ)境中蘊(yùn)含的單詞含義和句法結(jié)構(gòu)信息[40]。2018年,Peters等人[40]基于雙向LSTM提出了一種利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-term Memory,LSTM)基于特征(Feature-Based)的語(yǔ)言模型ELMo。該模型利用單詞的上下文對(duì)文字進(jìn)行特定語(yǔ)境的雙向嵌入表示,有效提升了其應(yīng)用到自然語(yǔ)言處理的其他下游任務(wù)的表現(xiàn)。2019年,Devlin等人[4]在雙向Transformer的基礎(chǔ)上提出了利用預(yù)訓(xùn)練+精調(diào)(Fine-Tuned)策略的雙向特征表示語(yǔ)言理解模型BERT,在單文檔閱讀理解任務(wù)SquAD 1.1上超越了人類的作答結(jié)果。2020年,針對(duì)“預(yù)訓(xùn)練+精調(diào)”的兩段式語(yǔ)言嵌入框架需要大量領(lǐng)域標(biāo)注數(shù)據(jù),有悖于人類在少量樣本上就可學(xué)習(xí)語(yǔ)言規(guī)律的問(wèn)題,Brown等人[41]提出了基于小樣本(Few-Shot)的自回歸語(yǔ)言模型(Autoregressive Language Model) GPT-3。得益于該模型先進(jìn)的設(shè)計(jì)理念,在多文檔閱讀理解數(shù)據(jù)集TriviaQA[14]上,超越了當(dāng)時(shí)效果最好的“預(yù)訓(xùn)練+精調(diào)”式模型RAG[42]的預(yù)測(cè)結(jié)果。
圖5 語(yǔ)境嵌入示意圖
3.1.4 特征嵌入方法
如圖6所示,特征嵌入(Feature Embedding)可以將諸如命名實(shí)體識(shí)別(Named-Entity Recognition,NER)、詞性標(biāo)注(Part-of-Speech,POS)、位置特征(Position)等文本低維度特征與其他特征嵌入進(jìn)行拼接,進(jìn)而提升模型的閱讀理解能力。Cao等人[39]在BAG模型中,將文本的NER、POS特征和語(yǔ)義嵌入拼接形成聯(lián)合嵌入后,提升了多文檔閱讀理解任務(wù)的答案預(yù)測(cè)準(zhǔn)確率。
圖6 特征嵌入示意圖
在多文檔閱讀理解模型中,編碼層(Encoder Layer)主要對(duì)線性文本序列的上下文語(yǔ)境進(jìn)行編碼,是模型中通用的基礎(chǔ)部分。多文檔機(jī)器閱讀理解模型中常用的編碼層結(jié)構(gòu)有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)及其變種和Transformer及其變種。
3.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
如圖7所示,RNN[43]及其變種LSTM[44]、GRU[45]可以通過(guò)時(shí)間步的前進(jìn)方向順序地處理文本。由于此類網(wǎng)絡(luò)模型包含學(xué)習(xí)單元和參數(shù)共享機(jī)制,使其在應(yīng)用中具有記憶功能。在實(shí)際應(yīng)用中,除了有從前向后的時(shí)間步順序,還可以結(jié)合從后向前的反向時(shí)間步順序,拼接生成雙向的(Bidirectional)特征表示[31,46-50],從而更好地學(xué)習(xí)文本特征。
圖7 循環(huán)神經(jīng)網(wǎng)絡(luò)時(shí)間序列展開(kāi)圖
3.2.2 Transformer
雖然RNN模型展現(xiàn)出了強(qiáng)大的時(shí)序信息編碼能力,但是其所依賴的時(shí)序?qū)W習(xí)模式不僅計(jì)算效率較低,還會(huì)導(dǎo)致長(zhǎng)序列文本的前文信息出現(xiàn)丟失。2017年,Vaswani等人[51]提出了不依賴時(shí)間步的完全基于自注意力機(jī)制的Transformer模型。如圖8所示,該模型可通過(guò)并行計(jì)算模式提高計(jì)算效率,有效地解決了RNN模型中信息丟失的問(wèn)題。
圖8 基于自注意力機(jī)制的Transformer編碼示意圖
Transformer模型在編碼和解碼過(guò)程中,把分別由源輸入序列和目標(biāo)輸出序列充當(dāng)?shù)木€性文本序列劃分為3個(gè)角色: 查詢Q(Query)、鍵K(Key)、值V(Value),并通過(guò)計(jì)算序列間的縮放點(diǎn)積注意力(Scaled Dot-product Attention)進(jìn)行特征學(xué)習(xí),如式(14)所示。
(14)
閱讀理解層是整個(gè)模型中最靈活的自定義處理層之一,也是研究者們集思廣益后提出的針對(duì)不同多文檔閱讀理解任務(wù)特點(diǎn)而進(jìn)行特定處理的模塊。根據(jù)模型的側(cè)重點(diǎn),閱讀理解層包含4種主流研究方法: “多文檔-問(wèn)題”選擇式、Transformer精調(diào)式、圖卷積神經(jīng)網(wǎng)絡(luò)式和外部知識(shí)融合式。
3.3.1 “多文檔-問(wèn)題”選擇式閱讀方法
鑒于多文檔閱讀理解任務(wù)需要對(duì)多個(gè)文檔進(jìn)行閱讀和答案預(yù)測(cè),研究者們提出了根據(jù)多個(gè)文檔與問(wèn)題的關(guān)聯(lián)性和重要性,有側(cè)重地進(jìn)行文檔選擇的方法。2018年,Clark等人[32]認(rèn)為在多個(gè)文檔中預(yù)測(cè)答案,會(huì)被不相干的文檔干擾,造成正確率下降,因此提出了利用TF-IDF算法先選擇與問(wèn)題相關(guān)的文檔子集,后將子集內(nèi)各文檔預(yù)測(cè)的答案語(yǔ)段進(jìn)行全局共享的歸一化操作,避免了不同文檔間各答案的特征差異而導(dǎo)致的輸出偏置,迫使模型可以產(chǎn)出在不同文檔間具有可比性的候選答案集合。
2018年,Wang等人[46]提出的跨文檔驗(yàn)證式閱讀理解模型將多個(gè)文檔拼接為一個(gè)超長(zhǎng)序列,根據(jù)負(fù)采樣對(duì)數(shù)概率在各文檔的子序列部分各抽取一個(gè)候選答案語(yǔ)段An(n為文檔及答案的序號(hào)),并在每個(gè)序列分詞上設(shè)置是否與候選答案重疊的標(biāo)記(與答案重合的分詞標(biāo)記為1,其他位置標(biāo)記為0),以保證抽取到的答案語(yǔ)段相對(duì)于該文檔的預(yù)測(cè)質(zhì)量。最后利用Softmax函數(shù)對(duì)來(lái)自n個(gè)文檔的候選答案語(yǔ)段聯(lián)合表示rAn進(jìn)行答案與多個(gè)段落的相關(guān)性驗(yàn)證,并輸出最終預(yù)測(cè)的答案。
然而,將多個(gè)文檔進(jìn)行簡(jiǎn)單的拼接會(huì)因文檔數(shù)量的增加而導(dǎo)致閱讀效率下降。為解決這個(gè)問(wèn)題,Yan等人[47]提出了面向多文檔閱讀的深度級(jí)聯(lián)模型,通過(guò)“文檔-段落-答案”不斷細(xì)化的閱讀過(guò)程,平衡了答案預(yù)測(cè)的正確率和閱讀效率。多個(gè)文檔在閱讀過(guò)程中經(jīng)歷了文檔排序、段落排序、文檔提取、段落提取和答案提取5個(gè)處理過(guò)程,用于過(guò)濾與問(wèn)題不相關(guān)的文檔與段落,逐漸縮小答案搜索空間,保證了推理過(guò)程的合理性,在不斷細(xì)化的級(jí)聯(lián)過(guò)程中實(shí)現(xiàn)對(duì)答案語(yǔ)段的預(yù)測(cè)。
不同于上述兩種模型從文檔與答案的角度進(jìn)行預(yù)測(cè),在Mao等人[55]從豐富問(wèn)題語(yǔ)義度的角度提出的GAR模型,擴(kuò)充了閱讀理解中“問(wèn)題”的語(yǔ)義信息,以提高答案檢索時(shí)相關(guān)文檔的數(shù)量與質(zhì)量。Mao提出了三種擴(kuò)展問(wèn)題語(yǔ)句的方式: (1) 將原始問(wèn)題語(yǔ)句直接送入預(yù)訓(xùn)練語(yǔ)言模型中(如GPT-3[41]或BART-large[58])以生成“偽答案”語(yǔ)句,這些生成語(yǔ)句可能直接包含正確答案;(2) 給定文檔中包含“偽答案”的原文語(yǔ)句;(3)從維基百科中提取的,與原始問(wèn)題語(yǔ)句相關(guān)且包含“偽答案”的語(yǔ)句。通過(guò)從文檔中直接抽取答案和由模型接生成答案的兩項(xiàng)實(shí)驗(yàn),證明了以上三種擴(kuò)增語(yǔ)句對(duì)提升答案預(yù)測(cè)準(zhǔn)確率的有效性。
綜上,“多文檔-問(wèn)題”選擇式閱讀方法是在單文檔閱讀理解任務(wù)的研究基礎(chǔ)上,為滿足多文檔閱讀理解任務(wù)要求而進(jìn)行的必要擴(kuò)展,為后續(xù)開(kāi)展在多文檔信息邏輯推理奠定了堅(jiān)實(shí)基礎(chǔ)。
3.3.2 Transformer精調(diào)式閱讀方法
盡管Transformer模型具有較強(qiáng)的信息捕捉能力,然而考慮到模型復(fù)雜度,在應(yīng)用中需要限制文本序列的長(zhǎng)度。例如樸素Transformer模型支持的文本序列長(zhǎng)度上限為512,極大制約了Transformer模型在多文檔或長(zhǎng)序列文本上的應(yīng)用。為了降低Transformer模型的復(fù)雜度,Beltagy等人[57]提出了稀疏自注意力模型Longformer。該模型利用滑動(dòng)窗口注意力、擴(kuò)張滑動(dòng)窗口注意力和全局滑動(dòng)窗口注意力三種機(jī)制,將Transofrmer模型的復(fù)雜度從指數(shù)級(jí)降為線性級(jí)。同時(shí),全局滑動(dòng)窗口注意力機(jī)制的引入,能夠獲取問(wèn)題文本的相對(duì)于整個(gè)文本序列的全局特征注意力,確保問(wèn)題特征能被后續(xù)文本捕捉到。通過(guò)將多文檔信息拼接為單個(gè)超長(zhǎng)文本序列,Longformer模型在發(fā)表時(shí)取得了WikiHop和TriviaQA數(shù)據(jù)集上的最佳表現(xiàn)。
受圖的稀疏化啟發(fā),Zaheer等人[54]提出了Big Bird模型,引入了隨機(jī)注意力、窗口注意力和全局注意力三種機(jī)制,復(fù)雜度僅為線性級(jí)。在HotpotQA、TriviaQA和WikiHop數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該模型具有較強(qiáng)的長(zhǎng)文本特征捕捉能力。
總之,基于Transformer的精調(diào)式閱讀方法是將多個(gè)文檔拼接成單個(gè)文檔,利用或改進(jìn)單文檔閱讀理解的方法完成答案預(yù)測(cè),性能主要受文本序列長(zhǎng)度的影響,而基于圖神經(jīng)網(wǎng)絡(luò)的多文檔閱讀理解方法則從特征提取的拓?fù)浣Y(jié)構(gòu)上實(shí)現(xiàn)創(chuàng)新。
3.3.3 圖卷積神經(jīng)網(wǎng)絡(luò)式閱讀方法
圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks,GCNs)是一種有效表示真實(shí)世界中復(fù)雜關(guān)系的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)[59],可對(duì)應(yīng)在多文檔閱讀理解中的實(shí)體邏輯關(guān)系。
2019年,Cao等人[60]認(rèn)為當(dāng)時(shí)的機(jī)器閱讀理解方法主要應(yīng)用于單個(gè)文檔的信息檢索,為了整合和推理來(lái)自多個(gè)文檔的消息,提出了基于GCN的跨文檔閱讀理解模型——Entity-GCN。在閱讀過(guò)程中將從文檔中提取出的候選答案實(shí)體固化為圖中的提及節(jié)點(diǎn)(Mention Nodes),利用“同段”(連接來(lái)自同一文檔段落的節(jié)點(diǎn))、“同指”(連接同一候選答案的不同節(jié)點(diǎn))和“共指”(利用指代消解連接同一實(shí)體的不同節(jié)點(diǎn))的加邊方式建立為圖9的拓?fù)浣Y(jié)構(gòu)。圖中虛線矩形框代表單個(gè)文檔;節(jié)點(diǎn)是文檔中與候選答案匹配的文本語(yǔ)段(Text Span);來(lái)自同一個(gè)文檔的所有節(jié)點(diǎn)用實(shí)線連接,而不同文檔的相同文字節(jié)點(diǎn)用虛線連接。使用多關(guān)系型GCN[61]更新節(jié)點(diǎn)特征,如式(15)所示。
圖9 基于圖卷積神經(jīng)網(wǎng)絡(luò)的多文檔閱讀方法建模圖
(15)
其中,u為節(jié)點(diǎn)特征,l為GCN的迭代層數(shù),Ni為節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集合,R為圖中存在的關(guān)系集合,fs和fr分別為學(xué)習(xí)自身節(jié)點(diǎn)特征和在某特定關(guān)系下鄰居節(jié)點(diǎn)特征的線性學(xué)習(xí)矩陣。
2019年,為了更好地融合問(wèn)題與節(jié)點(diǎn)特征,Cao等人[39]將單文檔閱讀理解方法中的雙向注意力機(jī)制[28]引入到Entity-GCN的節(jié)點(diǎn)特征中,提出了BAG模型,實(shí)現(xiàn)了將雙向注意力機(jī)制由序列文本到圖結(jié)構(gòu)的應(yīng)用。問(wèn)題與節(jié)點(diǎn)特征的相似度矩陣S的計(jì)算過(guò)程如式(16)所示。
S=avg-1fa(Concat(hn,fq,hn°fq))
(16)
(17)
2020年,Tang等人[38]從補(bǔ)全多跳閱讀理解實(shí)體推理鏈條的角度提出了Path-based GCN模型,其主要思想是除提取與候選答案一致的文本語(yǔ)段作為節(jié)點(diǎn)之外,還抽取了與節(jié)點(diǎn)有關(guān)的命名實(shí)體和名詞性短語(yǔ)作為推理節(jié)點(diǎn)補(bǔ)充到閱讀圖。圖9中方角矩形的推理實(shí)體連接了兩答案節(jié)點(diǎn),構(gòu)建潛在的推理鏈路。此外,Tang等人還提出了問(wèn)題感知的門控機(jī)制(Question-aware Gate),不同于BAG模型中問(wèn)題節(jié)點(diǎn)特征的引入方式,問(wèn)題感知門控作用于GCN的推理過(guò)程,可控制節(jié)點(diǎn)的特征更新。
與節(jié)點(diǎn)均為實(shí)體的同質(zhì)圖不同,Tu等人[34]為了表示多語(yǔ)義角度,將涉及的多個(gè)文檔提取為與其他節(jié)點(diǎn)異質(zhì)的文檔節(jié)點(diǎn)掛載到圖網(wǎng)絡(luò),最終提出了包含不同信息粒度的異質(zhì)圖神經(jīng)網(wǎng)絡(luò)HDE[34]。如圖9的圓角矩形所示,將文檔節(jié)點(diǎn)連接到其自身包含的實(shí)體節(jié)點(diǎn),得到異質(zhì)圖網(wǎng)絡(luò)。
受認(rèn)知科學(xué)啟發(fā),Ding等人[62]提出的CogQA模型將多文檔閱讀分為兩個(gè)過(guò)程: 隱式信息提取和顯式邏輯推理,分別用BERT語(yǔ)言模型和圖卷積神經(jīng)網(wǎng)絡(luò)GCN實(shí)現(xiàn)。在閱讀時(shí),迭代地使用BERT從文檔中提取實(shí)體作為潛在的跳躍實(shí)體和答案實(shí)體,再利用GCN進(jìn)行推理,直到節(jié)點(diǎn)窮盡或GCN達(dá)到一定規(guī)模。CogQA的實(shí)體提取過(guò)程如式(18)~(21)所示。
(18)
(19)
(20)
(21)
其中,Sans、Eans、Shop和Ehop為指針向量,分別用于計(jì)算文檔中第i個(gè)分詞成為答案節(jié)點(diǎn)和跳躍節(jié)點(diǎn)的概率,T表示分詞的向量特征,Tj表示與第i個(gè)分詞位于同一語(yǔ)句的其他分詞的特征。提取到的節(jié)點(diǎn)在基于GCN的邏輯推理模塊中依照拓?fù)浣Y(jié)構(gòu)進(jìn)行特征更新。
3.3.4 融合外部知識(shí)的閱讀方法
2019年,為了提升閱讀過(guò)程的推理能力,Ye等人[63]提出了基于知識(shí)增強(qiáng)的圖閱讀模型KGNN。該模型從多個(gè)文檔中提取節(jié)點(diǎn),利用知識(shí)圖譜(Knowledge Graph)中現(xiàn)存的實(shí)體關(guān)系連接已知的且有知識(shí)關(guān)系的節(jié)點(diǎn),進(jìn)而建立關(guān)系矩陣Er。同時(shí),KGNN模型將共指的節(jié)點(diǎn)進(jìn)行連接,利用如式(22)所示特定關(guān)系的信息傳播方式完成推理過(guò)程。
(22)
其中,Nr(vi)表示在r關(guān)系下節(jié)點(diǎn)vi的鄰居節(jié)點(diǎn),αr是將問(wèn)題和關(guān)系r匹配的注意力權(quán)重矩陣,利用φr(vj)=FFN(vj+Er)的方式將鄰居節(jié)點(diǎn)和特定連接關(guān)系進(jìn)行融合,這里FFN(·)為全聯(lián)接的前向傳播層。KGNN模型從建模實(shí)體間關(guān)系的角度出發(fā),利用了知識(shí)圖譜的先驗(yàn)知識(shí)指導(dǎo)節(jié)點(diǎn)的連接,對(duì)提升模型推理鏈合理性和表現(xiàn)起到助力作用。
除利用知識(shí)外部知識(shí)指導(dǎo)關(guān)系建模外,Yang等人[64]提出了一種從知識(shí)圖譜提取知識(shí)嵌入到閱讀圖的模型KT-NET。對(duì)于文檔和問(wèn)題分詞的全集W,該模型從知識(shí)庫(kù)C中匹配相關(guān)的知識(shí)概念c∈C(w),并通過(guò)相似度矩陣α匹配w與c的語(yǔ)義關(guān)系,將與w相關(guān)的知識(shí)向量嵌入融合到BERT模型給出的語(yǔ)義向量中進(jìn)行后續(xù)預(yù)測(cè)。KT-NET模型的優(yōu)點(diǎn)在于不僅可以整合知識(shí)圖譜與文檔語(yǔ)義的知識(shí)信息,還可以從多個(gè)知識(shí)圖譜全局的角度考慮補(bǔ)充文檔中未顯示給出的知識(shí)嵌入信息,協(xié)調(diào)了語(yǔ)言模型和先驗(yàn)知識(shí)的應(yīng)用關(guān)系。
為了在圖神經(jīng)網(wǎng)絡(luò)中利用知識(shí)三元組信息,Sun等人[65]提出了包含文檔、實(shí)體和知識(shí)三元組的異質(zhì)圖網(wǎng)絡(luò)模型PullNet。該模型通過(guò)迭代地從知識(shí)圖譜中“拉取”三元組的方式,在文檔和知識(shí)圖譜中找到與問(wèn)題相關(guān)的實(shí)體并補(bǔ)充到閱讀圖中,最終使圖包含來(lái)自知識(shí)圖譜中的實(shí)體節(jié)點(diǎn)集合Ve、表示單句話的文檔節(jié)點(diǎn)集合Vd和包含知識(shí)三元組信息的事實(shí)節(jié)點(diǎn)集合Vf。令E表示圖網(wǎng)絡(luò)的邊集合,圖中存在兩種邊關(guān)系: (1)若Ve中的節(jié)點(diǎn)vs,vo包含于知識(shí)圖譜三元組中,則分別連接vs,vo和對(duì)應(yīng)的vf;(2)若實(shí)體節(jié)點(diǎn)ve在文本序列vd中被提及,則連接vd與ve。在建立閱讀圖后,基于節(jié)點(diǎn)分類的方式完成答案預(yù)測(cè)。PullNet是整合多文檔文本信息和知識(shí)圖譜知識(shí)的模型,其創(chuàng)新在于通過(guò)建立包含先驗(yàn)知識(shí)信息的異質(zhì)推理圖,進(jìn)行融合先驗(yàn)知識(shí)的閱讀理解過(guò)程。
為了充分理解問(wèn)題語(yǔ)義,結(jié)合問(wèn)題類型實(shí)現(xiàn)有針對(duì)性的答案預(yù)測(cè),譚紅葉等人[66]提出了一種基于外部知識(shí)和層級(jí)篇章表示的多文檔閱讀理解方法。該方法從利用外部知識(shí)加強(qiáng)對(duì)問(wèn)題的理解程度出發(fā),先定義了識(shí)別問(wèn)題語(yǔ)句中重要詞的多種規(guī)則,再引入了重要詞在《現(xiàn)代漢語(yǔ)詞典》(第六版)的字典釋義和HowNet義原,使用特征嵌入拼接的方式,得到融合字典釋義的問(wèn)題特征表示。實(shí)驗(yàn)表明,《現(xiàn)代漢語(yǔ)詞典》對(duì)重要詞的覆蓋率為88.1%,HowNet對(duì)重要詞的覆蓋率為92.7%,因此能較好地適應(yīng)問(wèn)題中復(fù)雜的語(yǔ)義關(guān)系,實(shí)現(xiàn)豐富問(wèn)題語(yǔ)義知識(shí)表示的目的,進(jìn)一步提高了模型通過(guò)問(wèn)題特征捕捉原文信息進(jìn)行閱讀理解的能力。
輸出層的主要目的是適應(yīng)閱讀理解層的輸出與數(shù)據(jù)集的任務(wù)形式,生成模型的最終答案預(yù)測(cè)。根據(jù)閱讀理解層的特點(diǎn)與多文檔閱讀理解的任務(wù)特性,常用的輸出層有三種類型: 圖節(jié)點(diǎn)分類式、長(zhǎng)文本分類提取式和文本生成式。
3.4.1 圖節(jié)點(diǎn)分類式
利用GCN對(duì)實(shí)體和文檔進(jìn)行關(guān)系建模的方法[34,38-39,60]在閱讀理解層后連接多層感知機(jī)(Multilayer Perceptron,MLP)作為輸出層,在正確答案與候選答案間使用交叉熵函數(shù)計(jì)算損失,進(jìn)而優(yōu)化模型參數(shù)。如圖10所示,HDE模型[34]從GCN提取提及節(jié)點(diǎn)(Mention Nodes)和候選節(jié)點(diǎn)(Candidate Nodes)的特征,并將它們輸入到兩個(gè)獨(dú)立的MLP計(jì)算每個(gè)類別的分布得分a,如式(23)所示。
圖10 圖節(jié)點(diǎn)分類式輸出層示意圖
a=fC(HC)+ACCmax(fE(HE))
(23)
其中,HC、HE分別表示閱讀圖中候選節(jié)點(diǎn)和對(duì)應(yīng)的實(shí)體提及節(jié)點(diǎn)特征,在兩個(gè)獨(dú)立的雙層感知機(jī)fC、fE的作用下,得到每個(gè)節(jié)點(diǎn)的預(yù)測(cè)得分,ACCmax(·)表示從一組數(shù)據(jù)中提取的最大值。將兩者按照類別相加,得到各類的分布得分。
3.4.2 長(zhǎng)文本分類提取式
在序列式文本中,模型會(huì)預(yù)測(cè)每個(gè)分詞作為答案文本語(yǔ)段的起始概率pstart和結(jié)束概率pend,并將兩者的最大概率對(duì)應(yīng)的文本語(yǔ)段作為輸出,形式與CogQA模型提取跳躍實(shí)體文本語(yǔ)段或候選答案語(yǔ)段的方法類似,不再贅述。
對(duì)于給定多個(gè)候選答案的分類式閱讀理解任務(wù),一些長(zhǎng)文本閱讀模型采取拼接多個(gè)候選項(xiàng)和增加特殊標(biāo)記的方式,計(jì)算分類預(yù)測(cè)結(jié)果的得分。如Longformer模型[57]將針對(duì)問(wèn)題給出的多個(gè)候選答案(candidates)、問(wèn)題(question)與多個(gè)文檔(context)拼接為單個(gè)長(zhǎng)序列文本: [q] question [/q] [ent] candidate1 [/ent] … [ent] candidateN [/ent] context1 … contextM ,這里[q]、[/q]、[ent]、[/ent]和均為用于微調(diào)模型的標(biāo)記。在微調(diào)的過(guò)程中,標(biāo)記被賦予特殊含義,預(yù)測(cè)時(shí)將每個(gè)實(shí)體前的[ent]標(biāo)簽輸入到輸出層,得到該實(shí)體作為答案預(yù)測(cè)的概率。
3.4.3 文本生成式
由于在多文檔機(jī)器閱讀理解任務(wù)中作答時(shí)需整合多篇文檔的語(yǔ)義信息,直接從文檔中抽取文本語(yǔ)段作為答案可能會(huì)導(dǎo)致答案片面狹隘,無(wú)法統(tǒng)籌所有文檔的語(yǔ)義信息。為解決該問(wèn)題,部分模型使用基于序列到序列(Sequence-to-Sequence)的生成式輸出層對(duì)文檔與答案進(jìn)行編解碼,獲取符合多個(gè)文檔語(yǔ)義信息的答案。Masque模型[52]遵循Transformer的編解碼模式,在輸出答案最終分布概率前,考慮了兩種不同來(lái)源的答案分布概率,即擴(kuò)展詞匯分布(Extended Vocabulary Distribution)和拷貝分布(Copy Distributions),前者負(fù)責(zé)計(jì)算從詞典Vext中輸出詞匯yt的概率Pv(yt),后者負(fù)責(zé)協(xié)調(diào)從多個(gè)文檔和問(wèn)題原文中拷貝詞匯yt作為答案的概率Pp(yt)、Pq(yt)。將詞匯yt的三個(gè)概率加權(quán)求和,得到如式(24)所示的yt輸出概率分布,如式(24)所示。
P(yt)=λvPv(yt)+λqPq(yt)+λpPp(yt)
(24)
其中,λv、λq、λp為學(xué)習(xí)得到用于控制三者分布的平衡參數(shù),詞典Vext中每個(gè)詞匯yt的輸出概率由標(biāo)準(zhǔn)答案、問(wèn)題文本和多文檔文本綜合調(diào)控,充分地利用了多文檔機(jī)器閱讀理解具有多個(gè)源文檔的任務(wù)特性,優(yōu)勢(shì)較為顯著。
表3展示了本文涉及模型按照數(shù)據(jù)集分組后,輸出層預(yù)測(cè)結(jié)果的橫向比較。其中,加粗的字體表示同組模型中更優(yōu)的表現(xiàn),人工作答表現(xiàn)用斜體標(biāo)記。此外,為公平比較模型的預(yù)測(cè)結(jié)果,在表3中均選取單個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行比較。在HotpotQA數(shù)據(jù)集評(píng)價(jià)排名中,“D”“F”分別表示Distractor Setting和Fullwiki Setting兩種不同的評(píng)價(jià)環(huán)境。
表3 數(shù)據(jù)集中代表模型的橫向比較結(jié)果
本文從機(jī)器閱讀理解發(fā)展的角度,梳理了多文檔閱讀理解作為機(jī)器閱讀新興研究方向的發(fā)展歷程;辨析了多文檔閱讀理解與單文檔閱讀理解的區(qū)別與聯(lián)系,確立該任務(wù)的研究意義;介紹了8個(gè)大型多文檔閱讀理解數(shù)據(jù)集和5個(gè)通用的評(píng)價(jià)標(biāo)準(zhǔn);調(diào)研了當(dāng)前多文檔閱讀理解的主流研究方法,按照處理順序把模型劃分為4個(gè)層次;在層次一致的前提下,介紹并比較了各方法的獨(dú)到之處。
總體上,多文檔閱讀理解是在單文檔閱讀理解的研究基礎(chǔ)上發(fā)展而來(lái)的新任務(wù),它加深了機(jī)器從文本中顯式地提取答案,到隱式地學(xué)習(xí)推理多文本間潛在語(yǔ)義邏輯關(guān)系的研究深度,是推廣機(jī)器閱讀理解技術(shù)在人類世界應(yīng)用的必經(jīng)研究階段。然而,多文檔機(jī)器閱讀理解任務(wù)還存在以下三方面值得進(jìn)一步研究。
多文檔閱讀過(guò)程的推理能力要求目前多文檔閱讀理解數(shù)據(jù)集對(duì)問(wèn)題的回答提出了兩個(gè)要求: ①多源信息的篩選擬合; ②多文檔的語(yǔ)義邏輯推理。盡管諸如將多文檔拼接為單文檔的閱讀理解方法能夠?qū)π畔⑦M(jìn)行一定的篩選,但是此類改進(jìn)的單文檔閱讀理解方法在多文檔間進(jìn)行邏輯推理和可解釋的能力較弱。同時(shí),針對(duì)長(zhǎng)文本序列的閱讀方法雖然在一定程度上緩解了因文本規(guī)模增大而導(dǎo)致的信息丟失和存儲(chǔ)開(kāi)銷增加等問(wèn)題,但是面對(duì)日益增長(zhǎng)的信息量,長(zhǎng)文本序列的建模方法顯得捉襟見(jiàn)肘,伸縮能力的缺乏仍有可能導(dǎo)致其預(yù)測(cè)效率降低。因此,從提升模型推理能力的角度展開(kāi)研究,不僅可以解釋閱讀的推理決策過(guò)程,還可以避免從全文盲目尋找答案的過(guò)程。基于級(jí)聯(lián)推理和GCN的方法,借助文本序列的空間拓?fù)浣Y(jié)構(gòu),為模型賦予伸縮能力與邏輯推理能力。
多文檔推理過(guò)程的細(xì)粒度化與人類閱讀過(guò)程相似,多文檔閱讀理解模型需要在推理過(guò)程中篩選有意義的信息,逐漸縮小答案搜索空間,進(jìn)而輸出準(zhǔn)確的預(yù)測(cè)。HotpotQA數(shù)據(jù)集提供了語(yǔ)句級(jí)的支持性語(yǔ)句,幫助模型學(xué)習(xí)語(yǔ)句的選擇過(guò)程,而人類閱讀時(shí)不總是在整段文本上進(jìn)行推理,常常以更細(xì)粒度的形式選擇有用信息,比如利用命名實(shí)體在多個(gè)相關(guān)文檔間進(jìn)行無(wú)監(jiān)督的邏輯推理跳轉(zhuǎn)[7],構(gòu)建推理鏈路。借助R4C數(shù)據(jù)集給出的比語(yǔ)句更細(xì)化、表述更清晰的三元組推理依據(jù),模型可進(jìn)行有監(jiān)督的實(shí)體邏輯推理學(xué)習(xí)過(guò)程。此外,借助模型在細(xì)粒度數(shù)據(jù)上的學(xué)習(xí)結(jié)果,可以嘗試分析其在其他數(shù)據(jù)集上的泛化能力,進(jìn)一步解釋模型在預(yù)測(cè)過(guò)程中的選擇決策依據(jù),提升模型的綜合魯棒性。
與外部知識(shí)結(jié)合的閱讀理解與閱讀理解任務(wù)相比,基于知識(shí)庫(kù)的知識(shí)問(wèn)答任務(wù)也具有相當(dāng)長(zhǎng)的研究歷史,且取得了一批有價(jià)值的研究成果。由于文檔受篇幅或敘述角度的局限,模型閱讀時(shí)可用語(yǔ)料信息不足或?qū)?dǎo)致推理過(guò)程不合理或失效。當(dāng)前已有模型借助外部知識(shí)庫(kù)建模文本的實(shí)體關(guān)系,或?qū)⒅R(shí)三元組直接引入到閱讀過(guò)程中,取得了一定的成功。因此,利用結(jié)構(gòu)化的外部知識(shí)提升無(wú)結(jié)構(gòu)文本閱讀理解性能的方法值得進(jìn)一步研究。