• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種增強(qiáng)機(jī)器閱讀理解魯棒性的上下文感知多任務(wù)學(xué)習(xí)框架

    2023-07-15 07:05:06陳羽中
    關(guān)鍵詞:互信息集上魯棒性

    張 睿,陳羽中

    (福州大學(xué) 計(jì)算機(jī)與大數(shù)據(jù)學(xué)院,福州 350116) (福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州 350116)

    1 引 言

    機(jī)器閱讀理解(Machine Reading Comprehension, MRC)是自然語(yǔ)言處理的一個(gè)重要方向,它以問(wèn)答的形式考察模型對(duì)文本語(yǔ)義的理解程度[1].在抽取式閱讀理解任務(wù)[2]上,給定文章與相關(guān)問(wèn)題,MRC模型需要預(yù)測(cè)答案片段在文章中的開(kāi)始、結(jié)束位置.

    隨著深度學(xué)習(xí)的發(fā)展,出現(xiàn)了許多端到端的機(jī)器閱讀理解模型,它們的典型架構(gòu)包括編碼層、交互層、輸出層[3-6],它們?cè)赟QuAD1.1[7]、RACE[8]這樣的閱讀理解數(shù)據(jù)集上取得了優(yōu)秀的表現(xiàn).隨著預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展,基于預(yù)訓(xùn)練語(yǔ)言模型的MRC模型[9-12]能夠得到更充分的文本表示信息,它們?cè)赟QuAD1.1、SQuAD2.0[13]等數(shù)據(jù)集上的表現(xiàn)已經(jīng)可以與人類媲美.但在AddSent[14]、AddOneSent[14]這樣的關(guān)于SQuAD1.1的對(duì)抗數(shù)據(jù)集上,許多模型的魯棒性并不好,包括QANet、BERT等.Jia等[14]將基于特定規(guī)則生成的與原問(wèn)題有很多共同詞的句子作為干擾句插入到文章的末端,這些干擾句不會(huì)改變問(wèn)題的答案,人類能做出正確的回答,但MRC模型會(huì)受這些干擾句的影響給出錯(cuò)誤的預(yù)測(cè),從而表現(xiàn)大大降低.這是由于抽取式閱讀理解任務(wù)只預(yù)測(cè)答案片段的起、止位置,很容易導(dǎo)致模型在訓(xùn)練中陷入數(shù)據(jù)集的表面偏差,僅通過(guò)簡(jiǎn)單地對(duì)齊文章和問(wèn)題之間的詞來(lái)回答問(wèn)題,而忽略了文章的真實(shí)語(yǔ)義信息.現(xiàn)在,越來(lái)越多的工作開(kāi)始關(guān)注閱讀理解模型的魯棒性[15-17].

    現(xiàn)有方法[14,15,18-27]主要有從通過(guò)生成對(duì)抗樣例進(jìn)行數(shù)據(jù)增強(qiáng)、對(duì)抗訓(xùn)練、模型增強(qiáng)等方面來(lái)增強(qiáng)MRC模型的魯棒性.

    構(gòu)造生成對(duì)抗樣本來(lái)訓(xùn)練模型是最直接的方式,一些工作[14,15,18]通過(guò)設(shè)計(jì)相關(guān)的規(guī)則來(lái)生成相應(yīng)的對(duì)抗樣例,如詞替換、插入句子、打亂文本順序等,進(jìn)行數(shù)據(jù)增強(qiáng)來(lái)提高模型的魯棒性.但考慮到所有的攻擊類型從而設(shè)計(jì)規(guī)則生成對(duì)抗樣本是不現(xiàn)實(shí)的,當(dāng)模型面對(duì)其他類型的對(duì)抗樣本時(shí)表現(xiàn)還是會(huì)降低.

    在訓(xùn)練方法上,結(jié)合對(duì)抗訓(xùn)練來(lái)提高M(jìn)RC模型的魯棒性也是一種有效的方法[20,21],并且還能提高模型的性能.這些工作通常以添加正則項(xiàng)訓(xùn)練目標(biāo)的方式來(lái)對(duì)文本進(jìn)行基于梯度的對(duì)抗訓(xùn)練、虛擬對(duì)抗訓(xùn)練,但由于多了在對(duì)抗樣本上反向傳播的步驟,因此它們大大增加了訓(xùn)練時(shí)間.

    除此之外,還有工作通過(guò)改進(jìn)模型結(jié)構(gòu)來(lái)增強(qiáng)MRC模型的魯棒性.在模型的輸入端,Min等[22]先用句子選擇器選出與問(wèn)題最為相關(guān)的幾個(gè)句子作為關(guān)鍵句子的最小集合,再將它們輸入進(jìn)模型訓(xùn)練.但由于干擾句本身與問(wèn)題存在許多共同的詞,因此模型不能很好地過(guò)濾掉干擾句.還有一些方法通過(guò)引入外部知識(shí)到模型中間的表示中來(lái)增強(qiáng)模型的魯棒性[23-25],但這些方法很依賴外部知識(shí)庫(kù)的質(zhì)量,且仍然依靠淺層的詞匹配來(lái)預(yù)測(cè)答案.另外,一些工作以多任務(wù)學(xué)習(xí)的方式在預(yù)訓(xùn)練語(yǔ)言模型下游微調(diào)任務(wù)來(lái)提高M(jìn)RC模型的魯棒性.QAinfomax[26]提出引入互信息任務(wù)到問(wèn)答模型中來(lái)避免模型陷入數(shù)據(jù)集的表面偏差,但它隨機(jī)打亂原樣本來(lái)構(gòu)建負(fù)樣本的方式會(huì)引入過(guò)多的噪聲,從而難以訓(xùn)練得到更魯棒的判別器,并且基于交叉熵的正負(fù)例判別方式對(duì)語(yǔ)言模型的表示能力和魯棒性提升有限.反事實(shí)變量控制(Counterfactual Variable Control, CVC)[27]問(wèn)答模型則將因果推理的思想結(jié)合到MRC模型中,它由魯棒分支和捷徑分支組成,在BERT下游進(jìn)行多任務(wù)學(xué)習(xí),主要思想是保留魯棒分支的可靠預(yù)測(cè),而減少捷徑分支學(xué)習(xí)到的文章與問(wèn)題之間的推理捷徑,但該方法降低了模型的泛化能力.簡(jiǎn)而言之,基于模型增強(qiáng)的方法存在魯棒性與泛化能力難以同時(shí)保證的問(wèn)題,模型本身還有改進(jìn)的空間.

    為了解決以上問(wèn)題,本文觀察人類做閱讀理解任務(wù)的過(guò)程,人類通常會(huì)在文章中找出問(wèn)題相關(guān)的關(guān)鍵片段來(lái)縮小答案范圍——往往答案就包含在這種關(guān)鍵片段中,并且結(jié)合問(wèn)題來(lái)辨析關(guān)鍵片段與干擾句,從而排除干擾句,給出正確的答案預(yù)測(cè).針對(duì)現(xiàn)有MRC模型存在的問(wèn)題,受人類做閱讀理解任務(wù)的啟發(fā),本文充分利用答案與其上下文之間的語(yǔ)義關(guān)系來(lái)解決數(shù)據(jù)集的表面偏差對(duì)模型預(yù)測(cè)答案產(chǎn)生的負(fù)面影響,提出了一個(gè)端到端的多任務(wù)學(xué)習(xí)框架ASMI,并設(shè)計(jì)了兩個(gè)輔助任務(wù)加強(qiáng)模型的性能和魯棒性.本文貢獻(xiàn)可以總結(jié)如下:

    1)提出了一種端到端的神經(jīng)網(wǎng)絡(luò)框架ASMI,它模擬人類做閱讀理解的方式,在SpanBERT下游將問(wèn)答任務(wù)聯(lián)合兩種輔助任務(wù)進(jìn)行多任務(wù)學(xué)習(xí),在保證模型的泛化能力的基礎(chǔ)上,進(jìn)一步顯著提高了MRC模型的魯棒性,避免模型依靠簡(jiǎn)單的詞匹配來(lái)預(yù)測(cè)答案.

    2)首次提出利用答案上下文預(yù)測(cè)任務(wù)ASCP來(lái)提高M(jìn)RC模型的魯棒性.為了有效利用答案與上下文之間的語(yǔ)義關(guān)系,本文設(shè)計(jì)了上下文注意力機(jī)制來(lái)預(yù)測(cè)答案上下文的軟標(biāo)簽[28],從而利用答案上下文信息輔助問(wèn)答任務(wù)來(lái)確定答案,并排除干擾句對(duì)模型的影響.

    3)提出了增強(qiáng)的答案與上下文之間的互信息估計(jì)任務(wù)MIAC來(lái)提高M(jìn)RC模型的魯棒性.利用多層Transformer[29]所提取的高層語(yǔ)義特征來(lái)估計(jì)和最大化答案與上下文之間的互信息,并提出了一種新的負(fù)樣本構(gòu)造策略,它對(duì)高層語(yǔ)義特征添加詞級(jí)的擾動(dòng)來(lái)生成負(fù)樣本,而不僅僅只是隨機(jī)打亂原樣本.為了更好地與負(fù)樣本生成策略結(jié)合,本文使用JSD互信息估計(jì)器[30]來(lái)估計(jì)互信息.通過(guò)這種方式,所提出的模型能有效辨析答案上下文和干擾句之間的語(yǔ)義差異,使得模型對(duì)干擾句的表現(xiàn)更加魯棒.

    2 相關(guān)工作

    近幾年越來(lái)越多的研究開(kāi)始關(guān)注MRC的魯棒性,這些工作主要可以分為通過(guò)生成對(duì)抗樣例進(jìn)行數(shù)據(jù)增強(qiáng)、對(duì)抗訓(xùn)練、模型增強(qiáng)的方式.

    通過(guò)生成對(duì)抗樣本進(jìn)行數(shù)據(jù)增強(qiáng),再在這些對(duì)抗樣本上訓(xùn)練模型來(lái)提高魯棒性是一種最直接的方式.Jia等[14]在文章的末尾插入基于特定規(guī)則生成的與原問(wèn)題有很多共同的詞的句子來(lái)構(gòu)造對(duì)抗數(shù)據(jù)集,然后將這些對(duì)抗樣本與數(shù)據(jù)集中的原始樣本一起訓(xùn)練MRC模型,使得模型在對(duì)抗數(shù)據(jù)集上的效果獲得較大提升.但這種方式也會(huì)讓模型學(xué)習(xí)到通過(guò)忽略文本的最后一句話來(lái)預(yù)測(cè)答案的模式,一旦干擾句的插入位置改變,模型的表現(xiàn)就再次下降.Wang等[15]在該工作的基礎(chǔ)上把干擾句插入到文章中的不同位置來(lái)生成對(duì)抗樣本,并拓展了假答案的集合,構(gòu)造了AddSentDiverse數(shù)據(jù)集,他們的模型可以應(yīng)對(duì)更多攻擊類型的干擾句.總體來(lái)說(shuō),基于規(guī)則生成對(duì)抗樣本的方法要事先知道和設(shè)計(jì)多種攻擊類型,比如詞替換、插入句子、打亂文本順序等,但通過(guò)人為設(shè)計(jì)規(guī)則來(lái)覆蓋所有攻擊類型是不現(xiàn)實(shí)的.因此不同于基于規(guī)則的方法,Liu等[19]在每個(gè)樣本的詞嵌入中插入一段連續(xù)的可訓(xùn)練的干擾序列來(lái)構(gòu)造對(duì)抗樣本,從而盡量覆蓋通用的攻擊類型,干擾序列的每個(gè)詞嵌入是整個(gè)詞表詞嵌入的加權(quán)和.這種方法有效地提高了模型的魯棒性,但由于干擾序列的插入影響了模型的語(yǔ)義理解,導(dǎo)致模型泛化能力受到影響,在SQuAD1.1上的表現(xiàn)下降.

    鑒于通過(guò)生成對(duì)抗樣例進(jìn)行數(shù)據(jù)增強(qiáng)的方式難以同時(shí)保證模型的泛化能力和魯棒性,一些工作致力于通過(guò)結(jié)合基于梯度的對(duì)抗訓(xùn)練[20]或虛擬對(duì)抗訓(xùn)練[21]來(lái)訓(xùn)練閱讀理解模型.基于梯度的對(duì)抗攻擊方法通常在樣本的詞嵌入層添加微小的擾動(dòng),通過(guò)反向傳播后沿著梯度相反的方向——即最大地偏離正確標(biāo)簽的方向,對(duì)損失函數(shù)添加梯度懲罰來(lái)更新模型參數(shù)從而增強(qiáng)模型的魯棒性.虛擬對(duì)抗訓(xùn)練是一種半監(jiān)督學(xué)習(xí)的方法,與對(duì)抗訓(xùn)練不同的是虛擬對(duì)抗訓(xùn)練不需要標(biāo)簽信息,它尋找的是使預(yù)測(cè)的輸出分布偏離的方向.通過(guò)基于梯度的對(duì)抗訓(xùn)練和虛擬對(duì)抗訓(xùn)練,MRC模型的魯棒性和泛化能力可以同時(shí)提高.但由于多了對(duì)擾動(dòng)樣本的反向傳播過(guò)程,因此模型的訓(xùn)練時(shí)間大幅增加.

    除了數(shù)據(jù)增強(qiáng)和對(duì)抗訓(xùn)練之外,還有的工作致力于通過(guò)優(yōu)化模型結(jié)構(gòu)來(lái)增強(qiáng)MRC模型的魯棒性.在模型的輸入端,Min等[22]研究了回答問(wèn)題所需的最小上下文,提出了一個(gè)句子選擇器,選擇最為關(guān)鍵的幾個(gè)句子輸入到問(wèn)答模型中.但由于干擾句本身與問(wèn)題存在許多共同的詞,因此模型不能很好地過(guò)濾掉干擾句,對(duì)模型魯棒性的提升有限.Liu等[3]在模型的輸出層對(duì)多個(gè)時(shí)間步的輸出結(jié)果隨機(jī)采樣再取平均來(lái)模擬多步推理,從而提高M(jìn)RC模型的泛化能力和魯棒性,但這種模擬推理的方式過(guò)于粗略.還有一些工作通過(guò)引入外部知識(shí)到模型中來(lái)增強(qiáng)模型的魯棒性.Wang等[23]提出的KAR(Knowledge Aided Reader)模型使用WordNet抽取問(wèn)題和文章的詞間語(yǔ)義關(guān)系作為通識(shí)知識(shí)到網(wǎng)絡(luò)中,輔助注意力計(jì)算.該方法在AddSent和AddOneSent上取得了當(dāng)時(shí)的最好效果.受KAR的啟發(fā),Wu等[24]進(jìn)一步引入了ELMo詞嵌入,利用知識(shí)增強(qiáng)模塊將外部知識(shí)與上下文表示進(jìn)行融合,并結(jié)合多任務(wù)學(xué)習(xí)預(yù)測(cè)不可回答問(wèn)題類型的任務(wù)從而提高模型的魯棒性.不同于利用WordNet這樣的知識(shí)庫(kù),Zhou[25]通過(guò)后驗(yàn)正則化的方式引入外部語(yǔ)言學(xué)知識(shí),從而使用命名實(shí)體、詞法限制、謂詞限制等不同的語(yǔ)法限制來(lái)約束模型,提高模型在語(yǔ)法、語(yǔ)義對(duì)抗樣例上的魯棒性.總體來(lái)說(shuō),引入外部知識(shí)的方式很依賴知識(shí)庫(kù)的質(zhì)量,并且模型依舊依靠淺層的詞匹配來(lái)預(yù)測(cè)答案,模型的魯棒性提升有限.

    隨著預(yù)訓(xùn)練語(yǔ)言模型和多任務(wù)學(xué)習(xí)的發(fā)展,一些工作在預(yù)訓(xùn)練語(yǔ)言模型下游通過(guò)多任務(wù)學(xué)習(xí)的方式來(lái)提高M(jìn)RC模型的魯棒性.為了解決數(shù)據(jù)集中存在的表面偏差使得模型依賴淺層詞匹配來(lái)預(yù)測(cè)答案的問(wèn)題,QAinfomax[26]首次把互信息估計(jì)思想引入BERT中作為輔助任務(wù),以幫助正則化模型,讓模型不僅僅只學(xué)到表面的詞匹配信息,取得了當(dāng)時(shí)的最佳性能.但QAinfomax隨機(jī)打亂原樣本來(lái)構(gòu)建負(fù)樣本的方式會(huì)引入過(guò)多的噪聲,限制了模型學(xué)習(xí)到更穩(wěn)健的判別器的能力,并且基于交叉熵的正負(fù)例估計(jì)方式對(duì)語(yǔ)言模型的表示能力和魯棒性提升有限.Yu等[27]提出的CVC模型也在BERT下游執(zhí)行多任務(wù)學(xué)習(xí),它將因果推理引入MRC.CVC模型由魯棒分支和捷徑分支組成,主要思想是保留魯棒分支通過(guò)綜合推理得出的可靠預(yù)測(cè),并減少捷徑分支學(xué)習(xí)到的文章與問(wèn)題對(duì)之間的推理捷徑來(lái)使模型做出魯棒的推理,但該方法降低了模型的泛化能力,使得模型在SQuAD1.1數(shù)據(jù)集上的表現(xiàn)下降.

    3 方 法

    3.1 模型框架

    首先,給出抽取式閱讀理解任務(wù)的定義.閱讀理解任務(wù)的訓(xùn)練集為三元組(P,Q,A)的形式,P表示文章,它由m個(gè)詞組成,P={x1,x2,…,xm}.Q代表問(wèn)題,由n個(gè)詞組成,Q={x1,x2,…,xn}.A代表Q相關(guān)的答案,是P中一段連續(xù)的子序列,抽取式閱讀理解的目標(biāo)就是通過(guò)問(wèn)答任務(wù)預(yù)測(cè)答案A在P中的起始位置、結(jié)束位置.

    本文框架如圖1所示,圖1左側(cè)是ASMI模型的架構(gòu),沿用了BERT在問(wèn)答任務(wù)上的架構(gòu),使用SpanBERT作為預(yù)訓(xùn)練語(yǔ)言模型,因?yàn)樗念A(yù)訓(xùn)練任務(wù)關(guān)注于區(qū)間的表示與預(yù)測(cè),從而它能與下游的輔助任務(wù)更好地結(jié)合來(lái)提高M(jìn)RC模型在SQuAD1.1的對(duì)抗數(shù)據(jù)集上的魯棒性.ASMI模型的輸入是“[CLS]P[SEP]Q[SEP]”的形式,其中“[CLS]”和“[SEP]”是分隔符,用于把P和Q分隔開(kāi)來(lái).模型將輸入序列通過(guò)詞嵌入層和多層Transformer編碼為高維語(yǔ)義特征,然后通過(guò)多任務(wù)學(xué)習(xí)將這種高層語(yǔ)義特征在具體下游任務(wù)上微調(diào).本文設(shè)計(jì)了兩個(gè)輔助下游任務(wù),將這兩種輔助任務(wù)與問(wèn)答任務(wù)聯(lián)合訓(xùn)練.它們分別是答案上下文預(yù)測(cè)任務(wù)(ASCP)和答案與上下文互信息估計(jì)與最大化任務(wù)(MIAC).MIAC任務(wù)如圖1右上角所示,ASCP任務(wù)和圖1右下角所示.它們致力于充分利用答案與其所在的上下文之間的關(guān)系確定答案范圍,并排除干擾句對(duì)模型的影響,使得模型學(xué)習(xí)到更加魯棒的表示.

    圖1 ASMI架構(gòu)Fig.1 Framework of ASMI

    3.2 答案區(qū)間預(yù)測(cè)

    問(wèn)答任務(wù)的目標(biāo)是找到答案區(qū)間A的起、止位置.如圖2所示,令as,ae代表答案區(qū)間開(kāi)始、結(jié)束位置的下標(biāo).

    圖2 答案區(qū)間A及其上下文C在文章P中的下標(biāo)表示Fig.2 Subscript representation of answer-span A and its context C in passage P

    定義C代表答案A的上下文,令cs,ce代表該答案上下文的開(kāi)始、結(jié)束位置的下標(biāo),并設(shè)置了一個(gè)大小為w的窗口來(lái)控制C的范圍,即cs=as-w,ce=ae+w,w≥1.若xi在答案區(qū)間A的范圍內(nèi),則xi和A、C之間的關(guān)系可以表示為:

    xi∈A?C?P,1≤cs

    (1)

    如3.1節(jié)所述,ASMI模型的輸入序列是“[CLS]P[SEP]Q[SEP]”,它通過(guò)詞嵌入層和多層Transformer后被編碼為高層特征表示H.由于P是輸入序列的組成部分,將P的高層特征表示為HP={h1,h2,…,hm}.同樣地,將A的高層特征表示為HA={has,…,hae},A相關(guān)的C的高層特征表示為HC={hcs,…,hce}.ASMI使用和BERT在問(wèn)答任務(wù)上一樣的答案預(yù)測(cè)層,這部分的實(shí)現(xiàn)細(xì)節(jié)可見(jiàn)參考原論文[9].問(wèn)答任務(wù)的損失函數(shù)記為:

    (2)

    其中,LQA是問(wèn)答任務(wù)的損失,y是one-hot類型的開(kāi)始和結(jié)束位置的標(biāo)簽,如果當(dāng)前位置是正確的起、止位置則是1,否則為0.

    3.3 答案上下文預(yù)測(cè)

    人類做閱讀理解任務(wù)時(shí),通常會(huì)在文章中找出與給定問(wèn)題相關(guān)的關(guān)鍵片段來(lái)縮小答案范圍——這種關(guān)鍵片段通常包含著答案信息,是答案的上下文.答案上下文為答案預(yù)測(cè)提供了重要的線索,并減少干擾句對(duì)模型產(chǎn)生的不確定性.因此,在這一節(jié)本文引入了答案上下文預(yù)測(cè)(ASCP)任務(wù),這可以幫助模型專注于答案與它的上下文之間的語(yǔ)義關(guān)系.由于SQuAD1.1數(shù)據(jù)集里沒(méi)有答案上下文的標(biāo)簽,首先需要生成這樣的標(biāo)簽來(lái)指導(dǎo)模型預(yù)測(cè)答案上下文,然后將高層特征表示H作為答案上下文預(yù)測(cè)層的輸入,并設(shè)計(jì)上下文注意力機(jī)制來(lái)擬合答案上下文的標(biāo)簽分布,使得模型學(xué)習(xí)到合適的答案上下文信息.

    3.3.1 答案上下文軟標(biāo)簽生成

    ASMI采用BLANC[28]的方法為答案上下文生成軟標(biāo)簽.具體來(lái)說(shuō),給定P中第i個(gè)位置的詞xi,將xi在答案上下文C范圍內(nèi)的率表示為psoft(xi∈C),利用xi和答案區(qū)間的起止位置之間的單詞數(shù)來(lái)表示xi和答案A之間的距離.隨著xi和答案區(qū)間之間的距離增加,psoft(xi∈C)將不斷減少.答案上下文的軟標(biāo)簽分布如下:

    (3)

    其中,q是控制psoft(xi∈C)呈指數(shù)下降的超參數(shù),0≤q≤1.|i-as|是答案區(qū)間的起始位置和xi之間的距離,|i-ae|是答案區(qū)間的結(jié)束位置和xi之間的距離.當(dāng)距離超過(guò)窗口大小w時(shí),psoft(xi∈C)等于0.

    3.3.2 基于上下文注意力預(yù)測(cè)答案上下文

    首先將高級(jí)特征表示H作為答案上下文預(yù)測(cè)層的輸入,用類似于預(yù)測(cè)答案區(qū)間的方式來(lái)預(yù)測(cè)答案上下文的起止位置.與 BLANC 類似,p(i=cs)表示xi是答案上下文的開(kāi)始位置的概率,p(i=ce)表示xi是答案上下文的結(jié)束位置的概率.

    (4)

    (5)

    其中,Wc,Vc,bs和be分別代表可訓(xùn)練的參數(shù).

    ASMI模型可以從p(i=cs)和p(i=ce)中學(xué)習(xí)到答案上下文的邊界信息.為了學(xué)習(xí)到充分的答案上下文信息,本文提出了上下文注意力機(jī)制對(duì)p(i=cs)和p(i=ce)建模從而擬合psoft(xi∈C).具體來(lái)說(shuō),將預(yù)測(cè)xi在答案上下文范圍內(nèi)的概率表示為p(xi∈C),先構(gòu)造一維向量pdist,pdist的定義如下:

    pdist={pdist(1),pdist(2),…,pdist(i),…,pdist(m)}

    (6)

    pdist(i)=(p(i=cs)-p(i=ce))2

    (7)

    其中,pdist(i)表示p(i=cs)和p(i=ce)的距離平方和.

    然后,對(duì)pdist進(jìn)行線性變換和Softmax,得到一個(gè)答案上下文分布的分?jǐn)?shù),即為p(xi∈C):

    雷志雄領(lǐng)著雷鋼和雷紅到車站時(shí),歐陽(yáng)橘紅開(kāi)始沒(méi)看見(jiàn)他們,正伸長(zhǎng)腦殼四處了望,聽(tīng)到雷志雄說(shuō):雷鋼,你帶妹妹在這里等我,爸爸去商店買東西。這時(shí),才看到他們。

    (8)

    其中,Wr,br分別代表訓(xùn)練的參數(shù).p(xi∈C)是預(yù)測(cè)xi是否在答案上下文內(nèi)的分?jǐn)?shù).

    通過(guò)使用上下文注意力機(jī)制來(lái)擬合答案上下文的軟標(biāo)簽分布,ASMI模型可以學(xué)習(xí)和利用答案上下文的信息來(lái)輔助問(wèn)答任務(wù)確定答案區(qū)間,同時(shí)排除干擾句對(duì)模型的影響,提高模型的魯棒性.最后,使用p(xi∈C)和psoft(xi∈C)兩個(gè)分布的交叉熵來(lái)計(jì)算ASCP任務(wù)的損失函數(shù):

    (9)

    3.4 答案與其上下文之間的互信息估計(jì)

    本節(jié)介紹答案與其上下文之間的互信息估計(jì)(MIAC)任務(wù).QAinfomax[26]指出SQuAD1.1數(shù)據(jù)集中存在一些表面的偏差和捷徑.在訓(xùn)練時(shí),模型會(huì)傾向于學(xué)習(xí)簡(jiǎn)單的模式匹配,即通過(guò)簡(jiǎn)單地對(duì)齊文章和問(wèn)題之間的單詞來(lái)預(yù)測(cè)答案.一旦干擾句和問(wèn)題有很多共同的詞,模型就很容易預(yù)測(cè)出錯(cuò)誤的答案.正如人類做閱讀理解時(shí)通過(guò)辨析關(guān)鍵片段與干擾句來(lái)排除干擾句, MRC模型可以通過(guò)辨析答案與其上下文之間的語(yǔ)義相關(guān)性來(lái)減少干擾句帶來(lái)的負(fù)面影響.受QAinfomax的啟發(fā),本文框架設(shè)計(jì)了MIAC任務(wù),通過(guò)估計(jì)和最大化答案與其上下文之間的互信息來(lái)避免模型被干擾句迷惑,并幫助正則化模型,使得模型學(xué)習(xí)到更加魯棒的表示.

    互信息是衡量?jī)蓚€(gè)隨機(jī)變量X和Y之間相互依賴性的量度,它可以定義如下:

    I(X;Y)=DKL(p(X,Y)‖p(x)p(y))

    (10)

    其中,DKL代表KL散度,p(X,Y)是X和Y的聯(lián)合分布,p(X)p(Y)是X和Y的邊緣分布的乘積.在MIAC任務(wù)中,X是每個(gè)HA中隨機(jī)選擇的一個(gè)詞表示所構(gòu)成的集合,每個(gè)HA有它對(duì)應(yīng)的上下文HC,Y是這些HC構(gòu)成的集合.

    為了估計(jì)互信息I(X;Y),訓(xùn)練一個(gè)辨別器來(lái)辨別聯(lián)合分布p(X,Y)和邊緣分布的乘積p(X)p(Y).由于模型旨在最大化互信息而并不太關(guān)心I(X;Y)的具體值,因此采用JSD互信息估計(jì)器[30]來(lái)計(jì)算兩個(gè)變量之間的互信息,并將其用作I(X;Y)的下界.I(X;Y)和它的下界IJSD(X;Y)的定義如下:

    I(X;Y)≥IJSD(X;Y)

    (11)

    (12)

    為了估計(jì)答案與其上下文之間的互信息,首先需要構(gòu)建正樣本和負(fù)樣本.QAinfomax采用隨機(jī)打亂的方式構(gòu)建負(fù)樣本,這樣構(gòu)建的負(fù)樣本與正樣本相差很大,模型難以學(xué)習(xí)到更穩(wěn)健的判別器.因此,與QAinfomax不同,ASMI模型在輸入的高層特征中加入詞級(jí)的擾動(dòng)來(lái)構(gòu)建負(fù)樣本,這樣構(gòu)建的負(fù)樣本在語(yǔ)義上即能和原樣本存在區(qū)別又能保持一定的相關(guān)性,從而辨別器可以被訓(xùn)練地更有效.

    MIAC任務(wù)的訓(xùn)練目標(biāo)是最大化答案與其上下文之間的互信息.根據(jù)公式(12),損失函數(shù)為:

    LMIAC=-E{[-sp(-Tω(har,HC))]

    (13)

    其中,ci代表上下文C中第i個(gè)位置的下標(biāo).

    3.5 總損失

    ASMI將預(yù)訓(xùn)練語(yǔ)言模型SpanBERT作為主干網(wǎng)絡(luò),以多任務(wù)學(xué)習(xí)的方式將兩個(gè)輔助任務(wù)和QA任務(wù)一起微調(diào).總目標(biāo)損失函數(shù)是:

    Ltotal=(1-λ)*LQA+λ*LASCP+η*LMIAC

    (14)

    其中,λ用于調(diào)整QA任務(wù)和MIAC任務(wù)的權(quán)重,使得模型能充分利用答案上下文信息來(lái)指導(dǎo)QA任務(wù).參數(shù)η是MIAC任務(wù)的權(quán)重,用于對(duì)總損失進(jìn)行正則化.

    4 實(shí) 驗(yàn)

    為了驗(yàn)證模型的有效性和魯棒性,本文在 SQuAD1.1[7]、AddSent[14]和 AddOneSent[14]上進(jìn)行了實(shí)驗(yàn),并將ASMI與一些取得過(guò)最佳表現(xiàn)的MRC模型進(jìn)行對(duì)比,觀察與分析模型在相同實(shí)驗(yàn)設(shè)置下的性能,評(píng)估不同的下游任務(wù)對(duì)模型整體表現(xiàn)的影響.

    4.1 數(shù)據(jù)集

    SQuAD1.1是一個(gè)大規(guī)模的抽取式閱讀理解數(shù)據(jù)集,由超過(guò)10萬(wàn)問(wèn)答對(duì)組成.這些語(yǔ)料全部來(lái)自于維基百科,每個(gè)問(wèn)題的答案是相關(guān)文章中的一個(gè)短片段.本文實(shí)驗(yàn)將SQuAD1.1作為訓(xùn)練集.

    在測(cè)試集的選擇上,由于SQuAD1.1沒(méi)有公開(kāi)測(cè)試集,因此將其驗(yàn)證集作為測(cè)試集來(lái)評(píng)估MRC模型的理解能力.此外,在AddSent和AddOneSent上評(píng)估MRC模型的魯棒性.給定(文章、問(wèn)題、答案)組成的原始樣本,Jia等[14]設(shè)計(jì)了一些規(guī)則來(lái)生成最多五個(gè)與每個(gè)原始樣本的問(wèn)題具有多個(gè)相同詞的候選干擾句.每個(gè)干擾句經(jīng)過(guò)人工修繕語(yǔ)法后,分別被插入到文章末尾,從而構(gòu)建多個(gè)候選對(duì)抗樣本.AddSent數(shù)據(jù)集由這些對(duì)抗樣本組成,對(duì)于每個(gè)問(wèn)題,取模型在相關(guān)候選對(duì)抗樣本上所預(yù)測(cè)的最低F1分?jǐn)?shù)作為該問(wèn)題預(yù)測(cè)答案的F1分?jǐn)?shù),分?jǐn)?shù)最低的對(duì)抗樣本最具迷惑性.AddOneSent數(shù)據(jù)集,是從每個(gè)問(wèn)題的對(duì)抗樣本中,隨機(jī)選擇一個(gè)構(gòu)建而成.表1顯示了3個(gè)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù).

    表1 3個(gè)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)Table 1 Statistics of three datasets

    4.2 實(shí)驗(yàn)設(shè)置和評(píng)估指標(biāo)

    本文實(shí)驗(yàn)選擇EM和F1分?jǐn)?shù)這兩個(gè)廣泛使用的指標(biāo)來(lái)評(píng)估MRC模型的閱讀理解能力以及它們?cè)诿鎸?duì)干擾句時(shí)的魯棒性.EM分?jǐn)?shù)代表預(yù)測(cè)答案與真實(shí)答案完全匹配的百分?jǐn)?shù),F1分?jǐn)?shù)衡量預(yù)測(cè)答案與真實(shí)答案之間的平均詞重疊.

    ASMI模型基于Pytorch框架實(shí)現(xiàn),所有的實(shí)驗(yàn)都在2塊NVIDIA Tesla P100 GPU上運(yùn)行,主要基于SpanBERT微調(diào)ASMI模型.由于計(jì)算資源有限,對(duì)ASMI模型的一些超參數(shù)設(shè)置進(jìn)行了修改,并用這些超參數(shù)重新實(shí)現(xiàn)了一些對(duì)比模型,這些參數(shù)主要是批量大小和最大序列長(zhǎng)度,其他超參數(shù)保持不變.批量大小設(shè)為8,基于Transformer的模型的最大序列長(zhǎng)度設(shè)為384,訓(xùn)練的迭代次數(shù)設(shè)為3,學(xué)習(xí)率保持為2×10-5,慢熱學(xué)習(xí)的比例為10%.在下游任務(wù)的超參數(shù)上,令上下文窗口大小w為2,令距離指數(shù)衰減參數(shù)q為0.7,λ為0.8,η設(shè)為0.1.

    4.3 對(duì)比模型

    實(shí)驗(yàn)選取的對(duì)比模型包括:BiDAF、SAN、QANet、KAR、KENUP[24]、BERT、QAinfomax、CVC、SpanBERT、BLANC、RoBERTa、ALUM、DYGIS[19]等先進(jìn)模型.其中,BiDAF,SAN,QANet,KAR,KENUP基于MRC模型的傳統(tǒng)架構(gòu),其他模型基于預(yù)訓(xùn)練語(yǔ)言模型.由于作者未給出模型名稱, 本文將Wu[24]提出的模型稱為KENUP,將Liu[19]的模型稱為DYGIS.

    4.4 實(shí)驗(yàn)結(jié)果分析

    ASMI模型和對(duì)比模型在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表現(xiàn)如表2所示.對(duì)比模型的實(shí)驗(yàn)結(jié)果大多來(lái)自于原論文,若原論文沒(méi)有給出對(duì)應(yīng)結(jié)果,則使用開(kāi)源代碼復(fù)現(xiàn)并記錄在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,上標(biāo)包含“*”的模型的實(shí)驗(yàn)結(jié)果來(lái)自于本文的實(shí)現(xiàn).所有基于Transformer的模型都有大小兩個(gè)版本,分別標(biāo)有下標(biāo)“l(fā)arge”和“base”,ASMIbase和ASMIlarge分別基于SpanBERTbase和SpanBERTlarge.

    表2 ASMI與基準(zhǔn)模型在3個(gè)數(shù)據(jù)集上的對(duì)比Table 2 Overall performance of ASMI and other baseline models on three datasets

    從表2可以看到,大多數(shù)對(duì)比模型在AddSent和AddOneSent兩個(gè)對(duì)抗數(shù)據(jù)集上的表現(xiàn)顯著下降,這表明現(xiàn)有MRC模型很容易受到干擾句的影響.但可以看到,基于Transformer的模型的性能普遍優(yōu)于非基于Transformer的模型,這表明預(yù)訓(xùn)練語(yǔ)言模型比傳統(tǒng)MRC架構(gòu)的模型能更好地表示文章和問(wèn)題的語(yǔ)義信息.SpanBERT在3個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于BERT,這是由于SpanBERT的預(yù)訓(xùn)練任務(wù)使它更關(guān)注于學(xué)習(xí)答案區(qū)間的特征表示,從而能夠比BERT更好地理解文章和問(wèn)題中潛在的語(yǔ)義信息.QAinfomax和CVC的結(jié)果表明,在預(yù)訓(xùn)練語(yǔ)言模型下游執(zhí)行多任務(wù)學(xué)習(xí)是一種有效的提高M(jìn)RC模型魯棒性的方式.并且,BLANC以多任務(wù)學(xué)習(xí)的方式將上下文預(yù)測(cè)輔助任務(wù)與QA任務(wù)相結(jié)合,在3個(gè)數(shù)據(jù)集上都取得了比SpanBERT更高的性能.同時(shí),更大的預(yù)訓(xùn)練語(yǔ)言模型和更多的預(yù)訓(xùn)練數(shù)據(jù)可以有效提高模型的泛化能力和魯棒性,因此RoBERTa的表現(xiàn)明顯優(yōu)于BERT.而ALUMRoBERTa-large對(duì)RoBERTalarge進(jìn)行虛擬對(duì)抗訓(xùn)練,進(jìn)一步提高了模型的魯棒性.至于本文模型,ASMIbase在3個(gè)數(shù)據(jù)集上獲得了最高的EM和F1分,“base”版本的結(jié)果比所有非基于Transformer的模型和基于Transformer的模型都高.并且,在所有對(duì)比模型中,ASMIlarge在SQuAD1.1上取得了最高的F1分,在AddSent上取得了最高的EM分,在AddOneSent 上也取得了最高的EM和F1分.因此,可以說(shuō)ASMI模型比所有對(duì)比模型更有效、更魯棒,原因在于ASMI模型可以充分利用多任務(wù)學(xué)習(xí),有效地學(xué)習(xí)到更豐富的詞級(jí)表示,從而提高模型的語(yǔ)義理解能力,并抵抗干擾句的帶來(lái)的負(fù)面影響.

    4.5 消融分析

    本節(jié)設(shè)計(jì)了若干個(gè)消融模型進(jìn)一步分析兩個(gè)輔助任務(wù)對(duì)ASMI模型整體效果的影響.消融模型包括ASMIbasew/o ASCP、ASMIbasew/o MIAC和ASMIbasew/o ALL.ASMIbasew/o ASCP和ASMIbasew/o MIAC分別從ASMIbase上移除了ASCP任務(wù)和MIAC任務(wù).ASMIbasew/o ALL同時(shí)移除了ASCP和MIAC兩個(gè)任務(wù),僅在SpanBERTbase下游微調(diào)QA任務(wù).三角形符號(hào)“△”表示不同消融模型和ASMIbase的結(jié)果差距.實(shí)驗(yàn)結(jié)果如表3所示.

    表3 消融實(shí)驗(yàn)結(jié)果Table 3 Performance results of ASMI and its ablation models on three datasets

    比起ASMIbase,ASMIbasew/o ASCP的EM分?jǐn)?shù)在 SQuAD1.1、AddSent 和 AddOneSent 數(shù)據(jù)集上分別下降了 1.17%、4.9%和3.00%,而ASMIbasew/o ASCP的F1分?jǐn)?shù)分別下降了0.69%、5.34%和3.32%.ASMIbasew/o ASCP和ASMIbase之間的性能差距表明,ASCP任務(wù)是一個(gè)重要的下游任務(wù),可以有效提高模型的性能和魯棒性,可以觀察到模型在兩個(gè)對(duì)抗數(shù)據(jù)集上的性能下降比SQuAD1.1大得多.該結(jié)果表明,將問(wèn)答任務(wù)與ASCP任務(wù)一起訓(xùn)練可以大大減少干擾句對(duì)模型的影響.

    與ASMIbase相比,ASMIbasew/o MIAC的EM分?jǐn)?shù)在 SQuAD1.1、AddSent和AddOneSent上分別下降了0.65%、1.2%和0.70%,而ASMIbasew/o MIAC的F1分?jǐn)?shù)分別下降了0.12%、1.77%和0.46%.ASMIbasew/o MIAC和ASMIbase之間的差距小于ASMIbasew/o ASCP和ASMIbase之間的差距.該結(jié)果表明MIAC任務(wù)在提高ASMI的性能和魯棒性方面也發(fā)揮了重要作用,但ASCP比MIAC任務(wù)貢獻(xiàn)更大.

    最后,可以看到ASMIbasw/o ALL在所有消融模型中表現(xiàn)下降最多.該消融模型僅在SpanBERTbase下游微調(diào)QA任務(wù).ASMIbasw/o ALL和ASMIbase之間顯著的性能差距證明了兩個(gè)輔助任務(wù)的有效性.此外,這兩個(gè)輔助任務(wù)是互補(bǔ)的.比起僅在QA任務(wù)上訓(xùn)練,或?qū)A任務(wù)和輔助任務(wù)之一聯(lián)合訓(xùn)練,在SpanBERT下游聯(lián)合訓(xùn)練3個(gè)任務(wù)可以使模型學(xué)習(xí)到最好的參數(shù),對(duì)閱讀理解能力和魯棒性提升最多.

    5 總 結(jié)

    本文提出了一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)框架,以多任務(wù)學(xué)習(xí)的方式在SpanBERT下游聯(lián)合訓(xùn)練QA任務(wù)和兩種輔助任務(wù),提高了模型的閱讀理解能力和魯棒性.輔助任務(wù)ASCP基于上下文注意力機(jī)制顯示地預(yù)測(cè)答案上下文,用于強(qiáng)化答案上下文對(duì)QA任務(wù)的指導(dǎo)作用,避免模型被干擾句迷惑.輔助任務(wù)MIAC對(duì)高層語(yǔ)義特征添加詞級(jí)的擾動(dòng)來(lái)構(gòu)建負(fù)樣本,并結(jié)合JSD互信息估計(jì)器來(lái)估計(jì)和最大化答案與上下文之間的互信息,從而有效從干擾句中辨別答案上下文,減少干擾句對(duì)模型的負(fù)面影響.在未來(lái),本文工作將著眼于進(jìn)一步改進(jìn)模型,例如尋找更合適的輔助任務(wù)、添加多樣的對(duì)抗數(shù)據(jù)進(jìn)行訓(xùn)練,以及引入不同的外部知識(shí)來(lái)增強(qiáng)模型的隱層表示等.

    猜你喜歡
    互信息集上魯棒性
    Cookie-Cutter集上的Gibbs測(cè)度
    荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
    鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
    基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
    復(fù)扇形指標(biāo)集上的分布混沌
    基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
    西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    改進(jìn)的互信息最小化非線性盲源分離算法
    阜康市| 三穗县| 柳河县| 平舆县| 济阳县| 蓬莱市| 城口县| 贵德县| 城固县| 读书| 斗六市| 巴里| 大新县| 山东| 拉萨市| 扎囊县| 富源县| 施秉县| 怀化市| 定南县| 滨海县| 英超| 万山特区| 邵阳市| 洮南市| 米泉市| 天门市| 奉化市| 阿克陶县| 汉沽区| 灵山县| 绥中县| 龙里县| 会宁县| 五家渠市| 双流县| 镶黄旗| 保靖县| 隆德县| 湘西| 曲阜市|