官鳳霞
摘要:目前而言,神經(jīng)網(wǎng)絡(luò)這項(xiàng)技術(shù)已經(jīng)在機(jī)器翻譯任務(wù)中取得了優(yōu)秀的效果,但由于端到端模型的使用,雖然從翻譯性能上看網(wǎng)絡(luò)模型能夠有效對(duì)跨語(yǔ)言信息進(jìn)行捕獲,但是對(duì)其中語(yǔ)義信息的學(xué)習(xí)方式始終少有了解,從而導(dǎo)致研究人員很難從外部對(duì)模型進(jìn)行分析和改進(jìn)。本文通過(guò)對(duì)目前主流的Transformer神經(jīng)機(jī)器翻譯模型方法進(jìn)行實(shí)驗(yàn),通過(guò)對(duì)訓(xùn)練得到的詞向量進(jìn)行分析,對(duì)神經(jīng)機(jī)器翻譯模型的可解釋性進(jìn)行研究。
關(guān)鍵詞:機(jī)器翻譯;可解釋性;自然語(yǔ)言處理
1神經(jīng)機(jī)器翻譯模型
近年來(lái),神經(jīng)網(wǎng)絡(luò)這項(xiàng)技術(shù)隨著機(jī)器學(xué)習(xí)的廣泛發(fā)展,在自然語(yǔ)言處理領(lǐng)域中取得了廣泛的應(yīng)用,其中機(jī)器翻譯任務(wù)作為跨語(yǔ)言信息建模的重要方向之一,神經(jīng)機(jī)器翻譯技術(shù)也同樣得到了眾多的關(guān)注。但是由于目前的神經(jīng)機(jī)器翻譯模型往往采用的是端到端的模型,由于其黑箱性,內(nèi)部如何對(duì)語(yǔ)言信息、跨語(yǔ)言互譯關(guān)系進(jìn)行捕獲完全是通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式訓(xùn)練而得的,最終導(dǎo)致所得到的模型如何實(shí)現(xiàn)機(jī)器翻譯這個(gè)任務(wù)并不為外人所知,更進(jìn)一步的影響就是如何改進(jìn)這項(xiàng)技術(shù)、如何使用人類(lèi)已有知識(shí)對(duì)其進(jìn)行改進(jìn)困難重重。因此,本文希望能夠?qū)δ壳八鶑V泛使用的神經(jīng)機(jī)器翻譯模型進(jìn)行分析,對(duì)訓(xùn)練好的模型可解釋性進(jìn)行分析,旨在幫助其他研究人員在后續(xù)更加方便地對(duì)模型性能進(jìn)行改進(jìn)。
目前而言,主流的神經(jīng)機(jī)器翻譯模型為谷歌團(tuán)隊(duì)提出的Transformer模型。Transformerkg型是一個(gè)基于注意力機(jī)制的神經(jīng)機(jī)器翻譯模型,它沿用了端到端機(jī)器翻譯系統(tǒng)中的編碼器解碼器架構(gòu),在編碼器、解碼器中通過(guò)相同的層堆疊的方式對(duì)源語(yǔ)和目標(biāo)語(yǔ)進(jìn)行建模。每一層中包括若干子層,如注意力子層、前饋神經(jīng)網(wǎng)絡(luò)子層等。其中自注意力子層主要用來(lái)對(duì)單語(yǔ)信息進(jìn)行建模,而編碼解碼注意力子層主要用來(lái)對(duì)跨語(yǔ)言信息進(jìn)行捕捉,即機(jī)器翻譯的核心,找到源語(yǔ)片段如何翻譯成對(duì)應(yīng)的目標(biāo)語(yǔ)譯文。
2可解釋性研究
本節(jié)將針對(duì)Transformer神經(jīng)機(jī)器翻譯模型的可解釋性進(jìn)行研究,主要從層堆疊模型中詞向量信息的變化趨勢(shì)以及注意力機(jī)制中學(xué)習(xí)到的句法信息兩個(gè)角度出發(fā)對(duì)問(wèn)題進(jìn)行探討。為保證分析實(shí)驗(yàn)的順利進(jìn)行,我們對(duì)方法中使用的分析方法也進(jìn)行了介紹。
2.1分析方法
詞向量信息的分析:為了對(duì)注意力權(quán)重中所包含的信息量進(jìn)行分析,我們還使用信息熵來(lái)對(duì)當(dāng)前詞和其他詞之間關(guān)聯(lián)度的離散性質(zhì)進(jìn)行研究。信息熵值高表示關(guān)注程度不具體,低熵值表示關(guān)注相對(duì)來(lái)說(shuō)更加明顯,我們可以通過(guò)信息熵的變化來(lái)對(duì)訓(xùn)練好的模型中注意力機(jī)制部分進(jìn)行分析。在注意力操作中的權(quán)重值可以告訴我們對(duì)于當(dāng)前詞匯而言哪個(gè)詞更重要,我們可以通過(guò)對(duì)注意力機(jī)制中的權(quán)重進(jìn)行排序,通過(guò)統(tǒng)計(jì)找出規(guī)律。
文本結(jié)構(gòu)分析:由于Transformer結(jié)構(gòu)中自注意力機(jī)制主要是對(duì)同一句子中不同位置的語(yǔ)言片段關(guān)聯(lián)度進(jìn)行建模,為了探索其中所學(xué)到的信息,我們可以將其與句法分析以及詞性特征進(jìn)行對(duì)比,探索詞與詞之間注意力權(quán)重的分布是否符合人類(lèi)認(rèn)知中的句法結(jié)構(gòu)。例如,分析其中代詞是否同其指代的詞匯之間關(guān)聯(lián)度更高等問(wèn)題。
2.2實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)主要針對(duì)目前在神經(jīng)機(jī)器翻譯領(lǐng)域廣泛使用的Transformer模型進(jìn)行研究,具體代碼使用的是Tensor2Tensor的開(kāi)源項(xiàng)目。對(duì)于數(shù)據(jù)我們使用NISTl2的中英數(shù)據(jù)進(jìn)行訓(xùn)練和分析。
2.3實(shí)驗(yàn)現(xiàn)象
詞向量信息與模型層數(shù)的關(guān)系:
上圖中橫軸為T(mén)ransformer模型中編碼端的1-6層,縱軸表示的是測(cè)試集中相同輸入句子中詞向量的信息熵。我們可以看到隨著層數(shù)的遞增,詞向量中所包含的信息實(shí)際上是越來(lái)越豐富的,其原因在于每個(gè)對(duì)應(yīng)位置的詞隨著層數(shù)的遞增均在不斷從其他相關(guān)詞匯中進(jìn)行信息的提取。
詞向量與句法結(jié)構(gòu)的關(guān)聯(lián):實(shí)驗(yàn)中,我們還將注意與句法樹(shù)進(jìn)行了比較,希望找出注意力權(quán)重是否能反映一些語(yǔ)言規(guī)則。然而,權(quán)重與語(yǔ)法規(guī)則沒(méi)有明顯的相似性,但注意力權(quán)重仍然對(duì)一些句子成分表示更多的關(guān)注。在這部分實(shí)驗(yàn)里,我們發(fā)現(xiàn)了許多明顯且有趣的對(duì)齊現(xiàn)象,不過(guò)我們還沒(méi)有總結(jié)出清晰的語(yǔ)法規(guī)則,因此在這里不做過(guò)多解釋。
3結(jié)束語(yǔ)
本文對(duì)基于Transformer模型的神經(jīng)機(jī)器翻譯系統(tǒng)可解釋性進(jìn)行研究,通過(guò)余弦相似度、句法分析等方式的研究對(duì)神經(jīng)網(wǎng)絡(luò)如何建模語(yǔ)言信息進(jìn)行研究,發(fā)現(xiàn)隨著模型中層數(shù)的遞增,詞向量中包含的信息量越來(lái)越大,這一點(diǎn)與人對(duì)其的認(rèn)知相符。