張靜,郭丹,宋培培,李坤,汪萌
1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601; 2.大數(shù)據(jù)知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),合肥 230601;3.智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),合肥 230601
圖像描述任務(wù)是指給定一幅圖像,計(jì)算機(jī)能夠自動(dòng)生成正確的語言描述(Farhadi等,2010),涉及目標(biāo)檢測(湯鵬杰 等,2017;李志欣 等,2020)、關(guān)系推理(Hou等,2020)和語言序列生成(Zhou等,2020)等多項(xiàng)前沿技術(shù)。其成果不僅可應(yīng)用于網(wǎng)頁檢索、人機(jī)交互等應(yīng)用領(lǐng)域,還可以幫助視障人士更好地獲取和理解信息。目前,得益于深度學(xué)習(xí)的快速發(fā)展和現(xiàn)有大規(guī)模成對(duì)的圖像—句子數(shù)據(jù)集出現(xiàn),圖像描述任務(wù)已經(jīng)取得了顯著成果(Wang等,2019;Ji等,2020;羅會(huì)蘭和岳亮亮,2020)。然而,大多數(shù)現(xiàn)有工作關(guān)注于圖像英文描述生成;非英語母語者很難直接從現(xiàn)有的研究成果中受益??缯Z言圖像描述任務(wù)(如從英文描述遷移至中文描述)逐漸成為研究的一種趨勢(Lan等,2017;Gu等,2018;Song等,2019)。
跨語言描述任務(wù)存在的一個(gè)客觀原因是由于缺少大規(guī)模目標(biāo)語言的圖像描述數(shù)據(jù)集。如圖1所示,在訓(xùn)練數(shù)據(jù)集中,圖像只有成對(duì)的軸語言描述(即源語言,如英文)和無關(guān)的目標(biāo)語料庫(如中文)。收集成對(duì)的圖像—句子數(shù)據(jù)集是一項(xiàng)耗時(shí)費(fèi)力的工作,為世界上任意一種語言都構(gòu)建圖像—句子成對(duì)數(shù)據(jù)集,代價(jià)更為昂貴。幸運(yùn)地是,現(xiàn)已有大規(guī)模的英文—圖像對(duì)描述數(shù)據(jù)集的出現(xiàn)。在具有豐富的目標(biāo)語言語料庫的前提下,將已有的軸語言描述(如英文)視為連接圖像和目標(biāo)語言(如中文)描述的橋梁是解決跨語言圖像描述任務(wù)的一種常見做法。Lan等人(2017)將軸語言數(shù)據(jù)通過翻譯模型得到目標(biāo)語言數(shù)據(jù),視為句子偽標(biāo)簽,同時(shí)引入句子流暢性評(píng)估模型,根據(jù)流暢性得分獎(jiǎng)勵(lì)賦予偽標(biāo)簽相應(yīng)的權(quán)重,減少不流暢的偽標(biāo)簽句子在模型訓(xùn)練中的作用。Gu等人(2018)則先利用軸語言訓(xùn)練圖像描述模型生成軸語言描述,再將其由翻譯模型得到目標(biāo)語言描述,通過正則化軸語言編碼器和目標(biāo)語言解碼器的詞嵌入優(yōu)化模型來減少軸語言與目標(biāo)語言的風(fēng)格化差異。上述兩種代表性工作各自存在明顯的弊端:一是偽標(biāo)簽存在翻譯誤差,不如人工標(biāo)注語言自然流暢,過度依賴偽標(biāo)簽會(huì)導(dǎo)致模型生成的句子質(zhì)量受限;二是關(guān)注圖像自身語義信息到軸語言的翻譯,忽視了軸語言作為真實(shí)標(biāo)準(zhǔn)引入的語義知識(shí)。
如圖1所示,中文描述與英文描述存在語言風(fēng)格差異,圖像的源英文描述為“A photo of the back of a girl in a yellow dress”(一個(gè)穿黃色長裙的女孩的背影照片,短語句式),而目標(biāo)域中文描述屬于常規(guī)主謂賓的句式,翻譯風(fēng)格為“一個(gè)穿著黃色裙子的女生站在噴泉前”。而且,強(qiáng)調(diào)語義也不盡相同,雖然句子中都出現(xiàn)了“黃色長裙的女生”,但真實(shí)的中文描述以“女生”為描述中心,而英文描述卻以“一張照片”為描述中心。
圖1 跨語言圖像描述任務(wù)及本文解決方案Fig.1 The task of cross-lingual image captioning and our solution
針對(duì)上述弊端及挑戰(zhàn),本文提出了一種引入語義匹配和語言評(píng)價(jià)獎(jiǎng)勵(lì)的跨語言圖像描述方法。為了兼顧圖像自身語義及其軸語言所包含的語義知識(shí),分別構(gòu)建了一個(gè)源域語義匹配模塊和一個(gè)目標(biāo)語言域評(píng)價(jià)模塊,從而對(duì)模型進(jìn)行語義匹配約束和語言知識(shí)指導(dǎo):1)圖像&軸語言域語義匹配模塊是一個(gè)多模態(tài)視覺語義嵌入網(wǎng)絡(luò),通過將圖像、軸語言以及目標(biāo)語言描述映射到公共嵌入空間來衡量各自模態(tài)特征表示的語義一致性。2)目標(biāo)語言域評(píng)價(jià)模塊在獨(dú)立的目標(biāo)語言語料庫上學(xué)習(xí)目標(biāo)語言的數(shù)據(jù)分布和表達(dá)方式,并依據(jù)目標(biāo)語言風(fēng)格,對(duì)所生成的描述句子進(jìn)行語言知識(shí)評(píng)分。本文方法在語義匹配和語言知識(shí)的共同約束下,從而生成更加自然流暢、語義更相關(guān)的目標(biāo)語言描述。
圖像描述任務(wù)是涉及計(jì)算機(jī)視覺和自然語言處理兩個(gè)研究領(lǐng)域的交叉任務(wù)。目前基于深度學(xué)習(xí)的圖像描述工作已經(jīng)取得了有效進(jìn)展。Vinyals等人(2015)首次提出端到端的CNN(convolutional neural networks)編碼器—RNN(recurrent neural network)解碼器結(jié)構(gòu),以最大化輸入圖像的目標(biāo)句子的似然概率為訓(xùn)練目標(biāo)求解圖像描述任務(wù)。此后,在編碼器—解碼器的框架基礎(chǔ)上出現(xiàn)了各類融合注意力機(jī)制的方法。Xu等人(2015)把圖像分割為多個(gè)區(qū)域塊,將區(qū)域塊的各自空間注意力融合到圖像卷積特征計(jì)算中,實(shí)現(xiàn)單詞和局部視覺信息的對(duì)齊。Anderson等人(2018)在圖像區(qū)域級(jí)和對(duì)象級(jí)(object-level)特征上分別計(jì)算注意力。上述方法建立在視覺空間特征上,沒有考慮字幕豐富性。Wang等人(2019)提出了一個(gè)分層注意力網(wǎng)絡(luò),將文本特征與區(qū)域塊、對(duì)象視覺特征一起輸入特征金字塔層次結(jié)構(gòu)同步計(jì)算,融合不同語義預(yù)測下一時(shí)刻的詞。Ji等人(2020)引入記憶機(jī)制,在序列生成過程中建立強(qiáng)記憶連接,關(guān)注不同時(shí)間步下注意力區(qū)域的變化以及關(guān)聯(lián)性。
另外,Ranzato等人(2016)早就指出圖像編碼器—句子解碼器模型的改進(jìn)并不能解決圖像描述任務(wù)中訓(xùn)練—測試目標(biāo)不匹配的問題。模型在訓(xùn)練時(shí)通常以真實(shí)單詞最大似然概率為訓(xùn)練目標(biāo),在測試時(shí)卻使用BLEU(bilingual evaluation understudy)、CIDEr(consensus-based image description evaluation)等評(píng)價(jià)指標(biāo)。因此,將強(qiáng)化學(xué)習(xí)的方法引入到圖像描述任務(wù)中。Rennie 等人(2017)提出自批判序列訓(xùn)練(self-critical sequence training),將當(dāng)前模型在推理階段生成的句子的特定指標(biāo)(CIDEr)評(píng)分作為基準(zhǔn)獎(jiǎng)勵(lì)以減少方差。比基準(zhǔn)獎(jiǎng)勵(lì)得分高的句子得到鼓勵(lì),比基準(zhǔn)獎(jiǎng)勵(lì)得分低的句子被抑制,經(jīng)過反復(fù)循環(huán)的強(qiáng)化訓(xùn)練,模型會(huì)生成CIDEr得分更高的句子。Liu等人(2018)提出一個(gè)自檢索模塊以優(yōu)化描述句子的多樣性和獨(dú)特性,該模塊提供的獎(jiǎng)勵(lì)可以針對(duì)圖像內(nèi)容生成差異性描述句子。可見,語義指標(biāo)的考量已引入到優(yōu)化目標(biāo),成為傳統(tǒng)圖形描述任務(wù)的一個(gè)研究方向。本文延續(xù)采用編碼器—解碼器的基準(zhǔn)框架求解跨語言圖像描述生成任務(wù),并將語義獎(jiǎng)勵(lì)優(yōu)化引入本文方法。
跨語言圖像描述任務(wù)發(fā)展較慢,目前仍處于探索階段。為了解決在不成對(duì)的圖像—目標(biāo)文本數(shù)據(jù)集上的圖像描述問題,Lan等人(2017)直接利用翻譯模型得到圖像在目標(biāo)語言的偽標(biāo)簽,同時(shí)提出一個(gè)句子流暢性評(píng)估模塊,根據(jù)流暢度評(píng)分對(duì)于流暢與不流暢的句子的目標(biāo)損失賦予不同的權(quán)重,以抑制不流暢句子在訓(xùn)練中的負(fù)面作用。即使生成不流暢的句子,也能包含正確的圖像對(duì)象信息。目前,跨語言圖像描述方法大多采用基于軸語言轉(zhuǎn)換的方法。Gu等人(2018)提出了基于軸語言的跨語言描述模型,先使用圖像描述模型為圖像生成軸語言,然后利用翻譯模型得到目標(biāo)語言。為了克服不同語言的風(fēng)格化差異,該模型進(jìn)一步正則化軸語言的編碼器和目標(biāo)語言的解碼器的詞嵌入?yún)?shù)。當(dāng)然,基于軸語言到目標(biāo)語言的翻譯誤差也會(huì)被引入,翻譯錯(cuò)誤不會(huì)隨著參數(shù)傳遞而緩解。
在語義獎(jiǎng)勵(lì)方面,Song等人(2019)為了提升跨語言描述與圖像的視覺相關(guān)性,提出一種自監(jiān)督的獎(jiǎng)勵(lì)模型(self-supervised rewarding,SSR),利用句子級(jí)語義匹配和概念級(jí)語義匹配分別提供粗粒度和細(xì)粒度的視覺相關(guān)獎(jiǎng)勵(lì)。然而,由于不同標(biāo)注者的主觀關(guān)注點(diǎn)不同,同一幅圖像的不同描述可能包含不同的概念,得到的概念級(jí)語義獎(jiǎng)勵(lì)并不完全可靠。此外,得益于視覺概念檢測Faster R-CNN(region based CNN) 模型 (Ren等,2017)的良好性能,F(xiàn)eng等人(2019)提出了無監(jiān)督圖像描述模型,引入Faster R-CNN對(duì)生成句子進(jìn)行概念約束,采取圖像—句子雙向語義重構(gòu)的方法來進(jìn)一步提升句子質(zhì)量。Ben等人(2022)提出一個(gè)語義約束自學(xué)習(xí)框架,迭代地進(jìn)行偽標(biāo)簽生成和圖像描述模型訓(xùn)練。這兩個(gè)工作都由圖像中檢測出的對(duì)象(object)作為引導(dǎo),來加強(qiáng)輸入圖像和輸出句子之間的語義對(duì)齊。然而,視覺概念檢測器Faster R-CNN是在大規(guī)模的英文圖像描述集上預(yù)訓(xùn)練好的,僅適用于英文概念檢測;對(duì)于其他語言的概念尤其是在缺失訓(xùn)練數(shù)據(jù)集的情況下無法直接應(yīng)用。
本文同樣關(guān)注于語義獎(jiǎng)勵(lì)優(yōu)化的正向反饋。不同于概念語義反饋,本文方法關(guān)注在特征映射空間中圖像、軸語言句子和目標(biāo)語言域句子三者之間的語義匹配(句子級(jí)語義反饋),還引入了目標(biāo)語言域的文本語料對(duì)生成的翻譯句子實(shí)現(xiàn)語言評(píng)分,以期待生成與目標(biāo)語言域風(fēng)格一致的圖像描述。
如圖2所示,本文提出跨語言圖像描述模型由3部分構(gòu)成:1)樸素的圖像編碼器—句子解碼器(圖像描述生成)模塊;2)圖像&軸語言域語義匹配模塊,用于提供語義匹配的獎(jiǎng)勵(lì)優(yōu)化,兼顧了源域圖像與軸語言的語義信息,映射圖像、軸語言和目標(biāo)語言于公共嵌入空間進(jìn)行語義匹配計(jì)算;3)目標(biāo)語言域評(píng)價(jià)模塊,用于提供語言評(píng)價(jià)獎(jiǎng)勵(lì),引入目標(biāo)域數(shù)據(jù)分布知識(shí)進(jìn)行語言評(píng)價(jià)約束。第1個(gè)模塊負(fù)責(zé)描述句子的生成,后兩個(gè)模塊引導(dǎo)模型學(xué)習(xí)語義匹配約束和語言知識(shí)優(yōu)化,使模型生成更加流暢和語義豐富的描述。
圖2 跨語言圖像描述模型Fig.2 Cross-lingual image captioning model
采用樸素的圖像編碼器—句子解碼器框架生成描述句子。使用預(yù)訓(xùn)練網(wǎng)絡(luò)模型ResNet(residual net)-101(He 等,2016)和一層全連接層(fully-connected layer,記為FCG)提取圖像I的特征vI;使用單層LSTM(long short-term memor),記為LSTMG對(duì)vI進(jìn)行解碼生成當(dāng)前時(shí)間步的單詞。與前人工作(Lan等,2017;Song等,2019)類似,采用百度翻譯API(http://api.fanyi.baidu.com)對(duì)圖像I的源域描述語言SP獲取目標(biāo)域偽句子標(biāo)簽ST,對(duì)此模塊進(jìn)行初始化。在模型初始化訓(xùn)練中,預(yù)訓(xùn)練模型ResNet-101不參與模型優(yōu)化,全連接層FCG和LSTMG參與模型優(yōu)化。優(yōu)化函數(shù)目標(biāo)設(shè)為最小化句子中正確單詞的負(fù)對(duì)數(shù)概率,即
(1)
由2.1節(jié)初始化后的模型生成的描述具有如下特性:對(duì)偽標(biāo)簽的簡單模仿或是高頻詞匯的重復(fù)組合,或缺少與圖像內(nèi)容的相關(guān)性。人工標(biāo)注的軸語言具有豐富的語義,是對(duì)圖像信息的切實(shí)描述。軸語言與圖像應(yīng)包含一致的語義信息。同時(shí)結(jié)合圖像與軸語言兩者語義信息,本文提出了一種多模態(tài)語義匹配模塊進(jìn)行語義相似度約束。
2.2.1 跨模態(tài)語義匹配
針對(duì)異構(gòu)的圖像與句子,首先將圖像和句子映射到公共嵌入空間,衡量語義的關(guān)聯(lián)度。如圖2所示,圖像語義嵌入網(wǎng)絡(luò)fI由CNN編碼器(使用預(yù)訓(xùn)練網(wǎng)絡(luò)模型ResNet-101)和一層全連接層(記為FCE)構(gòu)成。文本語義嵌入網(wǎng)絡(luò)fS由單層LSTM(記為LSTME)構(gòu)成。LSTME最后時(shí)刻的隱向量定義為輸入句子在公共嵌入空間的語義向量。將圖像—偽標(biāo)簽數(shù)據(jù)對(duì)(I,ST)輸入,即可得到圖像I在公共語義空間的嵌入特征fI(I),句子ST在公共語義空間的嵌入特征fS(ST)。對(duì)于匹配對(duì)(I,ST),尋找同組batch的句子集中與I不匹配的負(fù)例ST′,同組batch的圖像集中與ST不匹配的負(fù)例I′。以最小化雙向ranking 損失對(duì)公共語義空間進(jìn)行預(yù)訓(xùn)練,即
(2)
式中,Δ表示界限超參數(shù);θμ是本模塊FCE和LSTME的學(xué)習(xí)參數(shù)。
2.2.2 跨語言語義匹配
同時(shí),本文還有軸語言句子—偽標(biāo)簽句子對(duì)(SP,ST),可以為目標(biāo)語言句子與軸語言句子的語義相似性度量提供數(shù)據(jù)支持。本節(jié)引入跨語言語義匹配計(jì)算增強(qiáng)句子的語義相關(guān)性,采用類似2.2.1節(jié)的語義嵌入網(wǎng)絡(luò)機(jī)制對(duì)齊目標(biāo)語言與軸語言嵌入向量。目標(biāo)語言和軸語言的編碼器都采用單層BGRU(bidirectional gated recurrent unit)結(jié)構(gòu),以BGRU最后時(shí)刻的隱向量作為句子特征向量。fP是軸語言特征映射器(BGRUPE),fT是目標(biāo)語言特征映射器(BGRUTE)。同樣地,以最小化雙向ranking 損失對(duì)公共語義空間進(jìn)行預(yù)訓(xùn)練,即
(3)
式中,對(duì)于匹配對(duì)(SP,ST),ST′是同組batch的偽標(biāo)簽句子集中與SP不匹配的負(fù)例,SP′是同組batch的軸語言句子集中與ST不匹配的負(fù)例。θρ是本模塊BGRUPE和BGRUTE的學(xué)習(xí)參數(shù)。
(4)
式中,θω是本模塊LSTML的學(xué)習(xí)參數(shù)。
在進(jìn)行上述3個(gè)模塊初始化的預(yù)訓(xùn)練自學(xué)習(xí)后,聯(lián)合3個(gè)模塊一起實(shí)現(xiàn)2.1節(jié)中圖像編碼器—句子解碼器模塊的獎(jiǎng)勵(lì)優(yōu)化學(xué)習(xí)。具體地,利用2.2節(jié)的語義匹配獎(jiǎng)勵(lì)和2.3節(jié)的語言評(píng)價(jià)獎(jiǎng)勵(lì)對(duì)2.1節(jié)模塊進(jìn)行優(yōu)化。其中,語義匹配獎(jiǎng)勵(lì)衡量目標(biāo)語言與圖像、軸語言在視覺對(duì)象(object)、對(duì)象關(guān)系(relation)上的一致性。首先,輸入圖像I,由2.1節(jié)自動(dòng)生成目標(biāo)語言域的句子S*。其次,計(jì)算如下語義匹配獎(jiǎng)勵(lì)和語言評(píng)價(jià)獎(jiǎng)勵(lì):
1)圖像—句子匹配獎(jiǎng)勵(lì)。圖像I經(jīng)由視覺語義嵌入網(wǎng)絡(luò)fI映射,句子S*經(jīng)由文本語義嵌入網(wǎng)絡(luò)fS映射到公共嵌入空間,其跨模態(tài)語義匹配獎(jiǎng)勵(lì)可以定義為
(5)
2)軸語言—句子匹配獎(jiǎng)勵(lì)。同樣地,源域句子SP經(jīng)由軸語言特征映射器fP映射,句子S*經(jīng)由目標(biāo)語言特征映射器fT映射,其跨語言語義匹配獎(jiǎng)勵(lì)可以定義為
(6)
式中,SP是與圖像I匹配的軸語言描述。
3)目標(biāo)域句子語言評(píng)價(jià)獎(jiǎng)勵(lì)。將句子S*的每個(gè)單詞迭代輸入2.3節(jié)在目標(biāo)語言域訓(xùn)練好的模塊LSTML,語言評(píng)價(jià)的過程為
(7)
(8)
整個(gè)跨語言描述模型的總獎(jiǎng)勵(lì)設(shè)置為
(9)
式中,α、β和γ是超參數(shù),取值范圍為[0,1]。α、β和γ為經(jīng)驗(yàn)參數(shù),最佳值設(shè)置見3.2節(jié)。
為減少模型訓(xùn)練時(shí)的期望梯度方差,遵循自批判序列訓(xùn)練方式。當(dāng)前模型利用多項(xiàng)式分布采樣方式得到句子S*,另外默認(rèn)按照最大概率貪婪采樣方式得到句子S,以rtotal(S)作為基準(zhǔn)獎(jiǎng)勵(lì)。對(duì)句子S*的總體獎(jiǎng)勵(lì)可表示為rtotal(S*)-rtotal(S),比基準(zhǔn)獎(jiǎng)勵(lì)得分高的句子得到鼓勵(lì),比基準(zhǔn)獎(jiǎng)勵(lì)得分低的句子被抑制,經(jīng)過反復(fù)循環(huán)的強(qiáng)化訓(xùn)練,模型生成語義匹配獎(jiǎng)勵(lì)更好和語言評(píng)價(jià)獎(jiǎng)勵(lì)更好的句子。因此,跨語言描述模型的最終目標(biāo)損失可定義為
(10)
式中,θG是圖像描述模塊的參數(shù)。
為了驗(yàn)證模型在跨語言圖像描述任務(wù)上的有效性,本文分別進(jìn)行了兩個(gè)子任務(wù)實(shí)驗(yàn):以中文為軸語言實(shí)現(xiàn)圖像英文描述和以英文為軸語言實(shí)現(xiàn)圖像中文描述。
采用兩個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)測,如表1所示。1)英文數(shù)據(jù)集MS COCO(Microsoft common objects in context)(Lin等,2014),包含123 287幅圖像,每幅圖像至少有5個(gè)人工標(biāo)注的英文描述。實(shí)驗(yàn)遵循Lin等人(2014)提出的劃分方式:113 287幅圖像用做訓(xùn)練集,5 000幅圖像用做驗(yàn)證集,5 000幅圖像用做測試集。中文單詞劃分使用“結(jié)巴”工具(https://github.com/fxsjy/jieba),保留出現(xiàn)頻率不少于5的中文單詞,同時(shí)將所有長度大于16的中文句子進(jìn)行截?cái)?。英文單詞的劃分使用“斯坦福解析”工具(http://nlp.stanford.edu:8080/parser/index.jsp),保留出現(xiàn)頻率不少于5的英文單詞,同時(shí)將所有句子長度大于20的英文句子進(jìn)行截?cái)唷?)中文數(shù)據(jù)集AIC-ICC(image Chinese captioning from artificial intelligence challenge)(Wu等,2017),訓(xùn)練集有208 354幅圖像,驗(yàn)證集有30 000幅圖像,每幅圖像包含5個(gè)人工標(biāo)注的中文描述。AIC-ICC沒有官方公布的測試集,實(shí)驗(yàn)遵循Song等人(2019)提出的劃分方式:在30 000幅的驗(yàn)證集中隨機(jī)采樣5 000幅圖像作為測試集,5 000幅圖像作為驗(yàn)證集,剩余20 000幅圖像歸到訓(xùn)練集中。注意AIC-ICC和MS COCO兩個(gè)數(shù)據(jù)集中圖像和句子各不相同。
表1 實(shí)驗(yàn)使用的數(shù)據(jù)集信息Table 1 Statistics of the datasets used in our experiments
在從中文跨到英文的圖像描述任務(wù)中,以AIC-ICC中文數(shù)據(jù)集聯(lián)合MS COCO英文語料訓(xùn)練,使用MS COCO測試集進(jìn)行評(píng)測。在從英文跨到中文的圖像描述任務(wù)中,以MS COCO數(shù)據(jù)集聯(lián)合AIC-ICC中文語料訓(xùn)練,使用AIC-ICC測試集進(jìn)行評(píng)測。實(shí)驗(yàn)中,采用語義評(píng)估指標(biāo)BLEU,METEOR(metric for evaluation of translation with explicit ordering)和CIDEr對(duì)生成的圖像描述進(jìn)行評(píng)測。
在圖像編碼器—句子解碼器模塊(圖像描述生成模塊)中,圖像特征vI由預(yù)訓(xùn)練模型ResNet-101和一層全連接層提取,維度d=512;并將其作為解碼器LSTMG第0時(shí)刻的隱向量輸入。在跨模態(tài)語義匹配模塊中,圖像語義嵌入網(wǎng)絡(luò)由預(yù)訓(xùn)練模型ResNet-101和一層全連接層組成,目標(biāo)語言編碼器采用單層的LSTME結(jié)構(gòu)。在跨語言語義匹配模塊中,軸語言和目標(biāo)語言的編碼器分別采用單層的BGRUPE和BGRUTE框架,隱藏層維度均是512維,BGRU輸出的維度是1 024維。在目標(biāo)語言域評(píng)估模塊中,語言序列模型使用單層的LSTML。本文所有的LSTM結(jié)構(gòu)的隱藏層維度和單詞嵌入維度均為d=512維。兩個(gè)子任務(wù)實(shí)驗(yàn)在整個(gè)模型訓(xùn)練過程中,dropout設(shè)置為0.3,預(yù)訓(xùn)練時(shí)的batchsize設(shè)為128,強(qiáng)化訓(xùn)練時(shí)的batchsize設(shè)為256。
在語義匹配模塊(2.2節(jié))和語言優(yōu)化模塊(2.3節(jié))預(yù)訓(xùn)練結(jié)束后,學(xué)習(xí)參數(shù)θμ,θρ和θω都保持固定。二者提供獎(jiǎng)勵(lì)共同引導(dǎo)圖像描述生成模塊(2.1節(jié))學(xué)習(xí)更多的源域語義知識(shí)和目標(biāo)域語言知識(shí)。
1)以中文為軸語言實(shí)現(xiàn)圖像英文描述。圖像描述生成模塊預(yù)訓(xùn)練的學(xué)習(xí)率是1E-3,源域語義匹配模塊和目標(biāo)語言域評(píng)價(jià)模塊的預(yù)訓(xùn)練的學(xué)習(xí)率設(shè)為2E-4。在使用語言評(píng)價(jià)獎(jiǎng)勵(lì)和多模態(tài)語義獎(jiǎng)勵(lì)訓(xùn)練時(shí),圖像描述生成模塊的學(xué)習(xí)率是4E-5,α、β和γ分別取值1,1,0.15。
2)以英文為軸語言實(shí)現(xiàn)圖像中文描述。圖像描述生成模塊預(yù)訓(xùn)練的學(xué)習(xí)率是1E-3,源域語義匹配模塊和目標(biāo)語言域評(píng)價(jià)模塊預(yù)訓(xùn)練的學(xué)習(xí)率設(shè)為4E-4。在使用語言評(píng)價(jià)獎(jiǎng)勵(lì)和多模態(tài)語義匹配獎(jiǎng)勵(lì)訓(xùn)練時(shí),圖像描述生成模塊的學(xué)習(xí)率是1E-5,α、β和γ分別取值1,1,1。
3.3.1 消融實(shí)驗(yàn)
3.3.2 跨語言英文圖像描述主性能分析
表3展現(xiàn)了不同方法關(guān)于跨語言英文圖像描述任務(wù)在MS COCO測試集上的實(shí)驗(yàn)結(jié)果。本文工作與現(xiàn)有跨語言圖像描述實(shí)驗(yàn)進(jìn)行了對(duì)比,具體實(shí)驗(yàn)包括:1)Baseline僅利用偽標(biāo)簽和式(1)中損失函數(shù)初始化的模型(見2.1節(jié));2)2-Stage pivot-Google API(Gu等,2018)使用圖像描述生成模塊生成軸語言,再將軸語言通過Google翻譯器得到英文描述(目標(biāo)語言);3)2-Stage pivot(Gu等,2018)-Baidu API采用實(shí)驗(yàn)2)中圖像描述模型框架生成軸語言描述后,采用翻譯API得到目標(biāo)語言描述。不同之處在于將Google API替換為Baidu API。本文增加了Baidu API的測試;4)2-Stagepivot-joint model是Gu等人(2018)提出的一種跨語言圖像描述方法,同樣先將圖像通過圖像描述模塊生成軸語言描述,再將軸語言描述通過翻譯模塊得到目標(biāo)語言,與實(shí)驗(yàn)2)和實(shí)驗(yàn)3)不同之處在于共享了兩個(gè)模塊的編碼器和解碼器嵌入?yún)?shù)來減少風(fēng)格化差異;5)SSR是Song等人(2019)針對(duì)不成對(duì)的圖像—句子數(shù)據(jù)集提出的跨語言描述模型,利用句子級(jí)相關(guān)性獎(jiǎng)勵(lì)和概念級(jí)相關(guān)性獎(jiǎng)勵(lì)來提高描述的視覺語義相關(guān)性。為了實(shí)驗(yàn)對(duì)比,Song等人(2019)還設(shè)置了SSR-Baseline & CIDEr Reward模型,引入樸素的CIDEr評(píng)分獎(jiǎng)勵(lì)替換所提出的句子兼概念語義獎(jiǎng)勵(lì),進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
表2 不同獎(jiǎng)勵(lì)對(duì)于跨語言英文圖像描述任務(wù)在MS COCO測試集上的貢獻(xiàn)和不同獎(jiǎng)勵(lì)對(duì)于跨語言中文圖像描述任務(wù)在AIC-ICC測試集上的貢獻(xiàn)Table 2 The contribution of different rewards for cross-lingual English image captioning on MS COCO test dataset and cross-lingual Chinese image captioning on AIC-ICC test dataset /%
表3 不同方法關(guān)于跨語言英文圖像描述任務(wù)在MS COCO測試集上的性能比較Table 3 Performance comparison with different methods for cross-lingual English image captioning evaluated on the MS COCO test dataset /%
如表3所示,與2-Stage pivot-Google API相比,2-Stage pivot-Baidu API性能表現(xiàn)不佳,在所有方法中為最低性能。同樣也表明了Google API在英語翻譯上比Baidu API有優(yōu)勢。盡管2-Stage pivot Google API的指標(biāo)得分有所提升,相比之下,本文模型的BLEU-4得分和CIDEr得分高出了6.5%和10.9%。由此表明,與直接使用軸語言描述作為監(jiān)督信息參與模型訓(xùn)練、再進(jìn)行翻譯的兩階段方法相比,本文模型表現(xiàn)更為優(yōu)越。與2-Stage pivot-joint model相比,本文方法在BLEU-4評(píng)分上提升了6.4%,在CIDEr評(píng)分上提升了10.2%。結(jié)果表明,目標(biāo)語言域評(píng)價(jià)模塊引導(dǎo)模型學(xué)習(xí)了豐富的目標(biāo)域語言表達(dá)方式,降低了翻譯模型中不流暢句子對(duì)模型的負(fù)面影響。與SSR-Baseline & CIDEr Reward實(shí)驗(yàn)結(jié)果相比,本文模型在所有評(píng)價(jià)指標(biāo)上都有明顯提升,其中CIDEr評(píng)分提升13.3%。這一結(jié)果表明,僅使用CIDEr Reward強(qiáng)化學(xué)習(xí)策略,對(duì)求解復(fù)雜的跨語言圖像描述任務(wù)還遠(yuǎn)遠(yuǎn)不夠。與SSR方法相比,本文方法在BLEU-2、BLEU-3、BLEU-4和METEOR等4個(gè)評(píng)價(jià)指標(biāo)上的得分分別提升了1.4%,1.0%,0.7%和1.3%。結(jié)果表明,相比SSR對(duì)生成句子使用句子級(jí)和概念級(jí)語義獎(jiǎng)勵(lì)機(jī)制,本文提出的強(qiáng)調(diào)多模態(tài)的語義匹配和語言指導(dǎo)模型,更重視圖像、軸語言和目標(biāo)語言的語義一致性約束,從不同模態(tài)數(shù)據(jù)出發(fā)向一致性語義表達(dá)優(yōu)化,能學(xué)習(xí)到更豐富準(zhǔn)確的語義知識(shí)。
圖3是本文模型關(guān)于跨語言英文圖像描述任務(wù)在MS COCO測試集的可視化效果,紅色字體表示來自Baseline模型翻譯的錯(cuò)誤語義,綠色字體表示來自本文模型翻譯的正確語義。圖3表明,一方面,本文模型生成的描述更貼近圖像視覺內(nèi)容,例如,本文模型可以識(shí)別出物體屬性:將錯(cuò)誤的人物對(duì)象“woman”替換為“boy”;可以推理對(duì)象關(guān)系:一個(gè)男人“sitting on the green grass”糾正為“sitting on a horse in the grass”。另一方面,本文模型生成的句子與目標(biāo)語言風(fēng)格差異更小。例如,本文模型生成的句子更偏向目標(biāo)語言風(fēng)格的“某人在某地做某事”句式:“a man is skiing in the snow in the mountains.”(一個(gè)男人在山里的雪地上滑雪),而Baseline模型傾向給對(duì)象添加定語修飾:“a man with a ski pole in both hands was skiing in the snow”(一個(gè)雙手拿著滑雪杖的人在滑雪)。
圖3 跨語言英文圖像描述在MS COCO測試集的樣例Fig.3 Examples of the cross-lingual English image captioning from the MS COCO testing set
3.3.3 跨語言中文圖像描述主性能分析
表4展現(xiàn)了不同方法關(guān)于跨語言中文圖像描述任務(wù)在AIC-ICC測試集上的評(píng)分效果。本文方法與4項(xiàng)跨語言中文圖像描述實(shí)驗(yàn)進(jìn)行了對(duì)比:1)Baseline方法;2)SSR-Baseline & CIDEr Reward(Song等,2019)方法;3)2-Stage pivot(Gu等,2018)-Baidu API方法;4)SSR(Song等,2019)方法。
表4 不同方法關(guān)于跨語言中文圖像描述任務(wù)在AIC-ICC測試集上的性能比較Table 4 Performance comparison with different methods for cross-lingual Chinese image captioning evaluated on the AIC-ICC test dataset /%
如表4所示,2-Stage pivot-Baidu model在所有方法中取得了最低性能。相比于2-Stage pivot-Baidu API方法,本文模型的BLEU-4和CIDEr得分分別高出7.3%和10.6%。這表明,針對(duì)跨語言中文圖像描述任務(wù),與兩階段的圖像—軸語言—目標(biāo)語言的方法相比,本文模型更具優(yōu)越性。與Baseline方法相比,本文模型在所有指標(biāo)上都取得了明顯提升,其中BLEU-4和CIDEr分別提升了2.9%和4.9%。與SSR-Baseline & CIDEr Reward方法相比,本文模型在BLEU-4和CIDEr得分分別提升了6.3%和10.1%。與性能最好的SSR方法相比,本文方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR和CIDEr等6個(gè)評(píng)價(jià)指標(biāo)上的評(píng)分分別提升了5.7%,2.0%,1.6%,1.3%,1.2%和3.4%。以上結(jié)果表明,跨語言中文圖像描述任務(wù)中,在語義匹配模塊和語言評(píng)價(jià)模塊的共同作用下,也同樣生成更加語義完整和流暢的句子。
圖4是本文模型關(guān)于跨語言中文圖像描述任務(wù)在AIC-ICC測試集的可視化效果,紅色字體表示來自Baseline模型翻譯的錯(cuò)誤語義,綠色字體表示來自本文模型翻譯的正確語義。從圖4可見:一方面,本文模型生成的描述與真實(shí)描述語義更相關(guān),例如,本文模型可以對(duì)缺少的、有誤的視覺信息進(jìn)行補(bǔ)充和替換:Baseline模型生成的句子“一個(gè)穿著西裝打著領(lǐng)帶的男人站在一起”只檢測出一個(gè)人物對(duì)象且句子不流暢,本文模型的句子“一個(gè)穿著西裝的男人站在一個(gè)穿著裙子的女人旁邊”,關(guān)注了更豐富的語義信息且句子更加流暢;將錯(cuò)誤的視覺信息“手里拿著沖浪板”修正為“站在海灘上的巖石上”。
圖4 跨語言中文圖像描述在AIC-ICC測試集的樣例Fig.4 Examples of the cross-lingual Chinese image captioning from the AIC-ICC testing set
另一方面,本文模型生成的句子與真實(shí)描述語言風(fēng)格更相近。例如本文模型生成的句子更偏向真實(shí)描述的“連續(xù)且簡短的”描述風(fēng)格,符合目標(biāo)語料的風(fēng)格“一個(gè)女人在外面的桌子旁吃東西”,而Baseline模型更傾向于生成“逗號(hào)分隔的”復(fù)雜句式“一個(gè)女人坐在一張桌子旁,手里拿著一部手機(jī)。”
針對(duì)現(xiàn)有的跨語言圖像描述方法在缺乏成對(duì)圖像—句子數(shù)據(jù)集下生成的目標(biāo)語言描述與圖像語義關(guān)聯(lián)弱、與真實(shí)目標(biāo)語言風(fēng)格差異明顯等問題,本文提出了一種引入語義匹配和語言評(píng)價(jià)的跨語言圖像描述模型。在以編碼器—解碼器為基準(zhǔn)架構(gòu)的模型上,本文設(shè)計(jì)了圖像&軸語言語義匹配模塊,通過對(duì)目標(biāo)語言、源域圖像和軸語言句子進(jìn)行語義匹配計(jì)算來約束描述的語義相關(guān)性。同時(shí)本文設(shè)計(jì)了目標(biāo)語言評(píng)價(jià)模塊,通過學(xué)習(xí)目標(biāo)語料集中的語言表達(dá)來優(yōu)化描述的語言質(zhì)量。在語義匹配獎(jiǎng)勵(lì)和語言評(píng)價(jià)獎(jiǎng)勵(lì)的指導(dǎo)下,模型生成語義更準(zhǔn)確和語言更流暢的描述。
在MS COCO和AIC-ICC兩個(gè)數(shù)據(jù)集上與其他現(xiàn)有方法分別進(jìn)行了跨語言英文圖像描述和跨語言中文圖像描述測試和比較。定量對(duì)比結(jié)果表明,本文模型在多個(gè)測評(píng)指標(biāo)上達(dá)到最好,生成的描述與真實(shí)的目標(biāo)語言描述更加接近,具有較好的魯棒性和有效性。定性對(duì)比結(jié)果表明,本文模型提升了描述與圖像的語義一致性。同時(shí)消融實(shí)驗(yàn)結(jié)果表明,本文提出的語義匹配獎(jiǎng)勵(lì)、語言評(píng)價(jià)獎(jiǎng)勵(lì)對(duì)模型都產(chǎn)生了積極作用。
由于本文模型對(duì)圖像細(xì)節(jié)的關(guān)注較弱,生成的描述在精度上仍有不足。因此,在后續(xù)工作中將考慮引入注意力機(jī)制,探索更加細(xì)粒度的跨語言圖像描述。