張慶林 杜嘉晨 徐睿峰
哈爾濱工業(yè)大學(xué)(深圳)計算機科學(xué)與技術(shù)學(xué)院, 深圳 518055; ? 通信作者, E-mail: xuruifeng@hit.edu.cn
近年來, 隨著諷刺在微博、論壇等互聯(lián)網(wǎng)應(yīng)用中的廣泛使用以及文本情感分析問題的深入研究,越來越多的學(xué)者對諷刺識別產(chǎn)生濃厚興趣。由于用戶在使用諷刺表達情感時, 往往出現(xiàn)想表達的情感傾向與字面相反的情況, 所以對諷刺表達的判別會明顯影響面向社交媒體的文本情感分析性能。因此, 諷刺識別問題的深入研究對提高文本情感分析系統(tǒng)、問答系統(tǒng)以及會話機器人等自然語言處理應(yīng)用的性能具有重要意義。
諷刺識別的傳統(tǒng)方法主要依靠人工構(gòu)建特征模板和規(guī)則[1-2], 需要依賴領(lǐng)域?qū)<? 且耗費大量的時間和精力, 同時規(guī)則系統(tǒng)的可遷移性也比較差。隨著深度學(xué)習(xí)模型在眾多自然語言處理問題上取得重大突破, 有學(xué)者將其引入諷刺識別任務(wù)中[3-4]。但是, 目前諷刺識別領(lǐng)域只有少量公開的人工標(biāo)注數(shù)據(jù)或利用弱監(jiān)督方式自動標(biāo)注的數(shù)據(jù), 缺乏大規(guī)模、高質(zhì)量的諷刺標(biāo)注語料, 導(dǎo)致基于機器學(xué)習(xí)(特別是深度學(xué)習(xí))的諷刺識別模型的性能受到一定的限制。
本文提出一種在使用少量標(biāo)注訓(xùn)練數(shù)據(jù)的情況下, 應(yīng)用對抗學(xué)習(xí)框架[5]來提升深度學(xué)習(xí)模型在諷刺識別任務(wù)中性能的方法。首先, 在將注意力卷積神經(jīng)網(wǎng)絡(luò)[6-8]模型應(yīng)用于諷刺識別的基礎(chǔ)上, 采用兩種對抗學(xué)習(xí)方法來提高諷刺識別的性能。其中,基于對抗樣本的學(xué)習(xí)方法[9]在模型訓(xùn)練過程中定向地生成面向識別模型的攻擊樣本, 用于模型訓(xùn)練,以期增強模型的魯棒性和泛化性能??紤]到基于對抗樣本的對抗學(xué)習(xí)方法只能在單領(lǐng)域數(shù)據(jù)上生成對抗樣本, 為了利用更多的跨領(lǐng)域數(shù)據(jù), 以便提升模型的性能, 本文還提出基于領(lǐng)域遷移的對抗學(xué)習(xí)方法。該方法在目標(biāo)領(lǐng)域只有少量標(biāo)注數(shù)據(jù)的情況下, 利用梯度反轉(zhuǎn)層和領(lǐng)域判別器, 遷移跨領(lǐng)域的諷刺標(biāo)注樣本, 以期提高注意力卷積神經(jīng)網(wǎng)絡(luò)模型在目標(biāo)領(lǐng)域上的性能。最后, 將上述兩種對抗學(xué)習(xí)方法相結(jié)合, 可以進一步提升模型的性能。在IAC的3個諷刺數(shù)據(jù)集[10]上的實驗結(jié)果均取得目前已知的最優(yōu)性能, 顯示了應(yīng)用對抗學(xué)習(xí)在諷刺識別任務(wù)上的有效性。
本文將文本諷刺識別問題視為二分類問題, 即給定一條文本, 判斷文本中是否存在諷刺性表達。Kreuz等[1]基于包含感嘆詞、標(biāo)點符號等的詞匯特征, 構(gòu)建諷刺自動識別系統(tǒng)。Carvalho等[2]將文本中的表情符號以及特殊字符作為特征來設(shè)計諷刺識別算法。近期, 也有學(xué)者利用深度學(xué)習(xí)模型搭建諷刺識別系統(tǒng)。Bamman等[3]使用待檢測文本的上下文信息, 并進一步挖掘社交用戶的行為信息, 設(shè)計基于深度學(xué)習(xí)的諷刺識別模型。Zhang等[11]使用雙向遞歸神經(jīng)網(wǎng)絡(luò)來捕捉目標(biāo)推特文本的句法和語義信息, 同時利用與目標(biāo)推文相關(guān)的歷史推文, 自動學(xué)習(xí)特征, 進行諷刺識別, 并取得較好的性能。Chen等[12]和Gui等[13]從表示學(xué)習(xí)的角度切入, 提高文本情感分類模型的性能。但是, 目前大部分基于深度學(xué)習(xí)的諷刺識別模型均利用小規(guī)模人工標(biāo)注數(shù)據(jù)訓(xùn)練, 性能受到很大限制。也有學(xué)者利用網(wǎng)絡(luò)用戶自標(biāo)注(如hashtag)構(gòu)建的弱監(jiān)督數(shù)據(jù)進行訓(xùn)練,但由于這些數(shù)據(jù)存在噪音和標(biāo)簽濫用, 其文本標(biāo)簽的準(zhǔn)確性受到質(zhì)疑[14]。
聯(lián)合使用對抗樣本和原始樣本參與深度學(xué)習(xí)模型的訓(xùn)練, 稱為對抗訓(xùn)練。對抗樣本指對原始樣本增加微小對抗擾動后的樣本。對抗樣本能夠使機器學(xué)習(xí)算法產(chǎn)生錯誤的預(yù)測, 卻不會影響人工對樣本做出正確分類。Goodfellow等[5]的研究結(jié)果表明,對抗訓(xùn)練可以有效地提高神經(jīng)網(wǎng)絡(luò)模型防御對抗攻擊的能力, 從而提高模型的魯棒性以及泛化性能。Szegedy等[9]首先在計算機視覺領(lǐng)域發(fā)現(xiàn)對抗樣本的存在, 隨后Jia等[15]在自然語言處理的相關(guān)任務(wù)上也發(fā)現(xiàn)同樣會導(dǎo)致模型性能大幅度下降的對抗樣本。Goodfellow等[5]提出的快速梯度法是對抗樣本生成中最常用的方法。將基于快速梯度法的對抗訓(xùn)練應(yīng)用在圖像和文本分類領(lǐng)域[5,16-18], 均能提高模型抵制對抗攻擊的能力及模型的泛化性能。在文本識別領(lǐng)域, Jia等[15]在模型輸入文本的段前或段后等位置隨機添加不相關(guān)的合法句子或隨機字符, 生成任務(wù)對抗樣本, 并利用對抗訓(xùn)練來提高閱讀理解模型在該任務(wù)上的泛化性能。Zhao等[19]利用生成對抗網(wǎng)絡(luò)來生成圖像和文本對抗樣本, 并將對抗樣本用于分析深度學(xué)習(xí)模型的魯棒性, 增強模型的可解釋性。
研究顯示, 當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有不同的分布時, 領(lǐng)域遷移方法可以有效地提高模型性能。Glorot等[20]利用層疊降噪自編碼器, 學(xué)習(xí)不同領(lǐng)域間的一致特征表達, 提高跨領(lǐng)域文本情感分類性能。Tzeng等[21]通過在卷積神經(jīng)網(wǎng)絡(luò)中引入遷移層,在目標(biāo)損失函數(shù)中添加領(lǐng)域混淆損失, 訓(xùn)練目標(biāo)任務(wù)模型, 在領(lǐng)域遷移的基準(zhǔn)任務(wù)中取得當(dāng)時的最優(yōu)性能。后來, Tzeng等[22]又提出對抗判別式領(lǐng)域遷移模型, 解決跨領(lǐng)域手寫數(shù)字分類問題, 提升跨領(lǐng)域手寫數(shù)字識別的最佳性能。Ganin等[23]利用梯度反轉(zhuǎn)層, 最大化領(lǐng)域判別的損失, 訓(xùn)練模型學(xué)習(xí)領(lǐng)域間不變的特征表示。該方法在圖像領(lǐng)域遷移任務(wù)中均取得當(dāng)時的最好性能。Gui等[24]通過研究遷移學(xué)習(xí)過程中的負遷移問題, 提升遷移模型的性能。魏曉聰?shù)萚25]提出一種基于Word2Vec的跨領(lǐng)域特征對齊算法, 該方法在跨領(lǐng)域情感分類問題上取得較好的性能。
本文將結(jié)合注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型作為諷刺識別的基礎(chǔ)分類模型。在此基礎(chǔ)上, 研究基于對抗樣本的學(xué)習(xí)方法進行諷刺識別模型的對抗訓(xùn)練, 提高諷刺識別模型的魯棒性和泛化性能??紤]到基于對抗樣本的對抗學(xué)習(xí)方法只能利用單領(lǐng)域的少量標(biāo)注數(shù)據(jù)集來提升模型的效果, 進一步研究基于領(lǐng)域遷移的對抗學(xué)習(xí)方法, 使得對抗學(xué)習(xí)方法能夠利用更多的跨領(lǐng)域諷刺數(shù)據(jù)來提高目標(biāo)領(lǐng)域的識別性能。最后, 本文結(jié)合兩種對抗學(xué)習(xí)方法, 同時利用對抗樣本和跨領(lǐng)域數(shù)據(jù)集來強化模型的對抗學(xué)習(xí)過程。
諷刺性文本表達通常由具有共性的短語和表達方式構(gòu)成。為了保證模型能夠捕獲這種局部短語和表達方式的共性特征, 本文選擇卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型。卷積神經(jīng)網(wǎng)絡(luò)主要包括4個部分: 輸入層、卷積層、池化層和輸出層, 如圖1所示。由于卷積神經(jīng)網(wǎng)絡(luò)的最大池化或平均池化的方式會導(dǎo)致文本語義信息的損失, 而注意力機制近年來在自然語言處理領(lǐng)域的各類任務(wù)中廣泛使用, 并帶來一定的性能提升, 因此本文引入注意力機制, 將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的池化層改為注意力層。通過注意力權(quán)值向量, 對卷積層輸出的特征進行降維和關(guān)鍵信息抽取。
圖1 結(jié)合注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 Convolutional neural network with attention mechanism
首先, 將待識別的文本轉(zhuǎn)化為低維稠密表示向量, 組成一個矩陣S, 作為模型輸入。S中的第i列對應(yīng)輸入文本的第i個詞wi的詞向量vwi∈Rd。輸入矩陣的維數(shù)N和d都是模型的超參數(shù), 由人工設(shè)定。其中,d代表詞向量的維度,N代表輸入句子的最大長度。超出最大長度N的句子會被截去末端的字符, 對于句子長度小于N的句子, 使用零向量vzi∈Rd填充。輸入矩陣S可表示成如下形式:
在卷積層, 不同大小的卷積核在詞向量矩陣上平移, 進行卷積操作。設(shè)某個卷積核whd∈R, 其中h是卷積窗口的寬度。輸出特征ci∈R的卷積計算過程可形式化地表示為
f是非線性激活函數(shù),si:i+h-1代表S中第i到i+h-1列,b∈R是偏置項。卷積層的輸出為特征C:
注意力機制可以輔助模型捕捉文本中與諷刺分類目標(biāo)直接相關(guān)的關(guān)鍵性文本語義信息。這里, 本文結(jié)合由Lin等[7]提出的結(jié)構(gòu)化自注意力計算方法,假設(shè)卷積層的輸出特征矩陣為C, 維度為Rn×m。 通過注意力計算機制, 可以將矩陣C轉(zhuǎn)化為固定大小的一維表示向量。注意力計算模塊接收特征矩陣C作為輸入, 并輸入注意力權(quán)值向量a:
其中,w1是權(quán)值矩陣, 維度為Rk×m;w2為權(quán)值向量,維度大小為k。獲得注意力權(quán)值向量后, 將其與輸入矩陣相乘, 可以快速地獲得固定大小的句子或文本表示e。計算公式如下:
由于循環(huán)神經(jīng)網(wǎng)絡(luò)不適用于對文本局部特征建模, 所以將未使用結(jié)合注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型作為分類器。同時, 諷刺文本往往長度較大,使用循環(huán)神經(jīng)網(wǎng)絡(luò)會造成長期遺忘問題, 容易導(dǎo)致性能不佳[26]。
諷刺是一種非常敏感的語言表達方式, 細微的語言變化有可能導(dǎo)致模型產(chǎn)生錯誤的判斷。為了提高模型的魯棒性, 本文使用對抗樣本和原始樣本對諷刺識別模型進行訓(xùn)練(即對抗訓(xùn)練), 使模型可以學(xué)習(xí)諷刺表達背后真正的語義識別特征。具體地,采用快速梯度法, 通過模型的目標(biāo)損失函數(shù), 對輸入數(shù)據(jù)求梯度, 并將其加到相對應(yīng)的輸入維度, 從而快速生成對抗樣本。框架如圖 2 所示。
諷刺分類的神經(jīng)網(wǎng)絡(luò)模型輸出為class(x)∈{0,1}。顯然, 如果分類器模型能夠?qū)斎氲臉颖井a(chǎn)生高置信度的預(yù)測, 那么即使對測試樣本添加微小擾動, 模型也可以做出正確的預(yù)測。該過程定義為
這里,η表示添加的噪聲擾動,x是原始樣本, ?是人工設(shè)定的超參數(shù), 代表添加擾動的最大強度。按照最快梯度法, 在每次對抗擾動時, 使用一個任意小的正數(shù)?來控制添加到原始詞向量上擾動的強度, 以免改變原始樣本的數(shù)據(jù)分布。在每一步, 通過梯度反向傳播算法, 獲得原始詞向量最差情況的對抗噪聲η, 從而產(chǎn)生需要的對抗樣本。對抗擾動的生成過程可以形式化定義如下:
這里,g是輸入樣本x的反向傳播梯度,L是模型的目標(biāo)損失函數(shù)。
結(jié)合對抗樣本的模型損失函數(shù)的計算過程可以表示如下:
這里,α是模型的超參數(shù)。上式表明, 使用對抗樣本的對抗訓(xùn)練方法等價于在模型的目標(biāo)損失函數(shù)上增加正則化項, 因而對抗訓(xùn)練能夠提高模型防御對抗攻擊和抵抗過擬合的能力, 從而提高模型的泛化性能。特別地, 由于諷刺識別任務(wù)缺少大型的標(biāo)注語料, 所以在數(shù)據(jù)層面上, 可以借助基于對抗樣本的對抗訓(xùn)練方法來提升模型的泛化能力, 有效地防止模型出現(xiàn)過擬合。
圖2 基于對抗樣本的對抗學(xué)習(xí)方法Fig.2 Adversarial learning approach based on adversarial examples
由于單領(lǐng)域的諷刺標(biāo)注數(shù)據(jù)存在明顯的稀疏,所以結(jié)合多領(lǐng)域的諷刺數(shù)據(jù)集有望進一步提升模型的性能。雖然不同領(lǐng)域的諷刺數(shù)據(jù)集可能分布差異較大, 但可以通過學(xué)習(xí)領(lǐng)域無關(guān)的諷刺語義特征,增強模型的泛化性能。為此, 本文研究基于領(lǐng)域遷移的對抗學(xué)習(xí)方法來訓(xùn)練諷刺識別模型, 在包含較多標(biāo)注數(shù)據(jù)的源領(lǐng)域訓(xùn)練分類器, 對抗遷移至只有少量標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域進行微調(diào)和測試。由于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有一定的分布差異, 所以普通的訓(xùn)練方法很難在目標(biāo)領(lǐng)域上取得較好的性能。然而通過領(lǐng)域遷移的對抗學(xué)習(xí)方法, 有望將模型從源領(lǐng)域數(shù)據(jù)集有效地遷移到目標(biāo)領(lǐng)域數(shù)據(jù)集。
領(lǐng)域?qū)咕W(wǎng)絡(luò)主要通過抽取在目標(biāo)領(lǐng)域和源領(lǐng)域可遷移的特征表示來降低不同領(lǐng)域數(shù)據(jù)的分布差異。該方法能夠提高深度學(xué)習(xí)模型在只有少量標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域諷刺識別任務(wù)上的性能。該框架主要分為4個部分: 數(shù)據(jù)輸入模塊、特征抽取模塊(包含注意力計算模塊)、諷刺識別模塊和領(lǐng)域判別模塊, 框架如圖3所示。
圖3 基于領(lǐng)域遷移的對抗學(xué)習(xí)方法Fig.3 Adversarial learning approach based on domain transfer
具體地, 在現(xiàn)有的諷刺識別模型中引入一個領(lǐng)域判別器, 并在特征抽取模塊與領(lǐng)域判別器之間添加梯度反轉(zhuǎn)層。梯度反轉(zhuǎn)層在模型的前向計算和反向傳播過程的數(shù)學(xué)原理可用偽函數(shù)R(x)形式化地表示為
其中,I是單位矩陣。梯度反轉(zhuǎn)層在模型的前向計算過程相當(dāng)于恒等變化, 而在模型的誤差反向傳播學(xué)習(xí)過程中改變了由領(lǐng)域判別器回傳的梯度符號。整個對抗學(xué)習(xí)策略相當(dāng)于一個雙人博弈游戲, 其中一個玩家是領(lǐng)域判決器Gd, 區(qū)分輸入的數(shù)據(jù)來自源領(lǐng)域數(shù)據(jù)或目標(biāo)領(lǐng)域數(shù)據(jù); 另外一個玩家是特征抽取器Gf, 用來迷惑領(lǐng)域判別器Gd, 使它無法正確地區(qū)分?jǐn)?shù)據(jù)來源。
為了抽取領(lǐng)域不變性的特征f, 特征抽取模塊通過最大化領(lǐng)域判別器的損失函數(shù)Ld來學(xué)習(xí)參數(shù)θf。領(lǐng)域判別器通過最小化損失函數(shù)Ld來調(diào)整領(lǐng)域判別器的參數(shù)θd。整個對抗學(xué)習(xí)框架的損失函數(shù)還包括最小化目標(biāo)任務(wù)(諷刺識別)的損失函數(shù)Ly。整個領(lǐng)域?qū)箤W(xué)習(xí)框架的目標(biāo)代價函數(shù)如下:
其中,n=ns+nt,λ是權(quán)衡超參數(shù)。在模型訓(xùn)練收斂后, 參數(shù)θf,θy和θd分別收斂于代價函數(shù)的一個鞍點, 表示如下:
為進一步提高對抗方法的性能, 本文研究了同時引入對抗樣本和領(lǐng)域遷移的對抗學(xué)習(xí)框架。在該框架下, 對抗擾動的產(chǎn)生只涉及諷刺判別器的目標(biāo)損失函數(shù)Ly, 與領(lǐng)域判別器的損失函數(shù)無關(guān)。
本文使用3個不同領(lǐng)域的諷刺識別實驗數(shù)據(jù)集,均來自在線辯論語料庫(IAC)[26], 分別是Generic數(shù)據(jù)集、Hyperbole 數(shù)據(jù)集以及Rhetorical Questions數(shù)據(jù)集。Hyperbole數(shù)據(jù)集主要包含夸張諷刺文本;Rhetorical Questions數(shù)據(jù)集主要包含反諷文本; Generic數(shù)據(jù)集主要包含普通諷刺文本。3個數(shù)據(jù)集雖然均為 IAC 諷刺文本, 但是 Hyperbole 和 Rhetirucal Questions數(shù)據(jù)集為夸張和反問的諷刺手法, 與普通諷刺相比, 差異較大。同時, 從表 1 的統(tǒng)計數(shù)據(jù)可以看出, 3個數(shù)據(jù)集的文本統(tǒng)計信息也具有較大的差異。Generic數(shù)據(jù)集比Hyperbole和Rhetorical Questions含更多的有標(biāo)注訓(xùn)練數(shù)據(jù), 因此在基于領(lǐng)域遷移的對抗學(xué)習(xí)框架中, 將Generic數(shù)據(jù)集設(shè)為源領(lǐng)域數(shù)據(jù)集, 而將Hyperbole和Rhetorical Questions數(shù)據(jù)集分別作為目標(biāo)領(lǐng)域數(shù)據(jù)集。
表1 實驗數(shù)據(jù)集統(tǒng)計情況Table 1 Statistics of experimental datasets
本文基于 3 個數(shù)據(jù)集構(gòu)造各自的對抗樣本, 實現(xiàn)基于對抗樣本的對抗學(xué)習(xí)框架。對于每個數(shù)據(jù)集, 隨機抽取20%的標(biāo)注數(shù)據(jù)作為測試數(shù)據(jù), 剩余數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)。以下實驗數(shù)據(jù)均為 5 次隨機實驗后的平均性能。
本文使用卷積神經(jīng)網(wǎng)絡(luò)作為對抗框架的基模型。卷積神經(jīng)網(wǎng)絡(luò)模型輸入樣本的最大長度N設(shè)置為300。卷積網(wǎng)絡(luò)模型使用兩種規(guī)格的卷積核,寬度分別為3和5。網(wǎng)絡(luò)的激活函數(shù)使用修正線性單元(ReLU), 訓(xùn)練過程中每個批次包含64條樣例。預(yù)訓(xùn)練的詞向量維度設(shè)定為300。網(wǎng)絡(luò)中同時加入dropout層以及L2正則化。模型訓(xùn)練時, 將最小化交叉熵損失函數(shù)作為模型訓(xùn)練目標(biāo), 梯度下降法作為模型的優(yōu)化方法。選擇ADAM作為優(yōu)化器, 學(xué)習(xí)率為1×10-3。
為了分析基于對抗樣本的對抗訓(xùn)練方法對模型泛化性能提高的效果以及對抗擾動增強模型性能的有效性, 本研究增加對原始樣本添加隨機噪聲擾動的被污染樣本參與模型訓(xùn)練的對比試驗, 對比模型如下。
1)CNN-Attention: 不對訓(xùn)練樣本做任何修改和數(shù)據(jù)增強操作的注意力卷積神經(jīng)網(wǎng)絡(luò)模型。
2)CNN-Gaussian: 對訓(xùn)練樣本添加高斯隨機噪聲擾動的注意力卷積神經(jīng)網(wǎng)絡(luò)模型。
3)CNN-Adv: 對訓(xùn)練樣本添加對抗擾動, 生成對抗樣本參與模型訓(xùn)練。
對比實驗選用高斯噪聲, 并將?設(shè)置為高斯分布的標(biāo)準(zhǔn)差, 從而控制隨機擾動的強度。因此, 第一組實驗的對比模型包括普通訓(xùn)練的模型和添加高斯隨機擾動訓(xùn)練的模型, 實驗結(jié)果如表 2 所示。
從表 2 可以看出, 與普通訓(xùn)練模式下的模型CNN-Attention相比, 基于對抗樣本的對抗學(xué)習(xí)模型CNN-Adv的準(zhǔn)確率和F1值在 3 個不同的數(shù)據(jù)集上均有約3個百分點的性能提升, 顯示出基于對抗樣本的對抗學(xué)習(xí)方法可以有效地提高模型的泛化性能。相反地, 與CNN-Attention相比, CNN-Gausssian在各數(shù)據(jù)集的性能均有所下降, 顯示添加隨機噪聲反而降低了模型的泛化性能。這說明, 對抗擾動的添加是提高模型泛化性能的關(guān)鍵因素。在模型訓(xùn)練過程中, 添加對抗擾動有助于定向地降低模型對樣本的數(shù)值敏感度, 增強模型的泛化性能。相反地, 添加隨機擾動并不能起到增強模型泛化性能的作用。
第二組實驗評估基于領(lǐng)域遷移的對抗學(xué)習(xí)方法的性能, 對比模型如下。
1)基線模型(CNN-Attention): 單獨使用源領(lǐng)域數(shù)據(jù)集(Generic)上訓(xùn)練的注意力卷積神經(jīng)網(wǎng)絡(luò)模型。
2)模型微調(diào)(CNN-Finetune): 在源領(lǐng)域訓(xùn)練完成后, 繼續(xù)使用少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)進行訓(xùn)練,微調(diào)模型。
3)基于對抗遷移的模型(CNN-Adversarial_Transfer, CNN-AT): 在基于領(lǐng)域遷移的對抗學(xué)習(xí)框架下獲得的諷刺識別模型。
基于領(lǐng)域遷移的對抗學(xué)習(xí)方法性能的評估結(jié)果如表 3 所示??梢钥闯? 如果將源領(lǐng)域數(shù)據(jù)訓(xùn)練的模型直接遷移到CNN-Attention, 由于缺少目標(biāo)領(lǐng)域數(shù)據(jù)的訓(xùn)練過程, 其性能與各自領(lǐng)域單獨訓(xùn)練的模型相比反而有所下降, 說明目標(biāo)領(lǐng)域和源領(lǐng)域具有較大的數(shù)據(jù)分布差異, 導(dǎo)致模型無法在領(lǐng)域間直接遷移。從表 3 中微調(diào)遷移模型CNN-Finetune和對抗遷移模型(CNN-AT)的性能比較可以看出, 模型的微調(diào)遷移和對抗遷移都能在一定程度上降低跨領(lǐng)域數(shù)據(jù)集的分布差異。相比而言, 基于領(lǐng)域遷移的對抗學(xué)習(xí)框架CNN-AT能更有效地增加模型的泛化性能。特別地, 除Hyperbole和Rhetorical Question數(shù)據(jù)集外, 在Generic數(shù)據(jù)集上也可以看到模型性能的提升。這從另一個角度說明, 對抗訓(xùn)練能夠幫助模型學(xué)習(xí)到領(lǐng)域無關(guān)的諷刺語義特征。
為了進一步提升目標(biāo)領(lǐng)域諷刺識別的性能, 本文結(jié)合領(lǐng)域遷移和對抗樣本的對抗學(xué)習(xí)方法, 第三組實驗評估使用該方法后模型的性能。對比模型包括SVM[27]、Deepmoji[28]以及本文的基于對抗樣本、基于領(lǐng)域遷移的模型和普通訓(xùn)練模式下的模型。
表2 基于對抗樣本的學(xué)習(xí)方法實驗結(jié)果Table 2 Experimental results on the learing approach based on adversarial examples
表3 基于領(lǐng)域遷移的對抗學(xué)習(xí)框架的實驗結(jié)果Table 3 Experimental results on adversarial learning models based on domain transfer
表4 結(jié)合對抗樣本和領(lǐng)域遷移對抗學(xué)習(xí)框架的實驗結(jié)果Table 4 Experminetal results on the models based on both adversarial examples and domain transfer
1)SVM(W2V): 利用預(yù)訓(xùn)練好的詞向量構(gòu)建的基于支持向量機的諷刺識別模型。
2)DeepMoji: 利用大規(guī)模外部社交情感數(shù)據(jù)預(yù)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)諷刺識別模型。
3)CNN-Attention和RNN-Attention: 不對訓(xùn)練樣本做任何修改的注意力卷積神經(jīng)網(wǎng)絡(luò)模型和遞歸神經(jīng)網(wǎng)絡(luò)。
4)CNN-AT-Adv (CNN-Adversarial_Transfer-Adversarial_Examples): 結(jié)合領(lǐng)域遷移和對抗樣本的兩種對抗學(xué)習(xí)框架, 共同訓(xùn)練所得的諷刺識別模型。
實驗結(jié)果如表 4 所示, 可以看出, 結(jié)合對抗樣本和對抗遷移的方法有效地提高了模型的識別性能, 在3個諷刺識別數(shù)據(jù)集上取得目前已知最優(yōu)性能。與現(xiàn)有的兩種公開模型對比, 本文的模型在3個諷刺數(shù)據(jù)集上性能均獲得提升。實驗結(jié)果表明,數(shù)據(jù)層面上的基于對抗樣本的對抗學(xué)習(xí)方法和模型層面上的基于領(lǐng)域遷移的對抗學(xué)習(xí)方法都能有效地提高模型的泛化性能, 緩解深度學(xué)習(xí)模型在缺少標(biāo)注數(shù)據(jù)時的過擬合問題, 從而提高諷刺識別系統(tǒng)的性能。
本文針對缺少大規(guī)模諷刺文本標(biāo)注數(shù)據(jù)的情況, 提出兩種對抗學(xué)習(xí)方法, 提升了深度學(xué)習(xí)模型在諷刺識別上的泛化性能。本文分別研究了基于對抗樣本的對抗學(xué)習(xí)方法和基于領(lǐng)域遷移的對抗學(xué)習(xí)方法以及兩者的結(jié)合。本文實現(xiàn)的方法在3個公開的IAC諷刺識別數(shù)據(jù)集上的實驗結(jié)果均取得明顯的性能提高, 取得目前已知的最優(yōu)性能, 顯示了對抗學(xué)習(xí)框架在諷刺識別研究中的優(yōu)越性。然而, 對抗學(xué)習(xí)框架在訓(xùn)練時仍然存在一些問題, 比如模型訓(xùn)練不穩(wěn)定, 超參數(shù)選擇困難等。今后, 將進一步探索對抗學(xué)習(xí)框架訓(xùn)練時的不穩(wěn)定問題, 同時更深入地探索對抗樣本方法和領(lǐng)域遷移對抗方法在更多自然語言處理問題上的應(yīng)用。