盧紹帥 陳 龍 盧光躍 管子玉 謝 飛
1(西安郵電大學(xué)通信與信息工程學(xué)院 西安 710121)
2(西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 西安 710071)
3(西安電子科技大學(xué)前沿交叉研究院 西安 710071)
(199509@stu.xupt.edu.cn)
移動(dòng)終端設(shè)備的普及為互聯(lián)網(wǎng)用戶提供了便捷的互動(dòng)渠道,大規(guī)模用戶群體可以針對(duì)新聞事件、熱門話題、電商產(chǎn)品等對(duì)象隨時(shí)隨地發(fā)表自己的觀點(diǎn),所產(chǎn)生的海量評(píng)論文本中往往蘊(yùn)藏著豐富的用戶情感信息.分析這些評(píng)論文本的情感傾向,能夠給商家的營(yíng)銷策略調(diào)整、政府部門的相關(guān)政策制定等領(lǐng)域提供輿情參考.另一方面,消費(fèi)者也可以根據(jù)他人發(fā)表的評(píng)論觀點(diǎn)做出更合理的購(gòu)買決策.因此,面向評(píng)論文本的情感分類方法受到了學(xué)界和業(yè)界的廣泛關(guān)注.
早期的情感分類方法包括基于詞典的方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法.基于詞典的方法利用情感詞典中的情感詞匯作為判斷評(píng)論情感極性的主要依據(jù),因此需要構(gòu)建高質(zhì)量的情感詞典[1].此類方法無法處理詞典外的詞匯且規(guī)則無法窮盡所有語境情況,從而極大限制了方法的泛化能力.基于機(jī)器學(xué)習(xí)的情感分類方法最早在Pang等人[2]的研究工作中提出,此類方法更多地依賴人工設(shè)計(jì)的復(fù)雜的特征工程,如n-gram特征[3]、TF-IDF特征等.與基于詞典的方法類似,特征工程同樣依賴專家知識(shí)且人工設(shè)計(jì)的特征推廣能力有限.隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,越來越多的研究者開始嘗試使用深度學(xué)習(xí)技術(shù)解決文本情感分類問題[4-5].與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)不再需要復(fù)雜的特征工程就能夠有效捕捉到文本的高層次語義信息,且模型的表達(dá)能力指數(shù)優(yōu)于淺層模型.多數(shù)基于深度學(xué)習(xí)的情感分類研究中使用Word2Vec[6],Glove(global vectors for word representation)[7]等無監(jiān)督算法產(chǎn)生的詞向量來編碼文本,但這些算法本質(zhì)上利用詞共現(xiàn)關(guān)系來學(xué)習(xí)詞向量而忽略了上下文語境信息.Google在2018年提出的BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練語言模型采用了隱蔽語言模型、雙向語言模型和排序語言模型等理論,在更深層次上對(duì)自然語言中的語法語義信息進(jìn)行建模,使得文本語義表示有了質(zhì)的提升[8].盡管有監(jiān)督深度學(xué)習(xí)方法在情感分類任務(wù)中有不俗的表現(xiàn),但模型性能依賴大規(guī)模高質(zhì)量人工標(biāo)注數(shù)據(jù).然而人工標(biāo)注情感數(shù)據(jù)耗時(shí)費(fèi)力且標(biāo)注一致性較低,難以獲取大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)來訓(xùn)練深度模型.針對(duì)這種小樣本情感分類問題,有研究人員開始考慮利用互聯(lián)網(wǎng)用戶產(chǎn)生的標(biāo)簽信息作為監(jiān)督信號(hào)來訓(xùn)練深度語言模型[9].但用戶產(chǎn)生的標(biāo)注信息并不是嚴(yán)格意義上的強(qiáng)標(biāo)注信息,其中存在不可忽視的噪聲標(biāo)簽,即標(biāo)簽與文本情感語義不一致,如5星商品評(píng)論中存在負(fù)面描述文字.因此,這種由用戶產(chǎn)生的標(biāo)注信息是一種弱標(biāo)注信息.直接使用弱標(biāo)注數(shù)據(jù)訓(xùn)練深度模型,噪聲數(shù)據(jù)帶來的誤差會(huì)在反向傳播過程中逐輪累積從而影響模型性能[9].針對(duì)上述問題,本文提出了一種面向小樣本情感分類任務(wù)的弱監(jiān)督對(duì)比學(xué)習(xí)(weakly-supervised contrastive learning, WCL)方法.該方法可以有效降低弱標(biāo)注數(shù)據(jù)中噪聲數(shù)據(jù)帶來的負(fù)面影響并充分利用極小規(guī)模標(biāo)注數(shù)據(jù)(規(guī)模小到基本可忽略標(biāo)注成本)中的正例或負(fù)例對(duì)比模式.該方法采用知識(shí)遷移策略,包括2個(gè)關(guān)鍵核心步驟:1)使用海量的弱標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練.預(yù)訓(xùn)練采用三元訓(xùn)練策略來削弱噪聲影響,同時(shí)學(xué)習(xí)較好的情感特征表達(dá).2)在少量有標(biāo)注的樣本上對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào).受無監(jiān)督對(duì)比學(xué)習(xí)的啟發(fā)[10],我們?cè)O(shè)計(jì)了一種微調(diào)模型的有監(jiān)督對(duì)比學(xué)習(xí)策略.其目的在于充分利用不同極性句子間的差異性和相同極性句子間的相似性,拉近相同標(biāo)簽句子間的距離同時(shí)增大不同標(biāo)簽句子間的距離.在編碼器的選擇方面,考慮到BERT模型在多數(shù)自然語言處理任務(wù)上的優(yōu)秀表現(xiàn),我們選用BERT模型作為WCL框架的文本編碼器.
本文的主要貢獻(xiàn)包括3個(gè)方面:
1) 提出了一種面向小樣本情感分類任務(wù)的弱監(jiān)督對(duì)比學(xué)習(xí)(WCL)框架,在模型訓(xùn)練的不同階段分別提出了抗噪聲弱監(jiān)督預(yù)訓(xùn)練策略和用于微調(diào)模型的有監(jiān)督對(duì)比學(xué)習(xí)目標(biāo)函數(shù).其中弱監(jiān)督預(yù)訓(xùn)練策略可有效降低弱標(biāo)注數(shù)據(jù)中噪聲數(shù)據(jù)產(chǎn)生的負(fù)面影響,并最大化地挖掘弱標(biāo)注數(shù)據(jù)中潛在的情感信息;對(duì)比學(xué)習(xí)訓(xùn)練目標(biāo)能夠充分有效地利用同類數(shù)據(jù)間的相似性和非同類數(shù)據(jù)間的差異性,減少模型在有監(jiān)督微調(diào)訓(xùn)練時(shí)所使用的人工標(biāo)注數(shù)據(jù)數(shù)量,并提升模型的分類性能.
2) 該框架具備通用性,可兼容不同結(jié)構(gòu)的深度語言模型.本文選用BERT模型作為基準(zhǔn)編碼器,很好地解決了詞向量存在的一詞多義、表示能力欠缺的問題.
3) 在公開亞馬遜評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在極小樣本的情感分類任務(wù)中效果顯著.在僅使用32個(gè)人工標(biāo)注樣本的情況下仍然取得比基線方法更好的分類效果.
早期情感分類方法主要分為基于詞典的方法和基于特征工程的機(jī)器學(xué)習(xí)方法.基于詞典方法的關(guān)鍵在于如何構(gòu)建情感詞典[11]和制定情感計(jì)算規(guī)則[12-13].但此類方法需要構(gòu)建全面高質(zhì)量的情感詞典,固定的情感極性和計(jì)算規(guī)則無法跟隨上下文語義變化,限制了方法的性能.基于特征工程的機(jī)器學(xué)習(xí)方法抽取文本的詞頻、n-gram等特征來表征文本并在有標(biāo)注數(shù)據(jù)集上訓(xùn)練淺層分類模型.Pang等人[2,14]和Zhang等人[15]分別利用unigrams特征和支持向量機(jī)(support vector machine, SVM)、n-gram特征和支持向量機(jī)及樸素貝葉斯(NB)進(jìn)行情感分類.盡管文獻(xiàn)[2,14,15]所述的方法在情感分類任務(wù)中取得了一定的成果,但是算法性能過分依賴嚴(yán)謹(jǐn)精細(xì)的特征設(shè)計(jì)且特征的泛化能力有限.近年來,深度學(xué)習(xí)在圖像識(shí)別[16-19]等領(lǐng)域取得了突破性的進(jìn)展,深度模型的表達(dá)能力顯著優(yōu)于淺層模型,越來越多的研究者更加青睞使用深度學(xué)習(xí)方法解決情感分類問題[20-23].基于深度學(xué)習(xí)的文本情感分類方法關(guān)鍵在于文本情感語義的表達(dá)學(xué)習(xí).文本表達(dá)學(xué)習(xí)經(jīng)歷了長(zhǎng)期的研究發(fā)展過程.早期文本表示主要使用詞袋(bag of words, BOW)模型[24],但此種表征方法存在丟失詞匯順序、忽視詞義信息、編碼出的特征稀疏、易產(chǎn)生維度災(zāi)難等問題.針對(duì)該問題,研究人員開始研究分布式的特征表達(dá)方法,采用致密的低維向量對(duì)單詞進(jìn)行表示[25].Bengio等人[26]提出了神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model, NNLM),利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞語的分布式向量表示.Mikolov等人[6]于2013年提出了Word2Vec算法,該算法使用的CBOW(continuous bag-of-words)模型和Skip-gram模型能夠?qū)W習(xí)到高質(zhì)量的詞語分布式向量表示,這是神經(jīng)概率語言模型研究中的經(jīng)典工作.Pennington等人[7]提出基于共現(xiàn)矩陣分解生成詞向量的Glove模型,該模型通過構(gòu)建全局詞共現(xiàn)矩陣訓(xùn)練詞向量.以預(yù)訓(xùn)練詞向量技術(shù)為基礎(chǔ),多數(shù)研究工作采用無監(jiān)督預(yù)訓(xùn)練得到的詞向量來表征評(píng)論文本,并在有標(biāo)注數(shù)據(jù)上訓(xùn)練深度模型來獲取面向具體場(chǎng)景的高層次情感語義表達(dá)[5,27-29].然而,采用上述無監(jiān)督預(yù)訓(xùn)練方法學(xué)習(xí)得到的詞向量存在3個(gè)重要缺陷:1)詞與向量之間的一一映射關(guān)系無法處理一詞多義問題;2)靜態(tài)的表征方式無法適應(yīng)上下文動(dòng)態(tài)變化的語言環(huán)境;3)以詞共現(xiàn)為本質(zhì)的單一語義建模方式無法適應(yīng)下游復(fù)雜的文本任務(wù).基于Transformer的預(yù)訓(xùn)練語言模型有效解決了這3個(gè)缺陷.BERT預(yù)訓(xùn)練語言模型[8]的核心特色在于:1)采用的特征編碼器為Transformer的編碼器部分,具有并行計(jì)算能力且能夠捕獲長(zhǎng)距離的文本語義信息;2)掩碼語言模型(masked language model, MLM)隨機(jī)遮擋或替換句子中15%的字或詞,讓模型預(yù)測(cè)被掩蓋的單詞,進(jìn)而生成更深層次的雙向語言表征;3)預(yù)訓(xùn)練模型從不同層次學(xué)習(xí)復(fù)雜的語言結(jié)構(gòu),底層特征更關(guān)注字、詞、句法等基礎(chǔ)語言信息,而高層次抽象特征則可捕捉到動(dòng)態(tài)變化的上下文語義模式[30].基于這3個(gè)優(yōu)點(diǎn),本文的WCL框架采用BERT作為文本編碼器.
盡管深度學(xué)習(xí)方法[27-29]擺脫了情感計(jì)算規(guī)則制定和特征工程等諸多束縛,但是其對(duì)于大規(guī)模有標(biāo)注訓(xùn)練數(shù)據(jù)的依賴性更為強(qiáng)烈.人工標(biāo)注評(píng)論數(shù)據(jù)不僅耗時(shí)費(fèi)力,而且標(biāo)注一致性難以保證.因此,有標(biāo)注訓(xùn)練數(shù)據(jù)的質(zhì)量和獲取成本問題已成為制約深度學(xué)習(xí)方法繼續(xù)深入發(fā)展的因素之一.
對(duì)于文本情感分類任務(wù)的研究工作多采用監(jiān)督學(xué)習(xí)方法,利用“大尺寸”的自然語言模型來學(xué)習(xí)海量標(biāo)注數(shù)據(jù)中的情感語義.但此類方法嚴(yán)重依賴有標(biāo)注數(shù)據(jù)的規(guī)模和質(zhì)量,需要耗費(fèi)高昂的人工標(biāo)注成本.與人工標(biāo)注數(shù)據(jù)相比,互聯(lián)網(wǎng)上帶有用戶標(biāo)記的評(píng)論數(shù)據(jù)為小樣本文本情感分類任務(wù)提供了海量成本極低的弱標(biāo)注數(shù)據(jù).但用戶產(chǎn)生的標(biāo)簽是一種弱標(biāo)簽,雖然標(biāo)簽與評(píng)論的情感傾向存在關(guān)聯(lián),但也存在標(biāo)簽與文本實(shí)際情感語義不一致的情況,如低評(píng)分中的正面評(píng)論語句.因此,用戶產(chǎn)生的弱標(biāo)注數(shù)據(jù)并不能直接用于有監(jiān)督的情感分類任務(wù)中.文獻(xiàn)[31]對(duì)弱監(jiān)督學(xué)習(xí)方法進(jìn)行了較為系統(tǒng)的闡述,現(xiàn)有弱監(jiān)督學(xué)習(xí)方法可分為3類:不完全監(jiān)督、不確切監(jiān)督和不準(zhǔn)確監(jiān)督.其中,不準(zhǔn)確監(jiān)督方法中給定的標(biāo)簽并不總是真實(shí)值.本文采用的弱標(biāo)簽屬于不準(zhǔn)確監(jiān)督信息,即數(shù)據(jù)標(biāo)簽存在噪聲,如電商網(wǎng)站評(píng)論中的評(píng)分、推特和微博中的表情符號(hào)等.Qu等人[32]提出將評(píng)分作為評(píng)論數(shù)據(jù)的標(biāo)注信息,根據(jù)這種規(guī)則生成了弱標(biāo)注數(shù)據(jù),并以此來訓(xùn)練概率模型進(jìn)而解決情感分類問題.Deriu等人[9]則以表情符號(hào)作為弱標(biāo)注信息,直接將弱標(biāo)注數(shù)據(jù)作為監(jiān)督數(shù)據(jù),并使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行推特情感分類任務(wù).
以上這些工作并沒有考慮弱標(biāo)注數(shù)據(jù)中噪聲樣本帶來的負(fù)面影響.Guan等人[33]提出了一種基于弱監(jiān)督的深度學(xué)習(xí)框架,使用三元組損失函數(shù)降低弱標(biāo)注數(shù)據(jù)中噪聲數(shù)據(jù)的影響.受該研究啟發(fā),本文在模型預(yù)訓(xùn)練階段采用抗噪聲弱監(jiān)督訓(xùn)練方法來充分學(xué)習(xí)大量弱標(biāo)注數(shù)據(jù)的情感語義.
現(xiàn)有優(yōu)秀的情感分類方法大都需要在大量人工標(biāo)注的數(shù)據(jù)集上進(jìn)行有監(jiān)督學(xué)習(xí),但是受限于有標(biāo)注數(shù)據(jù)的標(biāo)注成本和標(biāo)注質(zhì)量問題,實(shí)際上可獲得的有標(biāo)注訓(xùn)練數(shù)據(jù)的規(guī)模有限.因此,如何從規(guī)模有限的標(biāo)注數(shù)據(jù)中充分學(xué)習(xí)得到具有良好泛化能力的語義表達(dá)成為了情感分類任務(wù)需要研究的重要問題之一.人類通過一張貓的圖片就能泛化認(rèn)知出貓這一類動(dòng)物,受此啟發(fā)[34],小樣本學(xué)習(xí)(few-shot learning)[35-36]的概念被提出.文獻(xiàn)[37]將小樣本學(xué)習(xí)方法分為基于數(shù)據(jù)增廣、基于遷移學(xué)習(xí)和基于模型微調(diào)的3種類型.Howard等人[38]提出了一個(gè)遷移式的通用微調(diào)語言模型(universal language model fine-tuning, ULMFit),通過在不同層設(shè)置不同的學(xué)習(xí)率來微調(diào)該模型,整個(gè)過程分3個(gè)步驟進(jìn)行:1)在通用的大型語料庫(kù)上預(yù)訓(xùn)練語言模型;2)在目標(biāo)數(shù)據(jù)集上微調(diào)語言模型;3)使用目標(biāo)數(shù)據(jù)的訓(xùn)練集進(jìn)行分類器微調(diào).Nakamura等人[39]提出了3種新的微調(diào)策略來提高小樣本學(xué)習(xí)的準(zhǔn)確率:1)使用低學(xué)習(xí)率;2)使用自適應(yīng)的梯度優(yōu)化器;3)在跨領(lǐng)域任務(wù)中當(dāng)目標(biāo)數(shù)據(jù)和源數(shù)據(jù)之間差異較大時(shí)對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行更新.本文所提出的弱監(jiān)督對(duì)比學(xué)習(xí)方法融合了文獻(xiàn)[37-39]所述的3種方法的思想:1)從互聯(lián)網(wǎng)上收集海量弱標(biāo)注數(shù)據(jù)是一種天然的數(shù)據(jù)增廣;2)“弱監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)”基于遷移學(xué)習(xí)思想,目的是充分吸收大量弱標(biāo)注數(shù)據(jù)中的情感信息;3)采用在大量語料上預(yù)訓(xùn)練得到的BERT模型作為文本編碼器并在此基礎(chǔ)上執(zhí)行后續(xù)遷移式訓(xùn)練策略,此處借鑒了基于模型微調(diào)的策略.
除了吸收海量弱標(biāo)注數(shù)據(jù)的情感信息,本文還關(guān)注有監(jiān)督微調(diào)階段如何對(duì)規(guī)模有限的有標(biāo)注數(shù)據(jù)進(jìn)行充分學(xué)習(xí).Gunel等人[40]提出使用有監(jiān)督對(duì)比學(xué)習(xí)損失和交叉熵?fù)p失的加權(quán)和作為最終損失,對(duì)預(yù)訓(xùn)練語言模型RoBERTa-Large進(jìn)行微調(diào)訓(xùn)練.該方法在小樣本學(xué)習(xí)上取得了一定的效果,但其設(shè)計(jì)的對(duì)比目標(biāo)函數(shù)在分母上會(huì)采樣到與錨點(diǎn)樣本情感標(biāo)簽一致的樣本集合,因此并未最大化地發(fā)揮模型捕獲非同類樣本間對(duì)比模式的能力.對(duì)小樣本情感分類任務(wù)而言,應(yīng)考慮如何在有限的有標(biāo)注數(shù)據(jù)集上學(xué)習(xí)更大的類間距離.受對(duì)比學(xué)習(xí)方法[10]的啟發(fā),本文在有監(jiān)督微調(diào)階段提出了一個(gè)用于小樣本情感分類任務(wù)的對(duì)比損失函數(shù),該損失能夠充分捕捉到數(shù)據(jù)集中同類和非同類樣本之間的對(duì)比模式.
Fig. 1 WCL architecture圖1 WCL框架
本節(jié)詳細(xì)闡述所提出的弱監(jiān)督對(duì)比學(xué)習(xí)(WCL)方法,其總體框架如圖1所示.該框架包括2個(gè)部分:1)抗噪聲弱監(jiān)督預(yù)訓(xùn)練部分;2)有監(jiān)督對(duì)比學(xué)習(xí)微調(diào)部分.弱監(jiān)督預(yù)訓(xùn)練階段首先利用編碼器對(duì)輸入文本編碼,再經(jīng)過非線性變換,得到文本的高層次特征表達(dá).在嵌入層引入了抗噪聲弱監(jiān)督預(yù)訓(xùn)練策略來削弱噪聲數(shù)據(jù)的影響,同時(shí)學(xué)習(xí)弱標(biāo)注數(shù)據(jù)中潛在的情感信息.有監(jiān)督對(duì)比學(xué)習(xí)微調(diào)在預(yù)訓(xùn)練得到的模型基礎(chǔ)之上進(jìn)行,在嵌入層后添加一個(gè)分類層并設(shè)計(jì)了一種監(jiān)督學(xué)習(xí)方法來微調(diào)整個(gè)模型的參數(shù).為了充分利用同類或非同類樣本之間的對(duì)比模式,我們?cè)谀P臀⒄{(diào)階段設(shè)計(jì)了一種有監(jiān)督對(duì)比學(xué)習(xí)目標(biāo)方法,通過學(xué)習(xí)同類數(shù)據(jù)間的相似性和非同類數(shù)據(jù)間的差異性,進(jìn)一步減小同類樣本間的距離,同時(shí)增大非同類樣本間的距離.
本節(jié),我們將介紹WCL框架所采用的語言模型結(jié)構(gòu)以及模型訓(xùn)練策略.
2.1.1 整體模型結(jié)構(gòu)
BERT是一種使用多頭自注意力機(jī)制構(gòu)建的模型,該模型能夠深入挖掘文本數(shù)據(jù)的語法、句法特征,并充分學(xué)習(xí)文本中的字級(jí)、詞級(jí)和句級(jí)不同層次的特征表達(dá).考慮到有標(biāo)注數(shù)據(jù)規(guī)模并對(duì)比不同版本BERT預(yù)訓(xùn)練模型的復(fù)雜度,我們采用BERTBASE作為情感分類任務(wù)的基準(zhǔn)編碼器.基于BERTBASE的情感分類語言模型如圖2所示,后文簡(jiǎn)稱該模型為WCL-BERT.
Fig. 2 Sentiment classification model based on BERT圖2 基于BERT的情感分類模型
如圖2所示,si=[CLS],ω1,ω2,…,ωt,[SEP]表示模型BERTBASE的輸入,ω1,ω2,…,ωt表示si中的詞語,t表示輸入序列si中詞語的個(gè)數(shù),i表示數(shù)據(jù)集中的第i條樣本.本文在以BERT作為特征編碼器的下游情感分類任務(wù)中,將符號(hào)[CLS]和[SEP]分別放于ω1,ω2,…,ωt的首部和尾部,并在編碼完成后提取符號(hào)[CLS]所對(duì)應(yīng)的特征向量作為輸入序列si的語義表示向量.
編碼器BERTBASE的計(jì)算結(jié)構(gòu)使用fBERT(·)表示,編碼輸入序列si得到語義特征hi∈d:
hi=fBERT(si),
(1)
此處的hi即為上文所述的編碼完成后符號(hào)[CLS]所對(duì)應(yīng)的特征向量.
非線性變換層(nonlinear transformation layer)
的輸入為hi,經(jīng)過非線性變換后得到的xi∈m作為輸入序列si最終的特征:
xi=W2σ(W1hi),
(2)
其中,σ是tanh函數(shù),W1∈d×d和W2∈m×d為權(quán)重矩陣.
嵌入層(embedding layer)沒有涉及具體的計(jì)算過程,只用來存放上一層得到的輸入序列si的最終特征向量xi,本文設(shè)置向量xi的維度m=300.
式(1)和式(2)為預(yù)訓(xùn)練過程的計(jì)算結(jié)構(gòu).微調(diào)步驟中,在預(yù)訓(xùn)練模型上添加分類層(classification layer)進(jìn)行有監(jiān)督對(duì)比訓(xùn)練.分類層的計(jì)算式(3)為
(3)
其中,xi∈m是輸入序列si的特征向量,W3∈m是參數(shù)矩陣,b是偏置項(xiàng),表示模型對(duì)當(dāng)前輸入文本si的預(yù)測(cè)值.
2.1.2 BERT編碼器簡(jiǎn)介
2.1.1節(jié)采用BERT作為模型的文本編碼器,BERT于2018年被提出,該自然語言模型在分類、問答、翻譯等11項(xiàng)不同的自然語言處理任務(wù)中均達(dá)到最優(yōu)性能[8].本文所采用的BERTBASE模型的結(jié)構(gòu)參數(shù)如表1所示:
Table 1 Parameter Settings for BERTBASE Model表1 BERTBASE模型的結(jié)構(gòu)參數(shù)設(shè)置
BERT模型結(jié)構(gòu)如圖3所示,其中Ei表示嵌入向量,Ti表示最終編碼得到的隱藏層向量,Trm為Transformer的縮寫.如圖3所示,BERT主要由Transformer[41]的編碼器部分構(gòu)成.Transformer的編碼器(encoder)部分主要包括多頭自注意力層(multi-head self-attention)和前饋網(wǎng)絡(luò)層(feed forward)兩個(gè)部分.其中多頭自注意力機(jī)制能夠有效解決長(zhǎng)距離信息丟失的問題,并能充分獲取上下文的語義信息.由表1可知,BERTBASE內(nèi)部是由Transformer的編碼器部分堆疊了12層構(gòu)成,因此其在語義特征提取、長(zhǎng)距離信息捕獲、句法特征提取等方面都具有一定的優(yōu)勢(shì).
Fig. 3 BERT model architecture圖3 BERT模型結(jié)構(gòu)
BERT結(jié)構(gòu)支持單文本輸入和文本對(duì)輸入.單文本輸入需要將符號(hào)[CLS]和[SEP]分別放在文本序列的首部和尾部;文本對(duì)輸入則需要在2個(gè)文本序列之間添加符號(hào)[SEP]作為分隔符.本文以單文本序列[CLS],ω1,ω2,…,ωt,[SEP]作為BERTBASE的輸入.BERT作為一個(gè)成熟的語言模型,其內(nèi)部的具體計(jì)算過程見文獻(xiàn)[8],本文中不再贅述.
2.2.1 抗噪聲弱監(jiān)督預(yù)訓(xùn)練方法
互聯(lián)網(wǎng)中海量的弱標(biāo)注數(shù)據(jù)蘊(yùn)含了豐富的情感語義信息,但使用弱標(biāo)注數(shù)據(jù)需要削弱噪聲樣本(即標(biāo)簽與文本情感傾向不一致的樣本)帶來的負(fù)面影響.預(yù)訓(xùn)練的目標(biāo)在于充分學(xué)習(xí)海量弱標(biāo)注數(shù)據(jù)的總體情感分布,同時(shí)削弱噪聲數(shù)據(jù)的負(fù)面影響.為此,我們引入了抗噪聲弱監(jiān)督預(yù)訓(xùn)練策略,具體分為2步:1)獲取樣本弱標(biāo)簽.我們以面向商品評(píng)論的情感分類場(chǎng)景為例,根據(jù)用戶評(píng)分信息將評(píng)論劃分為2個(gè)集合POS和NEG,分別代表情感傾向?yàn)榉e極(positive)和消極(negative)的集合.劃分規(guī)則:給1星和2星評(píng)論中的樣本分配消極標(biāo)簽l(s)=neg,給4星和5星評(píng)論中的樣本分配積極標(biāo)簽l(s)=pos,其中l(wèi)(s)表示樣本的弱標(biāo)注標(biāo)簽.其他場(chǎng)景可根據(jù)具體情況設(shè)定規(guī)則獲取弱標(biāo)簽,如社區(qū)評(píng)論中點(diǎn)贊與點(diǎn)踩等.2)設(shè)計(jì)抗噪聲訓(xùn)練策略來訓(xùn)練網(wǎng)絡(luò).訓(xùn)練目標(biāo)需要保證相同情感傾向的樣本靠近而不同情感傾向的樣本遠(yuǎn)離,同時(shí)還需要約束噪聲不向錯(cuò)誤類別靠近.Guan等人[33]對(duì)二元訓(xùn)練準(zhǔn)則和三元訓(xùn)練準(zhǔn)則進(jìn)行了對(duì)比分析,發(fā)現(xiàn)三元訓(xùn)練準(zhǔn)則能夠在一定程度上減弱噪聲數(shù)據(jù)的負(fù)面影響.受該工作啟發(fā),本文在預(yù)訓(xùn)練過程中采用基于三元損失的訓(xùn)練策略.從弱標(biāo)注數(shù)據(jù)劃分好的集合POS和NEG中一共隨機(jī)采樣3個(gè)樣本構(gòu)成三元組,再使用如式(4)所示的訓(xùn)練目標(biāo)函數(shù)L1約束三元組在嵌入空間中的分布:
(4)
根據(jù)三元組采樣規(guī)則,以s1,s2采樣自集合POS而s3采樣自集合NEG為例(反之亦然),我們羅列了所有6種采樣情況如表2所示:
Table 2 Sampled Cases表2 采樣示例
表2中,s1,s2,s3代表采樣的3條評(píng)論文本.例如,符號(hào)“P+”表示文本弱標(biāo)簽為正面而真實(shí)情感極性也為正面,即弱標(biāo)簽可以真實(shí)地反映出該文本的實(shí)際情感極性是正面.符號(hào)“P-”表明文本弱標(biāo)簽為正面而真實(shí)情感極性為負(fù)面,此時(shí)弱標(biāo)簽已不能如實(shí)地反映對(duì)應(yīng)文本的實(shí)際情感極性,即噪聲數(shù)據(jù).以下具體說明表2中的6種采樣在訓(xùn)練過程中的情形.
1) 示例1中,s1,s2,s3的真實(shí)情感極性均為正面.s1與s2間的距離和s1與s3間的距離較為接近.根據(jù)目標(biāo)函數(shù),s1,s2,s3可能會(huì)維持其在嵌入空間中的位置不變,也有可能會(huì)出現(xiàn)此種情形:s1與s2靠近而s1與s3遠(yuǎn)離.受間隔參數(shù)λ的約束,其移動(dòng)程度相對(duì)較小,在文本對(duì)間的距離大于λ時(shí)停止移動(dòng),從而約束了噪聲樣本s3不向錯(cuò)誤類別靠近.
2) 示例2中,s1與s2的真實(shí)情感極性為正面,而s3的真實(shí)情感極性為負(fù)面.s1與s2間的距離比s1與s3間的距離小.根據(jù)目標(biāo)函數(shù),s1,s2,s3可能會(huì)維持其在嵌入空間中的位置不移動(dòng),也有可能會(huì)出現(xiàn)此種情形:s1與s2靠近而s1與s3遠(yuǎn)離.受間隔參數(shù)λ的約束,這2種情形中樣本的移動(dòng)趨勢(shì)都對(duì)訓(xùn)練有利.
3) 示例3中,s1與s3的真實(shí)情感極性為正面,而s2的真實(shí)情感極性為負(fù)面.s1與s2間的距離大于s1與s3間的距離.根據(jù)目標(biāo)函數(shù),更為普遍的情形是s1與s2靠近而s1與s3遠(yuǎn)離.受間隔參數(shù)λ的約束,其移動(dòng)程度相對(duì)較小,在文本對(duì)間的距離大于λ時(shí)停止移動(dòng),從而約束了噪聲樣本s2和s3不向錯(cuò)誤類別靠近.
4) 示例4中,s2與s3的真實(shí)情感極性為負(fù)面,而s1的真實(shí)情感極性為正面.s1與s2間的距離和s1與s3間的距離較為接近.根據(jù)目標(biāo)函數(shù),s1,s2,s3可能會(huì)維持其在嵌入空間中的位置不移動(dòng),也有可能會(huì)出現(xiàn)此種情形:s1與s2靠近而s1與s3遠(yuǎn)離.受間隔參數(shù)λ的約束,其移動(dòng)程度相對(duì)較小,當(dāng)文本對(duì)間的距離大于λ時(shí)停止移動(dòng),從而約束了噪聲樣本s2不向錯(cuò)誤類別靠近.
5) 示例5中,s1與s2的真實(shí)情感極性為負(fù)面,而s3的真實(shí)情感極性為正面.該示例中采樣得到的3條樣本均是噪聲樣本,其在嵌入空間中的移動(dòng)趨勢(shì)和示例2中的情形一致.受間隔參數(shù)λ的約束,該示例中噪聲樣本的移動(dòng)趨勢(shì)都對(duì)訓(xùn)練過程有利.
6) 示例6中,s1,s2,s3的真實(shí)情感極性均為負(fù)面.該示例中采樣得到的樣本s1與s2是噪聲樣本,其在嵌入空間中的移動(dòng)趨勢(shì)和示例1中的情形一致.受間隔參數(shù)λ的約束,文本的移動(dòng)程度相對(duì)較小,在文本對(duì)間的距離大于λ時(shí)停止移動(dòng),從而約束了噪聲樣本s1與s2不向錯(cuò)誤類別靠近.
綜合這6種示例,除了示例2中不存在噪聲數(shù)據(jù)外,其他示例中都存在噪聲數(shù)據(jù).存在噪聲數(shù)據(jù)的所有示例中,三元訓(xùn)練準(zhǔn)則通過間隔參數(shù)λ對(duì)采樣文本的移動(dòng)趨勢(shì)進(jìn)行有效的約束,能夠有效抑制噪聲樣本產(chǎn)生錯(cuò)誤移動(dòng)情形下的負(fù)面影響.上述分析表明在弱監(jiān)督預(yù)訓(xùn)練過程中使用三元訓(xùn)練準(zhǔn)則能夠大幅度提升模型在噪聲標(biāo)簽下的魯棒性,同時(shí)學(xué)習(xí)到輸入文本的高質(zhì)量特征表達(dá),進(jìn)而在嵌入空間形成一個(gè)良好的情感語義分布,即同類樣本靠近而非同類樣本遠(yuǎn)離.
2.2.2 有監(jiān)督對(duì)比微調(diào)
在弱監(jiān)督預(yù)訓(xùn)練階段,我們通過引入抗噪聲弱監(jiān)督預(yù)訓(xùn)練策略,極大地減小了噪聲數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型的負(fù)面影響,最終得到了一個(gè)能夠較為真實(shí)地反映海量弱標(biāo)注數(shù)據(jù)總體情感分布的模型.在有監(jiān)督微調(diào)階段,我們?cè)陬A(yù)訓(xùn)練好的模型上使用少量的有標(biāo)注數(shù)據(jù)對(duì)其進(jìn)行有監(jiān)督微調(diào)訓(xùn)練.為了充分學(xué)習(xí)有限規(guī)模標(biāo)注數(shù)據(jù)中的同類和非同類樣本之間的對(duì)比模式,我們?cè)O(shè)計(jì)了一種新穎的基于對(duì)比損失[10]的多任務(wù)目標(biāo)函數(shù):
L2=αLSCL+(1-α)LCE,
(5)
(6)
(7)
(8)
(9)
在有監(jiān)督微調(diào)階段,模型以多任務(wù)目標(biāo)函數(shù)L2為訓(xùn)練目標(biāo),能夠同時(shí)學(xué)習(xí)有限規(guī)模標(biāo)注數(shù)據(jù)中多樣的對(duì)比模式和正確的分類能力.我們?cè)贚SCL中引入了樣本的標(biāo)簽信息,輸入樣本經(jīng)過指示函數(shù)的“篩選”被歸納到對(duì)應(yīng)的計(jì)算結(jié)構(gòu)當(dāng)中,進(jìn)而使得該損失能夠更好地?cái)U(kuò)展到小樣本的情感分類任務(wù)當(dāng)中.對(duì)于有監(jiān)督對(duì)比學(xué)習(xí)損失LSCL的直觀解釋是該損失更為關(guān)注同類數(shù)據(jù)間的相似性與非同類數(shù)據(jù)間的差異性.式(8)通過對(duì)非同類數(shù)據(jù)的多次采樣獲得了非同類樣本群體,能夠從不同“視角”學(xué)習(xí)到更為豐富的對(duì)比模式,從而可以從有限規(guī)模數(shù)據(jù)中學(xué)習(xí)更豐富的情感信息.
本文在亞馬遜評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).亞馬遜數(shù)據(jù)集包含數(shù)碼相機(jī)(camera)、手機(jī)(cellphone)和筆記本電腦(laptop)三種商品的評(píng)論語料,由1 136 251條弱標(biāo)注評(píng)論語句和人工標(biāo)注的11 754條語句構(gòu)成.實(shí)驗(yàn)中有標(biāo)注數(shù)據(jù)集被隨機(jī)劃分成訓(xùn)練集(50%)、驗(yàn)證集(20%)和測(cè)試集(30%).表3和表4分別顯示了亞馬遜弱標(biāo)注數(shù)據(jù)集和亞馬遜人工標(biāo)注數(shù)據(jù)集的統(tǒng)計(jì)信息. 此外,為了驗(yàn)證WCL方法在中文數(shù)據(jù)上的泛化能力,我們分別在豆瓣影評(píng)數(shù)據(jù)集和新浪微博評(píng)論數(shù)據(jù)集上進(jìn)行了相同的驗(yàn)證實(shí)驗(yàn).其中豆瓣影評(píng)數(shù)據(jù)集包含60萬條帶評(píng)分的弱標(biāo)注語句和1萬條強(qiáng)標(biāo)注語句;新浪微博評(píng)論數(shù)據(jù)集包含36萬條帶表情符號(hào)的弱標(biāo)注語句和1萬條強(qiáng)標(biāo)注語句.
Table 3 Statistics of the Weakly Labeled Datasets表3 弱標(biāo)注數(shù)據(jù)集的統(tǒng)計(jì)信息
Table 4 Statistics of the Labeled Datasets表4 標(biāo)注數(shù)據(jù)集的統(tǒng)計(jì)信息
我們統(tǒng)計(jì)了人工標(biāo)注數(shù)據(jù)集中的句子長(zhǎng)度,其中句子最長(zhǎng)長(zhǎng)度為121,為了充分獲取句子的全部信息,本文規(guī)定句子的最大長(zhǎng)度為121.實(shí)驗(yàn)中設(shè)置batch size值為32,間隔參數(shù)λ=5.針對(duì)溫度系數(shù)τ和損失加權(quán)超參數(shù)α的取值我們進(jìn)行了多次實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)τ=0.5而損失加權(quán)超參數(shù)α=0.2時(shí)模型的性能表現(xiàn)更為穩(wěn)定.模型采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為10-5.
為了評(píng)估本文所提出方法的效果,我們對(duì)比了9種情感分類方法,涵蓋本領(lǐng)域最優(yōu)和經(jīng)典的方法.評(píng)估指標(biāo)為準(zhǔn)確率(accuracy).9種對(duì)照方法簡(jiǎn)介為:
1) Lexicon.基于詞典的方法[13].
2) SVM.使用“支持向量機(jī)+ trigrams特征”的方法[2],采用Liblinear分類器.
3) NBSVM.將NB分類器與SVM分類器融合進(jìn)行情感分類的方法[42].
4) SSWE.通過在弱標(biāo)注信息上訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到詞向量.對(duì)一條語句中所包含詞的詞向量求最大、最小和均值,從而得到語句的特征向量表達(dá)并進(jìn)行情感分類[43].
5) SentiWV.通過使用評(píng)分信息訓(xùn)練詞向量生成語句特征表達(dá)的過程與SSWE方法相同,之后再使用線性分類器進(jìn)行情感分類[44].
6) WSD-CNN.建立多通道的CNN網(wǎng)絡(luò)[45]模型,利用Word2Vec在谷歌新聞?wù)Z料庫(kù)上的訓(xùn)練結(jié)果[46]初始化詞向量查找表.首先使用三元訓(xùn)練準(zhǔn)則在弱標(biāo)注數(shù)據(jù)集上對(duì)該網(wǎng)絡(luò)進(jìn)行弱監(jiān)督預(yù)訓(xùn)練,再使用人工標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)[45].為了公平起見,本文的所有方法均不加入主題詞信息.
7) BERT.直接在原BERTBASE模型上使用人工標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練.
8) WCL-BERT-rand.隨機(jī)初始化模型參數(shù)并在人工標(biāo)注數(shù)據(jù)集上使用對(duì)比學(xué)習(xí)策略對(duì)BERTBASE模型進(jìn)行微調(diào)訓(xùn)練.該方法用于驗(yàn)證僅使用有監(jiān)督對(duì)比學(xué)習(xí)策略訓(xùn)練模型的效果,所使用的網(wǎng)絡(luò)模型如圖2所示.
9) WCL-BERT-weak.將弱標(biāo)注標(biāo)簽視為強(qiáng)標(biāo)簽進(jìn)行有監(jiān)督學(xué)習(xí).該方法用于驗(yàn)證WCL框架中抗噪聲訓(xùn)練策略的影響,所使用的網(wǎng)絡(luò)模型如圖2所示.
10) WCL-BERT.該方法為本文提出的方法.
表5展示了不同方法在3個(gè)不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.表5中各方法在不同數(shù)據(jù)上呈現(xiàn)出相似的結(jié)果,因此以亞馬遜數(shù)據(jù)集上的數(shù)據(jù)為例進(jìn)行分析.首先,Lexicon方法的效果最差,與其他所有方法相比,Lexicon方法無法涵蓋電商場(chǎng)景下的所有情感詞,且固定的情感極性無法跟隨文本描述的改變而變化.2種基于特征工程的機(jī)器學(xué)習(xí)方法SVM和NBSVM顯著優(yōu)于Lexicon方法,但受限于特征的泛化能力,與SSWE方法相比其效果較差.SentiWV與SSWE方法效果較差的原因在于:雖然在弱標(biāo)注數(shù)據(jù)集上訓(xùn)練得到詞向量,但以捕捉詞共現(xiàn)為本質(zhì)的無監(jiān)督詞向量方法無法獲取更豐富的語義信息.與SentiWV和SSWE這2種深度方法對(duì)比,WSD-CNN方法的優(yōu)越性得益于預(yù)訓(xùn)練過程中弱標(biāo)注數(shù)據(jù)為模型提供的大量先驗(yàn)知識(shí).但該方法在面向具體任務(wù)的有監(jiān)督微調(diào)過程中并未充分考慮同類和非同類樣本之間的區(qū)別,因此性能仍遜色于WCL-BERT.BERT方法作為驗(yàn)證WCL-BERT的基準(zhǔn)方法,展現(xiàn)出預(yù)訓(xùn)練模型的優(yōu)越性,取得了與WSD-CNN相當(dāng)?shù)男Ч?,但未采用WCL中的訓(xùn)練策略因此其無法從弱標(biāo)注信息和對(duì)比學(xué)習(xí)中受益.在BERT方法基礎(chǔ)上,WCL-BERT-rand的實(shí)驗(yàn)結(jié)果表明對(duì)比學(xué)習(xí)策略能夠充分捕獲同類或非同類樣本之間存在的對(duì)比模式,進(jìn)而提升模型的分類能力,但該方法并未學(xué)習(xí)海量弱標(biāo)注信息的情感模式.WCL-BERT-weak方法效果較差的原因在于弱標(biāo)注數(shù)據(jù)中存在噪聲,直接將其作為強(qiáng)標(biāo)注數(shù)據(jù)使用,噪聲會(huì)對(duì)模型的訓(xùn)練過程產(chǎn)生嚴(yán)重干擾.同時(shí),WCL-BERT-weak方法從反面證明了抗噪聲預(yù)訓(xùn)練方法的必要性.我們所提出的方法WCL-BERT在抗噪聲的情況下充分吸收了弱標(biāo)注數(shù)據(jù)中的情感語義信息,同時(shí)在有監(jiān)督微調(diào)階段進(jìn)一步學(xué)習(xí)了同類和非同類樣本之間的對(duì)比模式,在3個(gè)不同數(shù)據(jù)集上都取得了最優(yōu)分類性能,證明了我們所提出方法的優(yōu)越性和良好的泛化能力.
Table 5 Accuracy of Different Methods表5 不同方法的準(zhǔn)確率 %
3.3節(jié)所述的實(shí)驗(yàn)使用了全量有標(biāo)注訓(xùn)練數(shù)據(jù).為了評(píng)估本文所提出的方法在極小樣本場(chǎng)景下的效果,我們驗(yàn)證了方法在不同規(guī)模亞馬遜有標(biāo)注數(shù)據(jù)上的訓(xùn)練效果.從有標(biāo)注訓(xùn)練集中隨機(jī)選取n%(n=0.5,1,1.5,2,…,5)的數(shù)據(jù)作為訓(xùn)練集來訓(xùn)練模型,對(duì)比實(shí)驗(yàn)結(jié)果如圖4所示.
Fig. 4 The result of few-shot experiment圖4 小樣本實(shí)驗(yàn)結(jié)果
當(dāng)從原始訓(xùn)練集中隨機(jī)采樣0.5%的數(shù)據(jù)(即32個(gè)樣本)對(duì)模型進(jìn)行微調(diào)訓(xùn)練時(shí),WCL-BERT方法已達(dá)到了86.3%的分類準(zhǔn)確率,超出性能第2的WSD-CNN方法13個(gè)百分點(diǎn),同時(shí)超過了WSD-CNN使用全部有標(biāo)注訓(xùn)練數(shù)據(jù)時(shí)的分類性能.該結(jié)果有力證明了我們所提出的方法在極小標(biāo)注數(shù)據(jù)上的優(yōu)越性.原因在于有監(jiān)督微調(diào)階段采用對(duì)比學(xué)習(xí)策略多次采樣對(duì)比非同類樣本與同類樣本,充分學(xué)習(xí)了有限樣本中的對(duì)比模式.值得注意的是,當(dāng)采樣規(guī)模小于原始訓(xùn)練集規(guī)模的1.5%時(shí)WCL-BERT-rand方法的性能顯著下降.這一現(xiàn)象說明:僅依靠有監(jiān)督對(duì)比學(xué)習(xí)無法應(yīng)對(duì)極小樣本場(chǎng)景下的分類問題,需要結(jié)合弱監(jiān)督學(xué)習(xí)來充分吸收大規(guī)模弱標(biāo)注數(shù)據(jù)中的情感語義信息.
我們?cè)诒?中報(bào)告了采樣數(shù)據(jù)占比為0.5%(即32個(gè)訓(xùn)練樣本)時(shí)各情感分類方法的分類準(zhǔn)確率.我們的方法在幾乎可忽略標(biāo)注成本的情況下(即僅標(biāo)注32個(gè)樣本)取得了顯著優(yōu)于同類方法的分類性能,這充分證明我們所提出方法在極小樣本情感分類任務(wù)上的有效性和優(yōu)越性.
Table 6 Few-shot Learning Results on 32 LabeledTraining Examples表6 使用32個(gè)標(biāo)簽樣本進(jìn)行訓(xùn)練時(shí)的小樣本學(xué)習(xí)結(jié)果
為了直觀地展示W(wǎng)CL框架中弱監(jiān)督預(yù)訓(xùn)練和有監(jiān)督對(duì)比微調(diào)過程的學(xué)習(xí)效果,我們使用t-SNE方法[47]對(duì)亞馬遜測(cè)試集數(shù)據(jù)在嵌入層中的高維特征向量進(jìn)行了降維可視化處理.如圖5所示,我們按照模型訓(xùn)練的步驟報(bào)告了測(cè)試集數(shù)據(jù)在嵌入空間中的分布情況,其中藍(lán)色的點(diǎn)表示情感極性標(biāo)簽為“neg”的樣本,橙色的點(diǎn)表示情感極性標(biāo)簽為“pos”的樣本.
Fig. 5 Visualization of test set data圖5 測(cè)試集數(shù)據(jù)可視化
圖5中的“隨機(jī)初始化”圖代表模型參數(shù)隨機(jī)初始化,測(cè)試集數(shù)據(jù)在嵌入空間中的分布較為散亂,模型不具備區(qū)分樣本情感極性的能力.圖5中的“預(yù)訓(xùn)練后”圖代表使用海量弱標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行了抗噪聲弱監(jiān)督預(yù)訓(xùn)練,與“隨機(jī)初始化”圖相比測(cè)試集數(shù)據(jù)在嵌入空間中被分成了極性相反的2簇,說明模型已初步具備了區(qū)分句子情感極性的能力,這樣的可視化效果與我們所提出的三元訓(xùn)練目標(biāo)相吻合.需要指出的是,盡管在預(yù)訓(xùn)練過程中我們采用三元訓(xùn)練準(zhǔn)則約束句子在嵌入空間中的移動(dòng)趨勢(shì),但是部分噪聲數(shù)據(jù)的錯(cuò)誤移動(dòng)依然不可避免,我們只能抑制這種負(fù)面趨勢(shì)而無法完全消除它.正如圖5中的“預(yù)訓(xùn)練后”圖所示,在兩大簇?cái)?shù)據(jù)的周圍還存在著零星的離群點(diǎn),這些離群點(diǎn)是預(yù)訓(xùn)練模型不能有效區(qū)分的困難樣本.圖5中的“微調(diào)后”圖代表有監(jiān)督對(duì)比微調(diào)訓(xùn)練后得到的最終情感分類模型,與圖5中的“預(yù)訓(xùn)練后”圖相比測(cè)試集數(shù)據(jù)被分成了更為明顯的2簇且離群樣本規(guī)模減少,這說明有監(jiān)督微調(diào)過程中采用的對(duì)比學(xué)習(xí)策略對(duì)預(yù)訓(xùn)練模型的參數(shù)進(jìn)行了修正且進(jìn)一步加強(qiáng)了模型對(duì)情感極性的區(qū)分能力,同時(shí)也說明對(duì)非同類樣本的多次采樣使得對(duì)比學(xué)習(xí)策略也具備了一定的抗噪聲能力.因此經(jīng)過微調(diào)后的模型對(duì)非同類樣本的區(qū)分度更加明顯,且一定程度上約束了離群點(diǎn)對(duì)分類效果的影響.
如圖5所示,我們可以觀察到測(cè)試集數(shù)據(jù)在模型不同訓(xùn)練階段中的變化情況,由最初的散亂分布再到具備初步的同類聚合、非同類分離趨勢(shì),最后達(dá)到被劃分為明顯的2簇?cái)?shù)據(jù)的效果.測(cè)試集數(shù)據(jù)的這3種變化情況與模型在不同訓(xùn)練階段中的預(yù)期目標(biāo)相一致.弱監(jiān)督預(yù)訓(xùn)練更為關(guān)注噪聲數(shù)據(jù)產(chǎn)生負(fù)面影響的消除工作,而有監(jiān)督對(duì)比微調(diào)則側(cè)重于捕獲訓(xùn)練樣本的對(duì)比模式,這2個(gè)訓(xùn)練過程在本文的情感分類任務(wù)中均發(fā)揮了不可替代的作用.
現(xiàn)有的多數(shù)有監(jiān)督深度情感分類方法都需要使用大量的人工標(biāo)注數(shù)據(jù)訓(xùn)練分類模型,但人工標(biāo)注數(shù)據(jù)獲取成本高昂限制了訓(xùn)練數(shù)據(jù)的規(guī)模.有限的標(biāo)注數(shù)據(jù)難以充分訓(xùn)練大規(guī)模語言模型(如BERT,RoBERTa等),從而制約了深度學(xué)習(xí)方法的性能.互聯(lián)網(wǎng)為情感分類任務(wù)提供了海量的弱標(biāo)注文本評(píng)論.本文立足于海量的弱標(biāo)注數(shù)據(jù),提出了一種可用于極小樣本場(chǎng)景下的弱監(jiān)督對(duì)比學(xué)習(xí)(WCL)方法.該方法可充分學(xué)習(xí)弱標(biāo)注數(shù)據(jù)的潛在情感信息同時(shí)削弱噪聲樣本帶來的負(fù)面影響,并充分挖掘小規(guī)模標(biāo)注數(shù)據(jù)中的類間對(duì)比模式.在亞馬遜評(píng)論數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文所提出方法的有效性和優(yōu)越性.更為重要的是,我們所提出的方法在標(biāo)注成本幾乎可忽略的極小樣本場(chǎng)景下取得了顯著優(yōu)于同類方法的性能,有效解決了缺乏大規(guī)模標(biāo)注數(shù)據(jù)這一制約深度情感分類方法的瓶頸問題.
作者貢獻(xiàn)聲明:盧紹帥負(fù)責(zé)實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析;陳龍負(fù)責(zé)方法設(shè)計(jì)與初稿撰寫;盧光躍指導(dǎo)課題研究方向的設(shè)立;管子玉負(fù)責(zé)初稿審閱與修改;謝飛負(fù)責(zé)文獻(xiàn)調(diào)研.