• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙層數(shù)據(jù)增強(qiáng)的監(jiān)督對(duì)比學(xué)習(xí)文本分類模型

      2024-01-01 00:00:00吳量張方方程超宋詩楠
      關(guān)鍵詞:文本分類

      摘要:針對(duì)DoubleMix算法在數(shù)據(jù)增強(qiáng)時(shí)的非選擇性擴(kuò)充及訓(xùn)練方式的不足,提出一種基于雙層數(shù)據(jù)增強(qiáng)的監(jiān)督對(duì)比學(xué)習(xí)文本分類模型,有效提高了在訓(xùn)練數(shù)據(jù)稀缺時(shí)文本分類的準(zhǔn)確率。首先,對(duì)原始數(shù)據(jù)在輸入層進(jìn)行基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng),不考慮句子結(jié)構(gòu)的同時(shí)對(duì)數(shù)據(jù)進(jìn)行有選擇增強(qiáng);其次,在BERT隱藏層對(duì)原始數(shù)據(jù)與增強(qiáng)后的數(shù)據(jù)進(jìn)行插值,然后送入TextCNN進(jìn)一步提取特征;最后,使用Wasserstein距離和雙重對(duì)比損失對(duì)模型進(jìn)行訓(xùn)練,進(jìn)而提高文本分類的準(zhǔn)確率,對(duì)比實(shí)驗(yàn)結(jié)果表明,該方法在數(shù)據(jù)集SST-2,CR,TREC和PC上分類準(zhǔn)確率分別達(dá)93.41%,93.55%,97.61%和95.27%,優(yōu)于經(jīng)典算法.

      關(guān)鍵詞:數(shù)據(jù)增強(qiáng);文本分類;對(duì)比學(xué)習(xí);監(jiān)督學(xué)習(xí)

      中圖分類號(hào):TP39文獻(xiàn)標(biāo)志碼:A文章編號(hào):1671-5489(2024)05-1179-09

      Supervised Contrastive Learning Text Classification ModelBased on Double-Layer Data Augmentation

      WU Liang,ZHANGFangfang,CHENGChao,SONGShinan

      (College of Com puter Science and Engineering,Changchun University of Technology,Changchun 130012,China)

      Abstract:Aiming at the non-selective expansion and training deficiencies of the DoubleMix algorithm during data augmentation,we proposed a supervised contrastive learning text classification model based on double-layer data augmentation,which effectively improved the accuracy of text classification when training data was scarce.Firstly,keyword-based data augmentation was applied to the original data at the input layer,while selectively enhancing the data without considering sentence structure.Secondly,we interpolated the original and augmented data in the BERT hidden layers,and then send them to the TextCNN for further feature extraction.Finally,the model was trained by using Wasserstein distance and double contrastive loss to enhance text classification accuracy.The comparative experimental results on SST-2,CR,TREC,and PC datasets show that the classification accuracy of the proposed method is 93.41%,93.55%,97.61%,and 95.27%respectively,which is superior to classical algorithms.

      Keywords:dataaugmentation;textclassification;comparativelearning;supervised learning

      文本分類是自然語言處理(NLP)的基本任務(wù)之一,在新聞過濾、論文分類、情感分析等方面應(yīng)用廣泛2,深度學(xué)習(xí)模型在文本分類中已取得了巨大成功,其通常建立在大量高質(zhì)量的訓(xùn)練數(shù)據(jù)上,而這些數(shù)據(jù)在實(shí)際應(yīng)用中并不容易獲得,因此,為提高文本分類模型的泛化能力,當(dāng)訓(xùn)練數(shù)據(jù)有限時(shí),數(shù)據(jù)增強(qiáng)技術(shù)得到廣泛關(guān)注[3,文本分類要獲得較好的分類精度,好的特征表示和分類器的訓(xùn)練也至關(guān)重要[4].

      在自然語言處理領(lǐng)域中,存在標(biāo)記級(jí)別增強(qiáng)(token-level augment)、句子級(jí)別增強(qiáng)(sentence-level augment)、隱藏層增強(qiáng)(hidden-level augment)等類型[5].EDA6](easy data augmentation)是最常見的標(biāo)記級(jí)別數(shù)據(jù)增強(qiáng),通過對(duì)句子中的單詞進(jìn)行隨機(jī)替換、刪除、插入等操作實(shí)現(xiàn)數(shù)據(jù)增強(qiáng).句子級(jí)別的增強(qiáng)通過修改句子的語法或結(jié)構(gòu)實(shí)現(xiàn),最常見的是反向翻譯技術(shù),隱藏層數(shù)據(jù)增強(qiáng)的方法是基于對(duì)數(shù)據(jù)插值(interpolation)實(shí)現(xiàn)的,Mixup是最早出現(xiàn)的一種基于插值的增強(qiáng)方式,TMix(interpolation in textual hidden space)是在其基礎(chǔ)上發(fā)展的線性插值數(shù)據(jù)增強(qiáng)方式.Ssmix(saliency-based span mixup)是一種輸入級(jí)的混合插值方式.上述幾種插值方式都伴隨偽標(biāo)簽(softlabel)生成,會(huì)限制數(shù)據(jù)增強(qiáng)的有效性.DoubleMix5增強(qiáng)方法的提出避免了偽標(biāo)簽生成,首先利用EDA與回譯技術(shù)從原始數(shù)據(jù)中生成幾個(gè)擾動(dòng)樣本,然后在隱藏空間中混合擾動(dòng)樣本與原始樣本,最后采用JSD(Jensen-Shannon divergence)散度為正則項(xiàng)與交叉熵?fù)p失一起訓(xùn)練,但DoubleMix生成擾動(dòng)樣本的方式有的對(duì)句子結(jié)構(gòu)要求較高,有的對(duì)文本進(jìn)行非選擇性的補(bǔ)充。低資源條件下,會(huì)限制數(shù)據(jù)增強(qiáng)的有效性,且不易短時(shí)間生成大量高質(zhì)量的增強(qiáng)數(shù)據(jù),并且在訓(xùn)練時(shí)JSD散度會(huì)出現(xiàn)梯度為零的情況,交叉熵?fù)p失也存在噪聲等問題。

      針對(duì)上述問題,本文提出一種基于雙層數(shù)據(jù)增強(qiáng)(TDACL)的有監(jiān)督對(duì)比學(xué)習(xí)文本分類模型.首先,在輸入層對(duì)原始數(shù)據(jù)進(jìn)行基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng);其次,在BERT2編碼層中插值原始數(shù)據(jù)和輸入層增強(qiáng)后的數(shù)據(jù)以生成新的樣本特征表示,并將每一層的空間特征和分類器特征送到TextCNN[13]中進(jìn)一步提??;最后,利用Wasserstein距離和雙重對(duì)比損失DualCL4進(jìn)行訓(xùn)練.在公開的文本分類數(shù)據(jù)集上進(jìn)行多次重復(fù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型能提升文本分類性能,尤其是在低資源情況下.

      1模型設(shè)計(jì)

      DoubleMix數(shù)據(jù)增強(qiáng)生成擾動(dòng)樣本的方式有EDA和回譯.EDA通過對(duì)句子中的單詞進(jìn)行隨機(jī)操作生成增強(qiáng)樣本,但其未考慮關(guān)鍵詞的作用,進(jìn)行操作時(shí)可能會(huì)刪掉關(guān)鍵詞,導(dǎo)致不理想的擴(kuò)充,回譯的方式也不宜在短時(shí)間內(nèi)獲得大量高質(zhì)量的樣本,且其在訓(xùn)練時(shí)JSD散度會(huì)出現(xiàn)梯度為零的情況,交叉熵?fù)p失也存在噪聲等問題,因此,本文提出一種基于雙層數(shù)據(jù)增強(qiáng)的有監(jiān)督對(duì)比學(xué)習(xí)文本分類模型,在輸入層進(jìn)行基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)。該方法不需要考慮句子的結(jié)構(gòu),能快速生成大量高質(zhì)量的樣本,有選擇地對(duì)樣本進(jìn)行擴(kuò)充,進(jìn)而提高數(shù)據(jù)增強(qiáng)的有效性;將樣本經(jīng)過BERT和TextCNN共同提取特征后,利用Wasserstein距離與雙重對(duì)比損失DualCL進(jìn)行訓(xùn)練,從而解決梯度消失問題,并最小化增強(qiáng)樣本與輸入樣本的差異,進(jìn)而學(xué)到更利于分類的特征表示,最終提高文本分類的準(zhǔn)確率.

      1.1模型的主要框架

      本文基于雙層數(shù)據(jù)增強(qiáng)的有監(jiān)督對(duì)比學(xué)習(xí)文本分類模型總體架構(gòu)如圖1所示.給定BERT語言模型和監(jiān)督數(shù)據(jù)集D,在數(shù)據(jù)集D上對(duì)BERT進(jìn)行微調(diào),以獲得D的多樣化特征表示,更適合下游分類任務(wù).下面首先介紹該方法的總體框架,然后描述輸入層和BERT編碼層的數(shù)據(jù)增強(qiáng)策略,最后結(jié)合雙重監(jiān)督對(duì)比損失和Wasserstein距離對(duì)模型進(jìn)行訓(xùn)練,本文模型框架主要由以下四部分組成:

      1)輸入層的數(shù)據(jù)增強(qiáng)模塊,通過對(duì)樣本進(jìn)行基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng),生成大量高質(zhì)量的樣本;

      2)一個(gè)共享的BERT編碼器,對(duì)原始樣本和增強(qiáng)的高質(zhì)量樣本進(jìn)行插值提高模型的魯棒性;

      3)TextCNN特征提取層,將BERT得到的向量表示輸入TextCNN進(jìn)行進(jìn)一步特征提取,得到更好的句子向量表示和特征向量表示;

      4)使用雙重對(duì)比度損失和Wasserstein距離對(duì)模型進(jìn)行訓(xùn)練,最小化原始數(shù)據(jù)和增強(qiáng)數(shù)據(jù)之間的

      1.2輸入層基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)方法

      基于輸入層關(guān)鍵詞操作的數(shù)據(jù)增強(qiáng)方法可在不考慮句子結(jié)構(gòu)的情況下,在短時(shí)間內(nèi)生成大量高質(zhì)量的樣本.EDA是一種簡單而有效的數(shù)據(jù)增強(qiáng)方法,該方法通過替換同義詞、刪除輸入、隨機(jī)替換和隨機(jī)插入生成增強(qiáng)的數(shù)據(jù).但EDA未考慮關(guān)鍵詞的作用,隨機(jī)刪除等操作會(huì)對(duì)增強(qiáng)后的文本產(chǎn)生很多不利影響.本文基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)方法,首先提取原始數(shù)據(jù)的關(guān)鍵詞,然后對(duì)數(shù)據(jù)進(jìn)行基于關(guān)鍵詞的增強(qiáng).

      KeyBERT提取關(guān)鍵詞的方法不需要針對(duì)特定的文檔集進(jìn)行培訓(xùn),也不依賴于文本大小、領(lǐng)域或語言,它使用BERT嵌入和余弦相似度在文本中找到與文本本身最相似的單詞或短語.因此,本文使用KeyBERT提取文本中的關(guān)鍵詞,并執(zhí)行基于關(guān)鍵詞的文本數(shù)據(jù)增強(qiáng).增強(qiáng)步驟為:首先利用BERT模型進(jìn)行文本嵌入,得到文本的表示形式;然后采用詞嵌入模型提取關(guān)鍵詞;最后使用余弦相似度查找與文本最相似的單詞作為樣本的關(guān)鍵詞.之后對(duì)文本進(jìn)行基于關(guān)鍵詞的增強(qiáng).基于關(guān)鍵詞的替換(KRE):選擇原句子中的n個(gè)關(guān)鍵詞,并將其替換為同義詞.基于關(guān)鍵詞的插入(KIN):根據(jù)原句子的長度比例選擇插入的單詞數(shù)量,在原文本的任意位置插入關(guān)鍵詞的同義詞.基于關(guān)鍵詞的交換(KSW):在句子中選擇n個(gè)關(guān)鍵詞,根據(jù)句子長度和概率交換它們的位置.基于關(guān)鍵詞的選擇(KSE):只選擇句子中的關(guān)鍵詞生成新句子.這種方法通過添加標(biāo)點(diǎn)使句子更自然.n的選擇由句子的長度l和超參數(shù)p定義,即n=p×l.p的強(qiáng)度可根據(jù)任務(wù)變化,本文設(shè)p=0.1.

      基于關(guān)鍵詞選擇的數(shù)據(jù)增強(qiáng)會(huì)生成不同的增強(qiáng)樣本,如圖2所示.KRE保證增強(qiáng)的原始語義不會(huì)改變.為確保增強(qiáng)后的數(shù)據(jù)不與原數(shù)據(jù)過于相似,KIN采用插入關(guān)鍵詞同義詞的方法.因?yàn)殛P(guān)鍵詞在文本分類的擬合中起決定性作用,KSE可被認(rèn)為是選擇性地過濾掉有噪聲的單詞,在對(duì)文本進(jìn)行分類時(shí)幫助學(xué)習(xí)最能代表文本特征的單詞.本文的關(guān)鍵詞提取算法是一種動(dòng)態(tài)算法,不需要將所有的訓(xùn)練數(shù)據(jù)和標(biāo)簽信息都投入到詞頻統(tǒng)計(jì)等計(jì)算中[15].本文方法具有提取關(guān)鍵詞速度快,并保證在短時(shí)間內(nèi)生成大量高質(zhì)量樣本的優(yōu)點(diǎn).

      1.3隱藏層數(shù)據(jù)增強(qiáng)

      在對(duì)數(shù)據(jù)進(jìn)行基于關(guān)鍵詞的增強(qiáng)后,將原始數(shù)據(jù)與增強(qiáng)后的數(shù)據(jù)在隱藏層進(jìn)行空間插值,實(shí)現(xiàn)隱藏層的數(shù)據(jù)增強(qiáng).不同于DoubleMix數(shù)據(jù)增強(qiáng)方式,本文將句子的標(biāo)簽與輸入拼接到一起送入到編碼器中(見圖1).例如,當(dāng)數(shù)據(jù)集的標(biāo)簽為“positive”和“negative”時(shí),拼接的輸入變成“[CLS]positive negative[SEP]I like this movie”.本文使用編碼樣本對(duì)應(yīng)標(biāo)簽的token值作為分類器特征.如果一個(gè)標(biāo)簽包含多個(gè)單詞,則將token特征的平均池化作為分類器特征6].這種處理方法便于后續(xù)提取空間特征和分類器特征,從而進(jìn)行有監(jiān)督對(duì)比學(xué)習(xí).

      實(shí)驗(yàn)結(jié)果表明,BERT編碼層的{9,10,12}層插值效果最好.將原始樣本與輸入層增強(qiáng)后的樣本送入編碼器,各編碼層之間共享參數(shù).采用Dirichlet分布進(jìn)行增強(qiáng)數(shù)據(jù)的權(quán)重組合.定義權(quán)重(w1,w2,··,wn)~Dir(a),在輸入層增強(qiáng)后的數(shù)據(jù)與原始數(shù)據(jù)在{9,10,12}層對(duì)其插值,得到插值后的增強(qiáng)表示(Haug)記為

      然后對(duì)第一步插值后的結(jié)果(Hm)與原始數(shù)據(jù)的隱藏狀態(tài)進(jìn)行權(quán)重服從Beta分步的方式進(jìn)行插值,插值后的結(jié)果為

      這種插入方式可保證原始的數(shù)據(jù)集占據(jù)主要地位,同時(shí)又混入增強(qiáng)的數(shù)據(jù)集,增強(qiáng)其擾動(dòng)性.

      1.4基于TextCNN的特征提取

      本文將BERT編碼層每層提取的樣本空間特征和分類器特征輸入TextCNN進(jìn)行進(jìn)一步處理.文獻(xiàn)[17]研究表明,在處理下游任務(wù)時(shí),直接從BERT獲得的最后一層的向量表示并不能給出最好的結(jié)果.BERT的編碼層越淺,句子的語義信息層次越低;層越深,表示的語義信息層次越高.TextCNN的核心思想是捕捉局部特征.TextCNN的優(yōu)勢(shì)是其可自動(dòng)組合并過濾N-gram特征,從而獲得不同抽象層次的語義信息.當(dāng)TextCNN應(yīng)用于文本分類任務(wù)時(shí),使用幾個(gè)不同大小的核提取句子中的關(guān)鍵信息,可以更好地捕捉本地相關(guān)性.處理后的空間特征包含語義特征和關(guān)鍵詞信息.

      本文從BERT的每個(gè)編碼器層(不包括第一層輸入)中提取樣本空間特征fcs和分類器特征fPos,fNEG(假設(shè)是二分類),并將其作為TextCNN的輸入進(jìn)行進(jìn)一步的特征提取.BERT可以更好地對(duì)模糊樣本進(jìn)行分類,而TextCNN可以更關(guān)注關(guān)鍵詞信息.因此,經(jīng)過兩步特征提取,本文獲得的空間特征包括句子的語義信息和關(guān)鍵詞信息,該方法還嘗試從編碼器的最后一層提取空間特征和分類器特征,但結(jié)果沒有每層都提取的結(jié)果好.

      1.5模型的訓(xùn)練

      將TextCNN提取到的fcts,fctsmix使用Wasserstein距離作一致正則項(xiàng),將空間特征fcus與分類器特征fPOS,fNEG使用雙重對(duì)比損失,一同對(duì)模型進(jìn)行訓(xùn)練.這樣可以解決梯度消失問題,并最小化增強(qiáng)樣本與輸入樣本的差異,雙重對(duì)比損失的加入可以更好地學(xué)習(xí)特征表示,服務(wù)于下游分類任務(wù).

      將經(jīng)過空間插值后獲得的樣本x1特征記為f1,f1為輸入樣本x1的一個(gè)錨點(diǎn),{Φ}∈c為正樣本集合,{Φ}j∈R/C為負(fù)樣本集合.關(guān)于空間特征的對(duì)比損失定義為

      同理,Φ為輸入樣本x1的一個(gè)錨點(diǎn),{f3}∈c為正樣本集合,{f1}∈R,c為負(fù)樣本集合.關(guān)于分類器參數(shù)的對(duì)比損失定義為

      為充分利用監(jiān)督信號(hào),交叉熵?fù)p失定義為

      在進(jìn)行隱藏空間的插值時(shí),為最小化原始數(shù)據(jù)與混合后增強(qiáng)數(shù)據(jù)之間的差異,并解決梯度消失問題,使用Wasserstein距離作為一致正則項(xiàng)與雙重對(duì)比損失和交叉熵?fù)p失一起訓(xùn)練.Wasserstein距離定義為

      其中I(P1,P2)為P1和P2分布組合所有可能的聯(lián)合分布的集合.對(duì)每個(gè)可能的聯(lián)合分布y,可以從中采樣(x,y)~y得到樣本x和y,并計(jì)算出這對(duì)樣本的距離‖x-y,所以可以計(jì)算該聯(lián)合分布y下,樣本對(duì)距離的期望值minE.~y(‖x-y‖).在所有可能的聯(lián)合分布中能對(duì)該期望值取得的下界即為Wasserstein距離.

      Wasserstein距離相比KL(Kullback-Leibler)散度和JSD散度的優(yōu)勢(shì):即使兩個(gè)分布的支撐集沒有重疊或重疊非常少,仍能反映兩個(gè)分布的遠(yuǎn)近.而JSD散度在這種情況下是常量,KL散度可能無意義,其定義為

      其中pa分別表示增強(qiáng)數(shù)據(jù)的概率和原始數(shù)據(jù)的預(yù)測(cè)概率.=(+m)因此總體提失函數(shù)為

      2實(shí)驗(yàn)

      2.1實(shí)驗(yàn)數(shù)據(jù)集

      為充分評(píng)估本文模型在文本分類任務(wù)中的性能,實(shí)驗(yàn)選擇不同大小的基準(zhǔn)數(shù)據(jù)集進(jìn)行驗(yàn)證.SST-2[8]是美國斯坦福大學(xué)情感分析電影評(píng)論數(shù)據(jù)集,可預(yù)測(cè)消極和積極情緒;數(shù)據(jù)集SUBJ將電影評(píng)論分為主觀評(píng)論和客觀評(píng)論;CR[20]是客戶評(píng)論數(shù)據(jù)集,其中評(píng)論被分類為積極和消極;數(shù)據(jù)集TREC21]是6個(gè)不同領(lǐng)域的六分類問題,包括描述、實(shí)體、縮寫、人、位置和數(shù)字.PC[22]是一個(gè)情緒數(shù)據(jù)集,包含了正反兩種情緒.各數(shù)據(jù)集的統(tǒng)計(jì)信息列于表1.

      2.2參數(shù)設(shè)置

      使用BERT-base-uncase作為微調(diào)模型,隱藏層尺寸為768維.考慮過濾器的大小會(huì)影響實(shí)驗(yàn)結(jié)果,本文將TextCNN過濾器的大小設(shè)為[2,3,4],使用二維卷積.隨機(jī)選取訓(xùn)練集的20%作為驗(yàn)證集.本文選取在測(cè)試集上的準(zhǔn)確率作為評(píng)價(jià)指標(biāo).實(shí)驗(yàn)使用的主要配置參數(shù)為Epoch=10,優(yōu)化器為Adam,最大層數(shù)設(shè)置為[9,10,12],β插值為0.75,基線模型學(xué)習(xí)率為1×106,分類器學(xué)習(xí)率為0.01,=0.5,=5,Batch_size=32.

      2.3對(duì)比基線

      將本文模型與BERT融合經(jīng)典數(shù)據(jù)增強(qiáng)分類方法和雙重對(duì)比學(xué)習(xí)文本分類方法進(jìn)行比較(配置設(shè)備和數(shù)據(jù)集均相同),以驗(yàn)證本文分類模型的有效性。

      BERT+CE2]:BERT模型被認(rèn)為是NLP里程碑式的進(jìn)步.BERT+DualCL14]:DualCL是一種雙對(duì)比度損失文本分類模型,利用標(biāo)記數(shù)據(jù)增強(qiáng),是一種有監(jiān)督的對(duì)比度損失.BERT+EDA+DualCL[6]:EDA是一種簡單的記號(hào)級(jí)數(shù)據(jù)擴(kuò)充方法,通過對(duì)原始樣本執(zhí)行同義詞替換、隨機(jī)插入、隨機(jī)刪除和隨機(jī)交換4種方式擴(kuò)充數(shù)據(jù).BERT+TMix+DualCL:挖掘未標(biāo)記數(shù)據(jù)與已標(biāo)記數(shù)據(jù)之間的隱藏關(guān)系,并將未標(biāo)記數(shù)據(jù)應(yīng)用于已標(biāo)記數(shù)據(jù)上,通過對(duì)隱藏空間中的不同訓(xùn)練樣本進(jìn)行線性插值,生成大量新的訓(xùn)練數(shù)據(jù).BERT+SSMix10]:在輸入層對(duì)原始樣本進(jìn)行增強(qiáng)運(yùn)算,而不是對(duì)隱藏空間中的隱藏向量進(jìn)行增強(qiáng)運(yùn)算;SSMix通過基于廣度的Mixup保持兩個(gè)原始文本的局部性,并根據(jù)顯著性信息保留更多與預(yù)測(cè)相關(guān)的標(biāo)記.BERT+DoubleMix+DualCL5]:一種簡單的基于插值的數(shù)據(jù)增強(qiáng)方法,首先將擾動(dòng)數(shù)據(jù)混合到合成樣本中,然后將原始數(shù)據(jù)與擾動(dòng)數(shù)據(jù)混合;DoubleMix通過學(xué)習(xí)隱藏空間中的“移位”特征增強(qiáng)模型的魯棒性.

      3實(shí)驗(yàn)結(jié)果分析

      在4種常用的文本分類任務(wù)數(shù)據(jù)集上評(píng)估本文方法,并展示在低資源場景下基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)性能.為更好地說明有監(jiān)督對(duì)比學(xué)習(xí)與數(shù)據(jù)增強(qiáng)的優(yōu)越性,本文驗(yàn)證了在低資源場景下分類的效果,并設(shè)計(jì)了消融實(shí)驗(yàn)驗(yàn)證各模塊的作用.

      3.1實(shí)驗(yàn)結(jié)果

      表2列出了本文分類模型與基線模型在4個(gè)文本分類數(shù)據(jù)集上的對(duì)比結(jié)果.本文還將其與常用的數(shù)據(jù)增強(qiáng)方法和雙重監(jiān)督對(duì)比損失結(jié)合訓(xùn)練進(jìn)行比較.由表2可見,雖然相對(duì)于僅用交叉熵?fù)p失訓(xùn)練的BERT,所有的文本增強(qiáng)方法都能提高準(zhǔn)確性,但本文模型的準(zhǔn)確率最高.與交叉熵訓(xùn)練的BERT模型相比,本文方法的平均改進(jìn)率為1.32%.引入雙重對(duì)比度損失可改善僅使用交叉熵訓(xùn)練的BERT模型魯棒性低的缺點(diǎn).與僅使用雙重對(duì)比損失訓(xùn)練相比,本文方法的平均改良率為0.76%.這是因?yàn)樵趯?duì)樣本進(jìn)行雙層數(shù)據(jù)增強(qiáng)后,增加了樣本的多樣性.通過BERT和TextCNN的共同抽取,可得到更有利于文本分類的句子向量和特征向量.與DoubleMix算法相比,本文方法的平均改善率為0.70%.基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)生成擾動(dòng)樣本的方式對(duì)文本進(jìn)行選擇性的補(bǔ)充,以保證生成樣本的質(zhì)量.使用雙重對(duì)比度損失和Wasserstein距離對(duì)模型進(jìn)行訓(xùn)練,在保證梯度不消失的情況下最小化原始數(shù)據(jù)與增強(qiáng)數(shù)據(jù)之間的差距,使提取的特征表示更緊湊,更有利于文本分類任務(wù).

      為考察本文方法是否能產(chǎn)生更好的特征表示,使用DoubleMix與本文方法進(jìn)行訓(xùn)練,在PC訓(xùn)練數(shù)據(jù)集(N=12000)上繪制了學(xué)習(xí)表征的tSNE圖,如圖3所示.由圖3可見,本文方法可以學(xué)習(xí)到的

      3.2基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)性能分析

      為驗(yàn)證基于關(guān)鍵詞數(shù)據(jù)增強(qiáng)方法的有效性,對(duì)低資源條件下基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)的文本分類性能進(jìn)行評(píng)估.基線是無數(shù)據(jù)增強(qiáng)、EDA方法和STA數(shù)據(jù)增強(qiáng)方法.數(shù)據(jù)集為SST-2,CR和SUBJ,樣本數(shù)量N=100.使用DistilBERT-base,從BERT中提取的輕量級(jí)轉(zhuǎn)換器模型作為文本分類器的主干.圖4為不同算法在低資源場景下對(duì)不同數(shù)據(jù)集的測(cè)試精度.由圖4可見,在數(shù)據(jù)量相對(duì)少的情況下,本文算法比基于token級(jí)別的數(shù)據(jù)增強(qiáng)算法平均準(zhǔn)確率提高了0.8個(gè)百分點(diǎn).由于EDA在擴(kuò)充句子時(shí)未考慮關(guān)鍵詞的影響,可能會(huì)刪除與分類任務(wù)相關(guān)的關(guān)鍵詞信息.STA基于4個(gè)角色詞擴(kuò)展數(shù)據(jù),為使用靜態(tài)提取關(guān)鍵詞的算法,因此提取角色詞所用的時(shí)間較長,不易在短時(shí)間內(nèi)生成大量樣本.表3列出了本文算法提取關(guān)鍵詞和STA提取角色詞在不同數(shù)據(jù)集上所用的時(shí)間.由表3可見,本文方法在保證分類結(jié)果基本一致的情況下,提取關(guān)鍵詞的時(shí)間較短.

      3.3低資源條件下性能分析

      為證明本文模型在低資源場景下可以取得更好的效果,實(shí)驗(yàn)選擇SST-2,CR和PC3個(gè)數(shù)據(jù)集進(jìn)行驗(yàn)證.分類數(shù)據(jù)大小分別為N=100和N=500.表4列出了低資源場景下不同算法在數(shù)據(jù)集CR上的測(cè)試精度.由表4可見,本文算法優(yōu)于BERT+Dual和BERT+DualCL+DoubleMix.圖5為不同算法在數(shù)據(jù)集CR上當(dāng)N={10,20,30,40,50,60,70,80,90,100}時(shí)分類準(zhǔn)確率的折線圖.由圖5可見,隨著輸入樣本數(shù)量的增加,本文算法分類準(zhǔn)確率始終是最高的.當(dāng)數(shù)據(jù)增強(qiáng)量達(dá)到500后,其分類準(zhǔn)確率提高速度緩慢,因此,將數(shù)據(jù)增強(qiáng)服務(wù)于有監(jiān)督對(duì)比學(xué)習(xí)可有效提高低資源條件下文本分類任務(wù)的準(zhǔn)確率.

      3.4消融實(shí)驗(yàn)

      為驗(yàn)證每個(gè)模塊都能對(duì)本文模型發(fā)揮作用,本文進(jìn)行了消融實(shí)驗(yàn).實(shí)驗(yàn)在數(shù)據(jù)集SST-2上進(jìn)行.實(shí)驗(yàn)設(shè)置:無輸入層基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng),無TextCNN特征提取,無隱藏層插值(訓(xùn)練時(shí)不使用Wasserstein距離),訓(xùn)練時(shí)不加入雙重對(duì)比損失.實(shí)驗(yàn)結(jié)果列于表5.

      由表5可見,改變實(shí)驗(yàn)策略后,模型性能有所下降,表明模型的每一部分模塊都影響模型的訓(xùn)練結(jié)果.首先移除輸入層數(shù)據(jù)增強(qiáng)模塊,即使用原始數(shù)據(jù)本身在隱藏層進(jìn)行插值增強(qiáng),模型的分類準(zhǔn)確率下降0.86個(gè)百分點(diǎn).然后,去掉TextCNN信息提取模塊,此時(shí)分類準(zhǔn)確率下降0.71個(gè)百分點(diǎn),結(jié)果表明,與直接使用BERT向量表示相比,將得到的每一層的向量表示饋送到TextCNN中會(huì)有積極效果,模型訓(xùn)練時(shí)不使用隱藏層插值(無Wasserstein距離)及訓(xùn)練時(shí)不加入雙重對(duì)比損失,平均準(zhǔn)確率降低1.45個(gè)百分點(diǎn).因此,模型中每個(gè)模塊在文本分類任務(wù)中都具有積極作用.

      綜上所述,針對(duì)DoubleMix現(xiàn)有算法存在的問題,本文提出了一種基于雙層數(shù)據(jù)增強(qiáng)的監(jiān)督對(duì)比文本分類模型.該方法通過基于關(guān)鍵詞的數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)進(jìn)行更有效、簡便地?cái)U(kuò)充,并使用新的訓(xùn)練方式提取到更利于文本分類的特征表示,在常用的文本分類數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明該方法能在提高樣本多樣性的同時(shí)學(xué)習(xí)到緊湊的特征表示,最終提高文本分類的準(zhǔn)確率,尤其是低資源情況下的文本分類.消融實(shí)驗(yàn)也說明了模型的每一部分都起到了積極作用.因此,該模型通過對(duì)數(shù)據(jù)進(jìn)行有效地?cái)?shù)據(jù)增強(qiáng)并對(duì)模型更好地訓(xùn)練,有效提高了模型的分類能力.

      參考文獻(xiàn)

      [1]高云龍,吳川,朱明,基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的短文本分類模型[J].,2020,58(4):923-930.(GAO Y L,WU C,ZHU M.Short Text Classification Model Based on Improved Convolutional Neural Network[J].Journal of Jilin University(Sicence Edition),2020,58(4):923-930.)

      [2]王進(jìn),徐巍,丁一,等,基于圖嵌入和區(qū)域注意力的多標(biāo)簽文本分類[J],江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,43(3):310-318.(WANG J,XU W,DING Y,etal.Multi-label Text Classification Based on Graph Embeddingand Regional Attention[J].Journal of Jiangsu University(Natural Science Edition),2022,43(3):310-318.)

      [3]車穎,馮皛,鄭宏亮,基于卷積神經(jīng)網(wǎng)絡(luò)的超聲造影圖像去噪方法[1].,2021,59(5);1256-1259.(CHE Y,F(xiàn)ENG X,ZHENG H L,Ultrasonography Image Denoising Method Based on Convolutional Neural Network[J].Journal of Jilin University(Science Edition),2021,59(5):1256-1259.)

      [4]王進(jìn),陳重元,鄧欣,等,多狀態(tài)圖神經(jīng)網(wǎng)絡(luò)文本分類算法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,35(2):193-201.(WANG J,CHEN C Y,DENG X,etal.Multi-state Graph Neural Network Text ClassificationAlgorithm[J].Journal of Chongqing University of Postsamp;Telecommunications Natural Science Edition).2023,35(2):193-201.)

      [5]CHEN H,HAN W,YANG D Y,etal.DoubleMix:Simple Interpolation-Based Data Augmentation for Text Classification[C]//Proceedings of the 29th International Conference on Computational Linguistics.[S.1.]ACL.2022:4622-4632.

      [6]WEI J,ZOU K.EDA:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks[C]/Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.[S.1.]:ACL,2019:6382-6388.

      [7]SERGEY E,MYLE O,MICHAEL A,etal.Understanding Back-Translation at Scale[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.[S.1.]:ACL,2018:489-500.

      [8]YIN W P.WANG H,QU J,etal.BatchMixup:Improving Training by Interpolating Hidden States of the EntireMini-batch[C]//Findings of the Association for Computational Linguistics.[S.1.]:ACL,2021:4908-4912.

      [9]CHEN J A,YANG Z C,YANG D Y.MixText:Linguistically-Informed Interpolation of Hidden Space for Semi-supervised Text Classification[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.[S.1.]:ACL,2020:2147-2157.

      [10]YOON S Y,KIM G,PARK K.SSMix:Saliency-Based Span Mixup for Text Classification[C]//Findings of the Association for Computational Linguistics.[S.1.]:ACL,2021:3225-3234.

      [11]ZHANG Z L,MERT R S.Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels[EB/OL].(2018-05-20)[2023-02-10].https:/arxiv.org/abs/1805.07836.

      [12]JACOB D,CHANG M W,KENTON L,etal.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of theAssociation for Computational Linguistics:Human Language Technologies.[S.1.]:ACL,2019:4171-4186.

      [13]YOONK.Convolutional Neural Networks for Sentence Classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).[S.1.]:ACL,2014:1746-1751.

      [14]CHEN Q B,ZHANG R C,ZHENG Y W,etal.Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation[EB/OL].(2022-01-21)[2023-02-10].https://arxiv.org/abs/2201.08702.

      [15]GUO B Y,HAN S Q,HUANG H L.Selective Text Augmentation with Word Roles for Low-Resource Text Classification[EB/OL].(2022-09-04)[2023-01-01].https://arxiv.org/abs/2209.01560.

      [16]XIONG Y J,F(xiàn)ENG Y K,WU H,etal.Fusing Label Embedding into BERT:An Efficient Improvement for TextClassification[C]//Findings of the Association for Computational Linguistics.[S.1.]:ACL,2021:1743-1750.

      [17]GANESH J,BENOIT S,DJAME S.What Does BERT Learn about the Structure of Language[C]//Proceedingsof the 57th Annual Meeting of the Association for Computational Linguistics.[S.1.]:ACL,2019:3651-3657.

      [18]RICHARD S,JOHN B,CHRISTOPHER D,etal.Parsing with Compositional Vector Grammars[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics.[S.1.]ACL,2013:455-465.

      [19]BO P,LILLIANA.SentimentalEducation:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics.[S.1.]:ACL,2004:271-278.

      [20]DING X W,LIU B,YU P S.A Holistic Lexicon-Based Approach to Opinion Mining[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.New York:ACM,2008:231-240.

      [21]LI X,ROTHD.Learning Question Classifiers[C]//The 19th International Conference on Computational Linguistics.New York:ACM,2022:1-7.

      [22]MURTHY G,LIU B.Mining Opinions in Comparative Sentences[C]//Proceedings of the 22nd InternationalConference on Computational Linguistics.[S.1.]ACL.2008:241-248.

      (責(zé)任編輯:韓嘯)

      猜你喜歡
      文本分類
      基于樸素貝葉斯的Web文本分類及其應(yīng)用
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      基于K—means算法的文本分類技術(shù)研究
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      不同情境下中文文本分類模型的表現(xiàn)及選擇
      基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
      多核SVM文本分類研究
      軟件(2015年5期)2015-08-22 08:02:45
      会昌县| 黄大仙区| 邓州市| 阿鲁科尔沁旗| 堆龙德庆县| 康乐县| 虹口区| 吉林市| 林州市| 刚察县| 南开区| 曲水县| 凉城县| 科尔| 旬邑县| 西乡县| 深水埗区| 固原市| 江川县| 双桥区| 富民县| 汝南县| 娄烦县| 宜兰市| 剑川县| 南宁市| 霞浦县| 博野县| 手游| 防城港市| 绥棱县| 白银市| 江津市| 宜都市| 澎湖县| 淄博市| 车险| 汽车| 衡水市| 菏泽市| 鹤庆县|