• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進Focal Loss和EDA技術的UT分類算法

    2023-06-01 13:43:38王雯慧靳大尉
    計算機仿真 2023年4期
    關鍵詞:損失分類樣本

    王雯慧,靳大尉

    (陸軍工程大學指揮控制工程學院,江蘇 南京 210000)

    1 引言

    分類任務是數(shù)據(jù)挖掘領域中一個重要的研究任務,普通的分類模型通常是在數(shù)據(jù)集中各類別的樣本數(shù)量差距很小且對于每個類別的誤分代價相等的假設上訓練的,當使用不平衡數(shù)據(jù)集訓練傳統(tǒng)的分類器時經(jīng)常會出現(xiàn)模型對于少數(shù)類的預測精度很低的問題,因此如何對不平衡數(shù)據(jù)進行有效的分類一直是機器學習領域的研究熱點[1,2]。

    文本分類任務是對文本依據(jù)文本的主題內(nèi)容等進行的分類。在文本分類領域文本數(shù)據(jù)經(jīng)常處于不平衡狀態(tài),熱度較高的解決不平衡分類導致的誤分率較高問題的方法包括降采樣、過采樣、集成學習以及代價敏感函數(shù)。Cieslak等[3]提出的降采樣技術,Chawla 等[4]提出的經(jīng)典過采樣技術SMOTE(Synthetic M-inority Oversampling Technique),雖然兩者在一定程度上緩解了數(shù)據(jù)集不平衡的問題,但是前者可能會打破樣本分布規(guī)律,甚至導致重要特征信息的缺失,后者由于生成的小類樣本是在原本的小類樣本數(shù)據(jù)連線上,可能會造成樣本因密度增加導致模型過擬合。Galarm等人[5]利用集成學習技術雖然的到了一個泛化能力更好的分類器,但該方法對于子分類器的質量過度依賴,無法保證集成效果。代價函數(shù)通過給小樣本類賦予更高的誤分代價使得模型訓練更關注小樣本,但其的參數(shù)確定大多依賴經(jīng)驗,使得損失代價的估計并不能客觀設置。

    本文結合過采樣和代價敏感方法的思想,提出了一種基于EDA[6]文本增強技術以及改進Focal Loss 損失函數(shù)的不平衡文本分類模型訓練算法。該算法利用文本增強技術從數(shù)據(jù)層面緩解不平衡度,創(chuàng)新自動化的代價敏感函數(shù)參數(shù)設定方法進行研究,同時避免了過采樣樣本密度增加導致的過擬合和代價敏感函數(shù)參數(shù)設定不客觀的問題。實驗結果表明,本文提出的基于EDA文本增強技術以及改進的Focal Loss 損失函數(shù)的不平衡文本分類模型對于不平衡文本的分類有較好的效果提升。

    2 相關技術簡介

    2.1 EDA技術

    依據(jù)文本增強的原理不同,文本增強的技術可以分為面向原始文本的增強方法[6-10]和面向文本表示的增強方法[11-13]兩種。Jason Wei等人提出了一套簡單的用于自然語言處理的通用數(shù)據(jù)擴充技術EDA[6],并針對其在英文文本上的應用效果進行了研究。

    在小樣本中文文本數(shù)據(jù)上,假設一個小類樣本集為S={s1,s2,s3,……,sn},那么小類樣本集中某個樣本si可以表示為si={w1,w2,w3,……,wn}。增強句子數(shù)N代表進行相應操作的次數(shù),EDA技術對文本數(shù)據(jù)樣本進行如下操作:

    ● 以概率p1對文本中的某個詞語wj進行刪除操作,形成新的樣本,記為操作O1;

    ● 以概率p2對文本中的某個詞語wj進行替換操作,替換詞為其同義詞,最終形成新的樣本,記為操作O2;

    ● 以概率p3在文本中的某個詞語wj后插入詞表中任意非停止詞的隨機單詞w,最終形成新的樣本,記為操作O3;

    ● 以概率p4對文本中的某個詞語wj與其后面的詞語wj+1進行位置交換,最終形成新的樣本,記為操作O4;

    EDA方法具有“多、快、好、省”的特點,本文引入該技術進行中文文本數(shù)據(jù)增強。

    2.2 DCNN模型

    Nal Kalchbrenner等人提出了DCNN模型[14]實現(xiàn)了對任意長度的文本的語義建模。

    DCNN模型主要包括Embedding層、動態(tài)卷積k-max池化層和Concat層:Embedding層是完成訓練數(shù)據(jù)的基本語義表示,然后經(jīng)由三個動態(tài)卷積k-max采樣操作提取不同層次的語義表示。在動態(tài)卷積k-max采樣中,采用補0操作確保對輸入序列邊緣詞語語義信息的捕捉;動態(tài)k-max池化將矩陣向量最大的前k個特征進行保留,使得輸出中保留更多的高級語義信息。Concat層則是將這三種不同層次的語義表示進行拼接,最后利用softmax函數(shù)完成對樣本類別的預測。

    該模型可以針對不同長度的文本進行建模同時保留語序信息,適用于實驗需求。此外,從模型的復雜度來說,DCNN模型較為簡單,對算法更敏感,有助于驗證算法的優(yōu)越性。

    2.3 Focal Loss 損失函數(shù)

    2018年Facebook人工智能實驗室提出Focal Loss函數(shù)[15],該函數(shù)通過降低不平衡樣本中模型簡單樣本的權重達到提高對困難分類的效果。

    二分類問題中,常用的交叉熵損失函數(shù)設定如下

    (1)

    Focal Loss對交叉熵損失函數(shù)加入γ因子,將其改進為

    (2)

    γ因子使模型更關注困難分類樣本,同時將易分類樣本的損失降低。在此基礎上,還加入平衡因子α,以針對樣本本身不平衡性進行調節(jié)

    (3)

    通過調節(jié)α對大類樣本以及易分類樣本的損失函數(shù)值降低,使得模型在訓練過程中更加關注小類樣本和困難分類樣本。

    3 基于改進的Focal Loss和EDA技術的不平衡文本分類算法

    3.1 改進的Focal Loss 損失函數(shù)

    如上文所述,Focal Loss 損失函數(shù)是在通用交叉熵損失函數(shù)的基礎上,引入γ因子和平衡因子α,增強模型對于難分類小樣本的關注度。然而難分類樣本與易分類樣本其實是一個動態(tài)概念,也就是說α會隨著訓練過程而變化。原先易分類樣本即α大的樣本,可能隨著訓練過程變化為難訓練樣本即α小的樣本。當這種情況發(fā)生時,如果α參數(shù)保持不變可能會造成模型收斂速度慢的問題。

    針對Focal loss無法其支持連續(xù)數(shù)值的監(jiān)督的問題,李翔等人提出了Generalized Focal loss[16],但是并未解決平衡因子α動態(tài)變化的問題。通常情況下平衡因子α需要通過繁瑣的調參過程確定為一個最優(yōu)的固定值,這不僅需要消耗大量的算力與時間,還忽略了難易訓練樣本之間相互轉換的動態(tài)性。所以本文基于動態(tài)的分類模型訓練過程,借鑒梯度下降的思想來遞歸性地逼近最佳的平衡因子α,提出平衡因子α的動態(tài)計算方法如下

    (4)

    同時必須滿足0<αt<1。

    其中t代表訓練輪次,n為訓練中用以測試的小樣本數(shù)量,n′為模型預測結果中小樣本數(shù)量,β為隨機變化參數(shù),為(0,1)之內(nèi)的隨機值。

    當預測結果中小樣本分類數(shù)量多于真實小樣本數(shù)量,則說明模型對小樣本數(shù)據(jù)的傾向度相較于所需的對于小樣本的傾向度偏大,此時的變化步長為負值,則會一定程度減小下次訓練中的平衡因子α,即減小對于小樣本數(shù)據(jù)的關注度。

    根據(jù)何愷明等人實驗結果[15],初始輪次中的平衡因子α設定為0.25,設定γ因子值為2。最終動態(tài)Focal Loss 函數(shù)可表示為

    (5)

    3.2 一種不平衡文本分類算法

    本文利用EDA文本增強技術,在數(shù)據(jù)層面緩解數(shù)據(jù)不平衡的基礎上,利用上文所述動態(tài)Focal loss損失函數(shù),結合DCNN模型,提出一種不平衡文本分類算法用以訓練不平衡文本分類器。算法結構如圖1。

    圖1 一種不平衡文本分類算法結構

    本文所提出的算法具體步驟如下:

    算法1 基于改進Focal Loss和EDA技術的不平衡文本分類算法

    輸入:訓練數(shù)據(jù)集:小樣本數(shù)據(jù)集S={s1,s2,s3,……,sn},大樣本數(shù)據(jù)集S′={s1,s2,s3,……,sm},T為迭代次數(shù);

    輸 出:不平衡文本分類模型G,模型損失函數(shù)值。

    1)統(tǒng)計少數(shù)類樣本數(shù)量n;

    2)初始化EDA技術增強參數(shù):p1=0.1,p2=0.1,p3=0.1,p4=0.1,N=6;

    3)For i=1 to n:

    For k=1 to N:

    對si依次進行操作O1(p1),O2(p2),O3(p3),O4(p4);

    5)初始化改進的Focal Loss 函數(shù)參數(shù):γ=2,α=0.25;

    6)初始化模型G

    7)For t=1 to T:

    A)利用分類模型Gt-1進行預測;

    B)統(tǒng)計分類器在數(shù)據(jù)集SS上分類的小樣本數(shù) 量n′;

    C)計算現(xiàn)有模型準確率,損失函數(shù)LFLt

    D)ift

    a)隨機產(chǎn)生β變化參數(shù);

    c)if0<αt<1:

    更新平衡因子αt;

    else

    回到a)再次計算;

    E)更新模型Gt;

    8)返回最終文本分類模型GT,最終損失LFLT。

    Jason Wei等提出EDA技術的增強參數(shù)pi=0.1,(i=1,2,3,4)時增強效果最好[6],所以算法將這四項參數(shù)的值設定為0.1,但是增強句子數(shù)的推薦參數(shù)仍不確定,本文首先在修改該參數(shù)的情況下執(zhí)行算法訓練模型,在確定輪次為800時比較準確性探究最佳的參數(shù)值,實驗結果證明時N=6模型效果最佳。

    4 實驗結果與分析

    4.1 數(shù)據(jù)集描述

    為了衡量本文提出的基于該進的Focal loss和EDA技術的文本分類算法,利用搜狗實驗室提供的全網(wǎng)新聞數(shù)據(jù)進行不平衡文本數(shù)據(jù)分類器的訓練,探究其準確率提升效果。

    提取全網(wǎng)新聞數(shù)據(jù)正文并利用新聞網(wǎng)頁鏈接進行分類標注得到軍事類文本820篇占比約為3.8%,非軍事類20583篇包括傳媒、互聯(lián)網(wǎng)、教育等類型。訓練集與測試集按照7:3的比例劃分,詳見表1:

    表1 基于搜狗新聞數(shù)據(jù)的不平衡文本分類實驗數(shù)據(jù)

    4.2 評價標準

    為了更好衡量模型效果,本實驗關注于小類樣本的分類效果。模型預測結果共四種:真陽實例(TP):測試樣本數(shù)據(jù)屬于小類,且被模型預測正確;真陰實例(TN):測試樣本數(shù)據(jù)屬于大類,且被模型預測正確;假陽實例(FP):測試樣本數(shù)據(jù)屬于大類,但被模型預測錯誤;假陰實例(FN):測試樣本數(shù)據(jù)屬于小類,但被模型預測錯誤。

    評價指標精準率(Presicion)、召回率(Recall)、調和平均值(F1-Score)定義如下

    (6)

    (7)

    (8)

    為解決不平衡數(shù)據(jù)分類模型的效果評價問題,除上述指標之外本實驗還選取經(jīng)典的AUC[17]值作為實驗的評估指標。AUC值是ROC 曲線下方所覆蓋的面積,ROC曲線是以假正率FP/(TN+FP)為橫軸,真正率TP/(TP+FN)為縱軸所繪制的曲線。當AUC值越大,證明模型的分類效果越好。

    4.3 實驗設計與結果分析

    為了驗證本文提出的分類模型算法的有效性,進行六組對比實驗,第六組即為本文提出的算法。

    第一組:利用原始數(shù)據(jù)集(Or)直接結合交叉熵損失函數(shù)(CrossEntropy Loss,記為CL)進行訓練,記為Or+CL;

    第二組:利用原始數(shù)據(jù)集直接結合Focal loss函數(shù)(記為FL)進行訓練,記為Or+FL;

    第三組:利用原始數(shù)據(jù)集直接結合改進后的Focal loss函數(shù)(記為FL*)進行訓練,記為Or+FL*;

    第四組:利用EDA增強技術增強數(shù)據(jù)(記為EDA)后結合交叉熵損失函數(shù)進行訓練,記為EDA+CL;

    第五組:利用EDA增強技術增強數(shù)據(jù)后結合Focal loss函數(shù)進行訓練,記為EDA+FL;

    第六組:利用EDA增強技術增強數(shù)據(jù)后結合改進后Focal loss函數(shù)進行訓練,記為EDA+FL*。

    實驗分析了六組訓練方法的精準率、召回率、調和平均值以及AUC值;設定迭代次數(shù)為500,進行多次實驗取平均后結果如表2。

    表2 六組實驗結果對比表

    從實驗對比結果可以看出,不同的訓練方法下模型的準確率和精準率都保持在較高的水平,召回率、調和平均值、AUC值在采用了EDA技術、Focal loss損失函數(shù)以及改進的Focal loss損失函數(shù)之后都有不同程度的提升,說明這些技術方法均能夠環(huán)節(jié)不平衡數(shù)據(jù)的問題。同時單獨各項技術而言,EDA技術對于模型的提升度最高,是解決不平衡問題較好的一個方法;改進的Focal loss較原始的Focal loss有一定的改進效果。在六組對比實驗中,本文提出的不平衡文本分類模型的訓練算法效果最好。

    5 結語

    針對傳統(tǒng)文本分類算法不能很好的解決不平衡文本類別的問題,本文提出從數(shù)據(jù)以及敏感函數(shù)兩個層面解決文本二分類不平衡問題的一種新的算法。六組對比試驗結果證明,本文的改進方法是可行的,單獨使用各方法進行訓練,模型訓練結果都有一定的提升效果,但本文所提出的結合算法效果最好。但是該方法僅針對二分類文本數(shù)據(jù),存在一定的局限。將該算法與其它不平衡文本分類算法進行實驗比較,針對文本多分類不平衡問題的進一步研究,將是未來的重點研究方向。

    猜你喜歡
    損失分類樣本
    少問一句,損失千金
    胖胖損失了多少元
    分類算一算
    用樣本估計總體復習點撥
    分類討論求坐標
    玉米抽穗前倒伏怎么辦?怎么減少損失?
    推動醫(yī)改的“直銷樣本”
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    隨機微分方程的樣本Lyapunov二次型估計
    都兰县| 巴彦淖尔市| 太湖县| 顺昌县| 西和县| 普定县| 永德县| 鄂温| 乌拉特中旗| 垣曲县| 左云县| 滦南县| 福清市| 桐乡市| 江西省| 神木县| 股票| 阿拉尔市| 怀柔区| 临泽县| 米脂县| 铁力市| 清河县| 北川| 林芝县| 盐亭县| 桂阳县| 芜湖县| 吴忠市| 修水县| 阿瓦提县| 仪征市| 依兰县| 克山县| 淄博市| 龙口市| 隆安县| 玉山县| 淮南市| 博兴县| 藁城市|