• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞向量集成與數(shù)據(jù)增強(qiáng)的惡意評(píng)論分類模型

      2022-07-25 02:12:06楊金靈
      科學(xué)技術(shù)創(chuàng)新 2022年22期
      關(guān)鍵詞:向量分類評(píng)估

      楊金靈

      (大連外國(guó)語(yǔ)大學(xué),遼寧 大連 116044)

      如今,隨著科技時(shí)代的到來,人們?cè)诎l(fā)達(dá)的互聯(lián)網(wǎng)背景下往往傾向于利用方便的電子設(shè)備在網(wǎng)絡(luò)中發(fā)表各種各樣的言論和表達(dá)自身的情感。因此從眾多的意見中也產(chǎn)生了海量的數(shù)據(jù)。但是,其中不乏暗含著具有充滿威脅性的甚至報(bào)復(fù)性質(zhì)的惡意評(píng)論。據(jù)調(diào)查,網(wǎng)絡(luò)安全研究員Jeremy Fuchs 在發(fā)表的一份報(bào)告中寫道,CheckPoint 公司旗下的電子郵件協(xié)作和安全公司的研究人員在12 月首次觀察到了大規(guī)模黑客利用谷歌文檔的評(píng)論功能進(jìn)行攻擊的趨勢(shì),并且到目前為止攻擊者通過利用谷歌基于云端的文字處理應(yīng)用程序的功能,已經(jīng)攻擊了30 個(gè)用戶的500 多個(gè)收件箱,來自100 多個(gè)不同的Gmail 賬戶。這類不良現(xiàn)象的頻繁發(fā)生聚集了越來越多的科學(xué)家和研究人員等業(yè)內(nèi)人士的焦點(diǎn)。在處理這一問題的方法上,實(shí)則是一個(gè)文本分類的工作,因此利用經(jīng)典的,前沿的技術(shù)手段對(duì)這些文本進(jìn)行高效最優(yōu)地分類成為了科研人員研究的熱點(diǎn)問題之一[1]。如在文獻(xiàn)[2]中陳等人提出了融合領(lǐng)域知識(shí)圖譜的方法,將跨境民族文化文本進(jìn)行歸類處理。

      本文采用來自維基百科談話頁(yè)面編輯的評(píng)論數(shù)據(jù)集設(shè)計(jì)了惡意評(píng)論的文本分類任務(wù),即使研究者們的實(shí)驗(yàn)?zāi)P鸵呀?jīng)達(dá)到了不錯(cuò)的預(yù)測(cè)性能,但是在實(shí)驗(yàn)配置與數(shù)據(jù)集等方面仍有待改進(jìn)之處:

      (1)將文本轉(zhuǎn)換成數(shù)值向量的詞向量中記錄了日常常見單詞文本的相似度,詞向量的選擇對(duì)于模型的分類性能有著巨大影響。而在某個(gè)語(yǔ)料庫(kù)單獨(dú)訓(xùn)練的詞向量往往會(huì)對(duì)統(tǒng)計(jì)學(xué)的捕捉存有偏差,因而降低模型的分類性能。在惡意評(píng)論分類模型中只使用了一個(gè)在fastText上預(yù)訓(xùn)練的300 維詞向量,因此在這一問題上增大了模型預(yù)測(cè)值不準(zhǔn)確性的概率。

      (2)現(xiàn)有的數(shù)據(jù)集中約有15 萬條評(píng)論,由于樣本數(shù)量有限,因此模型在樣本數(shù)據(jù)集中能會(huì)導(dǎo)致惡意分類錯(cuò)誤的情況發(fā)生,從而危害模型的穩(wěn)健性(robustness)。因此,從模型所能夠?qū)W到的內(nèi)容與穩(wěn)健性角度來看,現(xiàn)有的模型仍存在不足。

      (3)在現(xiàn)有的研究中,集成詞向量與數(shù)據(jù)增強(qiáng)較少被人們使用,研究方法層面也有所欠缺。

      所以針對(duì)以上問題,本文提出了一種集成詞向量與數(shù)據(jù)增強(qiáng)的惡意文本分類模型(ENSVEC-DA)。

      1 實(shí)驗(yàn)設(shè)置

      1.1 實(shí)驗(yàn)框架

      本實(shí)驗(yàn)的總體流程介紹如下:

      首先,準(zhǔn)備本實(shí)驗(yàn)所需的兩種訓(xùn)練集,分別為增強(qiáng)的訓(xùn)練集與非增強(qiáng)的訓(xùn)練集。

      其次,先后選擇訓(xùn)練集中的一種,通過預(yù)訓(xùn)練的詞向量將里面的評(píng)論文本轉(zhuǎn)化為非集成的數(shù)值向量和集成的數(shù)值向量。

      再次,通過是否增強(qiáng)訓(xùn)練集與是否集成詞向量?jī)蓛山M合得到四組對(duì)比實(shí)驗(yàn),并使用相同的測(cè)試集使RNN 網(wǎng)絡(luò)依次預(yù)測(cè)四組實(shí)驗(yàn)的惡意概率。

      最后,計(jì)算出每組實(shí)驗(yàn)中六組標(biāo)簽所對(duì)應(yīng)的Acc、AUC、Brier Score 評(píng)估指標(biāo),通過對(duì)比評(píng)估指標(biāo)得出結(jié)論。實(shí)驗(yàn)框架如圖1 所示。

      圖1 實(shí)驗(yàn)框架圖

      1.2 實(shí)驗(yàn)數(shù)據(jù)集

      本實(shí)驗(yàn)的樣本數(shù)據(jù)集采用來自維基百科談話頁(yè)面編輯的評(píng)論數(shù)據(jù)集,來源可靠且相對(duì)權(quán)威。

      此數(shù)據(jù)集包含訓(xùn)練集與測(cè)試集,均含有6 個(gè)標(biāo)簽,總評(píng)論條數(shù)分別為159571 條和153165 條,其中在測(cè)試集里除-1 標(biāo)簽標(biāo)注的無效評(píng)論外共有63979 條有效評(píng)論,統(tǒng)計(jì)的樣本數(shù)據(jù)集如表1、表2 所示。

      表1 訓(xùn)練集標(biāo)簽

      表2 測(cè)試集標(biāo)簽

      1.3 評(píng)估指標(biāo)

      為了更合理且準(zhǔn)確地評(píng)估ENSVEC-DA 惡意文本分類模型的預(yù)測(cè)性能,本文選用了較為常用高效的準(zhǔn)確率Acc(Accuracy)、AUC(Area Under Curve)和布里爾分?jǐn)?shù)(Brier Score)三種評(píng)估指標(biāo)。詳見表3。

      表3 性能評(píng)估相關(guān)值表

      準(zhǔn)確率Acc(Accuracy)計(jì)算公式:

      布里爾分?jǐn)?shù)(Brier Score)計(jì)算公式:

      布里爾分?jǐn)?shù)是衡量概率校準(zhǔn)的一個(gè)參數(shù)[3],可以被認(rèn)為是對(duì)一組概率預(yù)測(cè)的“校準(zhǔn)”的量度。式(2)中:N 表示總共檢測(cè)的樣本數(shù)目,y^t是預(yù)測(cè)的概率值,yt是真實(shí)的概率值。

      AUC 是ROC 曲線下方的面積大小[4],是對(duì)模型性能評(píng)估的一項(xiàng)重要指標(biāo)。ROC 曲線[5]的橫坐標(biāo)是假正例率(FPR),其計(jì)算公式為FPR=FP/(TN+FP),縱坐標(biāo)是真正例率(TPR),計(jì)算公式為TPR=TP/(TP+FN)。

      在本實(shí)驗(yàn)中以是否集成詞向量,是否數(shù)據(jù)增強(qiáng)為變量,使變量?jī)蓛山M合得到四組對(duì)比實(shí)驗(yàn)。通過分別計(jì)算四組實(shí)驗(yàn)的評(píng)估指標(biāo)最終判斷模型的預(yù)測(cè)性能提升與否。

      2 實(shí)驗(yàn)結(jié)果

      2.1 詞向量集成技術(shù)對(duì)惡意評(píng)論分類性能的影響

      為了驗(yàn)證詞向量集成技術(shù)具有提升模型分類性能的優(yōu)點(diǎn),我們基于非數(shù)據(jù)增強(qiáng)的訓(xùn)練集,對(duì)使用詞向量集成技術(shù)與非使用詞向量集成技術(shù)進(jìn)行了對(duì)比實(shí)驗(yàn)。表4、5、6 為實(shí)驗(yàn)評(píng)估指標(biāo)結(jié)果。

      表4 Acc 評(píng)估指標(biāo)

      在指標(biāo)值層面分析實(shí)驗(yàn)的惡意預(yù)測(cè)概率可以看出,詞向量集成技術(shù)對(duì)模型分類性能的提升有所幫助。雖然在表5 所示的AUC 指標(biāo)中,六種標(biāo)簽所對(duì)應(yīng)的AUC 數(shù)值在非集成詞向量方面表現(xiàn)更好,但是綜合對(duì)比Acc 和Brier Score 指標(biāo)后我們發(fā)現(xiàn),詞向量技術(shù)在某些惡意評(píng)論分類上有更優(yōu)效果。根據(jù)表4 進(jìn)一步分析,在toxic、server_toxic、obscene 這三種評(píng)論上集成詞向量比非集成詞向量的評(píng)估指標(biāo)Acc 值分別高出0.0026、0.0024 和0.0004。并且由表6 中的Brier Score 值所示,在集成詞向量實(shí)驗(yàn)中,server_toxic 的Brier Score 值比非集成詞向量實(shí)驗(yàn)的值降低了0.0003。因此,結(jié)合表4 與表6 的結(jié)果,我們發(fā)現(xiàn)詞向量集成技術(shù)可以提升部分種類的惡意評(píng)論的分類性能。

      表5 AUC 評(píng)估指標(biāo)

      表6 Brier Score 評(píng)估指標(biāo)

      2.2 數(shù)據(jù)增強(qiáng)技術(shù)對(duì)惡意評(píng)論分類性能的影響

      本組實(shí)驗(yàn)使用與上組實(shí)驗(yàn)相同的評(píng)估指標(biāo)來分析數(shù)據(jù)增強(qiáng)技術(shù)對(duì)惡意評(píng)論分類性能的影響。根據(jù)實(shí)驗(yàn)所得的惡意評(píng)論分值計(jì)算出的評(píng)估指標(biāo)展示如圖7-9。

      對(duì)比分析表7、8、9 中的數(shù)據(jù),我們發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)技術(shù)與詞向量集成技術(shù)所產(chǎn)生效果相似,兩者均提高了實(shí)驗(yàn)?zāi)P蛯?duì)某種惡意評(píng)論的分類性能。根據(jù)表中數(shù)據(jù)可得出結(jié)果如下:

      表7 Acc 評(píng)估指標(biāo)

      表8 AUC 評(píng)估指標(biāo)

      表9 Brier Score 評(píng)估指標(biāo)

      (1) 在server_toxic 和obscene種類上,數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的Acc 值比非數(shù)據(jù)增強(qiáng)的Acc 值分別高出了0.0003 和0.0027。

      (2)在AUC 值上,數(shù)據(jù)增強(qiáng)的indentity_hate 種類表現(xiàn)更好,且比非數(shù)據(jù)增強(qiáng)高出0.0022。

      (3) 對(duì)比非數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的Brier Score 值,在數(shù)據(jù)增強(qiáng)的實(shí)驗(yàn)里,server_toxic 和obscene 種類所對(duì)應(yīng)的數(shù)值分別降低了0.0001 和0.0004。

      因此,可以肯定數(shù)據(jù)集成技術(shù)對(duì)惡意評(píng)論分類性能提升的積極影響。

      2.3 ENSVEC-DA 惡意文本分類模型性能評(píng)估

      為研究詞向量集成技術(shù)與數(shù)據(jù)增強(qiáng)技術(shù)的結(jié)合使用的ENSVEC-DA 惡意文本分類模型是否對(duì)分類性能產(chǎn)生有益影響,本文分別從ACC、AUC、Brier Score 三種評(píng)估指標(biāo)分析了本模型在四組實(shí)驗(yàn)中對(duì)六種惡意評(píng)論的預(yù)測(cè)分值,并通過繪制分組條形圖進(jìn)行對(duì)比分析,如圖2、3、4 所示。

      圖2 Acc 評(píng)估指標(biāo)對(duì)比

      圖3 AUC 評(píng)估指標(biāo)對(duì)比

      圖4 Brier Score 評(píng)估指標(biāo)對(duì)比

      從圖2 中我們可以發(fā)現(xiàn),在server_toxic 種類上,Acc 值雖然在集成詞向量和數(shù)據(jù)增強(qiáng)方面略低,但是總體在直方圖展示上幾乎呈現(xiàn)上升趨勢(shì),并且在toxic、obscene、indentity_hate 中,兩種技術(shù)的結(jié)合使用比其他某個(gè)組合實(shí)驗(yàn)的Acc 值更高。由AUC 評(píng)估指標(biāo)對(duì)比圖可見,結(jié)合詞向量集成技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)的AUC 值比集成詞向量和非數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的AUC 值在indentity_hate 種類表現(xiàn)上更好,并且在圖4 Brier Score 分組條形圖中的server_toxic 種類上,使用兩種技術(shù)的評(píng)估值比非使用兩者的評(píng)估值高。

      由此可見,詞向量集成技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)的結(jié)合使用使ENSVEC-DA 惡意文本分類模型的預(yù)測(cè)性能在部分種類的惡意評(píng)論上有所提升。

      3 結(jié)論

      通過分析惡意評(píng)論分類模型的實(shí)驗(yàn)配置與樣本數(shù)據(jù)集,我們發(fā)現(xiàn)了原實(shí)驗(yàn)中存在的使用詞向量單一,數(shù)據(jù)集信息有限的問題,這會(huì)降低分類模型在某種惡意評(píng)論的預(yù)測(cè)性能。因此,本文中提出了ENSVEC-DA 惡意文本分類模型,使用詞向量集成技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)來有效解決這一問題,通過控制是否集成詞向量和是否數(shù)據(jù)增強(qiáng)這兩個(gè)變量在同一測(cè)試集上做四組對(duì)比實(shí)驗(yàn)。最終結(jié)果顯示,ENSVEC-DA 惡意文本分類模型在某種惡意評(píng)論分類性能上表現(xiàn)更好,這有效地改善了現(xiàn)有方法的不足之處。

      綜上,在未來的研究工作中我們將繼續(xù)多角度優(yōu)化并驗(yàn)證ENSVEC-DA 惡意文本分類模型的分類性能,使該模型應(yīng)用于更多領(lǐng)域中。

      猜你喜歡
      向量分類評(píng)估
      向量的分解
      分類算一算
      聚焦“向量與三角”創(chuàng)新題
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      評(píng)估依據(jù)
      立法后評(píng)估:且行且盡善
      浙江人大(2014年5期)2014-03-20 16:20:25
      高唐县| 健康| 新龙县| 汉沽区| 双流县| 镇平县| 玉龙| 塔城市| 邳州市| 隆林| 泸定县| 宁南县| 巴彦县| 枣阳市| 肃宁县| 罗平县| 洞头县| 城固县| 郎溪县| 宁波市| 吴江市| 贵州省| 贡觉县| 无为县| 习水县| 龙南县| 兴文县| 泸溪县| 静宁县| 陇南市| 林周县| 隆化县| 宕昌县| 北辰区| 新民市| 玛曲县| 白水县| 枣强县| 德阳市| 中牟县| 于田县|