非平衡情感數(shù)據(jù)背景下基于邊界度的過采樣方法

2023-11-17 02:45:58鄭森ZHENGSen齊曉軒QIXiaoxuan柳億霖LIUYilin

價(jià)值工程 2023年31期

鄭森 ZHENG Sen；齊曉軒 QI Xiao-xuan；柳億霖 LIU Yi-lin

（①沈陽大學(xué)機(jī)械工程學(xué)院，沈陽 110000；②沈陽大學(xué)應(yīng)用技術(shù)學(xué)院，沈陽 110000）

0 引言

情感分類是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程[1]。隨著互聯(lián)網(wǎng)技術(shù)的普及，越來越多的用戶會(huì)在網(wǎng)絡(luò)平臺(tái)上發(fā)表帶有主觀情感的評(píng)論，對(duì)用戶情感以及需求的分類成為網(wǎng)絡(luò)平臺(tái)重點(diǎn)關(guān)注的技術(shù)之一。情感分類是對(duì)文本作者傾向性觀點(diǎn)、態(tài)度的劃分，所以又被稱為觀點(diǎn)分析、傾向性分析等。其目的是根據(jù)文本所表達(dá)的含義和情感信息將文本劃分為積極或消極的兩種或多種類別，機(jī)器學(xué)習(xí)是目前解決情感分類問題的主流方法[2]?，F(xiàn)實(shí)中收集到的情感數(shù)據(jù)往往存在數(shù)據(jù)不平衡問題，即不同類別的樣本數(shù)量相差較大。在面對(duì)不平衡數(shù)據(jù)集時(shí)，傳統(tǒng)分類方法為了確保整體分類性能最佳，往往會(huì)將少數(shù)類樣本錯(cuò)分為多數(shù)類[3]。

SMOTE 算法[4]通過合成新樣本的方式使得數(shù)據(jù)集達(dá)到平衡。但該方法未對(duì)少數(shù)類樣本進(jìn)行區(qū)分，導(dǎo)致合成樣本質(zhì)量不佳，造成數(shù)據(jù)冗余。針對(duì)SMOTE 算法存在的問題，本文提出一種基于邊界度的過采樣方法（BDSMOTE）。將BD-SMOTE 算法與SVM 分類器相結(jié)合，解決了不平衡情感數(shù)據(jù)分類問題，驗(yàn)證了該算法的有效性。

1 相關(guān)工作

1.1 情感分類方法

目前解決情感分類問題主要通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法。陳璐[5]采用KNN 和SVM 對(duì)公司年報(bào)文本進(jìn)行分類，驗(yàn)證了年報(bào)舞弊行為在文本語義分布的差異化。Xue[6]等用LDA 主題模型實(shí)現(xiàn)了對(duì)2200 萬條Twitter 信息中與新冠肺炎相關(guān)的主題及情感的識(shí)別。孫鐵錚[7]等構(gòu)建了CNN、RCNN、FastText 和Transform 四種深度學(xué)習(xí)模型，通過實(shí)驗(yàn)證明了深度學(xué)習(xí)對(duì)問政文本具有較為理想的適用性。許浪[8]等提出了一種基于BERT、CNN 和BiLSTM 的醫(yī)學(xué)文本分類模型CMNN，實(shí)現(xiàn)了網(wǎng)絡(luò)問診平臺(tái)的自動(dòng)準(zhǔn)確科室推薦。

1.2 文本向量化

文本為非結(jié)構(gòu)化數(shù)據(jù)，需要事先將文本轉(zhuǎn)化為數(shù)值形式才能被計(jì)算機(jī)所處理。本文使用空間向量模型來表示文本：

其中，v 代表一段文本的向量，fi代表文本的第i 個(gè)特征屬性，n 代表向量緯度，即字典長度。

TF-IDF 又稱為詞頻-逆文檔頻率，是信息檢索領(lǐng)域中常用的一種文本表示方法，用以評(píng)估詞對(duì)文本的重要性。TF-IDF 認(rèn)為一個(gè)詞的重要程度與它在文檔中出現(xiàn)的次數(shù)成正比，與它在語料庫中出現(xiàn)的頻率成反比。因此，TFIDF 可以很好的實(shí)現(xiàn)提取文檔中關(guān)鍵詞的目的，避免了緯度災(zāi)難。本文使用TF-IDF 對(duì)情感數(shù)據(jù)集進(jìn)行文本向量化處理。

2 基于邊界度的過采樣方法

BD-SMOTE 算法的具體流程主要由三部分組成：首先，根據(jù)少數(shù)類樣本xi的多數(shù)類最近鄰和少數(shù)類最近鄰計(jì)算xi的邊界度；其次，根據(jù)邊界度計(jì)算每一個(gè)少數(shù)類樣本的采樣權(quán)重；最后，根據(jù)權(quán)重自適應(yīng)確定每一個(gè)少數(shù)類樣本需要生成新樣本的數(shù)量。

2.1 邊界度

考慮位于分類邊界附近的樣本會(huì)攜帶更多信息，本文通過計(jì)算每個(gè)少數(shù)類樣本的邊界度來確定少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布。在后續(xù)過采樣過程中，使靠近分類邊界的少數(shù)類樣本生成更多新樣本，有效提高新樣本質(zhì)量。

給定一個(gè)不平衡數(shù)據(jù)集，如圖1 所示，其中白色圓形為少數(shù)類樣本，灰色圓形為多數(shù)類樣本。對(duì)于每一個(gè)少數(shù)類樣本xi，計(jì)算xi與最近的少數(shù)類樣本間的歐式距離dist（xi，xmin）。以xi為圓心，以dist（xi，xmin）為半徑形成的超球體稱為xi的N 鄰域，如圖1 中的白色圓盤所示；類似的，計(jì)算xi與最近的多數(shù)類樣本間的歐式距離dist（xi，xmaj）。以xi為圓心，以dist（xi，xmaj）為半徑形成的超球體稱為xi的J 鄰域，如圖1 中的灰色圓盤所示。N 鄰域與J 鄰域的并集稱為NJ 鄰域。

圖1 少數(shù)類樣本的鄰域

xi的NJ 鄰域內(nèi)的多數(shù)類和少數(shù)類樣本的數(shù)量可以反映xi在不平衡數(shù)據(jù)集中的分布。如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量遠(yuǎn)大于多數(shù)類樣本，則xi為安全樣本，如圖1中的D 樣本；如果xi的NJ 鄰域內(nèi)多數(shù)類樣本數(shù)量遠(yuǎn)大于少數(shù)類樣本，則xi為噪聲，如圖1 中的A 樣本；如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量和多數(shù)類樣本趨近相同，則xi為邊界樣本，如圖1 中的B 樣本和C 樣本。基于上述分析，提出以下定義用于確定少數(shù)類樣本xi在不平衡數(shù)據(jù)集中的分布：

定義1：邊界度：少數(shù)類樣本xi的邊界度（si）定義為xi的NJ 鄰域內(nèi)少數(shù)類和多數(shù)類樣本數(shù)量差值的平方：

其中，ai為NJ 鄰域內(nèi)少數(shù)類樣本的數(shù)量，bi為NJ 鄰域內(nèi)多數(shù)類樣本的數(shù)量。

2.2 自適應(yīng)過采樣階段

針對(duì)SMTOE 算法未對(duì)少數(shù)類樣本進(jìn)行區(qū)分性選擇，導(dǎo)致新生成樣本質(zhì)量不佳這一問題。本文提出了一種基于邊界度的過采樣方法，該方法根據(jù)少數(shù)類樣本的邊界度計(jì)算采樣權(quán)重。在后續(xù)過采樣過程中，通過權(quán)重自適應(yīng)確定每一個(gè)少數(shù)類樣本需要生成新樣本的數(shù)量。

定義2：采樣權(quán)重：少數(shù)類樣本xi的采樣權(quán)重（Wi）定義為xi的邊界度的倒數(shù)：

其中，si為少數(shù)類樣本的邊界度，A 為修正參數(shù)，為了避免出現(xiàn)分母為0 的情況。

定義3：采樣倍率：少數(shù)類樣本xi的采樣倍率（gi）定義為Wi與多數(shù)類和少數(shù)類樣本數(shù)量差值的乘積：

其中，Wi為少數(shù)類樣本xi的采樣權(quán)重，G 為多數(shù)類和少數(shù)類樣本數(shù)量的差值。

在后續(xù)過采樣過程中，使用下式合成新樣本：

其中，xnew為新生成樣本，xi為種子樣本，xn為候選近鄰，rand（0，1）為0～1 的隨機(jī)數(shù)。

由式（3）可知，少數(shù)類樣本xi越靠近分類邊界，其邊界度越小，取倒數(shù)后式（3）的分子越大，那么xi的采樣權(quán)重也就越大；相反，少數(shù)類樣本xi越遠(yuǎn)離分類邊界，其邊界度越大，取倒數(shù)后式（3）的分子越小，那么xi的采樣權(quán)重也就越小，因此，該算法不易受噪聲影響。BD-SMOTE 算法確定了每一個(gè)少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布，并且不需要預(yù)定參數(shù)。在后續(xù)過采樣過程中，BD-SMOTE 算法使靠近分類邊界的少數(shù)類樣本生成更多新樣本，有效提高了新樣本質(zhì)量，避免數(shù)據(jù)冗余。BD-SMOTE 算法的具體流程如算法1 所示。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

為了驗(yàn)證BD-SMOTE 算法處理非平衡情感數(shù)據(jù)集的有效性，實(shí)驗(yàn)采用來自GitHub 的公開語料數(shù)據(jù)集Online-Shopping，語料包含書籍評(píng)論、電子產(chǎn)品評(píng)論、生活用品評(píng)論等，其中積極評(píng)論5000 條，消極評(píng)論2000 條，語料數(shù)據(jù)集部分樣本如表1 所示。

表1 不平衡語料數(shù)據(jù)集部分樣本

3.2 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證BD-SMOTE 算法在處理非平衡情感數(shù)據(jù)時(shí)的性能，本文設(shè)計(jì)了5 種非平衡情感數(shù)據(jù)預(yù)處理與SVM分類器相結(jié)合的分類實(shí)驗(yàn)。實(shí)驗(yàn)1：原始不平衡數(shù)據(jù)集+SVM；實(shí)驗(yàn)2：原始不平衡數(shù)據(jù)集+SMOTE+SVM；實(shí)驗(yàn)3：原始不平衡數(shù)據(jù)集+Borderline-SMOTE+SVM；實(shí)驗(yàn)4：原始不平衡數(shù)據(jù)集+BD-SMOTE+SVM；實(shí)驗(yàn)5：原始不平衡數(shù)據(jù)集+SVM。非平衡情感數(shù)據(jù)選用Online-Shopping 語料數(shù)據(jù)集，其不平衡比率為2.5。使用二分類中常用的F1、G-mean和AUC 這3 個(gè)評(píng)價(jià)指標(biāo)來評(píng)估分類效果。

由圖2 可知，經(jīng)過任何一種過采樣方法預(yù)處理后的Online-Shopping 數(shù)據(jù)集的評(píng)價(jià)指標(biāo)均優(yōu)于原始數(shù)據(jù)集。所有過采樣方法中，表現(xiàn)最差的為ADASYN 算法，經(jīng)過分析得出原因，Online-Shopping 數(shù)據(jù)集中含有噪聲，而ADASYN 算法易受噪聲干擾；表現(xiàn)最好的為BD-SMOTE算法，證明了BD-SMOTE 算法解決非平衡情感數(shù)據(jù)分類問題的有效性。

圖2 非平衡情感數(shù)據(jù)分類實(shí)驗(yàn)結(jié)果

4 結(jié)論

本文提出了一種基于邊界度的過采樣方法。考慮位于分類邊界附近的少數(shù)類樣本會(huì)攜帶更多信息，選擇為靠近分類邊界的少數(shù)類樣本生成更多新樣本，有效提高新樣本質(zhì)量，并且該算法受噪聲影響較小。實(shí)驗(yàn)結(jié)果證明提出的BD-SMOTE 算法在處理多個(gè)不平衡數(shù)據(jù)集時(shí)，其效果優(yōu)于其他過采樣算法，并且將BD-SMOTE 算法應(yīng)用于不平衡情感數(shù)據(jù)集時(shí)，有效提高了分類準(zhǔn)確率。未來可嘗試將該算法應(yīng)用到多類別的不平衡情感數(shù)據(jù)集當(dāng)中，力求提升情感分類性能。