鄭森 ZHENG Sen;齊曉軒 QI Xiao-xuan;柳億霖 LIU Yi-lin
(①沈陽大學(xué)機(jī)械工程學(xué)院,沈陽 110000;②沈陽大學(xué)應(yīng)用技術(shù)學(xué)院,沈陽 110000)
情感分類是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程[1]。隨著互聯(lián)網(wǎng)技術(shù)的普及,越來越多的用戶會(huì)在網(wǎng)絡(luò)平臺(tái)上發(fā)表帶有主觀情感的評(píng)論,對(duì)用戶情感以及需求的分類成為網(wǎng)絡(luò)平臺(tái)重點(diǎn)關(guān)注的技術(shù)之一。情感分類是對(duì)文本作者傾向性觀點(diǎn)、態(tài)度的劃分,所以又被稱為觀點(diǎn)分析、傾向性分析等。其目的是根據(jù)文本所表達(dá)的含義和情感信息將文本劃分為積極或消極的兩種或多種類別,機(jī)器學(xué)習(xí)是目前解決情感分類問題的主流方法[2]?,F(xiàn)實(shí)中收集到的情感數(shù)據(jù)往往存在數(shù)據(jù)不平衡問題,即不同類別的樣本數(shù)量相差較大。在面對(duì)不平衡數(shù)據(jù)集時(shí),傳統(tǒng)分類方法為了確保整體分類性能最佳,往往會(huì)將少數(shù)類樣本錯(cuò)分為多數(shù)類[3]。
SMOTE 算法[4]通過合成新樣本的方式使得數(shù)據(jù)集達(dá)到平衡。但該方法未對(duì)少數(shù)類樣本進(jìn)行區(qū)分,導(dǎo)致合成樣本質(zhì)量不佳,造成數(shù)據(jù)冗余。針對(duì)SMOTE 算法存在的問題,本文提出一種基于邊界度的過采樣方法(BDSMOTE)。將BD-SMOTE 算法與SVM 分類器相結(jié)合,解決了不平衡情感數(shù)據(jù)分類問題,驗(yàn)證了該算法的有效性。
目前解決情感分類問題主要通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法。陳璐[5]采用KNN 和SVM 對(duì)公司年報(bào)文本進(jìn)行分類,驗(yàn)證了年報(bào)舞弊行為在文本語義分布的差異化。Xue[6]等用LDA 主題模型實(shí)現(xiàn)了對(duì)2200 萬條Twitter 信息中與新冠肺炎相關(guān)的主題及情感的識(shí)別。孫鐵錚[7]等構(gòu)建了CNN、RCNN、FastText 和Transform 四種深度學(xué)習(xí)模型,通過實(shí)驗(yàn)證明了深度學(xué)習(xí)對(duì)問政文本具有較為理想的適用性。許浪[8]等提出了一種基于BERT、CNN 和BiLSTM 的醫(yī)學(xué)文本分類模型CMNN,實(shí)現(xiàn)了網(wǎng)絡(luò)問診平臺(tái)的自動(dòng)準(zhǔn)確科室推薦。
文本為非結(jié)構(gòu)化數(shù)據(jù),需要事先將文本轉(zhuǎn)化為數(shù)值形式才能被計(jì)算機(jī)所處理。本文使用空間向量模型來表示文本:
其中,v 代表一段文本的向量,fi代表文本的第i 個(gè)特征屬性,n 代表向量緯度,即字典長度。
TF-IDF 又稱為詞頻-逆文檔頻率,是信息檢索領(lǐng)域中常用的一種文本表示方法,用以評(píng)估詞對(duì)文本的重要性。TF-IDF 認(rèn)為一個(gè)詞的重要程度與它在文檔中出現(xiàn)的次數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比。因此,TFIDF 可以很好的實(shí)現(xiàn)提取文檔中關(guān)鍵詞的目的,避免了緯度災(zāi)難。本文使用TF-IDF 對(duì)情感數(shù)據(jù)集進(jìn)行文本向量化處理。
BD-SMOTE 算法的具體流程主要由三部分組成:首先,根據(jù)少數(shù)類樣本xi的多數(shù)類最近鄰和少數(shù)類最近鄰計(jì)算xi的邊界度;其次,根據(jù)邊界度計(jì)算每一個(gè)少數(shù)類樣本的采樣權(quán)重;最后,根據(jù)權(quán)重自適應(yīng)確定每一個(gè)少數(shù)類樣本需要生成新樣本的數(shù)量。
考慮位于分類邊界附近的樣本會(huì)攜帶更多信息,本文通過計(jì)算每個(gè)少數(shù)類樣本的邊界度來確定少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布。在后續(xù)過采樣過程中,使靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高新樣本質(zhì)量。
給定一個(gè)不平衡數(shù)據(jù)集,如圖1 所示,其中白色圓形為少數(shù)類樣本,灰色圓形為多數(shù)類樣本。對(duì)于每一個(gè)少數(shù)類樣本xi,計(jì)算xi與最近的少數(shù)類樣本間的歐式距離dist(xi,xmin)。以xi為圓心,以dist(xi,xmin)為半徑形成的超球體稱為xi的N 鄰域,如圖1 中的白色圓盤所示;類似的,計(jì)算xi與最近的多數(shù)類樣本間的歐式距離dist(xi,xmaj)。以xi為圓心,以dist(xi,xmaj)為半徑形成的超球體稱為xi的J 鄰域,如圖1 中的灰色圓盤所示。N 鄰域與J 鄰域的并集稱為NJ 鄰域。
圖1 少數(shù)類樣本的鄰域
xi的NJ 鄰域內(nèi)的多數(shù)類和少數(shù)類樣本的數(shù)量可以反映xi在不平衡數(shù)據(jù)集中的分布。如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量遠(yuǎn)大于多數(shù)類樣本,則xi為安全樣本,如圖1中的D 樣本;如果xi的NJ 鄰域內(nèi)多數(shù)類樣本數(shù)量遠(yuǎn)大于少數(shù)類樣本,則xi為噪聲,如圖1 中的A 樣本;如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量和多數(shù)類樣本趨近相同,則xi為邊界樣本,如圖1 中的B 樣本和C 樣本。基于上述分析,提出以下定義用于確定少數(shù)類樣本xi在不平衡數(shù)據(jù)集中的分布:
定義1:邊界度:少數(shù)類樣本xi的邊界度(si)定義為xi的NJ 鄰域內(nèi)少數(shù)類和多數(shù)類樣本數(shù)量差值的平方:
其中,ai為NJ 鄰域內(nèi)少數(shù)類樣本的數(shù)量,bi為NJ 鄰域內(nèi)多數(shù)類樣本的數(shù)量。
針對(duì)SMTOE 算法未對(duì)少數(shù)類樣本進(jìn)行區(qū)分性選擇,導(dǎo)致新生成樣本質(zhì)量不佳這一問題。本文提出了一種基于邊界度的過采樣方法,該方法根據(jù)少數(shù)類樣本的邊界度計(jì)算采樣權(quán)重。在后續(xù)過采樣過程中,通過權(quán)重自適應(yīng)確定每一個(gè)少數(shù)類樣本需要生成新樣本的數(shù)量。
定義2:采樣權(quán)重:少數(shù)類樣本xi的采樣權(quán)重(Wi)定義為xi的邊界度的倒數(shù):
其中,si為少數(shù)類樣本的邊界度,A 為修正參數(shù),為了避免出現(xiàn)分母為0 的情況。
定義3:采樣倍率:少數(shù)類樣本xi的采樣倍率(gi)定義為Wi與多數(shù)類和少數(shù)類樣本數(shù)量差值的乘積:
其中,Wi為少數(shù)類樣本xi的采樣權(quán)重,G 為多數(shù)類和少數(shù)類樣本數(shù)量的差值。
在后續(xù)過采樣過程中,使用下式合成新樣本:
其中,xnew為新生成樣本,xi為種子樣本,xn為候選近鄰,rand(0,1)為0~1 的隨機(jī)數(shù)。
由式(3)可知,少數(shù)類樣本xi越靠近分類邊界,其邊界度越小,取倒數(shù)后式(3)的分子越大,那么xi的采樣權(quán)重也就越大;相反,少數(shù)類樣本xi越遠(yuǎn)離分類邊界,其邊界度越大,取倒數(shù)后式(3)的分子越小,那么xi的采樣權(quán)重也就越小,因此,該算法不易受噪聲影響。BD-SMOTE 算法確定了每一個(gè)少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布,并且不需要預(yù)定參數(shù)。在后續(xù)過采樣過程中,BD-SMOTE 算法使靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高了新樣本質(zhì)量,避免數(shù)據(jù)冗余。BD-SMOTE 算法的具體流程如算法1 所示。
為了驗(yàn)證BD-SMOTE 算法處理非平衡情感數(shù)據(jù)集的有效性,實(shí)驗(yàn)采用來自GitHub 的公開語料數(shù)據(jù)集Online-Shopping,語料包含書籍評(píng)論、電子產(chǎn)品評(píng)論、生活用品評(píng)論等,其中積極評(píng)論5000 條,消極評(píng)論2000 條,語料數(shù)據(jù)集部分樣本如表1 所示。
表1 不平衡語料數(shù)據(jù)集部分樣本
為了驗(yàn)證BD-SMOTE 算法在處理非平衡情感數(shù)據(jù)時(shí)的性能,本文設(shè)計(jì)了5 種非平衡情感數(shù)據(jù)預(yù)處理與SVM分類器相結(jié)合的分類實(shí)驗(yàn)。實(shí)驗(yàn)1:原始不平衡數(shù)據(jù)集+SVM;實(shí)驗(yàn)2:原始不平衡數(shù)據(jù)集+SMOTE+SVM;實(shí)驗(yàn)3:原始不平衡數(shù)據(jù)集+Borderline-SMOTE+SVM;實(shí)驗(yàn)4:原始不平衡數(shù)據(jù)集+BD-SMOTE+SVM;實(shí)驗(yàn)5:原始不平衡數(shù)據(jù)集+SVM。非平衡情感數(shù)據(jù)選用Online-Shopping 語料數(shù)據(jù)集,其不平衡比率為2.5。使用二分類中常用的F1、G-mean和AUC 這3 個(gè)評(píng)價(jià)指標(biāo)來評(píng)估分類效果。
由圖2 可知,經(jīng)過任何一種過采樣方法預(yù)處理后的Online-Shopping 數(shù)據(jù)集的評(píng)價(jià)指標(biāo)均優(yōu)于原始數(shù)據(jù)集。所有過采樣方法中,表現(xiàn)最差的為ADASYN 算法,經(jīng)過分析得出原因,Online-Shopping 數(shù)據(jù)集中含有噪聲,而ADASYN 算法易受噪聲干擾;表現(xiàn)最好的為BD-SMOTE算法,證明了BD-SMOTE 算法解決非平衡情感數(shù)據(jù)分類問題的有效性。
圖2 非平衡情感數(shù)據(jù)分類實(shí)驗(yàn)結(jié)果
本文提出了一種基于邊界度的過采樣方法。考慮位于分類邊界附近的少數(shù)類樣本會(huì)攜帶更多信息,選擇為靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高新樣本質(zhì)量,并且該算法受噪聲影響較小。實(shí)驗(yàn)結(jié)果證明提出的BD-SMOTE 算法在處理多個(gè)不平衡數(shù)據(jù)集時(shí),其效果優(yōu)于其他過采樣算法,并且將BD-SMOTE 算法應(yīng)用于不平衡情感數(shù)據(jù)集時(shí),有效提高了分類準(zhǔn)確率。未來可嘗試將該算法應(yīng)用到多類別的不平衡情感數(shù)據(jù)集當(dāng)中,力求提升情感分類性能。