• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      非平衡情感數(shù)據(jù)背景下基于邊界度的過采樣方法

      2023-11-17 02:45:58鄭森ZHENGSen齊曉軒QIXiaoxuan柳億霖LIUYilin
      價(jià)值工程 2023年31期
      關(guān)鍵詞:鄰域邊界分類

      鄭森 ZHENG Sen;齊曉軒 QI Xiao-xuan;柳億霖 LIU Yi-lin

      (①沈陽大學(xué)機(jī)械工程學(xué)院,沈陽 110000;②沈陽大學(xué)應(yīng)用技術(shù)學(xué)院,沈陽 110000)

      0 引言

      情感分類是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程[1]。隨著互聯(lián)網(wǎng)技術(shù)的普及,越來越多的用戶會(huì)在網(wǎng)絡(luò)平臺(tái)上發(fā)表帶有主觀情感的評(píng)論,對(duì)用戶情感以及需求的分類成為網(wǎng)絡(luò)平臺(tái)重點(diǎn)關(guān)注的技術(shù)之一。情感分類是對(duì)文本作者傾向性觀點(diǎn)、態(tài)度的劃分,所以又被稱為觀點(diǎn)分析、傾向性分析等。其目的是根據(jù)文本所表達(dá)的含義和情感信息將文本劃分為積極或消極的兩種或多種類別,機(jī)器學(xué)習(xí)是目前解決情感分類問題的主流方法[2]?,F(xiàn)實(shí)中收集到的情感數(shù)據(jù)往往存在數(shù)據(jù)不平衡問題,即不同類別的樣本數(shù)量相差較大。在面對(duì)不平衡數(shù)據(jù)集時(shí),傳統(tǒng)分類方法為了確保整體分類性能最佳,往往會(huì)將少數(shù)類樣本錯(cuò)分為多數(shù)類[3]。

      SMOTE 算法[4]通過合成新樣本的方式使得數(shù)據(jù)集達(dá)到平衡。但該方法未對(duì)少數(shù)類樣本進(jìn)行區(qū)分,導(dǎo)致合成樣本質(zhì)量不佳,造成數(shù)據(jù)冗余。針對(duì)SMOTE 算法存在的問題,本文提出一種基于邊界度的過采樣方法(BDSMOTE)。將BD-SMOTE 算法與SVM 分類器相結(jié)合,解決了不平衡情感數(shù)據(jù)分類問題,驗(yàn)證了該算法的有效性。

      1 相關(guān)工作

      1.1 情感分類方法

      目前解決情感分類問題主要通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法。陳璐[5]采用KNN 和SVM 對(duì)公司年報(bào)文本進(jìn)行分類,驗(yàn)證了年報(bào)舞弊行為在文本語義分布的差異化。Xue[6]等用LDA 主題模型實(shí)現(xiàn)了對(duì)2200 萬條Twitter 信息中與新冠肺炎相關(guān)的主題及情感的識(shí)別。孫鐵錚[7]等構(gòu)建了CNN、RCNN、FastText 和Transform 四種深度學(xué)習(xí)模型,通過實(shí)驗(yàn)證明了深度學(xué)習(xí)對(duì)問政文本具有較為理想的適用性。許浪[8]等提出了一種基于BERT、CNN 和BiLSTM 的醫(yī)學(xué)文本分類模型CMNN,實(shí)現(xiàn)了網(wǎng)絡(luò)問診平臺(tái)的自動(dòng)準(zhǔn)確科室推薦。

      1.2 文本向量化

      文本為非結(jié)構(gòu)化數(shù)據(jù),需要事先將文本轉(zhuǎn)化為數(shù)值形式才能被計(jì)算機(jī)所處理。本文使用空間向量模型來表示文本:

      其中,v 代表一段文本的向量,fi代表文本的第i 個(gè)特征屬性,n 代表向量緯度,即字典長度。

      TF-IDF 又稱為詞頻-逆文檔頻率,是信息檢索領(lǐng)域中常用的一種文本表示方法,用以評(píng)估詞對(duì)文本的重要性。TF-IDF 認(rèn)為一個(gè)詞的重要程度與它在文檔中出現(xiàn)的次數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比。因此,TFIDF 可以很好的實(shí)現(xiàn)提取文檔中關(guān)鍵詞的目的,避免了緯度災(zāi)難。本文使用TF-IDF 對(duì)情感數(shù)據(jù)集進(jìn)行文本向量化處理。

      2 基于邊界度的過采樣方法

      BD-SMOTE 算法的具體流程主要由三部分組成:首先,根據(jù)少數(shù)類樣本xi的多數(shù)類最近鄰和少數(shù)類最近鄰計(jì)算xi的邊界度;其次,根據(jù)邊界度計(jì)算每一個(gè)少數(shù)類樣本的采樣權(quán)重;最后,根據(jù)權(quán)重自適應(yīng)確定每一個(gè)少數(shù)類樣本需要生成新樣本的數(shù)量。

      2.1 邊界度

      考慮位于分類邊界附近的樣本會(huì)攜帶更多信息,本文通過計(jì)算每個(gè)少數(shù)類樣本的邊界度來確定少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布。在后續(xù)過采樣過程中,使靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高新樣本質(zhì)量。

      給定一個(gè)不平衡數(shù)據(jù)集,如圖1 所示,其中白色圓形為少數(shù)類樣本,灰色圓形為多數(shù)類樣本。對(duì)于每一個(gè)少數(shù)類樣本xi,計(jì)算xi與最近的少數(shù)類樣本間的歐式距離dist(xi,xmin)。以xi為圓心,以dist(xi,xmin)為半徑形成的超球體稱為xi的N 鄰域,如圖1 中的白色圓盤所示;類似的,計(jì)算xi與最近的多數(shù)類樣本間的歐式距離dist(xi,xmaj)。以xi為圓心,以dist(xi,xmaj)為半徑形成的超球體稱為xi的J 鄰域,如圖1 中的灰色圓盤所示。N 鄰域與J 鄰域的并集稱為NJ 鄰域。

      圖1 少數(shù)類樣本的鄰域

      xi的NJ 鄰域內(nèi)的多數(shù)類和少數(shù)類樣本的數(shù)量可以反映xi在不平衡數(shù)據(jù)集中的分布。如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量遠(yuǎn)大于多數(shù)類樣本,則xi為安全樣本,如圖1中的D 樣本;如果xi的NJ 鄰域內(nèi)多數(shù)類樣本數(shù)量遠(yuǎn)大于少數(shù)類樣本,則xi為噪聲,如圖1 中的A 樣本;如果xi的NJ 鄰域內(nèi)少數(shù)類樣本數(shù)量和多數(shù)類樣本趨近相同,則xi為邊界樣本,如圖1 中的B 樣本和C 樣本。基于上述分析,提出以下定義用于確定少數(shù)類樣本xi在不平衡數(shù)據(jù)集中的分布:

      定義1:邊界度:少數(shù)類樣本xi的邊界度(si)定義為xi的NJ 鄰域內(nèi)少數(shù)類和多數(shù)類樣本數(shù)量差值的平方:

      其中,ai為NJ 鄰域內(nèi)少數(shù)類樣本的數(shù)量,bi為NJ 鄰域內(nèi)多數(shù)類樣本的數(shù)量。

      2.2 自適應(yīng)過采樣階段

      針對(duì)SMTOE 算法未對(duì)少數(shù)類樣本進(jìn)行區(qū)分性選擇,導(dǎo)致新生成樣本質(zhì)量不佳這一問題。本文提出了一種基于邊界度的過采樣方法,該方法根據(jù)少數(shù)類樣本的邊界度計(jì)算采樣權(quán)重。在后續(xù)過采樣過程中,通過權(quán)重自適應(yīng)確定每一個(gè)少數(shù)類樣本需要生成新樣本的數(shù)量。

      定義2:采樣權(quán)重:少數(shù)類樣本xi的采樣權(quán)重(Wi)定義為xi的邊界度的倒數(shù):

      其中,si為少數(shù)類樣本的邊界度,A 為修正參數(shù),為了避免出現(xiàn)分母為0 的情況。

      定義3:采樣倍率:少數(shù)類樣本xi的采樣倍率(gi)定義為Wi與多數(shù)類和少數(shù)類樣本數(shù)量差值的乘積:

      其中,Wi為少數(shù)類樣本xi的采樣權(quán)重,G 為多數(shù)類和少數(shù)類樣本數(shù)量的差值。

      在后續(xù)過采樣過程中,使用下式合成新樣本:

      其中,xnew為新生成樣本,xi為種子樣本,xn為候選近鄰,rand(0,1)為0~1 的隨機(jī)數(shù)。

      由式(3)可知,少數(shù)類樣本xi越靠近分類邊界,其邊界度越小,取倒數(shù)后式(3)的分子越大,那么xi的采樣權(quán)重也就越大;相反,少數(shù)類樣本xi越遠(yuǎn)離分類邊界,其邊界度越大,取倒數(shù)后式(3)的分子越小,那么xi的采樣權(quán)重也就越小,因此,該算法不易受噪聲影響。BD-SMOTE 算法確定了每一個(gè)少數(shù)類樣本在不平衡數(shù)據(jù)集中的分布,并且不需要預(yù)定參數(shù)。在后續(xù)過采樣過程中,BD-SMOTE 算法使靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高了新樣本質(zhì)量,避免數(shù)據(jù)冗余。BD-SMOTE 算法的具體流程如算法1 所示。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      為了驗(yàn)證BD-SMOTE 算法處理非平衡情感數(shù)據(jù)集的有效性,實(shí)驗(yàn)采用來自GitHub 的公開語料數(shù)據(jù)集Online-Shopping,語料包含書籍評(píng)論、電子產(chǎn)品評(píng)論、生活用品評(píng)論等,其中積極評(píng)論5000 條,消極評(píng)論2000 條,語料數(shù)據(jù)集部分樣本如表1 所示。

      表1 不平衡語料數(shù)據(jù)集部分樣本

      3.2 實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證BD-SMOTE 算法在處理非平衡情感數(shù)據(jù)時(shí)的性能,本文設(shè)計(jì)了5 種非平衡情感數(shù)據(jù)預(yù)處理與SVM分類器相結(jié)合的分類實(shí)驗(yàn)。實(shí)驗(yàn)1:原始不平衡數(shù)據(jù)集+SVM;實(shí)驗(yàn)2:原始不平衡數(shù)據(jù)集+SMOTE+SVM;實(shí)驗(yàn)3:原始不平衡數(shù)據(jù)集+Borderline-SMOTE+SVM;實(shí)驗(yàn)4:原始不平衡數(shù)據(jù)集+BD-SMOTE+SVM;實(shí)驗(yàn)5:原始不平衡數(shù)據(jù)集+SVM。非平衡情感數(shù)據(jù)選用Online-Shopping 語料數(shù)據(jù)集,其不平衡比率為2.5。使用二分類中常用的F1、G-mean和AUC 這3 個(gè)評(píng)價(jià)指標(biāo)來評(píng)估分類效果。

      由圖2 可知,經(jīng)過任何一種過采樣方法預(yù)處理后的Online-Shopping 數(shù)據(jù)集的評(píng)價(jià)指標(biāo)均優(yōu)于原始數(shù)據(jù)集。所有過采樣方法中,表現(xiàn)最差的為ADASYN 算法,經(jīng)過分析得出原因,Online-Shopping 數(shù)據(jù)集中含有噪聲,而ADASYN 算法易受噪聲干擾;表現(xiàn)最好的為BD-SMOTE算法,證明了BD-SMOTE 算法解決非平衡情感數(shù)據(jù)分類問題的有效性。

      圖2 非平衡情感數(shù)據(jù)分類實(shí)驗(yàn)結(jié)果

      4 結(jié)論

      本文提出了一種基于邊界度的過采樣方法。考慮位于分類邊界附近的少數(shù)類樣本會(huì)攜帶更多信息,選擇為靠近分類邊界的少數(shù)類樣本生成更多新樣本,有效提高新樣本質(zhì)量,并且該算法受噪聲影響較小。實(shí)驗(yàn)結(jié)果證明提出的BD-SMOTE 算法在處理多個(gè)不平衡數(shù)據(jù)集時(shí),其效果優(yōu)于其他過采樣算法,并且將BD-SMOTE 算法應(yīng)用于不平衡情感數(shù)據(jù)集時(shí),有效提高了分類準(zhǔn)確率。未來可嘗試將該算法應(yīng)用到多類別的不平衡情感數(shù)據(jù)集當(dāng)中,力求提升情感分類性能。

      猜你喜歡
      鄰域邊界分類
      拓展閱讀的邊界
      分類算一算
      稀疏圖平方圖的染色數(shù)上界
      分類討論求坐標(biāo)
      論中立的幫助行為之可罰邊界
      基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      關(guān)于-型鄰域空間
      “偽翻譯”:“翻譯”之邊界行走者
      长顺县| 格尔木市| 万载县| 钟山县| 中江县| 新昌县| 拜城县| 滕州市| 英吉沙县| 楚雄市| 嵊州市| 淮阳县| 长岭县| 阆中市| 南充市| 靖宇县| 桂平市| 商南县| 长兴县| 临沂市| 平武县| 景东| 深水埗区| 榆社县| 东源县| 应城市| 江永县| 南漳县| 桂东县| 元朗区| 乾安县| 兴山县| 新田县| 遂宁市| 丹江口市| 肇州县| 永靖县| 上林县| 玉环县| 密山市| 绥芬河市|