• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用協(xié)變量調(diào)整控制混雜因子的魯棒文本分類①

      2020-03-18 07:55:06董園園
      關(guān)鍵詞:準(zhǔn)確度分類器分類

      董園園

      (齊魯師范學(xué)院,濟(jì)南 250013)

      1 引言

      文本分類[1]方法的研究已經(jīng)超過了50 年,該類方法大多被應(yīng)用于專題文獻(xiàn)分類.然而,隨著科技的發(fā)展和創(chuàng)新,跨學(xué)科領(lǐng)域如計(jì)算社會(huì)科學(xué)[2]、公共衛(wèi)生監(jiān)測[3]和流行病學(xué)[4]等都對文本分類提出了新要求.這些領(lǐng)域的待分類對象通常是在線文本[5],預(yù)測標(biāo)簽則可能是健康狀況、政治立場或人類表情等差異化的術(shù)語.這些變化對文本分類(或稱為文檔分類)提出了新要求和新挑戰(zhàn).

      目前,已有很多研究者對文本分類進(jìn)行了探討和研究,如文獻(xiàn)[6]為了提取更多的可信反例和構(gòu)造準(zhǔn)確高效的分類器,提出一種基于聚類的半監(jiān)督主動(dòng)分類方法,該方法利用聚類技術(shù)和正例文檔共享盡可能少的特征,從未標(biāo)識(shí)數(shù)據(jù)集中盡可能多地移除正例,但該方法僅適用于較少文本特征的情況.文獻(xiàn)[7]中提出一種基于聚類的改進(jìn)KNN 算法,采用改進(jìn)統(tǒng)計(jì)量方法進(jìn)行文本特征提取,依據(jù)聚類方法將文本聚類為幾個(gè)簇,最后利用改進(jìn)的KNN 方法對簇類進(jìn)行分類,但該方法難以提高文本分類效率.還有一些學(xué)者開發(fā)出控制混雜因子[8]的方法,包括匹配[9]、分層和回歸分析[10].文獻(xiàn)[11]開發(fā)出了用于因果圖模型的測試方法,用于確定哪種結(jié)構(gòu)允許使用后門調(diào)整對混雜因子進(jìn)行控制.文獻(xiàn)[12]提出了一種基于LDA 模型的文本分類方法,應(yīng)用LDA 概率增長模型對文本集進(jìn)行主題建模,在文本集的隱含主題-文本矩陣上訓(xùn)練SVM,構(gòu)造文本分類器,具有較好的分類效果.

      上述方法各有特點(diǎn),但其主要缺點(diǎn)是:混雜變量不能得到很好地控制,從而造成分類器的錯(cuò)誤輸出.本文的目的是對影響分類的因子進(jìn)行控制和調(diào)整,使得文本分類器具有良好的準(zhǔn)確性和魯棒性.因此,本文基于Pearl 的后門調(diào)整方法[11],提出了一種基于協(xié)變量調(diào)整的文本分類方法,該方法以訓(xùn)練階段的混雜變量為條件,在預(yù)測階段計(jì)算出混雜變量的總和.另外,本文還進(jìn)一步探討了該方法的參數(shù)影響,以允許對預(yù)期調(diào)整的強(qiáng)度進(jìn)行調(diào)整.實(shí)驗(yàn)結(jié)果表明,所提方法能夠提高分類器的魯棒性,即使在混雜因子與目標(biāo)變量之間的關(guān)聯(lián)從訓(xùn)練集到測試集發(fā)生倒置的極端情況下,也能保持較高的準(zhǔn)確度.

      2 用于文本分類器的協(xié)變量調(diào)整

      2.1 文本分類中得分協(xié)變量調(diào)整

      假設(shè)研究目的是估計(jì)變量X對變量Y的因果效應(yīng),但無法進(jìn)行隨機(jī)對照實(shí)驗(yàn).則已知混雜因子變量Z的一個(gè)充分集,可以使用式(1)估計(jì)對因果關(guān)系:

      該公式稱作協(xié)變量調(diào)整(也稱為后門調(diào)整).協(xié)變量標(biāo)準(zhǔn)是一個(gè)圖形化測試,決定Z是否是估計(jì)因果效應(yīng)變量的一個(gè)充分集,并要求Z中不存在X的子節(jié)點(diǎn),且Z會(huì)阻止X和Y之間包含指向X的每一條路徑.p(y|x)≠p(y|do(x)),其中的符號“do”表示假設(shè)X=x.

      協(xié)變量調(diào)整已經(jīng)在因果推理問題中得到了充分研究,但本文的研究是文本分類中的應(yīng)用.假設(shè)已知一個(gè)訓(xùn)練集集合中的每個(gè)實(shí)例均包含一個(gè)術(shù)語特征向量x,一個(gè)標(biāo)簽y和一個(gè)協(xié)變量z.本文的目的是對一些新實(shí)例xi的 標(biāo)簽yi進(jìn)行預(yù)測,同時(shí)控制一個(gè)未觀測到的混雜因子zi.也即:本文假設(shè)混雜因子可在訓(xùn)練階段觀察到,但無法在測試階段觀察到.

      所提方法的有向圖模型如圖1 所示,給出了對文本分類的一種省略混雜因子Z的判別式方法,假設(shè)混雜因子對P(Y|Z)中的向量和目標(biāo)標(biāo)簽均有影響,用已觀察到的向量x為條件的logistic 回歸分類器對P(Y|X)進(jìn)行建模,該模型的結(jié)構(gòu)確保Z可以滿足用于調(diào)整的協(xié)變量標(biāo)準(zhǔn).

      圖1 本文方法的有向圖模型

      雖然協(xié)變量調(diào)整方法通常用于識(shí)別X對Y的因果關(guān)系,但并沒有解釋任何因果關(guān)系.然而,式(1)給出了一個(gè)框架,在控制Z中X為已知時(shí),作出對Y的預(yù)測.這樣,可以訓(xùn)練一個(gè)分類器,對P(Y|Z)從訓(xùn)練數(shù)據(jù)到測試數(shù)據(jù)發(fā)生變化的情況下具備魯棒性.

      本文使用式(1)對測試樣本x進(jìn)行分類.假設(shè)對于訓(xùn)練樣本,z為已觀測狀態(tài),但沒有在測試樣本中觀察到.因此,需要從已標(biāo)記的訓(xùn)練數(shù)據(jù)中估計(jì)兩個(gè)變量p(y|x,z)和p(z).假設(shè)xi是 一個(gè)二進(jìn)制特征向量,yi和zi則是二進(jìn)制變量.對于p(z),可使用最大似然估計(jì):

      式中,1 [·]是 一個(gè)指示函數(shù);D表示訓(xùn)練集;p(z)表示為訓(xùn)練集中指示函數(shù)之和與訓(xùn)練集樣本數(shù)的比例.對于p(y|x,z),使用L2-正則化logistic 回歸,計(jì)算過程可以參考文獻(xiàn)[13].

      2.2 對調(diào)整強(qiáng)度進(jìn)行調(diào)節(jié)

      從實(shí)施的角度來看,上述方法可表述為:使用上述最大似然估計(jì)(Maximum Likelihood Estimation,MLE)計(jì)算出p(z).本文通過對每個(gè)實(shí)例xi,附加上兩個(gè)分別表示z=0 和z=1 的額外特征ci,0和ci,1,高效地計(jì)算出p(y|x,z).如果zi=0,將第一個(gè)特征設(shè)為v1,將第二個(gè)特征設(shè)為0;若zi=1,則將第二個(gè)特征設(shè)為v1,將第一個(gè)特征設(shè)為0.默認(rèn)情況下設(shè)v1=1,但可因情況而定.為了對一個(gè)新實(shí)例進(jìn)行預(yù)測,使用式(1)計(jì)算后驗(yàn)概率.

      考慮到術(shù)語特征向量x通常包含數(shù)以千計(jì)的元素變量,而協(xié)變量z添加兩個(gè)額外特征就能夠?qū)Ψ诸惍a(chǎn)生較大影響.為了理解這一點(diǎn),可以考慮正則化logistic回歸中的權(quán)重訓(xùn)練不足的問題[13].由于在文本分類中使用了數(shù)以千計(jì)的相互聯(lián)系和重疊的變量,對一個(gè)logistic 回歸模型進(jìn)行的優(yōu)化涉及到相關(guān)變量系數(shù)間的權(quán)衡問題,以及由L2 正則化懲罰所決定的系數(shù)量級.在這個(gè)設(shè)定中,少數(shù)高預(yù)測性特征的存在會(huì)導(dǎo)致低預(yù)測性特征的系數(shù)低于期望數(shù)值,因?yàn)楦哳A(yù)測性特征在模型中占據(jù)主導(dǎo)地位,會(huì)導(dǎo)致在低預(yù)測性特征設(shè)定中的模型性能較差.因此,本文通過引入z的特征(一個(gè)潛在的高預(yù)測性特征),故意對x中的術(shù)語系數(shù)進(jìn)行不充足訓(xùn)練.例如,若z指的是性別,則通過使用協(xié)變量調(diào)整,使得與其他術(shù)語相比,性別指示性術(shù)語具有相對較低量級的系數(shù).通過對協(xié)變量調(diào)整的強(qiáng)度進(jìn)行調(diào)節(jié),改寫了L2 正則化logistic 回歸[13]對數(shù)似然函數(shù),對術(shù)語向量的系數(shù)和混雜因子的系數(shù)進(jìn)行區(qū)分:

      式中,θx為術(shù)語向量系數(shù);θz為混雜因子系數(shù);θ 為θx和θz的串聯(lián)參數(shù);λx和 λz分別為控制術(shù)語系數(shù)和混雜因子系數(shù)的正則化強(qiáng)度.在默認(rèn)情況下設(shè)λz=λx=1.但是,通過設(shè) λz<λx,能夠降低混雜因子系數(shù)θz的量級懲罰.這使得系數(shù)θz在分類決策中發(fā)揮比θx更重要的作用,并增加 θx中不充分訓(xùn)練的數(shù)量.本文通過提高v1的混雜因子特征數(shù)值,同時(shí)將其他特征數(shù)值保持為0,達(dá)到這個(gè)效果.由于本文沒有將特征矩陣標(biāo)準(zhǔn)化,增加v1的數(shù)值同時(shí)保持x的數(shù)值不變,能夠促使 θz的數(shù)值較小,并有效地使得對 θz的L2 懲罰相對小于θx.

      3 實(shí)驗(yàn)與分析

      本文使用了3 個(gè)公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其中混雜因子Z和分類變量Y之間的關(guān)系在訓(xùn)練集和測試集中有所差異.有以下兩種情況:直接控制訓(xùn)練和測試數(shù)據(jù)之間的差異;Z和Y之間的關(guān)系發(fā)生了突然.

      為對具有不同的P(Y|Z)分布的訓(xùn)練/測試集進(jìn)行采樣,假設(shè)已有包含元素 {(xi,yi,zi)}標(biāo)注后的數(shù)據(jù)集Dtrain和Dtest,其中yi和zi為二進(jìn)制變量.本文引入了一個(gè)偏差參數(shù)P(y=1|z=1)=b;根據(jù)定義可知P(y=0|z=1)=1-b.對于每個(gè)實(shí)驗(yàn),從每個(gè)集合進(jìn)行不放回抽樣D′train?Dtrain,D′test?Dtest.為了模擬P(Y|Z)中的變化,對于訓(xùn)練和測試使用不同的偏差項(xiàng)btrain和btest.因此,根據(jù)以下約束條件進(jìn)行采樣:

      1)Ptrain(y=1|z=1)=btest;

      2)Ptest(y=1|z=1)=btest;

      3)Ptrain(Y)=Ptest(Y);

      4)Ptrain(Z)=Ptest(Z).

      其中,3)和4)的兩個(gè)約束條件是為了隔離對P(Y|Z)中的變化影響.因此,從訓(xùn)練數(shù)據(jù)到測試數(shù)據(jù)中,保持P(Y)和P(Z)不變,P(Y|Z)則會(huì)發(fā)生變化.本文對P(Y,Z|X)的聯(lián)合分布進(jìn)行建模,使用一個(gè)logistic 回歸分類器,其中標(biāo)簽在Y和Z的積空間中.在測試階段,本文對z的可能分配進(jìn)行求和,以計(jì)算y的后驗(yàn)分布.

      3.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

      為構(gòu)建微博數(shù)據(jù)集,本文使用微博信息流應(yīng)用編程接口采集包含上海和杭州地理坐標(biāo)的博文.該實(shí)驗(yàn)在4 天時(shí)間中(2016 年,6 月15 日至6 月18 日)共收集了246 930 條包含上海坐標(biāo)的博文和218 945 條包含杭州坐標(biāo)的博文.通過移除刪減,并對采集到的博文進(jìn)行了二次采樣,保留6000 個(gè)用戶的博文,使得所有用戶的性別和地理位置均勻分布.其中,用戶的性別作為預(yù)測其位置的混雜變量.因此,設(shè)yi=1表示上海,zi=1表示男性.構(gòu)建這個(gè)數(shù)據(jù)集的方式使得數(shù)據(jù)在4 種可能的y/z配對中均勻地分布.

      本文對電影評論中的情感進(jìn)行預(yù)測,并使用來自“豆瓣”等的IMDB 電影數(shù)據(jù)將影片類型作為混雜因子.該數(shù)據(jù)集中包括50 000 條來自IMDB 的影片評論,這些評論帶有正面或負(fù)面的情感標(biāo)簽.移除了英語或中文停用詞和出現(xiàn)次數(shù)不到10 次的術(shù)語,使用一個(gè)二進(jìn)制向量來表示特征的存在與否.電影是否是由IMDB分類所確定為“動(dòng)作”類型影片作為一個(gè)混雜因子.由此,對于動(dòng)作影片,本文設(shè)zi=1,對于其他類型影片則設(shè)zi=0.這個(gè)數(shù)據(jù)集在4 種可能的標(biāo)簽/混雜因子配對中是不均勻分布的.大約18%的影片為動(dòng)作電影,而對動(dòng)作電影帶有正面情感的評論約占5%.

      對于微博和IMDB,本文在訓(xùn)練/測試中進(jìn)行了變化模擬,將訓(xùn)練集和測試集的偏差值b設(shè)為0.1-0.9,并對一些分類模型的準(zhǔn)確度進(jìn)行了比較.對于每對btrain和btest,抽樣5 段訓(xùn)練/測試的分割樣本,并計(jì)算平均準(zhǔn)確度.

      3.2 對比的模型

      本文對以下模型進(jìn)行了比較:

      協(xié)變量調(diào)整(BA):即本文所提方法,通過設(shè)置混雜特征的數(shù)值v1=10,進(jìn)行強(qiáng)度更高的協(xié)變量調(diào)整的模型,該模型表示為BAZ10.

      Logistic 回歸(LR):本文研究的主線是一個(gè)標(biāo)準(zhǔn)L2 正則化logistic 回歸分類器,該分類器不會(huì)為混雜因子做任何調(diào)整,僅簡單地對P(Y|X)進(jìn)行建模.

      二次采樣(LRS):在訓(xùn)練階段,一種移除偏差的簡單方式是選擇數(shù)據(jù)的子樣本,使得P(Y|Z)均勻分布.當(dāng)存在一個(gè)較強(qiáng)的混雜偏差時(shí),該方法會(huì)丟棄很多實(shí)例,且實(shí)例數(shù)量會(huì)隨著混雜因子數(shù)量的增加而進(jìn)一步減少.

      匹配(M):匹配通常被用于從觀測研究中評估因果效應(yīng).對于每個(gè)y=i,z=j的訓(xùn)練實(shí)例,采樣另一個(gè)訓(xùn)練實(shí)例,其中y≠i,z=j.

      3.3 結(jié)果分析

      對于微博和IMDB 電影數(shù)據(jù),本文分別建立了兩組實(shí)驗(yàn).隨著訓(xùn)練和測試偏差的差異變化,研究測試準(zhǔn)確度的變化情況.另外,計(jì)算Z和Y之間的皮爾森相關(guān)性[14],并給出在測試階段和訓(xùn)練階段相關(guān)性的差異.

      3.3.1 微博實(shí)驗(yàn)

      微博數(shù)據(jù)的實(shí)驗(yàn)結(jié)果如圖2 所示,在極值區(qū)域表現(xiàn)最佳的方法是BAZ10 和LRS.這兩種方法在區(qū)間[-1.6,-0.6]和區(qū)間[0.6,1.6]中的性能超過了其他分類器:與BA 方法相比,超過了15 分;與LR 和M 方法相比超過了20 分;比SO 方法超過了30 分.而在這個(gè)區(qū)間之外的中間區(qū)域,BAZ10 方法的性能僅次于BA 和LR 方法.此外,當(dāng)相關(guān)性差異為0 時(shí),BAZ10 方法的最大準(zhǔn)確度損失大約為2 分.這一結(jié)果表明,BAZ10 方法對混雜因子的魯棒性明顯高于LR 方法,前者在混雜因子影響較小的情況下,僅會(huì)產(chǎn)生最低限度的準(zhǔn)確度損失.

      在所有訓(xùn)練偏差上,每個(gè)測試偏差的平均準(zhǔn)確度如圖2(b)所示.BA 和BAZ10 方法在總體上比其他方法的準(zhǔn)確度更高.SO 的總體性能不佳,與其他方法相比,其準(zhǔn)確度要低4 到8 分.

      為了找到BAZ10 方法比其他方法的準(zhǔn)確度和魯棒性更高的原因,本文給出了當(dāng)偏差值為0.9 時(shí),LR、BA 和BAZ10 分類器的系數(shù),如圖3 所示.由圖3 可知,根據(jù) χ2統(tǒng)計(jì)數(shù)據(jù),10 個(gè)最能預(yù)測類標(biāo)簽的特征和10 個(gè)最能預(yù)測混雜變量的特征.與位置相關(guān)的特征權(quán)重在協(xié)變量調(diào)整方法中有少許下降,但依然保持相對較重要的地位.與之相反,與性別相關(guān)的特征權(quán)值在協(xié)變量調(diào)整方法中則非常接近0.

      圖2 微博數(shù)據(jù)的實(shí)驗(yàn)結(jié)果

      已知擬合數(shù)據(jù)偏差的強(qiáng)度時(shí),Simpson 悖論[15]的特征百分比如圖4 所示,其中,微博數(shù)據(jù)中大概包含22 K的特征.由圖可知,BAZ10 的Simpson 悖論特征數(shù)量相對保持不變;而在其他方法中,該特征數(shù)量則在偏差接近極值時(shí)迅速增長.

      3.3.2 IMDB 實(shí)驗(yàn)

      圖5 給出了IMDB 數(shù)據(jù)的實(shí)驗(yàn)結(jié)果.結(jié)果顯示,BA 和BAZ10 是對混雜偏差的魯棒性最好的方法.LRS 方法魯棒性最低.LRS 方法的結(jié)果不理想原因可能是在IMDB 數(shù)據(jù)中,y/z變量的分布不均衡,使得LRS 方法每次僅能在很小比例的訓(xùn)練數(shù)據(jù)上擬合.這也是在IMDB 實(shí)驗(yàn)中,整體準(zhǔn)確度的變化幅度要比微博實(shí)驗(yàn)小得多的原因.

      圖3 根據(jù)卡方統(tǒng)計(jì)的結(jié)果

      圖4 Simpson 悖論的特征百分比

      3.4 參數(shù)分析

      對于IMDB 和微博實(shí)驗(yàn),本文還計(jì)算了一個(gè)成對的t-測試,以使用相關(guān)性差異的每個(gè)數(shù)值對BAZ10 和LR 方法進(jìn)行比較.實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在19 個(gè)案例中,BAZ10 的性能優(yōu)于LR;在8 個(gè)案例中,LR 的性能優(yōu)于BAZ10;而在5 個(gè)案例中,結(jié)果并沒有明顯差別.從圖中還可以觀察到,當(dāng)測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)相對于混雜因子非常類似時(shí),BAZ10 的性能大致相當(dāng)或稍弱于LR 方法;然而,當(dāng)測試數(shù)據(jù)在混雜因子上與訓(xùn)練數(shù)據(jù)不同時(shí),BAZ10 的性能要優(yōu)于LR.

      圖5 IMDB 數(shù)據(jù)的實(shí)驗(yàn)結(jié)果

      總之,當(dāng)在混雜因子的影響中存在極端和突然轉(zhuǎn)變時(shí),最好的方法是丟棄發(fā)生該轉(zhuǎn)變之前的大部分?jǐn)?shù)據(jù).然而,一旦在該轉(zhuǎn)變后可用的實(shí)例數(shù)量適中時(shí),BAZ10 方法能夠作出調(diào)整解決混雜偏差的問題.

      關(guān)于參數(shù)分析,本文以BA 方法為例,圖6 給出了控制著協(xié)變量調(diào)整強(qiáng)度的v1參 數(shù)影響.該圖給出了c0和c1成 比例系數(shù)絕對值的變化,及當(dāng)v1在微博中增加時(shí)準(zhǔn)確度的變化.這些結(jié)果是在訓(xùn)練數(shù)據(jù)集偏差差異較大的情況下產(chǎn)生的,從圖6 中可看到,當(dāng)v1小于10-1時(shí),準(zhǔn)確度較低,但較穩(wěn)定.然后隨v1的增加而增長,并且在v1=10時(shí),開始大幅攀升.這個(gè)數(shù)據(jù)集中,準(zhǔn)確度在兩個(gè)峰值之間出現(xiàn)了15 點(diǎn)增益.對于所有實(shí)驗(yàn)中給定v1=10,使用交叉驗(yàn)證可以選擇出能夠產(chǎn)生期望魯棒性的v1數(shù)值.

      圖6 混雜因子特征系數(shù)和準(zhǔn)確度

      4 結(jié)論與展望

      本文提出了一個(gè)快速有效的文本分類方法,即使用協(xié)變量調(diào)整來控制混雜因子.在3 個(gè)不同的數(shù)據(jù)集上,本文發(fā)現(xiàn)協(xié)變量調(diào)整能夠在混雜關(guān)系從訓(xùn)練數(shù)據(jù)到測試數(shù)據(jù)發(fā)生變化時(shí),提高分類器的魯棒性,并且在混雜偏差很大的情況下,可以使用一個(gè)額外的參數(shù)對調(diào)整的強(qiáng)度進(jìn)行調(diào)節(jié).協(xié)變量調(diào)整不但能夠降低與混雜因子相關(guān)的系數(shù)量級,而且可以糾正與目標(biāo)類標(biāo)簽相關(guān)聯(lián)的系數(shù)標(biāo)注.

      未來本文將研究在訓(xùn)練階段僅有Z的帶噪估計(jì),以及Z是一個(gè)變量向量的情況.

      猜你喜歡
      準(zhǔn)確度分類器分類
      分類算一算
      分類討論求坐標(biāo)
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      數(shù)據(jù)分析中的分類討論
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      教你一招:數(shù)的分類
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      動(dòng)態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實(shí)意義
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      嘉荫县| 顺平县| 饶平县| 蓬溪县| 台东市| 工布江达县| 保康县| 维西| 浙江省| 灌阳县| 朝阳区| 嘉定区| 达日县| 盱眙县| 许昌市| 夹江县| 谢通门县| 恩平市| 和田县| 平顺县| 垣曲县| 南陵县| 中牟县| 巫山县| 明星| 禄劝| 都安| 台东县| 当涂县| 高安市| 莆田市| 抚远县| 翼城县| 镇宁| 谢通门县| 商都县| 临西县| 苗栗县| 巫溪县| 莱州市| 北宁市|