• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于混合CRFs & SVM應(yīng)用于文本信息分類

      2020-02-24 05:35:34胡改蝶馬建芬
      關(guān)鍵詞:查全率查準(zhǔn)率類別

      胡改蝶, 馬建芬

      (1.太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;2.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 太原 030024)

      0 引言

      隨著網(wǎng)絡(luò)的日益發(fā)展,網(wǎng)絡(luò)信息的增長也愈來愈快,其中文本信息是網(wǎng)絡(luò)信息中最重要的一部分。如何快速且有效地對文本信息進(jìn)行合理的組織、管理和使用,從而進(jìn)一步促進(jìn)文本信息分類的發(fā)展已成為組織文本數(shù)據(jù)的關(guān)鍵技術(shù)[1-2]。

      分類本質(zhì)上就是在特征向量x=(x1,x2,…,xk)給定的條件下,估計(jì)離散類變量y?;跈C(jī)器學(xué)習(xí)的分類方法有產(chǎn)生式模型(Generative Model,簡稱GM)與判別式模型(Discriminative Model,簡稱DM)。二者的主要區(qū)別在于:前者是將估計(jì)聯(lián)合分布概率作為輸入和輸出,它的局限在于維數(shù)特別大,特征也有很大的依賴性,后者是估計(jì)條件概率,然后進(jìn)行分類,以此來解決前面所述的問題[3];前者的觀察序列可以是模型的一部分,后者的觀察序列只可以是條件;前者是針對無窮樣本,后者是針對有限樣本[4]。文本信息分類就是用自動(dòng)化的技術(shù)將文本樣例分配到一組預(yù)定義的類別中的一個(gè)或多個(gè)的過程[5-6]。在文本信息分類中用到了很多技術(shù),常見的判別式模型有條件隨機(jī)場(Conditional Random Fields,簡稱CRFs)、支持向量機(jī)(Support Vector Machine,簡稱SVM)和最大熵模型(Maximum Entropy Method,簡稱MEM)等。

      基于條件隨機(jī)場和支持向量機(jī)2種方法,運(yùn)用循序漸進(jìn)的方法,先通過條件隨機(jī)場得到特征集,隨后通過支持向量機(jī)再進(jìn)行訓(xùn)練和分類,最終得出比傳統(tǒng)SVM分類效果更好的混合方法。將混合CRFs & SVM方法運(yùn)用到文本信息分類中,從而對文本信息獲取更好的分類。最后利用文本集對此方法進(jìn)行實(shí)驗(yàn),并與傳統(tǒng)SVM方法作了相應(yīng)對比,驗(yàn)證了CRFs & SVM方法的有效性。

      1 CRFs & SVM

      1.1 條件隨機(jī)場(CRFs)

      條件隨機(jī)場是基于統(tǒng)計(jì)的判別式模型之一,是在給定一輸入序列的前提下,求出標(biāo)注序列的概率模型,本質(zhì)上是整合了分類和圖像模型優(yōu)點(diǎn)的一種模型。經(jīng)常使用的是線性鏈?zhǔn)紺RFs。其定義是[4]:設(shè)x和y為隨機(jī)變量,θt為從訓(xùn)練集中訓(xùn)練所得到的參數(shù)變量,ft(yk,yk-1,xk)為一組真值特征函數(shù),k表示序列位置,此時(shí)CRFs的條件概率

      (1)

      式中,z(x)為歸一化因子

      (2)

      CRFs對獨(dú)立性假設(shè)和數(shù)據(jù)歸納偏注問題解決有很大的見解,同時(shí)CRFs具有產(chǎn)生式模型的特點(diǎn),對上下文的文本信息描述有特別好的效果,并對所有特征進(jìn)行全局歸一化[7]。它主要用于分詞、詞性標(biāo)注、文本處理、圖像分類、實(shí)體識(shí)別和生物信息學(xué)等范疇的研究。

      1.2 支持向量機(jī)(SVM)

      支持向量機(jī)是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化的統(tǒng)計(jì)學(xué)習(xí)方法,是基于分類邊界的方法,主要應(yīng)用于小樣本分類。SVM大致分為線性可分的、線性不可分和非線性3種情況。第一種情況是通過最大化邊緣的超平面來實(shí)現(xiàn)的;第二種情況是通過定義松弛變量,存放到邊緣的離差來實(shí)現(xiàn)的;第三種情況是將其低維空間中的點(diǎn)映射到新的高維空間,可以用適當(dāng)?shù)暮撕瘮?shù),將其轉(zhuǎn)換成線性可分,然后辨別分類的邊界,從而大大避免維數(shù)災(zāi)難問題[8]。即支持向量機(jī)的主要思想是通過非線性變換將輸入空間變換到高維特征空間,再求出最優(yōu)線性分類面[9]。

      支持向量機(jī)是一種神經(jīng)網(wǎng)絡(luò),它對分類做出了巨大貢獻(xiàn),得到國內(nèi)外諸多研究人員的高度重視,并將其理論在多個(gè)領(lǐng)域應(yīng)用,如在文本分類、語音方面、數(shù)據(jù)挖掘、圖像分類和字符識(shí)別范疇都有廣泛應(yīng)用。

      1.3 CRFs & SVM

      基于CRFs和SVM的特點(diǎn),從理論上講,將二者結(jié)合起來是可以應(yīng)用在多個(gè)研究領(lǐng)域的。CRFs和SVM的結(jié)合方法有:順序法,即第二個(gè)的分類器的輸入是第一個(gè)分類器的輸出;并列法,即同時(shí)用2種方法進(jìn)行分類后,再將其進(jìn)行整合,以此得到最終的分類結(jié)果[10]。本文采用順序法進(jìn)行研究。將文本信息的訓(xùn)練集通過CRFs得出特征集,然后將其送入SVM,再次進(jìn)行訓(xùn)練,最后得出分類結(jié)果[11]。這種方法的優(yōu)點(diǎn)是CRFs 的上下文相關(guān)性可以解決文本信息的不確定分類問題。CRFs & SVM定義

      (3)

      式中,H(yk,xk)為第k個(gè)序列位置只考慮當(dāng)前觀測值的后驗(yàn)概率。

      CRFs訓(xùn)練是將文本信息數(shù)據(jù)集轉(zhuǎn)換成適合CRFs的文本信息訓(xùn)練集,然后用訓(xùn)練集生成一個(gè)模型文件,從而得到特征總數(shù)集及每一特征出現(xiàn)次數(shù),最后對參數(shù)進(jìn)行訓(xùn)練[11]。本文條件隨機(jī)場的訓(xùn)練是用CRF++0.53實(shí)現(xiàn)。

      SVM訓(xùn)練主要是解決后驗(yàn)概率問題,此處可由對偶分類耦合來得出多類分類的后驗(yàn)概率。假設(shè)觀察x和類標(biāo)簽y,k,t為訓(xùn)練集中類別的位置,用對偶分類的條件概率μkt=p(y=k/y=kort,x)的耦合類的估計(jì)值rkt來估計(jì)后驗(yàn)概率pk=P(y=k/x),k=1,2,…,K(其中K為類別的數(shù)目)。通過優(yōu)化后的后驗(yàn)概率[12-13]

      (4)

      式中,rkt=P(y=k/y=kort,x)=1/(1+eAf+B),f為決策函數(shù)分類值,A、B是訓(xùn)練所得的參數(shù)。

      2 實(shí)驗(yàn)與分析

      2.1 實(shí)驗(yàn)環(huán)境、文本集與測量標(biāo)準(zhǔn)

      為了對上述CRFs & SVM方法進(jìn)行驗(yàn)證,本實(shí)驗(yàn)將同一組文本集分別在傳統(tǒng)的SVM方法和混合CRFs & SVM方法上進(jìn)行了分類實(shí)驗(yàn)。本文的實(shí)驗(yàn)環(huán)境是Microsoft Windows7操作系統(tǒng),Intel(R) Core(TM) I5-6200U CPU @2.30 GHz 處理器,4.00 G內(nèi)存,64位操作系統(tǒng)。用到的工具有Visual Studio 2010、CRF++0.53和Visual C++6.0。

      用到的實(shí)驗(yàn)文本集為復(fù)旦大學(xué)提供的分類文本集,該文本集包括訓(xùn)練文本集和測試文本集,從中抽取了7個(gè)類別,分別是經(jīng)濟(jì)、計(jì)算機(jī)、軍事、藝術(shù)、醫(yī)藥、教育和政治。訓(xùn)練文本集和測試文本集相互之間不重疊,從中抽取訓(xùn)練文本集1 052個(gè),測試文本集有577個(gè),共計(jì)1 719個(gè)文本集,其類別及文本集統(tǒng)計(jì)數(shù)如表1所示。

      表1 類別及文本集

      分類實(shí)驗(yàn)用查全率(Recall,簡稱R)、查準(zhǔn)率(Precision,簡稱P)和F1-測量(F1-Measure,簡稱F1)來衡量的[14-15],其中F1-測量是由查全率和查準(zhǔn)率2個(gè)值綜合而來的。同時(shí)求出了所有類別的查全率、查準(zhǔn)率和F1-測量的平均值(Average,簡稱A),用其對分類效果進(jìn)行衡量。

      2.2 實(shí)驗(yàn)對比結(jié)果與分析

      一般情況下,SVM分類算法優(yōu)于其他的分類算法,因而實(shí)驗(yàn)中用傳統(tǒng)SVM和混合CRFs & SVM 2種方法對文本信息進(jìn)行分類,并進(jìn)行比較分析。實(shí)驗(yàn)中傳統(tǒng)SVM方法的特征選擇用的是卡方統(tǒng)計(jì)法,特征加權(quán)算法選擇TF·IDF算法,特征空間數(shù)目選擇800。

      為了與傳統(tǒng)SVM方法進(jìn)行比較,實(shí)驗(yàn)共使用了3種方式在相同實(shí)驗(yàn)環(huán)境下對同一組文本集進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)分類對比效果如表2所示。從表2中可以看到,采用CRFs & SVM方法后,除了在經(jīng)濟(jì)和政治類別的查全率略小、經(jīng)濟(jì)類別的F1-測量值略小外,其余類別的查全率、查準(zhǔn)率和F1-測量結(jié)果均有明顯提升,都得到了較好的分類效果,準(zhǔn)確率大大提升,尤其是對軍事、藝術(shù)和醫(yī)藥類別的分類效果非常好。同時(shí)也可看到,CRFs & SVM方法的查全率、查準(zhǔn)率和F1-測量的平均值分別達(dá)到了0.958、0.964和0.961,其平均值均比傳統(tǒng)SVM方法的分類值高。通過對分類后的查全率、查準(zhǔn)率和F1-測量進(jìn)行對比,盡管分類后高出的值并不是很突出,但整體來看,CRFs & SVM方法的分類效果要好。

      表2 分類對比效果

      圖1 查全率對比圖

      各類別運(yùn)用2種方法分類后的對比效果如圖1、圖2和圖3所示。從圖1、圖2和圖3的對比效果可知,CRFs & SVM方法的查全率、查準(zhǔn)率和F1-測量的分類值均高于傳統(tǒng)SVM方法。

      實(shí)驗(yàn)結(jié)果表明,CRFs & SVM方法不僅可以消除上下文的不相關(guān)性,達(dá)到降低特征維數(shù)的效果,解決文本信息的不確定分類問題,從而使分類的效果具有一定的優(yōu)越性,而且CRFs & SVM方法可以對文本信息進(jìn)行分類,進(jìn)一步驗(yàn)證了CRFs & SVM方法適用于文本信息分類,使用此方法進(jìn)行文本信息分類是有效的、可行的,在文本信息分類中有一定的實(shí)用價(jià)值。

      圖2 查準(zhǔn)率對比圖

      圖3 F1對比圖

      3 結(jié)語

      以文本信息為研究對象,探討了條件隨機(jī)場方法和支持向量機(jī)方法。采用條件隨機(jī)場和支持向量機(jī)結(jié)合起來的方法—CRFs & SVM方法,并將CRFs & SVM方法運(yùn)用到文本信息分類中。不僅可解決特征集出現(xiàn)次數(shù)問題,同時(shí)還解決了分類后驗(yàn)概率問題。經(jīng)過實(shí)驗(yàn)將其分類效果與傳統(tǒng)SVM方法效果進(jìn)行了對比,實(shí)驗(yàn)證明CRFs & SVM方法對文本信息分類的優(yōu)越性,適用于文本信息分類領(lǐng)域,具有分類的實(shí)踐性和實(shí)用性,可以為分類領(lǐng)域提供可靠的研究依據(jù)。但是部分文本信息分類效果還有待提高,在今后的研究中,努力探索二者的結(jié)合性,達(dá)到更好的分類優(yōu)化,并在更大的文本信息集上實(shí)現(xiàn)更好的分類效果。

      猜你喜歡
      查全率查準(zhǔn)率類別
      海量圖書館檔案信息的快速檢索方法
      基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
      基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
      聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
      龙山县| 鹰潭市| 文山县| 中卫市| 前郭尔| 利津县| 六盘水市| 内丘县| 丹江口市| 奇台县| 维西| 和硕县| 集安市| 扬州市| 乌兰察布市| 霍邱县| 明溪县| 灌云县| 霍林郭勒市| 德清县| 五大连池市| 濉溪县| 永年县| 荥经县| 南岸区| 闽侯县| 教育| 雅安市| 威宁| 炎陵县| 夏邑县| 莲花县| 安塞县| 普陀区| 阿拉尔市| 醴陵市| 赤壁市| 嘉定区| 西充县| 白银市| 五台县|