• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卡方統(tǒng)計(jì)檢驗(yàn)法對文本特征選擇的技術(shù)實(shí)現(xiàn)

    2014-11-19 00:39:30唐勇
    電腦知識與技術(shù) 2014年30期
    關(guān)鍵詞:文本分類特征選擇

    摘要:該文主要探討如何從技術(shù)上實(shí)現(xiàn)基于卡方統(tǒng)計(jì)檢驗(yàn)的文本特征選擇,文中提出采用開源的Lucene索引框架對文本分類語料庫進(jìn)行索引,設(shè)計(jì)了在特征值計(jì)算的過程中如何借助語料庫索引快速獲取卡方統(tǒng)計(jì)檢驗(yàn)的相關(guān)參數(shù),并使用java多線程技術(shù)從整體上優(yōu)化每個(gè)分類下文本特征選擇的計(jì)算效率。

    關(guān)鍵詞:特征選擇;卡方統(tǒng)計(jì);文本分類;JAVA實(shí)現(xiàn)

    中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)30-7103-03

    1 文本特征選擇的必要性

    為了能夠有效地對大量文本信息進(jìn)行自動(dòng)分類,先要將文本信息模型化表示,典型的文本建模方法就是向量空間模型(VSM),該模型將文本信息抽象表示為若干相互獨(dú)立的詞匯所構(gòu)成的向量空間,向量空間中每個(gè)分量值使用TF*IDF來度量。其中TF是指詞匯頻率,TF=Nw/N,N表示文本的總詞匯數(shù),Nw表示詞W在文本中出現(xiàn)的次數(shù),TF的值越大,詞W與文本的相關(guān)性就越強(qiáng);IDF是逆文檔頻率,IDF=log(D/Dw),Dw表示包含詞W的文檔數(shù),D表示語料庫的總文檔數(shù)目,IDF值越大,該詞與文檔的相關(guān)性就越低。假設(shè)有兩個(gè)文本doc1和doc2,那么它們在共同詞匯集合所構(gòu)成的向量空間中具有不同的向量,這兩個(gè)文本的相關(guān)性可以使用兩個(gè)向量的夾角余弦值來表示,夾角余弦值越大說明這兩個(gè)本文越相關(guān)。

    由于網(wǎng)頁文本的詞匯相當(dāng)龐雜,包含大量的口語、廣告等噪聲信息,造成文本向量空間的維數(shù)較為龐大,降低了分本分類的效率。因此有必要降低向量空間的維度,剔除噪聲詞匯,保留與當(dāng)前主題相關(guān)的詞匯來構(gòu)成向量空間模型。文本特征選擇就是要在構(gòu)建文本的特征向量時(shí)從文本的詞匯集中選取與主題相關(guān)的詞匯,盡可能地剔除與主題無關(guān)的詞匯,從而提高文本分類的效率與準(zhǔn)確率。

    2 文本特征選擇的主要方法

    文本特征選擇的方法主要包括信息增益法(IG,Information Gain)、互信息(MI,Mutual Information)、卡方統(tǒng)計(jì)檢驗(yàn)法(CHI,Chi-square Statistic)等,文獻(xiàn)[2]和[4]對這幾種方法在中文網(wǎng)頁的分類效果中進(jìn)行了綜合比較,認(rèn)為CHI、IG的性能要明顯由于MI。

    信息增益法(IG)是通過衡量某個(gè)詞匯在出現(xiàn)和不出現(xiàn)兩種情況下對整個(gè)分類系統(tǒng)信息熵的影響程度,影響程度大的詞匯與分類系統(tǒng)的相關(guān)性較大,應(yīng)給予保留;但是信息增益法只能考察特征詞匯對整個(gè)系統(tǒng)的貢獻(xiàn),不能具體到某個(gè)類別上,這使得該方法只適合做全局的特征選擇。

    卡方統(tǒng)計(jì)檢驗(yàn)方法(CHI)是基于數(shù)理統(tǒng)計(jì)中的聯(lián)列表檢驗(yàn)理論判斷某個(gè)詞匯與特定文本類別的相關(guān)性。它先假設(shè)特征詞匯與特定類別是獨(dú)立的,通過計(jì)算觀察值與理論值之間的偏差程度來決定原假設(shè)是否成立。在給定詞匯t和分類c的條件下,CHI的公式簡化如下:

    [χ2(t,c=(AD-BC)2(A+B)(C+D)]

    其中,A表示包含詞匯t且屬于分類c的文檔數(shù)目,B表示包含詞匯t但不屬于分類c的文檔數(shù)目,C表示不包含詞匯t且屬于分類c的文檔數(shù)目,D表示不包含詞匯t且不屬于分類c的文檔數(shù)目。

    從CHI的計(jì)算公式可以看出它能夠檢驗(yàn)特定詞匯與特定類別之間的相關(guān)度,但是CHI方法忽略了詞匯出現(xiàn)的頻率,這使得它對低頻詞有所偏袒,比如分類c的所有文檔都包含了詞A,但是在每篇文檔中詞A只出現(xiàn)1次,而分類c的99%文檔都包含了詞B,并且在每篇文檔中詞B都出現(xiàn)了10次以上。相對于詞A,詞B與分類c相關(guān)性更大,但是由于CHI的計(jì)算公式忽略了詞匯出現(xiàn)的頻率,導(dǎo)致詞匯A比詞匯B具有更大相關(guān)性。

    3 文本特征選擇的技術(shù)實(shí)現(xiàn)

    3.1 文本語料庫及索引庫

    為了進(jìn)行文本特征的選擇,要預(yù)先準(zhǔn)備好中文文本語料庫。搜狗實(shí)驗(yàn)室提供的中文分類語料庫包含環(huán)境、IT、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治共十個(gè)分類,每個(gè)分類下包含若干相關(guān)文本,共計(jì)八萬篇。該文以搜狗實(shí)驗(yàn)室提供的中文語料庫作為文本特征提取的資料庫,基于卡方統(tǒng)計(jì)檢驗(yàn)方法(CHI)來計(jì)算語料庫中每個(gè)類別所對應(yīng)的特征詞列表,這些不同分類的特征詞列表將作為后續(xù)文本分類的特征向量。

    CHI公式的關(guān)鍵是要針對不同的詞匯t和類別c分別計(jì)算出A、B、C、D的值。這里的詞匯需要通過分詞技術(shù)從中文文本中進(jìn)行提取。該文采用了IKAnalyzer開源分詞器,該分詞器使用了正向迭代最細(xì)粒度切分算法,具有60萬字/秒的高速處理能力。文本經(jīng)過分詞器分割后將形成大量的詞匯,直接使用這些詞匯作為CHI的計(jì)算對象將極大的降低計(jì)算效率。為此應(yīng)定義一個(gè)中文停用詞集合,它包含了常用的中文語氣詞、助詞、虛詞等與文本內(nèi)容無關(guān)的詞匯,使用中文停用詞集合對分詞器分割后的詞匯進(jìn)行過濾,同時(shí)過濾掉所有的單字詞匯。

    本文采用Lucene工具對文本語料庫中的所有中文文本預(yù)先進(jìn)行索引,Lucene是apache軟件基金會提供的開源全文索引工具包,對文本語料庫建立索引后,借助Lucene提供的API接口可以極大的加快查詢諸如“語料庫中包含某詞匯的文檔數(shù)”的速度。建立的索引記錄結(jié)構(gòu)如下表所示,其中filename表示文本路徑名,該字段被作為一個(gè)整體保留在索引庫中,但不參與索引;content表示該文本的具體內(nèi)容,該字段不僅需要保留文本內(nèi)容,還需要對其進(jìn)行分詞并在索引庫中保存分詞后的詞匯向量,classname表示該文本所屬的分類,該字段作為整體保留在索引庫中參與索引但是不對它進(jìn)行分詞。

    表1 文本語料庫的索引結(jié)構(gòu)

    [字段名\&字段值\&存儲狀態(tài)\&索引狀態(tài)\&詞匯向量\&filename\&文本的具體路徑\&Field.Store.YES\&Field.Index.NO\&\&content\&文本的具體內(nèi)容\&Field.Store.YES\&Field.Index.ANALYZED\&Field.TermVector.YES\&classname\&文本所屬的分類名\&Field.Store.YES\&Field.Index.NOT_ANALYZED\&\&]endprint

    3.2 卡方統(tǒng)計(jì)中四個(gè)參數(shù)的計(jì)算

    本文使用Java語言來實(shí)現(xiàn)卡方統(tǒng)計(jì)檢驗(yàn)的計(jì)算公式,建立了DataManager類和IndexManager類。DataManager類根據(jù)指定的語料庫存放路徑獲取語料庫的主要狀態(tài)信息,如語料庫的文檔總數(shù)、類別總數(shù)、某個(gè)類別下的文檔數(shù)。IndexManager類根據(jù)指定的語料庫來生成對應(yīng)的索引庫,索引庫的結(jié)構(gòu)如表1所示,并且提供一個(gè)getIndexReader()方法返回Lucene框架中的IndexReader對象。使用IndexReader對象的方法可以快速的讀取卡方統(tǒng)計(jì)檢驗(yàn)中所需的相關(guān)值。

    計(jì)算“整個(gè)語料庫中包含詞w的文檔數(shù)”,記作Nw ,可以直接使用IndexReader的docFreq(new term(“content”,word))方法來獲?。挥?jì)算“類別c中包含單詞w的文檔數(shù)”即卡方統(tǒng)計(jì)中的參數(shù)A,可以采用如圖1所示的算法,IndexReader的termDocs方法可以返回包含詞w的文檔集合,該集合的每一項(xiàng)都包含一個(gè)文檔編號docId,通過IndexrReader的document(int docId)方法可以獲取當(dāng)前項(xiàng)所對應(yīng)的文檔。那么卡方統(tǒng)計(jì)檢驗(yàn)中的參數(shù)B=Nw-A。 計(jì)算“類別c中不包含單詞w的文檔總數(shù)”,即卡方統(tǒng)計(jì)中的參數(shù)C,可直接使用類別c的總文檔數(shù)NC-A,這里NC在給定語料庫路徑情況下可以很方便的獲得。在計(jì)算完參數(shù)A、B、C的值之后,D=N-A-B-C,其中N代表整個(gè)語料庫的文檔數(shù),在給定的語料庫中N的值是個(gè)常量。至此卡方統(tǒng)計(jì)檢驗(yàn)的參數(shù)已經(jīng)計(jì)算完畢,可以看出這里的關(guān)鍵是借助事先準(zhǔn)備好的索引庫快速計(jì)算出Nw和A的值。

    3.3 文本特征選擇計(jì)算的優(yōu)化

    當(dāng)文本的詞匯表較大時(shí)采用上述算法其效率依然不能令人滿意。java的多線程技術(shù)可使上述算法獲得更好的效率。首先使用Lucene來獲取類別c下的詞匯表并暫存于LinkedList集合中,這里的詞匯表應(yīng)該是過濾掉了停用詞和單字詞后的詞匯集合。創(chuàng)建一個(gè)實(shí)現(xiàn)了Runnable接口的CHIWorker類,該類具有實(shí)例屬性ThreadPool(線程池),調(diào)用CHIWorker類的start()方法時(shí)將對線程池進(jìn)行初始化。該類的run()方法作為線程體被多個(gè)線程調(diào)用。run()方法也是CHIWorker類的核心,決定了文本特征計(jì)算的效率,具體算法如圖所示。CHIWorker類擁有一個(gè)名為resultMap的HashMap,用于存儲詞匯及其CHI值存儲。采用java的多線程技術(shù)將類別c下所有詞匯的卡方統(tǒng)計(jì)檢驗(yàn)值計(jì)算完畢,并存儲在resultMap中,主程序?qū)⒃诙嗑€程運(yùn)行完畢后獲取到resultMap中存儲的值。

    圖2 CHIWorker類的run方法

    在獲取了存儲于resultMap中的CHI值之后可以進(jìn)一步按照CHI值的大小進(jìn)行排序,為CHI值確定一個(gè)最低閥值,保留大于閥值的詞匯作為類別c的特征詞匯集合,記為wordList1。借鑒文獻(xiàn)[3]中提出的CHI改進(jìn)算法,在獲取了詞匯集合wordList1之后,再進(jìn)一步計(jì)算每個(gè)詞的頻度、集中度和分散度,其中頻度是用語料索引庫中詞匯w出現(xiàn)的次數(shù)來表示;集中度=A/(A+C);分散度=A/(A+B) 。對wordList1中每個(gè)詞匯按照頻度、集中度和分散度的乘積進(jìn)行計(jì)算并降序排序,通過設(shè)定一個(gè)閥值來選區(qū)若干詞匯作為類別c的最終特征詞匯集合。至此,完成了對類別c的文本特征選擇,對其他類別也采用相同的計(jì)算過程,即可得到每個(gè)類別下的特征詞匯向量。

    4 結(jié)束語

    本文分析了文本特征選擇的重要性并比較了文本特征選擇的主要方法,深入探討了卡方統(tǒng)計(jì)檢驗(yàn)法(CHI)的特點(diǎn),提出了采用Lucene索引工具和Java多線程技術(shù)來優(yōu)化CHI計(jì)算方法的思路。

    參考文獻(xiàn):

    [1] 王光.集合CHI與IG的特征選擇方法[J].計(jì)算機(jī)應(yīng)用,2012(7).

    [2] 單松巍.幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J].計(jì)算機(jī)工程與應(yīng)用,2003(22).

    [3] 熊忠陽.基于卡方統(tǒng)計(jì)的文本分類特征選擇方法的研究[J].計(jì)算機(jī)應(yīng)用,2008(2).

    [4] 崔愛國.文本分類中特征提取方法的比較與分析[J].電腦知識與技術(shù),2009(7).

    3.2 卡方統(tǒng)計(jì)中四個(gè)參數(shù)的計(jì)算

    本文使用Java語言來實(shí)現(xiàn)卡方統(tǒng)計(jì)檢驗(yàn)的計(jì)算公式,建立了DataManager類和IndexManager類。DataManager類根據(jù)指定的語料庫存放路徑獲取語料庫的主要狀態(tài)信息,如語料庫的文檔總數(shù)、類別總數(shù)、某個(gè)類別下的文檔數(shù)。IndexManager類根據(jù)指定的語料庫來生成對應(yīng)的索引庫,索引庫的結(jié)構(gòu)如表1所示,并且提供一個(gè)getIndexReader()方法返回Lucene框架中的IndexReader對象。使用IndexReader對象的方法可以快速的讀取卡方統(tǒng)計(jì)檢驗(yàn)中所需的相關(guān)值。

    計(jì)算“整個(gè)語料庫中包含詞w的文檔數(shù)”,記作Nw ,可以直接使用IndexReader的docFreq(new term(“content”,word))方法來獲??;計(jì)算“類別c中包含單詞w的文檔數(shù)”即卡方統(tǒng)計(jì)中的參數(shù)A,可以采用如圖1所示的算法,IndexReader的termDocs方法可以返回包含詞w的文檔集合,該集合的每一項(xiàng)都包含一個(gè)文檔編號docId,通過IndexrReader的document(int docId)方法可以獲取當(dāng)前項(xiàng)所對應(yīng)的文檔。那么卡方統(tǒng)計(jì)檢驗(yàn)中的參數(shù)B=Nw-A。 計(jì)算“類別c中不包含單詞w的文檔總數(shù)”,即卡方統(tǒng)計(jì)中的參數(shù)C,可直接使用類別c的總文檔數(shù)NC-A,這里NC在給定語料庫路徑情況下可以很方便的獲得。在計(jì)算完參數(shù)A、B、C的值之后,D=N-A-B-C,其中N代表整個(gè)語料庫的文檔數(shù),在給定的語料庫中N的值是個(gè)常量。至此卡方統(tǒng)計(jì)檢驗(yàn)的參數(shù)已經(jīng)計(jì)算完畢,可以看出這里的關(guān)鍵是借助事先準(zhǔn)備好的索引庫快速計(jì)算出Nw和A的值。

    3.3 文本特征選擇計(jì)算的優(yōu)化

    當(dāng)文本的詞匯表較大時(shí)采用上述算法其效率依然不能令人滿意。java的多線程技術(shù)可使上述算法獲得更好的效率。首先使用Lucene來獲取類別c下的詞匯表并暫存于LinkedList集合中,這里的詞匯表應(yīng)該是過濾掉了停用詞和單字詞后的詞匯集合。創(chuàng)建一個(gè)實(shí)現(xiàn)了Runnable接口的CHIWorker類,該類具有實(shí)例屬性ThreadPool(線程池),調(diào)用CHIWorker類的start()方法時(shí)將對線程池進(jìn)行初始化。該類的run()方法作為線程體被多個(gè)線程調(diào)用。run()方法也是CHIWorker類的核心,決定了文本特征計(jì)算的效率,具體算法如圖所示。CHIWorker類擁有一個(gè)名為resultMap的HashMap,用于存儲詞匯及其CHI值存儲。采用java的多線程技術(shù)將類別c下所有詞匯的卡方統(tǒng)計(jì)檢驗(yàn)值計(jì)算完畢,并存儲在resultMap中,主程序?qū)⒃诙嗑€程運(yùn)行完畢后獲取到resultMap中存儲的值。

    圖2 CHIWorker類的run方法

    在獲取了存儲于resultMap中的CHI值之后可以進(jìn)一步按照CHI值的大小進(jìn)行排序,為CHI值確定一個(gè)最低閥值,保留大于閥值的詞匯作為類別c的特征詞匯集合,記為wordList1。借鑒文獻(xiàn)[3]中提出的CHI改進(jìn)算法,在獲取了詞匯集合wordList1之后,再進(jìn)一步計(jì)算每個(gè)詞的頻度、集中度和分散度,其中頻度是用語料索引庫中詞匯w出現(xiàn)的次數(shù)來表示;集中度=A/(A+C);分散度=A/(A+B) 。對wordList1中每個(gè)詞匯按照頻度、集中度和分散度的乘積進(jìn)行計(jì)算并降序排序,通過設(shè)定一個(gè)閥值來選區(qū)若干詞匯作為類別c的最終特征詞匯集合。至此,完成了對類別c的文本特征選擇,對其他類別也采用相同的計(jì)算過程,即可得到每個(gè)類別下的特征詞匯向量。

    4 結(jié)束語

    本文分析了文本特征選擇的重要性并比較了文本特征選擇的主要方法,深入探討了卡方統(tǒng)計(jì)檢驗(yàn)法(CHI)的特點(diǎn),提出了采用Lucene索引工具和Java多線程技術(shù)來優(yōu)化CHI計(jì)算方法的思路。

    參考文獻(xiàn):

    [1] 王光.集合CHI與IG的特征選擇方法[J].計(jì)算機(jī)應(yīng)用,2012(7).

    [2] 單松巍.幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J].計(jì)算機(jī)工程與應(yīng)用,2003(22).

    [3] 熊忠陽.基于卡方統(tǒng)計(jì)的文本分類特征選擇方法的研究[J].計(jì)算機(jī)應(yīng)用,2008(2).

    [4] 崔愛國.文本分類中特征提取方法的比較與分析[J].電腦知識與技術(shù),2009(7).

    3.2 卡方統(tǒng)計(jì)中四個(gè)參數(shù)的計(jì)算

    本文使用Java語言來實(shí)現(xiàn)卡方統(tǒng)計(jì)檢驗(yàn)的計(jì)算公式,建立了DataManager類和IndexManager類。DataManager類根據(jù)指定的語料庫存放路徑獲取語料庫的主要狀態(tài)信息,如語料庫的文檔總數(shù)、類別總數(shù)、某個(gè)類別下的文檔數(shù)。IndexManager類根據(jù)指定的語料庫來生成對應(yīng)的索引庫,索引庫的結(jié)構(gòu)如表1所示,并且提供一個(gè)getIndexReader()方法返回Lucene框架中的IndexReader對象。使用IndexReader對象的方法可以快速的讀取卡方統(tǒng)計(jì)檢驗(yàn)中所需的相關(guān)值。

    計(jì)算“整個(gè)語料庫中包含詞w的文檔數(shù)”,記作Nw ,可以直接使用IndexReader的docFreq(new term(“content”,word))方法來獲??;計(jì)算“類別c中包含單詞w的文檔數(shù)”即卡方統(tǒng)計(jì)中的參數(shù)A,可以采用如圖1所示的算法,IndexReader的termDocs方法可以返回包含詞w的文檔集合,該集合的每一項(xiàng)都包含一個(gè)文檔編號docId,通過IndexrReader的document(int docId)方法可以獲取當(dāng)前項(xiàng)所對應(yīng)的文檔。那么卡方統(tǒng)計(jì)檢驗(yàn)中的參數(shù)B=Nw-A。 計(jì)算“類別c中不包含單詞w的文檔總數(shù)”,即卡方統(tǒng)計(jì)中的參數(shù)C,可直接使用類別c的總文檔數(shù)NC-A,這里NC在給定語料庫路徑情況下可以很方便的獲得。在計(jì)算完參數(shù)A、B、C的值之后,D=N-A-B-C,其中N代表整個(gè)語料庫的文檔數(shù),在給定的語料庫中N的值是個(gè)常量。至此卡方統(tǒng)計(jì)檢驗(yàn)的參數(shù)已經(jīng)計(jì)算完畢,可以看出這里的關(guān)鍵是借助事先準(zhǔn)備好的索引庫快速計(jì)算出Nw和A的值。

    3.3 文本特征選擇計(jì)算的優(yōu)化

    當(dāng)文本的詞匯表較大時(shí)采用上述算法其效率依然不能令人滿意。java的多線程技術(shù)可使上述算法獲得更好的效率。首先使用Lucene來獲取類別c下的詞匯表并暫存于LinkedList集合中,這里的詞匯表應(yīng)該是過濾掉了停用詞和單字詞后的詞匯集合。創(chuàng)建一個(gè)實(shí)現(xiàn)了Runnable接口的CHIWorker類,該類具有實(shí)例屬性ThreadPool(線程池),調(diào)用CHIWorker類的start()方法時(shí)將對線程池進(jìn)行初始化。該類的run()方法作為線程體被多個(gè)線程調(diào)用。run()方法也是CHIWorker類的核心,決定了文本特征計(jì)算的效率,具體算法如圖所示。CHIWorker類擁有一個(gè)名為resultMap的HashMap,用于存儲詞匯及其CHI值存儲。采用java的多線程技術(shù)將類別c下所有詞匯的卡方統(tǒng)計(jì)檢驗(yàn)值計(jì)算完畢,并存儲在resultMap中,主程序?qū)⒃诙嗑€程運(yùn)行完畢后獲取到resultMap中存儲的值。

    圖2 CHIWorker類的run方法

    在獲取了存儲于resultMap中的CHI值之后可以進(jìn)一步按照CHI值的大小進(jìn)行排序,為CHI值確定一個(gè)最低閥值,保留大于閥值的詞匯作為類別c的特征詞匯集合,記為wordList1。借鑒文獻(xiàn)[3]中提出的CHI改進(jìn)算法,在獲取了詞匯集合wordList1之后,再進(jìn)一步計(jì)算每個(gè)詞的頻度、集中度和分散度,其中頻度是用語料索引庫中詞匯w出現(xiàn)的次數(shù)來表示;集中度=A/(A+C);分散度=A/(A+B) 。對wordList1中每個(gè)詞匯按照頻度、集中度和分散度的乘積進(jìn)行計(jì)算并降序排序,通過設(shè)定一個(gè)閥值來選區(qū)若干詞匯作為類別c的最終特征詞匯集合。至此,完成了對類別c的文本特征選擇,對其他類別也采用相同的計(jì)算過程,即可得到每個(gè)類別下的特征詞匯向量。

    4 結(jié)束語

    本文分析了文本特征選擇的重要性并比較了文本特征選擇的主要方法,深入探討了卡方統(tǒng)計(jì)檢驗(yàn)法(CHI)的特點(diǎn),提出了采用Lucene索引工具和Java多線程技術(shù)來優(yōu)化CHI計(jì)算方法的思路。

    參考文獻(xiàn):

    [1] 王光.集合CHI與IG的特征選擇方法[J].計(jì)算機(jī)應(yīng)用,2012(7).

    [2] 單松巍.幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J].計(jì)算機(jī)工程與應(yīng)用,2003(22).

    [3] 熊忠陽.基于卡方統(tǒng)計(jì)的文本分類特征選擇方法的研究[J].計(jì)算機(jī)應(yīng)用,2008(2).

    [4] 崔愛國.文本分類中特征提取方法的比較與分析[J].電腦知識與技術(shù),2009(7).

    猜你喜歡
    文本分類特征選擇
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    基于組合分類算法的源代碼注釋質(zhì)量評估方法
    基于貝葉斯分類器的中文文本分類
    基于蟻群智能算法的研究文本分類
    基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
    基于K—means算法的文本分類技術(shù)研究
    文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
    科技視界(2016年24期)2016-10-11 09:36:57
    基于GA和ELM的電能質(zhì)量擾動(dòng)識別特征選擇方法
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
    色噜噜av男人的天堂激情| 久久性视频一级片| 国产精品av久久久久免费| 宅男免费午夜| 一区福利在线观看| 少妇人妻一区二区三区视频| 男人舔奶头视频| 日本免费一区二区三区高清不卡| 不卡av一区二区三区| 特级一级黄色大片| 97超级碰碰碰精品色视频在线观看| 亚洲黑人精品在线| av在线天堂中文字幕| 偷拍熟女少妇极品色| 99久久精品热视频| 欧美午夜高清在线| 免费av毛片视频| 人人妻,人人澡人人爽秒播| 午夜福利在线在线| 神马国产精品三级电影在线观看| 在线a可以看的网站| 亚洲欧美日韩东京热| 国产乱人伦免费视频| 黄色日韩在线| 不卡av一区二区三区| 大型黄色视频在线免费观看| 人人妻,人人澡人人爽秒播| 人妻夜夜爽99麻豆av| 黄色成人免费大全| 在线十欧美十亚洲十日本专区| 日韩欧美国产一区二区入口| 极品教师在线免费播放| 亚洲第一欧美日韩一区二区三区| 天天一区二区日本电影三级| 日本黄大片高清| 日韩欧美三级三区| 精品熟女少妇八av免费久了| 黑人操中国人逼视频| 好男人电影高清在线观看| 天堂√8在线中文| 制服丝袜大香蕉在线| 亚洲熟妇熟女久久| 村上凉子中文字幕在线| 日本与韩国留学比较| 一进一出抽搐gif免费好疼| 99热只有精品国产| 亚洲色图 男人天堂 中文字幕| 国产人伦9x9x在线观看| 动漫黄色视频在线观看| 国产一区二区在线av高清观看| 真人一进一出gif抽搐免费| 丰满人妻熟妇乱又伦精品不卡| 国产精品1区2区在线观看.| 午夜a级毛片| 麻豆成人午夜福利视频| 日本免费a在线| 99热只有精品国产| 久久久色成人| 色综合婷婷激情| 身体一侧抽搐| a级毛片a级免费在线| 欧美日韩福利视频一区二区| 中文资源天堂在线| 丁香欧美五月| 亚洲熟妇熟女久久| 国产高清视频在线观看网站| 亚洲国产精品sss在线观看| 大型黄色视频在线免费观看| 在线观看66精品国产| 一进一出抽搐gif免费好疼| 老熟妇仑乱视频hdxx| av中文乱码字幕在线| 久久精品国产亚洲av香蕉五月| 日本免费a在线| 中出人妻视频一区二区| 黄色成人免费大全| 国产野战对白在线观看| 中文字幕人成人乱码亚洲影| 国产又色又爽无遮挡免费看| 日本与韩国留学比较| 日本五十路高清| 国产一区二区在线观看日韩 | 国产成人精品久久二区二区免费| 男女午夜视频在线观看| 色播亚洲综合网| 熟女少妇亚洲综合色aaa.| 国产精品国产高清国产av| 久久亚洲精品不卡| 久久九九热精品免费| 观看免费一级毛片| 曰老女人黄片| 特级一级黄色大片| 在线观看舔阴道视频| 99国产精品99久久久久| 真人做人爱边吃奶动态| 国产成人av激情在线播放| 亚洲国产日韩欧美精品在线观看 | 国产精品一区二区精品视频观看| 久久久久久久久久黄片| 精品一区二区三区四区五区乱码| 日韩精品中文字幕看吧| 亚洲18禁久久av| 麻豆国产av国片精品| 真人做人爱边吃奶动态| 色哟哟哟哟哟哟| 亚洲成人精品中文字幕电影| 国产高清视频在线播放一区| 老汉色∧v一级毛片| 国产高潮美女av| 欧美日韩黄片免| 国产av在哪里看| 久久久国产精品麻豆| 久久久久性生活片| 欧美绝顶高潮抽搐喷水| 久久久久久久久久黄片| 国内精品久久久久久久电影| 白带黄色成豆腐渣| 香蕉av资源在线| 露出奶头的视频| 色视频www国产| 最近最新中文字幕大全电影3| 黄色成人免费大全| 国产精品爽爽va在线观看网站| 桃色一区二区三区在线观看| 一级黄色大片毛片| or卡值多少钱| www.熟女人妻精品国产| 欧美又色又爽又黄视频| 在线观看午夜福利视频| 91在线观看av| 宅男免费午夜| 首页视频小说图片口味搜索| 婷婷亚洲欧美| 床上黄色一级片| 中文字幕精品亚洲无线码一区| 又黄又粗又硬又大视频| 美女高潮喷水抽搐中文字幕| 国产97色在线日韩免费| 中文亚洲av片在线观看爽| 国产黄a三级三级三级人| 亚洲欧美激情综合另类| 小说图片视频综合网站| 久久中文字幕人妻熟女| 观看免费一级毛片| 此物有八面人人有两片| 久久天躁狠狠躁夜夜2o2o| 午夜精品一区二区三区免费看| 男人舔女人的私密视频| 岛国在线免费视频观看| 亚洲第一欧美日韩一区二区三区| 久久久久久久久免费视频了| 最近最新中文字幕大全电影3| 两个人看的免费小视频| www.自偷自拍.com| 欧美zozozo另类| 国产又黄又爽又无遮挡在线| 无遮挡黄片免费观看| 亚洲精华国产精华精| 国产探花在线观看一区二区| 色噜噜av男人的天堂激情| 给我免费播放毛片高清在线观看| 亚洲va日本ⅴa欧美va伊人久久| 一进一出好大好爽视频| 美女高潮的动态| 国产精品99久久99久久久不卡| 免费高清视频大片| 亚洲男人的天堂狠狠| 动漫黄色视频在线观看| av视频在线观看入口| 一本精品99久久精品77| 久久久国产欧美日韩av| 麻豆成人午夜福利视频| av天堂中文字幕网| 俄罗斯特黄特色一大片| 国内精品久久久久精免费| 日本五十路高清| 国产精品久久视频播放| 一区二区三区国产精品乱码| 国产蜜桃级精品一区二区三区| 在线观看免费午夜福利视频| 一二三四在线观看免费中文在| 中文字幕人妻丝袜一区二区| 人妻久久中文字幕网| aaaaa片日本免费| 国产亚洲精品av在线| 少妇丰满av| 日日夜夜操网爽| 久久久久久九九精品二区国产| 男女之事视频高清在线观看| 免费一级毛片在线播放高清视频| 91av网一区二区| 国模一区二区三区四区视频 | 国产精品日韩av在线免费观看| 精品日产1卡2卡| 亚洲精品在线美女| 欧美在线一区亚洲| 亚洲国产欧美网| 黄色女人牲交| 一进一出抽搐动态| 亚洲精品在线美女| 日本 欧美在线| 国产1区2区3区精品| 亚洲国产看品久久| aaaaa片日本免费| av天堂中文字幕网| 18禁美女被吸乳视频| 中文字幕最新亚洲高清| 国产成人系列免费观看| 热99re8久久精品国产| 黄色日韩在线| 国产精品爽爽va在线观看网站| 国产精品 欧美亚洲| 精品电影一区二区在线| 性色avwww在线观看| 韩国av一区二区三区四区| 18禁国产床啪视频网站| 99热这里只有精品一区 | 亚洲五月婷婷丁香| 国内精品一区二区在线观看| 黄色视频,在线免费观看| 国产aⅴ精品一区二区三区波| 亚洲真实伦在线观看| 免费看十八禁软件| 成人国产综合亚洲| 91av网站免费观看| 久久国产精品人妻蜜桃| 国产精品av视频在线免费观看| 一进一出抽搐动态| 国内精品美女久久久久久| 91在线精品国自产拍蜜月 | 精品电影一区二区在线| 国产亚洲精品久久久com| 欧美绝顶高潮抽搐喷水| 国产一区二区三区在线臀色熟女| 欧美一级a爱片免费观看看| 欧美在线黄色| 日本撒尿小便嘘嘘汇集6| 一区二区三区激情视频| 亚洲国产欧美一区二区综合| 国产精品99久久久久久久久| 视频区欧美日本亚洲| 黄色丝袜av网址大全| 婷婷精品国产亚洲av在线| 俺也久久电影网| 欧美乱色亚洲激情| 90打野战视频偷拍视频| 窝窝影院91人妻| 一a级毛片在线观看| 欧美成人一区二区免费高清观看 | 免费无遮挡裸体视频| 色噜噜av男人的天堂激情| 国产精品精品国产色婷婷| 国产日本99.免费观看| 欧美日韩综合久久久久久 | 天堂av国产一区二区熟女人妻| 他把我摸到了高潮在线观看| 99热这里只有精品一区 | tocl精华| 欧美日韩精品网址| 叶爱在线成人免费视频播放| 丁香六月欧美| 国产精品一区二区三区四区久久| 午夜久久久久精精品| 久久国产乱子伦精品免费另类| 真人一进一出gif抽搐免费| 99久久99久久久精品蜜桃| 18禁国产床啪视频网站| 亚洲第一电影网av| 男女下面进入的视频免费午夜| 国产成人一区二区三区免费视频网站| 免费在线观看影片大全网站| 一本久久中文字幕| 欧美日韩综合久久久久久 | 免费观看精品视频网站| 色吧在线观看| 久久伊人香网站| 亚洲成人精品中文字幕电影| 97超级碰碰碰精品色视频在线观看| 欧美日韩黄片免| 国产精品 国内视频| 搡老熟女国产l中国老女人| 亚洲精品美女久久久久99蜜臀| 蜜桃久久精品国产亚洲av| 婷婷精品国产亚洲av在线| tocl精华| 不卡一级毛片| 亚洲成av人片免费观看| 国产精品久久久久久久电影 | 午夜福利成人在线免费观看| 亚洲国产精品sss在线观看| 国产成人av教育| 日本黄色视频三级网站网址| 丝袜人妻中文字幕| 免费av不卡在线播放| 一个人免费在线观看电影 | 99国产精品一区二区蜜桃av| 搞女人的毛片| 国内毛片毛片毛片毛片毛片| netflix在线观看网站| 黄片小视频在线播放| 亚洲av电影不卡..在线观看| 巨乳人妻的诱惑在线观看| 国产日本99.免费观看| 久久久久久人人人人人| 欧美色视频一区免费| 在线a可以看的网站| 欧美zozozo另类| 无限看片的www在线观看| 综合色av麻豆| 看黄色毛片网站| 国产精品一区二区三区四区久久| 精品一区二区三区av网在线观看| 亚洲av免费在线观看| 成人18禁在线播放| 免费av毛片视频| 亚洲avbb在线观看| 亚洲国产看品久久| 亚洲男人的天堂狠狠| 亚洲国产精品999在线| 午夜激情福利司机影院| 久久欧美精品欧美久久欧美| 老司机午夜十八禁免费视频| 男人舔奶头视频| 别揉我奶头~嗯~啊~动态视频| 九九在线视频观看精品| 黄片大片在线免费观看| 99视频精品全部免费 在线 | av天堂在线播放| 成人av在线播放网站| 欧美三级亚洲精品| 禁无遮挡网站| 999精品在线视频| 高清毛片免费观看视频网站| 欧美三级亚洲精品| 精品欧美国产一区二区三| 成人特级黄色片久久久久久久| 欧美黑人巨大hd| 又黄又爽又免费观看的视频| 99国产精品一区二区蜜桃av| 国内精品久久久久久久电影| 男人舔女人的私密视频| 精品无人区乱码1区二区| 午夜福利高清视频| 在线免费观看不下载黄p国产 | 欧美一级毛片孕妇| 啦啦啦免费观看视频1| 亚洲成a人片在线一区二区| 国产精品久久久久久亚洲av鲁大| 在线观看日韩欧美| 亚洲 国产 在线| 欧美日韩一级在线毛片| 久久久久久九九精品二区国产| 久久久国产成人免费| 黄色 视频免费看| 国产亚洲av嫩草精品影院| 全区人妻精品视频| 久久午夜亚洲精品久久| 日韩欧美 国产精品| 后天国语完整版免费观看| 午夜福利在线观看免费完整高清在 | 五月伊人婷婷丁香| 午夜福利成人在线免费观看| 久久精品国产亚洲av香蕉五月| 法律面前人人平等表现在哪些方面| 中文字幕人成人乱码亚洲影| 亚洲国产精品久久男人天堂| 国产91精品成人一区二区三区| 午夜久久久久精精品| 亚洲激情在线av| 国产高清videossex| 欧美午夜高清在线| 亚洲在线观看片| 中文字幕人妻丝袜一区二区| 国产伦精品一区二区三区四那| 国产三级黄色录像| 在线观看舔阴道视频| 久久中文字幕人妻熟女| 成人高潮视频无遮挡免费网站| 日日干狠狠操夜夜爽| www日本在线高清视频| 狠狠狠狠99中文字幕| 欧美精品啪啪一区二区三区| 亚洲五月天丁香| 麻豆成人av在线观看| 18禁裸乳无遮挡免费网站照片| 熟女电影av网| av女优亚洲男人天堂 | 亚洲精品456在线播放app | 日韩av在线大香蕉| 国产亚洲av高清不卡| 高清毛片免费观看视频网站| 1000部很黄的大片| 精品无人区乱码1区二区| av中文乱码字幕在线| 亚洲一区高清亚洲精品| 日韩 欧美 亚洲 中文字幕| 亚洲国产中文字幕在线视频| 91麻豆精品激情在线观看国产| 欧美大码av| 亚洲av美国av| 日日摸夜夜添夜夜添小说| 女生性感内裤真人,穿戴方法视频| 一级毛片高清免费大全| 免费大片18禁| 岛国在线观看网站| 欧美黑人巨大hd| 国产视频一区二区在线看| 美女cb高潮喷水在线观看 | 中出人妻视频一区二区| 99久久精品热视频| 欧美一级a爱片免费观看看| 床上黄色一级片| 午夜日韩欧美国产| 亚洲欧美一区二区三区黑人| 国产精品98久久久久久宅男小说| 给我免费播放毛片高清在线观看| 大型黄色视频在线免费观看| 国产成人欧美在线观看| 黄色女人牲交| 免费观看精品视频网站| 最近视频中文字幕2019在线8| 无限看片的www在线观看| 成人午夜高清在线视频| 久久香蕉精品热| 久久久色成人| 精品人妻1区二区| 国产成人欧美在线观看| 国产免费av片在线观看野外av| 久久热在线av| 视频区欧美日本亚洲| 国产伦一二天堂av在线观看| 国产精品 国内视频| 亚洲 欧美 日韩 在线 免费| 亚洲成人久久爱视频| 日本五十路高清| 亚洲欧美精品综合久久99| 久久精品国产亚洲av香蕉五月| 久久国产精品人妻蜜桃| 欧美一区二区国产精品久久精品| 老司机深夜福利视频在线观看| 亚洲aⅴ乱码一区二区在线播放| 日本成人三级电影网站| 亚洲国产色片| 亚洲成人精品中文字幕电影| www.熟女人妻精品国产| 国产成人福利小说| 免费在线观看视频国产中文字幕亚洲| 午夜福利在线观看吧| 亚洲中文字幕日韩| 无人区码免费观看不卡| 欧美在线黄色| 国产精品一区二区免费欧美| 露出奶头的视频| 日本熟妇午夜| 黄片大片在线免费观看| 午夜福利高清视频| 免费看日本二区| 草草在线视频免费看| 淫妇啪啪啪对白视频| 成人特级av手机在线观看| 99国产精品一区二区三区| 91av网站免费观看| 亚洲最大成人中文| 性色avwww在线观看| 老熟妇仑乱视频hdxx| 欧美3d第一页| 色吧在线观看| 亚洲av成人一区二区三| 啪啪无遮挡十八禁网站| 亚洲成人久久性| 最新在线观看一区二区三区| 国产精品久久久久久精品电影| 啦啦啦韩国在线观看视频| 黄色视频,在线免费观看| 老司机在亚洲福利影院| 麻豆成人午夜福利视频| 91av网一区二区| 久久午夜综合久久蜜桃| 噜噜噜噜噜久久久久久91| www日本在线高清视频| 嫁个100分男人电影在线观看| 一区二区三区高清视频在线| 免费看日本二区| 18禁国产床啪视频网站| 天堂av国产一区二区熟女人妻| 18禁美女被吸乳视频| 全区人妻精品视频| 日本撒尿小便嘘嘘汇集6| 国产高清激情床上av| 一级毛片女人18水好多| 观看美女的网站| 精品不卡国产一区二区三区| 中文字幕精品亚洲无线码一区| 国产不卡一卡二| 午夜精品一区二区三区免费看| 叶爱在线成人免费视频播放| 国产视频一区二区在线看| 无人区码免费观看不卡| 亚洲美女视频黄频| 日日摸夜夜添夜夜添小说| 狠狠狠狠99中文字幕| 精品一区二区三区视频在线观看免费| 国产视频内射| 国产精品,欧美在线| 一区二区三区国产精品乱码| 欧美在线一区亚洲| 国产精品综合久久久久久久免费| 精品午夜福利视频在线观看一区| 亚洲18禁久久av| 成人永久免费在线观看视频| 日韩高清综合在线| 婷婷精品国产亚洲av在线| 国产精品 欧美亚洲| 亚洲国产欧美人成| 国产毛片a区久久久久| 成年人黄色毛片网站| 午夜影院日韩av| 欧美大码av| 天天添夜夜摸| 熟女电影av网| 美女高潮的动态| 丰满人妻一区二区三区视频av | 亚洲欧美日韩高清在线视频| 性色av乱码一区二区三区2| 久久香蕉精品热| 97超级碰碰碰精品色视频在线观看| 色综合亚洲欧美另类图片| 看黄色毛片网站| 亚洲黑人精品在线| 日韩人妻高清精品专区| 蜜桃久久精品国产亚洲av| 亚洲精品国产精品久久久不卡| 欧美精品啪啪一区二区三区| av女优亚洲男人天堂 | 高潮久久久久久久久久久不卡| 久久中文字幕一级| 亚洲成人免费电影在线观看| 亚洲一区高清亚洲精品| 99精品欧美一区二区三区四区| 搡老熟女国产l中国老女人| 午夜免费激情av| 国产男靠女视频免费网站| 国产单亲对白刺激| 国产成年人精品一区二区| 无限看片的www在线观看| 给我免费播放毛片高清在线观看| 亚洲国产精品999在线| 高潮久久久久久久久久久不卡| 51午夜福利影视在线观看| 黄色 视频免费看| 午夜福利成人在线免费观看| 女生性感内裤真人,穿戴方法视频| 国产精品一区二区三区四区免费观看 | 久久九九热精品免费| 亚洲国产精品sss在线观看| 高潮久久久久久久久久久不卡| 国产伦人伦偷精品视频| 国产一区二区三区视频了| 亚洲欧美精品综合久久99| 床上黄色一级片| h日本视频在线播放| 精品一区二区三区四区五区乱码| 色吧在线观看| 超碰成人久久| 日韩有码中文字幕| 色综合亚洲欧美另类图片| 91九色精品人成在线观看| 国产亚洲av嫩草精品影院| 国产成人系列免费观看| 窝窝影院91人妻| 色精品久久人妻99蜜桃| 99国产极品粉嫩在线观看| 欧洲精品卡2卡3卡4卡5卡区| 天天添夜夜摸| 精品一区二区三区视频在线观看免费| 久久精品国产99精品国产亚洲性色| 美女高潮喷水抽搐中文字幕| 又黄又爽又免费观看的视频| 无人区码免费观看不卡| 美女黄网站色视频| www日本在线高清视频| 亚洲成人久久爱视频| 一进一出好大好爽视频| 国产精品99久久久久久久久| av女优亚洲男人天堂 | 天堂av国产一区二区熟女人妻| 国模一区二区三区四区视频 | 国产 一区 欧美 日韩| 51午夜福利影视在线观看| 亚洲专区中文字幕在线| 99久久成人亚洲精品观看| 中文字幕熟女人妻在线| 亚洲国产高清在线一区二区三| 欧美一级毛片孕妇| 欧美性猛交黑人性爽| 久久精品91蜜桃| 亚洲avbb在线观看| 国产精品精品国产色婷婷| av在线蜜桃| 蜜桃久久精品国产亚洲av| 俄罗斯特黄特色一大片| 每晚都被弄得嗷嗷叫到高潮| 在线播放国产精品三级| or卡值多少钱| 日韩精品中文字幕看吧| 久久性视频一级片| 精品久久久久久,| 可以在线观看毛片的网站| 色精品久久人妻99蜜桃| 精品久久久久久,| 国产av麻豆久久久久久久| 十八禁人妻一区二区| www日本黄色视频网| 成人精品一区二区免费| 免费观看的影片在线观看|