• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞向量及術(shù)語(yǔ)關(guān)系抽取方法的文本分類方法

    2018-07-30 08:47:28侯慶霖
    移動(dòng)通信 2018年7期
    關(guān)鍵詞:特征詞卡方術(shù)語(yǔ)

    侯慶霖

    (廣州杰賽科技股份有限公司,廣東 廣州 510310)

    1 引言

    文本分類經(jīng)歷了基于知識(shí)工程向機(jī)器學(xué)習(xí)方法轉(zhuǎn)變的歷程[1]。以知識(shí)工程為主的文本分類算法由于其可移植性和通用性較差,逐漸被機(jī)器學(xué)習(xí)方法所取代。用于文本分類的機(jī)器學(xué)習(xí)方法有:向量機(jī)[2]、神經(jīng)網(wǎng)絡(luò)[3]、貝葉斯[4]及K近鄰[5]等算法,這些算法都在文本分類的領(lǐng)域具有較好的性能。機(jī)器學(xué)習(xí)方法的文本分類研究主要由3方面構(gòu)成:文本表示、空間維度約減以及文本分類器[6]。作為文本分類基礎(chǔ)的文本表示(也稱為特征表示或者特征選擇)是文本分類好壞的基礎(chǔ),成為了當(dāng)前最熱門的研究課題。文本的特征學(xué)習(xí)技術(shù)在21世紀(jì)以來得到廣泛的關(guān)注,詞的分布表示最早由Hinton提出,實(shí)質(zhì)上是將每一個(gè)詞映射成k維實(shí)數(shù)向量[7]。在2013年,谷歌將連續(xù)詞袋的Skip——Gram模型進(jìn)行擴(kuò)展,開源了基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的Woed2vec詞向量學(xué)習(xí)工具,這是自然語(yǔ)言處理歷史上一次重大的變革。但是由于中文文本本身具有近義詞和同義詞數(shù)量眾多的特點(diǎn),單純的詞向量模型已經(jīng)無法滿足文檔的特征表示,因此文本將神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的向量空間模型與卡方檢驗(yàn)算法結(jié)合,形成基于詞向量的文本特征選擇方法,彌補(bǔ)了使用卡方檢驗(yàn)中存在的特征詞“不完備”的特點(diǎn)。考慮到選取的特征詞語(yǔ)集合不能表達(dá)特定學(xué)科領(lǐng)域的概念,本文對(duì)擴(kuò)充后特征詞集合構(gòu)建候選術(shù)語(yǔ)網(wǎng)絡(luò);然后根據(jù)特征詞向量的位置關(guān)系、詞匯信息特征考察特征詞之間的內(nèi)部結(jié)合緊密度;最后,采用詞語(yǔ)的左熵或右熵規(guī)則實(shí)現(xiàn)術(shù)語(yǔ)抽取,形成特定學(xué)科領(lǐng)域內(nèi)能夠反映文本表示的特征詞抽取方法。

    2 相關(guān)研究

    2.1 特征表示

    特征表示是基于某種評(píng)價(jià)標(biāo)準(zhǔn),對(duì)文本中的特征項(xiàng)進(jìn)行評(píng)估,并對(duì)每一個(gè)特征進(jìn)行評(píng)分,按照分?jǐn)?shù)進(jìn)行排序,選擇Top N特征項(xiàng)作為文本表示的特征集合。因此,針對(duì)中文的特征表示分為3步:

    (1)采用中文分詞工具對(duì)文本進(jìn)行分詞,分詞后的結(jié)果作為原始特征集合;

    (2)通過某種評(píng)估方法計(jì)算每一個(gè)詞語(yǔ)的特征值(權(quán)值),并按照特征值進(jìn)行排序;

    (3)選取若干個(gè)最能代表文本內(nèi)容的特征詞,形成文本的最優(yōu)特征集合。

    顯然,不同的特征表示函數(shù)決定了文本分類效果的好壞,下面對(duì)常見的幾種特征函數(shù)進(jìn)行介紹。

    (1)卡方檢驗(yàn)

    卡方檢驗(yàn)(CHI)是數(shù)理統(tǒng)計(jì)中用來檢查兩個(gè)變量之間獨(dú)立性的一種假設(shè)檢驗(yàn)方法[8]。卡方檢驗(yàn)的假設(shè)是樣本具有獨(dú)立性,樣本的分布遵循卡方分布,通過樣本的實(shí)際觀察值與理論推斷值的偏差來決定卡方檢驗(yàn)之的大小,如果χ2值越大,說明兩者之間的偏差程度越大,待分類文本類別越不可能與語(yǔ)料庫(kù)的分類一致;同理,χ2值越小,說明兩者越趨于相同,待分類文本類別越有可能與語(yǔ)料庫(kù)的類別一致??ǚ綑z驗(yàn)用于文本特征表示方法時(shí),假設(shè)特征詞t與類別ci之間符合卡方(χ2)分布,則特征詞t對(duì)于類別ci的卡方值為:

    其中,A表示某一個(gè)類別包含該特征詞t的文檔總數(shù)量;B表示在某一個(gè)類別中,排除該類別后其他類別包含該特征詞t的文檔的數(shù)量;C表示某一個(gè)類別不包含該特征詞t的文檔總數(shù)量;D表示在某一個(gè)類別中,排除該類別后其他類別也不包含該特征詞t的文檔的數(shù)量。從上述公式可知,χ2(t,c)=0時(shí),表示該特征詞t不包含與文本類別相關(guān)的鑒別信息,反之亦然。本文的方法是借助卡方檢驗(yàn)選出若干個(gè)與文本類別有最強(qiáng)相關(guān)性的特征項(xiàng)即可,因此不需要設(shè)置任何閾值。

    (2)互信息

    互信息(MI, Mutual Information)用來度量?jī)蓚€(gè)對(duì)象之間的相互性,也即一個(gè)隨機(jī)變量包含的另一個(gè)隨機(jī)變量的信息量?;バ畔⑼ǔS脕碜鳛樘卣髟~和類別之間的相關(guān)性度量的標(biāo)準(zhǔn),如果某個(gè)特征詞t屬于某一個(gè)類別的話,那么特征詞t和類別ci的互信息量會(huì)最大。則特征詞t對(duì)于類別ci的互信息計(jì)算公式為:

    p(t, ci)表示訓(xùn)練集中包含特征詞t又屬類別ci的概率,P(t)表示包含特征詞t的文本在訓(xùn)練集中出現(xiàn)的概率,p(ci)表示類別ci在訓(xùn)練集中出現(xiàn)的概率。根據(jù)上述的公式,如果該特征詞t在類別ci中出現(xiàn)的頻率越高,而在其他類別中出現(xiàn)的頻率越低,那么特征詞t與類別ci的相關(guān)性越大,特征詞t越有可能屬于類別ci。由于互信息僅僅考慮特征詞在每一個(gè)文本中是否出現(xiàn),而沒有考慮其在文本中出現(xiàn)的次數(shù),因此,在同等條件概率下,稀有詞將高于常用詞的MI值,因此其在文本分類中效果不佳。

    (3)文檔頻率法

    文檔頻率法(TF-IDF, Term Frequency–Inverse Document Frequency)用來評(píng)估特征詞t對(duì)于某一個(gè)類別ci的重要程度。TF-IDF的主要思想是:如果某個(gè)特征詞ti在某一類別cj出現(xiàn)的頻率TF高,并且在其他類別中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來做類別分類。其公式為:

    tfij表示特征詞的詞頻,nij表示特征詞ti在類別cj中出現(xiàn)的次數(shù),而分母是該類別中所有詞語(yǔ)的出現(xiàn)次數(shù)總和。

    idfi表示逆文檔頻率, |{j: ti∈ cj}|表示包含該特征詞ti的文件總數(shù),|D|表示語(yǔ)料庫(kù)中的文件總數(shù)。

    TF-IDF實(shí)際上是tf × idf,tf表示特征詞在類別cj中出現(xiàn)的頻率。idf的主要思想是:如果包含特征詞t的文檔越少,idf越大,則說明特征詞t具有很好的類別區(qū)分能力。

    相關(guān)研究證明,卡方檢驗(yàn)算法在存在類別交叉現(xiàn)象明顯的文本分類中表現(xiàn)出高于其他算法的分類性能,但是由于卡方分類算法不考慮詞頻信息,因此過于倚重低頻詞,不利于文本特征的真實(shí)表示。同理,互信息也是由于沒有考慮特征項(xiàng)的詞頻信息,出現(xiàn)傾向于選擇低頻詞的特點(diǎn)。而文檔頻率法則過于關(guān)注詞頻信息,容易誤刪稀有詞。

    2.2 詞向量

    詞向量的思想是將一個(gè)詞語(yǔ)采用低維的實(shí)數(shù)向量來表示。詞向量與語(yǔ)言模型有著密不可分的關(guān)系,目前常見的語(yǔ)言模型包括統(tǒng)計(jì)語(yǔ)言模型、n-gram模型、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型等。2013年谷歌公司開源出來的詞向量工具是基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行訓(xùn)練的,其詞向量具有優(yōu)良的特性:包含詞語(yǔ)的語(yǔ)義信息可用于同義詞、聚類或者詞性的分析;向量的組合運(yùn)算能夠發(fā)現(xiàn)向量的共同特征。

    2.3 基于詞向量和卡方檢驗(yàn)相結(jié)合的特征詞選取方法

    開源的word2vec訓(xùn)練學(xué)習(xí)的詞向量表示,考慮了詞語(yǔ)之間的語(yǔ)義關(guān)系的特點(diǎn),而卡方檢驗(yàn)方法則具備分類的穩(wěn)定性能特點(diǎn)。因此,本文考慮了訓(xùn)練數(shù)據(jù)集所包含的具有類別表征能力的詞語(yǔ)具有局限性的特點(diǎn),以及其他文本特征表示算法具有獨(dú)立性的假設(shè)的缺陷,采用基于詞向量和卡方檢驗(yàn)相結(jié)合的算法來選取具有表征類別能力的特征詞。具體的步驟為:

    (1)計(jì)算每一個(gè)類別所有詞語(yǔ)的CHI值,并對(duì)其進(jìn)行排序,選取Top N的詞語(yǔ)作為特征詞,得到每一個(gè)類別的特征詞集合。假設(shè)類別編號(hào)為i,wij表示類別i的第j個(gè)特征詞,將所有類別的特征詞進(jìn)行合并,假設(shè)類別總數(shù)為D。即{w11, w12, …, w1N}∪{w21, w22, …,w2N}∪…∪{wD1, wD2, …, wDN},得到合并后的特征詞集合w={w1, w2, …, wd},其中d是合并后的維數(shù),根據(jù)實(shí)際的情況決定。

    (2)利用word2vec訓(xùn)練所有類別詞語(yǔ)的詞向量,利用余弦相似性計(jì)算特征詞集合w中每一個(gè)詞語(yǔ)與其相似的前M個(gè)詞語(yǔ),并將最相似的詞語(yǔ)加進(jìn)原有的特征詞集合中。

    getnearest(wi, M)是利用余弦相似度計(jì)算的與特征詞集合最相似的M個(gè)詞。

    2.4 術(shù)語(yǔ)關(guān)系抽取方法

    以擴(kuò)充后的特征詞集合為基礎(chǔ),構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以詞語(yǔ)間詞匯信息特征、詞語(yǔ)的相關(guān)性,評(píng)價(jià)詞匯內(nèi)部結(jié)合的緊密度,結(jié)合詞語(yǔ)間的位置關(guān)系進(jìn)行詞語(yǔ)合并,抽取相關(guān)領(lǐng)域候選的術(shù)語(yǔ),則有:

    其中,b∈w,w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合;R(a,b)表示在某一個(gè)類別內(nèi),詞語(yǔ)a與特征詞語(yǔ)集合中任意一個(gè)特征詞的相關(guān)性;a表示詞語(yǔ)a的向量,b表示詞語(yǔ)b的向量。w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合。如果特征詞a的相關(guān)性與特征詞b的相關(guān)性越高,那么兩者越有可能是某領(lǐng)域中的術(shù)語(yǔ)。

    其中,PMI(a, b)表示特征詞a與特征詞語(yǔ)集合中任意一個(gè)特征詞的點(diǎn)間互信息,P(a&b)表示兩個(gè)特征詞語(yǔ)a與b在某類別共同出現(xiàn)的概率,即a與b共同出現(xiàn)在某類別中的文檔數(shù),P(a)與P(b)分別表示兩個(gè)特征詞單獨(dú)出現(xiàn)的概率,即詞語(yǔ)出現(xiàn)在某一類別的的文檔數(shù)。若兩個(gè)詞語(yǔ)在某類別中共現(xiàn)概率越大,表明其關(guān)聯(lián)度越大;反之,關(guān)聯(lián)度越小。P(a&b)與P(a)P(b)的比值是詞語(yǔ)a與詞語(yǔ)b兩個(gè)詞語(yǔ)的統(tǒng)計(jì)獨(dú)立性度量。

    其中,EL(a, b)表示詞語(yǔ)a的左熵,表示對(duì)特征詞a左邊的詞語(yǔ)b出現(xiàn)的穩(wěn)定性的度量。

    同理,ER(a, b)表示詞語(yǔ)a的右熵,表示對(duì)特征詞a左邊的詞語(yǔ)b出現(xiàn)的穩(wěn)定性的度量。

    那么,結(jié)合公式(6)和(7),得出擴(kuò)充后的特征集合的每一個(gè)特征詞在每一個(gè)類別中與其他特征詞的內(nèi)部結(jié)合緊密度:

    其中,α值根據(jù)實(shí)際決定。本文的α取值采用加權(quán)平均的方式,也就是α1=α2=0.25。術(shù)語(yǔ)抽取的閾值可參考Farkas的派系強(qiáng)度函數(shù)公式計(jì)算得出:

    其中,d表示與擴(kuò)充后特征詞的數(shù)量,如果特征詞a與特征詞b之間的內(nèi)部結(jié)合緊密度小于設(shè)定的閾值,那么認(rèn)為特征詞a和特征詞b不能合并成特定領(lǐng)域的術(shù)語(yǔ);反之,特征詞a和特征詞b有可能合成術(shù)語(yǔ)。

    經(jīng)過詞語(yǔ)之間的內(nèi)部緊密度篩選后,滿足條件的詞語(yǔ)將會(huì)形成候選術(shù)語(yǔ)集合,本文根據(jù)左熵(公式(8))和右熵(公式(9))的定義,確定術(shù)語(yǔ)的組合。

    3 實(shí)驗(yàn)分析及結(jié)果

    3.1 實(shí)驗(yàn)環(huán)境和語(yǔ)料的介紹

    實(shí)驗(yàn)環(huán)境:windows server 2008 R2 64bit,Inter Xeon 2.50 GHz CPU,16.0 GB 內(nèi)存。仿真環(huán)境:Python 2.7。

    在本實(shí)驗(yàn)中,本文通過選取中國(guó)科學(xué)院語(yǔ)言資料研究室提供的文本庫(kù)作為實(shí)驗(yàn)語(yǔ)料,通過人工選取了640篇文章并將其歸為8類,這樣每個(gè)類別包含80篇文章。由于該語(yǔ)料庫(kù)的語(yǔ)料來源多樣、文章體裁多樣,因此該語(yǔ)料庫(kù)能夠在一定程度上代表中文文本分類的準(zhǔn)確性。

    3.2 實(shí)驗(yàn)設(shè)計(jì)

    (1)分詞系統(tǒng)的選取

    本文的實(shí)驗(yàn)過程以結(jié)巴工具作為中文分詞工具,其主要功能包括中文分詞、詞性標(biāo)注以及關(guān)鍵詞抽取。該分詞系統(tǒng)具有3種模式:精確模式,試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來,速度非常快,但是不能解決歧義問題;搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞,本文的預(yù)處理數(shù)據(jù)階段采用精確模型進(jìn)行中文文本的詞語(yǔ)切分。

    (2)文本表示

    本文采用谷歌開源的word2vec訓(xùn)練學(xué)習(xí)的詞向量表示方法來獲取詞語(yǔ)信息。采用word2vec方法對(duì)詞信息本身進(jìn)行信息分析并建立索引,借助索引來表示文本的內(nèi)容。

    (3)特征選擇與提取

    本文采用基于詞向量和卡方檢驗(yàn)相結(jié)合的算法來選取具有表征類別能力的、擴(kuò)展性特征詞集合后;以擴(kuò)充后的特征詞集合為基礎(chǔ),構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以特征詞間詞匯信息特征、特征詞的相關(guān)性,評(píng)價(jià)特征詞之間結(jié)合的緊密度,結(jié)合特征詞的位置關(guān)系(左熵或右熵)進(jìn)行特征詞合并,抽取相關(guān)領(lǐng)域候選術(shù)語(yǔ)。而術(shù)語(yǔ)的向量表示可通過兩個(gè)特征詞向量的組合運(yùn)算得出。w表示經(jīng)過擴(kuò)充后的特征詞語(yǔ)集合,s表示在各個(gè)領(lǐng)域的術(shù)語(yǔ)集合,那么最終的特征詞語(yǔ)集合為W=w∪s。計(jì)算特征語(yǔ)集合中每個(gè)特征詞的TF-IDF值,并將其作為分類器輸入數(shù)據(jù)進(jìn)行訓(xùn)練,得到分類器模型。

    (4)分類器的選擇

    在眾多的文本分類算法中,比較經(jīng)典的就是Rocchio分類器、樸素貝葉斯分類器、基于支持向量機(jī)分類器、基于神經(jīng)網(wǎng)絡(luò)分類器、基于k-最近鄰算法分類器。本文考慮了術(shù)語(yǔ)形成原理以及術(shù)語(yǔ)的詞向量特征,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類的算法[9],卷積神經(jīng)網(wǎng)絡(luò)中卷積層包括三個(gè)部分:卷積、池化、非線性激活函數(shù)層(tanh或者sigmoid)。卷積層通常來說是用來提取特征詞向量的空間特征,然后使用平均池化進(jìn)行下采樣,最后通過多層神經(jīng)網(wǎng)絡(luò)(MLP, Multilayer Perceptron)作為最后的分類器對(duì)本文的特征詞向量進(jìn)行分類。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是層與層之間采用稀疏連接矩陣來保證神經(jīng)網(wǎng)絡(luò)的運(yùn)算速度。其實(shí)卷積神經(jīng)網(wǎng)絡(luò)的系屬性特點(diǎn)主要是用于激活層,它一般取max(0, x),在神經(jīng)網(wǎng)絡(luò)迭代計(jì)算的過程中,實(shí)際上變成它在不斷試探如何用一個(gè)大多數(shù)為0的矩陣來表達(dá)輸入數(shù)據(jù)特征,結(jié)果因?yàn)橄∈杼匦缘拇嬖?,使得?jì)算效果又快又好。除此之外,卷積神經(jīng)網(wǎng)絡(luò)引入“權(quán)值”共享原則,這樣大大減少了神經(jīng)網(wǎng)絡(luò)運(yùn)算的參數(shù),降低了復(fù)雜度。

    3.3 實(shí)驗(yàn)過程

    (1)訓(xùn)練過程

    文本自動(dòng)分類之前需要對(duì)文本進(jìn)行訓(xùn)練構(gòu)建分類模型。本文隨機(jī)選取實(shí)驗(yàn)語(yǔ)料的30%作為訓(xùn)練數(shù)據(jù)集,采用卷積神經(jīng)網(wǎng)絡(luò)分類算法訓(xùn)練文本,借助上述提出的方法構(gòu)造文本分類器。按照上面提到的文本分類步驟對(duì)文本進(jìn)行預(yù)處理、詞向量空間構(gòu)建、特征詞提取、分類器構(gòu)造四個(gè)階段,在挖掘特征詞之后把特征詞或者術(shù)語(yǔ)的詞向量輸入到卷積網(wǎng)絡(luò),并按照其對(duì)應(yīng)的人工分類的主題進(jìn)行輸出,訓(xùn)練出一個(gè)特征詞向量與分類主題進(jìn)行非線性映射的模型,形成文本分類模型。

    (2)分類過程

    分類過程是對(duì)剩下的實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行文本分類的過程,值得注意的是,在分類過程中,文本的詞向量空間構(gòu)建、特征詞提取等步驟與訓(xùn)練過程是相似的,在獲取文本的特征詞向量空間后,把該向量空間輸入已經(jīng)訓(xùn)練好的文本分類模型,最終判別出文本的專題分類。

    3.4 評(píng)估指標(biāo)

    在文本分類的評(píng)估指標(biāo)中,最常被用來衡量分詞性能的指標(biāo)是召回率和準(zhǔn)確率。

    召回率是正確劃分到某一個(gè)主題文檔數(shù)量與文檔庫(kù)中某個(gè)主題所有的相關(guān)文檔的比率,是衡量中文文本分類系統(tǒng)的查全率;正確率是正確劃分到某一個(gè)主題的文檔數(shù)量與被系統(tǒng)劃分到某一個(gè)主題的文檔總數(shù)的比率,是衡量文本分類系統(tǒng)的查準(zhǔn)率。

    3.5 實(shí)驗(yàn)結(jié)果分析

    在本實(shí)驗(yàn)中,首先選取了常見幾種文本分類算法,其中包括CHI算法、MI算法和TFIDF算法,將上述集中幾種分類算法與本文提出的算法對(duì)同一實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行文本分類實(shí)驗(yàn),最后根據(jù)實(shí)驗(yàn)結(jié)果對(duì)各分類算法做性能比對(duì)。詳細(xì)的對(duì)比結(jié)果如圖1至圖4所示:

    圖1 CHI分類算法的實(shí)驗(yàn)結(jié)果

    圖2 MI分類算法的實(shí)驗(yàn)結(jié)果

    圖3 TF-IDF分類算法的實(shí)驗(yàn)結(jié)果

    圖4 本文分類算法的實(shí)驗(yàn)結(jié)果

    上述實(shí)驗(yàn)所選用的實(shí)驗(yàn)語(yǔ)料庫(kù)均為中科院語(yǔ)言資料研究室提供的實(shí)驗(yàn)語(yǔ)料,在采用中文結(jié)巴分詞以及詞語(yǔ)向量模型構(gòu)建詞語(yǔ)向量空間的基礎(chǔ)上,采用多種文本分類的方法進(jìn)行實(shí)驗(yàn)對(duì)比。由上圖可知,本文采取的算法準(zhǔn)確率最高,其次,CHI和MI的算法準(zhǔn)確率較高,而TF-IDF的算法準(zhǔn)確率略低。

    CHI算法雖然能夠選取具有表征類別能力的特征詞集合,但是其所選的特征詞沒有考慮到特征詞和特征類別的相關(guān)性。除此之外,該方法獲取的特征詞不能“完備”表達(dá)特定學(xué)科領(lǐng)域的概念,因此,CHI算法的文本分類準(zhǔn)確率有待提高。

    MI算法雖然考慮了特征詞和特征類別的相關(guān)性,但由于不同學(xué)科領(lǐng)域擁有相似的關(guān)鍵詞,而MI算法僅僅對(duì)該領(lǐng)域的特征詞進(jìn)行抽取而沒有將相關(guān)領(lǐng)域的術(shù)語(yǔ)進(jìn)行抽取,因此,MI的文本分類算法準(zhǔn)確率相對(duì)CHI較低。

    TF-IDF算法能夠體現(xiàn)特征詞在語(yǔ)料庫(kù)中的重要程度,但是該方法不僅沒有考慮特征詞相關(guān)性和“完備性”的特點(diǎn),也沒有對(duì)特定領(lǐng)域的術(shù)語(yǔ)進(jìn)行抽取,因此,采用該方法提取的特征詞不能很好體現(xiàn)不同的學(xué)科領(lǐng)域特征。

    由此看來,不同分類算法的準(zhǔn)確率有明顯的區(qū)別,說明特征詞的選擇至關(guān)重要,本文結(jié)合詞向量和卡方檢驗(yàn)相結(jié)合的方法,通過擴(kuò)充特征詞集合彌補(bǔ)了單純使用卡方檢驗(yàn)中存在的特征詞“不完備”的缺陷。除此之外,本文考慮到擴(kuò)充的特征詞語(yǔ)集合不能表達(dá)特定學(xué)科領(lǐng)域的概念,采用特征詞集合之間的位置關(guān)系、詞匯信息特征考察特征詞之間的內(nèi)部結(jié)合緊密度,結(jié)合詞語(yǔ)的左熵或右熵規(guī)則實(shí)現(xiàn)術(shù)語(yǔ)抽取,形成特定學(xué)科領(lǐng)域內(nèi)能夠反映文本表示的詞語(yǔ)抽取方法,這種方法所抽取的特征詞更能體現(xiàn)特定學(xué)科領(lǐng)域的特征,因此具有更好的分類效果。

    4 結(jié)束語(yǔ)

    本文結(jié)合詞向量和卡方檢驗(yàn)相結(jié)合的方法,通過擴(kuò)充特征詞集合彌補(bǔ)了單純使用卡方檢驗(yàn)中存在的特征詞“不完備”的缺陷,形成更加具有表征類別能力的特征詞集合。在此基礎(chǔ)上,構(gòu)造候選術(shù)語(yǔ)網(wǎng)絡(luò),以詞語(yǔ)間詞匯信息特征、詞語(yǔ)的相關(guān)性,評(píng)價(jià)詞匯內(nèi)部結(jié)合的緊密度,結(jié)合詞語(yǔ)間的位置關(guān)系進(jìn)行詞語(yǔ)合并,抽取該領(lǐng)域的術(shù)語(yǔ)。最后以特征詞和術(shù)語(yǔ)作為文本的特征表示,放入卷積神經(jīng)網(wǎng)絡(luò)分類器中進(jìn)行訓(xùn)練并實(shí)現(xiàn)文本的自動(dòng)分類。實(shí)驗(yàn)表明,本文所采用的方法抽取的特征詞集合更能體現(xiàn)特定學(xué)科領(lǐng)域的特征,具有更好的分類效果。

    猜你喜歡
    特征詞卡方術(shù)語(yǔ)
    卡方檢驗(yàn)的應(yīng)用條件
    卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
    卡方檢驗(yàn)的應(yīng)用條件
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    面向文本分類的特征詞選取方法研究與改進(jìn)
    基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法
    有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
    從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
    關(guān)于“方言特征詞”理論的回顧及思考
    夜夜看夜夜爽夜夜摸| a级毛片免费高清观看在线播放| 两个人视频免费观看高清| 精品人妻熟女av久视频| 国产精品电影一区二区三区| 国产爱豆传媒在线观看| 一边亲一边摸免费视频| 18禁裸乳无遮挡免费网站照片| 中文字幕亚洲精品专区| 天天一区二区日本电影三级| 亚洲国产精品sss在线观看| 国产精品人妻久久久影院| 国产成人精品婷婷| 国产一区二区三区av在线| 久久99精品国语久久久| 国产不卡一卡二| 搡女人真爽免费视频火全软件| 国产精品福利在线免费观看| 深夜a级毛片| 99久久精品热视频| 久久精品国产自在天天线| 久久欧美精品欧美久久欧美| 大香蕉久久网| 亚洲在久久综合| 国产伦一二天堂av在线观看| 欧美不卡视频在线免费观看| 在线观看66精品国产| 久久精品91蜜桃| 久久欧美精品欧美久久欧美| 黄片wwwwww| 免费看a级黄色片| 99久久精品热视频| АⅤ资源中文在线天堂| 欧美一区二区精品小视频在线| 久久久成人免费电影| 国产国拍精品亚洲av在线观看| 午夜久久久久精精品| 内地一区二区视频在线| 老师上课跳d突然被开到最大视频| 亚洲欧美成人精品一区二区| 国产精品乱码一区二三区的特点| 国产午夜福利久久久久久| 22中文网久久字幕| 精品人妻偷拍中文字幕| 2022亚洲国产成人精品| 少妇人妻一区二区三区视频| 热99在线观看视频| 国产精品,欧美在线| 床上黄色一级片| 国产精品国产三级国产av玫瑰| 又粗又硬又长又爽又黄的视频| 一边亲一边摸免费视频| 久久久精品欧美日韩精品| 丰满少妇做爰视频| 亚洲av电影在线观看一区二区三区 | 波多野结衣高清无吗| 亚洲精品久久久久久婷婷小说 | 99九九线精品视频在线观看视频| 男女国产视频网站| 中文字幕熟女人妻在线| 日韩成人av中文字幕在线观看| 丝袜美腿在线中文| 能在线免费看毛片的网站| 99久久精品一区二区三区| 精品久久久久久成人av| 特大巨黑吊av在线直播| 女的被弄到高潮叫床怎么办| 免费看av在线观看网站| 尤物成人国产欧美一区二区三区| 中文字幕人妻熟人妻熟丝袜美| 精品国内亚洲2022精品成人| 联通29元200g的流量卡| 天堂av国产一区二区熟女人妻| 看黄色毛片网站| 欧美激情国产日韩精品一区| 成人高潮视频无遮挡免费网站| 亚洲在久久综合| h日本视频在线播放| 精品国产露脸久久av麻豆 | 老师上课跳d突然被开到最大视频| 久久精品国产亚洲av天美| 亚洲人成网站在线播| 国产亚洲av片在线观看秒播厂 | 免费黄色在线免费观看| 又爽又黄无遮挡网站| 女人被狂操c到高潮| 三级毛片av免费| 女人被狂操c到高潮| 国产在线一区二区三区精 | 亚洲最大成人中文| 精品酒店卫生间| 身体一侧抽搐| 亚洲精品乱码久久久久久按摩| 国产高潮美女av| 日本黄色视频三级网站网址| 欧美三级亚洲精品| 久久久亚洲精品成人影院| 1000部很黄的大片| 国产精品综合久久久久久久免费| 成人毛片60女人毛片免费| 国产乱人视频| 深夜a级毛片| www.色视频.com| 爱豆传媒免费全集在线观看| 国产欧美另类精品又又久久亚洲欧美| www.色视频.com| 亚洲av免费在线观看| 日韩欧美三级三区| 亚洲av成人av| a级毛片免费高清观看在线播放| 在线观看美女被高潮喷水网站| 亚洲国产精品成人综合色| 日韩高清综合在线| 午夜精品在线福利| 国产亚洲av嫩草精品影院| 熟女人妻精品中文字幕| 国产乱来视频区| 18禁动态无遮挡网站| 亚洲天堂国产精品一区在线| 国产免费又黄又爽又色| 成人一区二区视频在线观看| 91精品一卡2卡3卡4卡| 不卡视频在线观看欧美| 国产成人freesex在线| 熟妇人妻久久中文字幕3abv| 国产午夜精品论理片| 一级黄色大片毛片| 天堂中文最新版在线下载 | 日本猛色少妇xxxxx猛交久久| 国产精品一区二区三区四区久久| 99在线人妻在线中文字幕| 欧美性猛交黑人性爽| 综合色av麻豆| 亚洲最大成人av| 欧美zozozo另类| 亚洲aⅴ乱码一区二区在线播放| 日本av手机在线免费观看| 淫秽高清视频在线观看| 99九九线精品视频在线观看视频| av视频在线观看入口| 午夜老司机福利剧场| 国产精品一区www在线观看| 干丝袜人妻中文字幕| 天堂影院成人在线观看| 亚洲丝袜综合中文字幕| 欧美日韩国产亚洲二区| 精品国产露脸久久av麻豆 | 久久久久久久久久久丰满| 国产 一区 欧美 日韩| 成年av动漫网址| 国产成人精品一,二区| 欧美高清成人免费视频www| 国产精品野战在线观看| 熟妇人妻久久中文字幕3abv| 亚洲成人av在线免费| 日本免费在线观看一区| 亚洲第一区二区三区不卡| 国产免费一级a男人的天堂| 边亲边吃奶的免费视频| 日本与韩国留学比较| 黄片wwwwww| 久久久久久久久久黄片| 国产精品一区二区三区四区久久| 国产亚洲午夜精品一区二区久久 | 亚洲人成网站高清观看| 精品久久久久久久人妻蜜臀av| 成人高潮视频无遮挡免费网站| 在线天堂最新版资源| 日韩人妻高清精品专区| 欧美日韩在线观看h| 亚洲欧洲国产日韩| 久久久精品94久久精品| 卡戴珊不雅视频在线播放| 久久久色成人| 能在线免费观看的黄片| 国产精品一区www在线观看| 极品教师在线视频| 久久精品国产鲁丝片午夜精品| 久久久精品大字幕| 国产日韩欧美在线精品| 中文资源天堂在线| 色5月婷婷丁香| 黄色日韩在线| 国产成人精品久久久久久| 91午夜精品亚洲一区二区三区| 精品人妻视频免费看| 99久久中文字幕三级久久日本| 长腿黑丝高跟| 91精品伊人久久大香线蕉| 欧美成人一区二区免费高清观看| 精品一区二区三区视频在线| 美女高潮的动态| 女的被弄到高潮叫床怎么办| 日本一本二区三区精品| 在线播放无遮挡| 国产精品一区二区三区四区免费观看| h日本视频在线播放| 网址你懂的国产日韩在线| 1000部很黄的大片| 欧美日本亚洲视频在线播放| 亚洲一级一片aⅴ在线观看| 青春草亚洲视频在线观看| 国产精品久久久久久av不卡| av女优亚洲男人天堂| 99久国产av精品| 天堂av国产一区二区熟女人妻| 国产黄片美女视频| 亚洲精品久久久久久婷婷小说 | 99九九线精品视频在线观看视频| 欧美最新免费一区二区三区| 一级av片app| 老女人水多毛片| 国产免费男女视频| av.在线天堂| 亚洲欧美日韩无卡精品| 精品久久久久久电影网 | 国产在线一区二区三区精 | 国产女主播在线喷水免费视频网站 | 男女那种视频在线观看| 搞女人的毛片| 1000部很黄的大片| 只有这里有精品99| 草草在线视频免费看| 亚洲国产精品专区欧美| 国产视频首页在线观看| 国语对白做爰xxxⅹ性视频网站| 51国产日韩欧美| 蜜桃久久精品国产亚洲av| 久久精品熟女亚洲av麻豆精品 | 日韩 亚洲 欧美在线| 亚洲国产精品久久男人天堂| 免费av观看视频| 国产精品久久久久久久电影| 婷婷色麻豆天堂久久 | 亚洲美女视频黄频| 99九九线精品视频在线观看视频| 一本久久精品| 老司机福利观看| 午夜视频国产福利| 大香蕉久久网| 久久欧美精品欧美久久欧美| 日韩制服骚丝袜av| 日韩强制内射视频| 日韩av在线大香蕉| 久久国内精品自在自线图片| 成人鲁丝片一二三区免费| videos熟女内射| 看免费成人av毛片| 久久99蜜桃精品久久| 男女边吃奶边做爰视频| 男插女下体视频免费在线播放| 国产精品伦人一区二区| 久久这里有精品视频免费| 伦理电影大哥的女人| 久久久久九九精品影院| 国产乱来视频区| 欧美变态另类bdsm刘玥| 日本黄大片高清| 日本wwww免费看| 国产黄色小视频在线观看| 狂野欧美白嫩少妇大欣赏| 国产在视频线在精品| 久久这里有精品视频免费| 成人亚洲欧美一区二区av| 五月伊人婷婷丁香| 中国国产av一级| 久久久久性生活片| 人人妻人人看人人澡| 国产极品精品免费视频能看的| 亚洲国产精品专区欧美| 一区二区三区四区激情视频| 色视频www国产| 国产午夜精品一二区理论片| 男的添女的下面高潮视频| 一边亲一边摸免费视频| 亚洲欧美日韩高清专用| 成人综合一区亚洲| 小说图片视频综合网站| 黄片wwwwww| 欧美性猛交╳xxx乱大交人| 亚洲av免费高清在线观看| 国产麻豆成人av免费视频| 黄色欧美视频在线观看| 国产高清不卡午夜福利| 男女下面进入的视频免费午夜| 亚洲国产色片| 免费黄网站久久成人精品| 国产午夜精品论理片| 中文在线观看免费www的网站| 国产精品电影一区二区三区| 你懂的网址亚洲精品在线观看 | 亚州av有码| 搡老妇女老女人老熟妇| 麻豆乱淫一区二区| 小蜜桃在线观看免费完整版高清| 最近中文字幕2019免费版| 久久久久精品久久久久真实原创| 国产高清国产精品国产三级 | 久久99热这里只频精品6学生 | 精品国内亚洲2022精品成人| 免费av不卡在线播放| 亚洲欧洲国产日韩| 欧美激情在线99| 久久精品国产99精品国产亚洲性色| 成人欧美大片| av在线蜜桃| 国产成人免费观看mmmm| av在线播放精品| 亚洲人与动物交配视频| 成人欧美大片| 永久免费av网站大全| 国产精品,欧美在线| av国产久精品久网站免费入址| 国产精品蜜桃在线观看| 久久久久久久久中文| 亚洲精品自拍成人| 淫秽高清视频在线观看| 51国产日韩欧美| 免费一级毛片在线播放高清视频| 亚洲中文字幕日韩| 久久婷婷人人爽人人干人人爱| 亚洲五月天丁香| 精品99又大又爽又粗少妇毛片| 高清视频免费观看一区二区 | 夜夜看夜夜爽夜夜摸| 欧美日韩精品成人综合77777| 18禁在线播放成人免费| 成人性生交大片免费视频hd| 中文字幕亚洲精品专区| 国产免费男女视频| 午夜日本视频在线| 乱人视频在线观看| 成年免费大片在线观看| 久久久久免费精品人妻一区二区| 亚洲精品亚洲一区二区| 国国产精品蜜臀av免费| 水蜜桃什么品种好| 国产淫语在线视频| 亚洲精品aⅴ在线观看| 国产成人福利小说| 国产亚洲av嫩草精品影院| 观看免费一级毛片| 你懂的网址亚洲精品在线观看 | 久久精品久久久久久久性| 国产午夜精品论理片| 日本色播在线视频| 国产免费视频播放在线视频 | av线在线观看网站| 国产熟女欧美一区二区| 99久久中文字幕三级久久日本| 亚洲四区av| 亚洲人成网站高清观看| 人妻夜夜爽99麻豆av| 九九热线精品视视频播放| 午夜激情欧美在线| 久久久久久久久中文| 日本五十路高清| 丰满乱子伦码专区| 久久人人爽人人片av| 亚洲成av人片在线播放无| 日本与韩国留学比较| 成人午夜高清在线视频| 精品99又大又爽又粗少妇毛片| 三级经典国产精品| 亚洲av免费在线观看| 简卡轻食公司| 欧美日本视频| 国产一区二区在线观看日韩| 日日摸夜夜添夜夜爱| 看免费成人av毛片| 美女国产视频在线观看| 久久久色成人| 欧美变态另类bdsm刘玥| 亚洲乱码一区二区免费版| 91久久精品国产一区二区成人| 国产精品久久久久久久久免| 免费看光身美女| 久久精品久久久久久噜噜老黄 | 国产伦精品一区二区三区四那| 国产三级中文精品| 欧美一区二区亚洲| 亚洲国产成人一精品久久久| 亚洲经典国产精华液单| 丰满人妻一区二区三区视频av| 国产精华一区二区三区| 国产欧美日韩精品一区二区| 亚洲成人精品中文字幕电影| 国产精品久久久久久av不卡| 欧美潮喷喷水| av免费观看日本| 插阴视频在线观看视频| 色尼玛亚洲综合影院| 中文亚洲av片在线观看爽| 国产男人的电影天堂91| 秋霞在线观看毛片| 国产毛片a区久久久久| 爱豆传媒免费全集在线观看| 99久久精品国产国产毛片| 午夜视频国产福利| 少妇人妻一区二区三区视频| 丝袜美腿在线中文| 最近最新中文字幕大全电影3| 国产女主播在线喷水免费视频网站 | 搞女人的毛片| 亚洲欧美成人综合另类久久久 | 美女脱内裤让男人舔精品视频| 精品一区二区免费观看| 亚洲精品国产av成人精品| 日韩视频在线欧美| 久久欧美精品欧美久久欧美| 国产高清有码在线观看视频| 亚洲精品一区蜜桃| ponron亚洲| 美女内射精品一级片tv| 一级毛片aaaaaa免费看小| 国产av在哪里看| 99久久无色码亚洲精品果冻| a级一级毛片免费在线观看| 亚洲成人中文字幕在线播放| 一区二区三区免费毛片| 成人美女网站在线观看视频| 午夜福利在线在线| 午夜亚洲福利在线播放| 国产在视频线在精品| 亚洲精品日韩在线中文字幕| 99国产精品一区二区蜜桃av| videos熟女内射| 又粗又爽又猛毛片免费看| 精品免费久久久久久久清纯| 国产又黄又爽又无遮挡在线| 亚洲精品自拍成人| 亚洲aⅴ乱码一区二区在线播放| 视频中文字幕在线观看| 精品一区二区免费观看| 亚洲成人久久爱视频| 亚洲最大成人中文| 我的女老师完整版在线观看| 一级黄片播放器| 熟女电影av网| 久久久久久久午夜电影| 国产精品美女特级片免费视频播放器| 国产成人freesex在线| 精品午夜福利在线看| 又爽又黄无遮挡网站| 大话2 男鬼变身卡| 成人午夜高清在线视频| 啦啦啦观看免费观看视频高清| 亚洲精品日韩av片在线观看| 99久久无色码亚洲精品果冻| 国产成人精品一,二区| 久久国产乱子免费精品| 中文乱码字字幕精品一区二区三区 | 听说在线观看完整版免费高清| 尤物成人国产欧美一区二区三区| 又粗又爽又猛毛片免费看| 国产成人a∨麻豆精品| kizo精华| 亚洲av免费在线观看| 欧美成人免费av一区二区三区| av在线蜜桃| 天美传媒精品一区二区| 国产淫语在线视频| 精品一区二区免费观看| 晚上一个人看的免费电影| 日本黄大片高清| av视频在线观看入口| 久久久久久久久中文| 免费电影在线观看免费观看| 久热久热在线精品观看| 22中文网久久字幕| 少妇猛男粗大的猛烈进出视频 | 国产精品精品国产色婷婷| 中文字幕人妻熟人妻熟丝袜美| 日韩av在线免费看完整版不卡| 精品免费久久久久久久清纯| 亚洲三级黄色毛片| 亚洲精品成人久久久久久| 成人av在线播放网站| 成年版毛片免费区| 欧美性猛交╳xxx乱大交人| 99热这里只有是精品50| 黄片wwwwww| 国产中年淑女户外野战色| 欧美日韩一区二区视频在线观看视频在线 | 少妇的逼好多水| 久久精品国产鲁丝片午夜精品| 国产午夜精品久久久久久一区二区三区| 亚洲精华国产精华液的使用体验| 日本午夜av视频| 久久久国产成人免费| 精品国产露脸久久av麻豆 | 男女下面进入的视频免费午夜| 国产精品一二三区在线看| 91久久精品电影网| 一级毛片我不卡| 久久精品国产亚洲av涩爱| 狂野欧美激情性xxxx在线观看| 国产成人a区在线观看| 九九久久精品国产亚洲av麻豆| 免费看av在线观看网站| 国内少妇人妻偷人精品xxx网站| 免费搜索国产男女视频| 亚洲国产日韩欧美精品在线观看| 色吧在线观看| 欧美成人免费av一区二区三区| 久久99精品国语久久久| 亚洲国产精品成人久久小说| 国产老妇女一区| 狠狠狠狠99中文字幕| 中国美白少妇内射xxxbb| 中文精品一卡2卡3卡4更新| 亚洲国产精品久久男人天堂| 亚洲成人精品中文字幕电影| 熟女人妻精品中文字幕| 久久精品91蜜桃| 国产免费视频播放在线视频 | 在线播放无遮挡| 床上黄色一级片| 男女那种视频在线观看| 九九久久精品国产亚洲av麻豆| 男人狂女人下面高潮的视频| 波多野结衣高清无吗| 午夜爱爱视频在线播放| 熟女电影av网| 国产精品久久久久久av不卡| 伊人久久精品亚洲午夜| 日韩强制内射视频| 国产欧美日韩精品一区二区| 国产精品一区二区三区四区久久| 别揉我奶头 嗯啊视频| 少妇丰满av| 国产v大片淫在线免费观看| 2021天堂中文幕一二区在线观| 日韩 亚洲 欧美在线| 国产高潮美女av| 99久国产av精品国产电影| 老司机影院毛片| 欧美zozozo另类| 搞女人的毛片| 一夜夜www| 伦精品一区二区三区| 噜噜噜噜噜久久久久久91| 波多野结衣巨乳人妻| 国产成人精品婷婷| 亚洲在线自拍视频| 久久久久久伊人网av| 欧美另类亚洲清纯唯美| 国产一区二区在线观看日韩| 蜜桃亚洲精品一区二区三区| av免费观看日本| 国产一级毛片在线| 黄片无遮挡物在线观看| 美女高潮的动态| 村上凉子中文字幕在线| 久久久国产成人精品二区| 国产三级在线视频| 国产亚洲一区二区精品| 日韩欧美精品v在线| 久久久久性生活片| 神马国产精品三级电影在线观看| 好男人在线观看高清免费视频| 免费观看在线日韩| 国产在视频线精品| 高清午夜精品一区二区三区| 最近手机中文字幕大全| 欧美日韩一区二区视频在线观看视频在线 | 日日摸夜夜添夜夜爱| 两性午夜刺激爽爽歪歪视频在线观看| 国产精品精品国产色婷婷| 亚洲无线观看免费| 观看美女的网站| 伊人久久精品亚洲午夜| 国产黄色小视频在线观看| 国产精品99久久久久久久久| 青青草视频在线视频观看| 国产伦在线观看视频一区| 99九九线精品视频在线观看视频| 国产成人午夜福利电影在线观看| 激情 狠狠 欧美| 日韩在线高清观看一区二区三区| 国产精品人妻久久久影院| 国产免费又黄又爽又色| 国产亚洲91精品色在线| 成人欧美大片| or卡值多少钱| 尾随美女入室| 校园人妻丝袜中文字幕| 免费无遮挡裸体视频| 亚洲高清免费不卡视频| 插逼视频在线观看| 欧美色视频一区免费| 国产免费一级a男人的天堂| 久99久视频精品免费| 又粗又爽又猛毛片免费看| 三级国产精品片| 亚洲欧美精品专区久久| 欧美成人精品欧美一级黄| 免费播放大片免费观看视频在线观看 | 精品一区二区三区视频在线| 国内少妇人妻偷人精品xxx网站| 麻豆乱淫一区二区| av免费观看日本| 国产在线一区二区三区精 | 日韩高清综合在线| 精品一区二区三区人妻视频| 最近2019中文字幕mv第一页| 国产精品福利在线免费观看| 国产v大片淫在线免费观看| 少妇被粗大猛烈的视频| 亚洲国产精品久久男人天堂| 日韩三级伦理在线观看| 久久这里有精品视频免费| 亚洲精品国产成人久久av| 麻豆成人av视频| 成人午夜高清在线视频|