• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于跨語(yǔ)言廣義向量空間模型的跨語(yǔ)言文檔聚類方法

    2012-06-29 01:55:38唐國(guó)瑜夏云慶
    中文信息學(xué)報(bào) 2012年2期
    關(guān)鍵詞:詞頻語(yǔ)料文檔

    唐國(guó)瑜, 夏云慶, 張 民, 鄭 方

    (1. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084; 2. 資訊通信研究院,新加坡 138632)

    1 引言

    文檔聚類的目的是按照相似程度將文檔劃分為不同的類簇,它已經(jīng)成功應(yīng)用于改進(jìn)文檔分類和文檔流事件發(fā)現(xiàn)。國(guó)內(nèi)外學(xué)者在單語(yǔ)言文檔聚類研究中嘗試了很多算法。但是隨著商業(yè)環(huán)境的全球化,文檔聚類逐步面臨不同語(yǔ)言的挑戰(zhàn)。

    傳統(tǒng)單語(yǔ)言文檔聚類方法采取向量空間模型(Vector Space Model, VSM)表示文本,它利用詞袋(Bag of Word, BOW)模型來(lái)構(gòu)建特征空間,將每個(gè)文檔轉(zhuǎn)化為一個(gè)向量。詞袋模型在特征匹配中通常采用“硬匹配”方法。例如,當(dāng)詞“海岸”被選為特征時(shí),除非“海邊”也被選為特征,否則“海邊”無(wú)法影響到文檔表示。這是因?yàn)椤坝财ヅ洹敝小昂0丁焙汀昂_叀蓖耆煌?。為解決這個(gè)問(wèn)題,文獻(xiàn)[1]提出的潛語(yǔ)義分析(LSA)方法,基于語(yǔ)料庫(kù)中的共現(xiàn)信息將一組詞與一個(gè)特征進(jìn)行匹配。GVMS則將文檔中的詞看作向量,然后通過(guò)計(jì)算詞的內(nèi)積或者相似度進(jìn)行將文檔表示在一個(gè)非正交的空間上。但是上述模型都是基于單語(yǔ)文檔集設(shè)計(jì)的,并不能直接用到跨語(yǔ)言文檔集中。

    研究者提出了用詞典或機(jī)器翻譯工具對(duì)特征或者文檔進(jìn)行翻譯。然而,一旦詞被選為特征,“硬匹配”問(wèn)題變得更為嚴(yán)重。如何獲得不同語(yǔ)言文檔中的相似詞匯,這是跨語(yǔ)言文檔聚類的核心問(wèn)題。文獻(xiàn)[2]提出了采用LSA的解決方法。借助平行語(yǔ)料,他們將相似的詞看作為一個(gè)特征。與單語(yǔ)言LSA不同,跨語(yǔ)言LSA在固定訓(xùn)練集上選擇特征。但由于目標(biāo)文檔集通常與訓(xùn)練集存在內(nèi)容和用詞的顯著不同,這會(huì)導(dǎo)致過(guò)度適應(yīng)問(wèn)題。

    本文通過(guò)采用跨語(yǔ)言詞匯相似度計(jì)算將單語(yǔ)廣義向量空間模型(Generalized Vector Space Model, GVSM)拓展到跨語(yǔ)言文檔表示中,即跨語(yǔ)言廣義空間向量模型(CLGVSM)。同時(shí)提出了適用于CLGVSM的特征選擇算法。本文實(shí)現(xiàn)了兩種有代表性的詞匯相似度算法,即基于《知網(wǎng)》的詞匯相似度算法和基于SOCPMI的詞匯相似度算法。實(shí)驗(yàn)表明,SOCPMI比《知網(wǎng)》更適合文檔聚類。同時(shí),我們還在相同可比語(yǔ)料下對(duì)基于SOCPMI的CLGVSM方法與LSA方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,基于SOCPMI的CLGVSM方法比LSA方法顯示出更好的性能。

    2 相關(guān)工作

    2.1 跨語(yǔ)言文檔聚類

    跨語(yǔ)言文檔聚類的難點(diǎn)在于如何處理跨語(yǔ)言相似性問(wèn)題,其中最直接的方法是采用詞典或機(jī)器翻譯工具。在TDT-3評(píng)測(cè)中,四個(gè)系統(tǒng)均采用機(jī)器翻譯工具(文獻(xiàn)[3]等)。結(jié)果表明,與單語(yǔ)言話題跟蹤相比,采用機(jī)器翻譯方法會(huì)導(dǎo)致50%的性能下降。下降的主要原因是機(jī)器翻譯技術(shù)的準(zhǔn)確性問(wèn)題。

    一些研究工作[4-6]通過(guò)雙語(yǔ)詞典進(jìn)行詞匹配或者特征詞翻譯。文獻(xiàn)[7]通過(guò)多語(yǔ)言主題詞表 Eurovoc 構(gòu)造跨語(yǔ)言文檔向量。以上基于詞典的跨語(yǔ)言文檔聚類方法都難以解決歧義詞的翻譯問(wèn)題以及未登陸詞問(wèn)題。

    近年來(lái),學(xué)者開始利用平行語(yǔ)料或可比語(yǔ)料進(jìn)行跨語(yǔ)言文檔聚類[2,8]。還有一些研究利用維基百科進(jìn)行跨語(yǔ)言文檔信息檢索[9]。不同于文檔分類,文檔聚類缺乏訓(xùn)練數(shù)據(jù),因此語(yǔ)義空間只能在固定訓(xùn)練語(yǔ)料中構(gòu)建,特征的選擇也是如此,因此忽略了特征在聚類目標(biāo)集中的不同分布。本文提出的CLGVSM模型構(gòu)建于詞匯相似度之上并在聚類目標(biāo)集中進(jìn)行特征選擇。

    2.2 詞匯相似度

    詞匯相似度計(jì)算是一個(gè)自然語(yǔ)言處理研究熱點(diǎn),并在機(jī)器翻譯和詞義排歧等研究中得到應(yīng)用。近年來(lái)提出的詞匯相似度計(jì)算算法或基于統(tǒng)計(jì)技術(shù),或基于語(yǔ)義網(wǎng)絡(luò)。文獻(xiàn)[10-11]提出基于WordNet的英文語(yǔ)義相似度計(jì)算方法。文獻(xiàn)[12-13]則提出了利用知網(wǎng)概念定義計(jì)算跨語(yǔ)言詞匯相似度的方法?;谡Z(yǔ)料的詞匯相似度計(jì)算方法更為廣泛。最經(jīng)典的方法是點(diǎn)互信息(Pointwise Mutual Information, PMI)[14]。PMI值越大,說(shuō)明詞匯越有可能出現(xiàn)在同一語(yǔ)境下。文獻(xiàn)[15]提出了基于PMI-IR的同義詞獲取方法,利用Alta Vista Adanvced搜索引擎計(jì)算單詞之間的概率。LSA方法[16]分析大規(guī)模語(yǔ)料,利用詞匯之間的共現(xiàn)信息計(jì)算詞匯和文本的相似度。SOCPMI方法[17]利用PMI將兩個(gè)目標(biāo)詞的相鄰詞按重要性排序,并通過(guò)計(jì)算相鄰詞的PMI實(shí)現(xiàn)目標(biāo)詞之間的相似度計(jì)算。

    本文采用兩個(gè)最具代表性的詞匯相似度計(jì)算方法構(gòu)造CLGVSM矩陣: 基于《知網(wǎng)》的詞匯相似度[13]和基于SOCPMI的詞匯相關(guān)度[17]。

    3 相似度空間模型

    為了便于描述,我們首先介紹傳統(tǒng)的廣義向量空間模型。

    3.1 廣義向量空間模型

    假設(shè)D={dj;j=1,…,n}表示包含n個(gè)文檔m個(gè)詞的文檔集。X表示一個(gè)m×n的矩陣,它的元素xij表示詞ti在文檔dj的權(quán)重。GVSM[18]將文檔表示在一個(gè)非正交空間中,文檔的相似度計(jì)算公式如下:

    (1)

    其中G是一個(gè)m×m關(guān)聯(lián)矩陣,用來(lái)表示詞之間的相似度。

    傳統(tǒng)的GVSM中[18],詞表示為文檔的對(duì)偶空間中的向量。G的計(jì)算公式如下:

    G=XXT

    (2)

    在改進(jìn)的GVSM中[19],性能最好的G為詞向量的協(xié)方差矩陣。

    (3)

    其中Q為X的抽樣,并且

    在上述GVSM模型中,G都是在聚類文檔中計(jì)算得出的,但是它們很難獲得跨語(yǔ)言的詞信息。因此我們通過(guò)采用跨語(yǔ)言詞相似度計(jì)算將GVSM拓展為跨語(yǔ)言文檔表示模型CLGVSM。

    3.2 跨語(yǔ)言廣義空間向量模型上的特征選擇和文檔表示

    VSM模型中,詞對(duì)于一個(gè)文檔的重要性可以簡(jiǎn)單采取詞頻表示,對(duì)于一個(gè)文檔集的重要性則用倒文檔頻表示。拓展到CLGVSM模型中,我們定義了類似的特征重要性指標(biāo)。

    考慮一個(gè)包含“criminal”3次、“imprisonment”10次的文檔。認(rèn)為詞“criminal”仍然是非常重要的,雖然他的詞頻比較低。這是由于“imprisonment”與“criminal”是語(yǔ)義相似的。為此,我們提出了兩個(gè)基于CLGVSM模型的特征重要性指標(biāo):軟詞頻和軟文檔頻。給定詞匯t和文檔集D={dj}j=1…L,假設(shè)dj={wi,j}i=1…N代表文檔dj的中的詞匯,軟詞頻和軟文檔頻的定義如下:

    軟詞頻TFS:

    TFs(t,d)=SimSSM(vt,d)

    (4)

    軟文檔頻DFS:

    DFs(t)=∑dj∈DmaxiSimWD(t,wi,j))

    (5)

    參考TF-IDF公式的思想,我們定義軟倒文檔頻:

    (6)

    因此,詞匯t在文檔d的權(quán)重計(jì)算公式:

    ws(t,d)=TFs(t,d)IDFw(t)

    (7)

    如果我們單純依靠權(quán)重進(jìn)行特征選擇,相似度比較高的單詞會(huì)同時(shí)被選為特征。這是因?yàn)橄嗨贫缺容^高的單詞含有相近的權(quán)重,這將造成特征集的冗余。因此,我們提出了一個(gè)改進(jìn)的特征選擇算法,只賦予相似詞集中的一個(gè)詞比較高的軟詞頻,而其余詞匯則降低權(quán)重。即按照初始軟詞頻的從大到小更新軟詞頻,刪除相似度所造成的冗余。

    對(duì)軟詞頻改進(jìn)后,我們根據(jù)式(7)計(jì)算每個(gè)特征的權(quán)重,并按照特征權(quán)重的大小選擇每個(gè)文檔的特征,然后合并為一個(gè)特征集。我們使用特征集表示文檔,并考慮特征集之外的詞對(duì)文檔表示的影響。我們將每個(gè)特征集外的詞匯的軟詞頻乘以相似度,累加到與它相似度最大的特征中,從而體現(xiàn)其貢獻(xiàn)。這樣,即使文檔中并不包含某特征,文檔表示也可以將文檔映射到最有代表性的近義特征中。

    3.3 基于廣義空間向量模型的文檔聚類算法

    獲得文檔相似度后,我們采用聚類算法進(jìn)行文檔聚類。聚類算法不是本文的重點(diǎn),因此我們選用經(jīng)典的聚類算法,即HAC(Hierarchical Agglomerative Clustering)算法[20]。

    HAC算法先將每個(gè)文檔看成一個(gè)類簇,然后逐步將相似度最高的類簇合并為一個(gè)類簇。為了計(jì)算類簇之間的相似度,我們采用group-average link算法[20]。當(dāng)類簇個(gè)數(shù)達(dá)到預(yù)定值后,則停止合并過(guò)程。

    4 詞匯相似度

    詞匯相似度在CLGVSM矩陣的構(gòu)建中起到重要的作用。我們采用兩種詞匯相似度計(jì)算算法構(gòu)造CLGVSM矩陣: 基于知識(shí)的詞匯相似度算法以及基于統(tǒng)計(jì)的詞匯相似度算法。

    獎(jiǎng)品揭曉日期雖五花八門,但最多的還是在11月11日,剁手節(jié)。一些網(wǎng)友在看完獎(jiǎng)品名單后感慨,獎(jiǎng)是一個(gè)沒(méi)中,反倒被禮品清單種了草。我也是在微博和淘寶之間反復(fù)切換。

    文獻(xiàn)[13]利用《知網(wǎng)》計(jì)算跨語(yǔ)言詞匯相似度,基本思想是利用《知網(wǎng)》中詞匯的語(yǔ)義定義。篇幅所限,詳細(xì)過(guò)程參見(jiàn)文獻(xiàn)[13]。

    嚴(yán)格來(lái)說(shuō),基于統(tǒng)計(jì)的詞匯相似度計(jì)算算法其實(shí)是與它們?cè)谡Z(yǔ)料中的共現(xiàn)程度有關(guān)。因此我們可以稱統(tǒng)計(jì)的詞匯相似度為詞匯相關(guān)度。

    由于SOCPMI在詞匯相似度計(jì)算中具有優(yōu)越性[17],本文采取了這個(gè)算法。篇幅所限,詳細(xì)過(guò)程參見(jiàn)文獻(xiàn)[17]。

    然而SOCPMI算法只能處理單語(yǔ)言的詞匯相似度。本文擴(kuò)展了這個(gè)算法,以實(shí)現(xiàn)跨語(yǔ)言詞匯相似度計(jì)算。先在相同語(yǔ)言上對(duì)相鄰詞進(jìn)行排序,然后計(jì)算它們的跨語(yǔ)言PMI值。

    可以使用兩種類型的語(yǔ)料計(jì)算跨語(yǔ)言詞匯相似度: 平行語(yǔ)料和可比語(yǔ)料。平行語(yǔ)料被廣泛用于機(jī)器翻譯,它是句子對(duì)齊的。但本文沒(méi)有選用平行語(yǔ)料,原因有二: 首先構(gòu)造一個(gè)平行語(yǔ)料的成本比較高;其次跨語(yǔ)言的詞匯相似度對(duì)句子對(duì)齊的要求并不高。最終本文選用更容易獲得的篇章對(duì)齊的可比語(yǔ)料。

    5 實(shí)驗(yàn)

    5.1 實(shí)驗(yàn)設(shè)置

    ? 開發(fā)集

    我們從英文和中文GigaWord中構(gòu)建了一個(gè)中英文可比語(yǔ)料。我們采用以下的策略獲得不同語(yǔ)言的可比文檔對(duì)。1)文檔相似度。采用基于VSM的文檔相似度獲得單語(yǔ)言中的可比文檔。為了保證精度,我們?cè)O(shè)置文檔相度的閾值為0.4;2)基于《知網(wǎng)》獲得詞匯翻譯。我們利用《知網(wǎng)》獲得詞匯之間的翻譯信息,利用這些翻譯信息計(jì)算跨語(yǔ)言文檔那個(gè)相似度;3)時(shí)間限制。本文在計(jì)算文檔相似度的時(shí)候還考慮到時(shí)間的限制,只選取在同一天內(nèi)的新聞?dòng)?jì)算文檔相似度獲得可比語(yǔ)料。我們最后獲得101 409篇中英文可比文檔對(duì)。

    ? 測(cè)試集

    我們采取TDT4數(shù)據(jù)集作為測(cè)試集。TDT4數(shù)據(jù)集的信息如表1所示。

    表1 TDT4數(shù)據(jù)集統(tǒng)計(jì)信息

    ? 評(píng)測(cè)指標(biāo)

    我們采用了文獻(xiàn)[21]提出的評(píng)測(cè)指標(biāo)。首先計(jì)算每個(gè)類簇最大的F值。假設(shè)Ai代表系統(tǒng)生成的類簇ci的文檔,Aj代表人工標(biāo)注的類簇cj的文檔。則F值計(jì)算如下:

    其中pi,j,ri,j和fi,j分別代表準(zhǔn)確率、召回率和F值。

    ? 實(shí)驗(yàn)方法

    本研究中,我們?cè)u(píng)測(cè)了以下五個(gè)方法。

    VSM: 采用VSM表示文檔,并從《知網(wǎng)》獲得詞匯翻譯信息;

    LSA: LSA在可比語(yǔ)料中實(shí)現(xiàn)了文獻(xiàn)[2]中的方法;

    CLGVSM^HN:采用基于《知網(wǎng)》的跨語(yǔ)言相似度的GVSM。在GVSM矩陣的構(gòu)造中,經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證詞匯相似度閾值為0.7;

    CLGVSM^PMI:采用基于SOCPMI的跨語(yǔ)言相似度的GVSM。相似度閾值為0.4;

    CLGVSM^PMI&TR: 將SOCPMI與《知網(wǎng)》的翻譯信息結(jié)合起來(lái),《知網(wǎng)》獲得翻譯對(duì)的相似度為1。

    5.2 實(shí)驗(yàn)結(jié)果及討論

    我們比較了五個(gè)系統(tǒng)在兩個(gè)測(cè)試集上的性能。結(jié)果如表2所示。

    表2 系統(tǒng)在兩個(gè)測(cè)試集上的最高F值

    從表2可以得出以下結(jié)論。

    首先,方法CLGVSM^HN 和VSM的性能相近,基于《知網(wǎng)》跨語(yǔ)言詞匯相似度構(gòu)造的GVSM比VSM幾乎沒(méi)有優(yōu)勢(shì)。觀察發(fā)現(xiàn),基于《知網(wǎng)》計(jì)算的相似度非常高。例如,詞“Federal Reserve”和“bank”的相似度為1。經(jīng)過(guò)分析,基于《知網(wǎng)》的跨語(yǔ)言詞匯相似度更多關(guān)注詞的語(yǔ)義特征而不是語(yǔ)義本身,它傾向于給語(yǔ)義相似的詞對(duì)更高的相似度,而不管它們是否是語(yǔ)義相關(guān)。這不利于文檔聚類。因此可以認(rèn)為,基于《知網(wǎng)》的詞相似度不太適用于文檔聚類。

    其次,方法CLGVSM^PMI在兩個(gè)測(cè)試集上的性能均優(yōu)于方法LSA。在測(cè)試集TDT41上,F(xiàn)值提高了0.11。在測(cè)試集TDT42上F值提高了0.094。這說(shuō)明了方法CLGVSM^PMI更適合跨語(yǔ)言文檔聚類。分析原因如下: LSA所構(gòu)建的語(yǔ)義空間是在固定的可比語(yǔ)料中構(gòu)建的,因此它沒(méi)有考慮到目標(biāo)聚類集的特征的重要性。相比之下,方法CLGVSM^PMI充分利用了測(cè)試集的信息構(gòu)建語(yǔ)義空間。

    最后, SOCPMI與《知網(wǎng)》相結(jié)合的CLGVSM的性能比較VSM的性能要好。在測(cè)試集TDT41中,高出0.014;而在測(cè)試集TDT42的效果更加明顯,超出了0.018。這是本次實(shí)驗(yàn)獲得最好結(jié)果(0.910)。這表明,使用恰當(dāng)?shù)脑~匯相似度計(jì)算方法,CLGVSM方法能取得滿意的跨語(yǔ)言文檔聚類效果。從表2可以看出,當(dāng)只使用《知網(wǎng)》時(shí),CLGVSM方法給出的結(jié)果與VSM相近。當(dāng)只使用可比語(yǔ)料時(shí),CLGVSM給出的結(jié)果比VSM要差。我們發(fā)現(xiàn),從《知網(wǎng)》獲得翻譯信息非常重要。同時(shí)使用可比語(yǔ)料和《知網(wǎng)》,CLGVSM獲得最好的性能。因此,《知網(wǎng)》與語(yǔ)料相結(jié)合可以獲得更好地性能。

    6 結(jié)語(yǔ)

    本文的貢獻(xiàn)主要有三個(gè): (1)通過(guò)加入跨語(yǔ)言詞匯相似度將GVSM拓展為CLGVSM;(2)實(shí)現(xiàn)了基于知識(shí)和基于統(tǒng)計(jì)的詞匯相似度計(jì)算方法。(3)對(duì)CLGVSM方法和主要流行方法進(jìn)行了評(píng)測(cè),實(shí)驗(yàn)結(jié)果表明,利用《知網(wǎng)》以及可比語(yǔ)料資源,CLGVSM模型比VSM和LSA的性能更優(yōu)。

    本文得出兩個(gè)結(jié)論: 首先,CLGVSM方法比VSM和LSA都更有效;其次,結(jié)合《知網(wǎng)》翻譯信息以及可比語(yǔ)料的相似度,有利于進(jìn)一步提高文檔聚類效果。在接下來(lái)的工作中,我們計(jì)劃將GVSM模型用于更多語(yǔ)言的跨語(yǔ)言聚類。同時(shí),由于CLGVSM模型能在語(yǔ)義空間上有效表示文本,我們將應(yīng)用CLGVSM模型到短文本聚類中,希望能很好地解決稀疏問(wèn)題。

    [1] T. Landauer, P. W. Foltz, Darrell Laham. Introduction to Latent Semantic Analysis[J]. Discourse Processes 25: 259-284.

    [2] C-P. Wei, C. C. Yang, C-M. Lin. A Latent Semantic Indexing Based Approach to Multilingual Document Clustering [J]. Decision Support System. 45(3):606-620.

    [3] T. Leek, H. Jin, S. Sista, et al. The BBN cross-lingual topic detection and tracking system[C]//Proceedings of TDT’1999.

    [4] H.H. Chen, C.J. Lin. A multilingual news summarizer[C]//Proceedings of COLING’2000: 159-165.

    [5] D.K. Evans, J.L. Klavans. A Platform for Multilingual News Summarization[R], Technical Report. Department of Computer Science, Columbia University.

    [6] B. Mathieu, R. Besancon, C. Fluhr. Multilingual Document Clusters Discovery[C]//Proceedings of RIAO’2004: 1-10.

    [7] B. Pouliquen, R. Steinberger, C. Ignat, et al. Multilingual and cross-lingual news topic tracking[C]//Proceedings of COLING’2004: 959-965.

    [8] D. Yogatama, K.Tanaka.. Multilingual Spectral Clustering Using Document Similarity Propagation[C]//Proceedings of EMNLP’2009: 871-879.

    [9] P. Cimiano, A. Schultz, S. Sizov, et al. Explicit vs. latent concept models for cross-language information retrieval[C]//Proceedings of IJCAI’09, 2009.

    [10] D. Lin. Automatic retrieval and clustering of similar words[C]//Proceedings of COLING’98:768-774.

    [11] P. Resnik. Semantic similarity in a taxonomy: An information based measure and its application to problems of ambiguity in natural language[J]. Journal of Artificial Intelligence Research, V.11:95-130.

    [12] Q Liu, S Li. Word similarity computing based on How Net[C]//Proceedings of Computational Linguistics and Chinese Language Processing.

    [13] Y. Xia, T. Zhao, P. Jin. Measuring Chinese-English Cross-lingual Word Similarity with How Net and Parallel Corpus[C]//Proceedings of CICling’2011(II):221-233.

    [14] K.W. Church, P. Hanks. Word association norms, mutual information, and lexicography[J]. Computational Linguistics, 16(1):22-29.

    [15] P. D. Turney. Mining the Web for Synonyms: PMI-IR versus LSA on TOEF[C]//Proceedings of ECML’2001: 491-502.

    [16] T. K. Landauer, S. T. Domais. A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquision, Induction and Representation of Knowledge[J]. Psychological Review. 104(2):211-240.

    [17] A. Islam, D. Inkpen. Second order co-occurrence PMI for determining the semantic similarity of words[C]//Proceedings of LREC’2006: 1033-1038.

    [18] SKM. Wong, W. Ziarko, PCN. Wong. Generalized vector model in information retrieval[C]//Proceedings of the 8thACM SIGIR:18-25.

    [19] A.K. Farahat, M. S. Kamel. Statistical semantic for enhancing document clustering[J]. Knowledge and Information Systems.

    [20] E. M. Voorhees. Implementing Agglomerative Hierarchic Clustering Algorithms for Use in Document Retrieval[J]. Information Processing and Management, 22(6): 465-76.

    [21] M. Steinbach, G. Kapypis, V. Kumar. A Comparison of Document Clustering Techniques[C]//Proceedings of KDD Workshop on Text Mining, 2000:109-111.

    猜你喜歡
    詞頻語(yǔ)料文檔
    基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    有人一聲不吭向你扔了個(gè)文檔
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    詞頻,一部隱秘的歷史
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    《苗防備覽》中的湘西語(yǔ)料
    國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
    97碰自拍视频| 欧美久久黑人一区二区| tocl精华| 久久99一区二区三区| 一级a爱视频在线免费观看| 男人舔女人下体高潮全视频| 极品教师在线免费播放| 在线观看舔阴道视频| 国产成人影院久久av| 黄色视频,在线免费观看| 一进一出好大好爽视频| 韩国精品一区二区三区| 一区二区三区激情视频| 色播在线永久视频| 国产高清国产精品国产三级| 免费久久久久久久精品成人欧美视频| 操出白浆在线播放| 母亲3免费完整高清在线观看| 国产成人精品无人区| 亚洲精品中文字幕一二三四区| 美女高潮到喷水免费观看| 黄片小视频在线播放| 国产av一区二区精品久久| 国产xxxxx性猛交| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲精品国产区一区二| 黑人巨大精品欧美一区二区mp4| 美女国产高潮福利片在线看| 色综合婷婷激情| 久久人妻av系列| 欧美一级毛片孕妇| 91国产中文字幕| 欧美乱妇无乱码| www.www免费av| 中文字幕另类日韩欧美亚洲嫩草| 国产一区二区在线av高清观看| 亚洲精品美女久久久久99蜜臀| 另类亚洲欧美激情| 亚洲自拍偷在线| 一进一出抽搐gif免费好疼 | 欧美老熟妇乱子伦牲交| 亚洲视频免费观看视频| 国产精品免费一区二区三区在线| 久久精品国产清高在天天线| av视频免费观看在线观看| 国产av在哪里看| 国产高清视频在线播放一区| 男人舔女人的私密视频| 在线观看免费视频日本深夜| 9热在线视频观看99| 亚洲午夜理论影院| 精品久久久久久久久久免费视频 | 国产成人免费无遮挡视频| 日日爽夜夜爽网站| 欧美久久黑人一区二区| 国产在线精品亚洲第一网站| 在线播放国产精品三级| 成熟少妇高潮喷水视频| 狂野欧美激情性xxxx| 两人在一起打扑克的视频| 国产精品秋霞免费鲁丝片| 日本撒尿小便嘘嘘汇集6| 国产麻豆69| 99香蕉大伊视频| 人成视频在线观看免费观看| 亚洲熟妇熟女久久| 女生性感内裤真人,穿戴方法视频| 美女高潮喷水抽搐中文字幕| 久久精品影院6| 国产三级黄色录像| 国产三级黄色录像| 淫秽高清视频在线观看| 一个人免费在线观看的高清视频| 成人亚洲精品一区在线观看| 免费高清在线观看日韩| 淫秽高清视频在线观看| 久久精品影院6| 亚洲av日韩精品久久久久久密| 在线天堂中文资源库| 国产精品二区激情视频| videosex国产| 精品久久久久久久毛片微露脸| 色综合站精品国产| 久久久久久久午夜电影 | 午夜成年电影在线免费观看| 国产精品 欧美亚洲| 黄色怎么调成土黄色| 日日夜夜操网爽| 成人18禁在线播放| 老司机午夜福利在线观看视频| 亚洲成a人片在线一区二区| 91麻豆av在线| 欧美中文日本在线观看视频| 人成视频在线观看免费观看| 国产又色又爽无遮挡免费看| 免费看a级黄色片| 国产精品久久久av美女十八| 午夜a级毛片| 宅男免费午夜| 久久亚洲精品不卡| 18禁国产床啪视频网站| 另类亚洲欧美激情| 日韩欧美一区二区三区在线观看| 国产主播在线观看一区二区| 欧美午夜高清在线| 亚洲精品美女久久久久99蜜臀| 亚洲成av片中文字幕在线观看| 19禁男女啪啪无遮挡网站| 叶爱在线成人免费视频播放| 热99国产精品久久久久久7| 在线观看一区二区三区| 久久精品91蜜桃| 国产成人欧美| 伊人久久大香线蕉亚洲五| 婷婷精品国产亚洲av在线| 国产又爽黄色视频| 亚洲精品一二三| 视频区欧美日本亚洲| 日本a在线网址| 18禁美女被吸乳视频| 电影成人av| 一区在线观看完整版| 日本wwww免费看| 首页视频小说图片口味搜索| 91麻豆av在线| 丰满迷人的少妇在线观看| 人人妻人人添人人爽欧美一区卜| 人人澡人人妻人| 看黄色毛片网站| 亚洲午夜精品一区,二区,三区| 在线观看免费视频日本深夜| 久久久久久人人人人人| 黑人巨大精品欧美一区二区蜜桃| 欧美日本亚洲视频在线播放| 欧美午夜高清在线| 琪琪午夜伦伦电影理论片6080| 久久中文字幕一级| 国产精品久久久久久人妻精品电影| 欧美精品一区二区免费开放| 欧美日韩视频精品一区| 香蕉国产在线看| 操出白浆在线播放| 久久草成人影院| 国产精品一区二区在线不卡| 国产99久久九九免费精品| 午夜免费观看网址| a级片在线免费高清观看视频| 亚洲成av片中文字幕在线观看| 黄色视频,在线免费观看| 国产精品 国内视频| 黄色片一级片一级黄色片| 国产精品久久电影中文字幕| 成人18禁在线播放| 一区二区三区国产精品乱码| 手机成人av网站| 嫩草影视91久久| 午夜福利欧美成人| 深夜精品福利| 日韩视频一区二区在线观看| 人成视频在线观看免费观看| 青草久久国产| 99久久国产精品久久久| 久久人妻av系列| 9191精品国产免费久久| av免费在线观看网站| 嫩草影视91久久| 国产精品久久久人人做人人爽| 色综合站精品国产| 国产成人精品无人区| 操出白浆在线播放| 法律面前人人平等表现在哪些方面| 正在播放国产对白刺激| 91在线观看av| 精品一区二区三区视频在线观看免费 | 大型av网站在线播放| 人人妻人人澡人人看| 午夜久久久在线观看| 人人澡人人妻人| 老司机亚洲免费影院| 美女国产高潮福利片在线看| 热re99久久精品国产66热6| 精品久久久久久,| 亚洲成av片中文字幕在线观看| 日本a在线网址| 别揉我奶头~嗯~啊~动态视频| 成人三级做爰电影| 亚洲精品久久午夜乱码| 一本综合久久免费| 在线观看66精品国产| 亚洲伊人色综图| 亚洲av美国av| 大型av网站在线播放| bbb黄色大片| 搡老乐熟女国产| 欧美激情久久久久久爽电影 | 黄网站色视频无遮挡免费观看| 亚洲美女黄片视频| 琪琪午夜伦伦电影理论片6080| 99riav亚洲国产免费| 亚洲欧美精品综合久久99| 在线观看免费高清a一片| 麻豆成人av在线观看| 午夜免费成人在线视频| 在线观看免费视频网站a站| 长腿黑丝高跟| 午夜福利在线观看吧| 精品欧美一区二区三区在线| 91九色精品人成在线观看| 久久久久久人人人人人| 国产精品国产av在线观看| 香蕉丝袜av| 日本wwww免费看| 亚洲精品av麻豆狂野| 丰满饥渴人妻一区二区三| av在线播放免费不卡| 午夜福利在线免费观看网站| 午夜精品在线福利| 成人18禁在线播放| 又黄又爽又免费观看的视频| 亚洲国产毛片av蜜桃av| 中文字幕人妻丝袜一区二区| 男女下面插进去视频免费观看| 极品人妻少妇av视频| 91老司机精品| 一级黄色大片毛片| 久久国产精品男人的天堂亚洲| 亚洲精品美女久久av网站| 又大又爽又粗| 日韩欧美在线二视频| 超碰成人久久| 成人国产一区最新在线观看| 国产一卡二卡三卡精品| a级毛片在线看网站| www国产在线视频色| 免费一级毛片在线播放高清视频 | 亚洲中文字幕日韩| 80岁老熟妇乱子伦牲交| 一个人观看的视频www高清免费观看 | av福利片在线| 中文字幕最新亚洲高清| 777久久人妻少妇嫩草av网站| 国产精品久久久av美女十八| av在线天堂中文字幕 | 亚洲精品国产一区二区精华液| 亚洲国产欧美网| 99国产精品99久久久久| 国产伦一二天堂av在线观看| 12—13女人毛片做爰片一| 精品人妻在线不人妻| 中文字幕另类日韩欧美亚洲嫩草| 无人区码免费观看不卡| 国产人伦9x9x在线观看| 午夜久久久在线观看| 天堂影院成人在线观看| 无限看片的www在线观看| 老司机靠b影院| av视频免费观看在线观看| 中文字幕另类日韩欧美亚洲嫩草| 99精品久久久久人妻精品| 久久人妻av系列| 午夜两性在线视频| 久久国产精品男人的天堂亚洲| 国产av精品麻豆| 国产精品秋霞免费鲁丝片| 日日夜夜操网爽| 亚洲午夜精品一区,二区,三区| 人人妻,人人澡人人爽秒播| 日本黄色日本黄色录像| 久久精品成人免费网站| 精品午夜福利视频在线观看一区| 午夜日韩欧美国产| 伊人久久大香线蕉亚洲五| 色综合站精品国产| 午夜精品久久久久久毛片777| 丰满迷人的少妇在线观看| 亚洲人成网站在线播放欧美日韩| 亚洲国产看品久久| 亚洲九九香蕉| 制服诱惑二区| 国产成人啪精品午夜网站| 日韩国内少妇激情av| 国产野战对白在线观看| 美女高潮到喷水免费观看| 国产色视频综合| 制服人妻中文乱码| 激情视频va一区二区三区| 国产91精品成人一区二区三区| 99riav亚洲国产免费| 国产高清国产精品国产三级| 午夜两性在线视频| 另类亚洲欧美激情| 69av精品久久久久久| 欧美日韩亚洲国产一区二区在线观看| 在线十欧美十亚洲十日本专区| 国产三级在线视频| 亚洲狠狠婷婷综合久久图片| 久久久精品国产亚洲av高清涩受| 国产成人免费无遮挡视频| 999久久久国产精品视频| 亚洲人成77777在线视频| 国产国语露脸激情在线看| 久久久久久久久免费视频了| 亚洲精品成人av观看孕妇| 国产91精品成人一区二区三区| a在线观看视频网站| 伦理电影免费视频| 欧美成人午夜精品| 婷婷六月久久综合丁香| 天堂中文最新版在线下载| 高清av免费在线| 免费在线观看视频国产中文字幕亚洲| 神马国产精品三级电影在线观看 | 天堂√8在线中文| 在线观看免费日韩欧美大片| 国产av一区在线观看免费| 色老头精品视频在线观看| 亚洲欧美日韩无卡精品| videosex国产| av片东京热男人的天堂| 99国产精品99久久久久| 午夜免费成人在线视频| 国产成人精品在线电影| 97超级碰碰碰精品色视频在线观看| 亚洲专区字幕在线| 男女下面进入的视频免费午夜 | 欧美丝袜亚洲另类 | 999精品在线视频| 国产一区二区在线av高清观看| 欧美人与性动交α欧美精品济南到| 国产精品一区二区免费欧美| 日本黄色视频三级网站网址| 宅男免费午夜| 中亚洲国语对白在线视频| 中文字幕最新亚洲高清| 亚洲专区国产一区二区| 精品国产美女av久久久久小说| 日韩人妻精品一区2区三区| 亚洲情色 制服丝袜| 国产精品免费视频内射| 日韩欧美国产一区二区入口| 免费在线观看日本一区| 日韩视频一区二区在线观看| 日本一区二区免费在线视频| 国产精品电影一区二区三区| av天堂久久9| 精品国产国语对白av| 搡老岳熟女国产| 老鸭窝网址在线观看| 怎么达到女性高潮| 黑人巨大精品欧美一区二区蜜桃| 亚洲狠狠婷婷综合久久图片| 亚洲精品国产一区二区精华液| 黑人巨大精品欧美一区二区mp4| 日韩三级视频一区二区三区| 免费不卡黄色视频| 搡老熟女国产l中国老女人| av视频免费观看在线观看| 日韩高清综合在线| 高潮久久久久久久久久久不卡| 在线视频色国产色| 丝袜美腿诱惑在线| 在线观看免费午夜福利视频| 韩国av一区二区三区四区| 亚洲美女黄片视频| 中亚洲国语对白在线视频| 两个人看的免费小视频| 自线自在国产av| 男女之事视频高清在线观看| 精品国产一区二区久久| 成人黄色视频免费在线看| 国产成人免费无遮挡视频| 天天影视国产精品| 一级,二级,三级黄色视频| 高潮久久久久久久久久久不卡| 欧美+亚洲+日韩+国产| 夜夜爽天天搞| 91老司机精品| 亚洲成人免费av在线播放| 久久天躁狠狠躁夜夜2o2o| 亚洲精品久久午夜乱码| 久久人人精品亚洲av| 99riav亚洲国产免费| 国产成人免费无遮挡视频| 精品一区二区三卡| 成人黄色视频免费在线看| 亚洲欧美一区二区三区久久| 免费少妇av软件| 午夜精品在线福利| 国产免费男女视频| 一区二区日韩欧美中文字幕| 嫁个100分男人电影在线观看| 男男h啪啪无遮挡| 在线观看一区二区三区| 99在线视频只有这里精品首页| 中文字幕精品免费在线观看视频| 男女做爰动态图高潮gif福利片 | 91成年电影在线观看| 久久草成人影院| 亚洲一区二区三区色噜噜 | 久久久久国产一级毛片高清牌| 国产一区二区三区视频了| 中文字幕另类日韩欧美亚洲嫩草| av天堂久久9| 91成人精品电影| 桃红色精品国产亚洲av| 成人永久免费在线观看视频| 他把我摸到了高潮在线观看| 日本一区二区免费在线视频| 黄色成人免费大全| 19禁男女啪啪无遮挡网站| 精品欧美一区二区三区在线| 精品国产超薄肉色丝袜足j| 亚洲性夜色夜夜综合| 色综合欧美亚洲国产小说| 久久久久久人人人人人| 久久久久久久精品吃奶| 免费观看精品视频网站| 精品一区二区三卡| 精品一区二区三区四区五区乱码| 久久国产精品影院| 99精国产麻豆久久婷婷| 久久久国产成人精品二区 | 国产伦人伦偷精品视频| 久久国产精品人妻蜜桃| 男女午夜视频在线观看| 国产精品成人在线| 久久精品亚洲熟妇少妇任你| 在线天堂中文资源库| 美女扒开内裤让男人捅视频| 亚洲专区中文字幕在线| 欧美在线一区亚洲| 国产日韩一区二区三区精品不卡| 欧美av亚洲av综合av国产av| 久久精品成人免费网站| 久久久久国产精品人妻aⅴ院| 亚洲久久久国产精品| 狂野欧美激情性xxxx| 国产无遮挡羞羞视频在线观看| 日本a在线网址| 黄色a级毛片大全视频| 无遮挡黄片免费观看| 十八禁人妻一区二区| 久久久久久久久中文| 精品久久久久久久毛片微露脸| 国产区一区二久久| 天堂俺去俺来也www色官网| 亚洲狠狠婷婷综合久久图片| 国产精品一区二区在线不卡| 成人三级黄色视频| 欧美日韩福利视频一区二区| 一级a爱视频在线免费观看| 黑丝袜美女国产一区| 黄色a级毛片大全视频| 午夜福利一区二区在线看| 日韩一卡2卡3卡4卡2021年| 黄网站色视频无遮挡免费观看| 亚洲九九香蕉| 久久 成人 亚洲| 午夜福利,免费看| 久久精品国产99精品国产亚洲性色 | 一个人观看的视频www高清免费观看 | 动漫黄色视频在线观看| 亚洲av电影在线进入| 国产成人av激情在线播放| 国产又爽黄色视频| 国产麻豆69| 精品一区二区三区视频在线观看免费 | 精品久久久久久久毛片微露脸| 欧美大码av| 美女午夜性视频免费| 精品国产一区二区久久| 天堂俺去俺来也www色官网| 亚洲欧美一区二区三区黑人| 99精品在免费线老司机午夜| 80岁老熟妇乱子伦牲交| 亚洲一区高清亚洲精品| 每晚都被弄得嗷嗷叫到高潮| 一级,二级,三级黄色视频| 亚洲一区二区三区不卡视频| 国产黄a三级三级三级人| 伦理电影免费视频| 日本欧美视频一区| 热99re8久久精品国产| 久久精品91蜜桃| 亚洲一码二码三码区别大吗| 亚洲欧美一区二区三区久久| 亚洲中文av在线| 亚洲欧美日韩高清在线视频| av视频免费观看在线观看| 十分钟在线观看高清视频www| 日本免费一区二区三区高清不卡 | 久久久久九九精品影院| 久热爱精品视频在线9| 51午夜福利影视在线观看| 看片在线看免费视频| 美女高潮喷水抽搐中文字幕| 国产亚洲欧美精品永久| 久久欧美精品欧美久久欧美| 大香蕉久久成人网| 亚洲一区中文字幕在线| 极品教师在线免费播放| 精品高清国产在线一区| 十八禁网站免费在线| √禁漫天堂资源中文www| 久久国产乱子伦精品免费另类| 极品人妻少妇av视频| 中文亚洲av片在线观看爽| 交换朋友夫妻互换小说| 成人永久免费在线观看视频| 久久精品人人爽人人爽视色| 免费在线观看日本一区| 91麻豆精品激情在线观看国产 | 亚洲专区中文字幕在线| 两性夫妻黄色片| 亚洲专区国产一区二区| 久久久久久久精品吃奶| 高清欧美精品videossex| 亚洲av电影在线进入| av国产精品久久久久影院| 日韩欧美三级三区| 黑人猛操日本美女一级片| 亚洲国产毛片av蜜桃av| 色婷婷av一区二区三区视频| 免费在线观看影片大全网站| 黄片大片在线免费观看| 水蜜桃什么品种好| 欧美在线一区亚洲| 欧美 亚洲 国产 日韩一| 国内毛片毛片毛片毛片毛片| 精品卡一卡二卡四卡免费| 成人免费观看视频高清| 窝窝影院91人妻| 老汉色av国产亚洲站长工具| 久久久久久久久免费视频了| 国产一卡二卡三卡精品| 亚洲欧洲精品一区二区精品久久久| 精品一区二区三卡| 成人三级做爰电影| 一区福利在线观看| 亚洲精品国产一区二区精华液| 亚洲国产毛片av蜜桃av| 桃色一区二区三区在线观看| 日本五十路高清| 精品无人区乱码1区二区| 亚洲全国av大片| 18禁黄网站禁片午夜丰满| 自线自在国产av| 日本一区二区免费在线视频| 三上悠亚av全集在线观看| 国产精品成人在线| 欧美不卡视频在线免费观看 | 电影成人av| 日韩精品中文字幕看吧| 免费搜索国产男女视频| 欧美日韩av久久| 欧美在线一区亚洲| 国产精品98久久久久久宅男小说| 国产精品久久久久久人妻精品电影| 亚洲专区字幕在线| 久久人妻福利社区极品人妻图片| 韩国av一区二区三区四区| 极品教师在线免费播放| 欧美乱色亚洲激情| 亚洲国产精品一区二区三区在线| 午夜福利影视在线免费观看| 国产伦人伦偷精品视频| 国产精品乱码一区二三区的特点 | 在线看a的网站| 国产精品乱码一区二三区的特点 | 男女下面插进去视频免费观看| 日韩精品中文字幕看吧| 啪啪无遮挡十八禁网站| 一级a爱视频在线免费观看| 免费看十八禁软件| 日本黄色视频三级网站网址| 亚洲人成电影观看| 日本黄色视频三级网站网址| 成年人黄色毛片网站| 成人av一区二区三区在线看| 久9热在线精品视频| 好男人电影高清在线观看| e午夜精品久久久久久久| av天堂在线播放| 99久久综合精品五月天人人| 啦啦啦免费观看视频1| √禁漫天堂资源中文www| 亚洲精品一二三| 夜夜躁狠狠躁天天躁| 黄色视频不卡| 热re99久久国产66热| 香蕉丝袜av| 精品国产国语对白av| 亚洲精品中文字幕一二三四区| 国产精品1区2区在线观看.| 嫁个100分男人电影在线观看| 超碰97精品在线观看| 三级毛片av免费| 久久人人精品亚洲av| 亚洲欧美精品综合久久99| 欧美黑人精品巨大| 亚洲精品国产色婷婷电影| 欧美午夜高清在线| 怎么达到女性高潮| 亚洲精品粉嫩美女一区| 久久久久久久久中文| 性色av乱码一区二区三区2| 国产精品一区二区精品视频观看| 国产精华一区二区三区| 男人舔女人的私密视频| 夜夜夜夜夜久久久久| 国产亚洲精品第一综合不卡| 精品午夜福利视频在线观看一区| 国产av一区二区精品久久| 看免费av毛片| 日韩视频一区二区在线观看|