• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于潛在語(yǔ)義分析的文本指紋提取方法

      2018-06-14 07:38:46崔彤彤崔榮一
      中文信息學(xué)報(bào) 2018年5期
      關(guān)鍵詞:詞項(xiàng)指紋文檔

      崔彤彤,崔榮一

      (延邊大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉 133000)

      0 引言

      隨著社會(huì)的不斷進(jìn)步、信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)空間的信息資源以驚人的速度不斷增長(zhǎng),越來(lái)越龐大的數(shù)據(jù)量不僅給網(wǎng)絡(luò)空間帶來(lái)了壓力,同時(shí)對(duì)網(wǎng)絡(luò)資源的有效利用也帶來(lái)了巨大的挑戰(zhàn)。因此,對(duì)網(wǎng)絡(luò)空間信息數(shù)據(jù)的壓縮存儲(chǔ)和有效組織管理顯得尤為重要[1]。數(shù)字指紋作為新興的數(shù)字版權(quán)保護(hù)技術(shù),類似于人的指紋,具有唯一標(biāo)識(shí)的特點(diǎn)。它可以將任何一個(gè)數(shù)據(jù)信息(文字、圖像、語(yǔ)音、視頻等等),用一串固定長(zhǎng)度的隨機(jī)數(shù)來(lái)表示,作為區(qū)別它和其他數(shù)據(jù)信息的數(shù)字指紋。該數(shù)字指紋在加密、信息壓縮和處理中有著廣泛的應(yīng)用。文本數(shù)字指紋即是對(duì)一段文本數(shù)據(jù)的壓縮,一般通過(guò)哈希函數(shù)來(lái)完成,只要哈希函數(shù)設(shè)計(jì)得好,任何兩個(gè)數(shù)據(jù)信息的指紋都很難重復(fù),因此不同文本的數(shù)字指紋是完全不同的。

      在實(shí)際的數(shù)字指紋生成方案中,產(chǎn)生數(shù)字指紋的關(guān)鍵算法是偽隨機(jī)數(shù)產(chǎn)生器算法(PRNG),常用的算法有Rabin算法、MD5算法和SHA-1算法[2],它們是將一個(gè)任意長(zhǎng)的信息變成固定長(zhǎng)度(128位或者160位等)的二進(jìn)制隨機(jī)數(shù)。其中MD5、SHA-1在大文件的指紋生成中具有較高的性能,而在小文件的指紋生成中,三者具有同樣的性能。然而由于哈希函數(shù)具有較強(qiáng)的“雪崩效應(yīng)”,因此它只能檢測(cè)信息是否被篡改,而不能量化信息內(nèi)容的修改程度。

      Simhash算法[3]由Charikar于2002年提出,該算法實(shí)質(zhì)上是對(duì)只負(fù)責(zé)將原始內(nèi)容盡量均勻隨機(jī)地映射為一個(gè)簽名值的傳統(tǒng)Hash算法的一種改進(jìn)。與傳統(tǒng)哈希函數(shù)不同的是,Simhash對(duì)于原始內(nèi)容相近或相似的文本所生成的數(shù)字指紋也是相似的。其主要思想是使用傳統(tǒng)哈希函數(shù)對(duì)提取的特征計(jì)算哈希值,然后通過(guò)加權(quán)、累加等步驟得到最終的二進(jìn)制數(shù)字指紋,最后使用數(shù)字指紋間的差異來(lái)衡量原始文檔內(nèi)容的相似程度。Manku[4]將該算法用于海量網(wǎng)頁(yè)的去重,它被認(rèn)為是目前最好、最有效的相似網(wǎng)頁(yè)去重算法之一,近年來(lái)Google公司也使用該算法對(duì)網(wǎng)絡(luò)中的海量網(wǎng)頁(yè)進(jìn)行去重。此外,該算法也被廣泛應(yīng)用于文本和圖像的快速去重[5-7]、反作弊[8]、檢索[9-12]等領(lǐng)域。

      以上數(shù)字指紋生成方法均是基于哈希函數(shù)產(chǎn)生的,而哈希函數(shù)產(chǎn)生的數(shù)字指紋位數(shù)固定且本身存在著隨機(jī)性,因此其生成的數(shù)字指紋嚴(yán)重缺失原文的語(yǔ)義信息。為此,本文提出一種基于潛在語(yǔ)義分析的指紋提取方法,該方法根據(jù)文本主題映射和隨機(jī)超平面原理對(duì)文本生成k位(主題數(shù)目)數(shù)字指紋,該k位的數(shù)字指紋用k維向量進(jìn)行表示。指紋位數(shù)隨文本主題個(gè)數(shù)的變化而變化,相較于固定長(zhǎng)度的數(shù)字指紋能夠更好地反應(yīng)文本的語(yǔ)義,更好地表征原始數(shù)據(jù)。

      1 潛在語(yǔ)義空間的構(gòu)造

      潛在語(yǔ)義分析[13-14](latent semantic analysis,LSA)又稱潛在語(yǔ)義索引(latent semantic lndex, LSI),是一種信息檢索技術(shù),主要用于改善搜索引擎的查詢性能。它主要基于以下假設(shè): 在以詞項(xiàng)作為特征的原始空間中,任何一個(gè)詞項(xiàng)在文檔中的出現(xiàn)都不是隨機(jī)的,而是圍繞一個(gè)或多個(gè)主題的詞項(xiàng)集合。因此,我們潛意識(shí)里認(rèn)為在以詞項(xiàng)作為特征的原始空間中,詞項(xiàng)與詞項(xiàng)之間、詞項(xiàng)與文檔之間,以及文檔與文檔之間一定存在著一種潛在的語(yǔ)義結(jié)構(gòu)。LSI就是根據(jù)詞項(xiàng)在文檔中的共現(xiàn)關(guān)系探查文檔間的語(yǔ)義聯(lián)系。

      若n篇文檔中出現(xiàn)m個(gè)詞項(xiàng),則文檔集可表示為實(shí)數(shù)矩陣A∈Rm×n,稱之為文本特征矩陣或詞項(xiàng)-文檔矩陣,其元素值(A)ij為詞項(xiàng)ti在文檔dj中所占的權(quán)重,表示該詞項(xiàng)與該文檔之間的相關(guān)程度。一般情況下,A是高維稀疏矩陣。奇異值分解(singular value decomposition, SVD)[14]是構(gòu)造LSI空間的重要算法,它可以將文本特征矩陣A分解成三個(gè)矩陣的乘積,如式(1)所示。

      (1)

      其中Ur∈Rm×r,Σr∈Rr×r,Vr∈Rn×r,且r=rank(A)為矩陣A的秩。

      在文本信息處理中,這三個(gè)矩陣有著非常清楚的物理意義。Ur的每一行對(duì)應(yīng)特定的詞項(xiàng),列向量是相互正交的單位向量,構(gòu)成表示文檔的基向量,它們代表文檔集中的不同“語(yǔ)義”維度,(Ur)is給出的是詞項(xiàng)i和第s個(gè)“語(yǔ)義”維度之間關(guān)系的強(qiáng)弱程度。Vr的每一行對(duì)應(yīng)文檔集中的特定文檔,列向量也是相互正交的單位向量,代表文檔集中的不同“語(yǔ)義”維度,(Vr)js給出的是文檔j和第s個(gè)“語(yǔ)義”維度之間關(guān)系的強(qiáng)弱程度。Σr是對(duì)角矩陣,其對(duì)角線上的元素為A的全體(共r個(gè))非零奇異值,按行遞增順序從大到小排列,這些奇異值表示文檔集包含的各“語(yǔ)義”維度的權(quán)重。

      LSI是SVD在文本特征矩陣中應(yīng)用的產(chǎn)物。從物理意義上講,LSI是原始特征的線性組合,它通過(guò)奇異值分解,并只保留Σ矩陣中的前k個(gè)最大的奇異值來(lái)達(dá)到去噪和同義詞歸類的目的。從文本表示角度上看,這一處理結(jié)果構(gòu)造了原始文檔特征矩陣A的一個(gè)低秩逼近Ak,其中k為降秩后的秩,一般遠(yuǎn)小于原始特征矩陣的秩:k=rank(Ak)<

      (2)

      其中矩陣Ak仍是一個(gè)m×n實(shí)數(shù)矩陣,但現(xiàn)已變成低維密集矩陣。Uk∈Rm×k的全體列向量所組成的k維線性空間構(gòu)成文本的潛在語(yǔ)義表示空間(LSI空間),A中的任一文檔可通過(guò)Uk映射到該空間而得到其LSI表示。由式(2)可得原始文檔集的LSI映射表示R,推導(dǎo)過(guò)程如式(3)所示。

      (3)

      上述矩陣R即為原始高維稀疏矩陣A在LSI空間的低維密集表示。這一映射不僅起到了降維的作用,還保留了原始空間的語(yǔ)義信息。LSI能夠較好地體現(xiàn)共現(xiàn)詞所表達(dá)的潛在語(yǔ)義層面上文本間的相似性,對(duì)于合適的k值,可解決部分一義多詞問(wèn)題,進(jìn)而提高檢索效率。

      2 文本指紋提取方法

      2.1 指紋提取基本過(guò)程

      本文提出的基于潛在語(yǔ)義分析的文本指紋提取方法主要包括文本預(yù)處理、向量空間表示、潛在語(yǔ)義空間構(gòu)造及指紋生成四個(gè)部分,具體流程如圖1所示。

      圖1 指紋提取流程

      (1) 文本預(yù)處理

      文本預(yù)處理主要包括分詞、詞性詞頻統(tǒng)計(jì)、去停用詞等。中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)的NLPIR系統(tǒng)分詞精度可達(dá)98.45%,是當(dāng)前主流的漢語(yǔ)詞法分析器之一,主要功能包括中文分詞、詞性標(biāo)注、命名體識(shí)別等,同時(shí)支持用戶自定義詞典。本文采用該分詞系統(tǒng)對(duì)待處理的n篇文檔進(jìn)行快速分詞和詞性標(biāo)注,并統(tǒng)計(jì)詞頻;然后利用詞性去掉對(duì)文章貢獻(xiàn)較少的停用詞(助詞、語(yǔ)氣詞等)和標(biāo)點(diǎn)符號(hào),保留重要詞項(xiàng),則被保留下來(lái)所有詞項(xiàng)的集合T={t1,t2,…,tm}即為文檔的特征集。

      (2) 向量空間表示

      采用向量空間模型(VSM)[15]對(duì)原始文本進(jìn)行向量空間表示。將預(yù)處理得到特征集中的每一個(gè)詞項(xiàng)作為向量空間中的一維,則每一篇文檔都被一個(gè)m維的特征向量所表示。因此,n篇文檔特征向量表示的集合即為文檔集的向量空間表示。該向量空間是文檔集的特征空間,描述詞項(xiàng)和文檔間的相關(guān)性,其相關(guān)程度可用詞項(xiàng)在文檔中所占的權(quán)重來(lái)衡量,典型方法是采用詞頻與逆文檔頻率之積,如式(4)所示。

      (4)

      其中tfij為詞項(xiàng)ti在文檔dj中出現(xiàn)的頻次,idfi為文檔集中出現(xiàn)詞項(xiàng)ti的文檔頻次之倒數(shù)。上述wij即為式(1)中文本特征矩陣A的元素值(A)ij。根據(jù)不同的需求,權(quán)重可采用不同的形式。

      (3) 潛在語(yǔ)義空間構(gòu)造

      隨著文檔數(shù)量的增多,其向量空間維度也越來(lái)越大且越來(lái)越稀疏。為節(jié)省存儲(chǔ)空間、去除噪聲、實(shí)現(xiàn)一義多詞合并,本文利用SVD獲取原始高維稀疏空間特征之間的潛在語(yǔ)義聯(lián)系,并通過(guò)式(3)將原文本特征矩陣轉(zhuǎn)換到LSI空間,得到與其相對(duì)應(yīng)的低維LSI空間表示R,這樣做不僅使維數(shù)降低許多,還保留了原始空間的語(yǔ)義信息。

      (4) 指紋生成

      根據(jù)隨機(jī)超平面原理,將LSI空間的R矩陣轉(zhuǎn)換為二進(jìn)制數(shù)字指紋,轉(zhuǎn)換原理及其合理性分析本文將在2.2節(jié)中進(jìn)行闡述,轉(zhuǎn)換規(guī)則如下:

      (5)

      文本之間的相似程度可通過(guò)指紋間的漢明距離來(lái)度量。

      2.2 指紋提取方法

      本文提出的文本指紋提取方法是在潛在語(yǔ)義分析的基礎(chǔ)上,根據(jù)隨機(jī)超平面原理[3]對(duì)文本進(jìn)行語(yǔ)義指紋提取。提取過(guò)程如下:

      (1) 根據(jù)式(3)將m×n維文本特征矩陣A轉(zhuǎn)換到LSI空間R;

      當(dāng)采用余弦相似度度量文本間相似性時(shí),如果向量u和的夾角為θ,則當(dāng)θ=0時(shí),兩向量重合,方向完全相同;θ=π/2時(shí),兩向量正交;θ=π時(shí),兩向量方向完全相反。此時(shí),用主題超平面去分割兩個(gè)向量的夾角,則被分開(kāi)的概率就為θ/π,因此向量u和指紋對(duì)應(yīng)位不同的概率也為θ/π。所以我們可以用兩向量指紋對(duì)應(yīng)位不同的個(gè)數(shù)來(lái)衡量?jī)蓚€(gè)向量的差異程度。因此,提取文本指紋后,原始文本間的相似程度可以采用漢明距離來(lái)衡量。

      對(duì)于給定文檔集D={d1,d2, …,dn},其中dj=(w1j,w2j,…,wmj)T(j=1,2,…,n),wij表示第j篇文檔的第i個(gè)特征(見(jiàn)式(4)),由此可構(gòu)造文本特征矩陣A=[d1,d2, …,dn]∈Rm×n。完整的指紋提取算法和相似度計(jì)算算法描述如下:

      算法1指紋生成算法

      Input: Term_Document matricA=[d1,d2, …,dn]

      Output: Fingerprint {R1,R2, …,Rn}

      do SVD(A);

      fori←1 ton

      do forj←1 tom

      ifRij>0 thenRij=1

      elseRij=0

      return{R1, R2, …, Rn}

      算法2指紋相似度算法

      Input: Fingerprint matricR=[R1,R2, …,Rn]

      Output: Similar matricS

      fors←1 ton

      do fort←s+1ton

      doS(s,t)=(k-sum(RiRj))/k;

      returnS

      其中sum(RiRj)的值為對(duì)二進(jìn)制向量Ri和Rj進(jìn)行異或運(yùn)算后各位求和。

      3 實(shí)驗(yàn)結(jié)果與分析

      為驗(yàn)證本文提出數(shù)字指紋生成方法的準(zhǔn)確性和有效性,利用本文提出的方法進(jìn)行了文本間相似度實(shí)驗(yàn)和聚類實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果同Simhash算法和VSM方法進(jìn)行了對(duì)比。該實(shí)驗(yàn)的實(shí)驗(yàn)設(shè)備及環(huán)境為: Intel Xeon CPU E3-1230 v3處理器,8GB內(nèi)存,Windows 10,64位操作系統(tǒng),Visual Studio 2013和Matlab R2015a。

      實(shí)驗(yàn)數(shù)據(jù)選自知網(wǎng)上的計(jì)算機(jī)、醫(yī)學(xué)、教育、歷史、法律、政治等六個(gè)領(lǐng)域的學(xué)術(shù)文獻(xiàn),共1 000篇。對(duì)數(shù)據(jù)集中文檔做相應(yīng)預(yù)處理后所得到的不同詞項(xiàng)數(shù)量為26 037個(gè),最終指紋位數(shù)使用“SVD前k個(gè)特征值之和占特征值總和的80%以上”的原則,經(jīng)計(jì)算得k=170,即文檔最終指紋位數(shù)為170位,而Simhash算法生成指紋的位數(shù)固定為128位。

      3.1 文本間相似度實(shí)驗(yàn)

      利用本文提出方法,對(duì)學(xué)術(shù)論文集中的論文文本提取語(yǔ)義指紋,然后根據(jù)指紋計(jì)算文本間的相似度,最終采用類內(nèi)平均相似度和類間平均相似度兩個(gè)評(píng)價(jià)指標(biāo)來(lái)衡量本文方法的有效性。

      假設(shè)現(xiàn)有一個(gè)含有m類文檔的數(shù)據(jù)集A,A=(C1,C2, …,Cm)(m為數(shù)據(jù)集中文檔的類別數(shù)),其中第i類文檔中包含文檔ni篇。則對(duì)數(shù)據(jù)集中文檔進(jìn)行相似度計(jì)算,第i類內(nèi)n篇文檔的類內(nèi)平均相似度(Sim_W)即為類內(nèi)所有文檔間相似度的和與類內(nèi)文檔對(duì)個(gè)數(shù)的比值;第i類和第j類的類間平均相似度(Sim_B)即為類間文檔相似度的和與類間文檔對(duì)個(gè)數(shù)的比值。計(jì)算公式如式(6)~式(7)所示。

      其中,S(s,t)與2.2節(jié)指紋相似度算法中指紋相似度矩陣S相對(duì)應(yīng),表示第i類內(nèi)第s篇文檔與第t篇文檔之間的相似度。指紋相似度矩陣S按文獻(xiàn)領(lǐng)域的不同進(jìn)行順序排列,第i類文檔的起始位置為si,即S矩陣中第i類文檔數(shù)據(jù)位于si~si+ni-1行區(qū)域內(nèi)。

      圖2是三種方法類內(nèi)平均相似度的對(duì)比情況,其中橫軸表示六類文檔,縱軸表示對(duì)應(yīng)類別文檔的類內(nèi)平均相似度,取值范圍為[0,1]。圖中三條曲線,從上到下,五角星、圓形、星號(hào)分別對(duì)應(yīng)Simhash方法、本文方法和VSM方法的類內(nèi)平均相似度。不難看出,在多數(shù)類中,本文方法的類內(nèi)平均相似度高于VSM方法,且低于Simhash方法。這是因?yàn)閂SM方法和Simhash方法都僅僅是通過(guò)文檔間所使用的詞項(xiàng)來(lái)衡量其相似程度,所以對(duì)于詞項(xiàng)重疊率較低的文檔,VSM方法計(jì)算的相似度會(huì)偏低,雖然Simhash方法所得相似度高于本文算法,但并不代表該方法衡量的相似度準(zhǔn)確,好的文檔表示應(yīng)具有較高的類內(nèi)平均相似度和較低的類間平均相似度,還需要參照類間平均相似度對(duì)其進(jìn)行評(píng)價(jià)。

      圖2 類內(nèi)平均相似度曲線

      圖3是三種方法類間平均相似度的對(duì)比情況。與類內(nèi)平均相似度結(jié)果一樣,本文提出方法的類間平均相似度仍然處于VSM方法和Simhash方法之間。值得注意的是Simhash方法的類間平均相似度和類內(nèi)平均相似度都在0.50以上,也就是說(shuō)它認(rèn)為文檔集中的所有文檔都很相似,這顯然是不合理的。而本文方法所得的類間平均相似度在0.3~0.4之間,低于其類內(nèi)平均相似度(0.4~0.7),由此看出本文方法能夠更好地區(qū)分文檔集中的不同類文檔。

      圖3 類間平均相似度曲線

      3.2 文本聚類實(shí)驗(yàn)

      根據(jù)本文方法提取的語(yǔ)義指紋,對(duì)學(xué)術(shù)論文集中的論文文本進(jìn)行聚類實(shí)驗(yàn),采用查準(zhǔn)率、查全率、F值對(duì)聚類效果進(jìn)行評(píng)價(jià)。則對(duì)于任何人工標(biāo)注簇pj和聚類簇Ci,相應(yīng)的三種評(píng)價(jià)標(biāo)準(zhǔn)[16](查準(zhǔn)率、查全率和F指標(biāo))計(jì)算公式如式(8)~式(10)所示:

      通過(guò)式(10),對(duì)每一個(gè)人工標(biāo)注簇pj,我們可定義其Fmax值,如式(11)所示:

      (11)

      進(jìn)一步,對(duì)所有簇的F值作加權(quán)平均,則可得到整個(gè)聚類結(jié)果的F值,如式(12)所示。

      (12)

      其中,式(11)為某個(gè)人工標(biāo)注簇的F值,式(12)是通過(guò)評(píng)價(jià)全局所有的人工標(biāo)注簇來(lái)評(píng)價(jià)整個(gè)聚類結(jié)果,最終結(jié)果成為Class_F值,它對(duì)聚類結(jié)果優(yōu)劣的整體區(qū)分能力較強(qiáng)。

      表1所示是本文方法、VSM方法和Simhash方法在學(xué)術(shù)論文集上的聚類結(jié)果。

      表1 聚類實(shí)驗(yàn)結(jié)果對(duì)比

      表中元素表示的是文本采用本文方法、VSM和Simhash表示時(shí),使用K-means算法對(duì)文本聚類所得聚類結(jié)果的準(zhǔn)確率和召回率的平均值、F值及Class_F值。表中可看出相較于其他兩種表示方法,采用本文方法對(duì)文本表示時(shí),其聚類結(jié)果的準(zhǔn)確率、召回率、F值均有提高,尤其是F值和Class_F值提高幅度較大。主要是因?yàn)楸疚膶?shí)驗(yàn)采用知網(wǎng)上的學(xué)術(shù)論文作為實(shí)驗(yàn)數(shù)據(jù),其文本間所使用詞項(xiàng)的重疊率較低,實(shí)驗(yàn)數(shù)據(jù)比較自然。因此,當(dāng)采用VSM方法和Simhash方法表示文本時(shí)其召回率較低,同時(shí)導(dǎo)致F值和Class_F值也較低。

      分別采用VSM方法、Simhash方法和本文方法對(duì)文本進(jìn)行表示,并基于三種表示對(duì)文檔進(jìn)行了相似度實(shí)驗(yàn)和聚類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明: 在文本間相似度實(shí)驗(yàn)中,本文方法具有較高的類內(nèi)平均相似度和較低的類間平均相似度;在聚類實(shí)驗(yàn)中,采用本文方法對(duì)文本進(jìn)行表示時(shí)所得聚類結(jié)果的準(zhǔn)確率、召回率、F值以及Class_F值均優(yōu)于其他兩種方法。因此,本文提出的指紋提取方法能夠更好地表征文本的潛在語(yǔ)義信息,進(jìn)而證明了本文提出方法的準(zhǔn)確性和有效性。

      4 結(jié)論

      目前常見(jiàn)的數(shù)字指紋提取方法大多數(shù)都使用哈希函數(shù)來(lái)完成,由于其本身的隨機(jī)性和雪崩效應(yīng),其多部分被用于內(nèi)容相近或近似相同的去重、近似檢測(cè)、檢索等領(lǐng)域。為彌補(bǔ)數(shù)據(jù)潛在含義的缺失,本文針對(duì)中文文獻(xiàn)提出了一種基于潛在語(yǔ)義分析的文本指紋提取方法,該方法通過(guò)潛在語(yǔ)義分析將原始的高維稀疏文本特征空間轉(zhuǎn)換到低維密集的LSI空間,然后根據(jù)隨機(jī)超平面原理對(duì)文本生成數(shù)字指紋。在此過(guò)程中,LSI所獲取的每一個(gè)潛在語(yǔ)義主題特征都會(huì)決定一位數(shù)字指紋,使得最終生成的文本指紋攜帶原文語(yǔ)義信息,可以有效地對(duì)原文進(jìn)行語(yǔ)義壓縮表示。通過(guò)與Simhash方法和VSM方法的對(duì)比實(shí)驗(yàn),驗(yàn)證了本文提出方法能夠更加精確地表征原始文檔。

      本文所提出的指紋提取方法選取tf_idf作為詞項(xiàng)權(quán)重值,所以其計(jì)算需要耗費(fèi)大量時(shí)間,此時(shí)可采用并行環(huán)境來(lái)減少計(jì)算時(shí)間,提高其計(jì)算效率。另外,本文方法較適合于大量長(zhǎng)文本,對(duì)短文本的指紋提取準(zhǔn)確率往往得不到有效保證。若對(duì)短文本進(jìn)行指紋提取,可利用其他模型提取文本特征,再對(duì)其生成數(shù)字指紋。

      [1] 吳純青, 任沛閣, 王小峰. 基于語(yǔ)義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索[J]. 計(jì)算機(jī)學(xué)報(bào), 2015, 38(1): 1-17.

      [2] 劉文龍.數(shù)字指紋關(guān)鍵技術(shù)研究[D]. 北京: 北京郵電大學(xué)碩士學(xué)位論文, 2015.

      [3] Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceeding of the 34th Annual ACM Symposium on Theory of Computing. Montreal, Canada: ACM, 2002: 380-388.

      [4] Manku G S,Jain A, Sarma A D. Detecting near duplicates for web Crawling[C]// Proceedings of International Conference on World Wide Web. Banff Canada: ACM, 2007: 141-150.

      [5] 李綱,毛進(jìn),陳璟浩.基于語(yǔ)義指紋的中文文本快速去重[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2013, 29(9): 41-47.

      [6] 陳露,吳國(guó)仕,李晶.基于語(yǔ)義指紋和LCS的文本去重方法[J].軟件,2014, 36(11): 25-30.

      [7] Yi Y. Research on large scale documents deduplication technique based on Simhash algorithm[C]//Proceedings of International Conference on Information Sciences, Machinery, Materials and Energy.Chongqing, China: Atlantis Press, 2015: 1226-1229.

      [8] 徐濟(jì)惠.基于Simhash算法的海量文檔反作弊技術(shù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2014, 24(9): 103-107.

      [9] 白如江,王曉笛,王效岳.基于數(shù)字指紋的文獻(xiàn)相似度檢測(cè)研究[J]. 圖書(shū)情報(bào)工作,2013,57(15): 88-95.

      [10] 羅文俊,孫志蔚.基于Simhash的密文同義詞檢索方法[J]. 武漢大學(xué)學(xué)報(bào)(理學(xué)版),2014,60(5): 459-465.

      [11] 羅新高.基于Simhash的海量視頻檢索研究[D]. 湘潭: 湘潭大學(xué)碩士學(xué)位論文, 2015.

      [12] 楊旸,楊書(shū)略,柯閩.加密云數(shù)據(jù)下基于Simhash的模糊排序搜索方案[J].計(jì)算機(jī)學(xué)報(bào),2017,40(2): 431-444.

      [13] 劉云峰,齊歡.潛在語(yǔ)義分析權(quán)重計(jì)算的改進(jìn)[J].中文信息學(xué)報(bào),2006,19(6): 64-69.

      [14] 盧健. 潛在語(yǔ)義分析在文本信息檢索中的應(yīng)用研究[D]. 武漢: 華中科技大學(xué)碩士學(xué)位論文, 2005.

      [15] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

      [16] 周昭濤. 文本聚類分析效果評(píng)價(jià)及文本表示研究[D]. 北京: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所碩士學(xué)位論文, 2005.

      猜你喜歡
      詞項(xiàng)指紋文檔
      有人一聲不吭向你扔了個(gè)文檔
      像偵探一樣提取指紋
      為什么每個(gè)人的指紋都不一樣
      自然種類詞項(xiàng)二難、卡茨解決與二維框架
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      基于自適應(yīng)稀疏變換的指紋圖像壓縮
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      可疑的指紋
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      英語(yǔ)詞項(xiàng)搭配范圍及可預(yù)見(jiàn)度
      奉新县| 凤城市| 凤凰县| 屯留县| 九龙坡区| 巫山县| 林西县| 汝城县| 财经| 隆化县| 镇江市| 兴国县| 南川市| 尤溪县| 营山县| 大邑县| 汉寿县| 宽甸| 隆林| 镇原县| 平安县| 庄浪县| 工布江达县| 澄城县| 恩施市| 揭西县| 石屏县| 东莞市| 夹江县| 新化县| 恩平市| 河源市| 鄂州市| 新蔡县| 深圳市| 嘉祥县| 德安县| 屏东市| 鄢陵县| 江源县| 石阡县|