• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    2022-01-20 06:28:40張晨陽(yáng)段國(guó)云文春生
    關(guān)鍵詞:查重分詞文檔

    張晨陽(yáng) 段國(guó)云 文春生

    基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    張晨陽(yáng)a段國(guó)云b文春生a

    (湖南科技學(xué)院 a.信息工程學(xué)院;b.信息與網(wǎng)絡(luò)中心,湖南 永州 425199)

    為解決文本數(shù)據(jù)的個(gè)性化查重問(wèn)題,提出基于Simhash算法的文本查重的方法,設(shè)計(jì)并實(shí)現(xiàn)了系統(tǒng)原型。首先,闡述了文本相似度模型和計(jì)算算法;其次,根據(jù)需求規(guī)劃設(shè)計(jì)了系統(tǒng)整體實(shí)現(xiàn)架構(gòu)并詳細(xì)描述其設(shè)計(jì)過(guò)程;再次,描述了查重算法和查重功能模塊實(shí)現(xiàn)的詳細(xì)流程;最后,對(duì)系統(tǒng)原型進(jìn)行功能測(cè)試和算法相似度計(jì)算準(zhǔn)確性測(cè)試。實(shí)驗(yàn)證明:在小規(guī)模文本文檔樣本中,系統(tǒng)能較好的實(shí)現(xiàn)文本相似度的計(jì)算和特征庫(kù)的個(gè)性化定制,可集成并適用于小規(guī)模企業(yè)辦公系統(tǒng)等平臺(tái)的文本相似性查重環(huán)境。

    Simhash算法;文本相似度;余弦相似度;文本查重;Flask框架

    隨著互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的高速發(fā)展,用戶正在從數(shù)據(jù)的接受者向數(shù)據(jù)的制造者轉(zhuǎn)變,遠(yuǎn)端數(shù)據(jù)存儲(chǔ)容量呈爆炸式增長(zhǎng)[1]。用戶利用網(wǎng)絡(luò)可在個(gè)人云盤(pán)、企業(yè)網(wǎng)盤(pán)、社交網(wǎng)等平臺(tái)上發(fā)布視頻、上傳文檔和圖片等資料,用戶在為互聯(lián)網(wǎng)做出貢獻(xiàn)的同時(shí)也制造了大量的冗余數(shù)據(jù)。相關(guān)研究表明,當(dāng)前一些存儲(chǔ)系統(tǒng)中的數(shù)據(jù)冗余量已達(dá)到60%[2],且呈現(xiàn)上升趨勢(shì)。如何對(duì)文本進(jìn)行原創(chuàng)性檢測(cè)、對(duì)文本中內(nèi)容進(jìn)行相似度對(duì)比檢測(cè),成為文本檢測(cè)領(lǐng)域亟需解決的重要問(wèn)題。

    近年來(lái),研究者在文本檢測(cè)領(lǐng)域取得了大量的研究成果,突出成果在工業(yè)界得到了應(yīng)用和推廣。其中Simhash算法成為近似文本檢測(cè)領(lǐng)域的主流方法之一,文獻(xiàn)[3]針對(duì)Simhash算法中近似文本指紋位數(shù)單一而丟失一定信息量的缺點(diǎn),提出了基于多Simhash指紋和K維超曲面的近似文本檢測(cè)方法。文獻(xiàn)[4]從提升Simhash算法去重效果、提高準(zhǔn)確率的角度出發(fā),提出了基于信息熵加權(quán)的改正算法E-Simhash。文獻(xiàn)[5]基于LDA(Latent Dirichlet Allocation,狄利克雷分布)和Doc2Vec模型提出HybridDL文本相似度檢測(cè)算法,以便提高文本檢測(cè)的準(zhǔn)確度。文本查重算法被廣泛應(yīng)用于知網(wǎng)、百度網(wǎng)盤(pán)、阿里云盤(pán)等大型平臺(tái)并融入到文本檢測(cè)產(chǎn)品中。文本相似度檢測(cè)技術(shù)雖然應(yīng)用廣泛,但市場(chǎng)上沒(méi)有出現(xiàn)針對(duì)有保密要求、個(gè)人文檔對(duì)比需求等特殊場(chǎng)景的文本檢測(cè)工具。本文設(shè)計(jì)一款基于Simhash算法的文本相似度檢測(cè)系統(tǒng),該系統(tǒng)可以個(gè)性化定制內(nèi)部文本查重庫(kù),以解決企業(yè)文件、原創(chuàng)性文檔等特殊場(chǎng)景下用戶文本檢測(cè)的問(wèn)題。

    1 相關(guān)技術(shù)

    1.1 文本相似度模型

    判斷兩個(gè)文本內(nèi)容是否重合其實(shí)質(zhì)是對(duì)兩個(gè)文本的相似性進(jìn)行計(jì)算[6]。相似度為0則表明對(duì)比的兩個(gè)文本完全不同,相似度為1則說(shuō)明兩個(gè)文本內(nèi)容完全相同,其相似程度取值在[0,1]之間,通常采用百分率表示。如有文本文件M和參照文檔N,其內(nèi)容相似性定義為M、N之間相匹配元素變量的個(gè)數(shù)之和與M中所有元素個(gè)數(shù)的絕對(duì)比值,而Sim用于性能衡量,Sim越趨近于1說(shuō)明兩個(gè)文件越相似,sim越趨近于0則兩個(gè)文本相似度極低。設(shè)向量集合是文件的元素集合,向量集合是文件的元素集合,是文件和元素集合之間匹配后的交集,文本文件的相似度模型如圖1所示。

    圖1 文本相似度模型

    1.2 余弦相似度算法

    1)余弦相似度原理

    余弦相似度是通過(guò)比較兩個(gè)向量?jī)?nèi)積空間夾角余弦值的大小來(lái)對(duì)他們之間的相似度進(jìn)行比較。當(dāng)兩個(gè)向量完全重合且方向相同時(shí)夾角余弦值為0,兩個(gè)向量指向相反時(shí)其余弦相似度值為-1,余弦值的取值范圍為[-1,1],其值的大小與向量指向的方向有關(guān),而與向量長(zhǎng)度無(wú)關(guān)[7-8]。但對(duì)文本而言,在比較過(guò)程中只考慮向量的方向而不考慮其規(guī)模的大小。向量夾角的取值通常小于90°,由此得知取值范圍是[0,1]。因此,它可以用于任何維度向量的比較中,尤其在高維度向量空間的比較中應(yīng)用更為廣泛。當(dāng)進(jìn)行信息檢索時(shí),每個(gè)詞條都擁有不同的權(quán)重,每一個(gè)文檔由一個(gè)擁有權(quán)值的特征向量來(lái)表示,權(quán)值的大小取決于該詞在文本中出現(xiàn)的頻次大小,通過(guò)計(jì)算余弦相似度就可以給出兩個(gè)文本在其內(nèi)容上的相似度。

    2)TF-IDF權(quán)重計(jì)算

    通過(guò)IDF值的計(jì)算,可做到少數(shù)罕見(jiàn)單詞的值比較高,多數(shù)低頻單詞的值比較低。然后通過(guò)TF-IDF的計(jì)算公式TF-IDF = TF * IDF進(jìn)行計(jì)算,對(duì)文檔向量化后的每個(gè)詞項(xiàng)分配一個(gè)權(quán)重,若不含這個(gè)詞則權(quán)重值為0。

    3)余弦相似度計(jì)算

    基于余弦相似度計(jì)算的原理,文中將每個(gè)已經(jīng)分好詞和去停用字的文本進(jìn)行文本向量化,分別記為向量D1和向量D2,并且將文本中每個(gè)詞項(xiàng)的權(quán)重進(jìn)行精確計(jì)算,由于每個(gè)文本的向量維度相同,因而比較這兩個(gè)文檔的相似性就是通過(guò)計(jì)算這兩個(gè)詞項(xiàng)向量之間夾角的 cos值來(lái)進(jìn)行判斷。相似度值的計(jì)算方法如公式(2)所示:

    公式中分母代表的是每篇文檔經(jīng)TF處理后的向量模的乘積,分子代表的是經(jīng)比較文檔中TF后的兩個(gè)向量的乘積,如果兩個(gè)向量夾角的余弦值越趨向于1,則說(shuō)明兩個(gè)文檔的相似度越高,反之越低。

    2 系統(tǒng)設(shè)計(jì)

    2.1 性能需求分析

    本節(jié)以文本文件對(duì)比查重的性能優(yōu)化為需求展開(kāi)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)工作。設(shè)計(jì)初期充分調(diào)研現(xiàn)有的查重系統(tǒng),分析其使用過(guò)程中所出現(xiàn)的問(wèn)題,分析影響系統(tǒng)性能所面臨的問(wèn)題,結(jié)合優(yōu)化設(shè)計(jì)目標(biāo)按問(wèn)題類型對(duì)其進(jìn)行細(xì)分,帶著提高系統(tǒng)性能的目標(biāo)進(jìn)行文本查重系統(tǒng)的設(shè)計(jì)。影響系統(tǒng)性能的要素有很多,在此選擇提高結(jié)果精度和計(jì)算速度為設(shè)計(jì)目標(biāo),研究解決影響因素以提高系統(tǒng)的整體性能。系統(tǒng)性能優(yōu)化設(shè)計(jì)出發(fā)點(diǎn)在于提高結(jié)果精確度和計(jì)算速度,結(jié)果精度將從文本查重的匹配度和相似度算法兩個(gè)角度展開(kāi)研究,計(jì)算速度將從文本的相似度算法的時(shí)間復(fù)雜度、返回文本數(shù)的設(shè)置和文本檢索速度三個(gè)方面下手以提高整體性能。系統(tǒng)性能需求分析要點(diǎn)如圖2所示:

    圖2 系統(tǒng)性能需求分析

    2.2 系統(tǒng)整體框架

    文中系統(tǒng)采用B/S(Browser/Server,瀏覽器/服務(wù)器)結(jié)構(gòu)進(jìn)行設(shè)計(jì),由用戶端和管理端兩個(gè)部分組成,以數(shù)據(jù)庫(kù)為樞紐完成用戶端和管理端數(shù)據(jù)的交互,設(shè)計(jì)兩級(jí)權(quán)限管理體系實(shí)現(xiàn)不同用戶、不同層級(jí)權(quán)限針對(duì)不同操作模塊的精細(xì)化授權(quán)。普通用戶端和管理端兩個(gè)部分所設(shè)計(jì)的功能不同,用戶端設(shè)計(jì)注冊(cè)、登錄、文本上傳、查重和報(bào)告管理五個(gè)二級(jí)模塊;管理端設(shè)計(jì)對(duì)比庫(kù)管理、用戶管理、文本庫(kù)上傳、統(tǒng)計(jì)分析、報(bào)告模板管理和系統(tǒng)管理六個(gè)模塊;相似度和權(quán)重計(jì)算算法單獨(dú)設(shè)計(jì)模塊供查重模塊調(diào)度使用;為方便管理,文本特征庫(kù)通過(guò)管理端授權(quán)獨(dú)立管理;系統(tǒng)數(shù)據(jù)的傳輸加密、存儲(chǔ)加密由安全檢測(cè)模塊負(fù)責(zé)。系統(tǒng)功能模塊劃分及整體架構(gòu)如圖3所示:

    圖3 系統(tǒng)功能整體架構(gòu)

    普通用戶在用戶端經(jīng)注冊(cè)并審核通過(guò)后可登錄系統(tǒng),通過(guò)權(quán)限認(rèn)證、系統(tǒng)裝載后進(jìn)入用戶主界面進(jìn)行權(quán)限內(nèi)功能模塊的操作,可上傳查重目標(biāo)文件、選擇查重參照文本庫(kù)后進(jìn)行相似度計(jì)算,系統(tǒng)調(diào)用用戶組指定的模板進(jìn)行對(duì)比數(shù)據(jù)填充形成相似度檢測(cè)報(bào)告,用戶在報(bào)告管理模塊對(duì)查重報(bào)告進(jìn)行刪除、管理并下載使用。管理員權(quán)限分超級(jí)管理員、審計(jì)管理員和普通管理員,超級(jí)管理員之外的管理用戶ID均通過(guò)初始化超級(jí)管理員后進(jìn)行分配,超級(jí)管理員可定制其他管理員的功能權(quán)限。管理員登錄后,可以對(duì)文本特征庫(kù)、查重報(bào)告模板進(jìn)行增加、刪除、修改、查詢操作,可以針對(duì)某一特殊需求創(chuàng)建某一類型的文本特征庫(kù),文本特征可線下編輯并上傳到新創(chuàng)建的特征文本庫(kù)中以便系統(tǒng)對(duì)其進(jìn)行初始化操作。

    2.3 查重模塊設(shè)計(jì)

    采用余弦相似度算法對(duì)查重模塊進(jìn)行設(shè)計(jì),工作時(shí)調(diào)用相似度算法和權(quán)重算法模塊,其中Simhash算法的設(shè)計(jì)由文本分詞、Hash計(jì)算、加權(quán)賦值、向量合并、降維五個(gè)步驟組成。首先,對(duì)于目標(biāo)文檔中的文本語(yǔ)句按選定對(duì)比庫(kù)的特征進(jìn)行分詞,按1-5級(jí)劃分得到其中有效的特征向量等級(jí);如果特征向量是文本中的詞且其值落在等級(jí)范圍之內(nèi),那向量值就代表這個(gè)特征向量出現(xiàn)的次數(shù),詞的權(quán)重值與向量值相等。其次,通過(guò)Hash函數(shù)把文本中每個(gè)特征向量的Hash值計(jì)算出來(lái),其中Hash值由0和1組成。再次,給擁有Hash值的特征向量進(jìn)行加權(quán),加權(quán)的計(jì)算方法為W=Hash*Weight,當(dāng)遇到Hash值為1時(shí),向量與權(quán)值正相乘,反之則與權(quán)值負(fù)相乘。然后,合并累加單個(gè)文本中所有特征向量的加權(quán)結(jié)果,形成一個(gè)序列串。最后,我們可以對(duì)權(quán)值進(jìn)行降維,如果合并的累加結(jié)果大于0則置為1,反之置為0,從而可以得出文檔文本的Simhash值。由此,根據(jù)文檔中不同文本之間的海明距離(Hamming Distance)計(jì)算得到其相似度。

    3 關(guān)鍵功能的實(shí)現(xiàn)

    文中所設(shè)計(jì)的系統(tǒng)采用Python語(yǔ)言結(jié)合Flask框架和MongoDB數(shù)據(jù)庫(kù)實(shí)現(xiàn)系統(tǒng)的開(kāi)發(fā),如下詳細(xì)介紹相似度查重算法、用戶查重流程兩個(gè)關(guān)鍵功能的實(shí)現(xiàn)過(guò)程。

    3.1 相似度查重算法

    文本相似度主要采用Simhash算法、分詞算法并結(jié)合海明距離計(jì)算進(jìn)行實(shí)現(xiàn)。Simhash算法的主要思想是降維[10],將高維的特征向量映射成一個(gè)f-bit的指紋,通過(guò)比較兩個(gè)文本f-bit指紋的海明距離來(lái)確定內(nèi)容是否重復(fù)并計(jì)算出兩者的相似度值。具體計(jì)算過(guò)程分為五步[11]:

    1)基于傳統(tǒng)的IR方法,將分詞后的文本數(shù)據(jù)轉(zhuǎn)換為由加權(quán)特征值構(gòu)成的向量組。

    2)初始化一個(gè)多維(定義為維)向量,其中每維的初始值為0。

    3)針對(duì)文本特征向量集中的單個(gè)特征做簽名計(jì)算。計(jì)算思路是將傳統(tǒng)的Hash算法映射到一個(gè)f-bit的簽名,如果簽名的第維上為1,則對(duì)向量V中第維加上這個(gè)特征的權(quán)值,否則對(duì)向量的第i維減去該特征的權(quán)值。

    4)對(duì)整個(gè)特征向量集合進(jìn)行-bit迭代計(jì)算,由中每維向量符號(hào)確定生成-bit指紋值,如果第維為正數(shù),則第維指紋為1,否則為0。

    5)計(jì)算海明距離。通過(guò)將文本向量化后,如得到10101和00110兩個(gè)比特?cái)?shù),通過(guò)海明距離計(jì)算算法對(duì)兩個(gè)比特串進(jìn)行計(jì)算得到其值為3。

    通過(guò)上述五個(gè)步驟,由相似度查重算法模塊計(jì)算文本之間的相似度,其實(shí)現(xiàn)過(guò)程中關(guān)鍵函數(shù)的代碼如圖4所示:

    圖4 相似度計(jì)算函數(shù)關(guān)鍵代碼

    針對(duì)文本分詞進(jìn)行測(cè)試,從0分詞到利用海明距離對(duì)兩個(gè)文本向量進(jìn)行對(duì)比分析,通過(guò)關(guān)鍵代碼進(jìn)行測(cè)試。測(cè)試時(shí)創(chuàng)建3個(gè)txt文檔,第一個(gè)文檔內(nèi)容為“基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”,第二個(gè)文檔內(nèi)容為“基于Selenium的在線文本查重的設(shè)計(jì)與實(shí)現(xiàn)”,第三個(gè)文檔添加前兩個(gè)文檔的全部?jī)?nèi)容,定義前兩個(gè)文檔為測(cè)試文檔,第三個(gè)文檔作為中文停詞庫(kù)。首先定義Simhash算法,利用jieba分詞對(duì)兩個(gè)文檔進(jìn)行分詞操作,接下來(lái)是按照相對(duì)應(yīng)的權(quán)重對(duì)分詞后的詞進(jìn)行分詞操作,然后設(shè)計(jì)文本對(duì)比函數(shù),打開(kāi)第三個(gè)文本,將前兩個(gè)文本與第三個(gè)文本中的分詞進(jìn)行對(duì)比分析,最后可得出兩個(gè)文本的文本相似度。文本查重效果如圖5所示:

    圖5 文本查重實(shí)現(xiàn)測(cè)試

    3.2 查重功能的實(shí)現(xiàn)

    文本查重功能的實(shí)現(xiàn)流程是文中系統(tǒng)的核心工作,由文本上傳、特征庫(kù)選擇、查重計(jì)算和報(bào)告生成四個(gè)流程協(xié)調(diào)完成。用戶通過(guò)登錄驗(yàn)證和權(quán)限鑒別后進(jìn)入文本查重功能區(qū),通過(guò)上傳文本文件后選擇特征庫(kù)進(jìn)行查重計(jì)算,通過(guò)調(diào)用相似度和權(quán)重計(jì)算算法完成目標(biāo)文本與特征庫(kù)內(nèi)容相似度值的計(jì)算,最后將計(jì)算結(jié)果存入數(shù)據(jù)庫(kù),調(diào)用報(bào)告模板生成查重報(bào)告。其實(shí)現(xiàn)的流程如圖6所示:

    圖6 文本查重實(shí)現(xiàn)流程

    文本上傳模塊主要目標(biāo)是為用戶提供文本文件上傳的入口,通過(guò)識(shí)別并轉(zhuǎn)化文本編碼后以指定的編碼格式存入數(shù)據(jù)庫(kù)中;查重時(shí)系統(tǒng)從庫(kù)中讀取與特征庫(kù)相同編碼的被測(cè)文本完成相似度計(jì)算,調(diào)用過(guò)程中如發(fā)現(xiàn)編碼不同需采用轉(zhuǎn)換函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換。查重模塊首先需對(duì)目標(biāo)文本進(jìn)行預(yù)處理,包括對(duì)文本進(jìn)行分詞、加權(quán)、權(quán)值、降維等操作,其次將處理后的目標(biāo)文本內(nèi)容與特征庫(kù)文本逐次進(jìn)行相似度檢驗(yàn),通過(guò)逐次對(duì)比后獲取重復(fù)的部分,最后統(tǒng)計(jì)相似內(nèi)容數(shù)量得出相似度值和相似內(nèi)容后存放于數(shù)據(jù)庫(kù)中,為查重報(bào)告的生成提供依據(jù)。文中系統(tǒng)以查詢時(shí)間生成報(bào)告文件名,管理員根據(jù)特征庫(kù)為用戶配置報(bào)告模板供生成查重報(bào)告使用。

    4 系統(tǒng)測(cè)試實(shí)驗(yàn)

    4.1 實(shí)驗(yàn)環(huán)境

    文中開(kāi)發(fā)了系統(tǒng)原型,在實(shí)驗(yàn)室部署了測(cè)試環(huán)境,服務(wù)器硬件為單路Intel(R) Xeon(R) E5-2683 V4 CPU,提供2.1GHz的頻率和32個(gè)線程,配64G ECC內(nèi)核;網(wǎng)絡(luò)環(huán)境采用RG-S2910-24GT4XS-E二層交換機(jī)連接服務(wù)器和測(cè)試筆記本;操作系統(tǒng)是Windows Server 2016,數(shù)據(jù)庫(kù)系統(tǒng)選用MongoDB 4.4.6,采用Python3.7作為解釋器并安裝好所需的依賴包,選用Flask 2.02作為Web服務(wù)框架,在Pycharm中運(yùn)行原型系統(tǒng)提供測(cè)試服務(wù)。

    4.2 查重功能測(cè)試

    系統(tǒng)主要針對(duì)企業(yè)內(nèi)部文件查重和個(gè)人重復(fù)文本對(duì)比的個(gè)性化需求應(yīng)用場(chǎng)景,實(shí)驗(yàn)過(guò)程中沒(méi)有知網(wǎng)、萬(wàn)方、Paperyy等論文查重平臺(tái)對(duì)比特征庫(kù),無(wú)法完成此類大型平臺(tái)的對(duì)比。本文通過(guò)上傳50篇技術(shù)文檔構(gòu)建一個(gè)文本特征庫(kù),每個(gè)文本文檔限定為1000字50個(gè)句子;再?gòu)?0篇文檔中任意抽1個(gè)、5個(gè)、10個(gè)句子構(gòu)建測(cè)試用例,通過(guò)普通用戶端權(quán)限上傳目標(biāo)文檔并選擇文本特征庫(kù)對(duì)其進(jìn)行測(cè)試。測(cè)試結(jié)果表明文中系統(tǒng)能夠計(jì)算目標(biāo)文檔重復(fù)文字相似率、能按系統(tǒng)設(shè)計(jì)的文字顏色將其中重復(fù)的文字較好地標(biāo)記出來(lái)、能根據(jù)模板和計(jì)算結(jié)果生成查重報(bào)告,實(shí)現(xiàn)了系統(tǒng)設(shè)計(jì)的功能。

    4.3 查重性能測(cè)試

    性能實(shí)驗(yàn)主要針對(duì)文中系統(tǒng)文本查重相似度計(jì)算的準(zhǔn)確率展開(kāi)測(cè)試,測(cè)試算法在檢測(cè)過(guò)程中分詞、對(duì)比等性能的穩(wěn)定性。實(shí)驗(yàn)中構(gòu)建10個(gè)特征庫(kù)從管理端上傳到系統(tǒng)中,再構(gòu)建10個(gè)目標(biāo)測(cè)試文本文件,目標(biāo)文件從特征庫(kù)文本數(shù)據(jù)中取一定比例的重復(fù)內(nèi)容,比例控制分別與對(duì)應(yīng)測(cè)試庫(kù)的相似率從0%到100%按10%遞增。將測(cè)試目標(biāo)文件從用戶端上傳并選擇對(duì)應(yīng)的特征庫(kù)進(jìn)行測(cè)試,每個(gè)目標(biāo)測(cè)試文件測(cè)5次,取相似度數(shù)據(jù)的平均值后再與制定的重復(fù)比例對(duì)比,計(jì)算測(cè)試的準(zhǔn)確率。測(cè)試結(jié)果表明文中系統(tǒng)能較精確的計(jì)算目標(biāo)文檔重復(fù)文字相似率,算法測(cè)試的平均準(zhǔn)確率在99.7%以上,當(dāng)文本相似度越高時(shí)查重相似率計(jì)算的準(zhǔn)確度越高,反映出相似度算法計(jì)算的穩(wěn)定性。

    5 結(jié) 語(yǔ)

    本文基于Simhash算法開(kāi)發(fā)了可自定義特征庫(kù)的文本查重系統(tǒng)原型。通過(guò)對(duì)被測(cè)目標(biāo)文本進(jìn)行分詞、Hash、加權(quán)、合并、降維等系列操作后,再使用海明距離與特征庫(kù)文本進(jìn)行相似度對(duì)比,完成文本的相似度檢測(cè)。經(jīng)功能和性能實(shí)驗(yàn)測(cè)試,所開(kāi)發(fā)的系統(tǒng)能較好的完成系統(tǒng)的設(shè)計(jì)目標(biāo),算法有較好的穩(wěn)定性。系統(tǒng)適用于個(gè)性化定制需求,可用于文本對(duì)比、日志文本數(shù)據(jù)處理分析等應(yīng)用場(chǎng)景,但離大規(guī)模企業(yè)應(yīng)用還有一定的距離。

    [1]Chen T.Analysis of computer data processing mode based on big data era[J]. Agro Food Industry Hi-tech, 2017, 28(1): 828-831.

    [2]Clements A T,Ahmad I,Vilayannur M,et al. Decentralized deduplication in SAN cluster file systems[C]// Usenix Technical Conference, 2009.

    [3]董博,鄭慶華,宋凱磊,田鋒,馬瑞.基于多SimHash指紋的近似文本檢測(cè)[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(11):2152- 2157.

    [4]張航,盛志偉,張仕斌,等. Simhash算法在文本去重中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56(11): 246-251.

    [5]肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測(cè)方法[J].電子技術(shù)應(yīng)用,2020,46(06):28-31+35.

    [6]王寒茹,張仰森.文本相似度計(jì)算研究進(jìn)展綜述[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,34(01):68-74.

    [7]嚴(yán)李強(qiáng),田博,梁煒恒,楊歡歡.藏文文本相似度計(jì)算方法研究[J].高原科學(xué)研究,2021,5(03):70-77+114.

    [8]呂燁鑫. 基于Android惡意行為分析的移動(dòng)終端取證研究[D].哈爾濱工程大學(xué),2017.

    [9]甘秋云.基于TF-IDF向量空間模型文本相似度算法的分析[J].池州學(xué)院學(xué)報(bào),2018,32(03):41-43.

    [10]Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the thiry-fourth annual ACM symposium on Theory of computing. 2002: 380-388.

    [11]張?jiān)?海量Android應(yīng)用相似性檢測(cè)方法研究[D].湘潭大學(xué),2017.

    TP391.1

    A

    1673-2219(2021)05-0051-04

    2021-05-26

    永州市科技計(jì)劃項(xiàng)目資助(永科發(fā)[2014]17號(hào));湖南省教育廳科學(xué)研究重點(diǎn)項(xiàng)目資助(20A212);湖南科技學(xué)院應(yīng)用特色學(xué)科建設(shè)項(xiàng)目資助。

    張晨陽(yáng)(1998-),男,河南駐馬店人,湖南科技學(xué)院2017級(jí)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)本科學(xué)生,研究方向?yàn)槿罩痉治觯?/p>

    段國(guó)云(1982-),男,湖南永州人,博士生,副教授,研究方向?yàn)橄到y(tǒng)安全、隱私保護(hù)。

    (責(zé)任編校:文春生)

    猜你喜歡
    查重分詞文檔
    有人一聲不吭向你扔了個(gè)文檔
    學(xué)位論文查重亂象引關(guān)注
    論文查重雜談
    結(jié)巴分詞在詞云中的應(yīng)用
    學(xué)術(shù)論文該“查”什么?
    雜文月刊(2018年20期)2018-11-14 21:28:46
    學(xué)術(shù)論文該“查”什么?
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    值得重視的分詞的特殊用法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    观看免费一级毛片| 欧美一级a爱片免费观看看| 国产精品爽爽va在线观看网站| 亚洲激情五月婷婷啪啪| 亚洲精华国产精华液的使用体验| 精品99又大又爽又粗少妇毛片| 2021少妇久久久久久久久久久| 午夜亚洲福利在线播放| 国产av不卡久久| 亚洲精品成人久久久久久| 国产白丝娇喘喷水9色精品| av在线老鸭窝| 免费看av在线观看网站| 亚洲精品国产av成人精品| 最近视频中文字幕2019在线8| 七月丁香在线播放| 精品人妻视频免费看| 91久久精品电影网| 中文资源天堂在线| av在线老鸭窝| 国产精品麻豆人妻色哟哟久久 | 精品久久国产蜜桃| 国产不卡一卡二| 欧美三级亚洲精品| 欧美日韩国产亚洲二区| 久久久久国产网址| 成人高潮视频无遮挡免费网站| 欧美日韩国产亚洲二区| 日本一本二区三区精品| 中文字幕亚洲精品专区| 99热这里只有是精品在线观看| 能在线免费观看的黄片| 18禁裸乳无遮挡免费网站照片| 亚洲av电影在线观看一区二区三区 | 日本免费在线观看一区| 国产精品1区2区在线观看.| 日韩,欧美,国产一区二区三区 | 一级毛片久久久久久久久女| 精品午夜福利在线看| 欧美日韩在线观看h| 97人妻精品一区二区三区麻豆| 哪个播放器可以免费观看大片| av在线观看视频网站免费| 亚洲精品日韩在线中文字幕| 亚洲成色77777| 岛国毛片在线播放| 尾随美女入室| 国产又色又爽无遮挡免| 18+在线观看网站| 成人综合一区亚洲| 亚洲丝袜综合中文字幕| 青春草国产在线视频| 亚洲,欧美,日韩| 国产精品伦人一区二区| 大香蕉97超碰在线| 午夜爱爱视频在线播放| 亚洲国产精品成人久久小说| 91在线精品国自产拍蜜月| 一级毛片久久久久久久久女| 我要搜黄色片| 校园人妻丝袜中文字幕| 国产黄片视频在线免费观看| 综合色丁香网| 精品久久久久久久久av| 精品久久久久久电影网 | 女的被弄到高潮叫床怎么办| 久久精品熟女亚洲av麻豆精品 | 亚洲av不卡在线观看| 亚洲国产成人一精品久久久| 中文字幕制服av| 高清毛片免费看| 丝袜喷水一区| 久久久久久久久久久丰满| 国产91av在线免费观看| 直男gayav资源| 啦啦啦啦在线视频资源| 久久人人爽人人片av| 非洲黑人性xxxx精品又粗又长| 欧美成人免费av一区二区三区| 亚洲av电影不卡..在线观看| 免费看日本二区| 亚洲av不卡在线观看| 欧美成人午夜免费资源| 女的被弄到高潮叫床怎么办| 亚洲图色成人| 亚洲天堂国产精品一区在线| 天堂影院成人在线观看| 99久久人妻综合| 狂野欧美白嫩少妇大欣赏| 国产精品人妻久久久影院| 精品久久国产蜜桃| 最近视频中文字幕2019在线8| 国产黄片视频在线免费观看| 亚洲高清免费不卡视频| 春色校园在线视频观看| 男插女下体视频免费在线播放| 老司机影院成人| 久久久国产成人免费| 国产真实乱freesex| 国产精品熟女久久久久浪| 亚洲成人久久爱视频| 18禁动态无遮挡网站| 麻豆av噜噜一区二区三区| 久久99热这里只频精品6学生 | 老司机影院成人| 国产淫片久久久久久久久| 久99久视频精品免费| 三级国产精品片| 中文字幕制服av| 天堂影院成人在线观看| 精品国内亚洲2022精品成人| 国产精品.久久久| 久久鲁丝午夜福利片| 九九在线视频观看精品| 夜夜看夜夜爽夜夜摸| 天天躁夜夜躁狠狠久久av| 久久久久久九九精品二区国产| av.在线天堂| 欧美日韩一区二区视频在线观看视频在线 | 国产高清三级在线| 欧美日本视频| 黄色日韩在线| 国内精品美女久久久久久| 久久99蜜桃精品久久| 婷婷色综合大香蕉| 99久久中文字幕三级久久日本| 国产av不卡久久| 亚洲精品国产成人久久av| 天美传媒精品一区二区| 99久久无色码亚洲精品果冻| 99久久精品国产国产毛片| 成人av在线播放网站| 欧美另类亚洲清纯唯美| 欧美极品一区二区三区四区| 久久99热6这里只有精品| 国产v大片淫在线免费观看| 十八禁国产超污无遮挡网站| 国产精品久久久久久精品电影小说 | 久久婷婷人人爽人人干人人爱| 日韩强制内射视频| 亚洲国产欧美人成| 国语对白做爰xxxⅹ性视频网站| 免费观看的影片在线观看| 久久精品久久久久久久性| 美女被艹到高潮喷水动态| 日本黄大片高清| 国产精品av视频在线免费观看| 18禁裸乳无遮挡免费网站照片| 最近手机中文字幕大全| 色尼玛亚洲综合影院| 国产午夜精品论理片| 亚洲真实伦在线观看| 亚洲欧洲日产国产| 听说在线观看完整版免费高清| 日本一二三区视频观看| 精品99又大又爽又粗少妇毛片| 特级一级黄色大片| 欧美一区二区精品小视频在线| 久久精品影院6| 春色校园在线视频观看| 99久国产av精品| 看片在线看免费视频| 日本黄色视频三级网站网址| 免费播放大片免费观看视频在线观看 | 蜜臀久久99精品久久宅男| 国产成年人精品一区二区| 欧美zozozo另类| 久久99热6这里只有精品| 成人一区二区视频在线观看| 免费av不卡在线播放| 五月伊人婷婷丁香| 听说在线观看完整版免费高清| 99在线视频只有这里精品首页| 亚洲欧美精品综合久久99| 久久精品熟女亚洲av麻豆精品 | 色5月婷婷丁香| 永久免费av网站大全| 国产一区二区亚洲精品在线观看| 欧美极品一区二区三区四区| 日本黄色视频三级网站网址| 七月丁香在线播放| 美女内射精品一级片tv| av女优亚洲男人天堂| av在线老鸭窝| 欧美+日韩+精品| 只有这里有精品99| 99九九线精品视频在线观看视频| 丝袜喷水一区| eeuss影院久久| 国产亚洲精品久久久com| 欧美日本视频| 又粗又硬又长又爽又黄的视频| 女人被狂操c到高潮| 熟女电影av网| 欧美zozozo另类| 亚洲三级黄色毛片| 婷婷六月久久综合丁香| 亚洲成人久久爱视频| 亚洲国产精品合色在线| or卡值多少钱| 久久精品国产鲁丝片午夜精品| 日韩一本色道免费dvd| 91久久精品国产一区二区成人| 一级爰片在线观看| 亚洲av成人精品一二三区| 国产片特级美女逼逼视频| 久久久久久久久久成人| 亚洲欧洲日产国产| 久久人妻av系列| 蜜臀久久99精品久久宅男| 欧美xxxx黑人xx丫x性爽| 国产伦精品一区二区三区四那| 免费观看a级毛片全部| 精品欧美国产一区二区三| 搞女人的毛片| 国产av不卡久久| 女的被弄到高潮叫床怎么办| 边亲边吃奶的免费视频| videossex国产| 赤兔流量卡办理| 色综合亚洲欧美另类图片| 非洲黑人性xxxx精品又粗又长| 在线观看66精品国产| 成人特级av手机在线观看| 亚洲精品乱码久久久v下载方式| 天天躁夜夜躁狠狠久久av| 性插视频无遮挡在线免费观看| 99久久精品一区二区三区| 成人国产麻豆网| 热99re8久久精品国产| 亚洲成人av在线免费| 淫秽高清视频在线观看| 久久久精品大字幕| 日韩制服骚丝袜av| 老司机福利观看| 日本免费一区二区三区高清不卡| 国模一区二区三区四区视频| 国产精品不卡视频一区二区| 中文精品一卡2卡3卡4更新| 亚洲欧美精品综合久久99| 一区二区三区高清视频在线| 国产亚洲av嫩草精品影院| 国产亚洲精品av在线| 久久久久久伊人网av| 久久精品夜色国产| 日本黄大片高清| 国产免费视频播放在线视频 | 日韩一本色道免费dvd| videossex国产| 亚洲无线观看免费| 国产精品,欧美在线| 国产一级毛片在线| av在线蜜桃| 欧美激情在线99| 午夜视频国产福利| 免费av毛片视频| 国产精品国产三级国产专区5o | 国产视频内射| 欧美三级亚洲精品| 一夜夜www| 可以在线观看毛片的网站| 亚洲伊人久久精品综合 | 午夜福利高清视频| videossex国产| 特级一级黄色大片| 国产成人福利小说| 尤物成人国产欧美一区二区三区| 自拍偷自拍亚洲精品老妇| 欧美色视频一区免费| 国语自产精品视频在线第100页| 最近视频中文字幕2019在线8| 亚洲在线自拍视频| 男女下面进入的视频免费午夜| 免费在线观看成人毛片| 午夜福利在线观看免费完整高清在| 狠狠狠狠99中文字幕| 国产伦精品一区二区三区四那| 亚洲av.av天堂| 如何舔出高潮| 日日啪夜夜撸| 禁无遮挡网站| 少妇高潮的动态图| 长腿黑丝高跟| 51国产日韩欧美| 国产伦一二天堂av在线观看| 哪个播放器可以免费观看大片| 免费观看性生交大片5| 欧美极品一区二区三区四区| 成年版毛片免费区| 精品一区二区免费观看| 免费观看的影片在线观看| 亚洲av成人精品一区久久| 国产亚洲精品久久久com| 联通29元200g的流量卡| 欧美区成人在线视频| 成人国产麻豆网| av视频在线观看入口| 色尼玛亚洲综合影院| 国产精品一区二区三区四区免费观看| 只有这里有精品99| 亚洲国产欧美人成| 国产人妻一区二区三区在| 最近最新中文字幕大全电影3| 亚洲经典国产精华液单| 草草在线视频免费看| 成人午夜高清在线视频| 欧美3d第一页| 赤兔流量卡办理| 亚洲精品久久久久久婷婷小说 | 国模一区二区三区四区视频| 在线免费观看不下载黄p国产| 午夜视频国产福利| 色综合色国产| 最近最新中文字幕免费大全7| 国产精品熟女久久久久浪| 国产精品人妻久久久久久| av免费观看日本| 日韩欧美精品免费久久| 少妇的逼水好多| 欧美日韩在线观看h| 久久国内精品自在自线图片| 赤兔流量卡办理| 黄片无遮挡物在线观看| 精品久久久久久久末码| 成人综合一区亚洲| 2021天堂中文幕一二区在线观| 成人无遮挡网站| 国产淫语在线视频| 亚洲精品久久久久久婷婷小说 | 麻豆精品久久久久久蜜桃| 成人高潮视频无遮挡免费网站| 亚洲精品日韩在线中文字幕| 久久6这里有精品| 又爽又黄a免费视频| 欧美又色又爽又黄视频| 日韩av在线大香蕉| 午夜久久久久精精品| 日本免费一区二区三区高清不卡| 视频中文字幕在线观看| 久久精品国产鲁丝片午夜精品| 亚洲精品aⅴ在线观看| 一级毛片久久久久久久久女| 高清在线视频一区二区三区 | 久久99精品国语久久久| 综合色丁香网| 国产乱人偷精品视频| 天天躁夜夜躁狠狠久久av| 国产精品久久久久久av不卡| 欧美激情久久久久久爽电影| 狠狠狠狠99中文字幕| 日韩国内少妇激情av| 在线观看美女被高潮喷水网站| 欧美日本视频| 激情 狠狠 欧美| 天堂av国产一区二区熟女人妻| 国产黄a三级三级三级人| 国产一区有黄有色的免费视频 | 国产视频首页在线观看| 国产在线男女| 成人特级av手机在线观看| 看片在线看免费视频| 国产一区二区亚洲精品在线观看| 免费人成在线观看视频色| av又黄又爽大尺度在线免费看 | 精品国产三级普通话版| 特大巨黑吊av在线直播| 91av网一区二区| 国产v大片淫在线免费观看| 亚洲成人精品中文字幕电影| 青春草国产在线视频| 久久99精品国语久久久| 韩国高清视频一区二区三区| 日本与韩国留学比较| 麻豆乱淫一区二区| 国产极品天堂在线| 中文字幕精品亚洲无线码一区| 日韩精品青青久久久久久| 国产美女午夜福利| 男的添女的下面高潮视频| 水蜜桃什么品种好| 亚洲精品自拍成人| 最近的中文字幕免费完整| 久久热精品热| 久久精品夜色国产| 欧美又色又爽又黄视频| a级毛色黄片| 国产精品福利在线免费观看| 超碰97精品在线观看| 国产精品无大码| 免费看日本二区| 3wmmmm亚洲av在线观看| 免费黄网站久久成人精品| 日韩制服骚丝袜av| videos熟女内射| 色吧在线观看| 十八禁国产超污无遮挡网站| 亚洲18禁久久av| 可以在线观看毛片的网站| 成年女人永久免费观看视频| 国产成人午夜福利电影在线观看| 欧美性感艳星| 亚洲最大成人中文| 丝袜美腿在线中文| av天堂中文字幕网| 一级毛片我不卡| 日本-黄色视频高清免费观看| 日本欧美国产在线视频| 精品一区二区三区人妻视频| 乱系列少妇在线播放| 亚洲精品日韩在线中文字幕| 建设人人有责人人尽责人人享有的 | 久久久久久国产a免费观看| 国产激情偷乱视频一区二区| a级毛片免费高清观看在线播放| 国产亚洲精品av在线| 深爱激情五月婷婷| 亚洲最大成人中文| 六月丁香七月| 国产老妇女一区| 美女cb高潮喷水在线观看| 成人毛片60女人毛片免费| 最近2019中文字幕mv第一页| 久久久午夜欧美精品| 麻豆av噜噜一区二区三区| 久久99蜜桃精品久久| 亚洲av不卡在线观看| 精品一区二区免费观看| 一级爰片在线观看| 欧美一区二区国产精品久久精品| av在线亚洲专区| 女人十人毛片免费观看3o分钟| 久久鲁丝午夜福利片| 嫩草影院入口| 国产午夜福利久久久久久| 能在线免费观看的黄片| 亚洲欧美精品自产自拍| 亚洲婷婷狠狠爱综合网| 一个人看的www免费观看视频| 亚洲精品国产av成人精品| 纵有疾风起免费观看全集完整版 | 亚洲欧美一区二区三区国产| 日韩一区二区三区影片| 人妻夜夜爽99麻豆av| 在线免费观看不下载黄p国产| 国产午夜精品久久久久久一区二区三区| 国产精品蜜桃在线观看| 国产精品久久久久久精品电影| 一级爰片在线观看| 激情 狠狠 欧美| 亚洲最大成人中文| 亚洲精品国产av成人精品| 中文天堂在线官网| 国产单亲对白刺激| 九九久久精品国产亚洲av麻豆| 级片在线观看| 97在线视频观看| 国产伦一二天堂av在线观看| 18禁在线无遮挡免费观看视频| 你懂的网址亚洲精品在线观看 | 亚洲乱码一区二区免费版| 嘟嘟电影网在线观看| 亚洲国产精品专区欧美| 亚洲丝袜综合中文字幕| 日韩成人av中文字幕在线观看| 伦理电影大哥的女人| 一区二区三区乱码不卡18| 91久久精品电影网| 国产一级毛片在线| 美女黄网站色视频| 18+在线观看网站| 亚洲av熟女| av.在线天堂| 在线免费观看不下载黄p国产| 哪个播放器可以免费观看大片| 精品久久久久久久久久久久久| 亚洲国产欧洲综合997久久,| 国产午夜精品论理片| 毛片一级片免费看久久久久| 亚洲精品aⅴ在线观看| 日本黄色片子视频| 久久久久久伊人网av| 可以在线观看毛片的网站| 少妇裸体淫交视频免费看高清| 国产精品.久久久| 午夜精品在线福利| 黄片无遮挡物在线观看| 亚洲天堂国产精品一区在线| 国产精品日韩av在线免费观看| 搞女人的毛片| 免费观看的影片在线观看| 亚洲av中文av极速乱| 久久久久久久国产电影| 亚洲av成人av| 免费一级毛片在线播放高清视频| 久久精品影院6| 中文字幕久久专区| 精品久久久久久久久av| 久久久精品欧美日韩精品| 真实男女啪啪啪动态图| 五月玫瑰六月丁香| 99久久精品一区二区三区| 我要看日韩黄色一级片| 欧美日韩国产亚洲二区| 久久综合国产亚洲精品| 国产精品99久久久久久久久| 成人午夜高清在线视频| 三级经典国产精品| 春色校园在线视频观看| 成人毛片60女人毛片免费| 简卡轻食公司| 久久久亚洲精品成人影院| 国产片特级美女逼逼视频| ponron亚洲| 精品人妻熟女av久视频| 日韩av在线免费看完整版不卡| 麻豆av噜噜一区二区三区| 少妇丰满av| 亚洲精品一区蜜桃| 中文精品一卡2卡3卡4更新| 啦啦啦观看免费观看视频高清| 变态另类丝袜制服| 中文字幕av在线有码专区| 国产精品爽爽va在线观看网站| 99久久精品一区二区三区| 国产精品精品国产色婷婷| 麻豆成人av视频| 亚洲av熟女| .国产精品久久| 久久久色成人| 午夜福利高清视频| 亚洲人与动物交配视频| 亚洲成人精品中文字幕电影| 99热这里只有精品一区| 久久99热这里只有精品18| 国产在视频线在精品| 精品久久久久久电影网 | 精品国产露脸久久av麻豆 | 欧美zozozo另类| 亚洲成色77777| 免费看美女性在线毛片视频| 日韩成人伦理影院| 成人午夜高清在线视频| 人人妻人人澡人人爽人人夜夜 | 久久久久久久午夜电影| 秋霞伦理黄片| 一级毛片电影观看 | 国产精品国产三级专区第一集| 日本黄色片子视频| 免费观看a级毛片全部| 欧美成人午夜免费资源| 亚洲av.av天堂| 国产色婷婷99| 国产亚洲午夜精品一区二区久久 | 国产亚洲av嫩草精品影院| 国产免费一级a男人的天堂| 最近的中文字幕免费完整| 2021天堂中文幕一二区在线观| 国产精品久久久久久久久免| 国产精品av视频在线免费观看| 直男gayav资源| 亚洲精品色激情综合| 啦啦啦观看免费观看视频高清| 国产一区二区亚洲精品在线观看| 久久亚洲国产成人精品v| 天美传媒精品一区二区| 国产黄片美女视频| 美女cb高潮喷水在线观看| 久久久久久九九精品二区国产| 久久99热6这里只有精品| 看非洲黑人一级黄片| 高清毛片免费看| 亚洲精品色激情综合| 国产在线男女| 1000部很黄的大片| 毛片一级片免费看久久久久| 熟女电影av网| 免费在线观看成人毛片| 五月伊人婷婷丁香| 日韩欧美国产在线观看| 国产成人精品婷婷| 亚洲成av人片在线播放无| 免费大片18禁| 大香蕉久久网| 午夜免费激情av| 22中文网久久字幕| 欧美3d第一页| 菩萨蛮人人尽说江南好唐韦庄 | 久久鲁丝午夜福利片| 一边摸一边抽搐一进一小说| 寂寞人妻少妇视频99o| 精品人妻熟女av久视频| 国产精品无大码| 99久久成人亚洲精品观看| 亚洲伊人久久精品综合 | 黄色配什么色好看| 最近手机中文字幕大全| 久久精品人妻少妇| 极品教师在线视频| 在线免费观看的www视频| 久久久久久久久中文| 女人十人毛片免费观看3o分钟| 国产熟女欧美一区二区| 人妻少妇偷人精品九色| 精品国产三级普通话版| av在线亚洲专区| 国产真实乱freesex| 亚洲av男天堂| 熟妇人妻久久中文字幕3abv| 乱系列少妇在线播放| 亚洲一级一片aⅴ在线观看| 人妻制服诱惑在线中文字幕| 久久人人爽人人片av| 亚洲av福利一区| 久久久久久久久久久免费av| 人妻系列 视频|