張晨陽(yáng) 段國(guó)云 文春生
基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
張晨陽(yáng)a段國(guó)云b文春生a
(湖南科技學(xué)院 a.信息工程學(xué)院;b.信息與網(wǎng)絡(luò)中心,湖南 永州 425199)
為解決文本數(shù)據(jù)的個(gè)性化查重問(wèn)題,提出基于Simhash算法的文本查重的方法,設(shè)計(jì)并實(shí)現(xiàn)了系統(tǒng)原型。首先,闡述了文本相似度模型和計(jì)算算法;其次,根據(jù)需求規(guī)劃設(shè)計(jì)了系統(tǒng)整體實(shí)現(xiàn)架構(gòu)并詳細(xì)描述其設(shè)計(jì)過(guò)程;再次,描述了查重算法和查重功能模塊實(shí)現(xiàn)的詳細(xì)流程;最后,對(duì)系統(tǒng)原型進(jìn)行功能測(cè)試和算法相似度計(jì)算準(zhǔn)確性測(cè)試。實(shí)驗(yàn)證明:在小規(guī)模文本文檔樣本中,系統(tǒng)能較好的實(shí)現(xiàn)文本相似度的計(jì)算和特征庫(kù)的個(gè)性化定制,可集成并適用于小規(guī)模企業(yè)辦公系統(tǒng)等平臺(tái)的文本相似性查重環(huán)境。
Simhash算法;文本相似度;余弦相似度;文本查重;Flask框架
隨著互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的高速發(fā)展,用戶正在從數(shù)據(jù)的接受者向數(shù)據(jù)的制造者轉(zhuǎn)變,遠(yuǎn)端數(shù)據(jù)存儲(chǔ)容量呈爆炸式增長(zhǎng)[1]。用戶利用網(wǎng)絡(luò)可在個(gè)人云盤(pán)、企業(yè)網(wǎng)盤(pán)、社交網(wǎng)等平臺(tái)上發(fā)布視頻、上傳文檔和圖片等資料,用戶在為互聯(lián)網(wǎng)做出貢獻(xiàn)的同時(shí)也制造了大量的冗余數(shù)據(jù)。相關(guān)研究表明,當(dāng)前一些存儲(chǔ)系統(tǒng)中的數(shù)據(jù)冗余量已達(dá)到60%[2],且呈現(xiàn)上升趨勢(shì)。如何對(duì)文本進(jìn)行原創(chuàng)性檢測(cè)、對(duì)文本中內(nèi)容進(jìn)行相似度對(duì)比檢測(cè),成為文本檢測(cè)領(lǐng)域亟需解決的重要問(wèn)題。
近年來(lái),研究者在文本檢測(cè)領(lǐng)域取得了大量的研究成果,突出成果在工業(yè)界得到了應(yīng)用和推廣。其中Simhash算法成為近似文本檢測(cè)領(lǐng)域的主流方法之一,文獻(xiàn)[3]針對(duì)Simhash算法中近似文本指紋位數(shù)單一而丟失一定信息量的缺點(diǎn),提出了基于多Simhash指紋和K維超曲面的近似文本檢測(cè)方法。文獻(xiàn)[4]從提升Simhash算法去重效果、提高準(zhǔn)確率的角度出發(fā),提出了基于信息熵加權(quán)的改正算法E-Simhash。文獻(xiàn)[5]基于LDA(Latent Dirichlet Allocation,狄利克雷分布)和Doc2Vec模型提出HybridDL文本相似度檢測(cè)算法,以便提高文本檢測(cè)的準(zhǔn)確度。文本查重算法被廣泛應(yīng)用于知網(wǎng)、百度網(wǎng)盤(pán)、阿里云盤(pán)等大型平臺(tái)并融入到文本檢測(cè)產(chǎn)品中。文本相似度檢測(cè)技術(shù)雖然應(yīng)用廣泛,但市場(chǎng)上沒(méi)有出現(xiàn)針對(duì)有保密要求、個(gè)人文檔對(duì)比需求等特殊場(chǎng)景的文本檢測(cè)工具。本文設(shè)計(jì)一款基于Simhash算法的文本相似度檢測(cè)系統(tǒng),該系統(tǒng)可以個(gè)性化定制內(nèi)部文本查重庫(kù),以解決企業(yè)文件、原創(chuàng)性文檔等特殊場(chǎng)景下用戶文本檢測(cè)的問(wèn)題。
判斷兩個(gè)文本內(nèi)容是否重合其實(shí)質(zhì)是對(duì)兩個(gè)文本的相似性進(jìn)行計(jì)算[6]。相似度為0則表明對(duì)比的兩個(gè)文本完全不同,相似度為1則說(shuō)明兩個(gè)文本內(nèi)容完全相同,其相似程度取值在[0,1]之間,通常采用百分率表示。如有文本文件M和參照文檔N,其內(nèi)容相似性定義為M、N之間相匹配元素變量的個(gè)數(shù)之和與M中所有元素個(gè)數(shù)的絕對(duì)比值,而Sim用于性能衡量,Sim越趨近于1說(shuō)明兩個(gè)文件越相似,sim越趨近于0則兩個(gè)文本相似度極低。設(shè)向量集合是文件的元素集合,向量集合是文件的元素集合,是文件和元素集合之間匹配后的交集,文本文件的相似度模型如圖1所示。
圖1 文本相似度模型
1)余弦相似度原理
余弦相似度是通過(guò)比較兩個(gè)向量?jī)?nèi)積空間夾角余弦值的大小來(lái)對(duì)他們之間的相似度進(jìn)行比較。當(dāng)兩個(gè)向量完全重合且方向相同時(shí)夾角余弦值為0,兩個(gè)向量指向相反時(shí)其余弦相似度值為-1,余弦值的取值范圍為[-1,1],其值的大小與向量指向的方向有關(guān),而與向量長(zhǎng)度無(wú)關(guān)[7-8]。但對(duì)文本而言,在比較過(guò)程中只考慮向量的方向而不考慮其規(guī)模的大小。向量夾角的取值通常小于90°,由此得知取值范圍是[0,1]。因此,它可以用于任何維度向量的比較中,尤其在高維度向量空間的比較中應(yīng)用更為廣泛。當(dāng)進(jìn)行信息檢索時(shí),每個(gè)詞條都擁有不同的權(quán)重,每一個(gè)文檔由一個(gè)擁有權(quán)值的特征向量來(lái)表示,權(quán)值的大小取決于該詞在文本中出現(xiàn)的頻次大小,通過(guò)計(jì)算余弦相似度就可以給出兩個(gè)文本在其內(nèi)容上的相似度。
2)TF-IDF權(quán)重計(jì)算
通過(guò)IDF值的計(jì)算,可做到少數(shù)罕見(jiàn)單詞的值比較高,多數(shù)低頻單詞的值比較低。然后通過(guò)TF-IDF的計(jì)算公式TF-IDF = TF * IDF進(jìn)行計(jì)算,對(duì)文檔向量化后的每個(gè)詞項(xiàng)分配一個(gè)權(quán)重,若不含這個(gè)詞則權(quán)重值為0。
3)余弦相似度計(jì)算
基于余弦相似度計(jì)算的原理,文中將每個(gè)已經(jīng)分好詞和去停用字的文本進(jìn)行文本向量化,分別記為向量D1和向量D2,并且將文本中每個(gè)詞項(xiàng)的權(quán)重進(jìn)行精確計(jì)算,由于每個(gè)文本的向量維度相同,因而比較這兩個(gè)文檔的相似性就是通過(guò)計(jì)算這兩個(gè)詞項(xiàng)向量之間夾角的 cos值來(lái)進(jìn)行判斷。相似度值的計(jì)算方法如公式(2)所示:
公式中分母代表的是每篇文檔經(jīng)TF處理后的向量模的乘積,分子代表的是經(jīng)比較文檔中TF后的兩個(gè)向量的乘積,如果兩個(gè)向量夾角的余弦值越趨向于1,則說(shuō)明兩個(gè)文檔的相似度越高,反之越低。
本節(jié)以文本文件對(duì)比查重的性能優(yōu)化為需求展開(kāi)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)工作。設(shè)計(jì)初期充分調(diào)研現(xiàn)有的查重系統(tǒng),分析其使用過(guò)程中所出現(xiàn)的問(wèn)題,分析影響系統(tǒng)性能所面臨的問(wèn)題,結(jié)合優(yōu)化設(shè)計(jì)目標(biāo)按問(wèn)題類型對(duì)其進(jìn)行細(xì)分,帶著提高系統(tǒng)性能的目標(biāo)進(jìn)行文本查重系統(tǒng)的設(shè)計(jì)。影響系統(tǒng)性能的要素有很多,在此選擇提高結(jié)果精度和計(jì)算速度為設(shè)計(jì)目標(biāo),研究解決影響因素以提高系統(tǒng)的整體性能。系統(tǒng)性能優(yōu)化設(shè)計(jì)出發(fā)點(diǎn)在于提高結(jié)果精確度和計(jì)算速度,結(jié)果精度將從文本查重的匹配度和相似度算法兩個(gè)角度展開(kāi)研究,計(jì)算速度將從文本的相似度算法的時(shí)間復(fù)雜度、返回文本數(shù)的設(shè)置和文本檢索速度三個(gè)方面下手以提高整體性能。系統(tǒng)性能需求分析要點(diǎn)如圖2所示:
圖2 系統(tǒng)性能需求分析
文中系統(tǒng)采用B/S(Browser/Server,瀏覽器/服務(wù)器)結(jié)構(gòu)進(jìn)行設(shè)計(jì),由用戶端和管理端兩個(gè)部分組成,以數(shù)據(jù)庫(kù)為樞紐完成用戶端和管理端數(shù)據(jù)的交互,設(shè)計(jì)兩級(jí)權(quán)限管理體系實(shí)現(xiàn)不同用戶、不同層級(jí)權(quán)限針對(duì)不同操作模塊的精細(xì)化授權(quán)。普通用戶端和管理端兩個(gè)部分所設(shè)計(jì)的功能不同,用戶端設(shè)計(jì)注冊(cè)、登錄、文本上傳、查重和報(bào)告管理五個(gè)二級(jí)模塊;管理端設(shè)計(jì)對(duì)比庫(kù)管理、用戶管理、文本庫(kù)上傳、統(tǒng)計(jì)分析、報(bào)告模板管理和系統(tǒng)管理六個(gè)模塊;相似度和權(quán)重計(jì)算算法單獨(dú)設(shè)計(jì)模塊供查重模塊調(diào)度使用;為方便管理,文本特征庫(kù)通過(guò)管理端授權(quán)獨(dú)立管理;系統(tǒng)數(shù)據(jù)的傳輸加密、存儲(chǔ)加密由安全檢測(cè)模塊負(fù)責(zé)。系統(tǒng)功能模塊劃分及整體架構(gòu)如圖3所示:
圖3 系統(tǒng)功能整體架構(gòu)
普通用戶在用戶端經(jīng)注冊(cè)并審核通過(guò)后可登錄系統(tǒng),通過(guò)權(quán)限認(rèn)證、系統(tǒng)裝載后進(jìn)入用戶主界面進(jìn)行權(quán)限內(nèi)功能模塊的操作,可上傳查重目標(biāo)文件、選擇查重參照文本庫(kù)后進(jìn)行相似度計(jì)算,系統(tǒng)調(diào)用用戶組指定的模板進(jìn)行對(duì)比數(shù)據(jù)填充形成相似度檢測(cè)報(bào)告,用戶在報(bào)告管理模塊對(duì)查重報(bào)告進(jìn)行刪除、管理并下載使用。管理員權(quán)限分超級(jí)管理員、審計(jì)管理員和普通管理員,超級(jí)管理員之外的管理用戶ID均通過(guò)初始化超級(jí)管理員后進(jìn)行分配,超級(jí)管理員可定制其他管理員的功能權(quán)限。管理員登錄后,可以對(duì)文本特征庫(kù)、查重報(bào)告模板進(jìn)行增加、刪除、修改、查詢操作,可以針對(duì)某一特殊需求創(chuàng)建某一類型的文本特征庫(kù),文本特征可線下編輯并上傳到新創(chuàng)建的特征文本庫(kù)中以便系統(tǒng)對(duì)其進(jìn)行初始化操作。
采用余弦相似度算法對(duì)查重模塊進(jìn)行設(shè)計(jì),工作時(shí)調(diào)用相似度算法和權(quán)重算法模塊,其中Simhash算法的設(shè)計(jì)由文本分詞、Hash計(jì)算、加權(quán)賦值、向量合并、降維五個(gè)步驟組成。首先,對(duì)于目標(biāo)文檔中的文本語(yǔ)句按選定對(duì)比庫(kù)的特征進(jìn)行分詞,按1-5級(jí)劃分得到其中有效的特征向量等級(jí);如果特征向量是文本中的詞且其值落在等級(jí)范圍之內(nèi),那向量值就代表這個(gè)特征向量出現(xiàn)的次數(shù),詞的權(quán)重值與向量值相等。其次,通過(guò)Hash函數(shù)把文本中每個(gè)特征向量的Hash值計(jì)算出來(lái),其中Hash值由0和1組成。再次,給擁有Hash值的特征向量進(jìn)行加權(quán),加權(quán)的計(jì)算方法為W=Hash*Weight,當(dāng)遇到Hash值為1時(shí),向量與權(quán)值正相乘,反之則與權(quán)值負(fù)相乘。然后,合并累加單個(gè)文本中所有特征向量的加權(quán)結(jié)果,形成一個(gè)序列串。最后,我們可以對(duì)權(quán)值進(jìn)行降維,如果合并的累加結(jié)果大于0則置為1,反之置為0,從而可以得出文檔文本的Simhash值。由此,根據(jù)文檔中不同文本之間的海明距離(Hamming Distance)計(jì)算得到其相似度。
文中所設(shè)計(jì)的系統(tǒng)采用Python語(yǔ)言結(jié)合Flask框架和MongoDB數(shù)據(jù)庫(kù)實(shí)現(xiàn)系統(tǒng)的開(kāi)發(fā),如下詳細(xì)介紹相似度查重算法、用戶查重流程兩個(gè)關(guān)鍵功能的實(shí)現(xiàn)過(guò)程。
文本相似度主要采用Simhash算法、分詞算法并結(jié)合海明距離計(jì)算進(jìn)行實(shí)現(xiàn)。Simhash算法的主要思想是降維[10],將高維的特征向量映射成一個(gè)f-bit的指紋,通過(guò)比較兩個(gè)文本f-bit指紋的海明距離來(lái)確定內(nèi)容是否重復(fù)并計(jì)算出兩者的相似度值。具體計(jì)算過(guò)程分為五步[11]:
1)基于傳統(tǒng)的IR方法,將分詞后的文本數(shù)據(jù)轉(zhuǎn)換為由加權(quán)特征值構(gòu)成的向量組。
2)初始化一個(gè)多維(定義為維)向量,其中每維的初始值為0。
3)針對(duì)文本特征向量集中的單個(gè)特征做簽名計(jì)算。計(jì)算思路是將傳統(tǒng)的Hash算法映射到一個(gè)f-bit的簽名,如果簽名的第維上為1,則對(duì)向量V中第維加上這個(gè)特征的權(quán)值,否則對(duì)向量的第i維減去該特征的權(quán)值。
4)對(duì)整個(gè)特征向量集合進(jìn)行-bit迭代計(jì)算,由中每維向量符號(hào)確定生成-bit指紋值,如果第維為正數(shù),則第維指紋為1,否則為0。
5)計(jì)算海明距離。通過(guò)將文本向量化后,如得到10101和00110兩個(gè)比特?cái)?shù),通過(guò)海明距離計(jì)算算法對(duì)兩個(gè)比特串進(jìn)行計(jì)算得到其值為3。
通過(guò)上述五個(gè)步驟,由相似度查重算法模塊計(jì)算文本之間的相似度,其實(shí)現(xiàn)過(guò)程中關(guān)鍵函數(shù)的代碼如圖4所示:
圖4 相似度計(jì)算函數(shù)關(guān)鍵代碼
針對(duì)文本分詞進(jìn)行測(cè)試,從0分詞到利用海明距離對(duì)兩個(gè)文本向量進(jìn)行對(duì)比分析,通過(guò)關(guān)鍵代碼進(jìn)行測(cè)試。測(cè)試時(shí)創(chuàng)建3個(gè)txt文檔,第一個(gè)文檔內(nèi)容為“基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”,第二個(gè)文檔內(nèi)容為“基于Selenium的在線文本查重的設(shè)計(jì)與實(shí)現(xiàn)”,第三個(gè)文檔添加前兩個(gè)文檔的全部?jī)?nèi)容,定義前兩個(gè)文檔為測(cè)試文檔,第三個(gè)文檔作為中文停詞庫(kù)。首先定義Simhash算法,利用jieba分詞對(duì)兩個(gè)文檔進(jìn)行分詞操作,接下來(lái)是按照相對(duì)應(yīng)的權(quán)重對(duì)分詞后的詞進(jìn)行分詞操作,然后設(shè)計(jì)文本對(duì)比函數(shù),打開(kāi)第三個(gè)文本,將前兩個(gè)文本與第三個(gè)文本中的分詞進(jìn)行對(duì)比分析,最后可得出兩個(gè)文本的文本相似度。文本查重效果如圖5所示:
圖5 文本查重實(shí)現(xiàn)測(cè)試
文本查重功能的實(shí)現(xiàn)流程是文中系統(tǒng)的核心工作,由文本上傳、特征庫(kù)選擇、查重計(jì)算和報(bào)告生成四個(gè)流程協(xié)調(diào)完成。用戶通過(guò)登錄驗(yàn)證和權(quán)限鑒別后進(jìn)入文本查重功能區(qū),通過(guò)上傳文本文件后選擇特征庫(kù)進(jìn)行查重計(jì)算,通過(guò)調(diào)用相似度和權(quán)重計(jì)算算法完成目標(biāo)文本與特征庫(kù)內(nèi)容相似度值的計(jì)算,最后將計(jì)算結(jié)果存入數(shù)據(jù)庫(kù),調(diào)用報(bào)告模板生成查重報(bào)告。其實(shí)現(xiàn)的流程如圖6所示:
圖6 文本查重實(shí)現(xiàn)流程
文本上傳模塊主要目標(biāo)是為用戶提供文本文件上傳的入口,通過(guò)識(shí)別并轉(zhuǎn)化文本編碼后以指定的編碼格式存入數(shù)據(jù)庫(kù)中;查重時(shí)系統(tǒng)從庫(kù)中讀取與特征庫(kù)相同編碼的被測(cè)文本完成相似度計(jì)算,調(diào)用過(guò)程中如發(fā)現(xiàn)編碼不同需采用轉(zhuǎn)換函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換。查重模塊首先需對(duì)目標(biāo)文本進(jìn)行預(yù)處理,包括對(duì)文本進(jìn)行分詞、加權(quán)、權(quán)值、降維等操作,其次將處理后的目標(biāo)文本內(nèi)容與特征庫(kù)文本逐次進(jìn)行相似度檢驗(yàn),通過(guò)逐次對(duì)比后獲取重復(fù)的部分,最后統(tǒng)計(jì)相似內(nèi)容數(shù)量得出相似度值和相似內(nèi)容后存放于數(shù)據(jù)庫(kù)中,為查重報(bào)告的生成提供依據(jù)。文中系統(tǒng)以查詢時(shí)間生成報(bào)告文件名,管理員根據(jù)特征庫(kù)為用戶配置報(bào)告模板供生成查重報(bào)告使用。
文中開(kāi)發(fā)了系統(tǒng)原型,在實(shí)驗(yàn)室部署了測(cè)試環(huán)境,服務(wù)器硬件為單路Intel(R) Xeon(R) E5-2683 V4 CPU,提供2.1GHz的頻率和32個(gè)線程,配64G ECC內(nèi)核;網(wǎng)絡(luò)環(huán)境采用RG-S2910-24GT4XS-E二層交換機(jī)連接服務(wù)器和測(cè)試筆記本;操作系統(tǒng)是Windows Server 2016,數(shù)據(jù)庫(kù)系統(tǒng)選用MongoDB 4.4.6,采用Python3.7作為解釋器并安裝好所需的依賴包,選用Flask 2.02作為Web服務(wù)框架,在Pycharm中運(yùn)行原型系統(tǒng)提供測(cè)試服務(wù)。
系統(tǒng)主要針對(duì)企業(yè)內(nèi)部文件查重和個(gè)人重復(fù)文本對(duì)比的個(gè)性化需求應(yīng)用場(chǎng)景,實(shí)驗(yàn)過(guò)程中沒(méi)有知網(wǎng)、萬(wàn)方、Paperyy等論文查重平臺(tái)對(duì)比特征庫(kù),無(wú)法完成此類大型平臺(tái)的對(duì)比。本文通過(guò)上傳50篇技術(shù)文檔構(gòu)建一個(gè)文本特征庫(kù),每個(gè)文本文檔限定為1000字50個(gè)句子;再?gòu)?0篇文檔中任意抽1個(gè)、5個(gè)、10個(gè)句子構(gòu)建測(cè)試用例,通過(guò)普通用戶端權(quán)限上傳目標(biāo)文檔并選擇文本特征庫(kù)對(duì)其進(jìn)行測(cè)試。測(cè)試結(jié)果表明文中系統(tǒng)能夠計(jì)算目標(biāo)文檔重復(fù)文字相似率、能按系統(tǒng)設(shè)計(jì)的文字顏色將其中重復(fù)的文字較好地標(biāo)記出來(lái)、能根據(jù)模板和計(jì)算結(jié)果生成查重報(bào)告,實(shí)現(xiàn)了系統(tǒng)設(shè)計(jì)的功能。
性能實(shí)驗(yàn)主要針對(duì)文中系統(tǒng)文本查重相似度計(jì)算的準(zhǔn)確率展開(kāi)測(cè)試,測(cè)試算法在檢測(cè)過(guò)程中分詞、對(duì)比等性能的穩(wěn)定性。實(shí)驗(yàn)中構(gòu)建10個(gè)特征庫(kù)從管理端上傳到系統(tǒng)中,再構(gòu)建10個(gè)目標(biāo)測(cè)試文本文件,目標(biāo)文件從特征庫(kù)文本數(shù)據(jù)中取一定比例的重復(fù)內(nèi)容,比例控制分別與對(duì)應(yīng)測(cè)試庫(kù)的相似率從0%到100%按10%遞增。將測(cè)試目標(biāo)文件從用戶端上傳并選擇對(duì)應(yīng)的特征庫(kù)進(jìn)行測(cè)試,每個(gè)目標(biāo)測(cè)試文件測(cè)5次,取相似度數(shù)據(jù)的平均值后再與制定的重復(fù)比例對(duì)比,計(jì)算測(cè)試的準(zhǔn)確率。測(cè)試結(jié)果表明文中系統(tǒng)能較精確的計(jì)算目標(biāo)文檔重復(fù)文字相似率,算法測(cè)試的平均準(zhǔn)確率在99.7%以上,當(dāng)文本相似度越高時(shí)查重相似率計(jì)算的準(zhǔn)確度越高,反映出相似度算法計(jì)算的穩(wěn)定性。
本文基于Simhash算法開(kāi)發(fā)了可自定義特征庫(kù)的文本查重系統(tǒng)原型。通過(guò)對(duì)被測(cè)目標(biāo)文本進(jìn)行分詞、Hash、加權(quán)、合并、降維等系列操作后,再使用海明距離與特征庫(kù)文本進(jìn)行相似度對(duì)比,完成文本的相似度檢測(cè)。經(jīng)功能和性能實(shí)驗(yàn)測(cè)試,所開(kāi)發(fā)的系統(tǒng)能較好的完成系統(tǒng)的設(shè)計(jì)目標(biāo),算法有較好的穩(wěn)定性。系統(tǒng)適用于個(gè)性化定制需求,可用于文本對(duì)比、日志文本數(shù)據(jù)處理分析等應(yīng)用場(chǎng)景,但離大規(guī)模企業(yè)應(yīng)用還有一定的距離。
[1]Chen T.Analysis of computer data processing mode based on big data era[J]. Agro Food Industry Hi-tech, 2017, 28(1): 828-831.
[2]Clements A T,Ahmad I,Vilayannur M,et al. Decentralized deduplication in SAN cluster file systems[C]// Usenix Technical Conference, 2009.
[3]董博,鄭慶華,宋凱磊,田鋒,馬瑞.基于多SimHash指紋的近似文本檢測(cè)[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(11):2152- 2157.
[4]張航,盛志偉,張仕斌,等. Simhash算法在文本去重中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56(11): 246-251.
[5]肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測(cè)方法[J].電子技術(shù)應(yīng)用,2020,46(06):28-31+35.
[6]王寒茹,張仰森.文本相似度計(jì)算研究進(jìn)展綜述[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,34(01):68-74.
[7]嚴(yán)李強(qiáng),田博,梁煒恒,楊歡歡.藏文文本相似度計(jì)算方法研究[J].高原科學(xué)研究,2021,5(03):70-77+114.
[8]呂燁鑫. 基于Android惡意行為分析的移動(dòng)終端取證研究[D].哈爾濱工程大學(xué),2017.
[9]甘秋云.基于TF-IDF向量空間模型文本相似度算法的分析[J].池州學(xué)院學(xué)報(bào),2018,32(03):41-43.
[10]Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the thiry-fourth annual ACM symposium on Theory of computing. 2002: 380-388.
[11]張?jiān)?海量Android應(yīng)用相似性檢測(cè)方法研究[D].湘潭大學(xué),2017.
TP391.1
A
1673-2219(2021)05-0051-04
2021-05-26
永州市科技計(jì)劃項(xiàng)目資助(永科發(fā)[2014]17號(hào));湖南省教育廳科學(xué)研究重點(diǎn)項(xiàng)目資助(20A212);湖南科技學(xué)院應(yīng)用特色學(xué)科建設(shè)項(xiàng)目資助。
張晨陽(yáng)(1998-),男,河南駐馬店人,湖南科技學(xué)院2017級(jí)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)本科學(xué)生,研究方向?yàn)槿罩痉治觯?/p>
段國(guó)云(1982-),男,湖南永州人,博士生,副教授,研究方向?yàn)橄到y(tǒng)安全、隱私保護(hù)。
(責(zé)任編校:文春生)