周瓊
一、引言
計算機(jī)程序抄襲檢測系統(tǒng)是一款能夠避免學(xué)術(shù)抄襲、造假等情況的計算機(jī)軟件。雖然很多計算機(jī)程序被研發(fā)出來,但也出現(xiàn)了很多反抄襲的軟件系統(tǒng)。這就需要在保障檢測抄襲精準(zhǔn)性前提下,提出更高級別的檢測系統(tǒng)。如果只是圍繞反抄襲軟件展開設(shè)計,會顯得較為被動。現(xiàn)如今,我國大部分計算機(jī)程序抄襲檢測系統(tǒng)都是針對中文文檔而設(shè)計的,國際上、英文環(huán)境下所開發(fā)的計算機(jī)程序抄襲系統(tǒng)無法被借鑒利用。針對此類情況,需要加強(qiáng)國內(nèi)學(xué)術(shù)和世界學(xué)術(shù)界間的接軌,不斷優(yōu)化程序系統(tǒng),提高抄襲檢測的性能,這樣才能夠全面凈化學(xué)術(shù)環(huán)境。
二、計算機(jī)程序抄襲檢測系統(tǒng)中的關(guān)鍵技術(shù)
在信息時代下,由于網(wǎng)絡(luò)信息共享度不斷提高,因此文獻(xiàn)信息獲取變得更加便捷,學(xué)術(shù)抄襲問題也層出不窮。針對此類問題,抄襲檢測系統(tǒng)也在不斷更新,提出了多種檢測技術(shù),應(yīng)用較為廣泛的抄襲檢測技術(shù)有:
(一)模擬匹配技術(shù)
模擬匹配技術(shù)是抄襲檢測領(lǐng)域應(yīng)用最為廣泛的技術(shù)之一,融入了基礎(chǔ)檢測、文檔搜尋、語句匹配等內(nèi)容,是一種十分精確的算法之一。整個技術(shù)中包括單模/多模檢測匹配方法。
單模算法是指讓長度為N的字符串Y中的找出長度為M字符串X有相似率的子串,如果在搜索中找出了相應(yīng)的字符串,就提對應(yīng)指定位置,如果沒有找到相似的字符串就會自動歸零。
多模算法是指采用集合算法,建設(shè)處串集合,如N={N1,N2...Nx},對字符串的Z進(jìn)行匹配分析,找到相似的字符串并轉(zhuǎn)回到指定位置上,如果沒有找到相應(yīng)的字符串就會返回到零。多模與單模算法不同,多模是采用同時計算方法,能和多個字符進(jìn)行匹配,從而大大提高了抄襲檢測精度和效率。
(二)相似度算法
隨著我國抄襲檢測技術(shù)不斷發(fā)展,系統(tǒng)愈加完善,抄襲人員也在不停的更改抄襲方法,例如同義詞更換、添加/刪除字符等方法,也可以調(diào)換詞語順序來規(guī)避檢測,針對此類現(xiàn)象可以采用相似度算法進(jìn)行匹配。從本質(zhì)上說,相似度算法也是一種匹配算法,針對不同字符串的相似度算法,包括匹配相似度算法、集合相似度算法、空間向量模型相似度算法等等。
(三)中文分詞技術(shù)
在進(jìn)行文獻(xiàn)檢測過程中如果采用了整句搜索關(guān)鍵詞方法,會導(dǎo)致所檢測的內(nèi)容或匹配信息過于片面,并且檢測過程也十分復(fù)雜,檢測時間較長,與當(dāng)代學(xué)術(shù)爆炸時代不相符?;诖?,可以采用中文分詞技術(shù)展開檢測。在實際應(yīng)用當(dāng)中,通過對詞匯進(jìn)行分割,找出句子當(dāng)中的相同/相似字符相似率,從而判定句子相似率,從而提高檢測精度和效率。該項技術(shù)包含了字符串匹配分詞、統(tǒng)計方法分詞、知識理解分詞等技術(shù)手段。
三、計算機(jī)程序抄襲檢測系統(tǒng)功能分析
抄襲檢測系統(tǒng)設(shè)計需要結(jié)合用戶的使用需求和功能需求兩個方面開展,只有保證檢測系統(tǒng)設(shè)計的針對性,才能夠提高系統(tǒng)程序設(shè)計的適用性。究根結(jié)底,設(shè)計抄襲檢測系統(tǒng)主要是為了最大程度上檢測出文檔抄襲,但也要關(guān)注整個軟件的可操作性與效率性。
(一)使用需求分析
一篇文檔完成之后,如果沒有進(jìn)行抄襲檢測,則他人無法認(rèn)定文檔當(dāng)中哪個部分存在抄襲問題,所以大部分文檔都需要展開抄襲檢測或匹配檢測,我國大部分軟件都是以百分比的形式表示抄襲比例,如知網(wǎng)檢測、paperpass、萬方檢測等。同時,也需要充分考慮抄襲檢測系統(tǒng)用戶的使用邏輯思維和習(xí)慣,這就要在不同程序文檔進(jìn)行相似度匹配后,對這些相似度計算內(nèi)容展開方向性排序,采用上述計算分析處理后即可找出相似度最高文檔,這樣即可更加精準(zhǔn)、高效的找出抄襲內(nèi)容。
(二)使用功能分析
1.按照抄襲檢測的邏輯程序?qū)⒊u檢測系統(tǒng)的檢測路徑和名稱進(jìn)行檢測,也可以對這些的文檔進(jìn)行刪除與添加將,之后可以采用分析需求方法,把指定程序文檔進(jìn)行部分刪除或全部刪除,也可以清空處理。
2.設(shè)計文檔相似度計算功能,需要將這些將要被抄襲系統(tǒng)對被檢測的程序文檔進(jìn)行相互匹配計算,也就是把文檔內(nèi)容展開匹配分析,并在此基礎(chǔ)上對這些文檔的相似度進(jìn)行計算。之后把上述程序文檔相似度計算結(jié)果,把被抄襲文獻(xiàn)的抄襲比例由高向低進(jìn)行一一排序。由此可見,將相似度匹配技術(shù)應(yīng)用到抄襲系統(tǒng)當(dāng)中,可以有效提高檢測精度,這也是整個檢測系統(tǒng)的核心功能。
3.對于被檢測文檔相似度較高的對象(文獻(xiàn))展開進(jìn)一步的劃分和處理。相似度較高的程序文檔能夠說明此文檔存在較高的抄襲性,所以在相似度匹配結(jié)果上要對文獻(xiàn)內(nèi)容進(jìn)行細(xì)致分析,從而進(jìn)一步確定被檢測文檔是否存在著抄襲情況。在系統(tǒng)分析當(dāng)中,需要把兩個相似度最高的文獻(xiàn)展開深度對比,并將相似/抄襲部分用特殊顏色標(biāo)注。如果相似度匹配結(jié)果較低,可以確定這些文檔幾乎不存在相互抄襲的情況。
四、計算機(jī)程序抄襲檢測系統(tǒng)的設(shè)計思路
雖然當(dāng)今我國很多檢測軟件都能夠在很大程度上分析文檔的抄襲率,但從宏觀層面上看,檢測系統(tǒng)依然不夠完善,還存在著一些漏洞問題,如中英文環(huán)境沖擊和反抄襲功能需求。所以,檢測系統(tǒng)要重點(diǎn)從適應(yīng)英文文獻(xiàn)下的抄襲檢測技術(shù)工具,也就是讓該系統(tǒng)中具備對英文字符進(jìn)行分割,從而展開相似度匹配計算方法,之后將相似匹配過程展開模糊、分割匹配計算方法,這樣即可對英文文獻(xiàn)字符進(jìn)行檢測分析,提高抄襲檢測的精準(zhǔn)性和廣泛性,根據(jù)檢測個層次字符串標(biāo)準(zhǔn),對被檢測文檔進(jìn)行相似度匹配計算,為抄襲現(xiàn)象提供相應(yīng)的依據(jù)。
再者,為了能夠提高檢測系統(tǒng)的實用性,還要在檢測數(shù)據(jù)庫中存儲、添加劑中英文文檔,保證資源庫的及時更新性,加強(qiáng)數(shù)據(jù)庫資源的維護(hù),可以把過于老舊或廢氣的文獻(xiàn)剔除,提高數(shù)據(jù)庫的空間率。以此為思路,結(jié)合抄襲檢測系統(tǒng)的功能模塊功能,對整個系統(tǒng)進(jìn)行開發(fā)設(shè)計和優(yōu)化升級。本文認(rèn)為,檢測系統(tǒng)功能模塊設(shè)計中,需要服務(wù)的對象主要包括以下幾點(diǎn):
(一)在系統(tǒng)設(shè)計中,重點(diǎn)內(nèi)容就是面向系統(tǒng)用戶的功能設(shè)計方法,結(jié)合用戶的實際需求,提供之前檢測系統(tǒng)所欠缺的用戶個人數(shù)據(jù)維護(hù)、新用戶注冊、信息定時/實時更新、數(shù)據(jù)修改與完善、會員登錄、提交信息資源文檔、查詢檢測結(jié)果、強(qiáng)化操作處理等多個方面。
(二)在計算機(jī)程序抄襲檢測系統(tǒng)設(shè)計層面上,也要針對系統(tǒng)管理員展開針對性設(shè)計。也就是結(jié)合管理員的實際操作內(nèi)容和標(biāo)準(zhǔn),提供文檔資源數(shù)據(jù)庫中的中英文程序文檔操作功能,主要包括相關(guān)文檔的添加/闡述、維護(hù)信息資源、信息資源列表、定時/實時更新等方面。與此同時,為了能夠提高整個系統(tǒng)在實際操作中的適應(yīng)性,還需要提供針對管理人員的數(shù)據(jù)庫系統(tǒng)操作內(nèi)容,包括界面操作、模塊化服務(wù)功能,設(shè)立模塊接口,以便于后續(xù)的功能增添和操作。
(三)在以上設(shè)計的理念與思路下,該檢測系統(tǒng)的登錄過程和應(yīng)用流程如下:首先,系統(tǒng)管理人員可以先注冊登錄管理人員的身份賬號,并賦予相應(yīng)的操作權(quán)限;其次,管理人員通過輸入相應(yīng)的賬號密碼登錄到檢測系統(tǒng)平臺中,把所檢測的中英文檔添加到信息資源庫當(dāng)中,這樣即可提高文檔檢測的便捷性。系統(tǒng)用戶在完成系統(tǒng)平臺注冊登錄后即可檢測文檔抄襲率或相似率;再次,整個檢測系統(tǒng)對被檢測的文檔進(jìn)行匹配計算后(與數(shù)據(jù)庫資源進(jìn)行匹配),即可由高到低羅列出相似度較高的文檔信息;最后,把這些相似度較高的文檔進(jìn)行對照對比,采用兩兩對比分析的方法,將最終的計算結(jié)果反饋給操作用戶。
五、結(jié)束語
綜上所述,為了能夠提高抄襲檢測精度、效率、適用性,需要在現(xiàn)有的檢測系統(tǒng)上進(jìn)行升級改造或再設(shè)計,將整個系統(tǒng)設(shè)計出注冊、篩選、抄襲檢測、后臺信息維護(hù)等多個模塊,并保證每個模塊可以相互獨(dú)立運(yùn)行,這樣即可更好的為抄襲檢測系統(tǒng)提供服務(wù)。