• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    我國高校中文學位論文相似度檢測技術(shù)研究

    2016-02-07 05:10:30蔡曉君
    唐山師范學院學報 2016年2期
    關(guān)鍵詞:分詞學位文檔

    蔡曉君

    (泉州師范學院 圖書館,福建 泉州 362000)

    我國高校中文學位論文相似度檢測技術(shù)研究

    蔡曉君

    (泉州師范學院 圖書館,福建 泉州 362000)

    對如何遏制中文學位論文抄襲嚴重現(xiàn)象提出一種基于詞頻的相似度檢測技術(shù),并研究設(shè)計出相應(yīng)的計算機檢測算法。首先分析了中文學位論文的標準格式和中文語句、結(jié)構(gòu)的語言特點,總結(jié)出中文學位論文抄襲的判斷方法;對中文學位論文的統(tǒng)一表達形式提出一種基于樹結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)模式;在論文內(nèi)容相似度檢測機制中引入向量空間模型的相似度檢測方法,通過信息熵理論改善和規(guī)范了向量空間的特征項權(quán)重值計算問題。最后給出了中文學位論文基于樹形結(jié)構(gòu)存儲計算的向量空間模型相似度檢測算法。

    相似度;樹結(jié)構(gòu);信息熵;向量空間模型

    近些年來,學位論文的抄襲剽竊、重復(fù)發(fā)表,低水平重復(fù)等道德失范的現(xiàn)象愈演愈烈,從一個側(cè)面反映出高校教學質(zhì)量和人才素質(zhì)培養(yǎng)的缺陷問題。這些問題不僅影響教育教學質(zhì)量的提高,而且嚴重影響了學術(shù)聲譽、阻礙學術(shù)創(chuàng)新和學術(shù)進步,特別是研究型、知識型人才的培養(yǎng)。這對我國科教興國戰(zhàn)略的實施和偉大中國夢的實現(xiàn)提出了挑戰(zhàn)。根據(jù)文莉和謝荷鋒[1]對國內(nèi)某些大學抽樣調(diào)查,論文抄襲現(xiàn)象非常普遍,坦白存在嚴重抄襲和較多抄襲的人為65.9%,僅有1.6%的受調(diào)查訪問者明確表示不存在抄襲行為。如何有效地制止和避免論文抄襲現(xiàn)象的出現(xiàn)成為近些年來熱門的研究課題,引起了社會各界的廣泛關(guān)注,因此進行中文學位論文抄襲檢測技術(shù)的研究就很有意義了。

    1 中文學位論文抄襲判定和檢測機制

    1.1 論文抄襲判定的方法

    學位論文是指為獲得所修學位,按要求被授予學位的人所撰寫的論文。根據(jù)《中華人民共和國學位條例》的規(guī)定,學位論文分為學士論文、碩士論文、博士論文三種。學位論文的撰寫是被授予學位的人運用相應(yīng)學位知識進行再加工、再創(chuàng)造的知識過程,其成果是學位論文。學位論文的獨創(chuàng)性體現(xiàn)在作者發(fā)現(xiàn)問題、研究問題到解決問題過程中付出的巨大腦力和體力勞動,其成果可證明其研究解決能力已達到相應(yīng)學位等級水平,或具備同學位水平的科研技術(shù)水準推進擴寬科學技術(shù)研究水平的深度和研究領(lǐng)域的廣度。從論文的創(chuàng)作本身而言,很大一部分是建立在前人工作和研究的基礎(chǔ)上的,所以在撰寫中都會包含對前人的成果的吸收和合理利用,在論文本身中引用和借鑒是其主要的表現(xiàn)形式,同時也存在著對他人研究成功的適當化加工而引述,這種合理的學術(shù)過程為論文抄襲的識別增加了難度。拋開這種合理的學術(shù)借鑒引用,整句整段落的原文抄襲是非常容易識別的,因此論文抄襲人員往往會對抄襲內(nèi)容進行翻譯加工,使其帶有很強的隱蔽性和欺騙性,同時中文語句又有很強的語境意義,又會給抄襲的辨識增加額外困難。因此中文抄襲的判定需將內(nèi)容和語義結(jié)合起來進行判定[2]。

    論文的抄襲現(xiàn)象可以概括為如下三種情況,一是論文題目相同或相近,且研究的內(nèi)容成果相同或是相近;二是將別人論文的內(nèi)容進行表達上的轉(zhuǎn)述或“翻譯”作為自己的論文成果;三是在自己的論文中,直接引用或摘錄別人的文章的內(nèi)容而沒有引用標注說明的。如果論文檢測中存在這三種情況中的任何一種就可以判定論文為抄襲。根據(jù)論文抄襲的程度不同,可以將抄襲劃分為部分抄襲和完全抄襲兩類:第一類部分抄襲,也就是論文的內(nèi)容有部分相似或相同,存在部分文字的抄襲;第二類是完全抄襲,也就是論文不論是內(nèi)容還是表述方式都從原文進行復(fù)制過來,只是對部分文字進行了替換或修飾。

    1.2 論文文本檢測機制

    論文的文本檢測機制在技術(shù)實現(xiàn)上分為兩類:一是基于簽名的檢測機制,基于簽名的文本檢測是在文檔中加入“簽名”,通過檢測“簽名”來識別該文本是否為“原創(chuàng)”或是“抄襲”的文檔,例如運用數(shù)據(jù)存儲技術(shù)在文檔保存的數(shù)字格式中加入特定人眼無法辨識的數(shù)字水印,通過對應(yīng)的檢測數(shù)字水印技術(shù)來判斷是否為“抄襲”的文檔,但“簽名”機制存在可通過物理錄入去除數(shù)字水印的漏洞和無法進行文本部分復(fù)制的檢測缺陷;二是基于內(nèi)容的文本復(fù)制檢測機制,將待測的文檔通過預(yù)處理后和現(xiàn)存文檔數(shù)據(jù)庫的內(nèi)容比較,當待測文檔和文檔數(shù)據(jù)庫中文檔內(nèi)容間相似度超過一定程度,系統(tǒng)就報告存在復(fù)制現(xiàn)象,現(xiàn)象量化程度達到預(yù)先規(guī)定的抄襲閾值后,待測文檔判定為抄襲。

    對中文學位論文是否抄襲的判定如果采用基于內(nèi)容相似度檢測的方式進行,那么就可以運用計算機的高運算性和大容量存儲的特性針對高校中文學位論文的相似度的檢測系統(tǒng)設(shè)計。圖1描述了該系統(tǒng)的檢測業(yè)務(wù)流程。

    圖1 文本相似檢測系統(tǒng)結(jié)構(gòu)圖

    格式化檢測文檔和格式化抽取是一種文本處理過程,將整篇待查中文學位論文和龐大的樣本庫中文資料進行存儲和計算是不現(xiàn)實的,因此需要采用相同的計算機表達方式將中文文檔進行一定的加工,方便于計算機的存儲和計算。

    匹配計算一般有兩種處理方式,一種是進行性中文的字符串匹配計算,而本文采用的是另一種方式,基于詞頻的統(tǒng)計算法方式?;谠~頻的統(tǒng)計算法是將中文文檔轉(zhuǎn)化成向量空間模型(VSM)進行表示,從文檔中抽取一系列詞語和關(guān)鍵性短語作為向量,用向量空間表示全文,通過向量計算進行相似度判定。

    2 中文學位論文抄襲檢測的文本表示

    要進行中文學位論文相似度的檢測首先要解決如何將中文論文文本轉(zhuǎn)化成統(tǒng)一的文本格式,同時將自然語言的文本結(jié)構(gòu)化處理為便于相似度檢測的文本格式。我國國家標準GB7713-87統(tǒng)一了學位論文的編寫格式,給出了學位論文的標準結(jié)構(gòu),并對學位論文進行了明確定義。學位論文的構(gòu)成包括兩個部分:前置部分和主體部分,如圖2所示。

    論文的前置部分是論文的一些重要信息部分,主要用于論文的管理。論文的主體部分是論文的創(chuàng)作主體區(qū)域,主體部分是作者表達思想和寫作的集中區(qū)域,因此將論文加工為計算機表達的格式,就需要將結(jié)構(gòu)和內(nèi)容進行結(jié)合。在內(nèi)容上,論文的前置部分概括了全文,正文是文章的主體;在結(jié)構(gòu)上,前置部分將全文的信息精要概括,正文層次分明,上層信息概括下層信息,每層標題概括本層段落文字信息。這種結(jié)構(gòu)分明的文本格式結(jié)構(gòu)可以采用樹形結(jié)構(gòu)進行計算機存儲表達。

    圖2 學位論文構(gòu)成結(jié)構(gòu)

    如圖3,論文的作者可以作為樹形結(jié)構(gòu)的根部,向下的一層葉子是前置部分和主體部分,前置部分葉子的下一層葉子是前置部分各個組成部分,主體部分的下層葉子由引言、正文、結(jié)論和參考文獻組成,每一層葉子的下一層葉子由其各個組成部分組成。這種樹形的層次結(jié)構(gòu)可以體現(xiàn)論文的各個部分的結(jié)構(gòu)關(guān)系,同時也契合計算機的存儲和表達的特點。

    圖3 論文結(jié)構(gòu)的樹形表達方式

    如何準確地表達自然語言的文本內(nèi)容一直是計算機文本處理的一大難題。顯然最為精準和全面的方式就是將文本內(nèi)容全文作為計算機的計算對象,一字不差地存儲到計算機內(nèi),但過長的篇幅會浪費計算機的計算能力,這在計算的時間復(fù)雜度是不允許的。同時全文的存儲會增加計算機存儲的成本,這在空間復(fù)雜度上也是不允許的。另外全文中存在的“噪音”也會對計算產(chǎn)生誤差。因此,通常的做法是將文章進行分詞和分段處理,選取其中關(guān)鍵性和有代表性的詞語、句子或段落組成的特征集合來代表整篇文章。特征集合要求能概括整篇文章的內(nèi)容,而且又能同時體現(xiàn)文章的獨特性。

    特征集合的選擇有兩個關(guān)鍵問題,一是特征集合的選取能而且必須代表文本的內(nèi)容;二是基于特征集合的文章表達在相似度檢測計算中的時間、空間復(fù)雜度應(yīng)在可接受范圍內(nèi)。在特征集合的大小和數(shù)量的選擇上都有一定的要求,總而言之,為簡化計算提高精度的同時要選取最能代表原文全文的文本來進行文本處理,在進行文本相似度計算時,將采用向量空間模型表示文檔中的文字內(nèi)容,通過抽取文檔中的關(guān)鍵詞語組成文檔的詞的特征集合,將文檔表示成詞的向量空間,通過向量計算進行文檔間相似度檢測。

    將文檔進行特征詞的向量空間轉(zhuǎn)化后采用樹形結(jié)構(gòu)表達論文,通過該方法可以將論文的結(jié)構(gòu)和內(nèi)容形成計算機的表達。

    3 向量空間模型

    向量空間模型是文本表示領(lǐng)域常用的一種表達方式,由Gerard Salton[3]在上世紀60年代提出的,該表達方式是從文本中抽取有代表性的特征項,并對特征項進行加權(quán)處理,最終將文本轉(zhuǎn)化為向量形式。文本的向量空間D可表示為

    式中向量空間D代表某一具體文檔,tn表示第n項特征項,wn為該n項特征項的權(quán)重值。文本的空間向量表達方式忽略了文本的結(jié)構(gòu)信息和文本特征項之間的結(jié)構(gòu)關(guān)系,使文本的表示集中在相似度檢測上,避免結(jié)構(gòu)表示的資源消耗。

    判斷兩文本的相似性就可以通過兩向量間的向量點積或夾角余弦值的計算來進行。向量夾角余弦值越大所表示的兩文本相似度越高。

    式(1)和式(2)可用來計算兩文本間的相似度,Sim值越高,說明兩文本間的相似度越高。從向量空間的定義式和向量空間相似度計算公式可以看出,采用向量空間的文本相似度計算的關(guān)鍵問題是如何選取文本的特征項以及如何對選定的特征項的權(quán)重值進行計算。

    文本的特征項選取是建立在中文“分詞”基礎(chǔ)上的,中文的語句是由字組成的字序串,字首先組成詞,詞再組成句子,詞是中文中最小能夠表達語法的單位。只有將中文文本進行分詞后,才能錄入到計算機中進行分析,在相似度檢測中文本表示成向量空間模型又需要在分詞的基礎(chǔ)上進行特征詞選取。分詞是整個文本向量空間模型建立的基礎(chǔ),常用的分詞方法有:第一種是基于字符串匹配的分詞法,俗稱機械分詞法,就是將待分詞中文字串與中文詞“大詞典”進行字符串匹配,匹配成功則認定為中文詞,并記錄下來;第二種是基于理解的分詞方法,這種分詞方法是通過計算機程序模擬人對中文句子的理解,達到識別是否是中文詞的方法;第三種是基于統(tǒng)計的分詞方法,通過統(tǒng)計待分詞文本中相鄰的中文字組成的字組在文本中出現(xiàn)的頻數(shù)來判斷是否為中文詞,當頻數(shù)高于預(yù)設(shè)的閾值時則認定為中文詞,從而達到分詞的目的。

    完成分詞后,就可以從分詞集合中依照一定的計算方法進行文本特征項選取組成特征詞集合。特征項的選取既要簡明扼要又要突出重點,也就是要選取最具有代表性的特征項。傳統(tǒng)的特征項選擇方法有詞頻方法、文檔頻次方法、期望交叉熵方法、互信息方法、信息增益方法、X2統(tǒng)計量方法、文本證據(jù)權(quán)法[4]。中國科學院計算技術(shù)研究所的漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是當前世界上最好的漢語詞法分析器,中文分詞的正確率可以達到98.45%。利用ICTCLAS工具進行中文分詞,可以從文本中提取系統(tǒng)需要的特征項集合,并根據(jù)詞頻統(tǒng)計進行關(guān)鍵詞抽取。

    特征項的權(quán)重值計算對文本相似度計算的結(jié)果影響非常大,重要的特征項的權(quán)重值要大,次要的特征詞權(quán)重值相對較小。特征項的權(quán)重一般都是以特征項的頻率為基礎(chǔ)進行計算的,目前運用最廣泛的特征權(quán)重計算方法是TF-IDF[5]。如式(3),其中tfk是特征項tk在文本中的頻數(shù),而idfk表示特征項tk的反比文本頻數(shù),即文本集合中含有特征項tk的文本個數(shù)。

    根據(jù)香農(nóng)的信息熵理論[6],如果項在所有文本中出現(xiàn)的頻率越高,那么它的信息熵就越少,如果項的出現(xiàn)較為集中,只在少量的文本中有較高的出現(xiàn)頻率,那么它就擁有較高的信息熵。式(4)體現(xiàn)了式(3)的信息熵理論思想。

    同時文本與文本間進行相似度計算比較中,應(yīng)消除不同文本長度對權(quán)重值的影響,將特征項權(quán)值規(guī)范到[0,1]區(qū)間內(nèi),如式(5)所示。運用該式就可以完成文本向量空間模型特征項的權(quán)重值計算。

    將學位論文進行樹形結(jié)構(gòu)表達后,再將對應(yīng)文本內(nèi)容進行向量空間化,樹形結(jié)構(gòu)中的葉節(jié)點的存儲內(nèi)容就轉(zhuǎn)化為原文章的向量空間表達形式。對學位論文相似度的檢測就可以通過遍歷樹與樹間葉節(jié)點的向量空間模型的夾角余弦值計算來實現(xiàn)。

    4 中文學位論文抄襲的判定算法

    本文中的中文學位論文抄襲的判定算法應(yīng)用的環(huán)境為我國高校的學位論文相似度檢測,其寫作格式和規(guī)范應(yīng)嚴格按照我國學位論文的管理規(guī)定,該算法可以檢測出不同作者的中文論文間的相似度值;設(shè)定部分抄襲閾值A(chǔ)為0.15、完全抄襲閾值B為0.5;算法的輸入為待檢測中文論文S;輸出為抄襲判定結(jié)果,有三種輸出情況,無明顯抄襲、部分抄襲、完全抄襲。

    算法的計算步驟如下:

    步驟一:對S進行中文論文規(guī)范化檢查,符合則將S轉(zhuǎn)化為樹形結(jié)構(gòu)T表達形式,不符合則結(jié)束;

    步驟二:通過ICTCLAS工具對T的葉節(jié)點進行遍歷,從葉節(jié)點內(nèi)容中抽取出該內(nèi)容的特征項集,并運用式(5)對特征項集進行權(quán)重值計算,形成該葉節(jié)點的向量空間模型。T的葉節(jié)點遍歷完成后,形成待測中文論文的向量空間模型的樹形表達方式D;

    步驟三:遍歷D,將D中的葉節(jié)點的向量空間與中文數(shù)據(jù)庫DB的向量空間進行向量夾角余弦值計算,累加余弦值的絕對值到C;

    步驟四:C小于A,輸出無明顯抄襲;C大于A且小于B,輸出部分抄襲,結(jié)束;C大于B,輸出完全抄襲,結(jié)束。

    步驟五;將D存入數(shù)據(jù)庫DB中,結(jié)束。

    算法步驟中,DB為國內(nèi)學術(shù)期刊運營商提供的中文學術(shù)、會議和期刊資料以及迄今被檢測無明顯抄襲的中文學位論文的數(shù)據(jù)庫,其每一條記錄為中文資料的向量空間表示;相似度C在每次檢測時初始化為0。

    5 結(jié)束語

    本文通過空間向量模型對論文相似度檢測技術(shù)進行研究,可以有效地發(fā)現(xiàn)論文間的相似性,其相似性的準確性依賴于中文分詞、文本特征項的提取技術(shù)和特征項的權(quán)重值計算。同時中文文檔資料轉(zhuǎn)化成樹形結(jié)構(gòu)的表達方式不僅有利于文章結(jié)構(gòu)的保留,同時也適用于計算機的存儲和計算操作。在進行相似性檢測過程中是通過樹的遍歷算法來實現(xiàn)的,如果能將樹結(jié)構(gòu)轉(zhuǎn)換成標準的二叉樹結(jié)構(gòu),那么就需要消耗更多的空間復(fù)雜度,但可以換來時間復(fù)雜度的降低,提高檢測的效率。從整個檢測過程中可以發(fā)現(xiàn),中文文本表達形式的優(yōu)劣性、中文分詞特征項的選取的準確性和檢測數(shù)據(jù)庫的完備性是影響檢測結(jié)果的關(guān)鍵。如何使中文文本的表達形式的轉(zhuǎn)換更便捷更低開銷、如何提升向量空間模型的計算的效率和如何實現(xiàn)檢測樣本數(shù)據(jù)庫對中文學術(shù)期刊運營商數(shù)據(jù)庫的無縫高效采集是今后研究的進一步方向。

    [1] 文莉,謝荷鋒.大學文科類畢業(yè)論文質(zhì)量影響因素的實證研究[J].黑龍江高教研究,2010(3):49-51.

    [2] 王毅.論抄襲的認定[J].法商研究,1997(5):63-66.

    [3] Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the Association for Computing Machinery, 1975, 18(11): 613-620.

    [4] 周茜,趙明生,扈旻.中文文本分類中的特征選擇研究[J].中文信息學報,2004,18(3):17-23.

    [5] 代勁,宋娟,胡峰.云模型與文本挖掘[M].北京:人民郵電出版社,2013:61-62.

    [6] 金新政,李宗榮.理論信息學[M].武漢:華中科技大學出版社, 2014:129-132.

    (責任編輯、校對:趙光峰)

    The Research on the Similarity Measurement of Chinese Dissertation in Chinese Colleges and Universities

    CAI Xiao-jun
    (Library, Quanzhou Normal University, Quanzhou 362000, China)

    This essay present a similarity detection technology to curb Chinese academic plagiarism seriously proposed based on word frequency, and design a corresponding computer detection algorithm. This essay firstly analyzes the standard format, the structure and the characteristics of the Chinese language. It presents a new data structure model based on tree-structure, which solves the problem of storage and operation of Chinese dissertation. In this essay, the similarity detection method based on vector space model was introduced, and the problem of calculating the weight value of vector space is improved by using the information entropy theory. At last, the essay presents a calculating method for the similarity detection by vector space model based on tree structure storage and computation.

    similarity; tree- structure; entropy of information; vector space model

    TP391

    A

    1009-9115(2016)02-0061-04

    10.3969/j.issn.1009-9115.2016.02.018

    泉州師范學院自選項目(2014KJ02)

    2015-10-24

    蔡曉君(1987-),女,福建泉州人,碩士研究生,助理實驗師,研究方向為數(shù)據(jù)庫技術(shù)。

    猜你喜歡
    分詞學位文檔
    有人一聲不吭向你扔了個文檔
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    學位授予和人才培養(yǎng)學科目錄(2018年)
    『博士后』是一種學位嗎?
    文苑(2018年21期)2018-11-15 11:52:20
    基于RI碼計算的Word復(fù)制文檔鑒別
    俄羅斯兒童教育:超80%入園率與供不應(yīng)求的學位
    幼兒100(2016年4期)2016-11-30 03:19:55
    值得重視的分詞的特殊用法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    “工士學位”不只是一紙文憑
    高考分詞作狀語考點歸納與疑難解析
    泰安市| 邳州市| 福海县| 广平县| 九江市| 白玉县| 靖宇县| 乐陵市| 阳西县| 霍城县| 双江| 天峨县| 桃园市| 西藏| 温泉县| 集安市| 易门县| 义马市| 南部县| 庄河市| 朝阳县| 论坛| 达孜县| 黄梅县| 清远市| 斗六市| 澄江县| 榆社县| 高陵县| 临朐县| 木兰县| 太保市| 汾阳市| 仪陇县| 织金县| 台安县| 纳雍县| 洱源县| 桦甸市| 连平县| 高州市|