• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      研究生學(xué)位論文格式自動(dòng)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      2017-06-19 19:32:02葉秀云劉德正
      現(xiàn)代計(jì)算機(jī) 2017年13期
      關(guān)鍵詞:段落文檔參考文獻(xiàn)

      葉秀云,劉德正

      (大連理工大學(xué)軟件學(xué)院,大連 116621)

      研究生學(xué)位論文格式自動(dòng)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      葉秀云,劉德正

      (大連理工大學(xué)軟件學(xué)院,大連 116621)

      研究生學(xué)位論文一般采用Word軟件撰寫(xiě),對(duì)論文格式要求非常嚴(yán)格,傳統(tǒng)依靠人工進(jìn)行格式檢測(cè)的方式效率較低?;贠penXML技術(shù),設(shè)計(jì)一種學(xué)位論文格式自動(dòng)檢測(cè)系統(tǒng),能夠根據(jù)論文模板自動(dòng)掃描待測(cè)論文,找到其中不符合模板要求的格式問(wèn)題,并生成檢測(cè)報(bào)告。實(shí)驗(yàn)結(jié)果顯示該方法具有較低的誤報(bào)率和漏報(bào)率,能夠有效工作。

      0 引言

      國(guó)內(nèi)高校大量使用微軟公司的Word字處理軟件撰寫(xiě)學(xué)位論文,學(xué)位論文有較嚴(yán)格的格式要求,人工檢測(cè)效率和準(zhǔn)確性均較低,因此有必要設(shè)計(jì)一種學(xué)位論文格式自動(dòng)檢測(cè)系統(tǒng)。安徽工業(yè)大學(xué)的陳國(guó)勝、何宗明老師早在 2009年就提出了一種基于 XML技術(shù)的Word文檔錄入及格式檢測(cè)系統(tǒng)設(shè)計(jì)方法,該方法通過(guò)Word文檔和XML文檔的相互轉(zhuǎn)換,設(shè)計(jì)了一個(gè)Word文檔錄入和格式檢測(cè)模型系統(tǒng),但是該系統(tǒng)還有不完善的地方,例如需要改進(jìn)文檔格式檢測(cè)機(jī)制,進(jìn)一步實(shí)現(xiàn)Excel接口和XSTL轉(zhuǎn)化接口;東北電力大學(xué)的闞運(yùn)奇老師在2012年提出一種基于VBA的論文檢測(cè)方法,該方法需使用VBA技術(shù)操作宏,普通用戶(hù)難以使用;隋欣、張軍輝在2013年提出了一種基于.NET的文檔信息提取解析方式,該方法僅僅讀取到了文檔內(nèi)部的文本、標(biāo)題、目錄和表格信息,但對(duì)文檔的樣式信息提取并沒(méi)有涉及。

      雖然不少學(xué)者提出了各種操作文檔的想法,但是目前還沒(méi)有一種比較方便有效的系統(tǒng)供人們對(duì)大量相同格式要求的論文進(jìn)行檢測(cè)。本文設(shè)計(jì)開(kāi)發(fā)了一套基于OpenXML格式規(guī)范的研究生學(xué)位論文格式自動(dòng)檢測(cè)系統(tǒng),該系統(tǒng)利用自動(dòng)化方法檢測(cè)docx格式論文文檔,可以提高用戶(hù)編輯學(xué)位論文的效率,減輕教師和學(xué)生的負(fù)擔(dān)。

      1 系統(tǒng)功能設(shè)計(jì)

      本方法的系統(tǒng)架構(gòu)圖如圖1所示,包括單元定位模塊、格式提取模塊、對(duì)比模塊三個(gè)模塊。

      圖1 系統(tǒng)架構(gòu)圖

      單元定位模塊包括封面定位子模塊、獨(dú)創(chuàng)性聲明定位子模塊、標(biāo)題定位子模塊等11個(gè)子模塊,功能為分別定位論文的各個(gè)特定部位,獲取對(duì)應(yīng)的XML信息。

      格式提取模塊包括段落屬性提取子模塊和特殊格式屬性提取子模塊兩個(gè)子模塊。段落屬性提取子模塊的功能是提取待測(cè)論文每個(gè)部分共有的段落屬性,如每個(gè)段落的字體、字號(hào)、段間距。特殊格式屬性提取子模塊的功能是提取除段落屬性之外的其他格式,如參考文獻(xiàn)樣式提取、圖和表所在章節(jié)的標(biāo)題名稱(chēng)提取。

      對(duì)比模塊包括規(guī)則配置文件、規(guī)則對(duì)比子模塊、報(bào)告生成子模塊三個(gè)部分。規(guī)則配置文件的功能是存儲(chǔ)模板論文規(guī)定的規(guī)則,是檢測(cè)待測(cè)論文正確與否的標(biāo)準(zhǔn)。規(guī)則對(duì)比子模塊的功能是將待測(cè)論文的格式特征與規(guī)則配置文件配置的規(guī)則進(jìn)行對(duì)比,判斷格式的正誤。報(bào)告生成子模塊的功能是獲取規(guī)則對(duì)比子模塊中檢測(cè)到的錯(cuò)誤信息并寫(xiě)入檢測(cè)報(bào)告中。

      2 單元定位模塊

      由于本系統(tǒng)處理的是論文各個(gè)部分的格式,如何準(zhǔn)確地定位各部分以及如何精準(zhǔn)地切割就顯得至關(guān)重要。以下列出論文中幾個(gè)關(guān)鍵部分的定位算法。

      首先尋找到全文的第一個(gè)帶編號(hào)的標(biāo)題,標(biāo)題后的第一個(gè)段落就是正文開(kāi)始處;接著過(guò)濾中間封裝標(biāo)題的

      元素和封裝圖的

      元素;最后定位正文結(jié)束部分,尋找正文結(jié)束后出現(xiàn)的第一個(gè)沒(méi)有編號(hào)的標(biāo)題,以此為正文部分的結(jié)束定位標(biāo)志。

      元素存儲(chǔ)了標(biāo)題的文本信息以及樣式,OpenXML中根據(jù)文檔設(shè)置的各個(gè)節(jié)的頁(yè)眉屬性如首頁(yè)不同、奇偶頁(yè)不同生成相應(yīng)的頁(yè)眉。方法如下:首先遍歷

      元素,判斷其中是否包含子元素;若包含子元素,找出元素的所有頁(yè)眉引用子元素,接著找出元素的所有頁(yè)腳引用子元素,利用頁(yè)眉引用、頁(yè)腳引用的標(biāo)識(shí)符定位到相應(yīng)的頁(yè)眉元素、頁(yè)腳元素;若不包含子元素,遍歷下一個(gè)

      元素重復(fù)第一步,直到文檔最后停止遍歷;在< body>元素中尋找保存最后一節(jié)屬性的子元素,重復(fù)第二步。

      表格信息存儲(chǔ)在元素的子元素內(nèi),依次遍歷每個(gè)元素,可找到表格位置。定位表名的方法如下:首先獲取的位置信息,即計(jì)算這個(gè)元素是的第幾個(gè)子元素,然后再檢測(cè)前一個(gè)位置的

      是否為空段落,空段落體現(xiàn)為一個(gè)空行,非空段落作為表名處理。如在該前一個(gè)位置沒(méi)有找到表名,則再向前回溯一個(gè)位置繼續(xù)進(jìn)行判斷。如超過(guò)3步回溯仍未找到表名,認(rèn)為表名缺失或表名的格式有誤。

      3 格式提取模塊

      格式提取模塊的功能為獲取論文各特定部分的格式。格式提取模塊包括段落屬性提取子模塊和特殊格式屬性提取子模塊。

      待測(cè)學(xué)位論文的每個(gè)特定部分都具有段落屬性,段落屬性提取是所有特定部分的共性工作,由段落屬性提取子模塊完成。在OpenXML中,所有文本內(nèi)容都保存在段落元素

      中,在表1中給出了段落中常見(jiàn)的元素及其說(shuō)明。

      表1 常見(jiàn)的段落元素和C#類(lèi)說(shuō)明

      (1)字體

      依次遍歷每一個(gè)

      元素,由rFonts元素按照樣式的層次結(jié)構(gòu)依次提取字體樣式,獲取到中英文的字體;檢測(cè)段落是否為全英文、全中文,或者既有中文又有英文,若是全英文,舍棄提取到的中文字體樣式,不能用于對(duì)比模塊;若是全中文,舍棄提取到的英文字體樣式,不能用于對(duì)比模塊;若既有中文又有英文,提取到的中文英文字體樣式全部保存。

      (2)字號(hào)

      首先按照樣式的層次結(jié)構(gòu)獲取的屬性Val的值,計(jì)算得到以磅為單位的字號(hào)大??;然后參考字號(hào)對(duì)照表得到字號(hào)和磅數(shù)的對(duì)應(yīng)關(guān)系,得到實(shí)際字號(hào);將字號(hào)保存用于對(duì)比模塊。

      (3)段前距離

      段前距離信息從元素的before和before鄄Lines屬性中提取。首先依據(jù)樣式的層次結(jié)構(gòu)找到元素;若該元素包含beforeLines屬性,獲取該屬性對(duì)應(yīng)的屬性值,計(jì)算得到以行距倍數(shù)表示的該段落的段前距離;利用元素的子元素的linePitch屬性可以獲得一行的磅數(shù),統(tǒng)一換算成以“磅”為單位的段前距離;若不包含beforeLines屬性,則獲取before屬性的屬性值,計(jì)算得到以“磅”為單位的段前距離。

      特殊格式提取子模塊用于處理除段落屬性之外的其他格式提取問(wèn)題,包括參考文獻(xiàn)樣式提取、圖和表所在章節(jié)的標(biāo)題名稱(chēng)提取等,這些格式要求在OpenXML中并沒(méi)有明確的元素對(duì)應(yīng),需采用特殊方式提取。

      (1)參考文獻(xiàn)格式提取

      首先利用正則表達(dá)式匹配參考文獻(xiàn)的標(biāo)志代碼,根據(jù)標(biāo)志代碼確定參考文獻(xiàn)的類(lèi)型;若無(wú)法匹配,說(shuō)明此條參考文獻(xiàn)缺少標(biāo)志代碼,保存錯(cuò)誤信息后,繼續(xù)下一條參考文獻(xiàn)格式的提??;若匹配成功,接著以中括號(hào)為分割點(diǎn)把該條參考文獻(xiàn)分割成幾部分,檢測(cè)作者、出版社、出版年份等格式是否滿(mǎn)足要求;接下來(lái)獲取參考文獻(xiàn)的編號(hào)樣式,判斷參考文獻(xiàn)的編號(hào)是否連續(xù),若不連續(xù),保存錯(cuò)誤信息,若連續(xù),進(jìn)入下一步;最后統(tǒng)計(jì)參考文獻(xiàn)條目的數(shù)目,保存起來(lái)用于對(duì)比模塊。

      檢測(cè)參考文獻(xiàn)連續(xù)性的方法如下:首先記錄并維護(hù)參考文獻(xiàn)的正確編號(hào)值,即編號(hào)應(yīng)為從1開(kāi)始的連續(xù)自然數(shù),每次檢測(cè)到新的參考文獻(xiàn)條目后此值加1;接著判斷此參考文獻(xiàn)是手動(dòng)編號(hào)還是自動(dòng)編號(hào),若是手動(dòng)編號(hào),利用正則表達(dá)式獲取編號(hào),然后判斷是否和正確編號(hào)值相同,若是自動(dòng)編號(hào)只需檢測(cè)自動(dòng)編號(hào)開(kāi)始的參考文獻(xiàn)編號(hào)是否和正確編號(hào)值相同。

      (2)圖和表所在章節(jié)的標(biāo)題名稱(chēng)提取

      首先用鏈表保存章節(jié)標(biāo)題所在的段落的位置信息,即索引值;然后獲取圖、表的索引,用圖、表的索引值和鏈表中的各個(gè)值依次比較,直到鏈表中的值大于此值為止,則鏈表中的前一個(gè)數(shù)值就是該圖、表所在章節(jié)標(biāo)題的位置;最后根據(jù)此索引即可得到標(biāo)題名稱(chēng)。

      4 對(duì)比模塊

      對(duì)比模塊的功能是將格式提取模塊提取出的待測(cè)論文中的格式特征與論文模板中的規(guī)則進(jìn)行對(duì)比,將對(duì)比結(jié)果不一致格式問(wèn)題輸出到檢測(cè)報(bào)告中。該模塊分為規(guī)則配置文件、規(guī)則對(duì)比子模塊、報(bào)告生成子模塊三個(gè)部分。

      規(guī)則配置文件包含了模板論文規(guī)定的規(guī)則,是檢測(cè)待測(cè)論文正確與否的標(biāo)準(zhǔn)。在調(diào)用規(guī)則配置文件時(shí),首先由單元定位模塊確定當(dāng)前檢測(cè)的位置在論文中所屬的部分,然后檢測(cè)該部分是否已存在XML格式的配置文件,若存在,則進(jìn)入規(guī)則對(duì)比子模塊;若不存在,則說(shuō)明當(dāng)前部分沒(méi)有設(shè)置格式要求,結(jié)束當(dāng)前部分的檢測(cè)。

      首先獲取單元定位模塊的結(jié)果,判斷當(dāng)前要檢測(cè)的段落是待測(cè)論文的哪一部分,在規(guī)則配置文件中找到模板論文相應(yīng)的規(guī)則,將格式提取模塊提取到的該部分的格式信息與相應(yīng)的規(guī)則配置文件中的規(guī)則進(jìn)行對(duì)比,若該格式特征與規(guī)則配置文件中的規(guī)則一致,則說(shuō)明該格式正確;反之將錯(cuò)誤信息交由報(bào)告生成子模塊處理。

      首先獲取生成報(bào)告的保存路徑,若用戶(hù)未自定義,默認(rèn)路徑設(shè)置為該待測(cè)論文的上傳路徑;接著獲取在規(guī)則配置文件中保存的所有待檢測(cè)的特定部分的節(jié)點(diǎn)信息,依次遍歷每個(gè)節(jié)點(diǎn);獲取節(jié)點(diǎn)中保存的該節(jié)點(diǎn)對(duì)應(yīng)的名稱(chēng),從而找到對(duì)應(yīng)的錯(cuò)誤信息的保存位置;將尋找到的錯(cuò)誤信息編號(hào)后保存到檢測(cè)報(bào)告中,最終生成一份檢測(cè)報(bào)告。

      5 實(shí)驗(yàn)及分析

      在編程結(jié)束后,共進(jìn)行了開(kāi)發(fā)人員測(cè)試和用戶(hù)測(cè)試兩方面測(cè)試,下面是兩種測(cè)試環(huán)境下的具體分析。

      為了實(shí)現(xiàn)快速檢測(cè)大批量、相同格式要求論文的目的,檢測(cè)單篇論文的程序被進(jìn)行了批處理,在批處理程序中選擇需要檢測(cè)的部分,包括封面、獨(dú)創(chuàng)性聲明、標(biāo)題、摘要、目錄、正文、頁(yè)眉頁(yè)腳、表格、圖形、參考文獻(xiàn)、授權(quán)書(shū)等十一個(gè)部分。在.NET及Java環(huán)境下,對(duì)包含46篇論文的論文集檢測(cè)結(jié)果如下:46篇論文全部檢測(cè)成功,共用時(shí)33秒,平均0.717秒一篇。

      本系統(tǒng)于2016年6月1日正式上線(xiàn),在2016年6月本科生畢業(yè)期間共收到來(lái)自全校的500余篇論文的上傳,其中不同的論文317篇,剩余的200余次上傳為同一用戶(hù)在修改論文的過(guò)程中不斷地使用本系統(tǒng)進(jìn)行檢測(cè)與修正,最終修正為格式無(wú)誤的論文。在2016年9月研究生畢業(yè)期間,共收到來(lái)自23名用戶(hù)的50余篇不同的研究生論文。

      6 結(jié)語(yǔ)

      學(xué)位論文格式自動(dòng)檢測(cè)系統(tǒng)可以根據(jù)論文模板,自動(dòng)對(duì)待測(cè)論文進(jìn)行格式檢測(cè),具有自動(dòng)化程度高、檢測(cè)速度快、檢測(cè)準(zhǔn)確率高等優(yōu)點(diǎn),可大幅降低畢業(yè)生和指導(dǎo)教師的工作量,提高工作效率。下一步工作可重點(diǎn)考慮在線(xiàn)配置檢測(cè)規(guī)則,以提高本系統(tǒng)對(duì)不同學(xué)校論文模板的適用性。

      [1]陳國(guó)勝,何宗明.基于XML技術(shù)的Word文檔錄入及格式檢測(cè)系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)時(shí)代,2009(4):38-40.

      [2]闞運(yùn)奇.畢業(yè)論文格式檢測(cè)系統(tǒng)的設(shè)計(jì)與研究[J].無(wú)線(xiàn)互聯(lián)科技,2012(11):17-17.

      [3]隋欣,張軍輝.基于.NET的Word的文檔信息讀取解析[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2013(24):87-88.

      [4]葉明,張諍.基于C#.NET的Word報(bào)告生成功能開(kāi)發(fā)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(9):104-106.

      [5]徐東風(fēng),彭紅星,廖俊杰.基于 Java的文檔格式檢查技術(shù)的研究及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(19):4309-4315

      [6]周益蘭.TMLC在研究生學(xué)位論文檢測(cè)中的應(yīng)用研究[J].研究生教育研究,2012,02:71-74.

      [7]趙常麗,楊磊.基于學(xué)位論文管理系統(tǒng)的本科生學(xué)位論文檢測(cè)方法研究[J].青海大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,01:85-89.

      Design and Im p lementation of Automatic Detection System of Graduation Thesis Format

      YE Xiu-yun,LIU De-zheng
      (School of Software,Dalian University of Technology,Dalian 116621)

      Graduate degree thesis is generally written in Word software,and the format requirements of the thesis are very strict.Based on the OpenXML technology,designs an automatic detection system of degree thesis,which can automatically scan the papers to be tested ac鄄cording to the template,and find the formats that do notmeet the requirements of the template,and generate the test report.The experi鄄mental results show that thismethod has low false positive rate and false negative rate,and can work effectively.

      國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目(No.2016101410302)

      葉秀云(1996-),女,安徽阜陽(yáng)人,在讀本科,研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析

      2017-02-28

      2017-04-20

      1007-1423(2017)13-0051-04

      10.3969/j.issn.1007-1423.2017.13.012

      學(xué)位論文;格式檢測(cè);OpenXML

      劉德正(1996-),男,河北滄州人,在讀本科,研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析

      Degree Thesis;Format Detection;OpenXML

      猜你喜歡
      段落文檔參考文獻(xiàn)
      有人一聲不吭向你扔了個(gè)文檔
      【短文篇】
      心理小測(cè)試
      The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
      夏天,愛(ài)情的第四段落
      Study on the physiological function and application of γ—aminobutyric acid and its receptors
      東方教育(2016年4期)2016-12-14 13:52:48
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      弄清段落關(guān)系 按圖索驥讀文
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      The Review of the Studies of Trilingual Education in inghai
      五寨县| 贞丰县| 肇源县| 磴口县| 名山县| 元谋县| 临高县| 华阴市| 宝兴县| 恩施市| 卓资县| 汕头市| 封丘县| 玉林市| 南投县| 奈曼旗| 宿迁市| 通渭县| 江孜县| 洞头县| 松滋市| 南宫市| 逊克县| 赤城县| 修水县| 枣强县| 内江市| 木兰县| 正镶白旗| 福泉市| 望江县| 体育| 西平县| 甘泉县| 德惠市| 富顺县| 四子王旗| 中宁县| 石河子市| 藁城市| 榆中县|