王崢嶸 等
李勇? 楊雪松? 韋占江孫翔
摘? 要:根據(jù)提出的具體需求進行Word文檔特定數(shù)據(jù)的提取,實現(xiàn)了將Word文檔用于測試出卷和作業(yè)布置,在不改變文檔原始狀態(tài)的基礎上,程序通過數(shù)據(jù)分析工具對考試和作業(yè)中的Word文件進行分析并實現(xiàn)快速檢查,生成新的Excel結果文檔,實現(xiàn)在教學測試中直接使用Word文檔并貫穿測試練習和自動評分整個過程,包括對大量測試文檔進行集中分析,快速完成主觀題和客觀題的評閱,為無紙化考試提出一種新的實現(xiàn)途徑。
關鍵詞:Word文檔;標準模板;自動評分
中圖分類號:TP391.1? 文獻標識碼:A? 文章編號:2096-4706(2023)24-0082-06
Research on the Application of Data Mining Based on Word Documents
WANG Zhengrong, LI Yong, YANG Xuesong, WEI Zhanjiang, SUN Xiang
(Kunming Preschool Teachers College, Kunming? 651701, China)
Abstract: Based on the specific requirements proposed, the extraction of specific data from Word documents has been achieved. Word documents have been used for testing and homework assignments. Without changing the original state of the documents, the program uses data analysis tools to analyze and quickly check Word files in exams and assignments, generate new Excel result documents, and directly use Word documents in teaching tests, running through the entire process of testing exercises and automatic grading, this includes conducting centralized analysis of a large number of test documents, quickly completing the evaluation of subjective and objective questions, and proposing a new implementation approach for paperless exams.
Keywords: Word document; standard template; automatic rating
0? 引? 言
數(shù)據(jù)科學實現(xiàn)從數(shù)據(jù)到信息、從信息到知識、從知識到?jīng)Q策的分析[1]。對數(shù)據(jù)標準進行管理,可促進信息化建設水平的不斷提高,實現(xiàn)數(shù)據(jù)互換與共享,充分發(fā)揮數(shù)據(jù)效能[2]。通過關鍵詞分析有價值的文檔信息[3],可以實現(xiàn)數(shù)據(jù)的充分利用[4]。我們生產(chǎn)生活中所使用的許多文檔,是工作中的一些主要內容標準和載體,信息化時代應該加強無紙化辦公[5],重視電子文檔的管理,提升電子文檔的價值[6]。信息化場景下在保留電子文檔原有數(shù)據(jù)面貌的情況下是否可以靈活挖掘數(shù)據(jù)?
文檔數(shù)據(jù)化的前景廣闊,為了更好地開展文檔數(shù)據(jù)的有效利用,各行業(yè)在各種工作場景中都會根據(jù)生產(chǎn)生活的具體情況進行文檔標準的制定,而標準化的文檔(標準包括數(shù)據(jù)標準、代碼標準及信息交換標準等)更容易進行數(shù)據(jù)化分析處理[7]。2021年教育部發(fā)布的《關于加強新時代教育管理信息化工作的通知》要求以數(shù)據(jù)為驅動力,利用信息化技術推動教育現(xiàn)代化的發(fā)展[8]。利用數(shù)據(jù)挖掘技術對教學電子文檔進行提取和分析[9]。教育場景中考試形式分為計算機網(wǎng)絡考試和傳統(tǒng)紙制考試[10],考試的內容通過數(shù)據(jù)庫進行處理,針對教育場景中許多問卷使用的是Word文檔,所以考試場景研究的思路可以是對Word文檔進行數(shù)據(jù)分析,分析教學作業(yè)和測試工作的內容實現(xiàn)數(shù)據(jù)挖掘[11]??梢愿鶕?jù)具體需求,對文檔數(shù)據(jù)挖掘內容進行個性化設計,這種思想可以推廣到更多的領域,讓文檔產(chǎn)生更大的價值。教育場景中的日常作業(yè)和測驗占用教師大量的工作時間,通過考試服務器來設定這些內容,對服務器的數(shù)據(jù)存儲是一個考驗。使用機房開展網(wǎng)絡考試,計算機教室服務時間如果安排滿了,一般不提供加課服務,必須保證每天的上課時段為不同的班級服務,這種條件下如何讓學生增加練習和測試的時間和空間成為教育場景中面臨的一大難題[12]。新時代關于考試的信息化解決方案有很多,形式也是多種多樣的[13]。但通過教育電子文檔來實現(xiàn)考試并自動判分的應用很少[14],為了提高教育效能[15],可通過教育電子文檔的數(shù)據(jù)提取來拓展新的教學手段,幫助學生提高學習效率[16]。通過數(shù)據(jù)挖掘技術對Word文檔模板文件進行分析,對教學作業(yè)和考試內容進行信息傳遞,通過模板文件來生成和保存教學中定制的各類信息[17]。應用Word文檔數(shù)據(jù)分析技術實現(xiàn)批改作業(yè)和試卷這類重復性工作的自動處理,為教育工作場景提供無紙化作業(yè)和考試新路徑[18]。雖然許多考試采用互聯(lián)網(wǎng)上的問卷星,問卷星在線考試利用網(wǎng)站開展組卷和考試,但如果不能在互聯(lián)網(wǎng)上公開考試內容的話,則使用Word文檔數(shù)據(jù)分析程序來開展本地范圍的作業(yè)和測試,這樣可以實現(xiàn)核心技術自主可控,提升單位的信息化水平[19]。從保護數(shù)據(jù)資源[20]的角度,利用數(shù)據(jù)分析技術實現(xiàn)Word無紙化應用,可以深入挖掘Word文檔的價值。
1? 對文檔進行數(shù)據(jù)分析的應用場景
設計免安裝的綠色軟件[21],綠色軟件不需要專門的安裝程序,對系統(tǒng)的改變比較少,可使電腦系統(tǒng)保持干凈、穩(wěn)定和安全。軟件設計支持當前主流的64位Windows操作系統(tǒng)。程序的主要組成是一個主程序,就是無紙化測試自動評分程序,隨主程序一起使用的是一個文件夾,文件夾的名字叫“試卷夾”,與主程序同在一個目錄中,用來存放標準文檔和測評完成回收的相應文檔。為了準確地分析測試文檔與標準文檔的差異,文檔以模板形式創(chuàng)建,通過模板填寫相關內容[22]。發(fā)給學生使用的測試文檔必須用模板文檔另存為生成,就是把標準文檔中的答案刪除,存為測試用文檔,發(fā)給測試者作答,測試完成后,回收放入“試卷夾”中,再用分析程序進行數(shù)據(jù)化處理,得出完成測試的情況統(tǒng)計表。
2? 標準文檔和測試文檔的使用
2.1? 制作標準文檔內容
具體教育場景中,布置作業(yè)前,相關工作文檔已經(jīng)準備好,需要做的就是根據(jù)測試的需要把文檔放入標準文檔中。具體工作與教學常規(guī)要求一致,就是制作好標準文檔,包括問題和答案,這是教師日常備課工作的一部分,并不會增加教師的工作量,如圖1所示。
2.2? 根據(jù)標準文檔生成測試文檔
教育場景下,標準文檔包含正確答案內容,文檔中的試題類型可以是判斷、單選、多選、填空和主觀簡答題等。主觀題自動判分采用類似于自然語言處理[23]的評判技術,通過分析學生答案中有哪些要素符合教師設置的得分點,實現(xiàn)對主觀題的自動判分。對于不打算使用的題型,可以將該題型的分值設為0,題目數(shù)量設為0,題目內容區(qū)域保持空白就可以了。在完成標準文檔的制作后,將標準文檔另存為測試文檔,打開測試文檔,將測試文檔中的答案刪除,然后將測試文檔發(fā)給學生進行練習??梢酝ㄟ^教室網(wǎng)絡系統(tǒng)將測試文檔分發(fā)給學生練習,也可以通過QQ、微信等途徑將測試文檔分發(fā)給測試者練習,同時可以提醒測試者,只需填寫答案即可,不要去修改測試文檔的其他地方。測試文檔如圖2所示。
3? 分析處理軟件運行中提示的報錯信息
因為教育測試場景中存在文檔的傳遞和接收,比如作業(yè)的發(fā)放和歸集,學生在使用文檔的時候,使用的文字處理軟件有很多種,比如金山文檔、騰訊文檔等。在處理學生提交的文檔時,如果文檔是用Office軟件的Word程序處理過的,用數(shù)據(jù)挖掘程序打開時不會出現(xiàn)異常。如果學生是通過其他文字處理軟件打開及使用某個作業(yè)文檔,這類測試者提交的文檔在用數(shù)據(jù)挖掘程序自動處理的時候會出現(xiàn)不能正常打開的故障,因為數(shù)據(jù)挖掘程序使用的處理模塊是Office辦公系列的Word模塊,碰到被其他文字處理程序處理過的文檔,數(shù)據(jù)挖掘程序因編程時所用模塊類型問題,會發(fā)生不能識別經(jīng)由其他文字處理模塊處理的文檔的情況,這時需要在數(shù)據(jù)挖掘程序所在的文件夾中找到可執(zhí)行程序所在的文件夾,進入到“試卷夾”中,把里面的測試文檔用兼容的文字程序打開并另存為“.docx”類型的文檔。具體操作是:點擊“確定”打開,系統(tǒng)詢問是否打開時選“是”,然后將這個文檔存在“試卷夾”中,覆蓋剛才打開報錯的測試文檔,如圖3、圖4、圖5、圖6所示。
4? 數(shù)據(jù)標準化程序運行結果展示
如果準備工作是按上述步驟進行的,并且文檔沒有報錯,試卷夾中就會含有標準文檔和其他測試文檔,如圖7所示。
在程序檢查前,三個學生文檔是由標準文檔另存為“測試文檔”,并將答案部分刪除后生成的,學生收到“測試文檔”后,將名稱改為自己的學號和姓名。學生完成作業(yè)后,把作業(yè)傳給檢查的老師。上面試驗中,三個學生交來的作業(yè)各有不同的題做錯了。對于文件“0000001同學一”這個文檔,打開后對判斷題中第一題的答案進行了修改,同理,“0000002同學二”和“0000003同學三”的文檔也按照文檔名提示進行了相應修改,目的是程序自動檢查生成的檢查結果后,可以驗證檢查程序工作的有效性。注意,在圖1中,模板中定義的題目分數(shù)情況是判斷題2分、單選題3分、多選題5分,具體分值可以通過模板來定義。檢查試卷夾沒有問題后,即可以退出試卷夾目錄,回到自動評分程序所在目錄,如圖8所示。
起初有三個文件,一個是自動評分主程序,一個是試卷夾子目錄,一個是注冊文件。現(xiàn)在可以執(zhí)行“無紙化做題自動評分系統(tǒng)”,程序執(zhí)行完畢后稍等片刻就可以得到一個程序工作提示信息,如圖9所示。
點擊“確定”后,就可以得到結果,如圖10所示。
點擊“確定”后,運行自動評分程序就可以得到所有測試者完成作業(yè)或測試的扣分情況,并以Excel文檔匯總表的形式存在自動評分程序的目錄中,如圖11所示。
文檔匯總表的評分結果反映了測試者客觀題做錯并被扣分的情況,主觀題得分根據(jù)答題要點進行衡量,如果答案中包含部分要點就會得到相應的分數(shù),反之,如果答案中缺少相關要點,就得不到相應的分數(shù)。匯總表打開后的內容如圖12所示。
5? 結? 論
進行文檔數(shù)據(jù)化處理可以提高文檔的利用價值,在教育場景中運用軟件技術解決作業(yè)布置和測試問題,實現(xiàn)無紙化和自動批改。以此類推,其他行業(yè)和場景中的文檔數(shù)據(jù)化也是大有價值的,可以實現(xiàn)直接將Word文檔應用于教學測試中并貫穿測試練習和自動評分全過程,包括對大量測試文檔集中進行分析,快速完成對主觀題和客觀題的評分,可以成為一種新型無紙化考試實現(xiàn)途徑。利用文檔數(shù)據(jù)分析技術可以在保留原有文檔數(shù)據(jù)面貌的情況下深度挖掘文檔的應用價值,同時研究結果還證明軟件技術在推動教育數(shù)字化建設中發(fā)揮著至關重要的作用。
參考文獻:
[1] 郝祥軍,顧小清.AI重塑知識觀:數(shù)據(jù)科學影響下的知識創(chuàng)造與教育發(fā)展 [J].中國遠程教育,2023,43(5):13-23.
[2] 王丹,李俊,肖琴,等.高校智慧校園數(shù)據(jù)標準規(guī)劃與實踐研究 [J].無線互聯(lián)科技,2022,19(20):30-32+48.
[3] 林瑩.基于大數(shù)據(jù)的智能檔案管理系統(tǒng)應用案例分析 [J].集成電路應用,2023,40(3):70-72.
[4] 李寶密.大數(shù)據(jù)時代下計算機軟件技術的應用 [J].無線互聯(lián)科技,2022,19(13):47-49.
[5] 馬朝紅.基于MES系統(tǒng)的無紙化技術應用研究 [J].計算機與網(wǎng)絡,2016,42(9):55-58.
[6] 宋夏南.淺談信息化條件下文書檔案的價值及保護 [J].辦公室業(yè)務,2018(1):47-48.
[7] 蔣東興,佟秋利,蔣磊宏,等.高等學校管理信息標準體系研究 [J].中山大學學報:自然科學版,2009,48(Z1):56-59+62.
[8] 中華人民共和國教育部.教育部關于加強新時代教育管理信息化工作的通知(教科信函〔2021〕13 號) [A/OL].(2021-03-15).http://www.moe.gov.cn/srcsite/A16/s3342/202103/t20210322_521669.html?eqid=ae32f5b6000054ad00000006646f068a.
[9] 唐小燕,李建新.高職院校教學文檔數(shù)據(jù)化及價值分析研究——以常州信息職業(yè)技術學院為例 [J].柳州職業(yè)技術學院學報,2022,22(4):130-134.
[10] 王崢嶸.基于教學測試系統(tǒng)的防作弊功能的研究 [J].現(xiàn)代信息科技,2022,6(17):41-44.
[11] 楊強,查鳳華,胡心宇.基于知識圖譜的核電技術文檔挖掘與應用實踐 [J].中國檔案,2022(12):54-55.
[12] 王崢嶸.現(xiàn)代信息技術在教學中的綜合應用 [EB/OL].北京:中國科技論文在線 [2023-05-09].http://www.paper.edu.cn/releasepaper/content/202003-82.
[13] 張晗,王安娜.淺析自動化考試系統(tǒng) [J].中國教育技術裝備,2010(24):109-110.
[14] 高金友.探索信息化條件下文書檔案管理 [J].無線互聯(lián)科技,2013(7):207+223.
[15] 陳林輝.地方應用型本科院校創(chuàng)新創(chuàng)業(yè)教育的現(xiàn)實困境與體系構建 [J].萍鄉(xiāng)學院學報,2022,39(1):93-96.
[16] 李明祥.充分利用現(xiàn)代信息技術資源 實現(xiàn)數(shù)學高效課堂 [J].科學咨詢:教育科研,2016(3):59-60.
[17] 劉偉男.基于OXML格式的Word文檔智能處理研究 [D].青島:中國石油大學(華東),2018.
[18] 鄭廣林.“互聯(lián)網(wǎng)+”在高中物理學業(yè)水平考試備考中應用初探——利用問卷星在線測試高效備考廣東高中物理學業(yè)水平考試 [J].物理教學探討,2018,36(10):43-44.
[19] 王崢嶸.考試成績分析軟件的開發(fā)和使用 [EB/OL].北京:中國科技論文在線 [2023-05-24].http://www.paper.edu.cn/releasepaper/content/200811-659.
[20] 楊雪梅.數(shù)據(jù)要素市場化背景下高校圖書館科學數(shù)據(jù)開放共享研究 [J].圖書館學刊,2023,45(1):26-31.
[21] 郭小粉,張紅霞,曹嵩.也談“綠色軟件” [J].福建電腦,2008(1):53+105.
[22] 崔紅軍,曹淑青,邵培南.文檔模板的設計與實現(xiàn) [J].計算機工程,2000(12):84-86+169.
[23] 許嘉,李秋云,劉靜,等.一種基于認知診斷的主觀題同行互評技術 [J].小型微型計算機系統(tǒng),2022,43(8):1653-1660.
作者簡介:王崢嶸(1974—),男,漢族,云南昆明人,講師,碩士,研究方向:軟件工程和信息技術。
收稿日期:2023-07-16
基金項目:昆明幼兒師范高等??茖W校2023年校級課題(202302)