紙筆考試智能網(wǎng)上評卷系統(tǒng)的設(shè)計和應(yīng)用——智能教育應(yīng)用之“考試評價”篇

2018-03-30 08:03:35汪張龍李曉臻朱瑋琳

現(xiàn)代教育技術(shù) 2018年3期

汪張龍徐俊李曉臻朱瑋琳

汪張龍1徐俊1李曉臻2[通訊作者]朱瑋琳1

（1．科大訊飛股份有限公司，安徽合肥 230088；2．訊飛教育技術(shù)研究院，安徽合肥 230088）

文章回顧了紙筆考試評卷的發(fā)展歷程，重點介紹了紙筆考試主觀題智能評卷技術(shù)和掃描網(wǎng)上評卷技術(shù)，并基于這兩大技術(shù)的融合，設(shè)計了紙筆考試智能網(wǎng)上評卷系統(tǒng)。該系統(tǒng)在大規(guī)模教育考試網(wǎng)上評卷中的應(yīng)用，提升了教育考試評卷工作的質(zhì)量和效率，有助于推動大規(guī)?？荚囋u分系統(tǒng)的智能化升級，并為探索人工智能技術(shù)與教育考試評卷行業(yè)的應(yīng)用融合形式、構(gòu)建人工智能技術(shù)輔助大規(guī)模教育考試網(wǎng)上評卷應(yīng)用模式提供參考。

智能評卷；網(wǎng)上評卷；考試評卷；人工智能

近年來，《國家中長期教育改革和發(fā)展規(guī)劃綱要（2010-2020年）》、《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》、《新一代人工智能發(fā)展規(guī)劃》等多項文件都明確了教育信息化、智能化的發(fā)展方向，以及人工智能在各行業(yè)應(yīng)用的總體思路、目標(biāo)和主要任務(wù)。在教育領(lǐng)域，人工智能技術(shù)正在全面、深刻地影響著教育理念和教育模式，諸如語言識別、手寫文字識別、自然語言理解、智能評測等人工智能技術(shù)已在教育考試中得到了逐步應(yīng)用。這些應(yīng)用契合國家教育考試、考試招生制度的改革需求，具有重要的現(xiàn)實意義。在此背景下，在紙筆考試評卷的過程中引入先進的人工智能技術(shù)，推動智能化、信息化與教育考試的深入融合，將有效破解教育考試評價過程中面臨的相關(guān)難點問題。

一紙筆考試評卷的發(fā)展歷程

20世紀(jì)90年代之前，我國的考試判卷一直由評卷員手工完成。而在20世紀(jì)50年代，英國首先研發(fā)出光標(biāo)閱讀器，能通過光學(xué)掃描的方法識別按規(guī)定格式印刷或書寫的作答標(biāo)記，并通過計算機對各種作答信息進行快速準(zhǔn)確的分析、處理。借鑒英國的經(jīng)驗，清華大學(xué)、山東大學(xué)于20世紀(jì)90年代初自主研發(fā)出光標(biāo)閱讀機，大規(guī)模考試評卷開始采用標(biāo)準(zhǔn)化答題卡的方式，進行客觀題的作答和快速評閱，手工評卷得以進入到半自動化階段，大幅提升了評卷效率。

智能評卷是伴隨著近年來人工智能技術(shù)的快速發(fā)展而興起的一種新型評卷模式。20世紀(jì)90年代末，一套名為E-rater的英文作文自動評分系統(tǒng)[1][2]被開發(fā)出來，目前美國教育考試服務(wù)中心（Educational Testing Service，ETS）正利用該系統(tǒng)對管理學(xué)研究生入學(xué)考試（Graduate Management Admission Test，GMAT）中的分析性寫作評價（Analytical Writing Assessment，AWA）部分進行評分，并于2005年開始應(yīng)用于托福考試的作文評分[3]。21世紀(jì)初，英文作文的自動評分技術(shù)在美國得到了大規(guī)模的正式應(yīng)用?！白魑淖詣釉u分（Automated Essay Scoring，AES）指通過計算機軟件對學(xué)生的作文進行評分，……AES目前在美國主要用于兩個方向：一是用在高風(fēng)險考試中進行實際評分（一般是作為人工評分的補充，尚無完全依靠機器評分的實例）；二是用在英語教學(xué)中對學(xué)生的寫作能力進行診斷，提供改進意見”[4]。在國內(nèi)，北京外國語大學(xué)的梁茂成教授研究團隊就中國學(xué)生英語作文的自動評分模型展開了深入研究，并結(jié)合第二語言習(xí)得理論、語料庫語言學(xué)理論、測試學(xué)、統(tǒng)計學(xué)等，進行文本特征變量的深入挖掘、評分模型的不斷優(yōu)化；他們在2012年研發(fā)的大規(guī)?？荚囉⒄Z作文自動評分系統(tǒng)經(jīng)過多輪多次隨機抽樣的訓(xùn)練集，驗證評分信度達到可操作、可推廣的水平。21世紀(jì)初，國內(nèi)領(lǐng)先的人工智能技術(shù)企業(yè)如科大訊飛股份有限公司（下文簡稱“科大訊飛公司”）也開始了以人工智能技術(shù)為基礎(chǔ)的計算機自動評卷技術(shù)的研究，且相關(guān)研究成果已被應(yīng)用于全國普通話水平測試和多地區(qū)中、高考英語聽說考試之中。

二兩大技術(shù)的融合

1 紙筆考試主觀題智能評卷技術(shù)

紙筆考試主觀題智能評卷技術(shù)是一種面向以掃描為評卷數(shù)據(jù)采集形式的紙筆類考試，由計算機完成作文等主觀題智能評分的技術(shù)。目前，國內(nèi)外相關(guān)作文類主觀題智能評分技術(shù)的研究主要有人工特征方案和深度學(xué)習(xí)方案兩個方向：①人工特征方案主要通過專家對試題評卷標(biāo)準(zhǔn)提取相關(guān)的特征進行定義，機器自動抽取一些統(tǒng)計性信息與這些特征進行抽象對應(yīng)，并完成對相應(yīng)樣本的評分；②深度學(xué)習(xí)方案主要通過神經(jīng)網(wǎng)絡(luò)來自動抽取與評分準(zhǔn)則相關(guān)的特征，并進行匹配評分。近年來，深度學(xué)習(xí)方案被廣泛應(yīng)用，越來越多的研究者嘗試開展基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的作文題評分研究。如Nguyen等[5]采用雙層前饋神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）和雙向LSTM來表示作文，在此基礎(chǔ)上進行評分回歸模型的訓(xùn)練；Alikaniotis等[6]采用LSTM來表示作文，并在訓(xùn)練時引入分數(shù)信息，對詞匯的表示進行調(diào)整，得到面向評分任務(wù)的詞向量表示（Score-specific Word Embeddings），從而提高了評分的準(zhǔn)確率；Dong等[7]采用雙層卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN），同時調(diào)整詞向量表示，使其更適合評分任務(wù)。在國內(nèi)的人工智能技術(shù)及應(yīng)用研究團隊中，科大訊飛公司率先將深度學(xué)習(xí)方案應(yīng)用于智能評卷技術(shù)的研究及優(yōu)化中，其研發(fā)的語音評測技術(shù)現(xiàn)已具備了人類專家的評分能力。

紙筆考試主觀題智能評卷技術(shù)的應(yīng)用流程大致如下：①通過計算機圖文轉(zhuǎn)寫技術(shù)，將掃描圖像中的手寫內(nèi)容轉(zhuǎn)化為計算機可處理的信息；②計算機對全部考生的作答內(nèi)容進行特征提取與聚類，輸出典型樣本集合，由充分了解并能規(guī)范執(zhí)行評分標(biāo)準(zhǔn)的評卷專家完成定標(biāo)評分，進而訓(xùn)練計算機學(xué)習(xí)評分專家的評分數(shù)據(jù)，使計算機掌握各題型的評分標(biāo)準(zhǔn)并具備評測主觀題的能力；③經(jīng)過定標(biāo)訓(xùn)練后的計算機從主觀題評分的不同維度（如詞匯豐富度、局部連貫性、句法正確性、篇章結(jié)構(gòu)等），快速高效地對中、英文作文等主觀題進行自動評分與批改。目前，科大訊飛公司研究團隊在基于掃描圖像的中、英文手寫文本識別轉(zhuǎn)寫方面的準(zhǔn)確率均已超過95%，且“計算機在多項不同教育考試的語文、英語考試主觀題（包括作文）評分上已達到現(xiàn)場評卷教師水平，可以滿足大規(guī)模考試的實際需要。此外，計算機系統(tǒng)不僅能夠進行智能評分，還可以從語法、用詞、內(nèi)容表達等不同維度給出診斷分析報告，實現(xiàn)自動化作文批改”[8]。

2 掃描網(wǎng)上評卷技術(shù)

掃描網(wǎng)上評卷技術(shù)主要指利用高速圖像掃描與識別技術(shù)、網(wǎng)絡(luò)技術(shù)、大型分布式數(shù)據(jù)庫及大容量智能化的網(wǎng)絡(luò)存儲等先進的電子技術(shù)和計算機技術(shù)，實現(xiàn)計算機輔助評卷。

掃描網(wǎng)上評卷技術(shù)的應(yīng)用流程大致如下：①通過掃描設(shè)備，將考生各科目的答題卡掃描到數(shù)據(jù)庫；②評卷系統(tǒng)根據(jù)設(shè)定的客觀題標(biāo)準(zhǔn)答案，自動評出客觀題分數(shù)；③裁切主觀題答題圖像，由評卷管理人員創(chuàng)建評卷員賬號、設(shè)置科目主觀題參考答案、裁切圖片、處理異常評卷、設(shè)置誤差控制參數(shù)等，系統(tǒng)根據(jù)指令，將答題內(nèi)容通過網(wǎng)絡(luò)傳輸給分布在各個終端的評卷員；④評卷員登錄系統(tǒng)，通過瀏覽器查看考生的答題內(nèi)容圖像，根據(jù)評分標(biāo)準(zhǔn)評出分數(shù)；⑤系統(tǒng)自動保存結(jié)果，對主觀題、客觀題的分數(shù)進行合并計算，最終得出考生的考試成績。值得一提的是，在網(wǎng)上評卷過程中，評卷系統(tǒng)還可同時實現(xiàn)對評卷教師評分過程、進度及結(jié)果的實時監(jiān)控。

3 兩大技術(shù)的融合

紙筆考試主觀題智能評卷技術(shù)具有高效、精準(zhǔn)完成大規(guī)模數(shù)據(jù)檢測以及長時間穩(wěn)定執(zhí)行專家評分標(biāo)準(zhǔn)的顯著優(yōu)勢；而掃描網(wǎng)上評卷技術(shù)經(jīng)過多年在多類大規(guī)模考試評卷應(yīng)用過程中的不斷完善，其評卷組織模式具有較好的靈活性。這兩大技術(shù)的融合，能有效提升網(wǎng)上評卷的評分效率和評分質(zhì)量，實現(xiàn)考試評卷的智能化升級。兩大技術(shù)的融合主要發(fā)生在以下兩個階段：

（1）掃描階段兩大技術(shù)的融合

這是一個美好的機緣，這是一次幸福的走訪。在“走進廣州好教育”系列叢書編寫過程中，我們走進了中小學(xué)校，走進了廣州好教育。

在掃描階段，掃描設(shè)備對答題卡進行圖像采集，智能評分服務(wù)與掃描管理端進行數(shù)據(jù)交接，接收掃描設(shè)備采集的答題卡圖像。在接收的過程中，智能評分服務(wù)實時提取圖像的輪廓曲線、灰度值等關(guān)鍵信息，進行圖像是否為空白的判斷；在掃描的過程中，智能評分服務(wù)實時、高效、精準(zhǔn)地輸出篩選出的空白題信息。在圖像數(shù)據(jù)傳輸至網(wǎng)上閱卷系統(tǒng)之前，由掃描管理系統(tǒng)對篩選出的空白題做評分配置后，便可不再將空白題數(shù)據(jù)下發(fā)給評卷員進行評分。

（2）網(wǎng)上評卷階段兩大技術(shù)的融合

“文本相似度計算是各種文本挖掘技術(shù)的基石，有了文本相似度的定義就有了各種文本比較的理論依據(jù)?！盵9]在網(wǎng)上評卷階段，基于深度神經(jīng)網(wǎng)絡(luò)的手寫識別技術(shù)可對考生答卷掃描切圖中的文本進行快速、精準(zhǔn)的識別。當(dāng)評卷管理系統(tǒng)獲取到考生的主觀題目作答內(nèi)容并配置相關(guān)的評卷管理參數(shù)之后，可通過系統(tǒng)軟件自動對比計算機轉(zhuǎn)寫結(jié)果與試卷題干、網(wǎng)絡(luò)范文等外部文本來源的文本相似度，并精準(zhǔn)計算出兩者的相似比例，最終輸出處于一定相似度閾值范圍內(nèi)的疑似異常答卷。此后，評卷管理員根據(jù)評卷組織模式需要，通過評卷管理系統(tǒng)進行應(yīng)用配置，并在人工評卷的過程中以同步的形式對評卷人員進行內(nèi)容疑似異常答卷的評分預(yù)警。

在實施網(wǎng)上評卷的過程中，可以根據(jù)不同考試項目所采用的評卷模式，將智能評分結(jié)果與人工評分工作進行融合，形成多樣化的人機協(xié)作智能評分模式。比如，在主觀題采取單評模式的考試中，可在人工評分的同時增加智能評分作為二評分，并進行人機評分結(jié)果對比，將大分差數(shù)據(jù)交由第三者進行仲裁，以保障和提升評卷質(zhì)量；在主觀題采取多評模式的考試中，可用智能評分結(jié)果代替其中的一評，最終進行分數(shù)的合并匯總，以降低考務(wù)的組織難度、提升評卷效率；對于教育類高利害考試評卷，則可將符合學(xué)習(xí)評卷專家標(biāo)準(zhǔn)的智能評分結(jié)果作為人工評分質(zhì)量的第三方監(jiān)控指標(biāo)，以確保人工評分的質(zhì)量?！爸饔^題評卷技術(shù)通過對不同考試、不同試題專家評分標(biāo)準(zhǔn)的學(xué)習(xí)、調(diào)整和程序化設(shè)計，使得評分標(biāo)準(zhǔn)可以在更大范圍內(nèi)被‘具備專家評分水平’的計算機標(biāo)準(zhǔn)化地執(zhí)行和實施?！盵10]而計算機智能評分結(jié)果的客觀性和公正性，將有助于最大化實現(xiàn)考試的公平、公正。

三紙筆考試智能網(wǎng)上評卷系統(tǒng)的構(gòu)建

1 紙筆考試智能網(wǎng)上評卷系統(tǒng)的設(shè)計

紙筆考試主觀題智能評卷技術(shù)與掃描網(wǎng)上評卷技術(shù)在數(shù)據(jù)層、服務(wù)層和應(yīng)用層的深度融合以及相關(guān)數(shù)據(jù)的統(tǒng)一管理，是技術(shù)推動應(yīng)用革新的基礎(chǔ)。本研究基于掃描階段和網(wǎng)上評卷階段兩大技術(shù)的融合，設(shè)計了紙筆考試智能網(wǎng)上評卷系統(tǒng)，如圖1所示。

圖1 紙筆考試智能網(wǎng)上評卷系統(tǒng)

（1）數(shù)據(jù)層

數(shù)據(jù)層主要通過掃描評卷數(shù)據(jù)庫，支持服務(wù)層和應(yīng)用層對數(shù)據(jù)的讀取或?qū)懭搿呙柙u卷數(shù)據(jù)庫分類存儲掃描、智能評卷各階段的數(shù)據(jù)，如掃描圖像、人工評分軌跡、圖文轉(zhuǎn)寫結(jié)果、智能評分結(jié)果以及各類異常檢測結(jié)果等。

（2）服務(wù)層

服務(wù)層是數(shù)據(jù)層與應(yīng)用層之間的邏輯層，主要提供應(yīng)用層所需的檢測、轉(zhuǎn)寫及評分等核心技術(shù)服務(wù)，具體包括：①OMR識別服務(wù)，實現(xiàn)對客觀題填涂答案信息的識別。②圖文識別轉(zhuǎn)寫服務(wù)，實現(xiàn)對答卷掃描圖像中文本的智能識別轉(zhuǎn)寫、評分數(shù)據(jù)預(yù)處理。③圖像檢測服務(wù)，實現(xiàn)對掃描圖像數(shù)據(jù)質(zhì)量的檢測，可篩出空白、重張等異常數(shù)據(jù)。④內(nèi)容檢測服務(wù)，基于圖文識別轉(zhuǎn)寫結(jié)果，將考生作答內(nèi)容與評卷系統(tǒng)輸入的樣本進行相似度檢測，查出內(nèi)容高度相似的作答樣本，并基于語義分析檢出離題作答樣本。⑤智能評分服務(wù)，通過自動聚類，篩選出典型樣本集合；人工評分客戶端可獲取到該樣本集合，之后組織人工評分；智能評分服務(wù)基于人工評卷客戶端反饋的典型樣本集合中的人工評分結(jié)果，自動訓(xùn)練智能評分模型，進而實現(xiàn)對考生差異化作答樣本的智能評分，最終根據(jù)應(yīng)用層的參數(shù)配置輸出檢測結(jié)果。此外，服務(wù)層具有較強的拓展性，可根據(jù)不同考試評卷需要提供其它服務(wù)，如條形碼識別服務(wù)等。

（3）應(yīng)用層

應(yīng)用層主要提供兩大功能系統(tǒng)：一是實現(xiàn)紙質(zhì)答卷數(shù)據(jù)轉(zhuǎn)化為計算機可處理的圖像數(shù)據(jù)的智能數(shù)據(jù)采集系統(tǒng)，二是基于圖像數(shù)據(jù)進行評分和其它評卷管理的智能評卷系統(tǒng)。

①智能數(shù)據(jù)采集系統(tǒng)。該系統(tǒng)包含掃描管理端和掃描客戶端，實現(xiàn)紙質(zhì)答卷圖像的高效采集，并支持掃描圖像的智能化檢測和數(shù)據(jù)校驗。在紙質(zhì)答卷的掃描過程中，掃描管理端可配置啟動智能圖像檢測服務(wù)，依據(jù)掃描客戶端對裁切區(qū)域的標(biāo)定結(jié)果，對掃描圖像自動進行版面分析、灰度值分析等；同時，綜合分析結(jié)果，高效、精準(zhǔn)地校驗掃描數(shù)據(jù)，篩查出空白題、重掃異常圖像等。該系統(tǒng)采集的數(shù)據(jù)與經(jīng)過圖像檢測服務(wù)篩查出的異常掃描圖像數(shù)據(jù)，作為智能化評卷系統(tǒng)的輸入數(shù)據(jù)，待考試管理機構(gòu)在掃描之后的評卷環(huán)節(jié)進行差異化處理。

②智能評卷系統(tǒng)。該系統(tǒng)支持各類教育考試的不同評卷模式配置，并在此基礎(chǔ)上通過智能評分服務(wù)，進行主觀題的手寫內(nèi)容識別、內(nèi)容檢測、智能評分，形成人機協(xié)助的新型評卷模式。該系統(tǒng)由以下部分組成：評卷管理端——主要實現(xiàn)對智能評分任務(wù)與操作流程的配置、管理；智能服務(wù)管理端——實現(xiàn)對圖文識別轉(zhuǎn)寫、智能評分、文本相似度檢測等各類服務(wù)的進程管理和監(jiān)控；人工評卷客戶端——主要對智能評分過程中需要人工處理的評分數(shù)據(jù)進行評分、復(fù)核等操作提供支持；作業(yè)調(diào)度——實現(xiàn)對智能評分服務(wù)所處理的大數(shù)據(jù)量作業(yè)內(nèi)容的進程控制、資源分配；誤差引擎——實現(xiàn)對人人、人機評分誤差的自動化分析；質(zhì)檢功能——基于人工評分軌跡與圖像檢測、內(nèi)容檢測、智能評分的結(jié)果，提供評卷質(zhì)檢的參數(shù)配置與檢測分析等功能。

2 紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用流程分解

紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用流程主要分為五個階段：數(shù)據(jù)準(zhǔn)備、掃描、主觀題數(shù)據(jù)預(yù)處理、主觀題評分、結(jié)果匯總，每個階段的步驟及步驟描述如表1所示。

表1 紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用流程

四紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用

1 應(yīng)用情況

目前，人工智能技術(shù)應(yīng)用于大規(guī)?？荚囈逊e累了不少成功案例，如科大訊飛公司開發(fā)的智能評分系統(tǒng)已被應(yīng)用于廣東高考英語聽說考試、江蘇省初中英語聽力口語自動化考試等，并取得了良好成效。作為國內(nèi)人工智能技術(shù)的領(lǐng)軍企業(yè)，科大訊飛公司與教育部考試中心于2016年成立聯(lián)合實驗室，主要開展人工智能技術(shù)在教育考試領(lǐng)域的應(yīng)用研究。隨后，聯(lián)合實驗室基于多地區(qū)各類型考試數(shù)據(jù)，對紙筆考試智能網(wǎng)上評卷系統(tǒng)及其應(yīng)用效果進行了持續(xù)優(yōu)化。

2017年6月，聯(lián)合實驗室在某省大規(guī)模教育考試網(wǎng)上評卷過程中開展了紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用實驗。本次實驗在正式考試評卷期間，與正式評卷同步進行，是一次具有突破性的創(chuàng)新實驗。從掃描圖像數(shù)據(jù)交接至評測結(jié)束，本次實驗過程用時5天，完成兩個科目近百萬份作文題樣本的智能評分，并在智能評分的過程中基于圖像分析和識別轉(zhuǎn)寫結(jié)果，將語文作文的1.7萬余份非缺考空白卷、200余份高相似度異常作答情況和英語作文的2.4萬余份空白卷、1400余份高相似度異常作答情況予以檢出。

2 應(yīng)用效果

本次實驗隨機抽取了500份答卷數(shù)據(jù)進行人工手動轉(zhuǎn)錄，并對比計算機識別結(jié)果進行識別準(zhǔn)確率分析。經(jīng)統(tǒng)計分析，中、英文手寫字符的識別率均達到97%以上，滿足地區(qū)考試院實現(xiàn)自動評卷的基礎(chǔ)要求。本次實驗將最終的計算機評分結(jié)果與現(xiàn)場人工評分結(jié)果進行了對比分析，得出結(jié)論：語文作文機評分與最終報道分的評分一致率達到了95%以上，與現(xiàn)場人工兩評的一致率幾乎相等；英語作文機評分與最終報道分的評分一致率達到了92%以上，略高于現(xiàn)場人工兩評的一致率，說明計算機評分具有較高的評分準(zhǔn)確性。

需要說明的是，在本次實驗中，地區(qū)考試院有選擇性地對抄寫題干內(nèi)容的70多份語文作文樣本進行了反饋，這70多份語文作文樣本均由學(xué)科評卷組進行質(zhì)檢審查和仲裁評分，仲裁結(jié)果為：這批考生的語文作文成績均進行了15～30分的向下修正。同時，地區(qū)考試院也對1400余份英語作文各類異常樣本通過網(wǎng)上評卷系統(tǒng)進行了分數(shù)檢查，確認這些樣本在人工評卷時都已經(jīng)進行了合理評分，所以未反饋給學(xué)科評卷組進行評分修正。

五小結(jié)

人工智能技術(shù)的快速發(fā)展，對教育考試領(lǐng)域的影響也不斷擴大。通過人工智能技術(shù)學(xué)習(xí)專家評分標(biāo)準(zhǔn)，計算機憑借較高的評分準(zhǔn)確度和穩(wěn)定性，有效提升了教育考試評卷工作的質(zhì)量和效率。在未來，隨著教育改革和考試改革的不斷深入推進，綜合類素質(zhì)考試將被越來越廣泛地推行開來，基于人工智能技術(shù)的計算機智能評測技術(shù)也將更大地發(fā)揮它的價值，輔助人工完成高水平的評卷工作。

[1]Burstein J. The E-rater? scoring engine: Automated essay scoring with natural language processing[A]. Shermis M D, Burstein J. Automated essay scoring: A cross-disciplinary perspective[C]. Mahwah, NJ: Lawrence Erlbaum Associates, 2003:113-121.

[2]Burstein J, Chodorow M, Leacock C. Automated essay evaluation: The criterion online writing service[J]. AI Magazine, 2004,(3):27-36.

[3]Yigal A. Construct validity of e-rater in scoring TOEFL essays[R]. Princeton, NJ: ETS, 2007:7-21.

[4]韓寧.幾個英語作文自動評分系統(tǒng)的原理與評述[J].中國考試,2009,(3):38-44.

[5]Nguyen H, Dery L. Neural networks for automated essay grading[OL].

[6]Alikaniotis D, Yannakoudakis H, Rei M. Automatic text scoring using neural networks[OL].

[7]Dong F, Zhang Y. Automatic features for essay scoring——An empirical study[OL].

[8][10]汪張龍.人工智能技術(shù)在考試中的應(yīng)用[J].中國考試,2017,(11):30-36.

[9]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計算[J].計算機科學(xué),2013,(12):229-232.

編輯：小米

The Design and Application of the Intelligent Online Marking System for the Pen-and-paper Test ——“Examination Evaluation” for the Application of Intelligent Education

WANG Zhang-long1XU Jun1LI Xiao-zhen2[Corresponding Author]ZHU Wei-lin1

This paper reviewed the development of pen-and-paper test marking, emphatically introduced the intelligent marking technology of subjective questions in the pen-and-paper test and the scanning online marking technology, and further designed the intelligent online marking system for the paper-and-pen test based on the integration of the two technologies. The application of this system in the online marking system of the large-scale education examination enhanced the quality and efficiency of the education examination marking work, helped to promote the intelligent upgrading of the marking system of the large-scale examination. In addition, it provided reference for the exploration of the application integration form of the artificial intelligence technology with the marking industry of education examination, and the construction of the application model of the large-scale examination online marking assisted by the artificial intelligence technology.

intelligent marking; online marking; examination marking; artificial intelligence

G40-057

1009—8097（2018）03—0005—07

10.3969/j.issn.1009-8097.2018.03.001

汪張龍，科大訊飛教育事業(yè)群副總裁，訊飛啟明科技發(fā)展有限公司總經(jīng)理，學(xué)士，研究方向為教育技術(shù)、智能教育，郵箱為zlwang@ifytek.com。

2018年2月27日

紙筆考試智能網(wǎng)上評卷系統(tǒng)的設(shè)計和應(yīng)用——智能教育應(yīng)用之“考試評價”篇

一 紙筆考試評卷的發(fā)展歷程

二 兩大技術(shù)的融合

1 紙筆考試主觀題智能評卷技術(shù)

2 掃描網(wǎng)上評卷技術(shù)

3 兩大技術(shù)的融合

三 紙筆考試智能網(wǎng)上評卷系統(tǒng)的構(gòu)建

1 紙筆考試智能網(wǎng)上評卷系統(tǒng)的設(shè)計

2 紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用流程分解

四 紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用

1 應(yīng)用情況

2 應(yīng)用效果

五 小結(jié)

一紙筆考試評卷的發(fā)展歷程

二兩大技術(shù)的融合

三紙筆考試智能網(wǎng)上評卷系統(tǒng)的構(gòu)建

四紙筆考試智能網(wǎng)上評卷系統(tǒng)的應(yīng)用

五小結(jié)