關鍵詞:深度學習;自動閱卷;高考英語;手寫字符;數據集構建
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2025)03-0034-05 開放科學(資源服務) 標識碼(OSID) :
0 引言
當今社會對教育的重視程度提升了教育質量和受教育的廣泛性。然而,這也加重了教師的工作負擔,尤其是在大規(guī)??荚囍?,教師需要評閱大量重復題目。在我國,全國性的大型考試普遍采用標準化答題卡的形式。機讀卡的評閱模式能夠實現(xiàn)高效且精準的選擇題閱卷,但填空題等主觀題的評閱和核對仍需要大量的人力支持。在確保閱卷準確性的同時,提高閱卷效率同樣至關重要。針對初高中生英語填空題的閱卷,構建自動化閱卷系統(tǒng)以識別手寫英文單詞并進行評閱,能夠為教師從繁重的閱卷工作中解放出來提供有效手段。然而,如果沒有合適的數據集,就無法展開相應的系統(tǒng)構建工作。
自動化閱卷系統(tǒng)的基礎和核心是目標檢測,這是計算機視覺研究的一個重要領域,其檢測效果直接影響評閱的準確性。機器輔助檢測可以極大地提高閱卷效率,減少因人工疏忽和注意力分散而導致的誤判和漏判等情況,從而提升閱卷的準確性。因此,利用深度學習和圖像處理技術開發(fā)針對大型英語考試的自動化閱卷系統(tǒng)具有重要意義[1]。
數據集的質量對字符識別結果起著至關重要的作用。目前公開的英文手寫基準數據集由于涉及的應用領域廣泛、覆蓋面多元,導致其在特定情景下并不完全適用。例如,經典的英文手寫數據集 IAM(現(xiàn)代英語) 包含1539張由657個不同的人手寫的掃描文本,這些文本對應于從 LOB語料庫中提取的英語文本,每條數據經過細致標注和處理。然而,該數據集的大多數樣本采集自國外書寫圖片,其書寫風格和習慣與國內中學生的書寫風格存在較大差異。其他被廣泛使用的基準數據集也存在類似問題,如MNIST手寫字母數據集、ETL1-ETL9數據集和CEDAR數據集等。因此,需要結合目前流行的數據集標注方法,制定適合當地中學生英語書寫習慣的專用數據集。
1 數據集設計與構建
英語手寫數據集的構建方案和流程如圖1所示,包含從需求分析、數據集設計到數據集整理的完整構建流程。
首先,在需求分析階段,需要深入研究中學生英語書寫的特點和習慣,包括字跡的多樣性、書寫速度以及常見的拼寫錯誤等,這為后續(xù)設計數據集提供了明確的方向和依據。數據采集與篩選需確保樣本的多樣性和真實性。在數據標注階段,需區(qū)分無涂改和有涂改的圖片,并對拼寫錯誤的詞匯進行單獨標注。校準驗證環(huán)節(jié)確保了數據的準確性和一致性,數據增強則進一步提高了樣本的多樣性。最后,通過格式整理將數據劃分為訓練集、驗證集和測試集,以滿足模型訓練和評估的需求。
1.1 需求分析
為實現(xiàn)自動評閱,數據集的構建需要盡可能模擬真實的“識別”環(huán)境,覆蓋學生英文答卷中可能出現(xiàn)的所有情況。在實際閱卷過程中,教師通過視覺識別學生答卷信息并判斷其正確性,可能會遇到學生字跡風格各異、答案不一致、涂改等情況,甚至有些學生會出現(xiàn)拼寫單詞錯誤的現(xiàn)象。綜合以上可能出現(xiàn)的答題情形,實際答卷情況可大致歸為以下4類(見圖 2) 。
在實際閱卷情形中,“有無涂改”情況或許可以進一步區(qū)分為整體涂改和部分涂改。其中,部分涂改指的是未連貫且完整地呈現(xiàn)出單詞,在單詞內部存在部分涂改。通過YOLO可以精準識別字符的局部涂改。為了方便實際操作,將整體涂改和部分涂改均歸為“有無涂改”這一類情形,并單獨篩選出來,進一步交由人工進行直接核查。
根據上述英文手寫數據集構建的需求分析,本文構建的數據集應滿足以下條件。
1) 樣本類別豐富,詞匯數量充足,能夠覆蓋中學生英語考試中常見的書寫詞匯;
2) 字跡形式多樣,能夠匹配絕大部分中學生的書寫風格和字跡特征;
3) 保留有涂改的樣本,在構建數據集時區(qū)分有涂改圖片和無涂改圖片;
4) 保留拼寫錯誤詞匯樣本,并對這類單詞進行單獨標注。
根據以上需求,再設計相應的數據采集方案,以涵蓋各種情況,同時適配后期閱卷模型和系統(tǒng)的使用需求。
1.2 數據集方案設計
在字符識別領域,首先需要確定數據的組織結構。將收集到的離線書寫的英語答卷進行黑白掃描,并規(guī)整出單獨的詞匯圖像。為了便于算法讀取,將數據集中所有圖像的大小規(guī)格統(tǒng)一化,統(tǒng)一設置為128 ×64像素。
由于部分圖像上存在涂改區(qū)域,且涂改形狀不一,會對字符識別造成干擾,因此這類圖像需要單獨標注?;谟袩o涂改的標準,先將數據集劃分為兩大數據子庫:
1) 無涂改圖片庫:每張圖像上所呈現(xiàn)的顯式信息即為書寫者手寫的英語詞匯。將相同詞匯的不同書寫者的手寫圖像歸為一類,標注信息即為該英語詞匯。例如,書寫了that的非涂改圖片,其標注信息即為that。
2) 有涂改圖片庫:人眼查看這類圖片時,能夠區(qū)分涂改區(qū)域和正常詞匯區(qū)域。仿照人工批閱此類圖片的流程,可以采用目標檢測算法識別涂改區(qū)域,并將涂改區(qū)域變?yōu)楸尘吧?,再由機器對手寫字符進行批閱。相應地,為了兼容一些框架和源碼,該數據庫將仿照 Pascal-VOC 數據集的格式建立,具體格式和內容要求將在后文詳細介紹。
整體設計如圖3所示。
1.3數據采集與篩選方法
數據集應滿足基本需求,所有圖像均應來自真實的學生英語考卷。由于學生考卷信息為非公開內容,獲取相關資料需獲得權限。我們通過與某省市教育考試院開展的相關合作,獲得了部分學生考卷的訪問權限。
在獲取答卷后,需要對原圖像(如圖4所示) 進行預處理。首先進行圖像切割,從一張答卷中提取出10個答案,僅保留手寫字符部分,不保留題號或其他印刷信息。為了提高數據產出效率,盡量避免手工切割。掃描過程中,答卷位置可能會發(fā)生偏移,加之學生書寫的極大差異性,容易導致手寫字符的位置不固定。然而,手寫字符的位置相對于標準答卷上的外框線是固定的。因此,只需利用 OpenCV的 Hough?LinesP函數檢測出外框線的位置,即可確定切割線的位置,從而切割出 10 個詞匯圖片。
由上述方法可以大批量、快速地獲取所有手寫圖像。但在切割過程中難免會出現(xiàn)一些不完整的圖像。為了保持數據的有效性,需要對所得圖像進行進一步篩選,剔除以下3類圖片:
1) 空白圖片;2) 因切割導致圖像信息不完整的圖片;3) 圖片信息過于模糊,以至于人眼也難以辨認的圖片。
由于答卷數量眾多,切割后會生成極大量的手寫詞匯圖像。對于情況 1) ,可以采用聚類算法,將空白圖片篩選出來。而對于后兩種情況,由于圖片中均存在字跡,難以通過簡單的聚類方法進行篩選,且篩選時需要逐張查看圖片,這勢必會耗費大量人力和時間??紤]到數據標注過程中也需要逐張瀏覽圖片,因此在實際操作中,可以在數據標注過程中同時完成這兩類圖片的篩選工作。
1.4 數據標注方法
1.4.1 無涂改圖片的標注
無涂改圖片的標注規(guī)則是將每張圖像的顯式信息(字符信息) 作為其標簽值。為避免有涂改圖片的標簽與英文字符混淆,需先將有涂改圖片剔除,并將其標簽設定為“9”。在數據集規(guī)模龐大且標簽值數量有限的情況下,為盡可能減少工作量、提高標注效率,可以將標簽值相同的圖像放置在同一個文件夾內,操作過程簡化為拖拽圖片,從而減少一定的工作量。
即便如此,拖拽上萬張圖片仍需耗費大量人力。為了快速有效地完成標注工作,可以利用 K-means 聚類算法將所有圖像分為若干類,再從每一類中進行細分。同時,也可以選擇運用卷積神經網絡預測標簽,協(xié)助完成標注。
更有效的方法是構建卷積神經網絡(CRNN) 以識別字符。在此搭建的卷積神經網絡由 7 層卷積層、4層池化層以及2層批標準化層組成,并結合雙向LSTM與RNN,采用 CTC 作為損失函數,使用 Adam 參數優(yōu)化算法[2]。具體網絡結構如表1所示。
1.4.2有涂改圖片的標注
面向涂改數據的識別問題,采用 YOLO 算法識別涂改部分,并將涂改區(qū)域替換為背景色。YOLO 算法是一種基于端到端的檢測框架,具有人類視覺系統(tǒng)快速識別且精準定位的特點。YOLO 算法經過一次CNN 運算后,基本上可以完成實時的目標檢測。該算法包括目標區(qū)域預測和類別預測等多個流程,能夠識別輸入數字圖像樣本中的目標邊界框和目標類別概率。因此,可以利用 YOLO 算法實現(xiàn)手寫字符涂改區(qū)域的目標檢測,并將該區(qū)域替換為圖像背景色,從而得到無涂改圖像,再由字符識別模型進行識別。篩選出存在涂改的圖像樣本并單獨作為訓練樣本,留下精準的無涂改答案圖像數據集用于訓練模型[3]。
1.5 數據校準與驗證
數據集格式整理,包括數據標注和數據校準等過程,需耗費大量時間和人力。而且人在長時間工作后注意力容易下降,難免出現(xiàn)差錯。目前尚無足夠準確的字符識別算法能夠完全替代人工標注。為了盡可能減少工作量并提高模型預測的準確性,可以選擇利用深度學習模型 CRNN 來協(xié)助標注,并對這些數據進行如下簡單處理。
1) 利用前文提到的CRNN字符識別模型進行批量檢測。該模型會返回每張圖片的類別及其屬于該類別的概率值。根據概率值,將圖片數據分為 0~lt;25%、25%~lt;50%、50%~lt;75%、75%~100% 四個區(qū)間,并將這些數據分別打包交由人工處理。對于機器判斷錯誤的圖片,重新進行標注。
2) 將一個數據集分配給兩人進行標簽標注工作,并利用 Python 程序對兩人標注結果進行比對,識別出不一致的標簽內容。通過這種方式,可以更精準地為數據集打好標簽,并快速定位人為主觀判斷的爭議點。最終,這種方法能夠有效豐富模型的復雜度,從而更好地訓練識別和預測模型。
1.6數據增強技術
基于深度學習的目標檢測效果依賴于訓練樣本的質量和特征。如果訓練樣本的質量較差或種類數量相差較大,會導致樣本數據不平衡,從而影響目標檢測算法的精準預測[3]。以閱卷項目的英語答案圖像數據為例,訓練樣本質量較差的情況包括:未區(qū)分圖像數據是否存在涂改痕跡,未挑選出多種答案情況作為正確答案(多答圖片混為一談) 。
此外,訓練樣本種類數量相差較大的情況主要指英語某一填空題存在多種正確答案,但收集到的每種正確答案的圖像數據數量差別較大。例如,某一題大部分學生填寫的是錯誤答案,僅少部分學生填寫的是正確答案,這會導致收集到的兩種正答圖像數據量相差懸殊,不利于訓練出良好的識別模型,從而可能導致模型過擬合問題,最終影響閱卷的精準度。
神經網絡防止過擬合的方法包括數據增強、使用正則化、提前終止、丟棄等?;跀祿坑邢薜拇鸢笀D像,可以通過數據增強(Data Augmentation) 方法生成更多具有等價效應的數據,以增加訓練樣本的數量和多樣性,從而提升模型的泛化能力和魯棒性[4]。深度學習中常用的英文手寫圖像數據增強方法包括:平移、縮放、旋轉、波紋扭曲和噪聲擾動等,也可以通過生成式對抗網絡(Generative Adversarial Network,GAN) 生成偽數據[5]。實際中常用的數據擴增處理方法具體如下。
1) 平移變換:通過平移操作改變圖像內容的位置,即采用隨機或人為定義的某種方式指定平移距離和范圍,在某一平面上對圖像進行平移變換。
比如,“move(-50,-30)”意為將單詞“that”移動到一個特定的坐標位置。其中,負號表示方向,“-50”和“-30”分別表示將對象向上移動 50 個單位和向左移動 30 個單位。
2) 放縮變換:圖像經過放縮變換的關鍵是保留原圖像中的主要特征不受損失。圖像放縮的常用方法有最近鄰元賦值法和雙線性插值賦值法。最近鄰元賦值法是在圖像放縮過程中,將所求像素點的值賦予其最近鄰的像素點的像素值。這種方法可以快速實現(xiàn)圖像放縮,但可能會出現(xiàn)圖像鋸齒、失真等情況。而雙線性插值賦值法則依賴于周圍四鄰域的像素值進行計算,能夠更好地保留圖像細節(jié)。
以英文字符圖像“that”為例,分別對原始圖像縮小 0.5 倍和放大 1.5 倍,圖像經放縮處理后的效果如圖7所示。
經過圖像放縮處理后,雙線性插值賦值法有效避免了圖像數據出現(xiàn)鋸齒、結構不清晰等問題,較好地保留了原始字符圖像的結構特征。
3) 旋轉變換:圖像旋轉是通過設置原圖像的中心坐標為新的原點坐標,然后將原圖像的各個相應坐標點按照相同的角度進行旋轉,從而生成新的旋轉圖像的方法。對于英文字符的旋轉操作,需要保證旋轉角度的適當性,以避免圖像數據關鍵特征的損失。經旋轉變換處理后的字符圖像示意圖如圖8所示。
英文詞匯手寫數據集的構建過程中,每種詞匯至少需包含10~15 張圖片。由于詞頻差異較大,對于圖片數量較少的詞匯,可選擇利用平移的方法增強數據。
1.7 數據格式整理與劃分
前述答題卡分割已將手寫數據集按題號置于不同文件夾下,每個題目下設學生作答的不同文本識別結果,具體分為無涂改圖像和有涂改圖像。其中,有涂改圖像進一步通過YOLO算法將涂改部分覆蓋為背景色,同時對圖像中無涂改部分的字符重新進行識別。對于存在部分涂改的圖像答案,需進一步移交人工輔助判斷。
為避免模型過擬合,通常需將數據集劃分為訓練集和測試集,以確保模型能夠有效學習并泛化到新的數據。在實際應用中,數據集的劃分比例和方法會根據具體任務和數據特性有所不同。訓練集和測試集的常見劃分比例為90% 和 10%,以確保模型在訓練過程中有足夠的數據進行學習,同時在測試階段有獨立的數據集來評估模型的泛化能力。此外,數據集劃分還可以采用其他方法,如 k 折交叉驗證、留一法等。這些方法通過動態(tài)調整訓練集和測試集的比例,以減少數據劃分帶來的影響,并提高模型評估的準確性。
2 數據集構建中的挑戰(zhàn)與解決方案
由于采集過程的性質,各類樣本數量與其在考試中的出現(xiàn)頻率相關,導致每個類別的樣本數量不均勻。手寫筆跡風格復雜多樣以及相應數據資料稀缺等問題,容易導致圖像數據集的不均衡。深度學習模型的訓練需要大量樣本作為支撐,但由于人力、資金和時間成本有限,無法在短時間內收集到足夠多的有效樣本數據。因此,可以借助虛擬仿真技術生成數據,合成不便采集的樣本數據,并通過修改圖像中的紋理、顏色等特征,豐富用于模型訓練的樣本數據,從而進一步提升模型的識別精度[6]。
針對數據集不均衡問題,可以采用生成對抗網絡(Generative Adversarial Network, GAN) 算法生成手寫數據以擴充數據集,專門解決這些問題。該技術通過一個預增強階段為神經網絡提供了更豐富和多樣化的訓練樣本,有效降低了因過擬合或訓練不充分導致的問題,如樣本重復性高和學習效果不佳等[7]。這種方法巧妙結合了傳統(tǒng)數據增強技術與生成式方法的優(yōu)勢,生成的樣本數據在數據平衡性方面顯著優(yōu)于原數據集,在分類測試中的平均識別準確率也有所提升。這為小規(guī)模數據集的擴充和增強問題提供了一種更為有效的解決方案。
3總結與展望
構建英文手寫詞匯數據集可為自動閱卷模型的評閱準確性提供保障,并能減輕大型考試人工閱卷的壓力,從一定程度上避免人工評閱失誤等特殊情況。將深度學習識別模型應用于大型閱卷工作,不僅能夠提高海量圖像數據的處理效率,還能通過高效化與智能化的模型處理提升閱卷效率與評審公平性。