肖 雪,李成城
內(nèi)蒙古師范大學 計算機科學技術(shù)學院,呼和浩特 010022
互聯(lián)網(wǎng)的不斷發(fā)展、創(chuàng)新以及與教學領(lǐng)域的融合,給教學設(shè)備帶來許多新的機遇。如今人們已經(jīng)積累了豐富的計算機輔助教學經(jīng)驗,教學體系也在逐步完善。盡管計算機輔助教學設(shè)備發(fā)展得非常迅速,但也存在許多問題[1],如計算機輔助手寫漢字的書寫質(zhì)量評價軟件不充足、資源共享度不高,缺乏書寫質(zhì)量評價的相關(guān)研究等。
目前“提筆忘字”的現(xiàn)象普遍存在,這將成為傳統(tǒng)文化丟失的先兆。為了提高書寫水平,教育部對小學生的書寫要求下發(fā)相關(guān)文件[2],而手寫漢字的指導(dǎo)工作主要由教師完成,教師對學生的手寫漢字進行評價時會存在以下兩方面的缺點[3]:(1)評測專家具有極強的主觀性。如教師對相同書寫水平的手寫漢字打分時,會受到經(jīng)驗、耐心等自身因素影響,導(dǎo)致分值出現(xiàn)不同程度的偏差。(2)教師不能及時對學生的手寫漢字作品做出反饋。在實際生活中,受書法課程時間以及教師精力的限制,學生作品無法隨時得到評價,容易產(chǎn)生書寫錯誤的累積。而手寫漢字書寫質(zhì)量評價的計算機輔助教學設(shè)備,可以克服傳統(tǒng)手寫漢字評價中存在不公正和反饋不及時等問題,提高教學質(zhì)量。教師可以把更多精力和時間放在教學與輔導(dǎo)階段,極大提高了工作效率。
在教學領(lǐng)域,一個高效的計算機輔助書寫質(zhì)量評價設(shè)備具有以下三種特點:(1)改變傳統(tǒng)手寫漢字評價方法。(2)改正人工評價時容易出現(xiàn)主觀性和精力有限等問題。(3)找出手寫漢字中存在的不規(guī)范問題,有助于學生書寫規(guī)范漢字,實現(xiàn)及時評價[3]。此外,手寫漢字評價技術(shù)在反饋形式與反饋內(nèi)容方面已成為數(shù)據(jù)到文本生成、自動問答、字形匹配以及圖形輔助等技術(shù)發(fā)展的支持或潛在支持部分。如手寫漢字與模板漢字產(chǎn)生的數(shù)據(jù)差可實現(xiàn)數(shù)據(jù)型文本的自動生成;學生對手寫漢字的評價提出問題,利用自動問答解決問題;通過手寫漢字評價產(chǎn)生的筆畫數(shù)據(jù),利用字形匹配以及圖形輔助等內(nèi)容,可以使反饋形式更加生動、形象有較好的用戶體驗,有助于學生充分理解評價含義。由此可見,手寫漢字評價具有重要的研究意義與開發(fā)價值。
初期手寫漢字的特征提取主要在漢字結(jié)構(gòu)方面[4],這類方法只能解決手寫漢字的整體規(guī)范性問題。為了解決以上問題,研究者開始嘗試提取手寫漢字的細節(jié)特征進行書寫質(zhì)量評價,實驗證明此想法在書寫質(zhì)量評價的準確性方面確實有了很大的提升,但手寫漢字的特征提取始終依賴專家的先驗知識獲取,既費時又耗力。隨著深度學習的發(fā)展,研究者正在試圖利用深度學習的方法解決書寫質(zhì)量評價不全面的問題,它不但能夠提取一般特征,而且還能獲取到一些人工無法獲取的隱藏特征,有利于手寫漢字的評價。但基于深度學習的手寫漢字評價方法目前處于剛剛起步狀態(tài),還需要研究者不斷深入的鉆研。
文中對手寫漢字評價的參考文獻進行收集整理,以書寫評判(handwriting evaluation)、水平評測(level assessment)、書寫質(zhì)量(handwriting quality)、計算機評價(computer evaluation)等作為關(guān)鍵詞,輸入Google scholar、ACM digital library、IEEE xplore digital library以及Springer link等途徑查找,通過閱讀文獻標題以及摘要等涵蓋論文重要信息部分對論文進行篩選,并對收集到53篇手寫漢字評價的文獻進行統(tǒng)計分析,得到圖1的結(jié)果。
圖1 文獻分布情況Fig.1 Literature distribution
由圖1可知,超過70%的文章發(fā)表于2009年之后,從2011年期間起,發(fā)表關(guān)于手寫漢字評價文章的數(shù)量正在逐步增加,占總數(shù)量50%左右。最初利用基于規(guī)則的方法對手寫漢字進行評價,隨著機器學習技術(shù)的不斷發(fā)展以及手寫漢字可提取的特征越多,利用機器學習以及特征相似度的手寫漢字評價方法在近幾年呈現(xiàn)上升趨勢。
根據(jù)目前統(tǒng)計的文章,手寫漢字評價相關(guān)的綜述性文章較少。僅有安維華[5]總結(jié)了計算機輔助漢字教學的相關(guān)研究,其中包括數(shù)字化演示、書寫規(guī)范性評測以及書寫水平評測等任務(wù),并且著重介紹書寫規(guī)范性評測中的即時評價和事后評價,未涉及到評價方法原理的介紹,也未對反饋形式做出具體分析。
手寫漢字的書寫質(zhì)量評價不僅包括書寫規(guī)范性評價,還包括書寫美觀、筆畫質(zhì)量、結(jié)構(gòu)、章法等多方面的評價[3]。傳統(tǒng)手寫漢字的書寫質(zhì)量評價是指,教師對學生書寫作品做出評分并對書寫細節(jié)提出改正建議,通常評價的準確性容易受教師主觀性的影響。計算機輔助手寫漢字的書寫質(zhì)量評價是指,利用計算機對各類手寫漢字進行評分及評價。相對而言,傳統(tǒng)手寫漢字評價與計算機輔助的手寫漢字評價,二者具有極大的共通性。傳統(tǒng)手寫漢字評價通過教師的經(jīng)驗以及觀察手寫漢字整體結(jié)構(gòu)、筆畫等細節(jié)與模板漢字對應(yīng)部分進行對比給出評價。計算機輔助手寫漢字的書寫質(zhì)量評價,通過計算機提取出手寫漢字的特征與模板漢字的特征進行比對,相似度越高則手寫漢字的書寫質(zhì)量水平越高。書寫質(zhì)量評價的一般框架如圖2所示。
圖2 書寫質(zhì)量評價一般框架Fig.2 General framework for handwriting quality
根據(jù)計算機評價手寫漢字的時間不同,可將手寫漢字的書寫質(zhì)量評價分為即時評價和事后評價兩種(表1給出了兩種評價的對比)。
表1 評價對比Table 1 Evaluation and comparison
1.2.1 即時評價
即時評價是指用戶每完成漢字的一個筆畫,系統(tǒng)就立即與模板漢字的相應(yīng)筆畫進行相似度計算,評判筆畫的正確性(形狀正確性與位置正確性),并提出修改意見,為漢字的規(guī)范性奠定基礎(chǔ)。及時發(fā)現(xiàn)手寫漢字的錯誤并且給予反饋是非常重要的。有些教學系統(tǒng)根據(jù)即時評價獲得手寫漢字的筆畫、筆序、部件相對位置等基本信息后,用于檢測書寫錯誤并評估書寫質(zhì)量[6-7]。也有一些教學系統(tǒng)對手寫漢字信息進行歸納,將手寫漢字以動畫等另一種形式展示指導(dǎo),加深學生的記憶[8-9]。
在即時評價中信息的雙向展示非常重要[10]。學者進行實踐練習的同時及時得到反饋,是加深印象的關(guān)鍵。然而,如何全面地發(fā)現(xiàn)手寫漢字問題,并且突出顯著錯誤的反饋也是研究者致力解決的問題。
為了解決輸入字符與模板字符進行匹配時,因漢字結(jié)構(gòu)復(fù)雜和書寫風格差異較大等原因?qū)е虏荒軠蚀_找到筆跡錯誤位置的問題。胡智慧等人[11]設(shè)計出一套實時評測與反饋的漢字書寫質(zhì)量系統(tǒng),該系統(tǒng)通過屬性關(guān)系圖實現(xiàn)即時檢測筆畫信息,對筆畫與筆畫之間的關(guān)系(相鄰、相交、相接)、筆畫順序以及筆畫類型(橫、豎、撇等)及時作出反饋評價,并利用剪枝策略提高評測速率。但這套系統(tǒng)僅對以筆畫為基礎(chǔ)的漢字進行匹配評價,忽略了手寫漢字結(jié)構(gòu)因素(對稱性、勻稱性等)的影響。目前存在大量即時評價的書寫質(zhì)量評價系統(tǒng),它們主要關(guān)注筆畫和筆順的特征,忽略了字體結(jié)構(gòu)對書寫質(zhì)量的影響,而筆畫、筆順等特征只能證明此手寫漢字是否可識別,手寫漢字結(jié)構(gòu)的判斷卻是書寫質(zhì)量的一種衡量標準(可以評價手寫漢字)[12]。莊崇彪等人[13]根據(jù)計算機可識別出手寫漢字常見的十一種錯誤,引入單筆畫框(局部特征)以及多筆畫框(全局特征)的概念,制定出筆畫、筆畫間特征以及特征分類的規(guī)則,該算法可以對筆勢、多筆畫等特征進行正誤和工整評判。但筆畫起始點位置工整性的判斷,并不能代表筆段是否書寫工整?,F(xiàn)實生活中,初學者及一些具有獨特書寫風格的學者并不能按照標準筆段進行書寫,所以該算法只能進行初步的工整性評價,并且識別手寫漢字錯誤的數(shù)量由制定的規(guī)則決定。
即時評價主要關(guān)注手寫漢字的局部特征,能夠及時發(fā)現(xiàn)手寫漢字的首發(fā)錯誤并作出反饋,訓(xùn)練書寫者對漢字筆畫等基礎(chǔ)結(jié)構(gòu)的掌握。但即時評價會頻繁打斷書寫者的學習過程,與書寫者的交互形式不是很友好,影響其對整體漢字的認識。
1.2.2 事后評價
事后評價是指對書寫完成的漢字一次性指出書寫質(zhì)量中存在的問題并給出反饋意見。事后評價的主要技術(shù)是特征比對[14-15]與反饋指導(dǎo)[16]。特征匹配是指目標圖像或特征在數(shù)據(jù)庫中利用相似性搜索匹配結(jié)果。反饋指導(dǎo)是指根據(jù)匹配結(jié)果給出反饋意見(筆畫數(shù)目是否正確、筆畫之間的比例等關(guān)系)。事后評價的方法主要關(guān)注手寫漢字的全局特征,有利于書寫者對整體漢字的認識,卻存在書寫錯誤積累(初學者常見錯誤),無法及時提醒書寫者首發(fā)錯誤的問題,所以事后評價比較適合有一定基礎(chǔ)的書寫者。
事后評價的一般步驟為:(1)提取手寫漢字的特征,特征包括部件(筆畫、關(guān)鍵點等)、整體(骨架、章法布局等);(2)特征匹配;(3)根據(jù)匹配相似度結(jié)果給出規(guī)范性指導(dǎo)。也可將步驟(1)和步驟(2)在圖像處理中一起實現(xiàn)。其中閆文耀等人[17]針對現(xiàn)實生活中手寫漢字存在連筆、個性化書寫風格等問題導(dǎo)致手寫漢字分割困難,提出基于圖像紋理的書寫質(zhì)量評價方法。該方法通過Gabor對全局特征進行提取,利用支持向量機的統(tǒng)計學習方法對書寫質(zhì)量進行評價。在CHAED數(shù)據(jù)集下,手寫漢字的書寫質(zhì)量評價準確率達到了95%。其優(yōu)點是放棄了分割的過程,避免由分割失誤對評價結(jié)果產(chǎn)生誤差。但是此評價結(jié)果只有優(yōu)秀和一般兩種,不能具體指出手寫漢字特征錯誤位置及原因。
手寫漢字的評價指標主要由反饋指導(dǎo)的形式?jīng)Q定。目前關(guān)于手寫漢字的反饋指導(dǎo)形式主要有:文字評價、評分以及圖形輔助三種。在書寫質(zhì)量評價的一般框架下,不同手寫漢字評價方法需要依據(jù)手寫漢字的字體、評價結(jié)果以及數(shù)據(jù)規(guī)模大小的不同進行改進,為了驗證手寫漢字評價效果,可參考以下評價指標。
1.3.1 人工評價
當反饋指導(dǎo)的形式為文字評價時,好的文字評價指標應(yīng)該滿足:(1)準確性。從評價文本的內(nèi)容來看,評價文本能正確體現(xiàn)手寫漢字的缺點以及對缺點的分析。(2)流暢性。由于評價文本是基于自然語言進行描述,因此文本需要語法正確并且流暢,方便書寫者閱讀理解。(3)相似性。生成的評價文本與參考評價文本之間的相似度越高表明模型的訓(xùn)練效果越好。
人工評價時,將得分項設(shè)為1~5(1為最低等級,5為最高等級),研究者會邀請有一定經(jīng)驗的教師閱讀評價文本進行打分。不同教師存在個性、認真態(tài)度、評價經(jīng)驗等差異性導(dǎo)致評分存在偏差,可通過金字塔方法[18]解決以上問題。雖然人工評價的成本較高,但此評估方法依舊是當前研究工作中重要的一部分。
1.3.2 自動評價
(1)BLEU
BLEU(bilingual evaluation understudy)指標用于比較生成文本與參考文本之間n元詞組的重合程度,其中共有四元詞組,BLEU-1代表一元詞組,以此類推。BLEU指標的取值越高(n元詞組重合程度越高),生成文本質(zhì)量越高,其公式如下:
其中,Wn表示權(quán)重,pn表示精度,BP是懲罰因子。
(2)METEOR
METEOR(metric for evaluation of translation with explicit ordering)指標在考慮詞性的同時還擴充了同義詞集。在評價生成文本流暢度時應(yīng)用了chunk,每個chunk的平均長度越長,生成文本與參考文本的語序越一致。其公式如下:
其中,c表示生成文本的長度,r表示參考文本的長度,m為參考文本中能夠被匹配的一元組數(shù)量,pen為懲罰因子(懲罰生成文本與參考文本詞序差距過大),其計算公式為:
其中,#chunk是指chunk的數(shù)量,chunk是指既在輸出文本中相鄰又在真實文本中相鄰的一元組聚集而成的單位。
(3)ROUGE
ROUGE(recall-oriented understudy for gisting evaluation)指標可以分為ROUGE-N和ROUGE-L。其中,ROUGE-N主要用于計算兩個句子之間n元詞組的重合率,ROUGE-L計算最長公共子序列的重合率。其公式為:
其中,Countmatch(gramn)表示生成文本與參考文本中同時出現(xiàn)n-gram的個數(shù),count(x)表示x出現(xiàn)的次數(shù),{RefSummaries}是參考文本。
ROUGE-L的計算公式如下:
其中,X表示輸出文本,Y表示真實文本,m表示生成文本的長度,n表示輸出文本的長度。
(4)CIDER
CIDER(consensus-based image description evaluation)指標通過度量生成文本與參考文本之間的相似性來判定質(zhì)量。利用TF-IDF的余弦夾角對每個參考句子與生成句子之間的相似度進行度量。其公式如下所示:
其中,gn(ci)和gn(sij)是TF-IDF向量,ci是生成文本的句子,參考文本句子集合si={si1,si2,…,sim},當使用了長度不同的n元詞組時,存在以下公式:
為了實現(xiàn)手寫漢字的準確評價,研究人員不斷利用各種方法實現(xiàn)手寫漢字評價,其正在成為不需要教師參與就可以自動生成評價的可行技術(shù)?,F(xiàn)有的技術(shù)可分為以下幾種方法:基于規(guī)則、基于特征相似度計算、基于模糊矩陣以及基于機器學習。這些方法存在各自的優(yōu)缺點,具體情況如表2所示。
表2 手寫漢字評價方法Table 2 Classification of handwritten Chinese character evaluation methods
基于規(guī)則的方法是根據(jù)理論描述成分與成分之間的結(jié)構(gòu)關(guān)系和意義關(guān)系,并應(yīng)用其中的關(guān)系對事物進行分析。將基于規(guī)則的方法與手寫漢字結(jié)合,領(lǐng)域?qū)<覐母髯圆煌慕嵌瘸霭l(fā),制定不同的規(guī)則對手寫漢字進行評測[19]。此方法遵循以下步驟:首先從手寫漢字中找到可以描述手寫漢字特征的表示,然后通過決策樹等不同的算法對特征表示進行判斷,進而得到手寫漢字的書寫質(zhì)量評價。這是一種最基礎(chǔ)的手寫漢字評價方法,而對每種筆畫制定規(guī)則限制了它在大規(guī)模數(shù)據(jù)下的評價任務(wù)。
莊崇彪等人[13]利用單筆畫框、多筆畫框以及筆段八方向編碼對筆畫特征以及筆畫間特征制定了規(guī)范性規(guī)則,通過閾值對特征的限制實現(xiàn)等級分類。實驗結(jié)果表明此方法只對規(guī)范的漢字特征提取效果較好,并且書寫錯誤類型判斷是否全面由規(guī)則決定,這限制了評價的準確性與多樣性。
特征描述的貼切程度對書寫質(zhì)量評價的準確性起到?jīng)Q定作用,特征描述越詳細評價效果越好。韓睿方等人[20]為了提高識別手寫漢字中錯誤的效率,利用決策樹實現(xiàn)手寫漢字筆畫關(guān)鍵點之間的距離差以及筆段的水平傾角、彎曲程度等細節(jié)的不同等級分類。該方法通過收集50個不同學歷的人書寫的手寫漢字筆畫,每個筆畫采集10~20次,在此數(shù)據(jù)集上進行測評,結(jié)果顯示宏觀特征的評判效果達到了100%的召回率,微觀特征評判效果的準確率與召回率都在80%以上。Tan[21]提出了低整數(shù)編碼對原始筆畫特征和字符特征進行表示,可識別出手寫漢字筆畫類型、順序等問題。與韓睿方提出的方法相比,此方法對筆畫等特征的評判要求較低,并且缺少漢字結(jié)構(gòu)的評價,更適合初學者練習手寫漢字。
這種基于規(guī)則的方法是手寫漢字評價最初成功的方法,為接下來的研究奠定了堅實的基礎(chǔ)。此方法雖然簡單但存在局限性:第一,需要對數(shù)據(jù)庫里每一個手寫漢字(筆畫)制定規(guī)則。若出現(xiàn)一個從未出現(xiàn)的漢字(筆畫),需要添加新的規(guī)則,并且新添加的規(guī)則容易與前面制定的規(guī)則發(fā)生沖突。手寫漢字評價廣泛地應(yīng)用于中小學等不同人群,其需要的數(shù)據(jù)不同,并且不斷要求有新字出現(xiàn),而字庫卻相對固定,所以基于規(guī)則的方法無法滿足所有用戶的需求。第二,規(guī)則的覆蓋性較差。有些手寫漢字的筆畫、結(jié)構(gòu)書寫復(fù)雜,手寫漢字的規(guī)則很難總結(jié)全面,這也是這類方法進行書寫質(zhì)量評價結(jié)果不理想的原因。
這類方法主要受到文字識別研究的啟發(fā)[22]。在評價手寫漢字時,手寫漢字與模板漢字之間的差異大小,由特征相似度決定。該方法主要執(zhí)行以下步驟:(1)提取手寫漢字的特征。(2)與模板漢字特征進行相似度計算,以相似度高低作為評價書寫質(zhì)量的指標。
漢字大多結(jié)構(gòu)復(fù)雜,在一定程度上限制了手寫漢字進行相似度計算的速率,在保證特征信息完整的情況下,如何快速地進行相似度計算是提高書寫質(zhì)量評價效率的關(guān)鍵步驟。不同手寫漢字特征,相似度計算的速率不同。在書法字檢索中[23],利用骨架以及輪廓特征與數(shù)據(jù)庫中的漢字進行特征相似度計算實現(xiàn)檢索,骨架特征相比輪廓特征檢索的時間減少了70%,提高了檢索效率,實現(xiàn)在較大規(guī)模的漢字集中能夠快速完成特征匹配問題。手寫漢字特征包含能夠描述手寫漢字特性、結(jié)構(gòu)、整體等的特征,進行評價時不僅需要考慮不同特征組合對評價的影響,還應(yīng)該考慮特征自身特點對評價的影響。鄧學雄等人[24]將局部和整體特征一起作為評價手寫漢字的粒度,他們認為初學者進行臨帖練習效果的好壞由臨帖字體與原帖字體之間的相似度決定,并且利用PS工具提取手寫漢字的筆畫(局部特征),分別利用數(shù)學形態(tài)細化法以及圖像投影的方法提取手寫漢字的骨架特征和章法布局(整體特征),對手寫漢字的局部特征以及整體特征與模板漢字相應(yīng)部分進行歐氏距離計算,由相似度決定書寫質(zhì)量。但此方法的缺點是:(1)適用于初學者。毛筆字練習者初期臨摹原貼中字的形態(tài)、結(jié)構(gòu)等,后期應(yīng)在初期的基礎(chǔ)上不斷創(chuàng)新,形成具有風格的字體。而漢字風格特征是一種附著在骨架特征上的輪廓形態(tài)特征[25],所以骨架相似度計算并不適合后期的學習。(2)不適用于數(shù)據(jù)量大的毛筆字臨帖評價。此方法中筆畫的提取是利用PS工具,對數(shù)據(jù)量較大的手寫漢字進行評價時,提取筆畫特征將花費大量時間。其中李牧[26]認為鄧學雄的算法沒有考慮到筆畫簡單的疊加進行相似度計算的結(jié)果將受到結(jié)構(gòu)信息的影響。為了筆畫特征不受旋轉(zhuǎn)、形狀區(qū)域平移的影響,李牧利用Hu矩進行筆畫的相似度計算。而吳楚洲[27]認為李牧在進行骨架相似度計算時,很難取到不同骨架相同的對應(yīng)點,所以將骨架進行米字格或九宮格的劃分,與模板漢字相同區(qū)域內(nèi)的骨架利用Hu矩進行相似度計算。該方法對書寫等級較低的用戶來說,臨摹時容易出現(xiàn)手寫漢字筆畫與模板漢字對應(yīng)筆畫不在同一區(qū)域內(nèi)的缺點。
在以上實驗中模板漢字是事先提供的,不存在檢索模板漢字的過程,也不需要考慮識別模板漢字的計算速率。而在現(xiàn)實生活中,進行考試等評估工作時不允許提供模板漢字,而平時的書寫練習可以提供模板漢字,所以將書寫質(zhì)量評價系統(tǒng)設(shè)置為考試模式和練習模式才具有廣泛的適用性。邵榮棠[28]對書法字檢索效率低以及如何全面評價手寫漢字問題進行解決,設(shè)計出練習模式的評價系統(tǒng)。解決方法主要包括四個步驟:首先,提出一種改進的書法字雙層檢索方法提高手寫漢字識別的準確率,從數(shù)據(jù)庫中快速查找出手寫漢字的模板漢字。接著,針對檢索出的模板漢字提出基于Z-S算法改進的單像素化處理算法,得到手寫漢字整體骨架特征并且進行相似度計算。然后,對處理完成的書法字骨架進行九宮格的切分,利用Hu矩對切分出的骨架與模板漢字對應(yīng)九宮格區(qū)域內(nèi)的骨架進行相似度計算,得到筆段特征相似度值。最后,通過計算手寫漢字到邊框的距離與手寫漢字的整體布局得到布局特征相似度。此方法有效利用手寫漢字特征,實現(xiàn)在不影響特征信息的前提下對特征進行處理,加快特征相似度計算的效率,但忽略了筆畫的對比信息,對手寫漢字的評價信息未能達到具體精細并且其評價指標較少不能得到客觀評價。
該方法雖然實現(xiàn)簡單卻有較多的缺點:(1)手寫漢字的特征選擇代表了當前手寫漢字的特性,如果沒有充分考慮手寫漢字特征僅將幾個特征進行計算,就會造成手寫漢字評價不全面。這是此類方法結(jié)果不理想不可避免的原因。(2)手寫漢字特征提取的效果影響評價結(jié)果。如手寫漢字骨架提取效果影響全局特征,而骨架提取過程中毛刺的產(chǎn)生是不可避免的,所以將骨架的毛刺去除至光滑或只存在較少的毛刺對手寫漢字的評價是至關(guān)重要的。
手寫漢字評價不能僅局限于與模板漢字對比,其書寫風格也應(yīng)該被接納。由于每個人的書寫習慣以及學習背景不同,所以手寫漢字具有其自身的特點。而模糊矩陣恰好可以實現(xiàn)在不忽略每種手寫漢字風格的基礎(chǔ)上,進行相似度計算。這類方法將需要評判的特征構(gòu)成模糊子集,選取適合當前特征的隸屬度函數(shù)進行計算得到隸屬度,由當前手寫漢字隸屬度與模板漢字隸屬度之間的相似度決定手寫漢字評價。特征的選擇對手寫漢字是否可以得到全面評價起到關(guān)鍵作用[29]。易于提取的手寫漢字大小、重心等全局特征對手寫漢字只起到了宏觀范圍的指導(dǎo),全局特征與局部特征相結(jié)合才會較全面地評價手寫漢字。
王耀等人[30]首先對52個大小寫英文字母構(gòu)建模式庫,將模板字母的比例質(zhì)量、位置質(zhì)量、大小質(zhì)量以及筆畫質(zhì)量的分析參數(shù)進行存儲,然后針對不同特征選擇不同的函數(shù)進行模糊化得到隸屬度,最后與模板字母隸屬度進行相似度計算,根據(jù)閾值的劃分得到不同的評價。該方法對250個不同書寫形狀“A”的書寫質(zhì)量進行評價,實驗結(jié)果表明其最高有效率達到97.8%。此方法僅適用于構(gòu)成元素較少的書寫體中,而漢字數(shù)目眾多且結(jié)構(gòu)復(fù)雜,對每個漢字建立模式庫是不現(xiàn)實的,所以此方法不適用于手寫漢字的書寫質(zhì)量評價中。樊亮[31-32]發(fā)現(xiàn)學者在觸摸屏上進行書寫時,因書寫能力不同產(chǎn)生筆力均勻、筆力過輕和筆力過重三種現(xiàn)象,并且利用模糊數(shù)學實現(xiàn)筆力模糊評價。該方法首先根據(jù)書寫特點建立8種關(guān)鍵點類型,然后通過高斯函數(shù)得到手寫漢字每個筆畫關(guān)鍵點的隸屬度,與模板漢字關(guān)鍵點隸屬度進行相似度計算,最后根據(jù)隸屬度的貼近程度得到手寫漢字的等級評價。與王耀提出的方法相比,該方法并沒有存儲所有模板漢字關(guān)鍵點的分析參數(shù),而是將模板漢字與手寫漢字一起利用算法得到隸屬度,避免了存儲筆畫數(shù)據(jù)帶來數(shù)據(jù)臃腫的缺點,具有更廣泛的應(yīng)用性。但筆力僅是書寫質(zhì)量中的一部分,還需要其他指標(大小、比例、傾斜等)的分析才可以得到較全面的手寫漢字評價[33]。
書寫質(zhì)量區(qū)間是評價的最重要部分,以上方法都是研究者設(shè)置書寫質(zhì)量區(qū)間,區(qū)間范圍的設(shè)置難免會存在主觀性。而葛佳敏[34]首先利用模糊概率分布可以解決多值分析的問題,得到每個分類值的權(quán)重和每個特征的期望值。然后利用模糊綜合評價將不同特征期望值在模型中計算,進而得到整個字的期望值。最后將期望值與得到的期望值范圍進行比較,得出手寫漢字的評價。其中,期望值范圍指手寫漢字整體期望值在某一值以上時書寫質(zhì)量較為規(guī)范。這種方法不再需要人為設(shè)置評價標準,也不需要大量的模板漢字作為參照對象,使評價結(jié)果具有公正客觀性。
對于書寫質(zhì)量區(qū)間的設(shè)置,王求真等人[35]的算法具有較好的效率。其主要針對評價手寫漢字時常見的幾種問題:(1)字形結(jié)構(gòu)復(fù)雜。(2)不同的書寫風格。(3)筆畫模糊不規(guī)范等等,提出模糊分析方法。該算法的基本思路為:首先根據(jù)聯(lián)機設(shè)備獲得手寫漢字的局部特征(關(guān)鍵點)和全局特征(比例、大小和位置等)的信息,分別利用高斯法和統(tǒng)計實驗進行模糊化。
手寫漢字的特征向量模糊計算如以下公式所示[24]:
其中,式(14)中xs表示當前手寫漢字的特征向量(除重心外),as為特征分布的中心,b和c分別為分布情況圖范圍的最大值與最小值。式(15)為手寫漢字重心的模糊計算,其中xw表示當前手寫漢字的重心特征向量,x與y分別為當前手寫漢字重心的橫坐標與縱坐標,xˉ與yˉ分別為模板漢字重心的橫坐標與縱坐標。
最后與模板漢字相應(yīng)的特征進行相似度計算,其中筆畫特征相似度計算的公式為:
A、B分別代表手寫漢字和模板漢字,表示手寫漢字A中第i筆畫的模糊度。
結(jié)構(gòu)特征值進行相似度計算的公式為:
其中,μai表示手寫漢字A中結(jié)構(gòu)質(zhì)量的3個指標(大小、比例、位置)模糊度集合。根據(jù)獲得的筆畫相似度和結(jié)構(gòu)相似度通過權(quán)值分配的方法得到手寫漢字的評分,若手寫漢字的筆畫和結(jié)構(gòu)與模板漢字對應(yīng)部分的相似度任意一項小于0.5,則取其中最小值作為評價分數(shù)。
研究者通過收集200個常見漢字進行500次隨機書寫并進行實驗,結(jié)果表明其準確率最高可達90.42%。其中書寫質(zhì)量閾值的設(shè)置來源于統(tǒng)計模板漢字區(qū)間分布,但區(qū)間選擇只選取統(tǒng)計模板的高頻區(qū)間,使評價不能達到絕對的公正客觀。
這類研究充分利用手寫漢字特征,如手寫漢字的關(guān)鍵點、重心和筆畫等,其評價的效果也隨著特征信息的增加而不斷變好,但其本質(zhì)是忽略手寫漢字的細節(jié)與模板漢字進行相似度計算,雖然解決了手寫漢字風格描述困難的問題,但對于一些難以區(qū)分的漢字(如“士”“土”,其各自的模糊矩陣非常相似)需要定量分析才可以解決。并且每種特征應(yīng)該選取合適的隸屬函數(shù),若提取出多種不同屬性的特征,其隸屬函數(shù)的選擇與構(gòu)建是一個相當繁瑣且耗時的事情,所以隸屬函數(shù)的泛化是解決此問題的關(guān)鍵。
機器學習是研究計算機模擬人類學習的科學,主要學習如何利用有效信息,從數(shù)據(jù)中獲取隱藏的、可理解的知識。在手寫漢字評價任務(wù)中,利用機器學習從大量數(shù)據(jù)中學習手寫漢字特征與評價之間的關(guān)系,避免人工評價效率低、具有主觀性等缺點。
2.4.1 基于深度學習的方法
深度學習是一種數(shù)據(jù)驅(qū)動的端到端的方法,其通過學習樣本數(shù)據(jù)內(nèi)在規(guī)律,組合低層特征形成高層特征,用來發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,更能夠刻畫數(shù)據(jù)的內(nèi)在信息,其在各個領(lǐng)域都有很多成果[36]。在手寫漢字評價任務(wù)中,運用深度神經(jīng)網(wǎng)絡(luò)自動對手寫漢字中隱藏的特征進行挖掘,在模板漢字中查找與輸入漢字特征最相近的模板漢字,對其進行排序,繼而實現(xiàn)手寫漢字評價,其一般流程如圖3所示。
圖3 基于深度學習的手寫漢字評價方法Fig.3 Handwritten Chinese character evaluation method based on deep learning
這些方法可以高效地代替人工提取特征,尤其在大規(guī)模的數(shù)據(jù)集上改變傳統(tǒng)筆畫、部件間距等繁雜的特征提取過程,可以更深層次地挖掘手寫漢字的特征信息,使手寫漢字評價結(jié)果的準確率提高。常用的深度學習技術(shù)包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、BP神經(jīng)網(wǎng)絡(luò)(BP neural network,BPNN)等。
(1)基于BP神經(jīng)網(wǎng)絡(luò)的方法
以上方法大多利用歐氏距離進行相似度計算,而歐氏距離的計算容易受到特征結(jié)構(gòu)、旋轉(zhuǎn)等因素的影響,并且如何找到不同骨架的對應(yīng)點也是值得考慮的地方。而人工神經(jīng)網(wǎng)絡(luò)可以通過自身的訓(xùn)練學習規(guī)則,并不需要事先指定輸入與輸出之間的關(guān)系,就可以得到最接近期望的結(jié)果,可避免特征結(jié)構(gòu)、旋轉(zhuǎn)等因素的影響以及找不準對應(yīng)點帶來的誤差。
其中BP神經(jīng)網(wǎng)絡(luò)的學習過程由正向傳播和反向傳播組成,正向傳播過程輸出的結(jié)果與實際期望不相符時,則轉(zhuǎn)入反向傳播。反向傳播通過誤差分攤的思想,使誤差沿梯度方向下降。正向傳播與反向傳播是周而復(fù)始地進行的,是權(quán)值不斷調(diào)整以及網(wǎng)絡(luò)學習訓(xùn)練的過程,直到輸出的誤差減少到可接受的程度或達到預(yù)先設(shè)置的學習次數(shù)為止,其中BP神經(jīng)網(wǎng)絡(luò)模型如圖4所示。
圖4 BP神經(jīng)網(wǎng)絡(luò)模型圖Fig.4 BP neural network model diagram
其中前向傳播首先根據(jù)屬性的個數(shù)設(shè)置輸入層神經(jīng)單元的個數(shù),除了輸入層外其他各層的輸入值為上一層輸出值與各自權(quán)重wij乘積后累加的結(jié)果加上偏置θj,每個結(jié)點的輸出值等于輸入值在激活函數(shù)f(?)的作用下作變換,則前向傳播輸出層的計算過程如下式所示:
因最初神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置都是隨機獲取,因此需要根據(jù)網(wǎng)絡(luò)的輸出層調(diào)整網(wǎng)絡(luò)的權(quán)重值和偏置值縮小差異。逆向傳播過程如公式(21)所示:
其中,Ej表示第j個結(jié)點的誤差值,Oj表示第j個結(jié)點的輸出值,Wjk表示當前層的結(jié)點j到下一層結(jié)點k的權(quán)重值,Ek表示下一層結(jié)點k的誤差率。
權(quán)重值和偏置值調(diào)整公式如下所示:
其中,λ∈(0,1),表示學習率。
BP神經(jīng)網(wǎng)絡(luò)因其具有較強的自適應(yīng)性和自學習能力,以及能夠以任意精度逼近任何非線性連續(xù)函數(shù)使其很好地求解內(nèi)部機制復(fù)雜的問題,而被應(yīng)用于手寫漢字評價中,將手寫漢字中提取的特征作為BP神經(jīng)網(wǎng)絡(luò)輸入值,通過學習輸入數(shù)據(jù)的隱藏規(guī)則輸出手寫漢字的評價。
為了手寫漢字的書寫質(zhì)量評價效果更優(yōu)秀,實驗采用了神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)計算方法相結(jié)合的方法。手寫漢字的特征值越詳細,BP神經(jīng)網(wǎng)絡(luò)對手寫漢字進行評價的效果以及反饋越好。一些研究人員借助聯(lián)機工具,獲取到更多可利用的手寫漢字信息[37]。例如,根據(jù)筆畫的起點和端點、筆勢的走向、筆畫的像素點集合等,這些信息在圖像處理過程中較難獲取,并且通常都會對手寫漢字評價是否全面起到關(guān)鍵作用。
黃峰[38]利用聯(lián)機設(shè)備獲取到每個手寫漢字的關(guān)鍵點以及筆畫端點坐標等信息,通過外包矩陣以及重心的距離比值等方法得到手寫漢字的筆畫、部件特征,將其作為BP神經(jīng)網(wǎng)絡(luò)的輸入進行訓(xùn)練,從而構(gòu)建了手寫漢字評價模型。Sun等人[39]通過3個4層的BP神經(jīng)網(wǎng)絡(luò),分別對全局特征、布局特征以及混合特征進行美感分析,并且使用支持向量機對全局特征進行分類,這種方法更多專注于手寫漢字的全局特征,不能滿足漢字書寫質(zhì)量評價的細節(jié)需求。耿曉艷等人[40]利用三層BP神經(jīng)網(wǎng)絡(luò)分別構(gòu)建了四個評價模型,對9項(復(fù)雜度、形態(tài)結(jié)構(gòu)特征、黑像素總數(shù)等)特征進行不同組合作為輸入值,得到11個角度的手寫漢字評價,該方法只對標準體的漢字具有較好的評價效果。
以上方法進行手寫漢字的書寫質(zhì)量評價時,其準確性與運行速率將受到BP神經(jīng)網(wǎng)絡(luò)和手寫漢字特征兩方面的影響。
BP神經(jīng)網(wǎng)絡(luò)方面:(1)因BP神經(jīng)網(wǎng)絡(luò)需要解決復(fù)雜的非線性化問題,權(quán)值是通過局部改善的方法逐漸調(diào)整,從而權(quán)值容易收斂于局部極小點,使手寫漢字評價的訓(xùn)練結(jié)果達不到最優(yōu)效果。(2)BP神經(jīng)網(wǎng)絡(luò)對初始權(quán)值非常敏感,而隨機獲取的不同初始化權(quán)值極易出現(xiàn)收斂于不同局部極小值的情況,導(dǎo)致每次訓(xùn)練得到不同結(jié)果。相同手寫漢字在同一評測規(guī)則下評分結(jié)果應(yīng)該保持一致,而BP神經(jīng)網(wǎng)絡(luò)的運算結(jié)果并不滿足以上評分條件。(3)BP神經(jīng)網(wǎng)絡(luò)算法本質(zhì)為梯度下降法,調(diào)整權(quán)值的方向由誤差與權(quán)值的一階導(dǎo)數(shù)決定,而在BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,慣性因子是固定的,這導(dǎo)致BP神經(jīng)網(wǎng)絡(luò)的收斂速度達不到理想狀態(tài),并且為了保證BP神經(jīng)網(wǎng)絡(luò)的收斂性,學習率必須小于某一閾值,這同樣導(dǎo)致收斂速度不理想,影響手寫漢字評價的運行速度。
手寫漢字特征方面:目前并沒有總結(jié)出可以完全描述手寫漢字特點的特征值,而是將獲得的信息全部進行手寫漢字評價,但有些手寫漢字特征的信息包含在其他組合手寫漢字特征中[41]。例如手寫漢字的重心、面積和長寬比數(shù)值的組合特征就可得出手寫漢字距離各邊框的長度,特征提取時就可以忽略被包含的特征,所以分析出一組可得到手寫漢字全面評價的特征是非常重要的。該方法為了獲得更多有用信息,得到較全面的評價使用了聯(lián)機設(shè)備,而在生活中每個人擁有聯(lián)機設(shè)備是不現(xiàn)實的。為了廣泛普及手寫漢字評價,如何在不使用聯(lián)機設(shè)備的情況下,高效、準確地提取出手寫漢字特征,獲得更多有價值信息是值得去研究的。
(2)基于卷積神經(jīng)網(wǎng)絡(luò)的方法
卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在計算機視覺領(lǐng)域取得了巨大的成功,其不僅具有表達效果隨著網(wǎng)絡(luò)層數(shù)的增加而增加的優(yōu)點,而且無需手動選取特征。在手寫漢字評價中,之前所有方法都需要人工參與提取特征,算法只是根據(jù)特征進行分類或預(yù)測,因此人工提取的特征才對書寫質(zhì)量評價的性能起到了關(guān)鍵作用。特征提取不僅需要專業(yè)知識而且還花費大量人力。目前,因手寫漢字結(jié)構(gòu)復(fù)雜,局部特征的提取效果較差并且提取的特征數(shù)量有限等問題在一定程度上限制了評價的全面性,而卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)似乎打破了這種僵局[42]。
典型的卷積神經(jīng)網(wǎng)絡(luò)通常包括卷積、池化以及全連接三種基本操作,對圖像不斷進行卷積和池化運算,在保留圖片重要信息的前提下提取圖片的抽象特征。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖5所示。
圖5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Convolutional neural network structure
卷積層(convolutional layer)是卷積神經(jīng)網(wǎng)絡(luò)運算的核心。卷積層利用不同尺度的卷積核對輸入數(shù)據(jù)進行卷積運算,當前層的特征是利用激活函數(shù)將輸出值進行非線性變換得到,如式(26)所示:
池化層(pooling layer)主要對卷積層的特征進行降維,將像素矩陣大小降為原來尺寸的1/n,可減少計算數(shù)量,避免由特征數(shù)量過多造成溢出現(xiàn)象,其公式如下所示:
全連接層(full connection layer)實現(xiàn)了特征到類別的轉(zhuǎn)換,用于綜合前向提取的特征,可以將卷積層或池化層中具有類別區(qū)分性的局部信息進行整合。每個神經(jīng)元的輸出公式如下所示:
其中,wki表示第k層與前i層的連接強度,bk表示偏置,f(?)表示激活函數(shù)。
Dropout層也是卷積神經(jīng)網(wǎng)絡(luò)的常用結(jié)構(gòu),其通過隨機減少單元之間的連接,在整體網(wǎng)絡(luò)中隨機采樣一個網(wǎng)絡(luò)并且更新采樣網(wǎng)絡(luò)的參數(shù),提高網(wǎng)絡(luò)的泛化能力。
卷積神經(jīng)網(wǎng)絡(luò)能夠自動從圖片中提取特征,通過卷積層自行抽取圖像的形狀、圖形的拓撲結(jié)構(gòu)以及圖片內(nèi)部一些人工無法提取的復(fù)雜結(jié)構(gòu)特征,避免了傳統(tǒng)算法中特征提取和數(shù)據(jù)重建過程,所以將其應(yīng)用在手寫漢字評價上可提高特征提取的質(zhì)量。其中莊子明[43]提出利用卷積神經(jīng)網(wǎng)絡(luò)進行手寫漢字評價,主要利用以下三部分對手寫漢字的美觀度進行評價:CNN網(wǎng)絡(luò)提取手寫漢字特征值;CNN網(wǎng)絡(luò)監(jiān)督信號;相似度檢索以及美感評分。其思路為將手寫漢字與具有分數(shù)的手寫漢字數(shù)據(jù)庫進行相似度檢索,根據(jù)檢索出具有分數(shù)的手寫漢字確定輸入手寫漢字的分數(shù),手寫漢字相似度檢索包括:特征提取和特征的距離計算,其中特征提取的網(wǎng)絡(luò)圖如圖6[43]所示。
圖6 手寫漢字特征提取CNN網(wǎng)絡(luò)Fig.6 Handwritten Chinese character feature extraction CNN network
在手寫漢字特征提取CNN網(wǎng)絡(luò)中,研究者構(gòu)造了基于maxout結(jié)構(gòu)的特征提取CNN網(wǎng)絡(luò),包括4個卷積層、4個池化層、4個maxout層、1個dropout層、1個全連接層以及2個不同的損失層。
卷積層和全連接層使用了ReLU激活函數(shù),其公式如下所示:
在卷積神經(jīng)網(wǎng)絡(luò)中,不同激活函數(shù)適用的網(wǎng)絡(luò)類型以及領(lǐng)域不同,而激活函數(shù)的選取一般由經(jīng)驗或?qū)嶒灈Q定,但由于經(jīng)驗可能出現(xiàn)不準確的情況,實驗的驗證時間較長,所以激活函數(shù)的選擇成了難點。而兩個或兩個以上的maxout單元可以很好地逼近任意一個連續(xù)函數(shù),使其不僅能在后向傳遞梯度時避免梯度消失/溢出等問題,還能阻止ReLU函數(shù)存在單元失活的問題,并且maxout單元還可以學習隱含單元之間的關(guān)系和激活函數(shù),避免非線性激活函數(shù)引起的單元非活性化。Maxout的提出解決了激活函數(shù)選擇困難的問題,但maxout存在激活值不稀疏的缺點,限制了分類精度,而ReLU函數(shù)不僅可以增加網(wǎng)絡(luò)的稀疏性并且可以緩解過擬合問題。
Dropout能夠訓(xùn)練共享參數(shù)的單元模型,并且均衡這些單元模型,避免在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,提高模型特征學習能力。Dropout在后向傳播中更新不同訓(xùn)練子集上的不同模型,而傳統(tǒng)模型在激活函數(shù)的限制下都是總體訓(xùn)練,不能滿足dropout理想的總體分塊訓(xùn)練。Maxout利用自身的單元連續(xù)線性分段特性和特征子空間池化作用,將dropout根據(jù)掩碼的不同選擇使梯度變化傳播到網(wǎng)絡(luò)的最底層,從而確保模型中每個參數(shù)都可進行dropout訓(xùn)練,促進了dropout優(yōu)化并且提高了dropout快速近似模型平均技術(shù)的準確性。所以在圖6中maxout、dropout以及ReLU函數(shù)結(jié)合使用可有效地提高各自性能,在保留圖片重要信息的前提下多次卷積和池化運算可以提取圖片的抽象特征,用于特征的距離計算。
根據(jù)不同漢字書寫圖像提取的特征值相似度較低這一特征設(shè)置了漢字識別監(jiān)督信號;相同漢字書寫圖像提取的特征值相似度較高這一特征設(shè)置了漢字驗證監(jiān)督信號。漢字識別監(jiān)督信號和漢字驗證監(jiān)督信號這兩方面組成了監(jiān)督信號。
漢字識別監(jiān)督信號以及漢字驗證監(jiān)督信號的損失函數(shù)如以下公式[43]所示:
其中,式(30)中X、Y分別表示樣本集合以及樣本分數(shù)類標號,W表示卷積網(wǎng)絡(luò)的參數(shù)。表示為第i個樣本前向傳遞到softmax層第j個單元的概率值,m為批處理參數(shù),l{?}為指示性函數(shù)。式(31)中x1和x2表示為一個批處理中的所有圖像。Z表示這對手寫漢字圖像是否為同一個字。表示這對手寫漢字特征值的距離。
該網(wǎng)絡(luò)總體損失函數(shù)為:
其中,λ表示兩個損失函數(shù)的平衡系數(shù)。
在相似度檢索和美感評分部分中,利用余弦距離計算提取出手寫漢字的特征值與k類預(yù)先訓(xùn)練好的模板漢字特征之間的距離,得到k個概率值,則手寫漢字的分數(shù)為概率值最大的模板漢字分數(shù)。
余弦距離的計算如下所示:
其中,x1和x2分別表示不同手寫漢字的特征向量。
實驗在收集的109 655張小學生手寫漢字上進行測評,結(jié)果表明手寫漢字的美感評分總體準確率可以達到95.78%。
上述基于神經(jīng)網(wǎng)絡(luò)的方法在手寫漢字評價任務(wù)上取得了較好的效果。運用深度學習的方法自動學習手寫漢字中的特征,避免人工提取特征過程中的誤判,并且深度學習的分布表示隨著數(shù)據(jù)量的增加而變好。目前需要人工特征提取的方法存在以下兩種缺點:(1)在不使用聯(lián)機設(shè)備的情況下,獲取到手寫漢字的特征僅限于重心、邊距和筆畫等,對手寫漢字進行全面評價任面臨一系列困難。(2)手寫漢字評價系統(tǒng)最受初學者的歡迎,但初學者在進行漢字書寫時,將每一個筆畫當做繪畫處理并沒有體現(xiàn)出漢字的結(jié)構(gòu)化,而手寫漢字的結(jié)構(gòu)化也是書寫質(zhì)量的評價標準之一[44]。所以初學者的手寫漢字很容易出現(xiàn)筆畫與模板漢字筆畫差距較大導(dǎo)致筆畫匹配問題。筆畫匹配主要通過尋找手寫漢字相對模板漢字筆畫的不同幾何變換參數(shù)來判斷[45],對不規(guī)范漢字筆畫的匹配存在主觀性的閾值限定。因此,利用深度學習進行手寫漢字評價可有效解決人工提取特征困難以及筆畫匹配等缺點,所以深度學習將推動手寫漢字評價發(fā)展。
2.4.2 基于機器學習的其他方法
除了以上基于深度學習的方法,手寫漢字的書寫質(zhì)量評價還涌現(xiàn)出其他方法。其中祁亨年等人[46]提出利用概率分布計算漢字的對稱性、勻稱性以及緊湊性,以此作為書寫結(jié)構(gòu)的評價指標,利用支持向量機對手寫漢字進行三種不同級別的分類。此方法可在宏觀上對手寫漢字進行評測,較難對手寫漢字的筆畫、部件等細節(jié)形成指導(dǎo)意見,并且用分數(shù)的方式對書寫質(zhì)量進行評價,用戶無法知道手寫漢字的錯誤位置以及如何改正。溫麗敏[47]在書法審美評價中提出將手寫漢字的筆段端點、筆段拐點和運筆力度節(jié)奏三個特征以及其他信息輸入EMD(earth mover’s distance)模型進行相似度的計算,得到手寫漢字評價。黃峰[38]利用“質(zhì)點—彈簧”能量模型(mass spring method,MSM)對手寫漢字進行評測,此模型可以容易地識別出手寫漢字與模板漢字的變形程度。通過計算手寫漢字特征值與模板漢字特征值之間的能量差實現(xiàn)手寫漢字的評價。實驗結(jié)果說明在相同數(shù)據(jù)集、冗余度為10的情況下,彈性網(wǎng)格評價效果的一致率為92.14%,BP神經(jīng)網(wǎng)絡(luò)評價效果的一致率為93.21%。“質(zhì)點—彈簧”能量模型的評價效果較低的原因是利用手寫漢字的特征值比BP神經(jīng)網(wǎng)絡(luò)少,僅利用筆畫的起點、終點等信息很難判斷筆畫變形的原因,所以生成指導(dǎo)意見的效果也沒有BP神經(jīng)網(wǎng)絡(luò)的評價效果好。
以上方法促進了手寫漢字評價的發(fā)展。這些方法遵循以下步驟:(1)利用不同的方法提取手寫漢字特征。(2)特征匹配。(3)特征相似度計算?;谝?guī)則的方法依賴專業(yè)領(lǐng)域人工制定規(guī)則,通過規(guī)則匹配識別各種手寫漢字特征,此方法雖然在研究者制定的數(shù)據(jù)集上收獲較高的提取效果,但構(gòu)建這些規(guī)則不僅耗時耗力,難以概括所有規(guī)則,而且可移植性較差?;谔卣飨嗨贫鹊姆椒▽κ謱憹h字的規(guī)范性起點要求比較高,其中字體大小對書寫質(zhì)量評分影響較大,而無法體現(xiàn)手寫漢字本質(zhì)的評分。模糊矩陣的方法更適合評價具有獨特風格的手寫漢字。這兩種方法相比規(guī)則的方法,在特征提取方面不但可以更簡便地提取結(jié)構(gòu)復(fù)雜的筆畫等特征,并且提取特征的質(zhì)量有了很大的提升?;谏窠?jīng)網(wǎng)絡(luò)的方法相比其他方法,具有兩大優(yōu)勢:(1)卷積神經(jīng)網(wǎng)絡(luò)可以從圖片中學習更復(fù)雜的特征;(2)可以處理大規(guī)模數(shù)據(jù)。其缺點是在網(wǎng)絡(luò)訓(xùn)練的過程中,可能會忽視手寫漢字中重要的特征,所以重要特征還需要人工提取與卷積神經(jīng)網(wǎng)絡(luò)一同進行評價。并且基于深度學習的手寫漢字評價需要擁有樣本豐富且數(shù)據(jù)量較大的數(shù)據(jù)集,而現(xiàn)實中這樣的數(shù)據(jù)集十分稀少,大部分研究者自己構(gòu)建數(shù)據(jù)集。這樣造成了面對同一任務(wù)時因數(shù)據(jù)集的不同而無法對比各種方法的效果。
近年來,大數(shù)據(jù)和機器學習技術(shù)為傳統(tǒng)的手寫漢字評價方法帶來了巨大變革,其可以在花費極少的人力、物力以及財力的基礎(chǔ)上,完成手寫漢字評價。手寫漢字評價的核心問題是通過特征值之間的差距完成評價,因此本質(zhì)上可以看做手寫漢字的特征值差異與評價的映射問題。而如何將手寫漢字的評價在內(nèi)容以及視覺上反饋給用戶已經(jīng)成為數(shù)據(jù)到文本生成、字形匹配以及圖形輔助等技術(shù)發(fā)展的支持部分[4],其關(guān)系如圖7所示。
圖7 手寫漢字評價反饋形式Fig.7 Feedback form of handwritten Chinese character evaluation
數(shù)據(jù)到文本生成是文本生成任務(wù)中重要的一類,主要利用給定的數(shù)據(jù)庫、電子表格以及專家系統(tǒng)知識庫等數(shù)據(jù),生成貼近事實、描述流暢的相關(guān)文本[48]。數(shù)據(jù)到文本生成可以作為手寫漢字評價任務(wù)的輔助技術(shù):將手寫漢字與模板漢字特征之間的差值作為輸入,旨在生成貼近事實的文本描述數(shù)據(jù)。其目標是實現(xiàn)計算機與人類有效的溝通,加深用戶對手寫漢字評價的理解,實現(xiàn)評價自動撰寫,有效減少教師的工作。
現(xiàn)如今,數(shù)據(jù)到文本的生成任務(wù)主要利用基于規(guī)則和模板的方法,因其具有極強的可控性和可解釋性,容易確保輸出文本的準確性[49]。其中Gkatzia等人[50]針對天氣預(yù)報的生成,利用不確定信息推薦準則與模擬專家的方式提出了兩種基于規(guī)則的方法。此方法中模板的抽取離不開人工特征,并且生成內(nèi)容的多樣性與流暢性也存在問題。
基于神經(jīng)網(wǎng)絡(luò)模型主要依靠數(shù)據(jù)驅(qū)動,不需要較多的人工干預(yù),也容易產(chǎn)生流暢的文字描述,但無法掌控內(nèi)容生成,難以確保輸出文本同輸入數(shù)據(jù)中的信息吻合[51]。其中文獻[52]改變了原有模型中沒有明確模擬文本生成順序的弊端,而將端到端的訓(xùn)練模型分為了內(nèi)容規(guī)劃、句子規(guī)劃以及表面實現(xiàn)三種模塊,文本生成效果有了很大的提升,但此方法無法充分利用數(shù)據(jù)結(jié)構(gòu)的信息,對具體數(shù)值推理存在巨大問題。針對以上問題,許曉泓等人[53]對內(nèi)容規(guī)劃進行改進,采用基于Transform的內(nèi)容規(guī)劃用于上下文數(shù)據(jù)信息的推理,并且通過生成指引序列控制輸出文本的流暢性。實驗結(jié)果說明,改進的內(nèi)容規(guī)劃使性能有了較大的提高。
相比基于規(guī)則的數(shù)據(jù)到文本生成方法,數(shù)據(jù)驅(qū)動的方法不需要專家參與,生成的文本可能與領(lǐng)域無關(guān),但需要大規(guī)模的數(shù)據(jù)集進行訓(xùn)練數(shù)據(jù),數(shù)據(jù)的訓(xùn)練質(zhì)量影響訓(xùn)練結(jié)果。將其應(yīng)用于手寫漢字評價中,存在手寫漢字與模板漢字特征之間的差值數(shù)據(jù)選擇由計算機進行挑選,生成的文本不一定滿足復(fù)雜數(shù)據(jù)的問題。例如,在一章手寫漢字中找到一個整體書寫質(zhì)量最差的漢字,則其筆畫或字體大小等某一特征一定存在分數(shù)較差的問題,而這并不代表其所有特征在這一章中是最差的。
字形匹配是指將手寫漢字的筆畫與模板漢字的筆畫進行匹配,找到一個筆畫數(shù)量最多的匹配集合,集合找到手寫漢字筆畫集合中的交叉關(guān)系與模板漢字筆畫集合中的交叉關(guān)系是一致的,以上就完成了手寫漢字筆畫與模板漢字筆畫之間的對應(yīng)關(guān)系。將字形匹配與手寫漢字評價相結(jié)合,字形匹配可以結(jié)合圖形輔助以圖的方式出現(xiàn),使用戶更加了解自己書寫漢字的缺點,增強用戶體驗感。Hu等人[54]利用屬性關(guān)系圖表示漢字,建立漢字筆畫之間的空間關(guān)系模型,并利用容錯圖匹配筆畫和部件關(guān)系的錯誤。劉穎濱等人[55]提出在三維空間建立高斯混合型模型,利用三維空間可以充分定義字形信息,改善字形匹配的效果。Chen等人[56]根據(jù)輸入筆畫順序關(guān)鍵信息、筆畫之間全局結(jié)構(gòu)關(guān)系以及對歸類的筆畫與模板漢字匹配等問題進行反饋,輔助教師進行手寫漢字評價。
該類方法只適用于小范圍的數(shù)據(jù)集,很難接受變形較大的手寫漢字。例如,對于手寫漢字的初學者,他們對手寫漢字的書寫僅是模仿,下筆的力度也不能靈活掌握,這會產(chǎn)生想象不到的筆畫形變,這時字形匹配的效果也達不到想要的效果,所以字形匹配的方法還需要研究者進一步探索。
規(guī)范且易于理解的反饋形式具有更好的用戶體驗感?,F(xiàn)有的手寫漢字評價反饋形式主要有以下幾種:評價文本、打分、圖形輔助等。評價文本可以直接將手寫漢字的缺點以文本的形式展示出來,但表現(xiàn)形式不夠直觀,不易用戶理解,并且對于一部分閱讀經(jīng)驗不足的用戶來說,并不能全部理解評價文本的內(nèi)容。評價以打分或等級的形式出現(xiàn),只是通過這種方法評價用戶的手寫漢字達到規(guī)范的程度,用戶無法知道手寫漢字的具體錯誤、如何修改等信息,用戶體驗較差,如圖8(a)所示[56]。圖形輔助的手寫漢字評價可以利用幾何圖形在圖中標注出手寫漢字具體不規(guī)范的位置,如圖8(b)所示[57],圖中將模板漢字與用戶書寫的漢字疊加展示并且使用動物圖片提供更多的視覺反饋,激勵用戶更好地認識漢字。與文本生成和字形匹配這兩種方式相比,圖形輔助這種方式更加直觀,具有較好的用戶體驗。
圖8 評價的反饋方式Fig.8 Feedback mode of evaluation
以上三種方式都是靜態(tài)的反饋形式,在規(guī)范性指導(dǎo)方面還不夠具體。例如無法與用戶交流書寫錯誤如何改正,并提供正確的修改事例。所以在圖像輔助方面還需要借助各種動畫技術(shù)以及自動問答技術(shù)的支持,對手寫漢字的評價進行反饋指導(dǎo)和改進指導(dǎo),這樣才能加強用戶體驗,充分發(fā)揮計算機的輔助作用。
近年來研究者針對手寫漢字評價進行了大量研究工作并且獲得了不錯的研究成果,但仍存在許多要解決的問題,目前關(guān)鍵問題如以下幾點:
(1)數(shù)據(jù)來源匱乏
手寫漢字的書寫質(zhì)量評價系統(tǒng)需要一個大規(guī)模且樣本豐富的數(shù)據(jù)集。而目前手寫漢字的數(shù)據(jù)集大多關(guān)于手寫漢字識別,缺少對每個漢字的評價以及分數(shù)。也有一部分數(shù)據(jù)集數(shù)據(jù)樣本數(shù)量較少,這給研究帶來了一定的困難。例如孫榕鞠等人整理的CHAED字庫,它包括30個人書寫10種不同字體的100個漢字,由33個專業(yè)人士對此數(shù)據(jù)集進行評分。此數(shù)據(jù)集中手寫漢字種類數(shù)量較少,無法全部代表復(fù)雜的漢字,并且評價的反饋形式只有評分,這對生成一個完備的評價存在一定困難。
目前研究者的數(shù)據(jù)集根據(jù)反饋形式大多自行采集,收集和整理這些數(shù)據(jù)需要花費大量的人力、物力以及財力。例如黃峰[38]的數(shù)據(jù)是通過收集某三年級學生手寫漢字集成,每個學生需要書寫8遍具有28個漢字的樣本,還需要專家在每個實驗樣本中隨機挑選20個漢字進行評分。沒有全面且公開的手寫漢字評分數(shù)據(jù)集,很難對不同方法進行效果比較,給手寫漢字書寫質(zhì)量評價的研究和發(fā)展帶來困難。面對數(shù)據(jù)來源困難可參考自然語言處理或計算機視覺領(lǐng)域的數(shù)據(jù)擴建方法,利用半監(jiān)督學習、無監(jiān)督學習實現(xiàn)數(shù)據(jù)的自動構(gòu)建以及遷移學習等方法都可以作為解決該問題的方法。而如何將遷移學習應(yīng)用在手寫漢字評價中,還需要進一步研究。
(2)脫機手寫漢字筆序難判斷
根據(jù)計算機最終得到手寫漢字的信息不同,可將其分為聯(lián)機手寫漢字[58]和脫機手寫漢字[59]。聯(lián)機手寫漢字是指直接在電子屏等電子儀器上書寫,可以實時檢測筆畫的順序以及筆畫總數(shù)等多種信息,較容易提取漢字的多種特征值。脫機手寫漢字是指沒有電子屏等電子儀器的參與,計算機得到的只有手寫漢字圖片信息。脫機手寫漢字相比聯(lián)機手寫漢字提取的漢字特征值比較少,所以評價的效果不如聯(lián)機手寫漢字的評價好。
規(guī)范的漢字書寫要求筆序必須書寫正確。成授昌[60]提出手寫漢字的統(tǒng)一、對稱等方面都與筆序相關(guān),正確的書寫順序可以提高手寫漢字的書寫質(zhì)量和書寫速度,所以筆序?qū)σ?guī)范的漢字書寫是非常重要的。教師在“三筆一畫”與小學生的語文考試中,手寫漢字的筆序也占一定的分數(shù)。聯(lián)機手寫漢字較容易獲得筆序等信息,所以評價手寫漢字筆序的效果較好[61]。因脫機手寫漢字進行手寫漢字評價時,得到的只有手寫漢字圖片,所需要的信息只能利用圖片處理等技術(shù)得到,筆序等信息無法在圖片上體現(xiàn)。為了得到手寫漢字筆序相關(guān)信息,有研究者利用規(guī)則的方法判斷手寫漢字的正確筆序,卻得不到書寫者的筆序信息。所以如何評判脫機手寫漢字中筆序的正確性,還具有一定的挑戰(zhàn)難度。
(3)手寫漢字的筆畫拆分難
筆畫質(zhì)量是書寫質(zhì)量評價中重要的評估項之一。而手寫漢字的筆畫拆分過程是一個十分困難的過程。筆畫與筆畫之間的關(guān)系有:相接、相交、相離[18]。筆畫相離的手寫漢字比較容易進行筆畫拆分,但漢字大部分都具有結(jié)構(gòu)復(fù)雜、筆畫數(shù)較多的特點,其中存在大量的相接、相交、相離關(guān)系,僅解決相離問題是不能完成筆畫的拆分過程。
目前關(guān)于脫機手寫漢字筆畫拆分的解決方法之一[38]是,利用PS工具圈出所要提取的手寫漢字筆畫。此方法雖然提取的效果較好,但如果評價的書法字數(shù)據(jù)量大時,則需要花費大量的時間拆分筆畫。除此之外,朱欣蔚等人[62]利用PBOD算法找出手寫漢字的交叉區(qū)域以及端點區(qū)域,將手寫漢字的端點區(qū)域以及交叉區(qū)域在無向圖中表示出來,利用規(guī)則對各區(qū)域進行組合實現(xiàn)拆分筆畫。但PBOD算法只對規(guī)范漢字進行筆畫提取的效果較好,卻無法較好地分離不規(guī)范漢字的筆畫。關(guān)于聯(lián)機手寫漢字的筆畫拆分方法是筆段的拆分與合并[63],該方法需要提前建立大量的工作:建立32種不同筆畫的筆畫庫,對難以區(qū)分的筆畫通過建立規(guī)則以正確區(qū)分筆畫。該方法利用拐點將筆畫分為筆段,對于初學者來說,由于手寫漢字中存在變形較大的筆畫,對筆畫的分段存在劃分不準確的情況,致使筆畫編碼錯誤,所以該方法對初學者的筆段提取精確率不高。
雖然在光學字符識別(optical character recognition,OCR)領(lǐng)域還有許多關(guān)于筆畫提取的成果[64](如細化的方法、區(qū)域分解法等),但這些方法允許結(jié)果有一定的誤差,且對每個手寫漢字提取筆畫計算時間過長[65]。所以如何快速、準確地得到筆畫的特征值是一個值得去思考的問題。
(4)手寫漢字評價的標準量化困難
評價標準是評價的核心,用來規(guī)定當前手寫漢字中筆畫等特征達到不同范圍的對應(yīng)分值準則。研究者對手寫漢字的評價關(guān)注點從對稱性、勻稱性等描述手寫漢字全局的特征,逐步轉(zhuǎn)到筆畫、部件等描述手寫漢字局部的特征,評價手寫漢字的書寫質(zhì)量效果在不斷地改善,但評價手寫漢字的特征越細致,其評價標準范圍的選取越嚴格。
不同研究者對同一等級的手寫漢字制定規(guī)則時具有主觀性,所以會制定出不同的規(guī)則[3],不同的規(guī)則導(dǎo)致對同一等級的手寫漢字評價不同,這在手寫漢字的書寫質(zhì)量評價中是不合理的。為了初學者獲得自信,有些研究者制定的規(guī)則范圍較為寬松[66],也有一些研究者針對不同學習背景的人群,分別制定出較難和簡單兩個等級的評價標準,這種評價標準更適合應(yīng)用于大眾[56]。但因不同研究者對規(guī)范的定義不一致,即使不同的系統(tǒng)都選擇簡單的評價指標,也存在評價分數(shù)不同的現(xiàn)象。為了解決以上問題,葛佳敏[34]利用模糊概率分布和模糊綜合評價方法結(jié)合得到一個期望值范圍,解決了傳統(tǒng)評價方法簡單、具有主觀性的單一評價標準的問題。此方法中評價標準制定的數(shù)據(jù)來源于模板漢字和機器人書寫的漢字,由此得到的期望值范圍并不適用于所有書寫質(zhì)量評價。所以如何獲得一個適合大眾、具有專業(yè)性的評價標準還是值得去思考的。
目前關(guān)于手寫漢字書寫質(zhì)量評價方法的研究比較少,處于剛剛起步的狀態(tài),還有許多地方需要改進。這項技術(shù)的發(fā)展必將促進計算機輔助書寫教學的進步[5]。文中對近幾年的研究做了總結(jié),其中包括手寫漢字的相關(guān)概念、評價方法、評價難點以及反饋形式等部分。由于傳統(tǒng)的手寫漢字評價方法需要大量人力資源,研究者逐漸把目光轉(zhuǎn)移到神經(jīng)網(wǎng)絡(luò)的評價方法上,神經(jīng)網(wǎng)絡(luò)評價方法的出現(xiàn)為手寫漢字評價提供了許多新思路,但目前只是處于剛剛起步的狀態(tài),由此可以預(yù)見,手寫漢字的評價方法還有很大的發(fā)展空間需要繼續(xù)去研究。