覃朝勇,鄭 鵬,張 驍
廣西大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,南寧530004
文字識別[1]是一種備受關(guān)注的模式識別。目前,手寫數(shù)字、手寫字母的識別都取得了巨大進(jìn)步,而手寫體漢字識別研究還有待提升。漢語作為我們的母語,承載著悠久的文化底蘊(yùn),對漢字的識別研究,有利于了解中華文明,弘揚(yáng)中國文化。漢字的識別又分為在線手寫體識別和脫機(jī)手寫體識別。在線手寫體漢字是在電子設(shè)備上人工手寫形成的,書寫過程中能夠獲得其筆畫順序、筆畫方向、落筆輕重等信息,使得漢字更易被識別;后者缺乏前者獲得的這些信息,它大多是通過計算機(jī)掃描形成的,能夠看到的只有其成為圖像后的表現(xiàn)形式,其特點是數(shù)量大、風(fēng)格多樣、結(jié)構(gòu)復(fù)雜、發(fā)生過一定的形變等。因此,脫機(jī)手寫體漢字的識別難度要高于在線手寫體漢字識別。目前,國內(nèi)外研究漢字識別最熱門的方法就是深度學(xué)習(xí)技術(shù)。國內(nèi)外學(xué)者也提出了很多深度框架和學(xué)習(xí)方法,它們在圖像分析、語音識別和文本理解等方面取得了不錯的效果。文獻(xiàn)[2]引入了一種深度殘差學(xué)習(xí)框架(Deep Residual Learning Framework,DRLF)來解決層次較多時深度網(wǎng)絡(luò)出現(xiàn)的退化問題。文獻(xiàn)[3]提出了一種局部感受野受限玻爾茲曼機(jī)深度神經(jīng)網(wǎng)絡(luò)框架,該方法利用生物學(xué)啟發(fā)的高斯感受野約束來激勵局部特征的出現(xiàn),顯示了優(yōu)越的人臉完成和重構(gòu)結(jié)果。文獻(xiàn)[4]提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的端到端的框架,利用該框架不需要任何領(lǐng)域知識即可進(jìn)行手寫數(shù)據(jù)分析。文獻(xiàn)[5]提出了一種典型相關(guān)分析網(wǎng)絡(luò)(Canonical Correlation Analysis Networks,CCANet)來處理圖像分類問題,該網(wǎng)絡(luò)通過典型相關(guān)分析技術(shù)學(xué)習(xí)兩視圖多級濾波器組,構(gòu)建了級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),解決了傳統(tǒng)深度學(xué)習(xí)方法不能解決的樣本圖像由兩個視圖特征表示的情況。文獻(xiàn)[6]提出了一種二維主成分分析網(wǎng)絡(luò)(2D Principal Component Analysis Network,2DPCANet)用于研究極光圖像分類,該方法有效地利用了原始圖像的結(jié)構(gòu)信息,降低了計算復(fù)雜度。文獻(xiàn)[7]提出了一種基于平方根容積卡爾曼濾波器(Square-root Cubature Kalman Filter,SCKF)訓(xùn)練算法的遞歸神經(jīng)網(wǎng)絡(luò),該方法在相同條件下相對于原有的CKF 算法,擁有更高的估計精度。文獻(xiàn)[8]針對遞歸神經(jīng)網(wǎng)絡(luò)語言模型(Recurrent Neural Network Language Model,RNN-LM)高維隱藏層參數(shù)太多的問題,提出一種貝葉斯正則化的RNN-LM 模型,該算法在不同條件下都顯示了較強(qiáng)的魯棒性。
針對手寫字體識別,研究人員也提出了很多不錯的方法。文獻(xiàn)[9]提出了一種用于脫機(jī)手寫體漢字識別的加速和壓縮卷積神經(jīng)網(wǎng)絡(luò)的方法,在不影響網(wǎng)絡(luò)性能的前提下極大地提高卷積神經(jīng)網(wǎng)絡(luò)模型的運算速度,但不能提高脫機(jī)手寫體漢字的識別準(zhǔn)確率。文獻(xiàn)[10]提出了一種用于手寫體漢字識別的判別二次特征學(xué)習(xí)方法(Discriminative Quadratic Feature Learning,DQFL),該方法利用特征之間的二次相關(guān)性來提高特征維數(shù),然后利用判別特征提?。―iscriminative Feature Extraction,DFE)進(jìn)行維數(shù)約簡,有效地提高了識別速度,但是對于識別準(zhǔn)確率的提升并不明顯。文獻(xiàn)[11]將卷積神經(jīng)網(wǎng)絡(luò)和MQDF 融合,對手寫體漢字進(jìn)行識別,取得了一些效果,但是識別準(zhǔn)確率的提升仍然較低。文獻(xiàn)[12]提出一種層次深度神經(jīng)絡(luò)(Hierarchical Deep Neural Network,HDNN),該方法能很好地應(yīng)用于一般的多變量回歸問題中,采用分而治之的策略將復(fù)雜的多元回歸分成多個子問題進(jìn)行參數(shù)學(xué)習(xí),在聯(lián)機(jī)手寫體漢字識別任務(wù)中效果顯著,但是未對脫機(jī)手寫體漢字進(jìn)行識別。
目前大多數(shù)學(xué)者都是針對聯(lián)機(jī)手寫體漢字識別進(jìn)行研究的,對脫機(jī)手寫體漢字的研究較少,且大多是為提升識別速度,脫機(jī)手寫體漢字的識別準(zhǔn)確率仍然較低。
本文針對脫機(jī)手寫體漢字識別率較低的問題,提出一種基于MQDF 與深度玻爾茲曼機(jī)DBM 的分類器級聯(lián)模型。MQDF 在漢字識別中通常具有較高的識別性能和較低的計算復(fù)雜度。對于大多數(shù)字符分類,其梯度特征設(shè)計得很好,然而它不能自適應(yīng)地提取判別特征。MQDF假設(shè)特征滿足高斯分布,但字跡比較潦草時的特征在一定程度上不能滿足這一要求。實際數(shù)據(jù)分布與模型假設(shè)之間的差異決定了MQDF 不能徹底解決問題。深度玻爾茲曼機(jī)(DBM)從分類器的角度對層次特征進(jìn)行判別學(xué)習(xí),比傳統(tǒng)的梯度特征包含更多的判別信息。然而,在大規(guī)模分類中,DBM 的計算復(fù)雜度非常高,需要大量樣本才能訓(xùn)練具有魯棒性的DBM。MQDF 和DBM 各自特性的顯著差異,使得它們可以在此基礎(chǔ)上實現(xiàn)優(yōu)勢互補(bǔ)。實驗結(jié)果表明,MQDF-DBM在給出的識別任務(wù)中,獲得了高于單獨使用兩種分類器的識別準(zhǔn)確率,且識別速度比DBM更快。
修正的二次判別函數(shù)(Modified Quadratic Discriminant Function,MQDF)[13]是由二次判別函數(shù)(Quadratic Discriminant Function,QDF)經(jīng)過K-L變換,并用常量代替較小的特征值后改進(jìn)得來的,是貝葉斯分類器的一種。MQDF假設(shè)每類都服從高斯分布,且各類別的先驗概率相同。QDF的具體形式為:
其中,x 為輸入的特征向量,μi表示第i 類的均值,Σi表示第i 類的協(xié)方差矩陣,n 是特征維數(shù)。運用K-L變換并用常量代替較小特征值后的MQDF 分類器的具體形式為:
其中,λj表示第i 類協(xié)方差矩陣的第j 個特征值,φij表示第i 類協(xié)方差矩陣的第j 個特征向量,σ2表示用于替代較小特征值的常量。k 是截斷參數(shù),代表第k 個特征值以后的特征值將被常量σ2代替。由公式可知,特征值λj越小,對分類的影響就越大,估計誤差就會越敏感,需要的計算時間和存儲資源就越多。用一個常量代替較小的特征值后,能夠增強(qiáng)模型的魯棒性,還能減少計算時間,節(jié)約存儲空間。
受限玻爾茲曼機(jī)[14](Restricted Boltzmann Machines,RBM)是基于二分圖的無向圖模型,由可視層v 和隱藏層h 組成,可視層與可視層、隱藏層和隱藏層之間都沒有任何連接??梢妼雍碗[藏層之間可以全連接,也可以稀疏連接,一般是全連接。同層之間沒有連接使得模型訓(xùn)練起來更加高效。數(shù)據(jù)的輸入在可見層完成,特征檢測在隱藏層完成。圖1所示為一個RBM模型結(jié)構(gòu)圖。
圖1 受限玻爾茲曼機(jī)結(jié)構(gòu)圖
RBM 是具有對數(shù)線性馬爾科夫隨機(jī)場的能量模型,其概率分布是通過能量函數(shù)來定義的[15]。RBM 在模型中的狀態(tài)的具體定義如下:
其中,θ={wij,ai,bj}代表RBM的所有參數(shù),n 表示可見單元個數(shù),m 表示隱藏單元個數(shù),vi和hj分別表示第i個可見單元和第j 個隱藏單元的狀態(tài),且只能取值0和1;ai和bj分別為vi與hj的偏置,wij表示連接vi和hj的權(quán)值。
由于RBM同層無連接以及隱藏層單元間相互獨立的特性,可以通過能量函數(shù)定義{ }v,h 的聯(lián)合概率分布:
其中Z(θ)是歸一項。相應(yīng)地,可以得到每個可見單元和隱藏單元在激活狀態(tài)下的條件概率如下:
深度玻爾茲曼機(jī)[16](Deep Boltzmann Machine,DBM)是一種隨機(jī)對稱連接的無向結(jié)構(gòu),具有多個隱藏層,可近似看成由多個RBM堆疊而成。和RBM一樣,同層之間無任何連接,不同層間的神經(jīng)元全連接且各自獨立。圖2所示為一個3隱層的DBM模型結(jié)構(gòu)圖。
深度玻爾茲曼機(jī)也是基于能量的模型,是玻爾茲曼機(jī)模型的一種,由于是由RBM堆疊而成,可以類似地得到可見層與隱藏層之間的能量函數(shù):
圖2 含三隱層的深度玻爾茲曼機(jī)
其中Ω={W1,W2,W3,B,A1,A2,A3}為模型參數(shù),W1、W2、W3分別為連接可見層與第一隱藏層,第一隱藏層與第二隱藏層,第二隱藏層與第三隱藏層的權(quán)值參數(shù)。B 為可視層偏置,Ai為第i 隱藏層的偏置。由能量函數(shù),可知各層為激活狀態(tài)時,即狀態(tài)為1時的概率分布。
可見單元向量v 為激活狀態(tài)時的概率分布為:
各隱藏單元j、m、n 與可見單元i 為激活狀態(tài)時的概率分布為:
由于深度玻爾茲曼機(jī)有多個隱藏層,訓(xùn)練參數(shù)過多且難以優(yōu)化,使得學(xué)習(xí)時間過長,因此常常對模型進(jìn)行預(yù)訓(xùn)練,加速學(xué)習(xí)過程。而多隱藏層和大量的參數(shù)又使得模型存在的不確定性大幅度增加,因此在應(yīng)用中常常采用三層的玻爾茲曼機(jī),即只在輸入層與輸出層之間添加一個隱藏層。
修正的二次判別函數(shù)與深度玻爾茲曼機(jī)的混合模型可以分成三個部分,如圖3 所示,分別為特征提取、訓(xùn)練和識別。在識別之前,需要對輸入的漢字圖像做一些預(yù)處理,如調(diào)整為同一分辨率、去除噪聲、二值化等等,訓(xùn)練MQDF時還要運用主成分分析等方法降維;之后再同時運用MQDF 和DBM 對訓(xùn)練樣本進(jìn)行訓(xùn)練,訓(xùn)練時MQDF 提取梯度特征,DBM 提取層次特征;最后根據(jù)MQDF 的訓(xùn)練結(jié)果來與DBM 組合進(jìn)行最終的識別。
圖3 MQDF與DBM混合模型
由于MQDF對簡單漢字識別效果較好,因此只有少量識別率較低的樣本需要DBM再次識別,即為MQDFDBM 模型。為此,首先設(shè)置一個廣義識別置信度[17]R來度量MQDF 的識別可靠度,當(dāng)廣義置信度R 大于閾值T 時,就認(rèn)為MQDF識別有效,將輸出結(jié)果作為最終結(jié)果;反之就認(rèn)為MQDF 的識別無效,將樣本輸入MQDF-DBM 模型重新識別。輸出MQDF 的前兩個識別差d1和d2(d1<d2),廣義置信度R 被定義為:
當(dāng)d1和d2很接近時,即R 趨近于0,說明該樣本與這兩個類都很接近,很容易被錯誤分類,所以需要將該樣本輸入到MQDF-DBM 模型再次識別;反之,R 越趨近于1,說明d1和d2相差越大,被錯誤分類的可能就越小,MQDF的分類結(jié)果就越準(zhǔn)確。
MQDF 提取的是梯度特征,而DBM 提取的是分層特征,所以在融合識別之前,需要將二者提取的特征協(xié)調(diào)到同一可比較的水平中。用ci表示第i 個候選類的標(biāo)簽,xg和xh分別代表梯度特征和層次特征。MQDF的識別差,滿足如下公式:
根據(jù)公式(14),MQDF 的后驗概率p(ci|xg)可以根據(jù)前q 個候選類計算獲得[18]。DBM可以直接輸出類標(biāo)簽和相應(yīng)的概率,其后驗概率p(ci|xh)通過正則化前q個可能類別,然后再重新計算得到。
根據(jù)得到的后驗概率p(ci|xg)和p(ci|xh),可以采用置信累積[19](Linear Confidence Accumulation,LCA)算法,通過線性加權(quán)求和得到:
式中α 和β 為加權(quán)因子,用以表示MQDF 和DBM所展示的性能。因此當(dāng)前漢字圖像經(jīng)過MQDF-DBM 模型識別后的結(jié)果為:
由于α 和β 的值不影響式的結(jié)果,因此可以假設(shè)α+β=1。
綜上,MQDF-DBM 混合模型的最終識別結(jié)果可表示為:
其中,wMQDF為MQDF的最佳識別結(jié)果。
MQDF-DBM 算法步驟如下所示,先對數(shù)據(jù)進(jìn)行預(yù)處理。
訓(xùn)練階段:
第一步:利用數(shù)據(jù)對MQDF 和DBM 同時進(jìn)行訓(xùn)練,MQDF提取梯度特征,DBM提取層次特征。
識別階段:
第二步:MQDF 輸出前p 個識別差(按從小到大排列)。
第三步:根據(jù)前兩個識別差,利用公式R=1-d1/d2計算每個字符的置信度。
第四步:比較置信度與閾值的大小,如果置信度R大于閾值T,則將MQDF 的輸出結(jié)果作為最終結(jié)果輸出,否則進(jìn)入下一步。
融合識別階段:
第五步:DBM輸出類標(biāo)簽和對應(yīng)的概率。
第六步:分別計算MQDF和DBM的后驗概率p(ci|xg)和p(ci|xh)。
第七步:利用線性加權(quán)得到經(jīng)過融合識別后的最終結(jié)果。
以圖4的“七”字為例,用MQDF識別出該字符的前兩個可能為“七”和“匕”,其識別差分別為0.098 5 和0.132 7(即識別概率分別為0.901 5 和0.867 3),計算出該字符的置信度R 為0.257 7,取閾值T=0.3,置信度小于閾值,需要用DBM 再次識別。最后的識別結(jié)果為92.03%概率為“七”字。融合模型有效地提高了該字符的識別準(zhǔn)確率。
圖4 “七”字示意圖
公開的脫機(jī)手寫漢字識別庫有很多,但大多數(shù)書寫相對較為規(guī)范,識別準(zhǔn)確率已經(jīng)較高,而CASIA-HWDB1.1漢字識別庫中的漢字,很多字跡書寫潦草,書寫風(fēng)格多樣,因此識別準(zhǔn)確率相對較低,為驗證本文提出的方法,選擇CASIA-HWDB1.1 脫機(jī)手寫漢字樣本庫數(shù)據(jù)進(jìn)行實驗。該數(shù)據(jù)庫由手寫單字圖像組成,其中包含171個英文數(shù)字符號,3 755個GB2312一級漢字。該數(shù)據(jù)集中的每個漢字由300 人書寫,每個漢字的樣本庫中包含240個訓(xùn)練樣本和60個測試樣本。實驗選用編號00000到00999的1 000個類別的全部樣本來訓(xùn)練。模型選擇Tensorflow 工作包實現(xiàn),實驗環(huán)境為Intel i7 3.60 GHz處理器,8 GB內(nèi)存。
在實驗過程中,為了消除圖像大小對識別結(jié)果的影響,將所有實驗漢字圖像歸一化到64×64 的大小;訓(xùn)練MQDF 時,運用主成分降維并提取588 維的梯度特征。DBM 用于識別漢字圖像時通常設(shè)置兩個隱藏層,即輸入層與輸出層之間僅有兩層RBM結(jié)構(gòu)。本實驗分兩步進(jìn)行:第一步是通過實驗來確定最優(yōu)的加權(quán)系數(shù)α 以及最優(yōu)的閾值T;第二步依據(jù)得到的最優(yōu)加權(quán)系數(shù)α 和閾值T,比較MQDF和MQDF-DBM混合模型在截斷參數(shù)k 不同的情況下的識別效果。應(yīng)用CASIAHWDB1.1數(shù)據(jù)集中所選漢字圖像樣本,選用不同閾值T 和加權(quán)系數(shù)α 對MQDF-DBM模型進(jìn)行試驗,記錄閾值T 和加權(quán)系數(shù)α 在不同組合情況下的識別準(zhǔn)確率結(jié)果。其中閾值T 在0.08 到1 之間變化;α 的取值以0.1 為間隔在0.1到0.9之間變動,得到的準(zhǔn)確率結(jié)果如圖5所示。從圖5可以看出,MQDF-DBM混合模型中,不同的閾值T和權(quán)重系數(shù)α 的組合識別效果不同。當(dāng)α 相同時,閾值T 越接近1 時,其識別效果越好,越接近0,識別效果越差,這說明DBM 在識別數(shù)據(jù)集時的效果要比MQDF好。從圖5 還能看出,無論取T 何值,權(quán)重系數(shù)α 都在[0.4,0.6]之間取值時識別效果最好。
圖5 T 和α 不同時的識別情況
表1 給出了實驗數(shù)據(jù)在DBM 分類器,以及不同截斷參數(shù)情況下的MQDF 和MQDF-DBM 分類器的識別情況。從表中可以看出,k ≤40 時,隨著截斷參數(shù)k 的增大,MQDF 和MQDF-DBM 的識別準(zhǔn)確率增高,且后者增強(qiáng)的程度更高,之后識別準(zhǔn)確率開始下降。這是由于特征值是降序排列的,后面的特征值和特征向量變?yōu)椴环€(wěn)定的噪聲,造成了特征值表示的信息不充分,才使得k 過大后反而使得識別準(zhǔn)確率降低。比較三種分類器可以發(fā)現(xiàn),使用MQDF-DBM的識別效果比單獨使用MQDF 和DBM 好,所以融合模型確實能提高脫機(jī)手寫漢字的識別準(zhǔn)確率。
表1 不同截斷參數(shù)下的識別效果%
結(jié)合圖5和表1分析,當(dāng)閾值T 大于0.3時,識別效果的提升就變得很微弱,而越大的閾值T 需要DBM識別的樣本就越多,DBM 的計算復(fù)雜度和對存儲的需求都遠(yuǎn)遠(yuǎn)高于MQDF,因此選擇T=0.3;k=40 左右識別準(zhǔn)確率達(dá)到最大,因此選擇截斷參數(shù)k=40。綜上,當(dāng)閾值T=0.3,權(quán)重系數(shù)α=0.5,截斷參數(shù)k=40 時,MQDF-DBM 融合模型的識別率達(dá)到最高,為92.07%。選取了適合的參數(shù)后,本文分別計算了三種分類器平均每識別一個字符所需時間,其中MQDF 需要9.37 ms,DBM 需要96.47 ms,MQDF-DBM 需要46.51 ms。顯然融合模型在性能上有了很大的提升。融合模型利用MQDF識別大部分漢字圖像,僅將較大可能被錯誤識別的漢字圖像結(jié)合DBM 進(jìn)行二次識別,避免了MQDF 識別復(fù)雜字符能力有限和DBM具有高計算復(fù)雜度的問題。
為了解決脫機(jī)手寫體漢字識別準(zhǔn)確率較低的問題,本文提出一種修正二次函數(shù)與深度玻爾茲曼機(jī)融合模型,通過定義一個置信度來協(xié)調(diào)兩個分類器在識別任務(wù)中的具體分工情況,從而達(dá)到理想的識別效果。修正二次函數(shù)使用梯度特征實現(xiàn),其特點是易于實現(xiàn),但是對復(fù)雜手寫圖像識別能力有限,深度玻爾茲曼機(jī)使用分層特征實現(xiàn),其特點是識別能力強(qiáng),但是模型的計算復(fù)雜度高??梢钥闯?,兩種分類器截然不同的特點,在一定程度上是可以實現(xiàn)優(yōu)勢互補(bǔ)的。實驗結(jié)果表明,融合模型有效地提高了脫機(jī)手寫體漢字的識別準(zhǔn)確率,且獲得了比DBM更快的識別速度,MQDF和DBM很好地實現(xiàn)了優(yōu)勢互補(bǔ)。