駱彥龍,畢曉君,吳立成,李霞麗
(1.哈爾濱工程大學(xué) 信息與通信工程學(xué)院, 黑龍江 哈爾濱 150001; 2.中央民族大學(xué) 信息工程學(xué)院, 北京100081)
東巴象形文字由納西族祖先創(chuàng)造,至今已有兩千多年的歷史。2003年,東巴古籍文獻被聯(lián)合國教科文組織列為“世界記憶遺產(chǎn)”名錄,成為人類共同擁有的寶貴財富。東巴象形文字的識別一直是研究的熱點和重點。早期的東巴象形文字識別研究一般采用傳統(tǒng)算法提取東巴象形文字特征進行識別,關(guān)鍵步驟一般包括圖像去噪、特征提取和分類器識別3個步驟。常用的圖像去噪方法有中值去噪、自適應(yīng)去噪和小波去噪[1];在特征提取方面,方向元素、粗網(wǎng)格[2-3]等統(tǒng)計特征比分析東巴象形文字的結(jié)構(gòu)、筆畫等結(jié)構(gòu)特征取得的效果更好;常用的分類器模型包括支持向量機[4]、隨機森林[5]等。代表性的研究有2017年徐小力等采用拓撲特征法和投影法相結(jié)合的特征提取方法,取得了84.4%的識別準確率[6]。2019年楊玉婷等通過結(jié)合東巴象形文字的結(jié)構(gòu)和形態(tài),提出了基于網(wǎng)格分辨率的東巴象形文字相似度測量算法,能夠檢索和識別不同形狀的東巴象形文字[7]。上述研究雖然取得了一定的成果,但實現(xiàn)過程復(fù)雜且效率較低,算法的識別準確率有待提高。直到2019年,隨著人工智能技術(shù)的發(fā)展,國內(nèi)外開始出現(xiàn)基于深度學(xué)習(xí)的東巴文識別文章,2019年張澤暉建立了包含30 592張圖片的東巴象形文字數(shù)據(jù)集,設(shè)計了孿生網(wǎng)絡(luò)并協(xié)同進行文字語義識別,對956個東巴象形文字測試,取得了85.6%識別準確率[8];同年,Wu[9]在訓(xùn)練集圖像3 800張,測試集圖像200張的條件下,使用VGGNet取得了95.8%的識別準確率;2021年謝裕睿等提出了基于ResNet網(wǎng)絡(luò)的東巴象形文字識別方法,建立了包含536個東巴象形文字的數(shù)據(jù)集,并對94個東巴象形文字測試,取得了93.58%的識別準確率[10]。
以上研究對東巴象形文字識別做出較大的貢獻,但目前還存在一些問題:1)東巴象形文字大多包含多個異體字,且在東巴經(jīng)典中廣泛存在;但現(xiàn)有的數(shù)據(jù)集都沒有涉及異體字,導(dǎo)致東巴經(jīng)典中的大量文字不能識別;2)現(xiàn)有的東巴象形文字數(shù)據(jù)集規(guī)模較小,影響了算法識別的準確率;3)所采用的深度學(xué)習(xí)模型較為初級,無法適應(yīng)東巴象形文字的隨機性和手寫不確定性,識別準確率有待進一步提高。
為了解決上述問題,本文主要做了以下兩個方面的工作:
1)根據(jù)東巴象形文字字典[11-12],采用人工仿寫的方法建立了1 387個東巴象形文字(包括異體字)、圖像規(guī)模達22萬余張的東巴象形文字數(shù)據(jù)集,有效解決了異體字問題,大幅增加了可識別東巴象形文字的數(shù)量,并有效擴充了數(shù)據(jù)集的規(guī)模。2)根據(jù)東巴象形文字的圖像特點,選擇應(yīng)用效果最好的ResNet模型作為改進的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計了殘差跳躍連接方式和卷積層的數(shù)量,并通過加入最大池化層實現(xiàn)了下采樣的改進,有效提高了算法識別的準確率。
深度學(xué)習(xí)模型能夠取得較好的識別效果,其前提是需要大量帶標注的訓(xùn)練數(shù)據(jù)。為此本文首先研究如何建立大規(guī)模的東巴象形文字數(shù)據(jù)集,來保證識別的東巴象形文字更多,并可輔助提高算法識別的準確率。
東巴象形文字的特點可總結(jié)如下。1)內(nèi)容廣泛、字數(shù)多。按照屬性可分為天文、地理、建筑等十八大類,共有2000余字(包括異體字)[11]。2)相似度高。結(jié)構(gòu)相似的東巴象形文字因其細節(jié)部分不同,其字義亦不同。3)書寫隨意性較大。不同人書寫的東巴象形文字都會有不規(guī)則的形變。4)異體字多。大多數(shù)東巴象形文字都有多個異體字。
上述特點增加了東巴象形文字的識別難度,因此為了獲得更好的識別效果,數(shù)據(jù)集中每個東巴象形文字大約需要150張圖像,才能滿足訓(xùn)練的要求。但是僅通過東巴古籍來獲取遠遠不能達到數(shù)量的要求,常用的數(shù)據(jù)增強方法主要是幾何變換[13-15],但由于東巴文本身象形字的圖畫特點,相近的形狀可表達不同的含義,通過幾何變換可能變成其他文字,所以這種數(shù)據(jù)增強的方法難以適用東巴象形文字。
為此本文根據(jù)東巴象形文字手寫或刀刻的書寫習(xí)慣,提出采用人工仿寫東巴象形文字字典的方法建立大規(guī)模數(shù)據(jù)集,再通過圖像預(yù)處理方法提高數(shù)據(jù)集的圖片質(zhì)量,這樣可以保證數(shù)據(jù)集中東巴象形文字的數(shù)量足夠多,既可以最大幅度地增加算法可識別的東巴象形文字字數(shù),又可以輔助提高算法識別的準確率。本文建立的東巴象形文字數(shù)據(jù)集示例如圖1所示,其中每一行的5幅圖片同屬異體字,共有相同的釋義,第一列為統(tǒng)一的文字釋義,從中可以看出異體字之間的差別較大。
圖1 東巴象形文字數(shù)據(jù)集示例Fig.1 Samples of Dongba pictographs datasets
人工仿寫的東巴象形文字受光照以及拍照設(shè)備等的影響,往往會產(chǎn)生極大的噪聲,影響東巴象形文字數(shù)據(jù)集的質(zhì)量,因此必須對其進行一系列的圖像預(yù)處理。圖2給出了本文建立東巴象形文字數(shù)據(jù)集的技術(shù)路線,具體步驟如下。
圖2 東巴象形文字數(shù)據(jù)集建立技術(shù)路線Fig.2 Technical route for Dongba pictographs dataset establishment
1)字符裁剪。對人工仿寫的原始圖像進行字符裁剪,使得每張圖像中僅包含一個東巴象形文字。具體過程如算法1所示。
算法1符裁剪算法
輸入未裁剪的手寫東巴象形文字圖像X;
輸出僅包含一個東巴象形文字的圖像Y。
①Xh←圖像X的高度;
②Xw←圖像X的寬度;
③Yh←1/3Xh?2/3Xh;
④Yw←1/3Xw?2/3Xw;
⑤Y←Yh?Yw。
2)灰度化。黑白兩種顏色反差較大,可提高東巴象形文字識別的效果。為此,使用加權(quán)平均值法進行圖像灰度化,去除圖像的顏色信息,將三通道的彩色圖像轉(zhuǎn)換成單通道的灰度圖像。灰度化公式如式(1)所示:
式中:Ri,j、Gi,j、Bi,j分別代表圖像在 (i,j)處的紅、綠、藍3種顏色分量像素值; G rayi,j代表圖像在(i,j)處的灰度值。
3)二值化。為了極大程度減少圖像數(shù)據(jù)量,通過全局閾值二值化減少圖像無關(guān)像素信息,并使整個圖像呈現(xiàn)出明顯的黑白效果,凸顯東巴象形文字輪廓,圖像二值化公式如式(2)所示:
式中bi,j表示圖像二值化后圖像在 (i,j)處的像素值。
4)尺寸歸一化。常用的圖像尺寸歸一化方法是雙線性插值法,但是當(dāng)原圖像與尺寸歸一化圖像尺寸相差過大時,尺寸歸一化后的圖像紋理特征易損壞,不利于深度學(xué)習(xí)模型識別。而像素區(qū)域關(guān)系重采樣法能夠保留完整圖像信息的條件下,將輸入圖像尺寸最大程度減小,大幅度減少圖像像素數(shù)以及數(shù)據(jù)量,在保證深度學(xué)習(xí)模型識別準確率不變的前提下,加快模型的訓(xùn)練速度。根據(jù)其他數(shù)據(jù)集圖像尺寸大小設(shè)置的經(jīng)驗以及多次對比實驗驗證,我們發(fā)現(xiàn)當(dāng)圖像尺寸歸一化為64×64時,可以取得最好的識別效果,并且模型訓(xùn)練速度快。本文對像素區(qū)域關(guān)系重采樣法和雙線性插值法在東巴文字圖像上的效果進行了簡單的實驗對比,分別將圖像尺寸歸一化為 6 4×64。圖3給出了實驗結(jié)果。
圖3 兩種尺寸歸一化方法示例Fig.3 Samples of two size normalization methods
從圖3中可以看出,雙線性插值法后的東巴象形文字紋理特征有殘缺,而像素區(qū)域關(guān)系重采樣可獲得更好的尺寸歸一化效果。
因此本文選擇像素區(qū)域關(guān)系重采樣法進行尺寸歸一化操作,其公式如式(3)所示:
式中:B表示圖像某區(qū)域內(nèi)像素值矩陣; α 是與B相對應(yīng)的像素值系數(shù)矩陣,其取值取決于原圖像與尺寸歸一化圖像的尺寸大小關(guān)系; ⊙ 表示Hadamard積;fi,j表示圖像B區(qū)域通過尺寸歸一化后的像素值。
5)數(shù)據(jù)標注。通過數(shù)據(jù)編碼標注,將第i個東巴象形文字的所有圖像I統(tǒng)一編碼為i,使計算機將圖像和編碼相互對應(yīng),如式(4)所示:
式中F(·)表示編碼標注算法,具體過程如算法2所示。
算法2編碼標注算法
輸入train,test (其中有命名為i(包含圖像I)的文件夾)
輸出圖像I與其編碼i相互對應(yīng)的txt文檔
① fori∈train,test;
②forI∈i;
③將I的絕對地址和i寫入txt文檔;
④換行;
⑤重復(fù)迭代2)~4);
⑥返回圖像I與其編碼i相互對應(yīng)的txt文檔
通過上述一系列的圖像預(yù)處理,本文建立了東巴象形文字數(shù)據(jù)集,該數(shù)據(jù)集包含1 387個東巴象形文字(包括異體字),每個東巴象形文字對應(yīng)160余張書寫各異的圖片,數(shù)據(jù)集圖片總量為223 050張。
近年來,深度學(xué)習(xí)成功應(yīng)用于圖像識別[16-19]領(lǐng)域,提出了一系列性能優(yōu)異的網(wǎng)絡(luò)模型,其中ResNet模型首次提出殘差跳躍連接(residual shortcut connection)結(jié)構(gòu)[20],解決了網(wǎng)絡(luò)加深帶來的梯度消失問題以及神經(jīng)網(wǎng)絡(luò)深度與識別準確度之間的矛盾,可有效提取更多的圖像細節(jié)特征,目前已成為圖像識別的主流深度學(xué)習(xí)模型。
考慮到東巴象形文字識別的具體問題,不僅字數(shù)多、書寫隨意性較大,而且有些字形較為相似,因此需要提取細節(jié)特征能力強的網(wǎng)絡(luò)結(jié)構(gòu),為此本文選擇ResNet模型作為本文改進的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計了殘差跳躍連接方式和卷積層的數(shù)量,并通過加入最大池化層實現(xiàn)了對下采樣的改進,更好地提取了東巴象形文字的紋理分布特征。本文設(shè)計的網(wǎng)絡(luò)主要框架如圖4所示。下面將詳細介紹設(shè)計思路和改進方法。
圖4 東巴象形文字識別網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of Dongba pictographs recognition
殘差跳躍連接可以解決神經(jīng)網(wǎng)絡(luò)隨著深度增加出現(xiàn)性能退化的問題。深層神經(jīng)網(wǎng)絡(luò)難以擬合的原因是恒等映射H(x)=x的學(xué)習(xí)比較困難,但當(dāng)把網(wǎng)絡(luò)設(shè)計為H(x)=F(x)+x時,可以把學(xué)習(xí)恒等映射轉(zhuǎn)化為更加容易學(xué)習(xí)的殘差映射F(x)=H(x)?x,并且F(x)對輸出變化更加敏感,參數(shù)的調(diào)整幅度更大,從而可以加快學(xué)習(xí)速度,提高網(wǎng)絡(luò)的優(yōu)化性能。殘差跳躍連接的一般定義如式(5)所示:
其中Ws主要是用1 ×1卷積[21]來匹配殘差跳躍連接輸入x和輸出y的通道維度。F(x,{Wi})為網(wǎng)絡(luò)需要學(xué)習(xí)的殘差映射。而當(dāng)殘差跳躍連接輸入和輸出維度相同時,可將其定義如式(6)所示:
文獻[22]證明了越是接近當(dāng)前卷積層的前層輸出對當(dāng)前層的特征提取效果影響越大,可以使網(wǎng)絡(luò)更容易訓(xùn)練。為此本文僅將相鄰堆疊的卷積層組成殘差跳躍連接結(jié)構(gòu),在有效重復(fù)利用特征圖的同時,降低網(wǎng)絡(luò)參數(shù)量和復(fù)雜度。本文殘差跳躍連接結(jié)構(gòu)如圖5所示。圖5中殘差映射F(x)如式(7)所示,輸出y和輸入x的關(guān)系式如式(8)所示:
圖5 本文殘差跳躍連接模塊Fig.5 Residual skip connection module of this paper
式中:σ均表示ReLU激活函數(shù),W1和W2分別表示卷積層學(xué)習(xí)的參數(shù)。
網(wǎng)絡(luò)模型卷積核的選擇與網(wǎng)絡(luò)計算量大小密切相關(guān)。盡管大的卷積核可以直接增大感受野,但是會帶來網(wǎng)絡(luò)計算量的暴增,而多個 3 ×3卷積核可以在降低計算量的前提下實現(xiàn) 5 ×5或 7 ×7乃至更大卷積核的效果。由式(9)可以發(fā)現(xiàn),3個3×3卷積核實現(xiàn) 7 ×7卷積核效果時,其參數(shù)量可以減少到55%。
其中C指輸入和輸出的通道數(shù)。
除了能夠降低網(wǎng)絡(luò)模型的計算量,單個3×3卷積核還可以捕獲特征圖像素四周的信息,多個3×3卷積核的疊加還可以直接增加網(wǎng)絡(luò)深度[23],使網(wǎng)絡(luò)模型的特征提取能力更強,從而取得更好的識別效果。
東巴象形文字具有字數(shù)多、字形相似等特點,因此需要提取特征能力強的網(wǎng)絡(luò)結(jié)構(gòu),而多個卷積層的疊加能夠在參數(shù)量最少的前提下實現(xiàn)最好的特征提取能力。因此本文設(shè)計了32層 3 ×3的卷積層,再加1層全連接層,構(gòu)成33層網(wǎng)絡(luò)模型,用以獲得東巴象形文字最好的識別效果。
同時,為了防止網(wǎng)絡(luò)過擬合,加快網(wǎng)絡(luò)訓(xùn)練速度,本文對每一個卷積層執(zhí)行批量歸一化(batch normalization)[24]操作。然后再使用修正線性單元ReLU[25](rectified linear units)f(x)=max(0,x)作為激活函數(shù),增強網(wǎng)絡(luò)的非線性表達能力,在x>0時保持梯度不衰減,從而緩解網(wǎng)絡(luò)出現(xiàn)的梯度消失問題。
下采樣可以降低特征圖維度,保留圖像主要特征的同時減少網(wǎng)絡(luò)模型的參數(shù)量,防止過擬合現(xiàn)象的發(fā)生。在ResNet模型中通常采用令卷積步長 S tride=2來實現(xiàn)下采樣的效果,但是由于本文建立的東巴象形文字數(shù)據(jù)集經(jīng)過灰度歸一化后,其前景像素值遠遠大于背景像素值,用這種方法實現(xiàn)下采樣獲得的東巴象形文字紋理特征不夠豐富,影響了識別效果,因此有必要對下采樣進行改進。
最大池化層通過提取特征圖局部區(qū)域內(nèi)的像素最大值,可以最大程度降低特征圖背景的無關(guān)信息,使網(wǎng)絡(luò)模型提取更多有用的前景特征,降低背景特征干擾。因此,本文對ResNet模型中的下采樣方式進行了改進,通過采用最大池化層來獲得豐富的紋理特征。最大池化層的公式如式(10)所示:
其中:rk(k=1,2,···,K)為特征圖所 劃分的多個區(qū)域,ai表示第i區(qū)域內(nèi)的像素值。
而網(wǎng)絡(luò)深層的平均池化層通過提取特征圖的像素加權(quán)值,可以保留更加完整的特征圖信息。并且通過平均池化將特征圖下采樣為1 ×1后再與全連接層相連接,可以減少網(wǎng)絡(luò)參數(shù)。池化層的池化區(qū)域為特征圖中的連續(xù)區(qū)域,對小的形態(tài)改變具有不變性,不僅能夠逐步減少特征圖的空間大小、參數(shù)數(shù)量、內(nèi)存占用和計算量,而且擁有更大的感受野,可有效控制過擬合現(xiàn)象的發(fā)生。
為驗證本文創(chuàng)新工作的有效性與先進性,實驗部分主要做了3個方面的工作:1)本文建立的東巴象形文字數(shù)據(jù)集對比實驗及分析;2)本文提出的東巴象形文字識別方法對比實驗及分析,包括網(wǎng)絡(luò)改進前后的對比實驗;3)結(jié)合實驗結(jié)果,分析歸納了目前仍存在的問題。
實驗中所有對比實驗均在表1所示的實驗平臺上運行。
表1 實驗環(huán)境配置Table 1 Experimental environment configurations
實驗epoch設(shè)置為80,初始學(xué)習(xí)率設(shè)置為0.001,每50個epoch將學(xué)習(xí)率降低為原來的三分之一,直到運行結(jié)束所有epoch。
本文梯度優(yōu)化函數(shù)選擇Adam函數(shù),損失函數(shù)使用交叉熵函數(shù),交叉熵函數(shù)定義如式(11)所示:
其中xj代表全連接層第j個網(wǎng)絡(luò)節(jié)點輸出值。
本文改進的ResNet模型具體參數(shù)如表2所示。
表2 本文網(wǎng)絡(luò)參數(shù)設(shè)計Table 2 Network configurations of this paper
目前關(guān)于東巴象形文字的數(shù)據(jù)集較少,文獻[8-10]是目前已知的3個東巴象形文字數(shù)據(jù)集,因此將本文的數(shù)據(jù)集與上述3種數(shù)據(jù)集都進行了對比實驗。
3.2.1 數(shù)據(jù)集有效性驗證
這里選取在圖像識別領(lǐng)域表現(xiàn)優(yōu)異的Res-Net18、ResNet34、VGGNet以及本文的改進網(wǎng)絡(luò)模型在本文建立的東巴象形文字數(shù)據(jù)集上進行識別效果對比。在數(shù)據(jù)集中隨機選取5 000張圖像計算其均值和方差,然后將圖像歸一化處理后輸入網(wǎng)絡(luò)。隨機選取數(shù)據(jù)集圖片總數(shù)的80%作為訓(xùn)練集,即178 223張圖片,其余44 827張圖片作為測試集。在訓(xùn)練集上訓(xùn)練網(wǎng)絡(luò)模型后,在測試集上對1 387個東巴象形文字(包括異體字)進行識別準確率測試。其實驗結(jié)果如表3所示。
表3 數(shù)據(jù)集有效性驗證實驗Table 3 Experiment of dataset validity verification
從表3中可以看出,對于不同的網(wǎng)絡(luò)模型,本文建立的東巴象形文字數(shù)據(jù)集都獲得了高于98%的識別準確率,最高可達98.65%,這說明本文建立的東巴象形文字數(shù)據(jù)集是有效的,每個東巴象形文字多達160多張書寫各異的圖片,其數(shù)據(jù)規(guī)模完全滿足具體識別的要求。
3.2.2 數(shù)據(jù)集先進性驗證
文獻[8-10]分別給出了3種東巴象形文字識別方法和與之對應(yīng)的3個東巴象形文字數(shù)據(jù)集,這里采用這3種識別方法在本文提出的數(shù)據(jù)集上分別進行了識別準確率方面的對比實驗。表4給出了各個數(shù)據(jù)集能夠識別的字數(shù)和不同模型在數(shù)據(jù)集上進行識別的準確率。
從表4中可以看出,首先本文建立的數(shù)據(jù)集能夠識別的東巴象形文字最多;其次,相同的網(wǎng)絡(luò)模型在不同的東巴象形文字數(shù)據(jù)集上取得的識別效果不同,相較于其他3個文獻所建立的數(shù)據(jù)集,本文建立的數(shù)據(jù)集采用3種相對應(yīng)的網(wǎng)絡(luò)模型都取得了最高的識別準確率,說明本文建立的數(shù)據(jù)集在數(shù)據(jù)規(guī)模和數(shù)據(jù)質(zhì)量上都是目前最好的,也說明優(yōu)秀的數(shù)據(jù)集可輔助提高深度學(xué)習(xí)模型的性能。
表4 數(shù)據(jù)集先進性驗證實驗Table 4 Experiment of dataset advancement verification
根據(jù)東巴象形文字識別的特點,本文對Res-Net模型進行了改進,提高了東巴象形文字的識別準確率。這里將驗證本文網(wǎng)絡(luò)模型改進的有效性。通過將其與采用殘差跳躍連接加傳統(tǒng)池化方式以及無殘差跳躍連接加最大池化方式的網(wǎng)絡(luò)模型進行消融實驗。同時,將本文改進的網(wǎng)絡(luò)模型與文獻[8-10]中取得識別準確率最高的網(wǎng)絡(luò)模型以及ResNet34進行對比實驗,以驗證其先進性。所有實驗在本文建立的數(shù)據(jù)集上進行。
3.3.1 算法的有效性驗證
為了驗證本文改進ResNet模型的有效性,這里進行了改進前后的對比實驗。將本文改進的網(wǎng)絡(luò)模型(殘差+最大池化)與殘差加傳統(tǒng)池化、無殘差加最大池化3種網(wǎng)絡(luò)模型進行識別效果對比,實驗結(jié)果如表5所示。
表5 算法有效性驗證實驗Table 5 Experiment of algorithm validity verification
由表5可以看出,本文改進的殘差跳躍連接加最大池化下采樣網(wǎng)絡(luò)模型取得了最高的識別準確率,相較于殘差跳躍連接加傳統(tǒng)池化的網(wǎng)絡(luò)模型提高了0.54%;相較于無殘差跳躍連接加最大池化下采樣的網(wǎng)絡(luò)模型提高了1.01%,從而驗證了本文改進殘差跳躍連接加最大池化網(wǎng)絡(luò)模型的有效性。
3.3.2 算法的先進性驗證
為了驗證本文改進網(wǎng)絡(luò)模型的先進性,在相同的實驗環(huán)境下,本文分別與文獻[8]采用的Res-Net18網(wǎng)絡(luò)模型、文獻[9]采用的VGGNet網(wǎng)絡(luò)模型以及文獻[10]采用的20層ResNet網(wǎng)絡(luò)模型進行了對比實驗,實驗結(jié)果如表6所示。
表6 算法先進性驗證實驗Table 6 Experiment of model advancement verification
從表6中可以看出,本文改進的網(wǎng)絡(luò)模型識別準確率最高,相較于文獻[8]的方法提高了0.43%;相較于文獻[9]的方法提高了0.31%;相較于文獻[10]的方法提高了0.95%。充分驗證了本文改進網(wǎng)絡(luò)模型的先進性。
同時,本文又與層數(shù)有所增加的ResNet34網(wǎng)絡(luò)進行了對比性實驗。從表6中可以看出,34層網(wǎng)絡(luò)模型的識別準確率不僅低于本文的33層網(wǎng)絡(luò)模型,而且也低于18層的網(wǎng)絡(luò)模型,這說明網(wǎng)絡(luò)層數(shù)的簡單疊加在具體的東巴象形文字識別中不一定獲得更好的識別效果。
雖然本文取得了98.65%的識別準確率,但對于誤識別問題我們又進行了深入分析,通過觀察多次實驗結(jié)果,發(fā)現(xiàn)錯誤識別的東巴象形文字都有一個共同的特點,那就是都有與之非常相似的東巴象形文字,圖6給出了部分相似文字的示例。
圖6 相似東巴象形文字示例Fig.6 Samples of similar Dongba pictographs
從圖6可以看出,“水槽”和“水澗”,“側(cè)視之人”和“左”或“爬”等字的區(qū)別僅僅體現(xiàn)在線條的彎曲程度不同;“腰”和“爬”更多體現(xiàn)在它們之間大小有所差異;“神山山腳”和“神山山腰”,“中”和“矛”主要體現(xiàn)在圖像上部分所畫的高度不同;“尾巴”和“樹倒”的差異體現(xiàn)在右下角線條的長度和彎曲程度;“臂膀”和“手”則幾乎相同。
可見,東巴象形文字中有很多相似乃至接近“相同”的文字,又因為東巴象形文字的手工書寫形式,隨意性較大,這些相似的東巴象形文字在書寫過程中極容易導(dǎo)致差異性變小、辨識度下降,這是影響東巴象形文字識別準確率的主要原因。
針對現(xiàn)有東巴象形文字識別方法存在的識別文字數(shù)量少、識別準確率較低等問題,本文首先建立了包含1 387個東巴象形文字(包括異體字)、圖片總量達到22萬余張的東巴象形文字數(shù)據(jù)集,可識別的東巴象形文字大幅增加。通過擴大數(shù)據(jù)集的規(guī)模,輔助提高了算法識別的準確率;更為重要的是本文選擇ResNet模型作為改進的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計了殘差跳躍連接方式和卷積層的數(shù)量,并通過加入最大池化層實現(xiàn)了對下采樣的改進,更好地提取了東巴象形文字的紋理分布特征。通過對1 387個東巴象形文字(包括異體字)分別進行測試,實驗結(jié)果表明,本文提出的改進ResNet模型識別準確率平均達到98.65%,取得了當(dāng)前識別字數(shù)最多、識別準確率最高的效果。
未來將繼續(xù)擴大東巴象形文字數(shù)據(jù)集的文字數(shù)量,力爭包含現(xiàn)存的所有東巴象形文字。針對其中相似度極高的文字,將研究設(shè)計專門的網(wǎng)絡(luò)模型來有效將它們區(qū)別開來,從而進一步提高東巴象形文字識別的準確率。