何翠玲,楊柱元,唐 軼,蔣 作
(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)
在中華民族大家庭中,彝族不僅歷史悠久,而且文化豐富.西波文不僅是記錄彝族古老典籍的一種特殊古文字,而且是彝族珍貴的文化遺產(chǎn)[1].新中國成立后,盡管黨和政府加大力度對(duì)西波文進(jìn)行保護(hù)和整理,但由于年代久遠(yuǎn)、流傳較少等因素.西波文的使用越來越少,并存在著逐漸消亡的跡象[2].西波文的保護(hù)刻不容緩,其保護(hù)手段和方法需要根本性的改變.若能實(shí)現(xiàn)對(duì)其智能識(shí)別,則不僅有助于對(duì)彝文古籍進(jìn)行分類和保存,而且為彝族文明的傳承和發(fā)展提供現(xiàn)代智能技術(shù)的支持.
西波文字的智能識(shí)別難度大,罕有研究.一方面,西波手寫文字書寫隨意性大,沒有統(tǒng)一的規(guī)范,這使得西波手寫文字識(shí)別成為一個(gè)極具挑戰(zhàn)的問題.其主要表現(xiàn)為.
1) 西波手寫文字收集困難,缺乏成熟的樣本庫.手寫樣本庫的數(shù)量和質(zhì)量是西波手寫文字識(shí)別成功的關(guān)鍵因素,直接決定著識(shí)別效果.
2) 西波手寫文字字體、字形多樣,沒有統(tǒng)一標(biāo)準(zhǔn).不同地區(qū)書寫方式不同,形式和格式各有不同,增加了智能識(shí)別難度.
另一方面,西波文字僅在中國西南局部傳承,不是現(xiàn)行主流語種.因此,尚未引起人工智能領(lǐng)域的關(guān)注.然而,該文字記錄了大量彝族歷史、宗教、沿襲等文獻(xiàn).這對(duì)民族及歷史研究具有極其重要的研究價(jià)值.因此,西波文字的智能識(shí)別問題不僅具有重要的人文價(jià)值,更是一個(gè)極具挑戰(zhàn)性的手寫文字識(shí)別問題.
通用彝文智能識(shí)別問題已有不少成果,然而西波手寫文字識(shí)別尚未見報(bào)道.目前常見的彝文識(shí)別有圖像分割[3]、組合特征分類[4]和卷積神經(jīng)網(wǎng)絡(luò)[5]等方法.由于西波文字年代久遠(yuǎn)、流傳較少、古籍退化破損形象嚴(yán)重.很難獲取西波文字樣本,因此常見的智能識(shí)別方法難以直接應(yīng)用.
針對(duì)小樣本的西波手寫文字識(shí)別問題.本文利用MANN模型進(jìn)行西波手寫文字識(shí)別.MANN用LSTM(long shot-term memory,長短期記憶網(wǎng)絡(luò))[6]做控制器,最近最少使用訪問模塊(LRUA,least recently used access)做外部記憶.控制器LSTM將學(xué)習(xí)得到的內(nèi)容通過讀寫頭與外部記憶進(jìn)行交互.LSTM學(xué)習(xí)得到的內(nèi)容通過讀寫頭存儲(chǔ)在外部記憶中,并產(chǎn)生相關(guān)密鑰gt.LSTM進(jìn)行新的學(xué)習(xí)時(shí),通過密鑰gt查詢、遺忘門ft決定是否從外部記憶讀取學(xué)習(xí).當(dāng)LRUA查詢到相關(guān)內(nèi)容時(shí),遺忘門ft關(guān)閉,直接從外部記憶讀取相關(guān)內(nèi)容進(jìn)行學(xué)習(xí),若沒有查詢到相關(guān)內(nèi)容,則遺忘門ft打開,將LSTM學(xué)習(xí)到的內(nèi)容存儲(chǔ)在外部記憶.
通過在不同樣本集上比較LSTM識(shí)別精度可以發(fā)現(xiàn),在增強(qiáng)樣本集上,LSTM識(shí)別率略有提高,但是提高程度不明顯.這表明簡單的樣本增強(qiáng)技術(shù)不能改善LSTM識(shí)別精度.但使用MANN[7],識(shí)別精度明顯提高.同樣,元學(xué)習(xí)方法也能改善小樣本學(xué)習(xí)精度不高的問題.本文提出了基于記憶的元學(xué)習(xí)方法,結(jié)合了記憶和元學(xué)習(xí)兩者的優(yōu)點(diǎn).在理論上,本文的方法可以進(jìn)一步改善小樣本帶來的西波手寫文字識(shí)別困難的問題.
深度學(xué)習(xí)是人工智能研究領(lǐng)域中新興的研究方向,其典型代表包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò).卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和目標(biāo)檢測等領(lǐng)域取得了巨大的成功.在ILSVRC2012測試中,來自多倫多大學(xué)Alex Krizhevsky團(tuán)隊(duì)[8]提出的AlexNet卷積神經(jīng)網(wǎng)絡(luò)將top-5錯(cuò)誤率降到15.3%.在PASCALVOC2012數(shù)據(jù)集上,Li等[9]提出的R-FCN模型達(dá)到了82%的目標(biāo)檢測準(zhǔn)確率.循環(huán)神經(jīng)網(wǎng)絡(luò)和它的改進(jìn)版LSTM常用來處理帶有時(shí)間序列信息的問題.在自然語言處理中,Jia等[10]使用循環(huán)神經(jīng)網(wǎng)絡(luò)完成了將自然語言轉(zhuǎn)換為機(jī)器語言的任務(wù).Albahar[11]利用Dropout的正則化方法優(yōu)化RNN(recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))和LSTM模型.在語言建模、語音識(shí)別和機(jī)器翻譯中,證明了正確使用正則化,可以大大減少RNN和LSTM的過擬合.
深度學(xué)習(xí)方法在手寫數(shù)字、手寫字母、手寫文字識(shí)別領(lǐng)域也有很多應(yīng)用.在手寫數(shù)字識(shí)別領(lǐng)域中,2006年,Das等[12]提出利用MLP(multi layer perceptron,多層感知器)對(duì)含有88個(gè)特征的特征集手寫阿拉伯?dāng)?shù)字進(jìn)行識(shí)別.通過收集300個(gè)不同年齡段和性別的10個(gè)光學(xué)掃描手寫數(shù)字樣本,形成 3 000 位樣本的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).其中 2 000 樣本為訓(xùn)練集,1 000 為測試集,識(shí)別率達(dá)到94.93%.2012年,Sharam等[13]利用支持向量機(jī)在Optdigits數(shù)據(jù)集上得到了98%的手寫數(shù)字識(shí)別率.2017年,Ashiquzzaman等[14]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手寫數(shù)字識(shí)別.在CMATERDB3.3.1阿拉伯手寫數(shù)字?jǐn)?shù)據(jù)集上進(jìn)行測試和訓(xùn)練.整個(gè)數(shù)據(jù)集包含 3 000 張圖像,其中,2 000 作為訓(xùn)練樣本,1 000 作為測試樣本.最終達(dá)到97.4%的準(zhǔn)確率.2019年,Mandal等[15]利用膠囊網(wǎng)絡(luò)分別在Bangla Digits、Devanagari Digits、Telugu Digits、Bangla Basic Character和Bangla Compound Characters的數(shù)據(jù)集上得到了97.75%、96.60%、97.80%、96.20%和94.40%的識(shí)別率.
在手寫字母識(shí)別領(lǐng)域中,2016年,Maziar等[16]使用ECOC(error correcting output coding,糾錯(cuò)輸出編碼)方法得到89.35%的波斯手寫字母識(shí)別率.2018年,Vinaychandran等[17]利用深卷積神經(jīng)網(wǎng)絡(luò)對(duì)使用交叉描寫 (例如手跡,摩擦)創(chuàng)建的圖像水印進(jìn)行識(shí)別.在 1 060 502 個(gè)水印復(fù)制品數(shù)據(jù)集上得到96%的識(shí)別率.2019年,Khan等[18]利用K最近鄰(KNN)和神經(jīng)網(wǎng)絡(luò)(NN)對(duì)單個(gè)字母進(jìn)行識(shí)別.在來源于普什圖語的 4 488 張圖像數(shù)據(jù)集上,KNN可以達(dá)到70.05%的識(shí)別精度,而NN達(dá)到72%的識(shí)別精度.
在手寫文字識(shí)別領(lǐng)域中,2013年, Dan等[19]使用深層寬池最大卷積神經(jīng)網(wǎng)絡(luò)(MPCNN)進(jìn)行手寫漢字識(shí)別.并在HWDB1.1數(shù)據(jù)集上,將錯(cuò)誤率下降到4.215%.2015年,Dapeng等[20]利用弱監(jiān)督學(xué)習(xí)進(jìn)行相似字符的識(shí)別.對(duì)CASIA漢字?jǐn)?shù)據(jù)集進(jìn)行評(píng)估,達(dá)到了98.28%的識(shí)別率.2017年,Yoshua等[21]利用傳統(tǒng)的DirectMap(direction-decomposed feature map,方向分解特征圖)和CNN(convolutional neural network,卷積神經(jīng)網(wǎng)絡(luò))相結(jié)合的方法,將HCRR(Chinese character recognition,手寫漢字識(shí)別)準(zhǔn)確性提高到96.95%.2018年,Li等[22]提出一種稱為全局加權(quán)平均池化的CNN技術(shù)進(jìn)行手寫漢字識(shí)別.在ICDAR-1023離線HCCR.數(shù)據(jù)集上,僅需 6.9 ms 就達(dá)到97.1%的識(shí)別精度.
由于西波手寫文字沒有成熟的手寫樣本庫,所以西波手寫文字識(shí)別是1個(gè)小樣本問題.目前,能夠很好的解決小樣本問題有以下3種方法:
①正則化:限制模型復(fù)雜性提高推廣性能.支持向量機(jī)SVM是其中的典型代表.SVM可用于處理非線性回歸和分類問題,特別是在處理小樣本學(xué)習(xí)問題時(shí),SVM具有很強(qiáng)的推廣性能.但是,SVM算法運(yùn)算復(fù)雜度高,不適用于大規(guī)模訓(xùn)練樣本問題.同時(shí),核函數(shù)的選擇問題,也是制約SVM性能提升的一大問題.
②數(shù)據(jù)增強(qiáng):增加數(shù)據(jù)量以提高推廣性能.利用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)大樣本數(shù)量,能提高模型的范化能力、提升模型的魯棒性.但存在學(xué)習(xí)緩慢、訓(xùn)練時(shí)間長等不足之處.
③元學(xué)習(xí):利用外部信息提高推廣性能.元學(xué)習(xí)(meta learning)是學(xué)習(xí)如何學(xué)習(xí),利用元數(shù)據(jù)改善機(jī)器學(xué)習(xí)效率的一種新型學(xué)習(xí)方法.
常見元學(xué)習(xí)方法有以下3種:
1) 度量學(xué)習(xí)(metric learning)方法:度量學(xué)習(xí)的主要目的是尋求最佳的距離度量方法,以適應(yīng)當(dāng)前學(xué)習(xí)樣本的幾何結(jié)構(gòu)或相似性關(guān)系.較之固定的度量,如歐氏距離等,從樣本中學(xué)習(xí)得到的度量能更精準(zhǔn)的反映樣本間的臨近關(guān)系或相似關(guān)系.
2) 使用具有外部或內(nèi)部記憶:通過以往的經(jīng)驗(yàn)來學(xué)習(xí),在神經(jīng)網(wǎng)絡(luò)中添加記憶模塊進(jìn)行實(shí)驗(yàn).
3) 顯示優(yōu)化模型參數(shù)來快速學(xué)習(xí)(基于Finetune):基于Finetune,在獲得一定量的標(biāo)注數(shù)據(jù)后,基于一個(gè)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行微調(diào).基于Finetune的方法相對(duì)訓(xùn)練速度較快,訓(xùn)練數(shù)據(jù)較少,但是基礎(chǔ)網(wǎng)絡(luò)需通過含有大量標(biāo)簽的數(shù)據(jù)集來獲得.
2.1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)是一類具有動(dòng)態(tài)狀態(tài)的機(jī)器.也就是說,它們具有的狀態(tài)演變既取決于系統(tǒng)的輸入又取決于當(dāng)前狀態(tài).循環(huán)神經(jīng)網(wǎng)絡(luò)的模型如圖 1所示.
圖1 循環(huán)神經(jīng)網(wǎng)絡(luò)(Xt表示輸入數(shù)據(jù),yt表示輸出)
循環(huán)神經(jīng)網(wǎng)絡(luò)的一項(xiàng)關(guān)鍵創(chuàng)新是長短時(shí)期記憶網(wǎng)絡(luò)(LSTM) (Hochreiter[24]和Schmidhuber),主要解決“梯度消失和梯度爆炸靈敏度”問題,LSTM網(wǎng)絡(luò)模型如圖 2所示.
圖2 長短時(shí)期記憶網(wǎng)絡(luò)(Xt表示輸入數(shù)據(jù),yt表示輸出)
其中每個(gè)LSTM的展開圖[25]如圖3.
圖3 LSTM展開圖
ft為遺忘門:控制遺忘多少信息,計(jì)算方式如下[23]:
ft=σ(Wf.[ht-1,xt]+bf)
.
( 1 )
it為輸入門:記憶當(dāng)前狀態(tài)的某些信息,計(jì)算方式如下[23]:
it=σ(Wi.[ht-1,xt]+bi)
.
( 2 )
ht為短期記憶,ct為長期記憶,計(jì)算方式分別為[23]:
ht=ot*tan h(ct)
.
( 3 )
( 4 )
( 5 )
ot為輸出門,計(jì)算方式如下[23]:
ot=σ(Wo.[ht-1,xt]+bo)
.
( 6 )
2.2.1 外部記憶
為了神經(jīng)網(wǎng)絡(luò)有更大的存儲(chǔ)空間,我們可以引入記憶單元.將一些信息保存在記憶單元中,在需要時(shí)再進(jìn)行讀取,這樣可以有效地增加網(wǎng)絡(luò)容量.這個(gè)記憶單元一般稱為外部記憶.
2.2.2 記憶增強(qiáng)網(wǎng)絡(luò)
一般來說,神經(jīng)網(wǎng)絡(luò)的存儲(chǔ)空間相對(duì)較小.為此,我們可以加入結(jié)構(gòu)化的記憶模塊來增加網(wǎng)絡(luò)的存儲(chǔ)空間.基于神經(jīng)網(wǎng)絡(luò)加入外部記憶單元的模型稱為記憶增強(qiáng)網(wǎng)絡(luò),模型如圖4所示.
圖4 記憶增強(qiáng)網(wǎng)絡(luò)
記憶增強(qiáng)網(wǎng)絡(luò)一般由以下幾個(gè)模塊構(gòu)成.
a) 控制器LSTM:負(fù)責(zé)信息處理,同時(shí)通過讀寫模塊和外部記憶進(jìn)行交互.
b) 外部記憶單元R:信息存儲(chǔ)在外部記憶單元中,且外部記憶可分為很多記憶片段.記憶片段一般用向量表示,外部記憶單元用一組向量rt=[r1,r2,…,rn]表示.向量的組織方式一般為集合,樹,?;蜿?duì)列等形式.大部分信息存儲(chǔ)在外部記憶單元中,不需要全程參與控制器的運(yùn)算.
c) 讀取模塊M:根據(jù)控制器生成的查詢向量qm,從外部記憶單元中讀取相應(yīng)的信息m=M(m1,n,qm).
d) 寫入模塊W:根據(jù)控制器生成的查詢向量qw和要寫入的信息?來更新外部記憶w=M(m1:N,qw,?).
長短時(shí)期記憶網(wǎng)絡(luò)LSTM作控制器,最近最少使用訪問LRUA模塊進(jìn)行外部記憶的存儲(chǔ)和讀取.
在深度學(xué)習(xí)中,為了最小化數(shù)據(jù)集D上的學(xué)習(xí)成本L,通常只需優(yōu)化參數(shù)β.但是,對(duì)于元學(xué)習(xí),需要優(yōu)化參數(shù)β以降低服從分布P(D)的數(shù)據(jù)集上的期望學(xué)習(xí)成本:
β=arg minβED~P(D)[(L(D,β))].β=arg minβED~P(D)[(L(D,β))].
( 7 )
在MANN模型中,數(shù)據(jù)集為D={dt}={(xt,yt)}.yt既是目標(biāo)類別標(biāo)簽,又以時(shí)間偏移的方式與xt一起輸入;也就是說,模型輸入序列為(x1,0),(x2,y1)…(xt,yt-1).因此,對(duì)于MANN模型,標(biāo)簽需進(jìn)行混洗.混洗是將任務(wù)數(shù)據(jù)集D={dt}={(xt,yt)}的表現(xiàn)形式重新綁定為D1={dt}={(xt,yt-1)}的表現(xiàn)形式.它可以防止網(wǎng)絡(luò)在權(quán)重上緩慢學(xué)習(xí)并進(jìn)行樣本類別綁定.樣本類別綁定后,將樣本數(shù)據(jù)信息保存在外部記憶單元中.在后面的學(xué)習(xí)中,如果遇到相關(guān)信息,則直接從外部記憶單元中讀取學(xué)習(xí)(見圖5).
圖5 進(jìn)行樣本類別綁定
圖6 記憶增強(qiáng)網(wǎng)絡(luò)
圖 6中,樣本數(shù)據(jù)集D1={dt}={(xt,yt-1)}作為MANN模型的輸入,并通過控制器LSTM學(xué)習(xí).在特定時(shí)間內(nèi)學(xué)到的類別標(biāo)簽信息通過讀寫頭存儲(chǔ)在外部記憶單元中.在隨后的學(xué)習(xí)過程中,如果遇到學(xué)習(xí)過的相關(guān)任務(wù)樣本數(shù)據(jù)xt,則對(duì)外部記憶進(jìn)行相關(guān)查詢并快速識(shí)別.
控制器LSTM使用讀寫頭與外部記憶單元R進(jìn)行交互,讀寫頭分別從外部記憶單元R中查詢或存儲(chǔ)記憶.給定一些輸入xt,控制器LSTM產(chǎn)生一個(gè)密鑰gt,然后存儲(chǔ)在外部記憶單元Rt的空位置,或用于已存儲(chǔ)過的外部記憶單元中查詢特定的外部記憶i,即Rt(i).當(dāng)查詢外部記憶單元Rt時(shí),使用余弦相似性度量來尋址向量mt,
(8)
(9)
讀取向量mt可定義為外部記憶向量Rt(i)的凸組合:
( 10 )
在本文提出的模型中,用LRUA模塊進(jìn)行記憶的存儲(chǔ)和讀取.LRUA模塊是一個(gè)純內(nèi)容的記憶存儲(chǔ)器,它將記憶存儲(chǔ)在最近或最少使用的位置,該模塊強(qiáng)調(diào)最近或最少信息的準(zhǔn)確編碼,以及基于內(nèi)容的查詢.新信息存儲(chǔ)在最近或最少使用的位置,并用新信息代替舊信息進(jìn)行外部記憶單元更新.
( 11 )
( 12 )
( 13 )
( 14 )
信息可以存儲(chǔ)在歸零存儲(chǔ)器或先前使用的存儲(chǔ)器中;如果是后者,則最少使用記憶被新信息代替.
西波手寫文字字符類似于漢字方塊字符,其書寫規(guī)范、大小、字體等相對(duì)一致.但西波手寫文字由于受潮,煙熏等原因,出現(xiàn)筆記變?nèi)?,斷筆,粘連,污點(diǎn)等現(xiàn)象.
圖7 西波手寫文字
對(duì)收集到的西波手寫文字進(jìn)行人工分割,得到如圖 7的文字樣本.西波手寫文字?jǐn)?shù)據(jù)集有150張圖片,分為5類別,每類別有30張圖片.其中,120張圖片為訓(xùn)練集,每類別有24張圖片;30張為測試集,每類別有6張圖片.為了減少實(shí)驗(yàn)計(jì)算時(shí)間,將圖像大小縮小到30×30像素.
為識(shí)別西波手寫文字,建立含有6層的LSTM神經(jīng)網(wǎng)絡(luò).第1層LSTM具有128個(gè)神經(jīng)元,第2層神經(jīng)元個(gè)數(shù)為64,第3層神經(jīng)元個(gè)數(shù)為128,第4層神經(jīng)元個(gè)數(shù)為64,第5層神經(jīng)元個(gè)數(shù)為128,每層LSTM的激活函數(shù)為relu函數(shù).第6層為全連接網(wǎng)絡(luò)層,神經(jīng)元個(gè)數(shù)為5,激活函數(shù)為softmax函數(shù).具體設(shè)置如表 1所示.
表1 LSTM模型參數(shù)
在含有120張西波手寫文字圖片的訓(xùn)練集上進(jìn)行訓(xùn)練,總共訓(xùn)練4 000次,分40輪訓(xùn)練,每輪迭代100次.將訓(xùn)練好的模型在含有30張西波手寫文字圖片的測試集進(jìn)行測試,測試得到的結(jié)果如表2所示.
表2 LSTM初始數(shù)據(jù)實(shí)驗(yàn)結(jié)果
由表 2可看出,長短時(shí)期記憶網(wǎng)絡(luò)LSTM的識(shí)別精度只有26%,卻花了 3 954.087 s.隨后,將訓(xùn)練集進(jìn)行隨機(jī)縮放,并設(shè)置縮放比例為0.2.將原有的訓(xùn)練集分別進(jìn)行1.2倍,1.5倍,2倍的數(shù)據(jù)增強(qiáng).利用上述描述的LSTM模型在數(shù)據(jù)增強(qiáng)樣本訓(xùn)練集上進(jìn)行相同訓(xùn)練,在原有的測試集上進(jìn)行測試,測試得到的結(jié)果如表 3所示.
表3 數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果
由上述的實(shí)驗(yàn)結(jié)果可知,在數(shù)據(jù)增強(qiáng)樣本數(shù)據(jù)集上進(jìn)行訓(xùn)練,測試得到的識(shí)別精度相對(duì)提高了7%,并且訓(xùn)練時(shí)間增加.長短時(shí)期記憶網(wǎng)絡(luò)LSTM對(duì)手寫西波文識(shí)別性能不佳.
構(gòu)建12層卷積神經(jīng)網(wǎng)絡(luò),重復(fù)LSTM實(shí)驗(yàn).第1層卷積神經(jīng)神經(jīng)網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)為32,卷積核個(gè)數(shù)為2,滑動(dòng)步長為2.第2層為池化層,其池化大小為2,第3層,第5層,第7層的卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)分別為64,32,64,卷積核個(gè)數(shù),滑動(dòng)步長和第1層卷積神經(jīng)網(wǎng)絡(luò)的設(shè)置相同.第4層,第6層,第8層為池化層,并與第2層池化層的設(shè)置相同.第9層為flatten層,第10層為全連接層,神經(jīng)元個(gè)數(shù)為5,激活函數(shù)為softmax函數(shù).具體設(shè)置如下:
表4 CNN模型參數(shù)
卷積神經(jīng)網(wǎng)絡(luò)得到的實(shí)驗(yàn)結(jié)果如表 5所示.
表5 CNN實(shí)驗(yàn)結(jié)果
由以上的實(shí)驗(yàn)結(jié)果可知,深度學(xué)習(xí)的LSTM模型,CNN模型對(duì)小樣本的西波手寫文字?jǐn)?shù)據(jù)集的識(shí)別效果并不理想.即使對(duì)西波手寫文字進(jìn)行數(shù)據(jù)增強(qiáng),識(shí)別效果也沒有得到改善.對(duì)2.2節(jié)描述的MANN模型進(jìn)行相同迭代訓(xùn)練.并在含有30張圖片的測試集上進(jìn)行測試,得到的實(shí)驗(yàn)結(jié)果如表(6)所示:
表6 LSTM、CNN、MANN實(shí)驗(yàn)結(jié)果
表 6說明,LSTM模型,CNN模型對(duì)小樣本的西波手寫文字?jǐn)?shù)據(jù)集識(shí)別精度最高達(dá)到36%,并花費(fèi)大量時(shí)間進(jìn)行訓(xùn)練.由于深度學(xué)習(xí)對(duì)識(shí)別任務(wù)需要大量的數(shù)據(jù)進(jìn)行廣泛迭代訓(xùn)練,才能達(dá)到理想的效果.因此,在小樣本的西波手寫文字識(shí)別任務(wù)中,深度學(xué)習(xí)并不是一個(gè)理想的選擇.相反,元學(xué)習(xí)對(duì)小樣本的西波手寫文字識(shí)別效果比較理想.MANN模型只需深度學(xué)習(xí)一半的訓(xùn)練時(shí)間,識(shí)別精度就可提高到79%.
本文將西波手寫文字識(shí)別問題歸結(jié)為小樣本學(xué)習(xí)問題.為有效處理該問題,引入了元學(xué)習(xí)方法以提高識(shí)別精度.LSTM模型添加一個(gè)外部記憶存儲(chǔ)模塊,對(duì)小樣本的西波手寫文字進(jìn)行訓(xùn)練和測試.實(shí)驗(yàn)表明,元學(xué)習(xí)方法在小樣本的西波手寫文字?jǐn)?shù)據(jù)集上識(shí)別效果良好.它僅需要LSTM、CNN的一半訓(xùn)練時(shí)間,識(shí)別精度就可提高43%.本文證明了MANN在小樣本任務(wù)中顯示出的性能優(yōu)于LSTM、CNN的性能.