魏元喜 陳 霞 王海波
(1.北京郵電大學(xué)人文學(xué)院 北京 100876)(2.山東山大鷗瑪軟件股份有限公司 濟(jì)南 250101)
研究非受限情況下的手寫(xiě)字體的切分具有重要現(xiàn)實(shí)意義。字符切分和字符識(shí)別密不可分,準(zhǔn)確而高效的字符切分能極大地幫助字符的準(zhǔn)確識(shí)別,字符切分是字符識(shí)別的重要實(shí)踐基礎(chǔ)。
字符切分有著廣闊的應(yīng)用前景,特別是隨著互聯(lián)網(wǎng)和多媒體技術(shù)的快速發(fā)展,很多行業(yè)都迫切需要能夠從大量的圖像或視頻資料中找到所需的文字信息。其中,在教育領(lǐng)域的智能判卷是其重要應(yīng)用方向之一。本文研究將圖像語(yǔ)義分割技術(shù)應(yīng)用在英文試卷手寫(xiě)單詞切分上,將答卷圖像分割為單個(gè)單詞圖像,便于識(shí)別算法進(jìn)行字符識(shí)別及圖文轉(zhuǎn)寫(xiě)。
手寫(xiě)字的切分與識(shí)別是一個(gè)非常復(fù)雜的過(guò)程。傳統(tǒng)的字符切分主要是基于像素或區(qū)域的連通性特點(diǎn)進(jìn)行處理。例如:投影算法[1]、滴水算法[2]、連通區(qū)域算法等,這類(lèi)算法具有高效、快速等特點(diǎn),在打印字體切分上有著廣泛的應(yīng)用。
對(duì)于字符切分,近幾年還有一類(lèi)方法是基于字符的文本的圖像特性,對(duì)圖像進(jìn)行形態(tài)學(xué)預(yù)處理,從而基于某種機(jī)制來(lái)尋找字符切分點(diǎn)。文獻(xiàn)[3]提出了一種新的核心區(qū)域的概念,用于對(duì)這些困難的傾斜手寫(xiě)單詞進(jìn)行切分。文獻(xiàn)[4]提出了一種利用語(yǔ)言的基本結(jié)構(gòu)特征對(duì)手寫(xiě)文本進(jìn)行獨(dú)立字符切分方法。文獻(xiàn)[5]提出一種基于距離的切分(DBS)方法對(duì)句子、單詞和字符分別進(jìn)行切分。文獻(xiàn)[6]提出了一種基于迭代的手寫(xiě)字符垂直投影和滴水切分方法。文獻(xiàn)[7]提出了一種將遞歸的字符的切分算法,這種算法使用一種確定圖像遞歸筆跡相交切點(diǎn)來(lái)劃分單詞。上述這類(lèi)方法處理速度快,效率高。但是與傳統(tǒng)的字符切分方法沒(méi)有本質(zhì)區(qū)別,難以解決復(fù)雜模式下的適應(yīng)性問(wèn)題。
隨著機(jī)器學(xué)習(xí)算法的快速發(fā)展,研究者開(kāi)始將目光轉(zhuǎn)向于應(yīng)用計(jì)算機(jī)視覺(jué)方法將應(yīng)用在復(fù)雜環(huán)境下的文字檢測(cè)與切分。一方面是基于矩形框的檢測(cè)方法:文獻(xiàn)[8]利用ResNet50對(duì)不規(guī)則曲線(xiàn)對(duì)自然場(chǎng)景圖像中文本行進(jìn)行檢測(cè)和切分。文獻(xiàn)[9~10]利用深度學(xué)習(xí)Faster-RCNN等目標(biāo)檢測(cè)技術(shù),檢測(cè)出文本圖像的粗略的分割點(diǎn),再利用通過(guò)連接合并,來(lái)實(shí)現(xiàn)文本行的檢測(cè)。另一方面是基于圖像語(yǔ)義切分的方法,文獻(xiàn)[11]提出了一種基于全卷積網(wǎng)絡(luò)(FCN)的歷史手寫(xiě)文檔像素分類(lèi)方法。文獻(xiàn)[12]構(gòu)建全卷積網(wǎng)絡(luò)(FCN)對(duì)單行中英文混合圖像進(jìn)行語(yǔ)義分割來(lái)完成字符的切分。
本文研究基于圖像語(yǔ)義分割的方法來(lái)實(shí)現(xiàn)英文寫(xiě)作答卷的單詞切分,提出了應(yīng)用于手寫(xiě)字體單詞的語(yǔ)義分割網(wǎng)絡(luò)TextNet;提出了基于語(yǔ)義分割技術(shù)的英文手寫(xiě)字體單詞的切分框架并在數(shù)據(jù)集TextDB上進(jìn)行了實(shí)驗(yàn)探索與分析。本文主要貢獻(xiàn)如下:
1)本文首次將深度語(yǔ)義分割技術(shù)應(yīng)用在多行、稠密的英文手寫(xiě)體的單詞切分中,并提出了應(yīng)用深度語(yǔ)義分割技術(shù)進(jìn)行手寫(xiě)字體切分的基本框架和流程。通過(guò)在ENet[13]、ERFNet[15]以及本文提出的TextNet三個(gè)輕量級(jí)的語(yǔ)義分割網(wǎng)絡(luò)上的實(shí)驗(yàn)中證明了在相對(duì)較高的IoU閾值(0.7)的條件下,切分準(zhǔn)確率高出投影算法[1]10%以上。
2)根據(jù)本文所涉及的應(yīng)用場(chǎng)景,本文設(shè)計(jì)的輕量級(jí)TextNet用于分割像素,進(jìn)而達(dá)到切分單詞的目的。本文所設(shè)計(jì)的網(wǎng)絡(luò)能更有效地獲取英文單詞圖像的輪廓信息,在模型參數(shù)量(Parameters)和浮點(diǎn)運(yùn)算量(FLOPs)上達(dá)到了輕量級(jí)水平,相比較經(jīng)典的輕量級(jí)框架ENet[13]、ERFNet[15]等能獲得的更高的單詞切分的性能。
英文試題的答卷特別是作文答卷,其圖像呈現(xiàn)出一定的復(fù)雜性。具體來(lái)說(shuō),有以下幾個(gè)方面特點(diǎn)。
1)目標(biāo)單詞的密集性。一般來(lái)說(shuō),目標(biāo)單詞會(huì)鋪滿(mǎn)整個(gè)試卷圖像的答題區(qū)域。目標(biāo)單詞的尺寸相對(duì)圖像較小,且不規(guī)則,呈現(xiàn)出密集性特點(diǎn)。在切分過(guò)程中容易出現(xiàn)目標(biāo)單詞遺漏等問(wèn)題。
2)書(shū)寫(xiě)風(fēng)格的多樣和非受限性。每張文本圖的寫(xiě)作風(fēng)格具有一定的差異,即便是同一張文本圖像目標(biāo)單詞的上下左右間隔都存在較大的不確定性。
3)字體的涂抹和單詞跨行書(shū)寫(xiě)。在答卷圖像中出現(xiàn)的字體涂抹和單詞跨行書(shū)寫(xiě),在一定程度上會(huì)影響切分的準(zhǔn)確性。
4)模式類(lèi)別的單一性。根據(jù)切分任務(wù),將圖像區(qū)域分為單詞區(qū)域(正類(lèi)別)和非單詞區(qū)域(負(fù)類(lèi)別)兩類(lèi),本文研究的目標(biāo)單詞只存在于單詞區(qū)域中。而不同的單詞和寫(xiě)作風(fēng)格都存在豐富的多樣性,因此正類(lèi)別的類(lèi)內(nèi)差異較大,這對(duì)單詞切分模型的魯棒性提出較高的要求。
基于上述英文答卷圖像的自身特點(diǎn),本文對(duì)基于深度學(xué)習(xí)的語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行研究與設(shè)計(jì)。在語(yǔ)義分割任務(wù)中,既需要較高的分辨率又需要相對(duì)較大的感受野,在實(shí)踐中發(fā)現(xiàn),擁有較大感受野的特征圖的空間分辨率不高;較高的空間分辨率又難以獲取足夠的感受野。本文的研究目標(biāo)是在這兩個(gè)方面找到均衡,來(lái)完成語(yǔ)義分割任務(wù)。本文用ASPP[18]單元來(lái)獲取圖像豐富的感受野特征,用語(yǔ)義網(wǎng)絡(luò)的注意力機(jī)制和特征融合對(duì)不同的特征圖進(jìn)行疊加學(xué)習(xí),從而實(shí)現(xiàn)對(duì)分辨率和感受野在計(jì)算量上進(jìn)行折中,以達(dá)到高效語(yǔ)義分割的目的。
圖像下采樣是為了獲得更大的視野信息,本文在網(wǎng)絡(luò)的下采樣單元運(yùn)用了混合的最大池化層(MaxPooling)和卷積層方法。Inception-v3[14]提出了分解大卷積核的思想,將大卷積核分解為尺寸不同的小卷積核分別進(jìn)行卷積,再進(jìn)行混合,從而降低了計(jì)算復(fù)雜度。ENet[13]在網(wǎng)絡(luò)輸入端運(yùn)用了該方法,用混合兩種步長(zhǎng)分別為2的最大池化層(MaxPooling)和卷積層的來(lái)進(jìn)行下采樣。該方法在ERFNet[15]得到了進(jìn)一步推廣,將其應(yīng)用在編碼(Encode)環(huán)節(jié)的所有下采樣單元。
在編碼(Encode)環(huán)節(jié)引用了帶有殘差[16]單元的“Non-bottleneck-1D[15]”模塊。該模塊運(yùn)用了Non-bottleneck的卷積方法來(lái)避免由于增加瓶頸(bottleneck)設(shè)計(jì)的殘差單元的深度而帶來(lái)梯度消失,而帶來(lái)的降低準(zhǔn)確率問(wèn)題。與此同時(shí),該模塊以較小的計(jì)算量為代價(jià)來(lái)高效地提取圖像特征。具體結(jié)構(gòu)如圖1所示。
圖1 殘差單元
從圖1可以看出,該模塊分別用1*3和3*1的卷積核進(jìn)行交叉卷積,根據(jù)需要也可以在編碼的不同特征圖上使用一定比率的空洞卷積[17]來(lái)豐富特征圖的視野。
在網(wǎng)絡(luò)中,本文引入了DeepLabv3[18]的ASPP(Atrous Spatial Pyramid Pooling)模塊。ASPP是在文獻(xiàn)[17]中提出的,它包含了四個(gè)平行的擁有不同比率(Atrous Rate)的空洞卷積層。ASSP能夠在特征圖上用任意不同尺度的采樣,從而提高采樣的效率。DeepLabv3[18]對(duì)ASPP進(jìn)行了改進(jìn),在ASPP中增加了批量歸一化(Batch Normalization)操作。
本文在網(wǎng)絡(luò)中設(shè)置了注意力機(jī)制和特征融合單元,引入了BiSeNet[19]的ARM(Attention Refinement Module)單元和FFM(Feature Fusion Module)單元進(jìn)行設(shè)計(jì)。
注意力機(jī)制主要是獲取圖像的全局的上下文信息。如圖2(b)所示,ARM首先通過(guò)全局平均池化將輸入的尺寸轉(zhuǎn)換成1*1,將其作為注意力向量來(lái)指導(dǎo)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)。在該路徑上增加了批量歸一化和Sigmoid激活來(lái)對(duì)注意力進(jìn)行強(qiáng)化。
圖2 特征融合與注意力機(jī)制
特征融合的目的是將兩個(gè)不同的特征圖合并成一個(gè)特征圖,從而達(dá)到將兩個(gè)不同路徑上獲取的特征進(jìn)行融合的目的。FFM單元沒(méi)有直接將兩個(gè)特征圖進(jìn)行簡(jiǎn)單相加,而是首先進(jìn)行維度合并,再進(jìn)行卷積操作,本文在這一過(guò)程中沒(méi)有使用BiSeNet[19]中的Batch Normalization,而直接進(jìn)行分路后合并。具體結(jié)構(gòu)如圖2(a)所示。
根據(jù)相關(guān)研究的內(nèi)容,本文對(duì)切分英文手寫(xiě)字單詞的語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行設(shè)計(jì)。首先,本文對(duì)輸入圖像進(jìn)行下采樣來(lái)完成特征編碼器的設(shè)計(jì)。在編碼器中,本文使用ERFNet[15]的下采樣設(shè)計(jì)作為網(wǎng)絡(luò)的下采樣單元。每個(gè)下采樣單元后面又跟隨若干個(gè)帶有殘差[16]單元的Non-bottleneck-1D[15]模塊來(lái)進(jìn)行特征提取。其次,本文對(duì)低分辨率的特征圖設(shè)計(jì)了解碼器。在解碼器中,本文加入了Bi SeNet[19]的注意力機(jī)制(ARM)和特征融合單元(FFM)。本文將注意力機(jī)制(ARM)加入到Encoder的頂端,用以指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)全局特征。
為了獲取圖像目標(biāo)的位置信息,本文將編碼器(Encoder)第二個(gè)下采樣后的Non-bottleneck-1D[15]輸出特征矩陣進(jìn)行了ASPP[18]操作。
具體網(wǎng)絡(luò)總體結(jié)構(gòu)如圖3所示。
圖3 語(yǔ)義分割網(wǎng)絡(luò)(TextNet)結(jié)構(gòu)
本文將切分流程分為兩個(gè)階段,分別為語(yǔ)義分割階段和矩形框生成階段。在語(yǔ)義分割階段,本文訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)對(duì)英文手寫(xiě)體圖像進(jìn)行像素分割,獲得二值語(yǔ)義圖像(0為背景,256為字體區(qū)域)。在矩形框生成階段,本文將生成的二值語(yǔ)義圖像進(jìn)行邊緣檢測(cè),獲得字體區(qū)域的輪廓信息的蒙版圖像。在輸出階段將蒙版圖像和原始圖像相加,實(shí)現(xiàn)英文手寫(xiě)字體單詞切分的目的。具體流程如圖4所示。
圖4 手寫(xiě)體英文單詞切分框架
從上述設(shè)計(jì)中可以看出,手寫(xiě)字體單詞的準(zhǔn)確切分,在極大程度上是依賴(lài)于像素的語(yǔ)義分割所產(chǎn)生的單個(gè)單詞的像素輪廓信息。這就要求語(yǔ)義分割能夠獲在單詞的周?chē)@取更加豐富的語(yǔ)義信息。因此我們?cè)诰W(wǎng)絡(luò)設(shè)計(jì)過(guò)程中,加入了ASPP[18]操作,能夠保證在一定分辨率水平下獲取更加豐富的像素上下文語(yǔ)義信息。
本課題組根據(jù)實(shí)踐需要隨機(jī)挑選1061張英文作文答卷圖像進(jìn)行標(biāo)記用于訓(xùn)練和測(cè)試(為了方便表述,本文稱(chēng)該圖像集為T(mén)extDB)。相對(duì)自然場(chǎng)景文字圖像而言,作文答卷圖像上的文字具有稠密性特點(diǎn)。為此本文根據(jù)每張圖的單詞數(shù)目統(tǒng)計(jì)出單詞分布直方圖,如圖5所示。
圖5 單詞分布直方圖
在圖5中,橫軸表示為圖像上固定單詞數(shù)目出現(xiàn)的頻率;縱軸表示為每張圖像出現(xiàn)的單詞數(shù)目;曲線(xiàn)表示為單詞出現(xiàn)頻率的高斯函數(shù)擬合曲線(xiàn)。從直方圖上可以看出,數(shù)據(jù)集的圖像的單詞數(shù)目呈現(xiàn)高斯分布特性。
在實(shí)驗(yàn)中本文采用5折交叉驗(yàn)證的方法來(lái)進(jìn)行,將1061張英文手寫(xiě)字體圖像隨機(jī)分為5組做每次隨機(jī)選其中一組作為測(cè)試集,其余組作為訓(xùn)練集;一共做5次實(shí)驗(yàn),觀察每次測(cè)試的準(zhǔn)確值pi將其平均值作為實(shí)驗(yàn)結(jié)果p:
在實(shí)驗(yàn)中本文將圖像區(qū)域分為正類(lèi)別(單詞區(qū)域)和負(fù)類(lèi)別(非單詞區(qū)域)兩類(lèi),但在實(shí)際中需要關(guān)注正類(lèi)別的預(yù)測(cè)準(zhǔn)確性,因此本文將正類(lèi)別的評(píng)估作為主要參考對(duì)象。
首先,評(píng)估了模型的像素分割性能。本文計(jì)算了模型的像素分割的平均交并比(mIoU),正類(lèi)別的精確率(Prec),正類(lèi)別召回率(Rec),平均像素精度(MPA)等指標(biāo)。在公式中設(shè)定TP為真正,F(xiàn)P為假正,TN為真負(fù),F(xiàn)N為假負(fù)。具體公式如下所示:
此外,本文還評(píng)估了模型的單詞切分性能。本文用實(shí)際矩形框與預(yù)測(cè)矩形框的交并比作為預(yù)測(cè)閾值,因?yàn)樵趯?shí)際應(yīng)用中,單詞切分對(duì)交并比的精度要求較高,因此本文在評(píng)估中運(yùn)用了較高的閾值(0.7)。本文計(jì)算了正類(lèi)預(yù)測(cè)的精確率(Prec),召回率(Rec),如式(4)和式(5)所示,與此同時(shí)本文還計(jì)算了切分的F1-Score值(F1),如式(6)所示:
由于圖像中的手寫(xiě)字體相對(duì)于圖像尺寸偏小,單個(gè)單詞所在像素?cái)?shù)量較少。為了保證足夠的分辨率,增加字體切分的準(zhǔn)確率,我們將輸入圖像的寬和高設(shè)置為640×640的RGB三通道,即3×640×640?;诖?,我們計(jì)算了浮點(diǎn)運(yùn)算量(FLOPs),同時(shí),為了評(píng)估我們所設(shè)計(jì)模型規(guī)模,本文還對(duì)比了模型的參數(shù)量(Parameters),如表1所示。
表1 輕量級(jí)深度網(wǎng)絡(luò)模型參數(shù)規(guī)模和計(jì)算量
表1中,計(jì)量單位M和B分別為Million和Billion的縮寫(xiě)意為百萬(wàn)和十億。TextNet的參數(shù)量介于ENet[13]和ERFNet[15]之 間,在 浮 點(diǎn) 運(yùn) 算 量(FLOPs)的規(guī)模上,也具有一定優(yōu)勢(shì)。一般情況而言,網(wǎng)絡(luò)的規(guī)模和計(jì)算量和準(zhǔn)確性成正相關(guān)關(guān)系。但在很多情況下,受到硬件計(jì)算資源的限制,我們的工作在計(jì)算量和準(zhǔn)確性達(dá)到了一定的平衡,語(yǔ)義分割網(wǎng)絡(luò)達(dá)到了輕量級(jí)水平,滿(mǎn)足了應(yīng)用實(shí)踐的需要。
在實(shí)驗(yàn)中本文選取了ENet[13]ERFNet[15]作為參照組,并分別計(jì)算了正類(lèi)別精確率(Prec)、正類(lèi)別召回率(Rec)、平均像素精度(MPA)、平均交并比(mIoU)等性能指標(biāo)。具體結(jié)果如表2所示。
表2 英文手寫(xiě)字圖像語(yǔ)義分割實(shí)驗(yàn)結(jié)果
從表1中發(fā)現(xiàn),ERFNet[15]的語(yǔ)義分割性能略高于ENet[13]和本文提出的TextNet網(wǎng)絡(luò),這說(shuō)明從像素分類(lèi)的角度上來(lái)說(shuō)ERFNet[15]的性能更優(yōu)于其他兩種網(wǎng)絡(luò)模型。就正類(lèi)別精確率上來(lái)看,三種網(wǎng)絡(luò)都達(dá)到了92%以上的精度,這說(shuō)明采用語(yǔ)義分割技術(shù)能夠?qū)崿F(xiàn)對(duì)英文手寫(xiě)字單詞進(jìn)行有效的切分。
最后,本文對(duì)英文手寫(xiě)字體的切分效果進(jìn)行了實(shí)驗(yàn)。在實(shí)驗(yàn)中本文設(shè)置了5個(gè)參照組,增加了投影算法、投影和滴水算法的組合等傳統(tǒng)算法。具體的實(shí)驗(yàn)結(jié)果如表3所示。
表3 英文手寫(xiě)字切分實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)的結(jié)果可以看出采用基于深度神經(jīng)網(wǎng)絡(luò)的意義分割方法對(duì)英文手寫(xiě)字體切分的性能遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的切分方法。相比較2019年[6]提出種基于迭代的手寫(xiě)字符垂直投影和滴水切分方法高出了5.1個(gè)百分點(diǎn),在相同條件下,本文的工作達(dá)到了目前的state-of-the-art(SOTA)方法。
本文設(shè)計(jì)的Text Net網(wǎng)絡(luò)相對(duì)于傳統(tǒng)切分方法,能夠有效地對(duì)英文手寫(xiě)單詞進(jìn)行切分。就英文手寫(xiě)字體的語(yǔ)義分割與單詞切分的關(guān)系上來(lái)看,相對(duì)于ENet[13]和ERFNet[15]在語(yǔ)義分割性能相當(dāng)?shù)幕A(chǔ)上,本文提出的TextNet在英文手寫(xiě)體單詞的切分上相對(duì)更為有效。
從本文第4節(jié)中設(shè)計(jì)的單詞切分框架可知,單詞的切分是依賴(lài)于像素分割后所呈現(xiàn)出來(lái)的單詞輪廓,由于我們?cè)诰W(wǎng)絡(luò)設(shè)計(jì)中增加了ASPP[18]操作,使得我們所設(shè)計(jì)的TextNet的像素分割性能包括平均交并比(mIoU),正類(lèi)別的精確率(Prec),正類(lèi)別召回率(Rec),平均像素精度(MPA)略低于ERFNet[15]的情況下,能獲得比ERFNet[15]更高的單詞切分性能。
本文研究并實(shí)踐了語(yǔ)義分割技術(shù)在英文手寫(xiě)字體上的應(yīng)用,提出了用于切分英文單詞的語(yǔ)義網(wǎng)絡(luò)TextNet。實(shí)驗(yàn)證明在較高IoU閾值(0.7)的條件下,采用基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割方法的英文手寫(xiě)字體切分的性能遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的切分方法,這說(shuō)明采用語(yǔ)義分割技術(shù)對(duì)手寫(xiě)單詞的切分精度更高,因此該方法具有一定的實(shí)用性。
但是本文存在一定的局限性,首先數(shù)據(jù)集Text DB的數(shù)目有限,難以驗(yàn)證切分模型的泛化性能。其次本文還沒(méi)有在更加廣泛的語(yǔ)義分割模型上進(jìn)行實(shí)驗(yàn)分析。未來(lái)我們將標(biāo)記更多的手寫(xiě)字體圖像和更廣泛的語(yǔ)義分割網(wǎng)絡(luò)在本文的英文手寫(xiě)字體切分框架上進(jìn)行實(shí)驗(yàn)來(lái)探索更加高效的手寫(xiě)字體切分技術(shù)。