鄒偉平 馮輝揚(yáng) 龍?chǎng)?/p>
(1.南昌大學(xué)信息化辦公室(與網(wǎng)絡(luò)中心合署)江西省南昌市 330031)
(2.南昌大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 江西省南昌市 330031)
不同于傳統(tǒng)的掃描圖像文本,自然場(chǎng)景中的文本具有形狀和字體多樣、尺度不一、背景復(fù)雜等特點(diǎn),因此該領(lǐng)域的文本檢測(cè)更具挑戰(zhàn)性。當(dāng)前基于語(yǔ)義分割的檢測(cè)方法由于能檢測(cè)任意形狀的文本因此受到了更多的關(guān)注。
基于語(yǔ)義分割的方法主要受全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)的啟發(fā)預(yù)測(cè)像素級(jí)別的文本標(biāo)簽,因此能夠檢測(cè)出任意形狀的文本。Deng等人提出的 Pixellink 算法對(duì)像素點(diǎn)進(jìn)行文本與非文本預(yù)測(cè)以及預(yù)測(cè)文本像素的8 個(gè)方向上是否存在連接。Long等人提出的TextSnake 算法通過(guò)預(yù)測(cè)文本中心線并通過(guò)圍繞中心線使用不同半徑和連接角度的圓盤(pán)覆蓋文本區(qū)域。Wang等人提出的PSENet 算法通過(guò)漸進(jìn)式尺度擴(kuò)展后處理以提高檢測(cè)精度。Liao等人提出的DBNet 通過(guò)加入自適應(yīng)二值化提高輸出圖對(duì)閾值的魯棒性,是一種目前應(yīng)用廣泛的基于分割的文本檢測(cè)算法。
對(duì)于高分辨率輸入圖像,文本檢測(cè)模型感受野不足是目前存在的普遍問(wèn)題;對(duì)于目前使用廣泛的特征金字塔輸出的不同尺度的特征圖直接進(jìn)行上采樣后拼接,會(huì)引入大量的冗余信息造成檢測(cè)效果的下降。針對(duì)上述問(wèn)題,本文研究提出了可切換空洞卷積與注意力導(dǎo)向的特征金字塔網(wǎng)絡(luò)(SDAFPN),提高模型感受野并融合粗細(xì)粒度特征,引入注意力導(dǎo)向模塊(AM)以增強(qiáng)特征的語(yǔ)義信息且減少空洞卷積對(duì)文本邊界信息的破壞;針對(duì)特征融合階段引入冗余信息的問(wèn)題,提出了特征增強(qiáng)融合模塊(FEFM),在特征層級(jí)、空間位置、輸出通道上增加注意力機(jī)制,增強(qiáng)模型對(duì)尺度、空間、任務(wù)的感知能力。
本文在DBNet 的基礎(chǔ)上融合了SDA-FPN 與FEFM,其整體結(jié)構(gòu)如圖1 所示。算法采用ResNet 作為主干網(wǎng)絡(luò),使用下采樣率為1/4,1/8,1/16,1/32 的特征圖作為SDAFPN 的輸入,記為{F2,F3,F4,F5},且把F5 輸入到可切換空洞卷積與自注意力模塊(Switchable Dilated Convolutions and Self-Attention Module, SDSM)與AM 模塊中,然后與經(jīng)過(guò)1×1 卷積的F5 按位相加得到特征圖P5,再通過(guò)SDAFPN 的自頂向下與橫向連接獲取不同尺度的特征輸出記為{P2,P3,P4,P5}。把不同尺度的特征圖輸入特征增強(qiáng)融合模塊FEFM 進(jìn)行特征融合得到融合后的特征圖F,最后把特征圖F 輸入到DBHead(Diあerentiable Binarization Head,DBHead),即可得到最終的文本區(qū)域。
圖1 :整體算法網(wǎng)絡(luò)結(jié)構(gòu)圖
本文提出的SDA-FPN 具體結(jié)構(gòu)如圖2 所示,該網(wǎng)絡(luò)包含了可切換空洞卷積與自注意力模塊(Switchable Dilated Convolutio-ns and Self-Attention Module,SDSM)與AM 模塊,SDSM 模塊通過(guò)雙分支結(jié)構(gòu)實(shí)現(xiàn)了粗細(xì)粒度特征的融合;AM 模塊能夠增強(qiáng)特征語(yǔ)義信息并減少空洞卷積對(duì)文本位置信息的破壞。
圖2 :可切換空洞卷積與注意力導(dǎo)向的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)圖
2.2.1 可切換空洞卷積與自注意力模塊(SDSM)
SDSM模塊有兩個(gè)分支,分別為融合了可切換空洞卷積的密集連接分支與使用了自注意力模塊的分支。兩個(gè)分支分別獲取到不同感受野的細(xì)粒度特征與保留了初始輸入信息的粗粒度特征。最后將兩個(gè)分支輸出的特征圖進(jìn)行拼接并送到1×1 卷積實(shí)現(xiàn)粗細(xì)粒度特征的融合。
可切換空洞卷積能夠根據(jù)任務(wù)需求選擇不同空洞率的卷積,其結(jié)構(gòu)如圖3 所示,包含兩個(gè)上下文模塊及SAC(Switchable Atrous Convloution)模塊。使用y=Conv(x,w,r)表示一個(gè)輸入為x,權(quán)重為w,空洞率為r 的3×3 卷積,則本文使用的SAC 可表示為:
圖3 :可切換的空洞卷積結(jié)構(gòu)
其中i 表示第一個(gè)卷積的空洞率,j 表示第二個(gè)卷積的空洞率,S(x)為經(jīng)過(guò)5×5 全局平均池化與1×1 卷積的開(kāi)關(guān)函數(shù),Δw 為可訓(xùn)練參數(shù)。兩個(gè)不同空洞率的卷積使用一種權(quán)重鎖定機(jī),對(duì)于空洞率為j 的卷積只需要學(xué)習(xí)Δw 即可,Δw初始化值為0。對(duì)密集連接的可切換空洞卷積空洞率(i,j)可設(shè)置為(1,3),(3,6),(6,12),(12,18)和(18,24)。
2.2.2 注意力導(dǎo)向模塊(AM)
AM 模塊包含上下文注意力模塊(CxAM)與內(nèi)容注意力模塊(CnAM)以分別增強(qiáng)特征的語(yǔ)義信息與邊界位置信息。CxAM 與CnAM 的結(jié)構(gòu)如圖4 所示,CxAM 與CnAM都是基于自注意力機(jī)制且結(jié)構(gòu)大體相似,CnAM 的Q、K 是由骨干網(wǎng)絡(luò)的特征F5 得到,因?yàn)镕5 包含更多的位置信息,V 則與CxAM 一樣由特征F 經(jīng)過(guò)1×1 得到。
圖4 :上下文注意力模塊CxAM(左)與內(nèi)容注意力模塊CnAM(右)
將特征V 與注意力矩陣R'按位相乘即可得到輸入特征F 的注意力表示 。最后把CxAM、CnAM 輸出的特征圖以及SDSM 模塊輸出特征F 按位相加得到特征F',再把F'與經(jīng)過(guò)1×1 卷積的特征F5 按位相加則可以得到特征金字塔的特征P5。
本文受動(dòng)態(tài)檢測(cè)頭(dynamic head)啟發(fā),提出了特征增強(qiáng)融合模塊FEFM,其結(jié)構(gòu)如圖5 所示,通過(guò)結(jié)合注意力機(jī)制增加特征對(duì)尺度、空間、任務(wù)的感知能力。
圖5 :特征融合模塊(FEFM)
首先對(duì)輸入特征P(i=2,3,4,5)增加特征層級(jí)的注意力,使用P與其鄰近的特征P,P進(jìn)行加權(quán)融合,若i=2 或5 則只使用其上方或下方特征圖進(jìn)行加權(quán)融合。通過(guò)1×1卷積計(jì)算各層特征對(duì)應(yīng)的注意力系數(shù)把注意力系數(shù)與對(duì)應(yīng)的特征層按位相乘后拼接即可得到尺度感知增強(qiáng)后的特征L(i=2,3,4,5)。接下來(lái)使用空間注意力模塊增強(qiáng)特征的空間位置感知能力,最后使用動(dòng)態(tài)Relu(Dynamic Relu,DyRelu)激活函數(shù)對(duì)S增加輸出通道的注意力。
本文自然場(chǎng)景文本檢測(cè)中常用的公開(kāi)數(shù)據(jù)集ICDAR2015。ICDAR2015共包含1500張圖片,其中1000 張作為訓(xùn)練集,500 張作為測(cè)試集,圖像分辨率是1280×720。使用常用的文本檢測(cè)指標(biāo)即準(zhǔn)確率(Precision)、召回率(Recall)、F 值(F-measure)對(duì)算法進(jìn)行評(píng)估。
3.2.1 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的SDA-FPN 與FEFM 的有效性,本小節(jié)通過(guò)在數(shù)據(jù)集ICDAR2015 上對(duì)模型進(jìn)行消融實(shí)驗(yàn)。表1 為消融實(shí)驗(yàn)結(jié)果。
表1 :各部分對(duì)實(shí)驗(yàn)結(jié)果的影響
通過(guò)對(duì)表1 分析可知,本文提出的改進(jìn)對(duì)比DBNet 的準(zhǔn)確率都有輕微下降,而DBNet 的召回率偏低,漏檢現(xiàn)象嚴(yán)重。 添加了SDA-FPN 的DBNet 召回率提高了3.7%,準(zhǔn)確率下降了1.6%,F(xiàn) 值提高了1.4%。添加了FEFM 的DBNet,準(zhǔn)確率與F 值分別下降了5.5%和1.6%,召回率提高了1.3%。結(jié)合了SDA-FPN 與FEFM 的DBNet,對(duì)比DBNet 雖然準(zhǔn)確率下降了1.6%,但是召回率增加了5.7%,F(xiàn) 值提高了2.6%。
3.2.2 對(duì)比實(shí)驗(yàn)
ICDAR2015 實(shí)驗(yàn)結(jié)果如表2 所示,本文提出的方法在準(zhǔn)確率上達(dá)到88.6%,僅比DBNet 低了1.6%,高于表2 中的其余算法。本文方法的召回率達(dá)到80.1%,比TextSnake低了0.3%,高于表2 中其余算法。F 值達(dá)到84.2%,高于表2 中其余算法。因此本文方法在ICDAR2015 數(shù)據(jù)集上獲得了不錯(cuò)的綜合性能。
表2 :ICDAR2015 數(shù)據(jù)集檢測(cè)結(jié)果
圖6為在數(shù)據(jù)集ICDAR2015中的測(cè)試效果展示實(shí)例圖,如圖中紅色箭頭區(qū)域所示,本文算法對(duì)于密集文本以及長(zhǎng)文本的漏檢問(wèn)題有明顯的改善。
圖6 :ICDAR2015 測(cè)試效果展示實(shí)例圖
本文針對(duì)當(dāng)前自然場(chǎng)景文本檢測(cè)算法模型感受野不足的問(wèn)題,提出了可切換空洞卷積與注意力導(dǎo)向的特征金字塔網(wǎng)絡(luò)SDA-FPN,并提出特征增強(qiáng)融合模塊FEFM 以減少特征融合階段引入的冗余信息。實(shí)驗(yàn)結(jié)果表明,本文算法在多方向文本數(shù)據(jù)集ICDAR2015 上綜合指標(biāo)F 值為 84.2%,比DBNet 提升了2.6%。未來(lái)的工作考慮對(duì)自然場(chǎng)景圖像的小文本檢測(cè)進(jìn)行更加深入的研究。