• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于注意力機制特征融合與增強的自然場景文本檢測

    2022-01-23 03:42:46陳靜嫻
    無線電工程 2022年1期
    關(guān)鍵詞:集上注意力特征

    陳靜嫻,周 全

    (南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)

    0 引言

    場景圖像指在自然場景中通過圖像采集設(shè)備采集的圖像。相對于圖像中的其他元素,文字能傳達更豐富準確的信息,因此自然場景中文字的識別對于圖像理解至關(guān)重要。然而自然場景中的文本相對于文檔文本有如下3個特點:① 背景復(fù)雜多干擾;② 文本自身的多樣性和可變性;③ 不完美的成像條件。這給自然場景下的文本檢測任務(wù)增加了難度。而文本檢測是場景文本識別(Scene Text Recognition,STR)的前序步驟,檢測結(jié)果的好壞直接影響到識別準確率,為了能幫助計算機更準確地理解圖像,精準的文本檢測非常重要。

    隨著深度學(xué)習(xí)熱潮的來襲,傳統(tǒng)手工設(shè)計特征[1]和分類器做文本檢測的方法逐步被卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)所取代。目前基于深度學(xué)習(xí)的文本檢測方法主要分為兩大類:基于回歸和基于分割。

    基于回歸的方法主要依據(jù)文本的特點,對通用目標檢測算法做相對應(yīng)的改進。基于Faster RCNN[2]框架,Tian等人[3]提出的CTPN算法使用一組寬度固定的anchor組件來描述文本行,有效地解決了長文本行的檢測問題?;谝浑A段檢測SSD[4]框架,Shi等人[5]提出了Seglink算法,該算法對不同尺度的特征圖分別檢測,并對anchor引入了角度預(yù)測,對不同尺度和帶角度的文本檢測有較好的魯棒性。該類方法采用外接矩形框做定位,對文檔文本檢測良好,但對任意形狀的文本不能做精準的邊界包圍,多余的背景噪聲會嚴重干擾后續(xù)的文本識別。

    近年來,由于像素級的分割可以更準確地描述各種形狀的場景文本,基于分割的方法在場景文本檢測中非常流行。基于分割的方法通常借鑒經(jīng)典語義分割網(wǎng)絡(luò)FCN[6]和FPN[7]的思路來構(gòu)建網(wǎng)絡(luò)框架。Dan等人[8]提出的PixelLink算法對每個像素點分別做二分類和8鄰域連接預(yù)測,再對屬于同一文本實例的像素做聚類。Zhou等人[9]提出的EAST算法將回歸與分割結(jié)合,精簡了網(wǎng)絡(luò)流程,能端到端檢測。Wang等人[10]提出了PSENet,該網(wǎng)絡(luò)使用漸進尺度擴張預(yù)測算法,在實現(xiàn)任意形狀文本的檢測之余還對緊密文本實例的分離有了改善。Baek等人[11]提出的CRAFT算法對文本做字符級的檢測,該算法能在感受野較小的情況下仍能檢測出長文本。Liao等人[12]提出的DB算法用近似可微分的二值化替代固定閾值,使后處理過程變得簡單且泛化能力更強。該類方法可以適應(yīng)任意形狀的文本目標。但圖像采集視角和文字本身多尺度、不規(guī)則分布的特點仍然給基于分割的文本檢測帶來了巨大的挑戰(zhàn)。

    基于上述難題,本文的主要工作有2點:① 為了得到更準確的解碼信息,設(shè)計了一種基于注意力的特征融合模塊(Attention-based Feature Fusion Module,AFFM),該模塊通過注意力機制提取深層特征的全局信息為淺層特征在通道維度上做校準加強,提取淺層特征的空間細節(jié)信息為深層特征在空間維度上做校準加強,從而使擁有不同感受野的特征能更精準地融合。在一定程度上能克服常規(guī)解碼過程中信息丟失的問題。② 為了提高級聯(lián)后特征的信息表征能力,設(shè)計了一種聯(lián)合注意力特征增強模塊(Joint Attention Feature Enhancement Module,JAM),該模塊利用卷積對級聯(lián)后特征通道間和空間位置之間的關(guān)系建模,從而有效加強級聯(lián)后特征通道維度及空間維度上的信息交融,進而提高檢測性能。

    為了證明上述模塊的有效性,實驗中將所提出的AFFM和JAM與基于語義分割的文本檢測網(wǎng)絡(luò)DBNet結(jié)合。從Total-Text和ICDAR2015數(shù)據(jù)集上的性能評估結(jié)果觀測,所提出的檢測網(wǎng)絡(luò)相比從前最優(yōu)的檢測網(wǎng)絡(luò)在精確度上更有優(yōu)勢。

    1 基于注意力的自然場景文本檢測模型

    1.1 整體網(wǎng)絡(luò)架構(gòu)

    為了使網(wǎng)絡(luò)能更好地檢測不同尺度和多種形態(tài)的場景文本,網(wǎng)絡(luò)架構(gòu)以基于分割的文本檢測網(wǎng)絡(luò)DBNet[12]為基準,設(shè)計了一種應(yīng)用注意力特征融合以及聯(lián)合注意力增強的卷積神經(jīng)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)的整體架構(gòu)如圖1所示。

    圖1 文本檢測網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of text detection network

    網(wǎng)絡(luò)按照推理流程可分為3個部分:骨干網(wǎng)絡(luò)、特征融合和檢測頭。骨干網(wǎng)絡(luò)采用ResNet-50[13]對圖像做初步的特征提取并抽取conv2_x~conv5_x這4種不同尺度的特征進行特征融合。特征融合部分首先對抽取的4種特征分別經(jīng)過一個1×1卷積將通道統(tǒng)一成256維,將得到的特征ink(k=2,3,4,5)送入AFFM與解碼特征做融合得到輸出特征outk(k=2,3,4,5),該模塊的細節(jié)將在1.2小節(jié)描述。其次對outk(k=2,3,4,5)使用3×3卷積進一步提取特征并調(diào)整通道為64后上采樣到1/4輸入圖像的大小得到特征pk(k=2,3,4,5),并對其進行通道維度的拼接。為了能對目標更準確地預(yù)測,在檢測之前增加JAM來提取更加適應(yīng)文本特點的特征,該部分將在1.3小節(jié)做詳細的描述。第三部分檢測頭采用DBNet算法對文本核心區(qū)域和邊界閾值做預(yù)測,再利用可微分二值化算法得到近似二值圖,最后對二值圖做簡單的后處理即可得到最終的檢測結(jié)果,該部分會在1.4小節(jié)做簡要描述。另外,將在1.5小節(jié)介紹網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)標簽的制作方法與損失函數(shù)的構(gòu)成以及訓(xùn)練參數(shù)設(shè)置。

    1.2 基于注意力機制的雙向特征融合

    分割網(wǎng)絡(luò)需要將深層特征解碼恢復(fù)到輸入尺寸進行預(yù)測,為了使解碼特征融合的過程中充分利用不同層級特征的空間和全局信息,設(shè)計了一種新的特征融合模塊AFFM,其結(jié)構(gòu)如圖2所示。

    圖2 基于注意力的特征融合模塊Fig.2 Attention-based feature fusion module

    AFFM整體包含2個輸入和一個輸出,分別記為來自淺層編碼端的輸入特征為ink(k=2,3,4),來自深層解碼端的輸入特征為outk+1(k=2,3,4),經(jīng)過AFFM融合后的輸出特征為outk。其內(nèi)部具體的運算如式(1)所述,上支路將淺層特征ink經(jīng)過空間注意力模塊(Spatial Attention Module,SAM)得到1×H×W的空間信息mask與2倍上采樣后的深層特征逐通道相乘,下支路將深層特征outk+1經(jīng)過通道注意力模塊(Channel Attention Module,CAM)得到C×1×1的通道信息向量與淺層特征逐像素位置相乘,再將校準加強過后的特征按位置相加得到輸出特征outk:

    outk=[Up2(outk+1)×SA(ink)]+[ink×CA(outk+1)]

    ?k={2,3,4},

    (1)

    式中,“+”和“×”分別表示對應(yīng)元素相加或相乘;SA(·)和CA(·)分別表示SAM和CAM的運算。

    AFFM的核心在于使用注意力機制提取深淺層的不同側(cè)重信息來對輸入特征做校準加強。具體來說即使用SAM提取淺層特征的空間信息對上采樣后的深層特征做加權(quán),使用CAM提取深層特征的全局信息對來自編碼端的淺層信息做加權(quán),再對校準后的雙方特征進行相加融合。SAM和CAM的內(nèi)部運作機制分別如圖3和圖4所示。

    圖3 空間注意力模塊Fig.3 Spatial attention module

    圖4 通道注意力模塊Fig.4 Channel attention module

    SAM對輸入特征分別按照空間位置計算所有通道上的最大值和平均值,得到2個1×H×W的特征mask,再對拼接后的特征mask用卷積做融合。CAM對輸入的特征分別做全局最大池化和全局平均池化,得到2個C×1×1的一維特征向量,一定程度上防止了單一池化方式造成的信息丟失。其內(nèi)部具體運算細節(jié)如式(2)、式(3)所示:

    SA(X)=σ{Conv7[Pmax(X)||Pavg(X)]},

    (2)

    (3)

    在整體網(wǎng)絡(luò)框架中,AFFM先分別提取最深層特征in5的全局信息和相鄰特征in4的空間信息,再對二者做融合得到第一次融合后的特征out4,再用相同的原理對out4和in3融合得到out3,最后對out3和in2融合得到out2。相對于直接將編碼端的信息與解碼端上采樣后同維度的特征相加的特征融合方式,基于注意力的雙向特征融合模塊能使編解碼端的信息相互監(jiān)督、彼此受益,從而促進網(wǎng)絡(luò)優(yōu)化。

    1.3 聯(lián)合注意力特征增強

    為了提高級聯(lián)后特征的信息表征能力,通常會使用卷積來對級聯(lián)后的特征做融合。常規(guī)的卷積操作僅對局部感受野中的空間信息做融合,而忽略了通道間的信息交互。若直接對通道間關(guān)系建模會將每個通道內(nèi)的信息進行全局處理,而忽略了空間內(nèi)的信息交互。針對上述問題,設(shè)計了JAM,其結(jié)構(gòu)如圖5所示。

    圖5 聯(lián)合注意力模塊Fig.5 Joint attention module

    JAM對特征的處理參考BAM[14](Bottlenet Attention Module)使用并聯(lián)的方式。該模塊分別使用CAM和SAM對輸入特征F的通道間和空間位置間的依賴關(guān)系建模,利用特征的全局信息得到每個通道的權(quán)重,利用空間上下文之間的關(guān)系突出目標相關(guān)的特征并抑制背景噪聲。再對所得C×1×1權(quán)向量和1×H×W的空間掩碼擴張到輸入特征F的維度后按位置相乘得到與F同維度的權(quán)重特征F′。為了避免網(wǎng)絡(luò)退化,模塊內(nèi)增加殘差連接來保證模型訓(xùn)練的有效性。該模塊的實現(xiàn)細節(jié)為:

    F″=JA(F)=F+F×F′=

    F+F×σ{EX[CA(F)]×EX[SA(F)]},

    (4)

    注意,這里的CA(·)和SA(·)去除了激活函數(shù)Sigmoid;EX(·)表示將特征擴張到與輸入特征F相同維度的操作。

    1.4 可微分二值化

    如圖1第三部分檢測頭所示,檢測頭需要將預(yù)測圖P中屬于文本核心區(qū)域的像素與背景分開,即對圖像中的像素點做聚類。而最簡單的聚類即設(shè)定某固定閾值,將各個像素點按照閾值t進行劃分,固定閾值的二分類方法為:

    (5)

    (6)

    1.5 標簽生成和損失函數(shù)

    相鄰文本實例的有效分離是基于分割的文本檢測算法需要解決的一項重大難題。本文標簽生成方法采用PSE中的Vatti[15]裁剪算法。圖6表示2類標簽生成的過程,從原始標注文本框G中生成收縮的文本核心區(qū)域Gs和外擴的文本邊界區(qū)域Gd。其中將Gs內(nèi)部填充1,外部填充0的掩碼圖作為P圖和B圖的標簽,將Gs與Gd之間框型區(qū)域按照高斯分布填充0~1的值,其余部分填充0的掩碼圖作為T圖的標簽。

    圖6 標簽生成(圖片來源于DBNet論文)Fig.6 Label generation picture from the paper of DBNet

    收縮擴張距離參數(shù)d由式(7)計算所得,A和L分別為原始標簽多邊形G的面積和周長,r是縮小比例,本文設(shè)定為0.4。

    (7)

    本文算法的總損失函數(shù)L由Ls,Lb和Lt三部分組成,如式(8)所示。其中Ls,Lb,Lt分別表示概率圖P、近似二值圖B和閾值圖T的損失,α設(shè)置為1,由于T圖的預(yù)測直接影響到B圖的準確率,因此Lt前的系數(shù)β設(shè)置成10。

    L=Ls+α×Lb+β×Lt,

    (8)

    式中,Ls和Lb使用二元交叉熵損失函數(shù)(BCE loss),如式(9)所示。其中Sl表示訓(xùn)練過程中所預(yù)測的文本核心區(qū)域,yi表示第i個位置點的標簽值,xi表示該位置的預(yù)測概率值,即:

    (9)

    (10)

    2 實驗及結(jié)果分析

    2.1 數(shù)據(jù)集

    ICDAR2015[17]:是一個面向多方向的文本數(shù)據(jù)集,包含很多小的和低分辨率的文本實例。其中1 000張用于訓(xùn)練,500張用于測試。其文本區(qū)域由四邊形的4個頂點進行單詞級別的標注。

    Total-Text[18]:是用于曲線文本檢測的數(shù)據(jù)集。其中1 255張用于訓(xùn)練,300張用于測試。數(shù)據(jù)集中包含水平、多方向和曲線文本實例,文本區(qū)域由多邊形進行單詞級別標注。

    2.2 評價指標

    本文算法的性能由準確率P、召回率R、F1分數(shù)這3個指標來衡量。其數(shù)值越大表示性能越好,即:

    (11)

    (12)

    (13)

    式中,Ntrue表示正確檢測的文本實例數(shù)量;Ndet表示全部檢測的文本實例數(shù)量;NGT表示標簽真實文本框的數(shù)量。

    2.3 實驗平臺及訓(xùn)練細節(jié)

    實驗所用到的軟硬件環(huán)境為3塊NVIDIA Tesla K80顯卡,操作系統(tǒng)為Ubuntu16.04,網(wǎng)絡(luò)模型使用Pytorch框架搭建實現(xiàn)。

    本文僅在對比實驗加載在SynthText[16]合成數(shù)據(jù)集上預(yù)訓(xùn)練2個epoch的ResNet-50模型作為骨干基礎(chǔ)網(wǎng)絡(luò)。在消融實驗和對比實驗中,本文在真實數(shù)據(jù)集上做1 000個epoch的微調(diào)訓(xùn)練,批次設(shè)置為8,優(yōu)化器使用帶動量的SGD,動量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 1,初始學(xué)習(xí)率設(shè)置為0.007,學(xué)習(xí)率衰減使用Poly策略。

    為了提高訓(xùn)練后模型的泛化能力,采用隨機旋轉(zhuǎn)[-10°~10°]、隨機裁剪、隨機翻轉(zhuǎn)來對訓(xùn)練圖像做數(shù)據(jù)增廣,最后將圖像調(diào)整成640 pixel×640 pixel大小送入網(wǎng)絡(luò)訓(xùn)練。

    2.4 消融實驗

    為了驗證AFFM和JAM的有效性,在Total-Text和ICDAR2015數(shù)據(jù)集上分別進行了消融實驗,這些實驗在訓(xùn)練過程中均未使用合成數(shù)據(jù)做預(yù)訓(xùn)練,實驗結(jié)果如表1所示。

    表1 Total-Text和ICDAR2015數(shù)據(jù)集上的消融實驗結(jié)果

    基線:第1行表示本次實驗對DBNet算法[12]的復(fù)現(xiàn)結(jié)果,并以此作為基準線;

    AFFM:由表1第2行所示,在添加本文提出的AFFM后,原始網(wǎng)絡(luò)的性能在Total-Text和ICDAR2015數(shù)據(jù)集上均有提升。其中準確率P分別提升1.3%,1.2%,F(xiàn)1指標分別提升0.9%,0.7%。證明了利用上下層級特征的特點對需要融合的特征做校準加強可以提高后續(xù)檢測的準確度。

    JAM:由表1第3行所示,文本提出的JAM模塊的引入可以為模型帶來一定的性能提升。在應(yīng)用該模塊后,模型在Total-Text和ICDAR2015數(shù)據(jù)集上召回率R分別提升1.5%,1.0%,F(xiàn)1指標分別提升0.9%,0.6%。證明對級聯(lián)后的特征做通道和空間上的聯(lián)合加強能在有效增強目標文本區(qū)域特征的同時抑制背景噪聲,從而減少漏檢。

    AFFM+JAM:由表1第4行所示,AFFM和JAM聯(lián)合使用會對準確率P和召回率R之間做一個折中,即能更好地平衡誤檢和漏檢,其F1指標達到最佳,相對于基線結(jié)果在Total-Text和ICDAR2015數(shù)據(jù)集上分別提升1.0%,0.8%。

    2.5 對比實驗

    在Total-Text數(shù)據(jù)集和ICDAR2015數(shù)據(jù)集上將本文提出的方法與近年來的優(yōu)秀算法進行了比較,包括一個多語言彎曲文本數(shù)據(jù)集和一個多方向長文本文本數(shù)據(jù)集??梢暬臏y試結(jié)果如圖7所示,其中按列從左至右分別為測試圖、標簽圖、DBNet檢測結(jié)果圖和本文算法檢測結(jié)果圖。

    (a) 大尺度彎曲文本檢測結(jié)果(Total-Text)

    圖7(a)、圖7(b)和圖7(c)取自Total-Text的測試集,圖7(d)、圖7(e)取自ICDAR2015的測試集。為了使檢測結(jié)果更直觀,在去均值的圖像上繪制文本邊界框。從圖7(a)可以看出,本文方法的檢測結(jié)果能覆蓋待識別文本的更多部位,更完整的檢測區(qū)域利于后續(xù)的文本識別;從圖7(b)和圖7(c)可以看出,本文的方法能在一定程度上減少誤檢和漏檢,并且對彎曲本文的檢測有魯棒性;從圖7(d)可以看出,本文方法在多尺度文本檢測上也取得了較好的檢測效果,并且對排布較為緊密的文本行也能正確分離檢測;從圖7(e)可以看出,本文方法對豎向排列的文本同樣能精準檢測。

    在Total-Text數(shù)據(jù)集上的測試結(jié)果證明了所提出方法在曲形文本檢測上的有效性。該方法在召回率R和F1指標上均取得最優(yōu)。其中F1指標高達85.1%,相比于針對曲形文本檢測任務(wù)的TextSnake[20]、PSENet[10]分別提高了6.7%,4.2%;相比于目前應(yīng)用廣泛且效果最佳的DBNet[12]提高了0.4%,與其他方法的對比結(jié)果如表2所示。

    表2 Total-Text數(shù)據(jù)集上模型性能對比

    在ICDAR2015數(shù)據(jù)集上的測試結(jié)果表明所提出方法對多方向、多尺度的文本檢測有較強的魯棒性。該方法在精度上達到了最優(yōu),其F1指標高達87.6%,相比于針對長文本檢測的CTPN方法提高了26.7%,相比于字符級精準檢測的CRAFT算法提高了0.7%,相對于目前最優(yōu)的DBNet算法提高了0.3%,與其他方法的對比結(jié)果如表3所示。

    表3 ICDAR2015數(shù)據(jù)集上模型性能對比

    3 結(jié)束語

    針對文本尺度多樣、分布隨機、背景復(fù)雜所造成的檢測難題,提出了一個新的自然場景文本檢測框架。其中AFFM和JAM能將有效特征更精準地覆蓋到目標文本區(qū)域,并且在突出目標特征的同時能抑制無關(guān)的背景噪聲。在2個公開數(shù)據(jù)集上的實驗結(jié)果表明,本文的方法相比于目前最先進的算法在F1指標上均有一定的提升,證明了方法的有效性。后續(xù)工作將對目標文本的結(jié)構(gòu)化表示和模型輕量化展開深入研究,進一步提升模型的檢測性能和檢測速度。

    猜你喜歡
    集上注意力特征
    讓注意力“飛”回來
    Cookie-Cutter集上的Gibbs測度
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    如何表達“特征”
    不忠誠的四個特征
    復(fù)扇形指標集上的分布混沌
    抓住特征巧觀察
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    敖汉旗| 青龙| 潜山县| 新余市| 花垣县| 新宾| 波密县| 南郑县| 通许县| 嘉荫县| 南召县| 南京市| 玛多县| 天等县| 杨浦区| 虹口区| 阳新县| 巴东县| 巍山| 大姚县| 武安市| 喀喇沁旗| 化州市| 铁力市| 行唐县| 渝中区| 德格县| 黔西| 北安市| 隆德县| 原平市| 寻甸| 嘉鱼县| 多伦县| 华容县| 道孚县| 常熟市| 潢川县| 西畴县| 遂溪县| 泸西县|