• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文字部件分割方法

      2023-02-20 13:42:08藺廣逢劉廷金
      實(shí)驗(yàn)室研究與探索 2023年11期
      關(guān)鍵詞:掩碼層級(jí)部件

      藺廣逢,劉廷金,楊 戩

      (1.西安理工大學(xué)印刷包裝與數(shù)字媒體學(xué)院,西安 710048;2.西安碑林博物館,西安 710001)

      0 引言

      在“十四五”期間,為加快社會(huì)主義文化繁榮發(fā)展,明確要求加快數(shù)字化發(fā)展,加強(qiáng)對(duì)古籍碑文保護(hù)的研究。因此,準(zhǔn)確、有效地檢測(cè)和分割碑文文字,是對(duì)石刻碑文保護(hù)的有效途徑。

      目前對(duì)于石刻碑文檢測(cè)和分割的研究相對(duì)較少。傳統(tǒng)方法中,部分學(xué)者對(duì)較為成熟的計(jì)算機(jī)光學(xué)字符識(shí)別(OCR)進(jìn)行改進(jìn)。然而,由于石刻碑文背景雜亂、字體殘損、字體風(fēng)格多樣、訓(xùn)練圖像單一等原因,導(dǎo)致傳統(tǒng)識(shí)別算法的效果較差。同時(shí),傳統(tǒng)識(shí)別算法的性能主要取決于特征的提取,而人工設(shè)計(jì)的提取器只適用于特定場(chǎng)景,因此所提取的特征信息區(qū)分度低。深度學(xué)習(xí)下的文字檢測(cè)分割主要分為2 類(lèi):第1 類(lèi),借鑒語(yǔ)義分割方法,將文字識(shí)別問(wèn)題轉(zhuǎn)化為語(yǔ)義分割問(wèn)題,對(duì)輸入文字圖像的每個(gè)像素點(diǎn)進(jìn)行分類(lèi),實(shí)現(xiàn)像素級(jí)的預(yù)測(cè)分割;第2 類(lèi),利用目標(biāo)定位、檢測(cè)進(jìn)行分割,包含兩階段的算法R-CNN[1](region-convolutional neural networks)、Fast R-CNN[2](fast regionconvolutional neural networks)、Faster R-CNN[3](faster region-convolutional neural networks)等以及一階段的算法SSD[4](single shot multibox detector)、YOLO[5](you only look once)、SOLO[6](segmenting objects by locations)等。

      現(xiàn)有算法都是對(duì)文字的整體進(jìn)行檢測(cè)和分割,但是文字種類(lèi)繁多,常用文字就有2 500 多個(gè),而且對(duì)于殘損文字檢測(cè)效果較差,因此提出了文字部件的檢測(cè)和分割方法。文字部件相對(duì)較少,只有393 個(gè),而且對(duì)于殘損文字的判別和修復(fù)可提供有效支持。針對(duì)文字部件檢測(cè)和分割的需求,基于深度學(xué)習(xí)的文字部件實(shí)例分割,探索現(xiàn)有實(shí)例分割框架對(duì)文字部件分割的有效性,然后采用SOLOv2 改進(jìn)算法,將高層語(yǔ)義特征和底層細(xì)粒度特征進(jìn)行充分融合,優(yōu)化部件邊界分割精度。最后,通過(guò)實(shí)例驗(yàn)證了所提算法的有效性。

      1 實(shí)驗(yàn)設(shè)計(jì)

      1.1 算法設(shè)計(jì)

      本實(shí)驗(yàn)擬以SOLOv2 模型為基準(zhǔn),實(shí)現(xiàn)對(duì)文字部件的實(shí)例分割。圖1 為SOLOv2 改進(jìn)算法流程及詳細(xì)框架。圖1(a)為所提出的SOLOv2 改進(jìn)算法流程,對(duì)文字圖像進(jìn)行預(yù)處理,然后輸入改進(jìn)的SOLOv2 模型中,通過(guò)置信度篩選和非極大值抑制確定部件類(lèi)別和部件掩碼。圖1(b)為SOLOv2 改進(jìn)算法的詳細(xì)框架,層級(jí)融合模塊(HIM)和邊界增強(qiáng)模塊(BEM)為提出的改進(jìn)模塊。圖像經(jīng)過(guò)骨干網(wǎng)絡(luò)(ResNet50[7])特征提取后得到不同深度的特征C2、C3、C4、C5、C6(Cn表示原圖的1/2n大小特征),然后傳入層級(jí)融合模塊(HIM)得到融合后特征的P2、P3、P4、P5、P6。P2~P6充分融合細(xì)粒度特征和語(yǔ)義信息,特征大小依次為輸入圖像的1/4、1/8、1/16、1/32、1/64,再利用SOLOv2算法的原始共享頭部進(jìn)行類(lèi)別預(yù)測(cè)和掩碼預(yù)分割。最后,將預(yù)分割掩碼和Sobel檢測(cè)的邊緣先驗(yàn)信息傳入邊界增強(qiáng)模塊,通過(guò)注意力機(jī)制融合掩碼特征和邊緣先驗(yàn)信息,以增強(qiáng)預(yù)分割掩碼的邊界信息,提高掩碼精度。

      圖1 SOLOv2改進(jìn)算法流程及詳細(xì)框架

      1.2 層級(jí)融合模塊

      PANet[8](path aggregation network)和FPN[9](feature pyramid networks)僅傳遞了多尺度信息,沒(méi)有對(duì)這些信息進(jìn)行選擇性融合。因此,借鑒文獻(xiàn)[10]中提出的特征金字塔生成范式,提出層級(jí)融合模塊。

      層級(jí)融合模塊如圖2 所示。在FPN 之后,將FPN層不同尺度的特征P =(P2,P3,P4,P5,P6)作為輸入,通過(guò)特征壓縮復(fù)制(FCR)模塊在通道上進(jìn)行壓縮復(fù)制,然后將特征進(jìn)行分組、組合和融合。

      圖2 層級(jí)融合模塊網(wǎng)絡(luò)結(jié)構(gòu)

      層級(jí)融合具體的步驟如下:以矩陣乘法的形式對(duì)特征P進(jìn)行加權(quán),并壓縮特征維度,使其在通道上更加緊湊,同時(shí)進(jìn)行復(fù)制,用于后續(xù)多尺度特征組合和融合。融合后特征Xk可表示為

      式中:⊙表示矩陣乘法;ReC×H×W(·)和ReC×HW(·)分別表示將輸入張量重塑為三維C×H×W和二維C×HW,HW表示H和W的乘積,其中C是通道數(shù),H是特征圖的高,W是特征圖的寬;Gk(·)表示特征壓縮復(fù)制模塊中特征變換部分。特征壓縮復(fù)制模塊結(jié)構(gòu)如圖3 所示。首先輸入特征Pk進(jìn)行全局池化(GAP),然后經(jīng)過(guò)2 個(gè)卷積提升通道維度,最后重塑為C′×C,得到特征P′k,該特征與輸入特征Pk進(jìn)行矩陣乘法,以通道加權(quán)的方式對(duì)特征壓縮復(fù)制。對(duì)于加權(quán)后的特征Xk,每C′/5 個(gè)通道為一組,以進(jìn)行多尺度特征融合。圖3 中,ReC′×C表示將輸入張量重塑為C′×C大小,其他的張量重塑有類(lèi)似的意義。實(shí)驗(yàn)中C為256,C′為320。

      圖3 特征壓縮復(fù)制模塊網(wǎng)絡(luò)結(jié)構(gòu)

      將特征壓縮復(fù)制模塊的輸出Xk在通道維度上劃分成五部分:Xk=(X2k,X3k,X4k,X5k,X6k),2≤k≤6,然后將多尺度的特征進(jìn)行組合并融合,表達(dá)式如下所示:

      式中:concat(·)表示特征連接操作;Convs(·)表示2層卷積核為3 ×3 的卷積、批歸一化(BN)層和ReLU激活函數(shù)操作。

      1.3 邊界增強(qiáng)模塊

      文字部件結(jié)構(gòu)復(fù)雜多樣,為了得到更好的分割效果,提出了邊界增強(qiáng)模塊,如圖4 所示。圖4 中通道注意力模塊以特征s 每個(gè)通道為token。結(jié)合邊緣檢測(cè)算子,得到原圖像的邊緣先驗(yàn)信息,然后通過(guò)注意力機(jī)制增強(qiáng)預(yù)分割掩碼的邊緣特征,以提升掩碼精度。

      圖4 邊界增強(qiáng)模塊

      將原始圖像x 和SOLOv2 算法預(yù)分割掩碼特征fpre_mask作為輸入。原始圖像經(jīng)過(guò)下采樣、Sobel 邊緣檢測(cè)和卷積處理后得到原始圖片的邊緣先驗(yàn)信息fedge_prior,表達(dá)式如下所示:

      式中:D(·)表示下采樣操作;S(·)表示Sobel 邊緣檢測(cè)算子。預(yù)分割掩碼特征具有高級(jí)語(yǔ)義信息,但是仍然存在大量實(shí)例內(nèi)部的雜亂邊緣信息,該信息會(huì)嚴(yán)重影響預(yù)測(cè)掩碼的精度。將激活的邊緣先驗(yàn)信息和預(yù)分割掩碼特征在通道上進(jìn)行連接,然后采用通道注意力模塊(CAB)[11]在通道維度上屏蔽雜亂的邊緣信息,表達(dá)式如下所示:

      式中:σ(·)表示Sigmoid激活函數(shù);⊕表示在通道上進(jìn)行拼接;?表示對(duì)應(yīng)元素相乘;CAB(·)表示通道注意力模塊。經(jīng)過(guò)Sigmoid激活函數(shù)得到通道之間的注意力得分,然后對(duì)輸入特征在通道上進(jìn)行加權(quán),重新計(jì)算得到的特征,最后添加殘差連接,將原始特征和加權(quán)后的特征對(duì)應(yīng)像素相乘,表達(dá)式如下所示:

      式中:T(·)表示矩陣維度轉(zhuǎn)置(將H×W×C置換為C×H×W);aAtt表示注意力得分。

      在通道注意力模塊后,經(jīng)過(guò)2 層卷積Convs(包含卷積核為3 ×3 的卷積層、BN 層、ReLU 激活函數(shù)層和卷積核為1 ×1 的卷積層)進(jìn)行特征融合并降維,得到預(yù)測(cè)掩碼。

      邊界增強(qiáng)模塊中,原始圖像通過(guò)Sobel 邊緣檢測(cè)算子處理得到原圖的邊緣先驗(yàn)信息,并在損失函數(shù)的指導(dǎo)下優(yōu)化這些邊緣,以引導(dǎo)模型將注意力集中在文字部件的邊界上。

      1.4 實(shí)例分割數(shù)據(jù)集的生成

      文字不僅種類(lèi)繁多(僅常用文字就有2 500 多個(gè)),而且結(jié)構(gòu)復(fù)雜。在數(shù)據(jù)采集的過(guò)程中由于人為疏忽、自然環(huán)境的影響,可能存在破壞石碑的風(fēng)險(xiǎn),因此難以采集足夠的在碑文上每個(gè)字的訓(xùn)練樣本。國(guó)家語(yǔ)言文字工作委員會(huì)發(fā)布的語(yǔ)言文字規(guī)范對(duì)常用的2 500 多個(gè)文字進(jìn)行結(jié)構(gòu)和部首的拆分,得到336個(gè)文字部件。模擬現(xiàn)實(shí)中石刻碑文圖像是一個(gè)有效解決碑文訓(xùn)練樣本少的方法。

      通過(guò)旋轉(zhuǎn)、縮放、拉伸、剪切、顏色模型空間色調(diào)變換等方式,在336 個(gè)文字部件中隨機(jī)選取2~6 個(gè)不同的文字部件復(fù)制到石碑雜亂背景,同時(shí)加入椒鹽噪聲,隨機(jī)生成白點(diǎn)或者黑點(diǎn),模擬現(xiàn)實(shí)中的石刻碑文圖像,如圖5 所示。圖5 的左上圖中僅存在2 個(gè)部件,旋轉(zhuǎn)角度較??;右上圖中存在多個(gè)部件,旋轉(zhuǎn)角度較大的;左下圖中存在多個(gè)部件,并且相互重疊;右下圖中背景噪聲干擾嚴(yán)重。數(shù)據(jù)集詳細(xì)信息如表1 所示。數(shù)據(jù)集下載地址為https:∥github.com/Liutingjin/Rad-ical-Instance-Segmentation/releases/download/datasets/radical2coco.zip。

      表1 文字部件數(shù)據(jù)集

      圖5 部件數(shù)據(jù)集示例圖片

      1.5 損失函數(shù)設(shè)計(jì)

      所提出模型的整體損失函數(shù)可以表示為

      式中:Lcls、Lpre-mask分別表示SOLOv2 模型的原始類(lèi)別損失和實(shí)例分割的掩碼損失;LBEM-mask表示邊界增強(qiáng)后實(shí)例分割的掩碼損失;λ和μ為損失權(quán)重,在實(shí)驗(yàn)中設(shè)置為3,用來(lái)平衡Lcls、Lpre-mask和LBEM-mask。

      Lcls為Focal損失,是在交叉熵?fù)p失的基礎(chǔ)上加入α和γ 超參數(shù)平衡因子,平衡難以分類(lèi)樣本的損失貢獻(xiàn)。Lcls的表達(dá)式如下所示:

      式中:p為部件的真實(shí)標(biāo)簽值,為模型分類(lèi)結(jié)果。Lpre-mask為Dice損失,用于計(jì)算預(yù)分割掩碼與真實(shí)掩碼的重疊區(qū)域,表達(dá)式如下所示:

      式中:M為真實(shí)分割掩碼;為預(yù)分割掩碼分支預(yù)測(cè)掩碼。LBEM-mask是在Dice損失的基礎(chǔ)上添加交叉熵?fù)p失(BCE),表達(dá)式如下所示:

      2 實(shí)驗(yàn)方法與分析

      2.1 網(wǎng)絡(luò)模型訓(xùn)練

      在文字部件數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),使用平均精度(AP)作為實(shí)驗(yàn)的評(píng)估指標(biāo),分別評(píng)估了邊界框檢測(cè)和實(shí)例分割掩碼的amAP(平均精度在不同IoU 閾值上平均)、aAP50(IoU閾值為0.50 時(shí)的平均精度)、aAP75(IoU閾值為0.75 時(shí)的平均精度)、aAPs和aAPm(不同尺度的平均精度,s表示實(shí)例面積小于322,m表示實(shí)例面積大于322且小于962),所有實(shí)驗(yàn)的主干網(wǎng)絡(luò)均為ResNet50,并利用ImageNet數(shù)據(jù)集[12]上預(yù)訓(xùn)練的權(quán)重初始化網(wǎng)絡(luò)參數(shù)。硬件設(shè)備為NVIDIA RTX 3090 24 G、CUDA v11.1 和Ubuntu 16.04。實(shí)驗(yàn)使用隨機(jī)梯度下降(SGD)訓(xùn)練,進(jìn)行1.8 ×105次迭代訓(xùn)練優(yōu)化,初始學(xué)習(xí)率為0.005,每批量為8 張圖像,在迭代1.2 ×105和1.6 ×105次時(shí),學(xué)習(xí)率均降低10 倍。權(quán)重衰減系數(shù)和動(dòng)量系數(shù)分別設(shè)置為1.0 ×10-4和0.9?;贒etectron2[13]開(kāi)源庫(kù),在訓(xùn)練期間,輸入圖像大小被調(diào)整為短邊在[640,800]范圍內(nèi),而長(zhǎng)邊小于或等于1 333,也可使用左右翻轉(zhuǎn)數(shù)據(jù)增強(qiáng)。訓(xùn)練得到的損失曲線如圖6 所示,損失值在訓(xùn)練開(kāi)始時(shí)急劇下降,隨著訓(xùn)練的進(jìn)行逐漸放緩,最終趨于穩(wěn)定,模型收斂。測(cè)試時(shí),不使用任何數(shù)據(jù)增強(qiáng),按比例縮放圖像的分辨率至少為800 × 800。這項(xiàng)工作的推理在單個(gè)RTX 3090GPU上測(cè)試,每批量為1 張圖像。在相同的實(shí)驗(yàn)環(huán)境下,使用相同的訓(xùn)練方式,訓(xùn)練了Mask RCNN[14],CenterMask[15]、Transfiner[16]和CondInst[17]模型,用于對(duì)比分析。

      圖6 訓(xùn)練過(guò)程的損失曲線

      2.2 與其他模型對(duì)比

      為了驗(yàn)證現(xiàn)有經(jīng)典模型和所提出模型對(duì)碑文部件數(shù)據(jù)集的檢測(cè)和分割能力,進(jìn)行了實(shí)驗(yàn)和對(duì)比,結(jié)果如表2 所示。在實(shí)驗(yàn)中發(fā)現(xiàn),在CenterMask 模型中,若全卷積一階段目標(biāo)檢測(cè)效果較差,則裁剪得到的特征存在部件特征缺失,可能使部件退化為另一部件,導(dǎo)致掩碼分支像素點(diǎn)分類(lèi)錯(cuò)誤。例如,部件特征缺失后,“甲”“申”“電”“由”可能會(huì)變成“田”。

      表2 不同模型的精度 單位:%

      由表3 可以看出,Mask R-CNN 和Transfiner 模型的分割效果較差,但是沒(méi)有出現(xiàn)CenterMask 模型那種失效的情況。SOLOv2 模型的amAP達(dá)到了47.4%,遠(yuǎn)遠(yuǎn)高于其他模型的分割效果,而且SOLOv2 模型只進(jìn)行分類(lèi)和分割,分割速度更快,具有良好的實(shí)時(shí)性。相對(duì)于SOLOv2 和CondInst 模型,SOLOv2 +HIM +BEM模型和CondInst +HIM +BEM模型的性能都有不同程度的提高,CondInst +HIM +BEM 模型的amAP提升0.8%,SOLOv2 +HIM +BEM 模型的amAP提升1.4%,驗(yàn)證了改進(jìn)后文字部件分割方法的有效性。

      表3 在CondInst模型上消融實(shí)驗(yàn)數(shù)據(jù)對(duì)比 單位:%

      2.3 消融實(shí)驗(yàn)

      為證明提出的層級(jí)融合模塊和邊界增強(qiáng)模塊對(duì)模型的貢獻(xiàn),在SOLOv2 和CondInst 模型上進(jìn)行消融實(shí)驗(yàn)。在消融實(shí)驗(yàn)中,分別將層級(jí)融合模塊和邊界增強(qiáng)模塊單獨(dú)添加到相應(yīng)的模型,對(duì)文字部件進(jìn)行檢測(cè)和分割。實(shí)驗(yàn)中骨干網(wǎng)絡(luò)都采用ResNet50 模型,實(shí)驗(yàn)結(jié)果如表3 和表4 所示。優(yōu)后的模型在文字部件檢測(cè)和分割任務(wù)中性能均得到了提升。在CondInst模型中加入層級(jí)融合模塊后amAP、aAP50、aAP75、aAPs、aAPm分別提升0.7%、0.6%、0.9%、0.4%、0.8%;在SOLOv2 模型中加入層級(jí)融合模塊后amAP、aAP50、aAP75、aAPs、aAPm分別提升0.5%、-0.1%、1.8%、0.4%、0.4%,盡管aAP50有0.1%的下降,但是對(duì)小物體和中等物體的分割精度得到了提升。

      表4 在SOLOv2 模型上消融實(shí)驗(yàn)數(shù)據(jù)對(duì)比 單位:%

      邊界增強(qiáng)模塊主要作用為掩碼分支,由表3 和表4 可以看出,其對(duì)檢測(cè)并無(wú)促進(jìn)效果,但是對(duì)掩碼精度的提升有一定的效果。CondInst模型在添加邊界增強(qiáng)模塊后amAP、aAP75、aAPs、aAPm分別提升0.3%、0.6%、0.1%、0.5%;在SOLOv2 模型中加入邊界增強(qiáng)模塊后amAP、aAP50、aAP75、aAPs、aAPm分別提升0.9%、0.2%、2.6%、0.9%、1.1%。

      層級(jí)融合模塊和邊界增強(qiáng)模塊分別作用于網(wǎng)絡(luò)的不同模塊中,層級(jí)融合模塊可以為后續(xù)分割提供更好的特征。由實(shí)驗(yàn)結(jié)果可以看出,這2 個(gè)模塊并不會(huì)產(chǎn)生沖突,能夠促進(jìn)檢測(cè)和分割效果。CondInst 模型在添加層級(jí)融合模塊和邊界增強(qiáng)模塊后amAP、aAP50、aAP75、aAPs、aAPm分別提升0.8%、0.6%、1.0%、0.3%、1.2%;在SOLOv2 模型中加入層級(jí)融合模塊和邊界增強(qiáng)模塊后amAP、aAP50、aAP75、aAPs、aAPm分別提升1.4%、0.3%、3.6%、1.4%、1.3%。圖7 為SOLOv2 模型上的可視化結(jié)果。由圖7 可見(jiàn),SOLOv2 原始模型能夠很好地檢測(cè)和分割文字部件,但是在一些邊界細(xì)節(jié)上處理得并不精細(xì),而改進(jìn)后的模型從特征融合和邊緣增強(qiáng)方面促進(jìn)掩碼分支分割精度的提高。

      圖7 可視化分割結(jié)果

      3 結(jié)語(yǔ)

      對(duì)文字部件的檢測(cè)和分割進(jìn)行了初次探索,達(dá)到了較好的效果。首先,基于文字部件,利用數(shù)據(jù)增強(qiáng)方式模擬雜亂碑文背景,生成了大量文字部件實(shí)例分割數(shù)據(jù)集;其次,探索了現(xiàn)有實(shí)例分割模型對(duì)文字部件數(shù)據(jù)集的分割效果,基于感興趣區(qū)域?qū)R、池化操作的實(shí)例分割框架會(huì)使檢測(cè)部件退化為另一部件,導(dǎo)致像素點(diǎn)分類(lèi)錯(cuò)誤,分割效果較差甚至不起作用;最后,將所提出的層級(jí)融合模塊和邊界增強(qiáng)模塊對(duì)SOLOv2 和CondInst模型進(jìn)行改進(jìn)。

      猜你喜歡
      掩碼層級(jí)部件
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      低面積復(fù)雜度AES低熵掩碼方案的研究
      基于Siemens NX和Sinumerik的銑頭部件再制造
      基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
      部件拆分與對(duì)外漢字部件教學(xué)
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      水輪機(jī)過(guò)流部件改造與節(jié)能增效
      基于掩碼的區(qū)域增長(zhǎng)相位解纏方法
      基于掩碼的AES算法抗二階DPA攻擊方法研究
      旬邑县| 蒙阴县| 霍林郭勒市| 司法| 江北区| 临澧县| 松潘县| 长沙县| 万荣县| 合江县| 正镶白旗| 永清县| 同江市| 遵义市| 吴川市| 常德市| 靖远县| 商水县| 津市市| 锦屏县| 小金县| 合山市| 蕉岭县| 出国| 乐清市| 浑源县| 马鞍山市| 游戏| 孟连| 荣成市| 玛纳斯县| 荥阳市| 桃园县| 韶关市| 湘乡市| 桓台县| 边坝县| 新竹市| 玛沁县| 石楼县| 都安|