• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于字體字符屬性引導的文本圖像編輯方法

      2023-05-24 03:18:32陳靖超徐樹公丁友東
      計算機應用 2023年5期
      關鍵詞:字符字體背景

      陳靖超,徐樹公,丁友東

      (1.上海大學 通信與信息工程學院,上海 200444;2.上海大學 上海電影學院,上海 200072)

      0 引言

      文字在人類的歷史發(fā)展中占據(jù)了十分重要的地位,作為個體溝通與文化傳承的載體,文字的出現(xiàn)給人類的工作與生活帶來了極大的影響。隨著近幾年計算機視覺與深度學習的飛速發(fā)展,文字圖像被越來越多的研究人員關注,其中主要的方向包括文本檢測[1-5]、文本識別[6-10]、字體生成[11-13]、文本編輯[14-17]等任務。本文的文本編輯任務的應用場景包括圖像隱私化處理、海報復用和視覺場景翻譯等。傳統(tǒng)的文字圖像編輯方案需要執(zhí)行定位文字區(qū)域、擦除原文字、輸入新文字、遷移原文字風格等步驟,耗時耗力,成本較高;而基于深度學習方法的自動化文字圖像編輯方法能夠大幅改善這一點,并提升編輯前后的風格連貫性。文本編輯的目標是無縫將新的文本內(nèi)容替換掉原圖中的舊文本,并保持風格樣式不變。其他文本相關任務與文本編輯也都緊密相關,如:文本識別可以評估編輯生成的文字圖像的可讀性,字體識別可以評估編輯生成的文本圖像的字體屬性的遷移效果。

      本文首先在Edit-100k 測試集的1 000 組文本圖像上分析了基線模型SRNet(Style Retention Network)[14]生成的編輯結(jié)果,探究該方法的特點與不足。分析實驗中先使用SRNet對測試集圖像進行推理,然后將推理的編輯結(jié)果與標簽的前景文本區(qū)域和背景紋理區(qū)域分別進行對比。前景文本區(qū)域與背景紋理區(qū)域使用掩碼進行分割。從表1 可以看出,SRNet 對文本區(qū)域的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)與結(jié)構(gòu)相似度(Structural SIMilarity,SSIM)[18]低于背景區(qū)域,從而拉低了整體的編輯結(jié)果,兩項指標僅為22.91 dB 與0.79。產(chǎn)生這一現(xiàn)象的原因主要是背景區(qū)域有原始可參考的輸入,而前景區(qū)域則需要由網(wǎng)絡自主進行編輯生成。根據(jù)此分析實驗,本文選擇文字區(qū)域生成作為主要優(yōu)化方向,通過加入字體字符屬性來引導優(yōu)化被編輯圖像中文字字形字體的生成。

      表1 編輯結(jié)果中各區(qū)域的PSNR和SSIM結(jié)果Tab.1 PSNR and SSIM of each area of edited results

      本文提出的基于文字屬性引導的文本編輯方法使用文字與背景分離處理的分階段模型進行編輯生成,利用文本識別與字體識別的模型輔助文本編輯模型進行訓練,對特征提取過程中的文字內(nèi)容特征與字體屬性特征進行相應的引導。實驗中本文方法所編輯的圖像結(jié)果在PSNR、SSIM 與均方誤差(Mean Squared Error,MSE)指標上都明顯優(yōu)于SRNet,同時在可視化效果的對比上也修正了一些SRNet 編輯結(jié)果的偽影瑕疵。本文還提出了一個用于文本編輯訓練的合成數(shù)據(jù)集Edit-100k,其中訓練集包括10 萬組成對的有監(jiān)督文本圖像數(shù)據(jù),測試集包括1 000 組文本圖像。

      1 相關工作

      在基于深度學習的文本編輯方法出現(xiàn)之前,相關研究的重點主要聚焦于更簡單的文本圖像移除與修復。Zhang等[19]提出的EnsNet(Ensconce Network)使用了一個加入跳躍連接的生成器和局部預測的判別器的結(jié)構(gòu),能夠自動去除自然場景圖像中的文本內(nèi)容,并將文本區(qū)域替換為合理的背景圖像。Liu 等[20]又提出了一個由粗到精的兩階段網(wǎng)絡,同時利用一個額外的分割頭預測文本區(qū)域輔助文本擦除的效果,使擦除區(qū)域與擦除效果更準確。

      文本編輯任務相當于在文本擦除的基礎上添加新文本替換的任務,集文本替換、文本擦除、背景修復于一體。端到端可訓練的編輯模型SRNet[14]分別用兩個編碼器提取文字的風格與內(nèi)容特征進行聚合,并與背景紋理融合得到最后的結(jié)果;但該方法對于復雜文本圖像的編輯會存在偽影效果或字符誤 差。Yang 等[15]提出的 文本替 換方法SwapText 在SRNet 的框架基礎上添加了文本幾何變換網(wǎng)絡(Content Shape Transformation Network,CSTN)來分離前景文本替換中的幾何變換部分,并添加了自注意力模塊替代簡單的通道拼接作為特征聚合方式,提升了彎曲文本的文本編輯效果;同時該方法還在背景修復網(wǎng)絡中加入了擴張卷積增大修復時的感受野,使背景細節(jié)在紋理上有更多保留。Roy 等[16]提出了基于字體適應性神經(jīng)網(wǎng)絡的場景文本編輯器(Scene Text Editor using Font Adaptive Neural Network,STEFANN),分為字體適應性神經(jīng)網(wǎng)絡(Font Adaptive Neural Network,F(xiàn)ANNet)和顏色網(wǎng)絡(Color Network,ColorNet)兩部分,分別對文字的字體幾何特征和顏色紋理特征進行遷移;但該方法只針對前景文本使用深度學習模型進行生成,文本擦除、修復等模塊依賴于其他算法效果。Shimoda 等[17]提出了一種將文本圖像進行參數(shù)化,預測出文本位置、顏色、字體、字符、背景等渲染參數(shù)的方法。該方法在訓練中通過渲染參數(shù)實現(xiàn)文本圖像的重建,并通過修改渲染參數(shù)實現(xiàn)文本圖像的編輯;該方法編輯自由度很高,但并不能完全保留原有圖像的風格信息實現(xiàn)無縫編輯。

      2 多屬性引導的文本編輯

      本文提出的基于字體字符屬性引導的文本編輯方法首先利用分階段的文本編輯模型框架將整個任務分解為前景變換、背景修復和前背景融合。其中,前景變換網(wǎng)絡完成原圖前景文本內(nèi)容的位置定位、幾何字體特征和顏色紋理特征的遷移。文本編輯網(wǎng)絡的輸入(Is,It)如圖1 所示。

      圖1 網(wǎng)絡的輸入圖像Fig.1 Input images of network

      從圖2 中可以看到,前景變換網(wǎng)絡會通過兩個編碼器對Is和It分別進行風格特征和內(nèi)容特征的提取,然后將兩者在通道維度進行合并,并通過兩個解碼器分別輸出骨架圖Osk以及遷移原圖文本風格的新文本圖像Ofg。背景修復網(wǎng)絡完成原圖中文本內(nèi)容的自動擦除以及背景修復的任務。背景修復網(wǎng)絡的輸入只有Is,通過一個帶有跳躍連接的U-Net 生成器輸出純凈背景Obg。而最后的前背景融合網(wǎng)絡負責將前兩個子網(wǎng)絡輸出的前背景圖像通過融合網(wǎng)絡結(jié)合為最后的結(jié)果。前背景融合網(wǎng)絡還將背景修復網(wǎng)絡中的各尺度解碼器特征圖加入融合網(wǎng)絡中的解碼器,使最終的編輯結(jié)果Ofus在細節(jié)紋理上更豐富。而最后的輸出圖像也會通過字體字符分類器與相應損失函數(shù)約束,利用字體字符屬性來引導生成網(wǎng)絡方向保證正確的編輯效果。

      圖2 文本編輯網(wǎng)絡框架Fig.2 Text editing network architecture

      2.1 前景變換網(wǎng)絡

      前景變換網(wǎng)絡的主要目的是替換原始文本圖像中的文本內(nèi)容,同時保持原有的文字風格樣式。網(wǎng)絡的輸入是原始待編輯圖像Is和新的文本內(nèi)容的圖像It。It是標準范式文本圖像,具有固定字體與背景。前景變換網(wǎng)絡總體上使用了多輸入多輸出的編碼器/解碼器結(jié)構(gòu)。為了提取出文本風格特征和內(nèi)容特征,原始圖像Is和文本內(nèi)容圖像It都被由三層下采樣和殘差卷積塊構(gòu)成的編碼器進行編碼。兩個編碼器共享相同的結(jié)構(gòu),但并不共享參數(shù),分別用來提取圖像中的文本風格與文本內(nèi)容特征。經(jīng)過編碼后的文本風格特征與新文本內(nèi)容特征會在通道層面進行合并,聚合風格與內(nèi)容特征。聚合后的特征會通過一個由三層轉(zhuǎn)置卷積作為上采樣層的解碼器進行解碼。前景變換網(wǎng)絡的計算過程如式(1)所示:

      其中:Gfg表示前景變換網(wǎng)絡;Ofg是前景變換網(wǎng)絡輸出的新文本圖像。

      由于文字骨架代表了文字的具體語義信息,因此另一個解碼器輸出單通道的骨架掩膜圖Osk,使生成的新文本圖像在文字可讀性上有更好的效果。骨架損失函數(shù)Tsk使用集合相似度度量函數(shù)約束單通道骨架圖的生成,如式(2)所示:

      其中:Osk和Tsk分別表示網(wǎng)絡解碼的單通道骨架圖和骨架圖標簽;N代表骨架圖中的像素點個數(shù)。骨架圖還被加入前景變換網(wǎng)絡的輸出模塊中,輔助前景變換的新文本圖像Ofg生成。前景變換網(wǎng)絡的最終損失函數(shù)包括骨架引導損失以及像素點級的L1 損失,如式(3)所示:

      其中:Ofg和Tfg分別代表網(wǎng)絡輸出的文本變換結(jié)果和標簽圖像;α是骨架損失的參數(shù),訓練中設置為1.0。

      前景變換網(wǎng)絡的輸入輸出可視化如圖3 所示,該網(wǎng)絡實現(xiàn)了對原圖中的文字風格樣式在新文本上的遷移。

      圖3 前景變換網(wǎng)絡輸出可視化Fig.3 Visualization of foreground transformation network

      2.2 背景修復網(wǎng)絡

      背景修復網(wǎng)絡的任務是完全擦除原圖中的文本,并對擦除的空白區(qū)域填充合適的紋理顏色,最后輸出純凈的背景圖像??瞻讌^(qū)域填充的可視化如圖4 所示。

      圖4 擦除區(qū)域填充可視化Fig.4 Filling visualization of erased region

      圖4(a)的文本圖像區(qū)域像素點被擦除后仍舊留有空白,需要合適的紋理進行填充。背景修復網(wǎng)絡的輸入是原始待編輯圖像Is,輸出純凈背景圖像Obg。該網(wǎng)絡采用了帶有跳躍連接的U-Net[21]結(jié)構(gòu),有助于網(wǎng)絡保留空間下采樣過程中丟失的背景細節(jié)信息。輸入圖像由3 個下采樣卷積層進行特征編碼。由于背景修復的本質(zhì)是借鑒其他區(qū)域顏色紋理填充空白區(qū)域,所以更大的感受野可以使網(wǎng)絡獲取更豐富的信息,生成效果更接近真實。因此編碼器后接3 個擴張率分別為(2,4,8)的擴張卷積[22]用于擴大感受野,提升紋理信息的參考區(qū)域范圍。然后,擴張卷積的輸出特征通過三層上采樣的轉(zhuǎn)置卷積模塊進行解碼得到修復后的純凈背景輸出Obg。如果用Gbg表示背景修復網(wǎng)絡,生成過程如式(4)所示:

      背景修復網(wǎng)絡還通過一個判別器進行對抗訓練,以得到外觀上更加真實的結(jié)果??傮w的損失函數(shù)是由判別器的對抗損失和像素點級的L1 損失組成,如式(5)所示:

      其中:Obg和Tbg代表網(wǎng)絡生成的純凈背景圖像和標簽圖像;Dbg是背景修復判別器;β是像素點級損失權(quán)重,設置為10。

      背景修復網(wǎng)絡的輸出可視化如圖5 所示,從相鄰的背景中學習到了合適的紋理顏色,并填充到文字擦除后的空白區(qū)域。

      圖5 背景修復網(wǎng)絡輸出可視化Fig.5 Output visualization of background inpainting network

      2.3 前背景融合網(wǎng)絡

      前背景融合網(wǎng)絡的任務是融合前景變換網(wǎng)絡和背景修復網(wǎng)絡的輸出,生成最終的文本編輯結(jié)果。融合網(wǎng)絡是一個編碼器/解碼器的結(jié)構(gòu)。其他子網(wǎng)絡輸出的文本變換圖像Ofg和純凈背景圖像Obg被送進融合網(wǎng)絡中,并輸出為文本編輯結(jié)果Ofus。該子網(wǎng)絡的編碼器與解碼器結(jié)構(gòu)與其他子網(wǎng)絡相同。不同的是,解碼器每層都會結(jié)合背景修復網(wǎng)絡中的各尺度解碼特征。因此,融合網(wǎng)絡可以補全編碼器階段丟失掉的背景細節(jié)信息,得到更好的生成效果。融合網(wǎng)絡的生成過程如式(6)所示:

      其中:Gfus表示前背景融合網(wǎng)絡;featbg表示背景修復網(wǎng)絡的各尺度解碼特征。融合網(wǎng)絡的損失函數(shù)如式(7)所示:

      其中:Ofus和Tfus分別代表文本編輯結(jié)果和標簽圖像;Dfus是用于前背景融合網(wǎng)絡對抗訓練的判別器;γ是像素點級損失的超參數(shù),設置為10。

      前背景融合網(wǎng)絡的輸出可視化如圖6 所示,該網(wǎng)絡融合前一階段子網(wǎng)絡的前背景輸出結(jié)果得到最終的編輯結(jié)果。

      圖6 前背景融合網(wǎng)絡輸出可視化Fig.6 Output visualization of foreground and background fusion network

      2.4 字體屬性損失

      文字的字體類別屬性代表了文字的風格樣式。在文本編輯任務中,最重要的任務之一就是原圖文字風格樣式的遷移。本文提出了一個字體屬性的引導分類器,通過字體屬性引導生成網(wǎng)絡的特征提取,提升編輯前后文字風格樣式的一致性。

      字體分類網(wǎng)絡的特征提取是ResNet(Residual Network)[23]結(jié)構(gòu)。本文首先利用字體分類數(shù)據(jù)集以交叉熵損失對字體分類器進行預訓練,并凍結(jié)參數(shù)作為文本編輯網(wǎng)絡的屬性輔助引導。字體屬性損失Lfont如式(8)所示,包括字體分類損失Lcls、字體感知損失Lper與字體紋理損失Ltex。

      字體分類損失Lcls使用內(nèi)容輸入的文本字體標簽與分類器預測結(jié)果構(gòu)建,使用交叉熵損失進行約束,引導編輯模型結(jié)果的文字字體風格與原圖風格接近。Lcls如式(9)所示:

      其中:N代表訓練批的大??;M為字體類別數(shù)量;yi,c指一個訓練批中的第i張圖對于M個字體類別中的第c個類別的標簽;pi,c指一個訓練批中的第i張圖對于M個字體類別中的第c個類別的預測置信度概率。

      本文使用字體分類器的各尺度特征構(gòu)建字體感知損失Lper,衡量生成器遷移文本字體樣式的能力。在Lper的計算中,將字體分類網(wǎng)絡每個下采樣階段的輸出激活圖作為文本特征級差異的衡量。Lper如式(10)所示:

      其中:φi代表字體分類器的第i階段特征激活圖。

      本文使用gram 矩陣(偏心協(xié)方差矩陣)的L1 距離來衡量特征圖的空間相關性差異,如式(11)所示:

      其中:代表字體分類網(wǎng)絡的各階段特征圖計算gram 矩陣的空間相關性的結(jié)果。

      2.5 字符屬性損失

      文本編輯不僅需要維持編輯前后文字風格樣式的一致性,還要確保新文本內(nèi)容生成的可讀性。字符類別屬性代表文字的語義內(nèi)容信息。本文使用預訓練的字符識別模塊引導最終文本圖像的編輯過程。通過字符內(nèi)容屬性引導,輸出圖像可以減輕文本偽影,并修正編輯過程中的字符生成誤差。

      本文采用的字符分類網(wǎng)絡基于TRBA(Tps-Resnet-Bilstm-Attention)[24],主要網(wǎng)絡結(jié)構(gòu)包括四個部分:文本矯正模塊、特征提取模塊、序列建模模塊和字符預測模塊。其中:文本矯正模塊使用薄板樣條(Thin Plate Spline,TPS)插值,可以將非水平的文本字符進行水平矯正,更適用于網(wǎng)絡的識別;特征提取模塊使用ResNet,能夠提取出輸入文本圖像的視覺特征;序列建模模塊則使用了雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)[25]網(wǎng)絡結(jié)構(gòu),對文本圖像前后字符進行上下文序列特征提取;字符預測模塊使用注意力解碼模塊,對前面得到的視覺特征和序列特征進行解碼,預測出對應位置的字符類別。字符分類損失可用式(12)表示:

      其中:N代表圖像中預設的字符最大長度;M代表字符類別的個數(shù);yi,j和pi,j分別代表第i個字符對于第j個字符類別的標簽與預測的類別置信度。

      2.6 實現(xiàn)細節(jié)及訓練策略

      為了使圖像在生成過程中更加逼真,本文使用了基于局部區(qū)域的生成對抗網(wǎng)絡(Patch Generative Adversarial Network,Patch GAN)[26]判別器。判別器的網(wǎng)絡結(jié)構(gòu)由4 個下采樣步長為2 的卷積塊和一個步長為1 的卷積塊組成。輸入圖像大小為64×256 時,最終的輸出預測圖大小為8×32。其中每一個預測值代表原圖中一個16×16 的局部區(qū)域,用來衡量這個局部區(qū)域編輯效果真實程度。相較于一般判別器,使用基于局部區(qū)域的判別器能夠在局部區(qū)域細節(jié)上生成更真實的效果。

      本文模型是分階段的文本編輯模型,分為三個子模型。因此本文方法在訓練過程中先對前景文本變換網(wǎng)絡和背景修復網(wǎng)絡分別進行訓練優(yōu)化;然后用前兩個網(wǎng)絡參數(shù)固定訓練前背景融合網(wǎng)絡,并以字體字符分類器的屬性引導進行編輯效果精煉優(yōu)化;最后,整個文本編輯網(wǎng)絡進行端到端訓練微調(diào)后得到最優(yōu)的結(jié)果。本文訓練數(shù)據(jù)集Edit-100k 通過真實數(shù)據(jù)集的顏色紋理庫和常用字體進行合成。訓練中輸入圖像的大小為64×256,訓練批大小為64,網(wǎng)絡訓練的初始權(quán)重都是以零均值的正態(tài)分布進行初始化。使用Adam 優(yōu)化器[27],學習率設置為0.000 2,指數(shù)衰減率β1=0.9,β2=0.999。所有實驗均在PyTorch 框架上實現(xiàn)。

      3 實驗與結(jié)果分析

      3.1 數(shù)據(jù)集與評估指標

      合成數(shù)據(jù)集Edit-100k:由于文本編輯網(wǎng)絡在訓練過程中需要成對的有監(jiān)督訓練數(shù)據(jù),而現(xiàn)實中很難獲取到相應的成對數(shù)據(jù),所以本文的編輯模型在訓練過程中使用Edit-100k作為訓練數(shù)據(jù)。Edit-100k 合成數(shù)據(jù)集的合成流程:1)從語料庫中隨機獲取一對文本內(nèi)容作為原始圖像的文本和編輯替換的目標文本;2)隨機選擇字體、顏色紋理、背景和幾何變形參數(shù)等,合成出成對的訓練數(shù)據(jù)。背景選擇不僅包含純色背景,還包含場景圖像。為了使合成圖像更接近真實域,本文還對訓練圖像進行數(shù)據(jù)增強,包括高斯模糊、動態(tài)模糊、重采樣等,模擬現(xiàn)實的外部場景與特殊條件。

      真實數(shù)據(jù)集:ICDAR 2013[28]是一個自然場景文本數(shù)據(jù)集,包括229 張訓練圖像和233 張測試圖像。每個圖像中的文本都有一個或多個文本框作為文本檢測區(qū)域的標簽以及相應框內(nèi)文本內(nèi)容的標簽。本文在該數(shù)據(jù)集上進行可視化效果的對比實驗。

      在文本編輯任務中,本文沿用圖像生成中常用的PSNR、SSIM 和MSE 指標作評估,計算公式分別為:

      其中:x和y分是別標簽圖像和生成的圖像;μx、μy分別是x、y的平均值;σx、σy分別是x、y的標準差,σxy是x和y的協(xié)方差;c1=(k1L)2和c2=(k2L)2是用來維持穩(wěn)定的常數(shù),L是像素值的動態(tài)范圍,k1=0.01,k2=0.03。

      更低的MSE 或者更高的PSNR 和SSIM 表示編輯模型性能更好。本文僅在Edit-100k 上評估各生成指標,因為真實文本數(shù)據(jù)集沒有成對文本圖像數(shù)據(jù)可供計算;而在真實數(shù)據(jù)集可以通過可視化對比來評估編輯圖像的質(zhì)量。

      3.2 消融實驗

      消融實驗主要集中在以下幾個模塊:字體分類器、字符分類器、端到端微調(diào)訓練策略。圖7 展示了消融實驗的可視化結(jié)果,可以看到,相較于原始的基線模型SRNet,模型在增加了字體分類器的輔助引導之后對于文字的風格樣式上與原圖更加接近;而在加入了字符分類器的引導之后,原本字形生成不夠精確的字符都被引導生成為更正確的字符形狀,例如第一列中“C”、第二列中的“r”、第四列中的“m”;最終對整體網(wǎng)絡端到端微調(diào)優(yōu)化后也對編輯效果有一定提升,例如第三列中的“H”。

      圖7 消融實驗的可視化結(jié)果Fig.7 Visualization results of ablation study

      消融實驗的量化評估結(jié)果如表2 所示,其中:√表示加入對應的模塊,×則表示未加入;Δ 則表示每增加一個模塊相對上一模塊的結(jié)果之差??梢钥吹?,本文方法的PSNR、SSIM和MSE 分別為25.48 dB、0.842 和0.004 3,相較于基線模型SRNet,PSNR、SSIM 分別提升了2.57 dB、0.055,MSE 降低了0.003 1,每一個模塊的加入都提升了模型的效果。

      表2 消融實驗的量化評估結(jié)果Tab.2 Quantitative evaluation results of ablation study

      3.3 對比實驗

      與現(xiàn)有方法進行對比的量化評估結(jié)果如表3 所示。與本文方法采用相同模型框架的SwapText 主要是在SRNet 的框架上加入了控制文本幾何變形的CSTN 模塊以及聚合內(nèi)容與風格特征的自注意力機制。相較于SwapText,本文方法在三個指標上表現(xiàn)也更好,PSNR 和SSIM 分別提升了2.11 dB和0.046,MSE 下降了0.002 4。

      表3 對比實驗量化評估結(jié)果Tab.3 Quantitative evaluation results of comparison experiments

      3.4 場景文本圖像編輯可視化

      由于本文中的編輯模型主要針對單文本圖像編輯,但真實場景圖像大多包含多個文本實例,因此場景文本圖像編輯需要先使用上游文本檢測方法對各文本實例進行檢測,然后再選擇編輯的文本實例和新的文本內(nèi)容,并將兩者一同輸入文本編輯模型中進行生成。本文使用的文本檢測模型是微分二值化網(wǎng)絡(Differentiable Binarization Network,DBNet)[5],主要是因為DBNet 不僅可以達到具有競爭力的檢測性能,同時還能擁有較快的檢測速度。

      在圖8 中可以看到,本文方法在ICDAR2013 數(shù)據(jù)集的真實場景文本圖像上準確地完成了文本編輯操作,無縫將新的文本內(nèi)容替換掉原圖中的舊文本,并保持風格樣式不變,甚至保留了各自場景的光照與模糊效果。

      圖8 自然場景文本圖像的可視化結(jié)果Fig.8 Visualization results of text images in nature scenes

      4 結(jié)語

      本文提出了一種利用字體字符類別屬性引導的分階段文本編輯網(wǎng)絡,將復雜有挑戰(zhàn)性的文本編輯大任務分解為三個任務:前景文本變換、背景修復和前背景融合。同時,結(jié)合字體字符分類器引導,本文方法不僅維持了編輯前后文字風格樣式的一致性,而且提升了新文本生成的可讀性,解決了文本偽影與文字誤差的問題。本文還針對分階段的文本編輯網(wǎng)絡設計了對應的訓練策略,進一步提升了模型的編輯效果。實驗中,本文方法的評估指標與可視化效果都優(yōu)于SRNet 和SwapText。在未來的工作中,希望解決更加復雜極端的文本圖像編輯任務,例如極端光照、模糊、立體效果的文字圖像,完成對任意文本圖像場景的編輯。此外,也將探索使用其他文本圖像屬性更全面地引導文本編輯任務。

      猜你喜歡
      字符字體背景
      尋找更強的字符映射管理器
      “新四化”背景下汽車NVH的發(fā)展趨勢
      《論持久戰(zhàn)》的寫作背景
      當代陜西(2020年14期)2021-01-08 09:30:42
      字體的產(chǎn)生
      字符代表幾
      一種USB接口字符液晶控制器設計
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      晚清外語翻譯人才培養(yǎng)的背景
      組合字體
      字體安裝步步通
      移動一族(2009年3期)2009-05-12 03:14:30
      东乡族自治县| 齐齐哈尔市| 宁明县| 永泰县| 年辖:市辖区| 泾源县| 崇州市| 塔城市| 邢台市| 岐山县| 吴忠市| 青海省| 乐山市| 卓尼县| 汽车| 冀州市| 股票| 独山县| 石阡县| 蓬安县| 陕西省| 道真| 聂拉木县| 察雅县| 垫江县| 方城县| 兴宁市| 石阡县| 永清县| 罗定市| 高邑县| 峨眉山市| 南阳市| 弥渡县| 方城县| 清镇市| 宁海县| 略阳县| 宿松县| 神木县| 铁岭市|