王晨,吳國(guó)華,姚曄,任一支,王秋華,袁理鋒
杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院, 杭州 310018
漢字作為一種信息交流工具,在人們工作生活中發(fā)揮著不可替代的作用。與大多數(shù)語言不同,中文漢字字符的數(shù)量遠(yuǎn)多于英文、法文、德文等語言的字符數(shù)量。多樣的中文漢字字符增加了所傳達(dá)信息和情感的豐富程度。目前最低標(biāo)準(zhǔn)的漢字編碼字符集GB2312-80國(guó)標(biāo)碼選入了6 763個(gè)漢字。漢字結(jié)構(gòu)復(fù)雜多變,筆畫(stroke)是漢字的基本單位,每個(gè)漢字由一個(gè)或多個(gè)筆畫構(gòu)成的偏旁部首(radical)按照一定的拼字法,在2維矩形空間中排列組合而成。字體設(shè)計(jì)工作一般借助字體設(shè)計(jì)軟件,對(duì)人工設(shè)計(jì)的偏旁部首等基本組件變形和組合構(gòu)造完整的漢字。由于漢字具有數(shù)量龐大和風(fēng)格多樣的特性,字體設(shè)計(jì)是一項(xiàng)耗時(shí)耗力的工作。因此,如何處理并更高效地設(shè)計(jì)一套風(fēng)格化漢字,成為漢字字體制作工作中急需解決的任務(wù)。
漢字字體風(fēng)格遷移是對(duì)漢字字體進(jìn)行轉(zhuǎn)換的技術(shù),即在漢字字符代表的語義內(nèi)容不變的前提下,對(duì)漢字的字形做相應(yīng)改變。Ma等人(2019)從基于計(jì)算機(jī)圖形學(xué)和基于深度學(xué)習(xí)兩個(gè)方面對(duì)漢字字體風(fēng)格遷移技術(shù)進(jìn)行綜述。將漢字字體風(fēng)格遷移分為基于傳統(tǒng)方法的漢字字體風(fēng)格遷移和基于深度學(xué)習(xí)的漢字字體風(fēng)格遷移兩大類。其中,基于深度學(xué)習(xí)的漢字字體風(fēng)格遷移技術(shù)是當(dāng)前該領(lǐng)域的主要研究方向。按照是否需要對(duì)漢字的筆畫進(jìn)行拆分和組合,可以將基于深度學(xué)習(xí)的漢字字體風(fēng)格遷移技術(shù)分為筆畫生成和漢字生成兩類。筆畫生成技術(shù)主要利用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)生成所需的目標(biāo)風(fēng)格筆畫,通過預(yù)定義好的一套規(guī)則組合筆畫,進(jìn)而形成一個(gè)完整的漢字。漢字生成技術(shù)則是利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、自編碼器(auto-encoder,AE)和GAN設(shè)計(jì)漢字生成網(wǎng)絡(luò),提取并學(xué)習(xí)漢字圖像的特征,然后生成一個(gè)完整的漢字。
對(duì)于漢字圖像來講,基于深度學(xué)習(xí)的漢字生成技術(shù)借鑒圖像風(fēng)格遷移思想,將風(fēng)格遷移表現(xiàn)在漢字筆畫的變化上。因此,漢字圖像的風(fēng)格遷移本質(zhì)是對(duì)漢字的字體風(fēng)格進(jìn)行轉(zhuǎn)換,生成目標(biāo)風(fēng)格的漢字圖像。從漢字圖像的角度對(duì)字體風(fēng)格進(jìn)行轉(zhuǎn)換與對(duì)筆畫的局部風(fēng)格化不同。一方面,將漢字看做一個(gè)整體,省略掉人工拆分偏旁部首的預(yù)處理工作,漢字生成網(wǎng)絡(luò)可以更全面地獲取字體風(fēng)格特征;另一方面,從漢字的組成成分來看,漢字由語義內(nèi)容和字體風(fēng)格兩部分組成。語義內(nèi)容是漢字字符所表征的含義,具體指詞性、釋義等。字體風(fēng)格是漢字筆畫的一種印刷或個(gè)人風(fēng)格表示,表現(xiàn)在漢字骨架結(jié)構(gòu)和筆畫的變化上,如部首間距、筆畫傾斜程度、書寫力度、筆畫開始和結(jié)束形狀等。對(duì)漢字圖像的風(fēng)格遷移可以很好地做到漢字語義與風(fēng)格的區(qū)分,更符合對(duì)漢字進(jìn)行字體屬性轉(zhuǎn)換的目標(biāo)。
基于深度學(xué)習(xí)的漢字生成與字體風(fēng)格遷移技術(shù)是漢字字體風(fēng)格遷移領(lǐng)域中一個(gè)熱門研究方向。近年來越來越多的學(xué)者在該領(lǐng)域開展研究工作,并且提出了若干種方法。本文對(duì)當(dāng)前基于深度學(xué)習(xí)的漢字生成與字體風(fēng)格遷移方法進(jìn)行綜述。首先根據(jù)不同的網(wǎng)絡(luò)結(jié)構(gòu)將現(xiàn)有方法分為3大類,即基于CNN、GAN和AE的方法,如圖1所示,分別介紹代表性的漢字生成與字體風(fēng)格遷移方法;然后對(duì)這些漢字圖像字體風(fēng)格遷移方法進(jìn)行對(duì)比分析,并展示部分生成的漢字圖像;最后對(duì)本領(lǐng)域的研究進(jìn)行總結(jié)和展望。
圖1 基于深度學(xué)習(xí)的漢字生成與字體風(fēng)格遷移方法分類Fig.1 Chinese characters generation and font transfer methods based on deep learning
CNN具有自動(dòng)提取圖像高維特征的能力,在圖像分類、目標(biāo)識(shí)別和風(fēng)格遷移等任務(wù)中表現(xiàn)出色。CNN在不改變數(shù)據(jù)維度的同時(shí)提取圖像特征,避免了維度重構(gòu)過程中的信息丟失。
Gatys等人(2016)首次提出一種基于深度神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移方法,使用VGG-19(Visual Geometry Group-19)網(wǎng)絡(luò)提取圖像不同層的特征,引入深層卷積層特征和卷積層之間的相關(guān)性分別作為圖像的內(nèi)容和風(fēng)格約束,將普通圖像的內(nèi)容與藝術(shù)圖像的風(fēng)格相結(jié)合,生成一幅新的藝術(shù)圖像。
針對(duì)漢字圖像的字體風(fēng)格遷移,Tian(2017)設(shè)計(jì)了由多個(gè)包含批量歸一化、激活函數(shù)和最大池化的卷積層構(gòu)成的字體風(fēng)格遷移網(wǎng)絡(luò)Rewrite。采用L1像素級(jí)損失和總變差損失(total variation loss)作為目標(biāo)優(yōu)化函數(shù),但生成的漢字圖像整體美觀性欠佳。對(duì)于筆畫較細(xì)的印刷體漢字,容易出現(xiàn)筆畫模糊的現(xiàn)象;對(duì)于筆畫較粗的印刷體漢字,由于多層卷積丟失了筆畫細(xì)節(jié)信息,因此往往導(dǎo)致生成的漢字筆畫扭曲。
Perarnau等人(2016)提出了實(shí)現(xiàn)人臉細(xì)節(jié)(頭發(fā)、表情和性別等屬性)變換的IcGAN(invertible conditional GAN)。借鑒此網(wǎng)絡(luò)模型,Chang和Zhang(2017)改進(jìn)了Rewrite的網(wǎng)絡(luò)結(jié)構(gòu)并提出Rewrite2。雖然生成的漢字圖像受一定的噪聲干擾,但改進(jìn)后的方法提高了漢字圖像的可識(shí)別性。
Yu和D-miracleAce(2018)將漢字圖像應(yīng)用于Gatys等人(2016)設(shè)計(jì)的圖像生成網(wǎng)絡(luò),嘗試生成融合指定非漢字圖像風(fēng)格的漢字圖像。但是,該方法僅在漢字圖像的背景和漢字筆畫的紋理上體現(xiàn)了非漢字圖像的風(fēng)格,并沒有實(shí)現(xiàn)真正意義上的漢字字體風(fēng)格轉(zhuǎn)換。
AE是圖像生成任務(wù)中經(jīng)典的深度學(xué)習(xí)模型(史丹青,2018),利用深度神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的多層抽象能力,學(xué)習(xí)真實(shí)樣本的數(shù)據(jù)分布特征,并生成逼真的偽樣本。
針對(duì)自然場(chǎng)景圖像下的文字編輯問題,Wu等人(2019)設(shè)計(jì)了文本風(fēng)格保持網(wǎng)絡(luò)SRNet(style retention network),構(gòu)成該網(wǎng)絡(luò)的文本轉(zhuǎn)換、背景修復(fù)和文本背景融合模塊均采用AE結(jié)構(gòu)框架,在保持文本圖像原有風(fēng)格的同時(shí),替換其中的文字內(nèi)容,達(dá)到與原文本圖像風(fēng)格一致的可視化效果。
肖奮溪(2018)將獨(dú)熱編碼(one-hot encoding)的標(biāo)簽引入U(xiǎn)-Net(Ronneberger 等,2015)結(jié)構(gòu)控制字體類別,采用平均絕對(duì)值誤差損失,增強(qiáng)生成圖像的銳度和清晰度,實(shí)現(xiàn)一對(duì)多的漢字字體風(fēng)格遷移。針對(duì)標(biāo)簽控制字體風(fēng)格特征的局限性,設(shè)計(jì)了人為控制字體風(fēng)格和語義內(nèi)容特征的遷移網(wǎng)絡(luò)。
Kingma和Welling(2014)利用變分自編碼器(variational auto-encoder, VAE)提取字體風(fēng)格特征,并與作為語義內(nèi)容特征的字體類別標(biāo)簽融合。通過對(duì)編碼器進(jìn)行分布約束,為小樣本的風(fēng)格遷移提供了可能,但生成的漢字圖像不如自編碼器結(jié)構(gòu)生成的清晰。
Sun等人(2018b)在VAE框架下設(shè)計(jì)了字體風(fēng)格遷移網(wǎng)絡(luò)SA-VAE(style-aware variational auto-encoder),根據(jù)漢字的結(jié)構(gòu)和偏旁部首等信息,定義了一套字符編碼規(guī)則,每個(gè)漢字可被編碼為一個(gè)133 bit的二進(jìn)制字符串,為漢字內(nèi)容提取網(wǎng)絡(luò)補(bǔ)充結(jié)構(gòu)細(xì)節(jié)信息。漢字風(fēng)格提取網(wǎng)絡(luò)的輸入是一組相同風(fēng)格不同內(nèi)容的參考漢字集。將提取的內(nèi)容特征和風(fēng)格特征進(jìn)行融合,生成目標(biāo)字體漢字圖像。該方法適用于印刷體—印刷體和印刷體—手寫體的字體風(fēng)格轉(zhuǎn)換任務(wù)。
利用文本圖像風(fēng)格和內(nèi)容之間的條件依賴性,Zhang等人(2018,2020b)采用提取和組合漢字風(fēng)格及內(nèi)容特征的思想,設(shè)計(jì)了漢字字體遷移網(wǎng)絡(luò)EMD(encoder mixer decoder)。該方法從數(shù)量有限的風(fēng)格圖像集(相同風(fēng)格不同內(nèi)容)和內(nèi)容圖像集(相同內(nèi)容不同風(fēng)格)中分別提取圖像集共有的字體風(fēng)格和語義內(nèi)容特征。然后,通過雙線性函數(shù)的混合器融合這兩類特征,并送入解碼器生成指定字體風(fēng)格和內(nèi)容的漢字圖像。該方法依賴特定數(shù)量的圖像集實(shí)現(xiàn)字體風(fēng)格的轉(zhuǎn)換,無需收集大量的源—目標(biāo)字體漢字圖像對(duì)。
為了更有效提取文本風(fēng)格和內(nèi)容特征,Zhu等人(2020)設(shè)計(jì)內(nèi)容編碼器對(duì)目標(biāo)文本圖像去風(fēng)格化后的內(nèi)容圖像進(jìn)行編碼獲得內(nèi)容特征,然后將去風(fēng)格化后的源字體和目標(biāo)字體的內(nèi)容圖像分別送入風(fēng)格編碼器提取風(fēng)格特征,提取的特征之間的距離構(gòu)成相似性矩陣(similarity matrix,SM),源字體文本圖像經(jīng)過風(fēng)格編碼器和矩陣運(yùn)算得到最終的風(fēng)格特征,并與內(nèi)容特征一起送入解碼器。該方法適用于英文字母和少量漢字的生成,對(duì)于數(shù)量龐大、風(fēng)格復(fù)雜的漢字,生成效果還有待提高。
GAN的核心思想來源于博弈論的納什均衡,體現(xiàn)在生成器和判別器的不斷優(yōu)化過程中(Goodfellow 等,2014)。生成器的任務(wù)是學(xué)習(xí)真實(shí)的數(shù)據(jù)分布,生成偽造的圖像誘導(dǎo)判別器做出錯(cuò)誤決定;判別器則是盡量正確地判別輸入數(shù)據(jù)是真實(shí)數(shù)據(jù)還是來自生成器。通過雙方的博弈對(duì)抗,判別器最終難以區(qū)分真實(shí)圖像與生成器生成的偽造圖像。
GAN提出后,在漢字字體風(fēng)格遷移領(lǐng)域研究中掀起了熱潮。按照生成器學(xué)習(xí)漢字字體風(fēng)格特征的方式,基于GAN的方法分為自學(xué)習(xí)漢字風(fēng)格特征、外部輸入漢字風(fēng)格特征和網(wǎng)絡(luò)提取漢字風(fēng)格特征 3類,如圖2所示。
圖2 基于GAN的漢字字體風(fēng)格遷移方法分類Fig.2 Chinese characters font transfer methods based on GAN ((a) self-learning font style features;(b) external font style features;(c) extractive font style features)
1.3.1 自學(xué)習(xí)漢字風(fēng)格特征的字體風(fēng)格遷移方法
Isola等人(2017)設(shè)計(jì)了基于條件生成式對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial nets, CGAN)(Mirza和Osindero,2014)的圖像風(fēng)格遷移網(wǎng)絡(luò)pix2pix,可以實(shí)現(xiàn)如草圖—實(shí)物圖、灰度圖—彩色圖等成對(duì)圖像數(shù)據(jù)集的風(fēng)格轉(zhuǎn)換,生成器的編碼器和解碼器采用U-Net結(jié)構(gòu)的跨層連接(skip connection)方式,將各層編碼后的特征連接到解碼器對(duì)應(yīng)層的特征上。pix2pix采用L1像素級(jí)損失和對(duì)抗性損失作為目標(biāo)優(yōu)化函數(shù),生成的圖像清晰,較出色地完成了圖像風(fēng)格遷移任務(wù)。
Chang和Gu(2017)在圖像風(fēng)格遷移網(wǎng)絡(luò)pix2pix的基礎(chǔ)上,設(shè)計(jì)了漢字字體風(fēng)格遷移網(wǎng)絡(luò)Unet-GAN,通過增加卷積層數(shù)量,將生成器的網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展到16層,在保留漢字結(jié)構(gòu)和筆畫細(xì)節(jié)信息的同時(shí),實(shí)現(xiàn)了印刷體—手寫體的字體轉(zhuǎn)換。
Lei等人(2018)在Unet-GAN基礎(chǔ)上,增加了分類網(wǎng)絡(luò)實(shí)現(xiàn)手寫體漢字的風(fēng)格轉(zhuǎn)換。預(yù)訓(xùn)練好的分類網(wǎng)絡(luò)將識(shí)別的字體風(fēng)格信息提供給生成器和判別器。生成器和判別器共同訓(xùn)練,將源字體漢字圖像轉(zhuǎn)換成目標(biāo)字體漢字圖像。該方法能夠從少量的樣本中學(xué)習(xí)和生成完整的個(gè)人手寫體字庫。
Sun等人(2018a)提出基于pix2pix的漢字字體風(fēng)格遷移網(wǎng)絡(luò)PEGAN(pyramid embedded generative adversarial network),在生成器的編碼器中引入級(jí)聯(lián)細(xì)化連接(cascaded refinement connection),采用預(yù)訓(xùn)練的VGG-19計(jì)算感知損失,與L1像素級(jí)損失、字體類別損失和對(duì)抗性損失加權(quán)構(gòu)成目標(biāo)優(yōu)化函數(shù)。
Lu和Hsiang(2018)制定了訓(xùn)練集的選擇標(biāo)準(zhǔn),基于偏旁部首,對(duì)漢字進(jìn)行筆畫分解,選擇包含最大漢字部首數(shù)的漢字集作為訓(xùn)練集。編碼器分別提取源字體和目標(biāo)字體漢字的特征,這些特征分別作為特征遷移網(wǎng)絡(luò)的輸入和輸出。同時(shí),通過對(duì)特征遷移網(wǎng)絡(luò)輸出的特征進(jìn)行解碼,得到目標(biāo)字體漢字圖像。該方法只需使用少量目標(biāo)字體漢字進(jìn)行學(xué)習(xí)即可生成剩余部分的目標(biāo)字體漢字,得到一個(gè)完整的字庫。
Chang等人(2017,2018b)和常杰(2019)設(shè)計(jì)了一種多層結(jié)構(gòu)的字體風(fēng)格遷移網(wǎng)絡(luò)HAN(hierarchical adversarial network)。階段解碼器利用低層和高層的特征圖刻畫漢字全局的骨架和局部的筆畫細(xì)節(jié),生成相應(yīng)的中間層漢字圖像,并與最終生成的目標(biāo)漢字圖像一起送入判別器。生成的漢字圖像與真實(shí)的漢字圖像之間的像素級(jí)損失以及中間層漢字圖像產(chǎn)生的對(duì)抗性損失有助于提高生成器擬合真實(shí)圖像的能力。HAN生成的漢字筆畫比EMD更完整清晰。
受圖像生成任務(wù)中表現(xiàn)優(yōu)越的自注意機(jī)制(self-attention mechanisms)的啟發(fā)(Vaswani 等,2017),Ren 等人(2019)提出由風(fēng)格遷移網(wǎng)絡(luò)和判別器構(gòu)成的漢字字體風(fēng)格遷移網(wǎng)絡(luò)SAFont(self-attention font),使用自注意力塊計(jì)算漢字特征在遷移前后的注意力變化,在總體損失函數(shù)上額外設(shè)計(jì)了邊緣損失函數(shù),使生成的漢字圖像筆畫邊緣更清晰,漢字圖像的生成質(zhì)量高于zi2zi和HAN。
區(qū)別于草圖—實(shí)物圖、灰度圖—彩色圖這種配對(duì)的圖像數(shù)據(jù)集,CycleGAN是在不配對(duì)數(shù)據(jù)集上進(jìn)行的圖像風(fēng)格遷移網(wǎng)絡(luò)。由于在現(xiàn)實(shí)生活中找到成對(duì)的數(shù)據(jù)集是非常困難的,CycleGAN解決了圖像數(shù)據(jù)集不配對(duì)的問題,以無監(jiān)督學(xué)習(xí)的方式,實(shí)現(xiàn)了兩種毫無關(guān)聯(lián)圖像的雙向風(fēng)格遷移。
Chang等人(2018a)針對(duì)印刷體到手寫體的風(fēng)格轉(zhuǎn)換提出了DenseNet-CycleGAN。由字體A遷移到字體B再遷移到字體A的兩個(gè)映射網(wǎng)絡(luò)(mapping network)循環(huán)構(gòu)成。該方法在AE結(jié)構(gòu)的生成器中引入了DenseNet(dense convolutional network)以提高生成圖像的質(zhì)量,采用對(duì)抗性損失和循環(huán)一致性損失對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,誘導(dǎo)判別器對(duì)生成的圖像做出錯(cuò)誤判斷。由于CycleGAN自身的局限性,生成的漢字圖像中存在較多的筆畫錯(cuò)誤。
在CycleGAN的基礎(chǔ)上,Li等人(2019)采用SSD(single shot multibox detector)目標(biāo)檢測(cè)方法提取表示漢字字形結(jié)構(gòu)的關(guān)鍵點(diǎn),利用圖匹配方法計(jì)算輸入圖像和生成圖像的字形結(jié)構(gòu)損失。該方法改善了漢字圖像字形結(jié)構(gòu)的生成效果,適用于印刷體漢字的字體風(fēng)格轉(zhuǎn)換,但對(duì)行書和草書等筆畫不分明的連筆字體,由于節(jié)點(diǎn)檢測(cè)相對(duì)困難,生成效果較差。
張藝穎(2019)提出了基于改進(jìn)的特征匹配算法的字體風(fēng)格遷移網(wǎng)絡(luò)OFM-CycleGAN(optimized feature matching cycleGAN)。該方法在CycleGAN的正向與逆向映射過程中引入改進(jìn)的特征匹配算法,匹配判別器提取的真實(shí)圖像與生成圖像的特征,以學(xué)到更多真實(shí)數(shù)據(jù)的分布信息,有效提升手寫體漢字的生成質(zhì)量,實(shí)現(xiàn)印刷體漢字到手寫漢字之間的轉(zhuǎn)換。
從漢字筆畫的角度,Zeng等人(2020)引入筆畫編碼的思想設(shè)計(jì)了漢字字體風(fēng)格遷移網(wǎng)絡(luò)Stroke-GAN,對(duì)基本的32種漢字筆畫進(jìn)行編碼,生成器根據(jù)輸入的源字體漢字和對(duì)應(yīng)的筆畫編碼生成目標(biāo)字體漢字圖像。隨后,生成的漢字圖像送入還原網(wǎng)絡(luò)以恢復(fù)對(duì)應(yīng)的源字體漢字。判別器對(duì)輸入的漢字圖像辨別真假,并重構(gòu)筆畫編碼。該方法定義了筆畫編碼重構(gòu)損失優(yōu)化網(wǎng)絡(luò)參數(shù),更好地保留漢字的筆畫細(xì)節(jié),生成的漢字圖像更真實(shí)。除了漢字字體生成,筆畫編碼的思想也適用于日韓文等其他語言的字體生成任務(wù)。
1.3.2 外部輸入漢字風(fēng)格特征的字體風(fēng)格遷移方法
在圖像風(fēng)格遷移pix2pix網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,Rewrite的提出者設(shè)計(jì)了適用于中韓文字體的字體風(fēng)格遷移網(wǎng)絡(luò)zi2zi(Tian和Chong,2017)。該網(wǎng)絡(luò)在AE的中間層(embedding)連接了代表目標(biāo)字體的類別標(biāo)簽,并使用Odena等人(2016)提出的基于條件圖像合成模型的輔助分類器。該分類器的兩個(gè)全連接層分別輸出對(duì)圖像真?zhèn)魏妥煮w類別的鑒別結(jié)果。zi2zi設(shè)計(jì)字體類別損失函數(shù)和語義一致性損失函數(shù)(constant loss)約束網(wǎng)絡(luò)參數(shù)的優(yōu)化。對(duì)于結(jié)構(gòu)簡(jiǎn)單、筆畫較粗的印刷體漢字,生成的漢字效果較好。
Wu等人(2020)提出了一種基于特定內(nèi)容的風(fēng)格化漢字圖像生成網(wǎng)絡(luò)CalliGAN,將漢字語義內(nèi)容進(jìn)一步拆分成字典序列和編碼器提取的字形特征,并與字體風(fēng)格標(biāo)簽轉(zhuǎn)換的獨(dú)熱向量(one-hot vector)拼接解碼得到生成的指定書法體漢字圖像,實(shí)現(xiàn)印刷體—手寫體的風(fēng)格遷移。
StarGAN(Choi 等,2018)最初被用來對(duì)人臉圖像進(jìn)行風(fēng)格遷移,用一個(gè)統(tǒng)一的框架實(shí)現(xiàn)人臉的頭發(fā)、眼睛、皮膚、年齡和表情等多個(gè)域之間的轉(zhuǎn)換,解決了圖像風(fēng)格遷移的一對(duì)多問題。Chen等人(2019b)、陳杰夫等人(2019a)、陳杰夫(2020)在StarGAN的基礎(chǔ)上引入了字體風(fēng)格指定機(jī)制,生成器可以同時(shí)學(xué)習(xí)多種不同的字體風(fēng)格。該方法將漢字圖像與字體風(fēng)格標(biāo)簽的獨(dú)熱向量合并送入生成器,設(shè)計(jì)字體類別損失函數(shù)和語義一致性損失函數(shù)來約束網(wǎng)絡(luò)參數(shù)的優(yōu)化,可以一次性生成多種不同字體風(fēng)格的漢字,還可以融合不同的字體風(fēng)格特征設(shè)計(jì)全新的字體。
滕少華和孔棱睿(2019)將CGAN與Wasserstein生成式對(duì)抗網(wǎng)絡(luò)(Wasserstein GAN, WGAN)(Arjovsky 等,2017)相結(jié)合,利用殘差網(wǎng)絡(luò)能夠有效學(xué)習(xí)漢字空間結(jié)構(gòu)間的微小差異的優(yōu)勢(shì),由下采樣塊、殘差網(wǎng)絡(luò)和上采樣塊構(gòu)成漢字生成網(wǎng)絡(luò)的基本結(jié)構(gòu)。不同數(shù)字作為不同字體風(fēng)格間的遷移條件,在一定程度上改善了漢字的生成效果,有效實(shí)現(xiàn)了印刷體和手寫體的雙向遷移,可以完成一對(duì)一和多對(duì)多的字體風(fēng)格遷移任務(wù)。
Gao和Wu(2020)提出了一種三階段(ENet-TNet-RNet)的漢字字體風(fēng)格遷移網(wǎng)絡(luò)。其中,漢字骨架提取網(wǎng)絡(luò)(skeleton extraction network,ENet)利用一組掩碼矩陣和指定的字體風(fēng)格標(biāo)簽提取源字體漢字的骨架結(jié)構(gòu),在漢字骨架遷移網(wǎng)絡(luò)(skeleton transformation network,TNet)和漢字筆畫生成網(wǎng)絡(luò)(stroke rendering network,RNet)中輸入表示字體風(fēng)格標(biāo)簽的獨(dú)熱向量。TNet將提取的源字體漢字骨架轉(zhuǎn)換成目標(biāo)字體漢字骨架結(jié)構(gòu)。RNet學(xué)習(xí)目標(biāo)字體的筆畫信息,在目標(biāo)字體漢字骨架上渲染筆畫細(xì)節(jié)以生成目標(biāo)字體漢字圖像。該方法也適用于印刷體—手寫體風(fēng)格轉(zhuǎn)換,但生成圖像的質(zhì)量不如印刷體—印刷體的風(fēng)格轉(zhuǎn)換。與CycleGAN相比,該方法漢字生成效果更穩(wěn)定,能夠?qū)W習(xí)多種漢字字體的共性。
Zhang等人(2020a)提出了由語義模塊、結(jié)構(gòu)模塊和遷移模塊構(gòu)成的漢字生成模型SSNet(structure-semantic net)。其中,語義模塊的編碼器作為語義特征提取器,結(jié)構(gòu)模塊提取源字體漢字圖像的筆畫(橫豎撇捺折)特征并還原,用隨機(jī)高斯噪聲初始化目標(biāo)字體風(fēng)格特征。遷移模塊將語義、結(jié)構(gòu)和風(fēng)格特征解碼生成目標(biāo)字體漢字圖像。SSNet設(shè)計(jì)了感知損失、層次對(duì)抗損失、風(fēng)格損失和Dual-masked Hausdorff距離等多個(gè)損失函數(shù)作為遷移模塊的目標(biāo)函數(shù)。生成效果在漢字圖像質(zhì)量和準(zhǔn)確度上都有顯著提高,并且保留了漢字的骨架結(jié)構(gòu)信息。
1.3.3 網(wǎng)絡(luò)提取漢字風(fēng)格特征的字體風(fēng)格遷移方法
Lyu等人(2017)提出由監(jiān)督網(wǎng)絡(luò)和遷移網(wǎng)絡(luò)構(gòu)成的書法體風(fēng)格遷移網(wǎng)絡(luò)AEGN(auto-encoder guided GAN)。其中,監(jiān)督網(wǎng)絡(luò)重構(gòu)目標(biāo)書法體圖像,其解碼器輸出尺寸為16×16-128×128像素的特征圖(feature map),為遷移網(wǎng)絡(luò)解碼器對(duì)應(yīng)大小的特征圖提供漢字筆畫細(xì)節(jié)信息。遷移網(wǎng)絡(luò)引入殘差模塊實(shí)現(xiàn)編碼器與解碼器的信息共享,學(xué)習(xí)源字體與目標(biāo)書法體圖像之間空間結(jié)構(gòu)的細(xì)微差別。
Jiang等人(2017)設(shè)計(jì)了一種端到端的漢字字體風(fēng)格遷移網(wǎng)絡(luò)DCFont(deep Chinese font),利用預(yù)訓(xùn)練好的VGG-16(Visual Geometry Group-16)網(wǎng)絡(luò)提取漢字圖像的字體風(fēng)格特征,并與字體風(fēng)格遷移網(wǎng)絡(luò)提取的漢字語義內(nèi)容特征進(jìn)行特征融合。隨后,通過由多個(gè)包含批量歸一化、激活函數(shù)的卷積層構(gòu)成的5個(gè)殘差模塊,以跨層連接的方式解碼得到生成的目標(biāo)字體漢字圖像。判別器對(duì)目標(biāo)字體漢字圖像的真假以及字體類別進(jìn)行判別。
Zheng和Zhang(2018)設(shè)計(jì)了漢字字體風(fēng)格遷移網(wǎng)絡(luò)CocoAAN(coconditional autoencoding adversarial network),該網(wǎng)絡(luò)由編碼和對(duì)抗兩個(gè)子網(wǎng)絡(luò)構(gòu)成。編碼網(wǎng)絡(luò)通過交替優(yōu)化策略將源字體和目標(biāo)字體漢字圖像分別映射為內(nèi)容和風(fēng)格特征;對(duì)抗網(wǎng)絡(luò)將這兩種特征拼接送入生成器中得到生成的漢字圖像。CocoAAN還設(shè)計(jì)了漢字標(biāo)簽與輸入漢字圖像合并的方法,在編碼網(wǎng)絡(luò)中的兩個(gè)編碼器和對(duì)抗網(wǎng)絡(luò)中的判別器前3個(gè)卷積層后增加FC-Add(fully connect-add)操作。實(shí)驗(yàn)表明,CocoAAN在設(shè)計(jì)全新風(fēng)格化漢字上具有強(qiáng)大的泛化能力。
針對(duì)生成藝術(shù)字體的漢字風(fēng)格遷移網(wǎng)絡(luò),Yang等人(2019)設(shè)計(jì)了集成漢字風(fēng)格化和去風(fēng)格化為一體的漢字藝術(shù)字體風(fēng)格遷移網(wǎng)絡(luò)TET-GAN(texture effects transfer GAN)。該方法首先建立由837個(gè)字符(包括漢字、數(shù)字和英文字母)和64種藝術(shù)字體風(fēng)格組成的圖像數(shù)據(jù)庫,然后對(duì)藝術(shù)字體圖像的語義內(nèi)容特征和字體風(fēng)格特征進(jìn)行提取并組合,完成漢字風(fēng)格化和去風(fēng)格化的任務(wù)。去風(fēng)格化可以為網(wǎng)絡(luò)提供語義內(nèi)容特征明顯的漢字骨架圖像,以實(shí)現(xiàn)漢字語義內(nèi)容特征的無監(jiān)督學(xué)習(xí)。
Gao等人(2019)提出了由一個(gè)生成器和多個(gè)判別器構(gòu)成的藝術(shù)字體風(fēng)格遷移網(wǎng)絡(luò)AGIS-Net(artistic glyph image synthesis network)。為了分離漢字的字體風(fēng)格和語義內(nèi)容,該方法從一組字體風(fēng)格一致的藝術(shù)字體圖像集中提取共有的風(fēng)格特征,并與源字體漢字圖像的內(nèi)容特征融合。字形、紋理判別器和局部判別器分別對(duì)解碼器生成的字形圖像、紋理圖像以及局部紋理區(qū)域判別真?zhèn)?。AGIS-Net定義了上下文損失和局部紋理損失,進(jìn)一步提高了生成圖像的筆畫紋理精度。該方法生成的漢字圖像保留了源字體漢字的語義內(nèi)容,具有藝術(shù)字體圖像集共有的藝術(shù)字體風(fēng)格。
Liu等人(2021)將漢字的風(fēng)格化和去風(fēng)格化集成到統(tǒng)一框架中,提出了漢字字體風(fēng)格遷移網(wǎng)絡(luò)FontGAN。該方法引入字體一致性模塊(font consistency module,F(xiàn)CM)和內(nèi)容先驗(yàn)?zāi)K(content prior module,CPM),解決了去風(fēng)格化過程中筆畫丟失問題。將源字體和目標(biāo)字體漢字圖像分別送入內(nèi)容編碼器和風(fēng)格編碼器,經(jīng)過特征融合解碼生成指定內(nèi)容和風(fēng)格的漢字圖像。
Xiao等人(2020)針對(duì)不配對(duì)的漢字?jǐn)?shù)據(jù)集提出了漢字風(fēng)格遷移的多重映射模型。通過對(duì)漢字的風(fēng)格特征向量歸一化處理,風(fēng)格編碼器可以隨機(jī)提取多種字體風(fēng)格特征,生成多種字體的漢字圖像。該方法還設(shè)計(jì)了KL散度(Kullback-Leibler divergence)損失約束風(fēng)格編碼器提取的風(fēng)格特征滿足高斯分布,適用于印刷體和手寫體的字體風(fēng)格遷移任務(wù)。
在漢字字體風(fēng)格遷移領(lǐng)域,主流研究方向是借鑒圖像風(fēng)格遷移的思想,對(duì)漢字圖像的字體風(fēng)格進(jìn)行轉(zhuǎn)換。根據(jù)字體風(fēng)格遷移網(wǎng)絡(luò)對(duì)數(shù)據(jù)集規(guī)模、適用的字體類別和生成效果等方面的需求和表現(xiàn),本文對(duì)經(jīng)典漢字字體遷移網(wǎng)絡(luò)進(jìn)行梳理,如表1所示,并總結(jié)歸納為以下幾點(diǎn):
表1 基于深度學(xué)習(xí)的漢字生成與字體風(fēng)格遷移方法對(duì)比Table 1 Comparison of Chinese character generation and style transfer methods
1)基于衍生的GANs模型設(shè)計(jì)字體風(fēng)格遷移網(wǎng)絡(luò)。Chang等人(2018a)針對(duì)印刷體—手寫體風(fēng)格遷移設(shè)計(jì)DenseNet-CycleGAN,實(shí)現(xiàn)了兩種特定字體的雙向遷移。張藝穎(2019)在CycleGAN的正向與逆向映射過程中應(yīng)用改進(jìn)的特征匹配算法,有效提升了手寫體漢字的生成質(zhì)量。Chen等人(2019b)、陳杰夫(2020)和陳杰夫等人(2019a)在StarGAN基礎(chǔ)上引入了字體風(fēng)格指定機(jī)制,同時(shí)學(xué)習(xí)多種不同的字體風(fēng)格。滕少華和孔棱睿(2019)利用殘差網(wǎng)絡(luò)能夠有效學(xué)習(xí)漢字空間結(jié)構(gòu)微小差異的優(yōu)勢(shì),將CGAN與WGAN相結(jié)合,設(shè)計(jì)風(fēng)格遷移網(wǎng)絡(luò),改善了漢字圖像的生成效果。
2)嘗試多種方法有效提取漢字圖像的語義內(nèi)容和字體風(fēng)格特征。AGIS-Net、EMD、SSNet和SA-VAE采用提取共有特征的方式,從一組內(nèi)容不同風(fēng)格相同的參考數(shù)據(jù)集和一組風(fēng)格不同內(nèi)容相同的參考數(shù)據(jù)集中分別提取共有的字體風(fēng)格特征和語義內(nèi)容特征。DCFont利用VGG-16網(wǎng)絡(luò)提取漢字圖像的字體風(fēng)格特征。StrokeGAN引入筆畫編碼補(bǔ)充漢字的筆畫細(xì)節(jié)信息。由于強(qiáng)調(diào)漢字結(jié)構(gòu),StrokeGAN比DenseNet-CycleGAN和zi2zi生成的漢字圖像更真實(shí),筆畫準(zhǔn)確率更高。CalliGAN將字典序列作為語義內(nèi)容特征的一部分,與編碼器提取的字形特征融合構(gòu)成漢字圖像的語義內(nèi)容特征。在印刷體—手寫體風(fēng)格遷移任務(wù)上,CalliGAN的漢字圖像生成效果優(yōu)于zi2zi。
3)將關(guān)注點(diǎn)放在筆畫紋理更豐富的生成藝術(shù)字體的漢字圖像風(fēng)格遷移上。從漢字組成的角度,將藝術(shù)字體漢字圖像特征細(xì)化到字形和筆畫紋理,AGIS-Net和TET-Net通過設(shè)計(jì)多個(gè)判別器定義新的損失函數(shù)優(yōu)化網(wǎng)絡(luò)參數(shù)。與TET-GAN相比,AGIS-Net在藝術(shù)字體風(fēng)格遷移任務(wù)中學(xué)習(xí)字形和紋理的能力更強(qiáng),生成的漢字圖像保留了源字體漢字的語義內(nèi)容,具有目標(biāo)字體漢字圖像集共有的藝術(shù)字體風(fēng)格。
4)設(shè)計(jì)損失函數(shù)優(yōu)化模型參數(shù)。肖奮溪(2018)用平均絕對(duì)值誤差損失增強(qiáng)生成圖像的銳度和清晰度。PEGAN和SSNet利用預(yù)訓(xùn)練好的VGG-19計(jì)算感知損失。DCFont利用VGG-16網(wǎng)絡(luò)提取漢字圖像的高層特征設(shè)計(jì)風(fēng)格一致性損失。與zi2zi相比,PEGAN提高了漢字圖像的可識(shí)別性和生成質(zhì)量。
5)集成漢字字體風(fēng)格化和去風(fēng)格化為一體的遷移網(wǎng)絡(luò)。TET-Net和FontGAN將漢字的風(fēng)格化和去風(fēng)格化集成到統(tǒng)一框架中,在數(shù)據(jù)集不配對(duì)的情況下更靈活地實(shí)現(xiàn)字體風(fēng)格遷移。FontGAN對(duì)漢字筆畫細(xì)節(jié)的學(xué)習(xí)效果優(yōu)于zi2zi和Rewrite,實(shí)現(xiàn)了印刷體和手寫體兩種字體風(fēng)格的雙向遷移,可以處理一對(duì)多、多對(duì)一和多對(duì)多的漢字字體遷移任務(wù)。
2.2.1 數(shù)據(jù)集
為了對(duì)比分析不同算法的性能,本文構(gòu)建新的數(shù)據(jù)集。具體步驟如下:
1)按漢字部首檢字表收集簡(jiǎn)體字和繁體字,共6 683個(gè)漢字,按一個(gè)字一行的格式列出漢字清單。
2)從Windows自帶的中文字體中選擇字體文件,每個(gè)字體文件代表一種漢字風(fēng)格。
3)根據(jù)漢字清單和字體文件,將收集的6 683個(gè)漢字轉(zhuǎn)換為漢字圖像,每幅圖像為所選字體文件代表的風(fēng)格化漢字。分辨率根據(jù)對(duì)比實(shí)驗(yàn)的需要設(shè)置為64×64像素或256×256像素。根據(jù)字體和分辨率將漢字圖像放入對(duì)應(yīng)的文件夾,文件夾按照 “字體名字+分辨率”的格式命名。同時(shí),文件夾里的漢字圖像,以其代表的漢字信息命名。
4)選取最常用的印刷體仿宋體作為源字體,黑體、楷體、華光行書和華文行楷4種字體依次作為目標(biāo)字體,源字體和目標(biāo)字體兩兩配對(duì)構(gòu)成訓(xùn)練數(shù)據(jù)集。
對(duì)于新的字體文件,可以按照上述步驟生成新的漢字圖像并補(bǔ)充到數(shù)據(jù)集中,實(shí)現(xiàn)數(shù)據(jù)集的擴(kuò)充。
2.2.2 評(píng)價(jià)指標(biāo)
常用的圖像質(zhì)量評(píng)價(jià)指標(biāo)有峰值信噪比(peak signal-to-noise ratio,PSNR)、結(jié)構(gòu)相似性(structural similarity index,SSIM)、均方誤差(mean square error,MSE)、均方根誤差(root mean square error,RMSE)和像素級(jí)準(zhǔn)確率(pixel-level accuracy,pix_acc)等。其中,PSNR常用于圖像壓縮等領(lǐng)域,對(duì)壓縮前后圖像的質(zhì)量進(jìn)行客觀評(píng)價(jià)。SSIM基于亮度、對(duì)比度和結(jié)構(gòu)3個(gè)方面衡量?jī)煞鶊D像的差異。MSE從像素的角度衡量?jī)煞鶊D像對(duì)應(yīng)位置的像素值誤差,RMSE是MSE開根號(hào)的值。pix_acc對(duì)比兩幅圖像對(duì)應(yīng)位置的像素值是否一致,統(tǒng)計(jì)滿足該條件的像素點(diǎn)數(shù)目,計(jì)算其在整個(gè)圖像中所占的比例。
為了更好地衡量生成圖像的質(zhì)量和多樣性,通常采用IS(inception score)和FID(Fréchet inception distance)評(píng)價(jià)不同的GAN模型。這兩個(gè)指標(biāo)都是基于Inception network對(duì)圖像進(jìn)行特征提取,計(jì)算生成圖像與真實(shí)圖像數(shù)據(jù)分布的距離。IS采用KL散度衡量?jī)蓚€(gè)分布之間的距離。IS值越大,表明生成圖像越好。FID通過均值和協(xié)方差衡量真實(shí)圖像與生成圖像的距離,對(duì)噪聲具有一定的魯棒性。FID值越小,意味著生成圖像的質(zhì)量越高、多樣性越好。
從漢字圖像的角度,可以從兩個(gè)方面評(píng)估漢字字體風(fēng)格遷移網(wǎng)絡(luò)的生成效果。1)從生成圖像給人的整體感觀進(jìn)行評(píng)價(jià)。由于字體風(fēng)格特征的學(xué)習(xí)效果、漢字筆畫的連貫性和完整性都可以通過人眼進(jìn)行判斷。因此對(duì)漢字圖像的主觀評(píng)價(jià)可以作為衡量不同方法生成效果的指標(biāo)之一。2)漢字筆畫是由圖像像素點(diǎn)構(gòu)成的,可以通過漢字圖像像素點(diǎn)位置的準(zhǔn)確度(pix_acc)評(píng)估漢字圖像的生成效果。在對(duì)比實(shí)驗(yàn)中,選擇在漢字字體風(fēng)格遷移研究中使用頻率較高的兩個(gè)客觀指標(biāo)RMSE和pix_acc衡量漢字圖像的生成質(zhì)量。各方法的主觀評(píng)價(jià)結(jié)果如表1最后一列所示。RMSE和pix_acc的具體定義為
(1)
(2)
式中,f和r分別表示生成圖像(fake)和真實(shí)圖像(real)的2維向量,兩幅圖像中對(duì)應(yīng)位置的像素值分別用fi,j和ri,j表示,M和N代表圖像在兩個(gè)維度上的像素點(diǎn)總數(shù)。I{·}在fi,j=ri,j時(shí)值為1,否則為0。RMSE值越小、pix_acc值越大意味著該字體風(fēng)格遷移網(wǎng)絡(luò)生成的漢字圖像越逼真。
2.2.3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)選取的對(duì)比算法為Rewrite2、zi2zi、Unet-GAN和TET-GAN,選擇仿宋作為源字體,黑體、楷體、華光行書和華文行楷依次作為目標(biāo)字體。實(shí)驗(yàn)結(jié)果如圖3—圖6所示,生成的漢字圖像目標(biāo)字體風(fēng)格特征都較為明顯。
1)對(duì)于目標(biāo)字體是黑體、楷體這種印刷體的字體風(fēng)格遷移,生成結(jié)果如圖3和圖4所示。Rewrite2學(xué)習(xí)目標(biāo)字體內(nèi)容特征的能力較弱,生成漢字普遍存在筆畫混亂現(xiàn)象,筆畫連貫性以及漢字完整性有所欠缺。zi2zi和TET-GAN能較好地完成印刷體風(fēng)格轉(zhuǎn)換任務(wù),但筆畫扭曲和模糊現(xiàn)象較明顯。
圖3 源字體仿宋轉(zhuǎn)換成目標(biāo)字體黑體的生成結(jié)果Fig.3 Generate results of transferred source font (simfang.ttf) into target font (simhei.ttf)
圖4 源字體仿宋轉(zhuǎn)換成目標(biāo)字體楷體的生成結(jié)果Fig.4 Generate results of transferred source font (simfang.ttf) into target font (simkai.ttf)
2)對(duì)于目標(biāo)字體是華光行書、華文行楷這種手寫體的字體風(fēng)格遷移,生成結(jié)果如圖5和圖6所示。Rewrite2生成的漢字基本不可識(shí)別,無法學(xué)習(xí)個(gè)別漢字(如“扁”、“蕩”、“煊”、“慕”等)的基本筆畫結(jié)構(gòu),生成的漢字圖像有大面積的白色區(qū)域,不符合實(shí)際場(chǎng)景使用。TET-GAN生成的漢字筆畫斷續(xù)較多,連貫性不夠,個(gè)別漢字(如“茭”、“萇”)的部分筆畫結(jié)構(gòu)無法生成。zi2zi生成漢字的質(zhì)量無法保證,對(duì)于筆畫緊湊、連筆的漢字(如“嬤”),生成的漢字圖像不能傳達(dá)任何信息,出現(xiàn)大面積的黑色區(qū)域。Rewrite2、TET-GAN和zi2zi無法生成個(gè)別漢字,不適用于印刷體—手寫體的轉(zhuǎn)換任務(wù)。
從主觀上判斷生成漢字的優(yōu)劣,相比于Rewrite2、TET-GAN和zi2zi,Unet-GAN在印刷體和手寫體的字體風(fēng)格遷移任務(wù)中,生成的漢字圖像筆畫痕跡明顯,清晰度更高。
圖5 源字體仿宋轉(zhuǎn)換成目標(biāo)字體華光行書的生成結(jié)果Fig.5 Generate results of transferred source font (simfang.ttf) into target font (hgxs_cnki.ttf)
除了展示生成的漢字圖像外,實(shí)驗(yàn)還利用RMSE和pix_acc兩個(gè)客觀指標(biāo)量化評(píng)估漢字圖像的生成效果。首先,將生成的漢字圖像分辨率統(tǒng)一設(shè)置為256 × 256像素,并對(duì)漢字圖像進(jìn)行灰度化和二值化處理。隨后計(jì)算RMSE和pix_acc指標(biāo),如表2所示。RMSE值越小、pix_acc值越大意味著該字體風(fēng)格遷移方法生成的漢字圖像質(zhì)量越高。從表2可以看出,無論是印刷體還是手寫體的字體風(fēng)格遷移任務(wù),Unet-GAN生成的漢字質(zhì)量?jī)?yōu)于其他3種方法。
圖6 源字體仿宋轉(zhuǎn)換成目標(biāo)字體華文行楷的生成結(jié)果Fig.6 Generate results of transferred source font (simfang.ttf) into target font (stxingka.ttf)
表2 經(jīng)典模型的客觀評(píng)價(jià)指標(biāo)對(duì)比Table 2 Objective evaluation comparison of classic font transfer methods
從生成漢字圖像的主觀評(píng)價(jià)結(jié)果和客觀評(píng)價(jià)指標(biāo)來看,Unet-GAN生成的漢字圖像更完整清晰。Unet-GAN對(duì)印刷體和手寫體的字體風(fēng)格遷移生成效果良好,漢字筆畫痕跡明顯。Rewrite2、zi2zi和TET-GAN更適用于印刷體的字體風(fēng)格遷移任務(wù),在漢字筆畫細(xì)節(jié)上的生成能力還有待提升。
漢字字符具有數(shù)量龐大、結(jié)構(gòu)復(fù)雜和風(fēng)格多樣的特性,一些運(yùn)用深度學(xué)習(xí)方法的字體風(fēng)格遷移網(wǎng)絡(luò)未能很好地完成字體風(fēng)格遷移任務(wù)。字體風(fēng)格遷移網(wǎng)絡(luò)不得不在提取語義內(nèi)容和字體風(fēng)格特征上做更多嘗試。在字體風(fēng)格遷移領(lǐng)域面臨的難點(diǎn)可以歸納為以下幾點(diǎn):1)筆畫模糊和錯(cuò)亂現(xiàn)象普遍。對(duì)于筆畫較復(fù)雜的漢字,字體風(fēng)格遷移網(wǎng)絡(luò)生成的漢字圖像容易出現(xiàn)筆畫模糊和錯(cuò)亂現(xiàn)象,影響整個(gè)漢字圖像的可識(shí)別性和美觀性。2)漢字圖像的多域字體風(fēng)格轉(zhuǎn)換方法不成熟。大多數(shù)字體風(fēng)格遷移網(wǎng)絡(luò)可以完成一對(duì)一的字體轉(zhuǎn)換任務(wù),但字體風(fēng)格遷移網(wǎng)絡(luò)學(xué)習(xí)多種漢字字體風(fēng)格,實(shí)現(xiàn)漢字圖像多域字體轉(zhuǎn)換的研究還不夠成熟。3)設(shè)計(jì)生成全新漢字字體的字體風(fēng)格遷移網(wǎng)絡(luò)。大多數(shù)字體風(fēng)格遷移網(wǎng)絡(luò)只能對(duì)已經(jīng)存在的字體風(fēng)格進(jìn)行轉(zhuǎn)換。利用字體風(fēng)格遷移網(wǎng)絡(luò),對(duì)風(fēng)格特征插值生成全新漢字字體的研究還不夠成熟。4)數(shù)據(jù)集規(guī)模較大。對(duì)于漢字字體風(fēng)格遷移來說,字體風(fēng)格遷移網(wǎng)絡(luò)應(yīng)盡量使用小規(guī)模的數(shù)據(jù)集,學(xué)習(xí)源字體與目標(biāo)字體之間的映射關(guān)系,提高學(xué)習(xí)能力和泛化能力。
基于深度學(xué)習(xí)的漢字生成與字體風(fēng)格遷移方法在印刷體和手寫體轉(zhuǎn)換上取得了大體滿意的生成效果,但是仍然存在一些問題有待改進(jìn)。在未來的研究中,可以針對(duì)以下方面展開工作:1)特征的有效提取。漢字特征的拆分對(duì)于筆畫紋理豐富的漢字來講是一個(gè)不錯(cuò)的風(fēng)格轉(zhuǎn)換處理方式,可嘗試挖掘有效提取字體風(fēng)格和內(nèi)容特征的深度學(xué)習(xí)模型,充分利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的處理能力。2)小樣本學(xué)習(xí)訓(xùn)練。基于深度學(xué)習(xí)技術(shù)設(shè)計(jì)的風(fēng)格遷移網(wǎng)絡(luò)的圖像生成效果與訓(xùn)練集的規(guī)模有較大關(guān)系。為了減小數(shù)據(jù)集的規(guī)模,避免訓(xùn)練時(shí)間過長(zhǎng),可以優(yōu)先選擇涵蓋偏旁部首較全面的漢字作為訓(xùn)練集。3)漢字局部區(qū)域的生成與判別。對(duì)于結(jié)構(gòu)復(fù)雜的漢字,生成的漢字圖像容易出現(xiàn)筆畫模糊錯(cuò)亂的現(xiàn)象,可嘗試將漢字圖像分割成多個(gè)局部的漢字圖像塊(patch),利用字體風(fēng)格遷移網(wǎng)絡(luò)對(duì)局部漢字圖像進(jìn)行字體風(fēng)格轉(zhuǎn)換,同時(shí)設(shè)計(jì)判別器判斷局部漢字圖像的效果,用于中文文本信息隱藏(Wang 等,2021;孫杉 等,2022)。4)漢字風(fēng)格化和去風(fēng)格化的融合。設(shè)計(jì)通用的字體風(fēng)格遷移網(wǎng)絡(luò),滿足漢字圖像的多域字體轉(zhuǎn)換和生成全新漢字字體的需求。漢字的去風(fēng)格化為生成全新的漢字字體提供漢字骨架結(jié)構(gòu)信息,通用的字體風(fēng)格遷移網(wǎng)絡(luò)可以使?jié)h字字體設(shè)計(jì)更加高效。