周紫微
(1.長春君地房地產(chǎn)開發(fā)有限公司,吉林 長春 130000;2.中科智谷國際醫(yī)藥生物科技(廣東)有限公司,廣東 清遠(yuǎn) 511500)
隨著建筑工程自動化的發(fā)展,工程造價票據(jù)的自動化識別及臺賬錄入,已經(jīng)成為提高建筑企業(yè)經(jīng)營效率的重要手段[1]。研究如何提高票據(jù)檢測識別系統(tǒng)在印制模糊、手寫迥異等復(fù)雜背景下的票據(jù)特征提取能力具有重要意義。程德強等[2]選用了不同尺度增加特征信息量和利用率的方法,達(dá)到了獲取較高視覺效果的目的。楊夏寧等[3]引入對稱式分層結(jié)構(gòu),增加殘差結(jié)構(gòu)連接密度等方法,實現(xiàn)了適應(yīng)復(fù)雜場景下圖像超分辨率重構(gòu)。畢曉君等[4]將密集剩余殘差塊作為特征提取模塊,采用沃瑟斯坦式提高模型泛化能力,有效提高了圖像細(xì)節(jié)的真實性和重構(gòu)效果。文章使用SRGAN網(wǎng)絡(luò)實現(xiàn)對低分辨率圖像的超分辨率重構(gòu),能夠有效解決工程造價票據(jù)因印制設(shè)備個體差異、不同經(jīng)手人員書寫動力定型差異化等因素造成的票據(jù)清晰度低和細(xì)節(jié)缺失的問題,提高工程票據(jù)自動化識別系統(tǒng)的效率。
通過將SRResNet網(wǎng)絡(luò)作為生成網(wǎng)絡(luò),引入生成對抗網(wǎng)絡(luò)(GAN)產(chǎn)生的圖像超分辨率重建算法(SRGAN),由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)構(gòu)成[5],目標(biāo)函數(shù)為:
式中:DθD——判別網(wǎng)絡(luò);GθG——生成網(wǎng)絡(luò);IHR——真實的票據(jù)高分辨率圖片;ILR——IHR對應(yīng)的低分辨率版本;IHR~ptrain(IHR)——從票據(jù)數(shù)據(jù)集中對IHR進 行 采 樣;DθD(IHR)——IHR是 真 實 圖 片 概 率;ILR~pG(ILR)——根據(jù)IHR隨機生成一張對應(yīng)的ILR;GθG(ILR)——通過生成網(wǎng)絡(luò)生成超分辨率重構(gòu)圖片;DθD(GθG(ILR))——生成的圖片是真實圖片的概率。
利用min-max優(yōu)化模型[6]對目標(biāo)函數(shù)進行訓(xùn)練,通過固定生成網(wǎng)絡(luò)參數(shù)訓(xùn)練判別網(wǎng)絡(luò)和訓(xùn)練生成網(wǎng)絡(luò),每次循環(huán)迭代都會促使生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)互相對抗和進化,直至生成模型GθG。
SRGAN算法引入了感知損失函數(shù)lSR。
內(nèi)容損失利用感知相似性原理,將重構(gòu)圖片和目標(biāo)圖片輸入VGG19模型,得到特征圖的歐式距離[7],達(dá)到重構(gòu)細(xì)節(jié),提升視覺感知的目的。
式中:Wi,j、Hi,j——VGG19網(wǎng)絡(luò)中各自特征圖的維度;Φi,j——第i個最大池化層前的第j個卷積層(經(jīng)過激活層后)獲得的特征圖。
表示達(dá)到生成更接近真實圖片,提高通過判別網(wǎng)絡(luò)輸出預(yù)測為真實圖片的概率:
為獲得更好的梯度行為,對判別網(wǎng)絡(luò)將生成的圖片認(rèn)為是真實圖片的概率DθD(GθG(ILR))的對數(shù)取負(fù)值,即最小化-logDθD(GθG(ILR))。
生成網(wǎng)絡(luò)的作用是由低分辨率圖片ILR生成超分辨率重構(gòu)圖片ISR。SRGAN采用添加批標(biāo)準(zhǔn)化層和建立跳躍連接方式,復(fù)原 超分辨率圖片信息。
將低分辨率票據(jù)圖片輸入生成網(wǎng)絡(luò)后,經(jīng)過一個卷積核尺寸為9×9、通道數(shù)為64、步長為1的卷積層和PReLU激活函數(shù)層。再經(jīng)過一個殘差網(wǎng)絡(luò),每個殘差模塊包含2個卷積核尺寸為3×3、通道數(shù)為64、步長為1的卷積層。其中,第一個卷積層后連接批標(biāo)準(zhǔn)化和PReLU激活函數(shù),第二個卷積層后連接批標(biāo)準(zhǔn)化和逐點相加層,多個殘差模塊進行跳躍連接完成特征提取。然后進入一個卷積核尺寸為3×3、通道數(shù)為64、步長為1的卷積層以及批標(biāo)準(zhǔn)化處理,同時將第一個殘差模塊之前的參數(shù)與當(dāng)前參數(shù)連接。接著連續(xù)經(jīng)過兩個卷積核尺寸為3×3、通道數(shù)為256、步長為1的卷積層,將輸入圖片尺寸擴大至2 倍的上采樣模塊(PixelShuffler×2) 和PReLU激活函數(shù)。再經(jīng)過一個卷積核尺寸為9×9、通道數(shù)為3、步長為1的卷積層調(diào)整圖片的通道數(shù)。最終輸出一張將輸入圖片尺寸放大4倍的超分辨率重構(gòu)票據(jù)圖片,提升了分辨率。
與生成網(wǎng)絡(luò)不同,判別網(wǎng)絡(luò)是判斷輸入票據(jù)圖片的真實性。首先,輸入一張真實的高分辨率票據(jù)圖片或生成的超分辨率重構(gòu)票據(jù)圖片;其次,經(jīng)過一個卷積核尺寸為3×3、通道數(shù)為64、步長為1的卷積層和Leaky ReLU激活函數(shù)層,連接一個標(biāo)準(zhǔn)的VGG網(wǎng)絡(luò);特征個數(shù)隨著網(wǎng)絡(luò)層數(shù)的增加而增加,特征尺寸持續(xù)減小至輸入圖片的1/16,從而降低圖片分辨率;再次,經(jīng)過一個全連接層和Leaky ReLU激活函數(shù);最后,經(jīng)過一個全連接層和Sigmoid激活函數(shù)層得到預(yù)測為真實票據(jù)圖片的概率并輸出判定結(jié)果。
1.2.1 生成網(wǎng)絡(luò)的損失函數(shù)
為生成對抗模型,使用mini-batch方法,即從工程造價票據(jù)訓(xùn)練數(shù)據(jù)集中隨機選出一定數(shù)量的數(shù)據(jù),優(yōu)化生成網(wǎng)絡(luò)參數(shù)θG。
式中:GθG()——生成網(wǎng)絡(luò)輸出的超分辨率重構(gòu)票據(jù)圖片,即上文ISR;——真實的高分辨率圖片數(shù)據(jù)集;——高分辨率圖片對應(yīng)的低分辨率副本圖片數(shù)據(jù)集。n=1,2,…,N。
此外,當(dāng)損失函數(shù)最小時判別網(wǎng)絡(luò)無法成功識別生成的票據(jù)圖片的真假。
由式(3)可知,可以通過VGG19網(wǎng)絡(luò)計算超分辨率圖片(SR)與高分辨率圖片(HR)特征圖之間的損失。使用式(4)可以避免因判別網(wǎng)絡(luò)訓(xùn)練效果較好導(dǎo)致生成網(wǎng)絡(luò)出現(xiàn)梯度消失的問題,達(dá)到生成網(wǎng)絡(luò)生成的票據(jù)圖片接近真實票據(jù)圖片,實現(xiàn)提高輸出預(yù)測為真實票據(jù)圖片概率的目的。
1.2.2 判別網(wǎng)絡(luò)的損失函數(shù)
SRGAN所用判別網(wǎng)絡(luò)的作用是判斷輸入的工程造價票據(jù)圖片是否真實,使用的訓(xùn)練集為真實的工程造價票據(jù)高分辨率圖片和由生成網(wǎng)絡(luò)生成的超分辨率重構(gòu)票據(jù)圖片。
式中:DθD(ILR)——判別網(wǎng)絡(luò)評估真實票據(jù)圖片的概率;DθD(GθG(ILR))——判別網(wǎng)絡(luò)將生成的圖片認(rèn)為是真實圖片的概率;Ep(IHR)[logDθD(ILR)]——采樣自真實票據(jù)的輸入數(shù)據(jù)。
最大化DθD(ILR)令判別結(jié)果趨近于1,則有l(wèi)ogDθD(ILR);最小化DθD(GθG(ILR))令判別結(jié)果趨近于0,即1-DθD(GθG(ILR))的值盡可能趨近于1時,有l(wèi)og(1 -DθD(GθG(ILR)))趨近于0。
因此,訓(xùn)練判別網(wǎng)絡(luò)需要保證生成網(wǎng)絡(luò)不變,輸入票據(jù)圖片經(jīng)過判別網(wǎng)絡(luò)后將輸出一個得分,得分越趨近于1則判別為真實票據(jù),反之為非真實票據(jù)。判別網(wǎng)絡(luò)可以較準(zhǔn)確地辨別由生成網(wǎng)絡(luò)生成的工程造價票據(jù)圖片。
為了實現(xiàn)網(wǎng)絡(luò)的迭代訓(xùn)練,構(gòu)建了由300張工程總造價票據(jù)構(gòu)成的數(shù)據(jù)集,對網(wǎng)絡(luò)進行了200次的迭代訓(xùn)練,得到了相應(yīng)的訓(xùn)練和預(yù)測結(jié)果。使用VGG19網(wǎng)絡(luò)獲得了VGG loss,引入動態(tài)學(xué)習(xí)率使網(wǎng)絡(luò)在擬合過程中保持較好的活性,將初始學(xué)習(xí)率和最大學(xué)習(xí)率設(shè)置為0.000 2和0.002 0。為了實現(xiàn)目標(biāo)函數(shù)的快速擬合,引入了余弦退火(COS)算法。考慮文章構(gòu)建的工程票據(jù)數(shù)據(jù)集樣本數(shù)量規(guī)模較大,引入適應(yīng)性矩估計(Adam)優(yōu)化算法,將動量參數(shù)(momentum)設(shè)置為0.9。
損失函數(shù)隨迭代次數(shù)的變化情況如圖1所示。
由圖1可知,在網(wǎng)絡(luò)訓(xùn)練的200次迭代過程中,網(wǎng)絡(luò)的全局損失函數(shù)均呈現(xiàn)下降趨勢。特別是判別網(wǎng)絡(luò)在后期下降趨勢明顯,表明使用的COS算法及Adam優(yōu)化器能夠使網(wǎng)絡(luò)得到快速擬合。
此外,生成網(wǎng)絡(luò)的全局結(jié)構(gòu)相似性指標(biāo)隨迭代次數(shù)線性遞增,表明生成網(wǎng)絡(luò)生成的超分辨率圖片與其對應(yīng)的高分辨率圖片的相似性隨網(wǎng)絡(luò)迭代次數(shù)而增加,并在100次后趨于穩(wěn)定,這與圖中生成網(wǎng)絡(luò)的全局損失變化基本一致,驗證了試驗的真實性。
票據(jù)圖片經(jīng)超分辨率重構(gòu)前后圖像對比如圖2所示。
由圖2可知,以機打的備注信息為例,通過對比可以觀察到圖中數(shù)字的清晰度在經(jīng)過超分辨率重構(gòu)后,圖像邊緣更清晰,色澤飽和度更高。工程造價票據(jù)圖片在分辨率提升4倍后,仍能保持良好的細(xì)節(jié)視覺感知度。字體在經(jīng)過超分辨率重構(gòu)后,字體線條更銳利且與票據(jù)背景邊界分離清晰,表明SRGAN網(wǎng)絡(luò)能夠提高票據(jù)圖片的清晰度和細(xì)節(jié),實現(xiàn)文字識別系統(tǒng)對圖像特征的有效提取。
票據(jù)圖片上采樣4倍前后對比效果如圖3所示。
圖3 票據(jù)圖片上采樣4倍前后對比效果
圖3(a)中機打文字部分字跡模糊,肉眼辨識較為困難,為后續(xù)的工程造價信息自動化讀取帶來挑戰(zhàn)。圖3(b)中相同位置的文字較清晰,表明無論是票據(jù)模板本身的印制文字,還是機打的工程造價文字信息,票據(jù)圖片在經(jīng)過SRGAN網(wǎng)絡(luò)預(yù)測后,均能夠有效地提升圖像素質(zhì)。
文章利用SRGAN超分辨率網(wǎng)絡(luò)能夠?qū)崿F(xiàn)低分辨率圖像的超分辨率重構(gòu),將其應(yīng)用于提高低分辨率工程造價票據(jù)圖片的分辨率及圖片細(xì)節(jié)的肉眼感知度。結(jié)果表明,SRGAN能夠有效改善低分辨率工程造價票據(jù)在印制文字、機打文字及手寫文字方面的清晰度,為票據(jù)特征識別提供有效的預(yù)處理方法。