張洪成 張永林 吳夢(mèng)宇 戴 磊
(江蘇科技大學(xué)電子信息學(xué)院 鎮(zhèn)江 212000)
我國(guó)船舶工業(yè)經(jīng)過(guò)數(shù)十年的發(fā)展,已躋身于世界造船強(qiáng)國(guó)之流,但在高技術(shù)船舶領(lǐng)域還有較大的發(fā)展空間。為此,《中國(guó)制造2025》將海洋工程裝備及高技術(shù)船舶領(lǐng)域作為重點(diǎn)突破的十大領(lǐng)域之一,并明確將船舶智能制造列為主攻方向[1]。我國(guó)“數(shù)字化造船”歷經(jīng)十多年的發(fā)展,擁有良好的信息化基礎(chǔ),然而在船舶實(shí)際制造過(guò)程中,制造工藝和生產(chǎn)計(jì)劃等數(shù)據(jù)無(wú)法直接推送到制造現(xiàn)場(chǎng),不能有效指導(dǎo)工人生產(chǎn)作業(yè)[2];實(shí)際制造現(xiàn)場(chǎng)的情況也無(wú)法及時(shí)反饋,難以支撐管理層的決策和管控,最終導(dǎo)致船舶中間產(chǎn)品的一次合格率和生產(chǎn)效率偏低[3]。為實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)交互,首先需要完成對(duì)船舶制造設(shè)備的數(shù)據(jù)自動(dòng)采集工作。然而船舶制造設(shè)備年代久遠(yuǎn),存在部分?jǐn)?shù)控設(shè)備數(shù)據(jù)傳輸接口毀壞或不存在的情況,無(wú)法直接進(jìn)行數(shù)控設(shè)備數(shù)據(jù)自動(dòng)采集。因此如何高效、準(zhǔn)確、實(shí)時(shí)地進(jìn)行船舶制造車間中無(wú)數(shù)據(jù)傳輸接口的數(shù)控設(shè)備數(shù)據(jù)采集工作是一個(gè)亟需解決的問(wèn)題。
鑒于此,本文展開(kāi)基于改進(jìn)EAST 算法的船舶制造設(shè)備數(shù)據(jù)采集研究,為船舶制造過(guò)程的互聯(lián)互通平臺(tái)的研發(fā)做先行準(zhǔn)備工作。首先利用工業(yè)攝像頭對(duì)船舶數(shù)控設(shè)備人機(jī)界面進(jìn)行抓拍工作,然后對(duì)抓拍得到的圖像進(jìn)行預(yù)處理,接著使用圖像處理中的OCR技術(shù)[4]進(jìn)行文本檢測(cè)工作,以讀取人機(jī)界面的設(shè)備信息。本文采用目前OCR 領(lǐng)域中主流的EAST文本檢測(cè)算法,并使用ASPP網(wǎng)絡(luò)優(yōu)化原有網(wǎng)絡(luò)結(jié)構(gòu),提升Feature Map 的感受野,利用Dice soft loss 函數(shù)替代原有Loss 函數(shù),以此綜合提升對(duì)數(shù)控設(shè)備人機(jī)界面中長(zhǎng)文本數(shù)據(jù)的識(shí)別效果,最終通過(guò)對(duì)識(shí)別結(jié)果中關(guān)鍵字進(jìn)行搜索并讀取數(shù)據(jù),從而完成對(duì)無(wú)數(shù)據(jù)傳輸接口的船舶制造設(shè)備數(shù)據(jù)采集工作,補(bǔ)足船舶制造過(guò)程的互聯(lián)互通平臺(tái)中部分設(shè)備無(wú)法進(jìn)行數(shù)據(jù)自動(dòng)化讀取的缺陷。
傳統(tǒng)文本檢測(cè)算法多為多階段(Multi-stage)檢測(cè)算法,在訓(xùn)練模型時(shí)需要進(jìn)行多個(gè)階段調(diào)優(yōu)工作[5]。該調(diào)優(yōu)工作的多階段性導(dǎo)致調(diào)優(yōu)過(guò)程復(fù)雜度增大、訓(xùn)練工程量增多且會(huì)對(duì)最終模型產(chǎn)生未可知因素的影響。East 文本檢測(cè)算法的端到端檢測(cè)機(jī)制,可降低檢測(cè)過(guò)程中中間冗余部分的占比,進(jìn)而直接進(jìn)行文本內(nèi)容的預(yù)測(cè)[6]。經(jīng)典East 檢測(cè)算法網(wǎng)絡(luò)結(jié)構(gòu)通常情況被分解為3 個(gè)層次:特征提?。‵eature extractor stem)、特征合并(Feature-merging branch)和輸出層(Output layer)[7],East 檢測(cè)算法網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1所示。
圖1 East檢測(cè)算法網(wǎng)絡(luò)結(jié)構(gòu)圖
特征提取層(圖1 黃色部分):常見(jiàn)特征提取網(wǎng)絡(luò)為VGG、ResNet、PVANET等[8]。特診提取以ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,當(dāng)特征提取網(wǎng)絡(luò)為VGG16 模型時(shí),特征提取分支從其四組卷積層Conv1~Conv4 提取四組特征提取4 個(gè)級(jí)別的Feature Map(特征圖)并用f1、f2、f3、f4進(jìn)行表示,特征圖大小為原始圖像的1 /32、1 /16、1 /8 以及1/ 4[9]。
特征融合層(圖1綠色部分):采用逐層合并的方式,從下向上進(jìn)行上采樣操作,將生成的Feature Map 輸入到unpooling(池化)層進(jìn)行拓展,接著使用concat 函數(shù)對(duì)上下層Feature Map(記為hi)進(jìn)行連接。然后通過(guò)1×1 的卷積層削減通道數(shù)量與計(jì)算量,最終在最后一個(gè)合并階段,將Feature Maph4使用3×3 的卷積核運(yùn)算生成最終的Feature Map并傳輸?shù)捷敵鰧樱?0]。
輸出層(圖1藍(lán)色部分):方法一將該層分為置信度(Score Map)、文字區(qū)域(RBOX)和文字區(qū)域旋轉(zhuǎn)角度共三個(gè)部分;置信度由1×1 的卷積核生成,用于表示該像素的置信度;文字區(qū)域由4個(gè)1×1 的卷積核生成,卷積核的值代表當(dāng)前像素到所包圍文字的最小矩形框的上、下、左、右界距離[11](分別記為d1、d2、d3、d4),文字區(qū)域旋轉(zhuǎn)角度由1 個(gè)1×1的卷積核生成,代表該矩形框的旋轉(zhuǎn)角度。
經(jīng)典EAST文本檢測(cè)網(wǎng)絡(luò)模型為了增加輸出單元的感受野,在池化層階段加入需要大量下采樣操作,進(jìn)而導(dǎo)致特征樣本尺寸降低,上采樣階段提升分辨率的難度加大,最終導(dǎo)致輸出中部分特征映射感受野減小,編碼時(shí)會(huì)限制尺度信息。本文針對(duì)該問(wèn)題,使用ASPP[12](Atrous Spatial Pyramid Pooling)網(wǎng)絡(luò)進(jìn)行East文本檢測(cè)算法結(jié)構(gòu)方面的優(yōu)化,利用空洞卷積同尺寸下更大感受野的特性進(jìn)行問(wèn)題的解決。
首先將EAST 網(wǎng)絡(luò)結(jié)構(gòu)中的conv stage 4 部分修改為感受野更大的ASPP 網(wǎng)絡(luò),修改后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示??斩淳矸e層級(jí)級(jí)關(guān)聯(lián),逐層擴(kuò)張,將每個(gè)空洞卷積層的輸出、輸入以及其所有前層輸出關(guān)聯(lián)相組,最終特征層便可輸出尺寸更大一級(jí)的感受野,其通過(guò)使用幾個(gè)空洞卷積層可以生成更密集更大的特征金字塔。本設(shè)計(jì)中的ASPP網(wǎng)絡(luò)[13]包含1個(gè)1×1 的卷積以及3個(gè)3×3 的卷積(擴(kuò)張率分別為6,12,18),特征圖的輸出步長(zhǎng)為16。
圖2 改進(jìn)后East網(wǎng)絡(luò)結(jié)構(gòu)
模型訓(xùn)練與測(cè)試時(shí)使用的圖像尺寸大小為512×512,由于輸出步長(zhǎng)為16,最終ASPP 網(wǎng)絡(luò)接收的特征向量為32×32。為添加更多的信息[14],將GAP(全局平均池化層)應(yīng)用到最后一個(gè)空洞塊輸出的特征上,所得特征被輸入到帶有256 個(gè)濾波器的1×1卷積中。
在經(jīng)典EAST 檢測(cè)網(wǎng)絡(luò)模型中,以類平衡交叉熵 損 失(class balanced cross-entropy loss)作 為score map 損失函數(shù),以此解決樣本不平衡分布問(wèn)題。但交叉熵?fù)p失把每個(gè)像素都當(dāng)作一個(gè)獨(dú)立樣本進(jìn)行預(yù)測(cè),收斂速度因此受到影響,本文采用dice soft loss 函數(shù),以一種更“整體”的方式來(lái)看待最終的預(yù)測(cè)輸出。
Dice soft loss[15]中Dice 系數(shù)源自于二分類,主要為衡量?jī)蓚€(gè)樣本的重疊占比。對(duì)于神經(jīng)網(wǎng)絡(luò)的輸出,分子與我們的預(yù)測(cè)和標(biāo)簽之間的共同激活有關(guān),而分母分別與每個(gè)掩碼中的激活數(shù)量有關(guān),這具有根據(jù)標(biāo)簽掩碼的尺寸對(duì)損失進(jìn)行歸一化的效果。Dice系數(shù)公式如式(1)所示。式(1)中,參數(shù)TP、FP 以及FN 分別表示預(yù)測(cè)正確、預(yù)測(cè)錯(cuò)誤、預(yù)測(cè)遺漏的文字?jǐn)?shù)。
為驗(yàn)證改進(jìn)后的EAST檢測(cè)算法性能優(yōu)于原算法,并可對(duì)實(shí)驗(yàn)數(shù)據(jù)可以進(jìn)行更好地分析與處理,實(shí)驗(yàn)系統(tǒng)選擇Linux 系統(tǒng)與Windows10 系統(tǒng),仿真軟件為Matlab2016a、PyCharm,計(jì)算機(jī)配置為Intel酷睿i5-9400F、內(nèi)存16G、顯卡GTX1650S。對(duì)比實(shí)驗(yàn)流程圖如圖3所示。
圖3 模型訓(xùn)練流程圖
在外高橋造船廠小組立車間和分段數(shù)字化先行車間中,無(wú)數(shù)據(jù)傳輸接口的數(shù)控設(shè)備使用的中文字體為宋體,英文字母和數(shù)字為Times New Roman。為了提高算法的泛化能力,本實(shí)驗(yàn)采用公開(kāi)的標(biāo)準(zhǔn)數(shù)據(jù)集——COCOText數(shù)據(jù)集和ICDAR2015數(shù)據(jù)集,拍攝場(chǎng)景為存在光線干擾的室外場(chǎng)景,包含中英文、阿拉伯?dāng)?shù)字等水平或傾斜的文本內(nèi)容,數(shù)據(jù)集的場(chǎng)景與船廠設(shè)備所處的工作場(chǎng)景具有較大的相似性。本實(shí)驗(yàn)采集500 張?jiān)摂?shù)控設(shè)備HMI界面(人機(jī)交互界面),進(jìn)行人機(jī)界面數(shù)據(jù)集的構(gòu)建。
為提高泛化能力,實(shí)驗(yàn)在COCOText 數(shù)據(jù)集和ICDAR2015 數(shù)據(jù)集上預(yù)訓(xùn)練,為提高模型訓(xùn)練速度,采用隨機(jī)梯度下降法進(jìn)行改進(jìn),批訓(xùn)練數(shù)量設(shè)定值為20,默認(rèn)動(dòng)量設(shè)定值為0.9,權(quán)重衰減系數(shù)設(shè)定值為0.05%,學(xué)習(xí)初始速度為0.001,每?jī)扇f(wàn)次迭代后衰減速度降為原來(lái)的1/10,直至降為0.000001為止。
本文將截取到的一張具有代表性的數(shù)控設(shè)備監(jiān)控畫面,放在不同文本檢測(cè)網(wǎng)絡(luò)下進(jìn)行測(cè)試。改進(jìn)前算法識(shí)別效果如圖4 所示,當(dāng)使用經(jīng)典EAST文本檢測(cè)網(wǎng)絡(luò)時(shí),能夠?qū)Υ蠖鄶?shù)的數(shù)據(jù)進(jìn)行識(shí)別,但由于經(jīng)典EAST 文本檢測(cè)網(wǎng)絡(luò)的自身缺陷,對(duì)長(zhǎng)文本數(shù)據(jù)信息無(wú)法識(shí)別,且會(huì)對(duì)部分文本進(jìn)行錯(cuò)誤識(shí)別,檢測(cè)得到的數(shù)據(jù)如圖6所示。
圖4 改進(jìn)前算法識(shí)別效果
改進(jìn)后算法識(shí)別效果如圖5 所示,當(dāng)使用基于ASPP網(wǎng)絡(luò)與Dice soft loss改進(jìn)后的EAST文本檢測(cè)網(wǎng)絡(luò)時(shí),不僅能夠?qū)Υ蠖鄶?shù)的數(shù)據(jù)進(jìn)行識(shí)別,而且由于更高的感受野,能夠?qū)﹂L(zhǎng)文本數(shù)據(jù)信息進(jìn)行識(shí)別,對(duì)于部分易錯(cuò)文本也可以進(jìn)行正確檢測(cè),檢測(cè)得到的數(shù)據(jù)如圖6所示。
圖5 改進(jìn)后算法識(shí)別效果
圖6 改進(jìn)前后算法識(shí)別結(jié)果
為驗(yàn)證改進(jìn)后的East 文本檢測(cè)算法能夠更好地對(duì)數(shù)控設(shè)備人機(jī)界面進(jìn)行識(shí)別,對(duì)比實(shí)驗(yàn)設(shè)置三個(gè)指標(biāo)進(jìn)行算法有效性的評(píng)估:準(zhǔn)確率(Precision)、檢出率(Recall)、F 值(F-measure)。各參數(shù)定義如式(2)所示。
使用400張數(shù)控設(shè)備人機(jī)界面對(duì)原EAST算法與結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化和損失函數(shù)優(yōu)化的EAST算法進(jìn)行訓(xùn)練,然后將訓(xùn)練好的模型在100 張數(shù)據(jù)測(cè)試集圖像進(jìn)行測(cè)試,以每張圖片中各部分檢測(cè)結(jié)果進(jìn)行權(quán)重綜合,以更準(zhǔn)確地評(píng)價(jià)算法準(zhǔn)確性。100 張測(cè)試集數(shù)據(jù)可大致分為500 個(gè)部分,算法改進(jìn)前后的運(yùn)算性能對(duì)比、檢出準(zhǔn)確率結(jié)果如表1所示。
表1 對(duì)比實(shí)驗(yàn)結(jié)果
綜合表1 所示,EAST 文本檢測(cè)算法的檢測(cè)準(zhǔn)確率在改進(jìn)后提升5.7%,檢出率上提高了約7.8%,F(xiàn)值提高了6.8%。
本文提出一種基于圖像的船舶制造設(shè)備數(shù)據(jù)采集方法,在EAST 文本檢測(cè)算法的基礎(chǔ)上,利用ASPP 網(wǎng)絡(luò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),以提升Feature Map 的感受野,增加對(duì)長(zhǎng)文本數(shù)據(jù)識(shí)別的能力,使用Dice soft loss 函數(shù)以提升文本檢測(cè)性能。對(duì)比實(shí)驗(yàn)中驗(yàn)證了改進(jìn)后的EAST文本檢測(cè)算法能夠在工業(yè)環(huán)境下對(duì)數(shù)控設(shè)備人機(jī)界面進(jìn)行文本數(shù)據(jù)的檢測(cè),具有識(shí)別率高、準(zhǔn)確率高的優(yōu)點(diǎn),為船廠中無(wú)傳輸接口的數(shù)控設(shè)備數(shù)據(jù)采集工作提供新的解決方法。