趙世達(dá) 王樹(shù)才,2 白 宇 郝廣釗 涂本帥
(1.華中農(nóng)業(yè)大學(xué)工學(xué)院, 武漢 430070; 2.農(nóng)業(yè)農(nóng)村部長(zhǎng)江中下游農(nóng)業(yè)裝備重點(diǎn)實(shí)驗(yàn)室, 武漢 430070)
羊肉是我國(guó)第四大肉類(lèi)消費(fèi)品,隨著人民飲食結(jié)構(gòu)的調(diào)整,其需求量逐年增加。據(jù)統(tǒng)計(jì),2019年我國(guó)羊肉總產(chǎn)量為488萬(wàn)t,同比增長(zhǎng)2.6%[1]。在羊肉加工過(guò)程中,羊骨架分割是獲得各食用部位的重要環(huán)節(jié),與大眾食用習(xí)慣息息相關(guān)。但是,由于缺乏智能分割設(shè)備,羊肉屠宰加工企業(yè)大多采用倒掛式半自動(dòng)加工工藝,特別是羊骨架分割作業(yè)全部依賴人工完成,存在分割效率低、作業(yè)環(huán)境惡劣等問(wèn)題,制約了我國(guó)家畜屠宰加工業(yè)的發(fā)展[2-3]。計(jì)算機(jī)視覺(jué)技術(shù)具有高效率、低成本、適應(yīng)性好及穩(wěn)定可靠的優(yōu)點(diǎn),已廣泛應(yīng)用于家畜養(yǎng)殖[4-5]、羊體尺測(cè)量[6]、肉質(zhì)分級(jí)等[7-8]領(lǐng)域。采用計(jì)算機(jī)視覺(jué)技術(shù)可以準(zhǔn)確、便捷地獲取羊骨架各部位的自然特征表達(dá),但基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)算法的有效性依賴于數(shù)據(jù)集的容量,需要海量的樣本圖像數(shù)據(jù)作為大數(shù)據(jù)驅(qū)動(dòng),才能取得較好的識(shí)別效果,這限制了其在小規(guī)模樣本任務(wù)中的使用。因此,在保證圖像語(yǔ)義信息的前提下,擴(kuò)充羊骨架圖像數(shù)據(jù)量、實(shí)現(xiàn)羊骨架圖像的實(shí)時(shí)分割,從而滿足生產(chǎn)線的實(shí)際需求,成為開(kāi)發(fā)羊體分割智能機(jī)器人的關(guān)鍵。
近年來(lái),生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN[9])為計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展提供了新方向,其基于“零和博弈”和對(duì)抗訓(xùn)練的思想設(shè)計(jì),可以有效實(shí)現(xiàn)高分辨率圖像生成[10-11]與圖像風(fēng)格遷移[12],目前已被廣泛應(yīng)用于醫(yī)學(xué)[13]、生物學(xué)[14]及農(nóng)業(yè)領(lǐng)域[15]。文獻(xiàn)[16]基于深度卷積生成對(duì)抗網(wǎng)絡(luò)對(duì)植物圖像識(shí)別方法展開(kāi)研究,為農(nóng)業(yè)圖像數(shù)據(jù)不足問(wèn)題提供了解決方案。文獻(xiàn)[17]使用GAN網(wǎng)絡(luò)生成蘑菇表型圖像,解決了蘑菇表型數(shù)據(jù)長(zhǎng)尾分布、非均衡性的問(wèn)題。文獻(xiàn)[18]基于生成對(duì)抗網(wǎng)絡(luò)的pix2pix架構(gòu)對(duì)人類(lèi)肝臟CT圖像進(jìn)行風(fēng)格遷移試驗(yàn),結(jié)果表明,仿真數(shù)據(jù)與原始數(shù)據(jù)的結(jié)構(gòu)相似性為0.997 3。對(duì)于高分辨率的圖像生成,一些學(xué)者發(fā)明了眾多新型GAN網(wǎng)絡(luò)架構(gòu),例如C-GAN[19]、SinGAN[20]、BigGAN[21]、WGAN[22]等。如果采用高分辨率圖像生成網(wǎng)絡(luò)對(duì)羊骨架圖像數(shù)據(jù)進(jìn)行模擬,生成保留原始語(yǔ)義信息的羊骨架圖像,則可以有效解決基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)方法對(duì)羊骨架圖像進(jìn)行實(shí)時(shí)語(yǔ)義分割中的樣本不足問(wèn)題。
羊骨架圖像中羊頸部、肋部、脊椎3部位識(shí)別實(shí)質(zhì)上屬于圖像語(yǔ)義分割問(wèn)題,得益于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)對(duì)圖像深、淺層特征強(qiáng)大的學(xué)習(xí)能力,研究者將卷積神經(jīng)網(wǎng)絡(luò)成功應(yīng)用于各圖像語(yǔ)義分割任務(wù)中。文獻(xiàn)[4]采用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了奶牛個(gè)體身份的無(wú)接觸精準(zhǔn)識(shí)別,視頻段識(shí)別率高達(dá)93.3%。文獻(xiàn)[23]針對(duì)群養(yǎng)模式下豬只體易粘連、難以分割的問(wèn)題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的豬只圖像分割方法。文獻(xiàn)[24]通過(guò)Faster-RCNN對(duì)羊分娩場(chǎng)景下的初生羊羔進(jìn)行了檢測(cè)。文獻(xiàn)[25]提出基于FCN哺乳母豬圖像分割算法,使豬舍背景下的哺乳豬只被快速、精準(zhǔn)分割。在羊體圖像語(yǔ)義分割方面,目前相關(guān)研究較少。文獻(xiàn)[26-27]采用U型卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了羊肋排圖像的準(zhǔn)確分割,并基于DeepLabV3+對(duì)羊骨架圖像語(yǔ)義分割展開(kāi)研究,最終取得較高的分割準(zhǔn)確率,但該方法存在單幅圖像處理耗時(shí)較長(zhǎng)的問(wèn)題。因此,考慮到羊骨架生產(chǎn)線對(duì)實(shí)時(shí)性的要求,實(shí)現(xiàn)羊骨架圖像的快速語(yǔ)義分割非常必要。
本文首先基于對(duì)抗式生成網(wǎng)絡(luò)對(duì)現(xiàn)有羊骨架圖像數(shù)據(jù)集開(kāi)展研究,生成具有完整語(yǔ)義信息的羊骨架圖像,并通過(guò)DCGAN[28]、SinGAN、BigGAN 3種網(wǎng)絡(luò)對(duì)比,優(yōu)選出最佳GAN網(wǎng)絡(luò);然后,根據(jù)生成圖像和原始圖像建立組合數(shù)據(jù)集,設(shè)置不同亮度圖像來(lái)模擬不同光照下的羊骨架圖像,建立附加測(cè)試集;利用ICNet[29]網(wǎng)絡(luò)分割羊骨架圖像,獲取羊頸部、肋部、脊椎3部位的分割精度、MIoU和單幅圖像處理時(shí)間,與4種傳統(tǒng)語(yǔ)義分割方法進(jìn)行對(duì)比試驗(yàn),并優(yōu)化中分辨率分支權(quán)重,以期提高ICNet對(duì)羊骨架圖像語(yǔ)義分割精度。
試驗(yàn)樣本選用經(jīng)扯皮后去除頭部、腿部、腹部的成年波爾山羊,樣本圖像采集于內(nèi)蒙古自治區(qū)美洋洋食品股份有限公司的羊胴體分割生產(chǎn)線。選用華谷動(dòng)力科技公司生產(chǎn)的WP-UC600型CCD相機(jī),搭配Z4S-LE-SV-1214H型歐姆龍鏡頭,設(shè)置相機(jī)距地面1.4 m,距懸掛狀態(tài)的羊胴體樣本0.8 m拍攝圖像,無(wú)特定背景與光源。為擴(kuò)大樣本之間的差異性,以保證后期模型訓(xùn)練的泛化能力,隨機(jī)采集6批次羊胴體,每批次包含200個(gè)樣本,共1 200幅尺寸為3 024像素×4 032像素羊胴體圖像。采集裝置示意圖如圖1所示。
1.2.1生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)是由GOODFELLOW等[30]于2014年基于零和博弈論提出的一種無(wú)監(jiān)督學(xué)習(xí)算法框。GAN網(wǎng)絡(luò)一般由生成器和判別器兩部分組成,生成器盡可能學(xué)習(xí)真實(shí)樣本的數(shù)據(jù)分布,從而生成與真實(shí)數(shù)據(jù)逐漸相似的數(shù)據(jù)。判別器用以判定輸入數(shù)據(jù)是否為真實(shí)數(shù)據(jù),其輸出一般是概率值,如概率值越大則表征輸入數(shù)據(jù)是真實(shí)數(shù)據(jù)的可能性越大,反之即為生成數(shù)據(jù)。GAN網(wǎng)絡(luò)在訓(xùn)練過(guò)程中,生成器通過(guò)判別器的反饋機(jī)制不斷更新參數(shù),使得生成數(shù)據(jù)愈發(fā)服從真實(shí)數(shù)據(jù)分布,達(dá)到“欺騙”判別器的目的,而判別器也基于判斷結(jié)果不斷優(yōu)化,提升區(qū)分生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的能力。二者如此反復(fù)對(duì)抗,當(dāng)判別器無(wú)法判斷輸入數(shù)據(jù)為生成數(shù)據(jù)或真實(shí)數(shù)據(jù)時(shí),則認(rèn)為GAN網(wǎng)絡(luò)達(dá)到“納什均衡”[31]狀態(tài),模型訓(xùn)練達(dá)到最優(yōu)。
GAN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。隨機(jī)噪聲(z)一般為高斯變量,且生成器G對(duì)其維度沒(méi)有限制。隨機(jī)噪聲輸入生成器后,生成器生成數(shù)據(jù)G(z)(生成圖像),進(jìn)而輸入至判別器D,另外為保證生成器能夠依據(jù)來(lái)源于判別器D的反饋誤差進(jìn)行參數(shù)更新,生成器必須可微。最后判別器D對(duì)真實(shí)數(shù)據(jù)(x,真實(shí)圖像)與生成數(shù)據(jù)G(z)做真假判定,并將誤差傳遞至生成器,生成器再根據(jù)誤差調(diào)整參數(shù),目的在于使新生成“假”數(shù)據(jù)能夠被判別器判定為“真”,同時(shí),判別器根據(jù)判定結(jié)果更新自身參數(shù)以提高判別數(shù)據(jù)“真、假”的能力。
GAN網(wǎng)絡(luò)不斷優(yōu)化生成器與判別器的實(shí)質(zhì)是將生成器極小化,判別器極大化,其目標(biāo)函數(shù)為
min(G)max(D)V(D,G)=Ex-Pdata(x)[lgD(x)]+
EZ~PZ(Z)[lg(1-D(G(Z)))]
(1)
式中,D(x)表示當(dāng)判別器的輸入數(shù)據(jù)為真實(shí)數(shù)據(jù)時(shí),得到判斷結(jié)果為“真”的概率;D(G(Z))表示當(dāng)輸入數(shù)據(jù)為生成數(shù)據(jù)G(Z)時(shí),判別器判定為真實(shí)數(shù)據(jù)的概率;Pdata(x)表示真實(shí)數(shù)據(jù)分布;PZ(Z)表示生成數(shù)據(jù)分布;E為期望值;生成器目的在于使生成數(shù)據(jù)無(wú)限接近真實(shí)數(shù)據(jù),即D(G(Z))趨近于1,相應(yīng)地,V(D,G)減?。慌袆e器使D(x)趨近于1,而D(G(Z))趨近于0,V(D,G)增大;max(D)V(D,G)表示判別器目標(biāo)函數(shù),使判別器預(yù)測(cè)概率的負(fù)對(duì)數(shù)期望取極大值;min(G)max(D)V(D,G)為生成器優(yōu)化函數(shù),使判別器的極大值最小化。
1.2.2羊骨架圖像生成網(wǎng)絡(luò)
圖像中目標(biāo)的自然特征表達(dá)與圖像分辨率息息相關(guān),高分辨率圖像較低分辨圖像能夠保留更全面的特征信息,且原始GAN網(wǎng)絡(luò)存在生成樣本缺乏多樣性、模型訓(xùn)練容易塌陷、生成圖像品質(zhì)差等缺點(diǎn),因此,考慮到上述問(wèn)題及羊骨架不同部位特征的差異性,采用生成高分辨圖像對(duì)抗網(wǎng)絡(luò)很有必要。本研究首先將原始圖像分辨率設(shè)定為512像素×512像素建立數(shù)據(jù)集,然后選用DCGAN、SinGAN、BigGAN 3種生成對(duì)抗網(wǎng)絡(luò)生成羊骨架圖像。
DCGAN將卷積神經(jīng)網(wǎng)絡(luò)與GAN相結(jié)合,以提高生成圖像質(zhì)量及生成樣本多樣性。DCGAN生成器G包含3個(gè)反卷積層(Deconvolution)和3個(gè)卷積層(Convolution),判別器D包含4個(gè)卷積層及1個(gè)全連接層。DCGAN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
首先,尺寸為64×64×128的隨機(jī)噪聲矩陣輸入反卷積層;然后,輸出尺寸為128×128×128的特征張量至卷積層,卷積核尺寸為3×3,經(jīng)批標(biāo)準(zhǔn)化(Batch normalization)和ReLU線性整流函數(shù)運(yùn)算后輸入下一層;最終,通過(guò)最后一層卷積操作經(jīng)Tanh激活函數(shù)得到尺寸為512×512×3的羊骨架生成圖像。判別器的輸入為生成圖像和原始圖像,目的在于對(duì)圖像的“真/假”進(jìn)行判斷。輸入圖像經(jīng)過(guò)4層卷積運(yùn)算,卷積核尺寸為5×5,經(jīng)標(biāo)準(zhǔn)化和LeakyReLU激活函數(shù)后輸出至全連接層,最后全連接層經(jīng)Sigmoid函數(shù)輸出“1/0”。ReLU、Tanh和LeakyReLU激活函數(shù)表達(dá)式參照文獻(xiàn)[15]。
BigGAN網(wǎng)絡(luò)于2019年提出,其通過(guò)擴(kuò)大批尺寸(Batchsize)及增加網(wǎng)絡(luò)參數(shù)量提升模型性能,并基于正交正則化與截?cái)嗉记捎行У靥嵘松蓤D像質(zhì)量及樣本多樣性,具備生成高像素、高品質(zhì)圖像的優(yōu)點(diǎn)。本研究基于羊骨架圖像數(shù)據(jù)集,通過(guò)調(diào)小BigGAN網(wǎng)絡(luò)的Batchsize和生成器G、判別器D學(xué)習(xí)率,使其能夠部署在普通圖形處理工作站上。
本研究根據(jù)以上3種羊骨架圖像生成對(duì)抗網(wǎng)絡(luò)的生成圖像品質(zhì)對(duì)比分析結(jié)果,獲取最優(yōu)生成網(wǎng)絡(luò)。
目前,應(yīng)用于圖像語(yǔ)義分割的深度學(xué)習(xí)模型多種多樣,例如DeepLabV3、PSPNet、U-Net、SegNet、FCN等,上述模型在針對(duì)Imagenet數(shù)據(jù)集圖像分割大賽中均取得較高的準(zhǔn)確率,但是分割耗時(shí)較長(zhǎng),不能保證實(shí)時(shí)性。因此,輕量級(jí)語(yǔ)義分割模型ENet應(yīng)運(yùn)而生,但ENet保證實(shí)時(shí)性的同時(shí)放棄了一定的準(zhǔn)確率,分割精度較低。文獻(xiàn)[29]提出一種實(shí)時(shí)圖像語(yǔ)義分割模型ICNet,使模型兼顧實(shí)時(shí)性的同時(shí)保證了準(zhǔn)確率。ICNet使用PSPNet的金字塔池化模塊融合多尺度上下文信息,并將網(wǎng)絡(luò)結(jié)構(gòu)劃分為3個(gè)分支,分別為低分辨率、中分辨率和高分辨率,如圖5所示。其中低分辨率分支將中分辨率輸出的原圖尺寸1/16的特征圖進(jìn)一步縮放至1/32,之后采用空洞卷積擴(kuò)大感受野,最終以原圖尺寸1/32輸出特征圖,并且與中分辨率分支共享卷積參數(shù)與權(quán)重;中分辨率分支以原圖1/2的分辨率作為輸入,經(jīng)卷積層后得到原圖尺寸1/16的特征圖,與低分辨率的輸出特征圖以CFF單元融合得到最終輸出;高分辨率分支以原圖作為輸入,經(jīng)卷積層后得到原圖尺寸1/8的特征圖,再通過(guò)CFF單元與中分辨率的輸出特征圖融合,經(jīng)多倍上采樣后將特征圖擴(kuò)充至原圖尺寸。ICNet利用低分辨率完成語(yǔ)義分割,高分辨率細(xì)化分割結(jié)果的策略提高了模型分割精度,此外,其采用的級(jí)聯(lián)標(biāo)簽指導(dǎo)各分支的訓(xùn)練,加快了模型收斂與預(yù)測(cè)速度,提升了實(shí)時(shí)性。
ICNet在每個(gè)分支訓(xùn)練中添加了損失權(quán)重,并對(duì)加權(quán)的Softmax交叉熵進(jìn)行優(yōu)化,其損失函數(shù)L可表示為
L=λ1L1+λ2L2+λ3L3
(2)
式中λ1、λ2、λ3——低、中、高分辨分支權(quán)重
L1、L2、L3——低、中、高分辨分支損失
通常情況下,如果高分辨率分支權(quán)重λ3設(shè)置為1,則中分辨率和低分辨率分支的權(quán)重λ2與λ1分別為0.4和0.16。
為量化分析ICNet模型針對(duì)羊胴體圖像數(shù)據(jù)集語(yǔ)義分割的性能,本文引入圖像語(yǔ)義分割任務(wù)中常用的像素精度PA(Pixel accuracy)和平均交并比MIoU(Mean intersection over union)作為模型分割性能的判斷標(biāo)準(zhǔn),將模型的分割結(jié)果與人工標(biāo)注圖像(真實(shí)標(biāo)簽)進(jìn)行對(duì)比分析。PA與MIoU計(jì)算式為
(3)
式中PA——像素精度
N——語(yǔ)義類(lèi)別數(shù),取4
nii——i類(lèi)語(yǔ)義的真實(shí)像素?cái)?shù)量
nij——i類(lèi)語(yǔ)義被識(shí)別為j類(lèi)的像素?cái)?shù)量
(4)
式中MIoU——平均交并比
nji——j類(lèi)語(yǔ)義被識(shí)別為i類(lèi)的像素?cái)?shù)量
上述度量標(biāo)準(zhǔn)中MIoU與模型的分割效果成正相關(guān),因其簡(jiǎn)潔、代表性強(qiáng),常作為圖像語(yǔ)義分割模型性能評(píng)估的主要依據(jù)。
基于生成對(duì)抗網(wǎng)絡(luò)及ICNet的羊骨架圖像實(shí)時(shí)分割主要由3個(gè)步驟組成:①采集羊骨架圖像,并歸一化,建立羊骨架圖像原始數(shù)據(jù)集。②基于生成對(duì)抗網(wǎng)絡(luò)的羊骨架圖像生成,獲取最優(yōu)模型。③針對(duì)“亮”、“暗”圖像判斷ICNet泛化能力;基于ICNet的羊骨架圖像實(shí)時(shí)分割,并進(jìn)行對(duì)比分析,最后進(jìn)行ICNet優(yōu)化。具體流程如圖6所示。
本文試驗(yàn)均基于Pytorch深度學(xué)習(xí)框架在DELL T5810型塔式圖形處理工作站上完成,硬件環(huán)境為Intel@core64至強(qiáng)W-2145 CPU 3.70 GHz, RAM為64 GB,GPU為NVIDIA P4000-8GB,計(jì)算機(jī)系統(tǒng)為Windows 10專(zhuān)業(yè)版。
2.2.1數(shù)據(jù)集
由于采集到的羊骨架圖像分辨率較高,所占內(nèi)存較大,如果直接作為后續(xù)模型訓(xùn)練的輸入會(huì)顯著增大模型的計(jì)算節(jié)點(diǎn)數(shù),造成計(jì)算溢出,計(jì)算機(jī)無(wú)法承擔(dān)模型訓(xùn)練任務(wù)。因此,將原始羊骨架圖像以比例不變性原則縮放至512像素×512像素,經(jīng)人工篩選,去除失真圖像和增大目標(biāo)與背景的對(duì)比度,最后選擇1 000幅羊骨架圖像作為原始數(shù)據(jù)集。數(shù)據(jù)集示例如圖7所示。
2.2.2生成對(duì)抗網(wǎng)絡(luò)模型訓(xùn)練
生成對(duì)抗網(wǎng)絡(luò)模型訓(xùn)練的實(shí)質(zhì)在于以生成器G和判別器D反復(fù)對(duì)抗的方式更新網(wǎng)絡(luò)參數(shù),利用反向傳播降低生成器和判別器的損失函數(shù)G_loss與D_loss,使得生成圖像接近原始圖像的數(shù)據(jù)分布。
本文基于羊骨架圖像原始數(shù)據(jù)集訓(xùn)練DCGAN與BigGAN,隨機(jī)選取原始數(shù)據(jù)集的某單幅圖像訓(xùn)練SinGAN。上述3種網(wǎng)絡(luò)訓(xùn)練超參數(shù)設(shè)置如表1所示。
表1 3種網(wǎng)絡(luò)超參數(shù)設(shè)置Tab.1 Hyperparameter settings of three network
2.2.3羊骨架圖像生成結(jié)果與分析
圖8為DCGAN、SinGAN、BigGAN生成對(duì)抗網(wǎng)絡(luò)針對(duì)羊骨架圖像原始數(shù)據(jù)集訓(xùn)練過(guò)程中G_loss與D_loss隨迭代次數(shù)的變化趨勢(shì)。由圖8a、8b可以看出,DCGAN網(wǎng)絡(luò)在訓(xùn)練初期G_loss隨迭代次數(shù)迅速降低,當(dāng)?shù)? 000至17 400次時(shí)達(dá)到最低,隨后振蕩緩慢上升;其D_loss隨迭代次數(shù)變化趨勢(shì)與G_loss相似,在迭代初期迅速降低,然后振蕩緩慢下降。SinGAN網(wǎng)絡(luò)G_loss、D_loss變化情況如圖8c、8d所示,G_loss在迭代初期迅速下降,之后于迭代6 000次左右顯著上升隨即快速下降,然后緩慢降低最終平滑;D_loss呈現(xiàn)出大幅振蕩狀態(tài),但總體小于G_loss。如圖8e、8f所示,BigGAN網(wǎng)絡(luò)G_loss在訓(xùn)練開(kāi)始階段以較大的幅值波動(dòng),然后趨于平穩(wěn),當(dāng)?shù)?5 600次附近時(shí),迅速上升和下降,最終趨于穩(wěn)定;D_loss變化趨勢(shì)與DCGAN網(wǎng)絡(luò)相似,都隨訓(xùn)練進(jìn)度以小幅振蕩形勢(shì)緩慢降低。通過(guò)3種網(wǎng)絡(luò)G_loss和D_loss的對(duì)比變化情況可以得出,針對(duì)羊骨架圖像數(shù)據(jù)集生成圖像,判別器較生成器均能以少量?jī)?yōu)勢(shì)取勝。
本文設(shè)置模型訓(xùn)練過(guò)程中每迭代200次生成一批羊骨架圖像數(shù)據(jù),3種網(wǎng)絡(luò)不同迭代次數(shù)生成的羊骨架圖像如圖9所示。
由圖9可以看出,DCGAN網(wǎng)絡(luò)在迭代13 400次時(shí),生成的羊骨架圖像依據(jù)圖像上下文信息,已經(jīng)可以區(qū)分羊頸部、肋部和脊椎3部位,但特征細(xì)節(jié)與真實(shí)圖像存在差距,其最終生成圖像圖9d品質(zhì)優(yōu)于圖9c;SinGAN網(wǎng)絡(luò)生成圖像與真實(shí)圖像相比特征差異明顯,且出現(xiàn)失真情況,表明在本試驗(yàn)環(huán)境下,SinGAN網(wǎng)絡(luò)不適用于羊骨架圖像生成任務(wù);如圖9l所示,隨迭代次數(shù)的增加,BigGAN網(wǎng)絡(luò)最終生成的羊骨架圖像中羊頸部、肋部、脊椎3部位語(yǔ)義信息保存完整,其顏色、紋理、輪廓特征明顯,并且較圖9d更為接近真實(shí)圖像,表明針對(duì)本試驗(yàn)中羊骨架圖像數(shù)據(jù)集,BigGAN網(wǎng)絡(luò)生成羊骨架圖像性能優(yōu)于DCGAN,因此選用BigGAN作為最終的羊骨架圖像生成網(wǎng)絡(luò)。
2.3.1圖像標(biāo)注與數(shù)據(jù)集建立
本文羊骨架圖像實(shí)時(shí)語(yǔ)義分割模型訓(xùn)練屬于有監(jiān)督學(xué)習(xí)。采集的羊骨架圖像不包含標(biāo)簽及語(yǔ)義信息,需要人工進(jìn)行圖像標(biāo)注,才能滿足模型訓(xùn)練要求。基于BigGAN網(wǎng)絡(luò)生成的圖像與歸一化后的原始圖像組成羊骨架圖像組合數(shù)據(jù)集,其中,訓(xùn)練集6 000幅,測(cè)試集1 500幅,驗(yàn)證集200幅。另外,為驗(yàn)證ICNet網(wǎng)絡(luò)泛化能力,隨機(jī)選取100幅同一節(jié)能燈光源條件下的羊骨架圖像,并將其RGB色彩空間轉(zhuǎn)換為HSV,設(shè)置1.5倍和0.8倍兩種亮度水平以模擬不同光照強(qiáng)度,最后再將“亮”、“暗”圖像的色彩空間轉(zhuǎn)換回RGB,建立不同亮度的羊骨架圖像附加測(cè)試集共計(jì)200幅,其中調(diào)亮、調(diào)暗圖像各100幅。之后2種數(shù)據(jù)集均采用Labelme圖像標(biāo)注工具,參考Cityscapes數(shù)據(jù)集格式對(duì)羊頸部、肋部、脊椎3部位進(jìn)行人工標(biāo)注。
2.3.2基于遷移學(xué)習(xí)的ICNet模型訓(xùn)練
遷移學(xué)習(xí)能夠保證模型在面對(duì)小樣本數(shù)據(jù)集時(shí)抑制過(guò)擬合現(xiàn)象,同時(shí)還可以加快模型收斂,提高泛化能力。因此,本文在ICNet模型訓(xùn)練過(guò)程中加載了基于Cityscapes數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重。采用Adam(Adaptive moment estimation)優(yōu)化器進(jìn)行梯度下降,設(shè)置初始學(xué)習(xí)率為0.001, Batchsize為4,迭代次數(shù)為20 000。另外,設(shè)定模型在訓(xùn)練過(guò)程中自動(dòng)保存最優(yōu)模型,并將其作為羊骨架圖像語(yǔ)義分割的最終輸入模型。ICNet網(wǎng)絡(luò)損失函數(shù)值隨迭代次數(shù)的變化趨勢(shì)如圖10所示。由圖10可知,損失值在訓(xùn)練初期迅速下降,當(dāng)?shù)螖?shù)為2 000左右時(shí)開(kāi)始小幅度振蕩緩慢下降,直至迭代次數(shù)為16 000次后損失值基本收斂于0.032。
2.3.3ICNet對(duì)組合驗(yàn)證集的分割與結(jié)果分析
基于訓(xùn)練最優(yōu)的ICNet模型展開(kāi)測(cè)試,針對(duì)驗(yàn)證集獲取羊體3部位的MIoU及準(zhǔn)確率,以及模型的總體分割準(zhǔn)確率和總體MIoU。另外,為了判斷模型是否具備良好的實(shí)時(shí)性,分別記錄模型處理單幅圖像時(shí)間,并求其均值。ICNet針對(duì)羊骨架圖像中脊椎、肋部、頸部3部位語(yǔ)義分割的準(zhǔn)確率、MIoU及單幅圖像平均處理時(shí)間如表2所示,部分分割結(jié)果如圖11所示。
表2 基于ICNet的羊骨架圖像分割結(jié)果Tab.2 Segmentation results of sheep skeleton image based on ICNet
根據(jù)圖11和表2可知,羊骨架圖像中羊頸部、肋部、脊椎3部位被準(zhǔn)確分割,各部位區(qū)分明顯,同時(shí)過(guò)分割與欠分割現(xiàn)象并不顯著。特別是特征復(fù)雜的羊脊椎邊緣識(shí)別明顯,這可能是ICNet的低分辨率分支卷積層數(shù)更深,多層的卷積運(yùn)算保證了細(xì)節(jié)抽象特征的提取。另外,圖像背景中與羊骨架肋部顏色特征相似的羊骨架目標(biāo),并未對(duì)ICNet的分割結(jié)果造成干擾,其原因可能為僅去頭、凈膛后的羊胴體均保留了羊體四肢與帶皮頸部,且未呈現(xiàn)脊椎,因此在尺寸、外形輪廓、區(qū)域紋理上與羊骨架特征存在明顯差異。同時(shí),ICNet的多次上采樣特征融合也有利于提高模型的識(shí)別精度和降低過(guò)分割。最終針對(duì)組合數(shù)據(jù)集的驗(yàn)證集,ICNet模型總體準(zhǔn)確率與總體MIoU分別達(dá)到97.36%、88.10%,單幅圖像平均處理時(shí)間為87 ms,表明ICNet能夠?qū)崿F(xiàn)羊骨架圖像的準(zhǔn)確語(yǔ)義分割,同時(shí)具備一定的實(shí)時(shí)性。
2.3.4不同亮度下羊骨架圖像語(yǔ)義分割結(jié)果
將基于組合圖像數(shù)據(jù)集訓(xùn)練得到的最優(yōu)ICNet模型針對(duì)不同亮度的羊骨架圖像附加測(cè)試集展開(kāi)泛化能力試驗(yàn),其中部分分割結(jié)果如圖12所示。
根據(jù)圖12分割結(jié)果可以看出,羊骨架在“亮”、“暗”2種光照強(qiáng)度情況下,ICNet仍然可以實(shí)現(xiàn)其圖像中3部位的準(zhǔn)確分割,且脊椎-肋部、肋部-羊頸部黏連區(qū)域邊緣區(qū)分明顯,區(qū)域完整,輪廓清晰。最終,對(duì)羊骨架圖像附加測(cè)試集中羊頸部、肋部、脊椎的分割精度與MIoU分別達(dá)到92.53%、82.86%,94.37%、84.99%,89.06%、73.95%,說(shuō)明ICNet能夠以較高的精度克服因光源強(qiáng)度不同帶來(lái)的識(shí)別干擾,具備較強(qiáng)的泛化能力。
2.3.5與其他分割算法對(duì)比試驗(yàn)
目前,隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,用于圖像語(yǔ)義分割的深度學(xué)習(xí)方法越來(lái)越多,但是,面對(duì)不同任務(wù)、不同方法的分割性能表現(xiàn)差異明顯。為進(jìn)一步測(cè)試本文羊骨架圖像實(shí)時(shí)語(yǔ)義分割方法的優(yōu)劣性,引入目前圖像語(yǔ)義分割任務(wù)中常用的U-Net、DeepLabV3、PSPNet和Fast-SCNN 4種圖像語(yǔ)義分割模型與ICNet進(jìn)行對(duì)比試驗(yàn)。上述4種模型的訓(xùn)練參數(shù)與ICNet相同,均基于自動(dòng)保存最優(yōu)模型的策略進(jìn)行訓(xùn)練,之后針對(duì)驗(yàn)證集展開(kāi)測(cè)試。部分分割結(jié)果如圖13所示,圖中從上至下依次為樣本1~4。
由圖13可知,U-Net、DeepLabV3、ICNet、PSPNet均可以實(shí)現(xiàn)4個(gè)羊骨架樣本圖像中頸部、肋部、脊椎3部位的準(zhǔn)確分割,并且各部位邊緣平滑,細(xì)節(jié)特征明顯,能夠滿足實(shí)際生產(chǎn)中對(duì)切割精度的要求。但Fast-SCNN針對(duì)樣本1和樣本3的圖像處理中出現(xiàn)過(guò)分割與欠分割現(xiàn)象,主要表現(xiàn)為將背景與肋部錯(cuò)誤地分割為頸部區(qū)域,其原因可能是Fast-SCNN網(wǎng)絡(luò)深度較淺,同時(shí)采用淺層學(xué)習(xí)下采樣模塊用于多分支低層特征的提取,在羊骨架圖像數(shù)據(jù)規(guī)模有限的情況下,難以提取圖像中的深層抽象特征用于網(wǎng)絡(luò)學(xué)習(xí),從而不利于后期的特征定位。而U-Net、DeepLabV3、PSPNet網(wǎng)絡(luò)深度較深,都采用編碼—解碼結(jié)構(gòu),使得模型不僅可以提取更豐富的語(yǔ)義特征,還可以更好地恢復(fù)物體的邊緣信息。另外,DeepLabV3的空洞空間卷積池化金字塔結(jié)構(gòu)及ICNet和PSPNet的金字塔池化模塊使得模型具備獲取更多上下文信息及多尺度特征的能力,保證了分割準(zhǔn)確率。U-Net、DeepLabV3、PSPNet、Fast-SCNN 4種模型總體準(zhǔn)確率、MIoU及單幅圖像平均處理時(shí)間如表3所示。
由表2與表3可知,基于U-Net的羊骨架圖像語(yǔ)義分割模型分割準(zhǔn)確率與MIoU最高,達(dá)到97.68%與88.56%,較DeepLabV3、ICNet、PSPNet、Fast-SCNN僅高0.11、0.22個(gè)百分點(diǎn),0.32、0.46個(gè)百分點(diǎn),0.65、0.71個(gè)百分點(diǎn),1.22、4.96個(gè)百分點(diǎn),說(shuō)明5種模型在分割精度方面相差不大,綜合圖13的可視化分割結(jié)果,F(xiàn)ast-SCNN存在部分欠分割與過(guò)分割現(xiàn)象,因此只有U-Net、DeepLabV3、ICNet、PSPNet 4種模型可以滿足羊骨架圖像分割精度的要求。在分割實(shí)時(shí)性方面,U-Net、DeepLabV3、ICNet、PSPNet單幅圖像耗時(shí)分別為322、147、87、781 ms,ICNet用時(shí)最短,較U-Net、DeepLabV3、PSPNet分別縮短72.98%、40.82%、88.86%,說(shuō)明ICNet可以兼顧較高的分割準(zhǔn)確率和良好的實(shí)時(shí)性,能夠滿足羊骨架切割生產(chǎn)線的實(shí)際需求。
表3 4種模型分割結(jié)果Tab.3 Segmentation results of four segmentation models
由于羊骨架頸部、肋部、脊椎3部位的特征差異,判斷模型針對(duì)各部分的分割效果同樣重要,本文獲取了U-Net、DeepLabV3、ICNet、PSPNet、Fast-SCNN分別對(duì)羊骨架頸部、肋部、脊椎部位的分割精度與MIoU,如圖14、15所示。
由圖14、15可以看出,ICNet針對(duì)羊骨架3部位的分割準(zhǔn)確率與MIoU均優(yōu)于PSPNet和Fast-SCNN,且與U-Net和DeepLabV3相差不大。最終,ICNet對(duì)羊骨架圖像中羊頸部、肋部、脊椎分割精度為93.68%、96.37%、87.74%,MIoU為85.85%、90.64%、75.77%,能夠滿足生產(chǎn)線對(duì)羊體各部位分割精度的要求。另外,試驗(yàn)結(jié)果表明,ICNet對(duì)圖像中羊頸部的分割能力較弱,其原因可能為羊頸部和羊肋部存在黏連,且黏連區(qū)域特征與頸部區(qū)域特征非常相似,但黏連區(qū)域?qū)儆谘蚶卟?,這種局部連接且特征明顯相同的情況影響了模型對(duì)羊頸部區(qū)域的準(zhǔn)確分割。
2.3.6ICNet優(yōu)化對(duì)比試驗(yàn)
綜合表2、3與圖14可知,ICNet分割精度比U-Net、DeepLabV3低0.32、0.21個(gè)百分點(diǎn),且在脊椎部分分割效果相對(duì)較差。其原因可能是脊椎由等距相間的椎骨組成,表型復(fù)雜,特征多樣,只有較高分辨率特征圖才能盡可能保留該特征用于網(wǎng)絡(luò)學(xué)習(xí),而ICNet默認(rèn)其高、中、低分辨率3分支權(quán)重分別為1、0.4和0.16,在羊骨架圖像語(yǔ)義分割任務(wù)中,該中分辨率分支權(quán)重較低,因此,通過(guò)調(diào)大中分辨率分支權(quán)重進(jìn)行ICNet優(yōu)化試驗(yàn)。過(guò)高的中分辨率權(quán)重可能會(huì)降低網(wǎng)絡(luò)對(duì)高分辨率特征的敏感度,因而以0.01間隔擴(kuò)大中分辨率權(quán)重至0.46,共計(jì)6組對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表4所示。
表4 ICNet優(yōu)化對(duì)比試驗(yàn)Tab.4 Optimizing ICNet comparative test
由表4可知,當(dāng)中分辨率分支權(quán)重為0.42時(shí),針對(duì)組合數(shù)據(jù)集ICNet的分割精度與分割脊椎部分的MIoU最高,達(dá)到97.62%和79.97%。另外,原U-Net、DeepLabV3、ICNet對(duì)脊椎部分的MIoU為80.67%、79.93%、75.77%,經(jīng)對(duì)比,優(yōu)化后的ICNet像素精度和脊椎分割MIoU與U-Net之間的差距分別縮小81.25%、85.71%,比DeepLabV3和原ICNet提高0.05、0.04個(gè)百分點(diǎn),0.26、4.2個(gè)百分點(diǎn)。除此之外,隨著權(quán)值的不斷增大,網(wǎng)絡(luò)精度顯著下降,說(shuō)明在本試驗(yàn)任務(wù)中,保持高、低分辨率分支權(quán)重不變情況下,設(shè)置中分辨率分支權(quán)重為0.42時(shí),針對(duì)羊骨架組合數(shù)據(jù)集ICNet分割效果能夠達(dá)到最優(yōu)。
(1)采用BigGAN網(wǎng)絡(luò)生成的羊骨架圖像能夠有效保留羊頸部、肋部、脊椎3部位的語(yǔ)義信息,與原始圖像最為接近,優(yōu)于DCGAN與SinGAN,能夠滿足基于計(jì)算機(jī)視覺(jué)技術(shù)的羊骨架圖像分割數(shù)據(jù)集要求。
(2)針對(duì)組合數(shù)據(jù)集,ICNet對(duì)羊骨架脊椎、肋部、頸部3部位的分割精度、MIoU分別為93.68%、96.37%、89.77%和85.85%、90.64%、75.77%,單幅圖像處理時(shí)間達(dá)到87 ms。對(duì)于不同亮度下羊骨架圖像附加測(cè)試集, ICNet依然能夠?qū)崿F(xiàn)羊頸部、肋部、脊椎的準(zhǔn)確分割,說(shuō)明本文方法在羊骨架圖像語(yǔ)義分割任務(wù)中具有較高的分割精度、良好的實(shí)時(shí)性和一定的泛化能力。
(3)與U-Net、DeepLabV3、PSPNet、Fast-SCNN相比,ICNet較前3種方法分割精度相差不大,但單幅圖像處理時(shí)間分別縮短了72.98%、40.82%、88.86%,雖然Fast-SCNN單幅圖像處理時(shí)間縮短至49 ms,但MIoU較ICNet下降了4.5個(gè)百分點(diǎn),說(shuō)明本文方法綜合分割能力較優(yōu)。另外,在本試驗(yàn)環(huán)境中,微調(diào)ICNet中分辨率分支權(quán)重為0.42,能夠?qū)⒎指罹容^原ICNet提高0.26個(gè)百分點(diǎn)。