王龍寶,張珞弦,張 帥,徐 亮,曾 昕,徐淑芳
(1.河海大學 計算機與信息學院,南京 210000;2.河海大學 水利部水利大數(shù)據(jù)技術重點實驗室,南京 210000;3.中國電建集團 昆明勘測設計研究院有限公司,昆明 650000;4.長江生態(tài)環(huán)保集團有限公司,武漢 430061)
在過去的30年里,圖像語義分割是計算機視覺中的關鍵任務之一,現(xiàn)實生活中也有越來越多的應用場景需要從影像中推理出相關的知識或語義。圖像語義分割是在像素級別上的分類,屬于同一類的像素都將被歸為一類,即將圖像中的所有像素劃分為有意義的對象類,因此圖像語義分割是從像素級別來理解圖像的。圖像語義分割與實例分割不同,語義分割不會將同一類的實例進行區(qū)分,只關注每個像素的類別,如果輸入的對象中有兩個具有相同類別的對象,那么語義分割不將其劃分為單獨的對象,而實例分割是需要對對象個體進行區(qū)分的,即實例分割對同一類的不同對象也會進行分割。
由于圖像語義分割技術有助于理解圖像中的具體內(nèi)容,并且能夠幫助人們確定物體之間的關系,因此圖像分割的應用對于各種領域的發(fā)展都有所幫助[1-5],比如自動駕駛、衛(wèi)星圖像分析、人臉識別、醫(yī)學影像診斷等。具體而言,結(jié)合圖像語義分割使得機器可以智能地對醫(yī)療影像進行分析,大大減少了運行診斷測試所需的時間的同時也很大程度的降低了醫(yī)生的工作負擔。此外,在自動駕駛過程中利用圖像語義分割技術實時分割道路場景,使得自動駕駛汽車有環(huán)境感知的能力,以便自動駕駛車輛可以在道路上進行安全行駛。
當前,圖像語義分割方法分為傳統(tǒng)圖像語義分割方法和基于深度學習的圖像語義分割方法。
傳統(tǒng)的圖像語義分割算法通常是基于聚類方法,并且往往還需要利用額外的輪廓、邊緣等信息進行輔助分析[1,6]。假定同一區(qū)域內(nèi)的像素點為同一類別,利用已有的聚類方法,將這些像素點聚類即可實現(xiàn)圖像的分割。近年來,各研究者對基于聚類圖像分割的技術進行了許多改進和發(fā)展,其中最著名、最重要的技術之一是使用馬爾可夫過程進行建模。除此方法外,文獻[7]將邊緣提取、圖像分割以及層次分析法結(jié)合起來。文獻[8]對SAR影像無監(jiān)督學習范圍的擴大進行了研究。盡管傳統(tǒng)的圖像語義分割方法能夠?qū)崿F(xiàn)對圖像的分割,并且對許多領域的發(fā)展都有一定的促進作用,但是,它僅僅是通過提取圖片的低級特征信息來進行分割,并沒有將圖像的語義信息納入到其中,所以,傳統(tǒng)的圖像語義分割方法的圖像分割效果非常有限[9]。
與傳統(tǒng)方法相比,基于深度學習的圖像語義分割方法顯著提高了分割效果,且從分割結(jié)果可以直接清楚的知道分割出來的具體是什么物體?;谏疃葘W習的圖像語義分割算法,可以有效地克服大部分傳統(tǒng)的圖像語義分割算法中所忽視的目標邊緣問題,并且對椒鹽噪聲也具有魯棒性[10-11]。深度學習[12-13]在計算機視覺中被廣泛使用,通過增加模型的深度可以提高算法的性能和準確性,利用深度學習可以快速地從非常大的數(shù)據(jù)集中提取圖像特征。
卷積神經(jīng)網(wǎng)絡(CNN,convolutional neural network)[14-15]是一種人工神經(jīng)網(wǎng)絡,其可以類似人一樣具有簡單的決定能力和簡單的判斷能力,在圖像和語音識別方面可以給出更好的結(jié)果,在圖像識別領域也被廣泛應用。CNN的結(jié)構(gòu)可以分為三層,分別是卷積層、池化層和全連接層。卷積層的主要作用是進行特征提取以及特征映射;池化層進行下采樣以降低空間分辨率和訓練參數(shù);全連接層就是一個完全連接的神經(jīng)網(wǎng)絡,通常在CNN尾部對卷積層以及池化層得出的特征進行重新擬合,通過調(diào)整權(quán)重和網(wǎng)絡連接得到分類的結(jié)果,減少特征信息損失。CNN本質(zhì)上是多層感知器,成功的關鍵在于其網(wǎng)絡連接和共享權(quán)重的方式。這種方法一方面降低了過度擬合的風險,另一方面減少了權(quán)重的數(shù)量,使得優(yōu)化整個網(wǎng)絡比其他方法更容易。然而,CNN不能夠訓練不同大小的圖像,由于全連接層的輸入層中的神經(jīng)元數(shù)量是固定的,因此卷積層的輸入圖像的尺寸大小是固定的。
全卷積神經(jīng)網(wǎng)絡(FCN,fully convolutional networks)將CNN最后一層全連接層替代為卷積層,消除了全連接層輸入神經(jīng)元個數(shù)的限制,解決了CNN卷積層必須是相同輸入大小的問題,F(xiàn)CN能夠接受任意大小的輸入圖像。FCN通過反卷積將上一層的特征圖上采樣,將其還原為與輸入圖像一致的尺寸大小,在保持原輸入圖像的空間信息的前提下,對每一幅圖像都生成一個預測,并在此基礎上對圖像進行逐像素分類。此外,由于在卷積過程中避免了使用像素塊帶來的重復存儲和計算卷積的問題,因此與CNN相比,F(xiàn)CN減少了模型中的參數(shù),提高了算法的運算效率。
然而,F(xiàn)CN方法仍然存在一些問題,輸出特征圖通過卷積層和池化層的交替?zhèn)鞑ミM行下采樣,因此FCN直接預測通常是低分辨率的,目標邊界也相對較為模糊。為了解決這個問題,最近提出了各種基于FCN的方法。例如,文獻[16]中提出了一種多尺度卷積網(wǎng)絡,包括多個具有不同分辨能力的子網(wǎng)絡,以便逐步改進粗預測。文獻[17]提出高低層特征融合,即在多層的輸出后是一個反卷積層,用于對高密度的像素輸出進行雙線性的上采樣,從而有效增強了圖像語義信息特征以及空間信息特征。文獻[18]為了精確地重構(gòu)物體邊界的高度非線性結(jié)構(gòu),用一個深度反卷積網(wǎng)絡代替了文獻[17]中的簡單反卷積處理,以識別像素級的類別標記。此外,F(xiàn)CN中全卷積的設計模式仍然保留使用了卷積神經(jīng)網(wǎng)絡中的池化層,忽略了高分辨率的特征圖必然會導致邊緣信息的丟失。同時,F(xiàn)CN解碼器中復用編碼器特征圖的方式使其在測試時顯存消耗也很大,忽略了圖像的位置信息以及減小了特征圖的分辨率。
編碼器和解碼器結(jié)構(gòu)是解決以上問題的關鍵,大多數(shù)基于深度學習的語義分割技術都使用編碼器和解碼器架構(gòu)。編碼器負責將輸入轉(zhuǎn)化為特征,解碼器則負責將特征轉(zhuǎn)化為目標。SegNet[19]和U-Net[20]是兩個典型的用于圖像語義分割的編碼-解碼器結(jié)構(gòu)。SegNet是基于全卷積神經(jīng)網(wǎng)絡搭建的一種編碼-解碼器網(wǎng)絡結(jié)構(gòu),通過編碼器提取圖像特征后,再通過解碼器逐步還原到與原圖相同分辨率的分割結(jié)果。U-Net是為了幫助生物序列中的圖像分割而創(chuàng)建的,它由兩部分組成:收集上下文的收縮路徑和用于識別精確位置的對稱擴展路徑相比于已有的深度卷積神經(jīng)網(wǎng)絡語義分割方法,該方法提出了一種更為穩(wěn)定的網(wǎng)絡結(jié)構(gòu)。SegNet的編碼器部分使用了去除全連接層的VGG-16網(wǎng)絡[21],解碼器部分使用了一系列上采樣和卷積層,這樣可以實現(xiàn)通過保留的最大池化層的最大值索引來恢復特征圖分辨率,并利用可學習的后續(xù)卷積層來產(chǎn)生稠密特征。
盡管此方法提出了最大池化索引策略,盡可能保留了各特征圖像中的關鍵信息,但是在編碼器網(wǎng)絡中仍舊不可避免的產(chǎn)生了大量信息損失,這些信息損失在解碼器網(wǎng)絡中往往是不可恢復的,導致語義分割結(jié)果精度的不理想。
因此,本文設計一種更加優(yōu)化的網(wǎng)絡模型,以降低SegNet在編碼器網(wǎng)絡中提取高維特征時產(chǎn)生的信息損失,同時,在解碼時能夠更加完整地勾勒分割邊界,提高分割精度,并控制網(wǎng)絡的參數(shù)總量和執(zhí)行時的內(nèi)存占比,從而能夠在較低時間消耗和硬件需求的前提下,實現(xiàn)多目標的精確識別和多場景的全面理解。
SegNet模型核心是由一個編碼器網(wǎng)絡以及相應的解碼器網(wǎng)絡組成,整體架構(gòu)如圖1所示。
圖1 SegNet模型結(jié)構(gòu)
編碼器網(wǎng)絡主要由卷積層、批歸一化層、ReLU層和池化層組成。編碼器網(wǎng)絡中的卷積層對應于VGG16網(wǎng)絡中的前13個卷積層。卷積層通過卷積提取特征,其使用的是same padding卷積,不會改變特征圖的尺寸;批歸一化層(Batch Normlisation)起到歸一化的作用;ReLU層應用逐元素非線性激活函數(shù)(ReLU)來加快此網(wǎng)絡的收斂速度;池化層執(zhí)行最大池化操作,記錄最大值的索引位置并將結(jié)果輸出。對于圖像分類任務而言,多層最大池化和下采樣由于平移不變性可以獲得較好的魯棒性,但同時也導致了特征圖大小和空間信息的損失。為了解決這個問題,SegNet只存儲每個編碼器特征映射的池化最大索引或每個池化窗口中最大特征值的位置。
解碼器將編碼器獲取到的物體信息以及大致的位置信息與特定的像素點相對應,對縮小后的特征圖像進行上采樣,通過對上采樣后的圖像進行卷積處理,完善物體的幾何形狀,以補償因編碼器中的池化層將物體縮小造成的細節(jié)損失。解碼器有與編碼器相對應的上采樣層、卷積層、批歸一化層以及ReLU層。其中上采樣層具體操作為對輸入的特征圖放大兩倍,然后將輸入的特征圖數(shù)據(jù)根據(jù)池化層的最大索引位置放入,其他位置均為0。解碼器的最終輸出被饋送到soft-max分類器,對每個像素進行獨立分類,預測的分割結(jié)果對應于在每個像素處具有最大概率的類別。
SegNet的創(chuàng)新之處在于解碼器階段的上采樣層使用了編碼器階段池化層的最大池化索引來進行反池化。與FCN中利用雙線性插值進行上采樣的方式相比,反池化操作大大減少了模型的參數(shù)量。SegNet相比其他架構(gòu)更有效的原因正是由于其只存儲特征圖的最大池化索引,并在其解碼器網(wǎng)絡中使用它們來實現(xiàn)良好的性能。與FCN進行對比,SegNet在達到較好的分割性能的同時,也具有較為均衡的內(nèi)存占用率和準確率,反池化也提升了模型對邊界的描述能力。與其他競爭架構(gòu)相比,SegNet結(jié)構(gòu)在推理時間和有效的推理內(nèi)存方面都體現(xiàn)出了較為良好的性能。
交叉熵損失函數(shù)是處理分類問題中常用的一種損失函數(shù)。交叉熵是用于描述兩個概率分布之間的距離,交叉熵越小,兩個概率的分布便越接近。交叉熵損失函數(shù)常常用在邏輯回歸問題即求解離散的分類問題上,用來作為預測值和真實標簽值的距離度量。模型在使用梯度下降更新參數(shù)時,模型訓練的速度取決于學習率和偏導數(shù)值。偏導數(shù)的大小反映了模型的誤差,值越大,模型效應越差,但同時模型訓練則越快。因此,如果利用邏輯函數(shù)獲得概率并且結(jié)合使用交叉熵損失函數(shù),則模型效果不好時學習速度會更快,如果模型效果良好,學習速度會較慢。
標準的交叉熵損失函數(shù)(CE,cross-entropy loss)如下所示:
(1)
其中:p代表正樣本的預測概率,y代表樣本標簽,正類為1,負類為0。log表示自然對數(shù),底數(shù)為e??梢钥闯?,預測越準確,計算出的損失值就越小,如果預測完全正確,則計算的損失值就為0,因此符合優(yōu)化方向。為方便表示,簡記如下:
(2)
則交叉熵可以表示為:
CE(p,y)=CE(pt)=-log(pt)
(3)
交叉熵損失函數(shù)由于引入了類間競爭的特性,使得類間的互補性更強,但其僅僅覆蓋了正確標記的正確率,并沒有考慮其它非正確標記間的差別,導致所獲得的特征有所偏離。
本文所設計的網(wǎng)絡結(jié)構(gòu)是基于SegNet所提出的編-解碼器結(jié)構(gòu),搭建一種殘差連接的語義分割網(wǎng)絡結(jié)構(gòu)。對于一張普通拍攝照片而言,淺層CNN提取的特征往往包含更多的邊界、紋理等直觀視覺信息,深層CNN往往提取的是更高級的抽象特征,只有將二者有機結(jié)合,才能實現(xiàn)語義分割精度的提升。加深、加寬網(wǎng)絡結(jié)構(gòu),雖然能夠提高分割精度但是帶來了大量的參數(shù)負擔和冗余,因此需要引用殘差連接和concatenation(級聯(lián))操作,有效的將淺層視覺特征與深層語義特征進行結(jié)合。同時將已有的普通的層間連接調(diào)整為殘差連接,總體來看,增加的參數(shù)量可以忽略不計。
圖2 融合殘差連接的語義分割網(wǎng)絡結(jié)構(gòu)圖
將一張帶訓練圖像輸入此改進的SegNet網(wǎng)絡結(jié)構(gòu),其在網(wǎng)絡中共經(jīng)過一下幾步過程:
1)將圖像進行卷積操作,得到H*W*64個通道的特征圖像,記為F1。
2)下采樣得到H/2*W/2*64,然后再進行卷積操作得到H/2*W/2*128,記為F2。
3)下采樣得到H/4*W/4*128,然后進行卷積操作得到H/4*W/4*256,記為F3。
4)下采樣得到H/8*W/8*256,記為F4。
(4)
(5)
(6)
8)最終通過softmax函數(shù)對每一像素所屬類別予以賦值并輸出相應的語義分割結(jié)果。
圖3本方法網(wǎng)絡模型訓練流程圖。首先對數(shù)據(jù)集進行預處理以及訓練集和驗證集劃分。其次將處理好的數(shù)據(jù)輸入初始化參數(shù)的語義分割網(wǎng)絡模型。根據(jù)分割結(jié)果的交叉熵損失最小原則,不斷迭代網(wǎng)絡更新模型參數(shù),直至收斂并達到最小損失。最后輸出最優(yōu)網(wǎng)絡模型和參數(shù)。
圖3 網(wǎng)絡訓練流程圖
標準的交叉熵損失函數(shù)計算公式中所有樣本的權(quán)重都是相同的,因此如果正、負樣本不均衡,大量簡單的負樣本會占據(jù)主導地位,少量的難樣本與正樣本會起不到作用,導致精度變差。
因此,我們引入平衡因子,取值在[0,1]區(qū)間內(nèi)。
(7)
設計的改進的交叉熵損失公式(B-CE,balanced cross-entropy loss)如下:
CE(p,y)=-βlog(pt)
(8)
引入平衡因子的交叉熵損失函數(shù),在收斂效率上比原函數(shù)更快,主要是在不均衡分布的類別像素上,其迭代優(yōu)化的效率更具備針對性,因此整體收斂效率得到了提升。
本文實驗系統(tǒng)為Windows 10 professional,24 GB RAM,處理器為Intel(R)Core i7- 8750H,2.20 GHZ,GPU為NVIDIA GeForce GTX 1 060 6 GB。實驗平臺為Matlab 2018 b,基于MatconvNet和visual C++ 2015搭建深度學習網(wǎng)絡模型,模型訓練和測試是基于cuda9.0搭建的GPU環(huán)境。
IoU(Intersection over Union)的全稱為交并比,具體是指預測候選邊界集和真實邊界集的交集和并集的比值,是當前目標識別和語義分割研究最通用的評價指標。IoU是一個較為簡單的測量標準,只要是在輸出中得出一個預測范圍的任務都可以用IoU來測量。交并比的數(shù)學含義如圖4所示。最理想情況是候選邊界集與真實邊界集完全重疊,即比值為1,即預測精確度越高。交并比的計算公式如下:
圖4 交并比的數(shù)學含義
(9)
一般約定,0.5是閾值,用來判斷預測的邊界框是否正確,IoU越高,邊界框越精確。
以下內(nèi)容將展示在PASCAL VOC 2012數(shù)據(jù)集上進行實驗的結(jié)果,包括各類別IoU的數(shù)值統(tǒng)計與分析和隨機樣本的視覺解析,并從評價指標和視覺效果兩方面全方位評估所設計網(wǎng)絡結(jié)構(gòu)的有效性和先進性。
3.3.1 數(shù)據(jù)集簡介及參數(shù)設置
PASCAL VOC 2012作為基準數(shù)據(jù)之一,數(shù)據(jù)集包含原圖片總共17 125張及其對應的標注圖。在對象檢測、圖像分割網(wǎng)絡對比實驗與模型效果評估中被頻頻使用。Pascal VOC 2012數(shù)據(jù)集針對視覺任務中監(jiān)督學習提供了標簽數(shù)據(jù),它主要有4個大類別,分別是人、常見動物、交通車輛、室內(nèi)家具用品,并可細分為二十個類別:
1)person:person;
2)animal:bird,cat,cow,dog,horse,sheep;
3)vehicle:aeroplane,bicycle,boat,bus,car,motorbike,train;
4)indoor:bottle,chair,dining table,potted plant,sofa,tv/monitor。
此外,針對該數(shù)據(jù)集的實驗中各項參數(shù)設置如表1所示,測試數(shù)據(jù)為完全隨機抽選,在網(wǎng)絡訓練時采用帶動量的隨機梯度下降法作為優(yōu)化器,學習率和動量參數(shù)設置為0.1和0.9。
表1 PASCAL VOC 2012數(shù)據(jù)集超參數(shù)設置
3.3.2 實驗結(jié)果對比與分析
如表2所示,為本方法、SegNet在PASCAL VOC 2012數(shù)據(jù)集上的分割表現(xiàn)。可以看出,相比于其他兩種方法,本方法整體分割精度表現(xiàn)優(yōu)異,其中Bird等7類物體交并比超過90%,13類物體超過80%,mIoU達到80.81%,相比于SegNet提高了約8個百分點。
表2 PASCAL VOC 2012測試集各類別IoU
如圖5所示,數(shù)據(jù)樣本的視覺展示進一步對分割效果進行了評估。為更充分和全面驗證方法的分割能力,從數(shù)據(jù)集中隨機選取的5個樣本幾乎包含數(shù)據(jù)集具有的所有類別的物體。盡管結(jié)果相似度較高,但仍能直觀的從分割結(jié)果看出本方法分割精度更高。首先從整體上看,SegNet與本方法均能夠較好的實現(xiàn)圖像語義分割任務,基本上能夠?qū)D像中的目標物體識別并標注出。然而,在部分關鍵細節(jié)處,本方法表現(xiàn)更佳。如圖5(a)中所示,自行車輪廓的準確勾勒需要準確的高頻邊界信息,相比于SegNet,本方法對低級別的高頻邊界信息進行了更大程度的保留并應用于解碼器網(wǎng)絡,使得最終分割結(jié)果中自行車輪廓更為清晰。同樣地,如圖5(b)中鳥類雙腳的分叉處,圖5(c)中椅子的輪廓邊界,圖5(e)中自行車輪廓和遠端人物邊界等高頻細節(jié)信息處,本方法更具針對性的低級別特征與高級別語義特征融合方法使得分割結(jié)果更接近真實標注圖。
圖5 PASCAL VOC 2012隨機樣本測試結(jié)果展示
綜上可得,在添加了有效的多殘差連接之后,該語義分割網(wǎng)絡所提取的特征保真度更高,能夠與原圖保持更高的相關性,使得圖像的像素級分類結(jié)果和邊界定位效果更優(yōu)于SegNet。從視覺感受的定性分析情況以及各類別交并比的定量分析結(jié)果來看,本方法綜合利用了最大池化索引的有效性和多殘差連接的靈活性,使得圖像語義分割結(jié)果達到更高的精度,更加滿足實際應用需求。
以下內(nèi)容為在Cityscapes數(shù)據(jù)集上進行實驗對比結(jié)果與分析,包括各類別IoU的數(shù)值統(tǒng)計與分析和隨機樣本的視覺解析,分別從評價指標和視覺效果兩方面全方位評估所設計網(wǎng)絡結(jié)構(gòu)的在不同類型數(shù)據(jù)集上的魯棒性和有效性。
3.4.1 數(shù)據(jù)集簡介
Cityscapes數(shù)據(jù)集是由包含戴姆勒在內(nèi)的三家德國單位聯(lián)合提供的,是一個新的大規(guī)模數(shù)據(jù)集,主要關注城市環(huán)境中駕駛場景的圖像。Cityscapes數(shù)據(jù)集涵蓋了50個城市的不同季節(jié)、不同時段的街道場景,包括5 000張精標注圖片和20 000粗標注圖片,其中精標注圖片數(shù)據(jù)集被劃分為訓練集(2 975張)、驗證集(500張)和測試集(1 525張)。Cityscapes數(shù)據(jù)共有兩種數(shù)據(jù)標注格式,分別是實例分割和語義分割所采用的分割圖格式以及多邊形邊框的json格式。精標注數(shù)據(jù)集中的每張圖片都同時擁有3個標注文件,即實例分割標注、語義分割標注、多邊形標注。標注類別共分為8組,每組的具體類別如下所示:
1)flat:road,sidewalk,parking+,rail track+;
2)human:person*,rider*;
3)vehicle:car*,truck*,bus*,on rails*,motorcycle*,bicycle*,caravan*+,trailer*+;
4)construction:building,wall,fence,guard rail+,bridge+,tunnel+;
5)object:pole,pole group+,traffic sign,traffic light;
6)nature:vegetation,terrain;
7)sky:sky;
8)void:ground+,dynamic+,static+。
其中*表示部分區(qū)域連在一起的實例,會作為一個整體來標注;+表示該類別不包含在驗證集中,并被視為無效標注。
本文在精標注數(shù)據(jù)集上進行分割實驗并與SegNet方法在此數(shù)據(jù)集上的分割表現(xiàn)進行對比分析。如表3所示,為本文在部署實驗時的各項參數(shù)數(shù)值。同樣地,采用帶動量的隨機梯度下降法作為優(yōu)化器,其學習率和動量數(shù)值分別預設為0.1和0.9。
表3 Cityscapes數(shù)據(jù)集超參數(shù)設置
3.4.2 實驗結(jié)果對比與分析
表4展示了本文所提方法和SegNet在Cityscapes數(shù)據(jù)集進行精細標注的各類別交并比以及平均交并比??偟膩砜?,本文所設計網(wǎng)絡結(jié)構(gòu)實現(xiàn)了更高的交并比表現(xiàn),其預測的分割結(jié)果更相近于真實標記數(shù)據(jù)集。相比于SegNet,本網(wǎng)絡在mIoU值上提高了約十三個百分點。
表4 Cityscapes測試集各類別IoU
如圖6所示,隨機選擇6張測試樣本做視覺展示,分別通過SegNet和本文方法進行分割預測并產(chǎn)生精細標注分割圖,最右側(cè)為真實標記結(jié)果。整體分割結(jié)果上來看,SegNet與本文方法均能實現(xiàn)較好的分割結(jié)果。由于是車載攝像裝置拍攝的圖像,其中前方馬路等主體大范圍目標均可以實現(xiàn)較為準確的分割,這一結(jié)果和IoU值形成對應。
然而由于SegNet的細節(jié)處理不盡精細,導致其部分分割結(jié)果不能達到滿意。具體來說,如圖6(a)中左側(cè)人群部分的分割結(jié)果比較模糊,然而本方法的分割結(jié)果能夠?qū)⑷巳褐械牟煌瑐€人進行一個較為優(yōu)化的分割,其結(jié)果也更趨近于最右側(cè)的真是標注結(jié)果。如圖6(b)中的最右側(cè)交通指示牌、左側(cè)綠色植物右上側(cè)的交通指示牌,SegNet的分割結(jié)果無法達到較為精確的分割,指示牌識別上出現(xiàn)明顯的少分、漏分情況,而本文方法的分割結(jié)果則更為精細和準確。同樣的情況包括如圖6(c)中的路燈、圖6(d)中的立柱、行人、圖6(f)中的自行車及車手等目標分割狀況。綜上所述,本文所設計的網(wǎng)絡結(jié)構(gòu)在細節(jié)標注及邊界勾勒時的表現(xiàn)全面優(yōu)于SegNet的分割性能。
本文將通過實驗驗證所設計的帶有平衡因子的交叉熵損失函數(shù)的影響,尤其在模型訓練的收斂效率方面的表現(xiàn)。以PASCAL VOC 2012數(shù)據(jù)集作為訓練數(shù)據(jù),在訓練過程中的損失曲線如圖7所示。
圖7 不同損失函數(shù)的訓練損失
從圖7中可以得出采用B-CE損失函數(shù)能夠有效提高迭代效率,在采用B-CE損失函數(shù)之后在大約第80個epoch開始達到收斂狀態(tài)。相對地,使用原始的CE損失函數(shù)盡管收斂過程較為穩(wěn)定,但是收斂速率較之更慢,在大約100 epoch時才能達到收斂狀態(tài);從損失層面來看,B-CE可以幫助網(wǎng)絡結(jié)構(gòu)實現(xiàn)更少的損失,分析其主要原因可能來自負樣本帶來的損失的進一步減少,因為提高了對負樣本、難分類樣本的關注度,訓練更具針對性,并且本來易分的樣本也不會因為損失函數(shù)的微調(diào)而導致錯誤分類。從實際的訓練和損失曲線中動態(tài)關系中,我們進一步驗證了所改進損失函數(shù)的有效性。
由于SegNet模型在多次降采樣和上采樣過程中產(chǎn)生了大量信息損失,語義分割精度表現(xiàn)因此而受到較大限制。為解決此問題,本文設計了一種融合多殘差連接的新型編-解碼器網(wǎng)絡結(jié)構(gòu),在不新增大量參數(shù)負擔的前提下,通過引入若干殘差連接,使得不同分辨率的低級別空間信息特征和高級別語義特征得以充分利用,進而顯著減小上采樣和下采樣過程產(chǎn)生的信息損失。此外,為緩解類別非均衡分布帶來的消極影響,本文基于交叉熵損失函數(shù)設計了一種帶平衡因子的交叉熵損失函數(shù),不僅促進了模型收斂效率,同時在達到收斂狀態(tài)時降低了大量損失,使得模型具備更強的性能,實現(xiàn)更高的分割精度。通過在PASCAL VOC 2012和Cityscapes數(shù)據(jù)集上進行實驗對比和分析,通過量化評價指標和視覺分析效果證實本方法的分割表現(xiàn)明顯優(yōu)于SegNet。