基于合成圖像的語義分割任務(wù)域適應(yīng)算法研究?

2024-01-23 13:38:00徐淑怡

計算機與數(shù)字工程 2023年10期

徐淑怡

（南京理工大學(xué)計算機科學(xué)與工程學(xué)院南京 210018）

1 引言

1.1 研究背景

深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）使計算機視覺領(lǐng)域發(fā)生了革命性的變化［1］，在諸如圖像分類，語義分割，目標(biāo)檢測等多種任務(wù)中實現(xiàn)了超高性能［2～5］。這種強勁的表現(xiàn)可歸因于目前數(shù)量龐大的有標(biāo)簽訓(xùn)練數(shù)據(jù)集。但對于語義分割任務(wù)來說，在數(shù)據(jù)注釋方面需要大量人力物力以獲得密集的像素級標(biāo)簽。從CITYSCAPES 數(shù)據(jù)集獲取單個圖像的逐像素標(biāo)簽的注釋就需要約1h，難度也很高。在數(shù)據(jù)收集方面，雖然自然圖像更容易獲得，但在一些領(lǐng)域，例如醫(yī)學(xué)成像，收集數(shù)據(jù)和請專家精確標(biāo)記這些數(shù)據(jù)都非常昂貴。

解決上述問題的一種方法是利用生成的數(shù)據(jù)參與訓(xùn)練。然而，由于數(shù)據(jù)集之間存在域位移，因此在合成數(shù)據(jù)上訓(xùn)練的模型在真實數(shù)據(jù)集上往往表現(xiàn)不佳。域適應(yīng)就是解決該域位移問題的一類技術(shù)。因此，本文重點是研究用于語義分割的領(lǐng)域自適應(yīng)算法。這類問題最普遍也最有難度的一種情況是，沒有來自目標(biāo)域的標(biāo)簽可用。這類技術(shù)通常被稱為無監(jiān)督域適應(yīng)。

1.2 研究現(xiàn)狀

全卷積神經(jīng)網(wǎng)絡(luò)（FCN）的發(fā)展［4］見證著域適應(yīng)研究重點從各種距離度量及其變體［6］轉(zhuǎn)移到以端到端方式學(xué)習(xí)域不變特征。傳統(tǒng)方法在分類問題上取得了成功，然而它們的性能改進(jìn)無法很好地為語義分割問題所用。這促使我們開發(fā)適合于語義分割的域適應(yīng)技術(shù)。

我們專注于對抗性方法。Revgrad［7］通過在特征空間中應(yīng)用對抗性損失來完成域自適應(yīng)，而PixelDA［8］和CoGAN［9］在像素空間中進(jìn)行操作。雖然這些技術(shù)適用于分類任務(wù)，但很少有針對語義分割任務(wù)的方法。目前來說，文獻(xiàn)［10］和文獻(xiàn)［11］提出解決這一問題較好的兩種方法。FCN in the wild［10］提出了兩種對齊策略：1）全局對齊，它是文獻(xiàn)［7］對分割問題提出的域?qū)褂?xùn)練的擴展；2）局部對齊，將其定義為類別特定統(tǒng)計多實例學(xué)習(xí)問題。另一邊，文獻(xiàn)［11］提出了課程式學(xué)習(xí)方法，首先學(xué)習(xí)估計地標(biāo)超像素上的圖像和局部分布的全局標(biāo)簽分布的簡單任務(wù)。然后訓(xùn)練分割網(wǎng)絡(luò)，使得目標(biāo)標(biāo)簽分布遵循這些推斷的標(biāo)簽屬性。

2 網(wǎng)絡(luò)模型原理與實現(xiàn)

我們提出一種方法，該方法采用生成模型來對齊特征空間中的源和目標(biāo)分布。首先通過使用L1和對抗性損失的組合訓(xùn)練重建模塊，將使用DCNN獲得的中間特征表示投影到圖像空間。然后，通過強制網(wǎng)絡(luò)學(xué)習(xí)特征來強制域?qū)R約束，使得源特征在傳遞到重建模塊時產(chǎn)生類似目標(biāo)的圖像，反之亦然。這是通過采用一系列對抗性損失來實現(xiàn)的。隨著訓(xùn)練的進(jìn)行，生成質(zhì)量逐漸提高，同時，特征變得更加領(lǐng)域不變。

2.1 模型設(shè)計

令X?RL×W×C為任意輸入圖像（帶有C通道），Y?RL×W是相應(yīng)的標(biāo)簽圖。給定輸入X，我們將CNN 的輸出表示為，其中NC是類的數(shù)量。是表示CNN 輸出的像素位置（i，j）處的類概率分布的向量。源（s）或目標(biāo)（t）域由上標(biāo)表示，例如Xs或Xt。

2.2 處理源和目標(biāo)數(shù)據(jù)

給定源圖像和標(biāo)簽對{Xs,Ys}作為輸入，首先使用F 網(wǎng)絡(luò)提取特征表示。分類器C 將嵌入F(Xs)作為輸入，并生成圖像大小的標(biāo)簽映射。生成器G重建以嵌入為條件的源輸入Xs。在圖像生成工作之后，我們沒有明確地將生成器輸入與隨機噪聲向量連接，而是在整個G網(wǎng)絡(luò)中使用丟失層。如圖1所示，D執(zhí)行兩個任務(wù)：1）將真實源輸入和生成的源圖像區(qū)分為源—真或源—偽；2）產(chǎn)生生成的源圖像的像素標(biāo)簽圖。

圖1 網(wǎng)絡(luò)模型流程圖

給定目標(biāo)輸入Xt，生成器網(wǎng)絡(luò)G 將來自F 的目標(biāo)嵌入作為輸入并重建目標(biāo)圖像。與之前的情況類似，訓(xùn)練D以區(qū)分真實目標(biāo)數(shù)據(jù)（目標(biāo)—真）和從G 生成的目標(biāo)圖像（目標(biāo)—假）。與前一種情況不同，D 僅執(zhí)行單個任務(wù)，將目標(biāo)輸入分類為目標(biāo)—真實或目標(biāo)—偽造。由于目標(biāo)數(shù)據(jù)在訓(xùn)練期間沒有任何標(biāo)簽，因此當(dāng)給定目標(biāo)輸入時，分類網(wǎng)絡(luò)C不活動。

2.3 迭代優(yōu)化

首先描述方法中使用的各種損失。用于訓(xùn)練模型的不同對抗性損失如表1 所示。除了這些對抗性損失之外，我們還使用以下?lián)p失：1）Lseg和Laux像素級的交叉熵?fù)p失在分割網(wǎng)絡(luò)中使用，例如FCN。2）輸入和重建圖像之間的損失Lrec-L1。

表1 各類損失

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集介紹

SYNTHIA 是具有精確像素級語義注釋的虛擬城市渲染照片真實幀的大型數(shù)據(jù)集。我們使用SYNTHIA-RAND-CITYSCAPES 子集，其中包含9400個帶有注釋的圖像。

使用CITYSCAPES 作為我們的真實數(shù)據(jù)集。該數(shù)據(jù)集包含從德國和鄰國50 個城市的移動車輛中收集的城市街道圖像。該數(shù)據(jù)集帶有5000 個帶注釋的圖像。在本文所有實驗中，使用標(biāo)記的SYNTHIA 數(shù)據(jù)集作為源域，并將未標(biāo)記的CITYSCAPES 訓(xùn)練集作為我們的目標(biāo)域。將來自CITYSCAPES 的val 集的500 個圖像指定為我們的測試集。

3.2 實驗架構(gòu)和實施細(xì)節(jié)

在我們所有的實驗中，使用FCN-8 作為我們的基礎(chǔ)網(wǎng)絡(luò)。使用在Imagenet 上訓(xùn)練的VGG-16模型的權(quán)重來初始化該網(wǎng)絡(luò)的權(quán)重。圖像被調(diào)整大小并裁剪為1024×512。我們使用Adam solver 訓(xùn)練我們的模型進(jìn)行了100，000 次迭代，批量大小為1。F 和C 網(wǎng)絡(luò)的學(xué)習(xí)率為10-5，G 和D 網(wǎng)絡(luò)的學(xué)習(xí)率為2×10-4。

3.3 實驗結(jié)果

為了確保實驗結(jié)果的公平性，我們遵循了先前工作（文獻(xiàn)［10～11］）所指定的：選擇SYNTHIA 和CITYSCAPES 之間的16 個常用類作為我們的標(biāo)簽。對應(yīng)于其他類的預(yù)測被視為屬于void類，而不在訓(xùn)練期間反向傳播。

表2 展示了我們的方法與文獻(xiàn)［10］和文獻(xiàn)［11］相比的表現(xiàn)。對于無域適應(yīng)情況的僅源模型，即僅用源域數(shù)據(jù)進(jìn)行訓(xùn)練，本文方法實現(xiàn)了26.9的mIOU。僅目標(biāo)域模型表示使用CITYSCAPES 訓(xùn)練集（監(jiān)督訓(xùn)練）訓(xùn)練的模型獲得的性能，以它作為域適應(yīng)性能的粗略上界。我們的方法達(dá)到了36.2 的mIOU，將基線提高了9.3個點，與其他方法相比，貢獻(xiàn)了更高的性能提升。

表2 SYNTHIA →CITYSCAPES

4 結(jié)語

本文的研究重點是探討一種適用于語義分割任務(wù)的域適應(yīng)算法，以最大限度地克服語義分割任務(wù)中合成圖像和真實場景圖像之間的域間隙。我們提出一種聯(lián)合對抗方法，它使用生成器鑒別器對將目標(biāo)分布的信息傳遞給特征提取網(wǎng)絡(luò)。用此方法在大規(guī)模數(shù)據(jù)集上實驗并與其他方法對比，實驗結(jié)果表明了我們的方法優(yōu)于現(xiàn)有方法，且兼具通用性和可擴展性。