陶 洋,楊 娜,郭 坦
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)
傳統(tǒng)機器學(xué)習(xí)方法能夠表現(xiàn)出高性能的前提是基于以下兩個假設(shè):(1) 大量且充分標記的樣本保證模型能夠得到充分有效的訓(xùn)練;(2) 訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)遵循獨立同分布[1-2]。但是,在實際應(yīng)用中,這兩個假設(shè)很難成立。首先,有標記的樣本是十分稀缺的,因為收集大量帶有標簽的訓(xùn)練數(shù)據(jù)需要投入大量的人力物力[3];其次,難以保證訓(xùn)練樣本始終具有與測試樣本相同的分布。例如,不同分辨率以及不同外部環(huán)境下采集的圖像數(shù)據(jù)具有不同的分布規(guī)律[4]。忽視數(shù)據(jù)分布差異而訓(xùn)練的機器學(xué)習(xí)模型,將難以取得良好的性能。
無監(jiān)督的領(lǐng)域自適應(yīng)方法能夠利用具有完全標記信息的源域數(shù)據(jù)以及分布不同但語義相關(guān)的未標記目標域數(shù)據(jù)學(xué)習(xí)和構(gòu)建跨領(lǐng)域?qū)W習(xí)模型,提高目標域數(shù)據(jù)的分類精度,可緩解互聯(lián)網(wǎng)時代背景下數(shù)據(jù)量龐大,但標記數(shù)據(jù)不足的矛盾。盡管兩個域的分布不同,但是存在一些潛在的共享信息。因此,如何發(fā)掘、提取和充分利用這些潛在共享信息,以降低兩個域之間的數(shù)據(jù)分布偏差,提高跨領(lǐng)域?qū)W習(xí)效率,是領(lǐng)域自適應(yīng)中的主要問題[5]。領(lǐng)域自適應(yīng)方法可分為基于分類器的方法、基于特征表示的方法和基于實例的方法[6]?;诜诸惼鞯姆椒ㄍǔU{(diào)整模型參數(shù),將分類器適應(yīng)于不同分布的數(shù)據(jù)來減少域偏差問題?;趯嵗姆椒ǜ鶕?jù)源域樣本的重要性,通過樣本重加權(quán)或選擇源域樣本來減輕分布的差異。而基于特征表示的方法強調(diào)學(xué)習(xí)在目標域和源域間學(xué)習(xí)一個公共子空間,通??梢匀〉幂^好的性能[7]。筆者主要對基于特征表示的方法進行研究,在現(xiàn)有的基于特征表示自適應(yīng)方法中主要存在兩個問題:(1) 通過特征變換的方式減少源域和目標域的差異,但是變換后的不同類別的樣本缺少足夠的判別性。(2) 在特征變換中丟失了數(shù)據(jù)的幾何結(jié)構(gòu)信息,導(dǎo)致過擬合問題,致使分類器難以取得理想的性能。
針對上述問題,筆者提出了一種新型的無監(jiān)督領(lǐng)域自適應(yīng)方法,在減少跨域分布差異的同時,最大化地保留了數(shù)據(jù)的判別信息和結(jié)構(gòu)信息。具體地,利用目標域和源域數(shù)據(jù)之間的線性組合關(guān)系,聯(lián)合學(xué)習(xí)一個潛在的不變子空間,有效減少跨域數(shù)據(jù)的分布差異。此外,通過非負松弛標簽學(xué)習(xí)策略提高子空間投影的判別性,并使用源域類間稀疏補償被松弛標簽矩陣擴大的類內(nèi)距離。與此同時,利用自適應(yīng)概率圖在判別的子空間中建立近似數(shù)據(jù)的連通性圖結(jié)構(gòu),最大化地利用數(shù)據(jù)間的局部結(jié)構(gòu)信息來增強子空間學(xué)習(xí)的鑒別力和魯棒性。所提出模型的學(xué)習(xí)效果示意圖如圖1所示。其中,正方形、三角形和五角星形分別表示3種不同類別的樣本,空心形狀表示源域的樣本,實心形狀表示目標域的樣本。P表示將兩個域變換到子空間的轉(zhuǎn)換矩陣,ICS(Inter-Class Sparsity)表示源域的類間稀疏約束,GR(no Graph Regularization)表示圖正則化約束。
綜上所述,文章的創(chuàng)新點總結(jié)如下:(1) 基于低秩約束構(gòu)建數(shù)據(jù)跨領(lǐng)域重建模型,在此基礎(chǔ)上通過標簽松弛矩陣擴大來自不同類別樣本的距離,并且使用類間稀疏約束縮小了同類樣本的距離,同時保證源域數(shù)據(jù)的類內(nèi)緊湊性和類間可分性,提高樣本特征學(xué)習(xí)的判別性。(2) 在學(xué)習(xí)判別投影子空間的同時聯(lián)合學(xué)習(xí)自適應(yīng)概率圖,使用自調(diào)整的技術(shù)來自適應(yīng)地學(xué)習(xí)一個更加可靠的相似性度量,有效地保留數(shù)據(jù)的幾何結(jié)構(gòu),提高目標分類器的性能,獲得更高的分類精度。(3) 針對構(gòu)建的無監(jiān)督領(lǐng)域自適應(yīng)模型,設(shè)計了一種基于交替優(yōu)化的算法,以解決該模型的優(yōu)化問題。在3個基準跨域數(shù)據(jù)集上進行實驗,結(jié)果驗證了該方法的有效性。
子空間學(xué)習(xí)方法被廣泛應(yīng)用于計算機視覺、機器學(xué)習(xí)和模式識別等領(lǐng)域中[8]。子空間學(xué)習(xí)的中心思想是學(xué)習(xí)一個將原始冗余高維數(shù)據(jù)投影至低維空間的轉(zhuǎn)換矩陣,在轉(zhuǎn)換過程中,最大程度地保留數(shù)據(jù)的有效信息。隨著對領(lǐng)域自適應(yīng)的廣泛研究,許多研究人員將子空間學(xué)習(xí)的思想應(yīng)用于領(lǐng)域自適應(yīng)方法中。受低秩表示的啟發(fā),文獻[9]和文獻[10]提出使用低秩重構(gòu)的方法來減少跨域分布差異,通過將源域和目標域中的數(shù)據(jù)變換到一個公共子空間內(nèi),使得源域和目標域的分布近似相同。因為域間的數(shù)據(jù)重構(gòu)能夠有效地反映數(shù)據(jù)的內(nèi)在信息,因此假設(shè)目標數(shù)據(jù)由公共子空間中的源域數(shù)據(jù)線性表示,并且通過對重建矩陣施加低秩約束,使得每個目標數(shù)據(jù)都可以由其在源域中的相似鄰居來重建。子空間學(xué)習(xí)項的模型定義如下:
(1)
其中,P∈Rm×d,表示兩個域之間的轉(zhuǎn)換矩陣;XS∈Rm×ns,表示源域數(shù)據(jù);XT∈Rm×nt,表示目標域數(shù)據(jù);Z為重構(gòu)矩陣。m是原始數(shù)據(jù)空間的維度,d表示該公共子空間的維度,ns是源域中的樣本數(shù)量,nt是目標域中的樣本數(shù)量。rank(·)表示一個矩陣的秩運算符,然而,秩函數(shù)的非凸性使得式(1)很難優(yōu)化。因此,一般利用核范數(shù)作為矩陣秩的凸近似,等式可以被重新表述為
(2)
其中,‖·‖*表示矩陣的核范數(shù)。
在高維數(shù)據(jù)轉(zhuǎn)到低維遷移子空間時,假設(shè)樣本xi和xj在原始空間中是近鄰關(guān)系,那么在子空間中也應(yīng)該保持這種近鄰關(guān)系;在流形學(xué)習(xí)中,這種保持近鄰關(guān)系被稱為局部不變性假設(shè)[11]。圖嵌入作為模型的正則項,使得同類訓(xùn)練樣本轉(zhuǎn)化到標簽空間后能夠緊密地聚集在一起。因此在領(lǐng)域自適應(yīng)方法的模型中增加圖結(jié)構(gòu)約束,對整個模型的學(xué)習(xí)都十分有利。圖嵌入的目標函數(shù)如下:
(3)
其中,P為變換矩陣,W為權(quán)重矩陣,n表示樣本數(shù)量。
領(lǐng)域自適應(yīng)的目的是為了充分利用源域數(shù)據(jù)知識,學(xué)習(xí)一個對目標域有效的分類器。雖然通過基于低秩重構(gòu)的子空間學(xué)習(xí)模型能夠?qū)W習(xí)源域和目標域之間的公共子空間,以減少數(shù)據(jù)的分布偏差,但是卻喪失了數(shù)據(jù)的判別能力,導(dǎo)致分類精度不理想。因此在特征學(xué)習(xí)過程中,減少域偏移的同時還必須保持原始特征中蘊含的一些有效信息,例如判別信息和結(jié)構(gòu)信息。
為了提高模型的性能,應(yīng)該充分考慮不同類中源域數(shù)據(jù)的結(jié)構(gòu)差異,在公共子空間中保留源域的判別信息,最大化源域不同類樣本的類間距離。傳統(tǒng)的線性回歸方法假設(shè)訓(xùn)練樣本可以精確地轉(zhuǎn)換為嚴格的二值標簽矩陣YS,通過在二值標簽矩陣中引入一個非負標簽松弛矩陣M,將嚴格的二值標簽矩陣放松為松弛變量矩陣YS+B⊙M。受文獻[12]的啟發(fā),考慮到l2,1具有行一致性稀疏的特性,利用l2,1范數(shù)損失函數(shù)提高對噪聲干擾信息度量的魯棒性。判別子空間學(xué)習(xí)函數(shù)的定義如下:
(4)
(5)
式(5)的第1項放松標簽矩陣旨在擴大不同類別之間回歸響應(yīng)的距離,第2項通過保持同類樣本的行稀疏一致性,可以降低同類別樣本在投影后的距離。
在源域向目標域知識遷移過程中,引入圖結(jié)構(gòu)來保持局部臨近信息。更重要的是,如果過于強調(diào)源域的判別信息而忽略數(shù)據(jù)內(nèi)部的非線性幾何結(jié)構(gòu),得到的子空間會很容易在源域樣本上產(chǎn)生過擬合,圖嵌入能夠有效解決該問題。已有的圖結(jié)構(gòu)學(xué)習(xí)方法通常在原始高維空間中基于距離相似性建立數(shù)據(jù)的連通性,但是高維空間的冗余信息和噪聲會使得這種連通性不可靠。因此,筆者在判別的子空間中建立了圖結(jié)構(gòu),基于概率連通性為每個數(shù)據(jù)點自適應(yīng)地分配最優(yōu)鄰居,假設(shè)在判別子空間中密切相關(guān)的樣本具有更高的連接可能性。通過以下圖正則項來定義:
(6)
其中,ddist(a,b)表示樣本a和樣本b之間的距離,en表示n維全1向量,約束矩陣Q是轉(zhuǎn)移概率矩陣,其每一個行都是一個概率分布。使用歐氏距離的平方定義任意兩個在子空間中數(shù)據(jù)的距離。為了避免轉(zhuǎn)移概率矩陣Q出現(xiàn)平凡解,將式(6)可以重寫為下式:
(7)
將子空間學(xué)習(xí)項(2)、判別子空間學(xué)習(xí)函數(shù)(5)、圖正則項(7)結(jié)合,得到最終的目標函數(shù):
(8)
其中,λ和β是權(quán)重參數(shù)。第1項和第2項共同構(gòu)成判別子空間學(xué)習(xí)項,可以擴大來自不同類的兩個數(shù)據(jù)點之間的距離,并縮小來自相同類的兩個數(shù)據(jù)點之間的距離,提高共享空間內(nèi)目標域和源域特征表達的準確性,從而減少源數(shù)據(jù)和目標數(shù)據(jù)的分類誤差。第3項是一個低秩約束,它能夠強化重構(gòu)矩陣Z的分塊結(jié)構(gòu)特性,保證每個目標域樣本能夠由其源域中的近鄰表示。第4項是一個圖正則化項,從樣本的角度保留了數(shù)據(jù)的空間關(guān)系,同時避免了過擬合。
針對構(gòu)建的領(lǐng)域自適應(yīng)模型式(8),將詳細描述目標函數(shù)的優(yōu)化求解方案??紤]到模型式(8)是一個非凸問題,因此通過固定其他變量迭代更新每個變量。
首先,引入3個輔助變量E,Z1和F,以及相對應(yīng)的兩個等式約束。式(8)可轉(zhuǎn)化為如下優(yōu)化問題:
(9)
式(9)可以通過非精確增廣拉格朗日乘子法(IALM)進行優(yōu)化[16],進一步轉(zhuǎn)化為
(10)
其中,C1,C2,C3,C4是拉格朗日乘子,μ?0是懲罰因子。等式中的變量不能同時進行優(yōu)化,引入交替優(yōu)化的策略。
更新P:通過固定其他變量,得到P的子問題,并將其重寫為基于圖的緊湊形式:
(11)
類似地,通過刪除其他不相關(guān)的變量,可以求得Z和Z1的解。
更新E:固定其他變量,通過以下子問題求解E:
(12)
(13)
更新M:固定其他變量,根據(jù)文獻[9],通過以下方法求解M:
(14)
更新F:與求解E相似,刪除其他無關(guān)變量并將其轉(zhuǎn)化為獨立的子問題可以求出F的解。
更新Q:固定其他變量,能夠得到關(guān)于Q的子問題。將其繼續(xù)分解為n個獨立的子問題,并且每一個子問題都有相同的形式。根據(jù)文獻[14],得到Q的子問題qi的最優(yōu)解和σ的值:
(15)
為了驗證所提出方法的有效性,使用3個廣泛使用的跨域圖像數(shù)據(jù)集開展實驗驗證工作,3個數(shù)據(jù)集分別為:① 4DA目標數(shù)據(jù)集,由Office數(shù)據(jù)和Caltech-256數(shù)據(jù)構(gòu)成。共有A(Amazon)、C(Caltech-256)、D(DSLR)和W(Webcam)四個域。在實驗中,分別使用淺層SURF特征和深層DECAF6特征,通過交替部署成對域(源域和目標域),共構(gòu)建了24個跨域任務(wù)。② COIL20 3D對象數(shù)據(jù)集,包含20個對象,其中有1440張灰度圖像(每個對象有72張多姿態(tài)圖像)。該數(shù)據(jù)集分為兩個子集COIL1(C1)和COIL2(C2),在構(gòu)建源域和目標數(shù)據(jù)時考慮兩種設(shè)置:C1→C2和C2→C1。③ MV數(shù)據(jù)集,由MSRC和VOC2007兩個數(shù)據(jù)集構(gòu)成。實驗使用這兩個數(shù)據(jù)集共享的6個的語義類別,分別為飛機、鳥、羊、牛、自行車和汽車。建立了兩個任務(wù):M→V和V→M。實驗所用數(shù)據(jù)集圖像示例如圖2所示。
實驗所使用的對比算法,包括兩種未進行領(lǐng)域自適應(yīng)的方法NN分類器和AlexNet[15],7種傳統(tǒng)領(lǐng)域自適應(yīng)方法:GFK[16]、LTSL[17]、JDA[18]、LRSR[9]、BDA[19]、LRDRM[20]和SPDA[21],以及兩種深度領(lǐng)域自適應(yīng)方法:DDC[22]、DAN[23]。考慮到方法對比的公平性,采取了與其他方法的相同的評估指標和實驗設(shè)置,實驗結(jié)果見表1~4,其中分類精確度最高值通過加粗表示。
表1 COIL 20數(shù)據(jù)集上的精度 %
表2 MV數(shù)據(jù)集上的精度 %
表3 4DA(SURF)數(shù)據(jù)集上的精度 %
COIL20數(shù)據(jù)集的實驗結(jié)果見表1。從表可以看出,筆者提出的方法平均性能優(yōu)于大多數(shù)其他比較方法的性能。與基線方法相比,NN分類器沒有進行領(lǐng)域自適應(yīng),性能比提出的方法低15.07%左右。這表明筆者提出的方法完成了源域到目標域的知識遷移。SPDA方法取得了最優(yōu)的分類性能,這可能是因為該方法不僅保持了幾何結(jié)構(gòu)信息,而且同時減少了條件分布和邊緣分布差異。
MSRC-VOC2007數(shù)據(jù)集的實驗結(jié)果見表2。結(jié)果表明,與最新的領(lǐng)域自適應(yīng)方法LRDRM相比,當(dāng)VOC2007數(shù)據(jù)集是源域時,MSRC數(shù)據(jù)集是目標域時,分類精度提高了3%。盡管當(dāng)MSRC數(shù)據(jù)集是源域時,VOC2007數(shù)據(jù)集是目標域時,筆者提出的方法分類精度沒有取得最優(yōu)的結(jié)果,但是與其他類似的方法相比,提出的方法獲得了最高的平均分類精度。
4DA數(shù)據(jù)集的實驗結(jié)果見表3和表4。表3為具有SURF特征的4DA數(shù)據(jù)集實驗結(jié)果,在12個跨域任務(wù)中,提出的方法在8個任務(wù)中獲得了最優(yōu)的性能,并且取得了更好的平均性能。LTSL、LRSR和SPDA與所提出的方法都屬于遷移子空間學(xué)習(xí)方法,但是LTSL沒有進行源域的判別學(xué)習(xí),LRSR雖然學(xué)習(xí)了源域的判別信息,但是忽略了保持類內(nèi)的緊湊性和數(shù)據(jù)的幾何結(jié)構(gòu),SPDA是在原始高維空間中保持的數(shù)據(jù)幾何結(jié)構(gòu)。筆者提出的方法較最優(yōu)對比方法SPDA精度提高了約4.43%。表4為具有深度DECAF6特征的4DA數(shù)據(jù)集實驗結(jié)果,其中帶*號表示是深度領(lǐng)域自適應(yīng)方法。DDC和DAN是兩種深度學(xué)習(xí)領(lǐng)域自適應(yīng)方法,由于深度神經(jīng)網(wǎng)絡(luò)的非線性和層次表示能力,使得這兩種方法取得了比大多數(shù)非深度方法更優(yōu)的結(jié)果。但是筆者提出的方法和SPDA的性能仍然優(yōu)于DDC和DAN,原因可能在于DDC和DAN沒有利用域自適應(yīng)層中數(shù)據(jù)的結(jié)構(gòu)信息,而SPDA和筆者的方法在減少分布差異的同時保留了數(shù)據(jù)的流形結(jié)構(gòu)。
表4 4AD(DECAF6)數(shù)據(jù)集上的精度 %
與現(xiàn)有的方法相比,筆者提出的方法引入了源域的類間稀疏約束和自適應(yīng)圖正則項。為了驗證其有效性,進行了3個實驗與筆者提出的方法作比較。使用4DA(DECAF6)數(shù)據(jù)集進行消融實驗。
第1個實驗是一個不包含自適應(yīng)圖正則項和源域類間稀疏約束項的簡單模型,稱為“原始”,該實驗的目標函數(shù)如下:
(16)
第2個實驗評估了自適應(yīng)圖正則化項對模型性能的影響,稱為“No-GR”(No Graph Regularization),表示不使用圖正則化項約束。該實驗的目標函數(shù)如下:
(17)
第3個實驗評估了具有源域類間稀疏約束的判別子空間項是否提高了模型的性能,稱為“No-ICS”(No Inter-Class Sparsity),表示未進行源域的類間稀疏約束。目標函數(shù)如下:
(18)
不同模型的實驗結(jié)果見表5。從表中可以看出筆者提出的方法性能最好,這表明源域類間稀疏提高了遷移子空間的判別性能,以及所提出的自適應(yīng)圖正則項在遷移過程中保留樣本幾何結(jié)構(gòu)的有效性。
表5 4DA(DECAF6)數(shù)據(jù)集上消融實驗結(jié)果 %
為了更好地直觀地展示所提方法跨領(lǐng)域共享子空間的學(xué)習(xí)效果,對4DA(DECAF6)數(shù)據(jù)集中C→D跨域任務(wù)進行了t-SNE可視化,圖3(a)展示了C→D任務(wù)的原始特征。圖3(b)和(c)展示了式(15)和式(16)學(xué)習(xí)到的數(shù)據(jù)表征。圖3(d)為筆者提出的方法學(xué)習(xí)到的數(shù)據(jù)表征。不同形狀表示不同類別的數(shù)據(jù),通過圖示可以清楚地看到同一類別的數(shù)據(jù)分布相近,不同類別的數(shù)據(jù)互相遠離。這表明了學(xué)習(xí)到的數(shù)據(jù)表征的強判別性。通過對比圖(a)~(b)和圖(d),可以看出域間差異的不斷減少。
如式(8)所示,該目標函數(shù)有兩個參數(shù):保證數(shù)據(jù)類間稀疏性結(jié)構(gòu)參數(shù)λ和圖正則項β。為了分析該方法的參數(shù)敏感度,本節(jié)實驗測試了λ和β兩個參數(shù)不同值的組合下對算法性能的影響。參數(shù)λ和β的取值范圍設(shè)置為{0.001,0.005,0.01,0.05,0.1,0.5,1,5,10}。具有不同參數(shù)的W→D(SURF)、A→D(DECAF6)、COIL2→COIL1的計算結(jié)果如圖4所示。由圖可知,雖然兩個參數(shù)對所提出的模型在多個不同的數(shù)據(jù)集上性能變化有所不同,但是在比較大的參數(shù)區(qū)間范圍內(nèi),可以取得穩(wěn)定并令人滿意的分類準確率。
本節(jié)對比了提出的算法與GFK、JDA、LRSR、BDA和SPDA算法的運行時間。所有的測試都在一臺CPU為Intel 1.8GHz雙核處理器、內(nèi)存為8GB的計算機上完成,軟件平臺選定為MATLAB R2016b。本節(jié)實驗在4DA(SURF)數(shù)據(jù)集的C→A任務(wù)和COIL數(shù)據(jù)集的C1→C2任務(wù)上進行實驗,各個算法的執(zhí)行時間如表6所示。其中GFK算法的運行時間最短,但是該算法的分類精度相對而言較低。LRSR算法的運行時間最長,這是因為該算法的收斂速度相較于其他算法較慢。筆者提出的方法并不是時間成本最高的算法。
表6 算法運算時間對比
值得注意的是,所有的實驗結(jié)果都顯示領(lǐng)域自適應(yīng)方法的性能優(yōu)于標準的機器學(xué)習(xí)方法。這進一步驗證了當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同的領(lǐng)域時,導(dǎo)致分類性能差的原因主要是因為域間分布不同。如果能夠盡可能地減少源域和目標域之間的分布差異,就能利用源域充分標記的樣本來學(xué)習(xí)未標記的目標樣本,使得使用源域內(nèi)的標簽信息成為了可能。但是在學(xué)習(xí)新的跨領(lǐng)域特征表示時,也應(yīng)該考慮保持原始特征的判別能力,否則一味地減少分布差異,容易導(dǎo)致目標樣本不可分,這對分類任務(wù)十分不利。并且也不能忽視數(shù)據(jù)的局部結(jié)構(gòu)信息,否則會導(dǎo)致模型的泛化性能差,容易引起過擬合問題。這3點對于學(xué)習(xí)分類器都有良好的促進作用,能夠得到更準確的目標分類器。筆者提出的方法將上述的3個目標融合為一個框架,在多個跨域數(shù)據(jù)集任務(wù)上的實驗結(jié)果表明了該方法的強判別性、泛化性和有效性。本研究更注重于分類精度的提升,結(jié)合源域類間稀疏性約束與圖正則項后的目標函數(shù)模型較為復(fù)雜,其分類精度的提升是犧牲了一定的時間復(fù)雜度換取的。
筆者提出了一種判別與結(jié)構(gòu)信息保持的無監(jiān)督領(lǐng)域自適應(yīng)方法。在源域至目標域的知識遷移過程中,通過松弛標簽矩陣和源域類間稀疏約束充分的保留了源域的判別性能,聯(lián)合自適應(yīng)圖約束能夠在保留樣本的幾何結(jié)構(gòu)同時避免學(xué)習(xí)過擬合的問題。大量實驗結(jié)果表明,在遷移過程中保留這些重要屬性對模型分類性能提高的有效性。