張海濤,蘇 琳
遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105
隨著近年來(lái)深度學(xué)習(xí)在人工智能領(lǐng)域的廣泛應(yīng)用,圖像分類準(zhǔn)確度達(dá)到了新的高度。但由于傳統(tǒng)分類任務(wù)的每一個(gè)類別均要收集大量的訓(xùn)練數(shù)據(jù),同時(shí)還要逐一地進(jìn)行人工標(biāo)注,費(fèi)時(shí)費(fèi)力且成本昂貴,對(duì)于某些稀有對(duì)象獲取數(shù)據(jù)還較為困難,因此零樣本圖像識(shí)別成為近年來(lái)機(jī)器視覺(jué)領(lǐng)域的研究熱點(diǎn)之一。零樣本學(xué)習(xí)(zero-shot learning,ZSL)的主要思想在于模仿人類對(duì)接觸新事物學(xué)習(xí)以及邏輯推理的過(guò)程。例如,人類在未見(jiàn)過(guò)某種動(dòng)物的情況下,通過(guò)一些語(yǔ)義描述就可以推測(cè)識(shí)別出該類動(dòng)物,這樣的一個(gè)“觸類旁通”學(xué)習(xí)過(guò)程可以總結(jié)為利用常識(shí)或先驗(yàn)性知識(shí)的語(yǔ)義描述來(lái)對(duì)已知類和未知類之間建立聯(lián)系。
大部分ZSL是基于嵌入模型的學(xué)習(xí)[1-7],即學(xué)習(xí)一個(gè)兼容性的跨模態(tài)映射函數(shù),將兩個(gè)模態(tài)下的特征嵌入到一個(gè)空間后,進(jìn)行最近鄰搜索來(lái)預(yù)測(cè)未知類別標(biāo)簽。由于不同模態(tài)之間的特征有很大的語(yǔ)義間隔,同時(shí)已知類和未知類是完全不同的類別,僅從已知類學(xué)習(xí)的嵌入模型在用于未知類預(yù)測(cè)時(shí)會(huì)因?yàn)槿鄙傥粗悩颖径a(chǎn)生偏差。
近來(lái),基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[8]或變分自編碼器(variational autoencoder,VAE)[9]生成模型的零樣本學(xué)習(xí)[10-14]逐漸發(fā)展起來(lái),即對(duì)未知類生成樣本(特征),以控制已知類和未知類之間的比率。這種方法不僅避免了空間映射,縮小了語(yǔ)義間隔,還將ZSL轉(zhuǎn)換成傳統(tǒng)的分類任務(wù),減輕了可見(jiàn)類和不可見(jiàn)類之間的數(shù)據(jù)不平衡,在準(zhǔn)確率上有一定的提高。但由于GAN在訓(xùn)練過(guò)程中的不穩(wěn)定性,VAE成為更好的選擇,如Schonfeld等[12]提出的交叉對(duì)齊變分自編碼器模型(cross and distribution aligned VAE,CADA-VAE),將生成的低維視覺(jué)特征和語(yǔ)義特征映射到潛在空間,根據(jù)潛在特征進(jìn)行分類。然而,這些生成方法大多建立在屬性注釋、詞向量文本描述這些語(yǔ)義輔助信息上。當(dāng)輔助信息差異很小的情況下,生成的特征會(huì)有一些歧義,例如:使用屬性“stripe”為斑馬生成樣本時(shí),另一個(gè)同樣標(biāo)注了“stripe”的老虎也可能獲得與斑馬相似的合成樣本(即域偏移問(wèn)題[15]),而這一問(wèn)題在很大程度上會(huì)影響分類結(jié)果。
基于此,為了更好地提高輔助語(yǔ)義信息的有效性,緩解域偏移問(wèn)題,提升分類準(zhǔn)確率,本文提出了結(jié)合知識(shí)圖譜和變分自編碼器零樣本識(shí)別模型(variational auto-encoder combined with knowledge graph zero-shot learning,KG-VAE)。該模型以類別間的相關(guān)性做邊,以類別標(biāo)簽的單詞嵌入為類別節(jié)點(diǎn),構(gòu)建知識(shí)圖譜(knowledge graph,KG)作為語(yǔ)義輔助信息庫(kù),聯(lián)合類別分級(jí)信息,類別文本描述和詞向量,涵蓋豐富且有層次的輔助信息,同時(shí)將KG嵌入到生成模型VAE中,以減小生成特征的歧義性,使其更好地保留不同模態(tài)下的判定信息,促進(jìn)知識(shí)遷徙。模型在CUB、SUN、AWA1、AWA2四個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果證明KG-VAE達(dá)到了較好的分類準(zhǔn)確率。
早期零樣本方法基于屬性的預(yù)測(cè),由Lampert等[16]提出的基于語(yǔ)義屬性的零樣本學(xué)習(xí)的直接屬性預(yù)測(cè)模型(direct attribute prediction,DAP)和間接屬性預(yù)測(cè)模型(indirect attribute prediction,IAP)模型,兩個(gè)模型奠定了零樣本圖像分類模型的基礎(chǔ)框架。
后續(xù)發(fā)展的零樣本分類大多是基于映射空間的:(1)將視覺(jué)特征嵌入到語(yǔ)義空間,F(xiàn)rome等[1]以及Akata等[2-3]提出的均是學(xué)習(xí)從視覺(jué)空間到語(yǔ)義空間的映射函數(shù)以及其他相似性度量來(lái)比較嵌入的視覺(jué)和語(yǔ)義特征從而進(jìn)行分類;(2)將語(yǔ)義特征嵌入到視覺(jué)空間,Kodirov等[7]使用語(yǔ)義自編碼器進(jìn)行零樣本分類識(shí)別,從語(yǔ)義空間到視覺(jué)空間的映射可以緩解樞紐點(diǎn)問(wèn)題(hubness problem)[17];(3)將視覺(jué)特征和語(yǔ)義特征共同嵌入到一個(gè)潛在空間,Romera-Paredes等[4]將兩個(gè)模態(tài)特征映射到一個(gè)空間,在嵌入空間中進(jìn)行最近鄰搜索以預(yù)測(cè)類別標(biāo)簽。Changpinyo等[6]通過(guò)對(duì)齊類嵌入空間和加權(quán)二分圖的合成分類器進(jìn)行分類。
而近年來(lái),基于GAN和VAE的生成模型零樣本學(xué)習(xí)得到了廣泛的研究,Xian等[10]提出F-CLSWGAN基于WGAN[18]增加了分類正則化,以此生成更具有判別性的視覺(jué)特征來(lái)確保分類準(zhǔn)確率;Zhu等[14]提出的ABPZSL通過(guò)優(yōu)化生成器和反向傳播函數(shù)改進(jìn)GAN,提高分類準(zhǔn)確率;但由于GAN在訓(xùn)練過(guò)程中的不穩(wěn)定性,VAE成為更好的選擇,Mishra等[11]提出的CVAE模型通過(guò)VAE學(xué)習(xí)生成潛在特征,進(jìn)而進(jìn)行零樣本分類;Schonfeld等[12]提出的交叉對(duì)齊變分自編碼器模型(CADA-VAE),將生成的低維視覺(jué)特征和語(yǔ)義特征映射到潛在空間,根據(jù)潛在特征進(jìn)行分類。
圖(graph)是由節(jié)點(diǎn)(vertex)和邊(edge)構(gòu)成的,符號(hào)表示為G=(V,E)。知識(shí)圖譜(KG)[19]本質(zhì)上是語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù),可以將其解釋為多關(guān)系圖,它包含多種類型的節(jié)點(diǎn)和邊,節(jié)點(diǎn)表示語(yǔ)義符號(hào),邊表示語(yǔ)義之間的關(guān)系。
近來(lái),研究者們開(kāi)始將知識(shí)圖譜與零樣本識(shí)別相結(jié)合,Wang等[19]和Kampffmeyer等[20]使用GCN聚集知識(shí)圖譜中的語(yǔ)義信息生成語(yǔ)義向量后與相應(yīng)視覺(jué)特征向量進(jìn)行比對(duì)計(jì)算,得出相似性分?jǐn)?shù);Liu等[21]則是在GCN的基礎(chǔ)上引入“屬性傳播機(jī)制”,通過(guò)最近鄰將分類器將圖像映射到與圖像嵌入的屬性向量最接近的類中;以上三種方法均是通過(guò)GCN學(xué)習(xí)知識(shí)圖譜中的語(yǔ)義信息,比對(duì)兩個(gè)模態(tài)特征訓(xùn)練分類器。然而不同模態(tài)的特征具有較大的語(yǔ)義間隔,會(huì)對(duì)分類結(jié)果產(chǎn)生影響。本文將知識(shí)圖譜結(jié)合到生成模型中,對(duì)不同模態(tài)特征通過(guò)生成低維向量后進(jìn)行交叉對(duì)齊,縮小了語(yǔ)義鴻溝,促進(jìn)了知識(shí)遷移。
圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)[22]的引入最初是為了解決半監(jiān)督的目標(biāo)分類問(wèn)題。GCN通過(guò)一系列卷積操作在圖結(jié)構(gòu)的節(jié)點(diǎn)之間傳播信息,并獲取圖數(shù)據(jù)的相關(guān)性,對(duì)此模型通過(guò):
在圖G=(V,E)上進(jìn)行類似卷積一樣的局部聚合,輸入為:
(1)特征矩陣X∈Rn×d(n為節(jié)點(diǎn)數(shù),d為節(jié)點(diǎn)的特征維數(shù)),其中{xi∈X}ni=1,xi為每個(gè)節(jié)點(diǎn)的特征向量,B為偏差項(xiàng)。
在GCN的每一層,卷積運(yùn)算通過(guò)聚集圖中定義的相鄰節(jié)點(diǎn)來(lái)計(jì)算每個(gè)節(jié)點(diǎn)的向量表示,并將其更新到下一層。將卷積運(yùn)算依次疊加,在最后一層輸出該節(jié)點(diǎn)的潛在嵌入。對(duì)于第i個(gè)類別節(jié)點(diǎn),其第k層矢量表示為:
其中,Ni為第i個(gè)類別節(jié)點(diǎn)的鄰居節(jié)點(diǎn),Wk和Bk分別為卷積層中的權(quán)重矩陣和偏差項(xiàng)。
變分自編碼器(VAE)[9]是基于變分貝葉斯(variational Bayes,VB)推斷的生成式網(wǎng)絡(luò)結(jié)構(gòu)[9]。變分自編碼器包含編碼器和解碼器兩個(gè)過(guò)程,兩者的輸出都是受參數(shù)約束變量的概率密度分布。假設(shè)原始數(shù)據(jù)集為X,生成數(shù)據(jù)樣本集合為X^,產(chǎn)生的中間變量為Z。其中X是一個(gè)高維的隨機(jī)向量,Z是一個(gè)相對(duì)低維的隨機(jī)向量,該模型可以分成如下過(guò)程:
(1)推斷網(wǎng)絡(luò)即編碼器根據(jù)輸入變量建立潛在變量后驗(yàn)分布qφ(z|x)的過(guò)程。該過(guò)程會(huì)產(chǎn)生兩個(gè)向量:均值μ和標(biāo)準(zhǔn)差σ。
(2)生成網(wǎng)絡(luò)即解碼器將從qφ(z|x)中采樣得到的數(shù)據(jù)建立輸出變量條件分布pθ(x|z)的過(guò)程,該過(guò)程把標(biāo)準(zhǔn)差向量中采樣加到均值向量上,然后輸入到生成網(wǎng)絡(luò)中。
其中,φ指推斷網(wǎng)絡(luò)的所有參數(shù),θ指生成網(wǎng)絡(luò)的所有參數(shù),通過(guò)KL散度(Kullback-Leibler)[23]來(lái)衡量?jī)蓚€(gè)分布之間的相似度,并通過(guò)優(yōu)化約束參數(shù)φ和θ使KL散度最小化。即:
零樣本學(xué)習(xí)的形式化數(shù)學(xué)定義為:給定符號(hào)X表示圖像的特征空間,X={Xtr,Xte},其中,Xtr為已知類圖像,Xte為未知類圖像;符號(hào)Y表示類別標(biāo)簽,Y={Ytr,Yte},其中,Ytr表示已知類類別標(biāo)簽,Yte表示未知類類別標(biāo)簽,Ytr和Yte之間互斥,即,Ytr?Yte=?;符號(hào)Tr表示由N個(gè)已知類圖像特征及其標(biāo)簽組成的訓(xùn)練數(shù)據(jù)集,Tr={Xtr,Ytr},符號(hào)Te表示由M個(gè)在訓(xùn)練數(shù)據(jù)集中未曾出現(xiàn)且不帶標(biāo)簽的圖像組成的測(cè)試數(shù)據(jù)集,Te={Xte,Yte}。零樣本學(xué)習(xí)的任務(wù)是利用Tr訓(xùn)練分類器來(lái)實(shí)現(xiàn)對(duì)Te的精準(zhǔn)分類,先使用Xtr和Ytr對(duì)模型進(jìn)行訓(xùn)練,再通過(guò)已知類和未知類之間知識(shí)遷移,實(shí)現(xiàn)對(duì)未知類的預(yù)測(cè),即:f:(Xte,(Xtr,Ytr))→Yte。
由于ZSL的測(cè)試階段設(shè)置較為理想,不能真實(shí)反映現(xiàn)實(shí)世界中物體識(shí)別的情景,由此提出了廣義零樣本學(xué)習(xí)(generalized zero-shot learning,GZSL)[24],它與傳統(tǒng)的零樣本識(shí)別的區(qū)別在于不再將測(cè)試數(shù)據(jù)強(qiáng)制認(rèn)定為僅來(lái)自未知類別,而是對(duì)測(cè)試數(shù)據(jù)的來(lái)源做更松弛化的假設(shè),即測(cè)試數(shù)據(jù)可以來(lái)自于所有類別中的任意對(duì)象類。
本文提出了一種結(jié)合知識(shí)圖譜和變分自編碼器零樣本識(shí)別模型KG-VAE,該模型融合了嵌入模型和生成模型,包括訓(xùn)練模型階段和分類識(shí)別階段。訓(xùn)練模型階段分為三個(gè)部分:(1)對(duì)視覺(jué)特征學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練。訓(xùn)練圖像Ii輸入CNN卷積神經(jīng)網(wǎng)絡(luò),將提取到的圖像特征Xi通過(guò)VAE編碼成低維特征向量Zi,投入潛在特征空間。(2)對(duì)語(yǔ)義特征學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練。將類別語(yǔ)義向量(如詞嵌入向量)送入基于知識(shí)圖譜的深度神經(jīng)網(wǎng)絡(luò)模塊,通過(guò)圖變分自編碼器對(duì)圖中的節(jié)點(diǎn)進(jìn)行聚合更新后編碼生成新的低維語(yǔ)義向量Zj,投入潛在特征空間。(3)對(duì)每個(gè)模態(tài)特定解碼器的訓(xùn)練。將生成的潛在向量Zi和Zj,在類別相同的條件下,分別用另一模態(tài)的解碼器進(jìn)行解碼,重構(gòu)原始數(shù)據(jù),即,每個(gè)模態(tài)的解碼器由提取到的其他模態(tài)潛在特征向量進(jìn)行訓(xùn)練。在此基礎(chǔ)上,訓(xùn)練一個(gè)softmax分類器。分類識(shí)別階段則是利用學(xué)習(xí)好的網(wǎng)絡(luò)融合未知類視覺(jué)和語(yǔ)義知識(shí)推斷出樣本的類別。模型結(jié)構(gòu)圖如圖1所示。
圖1 KG-VAE模型結(jié)構(gòu)Fig.1 KG-VAE model architecture
2.2.1 基于變分自編碼器(VAE)的生成模型
模型的目標(biāo)是在一個(gè)公共空間中學(xué)習(xí)兩種模態(tài)特征,為了減少有效的判定信息丟失,模型通過(guò)變分自編碼器對(duì)視覺(jué)特征進(jìn)行編碼,生成低維特征向量投入公共潛在空間。
變分自編碼器包括編碼器和解碼器兩部分,如圖1所示,編碼器E對(duì)圖像特征Xi進(jìn)行編碼生成潛在向量Zi,后經(jīng)由解碼器D重構(gòu)輸出,因此基于變分自編碼器的生成模型的損失函數(shù)為:
其中第一項(xiàng)為重構(gòu)誤差,用于測(cè)量網(wǎng)絡(luò)重構(gòu)數(shù)據(jù)的程度,以防重構(gòu)數(shù)據(jù)過(guò)度偏離原始數(shù)據(jù),第二項(xiàng)為推理模型的誤差,pθ(z)服從多元高斯分布。
2.2.2 知識(shí)圖譜嵌入
模型的語(yǔ)義特征由知識(shí)圖譜(KG)提供。KG選擇WordNet作為構(gòu)建基礎(chǔ),以類別標(biāo)簽的單詞嵌入為節(jié)點(diǎn),節(jié)點(diǎn)包括訓(xùn)練數(shù)據(jù)中的已知類別以及測(cè)試數(shù)據(jù)的未知類別,每個(gè)節(jié)點(diǎn)都代表一種語(yǔ)義類別,即V={V1,V2,…,Vn};若節(jié)點(diǎn)在WordNet中相關(guān)聯(lián),則連接對(duì)應(yīng)的相關(guān)聯(lián)節(jié)點(diǎn),以類別間相關(guān)性為基礎(chǔ)構(gòu)建邊,即以“父-子類”對(duì)類別間的層次關(guān)系進(jìn)行建模,E={E1,E2,…,En},而類別之間的相關(guān)性由n×n維鄰接矩陣A表示。
在KG嵌入過(guò)程中,如圖1所示,模型通過(guò)圖變分自編碼器(variational graph auto-encoder,VGAE)[25]學(xué)習(xí)函數(shù)對(duì)KG中每一個(gè)節(jié)點(diǎn)進(jìn)行聚合更新得到語(yǔ)義向量編碼,生成一組聚集相關(guān)節(jié)點(diǎn)信息的低維語(yǔ)義向量S={S1,S2,…,Sn}作為類別語(yǔ)義嵌入。VGAE經(jīng)過(guò)第一層圖卷積網(wǎng)絡(luò)生成低維特征矩陣:
編碼器(推理模型)由圖卷積網(wǎng)絡(luò)GCN組成,它以鄰接矩陣A和特征矩陣X作為輸入,輸出嵌入空間的變量Z。后通過(guò)第二層圖卷積網(wǎng)絡(luò)生成節(jié)點(diǎn)均值μ和節(jié)點(diǎn)方差log σ2:
然后從分布中采樣Z。
解碼器(生成模型)由嵌入變量Z之間的內(nèi)積定義,解碼器的輸出是一個(gè)重構(gòu)的鄰接矩陣A~:
圖變分自編碼器的損失函數(shù):
其中W0、W1為待學(xué)習(xí)的圖卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù),第一項(xiàng)為向量分布,第二項(xiàng)為正態(tài)分布的KL散度,故圖變分自編碼器的損失函數(shù)可以簡(jiǎn)化為與變分自編碼器的損失函數(shù)結(jié)構(gòu)一致:
2.2.3 交叉對(duì)齊約束
KG-VAE模型利用兩組變分自編碼器VAE和VGAE分別學(xué)習(xí)兩種模態(tài)(視覺(jué)特征和語(yǔ)義特征)的向量表示,為了提高模型的魯棒性,引入變分對(duì)齊損失LVD和變分交叉損失LVC對(duì)模型進(jìn)行約束。
變分對(duì)齊損失LVD:在兩個(gè)模態(tài)的分布之間,通過(guò)最小化編碼過(guò)程中產(chǎn)生的均值向量和標(biāo)準(zhǔn)差向量之間的距離,來(lái)緩解不同模態(tài)下特征之間的語(yǔ)義間隔以及維度差帶來(lái)的判定性信息丟失問(wèn)題,距離采用WGAN[18]中提出的2-Wasserstein距離,公式如下:
其中,{μi}2i=1和{σj}2j=1分別為編碼過(guò)程中產(chǎn)生的均值向量和標(biāo)準(zhǔn)差向量。
則變分對(duì)齊損失LVD為:
變分交叉損失LVC:為了減少生成重構(gòu)過(guò)程中特征信息損耗緩解信息域偏移問(wèn)題,增強(qiáng)編碼器對(duì)不同模態(tài)特征融合的能力,通過(guò)解碼另一模態(tài)同類別的潛在特征來(lái)重建原始數(shù)據(jù),即:每個(gè)解碼器都是在另一模態(tài)獲得的潛在特征向量上訓(xùn)練的。
則變分交叉損失LVC為:
式中,Ei(i=1,2)為第i個(gè)模態(tài)的編碼器,Dj(j=1,2)為第j個(gè)模態(tài)的解碼器,i≠j,X(i)和X(j)分別表示同一類別標(biāo)簽下的視覺(jué)特征和語(yǔ)義特征。
LVC的展開(kāi)式為:
其中,x、s為視覺(jué)和語(yǔ)義兩個(gè)模態(tài)的原始特征;x′(zi)i=1,2、s′(zi)i=1,2視覺(jué)和語(yǔ)義兩個(gè)模態(tài)重構(gòu)特征。
2.2.4 損失函數(shù)
綜上所述,本文提出的KG-VAE模型利用兩組變分自編碼器VAE和VGAE學(xué)習(xí)視覺(jué)特征和語(yǔ)義特征的向量表示,同時(shí)引入變分對(duì)齊損失LVD和變分交叉損失LVC對(duì)模型進(jìn)行約束。因此KG-VAE的目標(biāo)函數(shù)包括兩組變分自編碼器的損失以及變分對(duì)齊損失和變分交叉損失,總損失函數(shù)L可表示為:
其中,ζ和γ是變分對(duì)齊損失和變分交叉損失的權(quán)重值,具體設(shè)置詳見(jiàn)3.4節(jié)。設(shè)置所有重構(gòu)誤差均使用L1距離表示。通過(guò)最小化公式(14)來(lái)訓(xùn)練得到本文所提模型。
本文使用零樣本圖像識(shí)別廣泛使用的四個(gè)數(shù)據(jù)集CUB、SUN、AWA1、AWA2來(lái)對(duì)模型方法進(jìn)行評(píng)估。如表1所示,CUB和SUN是細(xì)粒度數(shù)據(jù)集,CUB有200種鳥(niǎo)類的圖片,共11 788張圖像,可見(jiàn)類別為150類,不可見(jiàn)類別為50類;SUN有717場(chǎng)景類,共14 340張圖片,可見(jiàn)類別為645類,不可見(jiàn)類別為72類;AWA1和AWA2是粗粒度數(shù)據(jù)集,有50個(gè)動(dòng)物類別,分別有30 475和37 322張圖像,可見(jiàn)類別均為40類,不可見(jiàn)類別為10類。所有圖片經(jīng)由ResNet-101卷積神經(jīng)網(wǎng)絡(luò)最終池化層,得到的特征維數(shù)為2 048維。
表1 實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)信息Table 1 Details of experimental datasets
模型使用預(yù)先訓(xùn)練的ResNet-101卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取VAE編碼的圖像特征,經(jīng)由卷積網(wǎng)絡(luò)的最終池化層,得到的特征維數(shù)為2 048維。對(duì)于語(yǔ)義特征,使用在Wilkipedia訓(xùn)練的GloVe文本模型作為知識(shí)圖譜中的特征表示,同時(shí)利用這些表示在WordNet中的上下位關(guān)系圖構(gòu)建知識(shí)圖譜,通過(guò)圖卷積層生成和ResNet-101輸出特征同為2 048維的語(yǔ)義特征向量。VAE和VGAE的編碼器和解碼器之間均帶有一個(gè)隱藏層的多層感知器。模型使用Adam[26]優(yōu)化器通過(guò)隨機(jī)梯度下降對(duì)模型進(jìn)行100次迭代訓(xùn)練,批大小為50,每批訓(xùn)練都包含來(lái)自不同類別的圖像特征和語(yǔ)義特征,但每個(gè)匹配的特征對(duì)必須來(lái)自同一類別。模型訓(xùn)練完成后,通過(guò)訓(xùn)練好的深度嵌入網(wǎng)絡(luò)和編碼器將已知類和未知類的圖像特征和類嵌入特征投射到潛在空間,潛在特征的大小設(shè)為64維,然后利用潛在特征對(duì)softmax線性分類器進(jìn)行訓(xùn)練和測(cè)試。
為了減輕每個(gè)類別的測(cè)試數(shù)據(jù)不平衡所導(dǎo)致的偏差,模型將文獻(xiàn)[27]以算法在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上得到的類平均準(zhǔn)確度為基礎(chǔ)的調(diào)和平均準(zhǔn)確度(harmonic mean accuracy)作為零樣本分類性能評(píng)價(jià)指標(biāo),其中類平均準(zhǔn)確度為:
其中Dy是y類數(shù)據(jù)標(biāo)簽對(duì)的數(shù)據(jù)集,y^是對(duì)圖像X的預(yù)測(cè)。
文獻(xiàn)[27]提出的調(diào)和平均準(zhǔn)確度(harmonic mean accuracy)計(jì)算公式為:
其中ACCs和ACCu分別表示在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上得到的類平均準(zhǔn)確度。
經(jīng)過(guò)多次實(shí)驗(yàn)證明,對(duì)于目標(biāo)函數(shù)(14)L=LVAE+LVGAE+ζLVD+γLVC中的權(quán)重參數(shù)ζ和γ是經(jīng)由大量實(shí)驗(yàn)的最優(yōu)輸出而設(shè)定。ζ和γ初始值設(shè)為0,其中ζ從第6次開(kāi)始到第22次為止,每次迭代以0.54的倍速增加,γ從第21次開(kāi)始到第75次結(jié)束,每次迭代以0.044的倍速增加。本文在數(shù)據(jù)集CUB和AWA1上采用控制變量法驗(yàn)證兩個(gè)權(quán)重參數(shù)對(duì)實(shí)驗(yàn)的影響,實(shí)驗(yàn)結(jié)果如圖2、3所示。對(duì)于參數(shù)ζ,當(dāng)ζ∈(7,8)時(shí),分類準(zhǔn)確率趨于穩(wěn)定,ζ=8.1時(shí)達(dá)到峰值。當(dāng)γ=2.376時(shí),分類準(zhǔn)確率達(dá)到峰值。若ζ和γ繼續(xù)增加,分類準(zhǔn)確率會(huì)有所下降。與此同時(shí),對(duì)比圖2、3的峰值分類準(zhǔn)確率,可以得出γ對(duì)實(shí)驗(yàn)結(jié)果的作用力高于ζ,這說(shuō)明在交叉重構(gòu)視覺(jué)和語(yǔ)義模態(tài)的潛在特征時(shí),變分交差損失有效地約束了不同模態(tài)間的有效特征保留,縮小了對(duì)類別圖像特征的分布的偏向,減小了跨模態(tài)間的語(yǔ)義鴻溝,有效地緩解了域偏移。
圖2 權(quán)重參數(shù)ζ對(duì)分類結(jié)果影響Fig.2 Effect of weight parameter ζ on classification results
圖3 權(quán)重參數(shù)γ對(duì)分類結(jié)果影響Fig.3 Effect of weight parameter γ on classification results
在零樣本圖像識(shí)別實(shí)驗(yàn)中,以復(fù)現(xiàn)的CADA-VAE[12]模型結(jié)果作為基準(zhǔn)(baseline),為了更好地與基準(zhǔn)模型做對(duì)比,本文沿用了CADA-VAE模型的參數(shù)。同時(shí)基準(zhǔn)模型與本實(shí)驗(yàn)都是使用相同劃分的基準(zhǔn)數(shù)據(jù)集,故其余的對(duì)比實(shí)驗(yàn)結(jié)果均直接引用CADA-VAE論文中的分類準(zhǔn)確率。
實(shí)驗(yàn)結(jié)果如表2所示。表中,黑體為每列最優(yōu)值,“—”代表原文沒(méi)有對(duì)該數(shù)據(jù)集做實(shí)驗(yàn)。
表2 不同模型零樣本分類調(diào)和平均準(zhǔn)確率Table 2 ZSL harmonic mean accuracy of different models單位:%
從表2可以得出,對(duì)比嵌入模型DEVISE[1]、ALE[2]、SYNC[6]、SAE[7]、KG-VAE在所有數(shù)據(jù)集上明顯優(yōu)于這些方法;而對(duì)于生成視覺(jué)特征的CVAE[11]和F-CLSWGAN[10]模型,KG-VAE在數(shù)據(jù)集CUB和SUN上有一定幅度的提高;CUB和SUN屬于細(xì)粒度數(shù)據(jù)集,其中類別接近,特征差異小,對(duì)模型要求更高,而KG-VAE通過(guò)知識(shí)圖譜將類別信息層次結(jié)構(gòu)化后,有效地縮小了生成的輔助語(yǔ)義向量的誤差,促進(jìn)了已知類和未知類之間的知識(shí)轉(zhuǎn)移,提高了分類準(zhǔn)確率;此外,對(duì)比基準(zhǔn)模型(CADAVAE),KG-VAE在CUB、SUN、AWA1、AWA2四個(gè)數(shù)據(jù)集上分別提高了0.5、0.7、0.8、0.6個(gè)百分點(diǎn)。實(shí)驗(yàn)證明了知識(shí)圖譜的引入有效地保留了語(yǔ)義類別的核心特征,更精準(zhǔn)地對(duì)齊了同一類別不同模態(tài)之間的特征信息,緩解了域漂移問(wèn)題,提高了模型的泛化能力。
為了進(jìn)一步證明模型的有效性,以復(fù)現(xiàn)的CADAVAE[12]模型結(jié)果作為基準(zhǔn)(baseline)進(jìn)行廣義零樣本實(shí)驗(yàn),分別與12種主流的方法進(jìn)行對(duì)比實(shí)驗(yàn),包括經(jīng)典的ZSL方 法DEVISE[1]、ALE[2]、SJE[3]、EZSL[4]、LATEM[5]、SYNC[6]、SAE[7],視 覺(jué) 特 征 生 成 模 型F-CLSWGAN[10]、CVAE[11]、SE[13]和ABPZSL[14]。本實(shí)驗(yàn)沿用了基準(zhǔn)模型的參數(shù)設(shè)置,實(shí)驗(yàn)結(jié)果如表3所示。
表3中,黑體為每列最優(yōu)值,“—”代表原文沒(méi)有對(duì)該數(shù)據(jù)集做實(shí)驗(yàn),S為可見(jiàn)類別的分類準(zhǔn)確率,U為不可見(jiàn)類別的分類準(zhǔn)確率,H為兩者的調(diào)和平均準(zhǔn)確率。同時(shí)基準(zhǔn)模型與本實(shí)驗(yàn)都是使用相同劃分的基準(zhǔn)數(shù)據(jù)集,故其余的對(duì)比實(shí)驗(yàn)結(jié)果均直接引用CADA-VAE論文中的分類準(zhǔn)確率。
表3 不同模型廣義零樣本分類調(diào)和平均準(zhǔn)確率Table 3 GZSL harmonic mean accuracy of different models 單位:%
對(duì)于經(jīng)典的ZSL方法,DEVISE[1]、ALE[2]、SJE[3]、EZSL[4]、LATEM[5]使用線性相容函數(shù)或其他相似性度量來(lái)比較嵌入的視覺(jué)和語(yǔ)義特征從而進(jìn)行分類;SYNC[6]通過(guò)對(duì)齊類嵌入空間和加權(quán)二分圖的合成分類器進(jìn)行分類,SAE[7]使用語(yǔ)義自編碼器進(jìn)行零樣本分類識(shí)別。對(duì)于F-CLSWGAN[10]、CVAE[11]、SE[13]、ABPZSL[14]模型學(xué)習(xí)生成人工視覺(jué)數(shù)據(jù),從而將零樣本學(xué)習(xí)問(wèn)題轉(zhuǎn)化為增加樣本數(shù)據(jù)任務(wù)的生成模型。與這些方法相比,KG-VAE的分類準(zhǔn)確度有著不同幅度的提高。此外,與基準(zhǔn)方法CADA-VAE相比,KG-VAE在CUB、SUN、AWA1、AWA2四個(gè)數(shù)據(jù)集分別提高了0.5、0.6、0.7、0.5個(gè)百分點(diǎn);實(shí)驗(yàn)證明,本文模型具有良好的分類準(zhǔn)確率,在保持兩個(gè)模態(tài)潛在核心特征和判定信息有效的同時(shí),知識(shí)圖譜的引進(jìn)有著積極的作用,豐富層次結(jié)構(gòu)化語(yǔ)義信息比單一的屬性輔助信息有著更好的擴(kuò)展性,更為有效。KG-VAE模型在廣義零樣本圖像識(shí)別方面有著一定的提高。
為了進(jìn)一步驗(yàn)證知識(shí)圖譜對(duì)分類準(zhǔn)確率的影響,本文同基準(zhǔn)方法(CADA-VAE)[12]一樣,在廣義零樣本圖像識(shí)別下的CUB數(shù)據(jù)集上,通過(guò)設(shè)置不同損失函數(shù)以及相應(yīng)的變量,對(duì)相應(yīng)的模型進(jìn)行消融實(shí)驗(yàn)。
公式(14)L=LVAE+LVGAE+ζLVD+γLVC為模型的損失函數(shù);當(dāng)LVD=0,LVC=0時(shí),此時(shí)的損失函數(shù)記為L(zhǎng)1;當(dāng)LVC=0時(shí),此時(shí)的損失函數(shù)記為L(zhǎng)2;當(dāng)LVD=0時(shí),此時(shí)的損失函數(shù)記為L(zhǎng)3。
在消融實(shí)驗(yàn)中,在各個(gè)模型上比較不同輔助信息——屬性向量嵌入(Att)和知識(shí)圖譜(KG)嵌入的分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 消融實(shí)驗(yàn)結(jié)果Fig.4 Results of ablation experiments
從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),知識(shí)圖譜的引入對(duì)所有模型起著正向的作用,對(duì)比屬性向量嵌入,知識(shí)圖譜嵌入在有著不同幅度的提高,在對(duì)應(yīng)的子模型上均提高了約0.5%,證明了以類的層次關(guān)系作為輔助語(yǔ)義,更好地鞏固了類名詞向量和視覺(jué)特征的映射關(guān)系,比只以屬性向量嵌入作為類語(yǔ)義信息具有更好的性能,對(duì)提高分類準(zhǔn)確率有著積極的意義。由此可以得出結(jié)論,將包含各種類邊信息的知識(shí)圖譜結(jié)合到生成的零樣本識(shí)別模型時(shí),分類準(zhǔn)確率會(huì)隨著類語(yǔ)義信息的豐富而有所提高,證明了論文算法的有效性。
為了更好地緩解ZSL中的域漂移問(wèn)題和語(yǔ)義間隔問(wèn)題,本文提出了一種結(jié)合知識(shí)圖譜的變分自編碼器零樣本識(shí)別算法(KG-VAE)。通過(guò)將層次結(jié)構(gòu)化的知識(shí)圖譜嵌入到生成模型中,對(duì)齊公共嵌入空間中不同模態(tài)下的變分自動(dòng)編碼器生成的潛在特征來(lái)學(xué)習(xí)跨模態(tài)映射關(guān)系,在此基礎(chǔ)上訓(xùn)練分類器。從實(shí)驗(yàn)結(jié)果來(lái)看,KG的引入對(duì)分類準(zhǔn)確率起著積極的作用,尤其是對(duì)細(xì)粒度數(shù)據(jù)集,有效地緩解了域漂移和不同模態(tài)特征間的語(yǔ)義間隔;實(shí)驗(yàn)證明,KG中豐富的語(yǔ)義信息對(duì)類別的表征能力更強(qiáng),對(duì)已知類和未知類知識(shí)遷移的效果更好。但模型中的知識(shí)圖譜還具有一定的局限性,可以融合更多的表征信息如屬性關(guān)系、類別關(guān)系權(quán)重等等,是未來(lái)研究的方向。