雷冬冬,王俊英,董方敏,臧兆祥,聶雄鋒
(三峽大學(xué) a.水電工程智能視覺(jué)監(jiān)測(cè)湖北省重點(diǎn)實(shí)驗(yàn)室;b.湖北省建筑質(zhì)量檢測(cè)裝備工程技術(shù)研究中心,湖北 宜昌 443002)
近年來(lái)服裝視覺(jué)的應(yīng)用日益廣泛,如模擬試衣間、同款搜圖、換裝游戲等,具有較大的潛在應(yīng)用價(jià)值。實(shí)際應(yīng)用中服裝視覺(jué)算法面臨各種挑戰(zhàn),如由模特姿勢(shì)引起的服裝變形和服裝遮擋,服裝款式、材質(zhì)和剪裁上的差異,以及同款服裝在“買(mǎi)家秀”和“賣(mài)家秀”中的差異等。神經(jīng)網(wǎng)絡(luò)作為解決視覺(jué)分析領(lǐng)域問(wèn)題的重要方法之一,得到了廣大研究人員的青睞。
神經(jīng)網(wǎng)絡(luò)在誕生之初吸收了生物學(xué)的原理本質(zhì),并在后續(xù)發(fā)展中脫離了生物細(xì)節(jié),使用更加講究效率的數(shù)理工科思維,從而取得成功。研究者們基于神經(jīng)網(wǎng)絡(luò)所做的服裝視覺(jué)分析工作[1-7]也取得了顯著成效,主要體現(xiàn)在服裝關(guān)鍵點(diǎn)檢測(cè)、服裝檢索和服裝的屬性預(yù)測(cè)等方面?;谧藨B(tài)估計(jì)的方法[8-9]通過(guò)對(duì)服裝姿態(tài)進(jìn)行估計(jì)消除了服裝姿態(tài)對(duì)服裝關(guān)鍵點(diǎn)檢測(cè)的影響?;诩s束的方法[3,10-11]在算法模型中加入語(yǔ)義約束,利用布局約束或空間關(guān)系等語(yǔ)義約束提高服裝關(guān)鍵點(diǎn)檢測(cè)的性能。基于注意力機(jī)制的方法[12-15]識(shí)別圖像的不同成分,使神經(jīng)網(wǎng)絡(luò)能夠在解決如服裝檢測(cè)、檢索、姿態(tài)估計(jì)等特定問(wèn)題時(shí)應(yīng)更多關(guān)注圖像中的哪些特征。
考慮到服裝的非剛性變形較大,不同模特姿態(tài)和服裝風(fēng)格下服裝的關(guān)鍵點(diǎn)存在較大的空間差異,本文提出一種基于混合域注意力(mixted domain attention, MDA)機(jī)制的服裝關(guān)鍵點(diǎn)定位及屬性預(yù)測(cè)算法,利用循環(huán)十字交叉注意力(recurrent criss-cross attention,RCCA)[16]模塊獲取服裝關(guān)鍵點(diǎn)之間潛在的空間關(guān)系,通過(guò)高效通道注意力(effective channel attention,ECA)[17]模塊獲得通道之間的交互信息,以期優(yōu)化算法模型的性能,提高服裝關(guān)鍵點(diǎn)定位、服裝分類(lèi)以及屬性預(yù)測(cè)效果。
基于混合域注意力機(jī)制的服裝關(guān)鍵點(diǎn)定位及屬性預(yù)測(cè)算法(MDA-DFA)是在Deep Fashion Analysis(DFA)[7]算法的基礎(chǔ)上,引入RCCA算法和ECA算法來(lái)融合空間域和通道域注意力機(jī)制,以便更好地提取服裝特征,最終提高服裝關(guān)鍵點(diǎn)定位和屬性預(yù)測(cè)效果。
DFA算法[7]主要是基于VGG-16網(wǎng)絡(luò),如圖1所示。該算法將原始圖像的大小調(diào)整為224像素×224像素,采取與VGG-16網(wǎng)絡(luò)相同的初始卷積操作,在Conv4_3層后利用連續(xù)的卷積和轉(zhuǎn)置卷積操作生成關(guān)鍵點(diǎn)熱圖進(jìn)行定位。關(guān)鍵點(diǎn)熱圖特征和Conv4_3卷積特征共同組合成新的注意力映射,使得DFA網(wǎng)絡(luò)可根據(jù)局部關(guān)鍵點(diǎn)和全局特征更靈活地聚焦服裝的重要功能部分。
圖1 DFA網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture of the DFA
DFA算法利用轉(zhuǎn)置卷積對(duì)特征圖進(jìn)行上采樣,獲得的關(guān)鍵點(diǎn)熱圖在具有高分辨率的同時(shí)未丟失信息,與輸入的服裝圖像具有相同的尺寸,可提高服裝關(guān)鍵點(diǎn)定位的準(zhǔn)確性。其以關(guān)鍵點(diǎn)熱圖為基礎(chǔ)產(chǎn)生統(tǒng)一的空間注意力機(jī)制,使網(wǎng)絡(luò)具有足夠的信息去增強(qiáng)或減弱特征,避免了特征選擇中的硬確定性約束,可取得較好的分類(lèi)和屬性預(yù)測(cè)效果。
因服裝關(guān)鍵點(diǎn)之間存在潛在的空間聯(lián)系,為獲得服裝圖像的全局特征,利用非局部空間連接算法中的RCCA算法獲取特征的全局聯(lián)系,從而捕獲關(guān)鍵點(diǎn)之間的空間關(guān)系。RCCA算法是將Criss-Cross Attention(CCA)重復(fù)操作R次,通過(guò)計(jì)算任意兩個(gè)位置間的交互直接捕捉遠(yuǎn)程的上下文信息,而不局限于相鄰的點(diǎn),相當(dāng)于構(gòu)造了1個(gè)和圖像尺寸相同的卷積核,因此可以獲得全局信息。
CCA[16]的運(yùn)算過(guò)程如圖2所示。給定局部特征映射F∈C×W×H,對(duì)F分別應(yīng)用1個(gè)帶有1×1濾波器的卷積層后,得到兩個(gè)特征映射Q和K,其中{Q,K}∈C′×W×H,C′為降維后的通道數(shù)。
圖2 CCA算法的細(xì)節(jié)Fig.2 The details of the CCA algorithm
得到Q和K后,通過(guò)Affinity運(yùn)算和歸一化處理進(jìn)一步生成注意力映射圖A∈(H+W-1)×(W×H)。在Q的空間維度的每個(gè)位置u都可以得到一個(gè)向量Qu∈C′。通過(guò)從與位置u在同一行或同一列的K中提取特征向量獲得集合Ωu∈(H+W-1)×C′。Ωi,u∈是Ωu的第i個(gè)元素。Affinity運(yùn)算的定義如式(1)所示。
(1)
式中:di,u為特征Qu和Ωi,u的關(guān)聯(lián)度,di,u∈D,i的取值范圍為1到H+W-1的整數(shù),D∈(H+W-1)×(W×H)。在D的通道維度上應(yīng)用Softmax層計(jì)算注意力映射圖A。
在F上應(yīng)用另一個(gè)帶有1×1的濾波器的卷積層生成V∈C×W×H用于特征自適應(yīng)[16]。在V的空間維度的每個(gè)位置u,都能得到1個(gè)向量Vu∈C和1個(gè)集合Φu∈(H+W-1)×C。集合Φu是V中與位置u同行或同列的特征向量的集合。上下文信息由式(2)定義的Aggregation運(yùn)算收集。
(2)
RCCA算法模塊首先將局部特征映射F輸入到CCA模塊中,聚集十字交叉路徑中的每個(gè)像素的上下文信息生成1個(gè)新的特征映射F′,則特征映射F′同時(shí)包含水平和垂直方向上的上下文信息。為獲得更豐富、密集的上下文信息,將特征映射F′再次輸入到CCA模塊中,并輸出特征映射F″。特征映射F″中的每個(gè)位置實(shí)際上收集了服裝圖像上所有像素的信息,捕獲了長(zhǎng)依賴(lài)關(guān)系。前后兩個(gè)CCA模塊可共享相同的參數(shù),避免增加額外的成本。
DFA算法采取均分權(quán)重的方法處理通道域中的圖像特征信息,然而,各通道域中的圖像特征信息對(duì)分類(lèi)和屬性預(yù)測(cè)的影響是各不相同的。因此,在提出的MDA-DFA算法中引入通道域注意力機(jī)制。通道域注意力機(jī)制的原理為通過(guò)建立不同通道之間的相關(guān)性,基于網(wǎng)絡(luò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道的重要程度,據(jù)此賦予每個(gè)通道不同的權(quán)重系數(shù),從而強(qiáng)化重要的特征并抑制不重要的特征。具體操作:在RCCA算法和關(guān)鍵點(diǎn)注意操作后,網(wǎng)絡(luò)的通道注意模塊根據(jù)通道對(duì)服裝分類(lèi)和屬性預(yù)測(cè)任務(wù)貢獻(xiàn)的程度為512個(gè)通道分配權(quán)重,然后將其與原始特征映射相乘,得到加權(quán)的服裝特征映射。
現(xiàn)有的通道注意力方法多致力于開(kāi)發(fā)復(fù)雜的網(wǎng)絡(luò)模塊以實(shí)現(xiàn)更好的性能,因此不可避免地增加了模型的復(fù)雜性。而ECA網(wǎng)絡(luò)在全局平均池化操作后,利用大小為k的一維卷積考量各通道及其k個(gè)鄰居,從而在不降維的情況下捕獲局部跨通道交互信息,克服了網(wǎng)絡(luò)模型的性能與復(fù)雜性之間的矛盾。給定不降維的聚合特征y∈C,通過(guò)式(3)學(xué)習(xí)通道注意力。
ω=σ(Wy)
(3)
式中:W為一個(gè)C×C的參數(shù)矩陣,使用帶狀矩陣即式(4)學(xué)習(xí)通道注意力。
(4)
對(duì)式(4)來(lái)說(shuō),計(jì)算yi的權(quán)重時(shí)只需考慮yi和它的k個(gè)鄰居之間的相互作用,如式(5)所示。
(5)
式中:Ωi,k為yi的k個(gè)相鄰的通道的集合。
為了進(jìn)一步提高性能,利用式(6)所示的方法使所有通道共享相同的學(xué)習(xí)參數(shù)。
(6)
這種讓所有通道共享相同學(xué)習(xí)參數(shù)的方法可以通過(guò)式(7)實(shí)現(xiàn)。
ω=σ(C1Dk(y))
(7)
式中:C1Dk表示卷積核大小為k的一維卷積。使用這種跨通道交互的方法只涉及k個(gè)參數(shù),在模型復(fù)雜度較低的情況下保證了ECA模塊的效率和性能。
給定通道數(shù)C,根據(jù)式(8)確定內(nèi)核大小k。
(8)
式中:|t|odd表示最接近t的奇數(shù)。將通道數(shù)代入式(8)計(jì)算得到k=5。
鑒于空間域注意力機(jī)制和通道域注意力機(jī)制在圖像特征提取方面的優(yōu)勢(shì),提出混合域注意力機(jī)制模型以充分利用兩個(gè)注意力的信息,從而獲得更好的服裝關(guān)鍵點(diǎn)定位和屬性預(yù)測(cè)效果。
MDA-DFA算法的整體架構(gòu)主要分為5個(gè)階段,如圖3所示。
圖3 MDA-DFA算法的網(wǎng)絡(luò)架構(gòu)Fig.3 The network architecture of MDA-DFA algorithm
階段1:利用VGG-16的前4層網(wǎng)絡(luò)提取原始服裝圖像的特征映射。
階段2:將階段1的輸出,通過(guò)RCCA模塊建立特征的全局聯(lián)系,預(yù)測(cè)服裝的關(guān)鍵點(diǎn)位置。
階段3:基于階段2的特征生成服裝關(guān)鍵點(diǎn)熱圖,將階段1得到的特征映射與熱圖進(jìn)行通道拼接,再輸入到空間注意力網(wǎng)絡(luò),得到加強(qiáng)服裝關(guān)鍵點(diǎn)信息后的特征映射。
階段4:將階段3得到的特征映射與初始特征進(jìn)行融合,再通過(guò)ECA網(wǎng)絡(luò)建模卷積特征各通道之間的作用關(guān)系,從而改善網(wǎng)絡(luò)模型的表達(dá)能力,更好地獲取服裝特征。
階段5:將階段4獲得的特征送入VGG-16第5層及之后的網(wǎng)絡(luò),再分別對(duì)服裝圖像進(jìn)行分類(lèi)和屬性預(yù)測(cè),得到相應(yīng)的結(jié)果。
試驗(yàn)采用的平臺(tái)配置為Inter i7 CPU,GTX1080GPU,16 GB內(nèi)存;軟件為Ubuntu操作系統(tǒng),Python 3.6語(yǔ)言在Pytorch框架下實(shí)現(xiàn)。
試驗(yàn)采用的數(shù)據(jù)集為當(dāng)下權(quán)威的服裝評(píng)測(cè)數(shù)據(jù)集之一,香港中文大學(xué)多媒體實(shí)驗(yàn)室開(kāi)源的大型服裝數(shù)據(jù)集Deep Fashion[6]。該數(shù)據(jù)集含有非常豐富的標(biāo)注信息,包括服裝主體bounding box、服裝類(lèi)別、1 000種屬性(細(xì)節(jié)特征)、8個(gè)服裝關(guān)鍵點(diǎn);數(shù)據(jù)中有正常、中等、嚴(yán)重等不同程度的變形圖片;服裝圖片的視角按照人體穿著分為上半身、下半身、全身,其服裝關(guān)鍵點(diǎn)個(gè)數(shù)分別為6、4、8。
給定一個(gè)服裝圖像I,目標(biāo)是預(yù)測(cè)服裝關(guān)鍵點(diǎn)的位置L(見(jiàn)式(9))、服裝類(lèi)別B以及服裝屬性向量A。在DeepFashion數(shù)據(jù)集中,所有服裝被分為50類(lèi),類(lèi)別標(biāo)簽滿足0≤B≤49。服裝分類(lèi)預(yù)測(cè)可視為一個(gè)1-of-k(啞編碼)的分類(lèi)問(wèn)題,如“14”表示斗篷(Poncho),屬于上身衣服,“25”表示牛仔褲(Jeans),屬于下身衣服,“40”表示連衣裙(Dress),屬于全身衣服;屬性預(yù)測(cè)為多標(biāo)簽分類(lèi)問(wèn)題,標(biāo)簽向量A=(a1,a2,…,an),其中n為屬性總數(shù),ai∈{0,1},ai=1表示服裝圖像具有第i個(gè)屬性,反之則不具有。
L={(x1,y1),(x2,y2),…,(xnl,ynl)}
(9)
式中:xi和yi是每個(gè)關(guān)鍵點(diǎn)的坐標(biāo),nl為關(guān)鍵點(diǎn)的總數(shù)。試驗(yàn)采用的數(shù)據(jù)集標(biāo)注是8個(gè)關(guān)鍵點(diǎn),故nl=8。
設(shè)計(jì)5組對(duì)比試驗(yàn)以改進(jìn)服裝關(guān)鍵點(diǎn)定位、分類(lèi)與屬性預(yù)測(cè)效果。
試驗(yàn)1:基于DFA網(wǎng)絡(luò)架構(gòu),在第1次卷積和轉(zhuǎn)置卷積階段后加入RCCA網(wǎng)絡(luò)模塊,以克服多次卷積對(duì)圖像像素之間上下文信息提取不足的局限性。
試驗(yàn)2:優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),將RCCA網(wǎng)絡(luò)模塊移至所有的卷積和轉(zhuǎn)置卷積操作之前,以保留更多的原始全局信息。
試驗(yàn)3:基于DFA算法,利用試驗(yàn)2的設(shè)計(jì)獲取圖像像素之間的上下文信息,將關(guān)鍵點(diǎn)之間的內(nèi)在聯(lián)系用于服裝分類(lèi)與屬性預(yù)測(cè)。
試驗(yàn)4:在試驗(yàn)3的基礎(chǔ)上,在空間注意力網(wǎng)絡(luò)之后加入ECA網(wǎng)絡(luò)模塊,讓網(wǎng)絡(luò)學(xué)習(xí)通道之間的交互信息。
試驗(yàn)5:MDA-DFA算法。將試驗(yàn)3和4的設(shè)計(jì)結(jié)合起來(lái),在網(wǎng)絡(luò)架構(gòu)引入RCCA和ECA模塊,融合空間域和通道域注意力機(jī)制,以更好地提取服裝特征。
試驗(yàn)步驟:
(1)讀取數(shù)據(jù)集及初始設(shè)置。讀取數(shù)據(jù)集的路徑、圖像標(biāo)注等相關(guān)信息;設(shè)置批次、批大小、學(xué)習(xí)率等初始參數(shù)。初始學(xué)習(xí)率設(shè)置為0.000 1,并以0.9的線性衰減率衰減。整個(gè)模型訓(xùn)練10個(gè)回合,訓(xùn)練的批處理大小為16。
(2)創(chuàng)建info.csv文件。將數(shù)據(jù)集中所有的標(biāo)注信息整合到文件info.csv中,以滿足機(jī)器學(xué)習(xí)的要求。其中每一行代表一張圖片,包含圖片ID、類(lèi)別、關(guān)鍵點(diǎn)位置、屬性、bounding box等信息。
(3)數(shù)據(jù)集預(yù)處理。定義服裝圖片的增廣函數(shù),進(jìn)行翻轉(zhuǎn)、隨機(jī)裁剪、中心裁剪、隨機(jī)翻轉(zhuǎn)等多種預(yù)處理操作,增強(qiáng)數(shù)據(jù)的穩(wěn)健性,處理后圖片的尺寸為224像素×224像素。
(4)搭建基礎(chǔ)網(wǎng)絡(luò)架構(gòu)。首先定義整個(gè)VGG-16的網(wǎng)絡(luò)架構(gòu),然后定義高斯核函數(shù)和損失函數(shù)。
(5)搭建關(guān)鍵點(diǎn)定位的網(wǎng)絡(luò)。首先定義關(guān)鍵點(diǎn)上采樣函數(shù),然后定義關(guān)鍵點(diǎn)提取函數(shù)和訓(xùn)練網(wǎng)絡(luò)。
(6)搭建RCCA網(wǎng)絡(luò)。定義實(shí)現(xiàn)RCCA的函數(shù)。
(7)搭建ECA網(wǎng)絡(luò)。定義實(shí)現(xiàn)ECA的函數(shù)。
(8)提取初始特征。通過(guò)在ImageNet數(shù)據(jù)集上加載了VGG-16的預(yù)訓(xùn)練模型對(duì)本文的模型參數(shù)進(jìn)行初始化。
(9)訓(xùn)練數(shù)據(jù)。設(shè)置相關(guān)的參數(shù)進(jìn)行訓(xùn)練,每10個(gè)step顯示一次計(jì)算出的損失值。
(10)預(yù)測(cè)關(guān)鍵點(diǎn)。訓(xùn)練結(jié)束后,根據(jù)訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。將關(guān)鍵點(diǎn)的熱圖記為M′∈R224×224×8,添加高斯濾波器,對(duì)關(guān)鍵點(diǎn)熱圖進(jìn)行可視化處理。關(guān)鍵點(diǎn)定位采用均方誤差(MSE)的損失函數(shù),如式(10)所示。
(10)
式中:N為數(shù)組元素的總數(shù),i,j∈(0,224)。
(11)預(yù)測(cè)類(lèi)別與屬性。訓(xùn)練結(jié)束后,根據(jù)訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。分別使用兩個(gè)全連接層預(yù)測(cè)服裝圖像的類(lèi)別和屬性,它們的損失函數(shù)都是標(biāo)準(zhǔn)的交叉熵?fù)p失,如式(11)所示。
(11)
式中:X[true]為樣本真實(shí)標(biāo)簽的得分;X[j]為第j個(gè)類(lèi)別的得分。
(12)觀察模型損失。利用TensorBoard可視化工具實(shí)時(shí)觀察和記錄損失值和預(yù)測(cè)的結(jié)果。
采用常用指標(biāo)歸一化誤差(Enormalized)衡量圖像關(guān)鍵點(diǎn)定位算法的性能,計(jì)算方法如式(12)所示。
(12)
采用準(zhǔn)確率(Raccuracy)和召回率(Rrecall)兩種標(biāo)準(zhǔn)試驗(yàn)評(píng)測(cè)指標(biāo)客觀分析算法模型在服裝數(shù)據(jù)集上的表現(xiàn)。準(zhǔn)確率是指預(yù)測(cè)正確的結(jié)果占總樣本的百分比,如式(13)所示。召回率又叫查全率,是指在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率,如式(14)所示。
(13)
(14)
式中:Ntp為模型預(yù)測(cè)正確的正樣本數(shù)量;Ntn為模型預(yù)測(cè)正確的負(fù)樣本數(shù)量;Nfp為模型預(yù)測(cè)錯(cuò)誤的正樣本數(shù)量;Nfn為模型預(yù)測(cè)錯(cuò)誤的負(fù)樣本數(shù)量。
將試驗(yàn)1和試驗(yàn)2的關(guān)鍵點(diǎn)定位歸一化誤差與在相同數(shù)據(jù)集下的其他方法(如Fashion Net[6]、Deep Alignment[2]、DLAN[3]、DFA[7]和文獻(xiàn)[15])的試驗(yàn)結(jié)果進(jìn)行對(duì)比,如表1所示。
表1 不同算法的關(guān)鍵點(diǎn)定位歸一化誤差Table 1 Normalized location error of key point of different algorithms %
由表1可知,試驗(yàn)1除了左袖口和下擺處的關(guān)鍵點(diǎn)定位誤差略大于DFA算法,下擺處的定位誤差略大于文獻(xiàn)[15]以外,其他關(guān)鍵點(diǎn)定位誤差均小于所有對(duì)比方法的試驗(yàn)數(shù)據(jù),體現(xiàn)了本文算法的有效性及其優(yōu)勢(shì)。將改進(jìn)后試驗(yàn)2的結(jié)果與DFA算法進(jìn)行對(duì)比可知,試驗(yàn)2中算法的定位誤差在右領(lǐng)口處減少0.07個(gè)百分點(diǎn),右袖口處減少0.16個(gè)百分點(diǎn),左腰線處減少0.05個(gè)百分點(diǎn),右腰線處減少0.04個(gè)百分點(diǎn),左下擺處減少0.02個(gè)百分點(diǎn)。說(shuō)明試驗(yàn)2體現(xiàn)出更佳的性能。
試驗(yàn)5的服裝屬性預(yù)測(cè)、服裝分類(lèi)以及關(guān)鍵點(diǎn)定位的損失曲線如圖4所示。
圖4 服裝屬性預(yù)測(cè)、分類(lèi)和關(guān)鍵點(diǎn)定位的損失曲線Fig.4 Loss curves for apparel attribute prediction, classification and key point location
由圖4可知,在訓(xùn)練之初,模型的效果并不好,損失值較大。隨著迭代次數(shù)的增加,網(wǎng)絡(luò)所得誤差值通過(guò)反向傳播求解梯度,并通過(guò)梯度下降的方式更新模型參數(shù),訓(xùn)練的誤差值才逐漸降低。當(dāng)誤差值降到一定閾值時(shí),模型收斂,則訓(xùn)練停止。
圖5為服裝的關(guān)鍵點(diǎn)定位可視化結(jié)果。
圖5 原圖和相應(yīng)的關(guān)鍵點(diǎn)熱圖Fig.5 Original drawing and corresponding key point heat map
將試驗(yàn)3~5的試驗(yàn)結(jié)果與在相同數(shù)據(jù)集下其他方法,如WTBI[18]、DARN[19]、Fashion Net[6]、Weakly[20]、文獻(xiàn)[11]、DFA[7]和文獻(xiàn)[15]的試驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比,如表2所示。
由表2可知,MDA-DFA算法優(yōu)于試驗(yàn)3和4的試驗(yàn)結(jié)果,在top-3的分類(lèi)結(jié)果中,同時(shí)融合空間聯(lián)系RCCA和高效通道注意力ECA的MDA-DFA網(wǎng)絡(luò)得到的準(zhǔn)確率最高,為91.36%,相比改進(jìn)前的DFA網(wǎng)絡(luò)提高了0.2個(gè)百分點(diǎn)。在屬性預(yù)測(cè)的結(jié)果中,MDA-DFA算法的召回率也更高,總體上表現(xiàn)更佳,其中top-5面料預(yù)測(cè)的召回率比DFA網(wǎng)絡(luò)提高了0.59個(gè)百分點(diǎn)。由此可見(jiàn),將RCCA和ECA結(jié)合起來(lái)使用時(shí)網(wǎng)絡(luò)的性能更優(yōu)。
因此,提出的基于混合域注意力機(jī)制的服裝關(guān)鍵點(diǎn)定位與屬性預(yù)測(cè)算法能有效提高對(duì)服裝袖口和腰線處關(guān)鍵點(diǎn)定位的精度,對(duì)困難關(guān)鍵點(diǎn)的定位有比較明顯的改進(jìn)作用,并在一定程度上提高了服裝的分類(lèi)與屬性預(yù)測(cè)效果。
表2 不同算法的服裝分類(lèi)準(zhǔn)確率與屬性預(yù)測(cè)的召回率Table 2 Clothing classification accuracy and attribute prediction recall rate of different algorithms %
提出一個(gè)基于混合域注意力機(jī)制的服裝關(guān)鍵點(diǎn)定位及屬性預(yù)測(cè)的算法,利用RCCA模塊獲取服裝圖像像素的上下文信息,從而捕獲關(guān)鍵點(diǎn)之間的空間聯(lián)系,利用局部跨通道交互策略生成通道注意力捕獲卷積通道間的交互信息,并將兩種注意力分支網(wǎng)絡(luò)得到的特征融合后再進(jìn)行分類(lèi)和屬性預(yù)測(cè)。結(jié)果表明該算法取得了不錯(cuò)的效果。但相比人類(lèi)對(duì)于服裝的理解,人工智能還差得很遠(yuǎn)。在今后的研究中,可嘗試將神經(jīng)進(jìn)化算法等生物學(xué)策略應(yīng)用到相關(guān)領(lǐng)域,以促進(jìn)其在計(jì)算機(jī)視覺(jué)中的應(yīng)用。
東華大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年4期