摘要 長尾識別是計算機(jī)視覺領(lǐng)域最具挑戰(zhàn)性的問題之一。在現(xiàn)實世界中長尾識別具有廣泛的應(yīng)用,研究長尾識別具有重要意義。對于長尾分布數(shù)據(jù)來說,由于類與類之間樣本量不平衡,以及占比眾多的尾部類缺少足夠的訓(xùn)練樣本,使其在訓(xùn)練過程中很難找到各類間的明確界限。為解決這一問題,將元預(yù)訓(xùn)練和監(jiān)督對比學(xué)習(xí)結(jié)合起來,提出了基于平衡對比學(xué)習(xí)策略的長尾識別方法MBCP-BB(meta balanced contrastive pre-training and batch balance)。MBCP-BB采用解耦學(xué)習(xí)方式進(jìn)行模型訓(xùn)練:通過預(yù)訓(xùn)練獲得具有優(yōu)異特征表示能力的特征提取器,在微調(diào)階段,固定特征提取器,重新訓(xùn)練分類器。該方法突出特征學(xué)習(xí)的重要性,設(shè)計了平衡對比學(xué)習(xí)策略指導(dǎo)特征學(xué)習(xí)過程,從而使監(jiān)督對比學(xué)習(xí)技術(shù)能有效應(yīng)用于長尾識別場景。進(jìn)行特征學(xué)習(xí)時,首先適當(dāng)減少頭部類樣本,并利用少樣本圖像生成技術(shù)為尾部類生成新樣本;之后以每類的類原型作為補(bǔ)充樣本用于訓(xùn)練。解耦學(xué)習(xí)訓(xùn)練模式下,充分挖掘了特征提取器與分類器的潛力,在增強(qiáng)模型特征學(xué)習(xí)能力的同時,大大簡化了分類器的訓(xùn)練過程。在幾個長尾基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實驗,并與7個代表性的算法從多個角度進(jìn)行了實驗比較,實驗結(jié)果表明該方法優(yōu)于比較的算法。
關(guān)鍵詞 長尾識別;元學(xué)習(xí);預(yù)訓(xùn)練;監(jiān)督對比學(xué)習(xí);批次平衡訓(xùn)練
中圖分類號:TP391 DOI:10.16152/j.cnki.xdxbzr.2024-04-010
A long-tailed recognition method based onbalanced contrastive learning strategy
KONG Lingquan1,2, ZHAI Junhai1,2
Abstract Long-tailed recognition is one of the most challenging problems in computer vision.Long-tailed recognition has a wide range of applications in the real world, and it is of great significance to study long-tailed recognition.For long-tailed distribution data, due to the unbalanced sample size between classes and the lack of sufficient training samples for the large tail classes, it is difficult to find a clear boundary between classes during the training process. To address this issue, we combine meta pre-training and supervised contrastive learning, and propose MBCP-BB(meta balanced contrastive pre-training and batch balance), a long-tailed recognition method based on a balanced contrastive learning strategy. MBCP-BB adopts a decoupled learning method for model training: A feature extractor with excellent feature representation ability is obtained through pre-training, and in the fine-tuning stage, the feature extractor is fixed and the classifier is retrained. This method highlights the importance of feature learning, and designs a balanced contrastive learning strategy to guide the feature learning process, so that supervised contrastive learning techniques can be effectively applied to long-tailed recognition scenarios. When performing feature learning, first reduce the samples of the head classes appropriately, and use the few-shot image generation technology to generate new samples for the tail classes; then use the class prototype of each class as supplementary samples for training. In the decoupled learning training mode, the potential of the feature extractor and classifier is fully mined, and the training process of the classifier is greatly simplified while enhancing the feature learning ability of the model. A large number of experiments are carried out on several long-tailed benchmark datasets, and compared with seven representative algorithms from multiple perspectives, the experimental results show that the proposed method is superior to the compared algorithms.
Keywords long-tailed recognition; meta-learning; pre-training; supervised contrastive learning; batch balance training
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展和計算能力的提升,大規(guī)模視覺數(shù)據(jù)集的建立和整理變得更加完善。這些進(jìn)步為計算機(jī)視覺領(lǐng)域帶來了顯著突破,尤其是深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,使得圖像分類、圖像分割以及目標(biāo)檢測等技術(shù)取得了巨大進(jìn)展。然而,這些技術(shù)嚴(yán)重依賴大規(guī)模平衡訓(xùn)練數(shù)據(jù),難以有效處理更貼近現(xiàn)實的長尾識別問題[1-3]。與此同時,多數(shù)現(xiàn)實場景中的訓(xùn)練數(shù)據(jù)呈長尾分布,如圖1所示?,F(xiàn)實場景中需要對長尾數(shù)據(jù)進(jìn)行有效處理和識別,例如醫(yī)學(xué)影像分析、無人駕駛和視頻監(jiān)控等。
處理長尾識別問題的方法很多,傳統(tǒng)的長尾識別方法包括重采樣[4-8]、重加權(quán)[9-12]和數(shù)據(jù)增強(qiáng)[13-18]3類。最近的研究[7,19-22]探索了一些其他的解決方案,標(biāo)簽分布感知邊際損失[19] (label-distribution-aware margin loss, LDAM)鼓勵模型在每類邊際間進(jìn)行最佳權(quán)衡,同時合理使用再平衡策略,在基準(zhǔn)數(shù)據(jù)集上獲得了更佳的性能收益。文獻(xiàn)[7,22]將模型訓(xùn)練過程解耦為特征學(xué)習(xí)和分類器訓(xùn)練兩個階段,進(jìn)一步提升了模型性能。同時,由于長尾識別問題中造成模型性能低下的主要原因是尾部類數(shù)據(jù)的匱乏,這和少樣本學(xué)習(xí)問題[23]不謀而合。因此,可以將少樣本學(xué)習(xí)看作長尾識別的一個子任務(wù)。處理少樣本學(xué)習(xí)問題的元學(xué)習(xí)方法[24-32]也可用于解決長尾識別問題。其中,F(xiàn)inn等提出的模型無關(guān)元學(xué)習(xí)算法(model agnostic meta-learning, MAML)從參數(shù)優(yōu)化的角度出發(fā),使訓(xùn)練出的模型易于微調(diào)且在新任務(wù)上具有良好的泛化能力[30]。
除上述長尾識別方法外,特征學(xué)習(xí)的重要性逐漸被人們認(rèn)知和發(fā)掘。從提高模型特征表示能力的角度出發(fā),能進(jìn)一步解決長尾識別問題。Wang等和Zhu等引入監(jiān)督對比學(xué)習(xí)來輔助長尾識別中的特征學(xué)習(xí),取得了十分出色的效果[33-34]。Wang等人提出一種新的混合網(wǎng)絡(luò)結(jié)構(gòu),以聯(lián)合學(xué)習(xí)特征和分類器,利用改進(jìn)的監(jiān)督對比損失進(jìn)行特征學(xué)習(xí),基于交叉熵?fù)p失訓(xùn)練分類器,訓(xùn)練時從特征學(xué)習(xí)逐步過渡到分類器學(xué)習(xí)[33]。Zhu等人提出了平衡對比學(xué)習(xí)(balanced contrastive learning, BCL),設(shè)計了一種新的平衡對比損失,與監(jiān)督對比損失相比,進(jìn)行了類平均和類補(bǔ)足兩項改進(jìn),類平均有效平衡了負(fù)類的梯度貢獻(xiàn),類補(bǔ)足則使所有類別的樣本都能出現(xiàn)在每個訓(xùn)練批次中[34]。
受特征學(xué)習(xí)和解耦學(xué)習(xí)的啟發(fā),本文提出一種基于平衡對比學(xué)習(xí)策略的長尾識別方法MBCP-BB。采用的監(jiān)督對比學(xué)習(xí)技術(shù)能在訓(xùn)練時將同一類樣本的嵌入表示聚在一起,并將不同類樣本分開,從而大大強(qiáng)化了模型的特征表示能力,降低了訓(xùn)練過程中參數(shù)調(diào)整和優(yōu)化的難度。元預(yù)訓(xùn)練算法和平衡對比學(xué)習(xí)策略的結(jié)合能有效增強(qiáng)MBCP-BB的泛用性,少樣本圖像生成技術(shù)的應(yīng)用也為該方法提供了重要支撐。
本文的貢獻(xiàn)包括3個方面:
1)突出特征學(xué)習(xí)的重要性,設(shè)計了平衡對比學(xué)習(xí)策略指導(dǎo)特征學(xué)習(xí)過程,從而使監(jiān)督對比學(xué)習(xí)技術(shù)能有效應(yīng)用于長尾識別場景;
2)采用解耦學(xué)習(xí)方式進(jìn)行模型訓(xùn)練,充分發(fā)揮了特征提取器與分類器的潛力,在增強(qiáng)模型特征表示能力的同時,大大簡化了分類器的訓(xùn)練過程;
3) 通過研究不同采樣策略對模型微調(diào)階段的影響,證明本文提出的批次平衡訓(xùn)練策略更適用于長尾條件下的分類器訓(xùn)練。
1 相關(guān)工作
1.1 長尾識別
處理長尾識別問題的方法可分為重采樣[4-8]、重加權(quán)[9-12]和數(shù)據(jù)增強(qiáng)[13-18]3類。重采樣通過平衡頭尾部類每類包含的樣本數(shù)來處理長尾識別問題。一般的重采樣方法分為對尾部類隨機(jī)過采樣[4]和對頭部類隨機(jī)欠采樣[4-5]兩種。最近的研究應(yīng)用了各種新式采樣方法,具體包括樣例均衡采樣、類均衡采樣、平方根采樣[6]、漸進(jìn)均衡采樣[7]和動態(tài)采樣策略[8]。重加權(quán)又稱代價敏感學(xué)習(xí),即給訓(xùn)練中不同類別的損失分配不同的權(quán)重,以此達(dá)到損失平衡。類平衡損失[9](class-balanced loss, CB)利用每個類別的有效樣本數(shù)來重加權(quán)。焦點損失[10](focal loss)用預(yù)測分?jǐn)?shù)反向加權(quán)每類的損失。Ren等提出一種元學(xué)習(xí)算法,其基于訓(xùn)練樣本的梯度方向分配權(quán)重。數(shù)據(jù)增強(qiáng)的思路是在模型訓(xùn)練中引入額外信息[11]。Mullick等使用生成對抗模型為尾部類生成新樣本[13]。文獻(xiàn)[14-17]從分布的角度出發(fā),研究如何從頭部類遷移知識到尾部類。Wang等提出一個將少樣本模型參數(shù)映射到多樣本模型參數(shù)的元網(wǎng)絡(luò),用漸進(jìn)的方式從頭部類轉(zhuǎn)移知識到尾部類[18]。
此外,最近的研究[7,19-22]也探索了一些其他解決方案。LDAM鼓勵模型在每類邊際之間進(jìn)行最佳權(quán)衡,讓尾部類別擁有更大的邊際。Logits調(diào)整[20]基于標(biāo)簽頻率在訓(xùn)練時或訓(xùn)練后調(diào)整模型的Logits。一個類別的每個正樣本都可被視為其他類別的負(fù)樣本,這使得尾部類會接收更多的負(fù)面梯度,在此基礎(chǔ)上,Tan等提出一種均衡損失,通過簡單地忽略尾部類的梯度來處理長尾不平衡問題[21]。解耦學(xué)習(xí)將模型訓(xùn)練過程解耦為特征學(xué)習(xí)和分類器訓(xùn)練兩個階段,文獻(xiàn)[7]是進(jìn)行這種訓(xùn)練的開創(chuàng)性工作,其通過大量實驗研究了不同因素對模型長尾識別能力的貢獻(xiàn),結(jié)果表明特征學(xué)習(xí)更適合使用隨機(jī)采樣,而類均衡采樣是分類器學(xué)習(xí)的更好選擇。雙邊分支網(wǎng)絡(luò)[22] (bilateral-branch network, BBN)是在文獻(xiàn)[7]的基礎(chǔ)上提出的,該模型具有兩路分支,其中一個分支使用隨機(jī)采樣來學(xué)習(xí)頭部類數(shù)據(jù),另一個分支則使用反向采樣來增強(qiáng)尾部類數(shù)據(jù)。Wang等和Zhu等研究了不平衡數(shù)據(jù)的特征學(xué)習(xí),并且引入監(jiān)督對比學(xué)習(xí)來輔助特征學(xué)習(xí)[33-34]。
1.2 元學(xué)習(xí)
長尾識別和少樣本學(xué)習(xí)聯(lián)系緊密,處理少樣本學(xué)習(xí)的元學(xué)習(xí)范式同樣適用于長尾識別領(lǐng)域。元學(xué)習(xí)按學(xué)習(xí)角度的不同可分為基于度量的元學(xué)習(xí)[25-27]、基于優(yōu)化的元學(xué)習(xí)[28-29]和基于模型的元學(xué)習(xí)[30-32]。
基于度量的元學(xué)習(xí)通過學(xué)習(xí)合適的度量空間進(jìn)行分類。匹配網(wǎng)絡(luò)[25]用不同的嵌入函數(shù)分別學(xué)習(xí)查詢集和支撐集樣本的嵌入。原型網(wǎng)絡(luò)[26]將支撐集每類樣本嵌入的均值作為該類的類原型,并根據(jù)類原型和查詢集樣本嵌入之間的歐氏距離對查詢集樣本分類。關(guān)系網(wǎng)絡(luò)[27]則設(shè)計了一個關(guān)系模塊作為可學(xué)習(xí)的度量。
基于優(yōu)化的元學(xué)習(xí)旨在學(xué)習(xí)優(yōu)化器本身。文獻(xiàn)[28]以遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network, RNN)代替梯度下降法,學(xué)習(xí)通過RNN來執(zhí)行梯度下降。文獻(xiàn)[29]則用長短期記憶網(wǎng)絡(luò)(long short term memory networks, LSTM)來代替梯度下降法。
基于模型的元學(xué)習(xí)從學(xué)習(xí)最優(yōu)初始化參數(shù)入手,加快模型的收斂,從而實現(xiàn)快速學(xué)習(xí)。MAML嘗試從大量任務(wù)中訓(xùn)練具有良好泛化能力的最優(yōu)初始化參數(shù),在該參數(shù)的基礎(chǔ)上利用新任務(wù)的少量訓(xùn)練樣本并經(jīng)過幾次梯度更新便可使模型收斂。MAML++[31]對MAML進(jìn)行了各種修改,這些修改不僅使訓(xùn)練過程更穩(wěn)定,還可明顯減少計算開銷。任務(wù)無關(guān)元學(xué)習(xí)[32](task agnostic meta-learning, TAML)采用熵最大化策略防止任務(wù)偏差,進(jìn)一步優(yōu)化了模型的泛化能力。
1.3 對比學(xué)習(xí)
對比學(xué)習(xí)以構(gòu)建正負(fù)樣本對的方式訓(xùn)練模型,通過聚合語義上相似的樣本,區(qū)分語義上不相似的樣本,用于各種任務(wù)的特征學(xué)習(xí)[35-36]。文獻(xiàn)[37]是典型的自監(jiān)督對比學(xué)習(xí)方法,監(jiān)督對比學(xué)習(xí)[38]則利用標(biāo)簽信息區(qū)分正負(fù)樣本,以使圖像分類性能達(dá)到更先進(jìn)的水平。
然而,傳統(tǒng)對比學(xué)習(xí)方法不能直接用于長尾識別,因為長尾條件下頭部類會主導(dǎo)特征學(xué)習(xí)過程。于是針對長尾場景下的對比學(xué)習(xí),涌現(xiàn)出一些新方法。文獻(xiàn)[39]利用自監(jiān)督和半監(jiān)督對比學(xué)習(xí)來增強(qiáng)長尾識別性能。參數(shù)對比[40](parametric contrastive,PaCo)通過引入一組逐類可學(xué)習(xí)中心來克服監(jiān)督對比學(xué)習(xí)在長尾條件下的性能下降。文獻(xiàn)[41]采用兩階段學(xué)習(xí)模式,并在每個批次的所有類別中均使用相同數(shù)量的正樣本。Hybrid-SC[33](Contrastive learning based hybrid networks)構(gòu)建了新的雙分支網(wǎng)絡(luò)用于訓(xùn)練。BCL[34]對監(jiān)督對比損失進(jìn)行了類平均和類補(bǔ)足兩項改進(jìn),糾正了監(jiān)督對比學(xué)習(xí)在長尾條件下的優(yōu)化行為。
2 MBCP-BB方法
對長尾分布數(shù)據(jù)來說,由于類與類之間樣本量的不平衡,以及占比眾多的尾部類缺少足夠的訓(xùn)練樣本,使其在訓(xùn)練過程中很難找到各類間的明確界限。為了解決這一問題,將元預(yù)訓(xùn)練和監(jiān)督對比學(xué)習(xí)結(jié)合起來,提出了基于平衡對比學(xué)習(xí)策略的長尾識別方法MBCP-BB。由于監(jiān)督對比學(xué)習(xí)能在訓(xùn)練時將同一類樣本的嵌入表示聚在一起,并將不同類樣本分開,從而大大強(qiáng)化了模型的特征表示能力,降低了訓(xùn)練過程中參數(shù)調(diào)整和優(yōu)化的難度,突破了原有的性能局限。此外,元預(yù)訓(xùn)練算法和平衡對比學(xué)習(xí)策略的結(jié)合能有效增強(qiáng)MBCP-BB方法的泛用性,少樣本圖像生成技術(shù)的應(yīng)用也為該方法提供了重要支撐。
2.1 方法總體設(shè)計
MBCP-BB包括兩個階段,如圖2所示。第一階段的預(yù)訓(xùn)練包括元預(yù)訓(xùn)練和基于平衡對比學(xué)習(xí)策略的特征學(xué)習(xí)兩個步驟;第二階段的微調(diào)基于批次平衡訓(xùn)練策略進(jìn)行。兩個階段的特征提取器均使用相同的殘差網(wǎng)絡(luò),不同階段模型的分類器設(shè)置不同(元預(yù)訓(xùn)練步驟使用標(biāo)準(zhǔn)線性分類器,特征學(xué)習(xí)步驟未設(shè)置分類器,微調(diào)階段使用可縮放余弦度量分類器)。經(jīng)實驗驗證,MBCP-BB在所有長尾基準(zhǔn)數(shù)據(jù)集上均取得了最優(yōu)性能。具體來說,在CIFAR-100-LT上比其他先進(jìn)方法[17,19]提升1.2%~3.5%的精度;在CIFAR-10-LT上相較MPBB(訓(xùn)練時僅執(zhí)行元預(yù)訓(xùn)練和批次平衡訓(xùn)練)有大幅提升,不平衡比率為100時提升最明顯,精度提高了3.62%;在ImageNet-LT上的精度比MPBB提升了0.8%,比LDAM高2.3%;可縮放余弦度量分類器的設(shè)置為模型提供了穩(wěn)定的性能增益。
第一階段可細(xì)分為兩個步驟,首先是在元預(yù)訓(xùn)練算法的指導(dǎo)下進(jìn)行的元預(yù)訓(xùn)練;之后按照平衡對比學(xué)習(xí)策略進(jìn)行特征學(xué)習(xí)。兩個步驟的細(xì)節(jié)見2.2節(jié)和2.3節(jié)。這一階段重視模型的特征學(xué)習(xí)能力,參考了對比學(xué)習(xí)的相關(guān)技術(shù),這里列出自監(jiān)督對比損失式(1)和監(jiān)督對比損失式(2)。
第二階段的主要任務(wù)是重新訓(xùn)練分類器。得益于上一階段的訓(xùn)練成果,改善了模型的特征表示能力,簡化了分類器的訓(xùn)練,從而加快了模型的收斂速度,測試精度也有大幅提升。此階段采用批次平衡訓(xùn)練策略,在每個batch中使每類樣本的數(shù)量保持平衡。與隨機(jī)采樣相比,采用此策略能穩(wěn)定提高模型性能。
2.2 元預(yù)訓(xùn)練算法
受MAML啟發(fā),本文提出了一種長尾識別場景下的元預(yù)訓(xùn)練算法,具體如算法1所示。該算法從長尾識別的實際場景出發(fā),利用Dhead的豐富樣本訓(xùn)練模型,并使用Dtail指導(dǎo)模型的訓(xùn)練。算法的目標(biāo)是從P(T)中提取對尾部類有益的信息,以增強(qiáng)尾部類,即尋找一組對任務(wù)變化敏感的最優(yōu)參數(shù)θbest。
2.3 平衡對比學(xué)習(xí)策略
為尋求在長尾不平衡數(shù)據(jù)上進(jìn)行特征學(xué)習(xí)的更佳方案,本節(jié)詳細(xì)分析了用于長尾識別的基于交叉熵?fù)p失、標(biāo)準(zhǔn)監(jiān)督對比損失及平衡對比學(xué)習(xí)策略的特征學(xué)習(xí),如圖3所示。
首先,構(gòu)建了一個多分類(這里以3分類為例)的長尾識別場景, 三角形代表長尾數(shù)據(jù)集的頭部類, 正方形代表樣本較少的中間類, 圓形代表樣本匱乏的尾部類。 圖3(a)描述了基于交叉熵?fù)p失的特征學(xué)習(xí),顯然,樣本數(shù)量眾多的頭部類占據(jù)主導(dǎo)地位, 特征學(xué)習(xí)更傾向于學(xué)習(xí)頭部類特征,而中間類和尾部類的特征未得到足夠重視。 因此, 基于交叉熵?fù)p失進(jìn)行特征學(xué)習(xí)并不是理想的選擇。 基于標(biāo)準(zhǔn)監(jiān)督對比損失的特征學(xué)習(xí)如圖3(b)所示,在特征空間中,錨樣本與同類正樣本的距離被拉近,和異類負(fù)樣本的距離被拉遠(yuǎn),于是,模型可以學(xué)習(xí)到更集中的類內(nèi)特征和間隔更清晰的類間特征。雖然基于監(jiān)督對比損失能學(xué)到更好的特征表示,但是頭部類依舊主導(dǎo)特征學(xué)習(xí)。
為適應(yīng)長尾識別場景,本文提出了平衡對比學(xué)習(xí)策略來進(jìn)行特征學(xué)習(xí),如圖3(c)所示。首先,適當(dāng)減少頭部類樣本,利用少樣本圖像生成技術(shù)[42]分別為中間類和尾部類生成不同數(shù)量的新樣本,使長尾數(shù)據(jù)再次平衡。平衡后數(shù)據(jù)的每類樣本數(shù)量更加接近中間類別的樣本數(shù)量。之后,引入每類的類原型作為訓(xùn)練樣本,有效避免了小批次訓(xùn)練中的類別缺失問題,這一改進(jìn)在數(shù)據(jù)集類別數(shù)多時效果更明顯。應(yīng)用平衡對比學(xué)習(xí)策略,能使監(jiān)督對比損失適應(yīng)長尾條件下的特征學(xué)習(xí),避免特征學(xué)習(xí)被頭部類主導(dǎo),從而更穩(wěn)定地學(xué)習(xí)長尾數(shù)據(jù)的類內(nèi)特征和類間特征,具體的模型訓(xùn)練過程如圖4所示。
實際訓(xùn)練中,特征學(xué)習(xí)步驟使用的模型由特征提取器f+L和一個多層感知器(MLP)組成。 f+L實際上是一個殘差網(wǎng)絡(luò)模塊,初始參數(shù)繼承自元預(yù)訓(xùn)練步驟中訓(xùn)練好的最優(yōu)模型參數(shù)θbest。MLP是全連接網(wǎng)絡(luò),對特征向量進(jìn)行非線性變換。模型的訓(xùn)練過程介紹如下。
1)采用圖3(c)所示的折中的數(shù)據(jù)集再平衡方案,使長尾分布數(shù)據(jù)再次平衡,如圖4所示。處理后的數(shù)據(jù)集每類樣本數(shù)量處于原始數(shù)據(jù)集的平均水平。
2)假設(shè)再平衡后數(shù)據(jù)集的樣本總量為n,接下來數(shù)據(jù)的處理分兩路進(jìn)行:第一路經(jīng)數(shù)據(jù)增強(qiáng)后總量不變;第二路經(jīng)數(shù)據(jù)增強(qiáng)后樣本總量變?yōu)?n。
3)之后,第一路的n個樣本被用于計算每類的類原型,第二路的2n個樣本用于正常的對比學(xué)習(xí)訓(xùn)練,兩路使用同一組網(wǎng)絡(luò)模塊(f+L+MLP)。兩路的樣本(用x表示其中的任意樣本)都要經(jīng)過兩次非線性變換,先經(jīng)f+L變換后得到特征向量r,再經(jīng)MLP變換后得到特征向量r′。對特征向量r′進(jìn)行L2歸一化后得到特征向量z,向量z的計算方式如式(3)所示。
LSC由LheadSC和LtailSC共同決定,若不執(zhí)行再平衡操作,則|Ihead||Itail|,LSC的計算結(jié)果更多取決于頭部類,于是頭部類將主導(dǎo)模型的特征學(xué)習(xí);執(zhí)行提出的再平衡操作后,|Ihead|不再遠(yuǎn)大于|Itail|,樣本的類別分布比較均衡,這避免了模型學(xué)到過度傾斜的特征,使監(jiān)督對比學(xué)習(xí)能有效應(yīng)用于長尾識別場景。實際的訓(xùn)練是分批次進(jìn)行的,由于隨機(jī)采樣和批次大小的影響,一個批次中可能缺少某些類的數(shù)據(jù),計算損失時會出現(xiàn)較大誤差,從而限制了模型性能。為避免小批次訓(xùn)練中的類別缺失,在每個批次的訓(xùn)練中引入類原型集Zc,則每個錨樣本對應(yīng)的監(jiān)督對比損失為
2.4 批次平衡訓(xùn)練策略
提出的批次平衡訓(xùn)練策略如圖5所示。其關(guān)鍵思想是在訓(xùn)練中調(diào)整每類樣本去最大程度適應(yīng)模型,從而讓每個類對模型優(yōu)化有一個近似的貢獻(xiàn)。該策略首先對Dhead執(zhí)行適當(dāng)?shù)南虏蓸硬僮?,然后對?shù)據(jù)集執(zhí)行批次平衡訓(xùn)練策略,在訓(xùn)練過程中調(diào)整batch,使每個batch每類包含的樣本數(shù)量保持平衡,這樣的操作有益于增強(qiáng)Dtail對模型的影響,改善模型整體性能。
2.5 少樣本圖像生成技術(shù)介紹
本文使用的少樣本圖像生成技術(shù)源自文獻(xiàn)[42]提出的FAML,重新實現(xiàn)了FAML的代碼,并利用該方法為尾部類生成新樣本。
圖6展示了在CIFAR-LT上的尾部類樣本生成情況(對抗訓(xùn)練階段經(jīng)歷了75 000 episodes,數(shù)據(jù)生成階段微調(diào)了50 episodes),圖7展示了在ImageNet-LT上的尾部類樣本生成情況(對抗訓(xùn)練階段經(jīng)歷了90 000 episodes,數(shù)據(jù)生成階段微調(diào)了60 episodes),圖6、7第一行為原始圖像,后三行為生成圖像。
3 實驗
在CIFAR-10-LT、CIFAR-100-LT和ImageNet-LT上與多種代表性的長尾識別方法進(jìn)行了大量的對比實驗, 也與MPBB方法進(jìn)行了多個角度的比較, 實驗以Top-1精度作為評價指標(biāo)。 此外, 還進(jìn)行了充分的消融實驗驗證MBCP-BB的有效性。
3.1 數(shù)據(jù)集
CIFAR-10-LT和CIFAR-100-LT:為方便與其他方法進(jìn)行公平比較,本文使用與文獻(xiàn)[19]相同的長尾版本,這個版本的訓(xùn)練集由原始版本抽樣得到,并且可以控制訓(xùn)練集的數(shù)據(jù)不平衡程度,使樣本量在不同類別之間呈指數(shù)衰減。同時,本文定義了不平衡比率γ來描述數(shù)據(jù)不平衡程度,γ是數(shù)據(jù)集樣本最多的類與樣本最少的類的訓(xùn)練樣本數(shù)的比值,即γ=Nmax/Nmin。本文在實驗中用到的不平衡比率是10、50和100。
ImageNet-LT:該版本由Liu等[1]提出,它由原始ImageNet數(shù)據(jù)集按Pareto分布采樣得到,是原始ImageNet數(shù)據(jù)集的一個子集。該數(shù)據(jù)集包含來自1 000個類別的115.8K張彩色圖片,每個類別最多有1 280張圖片,最少有5張圖片。
3.2 實驗細(xì)節(jié)
本節(jié)按數(shù)據(jù)集的不同對實驗細(xì)節(jié)介紹如下。
1)CIFAR-LT。特征學(xué)習(xí)步驟中,以ResNet-32作為骨干網(wǎng)絡(luò),MLP隱藏層大小設(shè)置為512,輸出層大小設(shè)置為128,訓(xùn)練批次大小設(shè)置為512,標(biāo)量超參數(shù)τ設(shè)置為0.1。在模型微調(diào)階段,使用SGD優(yōu)化器,動量設(shè)置為0.9,初始學(xué)習(xí)率設(shè)為0.1,余弦縮放參數(shù)δ的初始值為10,訓(xùn)練進(jìn)行了100輪。
2)ImageNet-LT。特征學(xué)習(xí)步驟中, 以ResNet-50作為骨干網(wǎng)絡(luò), MLP的單個線性層的大小為1 024, 訓(xùn)練批次大小設(shè)置為512, 標(biāo)量超參數(shù)τ設(shè)置為0.1。 在微調(diào)階段, 初始學(xué)習(xí)率設(shè)置為0.05,余弦縮放參數(shù)δ的初始值為10, 訓(xùn)練進(jìn)行了200輪。
3.3 對比實驗
首先,在CIFAR-LT上進(jìn)行了對比實驗,數(shù)據(jù)集的不平衡比率有100、50和10三種設(shè)置,實驗結(jié)果列于表1中。對比項由7種代表性的長尾識別算法和本文設(shè)計的MPBB構(gòu)成,對比項包括基于交叉熵?fù)p失訓(xùn)練、代價敏感學(xué)習(xí)[9-10]、間隔修改[19]、數(shù)據(jù)增強(qiáng)[17]和兩階段訓(xùn)練等各種處理長尾識別問題的方案。表1的實驗結(jié)果顯示,MBCP-BB的Top-1精度明顯高于各對比項,在CIFAR-LT上取得了最優(yōu)性能。具體來說,在CIFAR-100-LT上比性能較高的對比項[17,19]提升1.2%~3.5%的精度,比MPBB提高了1.17%~2.08%的精度,在不平衡比率為10時提升更明顯;在CIFAR-10-LT上的實驗精度相較MPBB有大幅提升,不平衡比率為100時提升最為明顯,精度提高了3.62%。
在ImageNet-LT上也進(jìn)行了對比實驗,進(jìn)一步驗證了MBCP-BB的普適性和有效性,結(jié)果列于表2中。
其中,OLTR和CE等傳統(tǒng)方法的實驗效果都比較差;與LDAM相比,MBCP-BB提升了2.3%的精度;在MPBB的基礎(chǔ)上,MBCP-BB的精度提升了0.8%,驗證了改進(jìn)方案的可行性;與采用解耦學(xué)習(xí)方案的文獻(xiàn)[7]相比,MBCP-BB優(yōu)勢明顯,分析MBCP-BB的優(yōu)勢主要源于模型特征表示能力的加強(qiáng)。
3.4 消融實驗
本文進(jìn)行了大量消融實驗,以深入研究MBCP-BB方法在各個方面的特性,并對實驗結(jié)果進(jìn)行了合理分析。首先,在CIFAR-100-LT上應(yīng)用不同策略進(jìn)行了消融研究,以驗證平衡對比學(xué)習(xí)策略對模型的有效性。隨后,針對模型的微調(diào)階段設(shè)置了一組消融實驗,旨在研究不同采樣策略對分類器訓(xùn)練的影響。
3.4.1 應(yīng)用不同策略的消融研究
為研究MBCP-BB各方面特性,設(shè)置了基于不同策略的6組消融實驗:基于交叉熵?fù)p失訓(xùn)練(None)、基于標(biāo)準(zhǔn)監(jiān)督對比損失進(jìn)行特征學(xué)習(xí)并基于交叉熵?fù)p失進(jìn)行分類器訓(xùn)練(SC-CE)、基于平衡對比學(xué)習(xí)策略進(jìn)行特征學(xué)習(xí)并基于交叉熵?fù)p失進(jìn)行分類器訓(xùn)練(BCP-CE)、基于元預(yù)訓(xùn)練和批次平衡訓(xùn)練策略訓(xùn)練模型(MPBB)、未應(yīng)用可縮放余弦度量分類器設(shè)置的MBCP-BB(No δ)和使用了余弦度量分類器的MBCP-BB(δ)。注意,SC-CE和BCP-CE中未使用元預(yù)訓(xùn)練算法,這兩組實驗僅包含特征學(xué)習(xí)和分類器訓(xùn)練兩階段的訓(xùn)練過程。消融實驗結(jié)果列于表3中。
其中,基于交叉熵?fù)p失訓(xùn)練的實驗精度是最低的,明顯落后于其他方法;比較MPBB和BCP-CE兩組實驗,發(fā)現(xiàn)BCP-CE在大多數(shù)情況下的性能更優(yōu),這表明平衡對比學(xué)習(xí)策略為模型提供的性能增益要普遍高于元預(yù)訓(xùn)練算法,特征學(xué)習(xí)是解決長尾識別問題的更有效手段;比較應(yīng)用不同分類器設(shè)置的兩組實驗,發(fā)現(xiàn)使用余弦度量分類器能穩(wěn)定提高模型性能,具體來說,這一設(shè)置為模型提供了0.3%左右的穩(wěn)定性能增益;在3種不平衡比率設(shè)置下,BCP-CE的精度均明顯高于SC-CE,這說明提出的平衡對比學(xué)習(xí)策略比標(biāo)準(zhǔn)監(jiān)督對比學(xué)習(xí)更適用于長尾識別場景,同時,MBCP-BB(δ)的精度又明顯高于BCP-CE,這說明元預(yù)訓(xùn)練算法和平衡對比學(xué)習(xí)策略有很好的兼容性。
3.4.2 針對模型微調(diào)階段設(shè)置的消融實驗
本文設(shè)置實驗研究了不同采樣策略對分類器訓(xùn)練的影響,實驗結(jié)果列于表4中。
在此實驗中,分別采用隨機(jī)數(shù)據(jù)采樣和批次平衡訓(xùn)練策略來訓(xùn)練分類器。表4中的結(jié)果表明,使用批次平衡訓(xùn)練策略可以獲得更好的實驗效果,相比使用隨機(jī)數(shù)據(jù)采樣訓(xùn)練分類器,精度提高了0.97%至2.98%。如圖8、9所示,經(jīng)進(jìn)一步分析發(fā)現(xiàn):不平衡比率越大,使用批次平衡訓(xùn)練策略獲得的性能優(yōu)勢越為顯著;同時,在CIFAR-100-LT上,兩種策略的精度相差1.89%~2.98%,而在類別數(shù)量較少的CIFAR-10-LT上,精度差異僅為0.97%~2.28%,這說明批次平衡訓(xùn)練策略能更有效地處理高難度的長尾分類問題。綜上所述,在固定特征提取器的情況下,批次平衡訓(xùn)練策略能進(jìn)一步促進(jìn)分類器的訓(xùn)練,從而為模型提供更多的性能增益。
4 結(jié)論
本文提出了一種基于平衡對比學(xué)習(xí)策略的長尾識別方法MBCP-BB,MBCP-BB重視模型的特征表示能力,設(shè)計了平衡對比學(xué)習(xí)策略指導(dǎo)特征學(xué)習(xí)過程,從而使監(jiān)督對比學(xué)習(xí)技術(shù)能有效應(yīng)用于長尾識別場景。平衡對比學(xué)習(xí)策略中,折中的數(shù)據(jù)集再平衡方案兼顧了頭部類和尾部類的性能,以每類類原型作為訓(xùn)練樣本有效避免了小批次訓(xùn)練中的類別缺失。同時,采用的解耦訓(xùn)練方式,在增強(qiáng)模型特征學(xué)習(xí)能力的同時,簡化了分類器的訓(xùn)練。通過大量的對比實驗發(fā)現(xiàn)MBCP-BB方法在CIFAR-LT、ImageNet-LT等長尾數(shù)據(jù)集上都能取得更優(yōu)的性能。此外,在對一系列消融實驗進(jìn)行詳細(xì)分析后,得出元預(yù)訓(xùn)練算法和平衡對比學(xué)習(xí)策略有很好的兼容性,批次平衡訓(xùn)練策略能進(jìn)一步促進(jìn)分類器的訓(xùn)練。
在未來的研究中,希望探索將本文提出的方法應(yīng)用于更具挑戰(zhàn)性的任務(wù)上,例如開放環(huán)境下的長尾識別、長尾目標(biāo)檢測等。
參考文獻(xiàn)
[1]LIU Z W, MIAO Z Q, ZHAN X H, et al. Large-scale long-tailed recognition in an open world [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019:2532-2541.
[2]ZHANG Y F, KANG B Y, HOOI B, et al. Deep long-tailed learning: A survey [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(9): 10795-10816.
[3]張明,翟俊海,許壘,等.長尾識別研究進(jìn)展[J].南京師范大學(xué)學(xué)報(工程技術(shù)版),2022,22(2):63-72.
ZHANG M, ZHAI J H, XU L, et al. Research advance in long-tailed recognition[J]. Journal of Nanjing Normal University (Engineering Technology Edition), 2022, 22(2):63-72.
[4]BUDA M, MAKI A, MAZUROWSKI M A. A systematic study of the class imbalance problem in convolutional neural networks [J].Neural Networks, 2018, 106: 249-259.
[5]DRUMMOND C, HOLTE R C. C4.5, class imbalance, and cost sensitivity: Why under-sampling beats over-sampling [C]∥Workshop on Learning from Imbalanced Datasets II. Washington: PRML, 2003, 11: 1-8.
[6]MAHAJAN D, GIRSHICK R, RAMANATHAN V, et al. Exploring the limits of weakly supervised pretraining [C]∥Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 185-201.
[7]KANG B Y, XIE S N, ROHRBACH M, et al. Decoupling representation and classifier for long-tailed recognition [C]∥Proceedings of the International Conference on Learning Representations (ICLR). Virtual Conference, 2020: 1-16.
[8]WANG Y R, GAN W H, YANG J, et al. Dynamic curriculum learning for imbalanced data classification [C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE, 2019: 5016-5025.
[9]CUI Y, JIA M L, LIN T Y, et al. Class-balanced loss based on effective number of samples [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 9260-9269.
[10]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]∥Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999-3007.
[11]REN M Y, ZENG W Y, YANG B, et al. Learning to reweight examples for robust deep learning [C]∥International Conference on Machine Learning. Stockholm: PRML, 2018: 4334-4343.
[12]HUANG C, LI Y N, LOY C C, et al. Learning deep representation for imbalanced classification [C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 5375-5384.
[13]MULLICK S S, DATTA S, DAS S. Generative adversarial minority oversampling [C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE, 2019: 1695-1704.
[14]YIN X, YU X, SOHN K, et al. Feature transfer learning for face recognition with under-represented data [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5697-5706.
[15]LIU J L, SUN Y F, HAN C C, et al. Deep representation learning on long-tailed data: A learnable embedding augmentation perspective [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 2967-2976.
[16]WANG J F, LUKASIEWICZ T, HU X L, et al. RSG: A simple but effective module for learning imbalanced datasets [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 3783-3792.
[17]KIM J, JEONG J, SHIN J. M2M: Imbalanced classification via major-to-minor translation [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 13893-13902.
[18]WANG Y X, RAMANAN D, HEBERT M. Learning to model the tail [C]∥31st Conference on Neural Information Processing Systems (NIPS). Long Beach: IEEE, 2017: 1-11.
[19]CAO K D, WEI C, GAIDON A, et al. Learning imbalanced datasets with label-distribution-aware margin loss [C]∥33rd Conference on Neural Information Processing Systems (NIPS). Vancouver: IEEE, 2019: 1-12.
[20]MENON A K, JAYASUMANA S, RAWAT A S, et al. Long-tail learning via logit adjustment [EB/OL].(2021-07-09)[2023-03-10].https:∥arxiv.org/abs/2007.07314.
[21]TAN J R, WANG C B, LI B Y, et al. Equalization loss for long-tailed object recognition [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA:" IEEE, 2020: 11659-11668.
[22]ZHOU B Y, CUI Q, WEI X S, et al. BBN: Bilateral-branch network with cumulative learning for long-tailed visual recognition [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA:" IEEE, 2020: 9716-9725.
[23]趙凱琳, 靳小龍, 王元卓. 小樣本學(xué)習(xí)研究綜述 [J]. 軟件學(xué)報,2021, 32(2):349-369.
ZHAO K L, JIN X L, WANG Y Z. Survey on few-shot learning [J]. Journal of Software, 2021, 32(2): 349-369.
[24]李凡長, 劉洋, 吳鵬翔, 等. 元學(xué)習(xí)研究綜述 [J]. 計算機(jī)學(xué)報,2021,44(2):422-446.
LI F Z, LIU Y, WU P X, et al. A survey on recent advances in meta-learning [J]. Journal of Computers, 2021, 44(2): 422-446.
[25]VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning [J].Advances in" Neural Information Processing Systems, 2016:3637-3645.
[26]SNELL J, SWERSKY K, ZEMEL R. Prototypical networks for few-shot learning [C]∥31st Conference on Neural Information Processing Systems (NIPS). Long Beach: IEEE, 2017: 1-11.
[27]SUNG F, YANG Y X, ZHANG L, et al. Learning to compare: Relation network for few-shot learning [C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake: IEEE, 2018: 1199-1208.
[28]ANDRYCHOWICZ M, DENIL M, GOMEZ S, et al. Learning to learn by gradient descent by gradient descent [C]∥30th Conference on Neural Information Processing Systems (NIPS ). Barcelona: IEEE, 2016: 1-12.
[29]RAVI S, LAROCHELLE H. Optimization as a model for few-shot learning [C]∥5th International Conference on Learning Representations. Toulon, France: IEEE, 2017: 1-11.
[30]FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks [C]∥International Conference on Machine Learning. Sydney: PMLR, 2017: 1126-1135.
[31]ANTONIOU A, EDWARDS H, STORKEY A. How to train your MAML [C]∥Proceedings of the International Conference on Learning Representations. New Orleans: ICLR, 2019: 1-11.
[32]JAMAL M A, QI G J. Task agnostic meta-learning for few-shot learning [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 11711-11719.
[33]WANG P, HAN K, WEI X S, et al. Contrastive learning based hybrid networks for long-tailed image classification [C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 943-952.
[34]ZHU J G, WANG Z, CHEN J J, et al. Balanced contrastive learning for long-tailed visual recognition[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 6898-6907.
[35]WANG R, WU Z X, WENG Z J, et al. Cross-domain contrastive learning for unsupervised domain adaptation [J].IEEE Transactions on Multimedia, 2022, 25: 1665-1673.
[36]HAN T D, XIE W D, ZISSERMAN A. Self-supervised co-training for video representation learning [J].Advances in Neural Information Processing Systems, 2020, 33: 5679-5690.
[37]CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations[EB/OL].(2020-02-13)[2023-03-10].https:∥arxiv.org/abs/2002.05709.
[38]KHOSLA P, TETERWAK P, WANG C, et al. Supervised contrastive learning [J].Advances in Neural Information Processing Systems, 2020, 33: 18661-18673.
[39]YANG Y Z, XU Z. Rethinking the value of labels for improving class-imbalanced learning [J].Advances in Neural Information Processing Systems, 2020, 33: 19290-19301.
[40]CUI J Q, ZHONG Z S, LIU S, et al. Parametric contrastive learning [C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 695-704.
[41]KANG B Y, LI Y, XIE S, et al. Exploring balanced feature spaces for representation learning[EB/OL].(2021-05-03)[2023-03-10].https:∥api.semanticscholar.org/CorpusID:235613459.
[42]PHAPHUANGWITTAYAKUL A, GUO Y, YING F L. Fast adaptive meta-learning for few-shot image generation [J].IEEE Transactions on Multimedia, 2022, 24: 2205-2217.
(編 輯 張 歡)
收稿日期:2023-10-20
基金項目:河北省科技計劃重點研發(fā)項目(19210310D); 河北省自然科學(xué)基金(F2017201026)。
第一作者:孔令權(quán),男,從事深度學(xué)習(xí)研究,15530098103@163.com。
通信作者:翟俊海,男,教授,博士生導(dǎo)師,從事深度學(xué)習(xí)、小樣本學(xué)習(xí)和非平衡學(xué)習(xí)研究,mczjh@126.com。