• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      視覺?語言多模態(tài)下的多任務(wù)人臉年齡估計(jì)

      2024-09-13 00:00:00何江池靜池佳稷高松
      現(xiàn)代電子技術(shù) 2024年14期
      關(guān)鍵詞:視覺

      摘" 要: 現(xiàn)有的年齡估計(jì)方法僅基于人臉圖像,無法充分利用圖像背后的語言背景信息。此外,這些方法通常專注于單一年齡估計(jì)任務(wù)的優(yōu)化,忽略了相近任務(wù)帶來的提高模型性能的信息。針對上述問題,提出一種基于視覺?語言多模態(tài)的多任務(wù)人臉年齡估計(jì)方法。該方法利用提示文本信息為年齡估計(jì)提供更豐富、更準(zhǔn)確的圖像理解和先驗(yàn)知識。同時,引入多任務(wù)學(xué)習(xí)方法,利用任務(wù)間的互補(bǔ)性將年齡分類任務(wù)與序數(shù)回歸任務(wù)相結(jié)合,以獲得更好的性能。最后,為了獲得可靠的預(yù)測結(jié)果,研究了加權(quán)平均法和任務(wù)回歸法兩種多任務(wù)結(jié)果融合方法,并對加權(quán)平均法的權(quán)重系數(shù)進(jìn)行了消融實(shí)驗(yàn),以期找到一組合適的權(quán)重系數(shù)。結(jié)果表明:與其他先進(jìn)方法相比,所提方法在UTK?FACE數(shù)據(jù)集上的平均絕對誤差(MAE)降低了7.32%,在Morph Ⅱ數(shù)據(jù)集上的MAE降低了1.20%,累積分?jǐn)?shù)(CS)提升了0.11%。

      關(guān)鍵詞: 年齡估計(jì); 視覺?語言多模態(tài); 多任務(wù)學(xué)習(xí); 加權(quán)平均法; 提示文本; 任務(wù)回歸器

      中圖分類號: TN711?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)14?0171?06

      Multi?task face age estimation in vision?language multimodality

      HE Jiang1, CHI Jing1, CHI Jiaji2, GAO Song3

      (1. School of Information and Electrical Engineering, Hebei University of Engineering, Handan 056038, China;

      2. School of Electrical Engineering, Lappeenranta University of Technology, Lappeenranta 53850, Finland;

      3. Handan No. 3 Construction Engineering Co., Ltd., Handan 056001, China)

      Abstract: Existing age estimation methods are based only on face images and cannot fully utilize the linguistic contextual information behind the images. In addition, these methods usually focus on the optimization of a single age estimation task, ignoring the information brought by similar tasks to improve the model performance. To address the above problems, a multi?task face age estimation method based on vision?language multimodality is proposed, which utilizes prompt text information to provide richer and more accurate image understanding and a priori knowledge for age estimation. Meanwhile, a multi?task learning method is introduced to combine the age classification task with the ordinal regression task by utilizing the complementarity between tasks to obtain better performance. In order to obtain reliable prediction results, two multi?task result fusion methods are investigated: weighted averaging and task regression, and ablation experiments are conducted on the weighting factor of the weighted averaging method to find a suitable set of weighting factors. In comparison with the state?of?the?art methods, the mean absolute error (MAE) of the proposed method is reduced by 7.32% on the UTK?FACE dataset, its MAE is reduced by 1.20%, and its cumulative score (CS) is improved by 0.11% on the Morph Ⅱ dataset.

      Keywords: age estimation; visual?language multimodality; multitask learning; weighted average method; prompt text; task regressor

      0" 引" 言

      人臉年齡估計(jì)旨在探索年齡模式和面部外觀的變化,以實(shí)現(xiàn)準(zhǔn)確的年齡估計(jì)。然而,人類面部受到多種因素的影響,僅憑外表容易產(chǎn)生錯誤的估計(jì)結(jié)果,這增加了年齡估計(jì)的難度。圖1呈現(xiàn)了不同性別、種族間的年齡差異,左邊的女性和中間的男性年齡均為42歲,種族標(biāo)簽為“White”,而右邊的男性年齡為30歲,種族標(biāo)簽為“Black”。

      人類語言包含豐富的語義信息和先驗(yàn)知識[1],然而,現(xiàn)有的研究都基于人臉圖像進(jìn)行年齡估計(jì)[2?4]。因此,本文的目標(biāo)之一是開發(fā)一種結(jié)合人類語言先驗(yàn)知識進(jìn)行年齡估計(jì)的模型。該模型從人臉圖像上學(xué)習(xí)視覺特征,同時也從文本提示中學(xué)習(xí)語言先驗(yàn)知識,改善視覺任務(wù)的性能。

      在人臉年齡估計(jì)領(lǐng)域,通常致力于優(yōu)化單一任務(wù)以提高性能[3,5?6],然而,這種方法忽視了相近任務(wù)間改善模型性能的信息。而多任務(wù)學(xué)習(xí)能夠通過共享特征表示實(shí)現(xiàn)更好的泛化能力[7]。因此,本文的另一個目標(biāo)是結(jié)合年齡分類[8]和序數(shù)回歸任務(wù)[3,6],提升年齡估計(jì)的性能。最后,采用加權(quán)平均和任務(wù)回歸器兩種處理多任務(wù)輸出結(jié)果的方法進(jìn)行了實(shí)驗(yàn)。

      本文提出了一種視覺?語言多模態(tài)下的多任務(wù)人臉年齡估計(jì)方法(Multi?task Faceage Estimation in Vision?language Multimodality, VL?MTK)。該方法利用自然語言提供語義補(bǔ)充和上下文理解,共享底層參數(shù)以提取適用于所有任務(wù)的特征,并選擇加權(quán)平均法或任務(wù)回歸器來得出最佳的年齡估計(jì)結(jié)果。

      1" 多模態(tài)特征提取

      VL?MTK的結(jié)構(gòu)如圖2所示。VL?MTK使用ResNet101作為圖像編碼器,并使用6層和12層Transformer分別作為文本編碼器和多模態(tài)編碼器,最大文本序列長度為30。輸入圖像為預(yù)處理后的人臉圖像,文本標(biāo)簽為圖像對應(yīng)的標(biāo)簽(性別和種族)。

      提示文本生成過程如圖3所示。首先,將文本標(biāo)簽轉(zhuǎn)換為多個正、負(fù)提示文本句子。例如:A photo that depicts a female of Asian descent;然后,隨機(jī)選擇部分正、負(fù)提示文本作為輸入文本,編碼器獲取語言特征,圖像編碼器從輸入圖像中提取視覺特征。為了在訓(xùn)練中對齊視覺和語言特征,引入兩個預(yù)訓(xùn)練目標(biāo):圖像?文本對比學(xué)習(xí)(Image?Text Contrastive Learning, ITC)和圖像?文本匹配(Image?Text Matching, ITM)。

      ITC旨在多模態(tài)融合之前學(xué)習(xí)到更好的單模態(tài)特征表示。通過訓(xùn)練,ITC將具有相同語義空間的圖像?文本對映射到同一嵌入空間中。給定批次B的輸入圖像文本對(I,T),經(jīng)過圖像編碼器和文本編碼器后,獲得該批次的圖像?文本的模態(tài)特征(V,W)。首先,分別對V和W進(jìn)行L2正則歸一化;然后,遵循文獻(xiàn)[9]中的實(shí)踐,分別計(jì)算圖像到文本和文本到圖像的損失,計(jì)算公式如下:

      [LI2T=expV?WTiτi=1BexpV?WTiτ] (1)

      [LT2I=expW?VTiτi=1BexpW?VTiτ] (2)

      式中[τ]是溫度系數(shù)。

      ITC損失函數(shù)公式為:

      [LITC=-12BlI2TlogLI2T+lT2IlogLT2I] (3)

      式中:[lI2T]和[lT2I]分別表示圖像到文本和文本到圖像的標(biāo)簽,其中負(fù)對標(biāo)簽為0,正對標(biāo)簽為1。

      ITM旨在判斷給定圖像?文本對是否匹配。每張人臉圖像都有一個匹配的文本信息,形成圖像?文本正樣本對。同時,也會擁有多個不匹配的文本信息,形成圖像?文本負(fù)樣本對。最后,使用多模態(tài)編碼器生成圖像?文本的聯(lián)合表示,并添加一個全連接層,通過Softmax函數(shù)預(yù)測二分類概率。ITM的損失函數(shù)如下:

      [LITM=lITMlogpITM] (4)

      式中:[lITM]表示圖像?文本標(biāo)簽;1表示正匹配,0表示負(fù)匹配;[pITM]為預(yù)測概率向量。

      2" 多任務(wù)學(xué)習(xí)

      2.1" 多任務(wù)人臉年齡估計(jì)

      將多模態(tài)特征分別輸入到年齡分類器和序數(shù)回歸器中,進(jìn)行多任務(wù)學(xué)習(xí)。設(shè)輸入數(shù)據(jù)集[D=Ii,Ti,YiNi=1],其中[Ii]、[Ti]和[Yi]分別表示第i個樣本的人臉圖像、文本信息標(biāo)簽集合和年齡標(biāo)簽,N為樣本數(shù)量;[Xi=Ii,Ti]為模型的輸入。

      年齡分類任務(wù)通過年齡分類器來估計(jì)人的年齡。分類任務(wù)將[Xi]對應(yīng)的年齡[Yi]分類為[aiKi=1](K為年齡類別數(shù)量),并通過式(5)進(jìn)行優(yōu)化。

      [LCLS=-i=1KlCLSilogpCLSi] (5)

      式中:[pCLSi]、[lCLSi]分別表示第i個類別的預(yù)測概率、真實(shí)標(biāo)簽。

      序數(shù)回歸任務(wù)將年齡估計(jì)分解為一系列二分類問題,最后聚合二分類結(jié)果用于年齡估計(jì)。該任務(wù)引入[gi]表示年齡[Yi]的序數(shù)等級,[gi]的排名被擴(kuò)展為K-1個二進(jìn)制標(biāo)簽[gki],[1≤k≤K-1],且[gki∈0,1],表示排名是否超過[rk]。例如[gki=1],表示[gigt;rk]。其中,[gi∈R=r1,r2,…,rK],[rk]為有序序列,且[r1lt;r2lt;…lt;rK]。序數(shù)回歸任務(wù)通過式(6)進(jìn)行優(yōu)化。

      [LOR=-i=1Nlogsoigi+log1-soi1-gi] (6)

      式中:[oi∈O]表示所有二分類器的輸出;s(·)為Softmax函數(shù)。

      本文完整的優(yōu)化目標(biāo)計(jì)算公式如下:

      [L=w1LITM+w2LITC+w3LCLS+w4LOR] (7)

      式中[wj(j=1,2,3,4)]為不同任務(wù)損失函數(shù)的權(quán)重。在多任務(wù)學(xué)習(xí)中,由于任務(wù)重要性和挑戰(zhàn)性不同,合理的[wj]可提高模型性能。本文對Equal、GradNorm和DWA[7]三種求[wj]的策略進(jìn)行了實(shí)驗(yàn)。Equal策略令[wj]=1,將不同任務(wù)平等對待;GradNorm根據(jù)任務(wù)的梯度動態(tài)調(diào)節(jié)各任務(wù)的訓(xùn)練權(quán)重[wj],使各個任務(wù)的學(xué)習(xí)速度保持均衡;DWA利用任務(wù)損失的變化情況來衡量任務(wù)的學(xué)習(xí)速度。

      2.2" 多任務(wù)結(jié)果融合

      通過年齡分類器和序數(shù)回歸器獲得兩個年齡估計(jì)值[aCLS]和[aOR]。為了獲得可靠的年齡預(yù)測結(jié)果[a],選擇加權(quán)平均法和任務(wù)回歸器處理多任務(wù)結(jié)果。加權(quán)平均法計(jì)算公式如下所示:

      [a=αaCLS+1-αaOR] (8)

      式中α為權(quán)重,且0 lt; α lt; 1。

      任務(wù)回歸器R以[aCLS]和[aOR]為輸入,并通過學(xué)習(xí)來融合多任務(wù)輸出,以靈活捕捉任務(wù)間的關(guān)系,公式如下:

      [a=RaCLS,aOR] (9)

      任務(wù)回歸器R由兩個全連接層、一個BatchNorm 1D和一個ReLU激活函數(shù)組成。這種自適應(yīng)學(xué)習(xí)方法提供了更大的靈活性,使模型根據(jù)輸入數(shù)據(jù)的特點(diǎn)自動學(xué)習(xí)權(quán)重。R單獨(dú)進(jìn)行反向傳播和更新,并通過式(10)中的Smooth L1 Loss進(jìn)行優(yōu)化。

      [Smoothc=0.5c2," " " "clt;0c-0.5,其他" "] (10)

      式中c為預(yù)測年齡與真實(shí)年齡的差。

      3" 實(shí)" 驗(yàn)

      3.1" 數(shù)據(jù)集

      IMDB?WIKI包含超過50萬張圖像,年齡標(biāo)簽范圍為0~100歲。其中,IMDB包含460 723張圖像,WIKI包含62 328張圖像。本文去除了標(biāo)注日期錯誤和低質(zhì)量的圖像,最終得到224 840張圖像,其中IMDB占182 246張,WIKI占38 602張。

      UTK?FACE有20 000多張人臉圖像,包含年齡、性別和種族信息。年齡范圍為0~116歲,圖像多樣性高,包括姿勢、表情、光照、遮擋、分辨率等變化。

      Morph Ⅱ有55 000多張人臉圖像,來自約13 000個人,包含年齡、性別和種族信息,年齡范圍為16~77歲。實(shí)驗(yàn)采用了兩種流行的評估協(xié)議[3?4],即Setting 1和Setting 2。Setting 1將數(shù)據(jù)集劃分為三個不重疊的子集 S1、S2、S3,進(jìn)行兩次重復(fù)訓(xùn)練和測試:在S1上訓(xùn)練,在S2+S3上測試;在S2上訓(xùn)練,在S1+S3上測試。最后取這兩個實(shí)驗(yàn)的平均值。

      Setting 2以8∶2比例隨機(jī)劃分為訓(xùn)練集和測試集。

      3.2" 評價指標(biāo)

      人臉年齡估計(jì)通常使用平均絕對誤差(Mean Absolute Error, MAE)和累積分?jǐn)?shù)(Cumulative Score, CS)作為評價指標(biāo),計(jì)算公式如下:

      [MAE=1Ni=1Nyi-yi] (11)

      [CS=NθN′] (12)

      式中:[yi]和[yi]分別為第i張人臉圖像的真實(shí)年齡與估計(jì)年齡;N為人臉圖像總數(shù);[Nθ]表示測試集中預(yù)測年齡和真實(shí)年齡的絕對誤差不超過[θ]年的圖像數(shù)量,本文[θ]設(shè)置[3?4]為5;[N′]為測試集圖像總數(shù)。

      3.3" 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

      本文實(shí)驗(yàn)環(huán)境基于Ubuntu 20.04、PyTorch 1.11.0和NVIDIA GeForce RTX 3090(24 GB)。使用Retinaface[10]進(jìn)行人臉對齊,并將圖像大小調(diào)整為224[×]224。使用 IMDB?WIKI 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,使用AdamW優(yōu)化模型,批處理大小為64,動量為0.9。在視覺?語言多模態(tài)部分,初始學(xué)習(xí)率為0.000 1,權(quán)重衰減為0.001。任務(wù)回歸器的初始學(xué)習(xí)率和權(quán)重衰減分別設(shè)為0.001和0.000 05。

      3.4" 實(shí)驗(yàn)結(jié)果及分析

      1) 多任務(wù)損失平衡策略的比較

      使用VL?MTK(R)在UTK?FACE和Morph Ⅱ(Setting 2)上評估了Equal、GradNorm和DWA三種多任務(wù)損失平衡策略的MAE,結(jié)果見表1。其中,VL?MTK(R)表示VL?MTK使用任務(wù)回歸器R融合多任務(wù)結(jié)果。

      由表1可知,DWA策略在UTK?FACE和Morph Ⅱ上的MAE分別為4.05和2.19,取得了最佳結(jié)果。相較于Equal策略,MAE分別降低了2.41%和1.35%,與GradNorm策略相比,MAE分別降低了7.95%和12.75%。DWA策略根據(jù)任務(wù)的學(xué)習(xí)進(jìn)展動態(tài)調(diào)整權(quán)重,有助于平衡不同任務(wù)之間的學(xué)習(xí),與本文的任務(wù)最為契合。

      GradNorm策略在UTK?FACE和Morph Ⅱ上的MAE分別為4.40和2.51。該策略通過調(diào)整任務(wù)損失的變化速率來平衡權(quán)重,在相近任務(wù)學(xué)習(xí)中表現(xiàn)良好。然而,ITM和ITC任務(wù)與兩個年齡估計(jì)子任務(wù)差異較大,因此性能表現(xiàn)不佳。

      Equal策略在UTK?FACE和Morph Ⅱ上的MAE分別為4.15和2.22,性能略低于DWA策略。Equal策略對每個任務(wù)同等對待,可能導(dǎo)致ITC和ITM在訓(xùn)練過程中占主導(dǎo)地位,從而抑制了兩個年齡估計(jì)子任務(wù)的學(xué)習(xí)。

      綜上,在后續(xù)的多任務(wù)學(xué)習(xí)實(shí)驗(yàn)中,本文采用DWA策略來平衡多任務(wù)損失。

      2) 語言先驗(yàn)知識對年齡估計(jì)的影響

      本文在UTK?FACE和MorphⅡ(Setting 2)上評估了不同提示文本情況下的MAE,結(jié)果如表2所示。其中,ResNet101?MTK為基于ResNet101的多任務(wù)人臉年齡估計(jì),不含文本提示信息;VL?MTK(R)amp;gender和VL?MTK(R)amp;race分別表示VL?MTK(R)的輸入提示文本僅包含性別或種族信息;VL?MTK(R)表示輸入提示文本包含了性別和種族信息。

      由表2可知,VL?MTK(R)在UTK?FACE和Morph Ⅱ上的MAE分別為4.05和2.19,獲得了最優(yōu)的結(jié)果。相較于ResNet101?MTK,分別降低了37.79%和28.43%。同時,與VL?MTK(R)amp;gender相比,分別降低了3.80%和2.23%;與VL?MTK(R)amp;race相比,分別降低了2.88%和2.67%。

      VL?MTK(R)amp;gender MAE達(dá)到了4.21和2.24,相較于ResNet101?MTK,分別降低了35.33%和26.80%。VL?MTK(R)amp;race取得了4.17和2.25的MAE,與ResNet101?MTK相比,分別降低了35.94%和26.47%。說明即便只使用少量的語言先驗(yàn)知識,也能取得比單模態(tài)更好的效果。當(dāng)不使用任何提示文本信息,ResNet101?MTK在UTK?FACE和Morph Ⅱ上分別取得了6.51和3.06的MAE,效果最差。

      在UTK?FACE上,與VL?MTK(R)amp;gender 相比,VL?MTK(R)amp;race的MAE降低了0.95%;而在Morph Ⅱ上,與VL?MTK(R)amp;race相比,VL?MTK(R)amp;gender的MAE降低了0.44%。造成這種差異的原因是Morph Ⅱ主要由非洲裔美國人組成,而UTK?FACE的種族分布相對均衡??傮w而言,通過提供更多的語言先驗(yàn)知識,能夠獲得更好的結(jié)果。

      3) 單任務(wù)與多任務(wù)對比

      本文在UTK?FACE和Morph Ⅱ(Setting 2)上評估了VL?CLS、VL?OR和VL?MTK(R)的MAE,結(jié)果如表3所示。其中,VL?CLS表示年齡分類任務(wù),VL?OR表示序數(shù)回歸任務(wù),VL表示視覺?語言多模態(tài)模型。

      由表3可知:VL?MTK(R)在UTK?FACE和Morph Ⅱ上的MAE分別為4.05和2.19,相較于VL?CLS分別降低了15.80%和17.98%;與VL?OR相比,降低了9.40%和7.59%。這表明多任務(wù)學(xué)習(xí)綜合利用年齡分類和順序信息,提升了年齡估計(jì)性能,充分證明了多任務(wù)學(xué)習(xí)在年齡估計(jì)領(lǐng)域的有效性。

      4) 多任務(wù)結(jié)果融合實(shí)驗(yàn)

      本文使用加權(quán)平均法和任務(wù)回歸器整合多任務(wù)輸出,并在UTK?FACE和MorphⅡ(Setting 1和2)上評估了兩種方案的MAE,結(jié)果如圖4所示,橫坐標(biāo)表示多任務(wù)結(jié)果融合方法,其中0.1~0.9表示加權(quán)平均值法的加權(quán)系數(shù)α,間隔為0.1;R表示任務(wù)回歸器;縱坐標(biāo)為MAE。

      由圖4可知,UTK?FACE和Morph Ⅱ上的曲線都相對平緩,表明模型預(yù)測結(jié)果穩(wěn)定,不同融合方式都能取得不錯的結(jié)果。在UTK?FACE上,VL?MTK(R)取得了4.05的MAE,優(yōu)于VL?MTK(α=0.1)的4.09。在Morph Ⅱ(Setting 1)上,VL?MTK(α=0.8)取得了2.48的MAE,優(yōu)于VL?MTK(R)的2.5。在Morph Ⅱ(Setting 2)上,VL?MTK(α=0.1)取得了2.18的MAE,優(yōu)于VL?MTK(R)的2.19。這意味著對于加權(quán)平均法來說,不同數(shù)據(jù)集甚至同一數(shù)據(jù)集的不同劃分方式,最佳結(jié)果對應(yīng)的α取值都不確定,需要多次嘗試。隨著任務(wù)數(shù)量的增加,確定合適的α變得困難。

      盡管VL?MTK(R)在Morph Ⅱ上未達(dá)到最優(yōu)結(jié)果,但取得了次優(yōu)結(jié)果。因此,如果不追求最優(yōu)結(jié)果,使用任務(wù)回歸器方法會更簡單方便。

      5) 與其他先進(jìn)方法對比

      本文比較了所提方法與其他先進(jìn)方法在UTK?FACE上的MAE,以及在Morph Ⅱ(Setting 1和2)上的MAE、CS,結(jié)果如表4~表6所示。

      根據(jù)表4,VL?MTK(R)取得了4.05的MAE,比表中最先進(jìn)方法降低了7.32%,取得了最佳結(jié)果。其中,Coral、Randomized Bins和MWR采用序數(shù)回歸方法,EB?DPR使用回歸方法。雖然這些方法在不同程度上都提高了年齡估計(jì)性能,但都基于單模態(tài)和單任務(wù),未利用語言先驗(yàn)知識和多任務(wù)學(xué)習(xí)的優(yōu)勢。

      根據(jù)表5,VL?MTK(α=0.8)取得了2.48的MAE和90.5%的CS值。與最先進(jìn)的DRC?ORID方法相比,MAE降低了1.20%;與最先進(jìn)的MWR相比,CS提升了0.11%,同樣獲得了最佳結(jié)果。

      根據(jù)表6,VL?MTK(α=0.1)的MAE為2.18,CS為93.16%,雖未達(dá)到最佳效果,但也取得了顯著成果。隨機(jī)劃分方式會導(dǎo)致個體信息泄漏,即同一人的圖像同時存在于訓(xùn)練集和測試集,而其他先進(jìn)方法專注于圖像本身,能更好地捕捉相關(guān)性特征。相比之下,本文方法結(jié)合了種族和性別信息,隨機(jī)劃分方式加劇了性別和種族分布不平衡,從而限制了對更深入特征的學(xué)習(xí)。然而,這也說明了該模型對不同數(shù)據(jù)集劃分方式具有魯棒性。

      4" 結(jié)" 論

      本文利用自然語言為年齡估計(jì)提供語義補(bǔ)充和上下文理解,與視覺單模態(tài)相比,在UTK?FACE和Morph Ⅱ(Setting 2)上MAE分別降低了37.79%和28.43%。采用多任務(wù)學(xué)習(xí)方法將年齡分類任務(wù)和序數(shù)回歸任務(wù)相結(jié)合,相比僅使用年齡分類和序數(shù)回歸任務(wù)相比,MAE分別降低了15.80%、17.98%和9.40%、7.59%。最后,研究了兩種多任務(wù)結(jié)果融合方法:加權(quán)平均法和任務(wù)回歸器。加權(quán)平均法隨著任務(wù)數(shù)量增多,很難確定合適的系數(shù),任務(wù)回歸器不一定能獲得最佳結(jié)果,但其適用于各種多任務(wù)結(jié)果融合場景,且無需額外處理。

      本文方法具有進(jìn)一步提升性能的潛力:提供更多圖像信息,例如表情、化妝等;采用更先進(jìn)的多任務(wù)損失平衡策略;利用多模態(tài)領(lǐng)域的大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練;開發(fā)適用于年齡估計(jì)任務(wù)的多模態(tài)數(shù)據(jù)集。

      注:本文通訊作者為池靜。

      參考文獻(xiàn)

      [1] RADFORD A, KIM J W, ALLACY C, et al. Learning transferable visual models from natural language supervision [C]// International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8748?8763.

      [2] 杜希婷,張德,甄慶凱.基于改進(jìn)殘差網(wǎng)絡(luò)的人臉表觀年齡估計(jì)[J].傳感器與微系統(tǒng),2023,42(5):135?138.

      [3] SHIN N H, LEE S H, KIM C S. Moving window regression: a novel approach to ordinal regression [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 18760?18769.

      [4] LEE S H, KIM C S. Deep repulsive clustering of ordered data based on order?identity decomposition [EB/OL]. [2023?08?04]. https://www.xueshufan.com/publication/3123977792.

      [5] LI W, LU J, FENG J, et al. Bridgenet: a continuity?aware probabilistic network for age estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Angeles: IEEE, 2019: 1145?1154.

      [6] CAO W, MIRJALILI V, RASCHKA S. Rank consistent ordinal regression for neural networks with application to age estimation [J]. Pattern recognition letters, 2020, 140: 325?331.

      [7] LIU S, JOHNS E, DAVISON A J. End?to?end multi?task learning with attention [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Angeles: IEEE, 2019: 1871?1880.

      [8] KARKKAINEN K, JOO J. Fairface: face attribute dataset for balanced race, gender, and age for bias measurementand mitigation [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision [S.l.]: IEEE," 2021: 1548?1558.

      [9] LI J, SELVARAJU R, GOTMARE A, et al. Align before fuse: Vision and language representation learning with momentum distillation [J]. Advances in neural information processing systems, 2021, 34: 9694?9705.

      [10] DENG J, GUO J, VERVERAS E, et al. Retinaface: Single?shot multi?level face localisation in the wild [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 5203?5212.

      [11] GUSTAFSSON F K, DANELLJAN M, BHAT G, et al. Energy?based models for deep probabilistic regression [C]// Computer Vision?ECCV 2020: 16th European Conference. Glasgow, UK: ECCV, 2020: 325?343.

      [12] BERG A, OSKARSSON M, O'CONNOR M. Deep ordinal regression with label diversity [C]// 2020 25th International Conference on Pattern Recognition (ICPR). [S.l.]: IEEE, 2021: 2740?2747.

      [13] WEN X, LI B, GUO H, et al. Adaptive variance based label distribution learning for facial age estimation [C]// Computer Vision?ECCV 2020: 16th European Conference. Glasgow, UK: ECCV, 2020: 379?395.

      [14] LIM K, SHIN N H, LEE Y Y, et al. Order learning and its application to age estimation [C]// 2020 International Conference on Learning Representations. Addis Ababa: ICL, 2020: 1210?1220.

      [15] ZHANG C, LIU S, XU X, et al. C3AE: exploring the limits of compact model for age estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 12587?12596.

      猜你喜歡
      視覺
      選拔﹑培訓(xùn)檢驗(yàn)鑒定感官評價員的方法探索
      美學(xué)思維在影視后期制作中的有效應(yīng)用
      淺談從視覺角度提高廣告創(chuàng)意的方法
      青春歲月(2016年22期)2016-12-23 20:27:39
      櫥窗設(shè)計(jì)的視覺吸引力研究
      公共視覺傳達(dá)系統(tǒng)在歷史博物館設(shè)計(jì)中的應(yīng)用
      城市景觀的文本化:視覺文化捕捉和分析的符碼
      教具在高職課堂教學(xué)中的應(yīng)用
      論黃山標(biāo)識性材料設(shè)計(jì)的“焦甜香”表達(dá)
      商情(2016年40期)2016-11-28 11:25:01
      馬修·伯恩的舞蹈劇場美學(xué):走向哥特之美
      演藝科技(2016年10期)2016-11-26 22:12:27
      淺析油畫色彩表現(xiàn)的理性化方式
      广平县| 富源县| 西青区| 洛川县| 广德县| 建昌县| 益阳市| 德兴市| 水富县| 垣曲县| 荆州市| 朔州市| 博白县| 浑源县| 建阳市| 钟山县| 昭苏县| 眉山市| 湟中县| 黔东| 霍州市| 文成县| 池州市| 武功县| 革吉县| 若羌县| 岗巴县| 普定县| 沅江市| 九龙城区| 吴忠市| 江华| 彰化县| 温宿县| 韩城市| 昌平区| 砚山县| 郯城县| 山阴县| 清徐县| 泸定县|