• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)

    2023-02-18 06:32:56盛振濤陳雁翔齊國(guó)君
    關(guān)鍵詞:對(duì)抗性音視頻級(jí)別

    盛振濤,陳雁翔*,齊國(guó)君

    1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601;2.智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室(合肥工業(yè)大學(xué)), 合肥 230601;3.機(jī)器感知與學(xué)習(xí)實(shí)驗(yàn)室(美國(guó)中佛羅里達(dá)大學(xué)), 美國(guó)奧蘭多 32816

    0 引 言

    在自然界中,音頻和視覺(jué)事件往往同時(shí)發(fā)生:當(dāng)說(shuō)話時(shí),嘴唇會(huì)同時(shí)動(dòng)作;當(dāng)飛機(jī)低空掠過(guò)時(shí),飛機(jī)會(huì)同時(shí)發(fā)出噪聲;當(dāng)切菜時(shí),刀與案板碰撞會(huì)發(fā)出聲音。由于自然界中音視頻信息具有時(shí)間同步性,因此人類在感知自然界的過(guò)程中,聽覺(jué)系統(tǒng)和視覺(jué)系統(tǒng)往往協(xié)同工作來(lái)采集音視頻信息,然后由大腦中樞系統(tǒng)融合處理音視頻信息,最終人類形成了對(duì)外界的認(rèn)知。在感知研究中,已有大量文獻(xiàn)(Shams 和 Kim,2010;Heffner 和 Heffner,1992;Risto,1992)提供了實(shí)驗(yàn)證據(jù),表明人在理解動(dòng)態(tài)事件時(shí)不僅依靠視覺(jué)系統(tǒng),還需要聽覺(jué)系統(tǒng)的輔助,如果一個(gè)人的聽覺(jué)功能受到影響,那么他對(duì)視覺(jué)事件的敏感度會(huì)降低(Myklebust,1960)。因此,相比于單從聽覺(jué)事件或者視覺(jué)事件中提取到的特征,從音視頻事件中可以提取到的特征包含更加豐富的信息。

    對(duì)比學(xué)習(xí)是一種自監(jiān)督表示學(xué)習(xí),它使用對(duì)比損失(van den Oord 等,2018)衡量表示空間中樣本對(duì)之間的相似性。在計(jì)算機(jī)視覺(jué)領(lǐng)域,傳統(tǒng)的對(duì)比學(xué)習(xí)通過(guò)衡量樣本之間的互信息(Hénaff,2020;Hadsell等,2016;Hjelm等,2019;Zhuang等,2019;van den Oord等,2018)來(lái)學(xué)習(xí)數(shù)據(jù)特征。Chen等人(2020)將對(duì)比學(xué)習(xí)應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域,提出可以對(duì)圖像進(jìn)行增強(qiáng)編碼,讓同一幅圖的不同增強(qiáng)視圖相互靠近,不同圖像的增強(qiáng)視圖相互遠(yuǎn)離。對(duì)比學(xué)習(xí)需要從負(fù)樣本空間中抽取負(fù)樣本,如何構(gòu)建負(fù)樣本空間是一個(gè)關(guān)鍵的問(wèn)題。為了良好地對(duì)比學(xué)習(xí)質(zhì)量,構(gòu)建負(fù)樣本空間的原則是足夠大且具有連續(xù)性(He 等,2020)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,許多工作(Hu 等,2021;He 等,2020;Li 等,2021;Ho 和 Vasconcelos,2020;Kalantidis 等,2020)專注于視覺(jué)負(fù)樣本空間的構(gòu)造。Wu 等人(2018)提出可以維護(hù)一個(gè)包含所有訓(xùn)練樣本的存儲(chǔ)庫(kù);He 等人(2020)提出可以構(gòu)建一個(gè)帶有隊(duì)列和移動(dòng)平均編碼器的動(dòng)態(tài)負(fù)樣本字典,既保證了負(fù)樣本空間規(guī)模性和連續(xù)性,又減少了內(nèi)存占用;Li 等人(2021)、Kalantidis 等人(2020)提出可以通過(guò)聚類等手段尋找更加有效的負(fù)樣本,增強(qiáng)負(fù)樣本空間的有效性;Hu 等人(2021)、Ho 和 Vasconcelos(2020)提出引入對(duì)抗性負(fù)樣本的想法,可以有效地使負(fù)樣本空間覆蓋到具有挑戰(zhàn)性的訓(xùn)練樣本,提高對(duì)比學(xué)習(xí)質(zhì)量。但是上述工作提出的對(duì)負(fù)樣本空間的改進(jìn)措施都聚焦于視覺(jué)單一模態(tài),沒(méi)有考慮到對(duì)比學(xué)習(xí)在音視頻多模態(tài)領(lǐng)域的應(yīng)用。相比于上述單一視覺(jué)模態(tài)下的對(duì)比學(xué)習(xí),音視頻跨模態(tài)對(duì)比學(xué)習(xí)可以使用不同的音視頻視圖進(jìn)行對(duì)比學(xué)習(xí),從而學(xué)習(xí)到信息更加豐富的音視頻信息(Morgado 等,2021b;Owens 和 Efros,2018)。

    本文針對(duì)音視頻多模態(tài)下的對(duì)比空間負(fù)樣本空間的構(gòu)建問(wèn)題,提出了面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法,如圖1所示。在圖1左側(cè),首先將視覺(jué)片段和音頻片段進(jìn)行增強(qiáng)編碼,分別得到視覺(jué)特征向量和聽覺(jué)特征向量。對(duì)同一片段再次進(jìn)行增強(qiáng)編碼,可以得到對(duì)應(yīng)的正樣本。在圖1中間部分,展示了音視頻跨模態(tài)對(duì)抗對(duì)比學(xué)習(xí)的訓(xùn)練流程。

    首先,如圖1中間左側(cè)下方所示,使用標(biāo)準(zhǔn)正態(tài)分布來(lái)生成視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合,從而構(gòu)建了音視頻負(fù)樣本空間。定義視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本數(shù)量均為65 536,確保了音視頻負(fù)樣本空間的規(guī)模性。其次,在圖1中間的上半部分表示了音視頻模態(tài)間的對(duì)抗對(duì)比學(xué)習(xí),以左上的視覺(jué)特征向量為例,將其和對(duì)應(yīng)的同一音頻片段的在不同增強(qiáng)視圖下的聽覺(jué)特征向量作為正樣本對(duì)(圖1中間的左上方的相對(duì)箭頭兩側(cè)),而聽覺(jué)對(duì)抗性負(fù)樣本構(gòu)成了負(fù)樣本空間。在模態(tài)間對(duì)比學(xué)習(xí)的過(guò)程中,視覺(jué)特征向量要靠近聽覺(jué)正樣本,同時(shí)遠(yuǎn)離聽覺(jué)對(duì)抗性負(fù)樣本。然后,聽覺(jué)對(duì)抗性負(fù)樣本進(jìn)行模態(tài)間對(duì)抗更新,使得自身更加接近視覺(jué)特征向量,增加對(duì)比學(xué)習(xí)的難度。以聽覺(jué)特征向量為核心的模態(tài)間對(duì)抗對(duì)比學(xué)習(xí)流程也是如此。

    與此同時(shí),如果僅有圖1中間的上半部分的音視頻模態(tài)間對(duì)抗對(duì)比學(xué)習(xí),那么實(shí)際上模型就退化為了單一模態(tài)的對(duì)抗對(duì)比學(xué)習(xí),這是因?yàn)橐曈X(jué)和聽覺(jué)對(duì)抗性負(fù)樣本初始化時(shí)為標(biāo)準(zhǔn)正態(tài)分布,不包含任何自身模態(tài)的信息。為此,如圖1中間的下半部分,增加了音視頻模態(tài)內(nèi)的對(duì)抗對(duì)比學(xué)習(xí)。以圖1右下的視覺(jué)特征向量為例,將其和對(duì)應(yīng)的同一視覺(jué)片段的在不同增強(qiáng)視圖下的視覺(jué)特征向量作為正樣本對(duì),而視覺(jué)對(duì)抗性負(fù)樣本構(gòu)成了負(fù)樣本空間。在模態(tài)內(nèi)對(duì)比學(xué)習(xí)的過(guò)程中,視覺(jué)特征向量靠近視覺(jué)正樣本,同時(shí)遠(yuǎn)離視覺(jué)對(duì)抗性負(fù)樣本。接著,視覺(jué)對(duì)抗性負(fù)樣本進(jìn)行對(duì)抗更新,使得自身更加接近視覺(jué)特征向量,增加對(duì)比學(xué)習(xí)的難度。圖1左下聽覺(jué)特征向量對(duì)應(yīng)的模態(tài)內(nèi)對(duì)抗對(duì)比學(xué)習(xí)流程也是如此。

    最終,視覺(jué)和聽覺(jué)特征向量既包含了模態(tài)間信息,也包含了自身模態(tài)的信息。其融合了視聽覺(jué)信息,可以更好地指導(dǎo)圖1右側(cè)的下游任務(wù),提升準(zhǔn)確率。1.2節(jié)的數(shù)學(xué)推導(dǎo)證明了對(duì)抗性負(fù)樣本可以不斷地跟蹤音視頻訓(xùn)練樣本中難以區(qū)分的樣本,從而提高對(duì)比學(xué)習(xí)質(zhì)量。

    圖1 面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法方法示意圖

    本文定義了一個(gè)視聽覺(jué)對(duì)抗性負(fù)樣本集合,以此來(lái)代替原有的視覺(jué)對(duì)抗性負(fù)樣本集合和聽覺(jué)對(duì)抗性負(fù)樣本集合。這一改進(jìn)簡(jiǎn)化了框架,降低了框架的復(fù)雜度,1.3節(jié)的數(shù)學(xué)推導(dǎo)和2.3.1節(jié)的消融實(shí)驗(yàn)證明了這一簡(jiǎn)化措施的等價(jià)性和有效性。

    音視頻多模態(tài)自監(jiān)督學(xué)習(xí)的目的是通過(guò)預(yù)訓(xùn)練得到融合音視頻信息的特征表示,其通過(guò)微調(diào)可以遷移到不同下游任務(wù)上。對(duì)于提出的面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法,選取Kinetics-400(Kay 等,2017)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,選取動(dòng)作識(shí)別和音頻分類下游任務(wù),分別評(píng)估了訓(xùn)練得到的包含聽覺(jué)信息的視覺(jué)特征表示和包含視覺(jué)信息的聽覺(jué)特征表示。實(shí)驗(yàn)從定性和定量的角度表明,該方法可以很好地融合音視頻特征,在動(dòng)作識(shí)別和音頻分類下游任務(wù)上與其他音視頻跨模態(tài)自監(jiān)督學(xué)習(xí)方法相比取得了具有競(jìng)爭(zhēng)性的結(jié)果。

    綜上所述,本文的貢獻(xiàn)在于:

    1)提出了面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法,創(chuàng)新性地引入了視覺(jué)、聽覺(jué)對(duì)抗性負(fù)樣本集合來(lái)構(gòu)建音視頻負(fù)樣本空間;

    2)構(gòu)建了音視頻模態(tài)間與模態(tài)內(nèi)對(duì)抗對(duì)比的聯(lián)合學(xué)習(xí)模式,并證明了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本可以有效跟蹤訓(xùn)練樣本中難以區(qū)分的樣本,從而提高了音視頻特征融合質(zhì)量;

    3)進(jìn)一步提出了音視頻對(duì)抗對(duì)比學(xué)習(xí)簡(jiǎn)化框架,在減少一半視聽覺(jué)對(duì)抗性負(fù)樣本的同時(shí)保證了本文方法的精度。

    1 面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)

    面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法引入了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本,從而構(gòu)建了一個(gè)更加高效的音視頻跨模態(tài)負(fù)樣本空間,增強(qiáng)了音視頻跨模態(tài)對(duì)比學(xué)習(xí)的學(xué)習(xí)質(zhì)量。

    1.1 音視頻對(duì)抗對(duì)比學(xué)習(xí)框架

    圖2 音視頻對(duì)抗對(duì)比學(xué)習(xí)框架

    本文采用了經(jīng)典的InfoNCE對(duì)比損失函數(shù)(van den Oord 等,2018),具體為

    LInfoNCE(X,X′,R)=

    (1)

    綜上所述,一方面,通過(guò)音視頻編碼器將視覺(jué)片段和音頻片段投影到特征空間,得到視覺(jué)正樣本對(duì)和聽覺(jué)正樣本對(duì);另一方面,定義視覺(jué)對(duì)抗性負(fù)樣本集合和聽覺(jué)對(duì)抗性負(fù)樣本集合。由于集合中的每個(gè)對(duì)抗性負(fù)樣本都是可梯度更新的,相當(dāng)于在每個(gè)對(duì)抗性負(fù)樣本后都添加了全連接層。初始狀態(tài)下,全連接層的可梯度更新的參數(shù)矩陣為單位矩陣(矩陣行寬和列寬均為向量長(zhǎng)度)?;谝粢曨l正樣本對(duì)和視聽覺(jué)對(duì)抗性負(fù)樣本集合,計(jì)算得到模態(tài)間與模態(tài)內(nèi)對(duì)比損失函數(shù)。

    因?yàn)橐曈X(jué)對(duì)抗性負(fù)樣本集合Rv和聽覺(jué)對(duì)抗性負(fù)樣本集合Ra初始化為正態(tài)分布,所以其本身不包含音視頻信息。如果僅僅定義模態(tài)內(nèi)損失函數(shù)或模態(tài)間損失函數(shù),那么就僅能學(xué)習(xí)到對(duì)應(yīng)模態(tài)的特征,而無(wú)法學(xué)習(xí)到音視頻跨模態(tài)特征,從而退化為單一模態(tài)下的對(duì)抗對(duì)比學(xué)習(xí)。因此,定義了聯(lián)合對(duì)比損失函數(shù)LJoint,具體為

    LJoint=LCross+LIn

    (2)

    LCross=LInfoNCE(Xv,X′a,Ra)+

    LInfoNCE(Xa,X′v,Rv)

    (3)

    LIn=LInfoNCE(Xv,X′v,Rv)+

    LInfoNCE(Xa,X′a,Ra)

    (4)

    式中,LIn為音視頻模態(tài)內(nèi)的對(duì)比損失函數(shù),LCross為音視頻模態(tài)間的對(duì)比損失函數(shù)。這一聯(lián)合損失的形式與圖2右側(cè)一致。在圖2中,對(duì)比損失函數(shù)LInfoNCE(Xv,X′a,Ra)簡(jiǎn)寫為L(zhǎng)ossva,其他3個(gè)損失函數(shù)亦然。在1.2節(jié)中,證明了通過(guò)對(duì)抗對(duì)比學(xué)習(xí)優(yōu)化聯(lián)合對(duì)比損失函數(shù)LJoint(式(2)),視覺(jué)對(duì)抗性負(fù)樣本集合Rv和聽覺(jué)對(duì)抗性負(fù)樣本集合Ra不僅跟蹤了模態(tài)內(nèi)難以區(qū)分的特征樣本,同時(shí)也跟蹤了模態(tài)間的難以區(qū)分的特征樣本。

    1.2 音視頻對(duì)抗對(duì)比學(xué)習(xí)梯度分析

    根據(jù)定義的聯(lián)合對(duì)比損失函數(shù)LJoint(式(2))可以看到,存在著兩個(gè)可訓(xùn)練的主體:音視頻查詢編碼器fvq和faq以及視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合Rv和Ra。不僅沿著聯(lián)合對(duì)比損失函數(shù)LJoint最小化方向更新音視頻查詢編碼器fvq的參數(shù)θv和faq的參數(shù)θa,還沿著聯(lián)合對(duì)比損失函數(shù)LJoint最大化方向更新視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合Rv和Ra。因此,聯(lián)合對(duì)比損失函數(shù)LJoint的優(yōu)化問(wèn)題變成了一個(gè)最大最小化問(wèn)題,即

    (5)

    (6)

    (7)

    (8)

    (9)

    (10)

    1.3 音視頻對(duì)抗對(duì)比學(xué)習(xí)框架的簡(jiǎn)化

    (11)

    (12)

    2 實(shí)驗(yàn)及結(jié)果分析

    為了評(píng)估性能,首先進(jìn)行預(yù)訓(xùn)練,然后在動(dòng)作識(shí)別和音頻分類下游任務(wù)上進(jìn)行遷移學(xué)習(xí),最后分別進(jìn)行定性和定量評(píng)估。音視頻對(duì)應(yīng)和音視頻實(shí)例判別是音視頻跨模態(tài)自監(jiān)督學(xué)習(xí)領(lǐng)域具有代表性的方法,分別與它們進(jìn)行實(shí)驗(yàn)對(duì)比。對(duì)抗對(duì)比學(xué)習(xí)(adversarial contrast,AdCo)是一種視覺(jué)模態(tài)下的自監(jiān)督表示學(xué)習(xí)方法。將其作為比較方法,體現(xiàn)音視頻特征融合的有效性。音視頻對(duì)應(yīng)(audio visual corresponding,AVC)是一個(gè)二元分類任務(wù):給定一個(gè)視覺(jué)片段和一個(gè)音頻片段,判斷它們是否對(duì)應(yīng),其中正對(duì)來(lái)源于同一個(gè)視頻,負(fù)對(duì)來(lái)源于不同視頻。音視頻實(shí)例判別學(xué)習(xí)則采用對(duì)比學(xué)習(xí),將一個(gè)視覺(jué)片段與多個(gè)音頻片段進(jìn)行對(duì)比,同時(shí)將一個(gè)音頻片段與多個(gè)視覺(jué)片段進(jìn)行對(duì)比。其中正對(duì)來(lái)源于視頻中時(shí)間同步對(duì)應(yīng)的音視頻片段,負(fù)樣本既可能來(lái)源于同一視頻的不同時(shí)間點(diǎn)的片段,也有可能來(lái)源于不同視頻的片段。因此,音視頻實(shí)例判別中包含了音視頻對(duì)應(yīng)和音視頻時(shí)間同步這兩個(gè)隱含約束條件。音視頻實(shí)例判別學(xué)習(xí)存在3種變體,分別是模態(tài)間實(shí)例判別學(xué)習(xí)(self-audio visual instance discrimination)、聯(lián)合模態(tài)實(shí)例判別學(xué)習(xí)(joint-audio visual instance discrimination)和跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)(cross-audio visual instance discrimination,Cross-AVID)。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)在3種變體中達(dá)到了最優(yōu)效果(Morgado 等,2021b),因此本文采用跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)(Cross-AVID)作為比較方法。為了公平比較,采用與本文方法相同的架構(gòu)和優(yōu)化設(shè)置重新實(shí)施上述方法。

    2.1 實(shí)驗(yàn)設(shè)置

    2.1.1 數(shù)據(jù)集選取

    采用Kinetics-400K(Kay 等,2017)的子集Kinetics-100K(Morgado 等,2021b)進(jìn)行音視頻對(duì)抗對(duì)比學(xué)習(xí)預(yù)訓(xùn)練。Kinetics-400數(shù)據(jù)集包括了240 K的持續(xù)時(shí)間大約為10 s的視頻,涵蓋了400類人類動(dòng)作,例如演奏樂(lè)器、握手或者擁抱等。在預(yù)訓(xùn)練時(shí),僅使用自監(jiān)督學(xué)習(xí)方法提取Kinetics-400數(shù)據(jù)集中的音視頻信息,而不使用標(biāo)簽信息。

    針對(duì)下游動(dòng)作識(shí)別任務(wù),選取了UCF-101數(shù)據(jù)集(Soomro 等,2012)和HMDB-51(human metabolome database)數(shù)據(jù)集。UCF-101數(shù)據(jù)集包含了13 320個(gè)視頻,涵蓋了101類真實(shí)動(dòng)作,具有動(dòng)作多樣性。UCF-101的視頻在相機(jī)運(yùn)動(dòng)幅度、物體外觀和姿態(tài)、物體尺度、視角、背景和光照條件上都存在較大變化,非常具有挑戰(zhàn)性。HMDB數(shù)據(jù)集(Kuehne等,2011)包含6 849個(gè)剪輯,分為51個(gè)動(dòng)作類別,每個(gè)類別至少包含101個(gè)剪輯。動(dòng)作類別可以分為5種類型:面部表情動(dòng)作、與對(duì)象操縱相關(guān)的嘴部動(dòng)作、肢體運(yùn)動(dòng)、與環(huán)境交互的肢體動(dòng)作以及與人類交互的肢體動(dòng)作。可以看到,HMDB51數(shù)據(jù)集類別之間的相似性高,非常具有挑戰(zhàn)性。本文選取了HMDB-51數(shù)據(jù)集中的20類動(dòng)作進(jìn)行下游動(dòng)作識(shí)別任務(wù)。針對(duì)下游音頻分類任務(wù),采用了ESC50(environmental sound classification)數(shù)據(jù)集(Piczak,2015)。ESC50數(shù)據(jù)集包含有2 000個(gè)環(huán)境錄音,每段錄音長(zhǎng)度為5 s,分為50個(gè)類別,可以作為環(huán)境聲音分類的基準(zhǔn)測(cè)試方法。本文選取了ESC50數(shù)據(jù)集中的25類用做基準(zhǔn)。

    2.1.2 視覺(jué)特征與聽覺(jué)特征的預(yù)處理

    在視覺(jué)處理上,以16 幀/s的幀率隨機(jī)選取一段時(shí)長(zhǎng)為0.5 s的視覺(jué)片段,其中包含了8個(gè)連續(xù)的視頻幀。然后對(duì)選取的視覺(jué)片段進(jìn)行標(biāo)準(zhǔn)的視覺(jué)增強(qiáng)操作(Szegedy 等,2015),包括隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)和色彩調(diào)節(jié)。經(jīng)過(guò)視覺(jué)增強(qiáng)操作,得到8×224×224的視覺(jué)增強(qiáng)視圖對(duì),將其送入到視覺(jué)編碼器組中。在音頻處理上,以24 KHz的音頻采樣頻率選取了與視覺(jué)片段對(duì)應(yīng)的時(shí)長(zhǎng)為2 s的音頻片段。同樣地,對(duì)音頻片段進(jìn)行增強(qiáng)操作,包括隨機(jī)調(diào)整音量、時(shí)間抖動(dòng),并且接著進(jìn)行了短時(shí)傅里葉變換,得到了200×257(200個(gè)時(shí)間步長(zhǎng),257個(gè)頻率點(diǎn))的音頻增強(qiáng)視圖對(duì),將其送入音頻編碼器組中。

    2.1.3 音視頻網(wǎng)絡(luò)架構(gòu)和優(yōu)化設(shè)置

    對(duì)于視覺(jué)模態(tài),選取了2層標(biāo)準(zhǔn)3D卷積神經(jīng)網(wǎng)絡(luò),并在其后添加了3層MLP(multilayer perceptron)層,以此作為視覺(jué)編碼器架構(gòu)。對(duì)于聽覺(jué)模態(tài),選取了2層標(biāo)準(zhǔn)2D卷積神經(jīng)網(wǎng)絡(luò),同樣在其后添加了3層MLP層,以此作為音頻編碼器架構(gòu)。具體架構(gòu)如表1所示。

    表1 音視頻網(wǎng)絡(luò)架構(gòu)

    在表1中,Xs表示視覺(jué)片段中每一幀的空間尺寸,Xn表示視覺(jué)片段的幀數(shù),Cv表示視覺(jué)片段的通道數(shù),Xf表示音頻片段的頻率采樣點(diǎn)數(shù),Xt表示音頻片段的時(shí)間采樣點(diǎn)數(shù),Ca表示音頻片段的通道數(shù)。對(duì)于視覺(jué)片段,采用RGB格式,因此視覺(jué)片段的初始通道數(shù)為3。對(duì)于音頻片段,采用單通道,因此音頻片段的初始通道數(shù)為1。視覺(jué)與聽覺(jué)對(duì)抗性負(fù)樣本集合大小均設(shè)置為65 536。

    Adam優(yōu)化器學(xué)習(xí)率分別設(shè)置為0.011和1.1來(lái)優(yōu)化音視頻編碼器網(wǎng)絡(luò)和視聽覺(jué)對(duì)抗性負(fù)樣本集合。優(yōu)化器權(quán)重衰減值均設(shè)置為0.000 01,動(dòng)量值均設(shè)置為0.9。批處理大小設(shè)置為96,訓(xùn)練總批次設(shè)置為30。訓(xùn)練過(guò)程使用了2塊TITAN Xp型號(hào)的GPU。在訓(xùn)練過(guò)程中,對(duì)于同一個(gè)批次,首先沿對(duì)比損失減小的梯度方向來(lái)更新音視頻編碼器網(wǎng)絡(luò),然后沿對(duì)比損失增大的梯度方向來(lái)更新視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合。

    2.2 定性評(píng)估

    2.2.1 預(yù)訓(xùn)練效果的定性評(píng)估

    對(duì)本文方法的預(yù)訓(xùn)練效果進(jìn)行定性評(píng)估。將視覺(jué)編碼器組的視覺(jué)查詢編碼器作為前端,并在其后加上了1層全連接層和1層softmax層來(lái)映射至101類,以此作為下游動(dòng)作識(shí)別的監(jiān)督網(wǎng)絡(luò)。遵循之前的工作(Korbar 等,2018;Tian 等,2020;Han 等,2019)在UCF-101數(shù)據(jù)集上的評(píng)估協(xié)議,網(wǎng)絡(luò)重新整體微調(diào)訓(xùn)練來(lái)進(jìn)行遷移學(xué)習(xí)。與此同時(shí),將視覺(jué)查詢編碼器未經(jīng)預(yù)訓(xùn)練的監(jiān)督網(wǎng)絡(luò)和視覺(jué)查詢編碼器經(jīng)過(guò)Cross-AVID預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)設(shè)置為對(duì)照網(wǎng)絡(luò)。

    預(yù)訓(xùn)練參數(shù)在2.1節(jié)已經(jīng)詳細(xì)說(shuō)明,為了進(jìn)行下游遷移學(xué)習(xí),還需要進(jìn)行下游監(jiān)督網(wǎng)絡(luò)的優(yōu)化設(shè)置。仍舊使用Adam優(yōu)化器來(lái)優(yōu)化網(wǎng)絡(luò)。為了與預(yù)訓(xùn)練參數(shù)保持合理的相對(duì)關(guān)系,優(yōu)化器的學(xué)習(xí)率設(shè)置為0.000 1,動(dòng)量設(shè)置為0.9,批處理大小設(shè)置為64,總訓(xùn)練批次設(shè)置為13。

    在經(jīng)過(guò)上游預(yù)訓(xùn)練(可選)和下游遷移學(xué)習(xí)后,通過(guò)對(duì)101維標(biāo)簽中實(shí)際類別指向的標(biāo)簽誤差進(jìn)行反向傳播,提取監(jiān)督網(wǎng)絡(luò)最后一層卷積層的梯度,然后將梯度可視化,并與原始圖像相疊加,最終可得監(jiān)督網(wǎng)絡(luò)最后一層卷積層的梯度類激活熱力圖(gradient-class activation map,Grad-CAM),如圖3所示。由于監(jiān)督網(wǎng)絡(luò)最后一層卷積層的尺寸為112×112,因此給出的梯度類激活熱力圖的細(xì)粒度較大。另外,由于圖像經(jīng)過(guò)了數(shù)據(jù)增強(qiáng)操作,與原始圖像相比,梯度類別激活熱力圖會(huì)隨機(jī)水平翻轉(zhuǎn)或者隨機(jī)局部放大。

    圖3 梯度類激活熱力圖對(duì)比

    圖3從左到右原始圖像的真實(shí)動(dòng)作標(biāo)簽分別為:棒球投擲、彈奏西塔琴、彈奏多爾鼓和乒乓球擊球。對(duì)于Grad-CAM來(lái)說(shuō),越明亮的地方表明其梯度值越大,對(duì)于類別的貢獻(xiàn)越大。圖3第1列,相比于視覺(jué)查詢編碼器未經(jīng)預(yù)訓(xùn)練和視覺(jué)查詢編碼器經(jīng)過(guò)Cross-AVID預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò),視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了棒球手的全身投擲準(zhǔn)備動(dòng)作,這些都是高層語(yǔ)義信息,是區(qū)分動(dòng)作的重要信息源。第2列視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了彈琴者的彈琴動(dòng)作,而不是像Cross-AVID只是關(guān)注了一些邊緣輪廓信息。第3列視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了擊鼓者的擊鼓動(dòng)作。第4列視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了乒乓球運(yùn)動(dòng)員的擊球動(dòng)作。圖3表明,經(jīng)過(guò)本文方法預(yù)訓(xùn)練后,下游動(dòng)作識(shí)別任務(wù)的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了高層語(yǔ)義信息。

    2.2.2 視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本質(zhì)量的定性評(píng)估

    在1.2節(jié)的音視頻對(duì)抗對(duì)比學(xué)習(xí)梯度分析中,證明了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本可以跟蹤難以區(qū)分的視聽覺(jué)樣本。本節(jié)通過(guò)可視化音視頻對(duì)抗對(duì)比學(xué)習(xí)的音視頻查詢樣本與視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本的t-SNE(t-distributed stochastic neighbor embedding)圖,定性分析了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本的質(zhì)量。由于本文方法既有音視頻模態(tài)間對(duì)抗對(duì)比學(xué)習(xí),又有音視頻模態(tài)內(nèi)對(duì)抗對(duì)比學(xué)習(xí),因此,將音視頻查詢樣本與視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本(在圖4(a)中簡(jiǎn)記為音視頻對(duì)抗樣本)組合在一起,繪制其t-SNE圖,如圖4(a)所示。

    將跨模態(tài)音視頻實(shí)例判別(Cross-AVID)設(shè)置為對(duì)照方法。由于跨模態(tài)音視頻實(shí)例判別僅僅使用了模態(tài)間對(duì)比學(xué)習(xí),因此將視覺(jué)查詢樣本和從音頻存儲(chǔ)庫(kù)中采樣的負(fù)樣本組合在一起,繪制其t-SNE圖,如圖4(b)所示;將視覺(jué)查詢向量和從音頻存儲(chǔ)庫(kù)中采樣的負(fù)樣本組合在一起,繪制其t-SNE圖,如圖4(c)所示。

    圖4 音視頻對(duì)抗對(duì)比學(xué)習(xí)的t-SNE圖與跨模態(tài)音視頻實(shí)例判別的t-SNE圖對(duì)比

    將圖4(a)(b)進(jìn)行比較,可以發(fā)現(xiàn)本文方法獲得的視覺(jué)對(duì)抗性負(fù)樣本的分布更加均勻,呈橢圓狀分布,而在Cross-AVID中,從音頻存儲(chǔ)庫(kù)采樣的負(fù)樣本的分布卻存在著小集群,即圖4(b)中紅框所標(biāo)區(qū)域。與圖4(c)進(jìn)行比較,可以發(fā)現(xiàn)在Cross-AVID中,從視覺(jué)存儲(chǔ)庫(kù)采樣的負(fù)樣本分布不均勻,即圖4(c)中紅框標(biāo)注區(qū)域缺失了負(fù)樣本。

    圖4(b)(c)中存在的小集群以及缺失會(huì)使得Cross-AVID方法的負(fù)樣本空間無(wú)法很好地覆蓋到音視頻查詢樣本。這會(huì)導(dǎo)致音視頻查詢樣本與負(fù)樣本很容易被區(qū)分。而通過(guò)本文方法獲得的視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本分布(圖4(a))呈橢圓形,較好覆蓋到音視頻查詢樣本。因此音視頻查詢樣本與對(duì)抗性負(fù)樣本不容易區(qū)分,有利于提高對(duì)比學(xué)習(xí)的質(zhì)量。也就是說(shuō),視覺(jué)與聽覺(jué)對(duì)抗性負(fù)樣本在迭代過(guò)程中密切跟蹤了視聽覺(jué)樣本,構(gòu)建了一個(gè)更加高效的音視頻負(fù)樣本空間。

    2.3 定量評(píng)估

    將本文方法與音視頻對(duì)應(yīng)(AVC)和跨模態(tài)音視頻實(shí)例判別(Cross-AVID)這兩種音視頻自監(jiān)督學(xué)習(xí)方法進(jìn)行比較。此外,設(shè)置了對(duì)抗對(duì)比學(xué)習(xí)(AdCo)作為視覺(jué)單模態(tài)的對(duì)照組。在相同的架構(gòu)下,相比于視覺(jué)表示對(duì)比學(xué)習(xí)(SimCLR)、動(dòng)量對(duì)比學(xué)習(xí)(MoCO v2)和基于聚類對(duì)比的對(duì)比學(xué)習(xí)SWAV(swapping assignments between views)等視覺(jué)自監(jiān)督學(xué)習(xí)方法,AdCo在ImageNet數(shù)據(jù)集上的TOP1準(zhǔn)確率更高(Hu 等,2021)。本文還對(duì)1.3節(jié)中提出的簡(jiǎn)化(表2中最后一行)進(jìn)行了消融實(shí)驗(yàn)。

    2.3.1 動(dòng)作識(shí)別任務(wù)

    表2比較了各種音視頻自監(jiān)督表征學(xué)習(xí)方法預(yù)訓(xùn)練的遷移效果。在相同實(shí)驗(yàn)設(shè)置下,基于視覺(jué)單模態(tài)的自監(jiān)督表征學(xué)習(xí)方法AdCo在各項(xiàng)指標(biāo)上均低于基于音視頻多模態(tài)的自監(jiān)督表征學(xué)習(xí)方法(AVC、Cross-AVID、本文),這說(shuō)明基于音視頻多模態(tài)的方法學(xué)習(xí)到了更加高質(zhì)量的信息(Huang 等,2021),因此在下游遷移任務(wù)上的效果也更好。比較3種基于音視頻多模態(tài)的自監(jiān)督表征學(xué)習(xí)方法,本文方法在視覺(jué)片段級(jí)別的TOP1和TOP5準(zhǔn)確率以及視頻級(jí)別的TOP1和TOP5準(zhǔn)確率上均達(dá)到了最優(yōu)效果。與跨模態(tài)音視頻實(shí)例判別(Cross-AVID)方法相比,視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率高出了0.47%,視覺(jué)片段級(jí)別的TOP5準(zhǔn)確率高出了2.06%;視頻級(jí)別的TOP1準(zhǔn)確率高出了0.35%,視頻級(jí)別的TOP5準(zhǔn)確率高出3.17%。音視頻對(duì)應(yīng)(AVC)方法除了在視頻級(jí)別的TOP5準(zhǔn)確率上比跨模態(tài)音視頻實(shí)例判別(Cross-AVID)方法高0.68%以外,其他指標(biāo)均低,這是由于跨模態(tài)音視頻實(shí)例判別(Cross-AVID)學(xué)習(xí)還包含了同一視頻的不同時(shí)間點(diǎn)的負(fù)樣本片段,因此隱含有音視頻時(shí)間同步這一約束條件,是一個(gè)更為困難的對(duì)比學(xué)習(xí)任務(wù),可以學(xué)習(xí)到更優(yōu)質(zhì)的特征表示。而本文方法由于構(gòu)建了更加高效的負(fù)樣本空間,因此學(xué)習(xí)到的特征表示包含了更加豐富的音視頻信息,在下游任務(wù)上的遷移效果更好。與無(wú)預(yù)訓(xùn)練直接進(jìn)行動(dòng)作識(shí)別的方法相比,3種音視頻多模態(tài)自監(jiān)督表征學(xué)習(xí)方法在各項(xiàng)指標(biāo)上均有提升,這說(shuō)明了其有效性。與此同時(shí),雖然AdCo在ImageNet的TOP1準(zhǔn)確率上效果優(yōu)于SimCLR、MoCO v2和SWAV等視覺(jué)自監(jiān)督學(xué)習(xí)方法(Hu 等,2021),但是AdCo在動(dòng)作識(shí)別UCF數(shù)據(jù)集上準(zhǔn)確率指標(biāo)值卻均低于未經(jīng)預(yù)訓(xùn)練的方法的指標(biāo)值,這可能是因?yàn)锳dCo采用了與3種音視頻多模態(tài)自監(jiān)督表征學(xué)習(xí)方法相同的實(shí)驗(yàn)設(shè)置,而它需要更多的訓(xùn)練批次。

    表2 動(dòng)作識(shí)別任務(wù)準(zhǔn)確率(UCF)

    此外,在HMDB動(dòng)作識(shí)別數(shù)據(jù)集上進(jìn)行了測(cè)試。將預(yù)訓(xùn)練得到的視覺(jué)編碼器組的視覺(jué)查詢編碼器作為前端,下游網(wǎng)絡(luò)設(shè)置了3層全連接層和1層softmax層來(lái)映射至20類,采用Adam優(yōu)化器來(lái)優(yōu)化網(wǎng)絡(luò),學(xué)習(xí)率設(shè)置為0.000 1,動(dòng)量設(shè)置為0.9,批處理大小設(shè)置為64,訓(xùn)練批次設(shè)置為8。由于類別數(shù)為20,TOP5準(zhǔn)確率意義不大,因此表3中給出視覺(jué)片段級(jí)別和視頻級(jí)別的TOP1準(zhǔn)確率。

    表3 動(dòng)作識(shí)別任務(wù)準(zhǔn)確率(HMDB)

    通過(guò)表3可以看到,在相同的實(shí)驗(yàn)條件下,本文方法在HMDB動(dòng)作識(shí)別數(shù)據(jù)集上達(dá)到了最優(yōu)效果。相比于Cross-AVID方法,本文方法在視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率和視頻級(jí)別的TOP1準(zhǔn)確率上分別高了0.89%和0.83%。AdCo的視覺(jué)片段級(jí)別和視頻級(jí)別的TOP1準(zhǔn)確率比無(wú)預(yù)訓(xùn)練的準(zhǔn)確率分別高了2.3%和2.48%,這可能是因?yàn)閷?duì)動(dòng)作識(shí)別HMDB數(shù)據(jù)集來(lái)說(shuō),AdCo的預(yù)訓(xùn)練是充分的。

    表2和表3的最后兩行分別在UCF和HMDB動(dòng)作識(shí)別數(shù)據(jù)集上進(jìn)行了改進(jìn)措施的消融實(shí)驗(yàn)。比較表2最后兩行的數(shù)據(jù),在UCF動(dòng)作識(shí)別數(shù)據(jù)集上,對(duì)比本文方法在簡(jiǎn)化前和簡(jiǎn)化后的表現(xiàn),視覺(jué)片段級(jí)別和視頻級(jí)別的TOP1準(zhǔn)確率相差不超過(guò)0.25%,視覺(jué)片段級(jí)別和視頻級(jí)別的TOP5準(zhǔn)確率相差不超過(guò)0.5%。比較表3最后兩行的數(shù)據(jù),在HMDB動(dòng)作識(shí)別數(shù)據(jù)集上,對(duì)比本文方法在簡(jiǎn)化前和簡(jiǎn)化后的表現(xiàn),視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率差值超過(guò)0.5%。這可能是由于HMDB數(shù)據(jù)集的動(dòng)作幅度大,導(dǎo)致視覺(jué)片段級(jí)別的準(zhǔn)確率波動(dòng)大。視頻級(jí)別準(zhǔn)確率通過(guò)對(duì)視覺(jué)片段的預(yù)測(cè)值取平均后得出??梢钥吹?,視頻級(jí)別的TOP1準(zhǔn)確率相差不超過(guò)0.25%。在這兩個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果說(shuō)明了簡(jiǎn)化對(duì)抗性負(fù)樣本這一措施在減少了一半對(duì)抗性負(fù)樣本的同時(shí)保證了精度。

    2.3.2 音頻分類任務(wù)

    在環(huán)境聲音ESC數(shù)據(jù)集上,對(duì)本文方法得到的包含視覺(jué)信息的聽覺(jué)特征進(jìn)行評(píng)估。具體來(lái)說(shuō),將預(yù)訓(xùn)練得到的音頻編碼器組的音頻查詢編碼器作為前端,下游網(wǎng)絡(luò)設(shè)置了3層全連接層和1層softmax層,映射至25類。采用了Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為0.000 1,動(dòng)量設(shè)置為0.9,批處理大小設(shè)置為64,訓(xùn)練批次設(shè)置為8。由于AdCo是純視覺(jué)預(yù)訓(xùn)練方法,因此本文選用了音視頻對(duì)應(yīng)AVC方法和跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)Cross-AVID方法作為音頻分類任務(wù)的對(duì)照組。

    在表4中報(bào)告了音頻片段級(jí)別和音頻級(jí)別的TOP1準(zhǔn)確率。通過(guò)對(duì)同一音頻的10個(gè)音頻片段的預(yù)測(cè)值(預(yù)測(cè)為各個(gè)類別的值,大小為0到1之間)求平均,計(jì)算得到音頻級(jí)別的TOP1準(zhǔn)確率。

    表4 音頻分類任務(wù)準(zhǔn)確率(ESC)

    通過(guò)表4可以看到,本文方法效果優(yōu)于無(wú)預(yù)訓(xùn)練的方法。這證明了本文方法的有效性。相比于各類音視頻自監(jiān)督表示學(xué)習(xí)方法,本文提出的方法達(dá)到了最優(yōu)效果。具體來(lái)說(shuō),相比于跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)Cross-AVID,在音頻片段級(jí)別的TOP1準(zhǔn)確率上高出了1.56%,在音頻級(jí)別的TOP1準(zhǔn)確率上高出了2.88%。相比于音視頻對(duì)應(yīng)學(xué)習(xí)AVC,在音頻片段級(jí)別的TOP1準(zhǔn)確率上高出了3.13%,在音頻級(jí)別的TOP1準(zhǔn)確率上高出了3.84%。

    2.4 音視頻對(duì)抗對(duì)比學(xué)習(xí)訓(xùn)練架構(gòu)分析

    在本節(jié)中,通過(guò)增加音視頻對(duì)抗對(duì)比學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)的深度,測(cè)試了其在不同深度網(wǎng)絡(luò)架構(gòu)上的表現(xiàn)。

    音視頻對(duì)抗對(duì)比學(xué)習(xí)的視覺(jué)架構(gòu)從2層拓展到了18層,新增加的16層使用了R(2+1)D卷積層(Tran 等,2018),最后的3層全連接層保留。音視頻架構(gòu)從2層標(biāo)準(zhǔn)2D卷積神經(jīng)網(wǎng)絡(luò)拓展到了10層2D卷積神經(jīng)網(wǎng)絡(luò),最后的3層全連接層也仍然保留。由于深層網(wǎng)絡(luò)架構(gòu)的訓(xùn)練參數(shù)遠(yuǎn)大于淺層網(wǎng)絡(luò)架構(gòu),為了保證深層網(wǎng)絡(luò)和淺層網(wǎng)絡(luò)架構(gòu)具有可比性,深層網(wǎng)絡(luò)優(yōu)化參數(shù)中的批處理大小設(shè)置為32,下游訓(xùn)練批次設(shè)置為7,其余優(yōu)化參數(shù)與2.1.3節(jié)設(shè)置的一致。

    下游動(dòng)作識(shí)別任務(wù)數(shù)據(jù)集選用UCF數(shù)據(jù)集。經(jīng)過(guò)預(yù)訓(xùn)練后,在下游動(dòng)作識(shí)別監(jiān)督網(wǎng)絡(luò)上進(jìn)行遷移學(xué)習(xí),優(yōu)化參數(shù)與2.3.1節(jié)中設(shè)置的一致。最終得到了音視頻對(duì)抗對(duì)比學(xué)習(xí)分別在淺層網(wǎng)絡(luò)架構(gòu)和深層網(wǎng)絡(luò)架構(gòu)上的視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率、TOP5準(zhǔn)確率和視頻級(jí)別的TOP1準(zhǔn)確率、TOP5準(zhǔn)確率,如圖5左側(cè)4組柱狀圖所示。在圖5右側(cè)還繪制了不同架構(gòu)的參數(shù)數(shù)目對(duì)比的柱狀圖。

    如圖5第5組所示,深層網(wǎng)絡(luò)架構(gòu)參數(shù)比淺層網(wǎng)絡(luò)架構(gòu)參數(shù)多出一千萬(wàn)個(gè)左右。通過(guò)圖5左側(cè)4組可以看到,深層網(wǎng)絡(luò)架構(gòu)下的學(xué)習(xí)效果均優(yōu)于淺層網(wǎng)絡(luò)架構(gòu)下的學(xué)習(xí)效果,在視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率上高出了2.59%,在視覺(jué)片段級(jí)別的TOP5準(zhǔn)確率上高出了5.87%;在視頻級(jí)別的TOP1準(zhǔn)確率上高出了3.48%,在視頻級(jí)別的TOP5準(zhǔn)確率上高出了5.44%。準(zhǔn)確率的提升說(shuō)明本文方法通過(guò)加深網(wǎng)絡(luò)架構(gòu)得到了更好的效果,并且還有很大的提升空間。

    圖5 不同深度網(wǎng)絡(luò)架構(gòu)下的音視頻對(duì)抗對(duì)比學(xué)習(xí)的學(xué)習(xí)效果比較

    3 結(jié) 論

    本文的主要研究?jī)?nèi)容是面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法。通過(guò)創(chuàng)新性地引入視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本和音視頻模態(tài)內(nèi)與模態(tài)間相聯(lián)合的對(duì)抗對(duì)比學(xué)習(xí)方式,使得視聽覺(jué)對(duì)抗性負(fù)樣本可以不斷跟蹤難以區(qū)分的樣本,構(gòu)建了更加高效的音視頻負(fù)樣本空間,提高了音視頻對(duì)比學(xué)習(xí)的學(xué)習(xí)質(zhì)量。在此基礎(chǔ)上,提出了采用視聽覺(jué)對(duì)抗性負(fù)樣本來(lái)代替視覺(jué)對(duì)抗性負(fù)樣本和聽覺(jué)對(duì)抗性負(fù)樣本,簡(jiǎn)化框架的同時(shí)保持了性能。

    在相同條件下與Cross-AVID等方法比較,本文提出的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法在動(dòng)作識(shí)別和音頻分類上的各項(xiàng)指標(biāo)均達(dá)到了最優(yōu)效果。本文方法存在的不足有:通過(guò)增加網(wǎng)絡(luò)深度,得到了更好的性能,說(shuō)明存在很大的提升空間。此外,本文采用了整個(gè)負(fù)樣本空間用做對(duì)比學(xué)習(xí),一些與正樣本互相關(guān)性高的負(fù)樣本做出的貢獻(xiàn)可能有限(Morgado 等,2021b)。

    下一步的工作可以在本文搭建的音視頻負(fù)樣本空間的基礎(chǔ)上,探索高效的負(fù)樣本選擇策略,提高特征融合質(zhì)量。本文方法具有廣泛的應(yīng)用場(chǎng)景,例如音源定位、視聽語(yǔ)音分離等音視頻相關(guān)的下游任務(wù)。

    猜你喜歡
    對(duì)抗性音視頻級(jí)別
    痘痘分級(jí)別,輕重不一樣
    四川工商學(xué)院學(xué)術(shù)新視野(2021年1期)2021-07-22 02:56:38
    缺乏陽(yáng)剛的男孩子要多參加對(duì)抗性運(yùn)動(dòng)
    3KB深圳市一禾音視頻科技有限公司
    關(guān)于羽毛球教學(xué)中多球訓(xùn)練的探討
    東方教育(2018年19期)2018-08-23 08:58:06
    WIFI音視頻信號(hào)傳輸?shù)年P(guān)鍵問(wèn)題探究
    電子制作(2018年12期)2018-08-01 00:48:06
    邁向UHD HDR的“水晶” 十萬(wàn)元級(jí)別的SIM2 CRYSTAL4 UHD
    新年導(dǎo)購(gòu)手冊(cè)之兩萬(wàn)元以下級(jí)別好物推薦
    技戰(zhàn)能主導(dǎo)類格斗對(duì)抗性項(xiàng)群的競(jìng)技特點(diǎn)與訓(xùn)練要求
    你是什么級(jí)別的
    莎车县| 宕昌县| 霍邱县| 南京市| 延寿县| 吴旗县| 工布江达县| 安塞县| 炉霍县| 腾冲县| 十堰市| 海兴县| 朔州市| 利津县| 宜昌市| 西贡区| 阳曲县| 澄江县| 赤峰市| 平遥县| 镇安县| 博湖县| 伊宁市| 山阴县| 界首市| 林甸县| 南江县| 徐汇区| 上蔡县| 武安市| 新巴尔虎左旗| 襄樊市| 繁昌县| 玉溪市| 那曲县| 陆丰市| 白城市| 安达市| 凤城市| 饶河县| 榆社县|