• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多模態(tài)視覺語言表征學(xué)習(xí)研究綜述*

    2021-03-06 09:28:46杜鵬飛李小勇高雅麗
    軟件學(xué)報 2021年2期
    關(guān)鍵詞:模態(tài)向量特征

    杜鵬飛 ,李小勇 ,高雅麗

    1(可信分布式計算與服務(wù)教育部重點實驗室(北京郵電大學(xué)),北京 100876)

    2(北京郵電大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100876)

    模態(tài)是事情經(jīng)歷和發(fā)生的方式.我們生活在一個由多種模態(tài)信息構(gòu)成的世界,包括視覺信息、聽覺信息、文本信息、嗅覺信息等等,當(dāng)研究的問題或者數(shù)據(jù)集包含多種這樣的模態(tài)信息時,我們稱其為多模態(tài)問題.研究多模態(tài)問題,是推動人工智能更好地了解和認(rèn)知我們周圍世界的關(guān)鍵.對于多模態(tài)問題,我們需要充分利用多種模態(tài)間的互補性和冗余性,充分挖掘模態(tài)之間的信息,從而消除數(shù)據(jù)的異構(gòu)問題帶來的挑戰(zhàn).多模態(tài)機器學(xué)習(xí)的應(yīng)用很廣泛,比較早期的應(yīng)用可以追溯到1989 年提出的一個視聽語音任務(wù)[1],借助隱馬爾可夫模型[2],通過視覺模態(tài)補充聽覺模態(tài)信息.另外就是情感識別研究領(lǐng)域目前已經(jīng)從單模態(tài)識別逐步轉(zhuǎn)向多模態(tài)識別的研究,多模態(tài)情感的研究的主要是借助視覺、語音、文本、腦電等模態(tài)信息對情感狀態(tài)進(jìn)行識別,從輸出上來看可分為分類問題(輸出憤怒、高興、悲傷等不同情感)和回歸問題(輸出一個到情感空間的映射值),相應(yīng)的研究數(shù)據(jù)集有Busso 等人[3]通過誘導(dǎo)方式錄制的基于情感分類的IEMOCAP 數(shù)據(jù)集、Mckeown 等人錄制的基于連續(xù)值的SEMAINE 數(shù)據(jù)庫[4].另外,比較常見的應(yīng)用包括媒體描述、事件識別、多媒體檢索、視覺推理、視覺問答等等.

    Baltru?aitis 在多模態(tài)機器學(xué)習(xí)綜述[5]一文中,將多模態(tài)機器學(xué)習(xí)研究分為幾個方向:多模態(tài)表征學(xué)習(xí)、多模態(tài)翻譯、多模態(tài)對齊、多模態(tài)融合、多模態(tài)聯(lián)合學(xué)習(xí).在解決多模態(tài)問題時,多模態(tài)表征學(xué)習(xí)是一個關(guān)鍵的研究點.一般來說,機器學(xué)習(xí)模型的好壞嚴(yán)重依賴于數(shù)據(jù)特征的選擇,傳統(tǒng)的機器學(xué)習(xí)中,很大一部分工作都在于特征的挖掘以及特征的抽取和選擇方面,這些工作的結(jié)果可以支持有效的機器學(xué)習(xí)數(shù)據(jù)表征.但是這樣的特征工作比較耗費時間,尤其是一些基于手工特征的方法沒有能力從原始數(shù)據(jù)抽煉出有用的知識,特征工程的目的是將人的先驗知識轉(zhuǎn)化為可以被機器學(xué)習(xí)識別的特征,從而彌補自身的缺點.利用表征學(xué)習(xí)的方法,可以從數(shù)據(jù)中學(xué)習(xí)出有用的表征以減少對特征工程的依賴,從而在一些具體任務(wù)中能取得更好的應(yīng)用.首先,一個好的表征要盡可能地包含更多數(shù)據(jù)的本質(zhì)信息.相比于單個模態(tài),多模態(tài)的表征學(xué)習(xí)面臨很多的挑戰(zhàn),比如噪音處理、模態(tài)之間的融合方式、丟失的模態(tài)信息處理、不同模態(tài)處理的差異化、實時性和效率等等.Bengio[6]指出,好的表征主要有幾個特點:數(shù)據(jù)平滑、時空相關(guān)、數(shù)據(jù)稀疏、自然聚類等等.多模態(tài)表征空間相似的數(shù)據(jù)在實際意義或者實體概念上要存在相似性,在單一模態(tài)信息丟失的情況下,可以通過另外一種模態(tài)的信息進(jìn)行補充.

    在過去的一段時間內(nèi),單模態(tài)的表征學(xué)習(xí)取得了很大的發(fā)展,在圖像領(lǐng)域,過去很長時間內(nèi)盛行的一些手工特征,比如SIFT(尺度不變特征變化)特征[7]和HOG(方向梯度直方圖)[8]特征,逐漸被卷積神經(jīng)網(wǎng)絡(luò)[9]代替.通過卷積神經(jīng)網(wǎng)絡(luò)可以充分挖掘視覺的二維和三維信息的表征含義,目前,很多視覺任務(wù)都采用在一個充分預(yù)訓(xùn)練的卷積模型上進(jìn)行微調(diào)的方式.語音領(lǐng)域中的一些手工特征,比如梅爾頻率倒譜系數(shù)(MFCC),也逐漸被一些基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)的方法所代替[10].另外就是在自然語言處理領(lǐng)域,表征學(xué)習(xí)的發(fā)展尤其迅速,過去文本領(lǐng)域一直效果很好的基于詞頻統(tǒng)計的TF-IDF 特征[11]逐漸被word2vec[12]等隱式表征向量所代替,這些隱式表征充分挖掘了文本信息的潛在含義可以對文本進(jìn)行更豐富的信息表達(dá).另外,像卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等,也常被用來作為文本表征的挖掘工具.另外,近年來,基于預(yù)訓(xùn)練技術(shù)的表征學(xué)習(xí)模型逐漸興起,并逐漸霸榜NLP 的各類任務(wù),其基本模式為通過在海量無標(biāo)注數(shù)據(jù)集中進(jìn)行自監(jiān)督學(xué)習(xí),然后再接一個具體的下游任務(wù),比如文本分類知識問題等,其中最有代表性的為谷歌提出的BERT[13]、BERT 在GLUE[14]的各項任務(wù)中都取得顯著提升.BERT 的成功,充分證明了對數(shù)據(jù)表征進(jìn)行充分學(xué)習(xí)的重要性.借鑒于單模態(tài)表征學(xué)習(xí)的一些方法,多模態(tài)的表征學(xué)習(xí)也取得了一定的進(jìn)展.視覺語言表征學(xué)習(xí)是多模態(tài)表征學(xué)習(xí)中最有代表性的,而且視覺語言結(jié)合的任務(wù)也是多模態(tài)任務(wù)中最常見和占比最大的.本文中,我們主要介紹基于視覺語言統(tǒng)一表征學(xué)習(xí)的一些方法、應(yīng)用、數(shù)據(jù)集以及面臨的難點.

    本文第1 節(jié)介紹相應(yīng)的背景知識,包括多模態(tài)表征學(xué)習(xí)的一些基本定義和劃分、常用預(yù)訓(xùn)練技術(shù).第2 節(jié)分別比較視覺語言表征學(xué)習(xí)的兩種研究框架.第3 節(jié)開始介紹基于相似性的視覺語言表征學(xué)習(xí)的方法.第4 節(jié)為核心部分,主要介紹基于預(yù)訓(xùn)練架構(gòu)的視覺語言表征模型.第5 節(jié)介紹視覺語言統(tǒng)一表征的質(zhì)量評估方法.第6 節(jié)給出視覺語言表征學(xué)習(xí)的發(fā)展趨勢.

    1 背景知識

    1.1 表征學(xué)習(xí)

    表征學(xué)習(xí)作為機器學(xué)的一個專門領(lǐng)域,吸引了越來越多的學(xué)者的研究.很多機器學(xué)習(xí)的專門會議,比如NIPS 和ICML,都會定期舉辦專門的研討會.另外,還有專門針對表征學(xué)習(xí)的會議ICLR.表征學(xué)習(xí)本質(zhì)上是特征工程的一種延伸,傳統(tǒng)特征工程挖掘的一些特征都是在對數(shù)據(jù)進(jìn)行一些分析后,在一些經(jīng)驗基礎(chǔ)上結(jié)合一些數(shù)學(xué)分析得到的,目前,典型的表征學(xué)習(xí)方法是通過深度學(xué)習(xí)的方法從數(shù)據(jù)中自動化地挖掘出有效的隱性特征,以降低人工挖掘特征成本,更方便高效地挖掘出與具體任務(wù)無關(guān)但是可以在下游任務(wù)中有較好應(yīng)用的隱含向量.

    Bengio[6]指出,表征學(xué)習(xí)有兩條主線:一是概率圖模型,二是神經(jīng)網(wǎng)絡(luò)模型.這兩條主線的根本區(qū)別是:對每一層描述為概率圖還是計算圖,或者隱層的節(jié)點是潛在的隨機變量還是計算節(jié)點.從概率圖模型角度來研究,表征學(xué)習(xí)的問題可以解釋為試圖恢復(fù)一組描述觀測數(shù)據(jù)分布的潛在隨機變量.我們可以將觀測數(shù)據(jù)表示成為x,將潛在變量聯(lián)合空間上的概率模型表示成h,表征學(xué)習(xí)的概率圖模型可以表示成p(x,h).表征值被認(rèn)為是一個推理過程的結(jié)果,以確定給定數(shù)據(jù)的潛在變量的概率分布,即p(x|h),也就是后驗概率,估計過程就是最大化訓(xùn)練數(shù)據(jù)正則化的可能性.概率圖模型又可以分為有向圖模型和無向圖模型.有向圖模型又稱為貝葉斯網(wǎng)絡(luò),有向圖模型的圖節(jié)點之間有前后依賴關(guān)系,后面節(jié)點的概率依賴于前面節(jié)點的概率輸出,其聯(lián)合分布的構(gòu)建方式表示為p(x,h)=p(x|h)p(h).目前,基于有向圖模型進(jìn)行表征學(xué)習(xí)的例子有主成分分析(PCA)、稀疏編碼、Sigmod 信念網(wǎng)絡(luò)等等.無向圖模型又被稱為馬爾可夫網(wǎng)絡(luò),其前后節(jié)點之間沒有明顯的依賴關(guān)系,其公式為

    其中,ψi(x)代表可見變量之間的連接,ηj(h)代表隱含變量之間的連接,Vk(x,h)代表隱含變量和可見變量之間的連接,分配函數(shù)Zθ保證分布的歸一化.無向圖模型用于表征學(xué)習(xí)的一個典型代表是波爾茲曼機(RBM).概率圖模型總是學(xué)習(xí)與潛在變量相關(guān)的,尤其是后驗分布給出的一個觀察輸入,如果模型有超過兩個關(guān)聯(lián)層時,其計算會變得非常復(fù)雜,而且潛在變量的后驗分布還不是一個簡單的可用特征向量.為了最后提取出穩(wěn)定的確定性的數(shù)值特征值,通常還需要借助自動編碼器.基于神經(jīng)網(wǎng)絡(luò)的自動編碼器的表征學(xué)習(xí)方法與基于概率圖的表征學(xué)習(xí)模型的方法的區(qū)別是:概率圖模型是由顯式概率函數(shù)定義的,然后經(jīng)過訓(xùn)練,以最大化數(shù)據(jù)可能性;而自動編碼器框架通過編碼器和解碼器進(jìn)行參數(shù)化,自動編碼框架允許在編碼器和解碼器中使用不同的矩陣.自動編碼器訓(xùn)練的一個實際優(yōu)點是定義了一個簡單的可跟蹤優(yōu)化目標(biāo),可以來監(jiān)視進(jìn)程.為了將重構(gòu)誤差最小化以捕獲數(shù)據(jù)生成分布的結(jié)構(gòu),在訓(xùn)練準(zhǔn)則或者參數(shù)化過程中,一定要防止自動編碼器學(xué)習(xí)自身函數(shù),從而在任何地方產(chǎn)生零重建錯誤.基礎(chǔ)的自動編碼器在于找到一個值的參數(shù)向量θ,從而將重建誤差最小化.自動編碼器的定義如下:

    其中,x(t)是訓(xùn)練數(shù)據(jù);L是進(jìn)行優(yōu)化的目標(biāo)函數(shù),其主要訓(xùn)練框架采用神經(jīng)網(wǎng)絡(luò),主要訓(xùn)練方法采用隨機梯度下降法等;fθ主要用于編碼;gθ主要用于解碼.編碼維數(shù)小于輸入維數(shù)的欠完備自編碼器可以學(xué)習(xí)數(shù)據(jù)分布的最顯著特征,如果賦予這類編碼器過大的容量或者隱藏編碼維數(shù)大于輸入時,也會發(fā)生類似情況.針對這一情況,提出正則自編碼器.正則自編碼器根據(jù)要建模的數(shù)據(jù)分布的復(fù)雜性選擇合適的編碼維數(shù)、編碼器和解碼器容量等,根據(jù)選擇,就可以成功訓(xùn)練任意架構(gòu)的自編碼器.去噪自動編碼器是在自動編碼器的基礎(chǔ)上在輸入中加入隨機噪聲,去噪自動編碼器的表示方程如下:

    1.2 多模態(tài)表征學(xué)習(xí)的定義及劃分

    過去的10 年內(nèi),通過神經(jīng)網(wǎng)絡(luò)或者概率圖模型對自然語言處理,對語音、圖像進(jìn)行表征的方法層出不窮.而同一時間內(nèi),多模態(tài)表征學(xué)習(xí)的早期研究主要通過對單模態(tài)表征進(jìn)行簡單連接的方式進(jìn)行,后來借鑒單模態(tài)表征,尤其是自然語言處理領(lǐng)域的一些成功經(jīng)驗,多模態(tài)表征尤其是視覺語言的統(tǒng)一表征開始逐漸興起.Baltru?aitis[5]等人匯聚了到目前為止多模態(tài)表征的一些研究進(jìn)展,根據(jù)輸出的表征是否在一個統(tǒng)一的表征空間內(nèi),將多模態(tài)表征分為統(tǒng)一表征和協(xié)同表征:統(tǒng)一表征融合多個單模態(tài)信號,并將它們映射到一個統(tǒng)一表征空間內(nèi);協(xié)同表征分別處理每一個模態(tài)的信息,但是在不同模態(tài)之間增加相似性的約束.協(xié)同表征和統(tǒng)一表征的構(gòu)造如圖1 所示.

    Fig.1 Structure of joint and coordinated representations圖1 統(tǒng)一表征與協(xié)同表征的基本結(jié)構(gòu)

    統(tǒng)一表征將所有的多模態(tài)數(shù)據(jù)映射到一個公共空間,適用于在做推斷時所有模態(tài)都存在的情況,其被廣泛應(yīng)用于一些視覺語言匹配任務(wù)、語音識別輔助、情感識別和多模態(tài)姿態(tài)估計等.協(xié)同表征將每一個模態(tài)映射到單獨的空間,其中的每一個模態(tài)都是相互獨立的,但是不同模態(tài)之間存在關(guān)聯(lián)關(guān)系,協(xié)同表征可以將其中的一個模態(tài)單獨拿來用,適用于像跨模態(tài)檢索等場景.

    從處理模態(tài)的形式上來區(qū)分,多模態(tài)表征的研究涉及圖像加音頻[16-18]、視頻加音頻[19,20]、圖像加文本[21-40]、視頻加文本[41-43]等等,其中,視覺語言表征的研究比較多,而且其研究框架較為通用,其詳細(xì)的信息在后面介紹.

    1.3 預(yù)訓(xùn)練技術(shù)

    隨著深度學(xué)習(xí)的興起,預(yù)訓(xùn)練技術(shù)逐步被廣泛應(yīng)用,其大概框架是預(yù)先訓(xùn)練一個模型,然后利用已經(jīng)訓(xùn)練好的底層網(wǎng)絡(luò)參數(shù)在目前的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上再增加一個下游任務(wù),其中,底層網(wǎng)絡(luò)參數(shù)在下游任務(wù)訓(xùn)練過程中可以不做改變的方式叫冷凍(frozen);另外一種是底層網(wǎng)絡(luò)參數(shù)在下游任務(wù)訓(xùn)練過程中隨著訓(xùn)練進(jìn)程一起改變,這種方式叫微調(diào)(fine-tuning).這種預(yù)訓(xùn)練加下游任務(wù)的方法在圖像和視頻領(lǐng)域取得了較好的效果,比如在做目前檢測或者圖像分類等任務(wù)時,一般都會使用一個基于ImageNet 數(shù)據(jù)集的預(yù)先訓(xùn)練好的網(wǎng)絡(luò),然后再進(jìn)行微調(diào).雖然目前圖像領(lǐng)域?qū)︻A(yù)訓(xùn)練技術(shù)有一些質(zhì)疑,并且認(rèn)為基于ImageNet 的預(yù)訓(xùn)練網(wǎng)絡(luò)不能明顯改善準(zhǔn)確率[44],但是其明顯改善了模型的魯棒性和不確定性的估計[45].而且一些基于無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練技術(shù)可以充分地利用海量的無標(biāo)注樣本[46],從而為下游任務(wù)提供更加豐富的特征.

    在NLP 領(lǐng)域,表征學(xué)習(xí)可以追溯到2003 年的NNLM[47],但由于各種原因其應(yīng)用效果不佳.直到Word2Vec[12]的誕生,基于NLP 領(lǐng)域的表征學(xué)習(xí)才開始逐步興起.Word2Vec 與NNLM 架構(gòu)類似,其充分利用文本表達(dá)的語序關(guān)系,通過句子中詞的上下位詞來進(jìn)行訓(xùn)練(通過上下文預(yù)測詞或者通過詞預(yù)測上下文),從而產(chǎn)出詞的向量.但由于這種方法產(chǎn)生的詞向量是靜態(tài)的,所以其無法較好地解決多義詞的問題.從2018 年開始誕生的ELMO[48],GPT[49]以及目前廣泛應(yīng)用的BERT 通過利用預(yù)訓(xùn)練技術(shù),并采用LSTM、Transformer 等特征提取器,有效地解決了多義詞問題.尤其是BERT,其通過借鑒隨機噪聲編碼器的思想,通過對文本進(jìn)行隨機掩碼的方式,從而有效地提升了文本表征的質(zhì)量,并且在NLP 的各項任務(wù)中得到了顯著的提升.BERT 的一些設(shè)計思想和架構(gòu)也隨即被應(yīng)用到了視覺文本表征領(lǐng)域.

    2 視覺語言表征學(xué)習(xí)的研究框架

    基于視覺語言的多模態(tài)表征是多模態(tài)表征中的一個重要研究方向,其在內(nèi)容消費、醫(yī)療影像等領(lǐng)域有著廣泛應(yīng)用.視覺語言表征學(xué)習(xí)的本質(zhì)是學(xué)習(xí)到視覺模態(tài)和語言模態(tài)到一個空間的映射,其可以充分利用視覺模態(tài)和語言模態(tài)之間的互補性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征表示.目前,較主流且性能較好的研究框架主要分為兩種:一種是基于對比學(xué)習(xí)或者稱為相似性學(xué)習(xí)的,其主要是在相似性的約束條件下優(yōu)化每一種模態(tài)的表征;另外一種是基于自回歸或者自編碼的預(yù)訓(xùn)練架構(gòu)的,其借助于Transformer[21]等高效神經(jīng)網(wǎng)絡(luò)對各種數(shù)據(jù)模態(tài)的樣本編碼成特征,然后再進(jìn)行重構(gòu).兩種研究框架表現(xiàn)形態(tài)如圖2 所示.

    Fig.2 Two architectures for visual language representation learning圖2 視覺語言表征學(xué)習(xí)的兩種架構(gòu)

    基于相似性學(xué)習(xí)的方法通過一個度量函數(shù)衡量視覺模態(tài)信息和語言模態(tài)信息的差異,相似性學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個編碼器f,使得:

    其中,m+是和m相似的正樣本,m-是和m不相似的負(fù)樣本,score為相似性的度量函數(shù).相似性度量又可以建模為回歸問題、分類問題、排序問題,其根據(jù)輸入數(shù)據(jù)的不同格式和不同的目標(biāo)損失函數(shù)來建模模態(tài)之間的關(guān)系,其輸入模態(tài)被限制為兩種.

    相似性學(xué)習(xí)的方法只需要在各自特征空間上學(xué)習(xí)到區(qū)分性;而基于預(yù)訓(xùn)練架構(gòu)的方法需要對每個模態(tài)元素之間的細(xì)節(jié)進(jìn)行重構(gòu),其構(gòu)建模型表示如下:

    其中,v為視覺區(qū)域單元;w表示為文本模態(tài)信息.f為深度神經(jīng)網(wǎng)絡(luò),一般為Transformer 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其堆疊了多個多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò).自注意力子層的設(shè)計,使其在處理多模態(tài)序列編碼時,與其他結(jié)構(gòu)相比具備更好的性能.其中一種典型的框架是采用類似于 BERT 這種基于語言模型掩碼的自編碼架構(gòu)的,比如VisualBERT[39]、ImageBERT[40]等.視覺輸入通過預(yù)處理的方法轉(zhuǎn)化成與文本單元類似的一個個視覺單元,然后,視覺單元和語言單元通過掩碼任務(wù)實現(xiàn)語言模型.這種架構(gòu)從本質(zhì)上是將視覺模態(tài)和語言模態(tài)處理成語言序列任務(wù),通過自監(jiān)督的方式從海量數(shù)據(jù)中學(xué)習(xí)出兩種模態(tài)的聯(lián)合編碼.針對聯(lián)合表征的具體用途(用于理解或者用于生成),其可以分別采用自編碼模型或者自回歸模型來進(jìn)行編碼.更好的損失函數(shù)定義和更海量的數(shù)據(jù)都有助于提升這種表征的質(zhì)量,還有就是視覺單元的描述方式、視覺維度信息的刻畫方式,也會對最終表征好壞產(chǎn)生影響.預(yù)訓(xùn)練架構(gòu)可以讓視覺語言表征在第1 階段通過自編碼或者自回歸的方式進(jìn)行充分的模態(tài)融合產(chǎn)生高質(zhì)量的視覺語言表征,然后在第2 階段或者第3 階段應(yīng)用于具體任務(wù).目前,在一些視覺語言具體的應(yīng)用任務(wù)中,這種方式取得準(zhǔn)確率最高.

    3 基于相似性的視覺語言表征學(xué)習(xí)

    3.1 總體架構(gòu)

    基于相似性的表征學(xué)習(xí)是在一個協(xié)同的空間內(nèi)最小化不同模態(tài)之間的距離,其輸入數(shù)據(jù)主要為具有排序或者正負(fù)關(guān)系的視覺文本信息對,通過不同的建模方法實現(xiàn)視覺語言表征的學(xué)習(xí).其建模的損失函數(shù)可以為鉸鏈損失或者三元損失.輸入為具備排序關(guān)系的正負(fù)對或者三塔結(jié)構(gòu).比如在基于堆疊注意力網(wǎng)絡(luò)的圖文聯(lián)合表征(SCAN)[50]中,其采用損失函數(shù)如下:

    其中,S為相似函數(shù)方程(主要基于cosin 函數(shù)進(jìn)行改造),(I,T)為正例的圖像文本對,為負(fù)例的文本圖像對,為負(fù)例的圖像文本對.該損失函數(shù)融合了鉸鏈損失和三元損失函數(shù),其優(yōu)化目標(biāo)是在一定間距內(nèi)使得圖文配對的正例的取值大于圖文不配對和文圖不配對的負(fù)例的取值.基于相似性的視覺語言表征學(xué)習(xí)主要受限于度量損失函數(shù)、相似性計算方法和進(jìn)行相似度量的粒度,其中,從相似性度量的粒度來看,主要分為基于粗粒度的匹配和精細(xì)粒度的匹配;從發(fā)展來看,越精細(xì)粒度的相似性計算所產(chǎn)生的表征越能產(chǎn)生更好的效果.下文分別從粗粒度相似度匹配模型和細(xì)粒度的相似度性匹配模型這兩個方面進(jìn)行闡述,同時介紹不同模型的特性.

    3.2 基于粗粒度的相似度匹配模型

    最早的一個工作是由Weston 等人在WSABIE[51]中提出的,其主要通過計算圖像模態(tài)和圖像的標(biāo)注文本之間的相似性.WSABIE 中使用排序損失來度量標(biāo)注數(shù)據(jù)與圖像之間的相似性:

    L可以選擇不同的優(yōu)化方法,其中,α為對一張圖片的不同標(biāo)注的排序.WSABIE 同時引入了在線學(xué)習(xí)排序的方法來實時優(yōu)化參數(shù),但由于WSABIE 只研究了從圖像特征到嵌入空間的線性映射,可用的標(biāo)簽僅僅是圖像訓(xùn)練集中提供的標(biāo)簽,無法擴展到新的類別.DeViSE[25]基于深度零樣本學(xué)習(xí)的理念,在不同模態(tài)的預(yù)訓(xùn)練向量之間建立了一個線性映射.首先采用skip-gram 的方法對文本部分產(chǎn)生文本向量,另外采用一個卷積神經(jīng)網(wǎng)絡(luò)對圖片進(jìn)行基于目標(biāo)檢測的預(yù)訓(xùn)練,視覺部分的最終投影層是一個線性變換,將視覺部分的4 096 維的表征映射成語言模型的500 維或者1 000 維.最終的損失主要基于相似性,融合點積運算和鉸鏈損失,我們定義最終的損失函數(shù)為

    DeViSE 在對文本部分進(jìn)行預(yù)訓(xùn)練時,利用了基于skip-gram 的語言模型.Lazaridou 等人[52]進(jìn)行了擴展,將視覺部分加入了進(jìn)去,構(gòu)成了多模態(tài)的skip-gram 模型.視覺損失部分將詞匯表示的視覺信息考慮在內(nèi),其中,損失的計算為

    uwt是我們最終想學(xué)習(xí)的多模態(tài)增強的單詞表示;vwt是與文本部分匹配的視覺模態(tài)的向量表示;vw′是從視覺詞典中負(fù)采樣的視覺單詞向量,其通過最大化匹配的圖文向量和不相匹配的圖文向量的差異來進(jìn)行相似性度量.

    針對損失函數(shù)的優(yōu)化,可以有效地提升產(chǎn)出的表征的質(zhì)量.VSE++[53]提出了一種新的損失函數(shù)計算方案,其主要針對疑難的負(fù)例,加大樣本與疑難負(fù)例之間的距離,其損失函數(shù)采用三元損失:

    針對每一給定的正例(i,c),負(fù)例的選擇為i′=argmaxj≠is(j,c)和c′=argmaxd≠cs(i,d),其中,s為距離函數(shù),也就是選擇距離正樣本距離較遠(yuǎn)的負(fù)樣本進(jìn)行訓(xùn)練.

    借鑒于深度語義相似性度量模型DSSM[54]這種基于無監(jiān)督方式度量查詢向量和返回的匹配文檔相似性的方法,DMSM[55]將視覺模態(tài)作為查詢,而文本模態(tài)作為返回的匹配文檔,采用余弦度量函數(shù)度量兩種模態(tài)的距離.對于每一個輸入的圖像文本對,我們計算和文本相關(guān)的圖像的后驗概率為

    其中,γ是驗證集上的平滑因子,D為與查詢圖像匹配的所有候選文檔的集合.對每一個查詢圖像,我們選擇一個相關(guān)的文本片段和N個不相關(guān)文本片段來計算后驗概率.最終的損失函數(shù)采用負(fù)log 損失:

    ReviSE[56]采用最大平均差異(MMD)的方法,度量視覺模態(tài)和文本模態(tài)分布的差異:

    其中,p和q是視覺向量和文本向量的分布.優(yōu)化MMD 函數(shù)的過程,可以看作是縮小兩種模態(tài)的相似差距.最終,損失函數(shù)融合了圖文配對二分類損失、無監(jiān)督的圖像和屬性二分類損失和MMD 損失這3 種損失函數(shù).

    以上的相似度模型對視覺信息和文本信息的提取都分別采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)輸出的隱含向量,尤其是視覺信息,大部分都是基于一個全局的卷積神經(jīng)網(wǎng)絡(luò)提取特征向量,沒有對每一種模態(tài)的特征進(jìn)行細(xì)粒度語義級別的學(xué)習(xí).為了更精細(xì)地進(jìn)行不同模態(tài)下的相似性度量,下面提出了基于一些細(xì)粒度的模態(tài)提取方法.

    3.3 基于細(xì)粒度的相似性匹配模型

    為了對每種模態(tài)的高層次語義信息(尤其視覺模態(tài))進(jìn)行捕獲,從而實現(xiàn)細(xì)粒度匹配,一般采用全局特征與局部特征融合和增加自注意力機制等方案.

    You 等人[31]提出了基于卷積神經(jīng)網(wǎng)絡(luò)融合局部特征和全局特征進(jìn)行相似度量計算的表征輸出模型,其使用卷積神經(jīng)網(wǎng)絡(luò)分別進(jìn)行文本和視覺部分的特征提取,融合局部特征和全句特征進(jìn)行相似度的計算.其中,特征的損失函數(shù)為

    vi和si分別代表第i張圖像和其相對應(yīng)文本的全局表征,f(v,s)是計算兩個向量的相似性的函數(shù).除了全局特征比較外,還針對中間特征,也就是局部特征進(jìn)行了比較.中間層的二維卷積通常都包括三維特征(卷積核數(shù)、長度和寬度),為此設(shè)計了一個從局部特征到全局特征的線形映射:

    然后,我們通過局部視覺特征計算全局視覺特征:

    文本特征的計算方式類似,局部特征的相似性損失函數(shù)如下:

    如果第i對全局損失I(i)為1,局部損失才計算;否則,I(i)為0.

    SCO 模型[57]提取了圖像的多個候選區(qū)域,然后采用多標(biāo)簽的卷積神經(jīng)網(wǎng)絡(luò)對每一個候選區(qū)域進(jìn)行分類,得到分類的向量,然后再利用逐元素最大池化的方法得到一個得分向量作為局部特征,通過VGG 模型抽取全局特征,然后通過門控機制將全局特征和局部特征進(jìn)行融合,得到視覺融合向量,再與LSTM 輸出的文本向量進(jìn)行相似度匹配.

    Wu 等人[58]提出的融合方法同樣考慮了全局對齊和局部對齊,同時對文本句子進(jìn)行解析,分別提取出實體對象、屬性、實體關(guān)系的三元組.對于局部對齊,其中文本部分是通過提取實體對象與對應(yīng)的圖像做排序損失,全局對齊的損失主要包括實體關(guān)系與圖像特征的排序損失、句子與圖像特征的排序損失、文本融合與圖像特征的排序損失,其表示如下:

    另外一種細(xì)粒度特征提取的方案是通過注意力機制進(jìn)行特征權(quán)重計算.SCAN[50]模型采用目標(biāo)檢測的方法提取圖像的不同特征區(qū)域,然后對文本切分為一個個的文本單詞,首先用對應(yīng)每個圖像區(qū)域與文本中每個單詞做注意力運算,然后再用每個圖像區(qū)域與句子向量進(jìn)行注意力運算,從而確定圖像區(qū)域重要性.PFAN[59]模型通過對圖像進(jìn)行分塊,然后針對不同的塊輸出不同的隱含位置向量,同時將每個塊的位置向量與原始圖像進(jìn)行注意力運算,從而產(chǎn)生帶有位置權(quán)重信息的視覺向量,針對文本模態(tài)采用GRU 提取向量,最后采用一個三元損失作為度量損失函數(shù).

    3.4 總結(jié)

    基于相似性的視覺語言表征學(xué)習(xí)模型以相似性為度量標(biāo)準(zhǔn),優(yōu)化每種模態(tài)的隱含向量.首先在使用上,其不能作為一個統(tǒng)一表征輸出,需要采用一定拼接方式將兩種向量連接起來;同時,在訓(xùn)練過程中由于存在大量樣本,如何高效計算損失,也是需要解決的問題.

    4 預(yù)訓(xùn)練架構(gòu)的視覺語言統(tǒng)一表征學(xué)習(xí)

    Transformer 憑借其強大的特征學(xué)習(xí)能力、預(yù)訓(xùn)練加下游任務(wù)的多階段架構(gòu)、基于隨機掩碼構(gòu)建的自動編碼機制,在NLP 領(lǐng)域取得了巨大成功.從2019 年開始,多模態(tài)領(lǐng)域開始借鑒BERT 在NLP 領(lǐng)域的一些成功經(jīng)驗,由此誕生了像VideoBERT[60]、ViLBert[33]、ImageBERT[40]、LXMERT[37]、UNITER[35]等一系列基于預(yù)訓(xùn)練架構(gòu)和Transformer[21]特征抽取的多模態(tài)模型,并取得了較好的效果.表1 展示了在視覺推理任務(wù)中近些年評測的結(jié)果.

    Table 1 NLVR2 presents the task of determining whether a natural language sentence is true about a pair of photographs表1 NVLR2 任務(wù)用于判斷自然語言處理中句子對是否正確

    如表1 所示,像UNINTER、LXMERT、VisualBERT 等采用類BERT 預(yù)訓(xùn)練架構(gòu)的多模態(tài)表征模型,相比其他架構(gòu)的模型有顯著提升.

    4.1 總體架構(gòu)

    如圖3 所示,VisualBERT[39]展示了類BERT 視覺文本統(tǒng)一表征預(yù)訓(xùn)練架構(gòu)的一個典型結(jié)構(gòu)(圖像檢測區(qū)域和文本區(qū)域進(jìn)行輸入組合,Transformer 通過自注意機制發(fā)現(xiàn)隱含對齊),通過Transformer 中的self-attention 機制,隱式地對齊輸入文本元素和輸入圖像中的區(qū)域,復(fù)用了BERT 的加掩碼操作的編碼方式,整個架構(gòu)上采用預(yù)訓(xùn)練加下游任務(wù)微調(diào)的模式.

    Fig.3 Main architecture of VisualBERT圖3 VisualBERT 的主干結(jié)構(gòu)

    文本輸入部分的處理與原始BERT 類似,對原始輸出文本產(chǎn)生字詞向量、段落向量、位置向量等3 個輸入向量.對視覺部分的輸入進(jìn)行隱式表達(dá),通過目標(biāo)檢測的方法提取圖像關(guān)鍵區(qū)域.類似于文本中的詞組,圖像的輸入同樣產(chǎn)生3 個與文本輸入類似的向量,分別是圖像目標(biāo)區(qū)域的向量、圖像文本段落向量(是圖像還是文本)、圖像目標(biāo)區(qū)域位置坐標(biāo)進(jìn)行平均加權(quán)的位置向量.視覺部分的3 個隱含向量與文本部分的3 個隱含向量進(jìn)行拼接,然后作為Transformer-encoder 編碼的輸入,預(yù)訓(xùn)練目標(biāo)函數(shù)包括兩個:(1) 預(yù)測文本加圖像組成的輸入向量的隨機掩碼;(2) 圖像文本匹配任務(wù).其中,每一個圖像有多個描述,從中選擇一個作為正例,從其他圖像的描述中隨機選擇一個作為負(fù)例,進(jìn)行二分類預(yù)測.目標(biāo)函數(shù)的選擇對多模態(tài)表征作用很大,像 ViLBERT[33]、ImageBERT[40]等很多都是通過優(yōu)化預(yù)訓(xùn)練的目標(biāo)函數(shù),從而提高了輸出表征的質(zhì)量.通過自監(jiān)督的預(yù)訓(xùn)練任務(wù)后,產(chǎn)出了一個較高維度的多模態(tài)表征.對于一些具體的視覺文本類下游任務(wù),比如圖像描述、視覺問答等,在目前已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行微調(diào),具體實現(xiàn)為,在輸出的隱層后面再接一個面向具體任務(wù)的損失函數(shù).比如視覺問答任務(wù)是針對一張圖像提出問題,然后選出匹配的答案,其本質(zhì)上屬于一個多分類的任務(wù),因而一般后面接一個交叉熵?fù)p失.

    4.2 幾種不同劃分

    4.2.1 基于內(nèi)容理解與內(nèi)容生成的劃分

    一個典型的Transformer 架構(gòu)由編碼器和解碼器兩部分組成,其中,編碼器部分主要應(yīng)用于內(nèi)容的理解,比如BERT;解碼器部分則側(cè)重于內(nèi)容的生成和回歸,典型有GPT 這種模型.目前產(chǎn)出的視覺語言統(tǒng)一表征框架多是基于Transformer自動編碼架構(gòu)的,側(cè)重于內(nèi)容理解部分.另外的架構(gòu)就是融合自回歸和自編碼兩種模型的架構(gòu),其可以支持內(nèi)容理解和內(nèi)容生成的通用任務(wù),見表2.

    Table 2 Unified representation of visual language based on encoder and decoder表2 基于編碼和解碼架構(gòu)區(qū)分的視覺語言統(tǒng)一表征

    VLP[62]是一個典型的混合編碼解碼結(jié)構(gòu)的網(wǎng)絡(luò)框架.從結(jié)構(gòu)上講,自編碼和自回歸結(jié)構(gòu)的一個主要區(qū)別在于:進(jìn)行掩碼遮罩操作時,自編碼方式的掩碼可以是隨機掩碼的;而在自回歸的方式中,由于考慮到序列關(guān)系,所以其掩碼操作必須是按順序進(jìn)行掩碼的.

    當(dāng)然,如果要體驗的新車性格比較外向和運動,外加路線沿途風(fēng)景變化,我的時差問題可能會困擾少一些。比如前不久在南卡羅萊納試駕全新BMW X4時,還有在加州1號公路最美路段試駕瑪莎拉蒂Levante Trofeo時,我的困意就沒那么強烈。怕就怕那種內(nèi)飾氛圍雅致、舒適裝備豐富、底盤設(shè)定安穩(wěn)且駕駛輔助系統(tǒng)全面的豪華座駕,催眠效果簡直就像助攻時差困擾的一劑褪黑素,咖啡或者功能飲料很容易敗下陣來。一旦困勁兒上來,考慮到行車安全,我寧愿先找地方停好車睡一會兒再趕路或者干活。

    4.2.2 單流結(jié)構(gòu)與雙流結(jié)構(gòu)

    對于輸入的文本特征向量和視覺特征向量,有兩種方式進(jìn)行融合:一種是文本特征和視覺特征拼接,然后接一個自動編碼器進(jìn)行融合;另外一種就是分別對文本特征和視覺特征進(jìn)行獨立編碼,然后通過交叉注意力機制實現(xiàn)不同模態(tài)信息的融合.具體見表3.

    Table 3 Two streams and single stream表3 雙流結(jié)構(gòu)和單流結(jié)構(gòu)

    雙流結(jié)構(gòu)通過對視覺部分和文本部分進(jìn)行分別編碼,然后再通過交叉編碼的方式充分學(xué)習(xí)了每種模態(tài)的特征,相比單流結(jié)構(gòu)雙流結(jié)構(gòu)的特征學(xué)習(xí)更加充分,類似于對不同模態(tài)的特征進(jìn)行了一次特征提取之后又進(jìn)行了交叉的特征提取,其典型結(jié)構(gòu)如圖4 所示.

    Fig.4 Two-stream architecture圖4 雙流結(jié)構(gòu)

    ViLBERT 中引入了聯(lián)合注意力機制進(jìn)行不同模態(tài)之間的學(xué)習(xí),聯(lián)合注意力機制最早見于Faster-RCNN[45]結(jié)構(gòu)中,每一種模態(tài)的查詢向量和鍵值向量同時作為另外一種模態(tài)的查詢向量和鍵值向量,注意力模塊為每種模態(tài)產(chǎn)生了基于注意力的池化特征,視覺流中有了基于文本注意力的先驗條件,文本流中有了基于視覺注意力的先驗條件.ViLBERT 分別輸出視覺模態(tài)和文本模態(tài)的表征,然后通過線性加權(quán)融合的方式產(chǎn)生聯(lián)合表征.另外,類似的模型LXMERT 中,每一路包含兩個自注意力子層、一個交叉自注意力層和兩個前向編碼.與ViLBERT操作查詢向量和鍵值向量的方式不同,其第K層的自注意力交叉層的輸入為前k-1 層的視覺向量和文本向量,具體如下:

    4.3 特征預(yù)處理

    4.3.1 文本特征處理

    在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,首先需要構(gòu)建一個詞典,然后對詞典中的每個詞做向量表.對于新來的詞,首先需要加入詞典中,這些會導(dǎo)致詞典越來越大.過大的詞典主要會帶來兩個問題/

    1)稀疏問題:某些詞匯出現(xiàn)的頻率很低,得不到充分訓(xùn)練.

    2)計算量問題:詞典過大,也就導(dǎo)致隱含向量的計算量變大.

    單純基于詞典的方式不能解決袋外詞集的問題(出現(xiàn)不在詞表中的詞),解決這個問題主要是通過建立字符級別的模型,字符級別的模型試圖使用26 個字母加上一些符號表示所有詞匯.這種處理方式雖然可以較好地解決袋外詞集的問題,但是模型的粒度變小,輸入長度變長,使得數(shù)據(jù)更加稀疏,并且難以學(xué)習(xí)長遠(yuǎn)程的依賴關(guān)系.詞級別模型導(dǎo)致袋外詞集問題,而字級別模型粒度小,所以就誕生了子詞級別(subword-level)的處理方式.比如,訓(xùn)練集的詞匯:“old older oldest smart smarter smartest”采用詞級別的詞典表示為“old older oldest smart smarter smartest”長度為6,而采用子詞級別的處理方式表示為“old smart er est”,其長度為4.目前,預(yù)訓(xùn)練模型中常用的子詞算法包括BPE 算法[63]和WordPiece[64]算法.

    BPE(字節(jié)對)編碼或二元編碼屬于數(shù)據(jù)壓縮算法,其中最常見的為一對連續(xù)字節(jié)數(shù)據(jù)被替換為該數(shù)據(jù)中不存在的字節(jié),其后期使用時,需要一個替換表來重建原始數(shù)據(jù),其算法描述如下.

    1.準(zhǔn)備足夠大的訓(xùn)練語料.

    2.確定期望的子詞詞表大小.

    3.將單詞拆分成字符序列,并在末尾添加后綴“〈/w〉”,統(tǒng)計單詞頻率.

    4.統(tǒng)計每一個連續(xù)字節(jié)對的出現(xiàn)頻率,選擇最高頻合并成新的子詞.

    5.重復(fù)第4 步直到達(dá)到第2 步設(shè)定的子詞詞表大小,或者下一個最高頻字節(jié)對出現(xiàn)頻率為1.

    WordPiece 算法是BPE 的變種,不同點在于,WordPiece 基于概率生成新的子詞而不是下一最高頻字節(jié)對.算法描述如下.

    1.訓(xùn)練語料數(shù)據(jù)準(zhǔn)備.

    2.確定期望的子詞詞表大小.

    3.將單詞變成字符序列.

    4.基于第3 步數(shù)據(jù)訓(xùn)練語言模型.

    5.從所有的子詞單元中選擇加入語言模型后,能最大程度地增加訓(xùn)練數(shù)據(jù)概率的單元作為新的單元.

    6.重復(fù)第5 步直到達(dá)到第2 步設(shè)定的子詞詞表大小,或概率增量低于某一閾值.

    4.3.2 圖像特征處理

    卷積神經(jīng)網(wǎng)絡(luò)是目前比較通用的圖像特征提取方法,目前,大部分的圖像任務(wù)大多基于一個效果較好的卷積網(wǎng)絡(luò)比如ResNet-101[65]提取圖像表征,然后在一個具體任務(wù)上進(jìn)行應(yīng)用.BERT 在處理文本任務(wù)時,其輸入的信息都是詞或者字,是一個小的語義單元,將整張圖片向量作為輸入,將無法很好地學(xué)習(xí)視覺語義單元信息,所以一般對圖片進(jìn)行目標(biāo)檢測操作,然后將檢測后的結(jié)果進(jìn)行處理,然后作為一個語義單元作為輸入.表4 中展示了Unicode-VL 模型在句子檢索和圖像檢索任務(wù)中使用ResNeXt[66]模型和FasterR-CNN[67]模型提取檢測框的差別.

    Table 4 Performance comparison between FasterR-CNN and ResNeXt表4 FasterR-CNN 和ResNeXt 性能對比

    使用目標(biāo)檢測提取圖像的36 個框或者100 個框,然后將其作為視覺語義單元進(jìn)行輸入,其輸出的表征質(zhì)量遠(yuǎn)遠(yuǎn)高于單純地使用ResNeXt[66]進(jìn)行像素級特征提取所產(chǎn)生的表征質(zhì)量.將目標(biāo)檢測方法應(yīng)用于多模態(tài)任務(wù),最早由Anderson 等人[68]在Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 一文中提出.該文提出了一種自下而上和自頂向下的方法用于多模態(tài)的視覺問答和圖像描述的任務(wù),該架構(gòu)與目前視覺文本預(yù)訓(xùn)練架構(gòu)類似,只是其主要應(yīng)用于具體的下游任務(wù).其中,自下而上的模塊采用FasterR-CNN[67]作為特征提取器,FasterR-CNN 的骨干網(wǎng)絡(luò)主要采用了基于ImageNet 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的RestNet-101 網(wǎng)絡(luò),然后其在Visual Genome[69]數(shù)據(jù)集上進(jìn)行訓(xùn)練,Visual Genome 數(shù)據(jù)集是由斯坦福人工智能實驗室的李菲菲教授提出,其目的是構(gòu)建一個包含豐富語義信息的視覺數(shù)據(jù)集,整個數(shù)據(jù)集大約包含10.8 萬張圖片,平均每張圖片含有21 個物體、16 個屬性.同時,其還標(biāo)示了兩個物體之間的關(guān)系,也就是該數(shù)據(jù)集同時包含實體、實體屬性和實體之間的關(guān)系等3 種.Faster-RCNN 最終檢測輸出的目標(biāo)是從2 000 類實體和500 類屬性中選出的1 600 類實體和400 類屬性,通過這種方式訓(xùn)練的目標(biāo)檢測模型作為圖片的特征提取器,可以有效地提取圖片中的視覺語義特征.

    目前,每一張圖片輸出的檢測框一般包含36 個框或者100 個框,如表4 所示,輸出100 個框的效果相對更好一些.在Unicoder-VL[38]中,將每個檢測到的對象的位置坐標(biāo)表示為由歸一化的左下和右上坐標(biāo)組成四維向量,其包含了位置和大小信息.最后,我們將位置向量和檢測出的目標(biāo)框中的特征向量進(jìn)行相加,然后通過線性映射的方式將其映射成另外的向量,且其維度與文本輸入向量的維度相同,從而可以進(jìn)行拼接.VL-BERT 同樣將每個目標(biāo)區(qū)域坐標(biāo)表示成一個四維的向量,不同的是,其不是簡單地直接與目標(biāo)區(qū)域特征向量拼接,而是利用與BERT 位置向量相同的處理方式,通過一個正弦和余弦方程映射成一個2 048 維的向量[70],這樣相當(dāng)于產(chǎn)生了圖像維度的位置向量.ViLBERT 也是將輸出的位置向量和檢測框中的特征向量進(jìn)行求和,區(qū)別是其位置向量為一個五維的向量,除了歸一化的左上和右下坐標(biāo)外,還增加了一個區(qū)域占比(目標(biāo)區(qū)域面積占整張圖片面積的比重).UNINTER 中則采用一個七維的位置向量(歸一化的4 個位置坐標(biāo)、長度、高度、區(qū)域面積).

    4.3.3 視頻特征的預(yù)處理

    VideoBERT[60]、UniViLM[43]是目前典型的視頻文本預(yù)訓(xùn)練的架構(gòu),預(yù)處理時,首先需要將視頻特征向量化.VideoBERT 通過每秒20 幀的速度進(jìn)行采樣,以30 幀為一個單元,通過在Kinetics[71]視頻動作數(shù)據(jù)集上預(yù)訓(xùn)練S3D[72]模型,對視頻幀進(jìn)行特征抽取.通過分層聚類的方式對視頻特征進(jìn)行處理,設(shè)置分層聚類的層數(shù)為4,聚類簇為12,總共可以聚類產(chǎn)生12 的4 次方一共20 736 個類,相當(dāng)于兩萬個最小的語義單元.UniViLM 則對視頻切幀處理后,使用ResNet-152 提取二維特征,使用ResNeXt-101 為骨干網(wǎng)絡(luò)的三維卷積網(wǎng)絡(luò)提取三維特征,將三維特征和二維特征拼接成一個4 096 維的向量,再后,接一個Transformer 結(jié)構(gòu)進(jìn)行視頻特征抽取.

    4.4 預(yù)訓(xùn)練任務(wù)

    4.4.1 預(yù)訓(xùn)練數(shù)據(jù)集

    對于多模態(tài)表征的預(yù)訓(xùn)練任務(wù)而言,一個好的數(shù)據(jù)集直接影響了最終產(chǎn)生的表征質(zhì)量的好壞.現(xiàn)在收集的用于視覺語言統(tǒng)一表征預(yù)訓(xùn)練的數(shù)據(jù)集如下.

    · MS-COCO[73]:第1 個版本由微軟在2014 年發(fā)布,最開始,數(shù)據(jù)集由20GB 左右的圖片和500MB 左右的文本文件組成.COCO 通過在Flickr 上搜索80 個對象的類別和各種場景來收集圖像,有33 萬張圖片,其中20 萬張有標(biāo)注.其標(biāo)注類型主要包括目標(biāo)實例、目標(biāo)關(guān)鍵點和圖像描述,其本質(zhì)是一個可以支持多個任務(wù)的數(shù)據(jù)集,并不是專門為視覺語言描述任務(wù)設(shè)計,且其數(shù)據(jù)量相對而言不是很大,可以作為視覺語言表征預(yù)訓(xùn)練任務(wù)的基線版本.

    · Conceptual Captions[74]數(shù)據(jù)集:這個數(shù)據(jù)集由谷歌發(fā)布,其一共包含330 萬張配對的圖像以及該對象對應(yīng)的描述.數(shù)據(jù)集通過一個流式處理框架從互聯(lián)網(wǎng)中的上億個網(wǎng)頁中構(gòu)建,首先,基于圖像進(jìn)行過濾,其只保存JPG 格式圖片,同時過濾了涉及色情的內(nèi)容;然后抽取網(wǎng)頁中Alt-text 標(biāo)簽之間的文本,過濾掉搜索引擎優(yōu)化詞和推特的標(biāo)簽詞.使用一個圖文配對分類器將沒有與之配對文本的圖片過濾掉.該數(shù)據(jù)集發(fā)布后,成為視覺語言預(yù)訓(xùn)練任務(wù)的標(biāo)配數(shù)據(jù).目前,很大一部分視覺語言預(yù)訓(xùn)練任務(wù),類似ViLBERT、VLBERT、Unicoder-VL 等,都采用該數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練.

    · SBUCaptions[75]數(shù)據(jù)集:在從網(wǎng)絡(luò)中篩選而成的圖像描述系統(tǒng)中輸入查詢圖像,根據(jù)查詢結(jié)果篩選候選的匹配圖像,基于抽取出的一些高維度信息比如對象、場景進(jìn)行重排序,返回最相關(guān)的圖像中的文本描述,同時過濾一些帶噪音的描述,最終結(jié)果中包含了100 萬的圖像和其相對應(yīng)的文本描述.該數(shù)據(jù)集采用兩種圖像描述生成的方法:一種為查詢結(jié)果的描述遷移,一種為利用全局表示和圖像內(nèi)容的直接估計生成描述.圖像描述的相關(guān)性總體較高,但也存在一些錯誤,數(shù)據(jù)量規(guī)模中等,進(jìn)行預(yù)訓(xùn)練任務(wù)時一般和其他數(shù)據(jù)集融合使用.

    · LAIT(large-scale weak-supervised image-text)[40]數(shù)據(jù)集:該數(shù)據(jù)集由微軟收集,是目前最大的一個圖文配對數(shù)據(jù)集,一共包含1 000 萬的圖像文本數(shù)據(jù),每一張圖片的平均描述為13 個字符.收集方法與Conceptual Caption 類似,首先從互聯(lián)網(wǎng)中收集網(wǎng)頁信息過濾掉非英文部分,對圖片進(jìn)行過濾,保留長度和高度大于300 像素的,使用二元分類器丟棄了一些不可學(xué)習(xí)的圖片.使用用戶定義的元數(shù)據(jù)信息作為圖像文本描述,同時制定了一系列的過濾規(guī)則用于文本過濾.訓(xùn)練了一個弱分類器進(jìn)行圖文匹配的判斷,對于一張圖片有多個配對描述的情況,只選擇得分最高的配對.該數(shù)據(jù)集屬于目前規(guī)模最大的預(yù)訓(xùn)練任務(wù)數(shù)據(jù)集,ImageBERT 也利用該數(shù)據(jù)集取得了當(dāng)時為止的最好效果.

    · HowTo100M[76]數(shù)據(jù)集:從海量教學(xué)視頻中進(jìn)行數(shù)據(jù)收集,視頻的內(nèi)容主要為教授一些復(fù)雜的任務(wù),其中包括來自122 萬段人類表演和活動的教學(xué)網(wǎng)絡(luò)視頻,描述了超過2 萬3 千個不同的視覺任務(wù).該數(shù)據(jù)集的規(guī)模非常大,涵蓋的種類較多.

    · Youcook2[77]:是兩個下游任務(wù)的域內(nèi)數(shù)據(jù)集,它包含了2 000 個烹飪視頻、89 個食譜、14K 的視頻剪輯,總時長為176h(平均5.26min).每個視頻片段都有一個注釋句子.該數(shù)據(jù)集主要是和烹飪相關(guān)的視頻,領(lǐng)域受限.

    · MSR-VTT[78]:包含針對10 000 個視頻的200 000 個描述,覆蓋類別為257 種,平均句子長度為9.28.視頻描述重復(fù),66%的視頻具備同樣描述.

    · VATEX[79]中英文視頻描述數(shù)據(jù)集:該數(shù)據(jù)集一共包含41 250 個視頻、82 500 個視頻描述、600 個類別.82 500 個描述都是唯一的,每一個視頻都有20 個描述,其中10 個中文,10 個英文.其中,5 對是中英文相互對應(yīng)的翻譯,英文不少于10 個單詞,非翻譯的中文句子不少于15 個字.與MSR-VTT 數(shù)據(jù)集相比,其支持多語言,而且視頻描述的多樣性較高,規(guī)模更大.

    表5 中列出了不同數(shù)據(jù)集的一些特點和差異.

    Table 5 Differences between different pre-trained datasets表5 不同預(yù)訓(xùn)練數(shù)據(jù)集的差異

    4.4.2 預(yù)訓(xùn)練損失函數(shù)

    對于多模態(tài)的預(yù)訓(xùn)練任務(wù)而言,預(yù)訓(xùn)練損失函數(shù)的選擇和設(shè)計至關(guān)重要.目前主要的預(yù)訓(xùn)練任務(wù)整理如下.

    (1) 圖像文本掩碼:其基本模式與BERT 掩碼語言建模的任務(wù)類似.VisualBERT 中只對文本向量進(jìn)行掩碼,對圖像部分不進(jìn)行掩碼操作.ViLBERT 對15%的視覺和文本輸入都進(jìn)行隨機掩碼.圖像掩碼對圖像區(qū)域的90%的圖像特征進(jìn)行歸零,區(qū)域的10%保持不變.對于圖像掩碼的處理,通過最小化掩碼區(qū)域分布和非掩碼區(qū)域分布的KL 散度實現(xiàn).

    (2) 視覺文本匹配:本質(zhì)上是一個二分類任務(wù),VisualBERT 基于COCO 數(shù)據(jù)集,正樣本是一張圖片和該圖片匹配的描述,負(fù)樣本是一張圖片以及隨機選擇的其他圖片的描述.該方法同樣被VL-BERT 使用.

    (3) 掩碼視覺區(qū)域:UINTER 中,對視覺區(qū)域做掩碼有3 種方式:一種是掩碼區(qū)域特征回歸,每一個視覺區(qū)域都是一個高維度的向量,讓輸出的向量盡可能接近被掩碼掉的區(qū)域特征向量,使用L2 損失讓兩個向量的距離盡可能地小;第2 種方法是掩碼區(qū)域特征分類,每一個視覺區(qū)域都對應(yīng)一個分類標(biāo)簽,我們的目的就是采用交叉熵等損失函數(shù)使掩碼區(qū)域的分類和真實的分類類似;第3 種方法是掩碼區(qū)域KL 散度,一般KL 散度主要用來衡量數(shù)據(jù)分布之間的差異,我們采用KL 散度損失來度量視覺掩碼區(qū)域和真實視覺區(qū)域的之間的分布式差異.

    (4) 序列到序列目標(biāo)損失:微軟VLP[62]中,為了構(gòu)建既滿足內(nèi)容理解任務(wù)又滿足內(nèi)容生成任務(wù)的聯(lián)合表征,引入了序列到序列的損失函數(shù),這種方式保證自注意力掩碼操作是順序的.我們首先定義自注意力掩碼為M:

    然后在自注意力編碼操作中引入M:

    Hl-1為上一層的輸出,Al為 層的輸出.Al計算過程中,通過引入M操作保證自注意力操作的順序.

    (5) 場景圖預(yù)測:簡單的視覺語言匹配任務(wù)會丟失很多文本和視覺模態(tài)中的細(xì)粒度信息,ERNIE-ViL[80]提出了基于場景圖的目標(biāo)預(yù)測任務(wù),包括物體目標(biāo)預(yù)測、屬性預(yù)測以及物體關(guān)系預(yù)測:物體目標(biāo)預(yù)測為隨機選取圖中一部分物體,掩碼其在句子中詞,然后根據(jù)上下文和圖片對掩碼預(yù)測;屬性預(yù)測和物體關(guān)系預(yù)測方式類似,其掩碼句子中的屬性詞和關(guān)系詞,然后基于相應(yīng)的上下文和圖像進(jìn)行掩碼預(yù)測.這一預(yù)測任務(wù)屬于從粗粒度的視覺語言匹配到精細(xì)粒度的視覺語言語義匹配的邁進(jìn).

    4.4.3 多階段預(yù)訓(xùn)練

    ImageBERT 中采用了一種多階段預(yù)訓(xùn)練的方法:首先,在LAIT[40]數(shù)據(jù)集上進(jìn)行第1 階段的預(yù)訓(xùn)練;然后,再在Conceptual Caption 和SBUCaptions 數(shù)據(jù)集上進(jìn)行第2 階段的預(yù)訓(xùn)練;最后,再接一個具體的下游任務(wù).

    4.5 下游任務(wù)

    基于BERT 自監(jiān)督預(yù)訓(xùn)練的框架,通常會在訓(xùn)練好的預(yù)訓(xùn)練參數(shù)的基礎(chǔ)上接一些具體的下游任務(wù).多模態(tài)視覺語言預(yù)訓(xùn)練的下游應(yīng)用任務(wù)很多,從內(nèi)容理解類到內(nèi)容生成類的.下游任務(wù)的性能和效果的好壞,一定程度上反映了訓(xùn)練出來的表征質(zhì)量的好壞.下面從理解和生成這兩個角度選取一些有代表性的下游任務(wù)

    4.5.1 內(nèi)容理解類

    典型的下游任務(wù)包括視覺問答、視覺推理、視覺聯(lián)合推理、圖像檢索、視頻檢索.

    · 視覺問答是指根據(jù)給定的圖片提問,從候選中選出正確的答案.VQA2.0[81]中,從COCO 圖片中篩選了超過100 萬的問題,我們訓(xùn)練模型來預(yù)測最常見的3 129 個回答,其本質(zhì)上可以轉(zhuǎn)化成一個分類問題.

    · 視覺推理相對問答更為困難,其可以分解為兩個子任務(wù)視覺問答(Q→A)和選出答案的原因(QA→R).除了回答用自然語言表達(dá)的具有挑戰(zhàn)性的視覺問題外,模型還需要解釋為什么作出這樣的回答.其最開始由華盛頓大學(xué)提出,同時發(fā)布的VCR[82]數(shù)據(jù)集包含11 萬的電影場景和29 萬的多項選擇問題.

    · NLVR2[83]是一個關(guān)于自然語言和圖像聯(lián)合推理的數(shù)據(jù)集,重點關(guān)注語義多樣性、組合性和視覺推理挑戰(zhàn).該任務(wù)是確定一個自然語言的標(biāo)題對給出的一對圖像是否正確,數(shù)據(jù)集由超過10 萬的英語句子和網(wǎng)絡(luò)圖片組成.

    · 圖像檢索任務(wù)是給定一個句子,選擇它們對應(yīng)的邊界區(qū)域.Flickr30K[84]數(shù)據(jù)集包括3 萬張圖片和25 萬條注釋.

    · 視頻檢索是根據(jù)給定的一個查詢語句,從視頻中查詢出相關(guān)的片段.在推斷過程中,模型根據(jù)文本輸入和候選視頻計算片段的相似性,從而選擇最合適的視頻片段.Youcook2[84]是一個視頻檢索的數(shù)據(jù)集,它包含2 000 條烹飪的視頻和89 個食譜,每一個視頻片段都有一個相應(yīng)的視頻描述,可以適用于視頻檢索的任務(wù).

    4.5.2 內(nèi)容生成類

    典型的內(nèi)容生成類應(yīng)用主要包括圖像描述和視頻描述.

    · 圖像描述是根據(jù)輸入的一張圖片自動生成其對應(yīng)的文字性描述,類似于看圖說話.圖像描述是一個很典型的多模態(tài)生成的任務(wù),其可以被看作是動態(tài)的目標(biāo)檢測.最早的做法主要是利用圖像處理的一些算子提取出圖像的特征,然后利用一些淺層分類器得到可能的目標(biāo)[85].后來,谷歌提出了show and tell[86]仿照機器翻譯的架構(gòu),通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征作為遞歸神經(jīng)網(wǎng)絡(luò)的輸入,通過編碼-解碼的結(jié)構(gòu)來生成目標(biāo)語言文字[21].后來又引入注意力機制以關(guān)注局部特征、利用圖像目標(biāo)檢測的結(jié)果作為輸入等.基于Transformer 預(yù)訓(xùn)練,然后微調(diào)的一個典型架構(gòu)是VLP[62],其在預(yù)訓(xùn)練損失函數(shù)中定義了序列到序列的任務(wù),其可以直接用于圖像描述的任務(wù).典型的圖像描述數(shù)據(jù)集包括MSCOCO[73]等.

    · 視頻描述與圖像描述類似,是針對視頻生成文本描述,其本質(zhì)上也是一個序列生成任務(wù).用于視頻描述的數(shù)據(jù)集比較多,常見的比如MSR-VTT[21]視頻描述數(shù)據(jù)集,其每個視頻片段包含20 個人工標(biāo)注的句子數(shù)據(jù),其總共有來源于1 萬條視頻的20 個分類的20 萬條視頻片段,可以用于生成任務(wù).

    4.6 總結(jié)

    基于預(yù)訓(xùn)練架構(gòu)的視覺語言表征模型可以靈活應(yīng)用于各類下游任務(wù),但由于其模型大、結(jié)構(gòu)的靈活性較差、參數(shù)較多,所以其計算量大,應(yīng)用場景被限制.另外,由于視覺信息的多樣化,所以進(jìn)行視覺單元提取時很難涵蓋全面.

    5 視覺語言統(tǒng)一表征質(zhì)量評估

    對于一般的分類任務(wù)而言,準(zhǔn)確率、召回率等指標(biāo)就可以很好地衡量分類算法的好壞.同樣,對于嵌入式表征,我們也需要有一套評估標(biāo)準(zhǔn)來衡量其輸出的表征的質(zhì)量的好壞.對于Word2Vec 等字詞向量算法,在被提出時也指定了一系列的質(zhì)量評估的方法,比如:

    · 相似度評價:通過標(biāo)注好的詞匯相似性數(shù)據(jù)集(WS-353,SimLex-999)進(jìn)行的相關(guān)性度量.

    · 類比任務(wù):比如中國+北京=法國+巴黎.

    · 分類任務(wù):根據(jù)詞向量計算文本向量,然后進(jìn)行文本分類,根據(jù)文本分類的準(zhǔn)確率評估向量質(zhì)量.

    · 聚類可視化:比如t-SNE[87]通過t 分布對數(shù)據(jù)點進(jìn)行相似性的建模.

    視覺語言表征由于涉及到跨模態(tài)的表示,所以其質(zhì)量評估的方法更加復(fù)雜一些.綜合目前視覺語言表征的一些模型,總結(jié)的一些表征質(zhì)量評估的方法如下幾種.

    5.1 零樣本學(xué)習(xí)評估

    零樣本學(xué)習(xí)就是識別過去從未見過的數(shù)據(jù)類別,即產(chǎn)出的表征在不經(jīng)過微調(diào)的情況下,不僅能識別出已知的數(shù)據(jù)類別,還能識別出未知的數(shù)據(jù)類別.其中,用于質(zhì)量評估的任務(wù)主要包括句子檢索和圖像檢索.目前被用來進(jìn)行驗證的數(shù)據(jù)集包括:

    · MSCOCO 數(shù)據(jù)集[73]:包含33 萬張圖片,每張圖片包含5 個文本描述,它被分割成訓(xùn)練集、驗證集和測試集.

    · Flickr 數(shù)據(jù)集:Flickr8k 數(shù)據(jù)集包含來自Flickr 數(shù)據(jù)集的8 000 張圖片,Flickr30k 數(shù)據(jù)集包含3 萬張圖片.

    其中每一張圖片包含5 個描述,每個描述都用相同意思但是不同的方式描述同一張圖片.句子檢索是基于句子查詢相匹配的圖片,圖像檢索主要是基于圖像查詢相匹配的句子.這里會定義幾個指標(biāo)R@1、R@5、R@10,分別表示召回的前1 條、前5 條和前10 條數(shù)據(jù)中,正確的數(shù)據(jù)占的百分比.表6 中為列出了在Flickr30K 數(shù)據(jù)集上進(jìn)行零樣本評估的一些主流模型的比對.

    Table 6 Performance of different models on Flickr30k datasets with zero-short learning method表6 幾種不同模型在Flickr30k 數(shù)據(jù)集上進(jìn)行零樣本學(xué)習(xí)的性能對比

    可見,UNITER 模型由于在預(yù)訓(xùn)練任務(wù)中對視覺語言模態(tài)分布差異的充分學(xué)習(xí),從而在零樣本評估中取得了較好的效果.

    5.2 面向具體任務(wù)的評估

    面向具體任務(wù)的評估是直接在具體的任務(wù)上進(jìn)行訓(xùn)練,本質(zhì)上屬于有監(jiān)督的訓(xùn)練,見表5,面向具體任務(wù)的訓(xùn)練效果明顯好于零樣本學(xué)習(xí)評估的效果.視覺語言表征模型可以針對MSCOCO 和Flickr 數(shù)據(jù)集的句子檢索和圖像檢索任務(wù)進(jìn)行有監(jiān)督訓(xùn)練,從而評估模型好壞.另外一些有監(jiān)督的任務(wù)包括多標(biāo)簽分類等.NUS-WIDE 是一個多標(biāo)簽分類的數(shù)據(jù)集[88],黃等人將基于社交網(wǎng)絡(luò)圖片學(xué)習(xí)的視覺與文本聯(lián)合表征,可以在NUS-WIDE 數(shù)據(jù)集上進(jìn)行評估[89].一般基于相似性的表征學(xué)習(xí)架構(gòu)會采用這種評估方式,同樣采用Flickr30k 數(shù)據(jù)集.表7 中列出了一些模型直接基于跨模態(tài)檢索任務(wù)進(jìn)行訓(xùn)練得到的性能評估.

    Table 7 Task-specific performance comparison of several different models on Flickr30K datasets表7 幾種不同模型在Flickr30k 數(shù)據(jù)集上的面向具體任務(wù)的性能比對

    由此可見:在這種評估方式下,一些細(xì)粒度的視覺語言相似度模型比如PFAN 通過對模態(tài)特征的學(xué)習(xí),可以達(dá)到與transformer 這種自編碼結(jié)構(gòu)接近或者更優(yōu)的效果.對一些可能沒有那么多預(yù)訓(xùn)練數(shù)據(jù)的專有領(lǐng)域,采用相似性學(xué)習(xí)的方法也不失為一種較好的方案.

    5.3 預(yù)訓(xùn)練加下游任務(wù)評估

    針對下游任務(wù)的評估,是在產(chǎn)生的統(tǒng)一表征的基礎(chǔ)上針對具體的任務(wù)進(jìn)行微調(diào).從表8 中可以看出,這種方式的準(zhǔn)確率最高,這也表明這種方法的先進(jìn)性.進(jìn)行評估的下游任務(wù)囊括了上一節(jié)中介紹的各類任務(wù),包括內(nèi)容生成類和內(nèi)容理解類的,比如視覺問答、視覺推理、視覺聯(lián)合推理、圖像檢索、視頻檢索等,以及圖像描述等.目前為止,視覺問答、推理和聯(lián)合推理任務(wù)中表現(xiàn)較好的模型UNITER、ImageBERT 以及ERNIE-ViL,其提升的關(guān)鍵是引用了更大的數(shù)據(jù)集和設(shè)計了更合理的預(yù)訓(xùn)練損失函數(shù).在表9 中,針對不同模型的性能進(jìn)行了比對.

    Table 8 Performance of Unicoder-VL under different evaluation methods表8 幾種不同評估方式下Unicoder-VL 的表現(xiàn)

    Table 9 Performance comparison of several different pre-trained and fine-tuned models on Flickr30K datasets表9 幾種不同的預(yù)訓(xùn)練加微調(diào)模型在Flickr30k 數(shù)據(jù)集上的性能比對

    預(yù)訓(xùn)練架構(gòu)模型憑借預(yù)訓(xùn)練時利用海量數(shù)據(jù)對模態(tài)間信息的充分學(xué)習(xí),在進(jìn)行下游任務(wù)微調(diào)時取得了較好的效果;且其相應(yīng)指標(biāo)明顯高于基于相似性學(xué)習(xí)的模型,這也充分證明了在采用transformer 進(jìn)行編碼的預(yù)訓(xùn)練階段針對模態(tài)間的互補性和冗余性進(jìn)行了很好的學(xué)習(xí).而針對具體的下游任務(wù),就是在已經(jīng)學(xué)習(xí)到的參數(shù)基礎(chǔ)上進(jìn)行優(yōu)化.

    6 視覺語言表征學(xué)習(xí)的發(fā)展趨勢

    從目前的發(fā)展趨勢及表征質(zhì)量測評效果來看:基于預(yù)訓(xùn)練架構(gòu)的視覺語言表征學(xué)習(xí)方法相較于基于相似性的表征學(xué)習(xí)有一定的優(yōu)勢,但同時,其產(chǎn)出表征質(zhì)量的好壞對海量的預(yù)訓(xùn)練數(shù)據(jù)依賴也比較大,所以基于相似性的表征學(xué)習(xí)在一些數(shù)據(jù)相對匱乏的專有領(lǐng)域會有一定優(yōu)勢.綜合不同表征學(xué)習(xí)框架的優(yōu)缺點和多模態(tài)表征的一些特點,未來有以下幾點值得深度研究.

    1)支持內(nèi)容理解與內(nèi)容生成的通用表征框架:目前,基于預(yù)訓(xùn)練的統(tǒng)一表征框架大多偏向內(nèi)容理解方向,比如ViLBERT、VisualBERT、ImageBERT 等,針對圖像描述等生成類任務(wù)的預(yù)訓(xùn)練框架以及理解與生成通用的預(yù)訓(xùn)練框架也是未來的研究方向.XGPT[90]在預(yù)訓(xùn)練階段采用圖像描述任務(wù)作為預(yù)訓(xùn)練任務(wù),其引入3 類跨模態(tài)生成類預(yù)訓(xùn)練任務(wù),包括圖像為條件的語言掩碼任務(wù)、以圖像為條件的降噪自編碼任務(wù)、以文本為條件的圖像特征生成任務(wù).生成類預(yù)訓(xùn)練任務(wù)與理解類預(yù)訓(xùn)練任務(wù)的一個很大不同是:生成類預(yù)訓(xùn)練任務(wù)既引入編碼架構(gòu)又引入解碼結(jié)構(gòu),同時,生成類預(yù)訓(xùn)練任務(wù)中也增加了序列到序列的預(yù)測任務(wù).未來如何更好地構(gòu)建更加通用的預(yù)訓(xùn)練框架,是一個值得研究的問題.

    2)訓(xùn)練及推斷性能提升:目前,基于預(yù)訓(xùn)練架構(gòu)的視覺語言統(tǒng)一表征雖然在視覺問答、跨模態(tài)檢索等任務(wù)中相比較原來的架構(gòu)有較大的提升,但是在進(jìn)行實際推斷任務(wù)時,其速度較慢.糾其原因,主要分為幾個方面.

    (1) 大部分框架中的圖像特征主要采用基于Faster-RCNN[67]兩階段目標(biāo)檢測的方式提取,雖然精度有一定保證,但是速度很慢.這方面的優(yōu)化可以采用效率更高的單階段檢測框架,或者更換骨干網(wǎng)絡(luò),比如用ResNeXt 替換原有骨干網(wǎng)絡(luò).

    (2) 基于Transformer 架構(gòu)的模型計算量大,參數(shù)較多,所以可以采用蒸餾、量化、壓縮等手段進(jìn)行提升.比如,TinyBERT[91]通過兩階段蒸餾的方式同時對預(yù)訓(xùn)練任務(wù)和下游任務(wù)進(jìn)行蒸餾,教師模型和學(xué)生模型優(yōu)化的損失函數(shù)分別為隱含層損失和注意力矩陣損失,其分別對預(yù)訓(xùn)練任務(wù)和下游任務(wù)同時進(jìn)行蒸餾操作.TinyBERT 模型大小比BERT-BASE 小7.5 倍,推斷速度為其9 倍,在實際應(yīng)用中,可以結(jié)合具體的多模態(tài)預(yù)訓(xùn)練任務(wù),利用蒸餾的方法進(jìn)行提速.另外,transformer 也有一些實現(xiàn)速度提升的變種,比如基于因式分解的稀疏Transformer[92]和利用局部敏感哈希替換點積運算的Reformer[93]等,可以利用這些模型改造后替換Transformer 的原始模型.

    3)細(xì)粒度特征挖掘:無論是基于相似性還是基于預(yù)訓(xùn)練的框架,更精細(xì)粒度的特征提取是提升表征質(zhì)量的一個很好的方向.目前有一些視覺語言統(tǒng)一表征的預(yù)訓(xùn)練模型是基于圖像的像素級輸入的,比如,MMBT 模型[94]就是通過ResNet 算法提取圖像特征,然后通過一個池化卷積操作輸出不同特征映射單元作為視覺token 輸入,再將視覺詞組與文本詞組作為Transformer 結(jié)構(gòu)的聯(lián)合輸入.但是這種結(jié)構(gòu)相比于單純地將文本的輸出向量和圖像輸出向量融合的方式提升精度并不高.另外就是Pixel-BERT[95],為了解決基于特征提取方式提取視覺特征導(dǎo)致的分類數(shù)目有限的問題,其采用像素級特征表示視覺模態(tài),通過采用隨機采樣像素點的方式避免過擬合,在視覺問答等下游任務(wù)中表現(xiàn)較好,超越了ViLBERT 和UNITER 等模型.ERNIE-ViL 是采用場景圖預(yù)測的方式,將句子分割成物體、屬性、關(guān)系的三元組,然后與圖像信息進(jìn)行聯(lián)合預(yù)測.還有一種思路就是可以引入知識圖譜作為實體信息的補充,從而進(jìn)行知識增強.針對視覺模態(tài)可以挖掘更多的高層語義信息,比如人臉特征、文字識別特征等.

    7 總結(jié)

    本文首先介紹了一些相應(yīng)的背景知識,包括表征學(xué)習(xí)的主要研究思路,包括基于概率圖的模型和神經(jīng)網(wǎng)絡(luò)的模型,同時介紹了多模態(tài)統(tǒng)一表征的劃分和預(yù)訓(xùn)練技術(shù).然后介紹了視覺語言表征的幾種研究方向,包括基于相似性的視覺語言表征學(xué)習(xí)以及基于預(yù)訓(xùn)練架構(gòu)的視覺語言統(tǒng)一表征學(xué)習(xí),其中,基于預(yù)訓(xùn)練架構(gòu)的模型為近年來研究重點,相關(guān)領(lǐng)域產(chǎn)生的成果較多.本文從模型結(jié)構(gòu)、預(yù)處理方案、預(yù)訓(xùn)練任務(wù)、下游任務(wù)等角度進(jìn)行了分別闡述,針對多模態(tài)表征的質(zhì)量評估,本文介紹了零樣本學(xué)習(xí)評估、面向具體任務(wù)的評估、預(yù)訓(xùn)練加下游任務(wù)評估等幾種方式.最后,本文結(jié)合目前視覺語言表征的一些待解決問題和一些新興的研究思路,介紹了視覺語言表征學(xué)習(xí)的未來發(fā)展趨勢.多模態(tài)視覺語言表征學(xué)習(xí)目前被越來越多的研究者所重視,并且成為了目前極其火熱的一個研究方向,相信該領(lǐng)域未來可以更好地推動多模態(tài)學(xué)習(xí)和人工智能的發(fā)展.

    致謝在此,向?qū)Ρ疚脑诮M織撰寫過程中提供幫助的老師和同學(xué)們表示感謝.

    猜你喜歡
    模態(tài)向量特征
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    如何表達(dá)“特征”
    不忠誠的四個特征
    抓住特征巧觀察
    向量垂直在解析幾何中的應(yīng)用
    國內(nèi)多模態(tài)教學(xué)研究回顧與展望
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
    由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
    計算物理(2014年2期)2014-03-11 17:01:39
    精品国产美女av久久久久小说| 婷婷六月久久综合丁香| 久久久久久国产a免费观看| www.精华液| av在线天堂中文字幕| 在线观看66精品国产| 97超级碰碰碰精品色视频在线观看| 亚洲一码二码三码区别大吗| 亚洲无线在线观看| 亚洲一区中文字幕在线| 在线十欧美十亚洲十日本专区| 国产精品 欧美亚洲| 首页视频小说图片口味搜索| 色综合站精品国产| 18禁国产床啪视频网站| 国产野战对白在线观看| 午夜福利高清视频| 久久婷婷成人综合色麻豆| 免费无遮挡裸体视频| 免费观看精品视频网站| 最新美女视频免费是黄的| 狠狠狠狠99中文字幕| 啦啦啦 在线观看视频| 日韩精品免费视频一区二区三区| 久久婷婷成人综合色麻豆| 亚洲一区二区三区色噜噜| 成人永久免费在线观看视频| 国产精品亚洲av一区麻豆| 国内少妇人妻偷人精品xxx网站 | 性欧美人与动物交配| 久久久久国内视频| av在线天堂中文字幕| 国产三级黄色录像| 国产精品免费一区二区三区在线| 夜夜看夜夜爽夜夜摸| 老司机深夜福利视频在线观看| 50天的宝宝边吃奶边哭怎么回事| 成人午夜高清在线视频 | 18禁黄网站禁片午夜丰满| 中亚洲国语对白在线视频| 男人操女人黄网站| 亚洲人成电影免费在线| 亚洲国产中文字幕在线视频| 国产亚洲欧美98| bbb黄色大片| 一区二区三区精品91| 欧美性猛交╳xxx乱大交人| 午夜免费观看网址| 午夜福利18| 超碰成人久久| 国产激情偷乱视频一区二区| 精品高清国产在线一区| 热re99久久国产66热| 中文字幕av电影在线播放| 日本三级黄在线观看| www.www免费av| 欧美av亚洲av综合av国产av| 国产午夜福利久久久久久| 免费在线观看成人毛片| 18禁黄网站禁片午夜丰满| xxxwww97欧美| 老司机午夜福利在线观看视频| 国产成人一区二区三区免费视频网站| 国产欧美日韩一区二区精品| 国产欧美日韩一区二区精品| 黄片大片在线免费观看| 欧美黑人巨大hd| 亚洲国产精品成人综合色| 久久久久久久精品吃奶| 免费人成视频x8x8入口观看| 男女床上黄色一级片免费看| 亚洲欧美精品综合一区二区三区| 一本综合久久免费| 欧美久久黑人一区二区| 亚洲人成电影免费在线| 1024视频免费在线观看| 十八禁网站免费在线| 久久狼人影院| 国产av一区二区精品久久| 他把我摸到了高潮在线观看| 欧美在线黄色| 啦啦啦免费观看视频1| 99国产精品99久久久久| 国产熟女xx| 欧美日本视频| 一级a爱视频在线免费观看| 手机成人av网站| 手机成人av网站| 国产成人欧美在线观看| 久久精品国产亚洲av高清一级| 男女下面进入的视频免费午夜 | 日韩精品青青久久久久久| 亚洲熟女毛片儿| 一级a爱视频在线免费观看| 久热爱精品视频在线9| 又黄又爽又免费观看的视频| 国产精品亚洲美女久久久| 热re99久久国产66热| 久久久久久久久免费视频了| 国产又黄又爽又无遮挡在线| 99久久精品国产亚洲精品| 国产亚洲欧美98| 国内精品久久久久久久电影| 国产精品亚洲av一区麻豆| 精品午夜福利视频在线观看一区| 亚洲精品一区av在线观看| 老汉色∧v一级毛片| 国产黄片美女视频| 女同久久另类99精品国产91| 亚洲 欧美 日韩 在线 免费| 美女国产高潮福利片在线看| 欧美成人午夜精品| 精品一区二区三区视频在线观看免费| 悠悠久久av| 美女大奶头视频| 1024香蕉在线观看| 成人亚洲精品一区在线观看| av视频在线观看入口| 中亚洲国语对白在线视频| 最近在线观看免费完整版| 午夜久久久在线观看| 两性午夜刺激爽爽歪歪视频在线观看 | 日韩 欧美 亚洲 中文字幕| 日韩 欧美 亚洲 中文字幕| 草草在线视频免费看| 国产成人系列免费观看| 波多野结衣av一区二区av| 美女大奶头视频| 日韩 欧美 亚洲 中文字幕| 午夜免费成人在线视频| 亚洲真实伦在线观看| 午夜免费成人在线视频| 欧美一区二区精品小视频在线| 国产伦在线观看视频一区| 国产久久久一区二区三区| 最近最新免费中文字幕在线| 黄片小视频在线播放| 精品福利观看| 国产成人一区二区三区免费视频网站| 亚洲熟妇中文字幕五十中出| 久久久久免费精品人妻一区二区 | 大型av网站在线播放| 午夜福利18| 手机成人av网站| 免费在线观看日本一区| 国产成人欧美在线观看| 亚洲国产欧美一区二区综合| av欧美777| 99国产精品99久久久久| 非洲黑人性xxxx精品又粗又长| 黄频高清免费视频| 国产私拍福利视频在线观看| 淫秽高清视频在线观看| 老鸭窝网址在线观看| 久9热在线精品视频| 性欧美人与动物交配| 高清在线国产一区| 久久国产亚洲av麻豆专区| 中文字幕精品免费在线观看视频| 欧美性长视频在线观看| 高潮久久久久久久久久久不卡| 日日摸夜夜添夜夜添小说| 成人永久免费在线观看视频| 免费无遮挡裸体视频| 亚洲精品一区av在线观看| 黄片小视频在线播放| 人成视频在线观看免费观看| 久久久久久国产a免费观看| 日本免费a在线| 99riav亚洲国产免费| x7x7x7水蜜桃| 男女那种视频在线观看| 日韩成人在线观看一区二区三区| 草草在线视频免费看| 国产一区二区三区在线臀色熟女| 人成视频在线观看免费观看| 欧美丝袜亚洲另类 | 一个人观看的视频www高清免费观看 | 久久香蕉国产精品| 成在线人永久免费视频| 国产伦人伦偷精品视频| 欧美在线一区亚洲| 女警被强在线播放| 首页视频小说图片口味搜索| 欧美色欧美亚洲另类二区| 久久草成人影院| 久久国产精品人妻蜜桃| 中文字幕久久专区| 久久国产亚洲av麻豆专区| 中文字幕精品免费在线观看视频| 国产精品98久久久久久宅男小说| 日韩欧美 国产精品| 巨乳人妻的诱惑在线观看| 99热只有精品国产| 国产熟女午夜一区二区三区| 亚洲国产欧美一区二区综合| 国产成人av教育| 美女扒开内裤让男人捅视频| 一本大道久久a久久精品| 成人国产一区最新在线观看| 国产精品九九99| 中亚洲国语对白在线视频| 亚洲黑人精品在线| 最新在线观看一区二区三区| 在线观看舔阴道视频| 一级a爱视频在线免费观看| 午夜福利在线在线| 欧美午夜高清在线| 欧美在线一区亚洲| 老司机午夜福利在线观看视频| 久久伊人香网站| 精品一区二区三区四区五区乱码| 在线播放国产精品三级| 欧美乱码精品一区二区三区| 精品福利观看| 午夜福利高清视频| 国产主播在线观看一区二区| 成人免费观看视频高清| 国产精品久久视频播放| 欧美中文综合在线视频| 精品一区二区三区av网在线观看| 亚洲最大成人中文| 亚洲 国产 在线| 国产av在哪里看| 天堂动漫精品| 亚洲aⅴ乱码一区二区在线播放 | or卡值多少钱| 视频在线观看一区二区三区| 成人国语在线视频| 久久人妻av系列| 又黄又粗又硬又大视频| 成人av一区二区三区在线看| 久久久国产欧美日韩av| 欧美黑人精品巨大| 国产一区二区在线av高清观看| 麻豆av在线久日| 国内精品久久久久久久电影| 人妻久久中文字幕网| 久久国产亚洲av麻豆专区| 亚洲电影在线观看av| 搡老熟女国产l中国老女人| 亚洲国产高清在线一区二区三 | 国产高清视频在线播放一区| 日韩精品免费视频一区二区三区| 久久狼人影院| www.999成人在线观看| 90打野战视频偷拍视频| 视频在线观看一区二区三区| 免费在线观看成人毛片| 亚洲精品国产一区二区精华液| 欧美日韩亚洲国产一区二区在线观看| 波多野结衣巨乳人妻| 亚洲自偷自拍图片 自拍| 亚洲熟女毛片儿| 午夜视频精品福利| 宅男免费午夜| 亚洲av熟女| 日韩有码中文字幕| 婷婷丁香在线五月| 看片在线看免费视频| 又紧又爽又黄一区二区| 午夜免费观看网址| 日韩高清综合在线| 欧美久久黑人一区二区| 不卡一级毛片| 19禁男女啪啪无遮挡网站| 午夜亚洲福利在线播放| bbb黄色大片| 91大片在线观看| 欧美不卡视频在线免费观看 | 777久久人妻少妇嫩草av网站| 国产成人精品无人区| 黄色女人牲交| 人人妻,人人澡人人爽秒播| 亚洲电影在线观看av| 亚洲国产精品合色在线| 久久久久免费精品人妻一区二区 | 国产亚洲欧美98| 欧美成狂野欧美在线观看| 男女之事视频高清在线观看| 亚洲中文av在线| 国产欧美日韩精品亚洲av| 性色av乱码一区二区三区2| 老鸭窝网址在线观看| 欧美成人性av电影在线观看| 免费看十八禁软件| 久99久视频精品免费| 制服诱惑二区| aaaaa片日本免费| 一本大道久久a久久精品| av天堂在线播放| 黄色女人牲交| 亚洲精品久久国产高清桃花| 一本精品99久久精品77| 午夜两性在线视频| 久久精品aⅴ一区二区三区四区| 老汉色av国产亚洲站长工具| 久9热在线精品视频| 熟女少妇亚洲综合色aaa.| 一本精品99久久精品77| 黑人巨大精品欧美一区二区mp4| 夜夜看夜夜爽夜夜摸| 精华霜和精华液先用哪个| 亚洲成人国产一区在线观看| cao死你这个sao货| 女人被狂操c到高潮| 麻豆一二三区av精品| 国产成人欧美| 国产一卡二卡三卡精品| 最近最新免费中文字幕在线| 成熟少妇高潮喷水视频| 99国产精品一区二区三区| 91成人精品电影| 听说在线观看完整版免费高清| 国内精品久久久久久久电影| 日日爽夜夜爽网站| 成人特级黄色片久久久久久久| 久久婷婷人人爽人人干人人爱| 日本免费a在线| e午夜精品久久久久久久| 啦啦啦韩国在线观看视频| 美国免费a级毛片| 久久亚洲精品不卡| 在线观看免费日韩欧美大片| 中文字幕av电影在线播放| 999精品在线视频| 很黄的视频免费| 香蕉丝袜av| 法律面前人人平等表现在哪些方面| 欧美日韩精品网址| 日本 av在线| 大香蕉久久成人网| 我的亚洲天堂| 亚洲成人免费电影在线观看| 国产成年人精品一区二区| 丰满的人妻完整版| 巨乳人妻的诱惑在线观看| 亚洲成人国产一区在线观看| 99精品欧美一区二区三区四区| 久久亚洲精品不卡| 午夜福利一区二区在线看| 一进一出抽搐gif免费好疼| 欧美激情久久久久久爽电影| 成人精品一区二区免费| 欧美国产日韩亚洲一区| 黄片播放在线免费| 50天的宝宝边吃奶边哭怎么回事| 九色国产91popny在线| 日本免费a在线| 亚洲国产精品合色在线| 中文字幕久久专区| 啦啦啦观看免费观看视频高清| 亚洲国产中文字幕在线视频| 18美女黄网站色大片免费观看| 亚洲真实伦在线观看| 精品国产乱子伦一区二区三区| 怎么达到女性高潮| 少妇熟女aⅴ在线视频| 搡老岳熟女国产| 岛国视频午夜一区免费看| 最近最新免费中文字幕在线| 国产精品久久视频播放| 国产精品亚洲av一区麻豆| 成人欧美大片| 首页视频小说图片口味搜索| 熟妇人妻久久中文字幕3abv| 黄网站色视频无遮挡免费观看| 日韩欧美一区视频在线观看| 精品久久久久久久久久免费视频| 亚洲va日本ⅴa欧美va伊人久久| 18禁黄网站禁片免费观看直播| 美女大奶头视频| 亚洲中文av在线| 成年人黄色毛片网站| 亚洲avbb在线观看| 亚洲,欧美精品.| 亚洲精品国产精品久久久不卡| 欧美丝袜亚洲另类 | 精品国产乱子伦一区二区三区| 亚洲色图 男人天堂 中文字幕| 首页视频小说图片口味搜索| 婷婷亚洲欧美| 丁香欧美五月| a在线观看视频网站| 国产精品爽爽va在线观看网站 | 在线视频色国产色| 一个人免费在线观看的高清视频| 可以在线观看的亚洲视频| 久久久国产成人精品二区| 波多野结衣巨乳人妻| 亚洲 欧美 日韩 在线 免费| 国产av不卡久久| 久久性视频一级片| 亚洲天堂国产精品一区在线| 欧美不卡视频在线免费观看 | 欧美在线一区亚洲| 亚洲精品国产一区二区精华液| 国产熟女xx| 国产真人三级小视频在线观看| 欧美日韩中文字幕国产精品一区二区三区| 国内揄拍国产精品人妻在线 | 99在线人妻在线中文字幕| 90打野战视频偷拍视频| 一本一本综合久久| 9191精品国产免费久久| 精品一区二区三区av网在线观看| 老司机深夜福利视频在线观看| 一a级毛片在线观看| 亚洲真实伦在线观看| 黄网站色视频无遮挡免费观看| 国产精品99久久99久久久不卡| 成人亚洲精品av一区二区| 国产黄片美女视频| 日日摸夜夜添夜夜添小说| 国产99白浆流出| 欧美日韩中文字幕国产精品一区二区三区| 天天添夜夜摸| 日本 欧美在线| tocl精华| 国产99久久九九免费精品| 精品少妇一区二区三区视频日本电影| 97人妻精品一区二区三区麻豆 | 欧美av亚洲av综合av国产av| 十八禁网站免费在线| 首页视频小说图片口味搜索| 中文资源天堂在线| 在线观看一区二区三区| 国产亚洲精品久久久久5区| 亚洲免费av在线视频| 变态另类成人亚洲欧美熟女| 在线永久观看黄色视频| 午夜精品在线福利| 国产片内射在线| 美女国产高潮福利片在线看| 日本精品一区二区三区蜜桃| 亚洲精品久久国产高清桃花| 看片在线看免费视频| 亚洲最大成人中文| 变态另类丝袜制服| 精品国产一区二区三区四区第35| 99国产极品粉嫩在线观看| 久久久久久久精品吃奶| 亚洲第一欧美日韩一区二区三区| 国产亚洲av高清不卡| 亚洲片人在线观看| 亚洲av熟女| 在线av久久热| 亚洲熟女毛片儿| 亚洲欧美日韩高清在线视频| 少妇 在线观看| 国产高清激情床上av| 夜夜爽天天搞| 人人妻人人看人人澡| 国产爱豆传媒在线观看 | 757午夜福利合集在线观看| 97碰自拍视频| 精品久久久久久久毛片微露脸| 欧美日韩福利视频一区二区| 国产免费男女视频| 久久久久久九九精品二区国产 | 女性生殖器流出的白浆| 久9热在线精品视频| 熟妇人妻久久中文字幕3abv| 身体一侧抽搐| 少妇被粗大的猛进出69影院| a级毛片在线看网站| 国产精品 欧美亚洲| 99久久久亚洲精品蜜臀av| 亚洲国产精品999在线| 在线观看www视频免费| 国产精品日韩av在线免费观看| 国产欧美日韩一区二区精品| 人妻丰满熟妇av一区二区三区| 巨乳人妻的诱惑在线观看| 俺也久久电影网| 国产伦在线观看视频一区| 亚洲 欧美 日韩 在线 免费| 老司机靠b影院| 久久中文字幕一级| 亚洲aⅴ乱码一区二区在线播放 | 久久精品91无色码中文字幕| 男人的好看免费观看在线视频 | 99精品在免费线老司机午夜| 麻豆久久精品国产亚洲av| 啪啪无遮挡十八禁网站| 亚洲avbb在线观看| 久久国产精品影院| 天天躁狠狠躁夜夜躁狠狠躁| 一个人观看的视频www高清免费观看 | 最近最新中文字幕大全免费视频| 亚洲人成伊人成综合网2020| 成人国产综合亚洲| 88av欧美| 后天国语完整版免费观看| 久9热在线精品视频| 日本三级黄在线观看| 国产精品1区2区在线观看.| 亚洲熟妇中文字幕五十中出| 俄罗斯特黄特色一大片| 观看免费一级毛片| 色老头精品视频在线观看| 日韩精品免费视频一区二区三区| 免费在线观看亚洲国产| 欧美最黄视频在线播放免费| 一边摸一边做爽爽视频免费| 两个人免费观看高清视频| 99riav亚洲国产免费| 美国免费a级毛片| 国产私拍福利视频在线观看| 国产成人av教育| 在线观看日韩欧美| av电影中文网址| 国产一区二区激情短视频| 免费观看人在逋| 一进一出抽搐动态| 亚洲国产精品合色在线| 97碰自拍视频| av在线播放免费不卡| 日韩一卡2卡3卡4卡2021年| 亚洲av中文字字幕乱码综合 | 久久久久久人人人人人| 一区二区三区国产精品乱码| 91字幕亚洲| 男女视频在线观看网站免费 | 99久久综合精品五月天人人| 成人18禁高潮啪啪吃奶动态图| av免费在线观看网站| 亚洲精品粉嫩美女一区| 久久久精品国产亚洲av高清涩受| 麻豆成人av在线观看| 男女做爰动态图高潮gif福利片| 给我免费播放毛片高清在线观看| 亚洲午夜理论影院| 中文字幕人成人乱码亚洲影| e午夜精品久久久久久久| 成年版毛片免费区| 人人妻人人澡欧美一区二区| 亚洲av第一区精品v没综合| 婷婷丁香在线五月| 日韩国内少妇激情av| АⅤ资源中文在线天堂| 国产国语露脸激情在线看| 黄色成人免费大全| 哪里可以看免费的av片| 一区二区三区精品91| 黄色毛片三级朝国网站| ponron亚洲| 老鸭窝网址在线观看| 国产熟女午夜一区二区三区| 级片在线观看| 亚洲真实伦在线观看| 亚洲中文字幕日韩| 天堂√8在线中文| 久久久久久亚洲精品国产蜜桃av| 侵犯人妻中文字幕一二三四区| 欧美黑人精品巨大| 一本一本综合久久| 非洲黑人性xxxx精品又粗又长| 国产亚洲精品一区二区www| 国产野战对白在线观看| 俺也久久电影网| 亚洲在线自拍视频| 熟妇人妻久久中文字幕3abv| 大型av网站在线播放| 丝袜在线中文字幕| 精品久久久久久久末码| 韩国av一区二区三区四区| 精品国产乱码久久久久久男人| 国产在线精品亚洲第一网站| 免费电影在线观看免费观看| 国产色视频综合| 婷婷亚洲欧美| 国产精品九九99| 99国产精品99久久久久| 欧美av亚洲av综合av国产av| e午夜精品久久久久久久| 一级黄色大片毛片| 精品久久久久久久末码| 亚洲午夜理论影院| 女生性感内裤真人,穿戴方法视频| 熟女少妇亚洲综合色aaa.| 午夜福利18| 欧美人与性动交α欧美精品济南到| 动漫黄色视频在线观看| 久久精品夜夜夜夜夜久久蜜豆 | 黄色丝袜av网址大全| 午夜激情av网站| 满18在线观看网站| 久久久国产成人精品二区| 好男人电影高清在线观看| 久久久久久久精品吃奶| 韩国av一区二区三区四区| 一进一出好大好爽视频| 欧洲精品卡2卡3卡4卡5卡区| 日本五十路高清| 很黄的视频免费| 亚洲人成网站在线播放欧美日韩| 美女高潮喷水抽搐中文字幕| 精品一区二区三区四区五区乱码| 久久精品国产综合久久久| 亚洲成av片中文字幕在线观看| 黑人欧美特级aaaaaa片| 日韩欧美国产一区二区入口| 国产精品99久久99久久久不卡| www.www免费av| 免费在线观看视频国产中文字幕亚洲| 亚洲九九香蕉| 欧美另类亚洲清纯唯美| 中文字幕人成人乱码亚洲影| 日本一区二区免费在线视频| 精品国产亚洲在线| 色播亚洲综合网| 婷婷亚洲欧美| 国产一区二区三区在线臀色熟女| 日日爽夜夜爽网站|