• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    悟道·文瀾:超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型帶來了什么?

    2022-05-20 09:10:56盧志武LUZhiwu金琴JINQin宋睿華SONGRuihua文繼榮WENJirong
    中興通訊技術(shù) 2022年2期
    關(guān)鍵詞:文瀾圖文語義

    盧志武/LU Zhiwu,金琴/JIN Qin,宋睿華/SONG Ruihua,文繼榮/WEN Jirong,

    (1.中國人民大學(xué)高瓴人工智能學(xué)院,中國北京100872;2.中國人民大學(xué)信息學(xué)院,中國北京100872)

    人腦是一個復(fù)雜的系統(tǒng),能夠處理多種感官模態(tài)例如視覺、聽覺、嗅覺等的信息。這使得人們能夠準(zhǔn)確、有效地完成感知、理解和決策任務(wù)。為了模仿人類的這些核心認知能力,人工智能模型利用大規(guī)模多模態(tài)數(shù)據(jù)來進行訓(xùn)練。如何利用從互聯(lián)網(wǎng)上爬取的大規(guī)模多模態(tài)數(shù)據(jù)進行模型訓(xùn)練,成為近期業(yè)界的研究熱點。如何能有效地利用這些爬取數(shù)據(jù)是一個巨大的挑戰(zhàn),因為我們無法對其進行詳細的人工標(biāo)注。另外,這些數(shù)據(jù)不可避免地存在一定量的數(shù)據(jù)噪聲。如圖1所示,學(xué)術(shù)界數(shù)據(jù)集多為由人工編寫的強相關(guān)文本,如“水果蛋糕上有一些蠟燭在燃燒”,規(guī)模多為幾萬到百萬圖文對。與此不同的是,從互聯(lián)網(wǎng)上搜集到的圖像的周邊文本通常與內(nèi)容弱相關(guān)。

    圖1 兩種不同的圖文數(shù)據(jù)

    多模態(tài)預(yù)訓(xùn)練的目標(biāo)是對齊不同模式的大規(guī)模數(shù)據(jù),從而可以將所學(xué)知識遷移到各種下游任務(wù)中,并最終接近通用人工智能。目前,多模態(tài)預(yù)訓(xùn)練模型已經(jīng)在廣泛的多模態(tài)任務(wù)中取得了巨大成功。然而,學(xué)術(shù)界往往只重視在有限規(guī)模的標(biāo)注數(shù)據(jù)集上取得更好的效果,因此多采用單塔模型,并在英文數(shù)據(jù)集上進行訓(xùn)練。這使得其應(yīng)用場景被規(guī)模、性能和語言所局限。在北京智源研究院悟道項目的支持下,文繼榮教授帶領(lǐng)中國人民大學(xué)盧志武教授、宋睿華長聘副教授、金琴教授等師生團隊搜集了6.5億對中文圖文數(shù)據(jù),率先提出圖文弱相關(guān)是更為現(xiàn)實的假設(shè),并利用跨模態(tài)對比學(xué)習(xí)來自監(jiān)督地訓(xùn)練超大規(guī)模圖像-文本多模態(tài)預(yù)訓(xùn)練模型文瀾B(tài)riVL。另外,我們認為:不同模態(tài)和不同語言都有可能表示相同的語義信息。如圖2所示,中文單詞“狗”、英文單詞“dog”或是一張狗的視覺圖像,都能表示狗這一動物。因此,我們研究了如何通過預(yù)訓(xùn)練來捕捉視覺與語言在語義上的共通點,提供更好的視覺和語言特征,以支持不同的多語言多模態(tài)下游任務(wù);同時提出文瀾多語言多模態(tài)預(yù)訓(xùn)練模型MLMM。實驗證明,兩個模型均能在多項下游任務(wù)中獲得國際最佳性能。

    圖2 不同語言和模態(tài)能夠表達相同的語義

    此外,我們還著重討論了超大規(guī)模多模態(tài)預(yù)訓(xùn)練帶來的影響,包括對文本編碼、圖像生成和圖文互檢的影響??傊?,多模態(tài)預(yù)訓(xùn)練帶來的改變才剛剛開始,它在人工智能方面有著巨大的潛力。

    1 文瀾B(tài)riVL超大規(guī)模圖文預(yù)訓(xùn)練模型

    1.1 相關(guān)工作

    自2018年以來,單模態(tài)預(yù)訓(xùn)練模型(如BERT、GPT、ViT等)的出現(xiàn),極大地促進了相關(guān)領(lǐng)域的發(fā)展。人們也在持續(xù)探索具有更強通用性的多模態(tài)預(yù)訓(xùn)練模型,具有代表性的工作有UNITER、OSCAR等。然而,由于視覺數(shù)據(jù)集的標(biāo)注需要的成本高昂,多模態(tài)數(shù)據(jù)集往往維持在百萬的數(shù)據(jù)量級,因此,難以在此基礎(chǔ)上訓(xùn)練出具備良好通用性與泛化性的多模態(tài)模型。多模態(tài)預(yù)訓(xùn)練模型根據(jù)其框架可分為兩類:單塔和雙塔。

    最近的UNITER、Oscar、M6、VisualBERT、Unicoder-VL、VL-BERT等模型都采用單塔網(wǎng)絡(luò),它們利用一個特征融合模塊(例如Transformer)來得到圖像-文本對的嵌入。其中,一些單塔模型還使用對象檢測器來檢測圖像區(qū)域,并將這些區(qū)域與相應(yīng)的單詞進行匹配。UNITER作為單塔模型的代表,對560萬圖文對進行遮擋語言建模(MLM)、遮擋區(qū)域建模(MRM)和圖像文本匹配(ITM)的聯(lián)合訓(xùn)練,從而學(xué)到通用的圖像文本表示。Oscar將語義相同的對象(名詞)作為圖像和文本對齊的基礎(chǔ),從而簡化圖像和文本語義對齊的學(xué)習(xí)任務(wù),即使用快速目標(biāo)檢測器(Fast R-CNN)就可以將檢測到的對象標(biāo)簽與文本中的單詞建立關(guān)聯(lián)?,F(xiàn)有單塔結(jié)構(gòu)通常依賴于強相關(guān)的圖文對數(shù)據(jù),而這一強相關(guān)假設(shè)對大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集來說通常是無效的。此外,單塔模型在推理階段需要較高的計算成本。例如,需要將查詢內(nèi)容(圖像或文本)輸入到單塔模型中,計算它和所有候選對象的匹配分數(shù)。

    相比之下,采用雙塔結(jié)構(gòu)的多模態(tài)預(yù)訓(xùn)練模型使用單獨的圖像和文本編碼器,分別對圖像和文本進行編碼,然后進行圖文對匹配來完成檢索任務(wù)。這種模式的檢索效率更高,但由于缺乏更深層次的圖像-文本交互(即圖像區(qū)域與單詞的交互),通常只能達到次優(yōu)性能。最近的雙塔工作,如LigntningDot,通過重新設(shè)計目標(biāo)檢測過程來應(yīng)對這一挑戰(zhàn);CLIP、ALIGN、WenLan 1.0和WenLan 2.0則放棄了昂貴的對象檢測器,利用跨模態(tài)對比學(xué)習(xí)任務(wù)來進行模型訓(xùn)練。

    1.2 模型介紹

    文瀾B(tài)riVL模型在預(yù)訓(xùn)練數(shù)據(jù)的選擇上,不再遵循強相關(guān)語義假設(shè),而是轉(zhuǎn)向弱相關(guān)假設(shè);在網(wǎng)絡(luò)架構(gòu)上,選擇雙塔結(jié)構(gòu)而不是單塔結(jié)構(gòu);使用了更加節(jié)約計算資源的跨模態(tài)對比學(xué)習(xí)算法來進行預(yù)訓(xùn)練。具體來說:(1)在弱相關(guān)語義假設(shè)下,圖文數(shù)據(jù)不再需要任何人工標(biāo)注,互聯(lián)網(wǎng)上的海量多模態(tài)數(shù)據(jù)成為文瀾B(tài)riVL模型的預(yù)訓(xùn)練數(shù)據(jù)來源。相比于人工標(biāo)注的幾百上千萬強語義相關(guān)圖文數(shù)據(jù),文瀾B(tài)riVL模型使用的預(yù)訓(xùn)練數(shù)據(jù)全部爬取自互聯(lián)網(wǎng),規(guī)模達到了6.5億對。更重要的是,弱語義相關(guān)數(shù)據(jù)包含了復(fù)雜、抽象的人類情感和想法,能夠幫助我們把文瀾B(tài)riVL模型訓(xùn)練成一個更具認知能力的模型。(2)文瀾B(tài)riVL模型不再需要耗時的目標(biāo)檢測器,使用的雙塔網(wǎng)絡(luò)架構(gòu)在應(yīng)用時也有明顯的效率優(yōu)勢。雙塔包含兩個獨立的編碼器:一個用于圖片,另一個用于文本。因此,在跨模態(tài)檢索時,候選的圖片或者文本可以提前計算出嵌入表示并做好索引,以滿足現(xiàn)實應(yīng)用的效率需求。(3)受到單模態(tài)對比學(xué)習(xí)算法MoCo的啟發(fā),文瀾B(tài)riVL模型在使用跨模態(tài)對比學(xué)習(xí)的同時也引入Momentum機制以及動態(tài)維護負樣本隊列(如圖3所示)。這樣就解構(gòu)了batch大小與負樣本數(shù)量,從而在相對較小的batch下(即較少的圖形處理器資源)就可以得到性能較好的預(yù)訓(xùn)練模型。

    圖3 文瀾B(tài)riVL的網(wǎng)絡(luò)架構(gòu)圖與圖像編碼器

    1.3 實驗分析

    我們在圖像零樣本分類、文本零樣本分類兩個下游任務(wù)上進行實驗,以驗證文瀾B(tài)riVL模型的遷移能力。

    (1)下游任務(wù)1:ImageNet的零樣本分類

    我們利用文瀾B(tài)riVL的圖文編碼器,可以直接在ImageNet數(shù)據(jù)集的200類圖像子集上進行零樣本分類。這需要提前將這200個類名翻譯成中文。ImageNet 200類挑選的原則為:英文類名在翻譯成中文時無明顯錯誤。OpenAI CLIP則直接在英文數(shù)據(jù)集上進行測試。從表1可以發(fā)現(xiàn),文瀾B(tài)riVL 2.0的零樣本圖片分類準(zhǔn)確率要高于CLIP。這說明我們的模型具有更好的泛化能力。

    表1 ImageNet 200類的零樣本分類結(jié)果

    (2)下游任務(wù)2:中文學(xué)科的零樣本分類

    我們利用文瀾B(tài)riVL1.0以及2.0的文本編碼器,在中文學(xué)科分類數(shù)據(jù)集(CSLDCP)上進行小樣本分類。我們采用被廣泛使用的prompt-tuning方法來為1-shot分類。針對文瀾B(tài)riVL模型,我們同時利用了視覺和文本兩個模態(tài)的信息來進行prompt-tuning。對比實驗考慮了單模態(tài)預(yù)訓(xùn)練的RoBERTa-base和RoBERTa-large。從表2可以發(fā)現(xiàn),相比于單模態(tài)預(yù)訓(xùn)練模型RoBERTa,文瀾B(tài)riVL模型具有更好的中文小樣本分類能力。這說明多模態(tài)預(yù)訓(xùn)練在純粹的NLP下游任務(wù)中也發(fā)揮了重要的作用。

    表2 中文學(xué)科的1-shot小樣本分類結(jié)果

    1.4 模型可視化

    文瀾B(tài)riVL模型的可視化流程為:

    (1)給定一個文本,輸入一張隨機噪聲圖像;

    (2)通過模型的文本編碼器得到文本的特征表示;

    (3)多模態(tài)神經(jīng)元可視化的目標(biāo)函數(shù)為:讓當(dāng)前輸入圖像的視覺特征表示逼近文本特征;

    (4)固定文瀾的所有參數(shù),通過反向傳播來更新輸入的噪聲圖像。

    總之,算法收斂后,得到的圖像是文瀾B(tài)riVL認為的對輸入文本最為接近的可視化處理結(jié)果。如圖4所示,大規(guī)模多模態(tài)預(yù)訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠理解古詩句的意境,展示了強大的中文理解能力。

    圖4 文瀾B(tài)riVL對詩句的神經(jīng)元可視化

    2 文瀾MLMM多語言多模態(tài)預(yù)訓(xùn)練模型

    2.1 相關(guān)工作

    目前,在多語言多模態(tài)的語義學(xué)習(xí)方面,已有一些工作陸續(xù)開展。M3P首次采用了預(yù)訓(xùn)練來學(xué)習(xí)多語言多模態(tài)知識,以多任務(wù)學(xué)習(xí)的方式輪流將英文的圖像描述數(shù)據(jù)和單模態(tài)的多語言語料輸入到模型中,以進行預(yù)訓(xùn)練;UC2使用機器翻譯對現(xiàn)有的圖像描述數(shù)據(jù)集進行多語言擴充,同時遮蔽兩種語言相同意義的詞來迫使模型根據(jù)圖像內(nèi)容進行還原。文獻[17]采用英文圖像描述數(shù)據(jù)和平行語料進行預(yù)訓(xùn)練,將Unicoder擴展到多語言多模態(tài)上。

    這些工作雖然取得了一定的成果,但其預(yù)訓(xùn)練規(guī)模仍局限于Conceptual Caption 3M數(shù)據(jù)集。較小規(guī)模的預(yù)訓(xùn)練使得模型的零樣本跨語言遷移能力較弱。因此,我們致力于利用更大規(guī)模、更加開放領(lǐng)域的數(shù)據(jù)進行預(yù)訓(xùn)練,以獲得更加通用、更加強大的多語言多模態(tài)預(yù)訓(xùn)練模型。

    2.2 模型介紹

    我們設(shè)計的MLMM模型的整體結(jié)構(gòu)如圖5所示。我們首先使用在Visual Genome數(shù)據(jù)集上預(yù)訓(xùn)練的Faster R-CNN目標(biāo)檢測器來提取圖像中的區(qū)域特征,并將這些特征與相應(yīng)的多語言文本Token一同輸入到Transformer Encoder中。

    圖5 MLMM模型結(jié)構(gòu)圖

    為了捕獲不同層次的視覺與語言特征,MLMM采用4個任務(wù)進行預(yù)訓(xùn)練:

    (1)ITM。為了建模圖像與多語言文本的全局語義信息,我們使用ITM任務(wù)對MLMM模型進行預(yù)訓(xùn)練。該任務(wù)的目標(biāo)是,判斷輸入的圖像和多語言文本是否是語義匹配的。在ITM任務(wù)中,模型需要理解輸入圖像和多語言文本的全局語義信息,進而做出判斷。

    (2)MLM。我們采用MLM任務(wù)來建模多語言文本的細粒度語義信息。MLM的目標(biāo)是根據(jù)圖像區(qū)域信息和文本上下文,讓模型來預(yù)測被遮蔽的多語言文本單詞。

    (3)圖像區(qū)域回歸(MRFR)。為了增強模型對圖像的細致建模能力,MRFR任務(wù)要求模型根據(jù)文本和其他圖像區(qū)域還原被遮蔽的圖像區(qū)域特征。

    (4)圖像區(qū)域分類(MRC)。為了讓模型能夠細粒度地識別圖像語義,我們實施了MRC任務(wù),因此讓模型來預(yù)測被遮蔽圖像區(qū)域所屬類別。雖然數(shù)據(jù)集中沒有區(qū)域語義的標(biāo)注信息,但是目標(biāo)檢測器檢測得到的類別可以作為該任務(wù)的偽標(biāo)注。目標(biāo)檢測器預(yù)測的類別并不是完美的,我們將目標(biāo)檢測器在目標(biāo)類別上的分布作為軟標(biāo)簽,通過計算MLMM預(yù)測分布與目標(biāo)檢測器軟標(biāo)簽的KL divergence,來優(yōu)化整個模型。

    我們使用的多語言多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集涵蓋漢語、英語、德語、法語、捷克語、日語、韓語7種語言和與語義相匹配的圖像,包含2.1億對多語言圖文數(shù)據(jù)。該數(shù)據(jù)集在以下兩個數(shù)據(jù)集的基礎(chǔ)上通過機器翻譯進行構(gòu)建:

    (1)英文圖文數(shù)據(jù)集Conceptual Caption 3M+12M。該數(shù)據(jù)集是目前圖文預(yù)訓(xùn)練的通用數(shù)據(jù)集,約有1 500萬圖文對。數(shù)據(jù)集中的文本具體描述了圖像中所包含的內(nèi)容。針對該數(shù)據(jù)集,我們采用4種預(yù)訓(xùn)練任務(wù)進行訓(xùn)練。

    (2)中文圖文數(shù)據(jù)集RUC-CAS-WenLan。該數(shù)據(jù)集是我們構(gòu)建的,涵蓋新聞、百科、微博、微信等領(lǐng)域,文本內(nèi)容與對應(yīng)的圖像呈弱相關(guān)關(guān)系。我們選取其中的1 500萬圖文對進行預(yù)訓(xùn)練。針對該數(shù)據(jù)集的特點,我們僅訓(xùn)練ITM任務(wù)。

    2.3 實驗分析

    我們在多語言圖文檢索、多語言視覺問答兩個下游任務(wù)中進行了實驗,以驗證MLMM的多語言多模態(tài)能力。

    (1)下游任務(wù)1:多語言圖文檢索

    多語言圖文檢索任務(wù)為:給定一段多語言文本,模型可以從數(shù)據(jù)庫中找到與之語義最相關(guān)的一張圖像,或通過一張圖片找到與之最相關(guān)的多語言文本。對于多語言圖文檢索,我們在兩個常用的多語言圖文數(shù)據(jù)集Multi30K和MSCOCO上進行評測。Multi30K是英文圖文數(shù)據(jù)集Flickr30K的擴展,支持英語、德語、法語和捷克語4種語言;文獻[19-20]分別將最初的英文MSCOCO數(shù)據(jù)集擴展到中文和日文。通常,多語言圖文檢索評測包含以下幾個設(shè)定:

    ?Finetune on en。只使用英文下游數(shù)據(jù)對模型進行微調(diào),然后測試模型在其他語言上的表現(xiàn),以衡量模型在多語言上的擴展性。

    ?Finetune on each。使用多種語言的下游數(shù)據(jù),分別對預(yù)訓(xùn)練模型進行微調(diào),以衡量模型的單語言能力

    ?Finetune on all。同時使用多種語言的下游數(shù)據(jù)對一個預(yù)訓(xùn)練模型進行微調(diào),以衡量模型的多語言容量。

    與M3P和UC2相同,我們采用平均召回率,即圖像檢索文本、文本檢索圖像兩個檢索方向上的Recall@1、5、10的平均值,來衡量模型的檢索效果。3種微調(diào)設(shè)定下的實驗結(jié)果如表3所示。

    從表3中可以看出,在3種設(shè)定上,MLMM都超過了現(xiàn)有最好的多語言預(yù)訓(xùn)練模型M3P和UC2,達到當(dāng)前最佳性能。尤其在英文上進行微調(diào)時,英文與其他語言之間的性能差距明顯小于現(xiàn)有的工作中兩者間的性能差距。這說明得益于更大規(guī)模的預(yù)訓(xùn)練,MLMM能夠表現(xiàn)出很強的跨語言遷移能力。

    表3 多語言圖文檢索平均召回率

    (2)下游任務(wù)2:多語言視覺問答

    給定一張圖像和一個與圖像內(nèi)容相關(guān)的特定語言上的提問,多語言視覺問答任務(wù)要求模型能夠給出正確的答案。我們采用VQA 2.0和VQA VG Japanese兩個數(shù)據(jù)集進行多語言視覺問答的實驗。其中,VQA 2.0是英文視覺問答數(shù)據(jù)集,而VQA VG JA則是日文視覺問答數(shù)據(jù)集。與UC2相同,MLMM將視覺問答任務(wù)視為多標(biāo)簽分類任務(wù),即模型從一個固定的候選池中選擇問題的答案。對于VQA 2.0數(shù)據(jù)集,我們選擇最常見的3 129個回答作為答案候選池;對于VQA VG Japanese,我們選擇最常見的3 000個回答作為答案候選池。表4展示了MLMM在多語言視覺回答上的實驗結(jié)果。

    從表4中可以看出,MLMM在多語言圖文檢索上超越了目前的預(yù)訓(xùn)練模型,在兩個多語言視覺問答數(shù)據(jù)集上同樣表現(xiàn)出色。這驗證了通過大規(guī)模的預(yù)訓(xùn)練,MLMM能夠輕松適配各種多語言多模態(tài)的下游任務(wù)。

    表4 多語言視覺問答準(zhǔn)確率

    2.4 可視化分析

    我們對MLMM學(xué)習(xí)到的跨語言跨模態(tài)的通用知識進行了可視化。我們將語義相匹配的多語言文本和圖像輸入到MLMM中,將最后一層Transformer Encoder的文本對圖像區(qū)域的注意力權(quán)重進行可視化,如圖6所示。對于中文和英文相同語義的單詞,其注意力權(quán)重在圖像區(qū)域上的分布基本一致。這說明通過大規(guī)模的預(yù)訓(xùn)練,MLMM學(xué)習(xí)到了多語言單詞之間以及和圖像區(qū)域之間的語義對應(yīng)關(guān)系。

    圖6 MLMM模型在多語言圖文檢索中的注意力權(quán)重可視化

    3 超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型帶來的影響

    3.1 多模態(tài)信息對文本編碼的影響

    公平起見,哈爾濱工業(yè)大學(xué)的車萬翔老師團隊使用文瀾的圖文訓(xùn)練集中的所有文字,對RoBERTa進行了微調(diào)。在17萬的詞表上進行統(tǒng)計的結(jié)果如圖7所示。和微調(diào)后的RoBERTa相比,RoBERTa看上去是一個相似度均值在0.4附近的正態(tài)分布;但和微調(diào)后的RoBERTa相比,WenLan的相似度明顯變低,大部分樣本集中在0.1以下。這說明圖像對文本詞向量有著顯著的影響。

    圖7 同樣的詞在兩個空間中的詞向量相似性分布

    我們在查看了相似度較低的詞語后發(fā)現(xiàn)了一些共同點:

    (1)如圖8所示,在單模態(tài)語言模型中,由于上下文類似,反義詞的詞嵌入向量經(jīng)常會非常相似。例如,在圖8的左部分中,當(dāng)RoBERTa微調(diào)后,離“成功”不遠的地方有一組與“失敗”相關(guān)的詞語;經(jīng)過文瀾多模態(tài)預(yù)訓(xùn)練,“成功”周圍則以“成功”為主了(如圖8右部分所示)。這可能是因為與“成功”和“失敗”相關(guān)聯(lián)的圖像在色調(diào)和內(nèi)容上相差較大。

    圖8 “成功”在單模態(tài)RoBERTa微調(diào)模型與多模態(tài)文瀾模型中所對應(yīng)的空間上的鄰近詞語

    (2)視覺上相似的詞語會被拉近距離。以圖9為例,RoBERTa微調(diào)模型會把“王子”與“王公”“獅子王”“貴公子”等語義上比較相近的詞語拉近。多模態(tài)預(yù)訓(xùn)練模型會將“王子”和“美男子”“帥哥”“英俊小生”等詞語拉近。這些概念在人們的印象中確實有很強的視覺語義相關(guān)性。

    圖9 “王子”在單模態(tài)RoBERTa微調(diào)模型與多模態(tài)文瀾模型中所對應(yīng)的空間上的鄰近詞語

    (3)同一情境的詞語被拉近。如圖10所示,RoBERTa微調(diào)模型通常會找到和“教育”同層次的近義詞語,如“保育”“國民教育”“教育界”等;文瀾模型則會找到一些“課業(yè)”“課堂”等詞語,這些詞語可能出現(xiàn)在類似的圖片周圍,并通過跨模態(tài)之間的對比學(xué)習(xí)拉近距離。

    圖10 “教育”在單模態(tài)RoBERTa微調(diào)模型與多模態(tài)文瀾模型中所對應(yīng)空間上的鄰近詞語

    3.2 多模態(tài)預(yù)訓(xùn)練對圖像生成的影響

    基于單模態(tài)預(yù)訓(xùn)練生成模型的主要問題是,輸入句子嵌入是由在單一模態(tài)中預(yù)先訓(xùn)練的文本編碼器提取的,這在語義上與圖像模態(tài)不一致。因此,單模態(tài)預(yù)訓(xùn)練生成模型需要學(xué)習(xí)、處理視覺和自然語言的不同統(tǒng)計特性,以便生成與給定文本對齊的真實圖像。為此,現(xiàn)有方法采用了對比學(xué)習(xí),并仔細設(shè)計了基于注意的單詞和區(qū)域自我調(diào)節(jié),以便更好地進行訓(xùn)練,這種方式是相當(dāng)耗時的。在跨模態(tài)生成中(如文本生成圖像),高效地彌補這兩種模態(tài)之間的差距非常具有挑戰(zhàn)性。

    與以往方法不同,我們可以利用多模態(tài)預(yù)訓(xùn)練模型對圖像和文本進行編碼。例如,借助VQGAN inversion,可以實現(xiàn)基于文瀾B(tài)riVL的文生成圖。具體地,給定一個文本,輸入一張隨機噪聲圖像,通過文瀾B(tài)riVL的文本編碼器就可以得到文本的特征表示。VQGAN inversion的目標(biāo)函數(shù)為:當(dāng)前輸入圖像經(jīng)過VQGAN后輸出的圖像,其視覺特征(通過文瀾圖像編碼器得到)必須逼近輸入文本的特征。固定VQGAN和文瀾模型的所有參數(shù),通過反向傳播可以更新輸入的噪聲圖像。算法收斂后,最終得到的圖像即可看作關(guān)于給定文本的文生成圖結(jié)果。如圖11所示,借助VQGAN,文瀾B(tài)riVL模型能夠生成更貼近自然的圖像。

    圖11 借助VQGAN inversion得到的文瀾文生成圖結(jié)果

    這里的關(guān)鍵之處在于,由多模態(tài)預(yù)訓(xùn)練模型提取的文本嵌入可以自然地與圖像模態(tài)對齊,這避免了之前方法中的額外復(fù)雜架構(gòu)??傊嗄B(tài)預(yù)訓(xùn)練模型給文生成圖任務(wù)帶來了新的研究思路。

    3.3 多模態(tài)預(yù)訓(xùn)練對文本-圖像檢索的影響

    當(dāng)文瀾模型將圖像和文本映射到同一空間時,文本與圖像的互檢就變得非常容易。當(dāng)文本檢索圖像時,不再需要圖像周圍的文字作為橋梁,因此文瀾模型可以匹配圖像周圍文字并沒有描述的意境。圖像檢索文本也成為可能,不僅能識別出物體、場景或情感等類別標(biāo)簽,還可以和任意的句子、段落進行多模態(tài)共享語義空間上的匹配。這首次跨越了圖文的語義鴻溝,實現(xiàn)了真正的跨模態(tài)檢索。

    基于文瀾B(tài)riVL模型,文瀾團隊實現(xiàn)了多個在線演示系統(tǒng),具體見圖12。

    圖12 基于文瀾模型開發(fā)的3款跨模態(tài)檢索小應(yīng)用

    4 結(jié)束語

    我們嘗試了利用億級的、來自互聯(lián)網(wǎng)的圖文對數(shù)據(jù)來訓(xùn)練多模態(tài)雙塔模型BriVL和多語言多模態(tài)單塔模型MLMM。這兩個預(yù)訓(xùn)練模型均在多個下游任務(wù)中獲得了國際最佳性能。通過實驗,我們發(fā)現(xiàn)多模態(tài)預(yù)訓(xùn)練模型將更多視覺相似或在同一場景中的詞語拉近;能為文生成圖提供統(tǒng)一的語義基礎(chǔ),提升圖像生成的泛化能力和效果;能讓文字和圖像可以在映射到同一空間后實現(xiàn)真正的跨模態(tài)檢索。目前,文瀾B(tài)riVL 1.0已開源,可以通過以下網(wǎng)址訪問或者申請下載:

    ?文瀾B(tài)riVL 1.0源碼下載:https://github.com/BAAIWuDao/BriVL

    ?文瀾B(tài)riVL 1.0模型申請:https://wudaoai.cn/model/detail/BriVL

    ?文瀾B(tài)riVL 1.0在線API:https://github.com/chuhaojin/WenLan-api-document

    自2021年3月發(fā)布以來,文瀾受到了騰訊、酷我音樂、愛奇藝、網(wǎng)易等多家企業(yè)的關(guān)注。與長城汽車合作,文瀾完成了由圖像檢索金句的“歐拉喵語”小應(yīng)用,并在上海和成都車展以及ChinaJoy上與參觀者進行現(xiàn)場的品牌互動;與OPPO合作,文瀾模型實現(xiàn)了為視障人士讀取收集圖片的功能,踐行科技向善的理念。

    文瀾模型的強大能力也產(chǎn)生了一些跨學(xué)科研究成果。由中國人民大學(xué)新聞學(xué)院和高瓴人工智能學(xué)院合作的《空間漫游與想象生產(chǎn)——線上影像策展中的網(wǎng)紅城市建構(gòu):基于視覺·語言多模態(tài)預(yù)訓(xùn)練模型的計算傳播研究》,獲得了2021年計算傳播學(xué)年會學(xué)生論文三等獎。中國人民大學(xué)藝術(shù)學(xué)院師生與上海大學(xué)教師組成的“云端藝術(shù)”團隊,將文瀾融合到他們的微信程序“紅色夏天智能航宇”作品中,獲得2021年上海圖書館開放數(shù)據(jù)競賽優(yōu)秀設(shè)計獎。

    最后,如何平衡單雙塔的有效性和效率是未來的重要問題,目前主要方法有兩種:(1)對于單塔模型,可以在跨模式融合模塊之前放置雙塔體系結(jié)構(gòu),以減少巨大的檢索延遲,同時盡可能保持高性能優(yōu)勢;(2)對于雙塔模式,可以考慮建立更精細/更緊密的模式相關(guān)性的學(xué)習(xí)目標(biāo),以提高其性能,同時保持高效率的優(yōu)勢。

    猜你喜歡
    文瀾圖文語義
    畫與理
    語言與語義
    Reflections on American Society
    “文瀾杯”全國詩詞大獎賽獲獎作品
    中華詩詞(2018年3期)2018-08-01 06:40:42
    文瀾情
    “上”與“下”語義的不對稱性及其認知闡釋
    認知范疇模糊與語義模糊
    李文瀾
    圖文配
    海外英語(2013年9期)2013-12-11 09:03:36
    圖文配
    海外英語(2013年10期)2013-12-10 03:46:22
    原平市| 汝州市| 文化| 合川市| 鄱阳县| 邳州市| 珲春市| 南雄市| 九寨沟县| 鹰潭市| 石家庄市| 同心县| 闸北区| 红安县| 濉溪县| 邮箱| 莱州市| 碌曲县| 梁山县| 高邑县| 山阴县| 始兴县| 苏尼特右旗| 达孜县| 伽师县| 东乡县| 莫力| 丰都县| 扎赉特旗| 谢通门县| 肃南| 徐汇区| 拉萨市| 习水县| 左云县| 腾冲县| 武川县| 淳安县| 班戈县| 凯里市| 怀仁县|