• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多模態(tài)與文本預訓練模型的文本嵌入差異研究

      2023-02-10 06:31:40孫宇沖程曦葦宋睿華車萬翔盧志武3文繼榮
      北京大學學報(自然科學版) 2023年1期
      關鍵詞:語義模態(tài)文本

      孫宇沖 程曦葦 宋睿華,3,? 車萬翔 盧志武,3文繼榮,3

      北京大學學報(自然科學版) 第59卷 第1期 2023年1月

      Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)

      10.13209/j.0479-8023.2022.074

      北京高校卓越青年科學家計劃(BJJWZYJH012019100020098)資助

      2022-05-13;

      2022-08-18

      多模態(tài)與文本預訓練模型的文本嵌入差異研究

      孫宇沖1程曦葦2宋睿華1,3,?車萬翔4盧志武1,3文繼榮1,3

      1.中國人民大學高瓴人工智能學院, 北京 100872; 2.中國人民大學統(tǒng)計學院, 北京 100872; 3.北京智源人工智能研究院, 北京 100084; 4.哈爾濱工業(yè)大學計算學部, 哈爾濱 150001; ?通信作者, E-mail: rsong@ruc.edu.cn

      為了詳細地分析文本單模態(tài)預訓練模型 RoBERTa 和圖文多模態(tài)預訓練模型 WenLan 文本嵌入的差異, 提出兩種定量比較方法, 即在任一空間中, 使用距離一個詞最近的近鄰詞集合表示其語義, 進而通過集合間的 Jaccard 相似度來分析兩個空間中詞的語義變化; 將每個詞與其近鄰詞組成詞對, 分析詞對之間的關系。實驗結果表明, 圖文多模態(tài)預訓練為更抽象的詞(如成功和愛情等)帶來更多的語義變化, 可以更好地區(qū)分反義詞, 發(fā)現(xiàn)更多的上下義詞, 而文本單模態(tài)預訓練模型更擅長發(fā)現(xiàn)同義詞。另外, 圖文多模態(tài)預訓練模型能夠建立更廣泛的詞之間的相關關系。

      多模態(tài)預訓練; 文本表示; 文本嵌入分析

      隨著預訓練模型(如 BERT[1], GPT[2–3]和 RoBE-RTa[4]等)在諸多自然語言處理(NLP)任務中取得巨大成功, 研究人員將預訓練的技術拓展到多模態(tài)領域, 并在圖文檢索、圖像描述和文本到圖像生成等多項跨模態(tài)任務中取得領先的效果[5–8]。CLIP[6]和WenLan[8]這兩種使用對比學習方法, 在大規(guī)模的圖像–文本數(shù)據(jù)對上進行訓練, 將文本和圖像分別編碼, 并在同一語義空間將其對齊。以往的研究主要關注提升多模態(tài)預訓練模型在下游任務中的表現(xiàn), 很少分析多模態(tài)數(shù)據(jù)給文本嵌入帶來的變化。如果把單模態(tài)文本預訓練視為通過“讀書”來達到對文字的理解, 那么多模態(tài)預訓練則更像人類通過看和聽或?qū)憗磉_到對文字的認識。研究這兩種預訓練方式對文本嵌入的影響, 對探索人類大腦的編碼方式具有啟發(fā)意義, 也會為更好地利用多模態(tài)信息提供有價值的依據(jù)。

      1 相關工作

      1.1 單模態(tài)文本嵌入

      分布式假說認為, 出現(xiàn)在相似上下文中的詞具有相似的語義[9–10]?;谶@一假說, 早期的詞表示模型通過降維算法, 將詞共現(xiàn)矩陣變換為語義向 量[11], 使詞的語義關系可以通過其在語義空間中用向量表示的距離來體現(xiàn)。Word2Vec 通過基于上下文窗口的詞預測任務來學習詞的密集向量表示[12]。GloVe 詞向量通過語料中詞共現(xiàn)的全局統(tǒng)計信息來學習詞表示[13]。上述方法將一個詞表示為固定的向量, 無法解決一詞多義問題?;谏舷挛牡恼Z言模型使用上下文信息動態(tài)地表示詞。例如, ELMO使用在大量語料上訓練得到的基于雙向 LSTM (長短期記憶遞歸神經(jīng)網(wǎng)絡)的語言模型來提取基于上下文的詞表示[14]?;?Transformer[15]的大規(guī)模預訓練語言模型, 能夠?qū)W到更豐富的語義信息, 在多項NLP任務中取得最佳效果[1–3]。

      盡管單模態(tài)的詞表示獲得很大的成功, 但該方法僅通過詞在語料中的共現(xiàn)關系來學習語義。這與人類學習語言的方式有很大的不同, 人在學習語言的過程中往往融入多模態(tài)的感知信息。

      1.2 多模態(tài)文本嵌入

      有研究嘗試將感知信息融入詞表示中。一種方式是使用人工構建的詞屬性數(shù)據(jù)(例如蘋果–可食用, 輪胎–圓形的)來修正詞表示[16–17]。這些數(shù)據(jù)集規(guī)模有限, 只包含顯著的屬性。另一種方式是直接用多模態(tài)數(shù)據(jù)學習詞表示。這類研究大部分聚焦于視覺模態(tài), 因為視覺模態(tài)是人類學習語言時最主要的感知信息來源[18]。Bruni 等[19]將圖像中的“視覺單詞”[20]與文本中的詞相聯(lián)系, 證明在詞關聯(lián)性和詞聚類任務中, 多模態(tài)語義表示具有更好的效果。Kottur 等[21]將“詞袋模型”擴展到預測視覺特征任務中。Xu 等[22]通過最大化圖像特征和對應詞向量的相似度來學習多模態(tài)詞表示。Gupta 等[23]使用圖像數(shù)據(jù)集標注的視覺共現(xiàn)關系來提升 GloVe 詞向量。

      近期, 預訓練也被用于視覺和語言的聯(lián)合學習[5–8,24–25]。早期的研究使用跨模態(tài)的 Transformer編碼器來表示圖像和文本[5,24], 這類模型(又稱為單塔模型或單流模型)為需要強模態(tài)交互的下游任務設計。一些研究使用對比學習, 在一個多模態(tài)空間中將文本特征和圖像特征對齊[6,8,25], 這些模型(又稱雙塔模型或雙流模型)一般具有獨立的圖像編碼器和文本編碼器, 其中的文本編碼器可用于提取文本表示。

      預訓練的視覺+語言模型在很多跨模態(tài)的下游任務(如圖文檢索、圖像描述和文本生成圖像等)中取得很好的效果[4–8]。

      1.3 詞表示評價

      評價詞表示質(zhì)量的方法有兩種: 內(nèi)部評價法和外部評價法[26–27]。內(nèi)部評價法關注詞表示的語義關系, 外部評價法關注將詞表示應用于下游任務的效果。

      內(nèi)部評價法一種內(nèi)部評價方法是通過計算模型預測的詞對相似度與人工標注的詞對相似度之間的 Spearman 相關系數(shù)來評價[28], 常用的評測數(shù)據(jù)包括 MEN[19], SIMLEX-999[29]和 SimVerb-3500[26]。但是, 由于人工評測的主觀性以及相關程度定義不清晰, 這種方法受到質(zhì)疑[30]。另一種方法是使用詞聚類, 將詞分成幾個集合[28], BM[31]和 AP[32]是常用的用于聚類評價的數(shù)據(jù)集。除使用人工標注的數(shù)據(jù)外, 還有一些方法使用神經(jīng)激活模式來評價詞表示, 但這些激活模式并不總與詞義相關[33]。

      外部評價法一些 NLP 任務可以用來評價詞表示的能力, 在下游任務中表現(xiàn)好的詞表示被認為有更好的質(zhì)量[27]。常用來評價詞表示的 NLP 任務有詞性標注、命名實體識別、情感分析和文本分類 等[34]。在不同的下游任務中, 詞表示的表現(xiàn)并不總是正相關, 因此外部評測法并不適合作為一種通用的詞表示質(zhì)量度量[35]。

      2 研究方法

      2.1 訓練模型選取

      預訓練模型 BERT 使用堆疊的 Transformer 編碼器結構, 模型輸入是兩句拼在一起的文本, 它使用兩個預訓練任務: 1)掩碼語言模型, 基于上下文預測被遮蔽掉的單詞; 2)句子關系預測, 預測兩個句子是否相連。RoBERTa 是 BERT 模型的改進版本, 使用更多的訓練語料, 并訓練了更長的時間。本文使用中文版 RoBERTa[36], 它使用 RoBERTa 的訓練策略, 并結合全詞遮蔽策略的優(yōu)點。全詞遮蔽指屬于同一個漢語詞中的漢字都會被遮蔽掉。因為 RoBERTa-base 被用作 WenLan 的文本骨干網(wǎng)絡, 因此本文使用中文版 RoBERTa-base。為了減少因訓練數(shù)據(jù)不同造成的差異, 我們使用 WenLan 訓練數(shù)據(jù)的文本部分(約 2200 萬條數(shù)據(jù)), 以 1×10–5的學習率, 使用掩碼語言模型對它進行一輪微調(diào), 得到的模型記為 RoBERTa-ft。

      我們選取 WenLan 作為圖文預訓練的模型進行分析, 圖 1 展示 WenLan 的基本結構。

      其中,T為存儲在T中的負樣本,為溫度系數(shù)。

      類似地, 文到圖的對比學習損失為

      其中,I為存儲在I中的負樣本??偟膿p失為=T2I+I2T。

      本文使用 WenLan 的文本編碼器提取多模態(tài)的詞表示, 使用 RoBERTa-ft 提取單模態(tài)的詞表示, 將詞表示為兩組高維向量, 構成兩個文本嵌入空間, 然后在每個空間中分別計算所有詞對的余弦相似度。圖 2 展示兩個空間中詞對相似度的分布??梢钥吹? RoBERTa-ft 和 WenLan 對應的文本嵌入空間中, 詞對的平均相似度分別為 0.87 和 0.66, 不能直接比較相似度的數(shù)值; 兩個空間中詞對的相似度分布也明顯不同, WenLan 對應的相似度分布近似正態(tài)分布, 而 RoBERTa-ft 對應的相似度分布略左偏, 因此, 即使將相似度都標準化, 也不能相互比較。

      圖1 WenLan模型結構[8]

      圖2 兩個空間中詞對相似性分布

      2.2 基于k-近鄰的模型比較方法

      預訓練的目的是使模型學到的特征在高維空間有更好的分布, 使空間中一些詞的距離更近, 另外一些詞的距離更遠。從語義的角度來看, 高維空間中與某一詞鄰近的詞應當具有揭示該詞含義的能力。據(jù)此, 本文提出一種基于-近鄰的方法來比較兩個模型的文本嵌入, 包含如下兩個步驟。

      杰卡德相似度的取值范圍為[0, 1], 在兩個文本嵌入空間中, 詞 w 的語義變化越小, 杰卡德相似度越趨近1。

      2)為了衡量詞對間關系的變化, 需要從文本嵌入空間提取詞對。在文本嵌入空間中, 距離詞w最近其個詞{1,2, …,v}構成詞對。例如, “體育–贏球”、“體育–籃球運動”和“體育–國際裁判”等是WenLan文本嵌入空間里構成的詞對。

      3 實驗設計與結果分析

      3.1 單個詞表示變化規(guī)律實驗

      我們使用Jieba分詞工具包①https://github.com/fxsjy/jieba對WenLan的文本訓練數(shù)據(jù)進行分詞, 最終保留在全部數(shù)據(jù)中出現(xiàn)次數(shù)超過50次的詞, 形成長度為288000的詞表。使用預訓練的模型抽取詞表示, 構成文本嵌入空間。

      3.1.1 單個詞表示變化實驗設計與結果

      從圖3可以看出, 對于分析組, 即WenLan v.s. RoBERTa-ft, 直方圖中頻數(shù)峰值位于(0.05, 0.07), 呈右偏分布, 大部分詞對應的杰卡德相似度低于0.2。對于對照組, 即RoBERTa-ft v.s. RoBERTa, 相似度分布近似一個峰值為0.4的鐘形。需要注意的是, 我們僅使用WenLan圖文數(shù)據(jù)集中文字部分對RoBERTa微調(diào), RoBERTa與RoBERTa-ft 結果的不同主要來自新增數(shù)據(jù)。WenLan與RoBERTa-ft使用相同的文本數(shù)據(jù), 此外還使用相應的圖像數(shù)據(jù)做預訓練。最終分布呈現(xiàn)出較大差異, 說明圖像信息在表示學習的過程中發(fā)揮出顯著的作用。

      3.1.2 變化規(guī)律實驗與結果

      本文基于詞性(part of speech, POS), 分類統(tǒng)計兩個空間中詞表示的變化。對于普通名詞、動詞、人名、地名、數(shù)詞、形容詞、組織名稱、時間詞、代詞、方位詞和數(shù)量詞這11類詞性類別, 分別計算各類詞的平均杰卡德相似度, 在分析組和對照組之間沒有觀察到明顯的區(qū)別。通過觀察詞表示在兩個空間發(fā)生較大變化的多個實例, 發(fā)現(xiàn)其中大部分是語義抽象的詞; 相反, 很多語義具象的詞則在兩個空間中變化較小。因此, 我們猜想多模態(tài)預訓練對于詞語語義的影響與詞語的具象/抽象程度相關。

      圖3 詞語義變化圖

      Brysbaert等[39]對單詞的具象度進行細致的定義, 并使用人工標注的方法, 完成一個高質(zhì)量的數(shù)據(jù)集。該數(shù)據(jù)集主要包含英文名詞、動詞和形容詞, 每個單詞由多名標注者根據(jù)具象程度打分(1~ 5), 1分表示最為抽象, 5分則表示最為具象。通過 對多個標注得分取平均, 得到最終具象度(Concre-teness), 它是一個[1, 5]區(qū)間的實數(shù)。由于本文比較的模型均采用中文訓練, 因此將該標注數(shù)據(jù)集中的英文詞翻譯為中文詞, 取最常用詞義, 與中文詞表相交, 最終獲得26000個詞。

      表1列舉一些在WenLan和RoBERTa-ft文本嵌入空間中距離最近的詞??梢钥闯? 更具象的詞在兩個模型得到的重合詞更多, 而抽象詞所得的重合詞更少。我們將具體度得分以0.5分的間隔劃分區(qū)間, 對得分區(qū)間內(nèi)的所有詞對應杰卡德相似度求平均, 統(tǒng)計結果如圖4所示。橫軸表示詞的具體度, 縱軸表示相對杰卡德相似度(以1.0~1.5區(qū)間的相似度為基準)??梢钥闯? 對于分析組, 隨著詞具體度得分上升, 相似度也明顯上升。對于對照組, 相似度則未發(fā)現(xiàn)明顯上升趨勢。相關性檢驗結果表明, 分析組的相關系數(shù)約為0.32, 而對照組的相關系數(shù)為0.07。因此, 多模態(tài)預訓練為抽象詞帶來更多的語義變化, 越抽象的詞, 語義變化越大。

      圖4 詞語義變化與詞具體度的關系

      3.2 詞與詞之間關系變化規(guī)律實驗

      3.2.1 利用已有標注研究詞與詞之間的關系

      我們選擇廣泛應用的蘊含豐富的關系種類的大規(guī)模知識圖譜ConceptNet[40]。為了確認WenLan能否發(fā)現(xiàn)更多視覺相關詞對, 我們還選擇擁有豐富物體及屬性標簽的 Visual Genome數(shù)據(jù)集[41]和擁有圖片級標簽的 ImageNet 數(shù)據(jù)集[42]作為有標注數(shù)據(jù)集, 用來匹配詞對之間的視覺關系。

      ConceptNet 中含 386000 種中文概念關系。剔除不被詞表包含、擁有數(shù)據(jù)記錄過少及記錄涵蓋過多噪聲的概念關系后, 共有 10 種概念關系被保留, 如表 2 所示。這 10 種關系中包含如同義詞、反義詞和“是”(上位詞)這些基本類型的關系, 以及如“被用于”、“導致某種結果”和混合多種類型的“其他相關”(除上述類型外的相關)這些高級類型的關系。對于 Visual Genome 和 ImageNet, 受 Vaswani 等[15]的啟發(fā), 我們主要考慮兩種視覺關系。1)視覺語境(或視覺共現(xiàn))關系: 與文本中的語境類似, 我們將出現(xiàn)于同一圖像中的物體定義為該圖的語境, 曾多次共同出現(xiàn)在同一語境的物體對被認為有視覺語境關系, 比如, 耳朵和頭飾。2)物體–上位詞關系: 對圖像中物體, 取 WordNet[43]中該物體的上位詞, 形成物體–上位詞關系的標注數(shù)據(jù)。與 ConceptNet 的處理方法一致, 我們剔除詞表中不包含的詞所涉及的詞對。

      表1 單個詞在兩個文本嵌入空間的語義變化舉例

      說明: 粗體字為重合詞。

      表2 兩個空間挖掘出的詞對與現(xiàn)有數(shù)據(jù)集中關系類型匹配的統(tǒng)計結果

      說明: 總數(shù)是兩種空間挖掘到的具有該種關系類型的詞對并集大小; 表2數(shù)據(jù)以占比降序排列; 粗體字表示來自視覺數(shù)據(jù)集, 其余來自ConceptNet數(shù)據(jù)集。

      對每一個詞, 分別通過 WenLan 和 RoBERTa-ft獲得鄰近詞對集(=50), 對出現(xiàn)在標注數(shù)據(jù)集中的詞對, 記錄其關系類型, 統(tǒng)計結果見表2。我們用與的比值來表示哪種模型在挖掘一種關系類型時更具優(yōu)勢。

      根據(jù)表2, 與單模態(tài)RoBERTa-ft模型相比, 多模態(tài)WenLan模型更擅長發(fā)現(xiàn)上下位詞關系(不論是來自視覺數(shù)據(jù)集的“物體–上位詞”關系, 還是來自ConceptNet 的“是”關系)。除少量知識介紹類文本外, 人們在文字中提到一個名詞時, 通常不會贅述它們屬于哪個上位類別或包括哪些下位詞。例如, 在講武松打虎的故事時, 通常不會插入“老虎是一種哺乳動物”這樣的常識性文字。但是散落在互聯(lián)網(wǎng)的圖像–文本數(shù)據(jù)對中, 一張老虎的圖片可能常被用作展示老虎相關的文字內(nèi)容, 也可能在描述抽象的哺乳動物時作為一個實例出現(xiàn)?!袄匣ⅰ焙汀安溉閯游铩辈槐赝瑫r出現(xiàn)在一段文字里, 而通過老虎圖像和對比學習的優(yōu)化目標, 這兩個詞表示逐漸與老虎的視覺表示靠近, 因此它們因在WenLen空間中的距離相近而被挖掘出。

      表2最后一行表明, 僅RoBERTa-ft發(fā)現(xiàn)的反義詞對數(shù)量是僅WenLan發(fā)現(xiàn)的7倍。但是, 由于文本上下文相似, 從Word2Vec到BERT(包括RoBE-RTa-ft在內(nèi)), 這些單模態(tài)模型普遍會使“成功–失敗”這類反義詞具有距離相近的表示向量。令人驚訝的是, 在融合視覺信息后, 這種情況獲得明顯的改善。

      如圖5所示, 以反義詞“成功–失敗”為例, 在RoBERTa-ft對應的單模態(tài)文本嵌入空間中有一簇與“失敗”相近的詞(如“挫敗”、“頹敗”和“潰敗”), 距離“成功”不遠。在WenLan對應的多模態(tài)文本嵌入空間中, 其距離被大大拉遠, 未進入前50的近鄰。研究訓練數(shù)據(jù)集發(fā)現(xiàn), “成功”和“失敗”在文本中出現(xiàn)時, 上下文是相似的。與文本不同, 周圍文字帶有“成功”的圖像中, 大多色彩明亮, 并且具有積極的情感表達(如微笑); 周圍文字中帶有“失敗”的圖像中, 大多色調(diào)陰暗, 且具有消極的情感表達。視覺信息上的差異使WenLan通過對比學習, 增大了“成功–失敗”這對詞在多模態(tài)特征空間中的距離。這表明, 多模態(tài)WenLan模型具有能夠拉遠反義詞之間距離的優(yōu)勢。

      圖5 “成功”在兩個空間中周圍的詞

      綜上所述, 可以得出以下結論。

      1)文本單模態(tài)模型RoBERTa-ft更擅長發(fā)現(xiàn)同義詞對。“出現(xiàn)在相似上下文中的詞具有相似的語義”這一假設對同義詞非常有效, 與僅WenLan發(fā)現(xiàn)相比, 僅RoBERTa-ft發(fā)現(xiàn)能貢獻兩倍多的同義詞。

      2)RoBERTa-ft更擅長發(fā)現(xiàn)有邏輯關聯(lián)的詞對, 包括“導致某種結果”、“為第一子事件”、“具有某種能力”、“被用于”、“以某種目標為動力”和“其他相關”。這些關系更常見于文本, 較難用圖像表達。越難以用圖像表達的類別(如“以某種目標為動力”), RoBERTa-ft的貢獻比例越高。

      3)RoBERTa-ft可以發(fā)現(xiàn)大量視覺語境關系詞對。雖然如“耳朵”和“頭飾”這樣的“視覺語境”類詞對是由Visual Genome和ImageNet視覺數(shù)據(jù)集中出現(xiàn)在同一張圖像中的物體構成, 我們原本猜想多模態(tài)模型會在這一類型上有優(yōu)勢, 但事實上, 單模態(tài)模型的貢獻更多, 即47%比25%。這說明, 文字中也包含視覺場景的描寫, 讓人能夠身臨其境地理解作者想要描述的內(nèi)容。當然, WenLan模型也貢獻了相當多的視覺語境詞對。

      3.2.2 基于人工標注詞對關系的實驗

      用已有標簽的數(shù)據(jù)集與兩個空間發(fā)現(xiàn)的近鄰詞對進行匹配, 僅少部分詞對能夠匹配成功, 大量新發(fā)現(xiàn)的詞對之間的關系沒有被標注。于是, 我們做了一個用戶研究, 對抽樣的詞對進行人工標注。

      標注4種類型后的統(tǒng)計結果如表3所示。我們分別計算4種關系的詞對在從不同特征空間抽樣而得詞對中所占的比例, 并比較比例間的差異, 還對差異的顯著性進行檢驗。統(tǒng)計結果表明, WenLan比RoBERTa-ft少發(fā)現(xiàn)35%的同義詞對, 多發(fā)現(xiàn)7%的相關詞對, 少發(fā)現(xiàn)47%的反義詞對。這與表2中的兩個事實一致: 文本單模態(tài)模型更擅長發(fā)現(xiàn)同義詞對, 多模態(tài)模型可以改善反義詞對在特征空間中距離過近的情況。此外, 與表2中“其他相關”的結果不同, 實驗表明WenLan比RoBERTa-ft發(fā)現(xiàn)了更多的相關詞對, 其中部分相關詞對甚至未被Con-ceptNet, Visual Genome和ImageNet涵蓋。

      表3 兩個空間挖掘出的詞對與人工標注關系類型的統(tǒng)計結果

      4 展望和總結

      為了在文本模型 RoBERTa 與多模態(tài)模型 Wen-Lan 的詞表示之間做出公平的有意義的比較, 本文采取-近鄰的方法, 將距離一個詞最近的個詞構成集合, 使用集合來表示該詞的語義; 將文本嵌入空間中每個詞與其距離最近的個詞構建成個詞對, 進而研究詞對間的關系。實驗表明, WenLan改變了詞義, 對越抽象的詞, 改變越明顯。視覺信息可以幫助 WenLan 建立更多的上下義聯(lián)系, 發(fā)現(xiàn)更少的反義詞; RoBERTa 則更傾向于發(fā)現(xiàn)同義詞。

      多模態(tài)信息的引入讓文本表示發(fā)生改變, 因此下一步工作中擬探索將此變化更好地與文本預訓練模型在監(jiān)督學習上的優(yōu)勢相結合。另外, 圖像和文本的強弱關系在很大程度上決定了多模態(tài)模型的特征空間特點, 但目前沒有一個量化的方式可以刻畫圖文相關性的強度。我們計劃構造一些強度漸變的圖文數(shù)據(jù)集來探索數(shù)據(jù)集對多模態(tài)模型, 特別是文本表示方面的影響和規(guī)律。

      致謝 研究工作得到北京智源人工智能研究院的算力支持, 在此表示衷心感謝。

      [1]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for langua-ge understanding // Proceedings of NAACL-HLT. Min-neapolis, 2019: 4171–4186

      [2]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners [EB/OL]. (2019–02–14)[2022–04–15]. https://openai.com/blog/better-lang uage-models

      [3]Radford A, Narasimhan K, Salimans T, et al. Im-proving language understanding by generative pre-training [EOB/OL]. (2018–06–11)[2022–04–15]. https:// openai.com/blog/language-unsupervised

      [4]Liu Y, Ott M, Goyal N, et al. Roberta: a robust- ly optimized BERT pretraining approach [EB/OL]. (2019–07–26)[2022–04–15]. https://arxiv.org/abs/1907. 11692

      [5]Li X, Yin X, Li C, et al. Oscar: object-semantics aligned pre-training for vision-language tasks // Pro-ceedings of ECCV. Cham, 2020: 121–137

      [6]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision // Proceedings of ICML. New York, 2021: 8748–8763

      [7]Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation // Proceedings of ICML. New York, 2021: 8821–8831

      [8]Huo Y, Zhang M, Liu G, et al. WenLan: bridging vision and language by large-scale multi-modal pre-training [EB/OL]. (2021–03–11)[2022–04–15]. https:// arxiv.org/abs/2103.06561

      [9]Harris Z S. Distributional structure. Word, 1954, 10 (2/3): 146–162

      [10]Firth J R. A synopsis of linguistic theory, 1930–1955 // Studies in Linguistic Analysis. Oxford: The Philolo-gical Society, 1957: 1–32

      [11]Lund K, Burgess C. Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instruments, & Computers, 1996, 28(2): 203–208

      [12]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space [EB/OL]. (2013–01–16)[2022–04–15]. https://arxiv.org/ abs/1301.3781

      [13]Pennington J, Socher R, Manning C D. Glove: global vectors for word representation // Proceedings of EMNLP. Stroudsburg, 2014: 1532–1543

      [14]Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations // Proceedings of NAACL-HLT. Stroudsburg, 2018: 2227–2237

      [15]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Proceedings of Advances in Neural Information Processing Systems, 2017: 6000–6010

      [16]McRae K, Cree G S, Seidenberg M S, et al. Semantic feature production norms for a large set of living and nonliving things. Behavior Research Methods, 2005, 37(4): 547–559

      [17]Silberer C, Ferrari V, Lapata M. Models of semantic representation with visual attributes // Proceedings of ACL. Stroudsburg, 2013: 572–582

      [18]Regier T. The human semantic potential: spatial language and constrained connectionism. Cambridge: MIT Press, 1996

      [19]Bruni E, Tran N K, Baroni M. Multimodal distribu-tional semantics. Journal of artificial intelligence research, 2014, 49: 1–47

      [20]Bosch A, Zisserman A, Munoz X. Image classification using random forests and ferns // Proceedings of ICCV. Piscataway, 2007: 1–8

      [21]Kottur S, Vedantam R, Moura J M F, et al. Visual word2vec (vis-w2v): learning visually grounded word embeddings using abstract scenes // Proceedings of CVPR. Piscataway, 2016: 4985–4994

      [22]Xu R, Lu J, Xiong C, et al. Improving word rep-resentations via global visual context // NIPS Workshop on Learning Semantics. Cambridge, 2014: 9

      [23]Gupta T, Schwing A, Hoiem D. ViCo: word embed-dings from visual co-occurrences // Proceedings of ICCV. Piscataway, 2019: 7425–7434

      [24]Chen Y C, Li L, Yu L, et al. Uniter: universal image-text representation learning // Proceedings of ECCV. Cham, 2020: 104–120

      [25]Jia C, Yang Y, Xia Y, et al. Scaling up visual and vision-language representation learning with noisy text supervision // Proceedings of ICML. New York, 2021: 4904–4916

      [26]Gerz D, Vuli? I, Hill F, et al. SimVerb-3500: a large-scale evaluation set of verb similarity // Proceedings of EMNLP. Stroudsburg, 2016: 2173–2182

      [27]Bakarov A. A survey of word embeddings evaluation methods [EB/OL]. (2018–01–21)[2022–04–15]. https:// arxiv.org/abs/1801.09536

      [28]Baroni M, Dinu G, Kruszewski G. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors // Proceedings of ACL. Stroudsburg, 2014: 238–247

      [29]Hill F, Reichart R, Korhonen A. SimLex-999: eva-luating semantic models with (genuine) similarity es-timation. Computational Linguistics, 2015, 41(4): 665–695

      [30]Batchkarov M, Kober T, Reffin J, et al. A critique of word similarity as a method for evaluating distribu-tional semantic models // Proceedings of the 1st Workshop on Evaluating Vector-Space Representations for NLP. Stroudsburg, 2016: 7–12

      [31]Baroni M, Murphy B, Barbu E, et al. Strudel: a corpus-based semantic model based on properties and types. Cognitive science, 2010, 34(2): 222–254

      [32]Almuhareb A. Attributes in lexical acquisition [D]. Colchester: University of Essex, 2006

      [33]Huth A G, De Heer W A, Griffiths T L, et al. Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 2016, 532: 453–458

      [34]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch. Journal of Machine Learning Research, 2011, 12: 2493? 2537

      [35]Schnabel T, Labutov I, Mimno D, et al. Evaluation methods for unsupervised word embeddings // Pro-ceedings of EMNLP. Stroudsburg, 2015: 298–307

      [36]Cui Y, Che W, Liu T, et al. Revisiting pre-trained models for Chinese natural language processing // Findings of the Association for Computational Lin-guistics: EMNLP 2020. Stroudsburg, 2020: 657–668

      [37]Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual represen-tations // International Conference on Machine Lear-ning. Shangri-La, 2020: 1597–1607

      [38]He K, Fan H, Wu Y, et al. Momentum contrast for unsupervised visual representation learning // Procee-dings of CVPR. Piscataway, 2020: 9729–9738

      [39]Brysbaert M, Warriner A B, Kuperman V. Concre-teness ratings for 40 thousand generally known Eng-lish word lemmas. Behavior Research Methods, 2014, 46(3): 904–911

      [40]Speer R, Chin J, Havasi C. ConceptNet 5.5: an open multilingual graph of general knowledge // Procee-dings of AAAI. Menlo Park, 2017: 4444–4451

      [41]Krishna R, Zhu Y, Groth O, et al. Visual genome: connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 2017, 123(1): 32–73

      [42]Deng J, Dong W, Socher R, et al. Imagenet: a large-scale hierarchical image database // Proceedings of CVPR. Piscataway, 2009: 248–255

      [43]Miller G A. WordNet: a lexical database for English. Communications of the ACM, 1995, 38(11): 39–41

      Difference between Multi-modal vs. Text Pre-trained Models in Embedding Text

      SUN Yuchong1, CHENG Xiwei2, SONG Ruihua1,3,?, CHE Wanxiang4, LU Zhiwu1,3, WEN Jirong1,3

      1. Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872; 2. School of Statistics, Renmin University of China, Beijing 100872; 3. Beijing Academy of Artificial Intelligence, Beijing 100084; 4. Faculty of Computing, Harbin Institute of Technology, Harbin 150001; ? Corresponding author, E-mail: rsong@ruc.edu.cn

      multi-modal pre-training; text representation; text embedding analysis

      猜你喜歡
      語義模態(tài)文本
      語言與語義
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      “上”與“下”語義的不對稱性及其認知闡釋
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
      國內(nèi)多模態(tài)教學研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
      認知范疇模糊與語義模糊
      由單個模態(tài)構造對稱簡支梁的抗彎剛度
      計算物理(2014年2期)2014-03-11 17:01:39
      如何快速走進文本
      語文知識(2014年1期)2014-02-28 21:59:13
      剑阁县| 汕尾市| 简阳市| 宁乡县| 忻州市| 都兰县| 白沙| 米泉市| 米易县| 湘乡市| 博湖县| 高淳县| 杨浦区| 崇州市| 开江县| 横峰县| 溆浦县| 封丘县| 会同县| 镇沅| 和田市| 佳木斯市| 钟山县| 类乌齐县| 曲靖市| 泰州市| 石棉县| 海晏县| 合江县| 公安县| 额尔古纳市| 织金县| 宁城县| 沙湾县| 迁西县| 无为县| 綦江县| 本溪市| 五寨县| 大竹县| 普定县|