岳毅然 李霆鋒 陳鑫銳 李煜
摘要:本文基于殘差網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò),利用AI Challenger圖像中文描述挑戰(zhàn)賽的數(shù)據(jù)集,借助前人的研究基礎(chǔ),對圖像描述模型的網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)進行優(yōu)化和改進,并加以對比試驗,通過恰當(dāng)?shù)脑u價指標(biāo)探究模型網(wǎng)絡(luò)結(jié)構(gòu)對圖像語義信息處理和描述匹配生成效果的影響,為提升標(biāo)注準(zhǔn)確度、流暢度提供參考依據(jù)。
關(guān)鍵詞:圖像描述? 深度殘差網(wǎng)絡(luò)? 長短期記憶網(wǎng)絡(luò)
前言
近年來,隨著深度學(xué)習(xí)在CV(Computer Vision,計算機視覺)和NLP(Natural Language Processing,自然語言處理)領(lǐng)域的發(fā)展和智能科學(xué)技術(shù)的突破,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)成為了人工智能領(lǐng)域的熱點話題。其中,深度殘差網(wǎng)絡(luò)(Deep Residual Networks,ResNet)是卷積神經(jīng)網(wǎng)絡(luò)模型算法中最典型、最成功的算法之一,它是應(yīng)用最為廣泛的特征提取網(wǎng)絡(luò),具有權(quán)值共享、稀疏連接、網(wǎng)絡(luò)結(jié)構(gòu)更類似于生物神經(jīng)網(wǎng)絡(luò)等特點。
圖像描述——看圖說話(Image Caption)任務(wù)是結(jié)合計算機視覺CV和自然語言處理NLP兩個領(lǐng)域的一種比較綜合的任務(wù),Image Caption模型的輸入是一幅圖像,輸出是對該幅圖像進行描述的一段文字。這項任務(wù)要求模型可以識別圖片中的物體、理解物體間的關(guān)系,并用一句自然語言表達出來。圖像描述在搜索引擎優(yōu)化、自動配字、視障輔助閱讀等廣泛領(lǐng)域有著較高的應(yīng)用價值。
AI Challenger圖像中文描述挑戰(zhàn)賽數(shù)據(jù)集是目前規(guī)模最大、語言使用和場景最為豐富的圖片中文描述數(shù)據(jù)集,涵蓋了超過100種復(fù)雜生活場景的含有人物的二十萬張帶有標(biāo)注處理的圖片,其場景復(fù)雜度、人物動作復(fù)雜度、身體遮擋情況都高于現(xiàn)有的其他數(shù)據(jù)集;而且,此數(shù)據(jù)集的語言描述標(biāo)注更符合中文語言使用習(xí)慣。相對于Flickr8k-CN等傳統(tǒng)數(shù)據(jù)集,該數(shù)據(jù)集創(chuàng)新性的引入了中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。
本文基于深度殘差網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)在圖像描述算法模型的應(yīng)用研究,對傳統(tǒng)的ResNet與LSTM模型進行優(yōu)化,改進圖片語義信息特征提取、描述語義數(shù)據(jù)的預(yù)處理效果,在AI Challenger圖像中文描述挑戰(zhàn)賽數(shù)據(jù)集上驗證準(zhǔn)確率和有效性。本文主要從圖像信息處理、描述數(shù)據(jù)處理、語句生成三個部分進行參數(shù)優(yōu)化和網(wǎng)絡(luò)結(jié)構(gòu)研究。對整體網(wǎng)絡(luò)的卷積核、層數(shù)、批大小、學(xué)習(xí)率、分詞模型等參數(shù)或結(jié)構(gòu)進行優(yōu)化,并針對全連接層傳遞效率較低、干擾到卷積層提取出的局部特征、收斂速率較低等問題,對傳統(tǒng)的ResNet模型進行改進。
1 模型介紹
本研究的模型基于文獻[1]的研究結(jié)果,輸入分為圖像和描述兩部分,圖片經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取全連接層的輸入(2048維的向量)然后利用全連接層轉(zhuǎn)化成256維的向量。由此將圖像的語意空間轉(zhuǎn)化到了詞向量的語意空間。描述經(jīng)過嵌入層(Embedding)轉(zhuǎn)化成256維的向量。而后將上述得到的256維向量拼接在一起,輸入LSTM中,計算每個詞的輸出,根據(jù)輸出進行分類,預(yù)測下一個詞。完整的流程框架如圖1-1所示。
數(shù)據(jù)的預(yù)處理主要分為圖像預(yù)處理和描述預(yù)處理兩部分。圖像預(yù)處理即提取圖像特征,將圖片輸入ResNet網(wǎng)絡(luò),將最后一層替換成一個恒等映射,獲得在池化層的輸出(即全連接層的輸入,2048維的向量)。
2 實驗過程與效果
2.1圖片語義信息
圖片語義信息部分中,我們分別使用三種層數(shù)的深度殘差網(wǎng)絡(luò):ResNet 50、ResNet 101、ResNet 150。其三者的基本結(jié)構(gòu)如圖2-1所示。
在修改與調(diào)整中,控制變量訓(xùn)練批次大?。╡poch)為20,更改采用的模型以及對應(yīng)的參數(shù)和維度量等,其他保持不變,樣例如圖2-2所示。實驗表明,本文使用深度殘差網(wǎng)絡(luò)解決了增加深度而帶來的退化問題,從而使增加網(wǎng)絡(luò)深度后的網(wǎng)絡(luò)性能顯著提高。隨著層數(shù)的增加,圖片特征提取效果逐漸上升,語句生成更加順暢、貼合實際。
2.2描述數(shù)據(jù)處理
在描述數(shù)據(jù)的預(yù)處理部分,本文通過優(yōu)化描述數(shù)據(jù)處理步驟中的參數(shù),優(yōu)化得到的caption.pth,減少模型訓(xùn)練時間和不必要的計算。主要方式有以下幾種:
(1)丟棄低頻詞(如圖2-3所示):估算得到高頻詞與低頻詞分界公式,將min_appear定為10,減小word2ix,減少訓(xùn)練時間。
(2)詞語長度限制:為保證整體效率,本文選擇丟棄長度過長的詞組。
(3)padding平均化句長:將不同長度的句子變成同樣長度,設(shè)置max_length為30,更加貼合實際需要。
(4)用pack padded sequence函數(shù)對padding后的序列進行操作(如圖2-4所示):經(jīng)過padding操作序列中與許多空白填充值,在計算RNN隱藏元時也會進行不必要的計算,更可能會影響隱藏元的取值。于是針對不同長度的句子,我們按長度進行排序并記錄每個句子長短。對不同的句子,padding成一樣的長度。將上一步的Variable和樣本長度輸入pack padded sequence函數(shù),會輸出一個Packed Sequence對象,這個對象即可輸入到LSTM模型中。
經(jīng)過實驗,我們發(fā)現(xiàn)描述數(shù)據(jù)處理的優(yōu)化對實驗結(jié)果沒有顯著的影響,但是減少了不必要的計算,減少了大量模型的訓(xùn)練時間。
2.3模型訓(xùn)練與描述生成
描述語句的生成部分本文選取了一個RNN網(wǎng)絡(luò),模型中的組成成分有兩個全連接(linear)層:一個嵌入(embedding)層和一個LSTM(RNN)層。其中,LSTM層是Image Caption問題中典型的decoder,用于解碼和生成詞序列。本文在保證收斂性的情況下,保持最佳學(xué)習(xí)率,調(diào)節(jié)了優(yōu)化器的種類,以獲取正確的語句生成效果和更快的訓(xùn)練速度。樣例如圖2-5所示。
3 結(jié)論
通過對上述實驗數(shù)據(jù)的整理分析,結(jié)合相關(guān)文獻材料,我們以圖像描述為主體,探索了包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)等多種模型的結(jié)構(gòu)及其參數(shù)調(diào)整,對圖像描述生成的圖像信息預(yù)處理、描述數(shù)據(jù)預(yù)處理和訓(xùn)練模型等方面進行了簡單優(yōu)化。同時,本文僅僅是針對網(wǎng)絡(luò)中的部分簡單參數(shù)和結(jié)構(gòu)進行了小范圍調(diào)整,由于作者水平有限資歷尚淺,本項目的研究時間較短,諸如局部最優(yōu)、多模型效果對比、優(yōu)化收斂、深度降維等各方面尚未涉獵到,相信能夠在日后的研究中進一步探索深度學(xué)習(xí)的奧秘。
參考文獻
[1]劉國鈞,陳紹業(yè). 深度學(xué)習(xí)框架PyTorch:入門與實踐[M].北京:電子工業(yè)出版社,2018:260-281.
[2] Mao J , Xu W . Explain Images with Multimodal Recurrent Neural Networks[J]. Computer Science, 2014.
[3] Karpathy A , Li F F . Deep visual-semantic alignments for generating image descriptions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015.
[4] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: A Neural Image Caption Generator[J]. 2014.
[5] Vinyals O , Toshev A , Bengio S , et al. Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016.
作者簡介
岳毅然(2000年8月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級學(xué)生,研究方向:智能科學(xué)與技術(shù)、數(shù)據(jù)科學(xué)。李霆鋒(2000年3月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級學(xué)生,研究方向:智能科學(xué)與技術(shù)。陳鑫銳(2000年7月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級學(xué)生,研究方向:智能科學(xué)與技術(shù)。李煜(2000年3月-),男,中山大學(xué)智能工程學(xué)院智能科學(xué)與技術(shù)專業(yè)2018級學(xué)生,研究方向:智能科學(xué)與技術(shù)。