• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文圖像描述的自動(dòng)生成與模型分析

      2018-04-03 07:11:13北京市延慶區(qū)第一中學(xué)
      電子世界 2018年5期
      關(guān)鍵詞:分詞卷積編碼

      北京市延慶區(qū)第一中學(xué) 曹 斌

      1.概述

      自動(dòng)圖像描述功能從表面上來(lái)看,機(jī)器不僅要識(shí)別出圖像中包括哪些物體,同時(shí)還必須能夠理解并描述物體之間的聯(lián)系以及它們各自的基本屬性和參與的活動(dòng),這屬于機(jī)器高級(jí)智能形態(tài)的表現(xiàn)了。

      從具體實(shí)現(xiàn)機(jī)制上來(lái)看,自動(dòng)圖像描述從信息輸入到輸出經(jīng)歷了信息的編碼和解碼兩個(gè)部分,在機(jī)器翻譯中,信息編碼把輸入圖像變成特征數(shù)據(jù),解碼部分再將特征數(shù)據(jù)轉(zhuǎn)換成目標(biāo)語(yǔ)言。所以圖像描述結(jié)合了智能系統(tǒng)兩個(gè)領(lǐng)域的發(fā)展成果:“看”和“語(yǔ)言表達(dá)”,分別對(duì)應(yīng)人工智能最重要的兩個(gè)領(lǐng)域: 機(jī)器視覺(jué)和自然語(yǔ)言處理。

      圖像描述的任務(wù)是通過(guò)一定的訓(xùn)練,讓機(jī)器自動(dòng)生成一句話S,來(lái)描述給定的二維圖像I。句子中的第t個(gè)單詞記為,其中N是句子的長(zhǎng)度。是一個(gè)特殊的單詞,表示句子結(jié)束。注意句子是變長(zhǎng)的。單詞來(lái)自于事先給定的詞典,對(duì)詞典中的單詞進(jìn)行編碼后,可以用一個(gè)P維向量表示單詞。一種常用的編碼方式是one-hot編碼,它的編碼的長(zhǎng)度P等于詞典中的單詞個(gè)數(shù),如果單詞只有第p個(gè)元素為,其余元素全為,那么就可以表示詞典中的第p個(gè)單詞。但是one-hot編碼的效率比較低。而且,在使用one-hot編碼的情況下,所有的單詞都是獨(dú)立的,距離也是固定的。而在實(shí)際情況中,一些意義比較相近的字詞,它們?cè)诳臻g的表示應(yīng)該比較接近。因此可以進(jìn)一步對(duì)單詞進(jìn)行word embedding處理。Embedding編碼把單詞映射為空間中的實(shí)向量,可以更好地表示單詞之間的相似性。

      2.中文圖像描述模型的建立

      要對(duì)圖像進(jìn)行描述,可以先對(duì)圖像中的物體進(jìn)行檢測(cè)與識(shí)別,從中提取出有效特征。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種有效的圖像識(shí)別方法。因?yàn)榫渥又械膯卧~是有順序的,所以可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)學(xué)習(xí)語(yǔ)言模型,把圖像識(shí)別的結(jié)果轉(zhuǎn)換為自然語(yǔ)言。中文圖像描述的基本模型是把CNN的最后一個(gè)隱含層的狀態(tài)作為L(zhǎng)STM的輸入。而且中文標(biāo)注具有其特殊性,可以直接把句子中的單個(gè)的字作為單詞,也可以通過(guò)分詞的方法,把句子中的語(yǔ)素提取出來(lái)作為單詞。

      本模型主要有兩個(gè)重要部分組成:特征提取層和語(yǔ)言生成層。

      (1)特征提取層。特征提取層是基于DCNN(Deep Convolutional Neural Network)深度卷積網(wǎng)絡(luò)對(duì)輸入的圖像進(jìn)行編程,輸出一個(gè)N維特征向量,來(lái)提取每個(gè)特征中所包含的信息量。本模型中DCNN采用的是VGG網(wǎng)絡(luò)。VGG網(wǎng)絡(luò)架構(gòu)于2014年出現(xiàn)在Simonyan和Zisserman中的論文中[3]。它把網(wǎng)絡(luò)分為5組(模仿AlexNet的五層),使用的卷積核大小為 3 x 3,并把它們組合起來(lái)作為一個(gè)卷積序列進(jìn)行處理。VGG網(wǎng)絡(luò)的特點(diǎn)是:VGG網(wǎng)絡(luò)非常深,一般有16~19層;由于它采用多個(gè)3 x 3的卷積,模仿出更大的感受野的效果。這些思想也被用在了后續(xù)的網(wǎng)絡(luò)架構(gòu)中,如 Inception 與 ResNet。VGG網(wǎng)絡(luò)也有一些不足:1)訓(xùn)練很慢;2)weights很大。

      (2)語(yǔ)言生成層。利用VGG網(wǎng)絡(luò)提取完圖像特征之后就可以使用LSTM來(lái)學(xué)習(xí)和生成相應(yīng)標(biāo)注。LSTM的初始輸入是用CNN做圖像特征提取后的輸出向量。LSTM節(jié)點(diǎn)內(nèi)部運(yùn)算可以表示為:

      其中變量ct表示節(jié)點(diǎn)內(nèi)部記憶,變量ft表示是否遺忘節(jié)點(diǎn)當(dāng)前記憶,變量it表示是否讀取新的輸入,變量ot表示是否輸出節(jié)點(diǎn)記憶,變量mt表示隱含狀態(tài)。W是待訓(xùn)練的網(wǎng)絡(luò)參數(shù),以后用θ來(lái)表示。非線性變換表示sigmoid函數(shù),表示雙曲正切函數(shù)。符號(hào)表示Hadamard積。

      網(wǎng)絡(luò)的輸出Pt是P維向量,表示對(duì)每個(gè)單詞出現(xiàn)在句子的第t個(gè)位置的概率的預(yù)測(cè)。LSTM網(wǎng)絡(luò)的訓(xùn)練過(guò)程為,學(xué)習(xí)最佳的模型參數(shù)θ,使得最大化在給定圖片下其生成正確描述的概率最大:

      其中I表示訓(xùn)練集中的一個(gè)圖像,而S表示描述該圖像的一個(gè)合適的標(biāo)注(即正確的句子),θ為網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)。

      由于訓(xùn)練集不夠大,對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分布估計(jì)的效果不足,所以本模型容易出現(xiàn)過(guò)擬合問(wèn)題。針對(duì)該缺點(diǎn),可采取多種解決方法:如正則化、 early stopping、dropout、利用驗(yàn)證集進(jìn)行交叉檢驗(yàn)、權(quán)值衰減等方式。其中,正則化是在目標(biāo)函數(shù)或代價(jià)函數(shù)后面增加一個(gè)正則項(xiàng),降低模型的復(fù)雜度,增強(qiáng)模型對(duì)噪聲的抗干擾能力。Early stopping方法在模型對(duì)訓(xùn)練集迭代收斂前截?cái)嗟螖?shù),停止迭代,具體思路是在訓(xùn)練的過(guò)程的同時(shí),記錄驗(yàn)證集上的正確率,記錄驗(yàn)證集的正確率達(dá)到最佳時(shí)的epoch數(shù),之后驗(yàn)證集的正確率開(kāi)始下降則停止訓(xùn)練;本實(shí)驗(yàn)有驗(yàn)證數(shù)據(jù),可以使用該方法。dropout方法是修改神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu)來(lái)防止過(guò)擬合,在每次迭代中設(shè)置一定的比例隨機(jī)刪除一些隱藏層的神經(jīng)元,假設(shè)這些神經(jīng)元不存在,同時(shí)保持輸入層與輸出層的神經(jīng)元的個(gè)數(shù),這樣便得到新的神經(jīng)網(wǎng)絡(luò)。這些方式都可以降低模型對(duì)訓(xùn)練集的過(guò)度依賴(lài),防止過(guò)擬合問(wèn)題,提高模型的泛化能力。

      3.中文圖像描述模型的分析

      這里基于python語(yǔ)言建立一個(gè)基礎(chǔ)的中文圖像描述模型。本模型使用VGG19網(wǎng)絡(luò)的第一個(gè)全連接層fc1的特征,維數(shù)為4096,訓(xùn)練集有8000張圖片,每個(gè)圖片配有3~5句標(biāo)注,一共有38445句標(biāo)注。

      首先構(gòu)造feature和caption之間的一一對(duì)應(yīng)向量,由于caption個(gè)數(shù)比f(wàn)eature多,所以按照caption排列成一個(gè)38445×1的向量,根據(jù)它生成相應(yīng)的大小為38445×4096的特征矩陣。然后對(duì)所有caption中出現(xiàn)的單詞個(gè)數(shù)進(jìn)行計(jì)數(shù):如果不對(duì)中文進(jìn)行分詞,則一共有2591個(gè)不同的單詞,其中出現(xiàn)頻數(shù)大于3的單詞只有1885個(gè);如果使用Jieba庫(kù) 對(duì)中文進(jìn)行分詞處理,則基本單元的組合數(shù)變多, 一共有11552個(gè)不同的單詞組合,其中出現(xiàn)頻數(shù)大于3的單詞組合只有3786個(gè)。根據(jù)找到的頻數(shù)大于3的單詞構(gòu)造詞典,并計(jì)算每一個(gè)單詞的出現(xiàn)概率。用于LSTM的語(yǔ)言生成模型中,其中,word embedding的結(jié)果x_t的維數(shù)為256,LSTM的隱含層的維數(shù)等于256,且LSTM模型參數(shù)優(yōu)化方法是Adam,設(shè)置學(xué)習(xí)率為0.001。為防止過(guò)擬合,訓(xùn)練時(shí)利用驗(yàn)證集測(cè)試結(jié)果。實(shí)驗(yàn)平臺(tái)為Ubuntu 14.04, 配置的GPU為Nvidia TITANX,使用Tensorflow 1.1.0版本。在該配置下,模型需要迭代約6個(gè)epoch,總共訓(xùn)練用時(shí)小于半小時(shí)。

      圖1 草地上的斑馬

      本模型的訓(xùn)練結(jié)果為:

      由此可見(jiàn)本模型在一定程度上可以學(xué)習(xí)出語(yǔ)句中漢字之間的聯(lián)系。但是模型一也存在很大的局限性,只適合于處理一些比較普通而且變化不大的句子,不適合區(qū)分相似的事物。比如上一個(gè)例子中本模型無(wú)法精確識(shí)別斑馬數(shù)量上的特征。下表1為本模型在不同測(cè)試集上的指標(biāo)。

      表1 所建模型在測(cè)試集上的指標(biāo)

      4.全文總結(jié)

      經(jīng)過(guò)調(diào)試,本模型達(dá)到了較好效果,這與我們的預(yù)期以及人類(lèi)進(jìn)行圖片描述的行為方式表現(xiàn)基本一致。此外,本實(shí)驗(yàn)還比較了分詞與不分詞對(duì)模型效果的影響:不分詞的結(jié)果要略?xún)?yōu)于分詞,這與我們的直覺(jué)相反,原因可能是分詞不準(zhǔn)確引入了噪聲,以及我們的訓(xùn)練集樣本量相對(duì)較小,分詞后產(chǎn)生的詞典更大,解空間的復(fù)雜度增加,模型更大概率收斂到效果較差的局部最優(yōu)解。

      [1]高永英,章毓晉.基于多級(jí)描述模型的漸進(jìn)式圖像內(nèi)容理解[J].電子學(xué)報(bào),2001,29(10):1376-1380.

      [2]鄭永哲.基于深度學(xué)習(xí)的圖像語(yǔ)義標(biāo)注與描述研究[D].廣西師范大學(xué),2017.

      [3]蔡曉龍.深度學(xué)習(xí)在圖像描述中的應(yīng)用[J].電腦知識(shí)與技術(shù),2017,13(24).

      [4]雷國(guó)偉,呂迎陽(yáng),紀(jì)安妮等.圖像特征的CNN提取方法及其應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用, 2004,40(14):204-206.

      猜你喜歡
      分詞卷積編碼
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      《全元詩(shī)》未編碼疑難字考辨十五則
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      結(jié)巴分詞在詞云中的應(yīng)用
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      Genome and healthcare
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      值得重視的分詞的特殊用法
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      横山县| 大埔县| 云阳县| 保亭| 宜川县| 离岛区| 承德县| 新平| 长治市| 金华市| 张家口市| 新沂市| 阜宁县| 普兰店市| 绥化市| 北票市| 辉南县| 长宁区| 常熟市| 梅河口市| 德惠市| 扎兰屯市| 襄垣县| 上蔡县| 珠海市| 灵山县| 西贡区| 无极县| 侯马市| 锦屏县| 广丰县| 都兰县| 武汉市| 全南县| 舟曲县| 玛纳斯县| 卢氏县| 会东县| 巴彦淖尔市| 确山县| 唐河县|