曹丹陽(yáng) 朱孟貴 高磊
摘要:本研究提出一種使用圖像中目標(biāo)特征代替圖像全局特征的圖像標(biāo)注方法,經(jīng)實(shí)驗(yàn)驗(yàn)證,本方法能夠有效提升圖像標(biāo)注模型效果。
關(guān)鍵詞:深度學(xué)習(xí);圖像標(biāo)注;神經(jīng)網(wǎng)絡(luò);目標(biāo)檢測(cè)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)04-0232-02
0 引言
圖像標(biāo)注任務(wù)目前已經(jīng)成為深度學(xué)習(xí)中一個(gè)重要的分支,是結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的綜合性任務(wù) 。圖像標(biāo)注在圖像檢索、盲人導(dǎo)航等方面發(fā)揮了很大的作用。
1 國(guó)內(nèi)外研究現(xiàn)狀
Vinyals等人提出端到端的圖像標(biāo)注框架,使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,然后經(jīng)過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)生成目標(biāo)語(yǔ)言[1]。Xu等人將注意力機(jī)制引入圖像標(biāo)注算法,提高了算法表現(xiàn)[2]。本研究使用圖像目標(biāo)區(qū)域特征替代圖像全局特征,經(jīng)驗(yàn)證,本研究提出的方法是有效的。
2 方法
基于以上結(jié)論,本文改用目標(biāo)區(qū)域及圖像突出區(qū)域特征表示圖像。圖1是方法框架圖。
本文使用Faster RCNN提取圖像區(qū)域特征[3]。Faster R-CNN的損失函數(shù)如下:
3 實(shí)驗(yàn)
本實(shí)驗(yàn)中,使用了MSCOCO數(shù)據(jù)集。本研究使用BLEU、METEOR指標(biāo),CIDEr指標(biāo)作為本工作的評(píng)價(jià)指標(biāo)。表1是本研究與其他圖像標(biāo)注模型對(duì)比的結(jié)果表。
圖2中,測(cè)試了6張圖片,使用本文的模型對(duì)圖片進(jìn)行標(biāo)注生成。從圖中可以看出,模型可以正確生成標(biāo)注,說(shuō)明本研究效果極好。
4 結(jié)語(yǔ)
本文提出了將目標(biāo)檢測(cè)算法應(yīng)用到圖像標(biāo)注任務(wù)中,該方法與其他圖像標(biāo)注算法對(duì)比,在評(píng)價(jià)指標(biāo)上得出更高的分?jǐn)?shù),表現(xiàn)更好。
參考文獻(xiàn)
[1] Vinyals O,Toshev A, Bengio S,et al[J].Show and Tell: A Neural Image Caption Generator,2014:3156-3164.
[2] Xu K, Ba J, Kiros R, et al.Show, Attend and Tell: Neural Image Caption Generation with Visual Attention [J].Computer Science,2015:2048-2057.
[3] Ren S, He K,Girshick R,et al. Faster R-CNN: towards real-time object detection with region proposal networks[C].International Conference on Neural Information Processing Systems. MIT Press,2015:91-99.
數(shù)字技術(shù)與應(yīng)用2019年4期