胡楠 曲睿婷 王浩 李東洋 于元旗
摘 要:圖像語義標(biāo)注技術(shù)對于多媒體數(shù)據(jù)管理來說有著重要的意義,主要可以減少管理的混亂性,提升管理效率。本文將主要演示的是一個(gè)在多馬爾科夫隨機(jī)場的基礎(chǔ)上一個(gè)圖像語義自動(dòng)標(biāo)注方法(multiple Markov random field,MMRF)的圖像予以標(biāo)注系統(tǒng),利用交互式標(biāo)注模型的訓(xùn)練和演示,展示MMRF技術(shù)最主要的標(biāo)注功能,使得觀眾能夠簡明了解到圖像語義自動(dòng)標(biāo)注的系統(tǒng)實(shí)現(xiàn)。
關(guān)鍵詞:圖像語義標(biāo)注;馬爾科夫隨機(jī)場;系統(tǒng)實(shí)現(xiàn);語義上下文
引言
目前,互聯(lián)網(wǎng)上數(shù)字圖像的數(shù)量呈現(xiàn)出直線式上升的狀態(tài),比如目前十分流行Instagram照片分享網(wǎng)站每分鐘上傳的照片高達(dá)5000張左右,雖然某些社交網(wǎng)站的圖像會(huì)附帶有用戶標(biāo)簽,但就實(shí)際情況而言垃圾標(biāo)簽的現(xiàn)象十分普遍,或者標(biāo)簽語義過于模糊等等[1]。因此行業(yè)內(nèi)掀起了一陣對圖像語義自動(dòng)標(biāo)注(automatic image annotation,AIA)的研究熱潮?,F(xiàn)階段AIA研究面臨的瓶頸就是“語義鴻溝”(semantic gap),也就是高層次抽象語義概念表達(dá)出的含義與低層次數(shù)字圖像內(nèi)容之間的沖突?,F(xiàn)將對本文研究結(jié)果進(jìn)行討論:
一、系統(tǒng)框架設(shè)計(jì)
本系統(tǒng)的主要流程框架見下圖所示:
1.系統(tǒng)主流程
該系統(tǒng)的主要流程主要由兩個(gè)部分組成,分別是離線預(yù)處理和在線圖像標(biāo)注,其中離線預(yù)處理有三個(gè)步驟:
(1)訓(xùn)練圖像庫構(gòu)建
系統(tǒng)主要提供了2個(gè)圖像庫,其一是圖像標(biāo)注研究領(lǐng)域中經(jīng)常使用到的Corel數(shù)據(jù)集,其中包括了5000幅圖像,4500張會(huì)直接成為訓(xùn)練圖像,剩下500幅是測試圖像。在每幅圖像上標(biāo)注至少1個(gè)至多5個(gè)語義標(biāo)簽,將這4500幅圖像作為訓(xùn)練圖像集,再通過網(wǎng)絡(luò)下載得到另一個(gè)圖像庫,主要從各大圖像分享網(wǎng)站或者google等搜索引擎等收集,對這些圖像中的錯(cuò)誤標(biāo)簽全部去除[2]。
(2)圖像特征提取
提取每幅圖像中的15個(gè)特征,然后利用Tagprop的方法對每個(gè)訓(xùn)練庫學(xué)習(xí)權(quán)重向量w。
(3)模型參數(shù)學(xué)習(xí)
本系統(tǒng)主要通過圖像標(biāo)注算法得出第i個(gè)語義標(biāo)簽,并且觀察出圖像的特征d,將二者結(jié)合之后得出聯(lián)合概率P(d,w),再將MMRF中的學(xué)習(xí)模型參數(shù)代入其中,如下文算法1所示。在對模型進(jìn)行訓(xùn)練的時(shí)候主要有三個(gè)步驟,首先對每個(gè)語義標(biāo)簽構(gòu)建語義概念圖,然后系統(tǒng)會(huì)篩選訓(xùn)練圖像并且得出一個(gè)正負(fù)樣例平衡的訓(xùn)練集,最后利用MMRF模型算出參數(shù)θ。
算法1:MMRF模型參數(shù)學(xué)習(xí)方法
輸入:待標(biāo)注的圖像I,詞表S和訓(xùn)練圖集X;
輸出:MMRF模型參數(shù)θ
①for每個(gè)詞∈S do
②構(gòu)建語義概念關(guān)系圖
③構(gòu)建訓(xùn)練圖像集
④求解MMRF模型參數(shù)θ
⑤end for
標(biāo)注系統(tǒng)在對線上圖像進(jìn)行標(biāo)注的時(shí)候主要包含以下三個(gè)步驟:
(1)圖像上傳及標(biāo)注
客戶端在上傳一張或者多張圖像之后,系統(tǒng)會(huì)對圖像進(jìn)行分別的標(biāo)注,并且得出標(biāo)注結(jié)果,每一幅圖像得到的標(biāo)注結(jié)果都是P(f)最大化之后的標(biāo)簽組合,也就是f=arg maxP(f)。
2.用戶評判
客戶端的用戶會(huì)對標(biāo)注結(jié)果進(jìn)行評判,并且標(biāo)記正確的標(biāo)注結(jié)果,達(dá)到交互式標(biāo)注。
3.標(biāo)注結(jié)果保存
用戶評判的結(jié)果會(huì)直接進(jìn)入到數(shù)據(jù)庫之中,也會(huì)進(jìn)行下載下來的訓(xùn)練圖像圖,由于這些新入庫的訓(xùn)練圖像的標(biāo)注準(zhǔn)確度較高,因此系統(tǒng)能夠?qū)δP偷膮?shù)進(jìn)行有效的修正,所以能夠幫助提高系統(tǒng)的標(biāo)注能力[3]。
4.系統(tǒng)圖像標(biāo)注效果
Corel數(shù)據(jù)集的標(biāo)注結(jié)果見下表所示,將其與傳統(tǒng)的MBRM與Tagprop相比,該系統(tǒng)在Corel數(shù)據(jù)集上的precision和f1明顯高于其他兩種方法,recall的水平也較高。
二、系統(tǒng)演示
該系統(tǒng)在C++語言的基礎(chǔ)上建立,因此在用戶界面上擁有比較良好的性能,用戶可以在該界面上輕松完成上傳圖像并標(biāo)注的任務(wù)[4],并且該界面還具有一定的人機(jī)交互功能,用戶在對標(biāo)注結(jié)果進(jìn)行判斷之后,系統(tǒng)可以將判斷的結(jié)果重新儲(chǔ)存,并且將新的標(biāo)注圖像添加至訓(xùn)練庫之中。
1.界面介紹
在系統(tǒng)界面之中,用戶可以自行選擇訓(xùn)練圖像庫,上傳待標(biāo)注的圖像,完成之后在界面上顯示“待標(biāo)注”,點(diǎn)擊“標(biāo)注”按鈕之后可以對該圖像進(jìn)行標(biāo)注,標(biāo)注之后會(huì)給出標(biāo)注結(jié)果和相應(yīng)標(biāo)簽,用戶可以對標(biāo)注結(jié)構(gòu)進(jìn)行判斷,在“用戶評判”一欄的正確選項(xiàng)上打鉤,如果錯(cuò)誤也可以選擇“錯(cuò)誤”選項(xiàng),系統(tǒng)會(huì)將這一信息反饋給cpu,進(jìn)行重新標(biāo)注。確認(rèn)完全正確之后點(diǎn)擊“保存”按鈕,系統(tǒng)會(huì)自動(dòng)將標(biāo)注完成的圖像存儲(chǔ)到數(shù)據(jù)庫之中,并且還會(huì)隨之添加到訓(xùn)練圖像集之中。
2.圖像標(biāo)注演示步驟
該系統(tǒng)利用交互式圖像語義標(biāo)注模型的標(biāo)注,使得MMRF技術(shù)的標(biāo)注性能得到了有效的展示,用戶能夠更加充分地了解到圖像語義標(biāo)注的系統(tǒng)實(shí)現(xiàn)全過程。系統(tǒng)在演示的時(shí)候主要有以下幾步:
(1)選擇訓(xùn)練圖像庫
(2)選擇需要標(biāo)記的圖像,將其上傳到標(biāo)注系統(tǒng)之中。
(3)點(diǎn)擊“標(biāo)注”按鈕,系統(tǒng)開始對圖像進(jìn)行標(biāo)注,并且給出標(biāo)注結(jié)果。
(4)用戶判斷標(biāo)注結(jié)果
(5)保存標(biāo)注結(jié)果
三、結(jié)束語
綜上所述,本文在語義上下文建模的基礎(chǔ)上演示了一個(gè)對圖像進(jìn)行自動(dòng)語義標(biāo)注的系統(tǒng),利用交互式的系統(tǒng)演示,可以將系統(tǒng)中的圖像標(biāo)注功能充分展現(xiàn)出來,觀眾可以從中更好地了解到目前語義自動(dòng)標(biāo)注系統(tǒng)的發(fā)展現(xiàn)狀,以及該標(biāo)注系統(tǒng)的實(shí)際工作流程,使得該系統(tǒng)更具有操作性和實(shí)用性,促進(jìn)各大網(wǎng)站能夠?qū)ι蟼鞯膱D像進(jìn)行精準(zhǔn)的標(biāo)注,幫助其他用戶可以快速尋找到自想要找到的圖像,達(dá)到精準(zhǔn)分類的目的。
參考文獻(xiàn):
[1]田東平, 李乃乾. 基于上下文相關(guān)模型的圖像語義標(biāo)注[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2016, 37(4):000855-000860.
[2]郭喬進(jìn). 基于上下文的圖像區(qū)域標(biāo)注關(guān)鍵技術(shù)研究[D]. 南京大學(xué), 2013.
[3]王小蕾. 基于上下文的社交圖像語義信息的精化與豐富[D]. 華北電力大學(xué)(北京), 華北電力大學(xué), 2012.