汪悅
摘要:隨著網(wǎng)絡(luò)帶寬的增加以及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,信息載體由文本漸漸過渡為視頻圖像等,為了方便人們能夠更快更好地訪問和檢索視頻圖像,針對(duì)目前手工標(biāo)注過于繁瑣并且時(shí)間過長的問題,該系統(tǒng)希望通過目前流行的推薦系統(tǒng)和reCAPTCHA系統(tǒng),對(duì)于各個(gè)用戶的擅長點(diǎn)進(jìn)行分析并隨著標(biāo)注數(shù)量的累積進(jìn)行調(diào)整,同時(shí)基于人體的耐受性,將部分難于標(biāo)注的圖像加載在容易標(biāo)注的圖片中,減少無法標(biāo)注的圖片數(shù)量,來達(dá)到縮短標(biāo)注時(shí)間的目的。
關(guān)鍵詞:手工標(biāo)注;基于內(nèi)容的推薦;定量分析;基于人體生理機(jī)能的加推
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)06-0183-03
隨著網(wǎng)絡(luò)帶寬的增加以及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,信息載體由文本漸漸過渡為視頻圖像等,使人們可以更為直觀的了解信息。為了方便人們能夠更快更好地訪問和檢索視頻圖像,目前所廣泛采用的解決方案是對(duì)其進(jìn)行標(biāo)注。當(dāng)前所采用的兩類典型標(biāo)注方法為:手動(dòng)標(biāo)注和自動(dòng)標(biāo)注。
自動(dòng)標(biāo)注就是由程式自動(dòng)檢測(cè)圖像或視頻中的關(guān)鍵字并進(jìn)行標(biāo)注,在過去的十多年中,該項(xiàng)方法吸引了大批研究人員的興趣也取得了顯著的成功,但是無法否認(rèn)的是自動(dòng)標(biāo)注的準(zhǔn)確性以及相關(guān)性仍然無法完全達(dá)到人們檢索的需求。
而相對(duì)準(zhǔn)確性較高的手動(dòng)標(biāo)注的圖像語義標(biāo)注方式存在著兩大難題:一是在標(biāo)注大量的圖像時(shí),完全用手工方法標(biāo)注,工作量太大,時(shí)間過長;二是由于用戶對(duì)圖像的理解不同,文本注解存在不可避免的主觀性和不精確性。
近年來,由于人工標(biāo)注在組織和檢索的高質(zhì)量,越來越多的組織和團(tuán)體采用人工標(biāo)注來管理多媒體數(shù)據(jù)。針對(duì)手工標(biāo)注過于繁瑣并且時(shí)間過長的問題,本文提出一種新的標(biāo)注系統(tǒng)來縮短標(biāo)注時(shí)間。
1 推薦系統(tǒng)概述
20世紀(jì)90年代中期出現(xiàn)關(guān)于協(xié)同過濾技術(shù)的文章之后,推薦系統(tǒng)開始作為一門獨(dú)立的學(xué)科得到系統(tǒng)研究,并逐漸成為緩解“信息過載”的有效手段之一。推薦系統(tǒng)通過建立用戶與項(xiàng)目之間的二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每個(gè)用戶潛在感興趣的對(duì)象,進(jìn)而進(jìn)行個(gè)性化推薦。
從信息過濾的角度,目前推薦系統(tǒng)主要分為以下幾種:
(1) 協(xié)同過濾推薦:基于“集體智慧”的思想,通過與當(dāng)前用戶相似的其他用戶偏好來預(yù)測(cè)當(dāng)前用戶的偏好。
(2) 基于內(nèi)容的推薦:根據(jù)用戶偏好的方向,利用已有的分類技術(shù)和概率統(tǒng)計(jì)模型,選擇其他類似的項(xiàng)目作為推薦。
(3) 混合推薦:混合推薦主要是為了解決單一推薦技術(shù)的不足,按照不同的混合策略,將不同的推薦技術(shù)進(jìn)行組合并完成推薦。
2 推薦系統(tǒng)在圖像標(biāo)注上的應(yīng)用
圖像標(biāo)注推薦系統(tǒng)采用基于內(nèi)容的推薦。
總體來看,基于內(nèi)容的上下文感知推薦生成技術(shù)的優(yōu)點(diǎn)在于:能夠充分利用現(xiàn)有成熟的分類技術(shù)、概率統(tǒng)計(jì)模型,來發(fā)現(xiàn)用戶在不同的上下文條件下對(duì)項(xiàng)目屬性類別的偏好;并不存在“新項(xiàng)目”問題,推薦結(jié)果比較直觀、易于理解等。其缺點(diǎn)在于:分析內(nèi)容有限和有效上下文選擇(涉及特征選擇問題)、推薦范圍過窄、新用戶問題、多維上下文條件約束下的相似度匹配計(jì)算等。
基于上文假定,我們對(duì)于要標(biāo)注的關(guān)鍵字已經(jīng)給定,同時(shí)為了避免用戶由于采用的詞匯不同而導(dǎo)致的標(biāo)注分類過于分散,不利于檢索,或者由于中文詞匯的定義模糊而導(dǎo)致結(jié)果差異,我們事先對(duì)于關(guān)鍵字的標(biāo)注方向給出分類定義,且圖片集已經(jīng)做過初步篩選,并且由系統(tǒng)獲取用戶標(biāo)注各個(gè)關(guān)鍵字的時(shí)間,然后通過統(tǒng)計(jì)分析用戶關(guān)鍵字的標(biāo)注時(shí)間,來判斷用戶可能擅長的方向,故基于內(nèi)容的推薦缺點(diǎn)并不影響其在圖像標(biāo)注推薦系統(tǒng)中的使用。
3 圖像標(biāo)注推薦系統(tǒng)的概述
我們可將圖像標(biāo)注推薦系統(tǒng)流程整理歸納為以下4個(gè)階段:
(1) 數(shù)據(jù)定義及收集:定義用戶、關(guān)鍵字集合、標(biāo)注分類定義、收集用戶標(biāo)注時(shí)間等相關(guān)數(shù)據(jù);
(2) 用戶擅長提?。航y(tǒng)計(jì)分析用戶擅長的關(guān)鍵字或方向,生成推薦結(jié)果;
(3) 基于人體生理機(jī)能的加推:對(duì)于那些所有用戶都不擅長標(biāo)注的圖片,隨機(jī)添加在用戶擅長的圖片中;
(4) 評(píng)價(jià)與自適應(yīng)改進(jìn):采用合適的效用評(píng)價(jià)指標(biāo)對(duì)推薦效果進(jìn)行評(píng)價(jià),并根據(jù)評(píng)價(jià)結(jié)果發(fā)現(xiàn)問題和改進(jìn)。
3.1 數(shù)據(jù)定義及收集
按照Adomavicius 等人給出推薦系統(tǒng)的形式化定義,在圖像標(biāo)注前定義標(biāo)注的要素,設(shè)G表示用戶集合,S表示需要本次標(biāo)注的關(guān)鍵字集合(如:顏色、車型、車標(biāo)等),且對(duì)于標(biāo)注關(guān)鍵字的要素進(jìn)行設(shè)定,既可以避免由于要素及關(guān)鍵字語言表述輕微偏差導(dǎo)致的統(tǒng)計(jì)結(jié)果偏差,又可以減少標(biāo)注時(shí)間。設(shè)置效用函數(shù)u表示用戶對(duì)于要素的熟練度,由計(jì)算機(jī)進(jìn)行用戶標(biāo)注時(shí)間數(shù)據(jù)的收集,則噪聲系數(shù)降到最低且隨機(jī)存在。
3.2 用戶擅長提取
該系統(tǒng)要找到用戶最熟練的關(guān)鍵字及其標(biāo)注分類定義組,加快標(biāo)注的速度,縮短整體標(biāo)注時(shí)間。
一般認(rèn)為,偏好(preference)用于描述決策者對(duì)兩個(gè)或多個(gè)項(xiàng)目的排序關(guān)系。本文關(guān)注點(diǎn)為用戶即標(biāo)注人員的偏好即擅長方向。目前,上下文用戶偏好提取技術(shù)主要有兩種研究思路:定量分析和定性分析。
其中,定量研究上下文用戶偏好提取技術(shù),是指使用數(shù)字評(píng)分量化表示上下文用戶偏好,并設(shè)計(jì)偏好提取方法進(jìn)行數(shù)學(xué)計(jì)算。目前,在上下文用戶偏好量化表示方面,主要采用多維向量評(píng)分模型和層次模型。
圖像標(biāo)注推薦系統(tǒng)在定量分析的基礎(chǔ)上,采用基于決策樹的用戶偏好提取,以標(biāo)注時(shí)間作為衡量基準(zhǔn),按照預(yù)先給定的關(guān)鍵字及其要素分類定義,對(duì)于各用戶的標(biāo)注時(shí)間建立多維矩陣組。
3.3 基于人體生理機(jī)能的加推
考慮到存在標(biāo)注人員有群體偏向的可能性,導(dǎo)致需標(biāo)注的圖片庫中仍有剩余圖片?;谏衔牡耐普?,假設(shè)已經(jīng)篩選出的圖片為M,則剩下的圖片數(shù)量為N-M。如果將剩下的N-M的圖片,全部沉底按比例分配給各個(gè)標(biāo)注人員,則由于人存在心理及生理疲勞點(diǎn),當(dāng)標(biāo)注圖片難以判斷過多,可能存在標(biāo)注過程關(guān)注力降低,導(dǎo)致降低準(zhǔn)確率。
reCAPTCHA技術(shù)是利用CAPTCHA的原理,借助于人腦對(duì)難以識(shí)別的字符進(jìn)行辨別的技術(shù),我們同樣也可借鑒其原理,來對(duì)于難于識(shí)別的圖片進(jìn)行分類,即將簡單易識(shí)別的圖片和難于識(shí)別的圖片放在一處,避免標(biāo)注人員在處理過程中由于心理因素而影響標(biāo)注的準(zhǔn)確率和效率。
假定G表示用戶集合,每個(gè)用戶的所分配的圖片為Mg,已經(jīng)篩選出的圖片為M,即
3.4 評(píng)價(jià)與自適應(yīng)改進(jìn)
在進(jìn)行標(biāo)注的過程中對(duì)標(biāo)注推薦系統(tǒng)性能進(jìn)行評(píng)價(jià)時(shí) , 指標(biāo)主要針對(duì)標(biāo)注的準(zhǔn)確性,以及標(biāo)注的熟練程度,即標(biāo)注的時(shí)間的長短。隨著標(biāo)注時(shí)間的累積統(tǒng)計(jì),調(diào)整圖片推薦的方向,由系統(tǒng)自適應(yīng)進(jìn)行改進(jìn)達(dá)到更好的推薦效果。
此外,還可還將用戶滿意度作為評(píng)價(jià)指標(biāo),此時(shí)需要用戶對(duì)推薦效果給出主觀評(píng)價(jià)。
隨著時(shí)間的推移且統(tǒng)計(jì)數(shù)據(jù)的完善,用戶的擅長方向會(huì)發(fā)生變換,故針對(duì)要素關(guān)鍵字的聚類結(jié)果需要累計(jì)疊加,其得出的結(jié)果較單次分析結(jié)果更接近真實(shí)用戶的擅長方向。
4 總結(jié)語
綜上所述,本系統(tǒng)在綜合考慮標(biāo)注熟練度以及人體的耐受性,通過目前流行的推薦系統(tǒng)和reCAPTCHA系統(tǒng),將用戶最熟練的關(guān)鍵字及其標(biāo)注分類推送給用戶,部分難于標(biāo)注的圖像加載在容易標(biāo)注的圖片中,減少無法標(biāo)注的圖片數(shù)量,來達(dá)到縮短標(biāo)注時(shí)間的目的。
參考文獻(xiàn):
[1] 王立才, 孟祥武, 張玉潔.上下文感知推薦系統(tǒng)[J].軟件學(xué)報(bào),2012,23(1):1-20.
[2] 孟祥武, 胡勛, 王立才, 張玉潔.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.
[3] 王立才.上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[J].北京郵電大學(xué)博士論文.
[4] 林亮亮.基于本體的用戶個(gè)性化檢索模型構(gòu)造研究[D].西安郵電大學(xué)碩士論文.
[5] 陳盛紅.基于上下文的Web推薦算法[D].沈陽建筑大學(xué)碩士論文.
[6] 孫克.社交網(wǎng)絡(luò)環(huán)境下移動(dòng)好友推薦系統(tǒng)研究[D].山東師范大學(xué)碩士論文.
[7] 靳婷.基于上下文與面向社會(huì)媒體的信息推薦方法研究[D].復(fù)旦大學(xué)博士論文.
[8] Yan R , Natsev A , Campbell M . Hybrid Tagging and Browsing Approaches for Efficient Manual Image Annotation[J]. IEEE Multimedia, 2009, 16(2):26-41.
【通聯(lián)編輯:梁書】