• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    定向推薦在文本人工標(biāo)注中的應(yīng)用

    2019-05-22 10:27:32汪悅
    電腦知識(shí)與技術(shù) 2019年6期
    關(guān)鍵詞:定量分析

    汪悅

    摘要:隨著網(wǎng)絡(luò)帶寬的增加以及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,信息載體由文本漸漸過渡為視頻圖像等,為了方便人們能夠更快更好地訪問和檢索視頻圖像,針對(duì)目前手工標(biāo)注過于繁瑣并且時(shí)間過長的問題,該系統(tǒng)希望通過目前流行的推薦系統(tǒng)和reCAPTCHA系統(tǒng),對(duì)于各個(gè)用戶的擅長點(diǎn)進(jìn)行分析并隨著標(biāo)注數(shù)量的累積進(jìn)行調(diào)整,同時(shí)基于人體的耐受性,將部分難于標(biāo)注的圖像加載在容易標(biāo)注的圖片中,減少無法標(biāo)注的圖片數(shù)量,來達(dá)到縮短標(biāo)注時(shí)間的目的。

    關(guān)鍵詞:手工標(biāo)注;基于內(nèi)容的推薦;定量分析;基于人體生理機(jī)能的加推

    中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)06-0183-03

    隨著網(wǎng)絡(luò)帶寬的增加以及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,信息載體由文本漸漸過渡為視頻圖像等,使人們可以更為直觀的了解信息。為了方便人們能夠更快更好地訪問和檢索視頻圖像,目前所廣泛采用的解決方案是對(duì)其進(jìn)行標(biāo)注。當(dāng)前所采用的兩類典型標(biāo)注方法為:手動(dòng)標(biāo)注和自動(dòng)標(biāo)注。

    自動(dòng)標(biāo)注就是由程式自動(dòng)檢測(cè)圖像或視頻中的關(guān)鍵字并進(jìn)行標(biāo)注,在過去的十多年中,該項(xiàng)方法吸引了大批研究人員的興趣也取得了顯著的成功,但是無法否認(rèn)的是自動(dòng)標(biāo)注的準(zhǔn)確性以及相關(guān)性仍然無法完全達(dá)到人們檢索的需求。

    而相對(duì)準(zhǔn)確性較高的手動(dòng)標(biāo)注的圖像語義標(biāo)注方式存在著兩大難題:一是在標(biāo)注大量的圖像時(shí),完全用手工方法標(biāo)注,工作量太大,時(shí)間過長;二是由于用戶對(duì)圖像的理解不同,文本注解存在不可避免的主觀性和不精確性。

    近年來,由于人工標(biāo)注在組織和檢索的高質(zhì)量,越來越多的組織和團(tuán)體采用人工標(biāo)注來管理多媒體數(shù)據(jù)。針對(duì)手工標(biāo)注過于繁瑣并且時(shí)間過長的問題,本文提出一種新的標(biāo)注系統(tǒng)來縮短標(biāo)注時(shí)間。

    1 推薦系統(tǒng)概述

    20世紀(jì)90年代中期出現(xiàn)關(guān)于協(xié)同過濾技術(shù)的文章之后,推薦系統(tǒng)開始作為一門獨(dú)立的學(xué)科得到系統(tǒng)研究,并逐漸成為緩解“信息過載”的有效手段之一。推薦系統(tǒng)通過建立用戶與項(xiàng)目之間的二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每個(gè)用戶潛在感興趣的對(duì)象,進(jìn)而進(jìn)行個(gè)性化推薦。

    從信息過濾的角度,目前推薦系統(tǒng)主要分為以下幾種:

    (1) 協(xié)同過濾推薦:基于“集體智慧”的思想,通過與當(dāng)前用戶相似的其他用戶偏好來預(yù)測(cè)當(dāng)前用戶的偏好。

    (2) 基于內(nèi)容的推薦:根據(jù)用戶偏好的方向,利用已有的分類技術(shù)和概率統(tǒng)計(jì)模型,選擇其他類似的項(xiàng)目作為推薦。

    (3) 混合推薦:混合推薦主要是為了解決單一推薦技術(shù)的不足,按照不同的混合策略,將不同的推薦技術(shù)進(jìn)行組合并完成推薦。

    2 推薦系統(tǒng)在圖像標(biāo)注上的應(yīng)用

    圖像標(biāo)注推薦系統(tǒng)采用基于內(nèi)容的推薦。

    總體來看,基于內(nèi)容的上下文感知推薦生成技術(shù)的優(yōu)點(diǎn)在于:能夠充分利用現(xiàn)有成熟的分類技術(shù)、概率統(tǒng)計(jì)模型,來發(fā)現(xiàn)用戶在不同的上下文條件下對(duì)項(xiàng)目屬性類別的偏好;并不存在“新項(xiàng)目”問題,推薦結(jié)果比較直觀、易于理解等。其缺點(diǎn)在于:分析內(nèi)容有限和有效上下文選擇(涉及特征選擇問題)、推薦范圍過窄、新用戶問題、多維上下文條件約束下的相似度匹配計(jì)算等。

    基于上文假定,我們對(duì)于要標(biāo)注的關(guān)鍵字已經(jīng)給定,同時(shí)為了避免用戶由于采用的詞匯不同而導(dǎo)致的標(biāo)注分類過于分散,不利于檢索,或者由于中文詞匯的定義模糊而導(dǎo)致結(jié)果差異,我們事先對(duì)于關(guān)鍵字的標(biāo)注方向給出分類定義,且圖片集已經(jīng)做過初步篩選,并且由系統(tǒng)獲取用戶標(biāo)注各個(gè)關(guān)鍵字的時(shí)間,然后通過統(tǒng)計(jì)分析用戶關(guān)鍵字的標(biāo)注時(shí)間,來判斷用戶可能擅長的方向,故基于內(nèi)容的推薦缺點(diǎn)并不影響其在圖像標(biāo)注推薦系統(tǒng)中的使用。

    3 圖像標(biāo)注推薦系統(tǒng)的概述

    我們可將圖像標(biāo)注推薦系統(tǒng)流程整理歸納為以下4個(gè)階段:

    (1) 數(shù)據(jù)定義及收集:定義用戶、關(guān)鍵字集合、標(biāo)注分類定義、收集用戶標(biāo)注時(shí)間等相關(guān)數(shù)據(jù);

    (2) 用戶擅長提?。航y(tǒng)計(jì)分析用戶擅長的關(guān)鍵字或方向,生成推薦結(jié)果;

    (3) 基于人體生理機(jī)能的加推:對(duì)于那些所有用戶都不擅長標(biāo)注的圖片,隨機(jī)添加在用戶擅長的圖片中;

    (4) 評(píng)價(jià)與自適應(yīng)改進(jìn):采用合適的效用評(píng)價(jià)指標(biāo)對(duì)推薦效果進(jìn)行評(píng)價(jià),并根據(jù)評(píng)價(jià)結(jié)果發(fā)現(xiàn)問題和改進(jìn)。

    3.1 數(shù)據(jù)定義及收集

    按照Adomavicius 等人給出推薦系統(tǒng)的形式化定義,在圖像標(biāo)注前定義標(biāo)注的要素,設(shè)G表示用戶集合,S表示需要本次標(biāo)注的關(guān)鍵字集合(如:顏色、車型、車標(biāo)等),且對(duì)于標(biāo)注關(guān)鍵字的要素進(jìn)行設(shè)定,既可以避免由于要素及關(guān)鍵字語言表述輕微偏差導(dǎo)致的統(tǒng)計(jì)結(jié)果偏差,又可以減少標(biāo)注時(shí)間。設(shè)置效用函數(shù)u表示用戶對(duì)于要素的熟練度,由計(jì)算機(jī)進(jìn)行用戶標(biāo)注時(shí)間數(shù)據(jù)的收集,則噪聲系數(shù)降到最低且隨機(jī)存在。

    3.2 用戶擅長提取

    該系統(tǒng)要找到用戶最熟練的關(guān)鍵字及其標(biāo)注分類定義組,加快標(biāo)注的速度,縮短整體標(biāo)注時(shí)間。

    一般認(rèn)為,偏好(preference)用于描述決策者對(duì)兩個(gè)或多個(gè)項(xiàng)目的排序關(guān)系。本文關(guān)注點(diǎn)為用戶即標(biāo)注人員的偏好即擅長方向。目前,上下文用戶偏好提取技術(shù)主要有兩種研究思路:定量分析和定性分析。

    其中,定量研究上下文用戶偏好提取技術(shù),是指使用數(shù)字評(píng)分量化表示上下文用戶偏好,并設(shè)計(jì)偏好提取方法進(jìn)行數(shù)學(xué)計(jì)算。目前,在上下文用戶偏好量化表示方面,主要采用多維向量評(píng)分模型和層次模型。

    圖像標(biāo)注推薦系統(tǒng)在定量分析的基礎(chǔ)上,采用基于決策樹的用戶偏好提取,以標(biāo)注時(shí)間作為衡量基準(zhǔn),按照預(yù)先給定的關(guān)鍵字及其要素分類定義,對(duì)于各用戶的標(biāo)注時(shí)間建立多維矩陣組。

    3.3 基于人體生理機(jī)能的加推

    考慮到存在標(biāo)注人員有群體偏向的可能性,導(dǎo)致需標(biāo)注的圖片庫中仍有剩余圖片?;谏衔牡耐普?,假設(shè)已經(jīng)篩選出的圖片為M,則剩下的圖片數(shù)量為N-M。如果將剩下的N-M的圖片,全部沉底按比例分配給各個(gè)標(biāo)注人員,則由于人存在心理及生理疲勞點(diǎn),當(dāng)標(biāo)注圖片難以判斷過多,可能存在標(biāo)注過程關(guān)注力降低,導(dǎo)致降低準(zhǔn)確率。

    reCAPTCHA技術(shù)是利用CAPTCHA的原理,借助于人腦對(duì)難以識(shí)別的字符進(jìn)行辨別的技術(shù),我們同樣也可借鑒其原理,來對(duì)于難于識(shí)別的圖片進(jìn)行分類,即將簡單易識(shí)別的圖片和難于識(shí)別的圖片放在一處,避免標(biāo)注人員在處理過程中由于心理因素而影響標(biāo)注的準(zhǔn)確率和效率。

    假定G表示用戶集合,每個(gè)用戶的所分配的圖片為Mg,已經(jīng)篩選出的圖片為M,即

    3.4 評(píng)價(jià)與自適應(yīng)改進(jìn)

    在進(jìn)行標(biāo)注的過程中對(duì)標(biāo)注推薦系統(tǒng)性能進(jìn)行評(píng)價(jià)時(shí) , 指標(biāo)主要針對(duì)標(biāo)注的準(zhǔn)確性,以及標(biāo)注的熟練程度,即標(biāo)注的時(shí)間的長短。隨著標(biāo)注時(shí)間的累積統(tǒng)計(jì),調(diào)整圖片推薦的方向,由系統(tǒng)自適應(yīng)進(jìn)行改進(jìn)達(dá)到更好的推薦效果。

    此外,還可還將用戶滿意度作為評(píng)價(jià)指標(biāo),此時(shí)需要用戶對(duì)推薦效果給出主觀評(píng)價(jià)。

    隨著時(shí)間的推移且統(tǒng)計(jì)數(shù)據(jù)的完善,用戶的擅長方向會(huì)發(fā)生變換,故針對(duì)要素關(guān)鍵字的聚類結(jié)果需要累計(jì)疊加,其得出的結(jié)果較單次分析結(jié)果更接近真實(shí)用戶的擅長方向。

    4 總結(jié)語

    綜上所述,本系統(tǒng)在綜合考慮標(biāo)注熟練度以及人體的耐受性,通過目前流行的推薦系統(tǒng)和reCAPTCHA系統(tǒng),將用戶最熟練的關(guān)鍵字及其標(biāo)注分類推送給用戶,部分難于標(biāo)注的圖像加載在容易標(biāo)注的圖片中,減少無法標(biāo)注的圖片數(shù)量,來達(dá)到縮短標(biāo)注時(shí)間的目的。

    參考文獻(xiàn):

    [1] 王立才, 孟祥武, 張玉潔.上下文感知推薦系統(tǒng)[J].軟件學(xué)報(bào),2012,23(1):1-20.

    [2] 孟祥武, 胡勛, 王立才, 張玉潔.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.

    [3] 王立才.上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[J].北京郵電大學(xué)博士論文.

    [4] 林亮亮.基于本體的用戶個(gè)性化檢索模型構(gòu)造研究[D].西安郵電大學(xué)碩士論文.

    [5] 陳盛紅.基于上下文的Web推薦算法[D].沈陽建筑大學(xué)碩士論文.

    [6] 孫克.社交網(wǎng)絡(luò)環(huán)境下移動(dòng)好友推薦系統(tǒng)研究[D].山東師范大學(xué)碩士論文.

    [7] 靳婷.基于上下文與面向社會(huì)媒體的信息推薦方法研究[D].復(fù)旦大學(xué)博士論文.

    [8] Yan R , Natsev A , Campbell M . Hybrid Tagging and Browsing Approaches for Efficient Manual Image Annotation[J]. IEEE Multimedia, 2009, 16(2):26-41.

    【通聯(lián)編輯:梁書】

    猜你喜歡
    定量分析
    定量分析的特點(diǎn)及其重要性
    大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索
    FTA在工業(yè)氣體探測(cè)報(bào)警系統(tǒng)中的應(yīng)用
    商務(wù)英語詞匯量與商務(wù)英語閱讀能力相關(guān)性研究
    國外藝術(shù)體操科研現(xiàn)狀
    基于層次分析法的電力公司財(cái)務(wù)風(fēng)險(xiǎn)評(píng)價(jià)
    基于實(shí)時(shí)熒光PCR的鵝鴨混合絨定量檢測(cè)
    表面增強(qiáng)拉曼光譜法定量檢測(cè)食品中香豆素
    我國風(fēng)險(xiǎn)分析方法的文獻(xiàn)計(jì)量學(xué)分析
    秦皇島近岸海域浮游植物調(diào)查
    清远市| 公安县| 鹤山市| 梁山县| 阳西县| 江油市| 开远市| 芦山县| 崇礼县| 佛学| 兰州市| 涿鹿县| 景东| 永修县| 阿荣旗| 武邑县| 伊宁县| 眉山市| 崇左市| 华安县| 嵩明县| 广饶县| 射阳县| 宣化县| 周宁县| 昭苏县| 镇江市| 湛江市| 宁陕县| 泰和县| 离岛区| 潢川县| 长丰县| 弥勒县| 甘肃省| 应用必备| 北票市| 崇阳县| 交口县| 泰安市| 潜山县|