• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      信息繭房與準(zhǔn)確率:基于復(fù)合型算法的個(gè)性化模擬推薦系統(tǒng)

      2020-01-18 05:52:02嚴(yán)宇橋張蔚坪
      電子技術(shù)與軟件工程 2019年24期
      關(guān)鍵詞:繭房準(zhǔn)確率文本

      文/嚴(yán)宇橋 張蔚坪

      隨著智媒時(shí)代的到來(lái),以算法型信息分發(fā)技術(shù)滲透到了各個(gè)媒體當(dāng)中。算法推送帶來(lái)的收益和效果正在影響各行各業(yè),也引起了媒介研究的興趣。算法與傳媒業(yè)的深度融合,不斷形塑著傳媒業(yè)的實(shí)踐,同時(shí)也給傳播倫理造成了相當(dāng)大的影響。本文在分析算法型信息分發(fā)的主要推薦機(jī)制基礎(chǔ)上,指出了在實(shí)際的研究中,算法推薦的準(zhǔn)確率如何衡量的一種方法,并結(jié)合了協(xié)同過(guò)濾和文本分析兩種主流推薦機(jī)制設(shè)計(jì)了基于復(fù)合型推薦算法的模擬個(gè)性化信息推薦系統(tǒng)。

      1 算法信息分發(fā)的推薦機(jī)制綜述

      對(duì)于推薦系統(tǒng),最重要的任務(wù)是連接信息和用戶之間的關(guān)系。該系統(tǒng)應(yīng)幫助用戶找到對(duì)他們有價(jià)值的信息,同時(shí)讓該信息在感興趣的用戶面前顯示和推薦,從而達(dá)到信息消費(fèi)與生產(chǎn)雙贏的局面。當(dāng)前,推薦系統(tǒng)主要有三種推薦模式:基于協(xié)同過(guò)濾的推薦,基于關(guān)聯(lián)規(guī)則的推薦和基于文本的推薦。

      對(duì)于協(xié)同過(guò)濾推薦來(lái)說(shuō),最基本的策略是計(jì)算用戶之間的相似度,例如余弦相似度。根據(jù)相似度排序,設(shè)置相似度閾值或設(shè)置最近鄰閾值,選擇一定數(shù)量的用戶,并讓這些用戶評(píng)估的產(chǎn)品形成候選集,對(duì)這些項(xiàng)目進(jìn)行加權(quán)以計(jì)算分?jǐn)?shù),最后排序,向用戶推薦評(píng)分最高的項(xiàng)目。

      公式(1)余弦相似度計(jì)算方法

      但是,基于內(nèi)存的協(xié)同過(guò)濾推薦的問(wèn)題在于它們過(guò)于依賴歷史數(shù)據(jù)庫(kù)。歷史數(shù)據(jù)庫(kù)是系統(tǒng)中整個(gè)推薦功能的原始資料。當(dāng)缺乏數(shù)據(jù)資料時(shí),將出現(xiàn)一系列的問(wèn)題,諸如冷啟動(dòng)結(jié)果不令人滿意,以及推薦的準(zhǔn)確性降低等。

      基于內(nèi)容的推薦是基于用戶歷史項(xiàng)提取,過(guò)濾和生成文本信息特征模型,并最終向用戶推薦類似于歷史瀏覽文本內(nèi)容的信息。該算法在提取和分析文本信息的特征方面比較擅長(zhǎng),但是在非結(jié)構(gòu)化數(shù)據(jù)的分析能力方面存在缺陷?;陉P(guān)聯(lián)規(guī)則的推薦基于用戶的歷史資料,以挖掘用戶數(shù)據(jù)背后的相關(guān)關(guān)聯(lián),從而為用戶的潛在需求分析提供推薦。

      綜上所述,這三種方法都有一定程度的局限性,每種方法都有一些難以解決的問(wèn)題。目前,商業(yè)算法處理方法使用復(fù)合推薦方法進(jìn)行推薦。

      2 信息繭房的爭(zhēng)論與自變量缺失:如何從量化上評(píng)估算法推薦效果?

      伴隨信息量的激增和網(wǎng)絡(luò)技術(shù)的日益普及,每個(gè)人對(duì)于關(guān)注的話題都可以自主選擇。桑斯坦認(rèn)為,這種技術(shù)趨勢(shì)將導(dǎo)致“信息繭房”的問(wèn)題,導(dǎo)致觀念封閉甚至兩極分化,這將造成非理性的極端主義。在傳統(tǒng)媒體時(shí)代,媒體組織向大眾傳播新聞,受眾意識(shí)不強(qiáng)?;谒惴ㄍ扑]的內(nèi)容分發(fā)以用戶的個(gè)人特征為標(biāo)準(zhǔn)在技術(shù)層面上篩選信息,并向用戶推薦與其價(jià)值觀,偏好和個(gè)人興趣相匹配的信息,形成了``一千個(gè)人就有一千個(gè)哈姆雷特的''內(nèi)容消費(fèi)形式。近年來(lái)相關(guān)專家學(xué)者對(duì)于“信息繭房”的討論越來(lái)越激烈。傳統(tǒng)媒介倫理和媒介道德的鼓吹者認(rèn)為,算法推送導(dǎo)致的用戶接受信息的窄化是導(dǎo)致近年來(lái)群體極化的罪魁禍?zhǔn)?,而愈演愈烈的輿論極端化事件和輿論反轉(zhuǎn)現(xiàn)象就是他們的佐證。然而以喻國(guó)明為主要代表的技術(shù)樂(lè)觀主義者則堅(jiān)持稱,信息偏食現(xiàn)象從傳播現(xiàn)象開(kāi)始時(shí)就有,并非算法推送帶來(lái)的問(wèn)題。

      如果需要從研究方面解決目前關(guān)于“信息繭房”的爭(zhēng)論,就需要研究“算法推薦的進(jìn)步”這個(gè)變量會(huì)對(duì)用戶產(chǎn)生何種效果。對(duì)于因果關(guān)系的證明,最有效的方法是通過(guò)實(shí)驗(yàn)室控制變量的實(shí)驗(yàn)來(lái)解決。從目前的研究中相關(guān)性研究居多而缺乏因果關(guān)系的討論來(lái)看,這個(gè)問(wèn)題還缺乏一個(gè)切實(shí)有效的研究工具。二戰(zhàn)以來(lái),效果研究都是心理學(xué)、傳播學(xué)等主流社會(huì)科學(xué)研究的議題,因此并不缺少該問(wèn)題的因變量操作工具。但是,因此人們無(wú)法將“算法推薦”這個(gè)自變量進(jìn)行量化,由此來(lái)看,如何將算法推薦作出有效的量化計(jì)算,是研究該問(wèn)題的關(guān)鍵。因此,本研究就圍繞著這一問(wèn)題設(shè)計(jì)了能夠有效將該變量操作化的工具。

      3 推薦水平評(píng)測(cè):程序設(shè)計(jì)的理論依據(jù)及程序用途

      信息推薦水平如何去測(cè)量和評(píng)價(jià),是評(píng)測(cè)工具上的技術(shù)難點(diǎn)。比如,在用戶數(shù)量遠(yuǎn)大于產(chǎn)品數(shù)量的系統(tǒng)上,基于協(xié)同過(guò)濾算法的用戶反饋很高;否則,它很低。相關(guān)的影響因素還包括評(píng)分量表和稀疏性,以及評(píng)估數(shù)據(jù)集其他特征的目的。但是,大多數(shù)推薦系統(tǒng)可以使用準(zhǔn)確性來(lái)評(píng)估推薦算法的級(jí)別。假設(shè)用戶可以檢查所有產(chǎn)品的信息,并可以根據(jù)其對(duì)產(chǎn)品的偏好對(duì)產(chǎn)品分類,則準(zhǔn)確度可以定義為推薦算法的預(yù)測(cè)排名與用戶的實(shí)際排名的接近程度。包含準(zhǔn)確率和召回率的分類準(zhǔn)確度指標(biāo)在計(jì)算機(jī)領(lǐng)域應(yīng)用最為廣泛。其具體計(jì)算方法采用Billsusd的邏輯,Billsusd也是率先準(zhǔn)確度與召回率引入到推薦系統(tǒng)的評(píng)價(jià)中的學(xué)者。

      例如,整個(gè)平臺(tái)中所有的產(chǎn)品數(shù)量為N,被推薦給用戶產(chǎn)品的總數(shù)為Ns,其中Ns=Nrs+Nis,Nrs和Nis分別為在被推薦產(chǎn)品中,用戶喜歡的產(chǎn)品數(shù)量與不喜歡的產(chǎn)品數(shù)量。相應(yīng)地,Nrn和Nin分別為未被推薦產(chǎn)品中用戶喜歡和不喜歡的產(chǎn)品數(shù)。

      綜上所述,準(zhǔn)確率的計(jì)算就應(yīng)當(dāng)是:P=N(用戶喜歡的產(chǎn)品數(shù)量)/N(所有向用戶呈現(xiàn)的產(chǎn)品的數(shù)量)。

      也就是說(shuō),對(duì)于一個(gè)算法推送式的平臺(tái),可以將個(gè)性化水平也就是準(zhǔn)確率分解成:(準(zhǔn)確率=用戶喜好的信息條數(shù)/用戶看到的信息總條數(shù))

      因此,本研究的自變量和因變量分解就是:

      自變量:個(gè)性化推送的準(zhǔn)確率

      因變量:點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)、轉(zhuǎn)發(fā)情況(數(shù)量、關(guān)系等)

      4 本程序的設(shè)計(jì)邏輯及用戶界面

      因此,本程序使用java環(huán)境進(jìn)行開(kāi)發(fā),設(shè)置出可調(diào)節(jié)準(zhǔn)確率的用戶文本庫(kù)??傮w來(lái)說(shuō)程序設(shè)計(jì)思路是:輸入用戶興趣的關(guān)鍵詞語(yǔ),進(jìn)行文本匹配以及協(xié)同過(guò)濾生成偏好關(guān)鍵詞,根據(jù)關(guān)鍵詞在微博進(jìn)行搜索并爬取文本或圖片信息,制作成信息庫(kù)。最終用戶瀏覽信息庫(kù)文本、并利用虛擬按鍵統(tǒng)計(jì)用戶的行為。在本系統(tǒng)中,操作信息推薦水平只需要操作:相關(guān)信息與無(wú)關(guān)信息的比例即可。

      如圖1,首先以python為開(kāi)發(fā)語(yǔ)言,在以Google Crome瀏覽器中進(jìn)行的微博搜索中嵌套了一個(gè)用戶頭部信息的儲(chǔ)存機(jī)制,實(shí)現(xiàn)用戶信息的“冷啟動(dòng)”。第二步是整個(gè)程序設(shè)計(jì)的關(guān)鍵一步,也就是基于用戶個(gè)人偏好數(shù)據(jù)的挖掘和主體實(shí)驗(yàn)材料的生成。主體流程就是:根據(jù)興趣標(biāo)簽、搜索歷史、點(diǎn)開(kāi)的鏈接等進(jìn)行個(gè)性化特征采集,形成基于協(xié)同過(guò)濾和文本匹配的用戶特征,再在全網(wǎng)文本上采集與該特征相符合的信息。在此之后,隨機(jī)在網(wǎng)上采集排除掉相關(guān)特征的信息,然后二者按比例混合,生成不同準(zhǔn)確率下根據(jù)個(gè)人興趣愛(ài)好的可操作實(shí)驗(yàn)資料庫(kù)。第三步是總體的實(shí)驗(yàn)界面。第一步測(cè)過(guò)的用戶依次再次進(jìn)入實(shí)驗(yàn)室,這次就讓他們查看已經(jīng)根據(jù)他們之前的用戶習(xí)慣編好的資料庫(kù),然后不計(jì)時(shí),只統(tǒng)計(jì)下不同比例的資料庫(kù)中,被試的傳播行為和傳播偏向。

      最后將這三個(gè)步驟統(tǒng)一起來(lái),展示的界面能夠查看視頻和圖片,并且可以實(shí)時(shí)進(jìn)行關(guān)鍵詞聯(lián)想,最終整合成為一個(gè)在線測(cè)試系統(tǒng)呈現(xiàn)給被試,如圖2。

      經(jīng)過(guò)與《被試情感傾向量表》、《批判性思維量表》等因變量研究工具結(jié)合,本系統(tǒng)已經(jīng)得到驗(yàn)證可以平穩(wěn)進(jìn)行并準(zhǔn)確記錄行為數(shù)據(jù)。該系統(tǒng)可以通過(guò)控制推薦信息的準(zhǔn)確率,來(lái)將算法推薦水平做出量化操作,可以以此為自變量觀測(cè)用戶的行為數(shù)據(jù)、認(rèn)知數(shù)據(jù)和用戶態(tài)度的改變等。同時(shí)該系統(tǒng)可以對(duì)接大多數(shù)心理學(xué)和用戶體驗(yàn)量表,使得研究者能夠在實(shí)驗(yàn)室環(huán)境測(cè)量算法推薦的準(zhǔn)確率造成的用戶效果上的影響,從而為解決技術(shù)倫理層面爭(zhēng)論多年的“信息繭房”命題提供了一種可用的研究工具。

      圖1:程序設(shè)計(jì)邏輯示意圖

      圖2:用戶界面與操作設(shè)計(jì)

      猜你喜歡
      繭房準(zhǔn)確率文本
      用戶行為視角下信息繭房“形成-演化-突破”一體化建模與仿真研究
      被夸大的“信息繭房”
      信息繭房
      輪椅總裁與“繭房”姑娘,十萬(wàn)公里的愛(ài)穿越生死
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      太仓市| 霍山县| 淅川县| 克什克腾旗| 高雄县| 台南市| 玉山县| 天台县| 托克逊县| 松潘县| 沙雅县| 大厂| 巴林右旗| 鹿泉市| 夏津县| 紫金县| 确山县| 北安市| 汨罗市| 惠来县| 玉溪市| 和田县| 昂仁县| 武穴市| 丽江市| 耒阳市| 和平区| 沁阳市| 朝阳区| 宁强县| 宜春市| 深泽县| 淳化县| 乐至县| 武隆县| 西华县| 绥棱县| 大足县| 鱼台县| 贺兰县| 昆山市|