• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用讀者行為的協(xié)同過(guò)濾推薦方法的研究

      2019-09-09 08:14:53劉宇航
      數(shù)碼世界 2019年5期
      關(guān)鍵詞:推薦算法協(xié)同過(guò)濾公共圖書(shū)館

      劉宇航

      概要:在大數(shù)據(jù)時(shí)代下,越來(lái)越多的公共圖書(shū)館的服務(wù)正在經(jīng)歷由業(yè)務(wù)驅(qū)動(dòng)轉(zhuǎn)型為數(shù)據(jù)驅(qū)動(dòng),傳統(tǒng)的圖書(shū)推薦多由工作人員進(jìn)行整理后推薦。文章提出一個(gè)基于協(xié)同過(guò)濾的推薦算法,利用讀者借閱行為(預(yù)約、借書(shū)、還書(shū))數(shù)據(jù)進(jìn)行分析,構(gòu)建出讀者行為評(píng)分矩陣、圖書(shū)相似矩陣,再利用兩個(gè)矩陣進(jìn)行推薦的方法。結(jié)合廣西壯族自治區(qū)圖書(shū)館業(yè)務(wù)數(shù)據(jù)測(cè)試,該方法確實(shí)可以。

      關(guān)鍵詞:協(xié)同過(guò)濾 讀者行為 公共圖書(shū)館 推薦算法

      引言

      在當(dāng)今大數(shù)據(jù)時(shí)代下,數(shù)據(jù)驅(qū)動(dòng)使得服務(wù)模式發(fā)生變化。公共圖書(shū)館的服務(wù)策略應(yīng)該由傳統(tǒng)的被動(dòng)式服務(wù)轉(zhuǎn)變成主動(dòng)式服務(wù),而主動(dòng)提供服務(wù)的其中一個(gè)特征就是提供推送式推薦服務(wù)。協(xié)同過(guò)濾推薦算法是推薦算法中的經(jīng)典,其實(shí)現(xiàn)通常依賴于構(gòu)建用戶物品評(píng)分矩陣,然后對(duì)用戶偏好或相似物品分析,從而實(shí)現(xiàn)推薦。在此基礎(chǔ)的推薦方式上,衍生出許多分析不同特征實(shí)現(xiàn)推薦的方式。一種是通過(guò)精準(zhǔn)把握讀者興趣偏好,實(shí)現(xiàn)成功推薦是推薦。其是通過(guò)分析資源內(nèi)容和跟蹤讀者在閱讀時(shí)產(chǎn)生的瀏覽行為兩個(gè)維度進(jìn)行相似度匹配,從而實(shí)現(xiàn)成功推薦。但是這種跟蹤讀者瀏覽行為的方式,局限于數(shù)字資源,而面對(duì)實(shí)體文獻(xiàn)資料的推薦就顯得力不從心;一種是通過(guò)分析圖書(shū)語(yǔ)義,既利用LDA計(jì)算圖書(shū)摘要語(yǔ)義建立偏好模型,實(shí)現(xiàn)推薦。這種方式可以利用商業(yè)數(shù)據(jù)庫(kù)等方式輕松獲取該文獻(xiàn)的摘要建立模型,但是,該思想的提出是基于高校圖書(shū)館,兩類圖書(shū)館的定位存在本質(zhì)的不同,因此該算法能否很好的服務(wù)公共圖書(shū)館有待進(jìn)一步的研究。還有一種是基于讀者主動(dòng)標(biāo)記標(biāo)簽進(jìn)行圖書(shū)推薦,根據(jù)讀者對(duì)興趣資源主動(dòng)標(biāo)注,然后利用余弦相似度找到讀者標(biāo)注的臨近標(biāo)簽進(jìn)行資源的推薦。該方法充分利用了讀者的主觀能動(dòng)性,在一段時(shí)間內(nèi)可以較快的推薦出較為準(zhǔn)確的資源,但是從長(zhǎng)遠(yuǎn)來(lái)看,該推薦思路極大的受制于讀者主觀意識(shí),隨著主觀意識(shí)的改變.可能最后回歸成“RSS式”的推薦。

      針對(duì)上述研究所產(chǎn)生的問(wèn)題,本文擬利用一種從多個(gè)維度出發(fā),分析讀者行為的方式進(jìn)行圖書(shū)的推薦。首先找到當(dāng)前圖書(shū)館活躍的讀者,盡可能減少不活躍讀者的行為干擾,然后在根據(jù)活躍讀者的行為習(xí)慣找到合適的推薦該推薦算法所需的數(shù)據(jù)集公共圖書(shū)館易于采集,且該算法從更客觀的角度為讀者推薦圖書(shū),避免了主觀意識(shí)對(duì)推薦結(jié)果的過(guò)分影響,形成“扎堆”推薦。

      1基于讀者行為推薦方法

      1.1 獲取數(shù)據(jù)集

      公共圖書(shū)館面向的讀者群體注定公共圖書(shū)館的讀者人員成分較為復(fù)雜,一些讀者甚至呈現(xiàn)出周期性的變化,因此過(guò)多考慮非活躍讀者和未充分考慮活躍讀者都會(huì)影響推薦的效果。本文通過(guò)讀者借閱行為提出了一套活躍度的計(jì)算方法,獲取單位時(shí)間可供進(jìn)行行為分析的數(shù)據(jù)集。通過(guò)選取合理的數(shù)據(jù)集,可以一定程度上避免不活躍的用戶和刷分的用戶的行為數(shù)據(jù)的干擾,為實(shí)現(xiàn)更為精準(zhǔn)的推薦作保障。

      通過(guò)式l表示出可供分析的數(shù)據(jù)集。Uo表示可供分析的讀者行為的數(shù)據(jù)集,A表示讀者活躍度的平均值,σ表示讀者標(biāo)準(zhǔn)差。

      最后選取正負(fù)一個(gè)標(biāo)準(zhǔn)差內(nèi)的數(shù)據(jù)集作為該讀者可供分析行為的數(shù)據(jù)集。

      1.2 方法的描述

      協(xié)同過(guò)濾算法主要是依據(jù)用戶評(píng)分進(jìn)行推薦的,但本文介紹的是利用讀者行為數(shù)據(jù)進(jìn)行推薦的,因此需要將用戶行為數(shù)據(jù)轉(zhuǎn)換為潛在的評(píng)分。

      (1)行為評(píng)分的生成

      在公共圖書(shū)館讀者行為主要產(chǎn)生在文獻(xiàn)的流通上,而流通的主要行為就是預(yù)約、借閱和續(xù)借。因此通過(guò)選擇合適的顆粒度,可以將借閱時(shí)長(zhǎng)與續(xù)借時(shí)長(zhǎng)轉(zhuǎn)換為具體的評(píng)分,同時(shí)將評(píng)分與該單位時(shí)間的活躍度相乘可得最終評(píng)分,如果用B表示借閱時(shí)長(zhǎng),R表示續(xù)借時(shí)長(zhǎng),P表示允許預(yù)約最大時(shí)限和完成預(yù)約所需時(shí)間的差值,A表示該行為所在時(shí)間段的活躍度,可以得到評(píng)分公式:

      由于并非所有讀者都會(huì)閱讀所有的圖書(shū),且并非所有的圖書(shū)都有讀者進(jìn)行借閱,因此Anm是一個(gè)稀疏矩陣。

      (3)構(gòu)建圖書(shū)相似度矩陣

      公共圖書(shū)館的文獻(xiàn)資料都會(huì)使用分類法進(jìn)行分類,這是判別圖書(shū)分類的一個(gè)比較重要的依據(jù),但僅此判別是遠(yuǎn)遠(yuǎn)不足的,還需要從一些客觀條件進(jìn)行判別。本文還在已進(jìn)行分類的圖書(shū)中,再通過(guò)出版時(shí)間、頁(yè)數(shù)組成三個(gè)維度計(jì)算出閔可夫斯基距離作為相似度的判別依據(jù)。

      由于閔可夫斯基距離計(jì)算結(jié)果大小與相似度成反比,因此為方便后續(xù)計(jì)算,以D表示閔可夫斯基距離,詳見(jiàn)式4,S表示相似度,可得公式:s=1/D。 當(dāng)D無(wú)限趨近于0時(shí),S趨近于l,當(dāng)D趨近于正無(wú)窮時(shí)S趨近于0。本文從三個(gè)維度進(jìn)行計(jì)算,因此在式4中P=3。

      2實(shí)驗(yàn)過(guò)程及討論

      2.1 數(shù)據(jù)來(lái)源與環(huán)境約束

      為驗(yàn)證基于讀者行為的協(xié)同過(guò)濾推薦算法,從廣西壯族自治區(qū)圖書(shū)館近5年的業(yè)務(wù)經(jīng)辦系統(tǒng)部分業(yè)務(wù)數(shù)據(jù)中抽取出實(shí)驗(yàn)數(shù)據(jù)集,部分業(yè)務(wù)經(jīng)辦數(shù)據(jù)有83055個(gè)讀者和5831720條行為記錄,從中隨機(jī)抽取出1000個(gè)讀者作為實(shí)驗(yàn)數(shù)據(jù)集。

      在讀者行為評(píng)分中,活躍度的顆粒度、預(yù)約時(shí)長(zhǎng)、借閱時(shí)長(zhǎng)、續(xù)借時(shí)長(zhǎng)的確定,均是建立在廣西壯族自治區(qū)圖書(shū)館現(xiàn)行制度下?;钴S度顆粒度約定為1個(gè)自然月,單位時(shí)長(zhǎng)約定為12個(gè)月。預(yù)約時(shí)長(zhǎng)、借閱時(shí)長(zhǎng)和續(xù)借時(shí)長(zhǎng)分別約定為7、30和10個(gè)自然日。根據(jù)上述約定,單個(gè)讀者最高評(píng)分 Rating max =A(B+ R+P)=1* (30+ 10+7) =47分,最低分為0分。

      2.2構(gòu)建讀者行為評(píng)分矩陣

      通過(guò)對(duì)數(shù)據(jù)集進(jìn)行計(jì)算出得到用于活躍度的參數(shù)表,如表l。然后根據(jù)活躍度上下限判別讀者行為記錄是否納入計(jì)算,納入范圍的行為記錄記人數(shù)據(jù)集。圖1和圖2分別為讀者有效記錄活躍度的散點(diǎn)圖和抖動(dòng)圖。根據(jù)散點(diǎn)圖可以得到隨機(jī)抽取的有效讀者行為記錄活躍度分布較為平均,以y軸負(fù)方向?yàn)槭諗口厔?shì),符合廣西壯族自治區(qū)圖書(shū)館的讀者行為趨勢(shì),因此隨機(jī)抽取讀者行為樣本具有代表性。

      根據(jù)原始數(shù)據(jù),通過(guò)活躍度和行為評(píng)分的乘積,得到有效的讀者行為評(píng)分,生成矩陣。將實(shí)驗(yàn)數(shù)據(jù)有效的讀者行為評(píng)分通過(guò)熱力圖繪制后,得到圖3。

      2.3 構(gòu)建圖書(shū)相似度矩陣廣西壯族自治區(qū)圖書(shū)館是依據(jù)第五版《中國(guó)圖書(shū)館分類法》進(jìn)行分類,因此將圖書(shū)分類法映射為數(shù)據(jù)作為一個(gè)維度,配合出版年份,頁(yè)數(shù)三個(gè)維度計(jì)算出相似度。

      根據(jù)現(xiàn)有資源庫(kù),隨機(jī)抽取出2000本圖書(shū)(包含上述讀者行為關(guān)系的圖書(shū)),構(gòu)建出相似矩陣。由于相似矩陣龐大,此處采用MysoL數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。將抽取的樣本數(shù)目的閔可夫斯基距離繪制成熱力圖(如圖4),橫坐標(biāo)軸和縱坐標(biāo)軸表示2000本書(shū)目映射編號(hào)。由于橫縱坐標(biāo)均相同,因此矩陣呈明顯對(duì)稱性。

      2.4生成推薦矩陣

      在獲取了行為評(píng)分矩陣和相似度矩陣的基礎(chǔ)上,可以將兩個(gè)矩陣相乘,所得的乘積就是加權(quán)評(píng)分,而分?jǐn)?shù)高的就是推薦矩陣。此處通過(guò)SQLAlchemy創(chuàng)建數(shù)據(jù)庫(kù)表模型,再利用python的numpy庫(kù)完成兩個(gè)矩陣的相乘得到推薦矩陣。以橫坐標(biāo)軸為圖書(shū)映射編號(hào),縱坐標(biāo)軸為讀者映射編號(hào)繪制出推薦矩陣熱力圖(如圖5所示)。

      每個(gè)讀者根據(jù)預(yù)先設(shè)置好的閾值,可以從推薦矩陣中找到超過(guò)閾值的圖書(shū),然后將這類圖書(shū)推送給對(duì)應(yīng)讀者,即可實(shí)現(xiàn)圖書(shū)的推薦。

      3結(jié)語(yǔ)

      個(gè)性圖書(shū)的推薦屬于是未來(lái)的發(fā)展趨勢(shì),本方法能夠利用讀者群體自身的行為動(dòng)作建立數(shù)據(jù)模型,在根據(jù)此模型對(duì)其他相似讀者進(jìn)行推薦。下一步將對(duì)讀者異常行為(預(yù)期、損壞等)等動(dòng)作進(jìn)行分析,完善推薦模型。

      參考文獻(xiàn)

      [1]景民昌,于迎輝,基于借閱時(shí)間評(píng)分的協(xié)同圖書(shū)推薦模型與應(yīng)用[J].圖書(shū)情報(bào)工作,2012,56(03):117-120.

      [2]嚴(yán)凡,張霽月.基于圖書(shū)語(yǔ)義信息的推薦方法研究[J].圖書(shū)館學(xué)研究,2018(21):40-45.

      [3]向菲,彭昱欣,邰楊芳,一種基于協(xié)同過(guò)濾的圖書(shū)資源標(biāo)簽推薦方法研究[J].圖書(shū)館學(xué)研究,2018(15):46-52.

      [4]DeGang Xu,Pan-Lei Zhao.Chun-Hua Yang,WeiHuaGui.Jian-Jun He.A Novel Minkowski-distance-based ConsensusClustering AlgorithmLJl.lnternational Journal of Automation andConlputing,2017,14(01):33-44.

      猜你喜歡
      推薦算法協(xié)同過(guò)濾公共圖書(shū)館
      基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過(guò)濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
      基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過(guò)濾推薦算法研究
      社交網(wǎng)絡(luò)推薦系統(tǒng)
      基于協(xié)同過(guò)濾算法的個(gè)性化圖書(shū)推薦系統(tǒng)研究
      混合推薦算法在電影推薦中的研究與評(píng)述
      MOOC時(shí)代公共圖書(shū)館服務(wù)探索研究
      一種改進(jìn)的基于位置的推薦算法
      互聯(lián)網(wǎng)時(shí)代公共圖書(shū)館引領(lǐng)社會(huì)閱讀舉措探析
      公共圖書(shū)館延伸服務(wù)的實(shí)踐與思考
      科技視界(2016年21期)2016-10-17 19:33:29
      談公共圖書(shū)館如何建立自助服務(wù)推廣長(zhǎng)效機(jī)制
      商(2016年27期)2016-10-17 06:34:33
      大城县| 和林格尔县| 巴林左旗| 得荣县| 辛集市| 汾阳市| 秦皇岛市| 正阳县| 灵台县| 南开区| 万年县| 梁平县| 长海县| 庐江县| 阆中市| 美姑县| 银川市| 桐乡市| 浙江省| 杨浦区| 肥西县| 阳新县| 芦溪县| 余干县| 江华| 蒙城县| 靖宇县| 隆德县| 舒城县| 云南省| 阿巴嘎旗| 和政县| 皮山县| 齐齐哈尔市| 建湖县| 洮南市| 鄯善县| 集安市| 陆丰市| 绩溪县| 怀化市|