• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用Apache Mahout改善圖書館OPAC系統(tǒng)在大數(shù)據(jù)環(huán)境中用戶體驗的實踐

      2015-05-10 08:41:14
      圖書館研究 2015年3期
      關(guān)鍵詞:個性化圖書電商

      周 強

      (深圳圖書館,廣東 深圳 518036)

      1 傳統(tǒng)OPAC在大數(shù)據(jù)環(huán)境中面臨的困境

      傳統(tǒng)的OPAC是隨著20世紀(jì)80年代開始的圖書館自動化系統(tǒng)一同出現(xiàn)的,基于當(dāng)時的技術(shù)條件和圖書館不多的館藏資源,一般是瀏覽式展示和根據(jù)用戶輸入檢索詞獲得檢索結(jié)果,相對于之前的卡片查詢,OPAC極大地方便了讀者。但隨著社會的發(fā)展,圖書館館藏資源數(shù)量爆發(fā)式增長,讀者閱讀需求個性化、多元化越來越明顯,傳統(tǒng)OPAC面對越來越多的困境:

      (1)由于圖書館館藏量的快速增加,OPAC往往展示給讀者幾十甚至是幾百條記錄,大量的檢索結(jié)果對讀者獲取想要的信息并沒有多大幫助;更糟糕的是大量的檢索結(jié)果按照書名的拼音順序或者出版時間排序,讀者只有一頁一頁瀏覽,才能發(fā)現(xiàn)所要查找的文獻。這無意中為用戶利用OPAC獲取信息資源設(shè)置了障礙,影響了用戶使用的便利性和實效性[1]。

      (2)OPAC個性化服務(wù)程度不高,智能化服務(wù)內(nèi)容不多。讀者需要填寫檢索詞,才能利用OPAC檢索系統(tǒng),但讀者很多時候并不明確知道自己想看什么,只想找到自己感興趣的書。目前的OPAC并不能全面客觀地分析讀者的信息需求,對各種信息資源進行過濾,把用戶所需要的信息資源提供給用戶[2]。

      傳統(tǒng)的OPAC已經(jīng)無法滿足讀者越來越高的要求,如何走出困境,提高服務(wù)質(zhì)量,更好地為讀者提供服務(wù),成了圖書館界亟需解決的一個問題?;ヂ?lián)網(wǎng)電商從誕生之日就面臨海量的商品信息與用戶,其個性化推薦服務(wù)可被圖書館借鑒,進而有助于解決這個問題。

      2 個性化推薦系統(tǒng)在圖書類電商中的應(yīng)用

      什么是個性化推薦系統(tǒng)?簡單地說,個性化推薦能幫助網(wǎng)站根據(jù)用戶的歷史行為(如搜索、瀏覽、評論和購買等),推測出用戶可能感興趣的內(nèi)容并向其推薦[3]。推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,避免顧客因信息過載問題而瀏覽大量無關(guān)的信息和產(chǎn)品,花費大量時間才能找到自己需要的商品

      目前,個性化推薦系統(tǒng)在電子商務(wù)網(wǎng)站運用非常普遍,已經(jīng)逐漸成為一種標(biāo)準(zhǔn)配置。它是建立在大數(shù)據(jù)基礎(chǔ)上的一種高級商務(wù)智能平臺,幫助電子商務(wù)網(wǎng)站為其顧客提供完全個性化的決策支持和信息服務(wù)。有研究表明,使用個性化推薦能幫助電商網(wǎng)站提高2%~8%的銷售額。圖書類電商網(wǎng)站也順應(yīng)了這一潮流,紛紛設(shè)置了個性化推薦的相關(guān)板塊。據(jù)VentureBeat統(tǒng)計,個性化推薦系統(tǒng)的使用為亞馬遜提供了35%的銷售額。

      在電商系統(tǒng)中,與圖書館OPAC最相近的是圖書類電商,可以通過分析圖書類電商在個性化推薦應(yīng)用方面的特點和優(yōu)勢,發(fā)現(xiàn)解決傳統(tǒng)OPAC現(xiàn)存問題的途徑和方案。

      目前,圖書類電商通常將個性化服務(wù)細分為多種推薦小板塊。這些板塊從實現(xiàn)途徑分為3類:①基于用戶的共同興趣的推薦板塊。這類板塊主要通過相同的歷史行為推斷用戶存在共同興趣,向用戶推薦與之有相同興趣用戶的瀏覽、閱讀或購買行為。如當(dāng)當(dāng)網(wǎng)的“閱讀此書的人喜歡的其他圖書”。實現(xiàn)這一類推薦需要記錄用戶的歷史行為數(shù)據(jù),不需要對圖書進行分類。②基于用戶自身歷史行為推測用戶的興趣點的推薦板塊。這類板塊通常根據(jù)用戶搜索、瀏覽、購買圖書的行為來推測其興趣,從而向其推薦可能感興趣的同類圖書,是目前最流行和最精確的推薦方式。如亞馬遜的“您可能還喜歡”。實現(xiàn)這類推薦需要用戶的歷史行為數(shù)據(jù)和對商品進行精細分類。③社會化推薦板塊。這類板塊是使用戶通過自己的社交關(guān)系來獲得推薦。如豆瓣閱讀的“友鄰廣播”,似于現(xiàn)實生活中一個朋友給其他朋友進行推薦。

      3 開源個性化推薦系統(tǒng)Apache Mahout

      個性化推薦系統(tǒng)實施涉及很多算法以實現(xiàn)用戶的聚類、商品的聚類及分類,是一個相當(dāng)復(fù)雜的過程。筆者查找和比較了Apache Mahout、Weka、JDM等開發(fā)包,相比之下使用Mahout較易實現(xiàn)推薦功能。

      Apache Mahout是Apache Software Foundation(ASF)開發(fā)的一個全新的開源項目,其主要目標(biāo)是創(chuàng)建一些可伸縮的機器學(xué)習(xí)算法,供開發(fā)人員在Apache許可下免費使用。Mahout提供大量功能實現(xiàn),包括聚類、集群、分類、協(xié)同過濾和進化程序等數(shù)據(jù)挖掘算法。通過使用 Apache Hadoop庫,Mahout可以有效地擴展到云中[4]。

      Mahout項目是由 Apache Lucene(開源搜索)社區(qū)中對機器學(xué)習(xí)感興趣的一些成員發(fā)起的,他們希望建立一個可靠、文檔翔實、可伸縮的項目,在其中實現(xiàn)一些常見的用于集群和分類的機器學(xué)習(xí)算法。得益于Mahout已經(jīng)實現(xiàn)的算法,筆者直接利用這些算法以快速實現(xiàn)OPAC推薦系統(tǒng)。

      4 使用Apache Mahout實現(xiàn)個性化推薦系統(tǒng)的步驟

      筆者詳細介紹利用Apache Mahout實現(xiàn)一個實驗性的個性化推薦系統(tǒng)的實施步驟,該實驗系統(tǒng)的目標(biāo)是:以深圳科圖公司的產(chǎn)品ILASII作為數(shù)據(jù)源,實現(xiàn)推薦功能,尋找讀者可能感興趣的圖書,并展示給讀者。該系統(tǒng)的實施包括兩個基本部分:數(shù)據(jù)集和算法。

      4.1 獲得數(shù)據(jù)集,并進行數(shù)據(jù)預(yù)處理

      在數(shù)據(jù)挖掘中,獲得數(shù)據(jù)集,并進行數(shù)據(jù)預(yù)處理,是將不同來源的數(shù)據(jù)集成、合并數(shù)據(jù)到單一的數(shù)據(jù)倉庫,并協(xié)調(diào)來自不同數(shù)據(jù)源的數(shù)據(jù)在數(shù)值上的差異,使數(shù)據(jù)屬性標(biāo)準(zhǔn)化。同時,還要去除重復(fù)數(shù)據(jù),并確保格式轉(zhuǎn)換為分析模塊所需要的格式。

      ILASII于1998年發(fā)布,現(xiàn)在仍有大量圖書館使用該系統(tǒng)。該系統(tǒng)中沒有讀者的圖書評分功能,可以采用讀者借閱歷史作為讀者的喜好數(shù)據(jù),將讀者借閱歷史作為推薦系統(tǒng)的數(shù)據(jù)集。

      從ILASII系統(tǒng)中可以導(dǎo)出的借閱歷史格式是:讀者記錄號、圖書條碼號。圖書條碼對應(yīng)的是一冊圖書,但推薦系統(tǒng)需要推薦給讀者的是該條碼對應(yīng)的圖書,而不只是這一冊圖書。筆者在ILASII中導(dǎo)出的借閱歷史的圖書條碼號轉(zhuǎn)換為圖書書目記錄號,同時將數(shù)據(jù)保存為如下格式的文本文件:讀者記錄號,圖書記錄號,1(Mahout要求文件的內(nèi)容滿足以下格式:每一行包括用戶 ID,物品 ID,用戶偏好值;每行中間用逗號或Tab隔開)

      每一行表示這個讀者借閱過圖書記錄號對應(yīng)的圖書。這里需要注意,基于存儲效率和計算效率方面的考慮,Mahout要求每一個欄位都是數(shù)字,不能包含字母。如果自動化系統(tǒng)輸出的借閱歷史中包含字母,需要在預(yù)處理階段把字母轉(zhuǎn)化為數(shù)字。

      表1是筆者經(jīng)過預(yù)處理后的讀者借閱歷史文件loans.csv部分?jǐn)?shù)據(jù):

      表1讀者借閱歷史樣本

      4.2 核心程序編制

      對取得的數(shù)據(jù)集進行算法分析,從借閱歷史尋找具有相似閱讀歷史的讀者,從所有相似讀者的閱讀書目集合中按照權(quán)重順序(圖書被相似讀者借閱次數(shù)越多,其權(quán)重越高)推薦給該讀者。

      Apache Mahout對如何尋找相似讀者和相似圖書提供了很多算法,提供了多種基于協(xié)同過濾的推薦策略,這里選擇其中經(jīng)典的兩種:User CF和Item CF。簡單地說就是基于用戶相似度的推薦和基于物品相似度的推薦,分別可以實現(xiàn)相同興趣用戶間的推薦和個人用戶可能感興趣的推薦。

      下面列出了使用Apache Mahout對經(jīng)過數(shù)據(jù)預(yù)處理的借閱歷史進行分析,并用實現(xiàn)基于Item CF的推薦系統(tǒng):

      DataModel model=new GenericBooleanPrefDataModel(new FileDataModel(new File("loans.csv")));

      UserSimilarity similarity=new PearsonCorrelationSimilarity(model);

      UserNeighborhood neighborhood=new NearestNUserNeighborhood(100,similarity,model);

      Recommender recommender=new GenericUserBasedRecommender(model,neighborhood,similarity);

      這四句代碼的功能依次是:從數(shù)據(jù)文件loans.csv構(gòu)建一個Boolean型的偏好數(shù)據(jù)模型,計算所有讀者的相似度,計算N-近鄰,最后依據(jù)該相似度和N-近鄰構(gòu)造出推薦器。再用如下代碼就可以獲得記錄號為9501160的讀者可能喜歡的圖書記錄號:

      List〈RecommendedItem〉 recommendations=recommender.recommend(9501160,20);

      遍歷變量recommendations就可以獲得推薦系統(tǒng)推薦給該讀者的圖書,如:

      for(RecommendedItem recommendation:recommendations){System.out.println(recommendation);}

      得到如下輸出:

      RecommendedItem[item:27315,value:1.0]

      RecommendedItem[item:27945,value:1.0]

      RecommendedItem[item:29288,value:1.0]

      RecommendedItem[item:13554,value:1.0]

      RecommendedItem[item:27952,value:1.0]

      RecommendedItem[item:22768,value:1.0]

      RecommendedItem[item:19203,value:1.0]

      這里item就是推薦系統(tǒng)推薦給讀者9501160的圖書的書目記錄號。

      把上面的UserSimilarity similarity=new PearsonCorrelationSimilarity(model)改為:ItemSimilarity similarity=new PearsonCorrelationSimilarity(model),就可以實現(xiàn)基于Item CF的推薦系統(tǒng)。

      4.3 輔助程序

      有了獲取推薦數(shù)據(jù)的核心代碼,剩下的工作就相對簡單,只需要把推薦的RecommendedItem轉(zhuǎn)換成用戶可以看得懂的信息就可以了。參照豆瓣的“豆瓣猜”,可以在圖書館網(wǎng)站增加一個“圖書推薦”,實現(xiàn)效果如圖1所示。

      圖1圖書推薦展示效果圖

      這個功能可以建設(shè)為一個獨立系統(tǒng),與原有自動化系統(tǒng)提供的OPAC前端做頁面整合。可以看到,這個方案只要具有一定java和javascript開發(fā)能力就可以輕松實施。

      5 結(jié)束語

      個性化推薦是一種以用戶需求為中心的服務(wù),可極大提高圖書館的服務(wù)質(zhì)量和資源的有效利用,必將成為圖書館新型服務(wù)模式的主流,是圖書館在大數(shù)據(jù)環(huán)境中的必然選擇。

      目前,個性化推薦系統(tǒng)在圖書館中的應(yīng)用還不十分普及,使用Apache Mahout快速搭建圖書館個性化推薦系統(tǒng)的實驗性系統(tǒng),是筆者對個性化推薦系統(tǒng)的一種實操性探索。事實上,可以利用圖書館很多方面的數(shù)據(jù)資源,為讀者提供個性化推薦服務(wù)。如利用網(wǎng)站日志文件和記錄文件,分析用戶偏好度和網(wǎng)頁關(guān)聯(lián)性[5];利用讀者借還、下載、查詢、罰款等數(shù)據(jù)分析讀者的信譽度,以便提供不同的服務(wù)策略等[6]。如何對圖書館各類資源數(shù)據(jù)合理利用,更方便快捷建立有效的個性化推薦系統(tǒng),需要圖書館界繼續(xù)探索。

      [1]肖倩,董占山,張聰.圖書類電子商務(wù)網(wǎng)站上的個性化推薦應(yīng)用研究[J].科技與出版,2014(8):94-97.

      [2]何靜,高靜萍.國內(nèi)外圖書館網(wǎng)站建設(shè)研究綜述[J].江西圖書館學(xué)刊,2008(3):27-28.

      [3]查大元.個性化推薦系統(tǒng)的研究和實現(xiàn)[J].計算機應(yīng)用與軟件,2011(1):48.

      [4]蔡建新,徐迪威.基于云計算平臺的海量數(shù)據(jù)挖掘技術(shù)在塑料電子商務(wù)平臺中的應(yīng)用[J].廣東科技,2011(8):59.

      [5]蔡琬琰.基于數(shù)據(jù)挖掘的高校圖書館網(wǎng)站個性化推薦系統(tǒng)[J].情報探索,2011(3):88.

      [6]唐秋鴻,曹紅兵,唐小新,等.基于Web挖掘的圖書館個性化服務(wù)系統(tǒng)研究[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2012(2):185-186.

      猜你喜歡
      個性化圖書電商
      電商助力“種得好”也“賣得火”
      圖書推薦
      南風(fēng)(2020年22期)2020-09-15 07:47:08
      堅持個性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      歡迎來到圖書借閱角
      新聞的個性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      電商鄙視鏈中的拼多多
      班里有個圖書角
      上汽大通:C2B個性化定制未來
      電商下鄉(xiāng)潮
      機電信息(2015年28期)2015-02-27 15:57:42
      滿足群眾的個性化需求
      宁化县| 锡林浩特市| 中宁县| 凤庆县| 蚌埠市| 麻栗坡县| 石泉县| 阜新市| 通城县| 航空| 桦川县| 方城县| 郁南县| 兴化市| 商洛市| 荥经县| 龙海市| 柏乡县| 宿松县| 安塞县| 汝南县| 称多县| 镇沅| 萝北县| 德昌县| 墨竹工卡县| 漠河县| 永平县| 兴隆县| 宁国市| 宁都县| 仙桃市| 博乐市| 东港市| 康保县| 搜索| 佛教| 镇原县| 尼木县| 阿图什市| 嘉黎县|