呂文娟 龔佳劍
(首都醫(yī)科大學(xué) 北京 100069)
?
?醫(yī)學(xué)信息組織與利用?
醫(yī)學(xué)院校圖書館OPAC圖書智能推薦系統(tǒng)分析與設(shè)計(jì)
呂文娟 龔佳劍
(首都醫(yī)科大學(xué) 北京 100069)
介紹目前各高校OPAC推薦模塊,基于醫(yī)學(xué)院校圖書館的特點(diǎn),結(jié)合目前流行的推薦技術(shù),提出利用Hadoop平臺的Mahout算法設(shè)計(jì)圖書智能推薦系統(tǒng)。通過將智能推薦系統(tǒng)嵌入OPAC,解決個性化推薦問題,為讀者提供主動智能化的個性服務(wù)。
聯(lián)機(jī)公共目錄查詢系統(tǒng);智能推薦;醫(yī)學(xué)院校;Mahout
聯(lián)機(jī)公共目錄查詢系統(tǒng)(Online Public Access Catalogue,OPAC),是圖書館信息管理系統(tǒng)不可分割的一個重要組成部分,Web 2.0的發(fā)展使得OPAC系統(tǒng)的讀者參與性大大增強(qiáng)。讀者除了進(jìn)行常規(guī)的書目檢索、預(yù)約、續(xù)借之外,還能夠方便、快捷地主動參與OPAC系統(tǒng)提供的圖書評價(jià)、圖書薦購、加注標(biāo)簽、建立個人書架等個性化服務(wù)。讀者貢獻(xiàn)的各種數(shù)據(jù)隱含了對館藏資源的評價(jià)和需求,蘊(yùn)藏了豐富、未知、有用的知識,對圖書館的個性化主動服務(wù)、學(xué)科文獻(xiàn)資源建設(shè)決策、優(yōu)化業(yè)務(wù)管理等非常有價(jià)值。
醫(yī)學(xué)院校圖書館必須服務(wù)于學(xué)校的學(xué)科建設(shè),以首都醫(yī)科大學(xué)為例,學(xué)校有8個國家重點(diǎn)學(xué)科,臨床醫(yī)學(xué)、基礎(chǔ)醫(yī)學(xué)、口腔醫(yī)學(xué)、預(yù)防醫(yī)學(xué)、藥學(xué)、中醫(yī)學(xué)等16個專業(yè),因此圖書館的館藏資源涵蓋了現(xiàn)代生物醫(yī)學(xué)和生命科學(xué)的相關(guān)領(lǐng)域。同時(shí)醫(yī)學(xué)知識的快速發(fā)展,使得圖書館不斷調(diào)整館藏建設(shè),滿足讀者對前沿醫(yī)學(xué)信息獲取的需求[1]。對于醫(yī)學(xué)圖書館的讀者來講,他們有很大一部分正在或者將要從事醫(yī)務(wù)工作,對文獻(xiàn)資源的需求明顯帶有學(xué)科專業(yè)性,迫切希望針對其知識需求、幫助其解決具體問題的信息和知識服務(wù)。因此,前瞻性、實(shí)用型和整合型的醫(yī)學(xué)信息成為熱門。OPAC信息庫中保存著大量的讀者檢索及借閱信息,這些信息能充分揭示讀者對館藏資源的利用和需求[2],利用這些信息并結(jié)合相關(guān)推薦算法向讀者推薦相關(guān)圖書,可以更好地滿足讀者的信息需求。而推薦系統(tǒng)可以挖掘用戶潛在需求,幫助用戶發(fā)現(xiàn)對自己有價(jià)值的信息,同時(shí)將信息展現(xiàn)在可能對其感興趣的用戶面前。對圖書館而言,推薦系統(tǒng)還是踐行個性化服務(wù)的一個新手段。
Web 2.0的概念提出以后,各圖書館集成系統(tǒng)都推出了新版本的OPAC。新型OPAC從形式到內(nèi)容都極大地改進(jìn)了傳統(tǒng)OPAC檢索為主的單一功能,圖書封面、作者簡介、內(nèi)容簡介等信息豐富了OPAC的內(nèi)容;無縫的電子資源、外部資源鏈接等擴(kuò)大了讀者獲取信息的渠道;各種數(shù)據(jù)挖掘分析技術(shù)提供了有用的參考信息,這些都提升了OPAC的實(shí)用性。但筆者對國內(nèi)10所985高校圖書館的讀者調(diào)查顯示,目前很多讀者在OPAC上查詢館藏圖書時(shí),存在手工檢索結(jié)果不理想現(xiàn)象,出現(xiàn)信息過載、信息迷失等情況,導(dǎo)致讀者喪失明確的借閱目標(biāo),往往僅憑主觀感覺選擇圖書進(jìn)行借閱。對于讀者關(guān)心的問題“我需要的圖書有沒有”、“我需要的圖書在哪里”、“我想借的圖書好不好”,現(xiàn)有的基于關(guān)鍵詞匹配檢索和類似目錄瀏覽的結(jié)果基本無法解決。目前,各高校圖書館OPAC 推薦服務(wù)主要形式有新書通報(bào)、書目推薦、借閱排行等,見表1。由表1可以看出,高校圖書館關(guān)于圖書推薦的應(yīng)用十分欠缺;并且在國內(nèi),還沒有代表性的針對醫(yī)學(xué)院校讀者特點(diǎn)的推薦系統(tǒng)。
表1 國內(nèi)10所985高校圖書館OPAC推薦模塊
續(xù)表1清華大學(xué)借閱排行(只更新到2011年),新書通告浙江大學(xué)新書通報(bào),借閱排行,10大熱評,館員推薦(列表為空)復(fù)旦大學(xué)新書介紹上海交通大學(xué)新書通報(bào)中國科學(xué)技術(shù)大學(xué)熱門借閱,熱門評分,熱門收藏,熱門圖書南京大學(xué)Book+(包括按學(xué)科分類的熱門借閱和新書推薦以及豆瓣熱評)華中科技大學(xué)總借閱排行,文學(xué)類/社科類/自科類/外文圖書借閱排行,百名學(xué)生讀者借閱排行四川大學(xué)新書通報(bào),借閱排行,10大熱評,館員推薦(列表為空)中山大學(xué)新書通報(bào),借閱排行,10大熱評(列表為空),館員推薦
3.1 協(xié)同過濾推薦
協(xié)同過濾推薦在信息過濾和信息系統(tǒng)中正迅速成為一項(xiàng)很受歡迎的技術(shù)。與傳統(tǒng)的基于內(nèi)容過濾直接分析內(nèi)容進(jìn)行推薦不同,協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價(jià),形成系統(tǒng)對該指定用戶對此信息的喜好程度預(yù)測[3]。其最大的特點(diǎn)是通過對具有類似行為或愛好的其他用戶進(jìn)行分析,預(yù)測出該用戶的興趣愛好,強(qiáng)調(diào)的是人與人之間的協(xié)作。優(yōu)點(diǎn)是對推薦對象沒有特殊的要求[4];缺點(diǎn)是通過尋找相近用戶來產(chǎn)生推薦集,在數(shù)量較大的情況下,推薦的可信度隨之降低。
3.2 Hadoop平臺
Hadoop原本來自于谷歌一款名為MapReduce的編程模型包,后迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺[5]。Hadoop是一個能讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺,具有高擴(kuò)展性、高效性、低成本等特點(diǎn)。很多開發(fā)者將協(xié)同過濾算法部署于Hadoop平臺以用于改善傳統(tǒng)協(xié)同過濾算法在處理大規(guī)模海量數(shù)據(jù)時(shí)的效率瓶頸問題,提高算法執(zhí)行效率。
3.3 Mahout算法
Mahout是Apache Software Foundation[6]旗下的頂級開源項(xiàng)目,運(yùn)行在Hadoop平臺下,主要包含機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、個性化推薦等算法庫,核心的算法是聚類、分類、推薦引擎、頻繁項(xiàng)集的挖掘等[7]。該推薦引擎開源根據(jù)用戶對項(xiàng)目(書籍、電影、音樂等)的偏好和行為,計(jì)算出用戶對未評分項(xiàng)目的預(yù)測分從而給出相關(guān)推薦。
4.1 系統(tǒng)框架
圖書館的OPAC系統(tǒng)一般采用B/S模式,系統(tǒng)在瀏覽器中獲取用戶的界面操作信息。通過用戶界面可以一方面展示推薦信息,另一方面收集用戶日志信息。收集到的用戶日志信息通過日志系統(tǒng)寫入數(shù)據(jù)庫中,作為推薦系統(tǒng)的數(shù)據(jù)源。推薦系統(tǒng)整體架構(gòu),見圖1。
圖1 推薦系統(tǒng)整體架構(gòu)
4.2 數(shù)據(jù)庫設(shè)計(jì)
OPAC系統(tǒng)采用的是Oracle數(shù)據(jù)庫,存儲讀者、圖書等固定屬性數(shù)據(jù)、讀者以往行為數(shù)據(jù)和讀者檢索行為產(chǎn)生的結(jié)果數(shù)據(jù)。這些是上層的圖書推薦引擎產(chǎn)生推薦的數(shù)據(jù)基礎(chǔ)。根據(jù)具體的情形,讀者的偏好數(shù)據(jù)有許多來源,顯性數(shù)據(jù)有讀者的收藏記錄、書評、推薦記錄等,隱性數(shù)據(jù)有讀者的瀏覽記錄、檢索記錄和借閱記錄等。數(shù)據(jù)的重要程度不同,在推薦系統(tǒng)里占的權(quán)重就會不同。這些數(shù)據(jù)都會通過日志系統(tǒng)寫入數(shù)據(jù)庫中并與數(shù)據(jù)庫中的推薦引擎結(jié)果數(shù)據(jù)進(jìn)行整合、過濾后呈現(xiàn)給讀者。數(shù)據(jù)庫的主要表結(jié)構(gòu),見圖2。
圖2 讀者和圖書信息數(shù)據(jù)模型
4.3 產(chǎn)生推薦層的設(shè)計(jì)
推薦系統(tǒng)最核心的技術(shù)是推薦算法的選擇,基于同樣的數(shù)據(jù),采用不同的推薦算法,就會有不同的推薦結(jié)果。本文以Mahout算法為基礎(chǔ),在其上改進(jìn)優(yōu)化實(shí)現(xiàn)推薦算法,包括基于讀者相似度的推薦算法、基于圖書相似度的推薦算法和SlopeOne推薦算法。3種推薦算法的比較,見表2。
表2 3種推薦算法的比較
基于讀者相似度的推薦流程是:讀者通過OPAC界面發(fā)送推薦請求給推薦系統(tǒng),系統(tǒng)接到請求后,通過推薦引擎得到一個數(shù)據(jù)模型,通過這個數(shù)據(jù)模型計(jì)算出讀者相似性和相似的讀者群,然后據(jù)此產(chǎn)生推薦的圖書ID,OPAC系統(tǒng)得到這些圖書ID后,通過數(shù)據(jù)庫表調(diào)取圖書基本信息,呈現(xiàn)給讀者[8]?;趫D書相似度的推薦流程與之類似,接到OPAC的推薦請求后,推薦系統(tǒng)先獲得數(shù)據(jù)模型,根據(jù)數(shù)據(jù)模型計(jì)算出圖書間的相似性,產(chǎn)生推薦的圖書ID,然后推薦給讀者。這兩種推薦策略是最常見和最容易理解的策略,但是當(dāng)數(shù)據(jù)量巨大時(shí),它們的計(jì)算量也很大,致使推薦效率較差。SlopeOne算法是對基于評分的協(xié)同過濾推薦算法的改進(jìn),主要思想[9]如下:假設(shè)系統(tǒng)對于圖書A、圖書B、圖書C的評分分別為2、5、5。采用SlopeOne算法會得到以下規(guī)律:讀者對圖書B的評分=讀者對圖書A的評分+1;讀者對圖書B的評分=讀者對圖書C的評分。
基于以上的規(guī)律,可以對讀者A和讀者B的評分進(jìn)行預(yù)測:對于讀者A,他給圖書A的評分為3,那么可以推測出他對圖書B和圖書C的評分均為4;對于讀者B,他給圖書A的評分為4,給圖書C的評分為3,根據(jù)第1條規(guī)則可以推斷出他給圖書B的評分為5分,而根據(jù)第2條規(guī)則他給圖書B的評分為3。出現(xiàn)這種沖突時(shí),根據(jù)制定的規(guī)則進(jìn)行平均,所以給出的推斷是4。這就是SlopeOne推薦的基本原理[10],但是在一些特殊的情況下,尤其是一些新讀者或者新上架的圖書,就需要根據(jù)讀者的專業(yè)和圖書的分類號,進(jìn)行定向推送[11]。
5.1 與借閱歷史相關(guān)的書目
推薦系統(tǒng)會給出與用戶目前的借閱偏好最相近的書目[12],“與您的借閱歷史相關(guān)的書目”包括了封面、書名、著者、出版社和推薦指數(shù),讀者點(diǎn)擊封面或書名可以對該書進(jìn)行檢索[13]。對于一些讀者由于借閱記錄不足、無法產(chǎn)生推薦的,系統(tǒng)會根據(jù)讀者的專業(yè)、年級推薦熱門借閱書目[14],見圖3。
5.2 一起被借的圖書
一起被借的圖書是基于圖書相似度算法實(shí)現(xiàn)的功能[15],出現(xiàn)在每本書的詳細(xì)信息頁的右側(cè),推薦系統(tǒng)給出當(dāng)前該書被借閱的數(shù)量,點(diǎn)擊書目的封面或書名可以直接對其進(jìn)行檢索,見圖4。
圖3 與借閱歷史相關(guān)的書目
圖4 通常一起被借閱的書
本系統(tǒng)將數(shù)據(jù)挖掘技術(shù)與現(xiàn)有圖書館OPAC進(jìn)行結(jié)合[16],使其具有智能推薦圖書的功能,為讀者提供個性化的檢索推薦服務(wù),大大提高了OPAC的用戶體驗(yàn)。通過本文的研究,可以發(fā)現(xiàn)利用目前最流行的Hadoop平臺的Mahout算法作為圖書智能推薦系統(tǒng)的核心技術(shù)是非常可行的,為圖書館資源建設(shè)和決策提供數(shù)據(jù)支持,提高OPAC服務(wù)水平和質(zhì)量[17]。推薦系統(tǒng)中的讀者反饋模塊采集的數(shù)據(jù)暫時(shí)未投入到改進(jìn)讀者偏好中,正在探索讀者的隱性反饋如何與用戶的顯性反饋(借閱、評分)相結(jié)合,從而更加精準(zhǔn)地描述用戶偏好。
1 庫睿.醫(yī)學(xué)院校圖書館特色館藏建設(shè)的思考[J].內(nèi)蒙古科技與經(jīng)濟(jì),2014,315(17):144-148.
2 張煒,洪霞.基于OPAC讀者行為的知識發(fā)現(xiàn)研究[J].圖書館論壇,2011,30(1):17-19,49.
3 協(xié)同過濾簡介及其主要優(yōu)缺點(diǎn)[EB/OL]. [2015-05-08].http://zh.wikipedia.org/wiki/Slope_one
4 奉國和,梁曉婷.協(xié)同過濾推薦研究綜述[J].圖書情報(bào)工作,2011,55(16):127-130.
5 Hadoop[EB/OLOL]. [2015-05-15].http://baike.baidu.com/view/908354.htm.
6 Apache Software Foundation[EB/OL].[2014-08-04].http://www.apache.org/.
7 陳嘉恒.Hadoop實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2011:292.
8 楊杰,陳恩紅.個性化推薦系統(tǒng)應(yīng)用及研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2009.
9 Jiawei,H,Micheline K.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,等,譯.北京:機(jī)械工業(yè)出版社,2001.
10 項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:郵電出版社,2013.
11 李文海,許舒人. 基于Hadoop 的電子商務(wù)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35( 1):130-137.
12 黃巖.移動互聯(lián)時(shí)代數(shù)字圖書館發(fā)展要述[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(7):72-77
13 陳晶.網(wǎng)絡(luò)環(huán)境下醫(yī)院科研人員信息查詢行為及圖書館個性化服務(wù)研究[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(8):63-67.
14 陳進(jìn),劉寶杰.從未被借閱圖書數(shù)據(jù)分析醫(yī)科大學(xué)圖書館LIB 2.0的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2009,30(9):76-78.
15 李寧,馬路.國內(nèi)外高校圖書館電子資源服務(wù)策略研究[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(2):71-74.
16 季漢珍,練曉琪,周建偉.新型信息媒體技術(shù)應(yīng)用于醫(yī)院圖書館服務(wù)探索[J].醫(yī)學(xué)信息學(xué)雜志,2010,31(10):35-39.
17 馮研,劉薇薇,張兵兵,等.國內(nèi)圖書館數(shù)據(jù)挖掘研究及應(yīng)用的文獻(xiàn)計(jì)量分析[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(6):57-60.
2015年《醫(yī)學(xué)信息學(xué)雜志》編輯出版重點(diǎn)選題計(jì)劃
2015年本刊將繼續(xù)以“學(xué)術(shù)性、前瞻性、實(shí)踐性”為特色,及時(shí)追蹤并深入報(bào)道國內(nèi)外醫(yī)學(xué)信息學(xué)領(lǐng)域前沿?zé)狳c(diǎn),反映學(xué)科研究動態(tài)、展示學(xué)科應(yīng)用成果、引領(lǐng)學(xué)科發(fā)展方向?,F(xiàn)對2015年度編輯出版重點(diǎn)選題策劃如下:
一、醫(yī)藥衛(wèi)生體制改革與醫(yī)藥衛(wèi)生信息化
1 醫(yī)藥衛(wèi)生信息規(guī)劃與發(fā)展戰(zhàn)略;2 公共衛(wèi)生、區(qū)域衛(wèi)生、基層衛(wèi)生信息化建設(shè);3 健康與社會保障數(shù)據(jù)服務(wù); 4 居民健康卡示范工程和遠(yuǎn)程醫(yī)療系統(tǒng)建設(shè);5 藥品供應(yīng)與監(jiān)管信息化、藥品供應(yīng)保障信息系統(tǒng)建設(shè);6 國外醫(yī)藥衛(wèi)生信息化建設(shè)最新技術(shù)、成功經(jīng)驗(yàn)。
二、醫(yī)學(xué)信息技術(shù)
1 健康大數(shù)據(jù)研究與應(yīng)用;2 醫(yī)藥信息標(biāo)準(zhǔn)化建設(shè)及信息互聯(lián)互通;3 物聯(lián)網(wǎng)、智慧醫(yī)療技術(shù)與實(shí)現(xiàn);4 移動醫(yī)療服務(wù)與健康管理;5 各類醫(yī)學(xué)信息系統(tǒng)信息互通與操作銜接;6 醫(yī)學(xué)機(jī)構(gòu)知識庫構(gòu)建技術(shù)與方法。
三、醫(yī)學(xué)信息研究
1 醫(yī)學(xué)信息學(xué)學(xué)科發(fā)展及研究內(nèi)容的衍生、變化;2 醫(yī)學(xué)科技創(chuàng)新體系和發(fā)展戰(zhàn)略;3 醫(yī)學(xué)科技監(jiān)測與輿情監(jiān)測;4 醫(yī)藥衛(wèi)生數(shù)據(jù)整合、信息共享研究與實(shí)踐;5 生物醫(yī)學(xué)數(shù)據(jù)挖掘與利用、知識發(fā)現(xiàn)技術(shù)與實(shí)現(xiàn);6 競爭情報(bào)方法、策略在醫(yī)藥衛(wèi)生領(lǐng)域的應(yīng)用。
四、醫(yī)學(xué)信息組織與利用
1 醫(yī)學(xué)數(shù)字圖書館發(fā)展趨勢與標(biāo)準(zhǔn)建設(shè);2 醫(yī)學(xué)數(shù)字知識資源環(huán)境構(gòu)建及其管理系統(tǒng)建設(shè);3 泛在化醫(yī)學(xué)知識服務(wù)與決策咨詢服務(wù);4 醫(yī)學(xué)信息資源組織的關(guān)鍵技術(shù)與發(fā)展方向;5 醫(yī)學(xué)信息服務(wù)模式創(chuàng)新及其評估;6 醫(yī)學(xué)圖書館區(qū)域合作及資源共享模式研究。
五、醫(yī)學(xué)信息教育
1 醫(yī)學(xué)信息專科、本科、研究生教育及繼續(xù)教育體制改革與模式創(chuàng)新;2 醫(yī)學(xué)信息素養(yǎng)的培養(yǎng)與教育;3 醫(yī)學(xué)信息職業(yè)崗位教育與培訓(xùn);4 國外醫(yī)學(xué)信息學(xué)教育的先進(jìn)經(jīng)驗(yàn)及其借鑒。
(《醫(yī)學(xué)信息學(xué)雜志》編輯部)
Analysis and Design of the OPAC Book Intelligent Recommendation System for Libraries in Medical Colleges and Universities
LVWen-juan,GONGJia-jian,
CapitalMedicalUniversity,Beijing100069,China
The paper introduces existing OPAC recommendation modules in colleges and universities. Based on characteristics of libraries in medical colleges and universities and in combination with prevailing recommendation technology, it proposes to utilize the algorithm of Mahout of Hadoop Platform to design the library intelligent recommendation system. By embedding the intelligent recommendation system into OPAC, it solves the problem of personalized recommendation and provides readers with active and intelligent personalized services.
OPAC; Intelligent recommendation; Medical college and university; Mahout
2015-06-11
呂文娟,館員,發(fā)表論文2篇;龔佳劍,副研究館員,副館長,發(fā)表論文6篇。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.09.017