馬仲兵(長江師范學(xué)院圖書館)
隨著網(wǎng)絡(luò)技術(shù)不斷進(jìn)步和發(fā)展,大多數(shù)高校圖書館都采用了Web2.0 技術(shù)對高校圖書館進(jìn)行運(yùn)行和管理。與LIB1.0技術(shù)相比,Lib2.0 技術(shù)一個(gè)重要的特點(diǎn)是能為讀者提供個(gè)性化服務(wù),即可以根據(jù)讀者借閱圖書的興趣愛好,實(shí)時(shí)、有針對性、主動(dòng)地為讀者提供讀者感興趣的圖書。
在數(shù)據(jù)挖掘領(lǐng)域,關(guān)聯(lián)規(guī)則一直是應(yīng)用得比較多的挖掘方式之一。關(guān)聯(lián)規(guī)則的概念是在SIGMOD93 上由Agrawal 等人第一次提出來。它最先是在零售產(chǎn)品行業(yè)中,對顧客購物籃中的不同商品的分析,挖掘出用戶的購物習(xí)慣后,進(jìn)而來推動(dòng)產(chǎn)品的銷售。目前,關(guān)聯(lián)規(guī)則是眾多學(xué)者研究熱點(diǎn),許多行業(yè)也對關(guān)聯(lián)規(guī)則的技術(shù)進(jìn)行了大量的研究。關(guān)聯(lián)規(guī)則的挖掘通過規(guī)則的支持度來反映規(guī)則的實(shí)用性,置信度反映出規(guī)則的有用性,而通過他們共同作用來反映出用戶的興趣度。一個(gè)關(guān)聯(lián)規(guī)則是否有用,看它是否滿足最小支持度閾值以及最小置信度閾值。一旦發(fā)現(xiàn)了有用的規(guī)則,可以幫助服務(wù)行業(yè)管理者有選擇地推銷,從而引導(dǎo)消費(fèi)。關(guān)聯(lián)規(guī)則使用最多的是Apriori 算法,Apriori 算法對用戶的模式比較直觀。目前來看,關(guān)聯(lián)規(guī)則在圖書館的個(gè)性化推薦模型的實(shí)際運(yùn)用中還是比較成功,當(dāng)然也存在一些問題,主要體現(xiàn)在兩個(gè)方面。
(1)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)比較難。目前各個(gè)圖書館的圖書種類復(fù)雜,但在大多情況下,每個(gè)讀者只借其中少量種類的圖書,因此,在讀者的借閱數(shù)據(jù)中找到具體圖書之間的關(guān)聯(lián)規(guī)則是比較困難的。
(2)關(guān)聯(lián)規(guī)則是靜態(tài)的。通過Apriori 算法挖掘出來的關(guān)聯(lián)規(guī)則,在實(shí)際運(yùn)用中都不進(jìn)行更新處理,認(rèn)為永恒有效的,而沒有考慮到一段時(shí)間讀者借閱的變化而影響到關(guān)聯(lián)規(guī)則的產(chǎn)生。因此,從某種意義上來說,挖掘出來的靜態(tài)關(guān)聯(lián)規(guī)則不能反映出用戶的興趣變化。
考慮到目前關(guān)聯(lián)規(guī)則存在的問題,本文試圖通過加權(quán)方式來改善關(guān)聯(lián)規(guī)則的推薦模式,為讀者提供一個(gè)更加人性化的推薦。經(jīng)過加權(quán)的關(guān)聯(lián)規(guī)則,在長江師范學(xué)院圖書館(以下簡稱我館)的應(yīng)用中效果比較良好。
本文引入了一種新的加權(quán)方法來解決關(guān)聯(lián)規(guī)則存在的兩個(gè)問題。在此基礎(chǔ)上,提出了基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦模型。
在現(xiàn)代圖書管理系統(tǒng)中,每本書根據(jù)相應(yīng)的分類法都對應(yīng)一個(gè)分類號。我館使用的分類法依據(jù)的是《中國圖書館分類法》,將圖書分成22 個(gè)大類,每個(gè)大類再按不同的分類標(biāo)準(zhǔn)一級一級細(xì)分,從而形成了有級別、有層次又互相聯(lián)系的眾多類目。而每一個(gè)類目下面又用一組數(shù)字來表示該類目下更詳細(xì)的分類,組合在一起就形成了圖書的分類號,如我們可以用R318.01 來表示生物力學(xué)方面的圖書。為了區(qū)分同一類圖書,我們再采用書次號進(jìn)行區(qū)分。把分類號和書次號兩個(gè)部分結(jié)合在一起構(gòu)成索書號。由于圖書分類法采用層次結(jié)構(gòu)方式進(jìn)行劃分的,我們可以對圖書的具體分類號進(jìn)行挖掘,找出更高層次的關(guān)聯(lián)規(guī)則,從而能夠?yàn)橥扑]出讀者感興趣的圖書。
我們可以用下列符號對關(guān)聯(lián)規(guī)則進(jìn)行描述。
設(shè)I={i,i,…,i}為圖書館所有的圖書集,也就是我館存在圖書的種類為n。其中i表示系統(tǒng)中第j 種圖書,而C={c,c,…,c}表示該項(xiàng)目集中圖書館分類后的每一類圖書,共有K 類。
設(shè)X、Y 是C 的子集,我們可以用R:X→Y 來表示用戶的興趣模型。而關(guān)聯(lián)規(guī)則R:X→Y 的興趣度用來表示用戶模型的興趣度。我們則可把關(guān)聯(lián)規(guī)則的興趣度(Interest)定義為:
從式1 可以看出,關(guān)聯(lián)規(guī)則的興趣度Interest(R:X→Y)是根據(jù)置信度產(chǎn)生。置信度就是抽樣指標(biāo)和總體指標(biāo)的誤差不超過一定范圍的概率保證度。置信度(confidence)是同時(shí)借閱圖書A 和借閱圖書B 的讀者人數(shù)占借閱圖書A 的讀者人數(shù)的百分比。即:
如果用戶對某種書籍的興趣度越大,根據(jù)關(guān)聯(lián)規(guī)則挖掘出來的興趣度就會越大。而挖掘出來的興趣度越大的規(guī)則,它的實(shí)際利用價(jià)值就越大。
關(guān)聯(lián)規(guī)則算法雖然能在一定程度上解決好讀者推薦模型,但它也存在一些不足,最嚴(yán)重的就是它是一種靜態(tài)的方式,一次關(guān)聯(lián)規(guī)則進(jìn)行挖掘之后,便永久地使用。這種方式完全不適合圖書館的發(fā)展,也不適合高校的發(fā)展。我們剛開始使用這種靜態(tài)的推薦模式推出的圖書效果非常好,但隨著讀者興趣的轉(zhuǎn)移,這種靜態(tài)的推薦模式做出的推薦就會產(chǎn)生偏差。因此,我們需要把這種推薦模式進(jìn)行改進(jìn)。本文通過對數(shù)據(jù)挖掘結(jié)果進(jìn)行加權(quán),得到一種新的加權(quán)數(shù)據(jù),然后依據(jù)該數(shù)據(jù)進(jìn)行推薦。根據(jù)挖掘出來的規(guī)則如果在當(dāng)前表現(xiàn)得很強(qiáng),我們就可以將該規(guī)則的權(quán)值增大;而如果在當(dāng)前表現(xiàn)得很弱,我們就可以將權(quán)值減小。因此,我們根據(jù)該方法所獲得的規(guī)則將跟隨著我們設(shè)定的權(quán)值變化而變化,從而在結(jié)果中表現(xiàn)出一種動(dòng)態(tài)的特性。
我們先假設(shè)原讀者借閱數(shù)據(jù)為D,新獲取的借閱數(shù)據(jù)為NewD。利用原讀者借閱數(shù)據(jù)挖掘出來的結(jié)果為RuleSet,新獲取的讀者借閱數(shù)據(jù)挖掘出來的結(jié)果為NewRuleSet。我們比較RuleSet 和NewRuleSet 這兩個(gè)關(guān)聯(lián)規(guī)則集,會出現(xiàn)以下三種情況。
(1)RuleSet 沒出現(xiàn)。如果R:X→Y∈RuleSet,并且R?NewRuleSet,表明該規(guī)則在目前表現(xiàn)得不活躍,在前期表現(xiàn)得相對活躍一些,對于這種情況,我們就應(yīng)該不斷地減小它的推薦度Recommend。所以應(yīng)該將值更新為:
C 取值范圍為0〈C〈1;
(2)NewRuleSet 出現(xiàn)。如果R:X→Y?RuleSet,并且R∈NewRuleSet,表明該規(guī)則在前期的挖掘中表現(xiàn)得不活躍,而在目前才表現(xiàn)得活躍起來,對于這種情況,我們應(yīng)該適當(dāng)?shù)卦黾悠渫扑]度Recommend 值。所以應(yīng)該將值更新為:
C 取值范圍為0〈C〈1;
(3)規(guī)則重復(fù)出現(xiàn)。如果R:X→Y∈RuleSet,并且R∈NewRuleSet,表明該規(guī)則一直都表現(xiàn)得非常活躍,對于這種情況,我們應(yīng)該增加規(guī)則的推薦度Recommend。所以應(yīng)該將值更新為:
C 取值范圍為0〈C〈1;
到目前為止,我館經(jīng)歷了三種推薦策略進(jìn)行圖書推薦,①根據(jù)讀者的借閱數(shù)據(jù)直接提供借閱量最高的N 種圖書在圖書館的推薦模塊上;②根據(jù)關(guān)聯(lián)規(guī)則挖掘出來的用戶興趣度相關(guān)結(jié)果提供在圖書館的推薦模塊上;③按照前面介紹加權(quán)模式進(jìn)行推薦。在本實(shí)驗(yàn)過程中,我們按照三種推薦模式各推薦出5 種圖書。
實(shí)驗(yàn)數(shù)據(jù)為我館2011年2月至2011年12月份。讀者借閱數(shù)據(jù),共有57 821 條,涉及讀者4 833 人。數(shù)據(jù)采集之后,就需要對采集到的數(shù)據(jù)進(jìn)行預(yù)處理,為后面的數(shù)據(jù)挖掘時(shí)提供干凈的數(shù)據(jù)源,然后通過挖掘工具Spss 的Apriori 算法對數(shù)據(jù)進(jìn)行挖掘,挖掘出關(guān)聯(lián)結(jié)果。在推薦策略上,我們采用了三種方式進(jìn)行比較:一種是直接向讀者推薦出最暢銷的N 種書目,我們記為Best;第二種我們采用挖掘出來的用戶興趣度最高的N 種書目,記為Interest;而第三種推薦策略則采用本文提出來的加權(quán)策略推薦的方式,記為:Weighing。對于每種推薦策略的好壞,我們采用對推薦書目的命中率來評價(jià)推薦書目的優(yōu)劣,命中率的計(jì)算公式如下:
N 表示推薦的書目數(shù),而Nhit 表示讀者感興趣的推薦書目數(shù)。
對于命中率,我們采用按月進(jìn)行統(tǒng)計(jì)分析,最后得到的結(jié)果如表1 所示。
表1 三種推薦模式三至六月份統(tǒng)計(jì)表
三種推薦模型的命中率平均值為:
HitRateB=0.302+0.289+0.307+0.266/4=0.291
HitRateI=0.324+0.343+0.319+0.331/4=0.329
HitRateW=0.373+0.368+0.374+0.403/4=0.380
從表1 和三種推薦模型的命中率的平均值我們可以得出:加權(quán)的關(guān)聯(lián)規(guī)則挖掘技術(shù)的推薦模型較最暢銷推薦模型以及采用用戶興趣度最高推薦模型推薦的圖書方式有了比較明顯的進(jìn)步。其主要原因在于:三種推薦方式與用戶的興趣及時(shí)更新有很大的關(guān)系。最受歡迎的推薦模式?jīng)]有根據(jù)用戶的興趣度進(jìn)行推薦,只是按照讀者的借閱排行榜進(jìn)行無針對性的推薦,因此,推薦的效果相對來說是最差的一種。而基于數(shù)據(jù)挖掘用戶興趣度的推薦模型,雖然能根據(jù)用戶的興趣度來進(jìn)行推薦,由于用戶的興趣可能隨著時(shí)間的推移而改變,該模型不能及時(shí)反映出用戶的興趣的改變,從而進(jìn)行了無效的推薦,所以推薦的效果也不太理想。而本文提出的基于關(guān)聯(lián)規(guī)則的加權(quán)模型它能根據(jù)用戶的興趣而及時(shí)更新推薦書目,集中地推薦出了在現(xiàn)階段用戶感興趣的圖書,從而提高了推薦的命中率。
從上面的實(shí)驗(yàn)及分析可以看出:本文提出加權(quán)模型在目前來看能夠較好地滿足圖書館用于讀者的個(gè)性化的推薦需求,而且比較方便。隨著關(guān)聯(lián)規(guī)則的發(fā)展,我們在以后的工作中,需要對系統(tǒng)做進(jìn)一步的改進(jìn):①對數(shù)據(jù)挖掘的算法進(jìn)行改善,使得數(shù)據(jù)挖掘出來的結(jié)果更加準(zhǔn)確,從而使推薦的結(jié)果更加精確;②更改推薦模式,讓推薦模式更適合現(xiàn)代讀者的個(gè)性化的習(xí)慣,吸引讀者訪問圖書館。
1 Agrawal R,Imiclinski T,Swami A. Mining Association Rules Between Sets of Items in Large Databases [J]. Proceedings of the 1993 ACM SINMOD Conference. Washington,DC,1993(5):207~216
2 Agrawal R,Imiclinski T,Swami A.Database Mining: A performance perspective [J].IEEEE Trans. Knowledge and Data Enginnering,1993(5):914~925
3 Agrawal R,Stikant R.Fast Algorithm for Mining Association Rules in Large databases[M].IBM Almaden Research Center,1994,35~60
4 陳力,等.關(guān)聯(lián)規(guī)則在提高圖書館服務(wù)質(zhì)量中的應(yīng)用[J].情報(bào)雜志,2008(2):145~150
5 翟海軍.面向Web 信息檢索的知識挖掘[D].合肥:中國科學(xué)技術(shù)大學(xué),2010(10):18~20
6 劉斌. 關(guān)聯(lián)挖掘在高校圖書館借閱數(shù)據(jù)分析中的應(yīng)用[J].蚌埠學(xué)院學(xué)報(bào),2012(4):12~16