馮 靜, 張福泉
(1.新疆師范大學(xué) 圖書館, 烏魯木齊 830054;2.北京理工大學(xué) 軟件學(xué)院, 北京 100081)
圖書信息檢索中讀者興趣偏好挖掘模型的建立仿真*
馮 靜1, 張福泉2
(1.新疆師范大學(xué) 圖書館, 烏魯木齊 830054;2.北京理工大學(xué) 軟件學(xué)院, 北京 100081)
針對傳統(tǒng)挖掘模型對圖書信息檢索中讀者興趣偏好數(shù)據(jù)進(jìn)行挖掘時(shí),存在的挖掘效率低、耗時(shí)長等問題,提出基于聚類分析的讀者興趣偏好挖掘模型.采用分類索引分布樹法對圖書相似度與讀者興趣距離進(jìn)行計(jì)算,通過興趣因子對興趣偏好度進(jìn)行度量,并以此為基礎(chǔ),采用相關(guān)反饋模型Rocchio算法對讀者興趣圖書檢索進(jìn)行擴(kuò)展,引入聚類分析法建立圖書信息檢索中讀者興趣偏好挖掘模型.實(shí)驗(yàn)仿真結(jié)果表明,采用改進(jìn)模型時(shí),其挖掘效率、時(shí)間及誤差均優(yōu)于傳統(tǒng)模型.
圖書信息;檢索;讀者興趣偏好;挖掘模型;興趣因子;興趣距離;圖書相似度;擴(kuò)展
計(jì)算機(jī)信息網(wǎng)絡(luò)及通訊技術(shù)的飛速發(fā)展給人們?nèi)粘I顜砹藰O大的便利,各行各業(yè)存儲(chǔ)了大量關(guān)于產(chǎn)品和用戶的數(shù)據(jù)信息,導(dǎo)致數(shù)據(jù)庫技術(shù)得到了越來越多的重視[1-3].圖書館也開始利用信息技術(shù)來提高自己的軟件條件,讀者每天都會(huì)對圖書館中各種資源加以利用,使得圖書館數(shù)據(jù)庫中積累了大量的數(shù)據(jù)信息,而這些信息中隱藏了很多值得工作者去深入研究的關(guān)系信息[4-5].如讀者與借閱圖書之間的關(guān)聯(lián)規(guī)則,若是掌握好這些規(guī)則,則可以對讀者進(jìn)行個(gè)性化圖書推薦,實(shí)現(xiàn)讀者興趣偏好的預(yù)估.如何對圖書檢索中讀者興趣偏好數(shù)據(jù)進(jìn)行高效準(zhǔn)確地挖掘成為了該領(lǐng)域重點(diǎn)研究的方向,文獻(xiàn)[6]提出一種基于多層安全相關(guān)屬性標(biāo)定的偏好數(shù)據(jù)挖掘模型,并使用決策算法得到挖掘數(shù)據(jù),所提出的挖掘模型提高了數(shù)據(jù)的準(zhǔn)確性與選擇數(shù)據(jù)的安全性,但其整體挖掘時(shí)間較長.文獻(xiàn)[7]以男士上衣為例,通過問卷調(diào)查得出數(shù)據(jù)信息,并采用K-means聚類算法,利用專業(yè)的數(shù)據(jù)挖掘軟件處理數(shù)據(jù),擬合出具有代表性的設(shè)計(jì)模型.所提出的模型可以有效揭示不同類型消費(fèi)者的偏愛度,但其建模方法復(fù)雜,需要應(yīng)用專業(yè)軟件.本文針對上述問題,提出一種基于聚類分析的偏好挖掘模型,無需其他專業(yè)軟件輔助,提高了挖掘的效率與準(zhǔn)確性.
1.1 圖書相似度與讀者興趣距離計(jì)算
在對讀者興趣偏好進(jìn)行度量時(shí),首先需要對圖書相似度與讀者興趣距離進(jìn)行計(jì)算,本文采用分類索引分布樹法對其進(jìn)行計(jì)算[8].兩名讀者S1、S2所借閱圖書之間相似度的計(jì)算方法如下:
1) 當(dāng)兩名讀者所借閱圖書的分類索引號完全相同時(shí),說明讀者借閱的是同一本圖書或者是兩本類似的圖書,則計(jì)算圖書之間的相似度需考慮讀者對該圖書的借閱時(shí)間.將該圖書的平均借閱時(shí)間與讀者借閱所有書籍的平均借閱時(shí)間進(jìn)行比較,計(jì)算得到的比值反應(yīng)出圖書的相似度,即
(1)
式中:x、y為兩名讀者所借閱的具有完全相同分類索引號的圖書;T1x、T2y為兩名讀者S1、S2對圖書x、y的借閱時(shí)間;m、n分別為兩名讀者S1、S2借閱圖書的行為數(shù);T1j、T2j為兩名讀者S1、S2對圖書j的借閱時(shí)間.
(2)
式中:d(a)、d(b)分別為圖書a、b的分類號在圖書分類索引分布樹中的所屬深度;d(NCA(a,b))為最近共同標(biāo)志在圖書分類索引分布樹中的所屬深度.
根據(jù)式(1)和(2)可以得到圖書相似度與讀者興趣間的距離為
(3)
式中,l為讀者所借閱圖書間相似度的個(gè)數(shù).通過采用分類索引分布樹法對圖書相似度與讀者興趣距離進(jìn)行計(jì)算,可為圖書信息檢索中讀者興趣偏好數(shù)據(jù)聚類提供基礎(chǔ)依據(jù).
1.2 讀者興趣偏好的度量
在對圖書相似度與讀者興趣距離進(jìn)行計(jì)算的基礎(chǔ)上,利用一種興趣因子來衡量關(guān)聯(lián)規(guī)則的興趣偏好程度,其被定義為兩個(gè)變量的聯(lián)合概率密度除以兩個(gè)變量期望概率的乘積.
TF-IDF(term frequency-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),在圖書信息檢索中可用其來衡量讀者的感興趣程度.TF值越大,表明興趣偏好程度越高,如果一個(gè)圖書信息在讀者興趣偏好中出現(xiàn)的頻率很低,則這本圖書易于區(qū)分和識(shí)別.TF-IDF權(quán)值計(jì)算表達(dá)式為
(4)
式中:fij為讀者感興趣圖書ui使用標(biāo)簽tj在圖書信息檢索中出現(xiàn)的次數(shù);N為訓(xùn)練集中讀者感興趣的總圖書數(shù)量;ni為訓(xùn)練集中出現(xiàn)的特征項(xiàng)的圖書數(shù)量;Di為讀者感興趣圖書ui的標(biāo)簽結(jié)合.
讀者興趣偏好可以利用讀者感興趣的圖書集合來度量.圖書標(biāo)簽映射的項(xiàng)目數(shù)為圖書被讀者選取次數(shù),利用TF-IDF方法計(jì)算讀者喜歡圖書ui標(biāo)簽tj的權(quán)重,即
(5)
式中,n0為圖書檢索中標(biāo)簽tj的讀者數(shù)量.
假設(shè)兩本圖書分類號為A和B,則讀者興趣偏好關(guān)聯(lián)度可表示為
(6)
該因子為一個(gè)非負(fù)實(shí)數(shù),在等于1的時(shí)候,表示兩個(gè)變量相互獨(dú)立.讀者興趣偏好支持度域值可以較好地去掉那些負(fù)相關(guān)及不相關(guān)的讀者信息,因此,如果讀者興趣偏好的度量中含有支持度,則可以更為準(zhǔn)確地定義一個(gè)讀者信息興趣偏好程度.讀者興趣偏好表達(dá)式為
(7)
IS(A1,A2,…,Ak?Ak+1,Ak+2,…,An)=
(8)
式(7)與(8)僅適合于比較由同一個(gè)項(xiàng)集所產(chǎn)生的讀者興趣偏好度.支持度域值可以用于裁剪那些負(fù)相關(guān)或不相關(guān)的讀者興趣偏好信息,而讀者興趣的信任度則說明了該偏好度的統(tǒng)計(jì)重要性,因此一個(gè)較為理想的判別模型應(yīng)該同時(shí)體現(xiàn)這兩者的作用.假設(shè)r、r′分別為原始讀者興趣偏好及待比較讀者興趣偏好,則圖書對于讀者的興趣偏好度可表示為
(9)
式中:c、c′、s、s′分別為原始讀者與待比較讀者對圖書的支持度和信任度;w1、w2為分配權(quán)值,w1+w2=1.由式(9)可知,如果一個(gè)讀者的興趣偏好Ics值大于1,則說明該圖書更受讀者喜歡,且該值越大,表明興趣偏好程度越高.
在對圖書信息檢索中讀者興趣偏好進(jìn)行度量的基礎(chǔ)上,采用數(shù)據(jù)聚類分析法建立圖書信息檢索中讀者興趣偏好挖掘模型.
2.1 讀者興趣圖書檢索擴(kuò)展
采用相關(guān)反饋模型Rocchio算法,根據(jù)相關(guān)圖書和不相關(guān)圖書進(jìn)行修正檢索,檢索量表達(dá)式為
(10)
式中:qm為修正的檢索量;q0為初始檢索量;α、β、γ為調(diào)整參數(shù),取值為1;Dr為相關(guān)圖書檢索深度集合;Dnr為不相關(guān)圖書檢索深度集合;dj為檢索深度.檢索擴(kuò)展詞在與檢索相關(guān)的類別圖書中進(jìn)行特征提取,然后計(jì)算檢索與該類特征詞的相似度,相似度高的加入檢索擴(kuò)展詞庫.該檢索擴(kuò)展的特點(diǎn)是相關(guān)圖書類別是通過模型系統(tǒng)計(jì)算得出的,不需要讀者判別,減輕檢索負(fù)擔(dān),提高讀者興趣偏好的挖掘效果.
但是一些相關(guān)度小的圖書信息的加入對系統(tǒng)來講是噪聲信息,有研究學(xué)者提出了擴(kuò)展噪聲對查詢性能的影響,當(dāng)擴(kuò)展查詢達(dá)到25個(gè)時(shí),檢索精度下降,所以本文加入20個(gè)擴(kuò)展詞進(jìn)行讀者興趣偏好挖掘.
2.2 讀者興趣偏好挖掘模型建立
在對圖書檢索進(jìn)行擴(kuò)展的基礎(chǔ)上,采用聚類分析法建立讀者興趣偏好挖掘模型,詳細(xì)步驟如下:
1) 建立讀者注冊信息向量.讀者注冊信息包括姓名、年齡、性別、身份證號,此時(shí)可用一個(gè)集合(姓名、年齡、性別、身份證號)表示讀者基本信息,轉(zhuǎn)換為表達(dá)式形式為Y=(y1,y2,y3,y4).
2) 基于K-MEANS算法的讀者信息聚類.針對讀者的基本信息,采用K-MEANS算法將讀者信息聚類為K類穩(wěn)定信息集合.假設(shè)數(shù)據(jù)點(diǎn)的集合P=(Y1,Y2,…,Ym),其中Yi=(yi1,yi2,yi3,yi4),i=1,2,…,m.把數(shù)據(jù)點(diǎn)集合劃分為K個(gè)分組,即G1,G2,…,GK.
3) 聚類獲取讀者的興趣偏好.利用步驟2)的K-MEANS算法把讀者信息樣本聚為K類,每類興趣采用集合<類別,關(guān)鍵字,權(quán)值>的形式來表示,以此表達(dá)每一類讀者的總體特征,進(jìn)而得出K類讀者的共同偏好,即
NL={〈e1,f1,w11〉,〈e2,f2,w22〉,〈e2,f3,w23〉,
…,〈e2,fg,w2g〉,…,〈ei,fj,wij〉}
(11)
式中:g、j為聚類獲取的每一類讀者偏好的關(guān)鍵字個(gè)數(shù);i=1,2,…,K為偏好類別.
4) 構(gòu)建讀者興趣偏好挖掘模型.讀者興趣偏好受到短期檢索圖書興趣和長期檢索圖書興趣兩方面的影響,因此讀者的興趣偏好可表示為
H={M,N}
(12)
式中:M為短期檢索圖書興趣;N為長期檢索圖書興趣.由于讀者興趣的多樣性,可將M和N分別表示為
(13)
為了更詳細(xì)地區(qū)分讀者興趣程度,興趣向量應(yīng)該蘊(yùn)涵大量的資源信息.針對每一個(gè)Oi、Lj(i=1,2,…,m;j=1,2,…,n)來說,應(yīng)引進(jìn)類別屬性變量Ei、Ej與權(quán)重屬性變量Fi、Fj,則Oi、Lj可進(jìn)一步表示為
Oi=〈Oi,F(xiàn)i,Ei〉 (i=1,2,…,m)
(14)
Lj=〈Lj,F(xiàn)j,Ej〉 (j=1,2,…,n)
(15)
則讀者興趣偏好挖掘模型可以表示為
(16)
式中:Om、Ln分別為短期檢索圖書興趣與長期檢索圖書興趣的某個(gè)屬性值;Em+n為讀者興趣對應(yīng)的圖書屬性類別;Fm+n為屬性值的興趣權(quán)重,表示讀者對某類圖書的感興趣程度.至此實(shí)現(xiàn)了圖書信息檢索中讀者興趣偏好挖掘模型的建立.
為了驗(yàn)證改進(jìn)模型在偏好挖掘中的效果,實(shí)驗(yàn)數(shù)據(jù)采用了某學(xué)校圖書館數(shù)據(jù)庫的汽車、IT、體育、旅游、教育及軍事等6類文本,每類3 000本圖書,總計(jì)18 000本,其中12 000本用來訓(xùn)練,6 000本用來測試.讀者搜索歷史表示檢索和瀏覽相關(guān)圖書,假設(shè)讀者平均每天檢索6本,并跟蹤了30天的搜索歷史記錄.通過讀者興趣偏好模型挖掘讀者興趣,構(gòu)建讀者文檔和檢索特征矩陣、圖書和類別特征矩陣、檢索和類別特征矩陣,最后對讀者興趣度進(jìn)行排序,類別興趣度越高,讀者對該類圖書越感興趣.
為了驗(yàn)證改進(jìn)模型的查準(zhǔn)率,將改進(jìn)模型與文獻(xiàn)[6]、文獻(xiàn)[7]模型進(jìn)行了查準(zhǔn)率方面的對比,對比結(jié)果如圖1所示.
圖1 不同模型下的查準(zhǔn)率對比Fig.1 Comparison in precision ratio with different models
由圖1可知,圖書信息量為10 000時(shí),采用文獻(xiàn)[6]模型查準(zhǔn)率約為35.4%,隨著圖書信息量的增加,讀者興趣偏好查準(zhǔn)率也隨之增加;文獻(xiàn)[7]模型查準(zhǔn)率約為55.1%,相比文獻(xiàn)[6]模型查準(zhǔn)率提高了約19.7%;采用改進(jìn)模型時(shí),其查準(zhǔn)率約為80.2%,且隨著圖書信息量的增加,讀者興趣偏好查準(zhǔn)率也隨之增加,最高時(shí)達(dá)到了97.6%,相比文獻(xiàn)[6]與[7]模型的查準(zhǔn)率分別提高了44.8%和25.1%,在查準(zhǔn)率方面具備一定的優(yōu)勢.
圖2為3種模型在不同興趣偏好數(shù)據(jù)條件下挖掘時(shí)間的對比示意圖.由圖2可知,文獻(xiàn)[6]模型平均挖掘時(shí)間約為5.4 s,且隨著讀者興趣偏好數(shù)據(jù)量的增加,讀者興趣偏好挖掘時(shí)間也隨之降低;文獻(xiàn)[7]模型平均挖掘時(shí)間約為6.8 s,相比文獻(xiàn)[6]模型的挖掘時(shí)間增加了約1.4 s;采用改進(jìn)模型時(shí),其平均挖掘時(shí)間約為3.8 s,且隨著讀者興趣偏好數(shù)據(jù)量的增加,讀者興趣偏好挖掘時(shí)間也隨之降低,最低時(shí)達(dá)到了2 s.
圖2 不同模型下挖掘時(shí)間對比Fig.2 Comparison in mining time with different models
圖3為3種模型在不同興趣偏好數(shù)據(jù)條件下挖掘準(zhǔn)確率的對比示意圖.由圖3可以看出,采用文獻(xiàn)[6]模型時(shí),準(zhǔn)確率隨著興趣偏好數(shù)量的增加出現(xiàn)先增加后降低的情況,數(shù)據(jù)量在1 000之后降到最低;采用文獻(xiàn)[7]模型時(shí),出現(xiàn)了建模準(zhǔn)確率不穩(wěn)定的情況;而采用改進(jìn)模型時(shí),其建模準(zhǔn)確率大大提高,且準(zhǔn)確率隨著數(shù)據(jù)量的增加而增加.
圖3 不同建模方法的準(zhǔn)確率對比Fig.3 Comparison in accuracy for different modeling methods
針對傳統(tǒng)挖掘模型對圖書信息檢索中讀者興趣偏好數(shù)據(jù)挖掘時(shí)存在的挖掘效率低、耗時(shí)長的問題,提出基于聚類分析的讀者興趣偏好挖掘模型建立方法.在對讀者興趣偏好進(jìn)行度量時(shí),首先需要計(jì)算圖書相似度與讀者興趣的距離,并以此為基礎(chǔ)采用相關(guān)反饋模型Rocchio算法,根據(jù)相關(guān)圖書和不相關(guān)圖書進(jìn)行修正檢索,對讀者興趣圖書檢索進(jìn)行擴(kuò)展,構(gòu)建讀者興趣偏好挖掘模型.實(shí)驗(yàn)結(jié)果表明,采用改進(jìn)模型時(shí),查準(zhǔn)率較高,挖掘時(shí)間更短且誤差較小.
[1]王曉艷,林昌意.基于查詢意圖的中文信息類網(wǎng)頁分類研究 [J].圖書情報(bào)工作,2015,59(1):113-118.
(WANG Xiao-yan,LIN Chang-yi.Research on Chinese informational webpage classification based on query intention [J].Library and Information Service,2015,59(1):113-118.)
[2]王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘 [J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):456-474.
(WANG Yuan-zhuo,JIA Yan-tao,LIU Da-wei,et al.Open web knowledge aided information search and data mining [J].Journal of Computer Research and Development,2015,52(2):456-474.)
[3]譚亮,陳燕,楚存坤.基于研究性學(xué)習(xí)的信息檢索課教學(xué)效果實(shí)證研究 [J].大學(xué)圖書館學(xué)報(bào),2014,32(2):72-75.
(TAN Liang,CHEN Yan,CHU Cun-kun.Information retrieval course’s problem-based learning practice research [J].Journal of Academic Libraries,2014,32(2):72-75.)
[4]李亞琴,孫建軍,楊月全,等.基于信息檢索用戶的相關(guān)性行為研究進(jìn)展 [J].情報(bào)科學(xué),2014,32(5):157-160.
(LI Ya-qin,SUN Jian-jun,YANG Yue-quan,et al.A study of the information retrieval user-oriented beha-vior of relevance [J].Information Science,2014,32(5):157-160.)
[5]卜質(zhì)瓊,鄭波盡.基于 LDA 模型的 Ad hoc 信息檢索方法研究 [J].計(jì)算機(jī)應(yīng)用研究,2015,32(5):1369-1372.
(BU Zhi-qiong,ZHENG Bo-jin.Ad hoc information retrieval method based on LDA [J].Application Research of Computers,2015,32(5):1369-1372.)
[6]王琰.一種多層安全相關(guān)屬性標(biāo)定偏好數(shù)據(jù)挖掘模型 [J].科技通報(bào),2015,31(12):176-178.
(WANG Yan.A multi-layer safety related attribute cali-bration preference data mining model [J].Bulletin of Science and Technology,2015,31(12):176-178.)
[7]呂佳,陳東生.基于聚類算法的服裝感性數(shù)據(jù)挖掘方法 [J].紡織學(xué)報(bào),2014,35(5):108-112.
(Lü Jia,CHEN Dong-sheng.Fashion perceptual data mining based on clustering algorithm [J].Journal of Textile Research,2014,35(5):108-112.)
[8]單冬紅,史玉珍.數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)信息檢索中的應(yīng)用研究 [J].科技通報(bào),2014,30(3):161-164.
(SHAN Dong-hong,SHI Yu-zhen.Application research of data mining technology in the internet information retrieval [J].Bulletin of Science and Technology,2014,30(3):161-164.)
[9]Sotudeh H,Mazarei Z,Mirzabeigi M.Bookmarks are correlated to citations at journal and author levels in library and information science [J].Scientometrics,2015,105(3):2237-2248.
(責(zé)任編輯:景 勇 英文審校:尹淑英)
Establishment and simulation of mining model for interest preference of readers in book information retrieval
FENG Jing1,ZHANG Fu-quan2
(1.Library,Xinjiang Normal University,Urumqi 830054,China;2.School of Software,Beijing Institute of Technology,Beijing 100081,China)
Aiming at the problem that such detects as low mining efficiency and large error always exist when the traditional mining model is used to mine the interest preference data of readers in the book information retrieval,a mining model for the interest preference of readers was proposed.The distance between the book similarity and reader interest was calculated with the classification index distribution tree method.In addition,the interest preference level was measured through interest factor.On this basis,the interest book retrieval for readers was extended with the relevance feedback model Rocchio algorithm,and the mining model for interest preference of readers in the book information retrieval was established with the clustering analysis method.The results show that the mining efficiency,time and error of the improved model are superior to those of the traditional models.
book information;retrieval;interest preference of readers;mining model;interest factor;interest in distance;book similarity;extension
2016-09-26.
國家教育部博士點(diǎn)基金項(xiàng)目(20121101110037).
馮 靜(1978-),女,山東臨清人,講師,碩士,主要從事圖書信息檢索、圖像情報(bào)及計(jì)算機(jī)仿真等方面的研究.
02 17∶28在中國知網(wǎng)優(yōu)先數(shù)字出版.
http:∥www.cnki.net/kcms/detail/21.1189.T.20170302.1728.012.html
10.7688/j.issn.1000-1646.2017.02.13
TP 250.7
A
1000-1646(2017)02-0188-05