王盛明,盧秉亮
(1.沈陽航空職業(yè)技術(shù)學(xué)院,沈陽110034;2.沈陽航空航天大學(xué)計算機(jī)學(xué)院,沈陽110136)
加權(quán)聚類算法在圖書館中的應(yīng)用研究
王盛明1,盧秉亮2
(1.沈陽航空職業(yè)技術(shù)學(xué)院,沈陽110034;2.沈陽航空航天大學(xué)計算機(jī)學(xué)院,沈陽110136)
應(yīng)用加權(quán)聚類算法對本校圖書館的圖書借閱數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,分析研究讀者的借閱行為,通過分析聚類挖掘結(jié)果,尋找到讀者借閱圖書的潛在規(guī)律,并對各類圖書的借閱狀況進(jìn)行判斷,獲得對圖書館管理有用的信息,提高圖書館管理工作效率和資源利用率,進(jìn)一步優(yōu)化館藏。
數(shù)據(jù)挖掘;加權(quán)聚類算法;借閱行為;借閱數(shù)量;個性化服務(wù);聚類結(jié)果分析
隨著信息技術(shù)的迅猛發(fā)展,傳統(tǒng)手工模式的圖書館管理逐漸被智能化的圖書館所取代,智能化的圖書館正從基于簡單數(shù)據(jù)的查詢逐步向基于知識的處理發(fā)展。數(shù)據(jù)挖掘技術(shù)[1]是信息采集和數(shù)據(jù)處理技術(shù)的典型代表,它已經(jīng)成功應(yīng)用于金融、工程與科學(xué)等眾多領(lǐng)域,并且在現(xiàn)代圖書館得到廣泛應(yīng)用[1]。
應(yīng)用數(shù)據(jù)挖掘的聚類算法中加權(quán)聚類算法對本校圖書館的借閱數(shù)據(jù)進(jìn)行研究。首先,收集數(shù)字圖書館中的借閱數(shù)據(jù),應(yīng)用數(shù)據(jù)清理、歸約等方法對數(shù)據(jù)進(jìn)行預(yù)處理,并計算各類圖書的借閱次數(shù)。然后應(yīng)用加權(quán)聚類算法對借閱次數(shù)進(jìn)行數(shù)據(jù)挖掘,最后,對數(shù)據(jù)挖掘結(jié)果進(jìn)行分析并論證挖掘過程的有效性。
2.1 聚類算法進(jìn)行聚類的原理
聚類算法[2]可以描述為:給定m維空間R中的n個向量,把每個向量歸屬到k個聚類中的某一個,使得每一個向量與其聚類中心的距離最小。聚類可以理解為:類內(nèi)的相關(guān)性盡量大,類間相關(guān)性盡量?。?]。在這里對學(xué)生讀書量和讀書種類進(jìn)行聚類。
2.2 聚類算法原理
聚類算法主要有基于層次、基于劃分和基于密度的算法等,其中最常用和最有效的是基于劃分的K-means算法。K-means算法把n個向量xi(i=1,2,…,n)分成k個類Gi(i=1,2,…,k)并求每類的聚類中心,使得非相似性(或距離)指標(biāo)的目標(biāo)函數(shù)達(dá)到最小。當(dāng)選擇第i個類Gi中向量xl與相應(yīng)的聚類中心Ci間的度量為歐幾里德距離時,目標(biāo)函數(shù)可以定義為:
這里Ji是Gi內(nèi)的目標(biāo)函數(shù),顯然J的大小取決于聚類中心Ci和Gi的形狀,J越小,表明聚類的效果越好。
K-means算法:
(1)首先隨機(jī)選取k個向量作為每類的中心;
(2)設(shè)U是一個c×n的二維隸屬矩陣,如果第j個向量xj屬于類i,則矩陣U中的元素uij為1,否則為0。即對于每個k≠j且‖Xj-Ci‖≤‖Xj-Ck‖時,uij=1,否則uij=0;
(3)根據(jù)uij計算目標(biāo)函數(shù)J(公式1)的值,如果它小于一個閾值或連續(xù)兩次之差小于一個閾值則停止;
2.3 加權(quán)的聚類算法
3.1 數(shù)據(jù)挖掘過程中的聚類分析算法分析
聚類分析讀者借閱量,可以得到讀者借書頻率的高低[3]。根據(jù)圖書管理信息系統(tǒng)的實際數(shù)據(jù),應(yīng)用加權(quán)聚類算法,進(jìn)行數(shù)據(jù)挖掘過程分析[4]。隨機(jī)地從讀者借閱量表中抽取200名學(xué)生的記錄,針對2010級按系和專業(yè)的學(xué)生對各類圖書的借閱數(shù)量形成表1。這里省略學(xué)號。
表1 讀者借閱數(shù)量表
根據(jù)各專業(yè)的特點,對各類圖書的需要程度進(jìn)行加權(quán)。例如理工類對計算機(jī)圖書的權(quán)值高,人文圖書的權(quán)值低;外語、經(jīng)管對人文圖書的權(quán)值高,理工圖書的權(quán)值低。生成U,行為學(xué)科專業(yè),列為圖書類型。將每個學(xué)科專業(yè)學(xué)生對借閱圖書最少的值作為每個類的中心。把聚類的個數(shù)設(shè)置為3。一類為很少去圖書館借書的學(xué)生即惰性學(xué)生,第二類為一般學(xué)生,第三類為經(jīng)常去圖書館借書的學(xué)生即活躍學(xué)生。應(yīng)用加權(quán)聚類算法對表1里的數(shù)據(jù)進(jìn)行挖掘,根據(jù)uij計算目標(biāo)函數(shù)J,‖Xj-Ci‖≤‖Xj-Ck‖時,uij=1,否則uij=0,生成U;根據(jù)uij計算每個簇團(tuán)Gi的中心Ci。
將借閱量作為挖掘?qū)ο?,從?的借閱量中得到{3,5,7,9,13,14,17,19,19,21,22,23,25,29,31,33,33,39,41,45,55,69,78,98,121},設(shè)置前三個數(shù)據(jù)作為三個類中心,即為ml=3,m2=5,m3=7。迭代聚類得到最終結(jié)果如表2所示,中間結(jié)果略。
表2 部分讀者借閱本數(shù)聚類結(jié)果
3.2 聚類結(jié)果分析
如表2,得到k1、k2、k3這三列數(shù)據(jù),每列數(shù)據(jù)是一個元組,代表著具有相同借閱習(xí)慣的一組數(shù)據(jù)。kl為{3,5,7,9,13,14,17,19,19}表示借閱量很少的學(xué)生,對應(yīng)于表1中相應(yīng)讀者就是不活躍的學(xué)生,m1為這類讀者的平均借閱本數(shù),惰性學(xué)生的學(xué)號是{2010040101003,2010040202054,2010040303014,2010040501077,2010040604099,2010040802040},他們平均每年去圖書館借書的數(shù)量為9.8本。有59%的學(xué)生平常很少去圖書館借閱圖書。k2為{21,22,23,25,29,31,33,33,39,41,45}表示借閱量一般學(xué)生,學(xué)號是{2010040102009,2010040302033,2010040402119,2010040501022,2010040703100,201004080105,2010041005229,2010041102123,2010041206010,2010041302001,2010041401050},他們平均每年去圖書館借書23.2本。此類學(xué)生占26%。k2為{55,69,78,98,121}表示借閱量活躍學(xué)生,學(xué)號是{2010040101002,2010040502032,2010040802359},他們平均每年借書量為108.6本,此類學(xué)生占15%。由此可得出結(jié)論,挖掘是有效的。
應(yīng)用加權(quán)聚類算法分析了本校圖書館的學(xué)生借閱信息,根據(jù)讀者的借閱信息將其劃分為活躍學(xué)生、一般學(xué)生、惰性學(xué)生。針對上述分析結(jié)果圖書館可采取相應(yīng)措施,制定書籍管理的下一步措施,實現(xiàn)圖書館的個性化服務(wù)[5]。
下一步將對圖書館各類圖書全部借閱數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘[6],進(jìn)行加權(quán)聚類分析,判斷各類圖書的質(zhì)量,得出非常受歡迎的高質(zhì)量圖書類別,驗證各類圖書的借閱趨勢在一段時間內(nèi)基本保持不變[7],從而為圖書館的館藏布局以及圖書采購提供理論支持[8]。
[1] Portnoy L,Eskin E,Stolfo S J.Intrusion Detection with Unlabeled Data Using Clustering[C].Proceedings of ACM CSSWorkshop on Data Mining Applied to Security(DMSA-2001),2001.New York:ACM Press 123-130.
[2] 賀玲,吳玲達(dá),蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計算機(jī)應(yīng)用研究,2007(1):10-13.
LingHe,lingda Wu,Yichao Cai.Survey of Clustering Algorithms in Data Mining[J].Application Research of Computers,2007(1):10-13.
[3] 王路漫.FCM聚類算法在數(shù)字圖書館中的應(yīng)用研究[J].內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版),2010(7):8773-8775.
Luman Wang.Application Based on FCM Clustering Algorithm in Digital library[J].Journal of Inner Mongolia University,2010(7):8773-8775.
[4] 章婷,姚萬輝.關(guān)聯(lián)規(guī)則和事務(wù)集分組技術(shù)在圖書館個性化推薦系統(tǒng)中的應(yīng)用研究[J].電腦知識與技術(shù),2009(11):431-434.
ZHANG Ting,YAOWan-h(huán)ui.The Application Research of Association Rules and Affairs Grouping Technique in Library Individualized Recommendation System[J].Computer Knowledge and Technology,2009(11):431-434.
[5] 茹蓓,趙芳.聚類算法在圖書館中的應(yīng)用[J].新鄉(xiāng)學(xué)院學(xué)報(自然科學(xué)版),2011(2):41-42.
Pei Ru,F(xiàn)angZhao.The Application of Clustering Algorithm in the Library[J].Journal of Xinxiang University:Natural Science Edition,2011(2):41-42.
[6] 蔡會霞,朱潔,蔡瑞英.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在高校圖書館中的應(yīng)[J].南京工業(yè)大學(xué)學(xué)報,2005,27(1):85-88.
Huixia Cai,Ji Zhu,Ruiying Cai.Application of data mining based association rule in the system of library[J].Jonunal of Nan Jing University of Technology,2005,27(1):85-88.
[7] 張付志,姜志英.一種基于聚類技術(shù)的數(shù)字圖書個性化推薦算法[J].計算機(jī)應(yīng)用與軟件,2008,25(7):84-85.
ZhiFu Zhang,Zhiying Jiang.A personalized recommendation algorithm for digital library based on clustering technology[J].Computer Application and Software,2008,25(7):84-85.
[8] 黃蘭,郭志敏,習(xí)萬球.利用聚類技術(shù)對圖書館讀者群的研究分析[J].計算機(jī)工程與設(shè)計,2007,28(22):5552-5555.
LanHuang,Zhimin Guo,Wanqiu Xi.Utilizing clustering to analysis readers in libary[J].Computer Engineering and Design,2007,28(22):5552-5555.
Research ofWeighted Clustering Algorithm in the Library
Wang Shengming1,Lu Bingliang2
(1.Shenyang Aeronautical Vocational College,Shenyang 110034,China;2.Computer Department,Shenyang Aerospace University,Shenyang 110136,China)
In order to analyze the reader's borrow behavior,the weighted clustering algorithm is used tomine the user's borrowing data in the school library.By analyzing the results of the clusteringmining,we find potential borrowing laws of readers,judge the state of all kinds of books borrowed by readers,and obtain some useful information for librarymanagementwhich can be used to improve the librarymanagement efficiency and resource utilization.Itwill be a good way to optimize collections in the school library.
Data mining;Weighted clustering algorithm;Borrow behaviors;Borrow amount;Personalized service;Analysis of clustering results
10.3969/j.issn.1002-2279.2015.06.013
TP312
A
1002-2279(2015)06-0047-03
王盛明(1973-),男,遼寧省海城市人,副教授,高級工程師,碩士研究生,主研方向:計算機(jī)網(wǎng)絡(luò)與數(shù)據(jù)庫。
2015-02-13