摘要:為探討數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化服務(wù)中的應(yīng)用,提高圖書館服務(wù)的針對性、主動性、高效性,文章采用文獻(xiàn)分析法梳理研究思路,了解高校圖書館個性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用思路及具體技術(shù)并結(jié)合文獻(xiàn)梳理結(jié)果、工作實踐提出數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程。研究結(jié)果表明:文章提出的高校圖書館個性化服務(wù)中的數(shù)據(jù)挖掘技術(shù)可向讀者推薦合適的圖書文獻(xiàn)信息并進(jìn)一步收集讀者的個人數(shù)據(jù)、借閱行為數(shù)據(jù)、檢索數(shù)據(jù)等,通過構(gòu)建關(guān)聯(lián)模型達(dá)到了提高讀者服務(wù)針對性、高效性的目的。
關(guān)鍵詞:高校圖書館;數(shù)據(jù)挖掘;個性化服務(wù)
中圖分類號:TP311
文獻(xiàn)標(biāo)志碼:A
0 引言
隨著信息技術(shù)的不斷發(fā)展,高校的圖書館資源也越來越豐富。在海量的圖書資源中,如何讓用戶找到自己想看的書并將適合的書推薦給適合的讀者,是擺在高校圖書館面前的一個重要課題。高校圖書館利用數(shù)據(jù)挖掘技術(shù)可以分析讀者借閱行為背后的基本規(guī)律,根據(jù)讀者的喜好、實際需要提供個性化的推薦服務(wù),提高了圖書館服務(wù)的主動性、針對性。
1 高校圖書館個性化服務(wù)技術(shù)思路
高校圖書館的服務(wù)對象是校內(nèi)的廣大師生,除了要提供常規(guī)的圖書借閱服務(wù)外,還須要針對師生的學(xué)術(shù)研究、日常工作與學(xué)習(xí)為師生提供更專業(yè)的文獻(xiàn)咨詢等服務(wù),這就需要高校圖書館的服務(wù)更具準(zhǔn)確性、專業(yè)性,能夠分析不同類型讀者的需求、使用行為、興趣特點等,主動并精準(zhǔn)地向用戶推送文獻(xiàn)資料,提供更專業(yè)、更主動、更精細(xì)的服務(wù)。傳統(tǒng)的圖書館個性化服務(wù)無法發(fā)現(xiàn)大數(shù)據(jù)下隱藏的價值信息,而信息技術(shù)的發(fā)展破解了這一難題。數(shù)據(jù)挖掘技術(shù)的應(yīng)用可揭示數(shù)據(jù)信息之間的相互關(guān)系;大數(shù)據(jù)技術(shù)的應(yīng)用可對數(shù)據(jù)信息進(jìn)行分析、檢索、加工,精準(zhǔn)地向用戶推送圖書信息;數(shù)據(jù)挖掘過程中會攜帶大量的其他信息,信息過濾技術(shù)可以過濾掉不必要的信息,留下能夠滿足用戶需求的少數(shù)關(guān)鍵信息,以提高個性化服務(wù)的準(zhǔn)確性、高效性。圖書館個性化服務(wù)還須要通過人工智能技術(shù)將自動化與計算機技術(shù)聯(lián)系起來,通過深度學(xué)習(xí)分析用戶的個性化需求,提高圖書館信息檢索效率,拓展圖書館服務(wù)范圍[1]。在高校圖書館個性化服務(wù)中,數(shù)據(jù)挖掘技術(shù)起到關(guān)鍵作用,基本步驟主要包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果評價3個部分,具體如圖1所示。
不同領(lǐng)域需要分析的問題不同,所采用的數(shù)據(jù)挖掘技術(shù)也有所不同。數(shù)據(jù)挖掘的步驟并非一成不變,所分析數(shù)據(jù)的完整度、數(shù)據(jù)分析人員的專業(yè)能力等也會對數(shù)據(jù)挖掘的具體步驟產(chǎn)生影響。
2 常用數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘過程中常用的技術(shù)包括聚類分析、協(xié)同過濾算法、FP-growth算法、關(guān)聯(lián)分析技術(shù)、爬蟲技術(shù)等。
2.1 聚類分析
數(shù)據(jù)挖掘過程中,聚類分析技術(shù)自動尋找、建立分組規(guī)則的方法,判斷樣本之間的相似性,將相似樣本劃分在一個簇中,實現(xiàn)為有借閱行為的讀者推薦圖書的功能。很多高?,F(xiàn)有的圖書管理系統(tǒng)并不具備為讀者提供主動服務(wù)的功能,聚類分析技術(shù)可以以讀者的借閱情況為簇中心點,分析讀者的閱讀傾向、閱讀習(xí)慣。在聚類分析過程中,系統(tǒng)會設(shè)定最小相似度閾值,若收集到的借閱數(shù)據(jù)滿足該閾值,系統(tǒng)判斷這些借閱數(shù)據(jù)歸屬于同一個簇,再根據(jù)聚類分類結(jié)果向讀者精準(zhǔn)推薦圖書?;蛘咭阅愁悎D書為簇中心點進(jìn)行聚類分析,分析借閱該類圖書借閱者的讀者類型、偏好,針對性地向讀者推薦圖書。
2.2 協(xié)同過濾算法
協(xié)同過濾算法的中心思想是利用用戶之間、用品之間的相似性發(fā)現(xiàn)用戶可能的喜好、偏向,可用于向沒有借閱行為的讀者推薦圖書[2]。協(xié)同過濾算法根據(jù)用戶的興趣愛好將不同的用戶劃分為不同群組,比如低年級新生在圖書館中沒有借閱記錄,就可分析與其專業(yè)屬性相同的高年級學(xué)生的借閱行為,以同專業(yè)、高年級學(xué)生的借閱資料為參考向新生推薦圖書。
2.3 FP-growth算法
FP-growth算法主要通過構(gòu)造FP樹的數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)存儲于FP樹中。該算法雖然屬于關(guān)聯(lián)分析的范疇,但是更高效、更經(jīng)典,只須掃描2次數(shù)據(jù)庫即可將計算機數(shù)據(jù)的關(guān)聯(lián)規(guī)則、頻繁項集高效計算出來。數(shù)據(jù)挖掘過程中,F(xiàn)P-growth算法利用篩選好的數(shù)據(jù)找出以搜索目標(biāo)為后綴的頻繁項集,讀者在利用圖書管理系統(tǒng)的搜索功能時,系統(tǒng)就會將該頻繁項集反饋至讀者搜索頁面,以提高讀者搜索的精確性[3]。
2.4 關(guān)聯(lián)技術(shù)
圖書館在個性化服務(wù)中,可應(yīng)用關(guān)聯(lián)技術(shù)分析讀者專業(yè)背景與圖書借閱類別、數(shù)量的關(guān)系。在高校學(xué)生評價體系中,績點、平均分等指標(biāo)可體現(xiàn)學(xué)生的學(xué)習(xí)能力、學(xué)習(xí)態(tài)度。關(guān)聯(lián)技術(shù)可分析某個年級學(xué)生的成績數(shù)據(jù),再分析學(xué)生對應(yīng)的圖書借閱情況,即可得到學(xué)生績點與圖書類別、數(shù)量之間的關(guān)系。關(guān)聯(lián)規(guī)則主要是通過相關(guān)數(shù)據(jù)得到聚類結(jié)果,發(fā)現(xiàn)有序列模式關(guān)聯(lián)性的圖書書目,圖書管理員在設(shè)置圖書最大借閱天數(shù)、最大借閱圖書數(shù)量時,可根據(jù)讀者的實際情況進(jìn)行個性化設(shè)置。
2.5 爬蟲技術(shù)
爬蟲技術(shù)主要是通過爬蟲程序?qū)崟r捉取相關(guān)書籍的基本信息,比如從豆瓣網(wǎng)捉取書籍的評論,從購書網(wǎng)站捉取對應(yīng)圖書的價格等。該技術(shù)既能夠簡化系統(tǒng)搜集信息的流程,又能夠降低讀者搜索的時間成本[4]。
3 數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化服務(wù)中的具體應(yīng)用
高校圖書館個性化服務(wù)中,數(shù)據(jù)挖掘技術(shù)應(yīng)用的關(guān)鍵步驟主要包括以下幾個方面:
3.1 數(shù)據(jù)資源的獲取與處理
數(shù)據(jù)挖掘技術(shù)主要包括3個步驟,即數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及結(jié)果評價。數(shù)據(jù)準(zhǔn)備階段須要獲取數(shù)據(jù)資源,然后對數(shù)據(jù)資源進(jìn)行優(yōu)質(zhì)化處理,清查冗余數(shù)據(jù),將不同格式的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式并進(jìn)行集成化處理,以保證后續(xù)數(shù)據(jù)挖掘順利進(jìn)行。在高校圖書館服務(wù)過程中,原始數(shù)據(jù)資源主要來自圖書館本身館藏數(shù)據(jù)、讀者的基本信息以及讀者通過圖書館借閱系統(tǒng)產(chǎn)生的行為數(shù)據(jù)等。館藏數(shù)據(jù)主要包括圖書館的屬性信息、讀者信息除基本信息外,還包括借閱記錄、其他聚類分析數(shù)據(jù)等;借閱數(shù)據(jù)主要來自系統(tǒng)借閱業(yè)務(wù)數(shù)據(jù)庫等。館藏數(shù)據(jù)、讀者數(shù)據(jù)、借閱數(shù)據(jù)是利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)個性化服務(wù)的基礎(chǔ)。圖書館獲取相關(guān)數(shù)據(jù)資源后,即對數(shù)據(jù)進(jìn)行空值數(shù)據(jù)處置、噪聲數(shù)據(jù)過濾等預(yù)處理,比如針對每本圖書設(shè)置獨立索引、補全讀者信息中的空白項等[5]。無法補全的或者重復(fù)的信息須要及時清除,以提高后續(xù)數(shù)據(jù)挖掘效率。預(yù)處理后的數(shù)據(jù)要進(jìn)行統(tǒng)一的格式轉(zhuǎn)換、數(shù)據(jù)集成,最終生成讀者基礎(chǔ)數(shù)據(jù)表、圖書信息基礎(chǔ)數(shù)據(jù)表、讀者借閱行為數(shù)據(jù)表等,為后續(xù)的數(shù)據(jù)挖掘打好基礎(chǔ)[6]。
3.2 數(shù)據(jù)挖掘過程
上述數(shù)據(jù)資源清理干凈后,即對處理好的數(shù)據(jù)進(jìn)行挖掘,主要包括以下2個部分。
3.2.1 讀者信息挖掘
讀者信息挖掘的主要步驟包括以下幾個方面:首先,設(shè)置聚類個數(shù)。采用聚類算法挖掘讀者的借閱信息,先對數(shù)據(jù)源進(jìn)行聚類解析,獲取讀者閱讀信息后,再利用K-means算法對讀者基礎(chǔ)數(shù)據(jù)表、讀者借閱行為數(shù)據(jù)表、圖書信息基礎(chǔ)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行聚類、挖掘。高校圖書館讀者可分為3種類型:活躍型、普通型和其他類型?;钴S型即借閱頻次較高,涉獵圖書范圍較廣的讀者;普通型則是借閱頻次及涉獵圖書范圍一般的讀者;其他類型則指能夠被圖書管理系統(tǒng)獲取信息較少的讀者。根據(jù)讀者類型,本研究將聚類k值設(shè)置為3并采用歐氏距離計算讀者信息與所屬分類的歐氏距離。歐氏距離計算公式如下[7]:
式中,x1、x2為2個陳述屬性,d(x1,x2)即二者之間的歐氏距離;x1k表示對應(yīng)x1的詳細(xì)選值,x2k表示對應(yīng)x2的詳細(xì)選值。根據(jù)該公式可計算出圖書館讀者信息與所屬分類的歐氏距離,基于聚類相關(guān)結(jié)構(gòu)重新設(shè)定k個簇,再利用誤差平方和評價簇子集的聚類特性。假設(shè)某個數(shù)據(jù)集中k個簇的子集分別為各個簇對應(yīng)的樣本數(shù)據(jù),可用下式計算該簇子集的誤差平方和[8]:
式中,p為簇個數(shù),m為簇樣本數(shù),E為誤差平方和。首先,按照新的中心將數(shù)據(jù)集中所有元素重新完成聚類,如計算出的誤差平方和未發(fā)生明顯變化,說明聚類、收斂已完成。
其次,準(zhǔn)則函數(shù)是否收斂判斷完成后分類存儲讀者信息并可視化地展示出來。最后,設(shè)置讀者聚類挖掘行為有效值為k,k值會對讀者信息聚類效果產(chǎn)生直接影響,如k值選擇過小,聚類后簇族覆蓋范圍過大,不僅會影響挖掘效率,而且會影響挖掘結(jié)果;如k值選擇過大,則簇族覆蓋范圍過小,會由于聚類數(shù)據(jù)過于分散無法獲取關(guān)聯(lián)性較強的數(shù)值。一般情況下完成k的初步賦值后,須要對其進(jìn)行持續(xù)調(diào)節(jié)、優(yōu)化,獲得一個簇間距較小的有效區(qū)間,k值從該區(qū)間選擇。
3.2.2 讀者借閱信息挖掘
挖掘讀者借閱信息的主要目的是通過分析讀者的閱讀行為規(guī)律提高讀者與圖書的關(guān)聯(lián)度。系統(tǒng)可根據(jù)借閱信息設(shè)置借閱行為信度、支持度有效閾值等指標(biāo)。實際挖掘過程中,首先,將讀者借閱信息數(shù)據(jù)庫中的借閱記錄作為項數(shù)集合,通過項數(shù)集合可以分析讀者與圖書的關(guān)聯(lián)度;其次,分析讀者借閱信息行為支持度、有效置信度、行為提升潛在空間等變量參數(shù),挖掘讀者信息處理過程中的關(guān)聯(lián)規(guī)則并通過迭代優(yōu)化關(guān)聯(lián)規(guī)則,實現(xiàn)信息強關(guān)聯(lián)處理;最后,設(shè)置項集并集中展示關(guān)聯(lián)信息,無關(guān)信息須手動篩查后清除,優(yōu)化挖掘成果[9]。
3.3 結(jié)果評價
上述數(shù)據(jù)挖掘步驟完成后即可實現(xiàn)高校圖書館的個性化服務(wù),既能夠為讀者推薦合適的圖書文獻(xiàn)信息,又能夠幫助讀者檢索到相似度更高的信息。在此過程中,圖書館進(jìn)一步收集讀者的個人數(shù)據(jù)、借閱行為數(shù)據(jù)、檢索數(shù)據(jù)等,構(gòu)建關(guān)聯(lián)模型,提高讀者服務(wù)的針對性、高效性[10]。本研究中高校圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得了更好的個性化服務(wù)效果,提高了圖書信息資源利用率。圖書館利用數(shù)據(jù)挖掘技術(shù)可分析讀者的借閱行為,比如選擇某高校碩士研究生的借閱圖書數(shù)據(jù),可分析現(xiàn)行圖書管理系統(tǒng)中所設(shè)定的研究生借閱權(quán)限是否滿足讀者需求,借閱冊數(shù)、借閱期限等是否合理。通過比較分析某個時間段內(nèi)碩士研究生讀者借閱冊數(shù)、續(xù)借本次、過期本次、預(yù)約本次、借閱本次數(shù)據(jù)比等可知,該校的50位碩士研究生中有借閱行為者49人,其中無續(xù)借、無過期記錄者7人,有續(xù)借無過期記錄者15人,有續(xù)借、有過期記錄者28人,無續(xù)借有過期記錄者2人。其中,有續(xù)借、有過期記錄者占比最高,說明該高校的圖書借閱期限時間設(shè)置過短,無法滿足碩士研究生的借閱需求,因此,圖書館須要優(yōu)化圖書管理制度。此外,數(shù)據(jù)挖掘技術(shù)也提高了圖書采購資金的使用效率。高校圖書館須要根據(jù)校內(nèi)師生的研究課題、項目采購所需圖書資料,以提高圖書館文獻(xiàn)咨詢服務(wù)的全面性、針對性、有效性,因此,圖書館可利用數(shù)據(jù)挖掘技術(shù)提高圖書采購資金的使用效率。在讀者借閱行為數(shù)據(jù)中,通過分析讀者的預(yù)約行為了解其對圖書資料需求的迫切程度,因此,圖書館可通過分析讀者的預(yù)約數(shù)據(jù)了解須要采購的圖書類型。仍以上述高校為例,通過數(shù)據(jù)挖掘可知,該校50名研究生對工具類圖書的需求最大,其次為業(yè)余愛好類圖書,針對考試類圖書的需求反而最小,因此,圖書館采購圖書時可提高工具類圖書的采購比例,擴(kuò)大這類圖書的復(fù)本數(shù)。
4 結(jié)語
總之,數(shù)據(jù)挖掘技術(shù)將龐大數(shù)據(jù)中隱含的、有潛在價值的數(shù)據(jù)挖掘出來,經(jīng)過總結(jié)、歸納、梳理得到概念化的結(jié)果,利用這一概念化結(jié)果可以表達(dá)數(shù)據(jù)庫海量數(shù)據(jù)之間的某種聯(lián)系,最終獲得更多更有價值的信息。因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校圖書館,可向讀者提供個性化的推薦服務(wù),提高圖書館服務(wù)質(zhì)量。
參考文獻(xiàn)
[1]黃茂漢,邱瑾.基于區(qū)塊鏈技術(shù)的高校圖書館科學(xué)數(shù)據(jù)管理模型研究[J].圖書館工作與研究,2022(8):53-62.
[2]刁羽,薛紅.高校圖書館典型用戶群體電子資源行為數(shù)據(jù)分析實證研究:基于創(chuàng)文圖書館電子資源綜合管理與利用系統(tǒng)[J].新世紀(jì)圖書館,2022(7):59-64,71.
[3]陸穎,胡佳琪,史繼強,等.面向科研數(shù)據(jù)管理的高校圖書館學(xué)科服務(wù)研究[J].圖書館工作與研究2021(3):41-48.
[4]劉敏.“雙一流”高校圖書館科學(xué)數(shù)據(jù)服務(wù)現(xiàn)狀及優(yōu)化策略[J].圖書館工作與研究,2020(11):15-24.
[5]王麗君,路一平.基于數(shù)據(jù)挖掘技術(shù)的數(shù)字圖書館交互服務(wù)系統(tǒng)開發(fā)研究[J].信息技術(shù)與信息化,2023(4):35-38.
[6]陳書光,何艷紅,封旭.面向數(shù)據(jù)挖掘的圖書館用戶引導(dǎo)技術(shù)研究[J].廣西民族大學(xué)學(xué)報(自然科學(xué)版),2020(3):87-90.
[7]王慧娜.數(shù)字圖書館個性化交互服務(wù)行為信息挖掘系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2020(10):153-155,159.
[8]唐玖江,榮維東,薛相鋒.青少年課外閱讀推薦書目研究:基于中小學(xué)語文課程標(biāo)準(zhǔn)實施視角[J].圖書館雜志,2020(5):64-74.
[9]王會玲.高校圖書館閱讀書目推薦淺析:以武漢工程科技學(xué)院圖書館為例[J].河南圖書館學(xué)刊,2021(10):80-82.
[10]程全.基于情景感知的智慧圖書館閱讀推薦服務(wù)模型構(gòu)建與優(yōu)化策略[J].圖書館工作與研究,2021(10):119-128.
(編輯 王雪芬)
Application of data mining technology in the personalized service of university library
HU Dongyang
(Zhengzhou Institute of Industrial Application Technology, Xinzheng 451100, China)
Abstract:In order to explore the application of data mining technology in personalized services of university libraries, improve the pertinence, initiative, and efficiency of library services, this article uses literature analysis to sort out the research ideas, understand the application ideas and specific technologies of data mining technology in personalized services of university libraries, and propose the application process of data mining technology based on the results of literature review and work practice. The research results indicate that the data mining technology proposed in the article for personalized services in university libraries can recommend suitable book and literature information to readers and further collect readers’ personal data, borrowing behavior data, retrieval data, etc. By constructing an association model, the goal of improving the pertinence and efficiency of reader services can be achieved.
Key words:university library; data mining; personalized service