葛曉玢,劉 杰
(銅陵職業(yè)技術(shù)學(xué)院,安徽 銅陵 244061)
數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館管理中的應(yīng)用
葛曉玢,劉 杰
(銅陵職業(yè)技術(shù)學(xué)院,安徽 銅陵 244061)
本文分析了數(shù)據(jù)挖掘技術(shù)較之傳統(tǒng)數(shù)據(jù)分析的優(yōu)勢(shì),并列舉了其在高校圖書(shū)館中的應(yīng)用。
數(shù)字挖掘技術(shù);圖書(shū)館
高校圖書(shū)館蘊(yùn)含著豐富的館藏資源,涉及到各個(gè)領(lǐng)域的專(zhuān)業(yè)知識(shí),是學(xué)習(xí)的寶貴資源和財(cái)富,但是圖書(shū)數(shù)量的增多給學(xué)生帶來(lái)豐富信息的同時(shí)也給圖書(shū)的甄選工作提出了挑戰(zhàn)。如何將圖書(shū)信息全面完整細(xì)致地呈現(xiàn)給讀者一直以來(lái)是圖書(shū)館理工作研究的重點(diǎn)課題,鑒于圖書(shū)數(shù)量龐大和跨學(xué)科研究學(xué)習(xí)的科研現(xiàn)狀,數(shù)據(jù)挖掘技術(shù)走進(jìn)了圖書(shū)館。
與聯(lián)機(jī)分析、報(bào)表分析和查詢(xún)分析等傳統(tǒng)的數(shù)據(jù)分析方法相比較,數(shù)據(jù)挖掘技術(shù)的顯著特點(diǎn)是數(shù)據(jù)分析的模糊性和整體性以及隱含關(guān)聯(lián)性,即數(shù)據(jù)挖掘的分析工作沒(méi)有清晰的分析和檢索依據(jù),所檢索得到的結(jié)果是與檢索題目有關(guān)聯(lián)的任何書(shū)目,有時(shí)是題目字詞上的重合書(shū)目,有時(shí)是書(shū)目之間存在隱含的關(guān)聯(lián)和重合性。正因?yàn)閿?shù)據(jù)挖掘技術(shù)所挖出的數(shù)據(jù)信息與常規(guī)思維有差異,才可能獲得意料之外的信息,從而有利于拓寬思維領(lǐng)域,打破思維定式,進(jìn)而有利于資源的充分整合和利用[1-2]。
2.1 數(shù)據(jù)挖掘的基本方法
數(shù)據(jù)挖掘是數(shù)據(jù)分析的改進(jìn)和升級(jí),其與圖書(shū)館管理內(nèi)容相匹配的基本的工作方法是對(duì)數(shù)據(jù)的關(guān)聯(lián)、序列和分類(lèi)以及聚類(lèi)進(jìn)行分析處理。第一,數(shù)據(jù)關(guān)聯(lián)分析的主要工作為分析發(fā)掘數(shù)據(jù)表面之后的內(nèi)容且找出數(shù)據(jù)信息之間的潛在關(guān)系;第二,數(shù)據(jù)序列分析的主要工作為對(duì)單位時(shí)間內(nèi)的連續(xù)事件進(jìn)行周期性的分析和處理;第三,數(shù)據(jù)分類(lèi)分析的主要工作為依據(jù)各個(gè)樣品的特征確定其分門(mén)別類(lèi)的規(guī)律;第四,數(shù)據(jù)聚類(lèi)分析的主要工作為將所有數(shù)據(jù)信息按照意群進(jìn)行分組,每組再進(jìn)行進(jìn)一步分組,并且對(duì)每一層次的小組都進(jìn)行說(shuō)明。
2.2 數(shù)據(jù)挖掘的具體應(yīng)用
(1)數(shù)據(jù)挖掘技術(shù)之預(yù)處理。數(shù)據(jù)的預(yù)處理工作是關(guān)乎數(shù)據(jù)信息真實(shí)性、有效性和準(zhǔn)確性的基礎(chǔ)性工作,預(yù)處理信息的可靠程度決定了數(shù)據(jù)挖掘過(guò)程中所提煉信息的質(zhì)量和可用性。因此,在數(shù)據(jù)挖掘技術(shù)應(yīng)用的過(guò)程中要對(duì)數(shù)據(jù)信息的采集和處理進(jìn)行嚴(yán)格的質(zhì)量檢查和評(píng)估。在具體的工作中質(zhì)控工作主要在于二級(jí)數(shù)據(jù)信息流通記錄表單信息的處理,該處理工段要對(duì)數(shù)據(jù)的項(xiàng)目進(jìn)行查缺補(bǔ)漏,去重補(bǔ)缺,從而保證基礎(chǔ)數(shù)據(jù)信息的質(zhì)量。其次,要對(duì)數(shù)據(jù)的清洗工作予以足夠的重視,首先是要將殘缺數(shù)據(jù)進(jìn)行甄別并做適當(dāng)?shù)奶幚恚缓笠幚淼翦e(cuò)誤數(shù)據(jù)以免出現(xiàn)數(shù)據(jù)挖掘出無(wú)效信息而影響檢索效率。最后,要對(duì)數(shù)據(jù)信息進(jìn)行格式統(tǒng)一,對(duì)于相同或者相近信息進(jìn)行統(tǒng)一化表述,對(duì)于不同類(lèi)信息進(jìn)行不同文字類(lèi)別標(biāo)識(shí),從而提高挖掘的準(zhǔn)確性和挖掘的速度。
(2)數(shù)據(jù)挖掘技術(shù)之挖掘引擎。挖掘引擎是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵,引擎功能的強(qiáng)弱對(duì)挖掘出的信息質(zhì)量和挖掘速度有決定性的影響。挖掘引擎的主要運(yùn)作功用是應(yīng)用最合理的技術(shù)和運(yùn)算函數(shù)以及公式對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行整合,從而用最短的時(shí)間提煉出最有效的信息。數(shù)據(jù)挖掘技術(shù)中主要有決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類(lèi)分析、統(tǒng)計(jì)學(xué)習(xí)、模糊集和粗糙集等,下面詳細(xì)對(duì)關(guān)聯(lián)原則分析法進(jìn)行說(shuō)明。關(guān)聯(lián)規(guī)則的重要作用是以支持度和置信度為參考量對(duì)數(shù)據(jù)信息之間潛在的關(guān)系進(jìn)行分析說(shuō)明。數(shù)據(jù)記錄中所有字段取值構(gòu)成的合集稱(chēng)作項(xiàng)集,記做I,設(shè)X、Y為項(xiàng)目集,且符合X∈I,Y∈I,X∩Y=Φ,那么,支持度是指包含項(xiàng)目集X和Y的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記做support(X=>Y),它描述了X和Y這兩個(gè)項(xiàng)目集在所有事務(wù)中同時(shí)出現(xiàn)的概率;置信度是指包含項(xiàng)目集X和Y的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記做confidence(X=>Y),它描述了在出現(xiàn)項(xiàng)目集X的事務(wù)集中,項(xiàng)目集Y也同時(shí)出現(xiàn)的概率。關(guān)聯(lián)規(guī)則分析方法的核心步驟便是根據(jù)最小支持度找出數(shù)據(jù)集中的頻繁項(xiàng)目集,根據(jù)頻繁項(xiàng)目集和最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則。如何查找頻繁項(xiàng)目集,這是關(guān)聯(lián)規(guī)則算法要解決的問(wèn)題。經(jīng)典的方法是查找頻繁項(xiàng)目集的全集,其中包括基于廣度優(yōu)先搜索策略的apriori算法和基于深度優(yōu)先搜索策略的FP-Tree算法。
(3)數(shù)據(jù)挖掘技術(shù)之用戶(hù)界面。用戶(hù)界面是數(shù)據(jù)挖掘技術(shù)的使用窗口,是服務(wù)于讀者用戶(hù)的終端。用戶(hù)界面的設(shè)計(jì)要注意以下三個(gè)方面。首先是用戶(hù)界面的設(shè)計(jì)內(nèi)容中要充分體現(xiàn)圖書(shū)館的書(shū)香氣息和學(xué)校的育人理念,從而為讀者提供良好的人文閱讀軟環(huán)境;第二是用戶(hù)界面的使用方法設(shè)計(jì)要條理清晰,圖標(biāo)形象,文字明了,從而有利于為讀者所進(jìn)行檢索工作提供方便,進(jìn)而增加數(shù)據(jù)挖掘技術(shù)的實(shí)用性;第三是用戶(hù)界面軟件的編程方法的選擇,通常情況下可以應(yīng)用C語(yǔ)言或者C++語(yǔ)言來(lái)完成界面的制作以利于編程工作效率的提高。
(4)數(shù)據(jù)挖掘技術(shù)應(yīng)用之讀者個(gè)性化服務(wù)功能。讀者個(gè)性化服務(wù)與網(wǎng)絡(luò)閱讀中的相似文段推薦有異曲同工之處。數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館中的重要作用是建立讀者的個(gè)性化服務(wù)使用功能,從而能保證讀者在閱讀本館的相關(guān)書(shū)籍時(shí)了解到很多與之相關(guān)聯(lián)的其他書(shū)籍,進(jìn)而為學(xué)生的閱讀提供定向性地指導(dǎo),縮短了讀者檢索所用的時(shí)間。
關(guān)于讀者的個(gè)性化服務(wù)功能的建立是以對(duì)大量圖書(shū)借閱的信息數(shù)據(jù)為基礎(chǔ)的,對(duì)讀者群體、讀者閱讀喜好、對(duì)所借書(shū)籍的認(rèn)可程度以及圖書(shū)查詢(xún)未果的概率等方面的數(shù)據(jù)進(jìn)行分析,然后將信息分類(lèi)匯總,最終確定檢索某些書(shū)目的讀者的閱讀喜好和可能的研究方向,從而實(shí)現(xiàn)讀者使用引擎進(jìn)行檢索時(shí)個(gè)性化服務(wù)功能可以為其提供與之相關(guān)的書(shū)目作為借閱參考。在該服務(wù)功能中讀者說(shuō)明了確切需求的為顯示反饋,反之則為隱式反饋。讀者個(gè)性化服務(wù)功能的實(shí)現(xiàn),滿(mǎn)足了不同讀者對(duì)檢索的需求,充分發(fā)揮了數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館管理工作中的作用,體現(xiàn)了信息技術(shù)對(duì)于各項(xiàng)工作的積極促進(jìn)作用。讀者的顯示反饋將讀者的檢索內(nèi)容作為個(gè)性化服務(wù)的參考,經(jīng)由網(wǎng)絡(luò)資源挖掘出讀者所需的信息,并且還經(jīng)由電子郵件、微信和微博等方式將相似度較高的信息推薦給讀者。隱式反饋是計(jì)算機(jī)對(duì)讀者的檢索歷史進(jìn)行跟蹤記錄,從而為讀者提供常用相關(guān)書(shū)目作為閱讀參考。
綜上所述,數(shù)據(jù)挖掘技術(shù)所能夠?yàn)楦咝D書(shū)館管理工作提供有效的服務(wù),不僅便于圖書(shū)的管理工作,還對(duì)讀者的有效閱讀以及提高檢索效率有顯著的影響,最終將為大學(xué)生的終身學(xué)習(xí)進(jìn)行輔助性的指導(dǎo)。
[1]蔣慧新. 數(shù)字圖書(shū)館的個(gè)性化信息服務(wù)研究[J]. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2010(06) 21:104-105.
[2]楊雪霞.?dāng)?shù)據(jù)挖掘技術(shù)在高校圖書(shū)館管理系統(tǒng)中的應(yīng)用研究[J].軟件,2011,(04):16-18.
Application of data mining technology in University Library
GE Xiao-bin,LIU Jie
(Tongling Vocational and Technical College,Tongling 244061,Anhui Province,China)
This paper analyzes the advantages of data mining technology compared with the traditional data analysis, and lists its application in the University library.
digital mining technology; Library
G251
A
10.3969/j.issn.1672-7304.2016.05.024
1672–7304(2016)05–0049–02
(責(zé)任編輯:吳 芳)
葛曉玢(1983-),女,安徽淮北人,講師,研究方向:web與數(shù)據(jù)庫(kù)研究。