王海燕(長春光華學(xué)院 吉林 長春 130033)
數(shù)字圖書館數(shù)據(jù)挖掘研究
王海燕
(長春光華學(xué)院 吉林 長春 130033)
自從改革開放以來,我國經(jīng)濟(jì)得到了快速的發(fā)展和進(jìn)步。伴隨著經(jīng)濟(jì)的快速發(fā)展,我國在科學(xué)技術(shù)方面取得了比較顯著的成就,尤其是在數(shù)字圖書館的數(shù)據(jù)挖掘方面更是取得了令人舉世矚目的成就。眾所周知的是,近幾年來我國漸漸的涌出了大量的數(shù)字圖書館,并且已經(jīng)開始漸漸的取代傳統(tǒng)的圖書館。數(shù)字圖書館的出現(xiàn)不僅僅大量的提高了整個(gè)圖書館的管理效率,而且減少了人力和物力的損耗。而在數(shù)字圖書館的日常管理過程中,數(shù)據(jù)挖掘是極其重要的一個(gè)環(huán)節(jié),數(shù)據(jù)挖掘很好的豐富了數(shù)字圖書館的內(nèi)容。但是,由于受多方面因素的約束,我國在數(shù)字圖書館的數(shù)據(jù)挖掘方面始終存在著一系列問題,進(jìn)而嚴(yán)重的阻礙了整個(gè)數(shù)字圖書館的進(jìn)一步發(fā)展。本文就目前我國數(shù)字圖書館數(shù)據(jù)挖掘做了簡要的分析和探討。
數(shù)字圖書館;數(shù)據(jù);挖掘
隨著科技的快速發(fā)展,21世紀(jì)已經(jīng)是一個(gè)數(shù)字化和科技化的時(shí)代,各種數(shù)字技術(shù)已經(jīng)被廣泛的應(yīng)用到了各個(gè)領(lǐng)域中,并且也都取得了比較顯著的成就。而在數(shù)字圖書館的建立和管理過程中,數(shù)字挖掘技術(shù)更是扮演了極其重要的角色,它是數(shù)字圖書館發(fā)展過程中不可或缺的一部分。與傳統(tǒng)的圖書館相比較,數(shù)字挖掘技術(shù)的應(yīng)用更好的實(shí)現(xiàn)了圖書館的數(shù)字化,使得圖書館大量的工作都又原來的人工操作嘗變成了數(shù)字技術(shù)操作。我國政府也已經(jīng)認(rèn)識(shí)到了數(shù)據(jù)挖掘技術(shù)的重要性,并且在數(shù)據(jù)挖掘技術(shù)方面投入了大量的資金和精力,同時(shí)也培養(yǎng)了大量的高端數(shù)據(jù)挖掘技術(shù)人員。但是,與西方其他先進(jìn)的發(fā)達(dá)國家相比較,我國整體的數(shù)據(jù)挖掘技術(shù)水平仍然比較低。為了盡快改變這一現(xiàn)狀,必須要積極的引進(jìn)并且學(xué)習(xí)其他國家先進(jìn)的數(shù)據(jù)挖掘技術(shù),并且應(yīng)用到我國數(shù)字圖書館的日常管理過程中。
為了更好的將數(shù)據(jù)挖掘應(yīng)用到數(shù)字圖書館中,我們必須要首先準(zhǔn)確的了解并且掌握數(shù)據(jù)挖掘的具體概念。對于數(shù)據(jù)挖掘而言,它是一個(gè)新型的概念,是計(jì)算機(jī)科學(xué)技術(shù)的一個(gè)重要部分,主要指的就是通過利用信息技術(shù)從海量數(shù)據(jù)中準(zhǔn)確的提取并且挖掘一些隱藏的信息,然后將這些信息應(yīng)用到實(shí)際應(yīng)用中,而對于一般的信息載體都可以利用數(shù)據(jù)挖掘技術(shù)來進(jìn)行提取信息。數(shù)據(jù)挖掘的過程比較復(fù)雜,包括數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的具體采集以及數(shù)據(jù)結(jié)果的顯示以及解釋,因此,在利用數(shù)據(jù)挖掘技術(shù)之前,我們必須要首先掌握這幾個(gè)過程。而數(shù)字圖書館主要就是利用現(xiàn)代新型的計(jì)算機(jī)技術(shù)和信息檢索技術(shù)對圖書館里面所有的圖書進(jìn)行整理、保存,同時(shí)對數(shù)字信息進(jìn)行收集和使用的綜合智能數(shù)字信息管理與服務(wù)的中心。通過利用信息技術(shù)和計(jì)算機(jī)技術(shù)可以盡可能的滿足所有讀者的實(shí)際需求。
3.1 聚類
與其他普通的技術(shù)相比較,數(shù)據(jù)挖掘的功能特性比較顯著,而且種類比較豐富,其中比較重要的一個(gè)功能特性就是聚類。聚類是比較復(fù)雜的一個(gè)功能特性,它主要指的就是利用現(xiàn)代計(jì)算機(jī)技術(shù)將所有的數(shù)據(jù)個(gè)體根據(jù)它們自身的特點(diǎn)進(jìn)行歸納,然后使得所有的這些數(shù)據(jù)都可以形成一組具有獨(dú)特屬性的數(shù)據(jù)群組。而聚類可以分成兩種類型,對于同一種類聚類的結(jié)合就是將同一種類型的數(shù)據(jù)集中在一起進(jìn)行管理和保存。而不同類聚類就是將不同特性的不同數(shù)據(jù)進(jìn)行同一管理。然后我們可以根據(jù)這些特性來得知同種類事物之間的共同性和不同種類事物之間所存在的差異性。
3.2 關(guān)聯(lián)分析
在數(shù)據(jù)挖掘的功能特性中,關(guān)聯(lián)分析是另一個(gè)比較顯著的特性,它與聚類存在著比較大的差別。對于關(guān)聯(lián)分析而言,它主要就是反映了數(shù)字圖書館中所收集的各種數(shù)據(jù)單元之間所存在一定關(guān)聯(lián)性的具體信息。例如,對于數(shù)字圖書館中的一組數(shù)據(jù)而言,如果這一組數(shù)據(jù)中大部分的數(shù)據(jù)都存在著相互的關(guān)聯(lián)性。那么我們可以根據(jù)其中一項(xiàng)的具體屬性來了解并且掌握其他項(xiàng)的具體屬性。
3.3 概念描述
概念描述就是對某類對象的本質(zhì)進(jìn)行探討分析,并總結(jié)這類對象的相關(guān)特點(diǎn),概念描述有區(qū)別描述與特征描述兩種,前者描述不同類對象間的差別,后者則是描述某類對象的相同特征,最后形成一個(gè)類的特征性描述,并且只涉及這類對象中全部對象的共同特性。
我們我們建立數(shù)字圖書館的主要目的就是通過計(jì)算機(jī)技術(shù)將不同地區(qū)以及不同屬性的數(shù)據(jù)信息資源進(jìn)行整合,然后將這些整合資源提供給用戶進(jìn)行使用。數(shù)字圖書館數(shù)據(jù)挖掘可以分成三類,即結(jié)構(gòu)挖掘、內(nèi)容挖掘以及用戶使用記錄挖掘。下面就這三種類型數(shù)據(jù)挖掘的具體應(yīng)用做了簡要的介紹。
4.1 進(jìn)行結(jié)構(gòu)挖掘
在將數(shù)據(jù)挖掘應(yīng)用到數(shù)字圖書館的過程中,進(jìn)行結(jié)構(gòu)挖掘是一個(gè)重要的應(yīng)用之一,并且與其他的應(yīng)用相比較,結(jié)構(gòu)挖掘的操作比較簡單。例如,進(jìn)行結(jié)構(gòu)挖掘主要就是通過計(jì)算機(jī)網(wǎng)頁的一些具體鏈接和組織結(jié)構(gòu)盡快的了解并且發(fā)現(xiàn)圖書館頁面的的具體結(jié)構(gòu)模式,然后根據(jù)模式的具體特征進(jìn)行具體的分類和分析。利用這種方式,我們可以快速的并且準(zhǔn)確的對數(shù)字圖書館的網(wǎng)絡(luò)建設(shè)提供一定的積極指導(dǎo),同時(shí)也可以通過這些網(wǎng)頁的鏈接對我國各個(gè)學(xué)術(shù)未來的發(fā)展方向進(jìn)行具體的了解和分析。最后,利用這種數(shù)據(jù)挖掘技術(shù)可以大大的節(jié)省人力和物力,提高數(shù)字圖書館管理效率。
4.2 進(jìn)行內(nèi)容挖掘
與結(jié)構(gòu)挖掘相比較,內(nèi)容挖掘的過程比較復(fù)雜,內(nèi)容比較豐富。例如,對于內(nèi)容挖掘而言,它主要包含了幾個(gè)方面的內(nèi)容。第一,組織文獻(xiàn)數(shù)據(jù):它主要指的就是通過利用現(xiàn)代信息技術(shù)對數(shù)字圖書館里面所有的文件進(jìn)行整理和分類,然后對各個(gè)分類的具體內(nèi)容進(jìn)行充分的了解和掌握,這樣用戶在利用數(shù)字圖書館中的信息的時(shí)候,可以根據(jù)自己所要查找的信息分類快速的搜索相關(guān)的內(nèi)容分區(qū),同時(shí)還可以更好的確保他們所查找信息的準(zhǔn)確性。第二就是對特征的自動(dòng)提取和描述。這是一個(gè)技術(shù)性比較高的過程,在利用數(shù)據(jù)挖掘技術(shù)的過程中,我們可以利用一個(gè)具體的內(nèi)容分析器從其中分析并且提取出相關(guān)的內(nèi)容特征,當(dāng)用戶在準(zhǔn)確的提取這些內(nèi)容特征以后才能在數(shù)字圖書館中更加準(zhǔn)確的實(shí)現(xiàn)自己需要查找的信息的具體定位。其三是自動(dòng)采集整理專題信息。但數(shù)據(jù)挖掘終究是一種新興的智能科技產(chǎn)物,它的發(fā)展還是有很多挑戰(zhàn)與難題需要面對。
4.3 進(jìn)行用戶使用記錄挖掘
與結(jié)構(gòu)挖掘和內(nèi)容挖掘相比較,進(jìn)行用戶使用記錄挖掘也具有它獨(dú)特的特征。對于用戶使用記錄挖掘而言,就是通過挖掘技術(shù)對用戶以前在數(shù)字圖書館中的查詢記錄進(jìn)行挖掘和記錄,然后用戶可以在最短的時(shí)間內(nèi)再次準(zhǔn)確的查找這些信息,這樣可以大大的減少用戶進(jìn)行信息查詢的時(shí)間,并且也提高了用戶查詢信息的準(zhǔn)確性。
綜上所述,為了更好的將數(shù)據(jù)挖掘技術(shù)應(yīng)用到數(shù)字圖書館中,必須要首先準(zhǔn)確的了解并且認(rèn)識(shí)到數(shù)據(jù)挖掘的具體功能個(gè)性,然后根據(jù)數(shù)據(jù)挖掘的具體功能特性進(jìn)行應(yīng)用。同時(shí),還應(yīng)該不斷的加大對于數(shù)據(jù)挖掘技術(shù)的資金投入力度,不斷的提高我國數(shù)據(jù)挖掘技術(shù)水平。
[1]周文云.數(shù)據(jù)挖掘在數(shù)字圖書館個(gè)性化服務(wù)中的研究與應(yīng)用[J].軍民兩用技術(shù)與產(chǎn)品,2012(1):56.
[2]田瑞雪.國內(nèi)圖書館數(shù)據(jù)挖掘技術(shù)應(yīng)用研究述評[J].科技信息,2014(1):167.
[3]付紅偉,盧春,周楊.數(shù)據(jù)挖掘技術(shù)及其在數(shù)字圖書館中的應(yīng)用[J].軟件導(dǎo)刊,2013(1).
G647
A
1009-5624(2016)06-0137-02