• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用及用戶研究

      2014-12-31 00:00:00鄒晶晶易燦

      摘 要:數(shù)據(jù)挖掘技術(shù)作為一種新信息處理技術(shù),在諸多領(lǐng)域得到了普遍關(guān)注,本文以數(shù)據(jù)挖掘技術(shù)在圖書館中的實(shí)際應(yīng)用為例,研究數(shù)據(jù)挖掘技術(shù)在圖書館信息采集、信息服務(wù)方面的重要作用,并研究了用戶對數(shù)據(jù)挖掘技術(shù)的使用技巧。

      關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館;用戶;應(yīng)用研究

      中圖分類號:TP311.13

      數(shù)據(jù)挖掘技術(shù)出現(xiàn)與上世紀(jì)九十年代中期,涉及了數(shù)據(jù)庫、神經(jīng)網(wǎng)絡(luò)、模糊數(shù)學(xué)、模式識別等多方面知識。該技術(shù)實(shí)際上就是從大型數(shù)據(jù)庫中對人們感興趣的知識進(jìn)行提取,而這種知識一般是隱含的、潛在的有用信息。數(shù)據(jù)挖掘?qū)τ趦?yōu)化館藏,提高信息獲取速度起著重要作用。

      1 數(shù)據(jù)挖掘在圖書館中的應(yīng)用研究

      數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用是實(shí)現(xiàn)圖書館管理現(xiàn)代化的重要表現(xiàn)之一,為圖書館館藏的優(yōu)化提供了重要方式,同時(shí)也有效的加快了信息獲取的速度,那么數(shù)據(jù)挖掘技術(shù)究竟是如何實(shí)現(xiàn)其功能的,我們首先要認(rèn)識數(shù)據(jù)挖掘的常用技術(shù)。

      1.1 數(shù)據(jù)挖掘的常用技術(shù)

      結(jié)合數(shù)據(jù)挖掘技術(shù)的應(yīng)用實(shí)際,本文主要介紹以下三種常用的數(shù)據(jù)挖掘技術(shù):一是自動預(yù)測趨勢和行為技術(shù)。數(shù)據(jù)挖掘技術(shù)改變了傳統(tǒng)的單純依靠手工進(jìn)行問題分析的局面,實(shí)現(xiàn)了自動數(shù)據(jù)處理,通過對大型數(shù)據(jù)庫中多種數(shù)據(jù)的自動篩選與分析,進(jìn)行信息預(yù)測性,并快速的根據(jù)已知數(shù)據(jù)得出預(yù)測結(jié)果。二是關(guān)聯(lián)分析技術(shù)。數(shù)據(jù)關(guān)聯(lián)指的是兩個(gè)或多個(gè)變量的取值之間存在的特殊規(guī)律,它是數(shù)據(jù)庫中可被發(fā)現(xiàn)的重要知識,其目的在于尋找數(shù)據(jù)庫中重要的關(guān)聯(lián)網(wǎng)。關(guān)聯(lián)包括三種形式,即簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。三是聚類技術(shù)。在數(shù)據(jù)挖掘過程中,我們可以將數(shù)據(jù)庫中的記錄分解為多個(gè)不同的子集,這就是聚類。這一技術(shù)使人們對客觀現(xiàn)實(shí)的認(rèn)識逐漸加深,同時(shí)也是進(jìn)行概念描述和偏差分析的前提。

      1.2 數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書館中的具體應(yīng)用

      數(shù)據(jù)挖掘技術(shù)在圖書館的數(shù)字資源管理中發(fā)揮著重要作用,并對提升圖書館服務(wù)質(zhì)量具有重要影響,文章主要從數(shù)據(jù)挖掘技術(shù)對優(yōu)化館藏結(jié)構(gòu)與提升信息獲取速度兩方面進(jìn)行分析。

      首先,優(yōu)化館藏的結(jié)構(gòu)。由于受到圖書館文獻(xiàn)購置費(fèi)用的限制,如何合理的分配各學(xué)科文獻(xiàn)的購置成為圖書館管理中的一個(gè)難題,而數(shù)據(jù)挖掘技術(shù)恰好解決了工作人員的這一難題。還要通過數(shù)據(jù)挖掘技術(shù)采集互聯(lián)網(wǎng)上無序的、非結(jié)構(gòu)的數(shù)據(jù),并對其進(jìn)行相應(yīng)的分類,實(shí)現(xiàn)元數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,對讀者的興趣、閱讀傾向進(jìn)行分析,從而實(shí)現(xiàn)文獻(xiàn)采購策略的動態(tài)調(diào)整,以優(yōu)化圖書館的信息資源。其次,提升了信息獲取速度。為了能夠讓用戶在最短的時(shí)間內(nèi)獲取更多的有用信息,工作人員需要先對用戶每次閱讀文獻(xiàn)做一個(gè)專題集合,并將其看成是一個(gè)事物,這樣將每一位用戶的全部瀏覽過程記錄為一個(gè)事務(wù)庫,然后再對事務(wù)庫做出下面的幾項(xiàng)操作:首先,通過運(yùn)用關(guān)聯(lián)規(guī)則挖掘算法分析求得訪問頻率超過給定閾值的專題集,然后再通過分類算法將瀏覽模式相似的用戶在同一服務(wù)器中組織起來,網(wǎng)絡(luò)代理則會依據(jù)規(guī)則預(yù)先連接其關(guān)聯(lián)頁,進(jìn)而有效的提升了系統(tǒng)響應(yīng)速度。最后,通過運(yùn)用WEB挖掘?qū)崿F(xiàn)用戶訪問序列模式,依據(jù)預(yù)測先將用戶可能會閱讀的網(wǎng)頁進(jìn)行傳輸。

      2 數(shù)據(jù)挖掘技術(shù)的用戶研究

      當(dāng)前圖書館信息供需矛盾表現(xiàn)的比較明顯,如何通過有效措施實(shí)現(xiàn)將適當(dāng)?shù)闹R傳遞給適當(dāng)?shù)娜说哪繕?biāo),是當(dāng)前圖書館管理面臨的重要問題,筆者對此表示需要加強(qiáng)用戶教育,加強(qiáng)用戶使用數(shù)據(jù)挖掘技術(shù)的能力,增強(qiáng)其在信息化時(shí)代合理利用與快速獲取信息的能力。

      2.1 WEB挖掘技術(shù)

      該技術(shù)是指以大量的WEB文檔與WEB活動為依據(jù),從中選擇感興趣的、潛在的有用模式及潛在信息等,從其研究對象上劃分,可以將其分為三類,即WEB結(jié)構(gòu)挖掘、WEB內(nèi)容挖掘、WEB使用模式挖掘。其中WEB結(jié)構(gòu)挖掘的目的是尋找頁面的結(jié)構(gòu)和WEB結(jié)構(gòu),并以此為基礎(chǔ)執(zhí)行對頁面的分類或者是聚類操作,并分析出權(quán)威頁面,它實(shí)際上就是WEB連接關(guān)系與組織結(jié)構(gòu)中進(jìn)行知識的推導(dǎo)。WEB結(jié)構(gòu)挖掘使用的方法一般有Hub/authority與Page-rank兩種,WEB中存在著大量、異質(zhì)的信息資源。但是,從局部來分析,在不同的WEB服務(wù)器上都有一個(gè)具有結(jié)構(gòu)化水平較高的記錄集,也就是WEB訪問日志,WEB服務(wù)器會記錄每一次用戶獲取資源的請求;WEB內(nèi)容挖掘是實(shí)現(xiàn)WEB文檔集合內(nèi)容分類、聚類、關(guān)聯(lián)分析等的重要渠道,并能夠進(jìn)行趨勢預(yù)測;WEB使用模式挖掘是通過挖掘WEB日志記錄的方式發(fā)現(xiàn)用戶對WEB頁面進(jìn)行訪問的模式,它在三種技術(shù)中的關(guān)注度是最高的。WEB服務(wù)器一般會保存訪問過WEB頁面的全部WEB日志,我們將其稱之為WEB log,在WEB log中記錄了訪問日期、IP、服務(wù)器響應(yīng)狀態(tài)、所請求URL資源等多方面內(nèi)容,它為WEB訪問提供了大量的信息。

      2.2 數(shù)據(jù)挖掘流程設(shè)計(jì)方法

      本文所介紹的數(shù)據(jù)挖掘流程設(shè)計(jì)方法為SEMMA法(如圖1所示),該方法已經(jīng)得到了廣泛的認(rèn)可與普遍應(yīng)用,更加適合于圖書館各類相關(guān)的數(shù)據(jù)挖掘設(shè)計(jì)。

      首先進(jìn)行數(shù)據(jù)取樣。在具體實(shí)施數(shù)據(jù)挖掘的過程中,第一步就是對大量數(shù)據(jù)進(jìn)行篩選,并選擇出一個(gè)與搜索問題相關(guān)的樣板數(shù)據(jù)子集,通過這一程序可以有效的降低數(shù)據(jù)處理數(shù)量,提升數(shù)據(jù)處理效率,同時(shí)還可以使數(shù)據(jù)的規(guī)律性表現(xiàn)的更為明顯。其次是進(jìn)行數(shù)據(jù)探索,以樣本數(shù)據(jù)集為搜索依據(jù),從中分析其規(guī)律與趨勢,并利用聚類分析技術(shù)對不同類別進(jìn)行相應(yīng)的劃分。第三步是進(jìn)行數(shù)據(jù)調(diào)整,前兩步主要是明確了數(shù)據(jù)的狀態(tài)與趨勢,此時(shí)需要明確與量化解決問題的要求,并以問題要求為標(biāo)準(zhǔn),對數(shù)據(jù)做增加或刪除處理,根據(jù)對重新認(rèn)識的整個(gè)數(shù)據(jù)挖掘過程再生成一個(gè)新變量,從而使?fàn)顟B(tài)更體現(xiàn)其有效性。第四步是進(jìn)行模型化,這是實(shí)現(xiàn)數(shù)據(jù)挖掘的最關(guān)鍵環(huán)節(jié),通過上述三步操作已經(jīng)基本明確了問題所在,并對數(shù)據(jù)結(jié)構(gòu)及內(nèi)容進(jìn)行了相應(yīng)的調(diào)節(jié),此時(shí)需要利用人工神經(jīng)網(wǎng)絡(luò)、決策樹等方法建立模型。

      3 結(jié)束語

      綜上所述,數(shù)據(jù)挖掘技術(shù)作為信息處理領(lǐng)域中出現(xiàn)的一種新技術(shù),正在社會生活的各個(gè)方面發(fā)揮著作用,得到了社會各界的普遍關(guān)注。本研究基于此,以數(shù)據(jù)挖掘技術(shù)在圖書館中的實(shí)際應(yīng)用為例,望能夠?yàn)閿?shù)據(jù)挖掘技術(shù)在圖書館管理及其他多個(gè)領(lǐng)域的應(yīng)用提供借鑒。

      參考文獻(xiàn):

      [1]Han J.FreeSpan:Frequent parttern-projected sequential pattern mining[J].In Proc.2000 Int.Conf.Knowledge Discovery and Data Mining.Boston,2000:355-359.

      [2]袁春花.Web.數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用研究[J].軟件導(dǎo)刊,2013(01).

      [3]柯俊帆,石常海.數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[A].市場踐行標(biāo)準(zhǔn)化——第十一屆中國標(biāo)準(zhǔn)化論壇論文集[C],2014.

      作者簡介:鄒晶晶(1981-),女,湖南長沙人,講師,研究方向:Web應(yīng)用開發(fā)、數(shù)據(jù)挖掘;易燦(1979-),男,湖南湘陰人,講師,研究方向:移動應(yīng)用軟件開發(fā)。

      作者單位:湖南大眾傳媒學(xué)院,長沙 410100

      历史| 凌云县| 双鸭山市| 石首市| 承德县| 鹤壁市| 中江县| 紫云| 江安县| 白银市| 靖宇县| 虹口区| 鄂伦春自治旗| 驻马店市| 唐河县| 百色市| 长春市| 达拉特旗| 长治县| 泾川县| 金堂县| 广南县| 永靖县| 炉霍县| 宁远县| 宿松县| 鸡泽县| 彝良县| 郸城县| 乌拉特前旗| 永年县| 祁东县| 衢州市| 永昌县| 抚顺市| 三台县| 杭锦后旗| 京山县| 丰台区| 应城市| 十堰市|