彭 慧 劉安豐
摘要本文簡(jiǎn)述了數(shù)據(jù)挖掘的概念,數(shù)據(jù)挖掘系統(tǒng),數(shù)字挖掘步驟以及數(shù)據(jù)挖掘服務(wù)的實(shí)現(xiàn)。
關(guān)鍵詞數(shù)據(jù)挖掘因特網(wǎng)服務(wù)
中圖分類(lèi)號(hào):TP31文獻(xiàn)標(biāo)識(shí)碼:A
1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining)最早是在數(shù)據(jù)庫(kù)領(lǐng)域發(fā)展起來(lái)的。稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD ,Knowledge Discovery in Database) ,據(jù)挖掘是從大量的包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取隱含在其中的、事先不為人知的、潛在的、有用的信息和知識(shí)的過(guò)程,它要求數(shù)據(jù)源應(yīng)該是大量的、真實(shí)的、多媒體的;所發(fā)現(xiàn)和提取的信息和知識(shí)是潛在的、有效的并隱藏在大量數(shù)據(jù)背后,是用戶(hù)感興趣的、可理解、可運(yùn)用的知識(shí),數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程。
2 數(shù)據(jù)挖掘的系統(tǒng)簡(jiǎn)介
(1)AuthorLink 系統(tǒng)。最近,美國(guó)開(kāi)發(fā)出了基于文獻(xiàn)計(jì)量分析的知識(shí)查詢(xún)系統(tǒng),并借助于可視化技術(shù)首次將復(fù)雜的統(tǒng)計(jì)結(jié)果,用通俗易懂的圖像形式顯示給用戶(hù),從而實(shí)現(xiàn)了知識(shí)信息提供服務(wù)的一次變革。(2)專(zhuān)利統(tǒng)計(jì)分析系統(tǒng)。人們關(guān)于專(zhuān)利的統(tǒng)計(jì)分析,事實(shí)上也是一種知識(shí)挖掘。目前,包括英國(guó)的WPI 及美國(guó)、日本專(zhuān)利局等網(wǎng)絡(luò)站點(diǎn),都在提供專(zhuān)利文獻(xiàn)檢索服務(wù)的同時(shí)提供專(zhuān)利統(tǒng)計(jì)分析的服務(wù)。(3)OLAP 系統(tǒng)。OLAP 系統(tǒng)(On - Line Analytical Process2ing,聯(lián)機(jī)分析處理系統(tǒng)) 也是一種典型的數(shù)據(jù)挖掘系統(tǒng)。這是一種含有數(shù)據(jù)導(dǎo)航、數(shù)據(jù)查詢(xún)、建模、預(yù)測(cè)和數(shù)據(jù)挖掘的數(shù)據(jù)分析系統(tǒng)。其中OLAP 引擎可以在前端接口接受用戶(hù)提交的多維提問(wèn),并轉(zhuǎn)換成SQL 語(yǔ)句,然后將提問(wèn)查詢(xún)提交數(shù)據(jù)庫(kù),最后以圖表的形式輸出。
3 數(shù)據(jù)挖掘的步驟
(1)確定應(yīng)用領(lǐng)域:包括此領(lǐng)域的基本知識(shí)和目標(biāo)。(2) 建立目標(biāo)數(shù)據(jù)集:選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。(3)數(shù)據(jù)預(yù)處理:在大數(shù)據(jù)集中,根據(jù)需求,利用數(shù)據(jù)凈化和整合技術(shù),選擇與任務(wù)相關(guān)數(shù)據(jù),在不降低其準(zhǔn)確度的狀況下減少處理數(shù)據(jù)量。(4)數(shù)據(jù)轉(zhuǎn)換:找到數(shù)據(jù)的特征進(jìn)行編碼,減少有效變量的數(shù)目。(5)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)和所要發(fā)現(xiàn)知識(shí)的種類(lèi)來(lái)確定相應(yīng)的挖掘算法。(6)數(shù)據(jù)評(píng)價(jià):將挖掘出的知識(shí)和數(shù)據(jù)以各種可視化方式顯示,并將其以圖形、文本等方式存儲(chǔ)在庫(kù)中,以便對(duì)它們進(jìn)一步挖掘,直至滿(mǎn)意為止。(7)實(shí)施和應(yīng)用:實(shí)施和應(yīng)用階段是指利用數(shù)據(jù)挖掘技術(shù)所建立模型在實(shí)際項(xiàng)目中的應(yīng)用,包括數(shù)據(jù)庫(kù)的構(gòu)建,個(gè)性化用戶(hù)服務(wù)、基于知識(shí)的企業(yè)信息管理(MIS) 、金融、證券、股票分析、電子商務(wù)、企業(yè)目標(biāo)管理、決策支持等。
4 數(shù)據(jù)挖掘服務(wù)的實(shí)現(xiàn)
4.1 數(shù)據(jù)挖掘?yàn)閭€(gè)性化服務(wù)打下基礎(chǔ)
收集用戶(hù)有關(guān)的信息,建立用戶(hù)信息庫(kù)。通過(guò)對(duì)用戶(hù)訪問(wèn)日志記錄信息的挖掘,把握用戶(hù)興趣,有助于開(kāi)展網(wǎng)絡(luò)信息推送服務(wù)以及個(gè)人信息的定制服務(wù)。數(shù)據(jù)挖掘從全局出發(fā),以豐富、動(dòng)態(tài)的聯(lián)機(jī)查詢(xún)和分析來(lái)了解用戶(hù)的信息需求。通過(guò)在線提問(wèn)、調(diào)查表等方式,系統(tǒng)可以獲取關(guān)于用戶(hù)的用戶(hù)名、用戶(hù)訪問(wèn)IP 地址、用戶(hù)的職業(yè)、年齡、愛(ài)好等原始信息。然后,采取一定的挖掘規(guī)則(如關(guān)聯(lián)規(guī)則、聯(lián)機(jī)分析處理等),對(duì)這些數(shù)據(jù)進(jìn)行融合分析,其結(jié)果是為每個(gè)用戶(hù)建立一個(gè)信息需求模型。為了提高準(zhǔn)確度,還應(yīng)對(duì)所收集的信息進(jìn)行相關(guān)性分析,可以根據(jù)用戶(hù)提供的檢索詞,確定所檢索到的信息與該檢索詞的相關(guān)度。
4.2 數(shù)據(jù)挖掘使網(wǎng)絡(luò)資源的內(nèi)容檢索成為可能
網(wǎng)絡(luò)內(nèi)容挖掘是一個(gè)從文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的網(wǎng)絡(luò)源信息中采用分類(lèi)、聚類(lèi)等形式的挖掘方法,發(fā)現(xiàn)有用信息,并將這些信息按滿(mǎn)足某種檢索方式的形式加以組織的過(guò)程。應(yīng)用數(shù)據(jù)和文本挖掘技術(shù)在網(wǎng)絡(luò)上進(jìn)行問(wèn)題跟蹤,從而獲得了以前未知的有用知識(shí)。網(wǎng)絡(luò)內(nèi)容挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個(gè)關(guān)鍵,通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類(lèi)、分類(lèi),實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類(lèi)瀏覽與檢索;通過(guò)對(duì)用戶(hù)所使用的提問(wèn)式(query) 的歷史記錄分析,可以有效地進(jìn)行提問(wèn)擴(kuò)展(query expansion),提高查全率和查準(zhǔn)率;可以運(yùn)用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)進(jìn)行關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果。
4.3 數(shù)據(jù)挖掘是獲取全而廣的知識(shí)信息的保障
網(wǎng)絡(luò)知識(shí)的挖掘就是要在具有極度不確定性的海量數(shù)據(jù)中找出信息分布的規(guī)律,挖掘隱藏的信息并形成模型,從而發(fā)現(xiàn)具有規(guī)律性的知識(shí)。如以江蘇南通師范學(xué)院對(duì)重點(diǎn)學(xué)科“古代文學(xué)”中的楚辭研究專(zhuān)題知識(shí)庫(kù)開(kāi)發(fā)為例,他們采用學(xué)科專(zhuān)家與學(xué)科館員、系統(tǒng)管理員相結(jié)合組成工作組的開(kāi)發(fā)模式來(lái)收集、挖掘與獲取楚辭研究專(zhuān)題信息資源,提高了原始資料采集的深度和精度。同時(shí)由于楚辭研究的信息資源浩如煙海,因此采用自動(dòng)抓取和人工過(guò)濾相結(jié)合的方式,利用非結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)以采集和獲取全而廣的楚辭研究知識(shí)信息源。