王學(xué)輝 王興鵬
摘要:介紹了Weka的歷史、特點(diǎn)及使用方法。
關(guān)鍵詞:數(shù)據(jù)挖掘工具
Weka
中圖分類(lèi)號(hào):TP311
文獻(xiàn)標(biāo)識(shí)碼B文章編號(hào):1002-2422(2007)05-0048-01
Weka全名為懷卡托智能分析環(huán)境(Waikato Environ-merit for Knowledge Analysis),是一個(gè)基于java、用于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的開(kāi)源項(xiàng)目,其開(kāi)發(fā)者是來(lái)自新西蘭懷卡托大學(xué)的Ian H.Witten和Eibe Frank。經(jīng)過(guò)12年的發(fā)展歷程,Weka是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一,而且被公認(rèn)為是數(shù)據(jù)挖掘開(kāi)源項(xiàng)目中最著名的一個(gè),每月下載次數(shù)已超過(guò)萬(wàn)次。
和其他數(shù)據(jù)挖掘工具的艱深復(fù)雜不同,Weka使數(shù)據(jù)挖掘輕松易行,無(wú)需編程也能輕松實(shí)現(xiàn):它提供了統(tǒng)一的用戶(hù)界面,可在任何數(shù)據(jù)集上應(yīng)用各種預(yù)處理和數(shù)據(jù)挖掘算法,同時(shí)還提供了數(shù)據(jù)可視化工具。介紹Weka的使用方法。
運(yùn)行Weka軟件,有四種不同的界面供您選擇:Simple CLI、Explorer、Experimenter、KnowledgeFlow。
(1)Simple CLI:能通過(guò)鍵入文本命令的方式來(lái)實(shí)現(xiàn)其他三個(gè)用戶(hù)界面所提供的所有功能。
(2)Explorer:是普通用戶(hù)最常用的一個(gè)界面。用戶(hù)可以從ARFF文件(Weka使用的一種文本文件格式)、網(wǎng)頁(yè)或數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)集。打開(kāi)數(shù)據(jù)文件后,可以選擇算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。這時(shí)窗體上給出了這個(gè)數(shù)據(jù)集的一些基本特征,如含有多少屬性,各屬性的一些簡(jiǎn)單統(tǒng)計(jì)量,右下方還給出一些可視化效果圖。這些都是比較直觀的分析,如果想發(fā)現(xiàn)隱藏在數(shù)據(jù)集背后的關(guān)系,還需要選擇Weka提供的各種分類(lèi)、聚類(lèi)或關(guān)聯(lián)規(guī)則的算法。所有設(shè)置完成后,點(diǎn)擊Start按鈕,就可以安心地等待weka帶來(lái)最終的結(jié)果。哪些結(jié)果是真正有用的還要靠經(jīng)驗(yàn)來(lái)判斷。
(3)Experimenter:這個(gè)界面可以同時(shí)使用多個(gè)算法對(duì)一組(或多組)數(shù)據(jù)進(jìn)行分析,對(duì)各種算法分析的結(jié)果進(jìn)行比較并從中選出最佳,還可以使用Experimenter把一項(xiàng)任務(wù)分割成多個(gè)子項(xiàng),每個(gè)子項(xiàng)可以在單獨(dú)的計(jì)算機(jī)上執(zhí)行,從而大大加快了分析進(jìn)程。
(4)Knowledge Flow:Explore的不足在于,當(dāng)用戶(hù)打開(kāi)一個(gè)數(shù)據(jù)集時(shí),所有數(shù)據(jù)將全部被讀入到主存當(dāng)中,隨著任務(wù)規(guī)模的增大,普通配置的計(jì)算機(jī)很難滿(mǎn)足要求。Knowledge Flow提供了一個(gè)用于處理大型數(shù)據(jù)集的遞增算法,專(zhuān)門(mén)處理這一問(wèn)題??梢栽贙nowledge Flow界面的工具條中拖動(dòng)任意部件(代表數(shù)據(jù)源、預(yù)處理工具、數(shù)據(jù)挖掘算法、評(píng)估手段或可視化模塊)放置在畫(huà)布中,這些部件組合在一起形成一個(gè)數(shù)據(jù)流,當(dāng)您選擇有遞增學(xué)習(xí)功能的過(guò)濾器和數(shù)據(jù)挖掘算法后,大型數(shù)據(jù)集就可以被分批讀取和處理。
2結(jié)束語(yǔ)
由于Weka的開(kāi)源、易操作等優(yōu)點(diǎn),可供各類(lèi)人群學(xué)習(xí)、使用。如果是一位數(shù)據(jù)挖掘算法的研究者,可以把自己的算法放在這個(gè)平臺(tái)上,然后從海量數(shù)據(jù)中發(fā)掘其背后隱藏的種種關(guān)系。如果是數(shù)據(jù)挖掘的初學(xué)者,這是最好的學(xué)習(xí)平臺(tái),它不但簡(jiǎn)單易學(xué),還提供了八個(gè)數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)上的經(jīng)典案例供您參考;如果在工作中有大量的數(shù)據(jù)需要分析,Weka也許能幫您發(fā)現(xiàn)更大的商機(jī)。
注:Weka的最新版本是3.5:weka-3-5-3jre.exe(30.7M,帶ire)和weka-3-5-3.exe(12.5M);
應(yīng)用平臺(tái):Windows、Linux和Macintosh操作系統(tǒng);
下載地址:http://www.cs.waikato.ac.nz/ml/weka。