張治斌
摘要:數(shù)據(jù)挖掘技術(shù)已經(jīng)具有非常廣闊的應(yīng)用領(lǐng)域和發(fā)展前景,今天數(shù)據(jù)挖掘技術(shù)廣泛的應(yīng)用在電子商務(wù)、電信、保險、醫(yī)學(xué)、氣象等各個領(lǐng)域, SPSS Modeler軟件已經(jīng)成為諸多數(shù)據(jù)挖掘應(yīng)用軟件之首,備受關(guān)注,本文將以一個簡單實例介紹數(shù)據(jù)挖掘的基本過程。
關(guān)鍵詞:SPSS Modeler;數(shù)據(jù)挖掘;過程
中圖分類號:TP39 文獻標(biāo)識碼:A 文章編號:1007-9416(2017)09-0072-02
1 數(shù)據(jù)挖掘的基本過程介紹
數(shù)據(jù)挖掘也叫做資料勘探或數(shù)據(jù)采礦,從宏觀上定義為從海量的各類數(shù)據(jù)中通過某種算法探索隱匿的信息和知識的過程,數(shù)據(jù)挖掘通常作為數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟;從另一個層面,許多人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)的同義詞。數(shù)據(jù)挖掘通常與傳統(tǒng)的統(tǒng)計分析學(xué)、數(shù)學(xué)、計算機科學(xué)相關(guān),通過統(tǒng)計、在線分析處理、機器學(xué)習(xí)和模式識別等諸多哦方法針對采集的數(shù)據(jù)進行分析挖掘。知識發(fā)現(xiàn)過程主要包括以下幾個步驟:
(1)數(shù)據(jù)清理與集成:這一步驟可以作為在數(shù)據(jù)收集和提取之前完成,也可以在數(shù)據(jù)庫中完成。在這一階段主要任務(wù)是將各種數(shù)據(jù)源加以集成到一起,并針對噪聲和不一致數(shù)據(jù)加以刪除,對數(shù)據(jù)進行合法性檢查并清理含有錯誤的數(shù)據(jù)。
(2)數(shù)據(jù)選取與變換:本階段針對定義的問題收集選取有關(guān)數(shù)據(jù),匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式,在這里可以利用數(shù)據(jù)倉庫的查詢功能已加快數(shù)據(jù)的提取速度,同時針對數(shù)據(jù)進行再加工,剔除冗余屬性、對數(shù)據(jù)的表達方式進行轉(zhuǎn)換以適用于學(xué)習(xí)算法。
(3)數(shù)據(jù)挖掘:在這一步驟主要的工作是根據(jù)業(yè)務(wù)需求和數(shù)據(jù)選擇合適的數(shù)據(jù)挖掘算法,并確定如何將該算法應(yīng)用于數(shù)據(jù)上,并進行對應(yīng)數(shù)據(jù)挖掘算法進行模式提取,確定適用于描述和解釋的表現(xiàn)形式。
(4)模式評估與表示:最后使用可視化和知識表示技術(shù),向用戶提供挖掘的知識,并通過模式評估對學(xué)習(xí)結(jié)果的新穎性和有效性進行評價。
我們可以把數(shù)據(jù)挖掘看做是KDD過程的一個基本步驟.它包括特定的從數(shù)據(jù)庫中發(fā)現(xiàn)模式的挖掘算法。KDD過程使用數(shù)據(jù)挖掘算法根據(jù)特定的度量方法和閾值從數(shù)據(jù)庫中提取或識別出知識,這個過程包括對數(shù)據(jù)庫的預(yù)處理、樣本劃分和數(shù)據(jù)變換。那么如何使用合適的挖掘工具完成數(shù)據(jù)挖掘任務(wù)呢。
2 SPSS Modeler軟件介紹
SPSS Modeler是IBM公司將SPSS統(tǒng)計分析軟件與Clementine數(shù)據(jù)挖掘軟件進行整合,并推廣到全球市場。該軟件集成了諸多計算機機器學(xué)習(xí)的優(yōu)秀算法,以及行之有效的統(tǒng)計分析方法,充分利用計算機的運算處理能力和圖形展現(xiàn)能力,將應(yīng)用、方法與工具有效結(jié)合,目前已經(jīng)成為內(nèi)容全面、功能強大、使用最為廣泛的數(shù)據(jù)挖掘軟件。下面我們以一個簡單的實例介紹基于SPSS Modeler的數(shù)據(jù)挖掘過程。
3 基于SPSS Modeler工具的挖掘過程
我們以學(xué)生參加某次社會公益活動的數(shù)據(jù)為例(文件名為Student.xls),其表的基本信息內(nèi)容如圖1所示。利用C5.0算法研究哪些因素顯著影響學(xué)生是否參與社會公益活動。
(1)數(shù)據(jù)集成與清理。
由于Students文件中包含兩個表分別是老生表(Students.xls)和新生表(NewStudents.xls)。所以需要將這兩個表的數(shù)據(jù)進行合并。首先在數(shù)據(jù)流編輯區(qū)插入兩個【源】選項卡中的【Excel】節(jié)點,分別導(dǎo)入兩張表格數(shù)據(jù),然后在【記錄選項】選項卡中的【追加】節(jié)點添加到兩個【Excel】節(jié)點后面,完成兩張表格數(shù)據(jù)的合并。接下來,選擇【字段選項】選項卡中的【類型】追加到【追加】節(jié)點后面,并將“是否參加”設(shè)置為目標(biāo)變量,將“編號”以外的變量設(shè)置為輸入變量。
(2)數(shù)據(jù)選取與變換。
從圖1中不難看出,在是否無償獻血列的取值不規(guī)范,應(yīng)該將取值1和0分別調(diào)整為Yes和No??梢允褂谩咀侄芜x項】選項卡中【重新分類】節(jié)點進行變量類別的調(diào)整,將該節(jié)點添加到【追加】節(jié)點后面數(shù)據(jù)流的對應(yīng)位置,并對【編輯】選項進行設(shè)置;同時,針對在校綜合評價指數(shù)進行標(biāo)準(zhǔn)化處理,使其能夠以百分制只管反映學(xué)生在校綜合表現(xiàn)水平。這里使用【字段選項】選項卡中的【填充】節(jié)點完成,使用——(在校綜合評價指數(shù)-61)/ (138-61)*100公式完成對原始數(shù)據(jù)的替換。
(3)數(shù)據(jù)挖掘:根據(jù)本任務(wù)的需求,采用決策樹的C5.0算法實現(xiàn)對哪些因素顯著影響學(xué)生是否參與社會公益活動。選擇【建?!窟x項卡中的【C5.0】節(jié)點添加到數(shù)據(jù)流的恰當(dāng)位置上,并進行對應(yīng)參數(shù)設(shè)置,此處可以選擇默認設(shè)置。
(4)模式表示與評估:運行并在流管理器的【模型】選項卡中【瀏覽】挖掘結(jié)果,可以看到挖掘結(jié)果以文字和圖形兩種形式分別顯示在【模型】和【查看器】選項卡中,如圖2所示;此外可以使用【輸出】選項卡中的【分析】節(jié)點連接到輸出模型后的數(shù)據(jù)流中,查看該挖掘模型的準(zhǔn)確率。
(5)結(jié)果分析:從分析的結(jié)果可以看出:如果家長不鼓勵(49)個觀測值,則不參加社會公益活動,置信度為91.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數(shù)小于等于48分,則不參加社會公益活動,置信度為77.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數(shù)大于等于48分,則參加社會公益活動,置信度為75.8%??傊?,家長鼓勵是學(xué)生參與社會公益活動最關(guān)鍵的因素,其次是學(xué)生在校的綜合評價指數(shù)。學(xué)生的家庭人均收入、是否無償獻血沒有進入決策樹,對是否參與社會公益活動的影響很小。
4 結(jié)語
以上對基于SPSS Modeler的數(shù)據(jù)挖掘基本過程中的數(shù)據(jù)選取、過濾和挖掘過程進行了簡要介紹,由于篇幅原因具體設(shè)置界面未提供,目前,具備基本計算機操作能力已經(jīng)不是問題,數(shù)據(jù)挖掘的過程與方法是后續(xù)學(xué)習(xí)關(guān)注的主體和要點。
參考文獻
[1]薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].中國人民大學(xué)出版社,2014.endprint