• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于SPSS Modeler的數(shù)據(jù)挖掘過程解析

    2017-12-07 08:14:01張治斌
    關(guān)鍵詞:數(shù)據(jù)挖掘過程

    張治斌

    摘要:數(shù)據(jù)挖掘技術(shù)已經(jīng)具有非常廣闊的應(yīng)用領(lǐng)域和發(fā)展前景,今天數(shù)據(jù)挖掘技術(shù)廣泛的應(yīng)用在電子商務(wù)、電信、保險、醫(yī)學(xué)、氣象等各個領(lǐng)域, SPSS Modeler軟件已經(jīng)成為諸多數(shù)據(jù)挖掘應(yīng)用軟件之首,備受關(guān)注,本文將以一個簡單實例介紹數(shù)據(jù)挖掘的基本過程。

    關(guān)鍵詞:SPSS Modeler;數(shù)據(jù)挖掘;過程

    中圖分類號:TP39 文獻標(biāo)識碼:A 文章編號:1007-9416(2017)09-0072-02

    1 數(shù)據(jù)挖掘的基本過程介紹

    數(shù)據(jù)挖掘也叫做資料勘探或數(shù)據(jù)采礦,從宏觀上定義為從海量的各類數(shù)據(jù)中通過某種算法探索隱匿的信息和知識的過程,數(shù)據(jù)挖掘通常作為數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟;從另一個層面,許多人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)的同義詞。數(shù)據(jù)挖掘通常與傳統(tǒng)的統(tǒng)計分析學(xué)、數(shù)學(xué)、計算機科學(xué)相關(guān),通過統(tǒng)計、在線分析處理、機器學(xué)習(xí)和模式識別等諸多哦方法針對采集的數(shù)據(jù)進行分析挖掘。知識發(fā)現(xiàn)過程主要包括以下幾個步驟:

    (1)數(shù)據(jù)清理與集成:這一步驟可以作為在數(shù)據(jù)收集和提取之前完成,也可以在數(shù)據(jù)庫中完成。在這一階段主要任務(wù)是將各種數(shù)據(jù)源加以集成到一起,并針對噪聲和不一致數(shù)據(jù)加以刪除,對數(shù)據(jù)進行合法性檢查并清理含有錯誤的數(shù)據(jù)。

    (2)數(shù)據(jù)選取與變換:本階段針對定義的問題收集選取有關(guān)數(shù)據(jù),匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式,在這里可以利用數(shù)據(jù)倉庫的查詢功能已加快數(shù)據(jù)的提取速度,同時針對數(shù)據(jù)進行再加工,剔除冗余屬性、對數(shù)據(jù)的表達方式進行轉(zhuǎn)換以適用于學(xué)習(xí)算法。

    (3)數(shù)據(jù)挖掘:在這一步驟主要的工作是根據(jù)業(yè)務(wù)需求和數(shù)據(jù)選擇合適的數(shù)據(jù)挖掘算法,并確定如何將該算法應(yīng)用于數(shù)據(jù)上,并進行對應(yīng)數(shù)據(jù)挖掘算法進行模式提取,確定適用于描述和解釋的表現(xiàn)形式。

    (4)模式評估與表示:最后使用可視化和知識表示技術(shù),向用戶提供挖掘的知識,并通過模式評估對學(xué)習(xí)結(jié)果的新穎性和有效性進行評價。

    我們可以把數(shù)據(jù)挖掘看做是KDD過程的一個基本步驟.它包括特定的從數(shù)據(jù)庫中發(fā)現(xiàn)模式的挖掘算法。KDD過程使用數(shù)據(jù)挖掘算法根據(jù)特定的度量方法和閾值從數(shù)據(jù)庫中提取或識別出知識,這個過程包括對數(shù)據(jù)庫的預(yù)處理、樣本劃分和數(shù)據(jù)變換。那么如何使用合適的挖掘工具完成數(shù)據(jù)挖掘任務(wù)呢。

    2 SPSS Modeler軟件介紹

    SPSS Modeler是IBM公司將SPSS統(tǒng)計分析軟件與Clementine數(shù)據(jù)挖掘軟件進行整合,并推廣到全球市場。該軟件集成了諸多計算機機器學(xué)習(xí)的優(yōu)秀算法,以及行之有效的統(tǒng)計分析方法,充分利用計算機的運算處理能力和圖形展現(xiàn)能力,將應(yīng)用、方法與工具有效結(jié)合,目前已經(jīng)成為內(nèi)容全面、功能強大、使用最為廣泛的數(shù)據(jù)挖掘軟件。下面我們以一個簡單的實例介紹基于SPSS Modeler的數(shù)據(jù)挖掘過程。

    3 基于SPSS Modeler工具的挖掘過程

    我們以學(xué)生參加某次社會公益活動的數(shù)據(jù)為例(文件名為Student.xls),其表的基本信息內(nèi)容如圖1所示。利用C5.0算法研究哪些因素顯著影響學(xué)生是否參與社會公益活動。

    (1)數(shù)據(jù)集成與清理。

    由于Students文件中包含兩個表分別是老生表(Students.xls)和新生表(NewStudents.xls)。所以需要將這兩個表的數(shù)據(jù)進行合并。首先在數(shù)據(jù)流編輯區(qū)插入兩個【源】選項卡中的【Excel】節(jié)點,分別導(dǎo)入兩張表格數(shù)據(jù),然后在【記錄選項】選項卡中的【追加】節(jié)點添加到兩個【Excel】節(jié)點后面,完成兩張表格數(shù)據(jù)的合并。接下來,選擇【字段選項】選項卡中的【類型】追加到【追加】節(jié)點后面,并將“是否參加”設(shè)置為目標(biāo)變量,將“編號”以外的變量設(shè)置為輸入變量。

    (2)數(shù)據(jù)選取與變換。

    從圖1中不難看出,在是否無償獻血列的取值不規(guī)范,應(yīng)該將取值1和0分別調(diào)整為Yes和No??梢允褂谩咀侄芜x項】選項卡中【重新分類】節(jié)點進行變量類別的調(diào)整,將該節(jié)點添加到【追加】節(jié)點后面數(shù)據(jù)流的對應(yīng)位置,并對【編輯】選項進行設(shè)置;同時,針對在校綜合評價指數(shù)進行標(biāo)準(zhǔn)化處理,使其能夠以百分制只管反映學(xué)生在校綜合表現(xiàn)水平。這里使用【字段選項】選項卡中的【填充】節(jié)點完成,使用——(在校綜合評價指數(shù)-61)/ (138-61)*100公式完成對原始數(shù)據(jù)的替換。

    (3)數(shù)據(jù)挖掘:根據(jù)本任務(wù)的需求,采用決策樹的C5.0算法實現(xiàn)對哪些因素顯著影響學(xué)生是否參與社會公益活動。選擇【建?!窟x項卡中的【C5.0】節(jié)點添加到數(shù)據(jù)流的恰當(dāng)位置上,并進行對應(yīng)參數(shù)設(shè)置,此處可以選擇默認設(shè)置。

    (4)模式表示與評估:運行并在流管理器的【模型】選項卡中【瀏覽】挖掘結(jié)果,可以看到挖掘結(jié)果以文字和圖形兩種形式分別顯示在【模型】和【查看器】選項卡中,如圖2所示;此外可以使用【輸出】選項卡中的【分析】節(jié)點連接到輸出模型后的數(shù)據(jù)流中,查看該挖掘模型的準(zhǔn)確率。

    (5)結(jié)果分析:從分析的結(jié)果可以看出:如果家長不鼓勵(49)個觀測值,則不參加社會公益活動,置信度為91.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數(shù)小于等于48分,則不參加社會公益活動,置信度為77.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數(shù)大于等于48分,則參加社會公益活動,置信度為75.8%??傊?,家長鼓勵是學(xué)生參與社會公益活動最關(guān)鍵的因素,其次是學(xué)生在校的綜合評價指數(shù)。學(xué)生的家庭人均收入、是否無償獻血沒有進入決策樹,對是否參與社會公益活動的影響很小。

    4 結(jié)語

    以上對基于SPSS Modeler的數(shù)據(jù)挖掘基本過程中的數(shù)據(jù)選取、過濾和挖掘過程進行了簡要介紹,由于篇幅原因具體設(shè)置界面未提供,目前,具備基本計算機操作能力已經(jīng)不是問題,數(shù)據(jù)挖掘的過程與方法是后續(xù)學(xué)習(xí)關(guān)注的主體和要點。

    參考文獻

    [1]薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].中國人民大學(xué)出版社,2014.endprint

    猜你喜歡
    數(shù)據(jù)挖掘過程
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    描寫具體 再現(xiàn)過程
    臨終是個怎樣的過程
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    在這個學(xué)習(xí)的過程中收獲最大的是哪些,為什么?
    Coco薇(2015年12期)2015-12-10 03:54:58
    圓滿的過程
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    五峰| 安塞县| 灵寿县| 滦南县| 石嘴山市| 广河县| 和硕县| 玉屏| 石嘴山市| 修水县| 宁城县| 海门市| 双鸭山市| 阳泉市| 阿拉善左旗| 海伦市| 庆元县| 江阴市| 运城市| 乌鲁木齐县| 枣庄市| 崇信县| 江安县| 青岛市| 平泉县| 咸丰县| 昌宁县| 新郑市| 双江| 扶绥县| 太谷县| 沅陵县| 赤峰市| 上思县| 离岛区| 滁州市| 铜梁县| 西青区| 金华市| 安福县| 航空|