• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺析數(shù)據(jù)挖掘中決策樹算法的分析與應(yīng)用

      2018-12-08 23:34:06劉文妍付葉薔
      新商務(wù)周刊 2018年12期
      關(guān)鍵詞:連續(xù)型剪枝決策樹

      文/劉文妍 付葉薔

      ?

      淺析數(shù)據(jù)挖掘中決策樹算法的分析與應(yīng)用

      文/劉文妍 付葉薔

      河南大學(xué)

      數(shù)據(jù)挖掘近幾年來發(fā)展十分迅速,數(shù)據(jù)挖掘采用的一個重要的方法就是機(jī)器學(xué)習(xí),就是經(jīng)過程序積累經(jīng)驗。機(jī)器學(xué)習(xí)是計算機(jī)學(xué)與統(tǒng)計學(xué)的一個交叉學(xué)科,現(xiàn)在好多的數(shù)據(jù)挖掘作業(yè)都需要借助機(jī)器學(xué)習(xí)的算法來完成。隨著數(shù)據(jù)挖掘近幾年來應(yīng)用的廣泛程度加大,產(chǎn)生了大量不同類型各種各樣的基本數(shù)據(jù)挖掘算法。在此文章中,首先簡析一下數(shù)據(jù)挖掘中的決策樹算法的概念,特性,以及它的軟件實現(xiàn),其次,再分析一下決策樹算法的有關(guān)應(yīng)用。

      數(shù)據(jù)挖掘;決策樹算法;分析與應(yīng)用

      1 基本概念

      1.1 決策樹算法的基本思想

      決策樹算法是數(shù)據(jù)挖掘算法中的一類用于處理分類問題的基本算法。決策樹是一種基本的分類與回歸方法。從名字上就可以看出,決策樹其實就是一個樹形結(jié)構(gòu)。每個分支代表一個值范圍內(nèi)的此特征屬性的輸出,每個頁面節(jié)點(diǎn)存儲一個類型。使用決策樹的基本過程就是從根節(jié)點(diǎn)開始,測試要分類的項目中的相應(yīng)特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)寄存的類別作為決策結(jié)果。決策樹的生成算法有很多的變形,如:ID3算法,C4.5算法,隨機(jī)森林算法和CART算法。

      2 算法特性

      2.1 決策樹剪枝

      在決策樹的生成過程中,會出現(xiàn)一些影響分枝的一些因素如數(shù)據(jù)異常以及噪音等。這時,我們就可以通過適當(dāng)?shù)募羧ツ骋恍┕?jié)點(diǎn)來對這種數(shù)據(jù)的適應(yīng)問題作出處理。修剪決策樹一般有兩種策略,先剪枝和后剪枝。望文生義,第一種先剪枝的策略,就是在決策樹的生成過程中,在每一個節(jié)點(diǎn)通過某種選擇策略選擇某個屬性劃分?jǐn)?shù)據(jù)集,我們計算在劃分后決策樹的測試誤差是否有提升來決定當(dāng)前節(jié)點(diǎn)是否需要劃分其子節(jié)點(diǎn)。第二種后剪枝的策略,它就是在生成出一棵完整的決策樹之后,再去剪枝的方法,通過刪除分枝,剪除節(jié)點(diǎn),來實現(xiàn)剪枝操作。

      2.2 連續(xù)型屬性

      決策樹算法一般都是用來處理離散型的數(shù)據(jù)的,對于處理連續(xù)型的數(shù)據(jù),其困難程度就加大了。但是它能夠處理連續(xù)型的屬性,首先它將連續(xù)型屬性離散化,在最大最小值之間設(shè)置多個分割點(diǎn),將連續(xù)型的數(shù)據(jù)分割成不同的取值區(qū)間。

      2.3 缺失值處理

      如果待分類樣本中存在缺失變量,而決策樹決策過程中沒有用到這些變量,那么這個決策過程和沒有缺失的變量的決策過程一樣,并不造成影響;相反的,若是存在缺失變量,則可以采取三種方式進(jìn)行處理:采用拋棄缺失值,補(bǔ)充缺失值,該綠化缺失值。

      2.4 規(guī)則集誘導(dǎo)

      其實一棵決策樹就是很多規(guī)則的集合,每個規(guī)則對應(yīng)著決策樹上一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑?,F(xiàn)將現(xiàn)有的數(shù)據(jù)分為幾個類別,然后依據(jù)決策樹建立規(guī)則集,對每一條規(guī)則執(zhí)行一個搜索看看是否存在一些決策條件可以被去除。

      3 決策樹算法的一些應(yīng)用

      決策樹算法作為數(shù)據(jù)挖掘中的一類重要算法,它具有著理解和解釋起來簡單,執(zhí)行效果好以及執(zhí)行效率高的特點(diǎn),從而使它在生活中具有了很大的應(yīng)用價值。

      3.1 決策樹算法在股票領(lǐng)域的應(yīng)用

      選股問題其實就是分析與分類問題,往往人們在選取一只股票時,都會去搜集大量數(shù)據(jù)進(jìn)行分析,用以判別這只股票的優(yōu)劣,是否值得購入。在對股票進(jìn)行分析選擇時,我們往往會選擇數(shù)據(jù)挖掘算法中的決策樹算法。究其本質(zhì),選股本質(zhì)是分類問題,選取一只股票要考慮的因素有很多,影響股票價格大因素都應(yīng)該被考慮到,我們可以加每一個影響因子作為一個指標(biāo),這樣就會產(chǎn)生一個多維的指標(biāo)體系,從大量各種類別的股票中選擇一只合適的股票,從根本上就被歸結(jié)為統(tǒng)計分析問題,即可采取決策樹算法進(jìn)行分析。

      3.2 決策樹算法在統(tǒng)計畢業(yè)生就業(yè)信息中的應(yīng)用

      隨著我國教育的逐漸遍及以及高校招生規(guī)模的不斷擴(kuò)大,我國高校的畢業(yè)生人數(shù)也在逐年的快速增加,隨之而來的就業(yè)難的問題也逐漸顯現(xiàn)。對以往的高校畢業(yè)生的就業(yè)數(shù)據(jù)進(jìn)行整合分析,就可以得到重要的數(shù)據(jù),從而為還未畢業(yè)的畢業(yè)生提供就業(yè)的科學(xué)指導(dǎo)。大學(xué)生的就業(yè),其實就是畢業(yè)生與企業(yè)之間的一個雙向選擇問題,影響這一選擇結(jié)果的因素有很多,比如英語水平,計算機(jī)水平和綜合能力等。通過對決策樹中屬性取值的分析,在得到?jīng)Q策影響程度值的基礎(chǔ)上,從決策樹中獲得屬性的取值的“成功就業(yè)”與“未成功就業(yè)人數(shù)”。

      3.3 決策樹算法在犯罪預(yù)測中的應(yīng)用

      犯罪是公安治安問題中一直待解決的問題,其中有一個重要的觀念就是關(guān)注罪犯本身要比關(guān)注犯罪有意義的多。犯罪預(yù)測是降低犯罪率的有效方法手段,對重點(diǎn)人員進(jìn)行犯罪預(yù)測就成為了新時代警局部門要探索的一項新的難題。在這一新的任務(wù)中,數(shù)據(jù)挖掘就起到了很大的應(yīng)用。具體應(yīng)用過程就是通過采集犯案案子中對犯罪人的細(xì)致剖析(如年齡,性別,出生地等) ,得到一些有關(guān)犯罪人的真實的特征,從得到的這些特征中預(yù)判出引發(fā)犯罪的動機(jī)特征,如犯罪人的家庭是否存在離婚,家庭中是否存在暴力,個性是否存在精神缺陷等,將這些特征映射到分類器中形成隨機(jī)森林的每一棵樹,得出用于判斷重點(diǎn)人員犯罪傾向的結(jié)果。

      4 結(jié)語

      數(shù)據(jù)挖掘這門技術(shù),是計算機(jī)科學(xué)與統(tǒng)計學(xué)相結(jié)合的一門科學(xué),它旨在通過一定的技術(shù)手段來獲取數(shù)據(jù)之間內(nèi)在的聯(lián)系,進(jìn)而找出一些數(shù)據(jù)規(guī)律,預(yù)測出未來的趨勢走向,從而挖掘出有用的信息。數(shù)據(jù)挖掘中的決策樹模型常常用以解決分類和回歸的問題。因為它的特性使它在現(xiàn)實生活中有著比較高的應(yīng)用價值。決策樹算法僅僅只是數(shù)據(jù)挖掘領(lǐng)域里的冰山一角,數(shù)據(jù)挖掘又是當(dāng)前的大數(shù)據(jù)分析領(lǐng)域的一大熱點(diǎn),尚且還有許多值得我們?nèi)W(xué)習(xí)和探究的地方。

      [1]鞏固,張虹. 決策樹算法中屬性缺失值的研究[J]. 計算機(jī)應(yīng)用與軟件,2008,(09):242-244. [2017-08-03]

      [2]曹正鳳.隨機(jī)森林算法優(yōu)化研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.

      [3]方亮.決策樹算法在高校畢業(yè)生就業(yè)分析中的應(yīng)用研究[D]. 湖南大學(xué),2013. DOI:10.7666/d.Y2522827.

      [4]孫菲菲,曹卓,肖曉雷.基于隨機(jī)森林的分類器在犯罪預(yù)測中 的應(yīng)用研究[J].情報雜志,2014,(10):148-152. DOI:10.3969/j.issn.1002 -1965.2014.10.025

      劉文妍(1996.7-),女,漢族,河南鞏義人河南大學(xué)軟件學(xué)院2015級本科生,研究方向:軟件工程。

      付葉薔

      猜你喜歡
      連續(xù)型剪枝決策樹
      自變量分段連續(xù)型Volterra積分微分方程的配置法
      人到晚年宜“剪枝”
      基于YOLOv4-Tiny模型剪枝算法
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      連續(xù)型美式分期付款看跌期權(quán)
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      剪枝
      天津詩人(2017年2期)2017-03-16 03:09:39
      基于決策樹的出租車乘客出行目的識別
      基于晶圓優(yōu)先級的連續(xù)型Interbay搬運(yùn)系統(tǒng)性能分析
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      务川| 库尔勒市| 泽普县| 洛隆县| 灵寿县| 雷波县| 延津县| 白河县| 油尖旺区| 苗栗市| 肃北| 秦安县| 色达县| 浪卡子县| 宜兴市| 镇原县| 尼木县| 沐川县| 碌曲县| 玛沁县| 噶尔县| 毕节市| 雷波县| 济阳县| 新昌县| 泗阳县| 唐山市| 醴陵市| 吴川市| 封丘县| 佛山市| 平舆县| 南澳县| 三穗县| 九江市| 唐山市| 富裕县| 定日县| 修水县| 庆城县| 高雄市|