文/劉文妍 付葉薔
?
淺析數(shù)據(jù)挖掘中決策樹算法的分析與應(yīng)用
文/劉文妍 付葉薔
河南大學(xué)
數(shù)據(jù)挖掘近幾年來發(fā)展十分迅速,數(shù)據(jù)挖掘采用的一個重要的方法就是機(jī)器學(xué)習(xí),就是經(jīng)過程序積累經(jīng)驗。機(jī)器學(xué)習(xí)是計算機(jī)學(xué)與統(tǒng)計學(xué)的一個交叉學(xué)科,現(xiàn)在好多的數(shù)據(jù)挖掘作業(yè)都需要借助機(jī)器學(xué)習(xí)的算法來完成。隨著數(shù)據(jù)挖掘近幾年來應(yīng)用的廣泛程度加大,產(chǎn)生了大量不同類型各種各樣的基本數(shù)據(jù)挖掘算法。在此文章中,首先簡析一下數(shù)據(jù)挖掘中的決策樹算法的概念,特性,以及它的軟件實現(xiàn),其次,再分析一下決策樹算法的有關(guān)應(yīng)用。
數(shù)據(jù)挖掘;決策樹算法;分析與應(yīng)用
決策樹算法是數(shù)據(jù)挖掘算法中的一類用于處理分類問題的基本算法。決策樹是一種基本的分類與回歸方法。從名字上就可以看出,決策樹其實就是一個樹形結(jié)構(gòu)。每個分支代表一個值范圍內(nèi)的此特征屬性的輸出,每個頁面節(jié)點(diǎn)存儲一個類型。使用決策樹的基本過程就是從根節(jié)點(diǎn)開始,測試要分類的項目中的相應(yīng)特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)寄存的類別作為決策結(jié)果。決策樹的生成算法有很多的變形,如:ID3算法,C4.5算法,隨機(jī)森林算法和CART算法。
在決策樹的生成過程中,會出現(xiàn)一些影響分枝的一些因素如數(shù)據(jù)異常以及噪音等。這時,我們就可以通過適當(dāng)?shù)募羧ツ骋恍┕?jié)點(diǎn)來對這種數(shù)據(jù)的適應(yīng)問題作出處理。修剪決策樹一般有兩種策略,先剪枝和后剪枝。望文生義,第一種先剪枝的策略,就是在決策樹的生成過程中,在每一個節(jié)點(diǎn)通過某種選擇策略選擇某個屬性劃分?jǐn)?shù)據(jù)集,我們計算在劃分后決策樹的測試誤差是否有提升來決定當(dāng)前節(jié)點(diǎn)是否需要劃分其子節(jié)點(diǎn)。第二種后剪枝的策略,它就是在生成出一棵完整的決策樹之后,再去剪枝的方法,通過刪除分枝,剪除節(jié)點(diǎn),來實現(xiàn)剪枝操作。
決策樹算法一般都是用來處理離散型的數(shù)據(jù)的,對于處理連續(xù)型的數(shù)據(jù),其困難程度就加大了。但是它能夠處理連續(xù)型的屬性,首先它將連續(xù)型屬性離散化,在最大最小值之間設(shè)置多個分割點(diǎn),將連續(xù)型的數(shù)據(jù)分割成不同的取值區(qū)間。
如果待分類樣本中存在缺失變量,而決策樹決策過程中沒有用到這些變量,那么這個決策過程和沒有缺失的變量的決策過程一樣,并不造成影響;相反的,若是存在缺失變量,則可以采取三種方式進(jìn)行處理:采用拋棄缺失值,補(bǔ)充缺失值,該綠化缺失值。
其實一棵決策樹就是很多規(guī)則的集合,每個規(guī)則對應(yīng)著決策樹上一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑?,F(xiàn)將現(xiàn)有的數(shù)據(jù)分為幾個類別,然后依據(jù)決策樹建立規(guī)則集,對每一條規(guī)則執(zhí)行一個搜索看看是否存在一些決策條件可以被去除。
決策樹算法作為數(shù)據(jù)挖掘中的一類重要算法,它具有著理解和解釋起來簡單,執(zhí)行效果好以及執(zhí)行效率高的特點(diǎn),從而使它在生活中具有了很大的應(yīng)用價值。
選股問題其實就是分析與分類問題,往往人們在選取一只股票時,都會去搜集大量數(shù)據(jù)進(jìn)行分析,用以判別這只股票的優(yōu)劣,是否值得購入。在對股票進(jìn)行分析選擇時,我們往往會選擇數(shù)據(jù)挖掘算法中的決策樹算法。究其本質(zhì),選股本質(zhì)是分類問題,選取一只股票要考慮的因素有很多,影響股票價格大因素都應(yīng)該被考慮到,我們可以加每一個影響因子作為一個指標(biāo),這樣就會產(chǎn)生一個多維的指標(biāo)體系,從大量各種類別的股票中選擇一只合適的股票,從根本上就被歸結(jié)為統(tǒng)計分析問題,即可采取決策樹算法進(jìn)行分析。
隨著我國教育的逐漸遍及以及高校招生規(guī)模的不斷擴(kuò)大,我國高校的畢業(yè)生人數(shù)也在逐年的快速增加,隨之而來的就業(yè)難的問題也逐漸顯現(xiàn)。對以往的高校畢業(yè)生的就業(yè)數(shù)據(jù)進(jìn)行整合分析,就可以得到重要的數(shù)據(jù),從而為還未畢業(yè)的畢業(yè)生提供就業(yè)的科學(xué)指導(dǎo)。大學(xué)生的就業(yè),其實就是畢業(yè)生與企業(yè)之間的一個雙向選擇問題,影響這一選擇結(jié)果的因素有很多,比如英語水平,計算機(jī)水平和綜合能力等。通過對決策樹中屬性取值的分析,在得到?jīng)Q策影響程度值的基礎(chǔ)上,從決策樹中獲得屬性的取值的“成功就業(yè)”與“未成功就業(yè)人數(shù)”。
犯罪是公安治安問題中一直待解決的問題,其中有一個重要的觀念就是關(guān)注罪犯本身要比關(guān)注犯罪有意義的多。犯罪預(yù)測是降低犯罪率的有效方法手段,對重點(diǎn)人員進(jìn)行犯罪預(yù)測就成為了新時代警局部門要探索的一項新的難題。在這一新的任務(wù)中,數(shù)據(jù)挖掘就起到了很大的應(yīng)用。具體應(yīng)用過程就是通過采集犯案案子中對犯罪人的細(xì)致剖析(如年齡,性別,出生地等) ,得到一些有關(guān)犯罪人的真實的特征,從得到的這些特征中預(yù)判出引發(fā)犯罪的動機(jī)特征,如犯罪人的家庭是否存在離婚,家庭中是否存在暴力,個性是否存在精神缺陷等,將這些特征映射到分類器中形成隨機(jī)森林的每一棵樹,得出用于判斷重點(diǎn)人員犯罪傾向的結(jié)果。
數(shù)據(jù)挖掘這門技術(shù),是計算機(jī)科學(xué)與統(tǒng)計學(xué)相結(jié)合的一門科學(xué),它旨在通過一定的技術(shù)手段來獲取數(shù)據(jù)之間內(nèi)在的聯(lián)系,進(jìn)而找出一些數(shù)據(jù)規(guī)律,預(yù)測出未來的趨勢走向,從而挖掘出有用的信息。數(shù)據(jù)挖掘中的決策樹模型常常用以解決分類和回歸的問題。因為它的特性使它在現(xiàn)實生活中有著比較高的應(yīng)用價值。決策樹算法僅僅只是數(shù)據(jù)挖掘領(lǐng)域里的冰山一角,數(shù)據(jù)挖掘又是當(dāng)前的大數(shù)據(jù)分析領(lǐng)域的一大熱點(diǎn),尚且還有許多值得我們?nèi)W(xué)習(xí)和探究的地方。
[1]鞏固,張虹. 決策樹算法中屬性缺失值的研究[J]. 計算機(jī)應(yīng)用與軟件,2008,(09):242-244. [2017-08-03]
[2]曹正鳳.隨機(jī)森林算法優(yōu)化研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.
[3]方亮.決策樹算法在高校畢業(yè)生就業(yè)分析中的應(yīng)用研究[D]. 湖南大學(xué),2013. DOI:10.7666/d.Y2522827.
[4]孫菲菲,曹卓,肖曉雷.基于隨機(jī)森林的分類器在犯罪預(yù)測中 的應(yīng)用研究[J].情報雜志,2014,(10):148-152. DOI:10.3969/j.issn.1002 -1965.2014.10.025
劉文妍(1996.7-),女,漢族,河南鞏義人河南大學(xué)軟件學(xué)院2015級本科生,研究方向:軟件工程。
付葉薔