• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述

      2021-03-17 09:55:54程一芳
      數(shù)字通信世界 2021年2期
      關(guān)鍵詞:列表決策樹類別

      程一芳

      (山西國際商務(wù)職業(yè)學(xué)院,山西 太原 030031)

      1 決策樹分類算法

      1.1 C4.5分類算法的簡(jiǎn)介及分析

      C4.5分類算法在我國是應(yīng)用相對(duì)較早的分類算法之一,并且應(yīng)用非常廣泛,所以為了確保其能夠滿足在對(duì)規(guī)模相對(duì)較大的數(shù)據(jù)集進(jìn)行處理的過程中有更好的實(shí)用性能,對(duì)C4.5分類算法也進(jìn)行了相應(yīng)的改進(jìn)。C4.5分類算法是假如設(shè)一個(gè)訓(xùn)練集為T,在對(duì)這個(gè)訓(xùn)練集建造相應(yīng)的決策樹的過程中,則可以根據(jù)In-formation Gain值選擇合理的分裂節(jié)點(diǎn),并且根據(jù)分裂節(jié)點(diǎn)的具體屬性和標(biāo)準(zhǔn),可以將訓(xùn)練集分為多個(gè)子級(jí),然后分別用不同的字母代替,每一個(gè)字母中所含有的元組的類別一致。而分裂節(jié)點(diǎn)就成為了整個(gè)決策樹的葉子節(jié)點(diǎn),因而將會(huì)停止再進(jìn)行分裂過程,對(duì)于不滿足訓(xùn)練集中要求條件的其他子集來說,仍然需要按照以上方法繼續(xù)進(jìn)行分裂,直到子集所有的元組都屬于一個(gè)類別,停止分裂流程。

      決策樹分類算法與統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)分類算法相比較具備以下優(yōu)點(diǎn):首先,通過決策樹分類算法進(jìn)行分類,出現(xiàn)的分類規(guī)則相對(duì)較容易理解,并且在決策樹中由于每一個(gè)分支都對(duì)應(yīng)不同的分類規(guī)則,所以在最終進(jìn)行分類的過程中,能夠說出一個(gè)更加便于了解的規(guī)則集。其次,在使用決策樹分類算法對(duì)數(shù)據(jù)挖掘中的數(shù)據(jù)進(jìn)行相應(yīng)的分類過程中,與其他分類方法相比,速率更快,效率更高。最后,決策樹分類算法還具有較高的準(zhǔn)確度,從而確保在分類的過程中能夠提高工作效率和工作質(zhì)量。決策樹分類算法與其他分類算法相比,雖然具備很多優(yōu)點(diǎn),但是也存在一定的缺點(diǎn),其缺點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:首先,在進(jìn)行決策樹的構(gòu)造過程中,由于需要對(duì)數(shù)據(jù)集進(jìn)行多次的排序和掃描,因此導(dǎo)致在實(shí)際工作過程中工作量相對(duì)較大,從而可能會(huì)使分類算法出現(xiàn)較低能效的問題。其次,在使用C4.5進(jìn)行數(shù)據(jù)集分類的過程中,由于只是用于駐留于內(nèi)存的數(shù)據(jù)集進(jìn)行使用,所以當(dāng)出現(xiàn)規(guī)模相對(duì)較大或者不在內(nèi)存的程序及數(shù)據(jù)即時(shí)無法進(jìn)行運(yùn)行和使用,因此,C4.5決策樹分類算法具備一定的局限性。通過對(duì)C4.5分類算法的簡(jiǎn)介和分析可知,在使用C4.5分類算法的過程中,一定要明確數(shù)據(jù)集的具體使用特征,然后再選擇相應(yīng)的分類算法,防止由于分類算法選擇不正確,而導(dǎo)致在后期對(duì)數(shù)據(jù)進(jìn)行分類使用的過程中,出現(xiàn)工作效率低,工作質(zhì)量差的問題,同時(shí)負(fù)責(zé)C4.5分類算法和決策樹分類算法的研究的工作人員,還應(yīng)該明確現(xiàn)階段決策樹分類算法中存在的劣勢(shì),并且針對(duì)這些劣勢(shì)進(jìn)行相應(yīng)的改進(jìn)。確保C4.5決策樹分類算法能夠具備更好的適用性。

      1.2 SLIQIQ算法的簡(jiǎn)介及分析

      SLIQ算法是在C4.5決策樹分類算法的基礎(chǔ)上進(jìn)行了相應(yīng)改進(jìn)的算法。在使用SLIQ算法的過程中,主要針對(duì)決策樹的構(gòu)造階段進(jìn)行了合理的改進(jìn),這里使用了預(yù)排序技術(shù)和廣度優(yōu)先技術(shù)。其中,預(yù)排序技術(shù)的主要工作原理是,對(duì)于連續(xù)性的屬性來說,由于在內(nèi)部的節(jié)點(diǎn)可以找到最好的分裂標(biāo)準(zhǔn),因此,可以根據(jù)這一特性對(duì)訓(xùn)練集進(jìn)行屬性的取值和排序。但是,由于排序的過程中工作量相對(duì)較大,并且需要浪費(fèi)很多的時(shí)間,所以通過SLIQ算法中的預(yù)排序技術(shù)和預(yù)排序功能,能夠減少在決策樹節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行排序過程中所需要做的工作量。預(yù)排序技術(shù)可以針對(duì)數(shù)據(jù)集中不同屬性進(jìn)行相應(yīng)的取值,然后根據(jù)時(shí)間的先后順序或者從小到大的順序進(jìn)行合理的排序。在具體實(shí)現(xiàn)的過程中,必須要針對(duì)數(shù)據(jù)集中的所有數(shù)據(jù),根據(jù)不同的屬性創(chuàng)立相應(yīng)的屬性列表,然后每一個(gè)屬性列表中,對(duì)元組的類別進(jìn)行合理的歸類。再根據(jù)不同元組類別創(chuàng)立類別列表的過程中,其列表的主要形式如表1所示。

      表1 屬性列表和類別列表

      通過表1中的數(shù)據(jù)分析可以得出,在建立屬性表和類別列表的過程中,第一列代表了數(shù)據(jù)集中屬性的取值,第二列代表了記錄的順序號(hào)。在類別列表中,第一列則代表了每一行記錄的類別,第二列代表了不同的節(jié)點(diǎn)編號(hào)。在算法進(jìn)行實(shí)現(xiàn)的過程中,還要確保計(jì)算機(jī)設(shè)備能夠有較大的內(nèi)存量來保存相應(yīng)的列表數(shù)據(jù)。

      廣度優(yōu)先策略的實(shí)際使用原理是在C4.5決策樹分類算法的基礎(chǔ)上,對(duì)決策樹進(jìn)行構(gòu)造的過程中,需要按照深度優(yōu)先的原則進(jìn)行構(gòu)造,并且要根據(jù)不同屬性列表的節(jié)點(diǎn)進(jìn)行相應(yīng)的掃描。由于在傳統(tǒng)決策樹構(gòu)造的過程中,需要針對(duì)每一個(gè)節(jié)點(diǎn)都進(jìn)行掃描,這樣即會(huì)浪費(fèi)過多的時(shí)間,又會(huì)造成很大的工作量,而使用廣度優(yōu)先策略進(jìn)行決策樹構(gòu)造的過程中,只需要對(duì)每一層的屬性列表進(jìn)行掃描即可,這樣既提高了數(shù)據(jù)分類的效果,又可以使決策樹中的節(jié)點(diǎn)有最優(yōu)的分裂標(biāo)準(zhǔn)。

      在使用SLIQ算法的過程中,由于使用了與排序技術(shù)和廣度優(yōu)先的技術(shù),所以在數(shù)據(jù)處理的過程中能夠比C4.5決策樹分類算法具有更高的使用效率,同時(shí)也可以適用于規(guī)模更大的數(shù)據(jù)集進(jìn)行分類的過程中,但是其實(shí)際使用中仍然存在一定的缺點(diǎn),主要體現(xiàn)在以下兩個(gè)方面:一是由于需要在預(yù)排序技術(shù)使用過程中,將類別列表放入在內(nèi)存中進(jìn)行使用,所以這就對(duì)內(nèi)存的儲(chǔ)存量具有較大的挑戰(zhàn),而類別列表的長(zhǎng)度和訓(xùn)練集的長(zhǎng)度是一樣的,所以這對(duì)數(shù)據(jù)集的大小進(jìn)行了相應(yīng)的限制,從而導(dǎo)致SLIQ算法在實(shí)際使用過程中也具備一定的局限性。二是由于在使用與排序技術(shù)的過程中,雖然可以極大地降低工作量,提升工作效率,但由于算法相對(duì)復(fù)雜,并且數(shù)據(jù)的記錄個(gè)數(shù)和排序算法的復(fù)雜度不呈線性關(guān)系,因此導(dǎo)致SLIQ算法的擴(kuò)展性相對(duì)較低。

      2 以關(guān)聯(lián)規(guī)則為基礎(chǔ)的分類算法

      以關(guān)聯(lián)規(guī)則為基礎(chǔ)的分類算法主要包含CBA算法。CBA算法在進(jìn)行分類的過程中主要包含兩個(gè)工作流程:第一個(gè)工作流程是通過發(fā)現(xiàn)又不為類別的類別關(guān)聯(lián)規(guī)則;第二個(gè)工作流程是通過對(duì)已發(fā)現(xiàn)的類別關(guān)聯(lián)規(guī)則進(jìn)行選擇,然后通過高優(yōu)先度的規(guī)則,對(duì)整個(gè)訓(xùn)練集進(jìn)行覆蓋。通過這種算法,在對(duì)訓(xùn)練集進(jìn)行掃描的過程中,只需要進(jìn)行一遍掃描即可,因此,具有較高的工作效率。CBA算法主要通過關(guān)聯(lián)規(guī)則進(jìn)行分類器的構(gòu)造,而關(guān)聯(lián)規(guī)則的算法為aprior,通過這種算法能夠?qū)Υ罅拷灰子涗浿械囊?guī)則進(jìn)行相應(yīng)的比較,并且有利于提高分類算法的工作效率,但是使用這種分類規(guī)則時(shí),可能會(huì)出現(xiàn)某些規(guī)則的遺漏現(xiàn)象,因此,必須要將最小的支持度設(shè)置為0。但是在設(shè)置支持度的過程中,可能會(huì)導(dǎo)致CBA算法的優(yōu)化作用降低,因此,使結(jié)果產(chǎn)生的頻繁及在內(nèi)存中無法顯示和容納,從而導(dǎo)致程序運(yùn)行停止。CBA算法最大的優(yōu)點(diǎn)是其在分類的過程中準(zhǔn)確度相對(duì)較高,并且其發(fā)現(xiàn)的規(guī)則也較為全面。

      3 以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的分類算法

      以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的分類算法主要包含MIND算法。MIND計(jì)算法是根據(jù)數(shù)據(jù)庫對(duì)用戶的定義使用的相關(guān)函數(shù),也叫做實(shí)現(xiàn)發(fā)現(xiàn)分類規(guī)則的算法,在使用這種算法的過程中和SLIQ算法較為類似,但是,由于這種算法主要根據(jù)數(shù)據(jù)庫提供的UDF方法和語句進(jìn)行決策樹的構(gòu)造,所以在術(shù)的工作過程中需要對(duì)每一層建立相應(yīng)的屬性為表,然后對(duì)不同的節(jié)點(diǎn)進(jìn)行編號(hào)。使用這種方法在對(duì)決策樹進(jìn)行構(gòu)造的過程中,是需要對(duì)每一個(gè)不是終點(diǎn)的節(jié)點(diǎn)進(jìn)行數(shù)據(jù)集的信息計(jì)算和分裂標(biāo)準(zhǔn)的數(shù)據(jù)及分裂,而通過UDF進(jìn)行實(shí)現(xiàn)可以使數(shù)據(jù)庫系統(tǒng)的集成更加方便。這種算法的缺點(diǎn)是,由于需要使用高級(jí)語言進(jìn)行分類計(jì)算,所以導(dǎo)致數(shù)據(jù)庫法提供相應(yīng)的查詢機(jī)制,從而不能夠使查詢更加優(yōu)化。

      4 結(jié)束語

      綜上所述,現(xiàn)階段針對(duì)數(shù)據(jù)挖掘所使用的數(shù)據(jù)分類方法相對(duì)較多,既有基于決策樹的分類方法,又有基于數(shù)據(jù)庫技術(shù)為基礎(chǔ)和關(guān)聯(lián)規(guī)則為基礎(chǔ)的分類方法,在每種分類方法使用的過程中,又都有相應(yīng)的優(yōu)缺點(diǎn),所以在選擇分類方法時(shí),要根據(jù)實(shí)際需求進(jìn)行合理的選擇。

      猜你喜歡
      列表決策樹類別
      巧用列表來推理
      學(xué)習(xí)運(yùn)用列表法
      擴(kuò)列吧
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于決策樹的出租車乘客出行目的識(shí)別
      服務(wù)類別
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      不含3-圈的1-平面圖的列表邊染色與列表全染色
      塔河县| 旬阳县| 双流县| 桂平市| 奎屯市| 乌什县| 嵩明县| 尉氏县| 申扎县| 墨脱县| 西吉县| 大荔县| 新竹市| 龙陵县| 黎川县| 同心县| 津市市| 胶南市| 成都市| 永年县| 谷城县| 娄烦县| 马尔康县| 常德市| 蒲城县| 小金县| 和林格尔县| 定西市| 韩城市| 云浮市| 鄂托克前旗| 齐齐哈尔市| 广水市| 安仁县| 启东市| 鄂州市| 崇明县| 阳春市| 高邮市| 台州市| 横山县|