• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)集相似性的分類算法推薦

      2016-09-08 10:30:45李洪奇徐青松朱麗萍戚雪晨
      計算機應(yīng)用與軟件 2016年8期
      關(guān)鍵詞:集上特征向量相似性

      李洪奇 徐青松 朱麗萍 戚雪晨

      (中國石油大學(xué)石油數(shù)據(jù)挖掘北京市重點實驗室 北京 102249) (中國石油大學(xué)計算機系 北京 102249)

      ?

      基于數(shù)據(jù)集相似性的分類算法推薦

      李洪奇徐青松朱麗萍戚雪晨

      (中國石油大學(xué)石油數(shù)據(jù)挖掘北京市重點實驗室北京 102249) (中國石油大學(xué)計算機系北京 102249)

      近年來,隨著大數(shù)據(jù)分析需求的急劇增長,分類算法的運用也越來越廣泛,如何為用戶選擇適用的分類算法成為數(shù)據(jù)挖掘技術(shù)在應(yīng)用上亟待解決的難題。相關(guān)研究表明,同一算法在相似數(shù)據(jù)集上具有相近的分類效果。根據(jù)這一理論,構(gòu)建基于數(shù)據(jù)集相似性的分類算法選擇模型。首先采用數(shù)據(jù)集離散化方法來對數(shù)據(jù)集進(jìn)行特征提取,構(gòu)建樣本庫,然后結(jié)合鄰近相似的原則為數(shù)據(jù)集推薦合適的分類算法。通過UCI數(shù)據(jù)集上的算法實驗,結(jié)果表明大多數(shù)情況下推薦得到的分類算法具有良好的性能。

      數(shù)據(jù)挖掘分類算法數(shù)據(jù)集特征性能評價算法推薦

      0 引 言

      分類問題是數(shù)據(jù)挖掘領(lǐng)域一個重要的研究方向,目前已有大量的算法被提出,其中包括懶惰模型(如k-NN)、基于關(guān)聯(lián)規(guī)則模型(如Apriori,LIG等)、基于決策樹模型、(如ID3、C4.5、CART、SLIQ等),基于概率統(tǒng)計模型(Naive Bayes、Bayesian Networks、TAN等)、基于規(guī)則模型、(CN2,PART)、支持向量機模型等。不同算法在同一數(shù)據(jù)集上的分類效果差異很大,而普通用戶對這些算法并沒有深入的了解,從中選擇能獲得最優(yōu)分類結(jié)果的算法是困難的。因此,為一個給定的數(shù)據(jù)集選擇合適的分類算法是相當(dāng)重要的。

      分類算法在具有某些特定特征的數(shù)據(jù)集上的性能表現(xiàn)是有規(guī)律可循的,而這種規(guī)律和分類算法的原理有關(guān),如Bayes的獨立性假設(shè),使其適用于屬性關(guān)聯(lián)性較低的數(shù)據(jù);神經(jīng)網(wǎng)絡(luò)對訓(xùn)練樣本的需求很大,這導(dǎo)致它在小樣本數(shù)據(jù)上的分類結(jié)果很差;k-NN在不平衡樣本上的糟糕表現(xiàn)等。Weiss和Kapouleas發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)在Appendicitis和Iris數(shù)據(jù)集上的分類精度優(yōu)于決策樹,而在Breast cancer和Thyroid數(shù)據(jù)集上則不如決策樹[1];Duin比較了k-NN和ANN算法,同樣得出了它們在不同數(shù)據(jù)集上的分類精度各有優(yōu)劣的結(jié)果[2];Ali和Smith通過更為系統(tǒng)的數(shù)據(jù)實驗表明,沒有哪一種算法在所有數(shù)據(jù)集上都有優(yōu)于其他算法的分類效果[3]。

      盡管算法性能存在不一致性,但是大量研究表明,相似的數(shù)據(jù)集在算法適用性上存在相關(guān)性。Gama和Brazdil利用統(tǒng)計和信息論的方法提取數(shù)據(jù)集特征,并用C4.5產(chǎn)生推薦規(guī)則,其結(jié)果證實統(tǒng)計相似的數(shù)據(jù)集可推薦相同的分類算法[4]。Bernado′-Mansilla等利用一系列指標(biāo)描述分類問題的復(fù)雜程度,通過分析這些指標(biāo)和算法性能之間的關(guān)系得出推薦規(guī)則,將其用于選擇合適的分類算法[5]。Kwon和Sim研究了數(shù)據(jù)集特征對分類算法性能的影響,他們將算法性能視為因變量,數(shù)據(jù)集特征作為自變量,利用多元回歸的方法得到它們之間的關(guān)系因子[6]。Cano則提出了一系列衡量數(shù)據(jù)集復(fù)雜性的參數(shù),并逐個分析它們對分類算法性能的影響[7]。Reif等利用元學(xué)習(xí)的思想,通過分析5類不同的數(shù)據(jù)集特征與算法之間的關(guān)系,在模式識別系統(tǒng)中實現(xiàn)了算法的自動選擇[8]。

      最近,Tatti等人提出一種基于匯總統(tǒng)計的方法來衡量數(shù)據(jù)集的相似性[9],Song等在其基礎(chǔ)上提出了一種全新的特征提取方法,將數(shù)據(jù)集離散化并統(tǒng)計其特征頻率,得到數(shù)據(jù)集的特征向量,然后通過k-鄰近識別相似數(shù)據(jù)集,將相似數(shù)據(jù)集的分類算法推薦給新數(shù)據(jù)集,取得了較好的推薦效果[10]。本文采用這種新的離散化特征提取方法,構(gòu)建算法推薦模型,并在相似數(shù)據(jù)集的判定和推薦規(guī)則上進(jìn)行了改進(jìn)和優(yōu)化,然后通過UCI數(shù)據(jù)集上的算法推薦實驗來檢驗該模型的有效性。

      1 數(shù)據(jù)集的相似性判斷

      本文構(gòu)建的分類算法推薦模型,其關(guān)鍵點在于相似數(shù)據(jù)集的判斷,如果我們提取的特征能很好地描述數(shù)據(jù)集,就能通過比較這些特征向量來判斷數(shù)據(jù)集之間的相似性。傳統(tǒng)的特征提取方法一般是基于統(tǒng)計學(xué)和信息論得到的一些特征,已被很多學(xué)者應(yīng)用于機器學(xué)習(xí)領(lǐng)域。而Song等人已經(jīng)證明他們提出的離散化方法構(gòu)造的特征向量在算法推薦上要優(yōu)于傳統(tǒng)的特征向量。因此,本文將采用這種方法來提取數(shù)據(jù)集的特征向量。

      1.1數(shù)據(jù)集的二進(jìn)制化

      下面簡單介紹Song等提出的特征提取方法:首先將原數(shù)據(jù)集D轉(zhuǎn)換成二進(jìn)制數(shù)據(jù)集DB(所有屬性值只為0或1),再分別計算DB的單項目集和雙項目集的特征頻率,將其組合得到的一組向量即為原數(shù)據(jù)集D的特征向量。

      為了保證原數(shù)據(jù)集在二進(jìn)制化的過程中沒有語義信息的丟失,需要將其屬性個數(shù)進(jìn)行擴充,原數(shù)據(jù)集中的每一個屬性取值將被轉(zhuǎn)換成一個新的二進(jìn)制屬性。具體過程如下:

      給定數(shù)據(jù)集D,其屬性集合為:

      VA={A1,A2,…,An}

      類標(biāo)簽C(假定C只有3種類別)集合表示為:

      VClass={C1,C2,C3}

      圖1 數(shù)據(jù)集的二進(jìn)制化

      假定A1屬性值集合為:

      VA1={A11,A12}

      A2屬性值集合為:

      VA2={A21,A22,A23}

      將每個實例的屬性或類標(biāo)簽用一個二進(jìn)制向量表示,如第一個實例的A1屬性的取值為A11,可表示為:

      這樣數(shù)據(jù)集D就轉(zhuǎn)化為一個二進(jìn)制數(shù)據(jù)集DB,主要過程如圖1所示。

      1.2特征頻率的計算和向量歸一化

      原數(shù)據(jù)集在二進(jìn)制化之后,統(tǒng)計每個新屬性值中“1”出現(xiàn)的頻率,可以得到單項目集的特征頻率。由圖1(c)計算可得:

      VⅠ={0.5,0.5,0.4,…,0.3,0.4,0.3,0.3}

      對DB中兩個不同屬性Ai和Aj取異或操作可得雙項目集的特征頻率:

      VⅡ={VAi⊕VAj|1≤i≤j≤n}

      (1)

      將兩個向量融合得到VⅠ&Ⅱ={VⅠ,VⅡ},即為數(shù)據(jù)集的特征向量。

      由于數(shù)據(jù)集的屬性數(shù)以及屬性的取值數(shù)各不相同,用上述方法得到的特征向量的長度也不同,無法直接比較它們的相似性。為了解決這一問題,采用一種簡單的統(tǒng)計方法——擴展的五數(shù)概括法對VⅠ和VⅡ進(jìn)行歸一化處理。首先將VⅠ和VⅡ分別按升序排列,計算出各自的最小值點、1/8分位點、2/8分位點、……、7/8分位點和最大值點,然后組合為統(tǒng)一的特征向量。

      對于每一個數(shù)據(jù)集,都可以通過上述方法來進(jìn)行特征提取,得到一個唯一確定的18維向量,因此,數(shù)據(jù)集相似性的判定就變成了比較向量之間的位置關(guān)系。

      1.3相似數(shù)據(jù)集

      k-NN算法常用于判斷實例間的相似性,描述實例的特征被看作向量,計算向量之間的距離來確定實例之間的距離。類似地,k-NN可以用于判斷數(shù)據(jù)集的k個相似數(shù)據(jù)集:特征向量之間的距離越小,數(shù)據(jù)集的相似度越高。

      本文采用歐氏距離的計算方法作為數(shù)據(jù)集間相似度對比的依據(jù),這是最常用的且易于理解的一種計算距離的方法,是歐氏空間中兩點間的真實距離。若有兩個M維向量di={Wi1,Wi2,…,WiM}、dj={Wj1,Wj2,…,WjM},則它們間的歐氏距離如式(2)所示:

      (2)

      在得到新數(shù)據(jù)集對于樣本庫中所有歷史數(shù)據(jù)集的相似度后,將其按降序排列,然后相似度最高的k個數(shù)據(jù)集即為新數(shù)據(jù)集的k個相似數(shù)據(jù)集。

      2 算法推薦原理

      2.1算法推薦模型

      我們已經(jīng)知道數(shù)據(jù)集相似性和分類算法適用性之間存在相關(guān)性,也就是說,如果某些數(shù)據(jù)集是相似的,那么分類算法在這些數(shù)據(jù)集上的性能也是相似的。根據(jù)這一理論及其相關(guān)分析,我們提出了基于數(shù)據(jù)集相似性的分類算法推薦模型。具體流程如下:預(yù)先提取全部歷史數(shù)據(jù)集的特征向量,分析其適用的分類算法,并將這些信息存入歷史數(shù)據(jù)集樣本庫中;對于新的用戶數(shù)據(jù)集D,提取其特征向量并與歷史數(shù)據(jù)樣本進(jìn)行相似性匹配,找出k個相似數(shù)據(jù)集,再通過一定的規(guī)則在這些相似數(shù)據(jù)集的適用分類算法中進(jìn)行篩選并推薦給D。該流程可概括為如圖2所示。

      圖2 適用分類算法推薦模型

      2.2適用分類算法分析

      在歷史數(shù)據(jù)集樣本庫的構(gòu)建過程中,需要分析出在每個歷史數(shù)據(jù)集上取得良好性能的分類器,作為該數(shù)據(jù)集的適用算法。具體策略如下:對每一個歷史數(shù)據(jù)集,依次應(yīng)用算法庫中的每個分類算法,然后對算法的性能進(jìn)行評估,取得較好預(yù)測結(jié)果的算法即為適用分類算法。Brazdil等人提出了一種結(jié)合分類精度和執(zhí)行時間(包括訓(xùn)練階段和測試階段)的算法性能評價標(biāo)準(zhǔn)[11],計算如下:

      (3)

      式中PAlg,D表示算法Alg在數(shù)據(jù)集D上的性能參數(shù),AccAlg,D表示利用該算法進(jìn)行建模預(yù)測得到的分類準(zhǔn)確率,RTimeAlg,D為算法執(zhí)行時間。α為用戶自定義的關(guān)系因子,α≥0。當(dāng)α增大時,意味著以犧牲一定準(zhǔn)確率的代價來換取更快的執(zhí)行速度。為了更為精細(xì)的實驗效果,本文在分析算法性能時采用了10折交叉驗證的方法以提高其精度。

      2.3基于相似性的算法推薦規(guī)則

      根據(jù)以上相似性推薦的論斷,借助歷史數(shù)據(jù)集樣本庫的信息,我們就能夠為新數(shù)據(jù)集推薦分類算法,該推薦方法基于k-NN思想。

      對于新數(shù)據(jù)集,它的k個相似數(shù)據(jù)集對應(yīng)的適用分類算法可能會不同,因此還需要一定的策略在這些候選算法列表中做出篩選。Song等人提出了一種結(jié)合“Win/Draw/Loss Record”[12]和算法性能均值的方法來評估候選算法。候選算法的性能輪流進(jìn)行兩兩比較并記錄其結(jié)果,勝者將推薦給新數(shù)據(jù)集,其思想類似于足球賽中的單循環(huán)賽制。這種做法過于復(fù)雜且效率低下,我們提出了一種改進(jìn)的基于距離權(quán)值的評估方法,這種方法也正好利用了k-NN的思想。

      對于新數(shù)據(jù)集D,我們在找到它的k個相似數(shù)據(jù)集之后,根據(jù)特征向量確定的距離來計算最優(yōu)的分類算法:

      假設(shè)數(shù)據(jù)集D的k個相似數(shù)據(jù)集為:D1,D2,…,Dk,它們與D的距離分別為:d1,d2,…,dk,則距離加權(quán)因子wi:

      (4)

      算法加權(quán)性能Pj:

      (5)

      式(4)中,di表示數(shù)據(jù)集提取的特征向量之間的距離;式(5)中,Pi,j表示算法j在數(shù)據(jù)集i上的性能。通過這樣的方法,可以直接計算出候選算法的加權(quán)性能,具有較高算法加權(quán)性能計算值的候選算法將被推薦給新數(shù)據(jù)集。

      3 實驗研究

      3.1實驗準(zhǔn)備

      ①實驗數(shù)據(jù)集:120個UCI數(shù)據(jù)集,其中85個作為歷史數(shù)據(jù)集構(gòu)建樣本庫,剩下的35個作為檢驗集進(jìn)行算法推薦的實驗。UCI數(shù)據(jù)庫[13]是一個常用的標(biāo)準(zhǔn)測試數(shù)據(jù)集,可以用來測試數(shù)據(jù)挖掘算法和建模應(yīng)用等。為了便于特征向量的計算,對于包含連續(xù)屬性的數(shù)據(jù)集,采用MDL方法[14]將其轉(zhuǎn)換為離散值。

      ②分類算法庫:采用11種算法在數(shù)據(jù)集上進(jìn)行分類,即:k-NN,樸素貝葉斯,貝葉斯網(wǎng)絡(luò),AODE,C4.5,ID3,CART,Decision Stump,規(guī)則歸納,神經(jīng)網(wǎng)絡(luò)MLP,支持向量機。

      ③相似數(shù)據(jù)集個數(shù)k:一般取奇數(shù)且在歷史數(shù)據(jù)集樣本總數(shù)的10%~15%的范圍內(nèi)具有最佳效果,在本實驗中取k=9。

      ④算法性能關(guān)系因子α:分為三種情況下的取值:α=0,α=0.05%和α=0.1%,并對三種取值下的結(jié)果進(jìn)行比較。

      3.2算法評價標(biāo)準(zhǔn)

      為了評價算法推薦的效果,我們使用分類精度和推薦準(zhǔn)確率來對推薦算法進(jìn)行評價:

      分類精度:在所有分類問題中,分類精度是最重要的一個考慮要素。如果所推薦的分類算法和數(shù)據(jù)集本身適用的算法之間的精度誤差越小,那么就證明這種推薦方法很好。

      推薦準(zhǔn)確率(RA):推薦算法的分類精度高并不能總是推薦理想的,因為有可能所有候選算法的性能都很好,且它們之間的差異很小。另一方面,我們需要知道和其他的候選算法相比,所推薦的算法其性能如何,所以RA的計算如下:

      (6)

      式中,PRec,D表示推薦給數(shù)據(jù)集D的分類算法的性能,PBest,D表示最佳分類算法的性能,PWorst,D表示最差分類算法的性能。

      3.3實驗過程和結(jié)果分析

      1) 數(shù)據(jù)集的特征向量

      表1顯示了部分測試數(shù)據(jù)集采用二進(jìn)制化特征提取方法得到的向量VⅠ&Ⅱ。

      表1 數(shù)據(jù)集二進(jìn)制化得到的特征向量VⅠ&Ⅱ

      2) 算法推薦精度對比

      圖3顯示了35個測試數(shù)據(jù)集的分類算法推薦結(jié)果(α=0),其中橫坐標(biāo)表示測試數(shù)據(jù)集名稱(已按算法精度升序排列,圖中未全部顯示),縱坐標(biāo)表示算法的分類精度,Best代表該數(shù)據(jù)集實際最佳分類算法的精度,Rec_1、Rec_2、Rec_3分別表示由推薦規(guī)則得到的并按照優(yōu)先程度推薦給目標(biāo)集的算法的精度。

      圖3 實際最佳分類算法與推薦算法精度對比

      由圖3可知,在所有測試集中,只有credit-screening、flags、hayes-roth和tae這4個數(shù)據(jù)集的推薦結(jié)果不夠理想,其他數(shù)據(jù)集推薦算法的精度與其最佳算法的精度非常接近,88.57%的推薦是有效的。當(dāng)關(guān)系因子α的取值變化時,算法性能的計算結(jié)果會有上下浮動,但是整體推薦效果不受影響,接近90%的推薦算法是有效的。

      3) 推薦準(zhǔn)確率(RA)

      如表2所示,該表統(tǒng)計了測試集的推薦準(zhǔn)確率RA,以第一推薦算法Rec_1為參考值。由該表可知,所有測試集的平均推薦準(zhǔn)確率ARA為82.10%,且大部分?jǐn)?shù)據(jù)集的RA值都在80%以上,證明了該推薦方法的有效性。由于在RA的計算上只考慮了Rec_1,而我們?yōu)槟繕?biāo)集推薦的分類算法不止1個,所以實際的推薦準(zhǔn)確率要比表2給出的值更高。

      表2 第一推薦算法(Rec_1)的推薦準(zhǔn)確率

      4) 推薦命中率

      在實驗的過程中我們注意到,要想保證推薦的算法恰好是該數(shù)據(jù)集的最佳算法是非常困難的,所以為了保證推薦的有效性,一般來說需要為目標(biāo)集推薦若干個可能的算法,并且允許推薦算法的性能和最佳算法之間有一定的誤差。由此我們引入了推薦命中率的概念:如果推薦的算法性能在允許的誤差范圍δ內(nèi),視為其命中,推薦命中率β為:

      (7)

      式中,Nh表示推薦命中的數(shù)據(jù)集數(shù)目,N表示測試用的所有數(shù)據(jù)集總數(shù)。

      表3 測試數(shù)據(jù)集的推薦命中率

      表3顯示了35個測試數(shù)據(jù)集在誤差δ內(nèi)的推薦命中率??梢钥闯?,要想得到80%以上的命中率,k至少為2,δ至少取5%。在實際應(yīng)用中,δ取值一般在5%~10%間,所以在本文推薦3個算法的情況下(即k=3),推薦命中率不低于85.71%。

      5) 推薦結(jié)果對比

      將本文的基于距離加權(quán)Dw(Distance-weighted)的算法推薦結(jié)果與文獻(xiàn)[10]采用“win-draw-loss”策略(WDL)的推薦結(jié)果進(jìn)行比較,表4顯示了兩種方法得到的推薦算法的平均分類精度。由該表可知,本文提出的算法推薦方法更優(yōu),平均分類精度高出約0.3%~1%。

      表4 不同α取值下兩種算法推薦方法的平均分類精度(%)對比

      6) 錯誤推薦

      我們注意到,圖3和表2中有個別數(shù)據(jù)集的推薦結(jié)果很差,如flags數(shù)據(jù)集的推薦精度誤差δ高達(dá)43%,voting-records數(shù)據(jù)集的推薦準(zhǔn)確率RA=0(即推薦的算法是該數(shù)據(jù)集的最差算法)。其原因在于目標(biāo)集在樣本庫中匹配到的相似數(shù)據(jù)集并沒有那么“相似”,導(dǎo)致錯誤的算法被推薦給了目標(biāo)集。至于這個問題的解決方案,可以不斷更新樣本庫,擴大其覆蓋面,最大限度地減少錯誤推薦的發(fā)生。

      4 結(jié) 語

      本文在文獻(xiàn)[10]的研究基礎(chǔ)上,進(jìn)一步深挖分類算法和數(shù)據(jù)集相似性之間的聯(lián)系,提出了一種改進(jìn)的基于k-NN和數(shù)據(jù)集相似性的分類算法推薦方法。實驗結(jié)果表明,大多數(shù)情況下推薦的分類算法在目標(biāo)集上都有較好的性能結(jié)果,平均推薦準(zhǔn)確率和推薦命中率都能達(dá)到85%~90%,相比文獻(xiàn)[10]的方法要高出3%~5%,推薦算法的分類精度比文獻(xiàn)[10]的方法要高出0.3%~1%。

      通過研究我們得出這樣的結(jié)論:依據(jù)相似性為數(shù)據(jù)集推薦合適的分類算法在原理上是可行的,但其在實際應(yīng)用上也存在一定的局限性。首先這一方法非常依賴于歷史樣本庫,樣本庫構(gòu)建的豐富程度將明顯地影響算法推薦的效果。其次,只依據(jù)最相似數(shù)據(jù)集為目標(biāo)集推薦唯一一個算法的方式是行不通的,必須要在其多個鄰居的適用算法列表里做進(jìn)一步篩選,并為其推薦多個可能的適用算法??傊?,關(guān)于這個問題的研究已有一定的成果,但還有很多難題未能解決。進(jìn)一步的研究包括:如何能夠不依賴樣本庫為數(shù)據(jù)集做推薦,能否直接分析數(shù)據(jù)集的特征然后將其劃分為某一類數(shù)據(jù)集,將數(shù)據(jù)集直接和分類算法聯(lián)系起來等問題。

      [1] Weiss M S,Kapouleas I.An Empirical Comparison of Pattern Recognition,Neural Nets,and Machine Leaning Classification Methods[C]//Proc of the 11th International Joint Conference on Artificial Intelligence.Detroit,USA,1989: 781-787.

      [2] Duin R P W.A note on comparing classifiers[J].Pattern Recognition Letters, 1996,17 (5): 529-536.

      [3] Ali S,Smith K A.On learning algorithm selection for classification[J].Applied Soft Computing,2006,6 (2): 119-138.

      [4] Gama J,Brazdil P.Characterization of classification algorithms[C]//Progress in Artificial Intelligence,1995: 189-200.

      [5] Bernado′-Mansilla E,Ho T K.Domain of competence of xcs classifier system in complexity measurement space[J].IEEE Transactions on Evolutionary Computation,2005,9 (1): 82-104.

      [6] Kwon O,Sim J M.Effects of data set features on the performances of classification algorithms[J].Expert Systems with Applications,2013,40 (5): 1847-1857.

      [7] Cano J R.Analysis of data complexity measures for classification[J].Expert Systems with Applications,2013,40 (12): 4820-4831.

      [8] Reif M,Shafait F,Goldstein M,et al.Automatic classifier selection for non-experts[J].Pattern Analysis and Applications,2014,17 (1): 83-96.

      [9] Tatti N.Distances between data sets based on summary statistics[J].Journal of Machine Learning Research,2007,8 (1): 131-154.

      [10] Song Qinbao,Wang Guangtao,Wang Chao.Automatic recommendation of classification algorithms based on data set characteristics[J].Pattern Recognition,2012,45 (7): 2672-2689.

      [11] Brazdi P Bl,Soares C,Da Costa J P.Ranking learning algorithms: using IBL and meta-learning on accuracy and time results[J].Machine Learning,2003,50 (3): 251-277.

      [12] Webb G I.Multiboosting: a technique for combining boosting and wagging[J].Machine Learning,2000,40 (2): 159-196.

      [13] Blake C,Merz C J.UCI repository of machine learning databases[DB/OL].[2011-06-20].http://archive.ics.uci.edu/ml/.

      [14] Fayyad U,Irani K.Multi-interval discretization of continuous-valued attributes for classification learning [C]//Bajcsy R.Proceedings of the 13th International Joint Conference on Artificial Intelligence,Chambery,France,1993: 1022-1027.

      CLASSIFICATION ALGORITHMS RECOMMENDATION BASED ON DATASET SIMILARITY

      Li HongqiXu QingsongZhu LipingQi Xuechen

      (KeyLabofPetroleumDataMining,ChinaUniversityofPetroleum,Beijing102249,China) (DepartmentofComputer,ChinaUniversityofPetroleum,Beijing102249,China)

      In recent years,with the rapid growth of big data analysis demand,the use of classification algorithms is more and more widespread as well,it becomes an urgent application problem of data mining technology to be solved that how to select appropriate classification algorithms for users.Correlated studies have shown that the same classifier has similar performance on similar datasets.According to this theory,we build a dataset similarity-based classification algorithms selection model.First,it extracts features of datasets using dataset discretisation method to create the sample base,then it recommends the appropriate classification algorithms for datasets in combination with the principle of nearest neighbour similarity.Experiment of algorithm has been carried out on datasets of UCI repository,results show that the recommended classifiers perform well in most cases.

      Data miningClassification algorithmDataset featuresPerformance evaluationAlgorithm recommendation

      2015-03-18。十二五國家重大專項(2011ZX05020-009);北京市重點實驗室階梯計劃項目(Z121109009212008)。李洪奇,教授,主研領(lǐng)域:石油數(shù)據(jù)挖掘。徐青松,碩士生。朱麗萍,副教授。戚雪晨,碩士生。

      TP18

      A

      10.3969/j.issn.1000-386x.2016.08.014

      猜你喜歡
      集上特征向量相似性
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
      一類上三角算子矩陣的相似性與酉相似性
      克羅內(nèi)克積的特征向量
      淺析當(dāng)代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      一類特殊矩陣特征向量的求法
      復(fù)扇形指標(biāo)集上的分布混沌
      EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
      低滲透黏土中氯離子彌散作用離心模擬相似性
      鹿泉市| 古交市| 宣化县| 封开县| 那坡县| 温州市| 东乌珠穆沁旗| 会泽县| 阿坝县| 白山市| 赤水市| 巧家县| 北安市| 双峰县| 民乐县| 盐源县| 尉犁县| 黄骅市| 辽阳县| 信丰县| 铜梁县| 盐津县| 镇赉县| 分宜县| 孟津县| 宁津县| 台江县| 吴堡县| 贞丰县| 长宁县| 永安市| 顺昌县| 普陀区| 新巴尔虎右旗| 阿城市| 泰顺县| 台州市| 宁城县| 云南省| 恭城| 得荣县|