• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于最大聯(lián)合條件互信息的特征選擇

      2019-07-31 12:14:01毛鶯池曹海平萍李曉芳
      計(jì)算機(jī)應(yīng)用 2019年3期
      關(guān)鍵詞:互信息特征選擇信息熵

      毛鶯池 曹海 平萍 李曉芳

      摘 要:在高維數(shù)據(jù)如圖像數(shù)據(jù)、基因數(shù)據(jù)、文本數(shù)據(jù)等的分析過(guò)程中,當(dāng)樣本存在冗余特征時(shí)會(huì)大大增加問題分析復(fù)雜難度,因此在數(shù)據(jù)分析前從中剔除冗余特征尤為重要?;诨バ畔ⅲ∕I)的特征選擇方法能夠有效地降低數(shù)據(jù)維數(shù),提高分析結(jié)果精度,但是,現(xiàn)有方法在特征選擇過(guò)程中評(píng)判特征是否冗余的標(biāo)準(zhǔn)單一,無(wú)法合理排除冗余特征,最終影響分析結(jié)果。為此,提出一種基于最大聯(lián)合條件互信息的特征選擇方法(MCJMI)。MCJMI選擇特征時(shí)考慮整體聯(lián)合互信息與條件互信息兩個(gè)因素,兩個(gè)因素融合增強(qiáng)特征選擇約束。在平均預(yù)測(cè)精度方面,MCJMI與信息增益(IG)、最小冗余度最大相關(guān)性(mRMR)特征選擇相比提升了6個(gè)百分點(diǎn);與聯(lián)合互信息(JMI)、最大化聯(lián)合互信息(JMIM)相比提升了2個(gè)百分點(diǎn);與LW向前搜索方法(SFS-LW)相比提升了1個(gè)百分點(diǎn)。在穩(wěn)定性方面,MCJMI穩(wěn)定性達(dá)到了0.92,優(yōu)于JMI、JMIM、SFS-LW方法。實(shí)驗(yàn)結(jié)果表明MCJMI能夠有效地提高特征選擇的準(zhǔn)確率與穩(wěn)定性。

      關(guān)鍵詞:信息熵;互信息;條件互信息;聯(lián)合互信息;特征選擇

      中圖分類號(hào): TP393.0

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1001-9081(2019)03-0734-08

      Abstract: In the analysis process of high-dimensional data such as image data, genetic data and text data, when samples have redundant features, the complexity of the problem is greatly increased, so it is important to reduce redundant features before data analysis. The feature selection based on Mutual Information (MI) can reduce the data dimension and improve the accuracy of the analysis results, but the existing feature selection methods cannot reasonably eliminate the redundant features because of the single standard. To solve the problem, a feature selection method based on Maximum Conditional and Joint Mutual Information (MCJMI) was proposed. Joint mutual information and conditional mutual information were both considered when selecting features with MCJMI, improving the feature selection constraint. Exerimental results show that the detection accuracy is improved by 6% compared with Information Gain (IG) and minimum Redundancy Maximum Relevance (mRMR) feature selection; 2% compared with Joint Mutual Information (JMI) and Joint Mutual Information Maximisation (JMIM); and 1% compared with LW index with Sequence Forward Search algorithm (SFS-LW). And the stability of MCJMI reaches 0.92, which is better than JMI, JMIM and SFS-LW. In summary the proposed method can effectively improve the accuracy and stability of feature selection.

      Key words: information entropy; Mutual Information (MI); conditional mutual information; joint mutual information; feature selection

      0 引言

      隨著數(shù)據(jù)時(shí)代不斷發(fā)展,大數(shù)據(jù)應(yīng)用越來(lái)越彰顯出它的優(yōu)勢(shì),如圖像數(shù)據(jù)分析、基因數(shù)據(jù)分析、文本數(shù)據(jù)分析等。高維數(shù)據(jù)能夠詳細(xì)記錄事物的屬性,同時(shí)也存在著大量冗余數(shù)據(jù),冗余數(shù)據(jù)給數(shù)據(jù)分析帶來(lái)了巨大難題。特征選擇方法能從高維數(shù)據(jù)中分析抽取出相關(guān)特征,減小數(shù)據(jù)維數(shù),降低分析復(fù)雜度?;诨バ畔⒌奶卣鬟x擇是Filter[1]類型特征選擇方法一個(gè)重要研究方向?;バ畔⒃谙嚓P(guān)性分析上有計(jì)算簡(jiǎn)單、可解釋性強(qiáng)特點(diǎn),因此基于互信息的特征選擇方法被廣泛應(yīng)用于特征選擇。如Fleuret等[2]提出通過(guò)考慮條件互信息降低數(shù)據(jù)維數(shù)的條件互信息特征選擇方法。特征選擇效率及策略方面也有相關(guān)研究,一種貪婪向前搜索的聯(lián)合互信息特征選擇方法被提出,用于解決互信息計(jì)算過(guò)程中效率問題[3]。現(xiàn)有互信息特征選擇方法主要從3個(gè)方面展開研究:信息增益、條件互信息和聯(lián)合互信息。其中條件互信息及聯(lián)合互信息在隨著特征不斷選擇過(guò)程中計(jì)算變得復(fù)雜。針對(duì)條件互信息及聯(lián)合互信息計(jì)算復(fù)雜問題,一種啟發(fā)式方法被應(yīng)用在特征選擇當(dāng)中,啟發(fā)式計(jì)算方式大幅降低了互信息計(jì)算難度[4]。

      基于啟發(fā)式計(jì)算互信息評(píng)判特征重要性時(shí),不同的特征選擇方法評(píng)判標(biāo)準(zhǔn)有所不同。如信息增益方法單獨(dú)考慮每個(gè)子特征同目標(biāo)分類之間相關(guān)性,未考慮特征與特征之間關(guān)系。聯(lián)合互信息考慮整體互信息大小,未考慮單個(gè)特征同目標(biāo)之間的相關(guān)性?;谧畲舐?lián)合互信息考慮互信息的整體穩(wěn)定性,未考慮聯(lián)合互信息整體大小。針對(duì)現(xiàn)有聯(lián)合互信息計(jì)算方法存在的不足,本文提出基于最大聯(lián)合條件互信息的特征選擇方法(feature selection method based on Maximum Conditional and Joint Mutual Information, MCJMI)。MCJMI特性選擇方法基于聯(lián)合互信息整體穩(wěn)定性的基礎(chǔ)上,利用條件互信息,挑選出使整體互信息增長(zhǎng)最顯著的特征。MCJMI特征選擇方法既保證了聯(lián)合互信息在整體上的穩(wěn)定性,同時(shí)使所選特征與分類之間的整體互信息增量最大。

      1 相關(guān)工作

      隨著特征選擇領(lǐng)域研究不斷發(fā)展,產(chǎn)生了各種類型的特征選擇方法。基于互信息理論的特征選擇方法最終目的是從所有特征中挑選出指定個(gè)數(shù)最相關(guān)的特征降低高維分類問題復(fù)雜度[5]。

      基于信息增益(Information Gain, IG)的特征選擇最早應(yīng)用于特征選擇,通過(guò)IG分析特征與分類之間相關(guān)性大小從而排除冗余特征[6]。IG在特征選擇過(guò)程中計(jì)算簡(jiǎn)單,僅考慮每個(gè)特征與分類之間的互信息大小,能在o(n)時(shí)間復(fù)雜度內(nèi)完成。由于IG選擇條件簡(jiǎn)單,為了增強(qiáng)冗余特征判斷, Liu等[7]提出了一種基于類別與類別之間特征分布改進(jìn)的IG文本方法。

      Battiti等[8]提出基于互信息的特征選擇方法(Mutual Information Feature Selection, MIFS),MIFS方法既考慮已選特征與分類之間的互信息,同時(shí)考慮已選特征與未選特征之間的相關(guān)性,MIFS不再假設(shè)特征之間獨(dú)立。其計(jì)算方式分析主要由兩部分組成,一部分為未選特征與分類之間的互信息,另一部分為未選擇特征與已選特征互信息求和。MIFS存在多個(gè)改進(jìn)版本,如Hoque等[9]研究的MIFS-ND方法,Cho等[10]提出的歸一化互信息特征選擇(Normalized Mutual Information Feature Selection, NMIFS)方法其在表現(xiàn)上都優(yōu)于MIFS。

      Peng等[11]將最大依賴性、最大相關(guān)性和最小冗余度準(zhǔn)則應(yīng)用到特征選擇當(dāng)中,提出了基于互信息的特征選擇最大依賴性、最小冗余度和最大相關(guān)性(minimum Redundancy Maximum Relevance feature selection, mRMR)準(zhǔn)則的特征選擇方法。mRMR特征選擇將MIFS方法中參數(shù)處理成已選特征個(gè)數(shù)的倒數(shù)使選擇標(biāo)準(zhǔn)一致。

      基于聯(lián)合互信息的特征選擇方法在子特征選擇中也有廣泛應(yīng)用。董澤民等[12]使用基于聯(lián)合互信息(Joint Mutual Information, JMI)的特征選擇方法。JMI加入了分類變量,在特征選擇時(shí)不僅需考慮所選特征同分類之間的關(guān)系,同時(shí),考慮在有分類條件下子集特征與未選特征之間的互信息大小。Bennasar等[13]提出了一種基于最大化聯(lián)合互信息(Joint Mutual Information Maximisation, JMIM)的特征選擇方法,JMIM考慮聯(lián)合互信息整體穩(wěn)定性。

      基于條件互信息的特征選擇同樣也有著廣泛的應(yīng)用。Li等[14]提出了一種通過(guò)條件互信息改進(jìn)的自適應(yīng)稀疏群套索方法,改進(jìn)了分塊下降方法,提高了分類選擇的精度。在互信息發(fā)展的過(guò)程中,也出現(xiàn)了類型相同的特征選擇方法,如Liu等[15]提出的LW索引向前搜索方法(LW index with Sequence Forward Search algorithm, SFS-LW)。SFS-LW特征選擇方法與上述JMIM方法在計(jì)算選擇過(guò)程相似,不同的是SFS-LW采用了基于類與類之間距離作為特征選擇的標(biāo)準(zhǔn)。

      綜上,特征選擇方法根據(jù)特征與分類之間的互信息大小,作為特征選擇評(píng)判標(biāo)準(zhǔn)。在評(píng)判特征是否冗余時(shí),考慮的標(biāo)準(zhǔn)單一,如僅考慮聯(lián)合互信息或僅考慮條件信息就造成了不同特征方法選擇結(jié)果不同。本文采用聯(lián)合互信息與條件互信息結(jié)合的方式,分析特征之間的冗余性,以提高對(duì)冗余特征的篩選效果。

      4 MCJMI特征選擇方法

      4.1 總體思路

      MCJMI方法從聯(lián)合互信息與條件互信息兩部分考慮所選擇特征,同時(shí)結(jié)合最小最大原則作特征選擇選擇過(guò)程中涉及兩個(gè)部分:特征與分類之間的相關(guān)性分析,已選特征與未選特征之間的冗余分析。提出的方法,主要解決現(xiàn)有聯(lián)合互信息方法在特征選擇過(guò)程中出現(xiàn)的無(wú)法排除冗余及不相關(guān)特征選擇問題。最終方法在指定子集大小情況下,挑選出子集S使I(S;C)最大。

      4.2 最大最小互信息

      最小最大聯(lián)合互信息相似集合:通過(guò)最小聯(lián)合互信息計(jì)算得到加入不同未選特征的最小聯(lián)合互信息集合。在最小聯(lián)合互信息集合中找出最大值。若集合中存在與最大值相等或相似值時(shí)加入到最小最大聯(lián)合互信息相似集合,該集合公式表示如下:

      4.3 最大聯(lián)合條件互信息

      特征選擇過(guò)程中,希望每次選擇的特征能夠最大限度地提升S與分類C之間的互信息值。根據(jù)特征選擇的特點(diǎn),提出了MCJMI方法。最大聯(lián)合條件互信息不僅考慮每次聯(lián)合互信息是否最大,同時(shí)考慮條件互信息是否滿足要求。條件互信息排除與子集S冗余的特征,增強(qiáng)了特征選擇的約束。

      4.4 方法步驟

      根據(jù)4.3節(jié)特征之間相關(guān)性冗余性分析,本文提出基于最小最大聯(lián)合條件互信息的特征選擇方法,計(jì)算公式如式(20)、(21)所示:

      當(dāng)fi滿足式(21)集合時(shí),由最小最大聯(lián)合互信息知,當(dāng)加入fi滿足了在所有特征子集中,至少存在一個(gè)特征使得聯(lián)合互信息大于其他特征。當(dāng)存在多個(gè)相似值時(shí),方法判斷其對(duì)子集特征的整體增量,通過(guò)整體互信息增量排除冗余性特征。通過(guò)增量大小方法確定最終要選擇的特征,其方法流程如下:

      MCJMI方法流程。

      MCJMI方法流程中,F(xiàn)為數(shù)據(jù)樣本所有特征,n表示特征量,C表示樣本對(duì)應(yīng)的分類。num、m分別表示最終要選擇的特征數(shù)量與最大相似集合的大小。P表示特征輸入時(shí)的下標(biāo),方法流程中的List用來(lái)存儲(chǔ)每次計(jì)算的聯(lián)合互信息。方法循環(huán)計(jì)算,每次挑選出最適合的特征子集,當(dāng)子集大小滿足|S|=num方法結(jié)束。MCJMI在每次計(jì)算特征互信息時(shí)間復(fù)雜性為o(|C|)。根據(jù)方法流程得出方法復(fù)雜度與需要選擇的特征數(shù)num,待選特征集合大小|F-S|相關(guān),同JMIM方法復(fù)雜度相同。

      5 實(shí)驗(yàn)驗(yàn)證

      5.1 實(shí)驗(yàn)方案

      實(shí)驗(yàn)數(shù)據(jù)來(lái)自UCI公開數(shù)據(jù)集[17],如表4所示,其中數(shù)據(jù)集Breast-cancer、Sonar、Parkinsons在文獻(xiàn)[10]使用到,使用相同數(shù)據(jù)集以達(dá)到驗(yàn)證實(shí)驗(yàn)結(jié)果的作用。剩余數(shù)據(jù)集則根據(jù)不同數(shù)據(jù)類型從UCI數(shù)據(jù)集挑選所得。實(shí)驗(yàn)中按照數(shù)據(jù)集的樣本大小,將數(shù)據(jù)分為兩個(gè)部分具體見表4。表4中編號(hào)1~4數(shù)據(jù)集屬于較少樣本的數(shù)據(jù)集,編號(hào)5~7數(shù)據(jù)集屬于樣本較多的數(shù)據(jù)集,編號(hào)8數(shù)據(jù)為非平衡數(shù)據(jù)集。

      每個(gè)數(shù)據(jù)集隨機(jī)劃分80%數(shù)據(jù)作訓(xùn)練集,20%數(shù)據(jù)作測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)中存在離散型數(shù)據(jù)、連續(xù)型數(shù)據(jù)、離散+連續(xù)型數(shù)據(jù),為保證特征選擇模型能夠適用計(jì)算連續(xù)及離散特征數(shù)據(jù)類型,采用基于K-近鄰(K Nearest Neighbors, KNN)互信息計(jì)算方法[18]。所有數(shù)據(jù)集數(shù)據(jù)采用歸一化方法處理到0~1區(qū)間以降低特征選擇過(guò)程計(jì)算復(fù)雜度。

      實(shí)驗(yàn)中將MCJMI與IG、mRMR、JMI、JMIM、SFS-LW五種特征選擇方法作比較,其中SFS-LW作用對(duì)比與現(xiàn)有方法效果。為驗(yàn)證特征選擇的效果,方法將已選的特征子集S輸入到KNN(n=3)及貝葉斯分類模型中作分類正確率預(yù)測(cè)得到分類精度。,通過(guò)分類的正確率評(píng)判選擇特征的合理性。為避免出現(xiàn)偶然性的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中分別對(duì)每個(gè)數(shù)據(jù)集進(jìn)行5次實(shí)驗(yàn),預(yù)測(cè)結(jié)果取均值,具體實(shí)驗(yàn)流程如圖1所示。

      5.2 小樣本數(shù)據(jù)預(yù)測(cè)精度分析

      圖2中橫坐標(biāo)表示數(shù)據(jù)集上選擇的特征數(shù)量,縱坐標(biāo)表示對(duì)應(yīng)特征數(shù)量下,KNN與貝葉斯分類平均預(yù)測(cè)精度。圖2給出了樣本較少數(shù)據(jù)集上各個(gè)方法在特征選擇過(guò)程中預(yù)測(cè)精度變化情況。

      通過(guò)Flowmeters、wine、Sonar、Parkinsons數(shù)據(jù)集上不同特征方法下分類預(yù)測(cè)精度變化圖可得出以下結(jié)論:

      1)如圖2所示MCJMI在樣本較少數(shù)據(jù)集上預(yù)測(cè)結(jié)果。Flowmeters數(shù)據(jù)集上MCJMI、JMIM、JMI、mRMR、SFS-LW僅在特征選擇數(shù)5左右預(yù)測(cè)精度已經(jīng)達(dá)到最高值,分別為83%、80%、80%、75%、80%。IG在特征數(shù)達(dá)20左右才到達(dá)最大精度75%。雖然JMIM、JMI、mRMR方法在特征數(shù)5左右也都達(dá)到了最大精度,從預(yù)測(cè)精度上能夠得出MCJMI比其他方法相比精度都要高。MCJMI達(dá)到最大預(yù)測(cè)精度后,隨著選擇特征加入預(yù)測(cè)精度始終穩(wěn)定,而mRMR、IG則有較大的波動(dòng)。在parkinson數(shù)據(jù)集上MCJMI也僅在特征選擇數(shù)到10左右預(yù)測(cè)精度已經(jīng)達(dá)到了92%,并且其產(chǎn)生的波動(dòng)也較小。其主要原因在于特征選擇過(guò)程MCJMI通過(guò)條件互信息排除了冗余特征。在Sonar數(shù)據(jù)集上看出,幾種算法在特征數(shù)都無(wú)較好的穩(wěn)定性,當(dāng)特征數(shù)達(dá)到30后,MCJMI預(yù)測(cè)精度達(dá)到了88%且趨于平穩(wěn)。

      2)從特征不斷增加過(guò)程中預(yù)測(cè)精度變化趨勢(shì)看,特征數(shù)逐漸增加時(shí),所有特征選擇方法在數(shù)據(jù)集上預(yù)測(cè)精度呈現(xiàn)先增加后減小的規(guī)律。這符合了隨著新特征的加入,信息量在不斷增加,冗余信息也在不斷增加的規(guī)律。圖2中MCJMI、JMI、JMIM選擇的特征加入后預(yù)測(cè)精度不斷增加,達(dá)到一定特征數(shù)量后預(yù)測(cè)精度呈現(xiàn)下降趨勢(shì)一致。從圖2可以看出,MCJMI很好地反映這一規(guī)律,而IG、mRMR這一特征表現(xiàn)并不明顯,而且出現(xiàn)預(yù)測(cè)精度上下跳躍的情況。主要原因在于IG,mRMR在特征選擇時(shí)考慮的標(biāo)準(zhǔn)單一,選擇的冗余特征加入后為分類提供的信息量較少,造成預(yù)測(cè)精度上升較慢。

      3)MCJMI與SFS-LW方法在預(yù)測(cè)精度上差異較小,但根據(jù)MCJMI與SFS-LW在精度曲線變化上,可以看出 MCJMI在精度變化過(guò)程中平穩(wěn)性優(yōu)于SFS-LW。主要原因,MCJMI在每次計(jì)算過(guò)程中基于前一特征計(jì)算互信息和。而SFS-LW每當(dāng)加入特征后,將會(huì)重新計(jì)算度量各個(gè)分類之間距離,降低了已選特征之間的關(guān)聯(lián)性。

      從表5中不同數(shù)據(jù)集上平均精度上看,在wine數(shù)據(jù)集上平均精度MCJMI相對(duì)IG提升了56.1個(gè)百分點(diǎn),相對(duì)mRMR、JMI、JMIM、SFS-LW平均預(yù)測(cè)精度無(wú)明顯大小變化;在Parkinsons數(shù)據(jù)集上MCJMI相對(duì)IG提升了43.8個(gè)百分點(diǎn),相對(duì)mRMR提升了33.5個(gè)百分點(diǎn),相對(duì)JMI、JMIM、SFS-LW平均預(yù)測(cè)精度無(wú)明顯大小變化;在Flowmeters數(shù)據(jù)集上MCJMI相對(duì)IG提升了55.1個(gè)百分點(diǎn),相對(duì)mRMR提升了54.8個(gè)百分點(diǎn),相對(duì)JMI、JMIM平均預(yù)測(cè)精度提升了1.8和2個(gè)百分點(diǎn),相對(duì)SFS-LW提升了11.7個(gè)百分點(diǎn);在Sonar數(shù)據(jù)集上MCJMI相對(duì)IG提升了77.8個(gè)百分點(diǎn),相對(duì)mRMR提升了45.4個(gè)百分點(diǎn),相對(duì)JMI、JMIM平均預(yù)測(cè)精度提升了1.5和2.5個(gè)百分點(diǎn)。

      根據(jù)表6中達(dá)到最大精度所選特征數(shù)占比得出,IG所占總特征比例變化范圍為13.64%~83.33%,其波動(dòng)區(qū)間大小為70%。同理得mRMR波動(dòng)區(qū)間大小45%,JMI波動(dòng)區(qū)間大小42%,JMIM波動(dòng)區(qū)間大小15%,MCJMI波動(dòng)區(qū)間大小38%,SFS-LW波動(dòng)區(qū)間大小為38%與MCJMI相同。IG波動(dòng)較大主要原因IG未考慮特征之間的相關(guān)性,特征相關(guān)性較強(qiáng)時(shí)為達(dá)到高的預(yù)測(cè)精度,IG特征選擇數(shù)量要多于其他方法。JMI,JMIM,MCJMI波動(dòng)區(qū)間相似,而每個(gè)數(shù)據(jù)集上達(dá)到最大精度時(shí)所選特征占比上得出,MCJMI與SFS-LW選擇特征數(shù)低于JMI與JMIM。

      5.3 大樣本數(shù)據(jù)預(yù)測(cè)精度分析

      圖3給出樣本數(shù)量較多的數(shù)據(jù)集上分類預(yù)測(cè)精度。其中:break-cancer選擇特征選擇過(guò)程前20個(gè)特征,Isolet及semeion選取特征選取過(guò)程前50個(gè)最相關(guān)特征作分類預(yù)測(cè)。詳細(xì)預(yù)測(cè)精度見圖3。

      根據(jù)圖3比較可得出以下結(jié)論:

      1)數(shù)據(jù)樣本量較多時(shí),幾種特征選擇方法在隨著特征選擇的過(guò)程中預(yù)測(cè)精度不斷增加幾種特征選擇方法在隨著特征數(shù)量增加時(shí)分類精度也在不斷增加,而SFS-LW則出現(xiàn)了預(yù)測(cè)進(jìn)度上下浮動(dòng)較大的情況。Breast-cancer數(shù)據(jù)集上當(dāng)特征量在4時(shí)MCJMI、JMIM、JMI預(yù)測(cè)精度達(dá)到96%,SFS-LW預(yù)測(cè)精度達(dá)到94%。在之后出現(xiàn)了精度下降,主要原因在于SFS-LW每選擇一次特征后都需重新計(jì)算分類間距離,當(dāng)樣本數(shù)據(jù)存在較多噪聲時(shí),即數(shù)據(jù)非平穩(wěn)數(shù)據(jù)就存在如圖3(a)所示情況。IG、mRMR在特征4時(shí)預(yù)測(cè)精度為93%出現(xiàn)明顯下降。主要原因是IG、mRMR選擇了冗余特征,增加了數(shù)據(jù)噪聲。在Isolet數(shù)據(jù)集上特性選擇數(shù)量8左右出現(xiàn)JMIM預(yù)測(cè)精度短暫優(yōu)于MCJMI情況,在特征數(shù)量達(dá)到10以后MCJMI預(yù)測(cè)精度優(yōu)于其他幾種方法。

      2)圖3(a)、(c)數(shù)據(jù)集上特征選擇預(yù)測(cè)精度曲線變化的斜率得出,MCJMI預(yù)測(cè)精度上升的速度要優(yōu)于IG、mRMR、JMI、JMIM。SFS-LW方法同樣預(yù)測(cè)精度優(yōu)于IG、mRMR、JMI、JMIM。其主要原因MCMI方法在特征選擇時(shí)考慮了條件互信息加入特征fj后,總能使I(fi,S;C)向增長(zhǎng)速度最快的方向選擇特征,SFS-LW每次加入特征最大限度的區(qū)分類,忽略了特征選擇穩(wěn)定性。

      根據(jù)表7對(duì)不同數(shù)據(jù)集上預(yù)測(cè)的平均精度對(duì)比得出,在Breast-cancers數(shù)據(jù)集上,JMI、JMIM、MCJMI最大預(yù)測(cè)精度相差不大,MCJMI相對(duì)IG提升了32.5個(gè)百分點(diǎn),相對(duì)mRMR精度提升了31.3個(gè)百分點(diǎn),相對(duì)SFS-LW提升了32.4個(gè)百分點(diǎn);在Semeion數(shù)據(jù)集上,MCJMI相對(duì)IG提升了1014個(gè)百分點(diǎn),相對(duì)mRMR提升了1919.2個(gè)百分點(diǎn),相對(duì)JMI提升了33.7個(gè)百分點(diǎn),相對(duì)于SFS-LW提升了11.6個(gè)百分點(diǎn);在Isolet數(shù)據(jù)集,MCJMI相對(duì)IG提升了2423.6個(gè)百分點(diǎn),相對(duì)mRMR提升了2423.6個(gè)百分點(diǎn),相對(duì)JMI提升了43.4個(gè)百分點(diǎn),相對(duì)JMIM提升了4個(gè)百分點(diǎn)。從平均預(yù)測(cè)精度上得出,MCJMI特征選擇預(yù)測(cè)精度整體上高于其他方法。

      5.4 非平穩(wěn)數(shù)據(jù)預(yù)測(cè)精度分析

      圖4給出非平衡數(shù)據(jù)集secom不同特征選擇方法的預(yù)測(cè)精度,選取前100個(gè)特征預(yù)測(cè)結(jié)果。圖5給出不同特征選擇方法在特征選擇過(guò)程時(shí)間復(fù)雜度情況。

      根據(jù)圖4預(yù)測(cè)計(jì)算精度方面能夠得出:在特征數(shù)到達(dá)30之前,基于互信息的特征選擇方法在精度預(yù)測(cè)方面優(yōu)于SFS-LW;特征達(dá)到30之后,SFS-LW在預(yù)測(cè)精度明顯高于互信息的特征選擇方法。主要有以下原因:

      1)基于互信息特征選擇計(jì)算過(guò)程中,互信息計(jì)算基于各類樣本所占比例。在特征選擇前期不均衡樣本,某一類樣本占比例較大,互信息所選擇的特征傾向于占比重大的分類樣本。

      2)SFS-LW計(jì)算類與類之間距離,各個(gè)類之間計(jì)算距離,對(duì)樣本的比例大小敏感度不高,但當(dāng)選擇特征較少時(shí),數(shù)據(jù)噪聲對(duì)SFS-LW影響較大,正如圖4所示SFS-LW在特征到達(dá)30之前精度低于MCJIM方法。

      根據(jù)圖5可以得出:在特征選擇過(guò)程中SFS-LW時(shí)間復(fù)雜度最高,SFS-LW在每次計(jì)算類與類之間距離時(shí)為組合問題;而MCJMI在特征選擇過(guò)程中,計(jì)算互信息與|C|的大小有關(guān)且在計(jì)算相似集合時(shí)消耗了較多時(shí)間;JMI、JMIM計(jì)算時(shí)間復(fù)雜度相同;mRMR時(shí)間復(fù)雜度略低于JMI與JMIM,IG時(shí)間復(fù)雜度最低。

      5.5 穩(wěn)定性分析

      穩(wěn)定性是評(píng)判方法泛化能力的重要指標(biāo),特征選擇結(jié)果易受樣本選擇的影響。對(duì)于同一數(shù)據(jù)集中不同數(shù)據(jù)樣本,若所選出的最優(yōu)特征子集越相似說(shuō)明方法越穩(wěn)定。Chelvan等[19]提出相似特征穩(wěn)定性的評(píng)判標(biāo)準(zhǔn)。設(shè)S1,S2為同一數(shù)據(jù)集上不同樣本上所選出的兩個(gè)最優(yōu)子集,其中兩者子集中的特征個(gè)數(shù)為|S1|=|S2|記作m,|F|為總特征數(shù)n,S1,S2相交的個(gè)數(shù)r=|S1∩S2|,則穩(wěn)定性計(jì)算公式如下:

      由式(22)得出當(dāng)所選特征數(shù)一定時(shí),r=|S1∩S2|交集越大則說(shuō)明方法在選擇特征上越穩(wěn)定。表8中給出各個(gè)方法平均精度、穩(wěn)定性,由于穩(wěn)定性僅能夠說(shuō)明算法在特征選擇上的穩(wěn)定。通過(guò)平均精度與穩(wěn)定性的比值,能夠標(biāo)準(zhǔn)化穩(wěn)定性分析結(jié)果。本文給出平均精度與穩(wěn)定性的比值,作為算法最終穩(wěn)定性評(píng)判指標(biāo),具體如表8所示。

      從表8中可以看出,IG的穩(wěn)定性最高,值為0.9025,mRMR穩(wěn)定性為0.8803,MCJMI穩(wěn)定性為0.8760,SFS-LW穩(wěn)定性為0.8800。主要原因是IG所考慮的條件最少,僅存在特征與分類之間的互信息大小。JMI、JMIM穩(wěn)定性處于幾個(gè)方法中較低的水平,主要原因是JMI、JMIM在計(jì)算選擇過(guò)程中考慮的因素要多于IG與mRMR,受樣本的影響較大。而MCJMI則相對(duì)于JMI與JMIM穩(wěn)定性有所提升,MCJMI在選擇時(shí)結(jié)合了兩種方法的優(yōu)點(diǎn),考慮因素相同的情況下,增加了特征選擇的約束條件。MCJMI與SFS-LW在穩(wěn)定性方面較為一致,但在平穩(wěn)性一致的情況下,MCJMI的預(yù)測(cè)精度為0.8060,高于SFS-LW預(yù)測(cè)精度。表8采用平均精度與穩(wěn)定性比值來(lái)標(biāo)準(zhǔn)化穩(wěn)定性評(píng)判標(biāo)準(zhǔn),同時(shí)考慮精度與穩(wěn)定性兩個(gè)方面,通過(guò)比值得出MCJMI穩(wěn)定性最高達(dá)到0.92。

      6 結(jié)語(yǔ)

      本文通過(guò)比較特征選擇方法選擇出的特征,在數(shù)據(jù)集上預(yù)測(cè)的平均精度、最大預(yù)測(cè)精度、所需特征數(shù)以及穩(wěn)定性方面比較得出實(shí)驗(yàn)結(jié)果。MCJMI綜合考慮聯(lián)合互信息與條件互信息,增強(qiáng)了特征選擇的約束性,實(shí)驗(yàn)結(jié)果表明MCJMI能夠減少冗余特征的選擇。MCJMI也存在不足之處,MCJMI未考慮數(shù)據(jù)不均衡的情況,未來(lái)研究可考慮非平衡數(shù)據(jù)情況下如何改進(jìn)。特征選擇不僅適用于數(shù)據(jù)冗余排除,同樣適用于因素之間的相關(guān)性分析,如物體變形影響因素、城市空氣質(zhì)量影響因素等。

      參考文獻(xiàn) (References)

      [1] GANDHI S S, PRABHUNE S S. Overview of feature subset selection algorithm for high dimensional data[C]// ICISC 2017: Proceedings of the 2017 IEEE International Conference on Inventive Systems and Control. Piscataway, NJ: IEEE, 2017: 1-6.

      [2] FLEURET F. Fast binary feature selection with conditional mutual information [J]. Journal of Machine Learning Research, 2004, 5(3): 1531-1555.

      [3] LIU H, DITZLER G. Speeding up joint mutual information feature selection with an optimization heuristic [C]// Proceedings of the 2017 IEEE Symposium Series on Computational Intelligence. Piscataway, NJ: IEEE, 2018: 1-8.

      [4] MIN F, XU J. Semi-greedy heuristics for feature selection with test cost constraints [J]. Granular Computing, 2016, 1(3): 199-211.

      [5] TSAGRIS M, LAGANI V, TSAMARDINOS I. Feature selection for high-dimensional temporal data [J]. BMC Bioinformatics, 2018, 19: 17.

      [6] HUANG Z. Based on the information gain text feature selection method [J]. Computer Knowledge and Technology, 2017.

      黃志艷.一種基于信息增益的特征選擇方法[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,44(2): 252-256.(HUANG Z Y. Based on the information gain text feature selection method [J]. Journal of Shandong Agricultural University (Natural Science), 2013,44(2): 252-256.)

      [7] 劉海峰,劉守生,宋阿羚.基于詞頻分布信息的優(yōu)化IG特征選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(4):113-117.(LIU H F, LIU S S, SONG A L. Improved method of IG feature selection based on word frequency distribution [J]. Computer Engineering and Applications, 2017, 53(4): 113-117.)

      [8] BATTITI R. Using mutual information for selecting features in supervised neural net learning [J]. IEEE Transactions on Neural Networks, 1994, 5(4): 537-550.

      [9] HOQUE N, BHATTACHARYYA D K, KALITA J K. MIFS-ND: a mutual information-based feature selection method [J]. Expert Systems with Applications, 2014, 41(14): 6371-6385.

      [10] CHO D, LEE B. Optimized automatic sleep stage classification using the Normalized Mutual Information Feature Selection (NMIFS) method [C]// Proceedings of the 2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Piscataway, NJ: IEEE, 2017: 3094-3097.

      [11] PENG H, LONG F, DING C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238.

      [12] 董澤民,石強(qiáng).基于歸一化模糊聯(lián)合互信息最大的特征選擇[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(22):105-110.(DONG Z M, SHI Q. Feature selection using normalized fuzzy joint mutual information maximum [J]. Computer Engineering and Applications, 2017, 53(22): 105-110.)

      [13] BENNASAR M, HICKS Y, SETCHI R. Feature selection using joint mutual information maximisation [J]. Expert Systems with Applications, 2015, 42(22): 8520-8532.

      [14] LI J, DONG W, MENG D. Grouped gene selection of cancer via adaptive sparse group lasso based on conditional mutual information [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018, 15(6): 2028-2038.

      [15] LIU C, WANG W, ZHAO Q, et al. A new feature selection method based on a validity index of feature subset [J]. Pattern Recognition Letters, 2017, 92: 1-8.

      [16] AMARATUNGA D, CABRERA J. High-dimensional data [J]. Journal of the National Science Foundation of Sri Lanka, 2016, 44(1): 3.

      [17] DUA, D. AND KARRA TANISKIDOU, E. (2017). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

      DUA, D. AND KARRA TANISKIDOU, E. UCI Machine Learning Repository [DB/OL]. [2018-07-13]. http://archive.ics.uci.edu/ml.

      [18] ROSS B C. Mutual information between discrete and continuous data sets [J]. PLoS One, 2014, 9(2): e87357.

      [19] CHELVAN P M, PERUMAL K. A study on selection stability measures for various feature selection algorithms [C]// ICCIC 2016: Proceedings of the 2016 IEEE International Conference on Computational Intelligence and Computing Research. Piscataway, NJ: IEEE, 2017: 1-4.

      猜你喜歡
      互信息特征選擇信息熵
      基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
      基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
      一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于信息熵的IITFN多屬性決策方法
      改進(jìn)的互信息最小化非線性盲源分離算法
      基于增量式互信息的圖像快速匹配方法
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      九龙城区| 赞皇县| 邓州市| 天峻县| 饶平县| 南江县| 黄骅市| 凤阳县| 桓仁| 乳山市| 凤城市| 郯城县| 华蓥市| 屏山县| 旬阳县| 涟源市| 通道| 平阴县| 莆田市| 芜湖县| 禹城市| 宁乡县| 平果县| 诸暨市| 方城县| 仙居县| 雷波县| 孝昌县| 金川县| 韶山市| 永安市| 防城港市| 内丘县| 云龙县| 扎赉特旗| 临沭县| 花垣县| 平原县| 邹平县| 揭西县| 定陶县|