劉 杰,張 平,高萬夫
(1.吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長春 130012;2.吉林大學(xué) 符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室,長春 130012;3.吉林大學(xué) 軟件學(xué)院,長春 130012)
隨著大數(shù)據(jù)時(shí)代的到來,各種各樣類型的數(shù)據(jù)信息呈現(xiàn)指數(shù)級(jí)增長。如何快速、準(zhǔn)確地從龐雜的信息中選擇出最有價(jià)值的信息變得越來越重要。降維技術(shù)就是解決這一類問題的重要手段。目前主要的降維技術(shù)主要包括特征提取和特征選擇兩種[1]。特征提取就是將原有的高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),改變了原始特征的物理意義;特征選擇則是從原有的高維數(shù)據(jù)中挑選出最有價(jià)值的特征,保留原始特征的物理特性。在簡(jiǎn)單用于找出那些有價(jià)值的特征時(shí),兩種降維技術(shù)作用是一樣的,但如果研究者想要分析所選出來的特征的實(shí)際意義,那么,特征選擇方法更優(yōu)越,它可以更好地幫助研究者分析所選出來的特征的潛在意義。
根據(jù)選擇策略的不同,特征選擇算法一般分為封裝法(Wrapper)、嵌入法(Embedded)和過濾法(Filter)3類[2]。封裝法是依賴于分類器的一種方法,它一般分為兩步:①選出一個(gè)特征子集;②評(píng)估這個(gè)子集的分類表現(xiàn)。重復(fù)步驟①和②直到選出合適的子集。封裝法分類表現(xiàn)一般比較好,但缺點(diǎn)是太過依賴具體的分類器容易出現(xiàn)過擬合,并且執(zhí)行效率較低。嵌入法是將特征選擇集成在學(xué)習(xí)機(jī)訓(xùn)練過程中,通過優(yōu)化一個(gè)目標(biāo)函數(shù),在訓(xùn)練分類器的過程中實(shí)現(xiàn)特征選擇。嵌入法相對(duì)于封裝法執(zhí)行效率較高,但是構(gòu)造一個(gè)合適的函數(shù)優(yōu)化模型往往比較困難。相比較而言,過濾法是效率最高的一種選擇策略,它獨(dú)立于任何分類器,并且具有較好的泛化能力,因此應(yīng)用廣泛,尤其是基于信息論的過濾法。對(duì)于特征子集的搜索策略,一般分為啟發(fā)式搜索、隨機(jī)搜索和完全搜索3種[4,5]。本文使用的是啟發(fā)式搜索策略中的序列向前搜索方法。
基于信息論的特征選擇算法是當(dāng)前的研究熱點(diǎn)。傳統(tǒng)的基于互信息的特征選擇算法都將候選特征與類標(biāo)簽的互信息值作為相關(guān)項(xiàng),例如mRMR[6],但它們卻忽略了候選特征與類標(biāo)簽的相關(guān)性是隨著已選特征的加入而動(dòng)態(tài)改變的。本文將候選特征與類標(biāo)簽在已知已選特征下的條件互信息作為相關(guān)項(xiàng),去掉那些與已選特征冗余關(guān)系強(qiáng)烈的候選特征,選出最有意義的特征。為證明本文提出的相關(guān)性概念——條件相關(guān)性,比傳統(tǒng)的相關(guān)性優(yōu)越,接下來給出理論說明。另外,在10個(gè)真實(shí)數(shù)據(jù)集上分別對(duì)本文條件相關(guān)特征選擇(Conditional relevance feature selection,CRFS)算法與其他7種特征選擇算法進(jìn)行比較,其中JMI[7]與本文算法的框架相似,mRMR、CIFE[8]、DISR[9]和ICAP[10]都是特征選擇領(lǐng)域的經(jīng)典算法,F(xiàn)IM[11]和IWFS[12]分別是2013年和2015年提出的算法。這8種特征選擇算法都是基于信息論的過濾特征選擇算法,它們不依賴于具體的分類器,利用2個(gè)經(jīng)典的分類器(1近鄰(1NN)和樸素貝葉斯(NB))對(duì)它們進(jìn)行分類表現(xiàn)測(cè)試,并給出實(shí)驗(yàn)效果圖和選出來的最高準(zhǔn)確率,最后對(duì)8種算法在10個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間進(jìn)行對(duì)比。
假設(shè)X,Y和Z是3個(gè)n維的離散隨機(jī)變量,X={x1,x2,…,xn},Y={y1,y2,…,yn},Z={z1,z2,…,zn}。信息熵的定義如下[13-16]:
(1)
式中:p(xi)為隨機(jī)事件xi發(fā)生的概率。
變量的不確定性越大,熵就越大,所提供的信息量也就越大。聯(lián)合信息熵的定義如下:
(2)
式中:p(xi,yj)=p(X=xi,Y=yj)。
式(2)表示隨機(jī)變量X和Y同時(shí)發(fā)生的不確定性大小。條件熵的定義如下:
(3)
式(3)表示在聯(lián)合隨機(jī)變量集XY中,所有X|Y是否發(fā)生的平均不確定的大小。
相對(duì)熵的定義如下:
(4)
由相對(duì)熵的概念可以定義平均互信息為[15]:
(5)
式(5)為互信息的定義,由定義可知互信息可以表示為熵的形式,具體如下:
I(X;Y)=H(Y)-H(Y|X)
(6)
I(X;Y)=H(X)-H(X|Y)
(7)
I(X;Y)=H(X)+H(Y)-H(X,Y)
(8)
根據(jù)式(6)~(8)可知:平均互信息可以理解為兩個(gè)隨機(jī)變量之間的關(guān)聯(lián)程度,即給定一個(gè)隨機(jī)變量后,對(duì)另一個(gè)隨機(jī)變量不確定性的削弱程度。因而互信息取值最小為0,意味著給定一個(gè)隨機(jī)變量對(duì)確定另一個(gè)隨機(jī)變量沒有幫助,即兩個(gè)隨機(jī)變量相互獨(dú)立;最大取值為隨機(jī)變量的熵,意味著給定一個(gè)隨機(jī)變量,能完全消除另一個(gè)隨機(jī)變量的不確定性。類似于條件熵,條件互信息用相對(duì)熵表示如下:
I(X;Y|Z)=
D(P(xi,yj,zk)||P(yj|zk)P(zk))
(9)
式(9)也可以寫成如下形式:
I(X;Y|Z)=
(10)
條件互信息可以表示成熵的形式,具體如下:
I(X;Y|Z)=H(X|Z)-H(X|YZ)
(11)
I(X;Y|Z)=
H(XZ)+H(YZ)-H(XYZ)-H(Z)
(12)
其中,熵、條件熵、互信息、條件互信息的值均大于等于零。
特征選擇的目標(biāo)是從高維特征中選出那些與類標(biāo)簽最相關(guān)的一個(gè)特征子集。傳統(tǒng)的基于信息論的特征選擇算法認(rèn)為候選特征與類標(biāo)簽的互信息值越大代表該候選特征越重要。它們把候選特征的選擇過程看成一個(gè)個(gè)獨(dú)立的事件,而事實(shí)上,候選特征與類標(biāo)簽的相關(guān)性是隨著已選特征的加入而不斷改變的。
圖1 H(Xk),H(Xs),H(Y)關(guān)系圖Fig.1 Relationship of H(Xk),H(Xs) and H(Y)
圖1中,Xk為候選特征,Xs為已選特征,Y為類標(biāo)簽。傳統(tǒng)的相關(guān)性是候選特征與類標(biāo)簽的互信息I(Xk;Y),即圖1中的1+2部分,然而,從圖1中可以看出,由于2部分在之前選擇已選特征Xs的過程中已經(jīng)計(jì)算過,即它同時(shí)屬于候選特征和已選特征與類標(biāo)簽的相關(guān)性,所以它是候選特征與已選特征對(duì)于類標(biāo)簽的冗余部分;條件相關(guān)性是指圖1中的1部分,將它定義為候選特征與類標(biāo)簽的相關(guān)性,用條件互信息表示,即I(Xk;Y|Xs)。從圖1中可以看出:1部分代表候選特征與類標(biāo)簽真正的相關(guān)性,有效避免了2部分產(chǎn)生的冗余作用。由于在特征選擇的過程中,已選特征的個(gè)數(shù)不斷增多,為考慮到所有已選特征與候選特征的冗余關(guān)系,本文提出全新的條件相關(guān)性CMI,用候選特征與類標(biāo)簽在每一個(gè)已選特征條件下的條件互信息之和表示:
(13)
式中:S為已選特征集。
下面用一個(gè)例子形象地說明條件相關(guān)性與傳統(tǒng)相關(guān)性相比所具有的優(yōu)勢(shì)。
表1 樣例及類標(biāo)簽Table 1 Samples and classes
如表1所示,其中Oi(i=1,2,…,6)為樣例,Xk(k=1,2,…,7)為特征,Y為類標(biāo)簽。分別用條件相關(guān)性和傳統(tǒng)的相關(guān)性對(duì)表1的例子進(jìn)行特征選擇。條件相關(guān)性是動(dòng)態(tài)變化的,即式(13),傳統(tǒng)的相關(guān)性為I(Xk;Y),下面根據(jù)表1分別計(jì)算兩種相關(guān)性。執(zhí)行過程如下所示。
(1)當(dāng)k=1時(shí),計(jì)算所有特征與類標(biāo)簽的互信息:
I(X1;Y)=0.0817;I(X2;Y)=0.0817
I(X3;Y)=0.0817;I(X4;Y)=0.1909
I(X5;Y)=0.1909;I(X6;Y)=0.0000
I(X7;Y)=0.4591
由以上比較I(Xi;Y),第1個(gè)被選出來的特征為X7,此時(shí)已選特征集S={X7},候選特征集為{X1,X2,X3,X4,X5,X6};此時(shí),條件相關(guān)性與傳統(tǒng)相關(guān)性選擇的特征一樣,都是X7。
(2)當(dāng)k=2時(shí),計(jì)算候選特征在已選特征集下的條件互信息:
CMI(X1;Y|S)=0.0817
CMI(X2;Y|S)=0.0817
CMI(X3;Y|S)=0.2075
CMI(X4;Y|S)=0.7771×10-15
CMI(X5;Y|S)=0.0817
CMI(X6;Y|S)=0.2075
由以上比較CMI(Xi;Y|S),第2個(gè)被選出來的特征為X3,而傳統(tǒng)的相關(guān)性算法選擇的是X4,此時(shí)已選特征集S={X7,X3},候選特征集為{X1,X2,X4,X5,X6}。
(3)當(dāng)k=3時(shí),計(jì)算候選特征在已選特征集下的條件互信息:
CMI(X1;Y|S)=0.3333
CMI(X2;Y|S)=0.6667
CMI(X4;Y|S)=0.1258
CMI(X5;Y|S)=0.2075
CMI(X6;Y|S)=0.4591
由以上比較CMI(Xi;Y|S),第3個(gè)被選出來的特征為X2,而傳統(tǒng)的相關(guān)性算法選擇的是X5,此時(shí)已選特征集S={X7,X3,X2}。由傳統(tǒng)的相關(guān)性選擇的特征集合為S′={X7,X4,X5}。
分析以上執(zhí)行過程可以看出:選擇第一個(gè)特征時(shí),通過步驟(1)的計(jì)算,利用條件相關(guān)性和傳統(tǒng)相關(guān)性均選擇與類標(biāo)簽最相關(guān)的特征X7,即與Y互信息的最大值。在選擇第2個(gè)特征時(shí),按傳統(tǒng)相關(guān)性選擇X4,而利用條件相關(guān)性則選擇X3。雖然I(X4;Y)>I(X3;Y),但是此時(shí)已選特征集S中已有X7,所以需要考慮X4和X3在已選特征X7的影響下與Y的相關(guān)性。通過計(jì)算I(X4;X7)=0.3167,I(X3;X7)=0.1110×10-15≈0可知I(X4;X7)>I(X3;X7),即X4與X7的相關(guān)性大于X3與X7的相關(guān)性,而計(jì)算I(X4;Y|X7)=0.7771×10-15≈0,I(X3;Y|X7)=0.2075,說明X4在已選特征X7的影響下,幾乎沒有為分類提供新的信息并且與X7有較高的相關(guān)性,實(shí)質(zhì)上表明X4為冗余特征,其提供了與X7相似的信息;而I(X3;Y|X7)>I(X3;Y),說明X3在X7的影響下為分類提供了更多信息。在選擇第3個(gè)特征時(shí),同樣需要考慮已選特征集的影響,有效剔除冗余特征,從而選擇提供更多分類信息的特征。
至此,條件相關(guān)性選擇出來的特征集合可以有效地對(duì)樣例進(jìn)行分類,這個(gè)集合稱為最佳特征子集。而利用傳統(tǒng)相關(guān)性并沒有選擇出最佳特征子集。所以,通過圖1的分析和表1的例子可以看出,條件相關(guān)性與傳統(tǒng)的相關(guān)性相比具有更好的分類效果。根據(jù)條件相關(guān)性的特點(diǎn),本文提出一種條件相關(guān)的特征選擇算法CRFS。
由于條件相關(guān)性的計(jì)算與傳統(tǒng)的相關(guān)性不同,它并不是將候選特征的選擇過程看成一個(gè)個(gè)獨(dú)立的事件,而是基于每一個(gè)已選特征動(dòng)態(tài)變化的。根據(jù)其這一特點(diǎn)本文設(shè)計(jì)了一個(gè)全新的特征選擇算法:
(14)
對(duì)于每一個(gè)候選特征依次計(jì)算式(14),將獲得的最大值對(duì)應(yīng)的候選特征加入到S中,迭代此過程直到滿足規(guī)定的特征數(shù)目。具體執(zhí)行過程的偽代碼如下所示。
輸入:原始特征集F,類標(biāo)簽Y,閾值K
輸出:選擇的特征對(duì)應(yīng)索引集S
① S=?
② Maxs =?
③ k = 0
④ for each Xk∈F
⑤ 根據(jù)式(6)計(jì)算 I(Xk; Y)
⑥ end for
⑦ S(1) = argmax( I(Xk; Y) )
⑧ Xs=F[S(1)]
⑨ F = F - {S(1)}
⑩ k = k+1
R(Xk)=I(Xk;Y | Xs) - I(Xk;Xs)
①~③行是初始化過程,將要選擇的特征個(gè)數(shù)k設(shè)為0,臨時(shí)存放候選特征最大值的一個(gè)變量Maxs設(shè)為空,將要選擇的特征集合S設(shè)為空;④~⑥行,是算法選擇第一個(gè)特征,計(jì)算在原始特征集合F中的每一個(gè)特征與類標(biāo)簽的互信息,選擇互信息最大的特征作為第一個(gè)已選特征;⑦~行,依次選擇每一個(gè)使得式(14)最大的特征,然后將該特征加入已選集合S中,不斷重復(fù)此過程,直到k達(dá)到閾值。
在10個(gè)真實(shí)數(shù)據(jù)集上對(duì)條件相關(guān)特征選擇算法進(jìn)行實(shí)驗(yàn),具體數(shù)據(jù)集描述如表2所示[17]。對(duì)于這些數(shù)據(jù)集,將特征子集數(shù)目限制在30個(gè)。實(shí)驗(yàn)給出這10個(gè)數(shù)據(jù)集在兩個(gè)分類器1近鄰(1NN)和樸素貝葉斯(NB)上平均準(zhǔn)確率效果圖,以及這8個(gè)特征選擇算法在10個(gè)數(shù)據(jù)集上達(dá)到的最高平均準(zhǔn)確率。
表2 數(shù)據(jù)集描述Table 2 Description of datasets
表2中:PCMAC是文本數(shù)據(jù);warpPIE10P和Yale屬于人臉圖像數(shù)據(jù);lung、colon、Prostate_GE、GLIOMA、CLL_SUB_111、SMK_CAN_187和GLI_85為生物學(xué)數(shù)據(jù)。從表2和以上描述可以看出:實(shí)驗(yàn)數(shù)據(jù)來源廣泛,并且數(shù)據(jù)既有多分類又有二分類。除了PCMAC和colon是離散的,其他數(shù)據(jù)集均是連續(xù)的。離散數(shù)據(jù)可以使特征選擇算法更有效,所以在本文中采用Akadi等[10]的離散方法,將所有連續(xù)數(shù)據(jù)離散化。
針對(duì)這10個(gè)真實(shí)數(shù)據(jù)集,分別對(duì)7個(gè)生物數(shù)據(jù)集采用留一法驗(yàn)證,因?yàn)樗鼈兌紝儆跀?shù)據(jù)樣例較少,而特征數(shù)維度較高的數(shù)據(jù)結(jié)構(gòu),其他3個(gè)數(shù)據(jù)集采用10次十折交叉驗(yàn)證法。對(duì)這10個(gè)數(shù)據(jù)集利用1近鄰和樸素貝葉斯兩種分類器進(jìn)行分類,計(jì)算兩個(gè)分類器的平均準(zhǔn)確率,實(shí)驗(yàn)效果如圖2所示。
從圖2可以看出:條件相關(guān)特征選擇算法取得了不錯(cuò)的分類效果。為了進(jìn)一步證實(shí)本文算法的優(yōu)勢(shì),表3列出了8種算法在10個(gè)數(shù)據(jù)集上執(zhí)行2個(gè)分類器獲得的最高平均準(zhǔn)確率,其中黑色加粗?jǐn)?shù)值代表8種特征選擇算法中取得的最高平均準(zhǔn)確率的最大值。
從表3可以看出:在兩個(gè)分類器的分類下,本文算法在10個(gè)數(shù)據(jù)集中的最高平均準(zhǔn)確率均取得最高,其中在colon和Prostate_GE兩個(gè)數(shù)據(jù)集上與JMI同時(shí)取得最高,在最后一行顯示的10個(gè)數(shù)據(jù)集的平均準(zhǔn)確率上,8種特征選擇算法的平均最高準(zhǔn)確率分別是87.67%,85.61%,85.59%,79.96%,83.52%,85.35%,81.68%和85.20%。可以看出,條件相關(guān)特征選擇算法有明顯優(yōu)勢(shì)。
對(duì)CRFS算法的時(shí)間復(fù)雜度進(jìn)行討論:假設(shè)選擇的特征數(shù)目為n,數(shù)據(jù)集總的特征數(shù)目為N,那么CRFS算法的時(shí)間復(fù)雜度為O(n×N)。事實(shí)上進(jìn)行比較的其他7種算法的時(shí)間復(fù)雜度也均為O(n×N)。但由于各種算法使用的評(píng)價(jià)函數(shù)不同,導(dǎo)致函數(shù)值的求解效率有所差別,這將直接影響對(duì)于同一數(shù)據(jù)集各種算法的執(zhí)行時(shí)間。8種算法在10個(gè)數(shù)據(jù)集上的具體運(yùn)行時(shí)間如表4所示。本次實(shí)驗(yàn)在Python2.7環(huán)境下運(yùn)行,電腦硬件設(shè)備配置如下:處理器為Intel(R) Core(TM)2 Quad CPU 安裝內(nèi)存4.00 GB。對(duì)于CRFS、FIM、mRMR、CIFE、JMI、ICAP算法的評(píng)價(jià)函數(shù)均使用互信息、條件互信息或聯(lián)合互信息的線性組合,這些算法的執(zhí)行時(shí)間差別較小,且較IWFS和DISR運(yùn)行時(shí)間較短。IWFS的評(píng)價(jià)函數(shù)使用乘法的形式,并在計(jì)算權(quán)重過程中引入了熵,增加了計(jì)算時(shí)間。DISR的評(píng)價(jià)函數(shù)使用除法的形式,并使用了計(jì)算較復(fù)雜的3個(gè)變量聯(lián)合熵H(Xk,Xs,Y),所以DISR是執(zhí)行效率最低的一種算法。
綜上,通過與其他7種算法的分類準(zhǔn)確率和算法執(zhí)行時(shí)間的比較可以看出,本文CRFS算法取得了不錯(cuò)的效果。
圖2 10個(gè)數(shù)據(jù)集在分類器上的準(zhǔn)確率Fig.2 Accuracy of classifier achieved with 10 data sets
表3 8種算法在分類器上的最高平均準(zhǔn)確率比較Table 3 Comparison of highest average accuracy of 8 algorithms on classifiers %
表4 8種算法在10個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間比較Table 4 Comparison of run time of 8 algorithms on 10 data sets s
本文提出了一種新的基于條件相關(guān)性概念的條件相關(guān)特征選擇CRFS算法,首先在理論和實(shí)驗(yàn)上說明了條件相關(guān)性與傳統(tǒng)的相關(guān)性相比有一定的優(yōu)勢(shì);然后用CRFS算法與其他7種特征選擇算法FIM,mRMR,CIFE,DISR,JMI,IWFS和ICAP在10個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,CRFS算法具有一定的優(yōu)勢(shì)。然而,由于數(shù)據(jù)特征維數(shù)的不斷增加,數(shù)據(jù)間的關(guān)系變得越來越復(fù)雜,如何客觀、快速地找出數(shù)據(jù)間真實(shí)的關(guān)系仍是一項(xiàng)艱巨而緊迫的任務(wù)。在未來的研究工作中,將對(duì)不同類型的數(shù)據(jù)進(jìn)行劃分,給出具體適用于某一類數(shù)據(jù)的特征選擇算法。
參考文獻(xiàn):
[1] Bennasar M,Hicks Y,Setchi R. Feature selection using joint mutual information maximisation[J]. Expert Systems with Applications,2015,42(22):8520-8532.
[2] Zhao Z,Morstatter F,Sharma S,et al. Advancing feature selection research-ASU feature selection repository[J/OL]. [2017-03-02].http:∥eprints.kku.edu.sa/65/1/ZhaoEtAl.pdf.
[3] Bolón-Canedo V,Sánchez-Maroo N,Alonso-Betanzos A, et al. A review of microarray datasets and applied feature selection methods[J]. Information Sciences,2014,282(5):111-135.
[4] 劉元寧,王剛,朱曉冬,等. 基于自適應(yīng)多種群遺傳算法的特征選擇[J]. 吉林大學(xué)學(xué)報(bào):工學(xué)版,2011,41(6):1690-1693.
Liu Yuan-ning,Wang Gang,Zhu Xiao-dong,et al. Feature selection based on adaptive multi-population genetic algorithm[J]. Journal of Jilin University(Engineering and Technology Edition),2011,41(6):1690-1693.
[5] 姚登舉,楊靜,詹曉娟. 基于隨機(jī)森林的特征選擇算法[J]. 吉林大學(xué)學(xué)報(bào):工學(xué)版,2014,44(1):137-141.
Yao Deng-ju,Yang Jing,Zhan Xiao-juan. Feature selection algorithm based on random forest[J]. Journal of Jilin University(Engineering and Technology Edition),2014,44(1):137-141.
[6] Peng H C,Long F H,Ding C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[7] Yang H H, Moody J. Data visualization and feature selection: new algorithms for nongaussian data[J]. Advances in Neural Information Processing Systems,1999,12:687-693.
[8] Lin D,Tang X. Conditional infomax learning: an integrated framework for feature extraction and fusion[C]∥European Conference on Computer Vision,Graz,Austria,2006:68-82.
[9] Meyer P E,Schretter C,Bontempi G. Information-theoretic feature selection in microarray data using variable complementarity[J]. IEEE Journal of Selected Topics in Signal Processing,2008,2(3):261-274.
[10] Akadi A E,Ouardighi A E,Aboutajdine D. A powerful feature selection approach based on mutual information[J]. International Journal of Computer Science & Network Security,2008,8(4):116-121.
[11] Bennasar M,Setchi R,Hicks Y. Feature interaction maximisation[J]. Pattern Recognition Letters,2013,34(14):1630-1635.
[12] Zeng Z,Zhang H,Zhang R,et al. A novel feature selection method considering feature interaction[J]. Pattern Recognition,2015,48(8):2656-2666.
[13] 石峰,莫忠息. 信息論基礎(chǔ)[M]. 3版. 武漢:武漢大學(xué)出版社,2014:14-52.
[14] 趙曉群. 信息論基礎(chǔ)及應(yīng)用[M]. 北京:機(jī)械工業(yè)出版社,2015:27-53.
[15] Zhao Juan,Zhou Yi-wei,Zhang Xiu-jun,et al. Part mutual information for quantifying direct associations in networks[J]. Proceedings of the National Academy of Sciences,2016,113(18):5130-5135.
[16] Schreiber T. Measuring information transport[J/OL]. [2017-03-06].http:∥citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.35.3215&rep=rep1&type=pdf.
[17] Li J D,Cheng K W,Wang S H,et al. Feature selection:a data perspective[J/OL].[2017-03-06].https:∥arxiv.org/pdf/1601.07996.pdf.