許 行 張 凱 王文劍,2
1(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 太原 030006) 2(計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)) 太原 030006)
隨著通信和存儲技術(shù)的發(fā)展、網(wǎng)絡(luò)的普及,各領(lǐng)域數(shù)據(jù)的產(chǎn)生和收集變的更加容易,大數(shù)據(jù)及相關(guān)產(chǎn)業(yè)應(yīng)運(yùn)而生,而處理這些數(shù)據(jù)成為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域研究的核心及關(guān)鍵問題.現(xiàn)實(shí)生活中,有一類稱為小樣本的數(shù)據(jù),其特點(diǎn)是相比于特征維數(shù)其樣本數(shù)目較少,比如基因表達(dá)譜數(shù)據(jù)需要通過微陣列實(shí)驗(yàn)獲取,實(shí)驗(yàn)成本的昂貴限制了實(shí)驗(yàn)次數(shù),使得數(shù)據(jù)的規(guī)模較小,同時(shí)該實(shí)驗(yàn)測試上萬個(gè)基因的表達(dá)水平,又使得數(shù)據(jù)維數(shù)非常高,這使得傳統(tǒng)的機(jī)器學(xué)習(xí)算法處理小樣本數(shù)據(jù)可能會失效[1],因此,通過特征選擇來降低數(shù)據(jù)維數(shù)是解決它的一種有效途徑.
特征選擇能在不失去數(shù)據(jù)原有價(jià)值的基礎(chǔ)上去除不相關(guān)和冗余特征,提高數(shù)據(jù)的質(zhì)量,降低學(xué)習(xí)算法在數(shù)據(jù)集上的計(jì)算代價(jià),加快數(shù)據(jù)挖掘的速度,同時(shí)有助于生成更易理解的結(jié)果和更緊湊、泛化能力更強(qiáng)的模型[2].根據(jù)是否與后續(xù)完成數(shù)據(jù)分析任務(wù)(如分類、聚類、回歸等)的算法相獨(dú)立,特征選擇方法可分為嵌入、封裝和過濾3類[3].嵌入型方法將特征選擇算法作為分類算法的一個(gè)組成部分嵌入到分類算法中,封裝型方法將后續(xù)分類算法的分類準(zhǔn)確率作為所選特征子集的評價(jià)準(zhǔn)則,過濾型方法與后續(xù)分類算法無關(guān),直接利用訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)性能評估特征.對于嵌入型和封裝型方法,將特征選擇算法作為分類算法的組成部分或者使用分類算法作為特征子集的評價(jià)標(biāo)準(zhǔn),都會造成特征選擇算法的計(jì)算成本隨著維數(shù)的升高而急劇上升,可能不適合小樣本數(shù)據(jù)的特征選擇.而過濾型方法有獨(dú)立的評估函數(shù),通過樣本的統(tǒng)計(jì)屬性來評價(jià)特征子集對于分類任務(wù)所起的作用,它不將任何分類器納入到評估標(biāo)準(zhǔn),由此選擇出無關(guān)于特定分類算法的特征子集.因此,過濾型方法可以離線進(jìn)行特征選擇,它相對于后續(xù)分類算法的獨(dú)立性可避免高維數(shù)據(jù)造成的較高的分類算法運(yùn)行成本,與嵌入型和封裝型相比,過濾型特征選擇方法在計(jì)算上是高效的.
典型的過濾型特征選擇方法使用距離度量、信息度量、相關(guān)性度量和一致性度量等統(tǒng)計(jì)指標(biāo)衡量特征的類區(qū)分能力.距離度量是利用距離來度量特征之間、特征與類別之間的相關(guān)性,常用的有歐氏距離、S階閔可夫斯基測度、切比雪夫距離、平方距離等,Relief[4]及其變種ReliefF[5]、BFF(best first strategy for feature selection)[6]和基于核空間距離方法[7]都是基于距離度量的算法.信息度量是指選擇具有最小不確定性的特征,常用的信息度量為衡量信息不確定性的熵函數(shù),如Shannon熵、條件熵、信息增益、互信息(mutual information, MI)等.BIF(best individual features)[8], UFS -MI(unsupervised feature selection approach based on mutual information)[9], CMIM(conditional mutual information maximiza-tion)[10]分別是使用互信息和條件互信息作為評價(jià)標(biāo)準(zhǔn)的特征選擇方法.相關(guān)性度量是利用特征與類別的可分離性間的重要性程度判斷相關(guān)性,如Pearson相關(guān)系數(shù)、概率誤差、Fisher分?jǐn)?shù)、線性可判定分析、最小平方回歸誤差[11]、平方關(guān)聯(lián)系數(shù)[12]等.Ding等人[13]和Peng等人[14]在mRMR(minimal-redundancy-maximal- relevance)中處理連續(xù)特征時(shí),分別使用F-Statistic和Pearson相關(guān)系數(shù)度量特征與類別和已選特征間的相關(guān)性程度,Hall[15]給出一種同時(shí)考慮特征的類區(qū)分能力和特征間冗余性的相關(guān)性度量標(biāo)準(zhǔn).一致性度量是指給定2個(gè)樣本,若他們特征值相同而類別不同,則它們是不一致的,否則是一致的,一致性準(zhǔn)則試圖保留原始特征的辨識能力,用不一致率來度量,典型算法有Focus[16],LVF(Las Vegas filter)[17]等.這些方法有的運(yùn)行效率不夠高,有的降維之后分類模型性能不夠好,因此研究針對小樣本數(shù)據(jù)的過濾型特征選擇方法仍有重要的價(jià)值.
由于互信息有2個(gè)優(yōu)點(diǎn)[18]:1)可以測量隨機(jī)變量之間的多種關(guān)系,包括非線性關(guān)系,這保證了互信息在特征與類別之間的關(guān)系未知的情況下仍然有效;2)在平移、旋轉(zhuǎn)和保留特征矢量順序的特征空間變換情況下,值不會發(fā)生改變,這保證了互信息在特征選擇中的任何階段都能準(zhǔn)確度量任意2個(gè)特征之間的關(guān)系.因此,基于互信息的過濾型特征選擇方法可以很好地度量特征與特征之間、特征與類別之間的關(guān)系,從而更有效地進(jìn)行特征選擇.本文針對小樣本數(shù)據(jù)提出一種基于互信息的過濾型特征選擇方法,用以提高其選出的特征子集所構(gòu)造的分類模型的分類性能,同時(shí)具有更好的運(yùn)行效率.
本文首先提出一種基于互信息的特征選擇方法(MI-based feature selection, MIFS),根據(jù)互信息對特征排序,之后按順序迭代地對特征分組,在各組內(nèi)選出與類別相關(guān)性最大的特征得到特征子集,然后利用Boruta算法[19]自動(dòng)地確定最佳特征子集.
有效的特征選擇方法需要同時(shí)考慮特征與類別的相關(guān)性和不同特征之間的冗余性,并且避免在類別相關(guān)度差別較大的特征上計(jì)算冗余度.為了實(shí)現(xiàn)以上2點(diǎn),提出基于互信息的特征選擇算法MIFS.考慮到互信息度量特征與類別之間的關(guān)系的優(yōu)勢,MIFS先根據(jù)特征與類別之間的相關(guān)性對特征排序,之后提出了一個(gè)分組標(biāo)準(zhǔn),將特征進(jìn)行分組,并從不同的組內(nèi)找到需要選出的特征作為特征子集.
給定數(shù)據(jù)集D的樣本數(shù)為n,特征維數(shù)為m,用a1,a2,…,am表示其特征,c表示其類別,特征ai的值域?yàn)閂i,c的值域?yàn)閂c.
特征ai與類別c之間的互信息I(ai,c)為
(1)
其中p(vi,vc)表示特征ai的取值為vi且類別c的取值為vc的概率.I(ai,c)的值越大,表示特征ai和類別c的關(guān)聯(lián)度越大.
計(jì)算每個(gè)特征與類別之間的互信息后,按互信息從大到小的順序?qū)μ卣髋判?,然后對特征集進(jìn)行分組,定義特征分組的標(biāo)準(zhǔn)Q為
(2)
(3)
(4)
其中,G表示一個(gè)特征組,ai,aj為G內(nèi)的特征,I(ai,aj)為特征ai與特征aj之間的互信息:
(5)
其中p(vi,vj)表示特征ai的取值為vi且特征aj的取值為vj的概率.I(ai,aj)的值越大,表示特征ai和aj越相似.
這里SG為特征組G與類別的關(guān)聯(lián)度,RG為特征組G內(nèi)所有特征的相似性,特征組G的Q值越大,表示該特征組中的特征與類別的關(guān)聯(lián)度越大,特征組內(nèi)特征之間的冗余度越??;反之,Q值越小,表示該特征組中的特征與類別的關(guān)聯(lián)度越小,特征組內(nèi)特征之間的冗余度越大.
為了計(jì)算特征分組的初始Q值,需要選出2個(gè)特征放入分組中:首先將排在第1位的特征a1放入分組,然后計(jì)算特征a1與其他每個(gè)特征ai之間的互信息,并選出互信息最大的特征,即最相似的特征放入該分組.之后按式(2)計(jì)算分組的Q值,記錄為q0.
對于其他特征,將此時(shí)排在最前面的特征添加到當(dāng)前分組中,再計(jì)算其Q值,如果Q
MIFS算法的主要步驟總結(jié)如下:
算法1. MIFS算法.
輸入:數(shù)據(jù)集D、候選特征個(gè)數(shù)k;
輸出:候選特征子集Scan.
① 按式(1)計(jì)算數(shù)據(jù)集D中每個(gè)特征與類別c的互信息I(ai,c);
② 將特征按互信息從大到小排序,得到特征集A;
③ 按以下步驟對特征集A分組:
④ 令t=1,從A中取出排在第1位的特征a1放入分組Gt;
⑤ 按式(5)計(jì)算特征a1與其他每個(gè)特征ai之間的互信息I(ai,aj),將最大的特征放入分組Gt;
⑥ 按式(2)計(jì)算Gt的Q值,記為q0;
⑦ 從A中剩余的特征中取出排在最前面的特征放入分組Gt中,按式(2)計(jì)算Gt的Q值;如果Q≤q0,則重復(fù)步驟⑦;如果Q>q0,則將當(dāng)前的Gt作為第1個(gè)分組;
⑧ 令t=t+1,在剩下的A上重復(fù)步驟④~⑦,得到新的特征組Gt,直到t=k,或者A中所有特征都被分入特征組中時(shí)停止;
⑨ 取出每個(gè)特征組的第1個(gè)特征放入特征集Scan;
⑩ 返回Scan.
MIFS算法可以通過對特征分組的方式去除冗余特征,但它同大多數(shù)過濾型特征算法類似,無法自動(dòng)確定最佳特征.
Boruta[19]是一種全相關(guān)的封裝型特征選擇方法,它試圖找到攜帶可用于預(yù)測的信息的所有特征,而不是像大多數(shù)傳統(tǒng)封裝型算法一樣只找到在分類器上產(chǎn)生最小誤差的特征子集.無論特征與決策變量的相關(guān)性強(qiáng)弱與否,Boruta都會找到所有的相關(guān)特征,這使得它非常適合應(yīng)用于確定最佳特征子集.
Boruta算法首先將數(shù)據(jù)集擴(kuò)充,通過隨機(jī)打亂原數(shù)據(jù)集各特征的取值,生成與原數(shù)據(jù)集的特征數(shù)量相同的“影子”特征,由于這些“影子”特征是隨機(jī)生成的,所以Boruta算法認(rèn)為它們是不重要的特征.之后分別在各個(gè)原始特征與“影子”特征上采用隨機(jī)森林進(jìn)行分類,計(jì)算各特征的效果,將“影子”特征中分類效果最好的特征作為衡量原始特征是否重要的標(biāo)準(zhǔn),從而去除不重要的特征.Boruta算法能找到候選特征中與類別相關(guān)的所有特征,從而直接確定特征數(shù)目,得到最優(yōu)特征子集.
Boruta可以找到所有相關(guān)特征這一優(yōu)點(diǎn)正好可以解決MIFS算法無法自動(dòng)給出最佳子集的問題,因此我們考慮建立MIFS和Boruta的混合模型.在混合模型中,封裝型算法可以充分利用過濾方法獲得的結(jié)果,提高運(yùn)行效率,并獲得產(chǎn)生較高分類性能的子集,同時(shí),過濾型方法也可以利用封裝型方法來確定特征子集中的特征個(gè)數(shù),這樣封裝和過濾方法的特性得到了很好的互補(bǔ)[14].因此本節(jié)提出一種基于MIFS和Boruta的混合模型,用以設(shè)計(jì)高效的特征選擇算法自動(dòng)選出一組冗余較小且數(shù)量較小的特征,稱為MIFS-Boruta算法.
MIFS-Boruta算法的主要步驟歸納如下:
算法2. MIFS-Boruta特征選擇算法.
輸入:數(shù)據(jù)集D、候選特征子集個(gè)數(shù)k、迭代次數(shù)r;
輸出:特征子集S.
① 在數(shù)據(jù)集D上運(yùn)行MIFS算法得到包含k個(gè)候選特征的特征集Scan;
② 從數(shù)據(jù)集D中取出特征集Scan對應(yīng)的數(shù)據(jù)作為新的數(shù)據(jù)集Dsub;
③ 在數(shù)據(jù)集Dsub上運(yùn)行Boruta算法,Boruta算法的迭代次數(shù)為參數(shù)r;
④ 返回特征子集S.
MIFS算法初始化時(shí)選擇的和類別互信息最大的特征將會包含在最優(yōu)的特征子集中,因?yàn)樵撎卣魇紫缺环湃氲?個(gè)特征分組,之后根據(jù)分組標(biāo)準(zhǔn)Q向該特征組中添加特征使其內(nèi)部的特征之間有較高的冗余度,同時(shí)使得特征組與類別的關(guān)聯(lián)度隨著特征數(shù)量的增加而減小,所以在此特征組中只需選擇一個(gè)與類別關(guān)聯(lián)度最大的特征作為該組的代表,這個(gè)特征就是算法初始化時(shí)選出的和類別互信息最大的特征,因此該特征被選為最優(yōu)特征子集的候選特征;然后采用Boruta算法從候選特征中去除不重要的特征,而由于與類別互信息最大的特征的分類效果通常不會低于“影子”特征的分類效果,因此該特征不會被去除,包含在最優(yōu)特征子集中.
假設(shè)給定數(shù)據(jù)集的樣本數(shù)為n,特征維數(shù)為m,則MIFS算法中求類別和每個(gè)特征之間的互信息的時(shí)間復(fù)雜度為O(mn2),對特征排序的時(shí)間復(fù)雜度為O(mlogm),迭代地對特征分組的復(fù)雜度在最壞的情況下為O(mn),所以MIFS算法的時(shí)間復(fù)雜度為O(mlogm+mn2).由于本文算法針對小樣本數(shù)據(jù),其中n?m,因此可以將樣本數(shù)n視為常數(shù),得到關(guān)于特征維數(shù)m的時(shí)間復(fù)雜度為O(mlogm).
而MIFS-Boruta特征選擇算法的運(yùn)行時(shí)間是由MIFS算法和Boruta算法2部分運(yùn)行時(shí)間組成,如果用k表示第1階段MIFS算法得到的候選特征子集中特征的個(gè)數(shù),根據(jù)文獻(xiàn)[19]中的分析可知,Boruta算法的時(shí)間復(fù)雜度為O(kn),同理,在小樣本問題中可看作關(guān)于維數(shù)的時(shí)間復(fù)雜度O(k).綜上,MIFS-Boruta特征選擇算法的時(shí)間復(fù)雜度為O(mlogm)+O(k),又因?yàn)閗?m,因此算法的時(shí)間復(fù)雜度實(shí)際上為O(mlogm).
為了驗(yàn)證算法在高維數(shù)據(jù)上的性能和有效性,以及該方法是否適用于實(shí)際問題,本文使用了11個(gè)公開可用的數(shù)據(jù)集,特征數(shù)目在1 024~19 993之間,平均特征個(gè)數(shù)為6 924,其中6個(gè)數(shù)據(jù)集的維度超過了5 000,3個(gè)數(shù)據(jù)集具有不少于10 000維的特征,這些數(shù)據(jù)集主要是圖像和生物微陣列數(shù)據(jù),數(shù)據(jù)集的詳細(xì)信息如表1所示.為了便于處理,本文對連續(xù)型特征的數(shù)據(jù)使用等距離散化的方法進(jìn)行了預(yù)處理.實(shí)驗(yàn)在1臺i7-2600 3.40 GHz 4核處理器、4 GB內(nèi)存的電腦上運(yùn)行,開發(fā)環(huán)境為Matlab R2015a.
Table 1 Datasets Used in the Experiments表1 實(shí)驗(yàn)數(shù)據(jù)集
為了驗(yàn)證本文算法是否能夠獲得較好的特征選擇結(jié)果,將本文的MIFS-Boruta算法與CMIM[10],ICAP(interaction capping)[20],CIFE(conditional infomax feature extraction)[21],mRMR[14],L1MI(L1 least-squares mutual information)[22]5種經(jīng)典的特征選擇算法進(jìn)行比較,其中CMIM,ICAP,CIFE,L1MI方法是基于互信息度量的過濾型特征選擇算法,mRMR是基于相關(guān)性度量的過濾型特征選擇算法.這些方法在使用時(shí)一般都要指定降維之后的特征數(shù),為公平起見,實(shí)驗(yàn)中將這些方法分別與Boruta方法結(jié)合,預(yù)先設(shè)定了特征選擇算法在每個(gè)樣本集上的候選特征數(shù)k,本文根據(jù)經(jīng)驗(yàn)將其設(shè)為原始數(shù)據(jù)集特征維數(shù)的1.5%~5%之間.表2為在不同數(shù)據(jù)集上各特征選擇算法選出的特征個(gè)數(shù).由于每種方法的第2階段都是Boruta,故本文表中的方法名稱都省略了-Boruta.
Table 2 Feature Selection Results Under the Combinations of Different Feature Selection Algorithms and Boruta Algorithm表2 不同特征選擇算法與Boruta算法組合時(shí)特征選擇結(jié)果
從表2可以看出所有的特征選擇算法所選出的特征個(gè)數(shù)遠(yuǎn)小于原始特征維度m,最終選出的特征個(gè)數(shù)也明顯小于候選特征個(gè)數(shù),CIFE算法在8個(gè)數(shù)據(jù)集上都得到了最少的特征個(gè)數(shù),ICAP和CMIM算法分別在2個(gè)和1個(gè)數(shù)據(jù)集上取得了最少的特征個(gè)數(shù),本文的MIFS方法所選出的特征個(gè)數(shù)在5個(gè)數(shù)據(jù)集上少于L1MI和mRMR,4個(gè)數(shù)據(jù)集上少于CIMI.
5種算法分別和Boruta算法組合的特征選擇方法得到的5個(gè)特征子集中,存在部分與MIFS-Boruta算法所選特征相同的特征,相同特征的個(gè)數(shù)如圖1所示:
Fig. 1 The comparison of the same features selected by MIFS-Boruta algorithm and other algorithms圖1 MIFS-Boruta算法與其他算法選出的相同特征比較
從圖1可以看出,MIFS選出的特征與5種算法選出的特征中基本上都存在相同的特征,其中與mRMR方法所選特征最為相近,相同特征的數(shù)量最多.盡管MIFS與這些方法選出的特征不盡相同,但后邊的實(shí)驗(yàn)表明這對分類結(jié)果的影響不大.
由于確定最佳特征子集都采用算法Boruta,因此只需要比較6種算法在確定候選特征子集過程中的運(yùn)行時(shí)間,這些算法在11個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間結(jié)果如表3所示.為了比較的公平性,本實(shí)驗(yàn)將選出的特征數(shù)目k全部設(shè)定為150個(gè).從表3中可以看到,所提出的MIFS算法在8個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間均小于其他幾個(gè)基于互信息的特征選擇算法,只有在lung,pixraw10P,SMK_CAN_187這3個(gè)數(shù)據(jù)集上,MIFS算法稍慢于CMIM算法.因此在大多數(shù)數(shù)據(jù)集上,MIFS算法具有更高的運(yùn)行效率.
Table 3 The Running Time of Different Feature Selection Algorithms表3 不同特征選擇算法運(yùn)行時(shí)間 s
為了驗(yàn)證所提算法特征選擇的有效性,分別選取支持向量機(jī)(support vector machine, SVM),決策樹,K-近鄰(K-nearest neighbor, KNN) 3個(gè)分類器作為分類算法.SVM是監(jiān)督學(xué)習(xí)模型,本文使用常用的線性SVM模型;決策樹是通過學(xué)習(xí)算法構(gòu)造的樹形結(jié)構(gòu)的分類器,它是一種非線性分類器,本文使用經(jīng)典的ID3算法;對于KNN分類器,選用1NN算法(單最近鄰算法),它通過最鄰近的1個(gè)樣本的類別來決定待分樣本所屬的類別.在所有數(shù)據(jù)集上進(jìn)行10次十折交叉驗(yàn)證測試分類性能.
實(shí)驗(yàn)使用3個(gè)指標(biāo)來評價(jià)特征子集選擇算法的性能:1)最低分類錯(cuò)誤率;2)平均最低分類錯(cuò)誤率;3)Win/Tie/Lose記錄(該記錄表示在給定度量上,所提算法獲得比其他特征選擇算法更好、相等和更差的性能的數(shù)據(jù)集數(shù)目,可簡記為W/T/L).
不同特征選擇方法得到的特征子集在使用SVM、決策樹和KNN作為分類器時(shí)的最低分類錯(cuò)誤率分別如表4~6所示,表中的Average Error表示各方法在所有數(shù)據(jù)集下的平均最低分類錯(cuò)誤率,W/T/L行表示所提出方法在11個(gè)數(shù)據(jù)集上的分類錯(cuò)誤率勝于、相同、弱于其所在列的方法的數(shù)據(jù)集數(shù)目.
Table 4 Classification Error Rate on SVM Classifier表4 SVM分類器上的分類錯(cuò)誤率 %
Table 5 Classification Error Rate on Decision Tree Classifier表5 決策樹分類器上的分類錯(cuò)誤率 %
Table 6 Classification Error Rate on CNN Classifier表6 KNN分類器上的分類錯(cuò)誤率 %
從表4可以看出,在使用SVM作分類器時(shí),MIFS算法在4個(gè)數(shù)據(jù)集上取得了最低的分類錯(cuò)誤率,并且平均分類錯(cuò)誤率最低;在W/T/L指標(biāo)中,MIFS算法除了小幅落后于mRMR算法外,均優(yōu)于其他方法.因此MIFS算法選出的特征子集在SVM分類器上的表現(xiàn)良好.
從表5可以看出,在使用決策樹作分類器時(shí),MIFS算法在5個(gè)數(shù)據(jù)集上取得了最低的分類錯(cuò)誤率,接近全部數(shù)據(jù)集的一半.對于平均分類錯(cuò)誤率,MIFS算法取得了第2名,僅與第1名相差0.2個(gè)百分點(diǎn);在W/T/L指標(biāo)中,MIFS算法均優(yōu)于其他方法.
從表6可以看出,MIFS算法在KNN分類器上分別在4個(gè)數(shù)據(jù)集中取得了最低的分類錯(cuò)誤率,同時(shí)取得了最低的平均分類錯(cuò)誤率,低于第2名1.09個(gè)百分點(diǎn);從W/T/L指標(biāo)來看,MIFS算法也都優(yōu)于其他方法,因此MIFS算法選出的特征子集在KNN分類器上具有更好的分類性能.
綜上,在使用最簡單的支持向量機(jī)、決策樹、KNN三種分類器時(shí),MIFS方法都取得了很好的分類結(jié)果.
本文提出了一種針對小樣本數(shù)據(jù)的特征選擇方法,該方法首先通過互信息對特征分組,選出組內(nèi)與類別相關(guān)性最大的特征,大大降低了數(shù)據(jù)集的維度.同時(shí)為了解決無法自動(dòng)給出最佳子集的問題,構(gòu)造了過濾型與封裝型算法結(jié)合的2階段混合模型,即MIFS-Boruta算法,該算法不僅降低了數(shù)據(jù)集的維度,而且能夠自動(dòng)確定最佳特征子集,實(shí)驗(yàn)驗(yàn)證了所提算法的有效性.該算法為解決小樣本問題提供了一種有效的方法.
然而,MIFS-Boruta算法的候選特征個(gè)數(shù)需要人為設(shè)定,如果設(shè)定的值過大,則會影響最終特征選擇的運(yùn)行效率;如果設(shè)定的值過小,則會影響最終選出特征的性能.因此,如何自動(dòng)確定合理的候選特征個(gè)數(shù)還需要進(jìn)一步的研究.