陳亮,湯顯峰
改進正余弦算法優(yōu)化特征選擇及數(shù)據(jù)分類
陳亮,湯顯峰*
(浙江大學 信息技術中心,杭州 310027)(*通信作者電子郵箱txf1213@zju.edu.cn)
針對傳統(tǒng)正余弦算法(SCA)處理復雜優(yōu)化問題時存在易得局部最優(yōu)和收斂慢的不足,提出一種基于慣性權重與柯西混沌變異的改進正余弦算法IWCCSCA。首先設計了基于指數(shù)函數(shù)的曲線自適應振幅調整因子更新方法,用于均衡個體的全局搜索與局部開發(fā)能力;接著設計了自適應遞減慣性權重更新機制,以改進個體位置更新方式,加快算法收斂;還設計了基于精英柯西混沌變異的個體擾動機制,以提升種群多樣性,避免局部最優(yōu)。利用8種基準函數(shù)尋優(yōu)測試驗證了IWCCSCA能夠有效提升收斂速度和尋優(yōu)精度。此外,將IWCCSCA應用于數(shù)據(jù)原始特征集中的特征子集選取問題,提出了基于IWCCSCA的特征選擇算法IWCCSCA-FS。通過將正余弦函數(shù)的連續(xù)優(yōu)化轉換為特征選擇的二進制優(yōu)化,實現(xiàn)了個體位置與特征子集間的映射關系,以同步考慮特征選擇量與分類準確率的適應度函數(shù)來評估候選解質量。UCI基準數(shù)據(jù)集的測試結果表明,IWCCSCA-FS算法可以有效選擇最優(yōu)特征子集,降低特征維度,提高數(shù)據(jù)分類準確率。
正余弦算法;慣性權重;柯西變異;混沌映射;特征選擇
原始數(shù)據(jù)通常同時具有高維度、稀疏性等特點,因此,數(shù)據(jù)挖掘中的特征選擇是數(shù)據(jù)預處理的關鍵步驟,它不僅可以降低原始數(shù)據(jù)維度、提升算法學習效率,還可以在原始數(shù)據(jù)集中篩選對分類器分類性能最佳的特征子集,從而提高分類準確率[1]。目前,常用特征選擇方法有兩類:過濾法和封裝法[2]。過濾法與學習算法無關,主要通過數(shù)據(jù)的常規(guī)內在屬性和數(shù)據(jù)關系標識特征關聯(lián),并判斷特征優(yōu)劣,篩選特征子集,屬于統(tǒng)計學范疇。該方法簡單易行,且效率較高,但選擇精度差,冗余特征多,會降低分類準確度。如:互信息法[3]、信息增益法[4]、相關性法[5]、主成分分析法[6]等過濾法應用較廣泛。封裝法將特征空間與分類器密切關聯(lián),能有效剔除冗余特征,提高分類準確性。但當特征量較多時,封裝法對特征子集進行窮盡式搜索計算代價太高,難以實現(xiàn)。近年來,學者們利用啟發(fā)式算法作為封裝法的搜索機制,能有效提升特征選擇準確率和數(shù)據(jù)分類準確率。如:粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法[7]、遺傳算法(Genetic Algorithm, GA)[8]、灰狼優(yōu)化(Grey Wolf Optimization, GWO)算法[9]、鯨魚優(yōu)化算法(Whale Optimization Algorithm, WOA)[10]等,均已被用于特征選擇領域。正余弦算法(Sine Cosine Algorithm, SCA)是近年來提出的新型啟發(fā)式優(yōu)化算法[11],它根據(jù)正余弦函數(shù)的數(shù)學模型振蕩尋優(yōu),具有參數(shù)少、結構簡單且易于實現(xiàn)的優(yōu)點,它的尋優(yōu)性能優(yōu)于GA、PSO算法和花授粉算法,并已廣泛應用在光譜特征峰定位[12]、無線傳感器節(jié)點部署[13]、電網(wǎng)故障診斷[14]、圖像分割[15]、電力系統(tǒng)調度[16]等領域。然而,與常規(guī)啟發(fā)式算法類似,處理復雜高維問題時,SCA依然存在收斂速度慢、尋優(yōu)精度低和易得到局部最優(yōu)的不足。
為此,文獻[17]中提出了基于精英反向學習和具有反思能力的改進SCA——MSCA(Modified SCA)。該算法利用精英反向學習構造精英反向種群,利用擇優(yōu)保留優(yōu)化種群構成;并通過個體反思能力預防盲目的學習行為,使算法在函數(shù)優(yōu)化上表現(xiàn)出了較強的魯棒性。文獻[18]中設計了針對轉換參數(shù)的拋物線函數(shù)和指數(shù)函數(shù)的變換機制,并驗證了改進后的算法PSCA(Parabolic SCA)和ESCA(Exponetial SCA)能夠提升算法的尋優(yōu)精度和收斂速度。文獻[19]中提出了基于多正交搜索策略的改進算法MOSCA(Multi-orthogonality SCA),在保留原SCA全局搜索能力的同時,正交搜索極大增強了局部開發(fā)能力,加速了算法收斂。文獻[20]中將差分進化(Differential Evolution, DE)融入基本SCA,通過差分進化的變異、交叉和貪婪選擇機制有效增強了個體的全局搜索能力,使算法能夠跳離局部最優(yōu),實現(xiàn)全局尋優(yōu)。文獻[21]中提出了基于非線性轉換參數(shù)和隨機差分變異的改進正余弦算法LSSCA(LogiStic SCA),通過提升種群多樣性,有效均衡了算法的全局搜索與局部開發(fā)能力。
以上研究改進工作針對SCA的某一方面作出了優(yōu)化,但在局部開發(fā)和全局勘探過程的均衡協(xié)調、收斂速度提升、避免陷入局部最優(yōu)以及提升尋優(yōu)精度等綜合性能方面仍然有待深入研究。為了進一步提升SCA的尋優(yōu)性能,本文設計了基于指數(shù)函數(shù)的曲線自適應振幅調整因子的更新方法,以均衡個體的全局搜索與局部開發(fā)能力;設計了基于自適應的遞減慣性權重更新機制,以改進個體位置更新方式,加快算法收斂;設計了基于精英柯西混沌變異的個體擾動機制,以提升種群多樣性,避免陷入局部最優(yōu)解。最后通過基準函數(shù)尋優(yōu)測試,驗證了基于慣性權重與柯西混沌變異的改進正余弦算法(improved SCA based on Inertia Weights and Cauchy Chaotic mutation, IWCCSCA)能夠進一步有效提升收斂速度和尋優(yōu)精度。同時,為了驗證算法求解實際問題的能力,設計了基于IWCCSCA的特征選擇算法IWCCSCA-FS(IWCCSCA-based Feature Selection),并通過基準數(shù)據(jù)集的測試,驗證該算法可以有效選擇最優(yōu)特征子集,降低特征維度,提升數(shù)據(jù)分類準確率。
其中:max,j和min,j分別為個體在維度上的上下限;(0,1)為(0,1)內的隨機量。迭代過程中,SCA將通過目標函數(shù)計算個體位置的適應度,尋找全局最優(yōu)解。同時,個體將不斷更新自身位置,具體方式為:
其中:max為最大迭代數(shù);為常量,一般取值2。
SCA尋優(yōu)示意圖如圖1,完整的SCA流程見圖2。
圖1 SCA示意圖
圖2 SCA流程
SCA中,1用于平衡全局搜索和局部開發(fā)能力。當1>1時,新個體位于目標位置和當前位置之外,主要作全局搜索;當1<1時,新個體介于目標位置與當前解之間,主要作局部開發(fā)。全局搜索和局部開發(fā)的有效協(xié)調和自適應轉換決定了SCA能否獲得更好的穩(wěn)定性和更高的尋優(yōu)精度。式(3)表明,1在區(qū)間[0,a]內為迭代數(shù)的線性遞減函數(shù)。因此,較大1使得迭代早期搜索步長更大,全局搜索能力更強,但調整因子遞減速率過快,全局搜索不充分,易陷入局部最優(yōu);較小1使得迭代晚期搜索步長更小,但遞減速率慢,算法無法快速收斂。這種線性的振幅調整因子顯然無法有效提升SCA的尋優(yōu)精度和收斂速度。為此,IWCCSCA設計了一種基于指數(shù)函數(shù)的曲線自適應振幅調整因子的更新方法,定義為:
其中:為調節(jié)系數(shù)。根據(jù)式(4),1的遞減速率隨迭代先慢后快,這表明:前期的迭代次數(shù)比原始SCA更多,可以相對增強全局搜索能力,而削弱開發(fā)能力,這有助于在更大空間內搜尋最優(yōu)解;而后期1將加速遞減,加快算法收斂。
其中:max為初始慣性權重,為慣性權重最大值;min為迭代結束時的慣性權重,為慣性權重最小值。新位置更新方式為:
柯西分布特征為:兩端具有較長尾翼,這種分布使得個體具有更高的概率跳躍至更好位置,脫離局部最優(yōu)。而分布在中心0處峰值較小,從峰值下降至0趨勢平滑,變異范圍均勻。一維標準柯西分布的概率密度函數(shù)表達式為:
將柯西算子引入當前最優(yōu)解的位置更新中,利用柯西算子的調節(jié)功能,使算法跳離局部最優(yōu)?;诳挛髯儺惖膫€體更新方式為:
而基于混沌變異的個體更新方式為:
其中為Logistic混沌值,定義為:
其中為混沌參數(shù),且=4。
綜上,將精英個體的變異擾動方式定義為:
其中5為(0,1)內的隨機值。
IWCCSCA流程如圖3所示。
時間復雜度分析:令IWCCSCA的種群規(guī)模為,最大迭代數(shù)為max,個體維度為。隨機式種群初始化過程的時間復雜度為(),要遍歷所有個個體計算其適應度,因此,適應度計算的時間復雜度為(max)。所有種群個體位置更新的時間復雜度為(max)。每次迭代中,需要對精英個體進行擾動變異,該過程的時間復雜度為(max)。綜上,IWCCSCA的總體時間復雜度為(max)。該時間復雜度與基本SCA時間復雜度相同,表明IWCCSCA并未增加計算代價。而IWCCSCA所采用的指數(shù)函數(shù)曲線自適應振幅調整因子更新方法、自適應遞減慣性權重更新機制以及精英柯西混沌變異的個體擾動機制對加快算法收斂、提升種群多樣性、避免局部最優(yōu)解方面起到了積極的促進作用,有效提升了算法性能。
圖3 IWCCSCA流程
大規(guī)模數(shù)據(jù)集的特征選擇問題是二進制優(yōu)化問題,解空間限定為{0,1}。對于IWCCSCA,首先需要將連續(xù)優(yōu)化轉換為二進制優(yōu)化。一個特征選擇解可表示為改進正余弦算法中的一個搜索個體,個體維度即代表原始數(shù)據(jù)集的特征屬性數(shù)量,且個體x∈{0,1}。編碼規(guī)則為:若x=1,表明個體中特征被選擇;若x=0,則表明個體中特征未被選擇。圖4代表一種特征選擇解,即IWCCSCA的一個個體位置,個體維度為7,對應原始數(shù)據(jù)集特征屬性量為8個。其中,x1=x2=x4=x6=1,表明個體將特征1、2、4、6選擇在最優(yōu)特征子集解中;x3=x5=x7=0,表明特征3、5、7未被選擇在最優(yōu)特征子集解。分類器將利用特征1、2、4、6作數(shù)據(jù)分類。
圖4 特征選擇解
同時,IWCCSCA利用S形函數(shù)將連續(xù)優(yōu)化形式轉換為二進制形式,具體函數(shù)式為:
其中:轉換函數(shù)表明特征子集中元素x取值為1的概率。則位置更新方式為:
其中為[0,1]區(qū)間的隨機數(shù)。
數(shù)據(jù)集的特征選擇問題是多目標優(yōu)化問題,需要在最小化特征選擇量的同時,盡可能得到最大的數(shù)據(jù)分類準確率。特征選擇解通過適應度函數(shù)評估。為了平衡所選特征數(shù)量(最小化)和分類準確率(最大化),將適應度函數(shù)定義為:
IWCCSCA-FS流程如圖5所示。首先,輸入初始基準數(shù)據(jù)集,將數(shù)據(jù)集按預設比例劃分為訓練樣本集和測試樣本集;然后,利用IWCCSCA進行種群初始化,并通過轉換函數(shù)實現(xiàn)種群個體與特征子集間的映射關系,得到粒子位置;利用適應度函數(shù)評估當前粒子位置的適應度,確定全局最優(yōu)解;更新振幅調整因子和慣性權重,并根據(jù)式(6)進行個體位置更新,重新計算全局最優(yōu)解,并根據(jù)式(11)對精英個體作柯西混沌變異擾動;最后,通過算法迭代尋代,運行到最大迭代次數(shù)時得到全局最優(yōu)粒子所代表的最優(yōu)特征子集。同時,算法將利用選定的數(shù)據(jù)分類器,評估所選特征子集的質量。
圖5 IWCCSCA-FS流程
4.1.1 實驗配置
表1 基準函數(shù)
4.1.2 實驗結果分析
表2統(tǒng)計了20次實驗中函數(shù)平均值、標準方差、最小值和最大值,同步觀測算法尋優(yōu)精度和穩(wěn)定性。從結果看,無論單峰還是多峰情形,IWCCSCA的尋優(yōu)精度和穩(wěn)定性都是最好的?;維CA在全局搜索與局部開發(fā)間均衡和如何實現(xiàn)局部解跳離上都有不足,性能最差,尋優(yōu)性能依然有較大的提升空間。LSSCA和PSCA分別對轉換參數(shù)進行了非線性調整,僅對搜索與開發(fā)間的均衡性做了優(yōu)化,性能提升較為有限。本文IWCCSCA利用曲線自適應振幅調整因子更新、自適應遞減慣性權重更新和精英柯西混沌變異的個體擾動機制對SCA的搜索與開發(fā)間的均衡、收斂速度及種群多樣性方面進行了優(yōu)化,有效提升了算法的尋優(yōu)精度。因此,IWCCSCA在綜合性能提升方面是所有算法中最好的,得到最優(yōu)解也是最多的。
表2 不同算法在基準函數(shù)上得到的統(tǒng)計結果對比
圖6觀察最大迭代為400時算法的尋優(yōu)曲線變化。可以看出,4種算法的尋優(yōu)曲線都有下墜趨勢,說明都在迭代地向理論最優(yōu)解位置靠近;但3種對SCA的改進算法明顯尋優(yōu)速度更快,在最終所得到的最優(yōu)解上的精度也優(yōu)于基本SCA。但是,3種改進算法的尋優(yōu)速度和尋優(yōu)精度具有明顯的不同。IWCCSCA明顯尋優(yōu)更快(曲線下墜趨勢最為明顯);對于單峰函數(shù),IWCCSCA可以比其他對比算法提前50~100輪迭代得到最優(yōu)解;多峰函數(shù)中,IWCCSCA的曲線具有明顯的跳躍下墜特點,算法停留在一個位置的精度上后,出現(xiàn)了明顯下墜,這表明算法具有跳離局部最優(yōu)的能力。其他對比算法很快在最優(yōu)解處停留并無法進一步提升尋優(yōu)精度,說明此時的最優(yōu)解是局部最優(yōu)解,算法無法跳離局部最優(yōu)。綜合8個基準函數(shù)的測試結果,IWCCSCA在處理單峰和多峰函數(shù)都具有很好尋優(yōu)效率及穩(wěn)定性。
表3分析了IWCCSCA中3種改進策略對于標準SCA的改進情況。將僅利用曲線自適應振幅調整因子的改進SCA命名為C-SCA(Curve SCA),將僅利用慣性權重位置更新的SCA命名為I-SCA(Inertia SCA),將僅利用精英柯西混沌變異個體擾動機制的SCA命名為CC-SCA(Cauchy Chaos based SCA)。相關參數(shù)延用前文配置,在表1的8個基準函數(shù)上進行測試。根據(jù)實驗結果可以看出,振幅調整因子改進策略下的C-SCA和慣性權重改進策略下的I-SCA對于基本SCA的性能提升比較局限,而針對精英個體的柯西混沌變異擾動策略下的CC-SCA則可以得到最高的精度和尋優(yōu)性能,在多數(shù)基準函數(shù)上精度最高,且部分已經(jīng)求解到最優(yōu)解,尋優(yōu)精度與未消融的IWCCSCA最為接近。對于SCA,精英粒子引導著整個種群的尋優(yōu)方向,精英個體若能夠具備更好的多樣性,以及更加接近于理論最優(yōu)解的鄰近區(qū)域,在融合擾動變異的基礎上,勢必能夠促進種群的尋優(yōu),從而更快收斂于全局最優(yōu)解。
圖6 不同算法的收斂曲線
表3 不同改進策略的影響
表4展示了調節(jié)系數(shù)對IWCCSCA性能的影響,其中取值2、3、3.5、4,其他參數(shù)配置同上。由表4可見,調節(jié)系數(shù)與IWCCSCA的性能并沒有直接的線性關系。起初增加值后,IWCCSCA的均值精度略有上升形勢,但后期繼續(xù)增加后又略有下降。在8個基準函數(shù)的測試下,取值為3時尋優(yōu)精度略高些,可確定該值為IWCCSCA的固定取值。導致該結果的原因可能在于:迭代前期更加注重全局搜索固然可行,但若此時進展緩慢,可能降低算法的尋優(yōu)效率;后期迭代若收斂過快,局部開發(fā)則不充分,影響到尋優(yōu)精度。
表4 調節(jié)系數(shù)k對IWCCSCA性能的影響
表5 慣性權重對IWCCSCA性能的影響
表6是IWCCSCA相比SCA、PSCA和LSSCA的Wilcoxon秩和檢驗結果,該結果可以體現(xiàn)算法間的差異性,其中Yes表示具有明顯性能優(yōu)勢。將顯著性水平參數(shù)設置為0.05,即若-value小于0.05,則表明IWCCSCA相比其他對比算法具有明顯性能優(yōu)勢;若-value大于0.05,表明算法間沒有明顯差異性,甚至性能更差。從表3可以看出,IWCCSCA相比其他對比算法的-value均小于0.05,說明算法中所引入的曲線自適應振幅調整因子更新、自適應遞減慣性權重更新和精英柯西混沌變異的個體擾動機制對SCA的改進是切實可行的。
表6 Wilcoxon秩和檢驗結果
4.2.1 實驗配置
4.2.2 評價指標
選擇適應度均值、適應度標準方差、平均分類準確率、平均特征選擇比例及算法的平均計算時間作為算法性能的評價指標。
其中:為算法運行次數(shù);AC為第次運行時分類準確率的最優(yōu)解。
式中:為特征選擇算法運行次數(shù);()為第次運行時最優(yōu)解選擇的特征量;為原始數(shù)據(jù)集特征總量。
適應度標準方差(Standard Deviation, SD)定義如下:
其中:Fitness為第次運行的最優(yōu)解;為適應度均值,計算公式如式(18)。
SD體現(xiàn)最優(yōu)解的健壯性,其值越小,代表越能收斂至同一最優(yōu)解處;值越大,則表明算法性能具有較大波動性,不穩(wěn)定。
表7 測試數(shù)據(jù)集
4.2.3 實驗結果分析
圖7是不同算法的平均適應度對比。由定義可知,適應度越小,算法性能越佳??梢钥吹?,IWCCSCA-FS算法在10個數(shù)據(jù)集中有5個數(shù)據(jù)集得到最優(yōu)值,成功率超過50%,是所有算法中最高的,表明IWCCSCA-FS算法無論是尋優(yōu)精度還是穩(wěn)定性方面均表現(xiàn)上佳,這得益于對正余弦算法的綜合改進,極大提升了算法的綜合性能。綜合來看,兩種混合優(yōu)化算法SCADE-FS和BGWOPSO-FS在適應度上表現(xiàn)要優(yōu)于3種未作改進優(yōu)化的特征選擇方法。具體地,SCADE-FS算法在10個數(shù)據(jù)集中的4個得到了僅次于IWCCSCA-FS算法的平均適應度,說明差分進化機制對于標準正余弦算法在種群多樣性上的改進比較有效,尋優(yōu)精度有所提升;而混合灰狼優(yōu)化與粒子群優(yōu)化的BGWOPSO-FS則表現(xiàn)次之??傮w上,對群智能優(yōu)化算法在尋優(yōu)精度和尋優(yōu)效率上的改進還是具有比較直觀的效果。
圖8、9是不同算法的平均分類準確率及標準方差對比。IWCCSCA-FS算法在5個數(shù)據(jù)集上得到最高的平均分類準確率,是所有算法中最好的。特別是IWCCSCA-FS算法在特征規(guī)模較大的Colon數(shù)據(jù)集和Leukemia數(shù)據(jù)集上都得到了最高的分類準確率,表明算法有能力處理大規(guī)模特征選擇問題。且從標準方差值可以看出,算法也具有較好的穩(wěn)定性,對于不同規(guī)模不同類別的特征選擇問題,具有較大概率求解最優(yōu)特征子集,分類準確率更高。SCADE-FS算法在Arrhythmia、Breastcancer和German這3個數(shù)據(jù)集上得到了最高的分類準確率,表現(xiàn)次之。BGWOPSO-FS算法僅在1個數(shù)據(jù)集得到了最高分類準確率。WOA-FS算法則僅在BreastEW數(shù)據(jù)集上得到了最高分類準確率。GOA-GS算法和PSO-FS算法也是僅能在個別數(shù)據(jù)集上得到最高分類準確率,兩種算法穩(wěn)定性欠佳,并不能確保較高的尋優(yōu)精度和穩(wěn)定性。綜合來看,IWCCSCA-FS算法無論在數(shù)據(jù)集上分類準確率最高所占的比例還是處理大規(guī)模數(shù)據(jù)集的特征選擇問題上,表現(xiàn)都比其他對比算法更優(yōu),且從標準方差上體現(xiàn)出的算法穩(wěn)定性也比較好。
圖7 不同算法的平均適應度對比
圖8 不同算法的平均分類準確率對比
圖9 不同算法的適應度標準方差對比
圖10是平均特征選擇比例表現(xiàn)。IWCCSCA-FS算法在6個數(shù)據(jù)集得到最小的平均特征選擇比例。結合前文平均分類準確率結果,IWCCSCA-FS算法在Colon、Lonosphere、Leukemia和Libras四個數(shù)據(jù)集上同步得到了最大平均分類準確率和最小平均特征選擇比例,說明算法在這四個數(shù)據(jù)集上可以以最小的特征選擇規(guī)模而得到最高的分類準確率,性能最佳。在Clean1數(shù)據(jù)集上雖然沒有得到最小的特征選擇比例,但分類準確率是最高的。SCADE-FS算法在Breastcancer和German兩個數(shù)據(jù)集上同步得到了最大的平均分類準確率和最小的平均特征選擇比例。BGWOPSO-FS算法僅在BreastEW數(shù)據(jù)集上得到了最小的特征選擇比例,但其分類準確率并不是最高的。WOA-FS算法在BreastEW和Clean1兩個數(shù)據(jù)集上得到了最小的特征選擇比例,但在Clean1數(shù)據(jù)集上的分類準確率并不高。綜合適應度所得值、分類準確率及特征選擇比例3個指標來看,本文的IWCCSCA-FS算法可以在最多的數(shù)據(jù)集上取得最佳性能表現(xiàn),穩(wěn)定性較強,說明將本文的改進正余弦算法應用于數(shù)據(jù)特征選擇問題上有效可行,性能較優(yōu)。
圖10 不同算法的平均特征選擇比例對比
圖11是計算最優(yōu)解時算法所需平均計算時間對比。IWCCSCA-FS算法在10個數(shù)據(jù)集中的5個擁有最小的平均計算時間,排名第一,說明算法在尋優(yōu)效率和收斂速度上優(yōu)于另外5種算法。SCADE-FS算法和WOA-FS算法均在兩個數(shù)據(jù)集中擁有最小的平均計算時間,但結合圖6、8所得的分類準確率和特征選擇量方面的表現(xiàn),顯然要差于IWCCSCA-FS算法,IWCCSCA-FS算法同時具有更高的分類準確率和更低的特征選取比例,說明IWCCSCA-FS算法在提升分類準確率和降低特征選擇比例的同時,并沒有大幅降低算法的尋優(yōu)效率。綜合所有性能指標結果看,IWCCSCA-FS算法的執(zhí)行效率針對大維度或中小維度特征數(shù)據(jù)集時依然具有可觀的性能表現(xiàn)。
圖11 不同算法的平均計算時間對比
進一步引入支持向量機(Support Vector Machine,SVM)作為分類器對IWCCSCA-FS算法的性能進行分析。將算法分別命名為IWCCSCA-KNN和IWCCSCA-SVM,它們在平均分類準確率和平均特征選擇比例上的結果如圖12所示。其中,柱狀圖對應左邊縱軸結果,折線圖對應右邊縱軸結果。對于平均分類準確率,IWCCSCA-KNN算法在6個數(shù)據(jù)集上占優(yōu)。對于平均特征選擇比例,IWCCSCA-KNN算法和IWCCSCA-SVM算法各在5個數(shù)據(jù)集上占優(yōu);而IWCCSCA-KNN算法總共在4個數(shù)據(jù)集上同步實現(xiàn)了更高的分類準確率和更少的特征選擇量,在該組數(shù)據(jù)集的測試上略占優(yōu)。
選擇Arrhythmia、BreastEW、Colon、HeartEW和Libras這5個數(shù)據(jù)集觀測IWCCSCA-KNN和IWCCSCA-SVM在分類準確率和特征選擇比例指標上的箱形圖,結果如圖13。箱形圖可以反映算法結果的分散程度,其頂端橫線表示結果的最大值,底端橫線表示最小值,箱內橫線為中位值。若結果相對分散,跨度較大,說明算法穩(wěn)定性不足;若箱形體積較小,說明算法的穩(wěn)定性越好,即使多次測試取均值結果,也可以得到較為穩(wěn)定的結果??傮w來看,兩種分類算法各有優(yōu)勢。在分類準確率上,IWCCSCA-SVM算法相對更穩(wěn)定一些。特征選擇比例上,除了在Libras數(shù)據(jù)集上IWCCSCA-KNN算法的波動比較大,其他4個數(shù)據(jù)集都比較穩(wěn)定;而IWCCSCA-SVM算法此時箱形圖的體積略大于IWCCSCA-KNN算法,說明在該指標上穩(wěn)定性不如IWCCSCA-KNN算法。
圖12 不同分類器的比較
圖13 箱形圖對比
本文提出了一種基于慣性權重與柯西混沌變異的正余弦算法IWCCSCA及其特征選擇算法IWCCSCA-FS。IWCCSCA通過曲線自適應振幅調整因子更新、自適應遞減慣性權重更新和精英柯西混沌變異的個體擾動三種機制對傳統(tǒng)正余弦算法的全局尋優(yōu)性能進行了改進。然后在改進正余弦算法的基礎進一步設計了基于IWCCSCA的特征選擇算法IWCCSCA-FS,并驗證了算法求解實際問題的能力。基準函數(shù)測試驗證了IWCCSCA可以提升正余弦算法的尋優(yōu)精度和收斂速度,而特征選擇算法IWCCSCA-FS測試也該證實算法可以有效選擇最優(yōu)特征子集,降低特征維度,提升數(shù)據(jù)分類準確率。正余弦算法的個體位置更新方式和適應度函數(shù)是影響數(shù)據(jù)集最優(yōu)特征選擇的關鍵要素,未來的研究工作可以考慮進一步提高啟發(fā)式算法的效率、減少迭代次數(shù)以接近最優(yōu)解,同時引入并行化的思路提升尋優(yōu)效率以滿足大數(shù)據(jù)的處理需求。
[1] LI J D, CHENG K W, WANG S H, et al. Feature selection: a data perspective[J]. ACM Computing Surveys, 2018, 50(6): No.94.
[2] WAN F G, HU L, ZHANG P, et al. Feature selection by integrating two groups of feature evaluation criteria[J]. Expert Systems with Applications, 2018, 110:11-19.
[3] PAUL A K, SHILL P C. Sentiment mining from Bangla data using mutual information[C]// Proceedings of the 2nd International Conference on Electrical, Computer and Telecommunication Engineering. Piscataway: IEEE, 2017:1-4.
[4] GAO Z, XU Y J, MENG F Y, et al. Improved information gain-based feature selection for text categorization[C]// Proceedings of the 4th International Conference on Wireless Communications, Vehicular Technology, Information Theory and Aerospace and Electronic Systems. Piscataway: IEEE, 2014:1-5.
[5] 胡靜,華俊,姜羽,等. 一種基于屬性關系的特征選擇算法[J]. 控制與決策, 2015, 30(10):1903-1906.(HU J, HUA J, JIANG Y, et al. A feature selection algorithm based on relationship between attributes[J]. Control and Decision, 2015, 30(10):1903-1906.)
[6] SINGH T, GHOSH A, KHANDELWAL N. Dimensional reduction and feature selection: principal component analysis for data mining[J]. Radiology, 2017, 285(3):1055-1056.
[7] 李煒,巢秀琴. 改進的粒子群算法優(yōu)化的特征選擇方法[J]. 計算機科學與探索, 2019, 13(6):990-1004.(LI W, CHAO X Q. Improved particle swarm optimization method for feature selection[J]. Journal of Frontiers of Computer Science and Technology, 2019,13(6):990-1004.)
[8] DAS A K, DAS S, GHOSH A. Ensemble feature selection using bi-objective genetic algorithm[J]. Knowledge-Based Systems, 2017, 123:116-127.
[9] HU P, PAN J S, CHU S C. Improved binary grey wolf optimizer and its application for feature selection[J]. Knowledge-Based Systems, 2020, 195: No.105746.
[10] MAFARJA M, MIRJALILI S. Whale optimization approaches for wrapper feature selection[J]. Applied Soft Computing, 2018, 62:441-453.
[11] MIRJALILI S. SCA: a Sine Cosine Algorithm for solving optimization problems[J]. Knowledge-Based Systems, 2016, 96:120-133.
[12] 于坤,焦青亮,劉子龍,等. 基于改進正弦余弦算法的光譜特征峰定位方法[J]. 光學學報, 2019, 39(9):411-417.(YU K, JIAO Q L, LIU Z L, et al. Positioning of characteristic spectral peaks based on improved sine cosine algorithm[J]. Acta Optica Sinica, 2019, 39(9):411-417.)
[13] 何慶,徐欽帥,魏康園. 基于改進正弦余弦算法的無線傳感器節(jié)點部署優(yōu)化[J]. 計算機應用, 2019, 39(7):2035-2043.(HE Q, XU Q S, WEI K Y. Enhanced sine cosine algorithm based node deployment optimization of wireless sensor network[J]. Journal of Computer Applications, 2019, 39(7):2035-2043.)
[14] 熊國江,張靖,何宇. 電網(wǎng)故障的正余弦診斷方法[J]. 實驗室研究與探索, 2019, 38(9):25-28, 115.(XIONG G J, ZHANG J, HE Y. Power grid fault diagnosis based on sine-cosine algorithm[J]. Research and Exploration in Laboratory, 2019, 38(9):25-28, 115.)
[15] 郎春博,賈鶴鳴,邢致愷,等.基于改進正余弦優(yōu)化算法的多閾值圖像分割[J].計算機應用研究,2020,37(4):1215-1220.(LANG C B, JIA H M, XING Z K, et al. Multi-threshold image segmentation based on improved sine cosine optimization algorithm[J]. Application Research of Computers, 2020, 37(4):1215-1220.)
[16] 熊國江,張靖,何宇. 電力系統(tǒng)經(jīng)濟調度的正余弦優(yōu)化算法的仿真研究[J]. 實驗室研究與探索, 2019, 38(4):76-79, 89.(XIONG G J, ZHANG J, HE Y. Simulation research on power system economic dispatch by sine-cosine algorithm[J]. Research and Exploration in Laboratory, 2019, 38(4):76-79, 89.)
[17] 方旭陽,武相軍,游大濤. 具有學習機制的正弦余弦算法[J]. 計算機應用研究, 2020, 37(3):809-813.(FANG X Y, WU X J, YOU D T. Sine-cosine algorithm with learning mechanism[J]. Application Research of Computers, 2020, 37(3):809-813.)
[18] 劉勇,馬良. 轉換參數(shù)非線性遞減的正弦余弦算法[J]. 計算機工程與應用, 2017, 53(2):1-5, 46.(LIU Y, MA L. Sine cosine algorithm with nonlinear decreasing conversion parameter[J]. Computer Engineering and Applications, 2017, 53(2):1-5, 46.)
[19] RIZK-ALLAH R M. Hybridizing sine cosine algorithm with multi-orthogonal search strategy for engineering design problems[J]. Journal of Computational Design and Engineering, 2018, 5(2):249-273.
[20] NENAVATH R, JATOTH R K, et al. Hybridizing sine cosine algorithm with differential evolution for global optimization and object tracking[J]. Applied Soft Computing, 2018, 62:1019-1043.
[21] 徐明,焦建軍,龍文. 基于Logistic模型和隨機差分變異的正弦余弦算法[J]. 計算機科學, 2020, 47(2):206-212.(XU M, JIAO J J, LONG W. Sine cosine algorithm based on Logistic model and stochastic differential mutation[J]. Computer Science, 2020, 47(2):206-212.)
[22] MORADI P, GHOLAMPOUR M. A hybrid particle swarm optimization for feature subset selection by integrating a novel local search strategy[J]. Applied Soft Computing, 2016, 43:117-130.
[23] ABD AZIZ M E, EWEES A A, OLIVA D, et al. A hybrid method of sine cosine algorithm and differential evolution for feature selection[C]// Proceedings of the 2017 International Conference on Neural Information Processing, LNTCS 10638. Cham: Springer, 2017:145-155.
[24] AL-TASHI Q, ABDUL KADIR S J, RAIS H M, et al. Binary optimization using hybrid grey wolf optimization for feature selection[J]. IEEE Access, 2019, 7:39496-39508.
Improved sine cosine algorithm for optimizing feature selection and data classification
CHEN Liang, TANG Xianfeng*
(,,310027,)
To address the shortcomings of the traditional Sine Cosine Algorithm (SCA) in dealing with complex optimization problems with local optimum and slow convergence,an improved SCA based on Inertia Weights and Cauchy Chaotic mutation (IWCCSCA) was proposed. Firstly, a curve adaptive amplitude adjustment factor update method based on exponential function was designed to balance global search and local development capacities; then, an adaptive decreasing inertia weight update mechanism was designed to improve the way of individual position update and accelerate algorithm convergence; and an individual disturbance mechanism based on elite Cauchy chaotic mutation was proposed to enhance the population diversity and avoid falling into the local optimum. IWCCSCA was verified to be effective in improving convergence speed and optimizing accuracy by solving the best solutions of eight benchmark functions. Furthermore, IWCCSCA was used for feature subset selection problem in original data feature set, and a feature selection algorithm based on IWCCSCA was put forward, namely IWCCSCA-FS. The mapping relationship between individual position and feature subset was realized through converting the continuous optimization of sine cosine function to binary optimization of feature selection, and the quality of candidate solutions was evaluated by a fitness function considering feature selection number and classification accuracy simultaneously. Test results on UCI benchmark datasets validate that IWCCSCA-FS can effectively select the optimal feature subset, reduce feature dimension and improve data classification accuracy.
Sine Cosine Algorithm (SCA); inertia weight; Cauchy mutation; chaotic mapping; feature selection
This work is partially supported by National Natural Science Foundation of China (61602141).
CHEN Liang, born in 1980, M. S., engineer. His research interests include artificial intelligence.
TANG Xianfeng, born in 1981, M. S., engineer. His research interests include network information fusion, signal processing, education informationization.
TP393
A
1001-9081(2022)06-1852-10
10.11772/j.issn.1001-9081.2021040555
2021?04?12;
2021?07?12;
2021?07?20。
國家自然科學基金資助項目(61602141)。
陳亮(1980—),男,四川遂寧人,工程師,碩士,主要研究方向:人工智能;湯顯峰(1981—),男,重慶人,工程師,碩士,主要研究方向:網(wǎng)絡信息融合、信號處理、教育信息化。