申金媛, 李 航, 劉潤(rùn)杰, 孔銀亮, 程仲記
(1.鄭州大學(xué) 信息工程學(xué)院 河南 鄭州 450001;2.河南省煙草公司 平頂山分公司 河南 平頂山 467000)
基于相關(guān)系數(shù)的有效特征光譜篩選方法
申金媛1, 李 航1, 劉潤(rùn)杰1, 孔銀亮2, 程仲記2
(1.鄭州大學(xué) 信息工程學(xué)院 河南 鄭州 450001;2.河南省煙草公司 平頂山分公司 河南 平頂山 467000)
為降低數(shù)據(jù)采集時(shí)間、分級(jí)模型的計(jì)算復(fù)雜度及提高煙葉分級(jí)速度,提出了一個(gè)基于半監(jiān)督學(xué)習(xí)的有效特征光譜篩選方法.首先定義判別特征好壞的鑒別函數(shù)R,并根據(jù)R值基于半監(jiān)督方法刪除不好特征;然后利用不同特征間的相關(guān)系數(shù),基于有監(jiān)督學(xué)習(xí)方法去除相關(guān)度高光譜,進(jìn)一步減少有效特征光譜的數(shù)目;最后利用全光譜和兩次篩選后的特征光譜建立了13個(gè)等級(jí)的SVM分級(jí)模型.實(shí)驗(yàn)結(jié)果表明所構(gòu)造的光譜特征篩選模型,可從原始數(shù)據(jù)中篩選出有效特征光譜,從而極大地減少原始光譜采集量,在保證正確分級(jí)率的前提下,極大地提高了煙葉分級(jí)速度.
離散度; 相關(guān)系數(shù); 支持向量機(jī); 煙葉分級(jí); 相關(guān)性
煙葉智能分級(jí)具有快速且準(zhǔn)確率高的特點(diǎn),可以避免人工分級(jí)的主觀性.目前智能分級(jí)主要依據(jù)煙葉的圖像信息[1]或者光譜信息進(jìn)行分級(jí).光譜信息可以很好地反映與煙葉等級(jí)密切相關(guān)的厚度、含油分、葉片結(jié)構(gòu)等因素,光譜分析技術(shù)廣泛應(yīng)用于煙草行業(yè)中[2-3].
采集的光譜特征具有維數(shù)高、冗余度大的特點(diǎn),分等級(jí)時(shí)需要降維處理.第一類方法,利用主成分分析法[4-5]、小波分解法[6-7]、獨(dú)立成分分析法[8-9]、連續(xù)投影法[10-11]、間隔最小二乘法[12-13]等方法對(duì)原始數(shù)據(jù)進(jìn)行降維處理,提取特征.這些方法可以有效地減少分類器的輸入維數(shù),從而降低分級(jí)模型的計(jì)算復(fù)雜度,但不可以減少原始光譜數(shù)據(jù)的采集時(shí)間,因此極大地影響了煙葉的整個(gè)分級(jí)速度.第二類方法,直接從原始光譜中篩選出有效特征光譜,篩選特征光譜的方法主要有聚類算法[14]、粒子群算法[15]和遺傳算法[16].這樣采集數(shù)據(jù)時(shí)只需采集篩選后的特征光譜即可,不僅可以降低分級(jí)模型的計(jì)算復(fù)雜度,而且可以降低光譜數(shù)據(jù)采集量.基于第二類算法思想,本文構(gòu)造基于半監(jiān)督學(xué)習(xí)的有效光譜特征選擇模型,將篩選的特征采用SVM分類器進(jìn)行驗(yàn)證,對(duì)13個(gè)等級(jí)的煙葉進(jìn)行分級(jí).
1.1 基于離散度的初篩選
對(duì)于采集的煙葉的光譜特征,由聚類思想可知:相同特征在同一類別中的離散度越小越好;相同特征在不同類別中的離散度越大越好.采集的原始光譜特征中某些特征不能更好地反映聚類思想,本文同時(shí)考慮相同特征的類內(nèi)離散度和類間離散度,實(shí)現(xiàn)方法如下:
3) 定義判別特征好壞的鑒別函數(shù)R,即相同特征的類內(nèi)離散度與類間離散度的比值為
(1)
根據(jù)式(1)計(jì)算所有特征的鑒別函數(shù)值,將鑒別值按由小到大進(jìn)行排序,并根據(jù)R值基于半監(jiān)督的方法刪除拐點(diǎn)右側(cè)的不好特征.刪除不好特征后,余下的特征之間可能存在很強(qiáng)的相關(guān)性,在保證分級(jí)準(zhǔn)確率的前提下,為獲得更少的有效光譜特征數(shù)目和加快分級(jí)速度,需要進(jìn)行特征深度篩選.
1.2 基于相關(guān)系數(shù)的深篩選
相關(guān)系數(shù)分析可以有效地進(jìn)行特征的篩選[17],主要思想是:在眾多相關(guān)性特征中,篩選出一個(gè)代表特征,用它來表示這些相關(guān)性大的特征,去除其余特征.這樣可以選取更少的特征變量,減少光譜數(shù)據(jù)采集量和分級(jí)模型的計(jì)算復(fù)雜度.特征x和特征y的相關(guān)系數(shù)計(jì)算公式為
依據(jù)相關(guān)系數(shù)法進(jìn)行特征深度篩選的方法為:假設(shè)初篩選后余下m個(gè)特征,它們的鑒別函數(shù)集合為u={u1,u2,…,um},設(shè)定合適的閾值,選取u中值最小的特征作為初選特征.在k類中計(jì)算該特征與其余特征的相關(guān)系數(shù),將相關(guān)系數(shù)大于閾值的特征記為Ck,求取C個(gè)類別的特征交集,用初選特征代表所有級(jí)別中的交集特征,并在u中刪除交集的特征.在刪除交集特征后的集合中,選取值最小的特征為第二個(gè)被選特征,同樣的方法求取所有類別中大于閾值的特征的交集,用它代表所有級(jí)別中的交集特征,再在u中刪除交集的特征.按照同樣規(guī)則選取特征,直至u為空集.
1.3 SVM分類器
2.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理
實(shí)驗(yàn)樣本為鄭州市煙草局提供的13個(gè)等級(jí)的煙葉,包含有B2F、B3F、B4F、C2F、C2L、C3F、C3L、X2F、X2L、X3F、X3L、X4F、X4L,采用日本島津公司生產(chǎn)的UV3600型號(hào)的光譜儀,采集每片煙葉的反射光譜,光譜范圍為1 500~2 400 nm,采樣間隔為2 nm,共有642條反射光譜.隨機(jī)選取三分之一的樣本為訓(xùn)練集,其余樣本作為測(cè)試集驗(yàn)證模型的推廣能力.為消除光譜儀帶來的基線漂移和噪聲,對(duì)采集的光譜數(shù)據(jù)進(jìn)行以下預(yù)處理:
yi=(mi-min(mi))/(max(mi)-min(mi)).
其中:mi為未預(yù)處理的原始光譜;yi為歸一化后的光譜;max(mi)和min(mi)分別為mi的最大值和最小值.
2.2 特征的初篩選
依據(jù)公式(1)進(jìn)行光譜數(shù)據(jù)的預(yù)處理,計(jì)算特征的類內(nèi)離散度與類間離散度的比值,按由小到大進(jìn)行排序,得到的拐點(diǎn)和刪除拐點(diǎn)右側(cè)特征后識(shí)別率的結(jié)果如圖1所示.
以原始451個(gè)光譜特征作為SVM的輸入,訓(xùn)練集、測(cè)試集正確率分別為100%、90.89%.在離散度比值由小到大排序后的10個(gè)拐點(diǎn)中,刪除拐點(diǎn)右側(cè)特征后識(shí)別率由圖1可知. 第6個(gè)拐點(diǎn)下的訓(xùn)練集和測(cè)試集的正確率分別為100%、94.39%,識(shí)別率明顯高于其余拐點(diǎn)和全光譜,此時(shí)余下326個(gè)特征,相比全光譜下的451特征有一定的減少.根據(jù)鑒別函數(shù)半監(jiān)督的學(xué)習(xí)方法去掉部分離散度大的特征,不僅提高了分級(jí)正確率,實(shí)現(xiàn)特征的初步篩選,而且為下一步進(jìn)行特征深度篩選模型降低了輸入維數(shù).
圖1 排序后的拐點(diǎn)和各拐點(diǎn)下的識(shí)別率Fig.1 The inflection point after sorted and recognition rate of the turning point
2.3 去相關(guān)特征
對(duì)初篩選后余下的326個(gè)特征進(jìn)行相關(guān)系數(shù)分析,進(jìn)一步去除相關(guān)性大的特征,進(jìn)行特征深度篩選.設(shè)定不同閾值,將余下特征作為SVM的輸入、分級(jí)識(shí)別率、分級(jí)時(shí)間、特征數(shù)目隨閾值變化結(jié)果如圖2所示.隨著閾值的減小,余下特征數(shù)目和分級(jí)時(shí)間越來越少,準(zhǔn)確率呈現(xiàn)先減小后增大的趨勢(shì),閾值為0.995時(shí)取得最大值95.21%.說明去除部分相關(guān)性的特征可以提高準(zhǔn)確率,小于一定閾值后特征數(shù)目過少,分級(jí)準(zhǔn)確率會(huì)降低.為尋找更好的閾值,在保證分級(jí)準(zhǔn)確率不低于全光譜特征條件下的準(zhǔn)確率,細(xì)化閾值范圍(0.99~1)得到結(jié)果如圖3所示. 綜合圖2和圖3,最少的特征數(shù)目為155個(gè),相比原來451個(gè),減少了65%,可以極大的減少光譜的采集量和提高分級(jí)速度.在特征數(shù)目沒有限制下,分級(jí)準(zhǔn)確率最高可以達(dá)到95.21%,特征數(shù)目為207個(gè),分級(jí)時(shí)間比全光譜有所下降,減少一半的光譜采集量,從而加快了整個(gè)系統(tǒng)的分級(jí)速度.
圖2 識(shí)別率、分級(jí)時(shí)間、特征數(shù)目隨閾值的變化Fig.2 Identification and classification time, number of features along with the change of threshold value
圖3 細(xì)化閾值下的結(jié)果Fig.3 Detailed results of threshold
通過以上工作得出以下結(jié)論:1) 可以依據(jù)煙葉的光譜特征實(shí)現(xiàn)煙葉的智能分級(jí).2) 投票式的支持向量機(jī)可以作為實(shí)現(xiàn)煙葉分級(jí)的分類器.3) 利用同一特征的類內(nèi)離散度與類間離散度比值可刪減部分對(duì)分級(jí)不好的特征,特征間的相關(guān)系數(shù)分析可以刪減相關(guān)性特征.
如果分級(jí)系統(tǒng)為串行式的,減少光譜數(shù)據(jù)的采集時(shí)間可極大地提高煙葉的分級(jí)速度,使煙葉收購(gòu)階段的實(shí)時(shí)分級(jí)成為了可能.煙葉的圖像特征對(duì)分級(jí)也有一定的影響,將圖像信息和光譜信息相結(jié)合是今后改進(jìn)的方向.
[1] 王夏,賀立源.烤煙煙葉反射和透射圖像的同步圖像分割[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2014,39(8):998-1002.
[2] 田曠達(dá),邱凱賢,李祖紅,等.近紅外光譜法結(jié)合最小二乘支持向量機(jī)測(cè)定煙葉中鈣、鎂元素[J].光譜學(xué)與光譜分析,2014, 34(12):3262-3266.
[3] 任曉,勞彩蓮,徐照麗,等.估測(cè)田間煙葉色素含量的光譜模型研究[J].光譜學(xué)與光譜分析,2015, 35(6):1654-1659.
[4] 王毅,馬翔,溫亞東,等.近紅外光譜與多元統(tǒng)計(jì)方法用于生產(chǎn)過程實(shí)時(shí)分析[J].光譜學(xué)與光譜分析,2013, 33(5):1226-1229.
[5] 秦玉華,丁香乾,宮會(huì)麗.高維特征選擇方法在近紅外光譜分類中的應(yīng)用[J].紅外與激光工程,2013, 33 (5):1355-1359.
[6] 彭丹青,申金媛,劉劍君,等.基于徑向基網(wǎng)絡(luò)的煙葉光譜分級(jí)[J].農(nóng)機(jī)化研究,2009, 53(10):15-18.
[7] 羅霞,洪添勝,羅闊,等.小波變換和連續(xù)投影算法在火龍果總酸無損檢測(cè)中的應(yīng)用[J].光譜學(xué)與光譜分析,2016, 36(5):1345-1351.
[8] 侯振雨,王偉,蔡文生,等.基于獨(dú)立成分的局部建模方法及其在近紅外光譜分析中的應(yīng)用研究[J].計(jì)算機(jī)與應(yīng)用化學(xué),2006, 23(3):224-226.
[9] 王功明,劉志勇.基于光譜表示和獨(dú)立成分分析的混合顏料成分分析方法[J].光譜學(xué)與光譜分析,2015, 35 (6):1682-1689.
[10]楊凱,蔡嘉月,張朝平,等.應(yīng)用近紅外光譜投影模型法分析煙葉的部位特征[J].光譜學(xué)與光譜分析,2014, 34(12):3277-3280.
[11]熊雅婷,李宗朋,王健,等.基于連續(xù)投影算法的黃酒成分檢測(cè)模型[J].食品與發(fā)酵工業(yè),2015, 41 (3):185-190.
[12]章海亮,孫旭東,劉燕德,等.近紅外光譜檢測(cè)蘋果可溶性固形物[J].農(nóng)業(yè)工程學(xué)報(bào),2009,25(S2):340-344.
[13]於海明,李石,吳威,等.稻谷千粒質(zhì)量近紅外光譜預(yù)測(cè)模型的波長(zhǎng)選擇方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015, 46(11):275-279.
[14]趙海東,申金媛,劉潤(rùn)杰,等.基于聚類的煙葉近紅外光譜有效特征的篩選方法[J].紅外技術(shù),2013, 35 (10):659-664.
[15]李航,趙海東,申金媛,等.基于BPSO和SVM的煙葉近紅外有用特征光譜選擇[J].物理實(shí)驗(yàn),2015, 35(6):8-12.
[16]王徽蓉,李衛(wèi)軍,劉楊陽(yáng),等.基于遺傳算法與線性鑒別的近紅外光譜玉米品種鑒別研究[J].光譜學(xué)與光譜分析,2011,31(3): 669-672.
[17]周金治,唐肖芳.基于相關(guān)系數(shù)分析的腦電信號(hào)特征選擇[J].生物醫(yī)學(xué)工程學(xué)雜志,2015, 32(4):735-739.
(責(zé)任編輯:方惠敏)
Screening the Effective Spectrum Features Based on Correlation Coefficient
SHEN Jinyuan1, LI Hang1, LIU Runjie1, KONG Yinliang2, CHENG Zhongji2
(1.SchoolofInformationEngineering,ZhengzhouUniversity,Zhengzhou450001,China; (2.PingdingshanBranchofHenanProvincialTobaccoCompany,Pingdingshan467000,China)
To increase the tobacco classification speed, it was necessary to reduce the data acquisition time and the computational complexity of the classification mode. An effective spectral filter method based on a semi-supervised learning was constructed to reduce the amount imput data. The discriminant function ofRthat determined an input spectrum good or bad was defined. The bad spectra were pruned based on the value ofRand semi-supervised learning method. In order to further reduce the spectral data, the correlation coefficient between different spectra was employed to remove those spectra with higher correlation based on the supervised method. The training samples with original spectra and the characteristic spectra after twice screening were used to construct SVM tobacco leaf classifiers of 13 grades respectively. The results of experiments showed that the proposed feature screening method was effective. It could greatly reduce the grading time while of guaranteeing the correct classification rate.
discreteness; correlation coefficient; SVM; tobacco grade; correlation
2016-10-17
河南煙草公司科技計(jì)劃項(xiàng)目(M201335).
申金媛(1966—),女,山西晉中人,教授,主要從事模式識(shí)別、光譜分析研究,E-mail: jyshen@zzu.edu.cn.
TN219
A
1671-6841(2017)03-0028-04
10.13705/j.issn.1671-6841.2016274