陳 樹 任召金
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 無錫 214122)
固態(tài)釀酒過程中的酒醅發(fā)酵是決定出酒率的關(guān)鍵因數(shù),而溫度是衡量酒醅發(fā)酵過程優(yōu)劣的最關(guān)鍵指標(biāo),高出酒率的發(fā)酵過程溫度序列特性應(yīng)有別于低出酒率的,一般酒醅發(fā)酵周期在兩個(gè)月左右,僅一個(gè)窖池在一個(gè)發(fā)酵周期中就有近千個(gè)溫度數(shù)據(jù),面對多個(gè)周期和多個(gè)窖池,數(shù)據(jù)量是比較龐大的,為了從這些大量數(shù)據(jù)中分析與出酒率相關(guān)性,本文引入模糊孿生支持向量機(jī)建立預(yù)測模型[1]。
為了能有效地解決樣本不均衡問題,Jayade?va[2]在2007年正式提出了孿生支持向量機(jī)(twin support vector machine,TSVM),TSVM的思想來自于廣義特征值下的中心支持向量機(jī)(Generalized Eigenvalue Proximal Support Vector Machine,GEPS?VM)[3],GEPSVM的核心思想是用兩個(gè)非平行的超平面代替原來支持向量機(jī)的平行超平面,TSVM在GEPSVM的基礎(chǔ)上改進(jìn)了邊界的限制,使得TSVM的速度比SVM提高了將近4倍,而分類的性能卻能保持原來的精度,從TSVM的提出到現(xiàn)在,已經(jīng)有了一系列的改進(jìn),文獻(xiàn)[4]提出了最小二乘版的TS?VM,文獻(xiàn)[5]提出了基于數(shù)據(jù)的結(jié)構(gòu)信息的TSVM,文獻(xiàn)[6]提出了拉普拉斯平滑TSVM的半監(jiān)督分類;為了解決樣本質(zhì)量較低或者樣本含有噪聲對分類決策面的影響,文獻(xiàn)[7]將模糊數(shù)學(xué)的概念引入到支持向量機(jī)中,提出了模糊支持向量機(jī)(Fuzzy Support Vector Machine,F(xiàn)SVM),F(xiàn)SVM的核心思想是對每個(gè)樣本賦予一個(gè)隸屬度,從而使得不同的樣本得到不同的懲罰權(quán)重系數(shù),對于位置處于中心的樣本增加對分類決策面的作用,對于噪聲或者孤立點(diǎn)削弱對分類決策面的作用,引入隸屬度有效地降低了由樣本噪聲引起的不確定性,并提高了分類系統(tǒng)的魯棒性。
在TSVM和FSVM思想的基礎(chǔ)上,文獻(xiàn)[1]提出了模糊孿生支持向量機(jī)(fuzzy twin support vector machine,F(xiàn)TSVM),F(xiàn)TSVM核心思想是為每個(gè)訓(xùn)練樣本賦予不同的隸屬度來構(gòu)建兩個(gè)最優(yōu)非平行的分類決策面,為了減少孤立點(diǎn)或者噪聲對非平行分類決策面的影響,進(jìn)一步提高了分類器的性能。針對FTSVM對高維數(shù)據(jù)分類的效果不理想的情況,本文結(jié)合最小冗余最大相關(guān)算法(Minimum Redun?dancy Maximum Relevance,MRMR)和FTSVM算法,先對樣本集進(jìn)行特征提取降低樣本的維度,再進(jìn)行模糊孿生支持向量機(jī)訓(xùn)練。除此之外,針對樣本內(nèi)數(shù)據(jù)變化較為緩慢的情況,用單個(gè)樣本數(shù)據(jù)集減去平均值并乘以權(quán)值以提高樣本內(nèi)數(shù)據(jù)的差異性,使得特征提取的子集更優(yōu),實(shí)驗(yàn)結(jié)果表明分類效果更好。
特征選擇是模式識別和數(shù)據(jù)挖掘領(lǐng)域的重要研究課題[8],本質(zhì)上可以看做是一個(gè)尋找最優(yōu)的問題,而求解組合最優(yōu)化問題最有效的方法就是采用搜索。到目前為止,已經(jīng)有許多學(xué)者從不同的角度對特征選擇進(jìn)行了定義:Kira等[9]定義了理想情況下的特征選擇是找到必要的、并且可以識別目標(biāo)的最小特征子集;John等[10]認(rèn)為特征選擇是一個(gè)能夠提高分類正確率,或者在不減少正確率的前提下降低特征的維度的過程;Koller等[11]認(rèn)為在保證結(jié)果類分布盡可能與原始數(shù)據(jù)類分布相近的前提下,選擇維度盡量小的特征子集。
本文采用最小冗余最大相關(guān)算法進(jìn)行特征選擇,但在特征選擇之前,通過原始數(shù)據(jù)集減去單個(gè)樣本平均值并且乘以一定的權(quán)值,使得樣本內(nèi)特征的差異變大,從而使特征提取的子集效果更好。MRMR特征提取是比較典型的基于空間搜索的過濾式方法,最大相關(guān)其實(shí)是指特征與類別的相關(guān)度最大,即特征能夠最大程度地反映樣本的類別信息;最小冗余是指特征內(nèi)部的相關(guān)度最小。MRMR特征提取方法是用互信息作為度量特征的相關(guān)性和冗余度的標(biāo)準(zhǔn),使用信息差和信息熵作為構(gòu)建特征子集的搜索方法。其最大相關(guān)和最小冗余的定義分別如式(1)和式(2)所示:
其中,M 為特征集合,c為樣本標(biāo)簽,I(mr,c)表示特征mr與類別c之間的互信息,I(mr,mo)表示特征mr與特征mo之間的互信息。
給定兩個(gè)隨機(jī)變量X和Y,假設(shè)它們的概率密度分別為 p(x),p(y)和 p(x,y),則它們的互信息定義如式(3)所示:
如果所選擇的特征和輸出類別之間的互信息越大,說明該特征子集包含的分類信息就越多,對分類識別就越有效。所以,通過計(jì)算互信息,可以很好地選擇出包含分類信息最好的特征子集,提高分類的精度和效率。
最大相關(guān)最小冗余算法利用式(4)作為評價(jià)函數(shù)指導(dǎo)特征子集的選擇。
其中,Q是特征與類別之間的互信息值,S是特征間的互信息的大小。
分類是數(shù)據(jù)挖掘領(lǐng)域中非常重要的一類方法,分類器(Classifier)是在已知數(shù)據(jù)的基礎(chǔ)上構(gòu)造出一個(gè)分類函數(shù)或者模型,該函數(shù)或者模型能夠把數(shù)據(jù)映射到給定類別中的某一類,從而可以實(shí)現(xiàn)對數(shù)據(jù)的預(yù)測??傊?,分類器是數(shù)據(jù)挖掘領(lǐng)域中對樣本進(jìn)行分類的方法的總稱,常見的分類算法有決策樹、樸素貝葉斯、支持向量機(jī)等[12]。
支持向量機(jī)是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ)的一種模式識別的方法,它將數(shù)據(jù)從低維空間映射到高維的特征空間,并在高維空間中尋找最優(yōu)超平面作為判決面,將錯分的風(fēng)險(xiǎn)降低到最小,從而使訓(xùn)練的模型具有更好的推廣能力,即找到一個(gè)最優(yōu)分類超平面能夠?qū)⑺械挠?xùn)練樣本分為兩類,如不等式(5)所示:
其中,n是訓(xùn)練樣本的個(gè)數(shù),yi表示標(biāo)簽。對于分類超平面而言,參數(shù)(ω,b)不是唯一確定的,但是一定有一對(ω,b)能使不等式(5)成立;針對離群點(diǎn)(可能是噪聲)會造成超平面的移動,間隔縮小的情況,可以通過引入松弛變量 ξi,i=1,2,…,n ,則目標(biāo)函數(shù)變?yōu)楸磉_(dá)式(6):
其中,ξi≥0,i=1,2,…l,C 為懲罰參數(shù),表示對錯誤分類樣本的懲罰參數(shù),C的大小表示對錯誤分類的樣本懲罰的約束,通過懲罰參數(shù)C可以調(diào)整錯分樣本的比例與算法復(fù)雜度的平衡。對于非線性情況,引入了核空間理論,設(shè)核函數(shù)的方程如(7)所示:
則二次規(guī)劃問題的目標(biāo)函數(shù)轉(zhuǎn)變?yōu)榉匠蹋?):
然后在此高維空間中尋找最優(yōu)分割超平面,可用決策函數(shù)(9)來表示:
相應(yīng)的二次規(guī)劃的目標(biāo)函數(shù)(8)轉(zhuǎn)化為
模糊支持向量機(jī)的關(guān)鍵在于隸屬度函數(shù)的設(shè)計(jì),隸屬度函數(shù)的構(gòu)造方法有很多,迄今為止并沒有一個(gè)標(biāo)準(zhǔn)的準(zhǔn)則。根據(jù)文獻(xiàn)[13]提供的思路來構(gòu)建隸屬度函數(shù),由于正類和負(fù)類的隸屬度定義類似,此處,只給出正類的模糊隸屬度。特征空間H中的φpcen定義為
其中,φ()xj∈H表示任意輸入數(shù)據(jù)點(diǎn)xj的轉(zhuǎn)換,球半徑的公式如(13)所示:
其中,δ>0被定義為一個(gè)很小的常量,為了避免si+沒意義,μ是范圍在[ ]0,1的常數(shù)。
與經(jīng)典SVM不同的關(guān)鍵在于,TSVM由兩個(gè)不平行的分類決策面組成,即
為了獲取方程(15)的決策面,經(jīng)典SVM的目標(biāo)函數(shù)由式(6)轉(zhuǎn)化為如下表達(dá)式:
其中參數(shù) C1>0,C2>0,ξ+和 ξ-分別表示正類和負(fù)類的松弛變量,e+,e-為單位行向量,其大小為正負(fù)類的樣本大小。
模糊孿生支持向量機(jī)FTSVM集合了模糊支持向量機(jī)FSVM和孿生支持向量機(jī)TSVM的優(yōu)點(diǎn),從而使得分類效果更好,經(jīng)典SVM的目標(biāo)函數(shù)由式(6)轉(zhuǎn)化為式(19)和式(20):
其中,s+∈Rl+和 s-∈Rl-都是由式(14)所表示的隸屬度函數(shù)求得的模糊數(shù)向量,式(19)和式(20)的對偶問題為
當(dāng)非線性可分時(shí),引入核函數(shù)k(x1,x2)=φ(x1),φ(x2) ,所求的分類決策面為k(x , XT)w++b+=0和k(x , XT)w-+b-=0,F(xiàn)TSVM的目標(biāo)函數(shù)轉(zhuǎn)化為
其對偶問題轉(zhuǎn)化為
本文的算法流程圖如圖1所示。
圖1 本文算法實(shí)現(xiàn)流程圖
實(shí)驗(yàn)分為兩個(gè)部分,一是用模擬隨機(jī)二維數(shù)據(jù)集檢測算法的性能,數(shù)據(jù)集特征為400*2;另一部分是用某酒廠一年的生產(chǎn)發(fā)酵測溫?cái)?shù)據(jù)和產(chǎn)量數(shù)據(jù)作為本文算法的驗(yàn)證數(shù)據(jù)集,數(shù)據(jù)特征為572*1100。為了均衡輸入樣本中的特征的影響,每個(gè)特征會被歸一化或者按比例縮小到[0,1]。通過為TSVM設(shè)置C1=C2在網(wǎng)格中仔細(xì)搜索模型參數(shù)ci( )i=1,2,3,4 ,網(wǎng)格搜索在10倍交叉驗(yàn)證中進(jìn)行,隨機(jī)選擇全部樣本的60%用做訓(xùn)練集,剩下的40%用做測試集。利用Matlab(R2014a)、MsSQL 2008、LibSVM 3.17和 Eclipse 4.4.1平臺仿真,運(yùn)行環(huán)境是Intel 3.30 GHz CPU,內(nèi)存為4GB的PC機(jī)。
模擬數(shù)據(jù)集有280個(gè)訓(xùn)練樣本和120個(gè)測試樣本,每個(gè)樣本有2個(gè)維度,數(shù)據(jù)集總共分為兩類。為了減少異常值數(shù)據(jù)對超平面的影響,令計(jì)算隸屬度函數(shù)的式(14)的 μ=1。圖2分別顯示了線性和非線性情況下訓(xùn)練樣本的模糊隸屬度值的分布,如圖2所示,與位于類中心附近的樣本相比,遠(yuǎn)離類中心的樣本的模糊隸屬度總是更小,符合FSVM的核心思想。圖3顯示了TSVM與FTSVM在線性核和非線性核下的分類決策面。表1對比了模擬數(shù)據(jù)集在各個(gè)支持向量機(jī)下的預(yù)測準(zhǔn)確率,其中,準(zhǔn)確率是取5次預(yù)測結(jié)果的平均值,±號后面的結(jié)果是平均值與最小值或者最大值的最大誤差,從表中可以看出,F(xiàn)TSVM的預(yù)測的穩(wěn)定性要好于其他的支持向量機(jī)。
圖2 模擬數(shù)據(jù)集中的訓(xùn)練樣本的模糊隸屬度分布
真實(shí)數(shù)據(jù)集為某酒廠一年的生產(chǎn)發(fā)酵測溫?cái)?shù)據(jù)和產(chǎn)量數(shù)據(jù),每一個(gè)樣本包含1100個(gè)溫度數(shù)據(jù),圖4顯示了不同產(chǎn)量下測溫和時(shí)間的關(guān)系,每一個(gè)小圖的縱坐標(biāo)表示發(fā)酵的溫度,橫坐標(biāo)表示從發(fā)酵開始所經(jīng)過的小時(shí)數(shù),在經(jīng)過預(yù)處理且符合實(shí)驗(yàn)要求的樣本中,選取342個(gè)正樣本,230個(gè)負(fù)樣本。按6:4隨機(jī)劃分訓(xùn)練集和獨(dú)立測試集,Train(+)172個(gè)樣本,Train(-)170個(gè)樣本,Test(+)116個(gè)樣本,Test(-)114個(gè)樣本。圖5對比了3組原始溫度曲線和經(jīng)過MRMR特征提取100維后的溫度曲線,從圖中可以看出MRMR特征提取的曲線可以刻畫出原始曲線的走勢,在維度較小的情況下,能夠提取出盡量有效的信息。
圖3 TSVM與FTSVM在不同核函數(shù)下的決策面
表1 模擬數(shù)據(jù)集算法預(yù)測準(zhǔn)確率對比
圖4 不同產(chǎn)量下的溫度發(fā)酵曲線
表2對比了線性核下各算法預(yù)測的準(zhǔn)確率,其中,準(zhǔn)確率是取5次預(yù)測結(jié)果的平均值,±號后面的結(jié)果是平均值與最小值或者最大值的最大誤差,從表中可以看出,當(dāng)維度較低時(shí),本文算法的預(yù)測準(zhǔn)確率要好于其他算法預(yù)測的準(zhǔn)確率,在200維時(shí),本文算法預(yù)測的平均準(zhǔn)確率比經(jīng)典SVM高17.5217%,比TSVM預(yù)測準(zhǔn)確率高20.5217%,比FTSVM平均預(yù)測準(zhǔn)確率高18.9565%;隨著維度的增加,MRMR特征提取與原始數(shù)據(jù)的結(jié)果差不多,所以分類的效果也差不多。表3對比了RBF核下各算法預(yù)測的準(zhǔn)確率,從表中可以看出,隨著數(shù)據(jù)維度的增加MRMR-FTSVM的預(yù)測準(zhǔn)確率卻減小,因?yàn)橛?xùn)練集在經(jīng)過RBF核函數(shù)映射過程是:Train(+,m+×l)、Train(-,m-×l)分別和Train(m×l)進(jìn)行高維映射,映射后的數(shù)據(jù)集的為Train*(+,m+×m)、Train*(-,m-×m),跟原始訓(xùn)練集的維度沒有關(guān)系,維度越高得到的映射矩陣斜對角線上的元素為1,其他元素趨于0,所以如果Train(+)或者Train(-)的維度大于樣本個(gè)數(shù)就選用線性核。
圖5 原始溫度曲線與MRMR特征提取溫度曲線對比
表2 線性核下各算法在不同維度下預(yù)測的準(zhǔn)確率(%)
表3 RBF核下各算法在不同維度下預(yù)測的準(zhǔn)確率(%)
在實(shí)際的固態(tài)發(fā)酵過程中,根據(jù)溫度數(shù)據(jù)對產(chǎn)量的高低進(jìn)行預(yù)測能夠有效地指導(dǎo)并改進(jìn)生產(chǎn)工藝。傳統(tǒng)的特征提取和SVM預(yù)測在實(shí)際應(yīng)用中存在預(yù)測精度低的不足,本文提出了用原始數(shù)據(jù)樣本集減去平均值并乘以一定的權(quán)重后,再進(jìn)行MRMR特征提取,最后進(jìn)行FTSVM預(yù)測的算法,有效地解決FTSVM在高維數(shù)據(jù)分類的不足,使用實(shí)際的數(shù)據(jù)集表明該方法能夠真正地提高預(yù)測的準(zhǔn)確率,并能實(shí)現(xiàn)提高產(chǎn)量的目標(biāo)。
[1]Gao B B,Wang J J,Wang Y,et al.Coordinate Descent Fuzzy Twin Support Vector Machine for Classification[C]//IEEE,International Conference on Machine Learn?ing and Applications.2015:7-12.
[2]Jayadeva,,Khemchandani R,Chandra S.Twin Support Vector Machines for Pattern Classification[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2007,29(5):905-910.
[3]Mangasarian O L,Wild E W.Multisurface Proximal Sup?port Vector Machine Classification via Generalized Eigen?values[J].IEEE Transactions on Pattern Analysis&Ma?chine Intelligence,2006,28(1):69-74.
[4]Arun Kumar M,Gopal M.Least squares twin support vec?tor machines for pattern classification[J].Expert Systems with Applications,2009,36(4):7535-7543.
[5]Qi Z,Tian Y,Shi Y.Structural twin support vector ma?chine for classification[J].Knowledge-Based Systems,2013,43(2):74–81.
[6]Chen W J,Shao Y H,Hong N.Laplacian smooth twin support vector machine for semi-supervised classification[J].International Journal of Machine Learning and Cyber?netics,2014,145(3):459-468.
[7]Lin C F,Wang S D.Fuzzy support vector machines.[J].IEEE Transactions on Neural Networks,2002,13(2):464-71.
[8]姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166.YAO Xu,WANG Xiaodan,ZHANG Yuxi,et al.A review of feature selection methods[J].Control and Decision Making,2012,27(2):161-166.
[9]Kira K,Rendell L A.The feature selection problem:tradi?tional methods and a new algorithm[C]//Tenth National Conference on Artificial Intelligence.AAAI Press,1992:129-134.
[10]John G H,Kohavi R,Pfleger K.Irrelevant Features and the Subset Selection Problem[J].Machine Learning Pro?ceedings,1998:121-129.
[11]Koller D.Toward Optimal Feature Selection[C]//Proc.13th International Conference on Machine Learning.Mor?gan Kaufmann,2000:284-292.
[12]倪黃晶,王蔚.多類不平衡數(shù)據(jù)上的分類器性能比較研究[J].計(jì)算機(jī)工程,2011,37(10):160-161.LI Huangjing,WANG Wei.Comparison of Classifier Per?formance on Multiple Unbalanced Data[J].Computer Engineering,2011,37(10):160-161.
[13]Tang W M.Fuzzy SVM with a New Fuzzy Membership Function to Solve the Two-Class Problems.[J].Neural Processing Letters,2011,34(3):209-219.