劉瑞蘭,徐艷,戎舟
(1 南京郵電大學自動化學院,江蘇 南京 210003;2 河南省輕工業(yè)學校,河南 鄭州 450006)
支持向量機(support vector machine,SVM)是由Vapnik 等[1-3]提出的基于統(tǒng)計學習和結構風險最小化原理的建模方法,該方法在有限樣本情況下,同時兼顧算法的經驗風險和推廣能力,廣泛應用于解決模式分類問題[4-6]和回歸建模問題[7-10]。標準的支持向量機采用求解二次規(guī)劃問題的求解方法,最終求出包含少量支持向量的模型,但是算法的復雜度隨著樣本個數的增加而增加。Suykens 等[11]在標準SVM 的目標函數中用誤差平方和項取代誤差的絕對值項,提出了最小二乘支持向量機(least square support vector machine,LSSVM)方法,由于采用等式約束,LSSVM 采用求解線性方程組的方法求解,但是如果訓練樣本多,求出的LSSVM 模型規(guī)模龐大,每個訓練樣本都是支持向量,不具有標準支持向量機的稀疏性解。針對這一問題,文獻[12-13]采用剪枝方法實現(xiàn)對最小二乘支持向量的稀疏,即先求出非稀疏解,得到一系列核系數,刪除核系數小的樣本,然后對剩下的訓練樣本重新建模,反復迭代直到滿足要求。文獻[14]提出了一種改進的稀疏化方法,但仍然以剪枝方法為基礎,在重新建模時考慮總的訓練樣本的殘差平方和,而不是稀疏后保留的訓練樣本的殘差平方和,從而提高模型的推廣能力。文獻[15]提出通過在特征空間中尋找樣本的最大無關組來解決解的稀疏性問題。
最小二乘支持向量機的預測精度與正則化參數和核函數參數的選取有一定的關系,在最小二乘支持向量機的應用中,常用的參數選擇方法有經驗法[15]、網格搜索法[10]和智能算法如遺傳算法[16-18]和差分進化算法等[19]。經驗法通過試湊進行賦值,帶有一定的盲目性,而網格搜索法計算量很大,智能算法可以縮短計算時間,但是大多數文獻要么采用智能方法進行最小二乘支持向量機的稀疏化,而參數采用經驗法選擇;要么僅僅采用智能方法進行正則化參數和核參數的優(yōu)化,根本就不考慮稀疏化問題。
本文采用遺傳算法對最小二乘支持向量機同時進行稀疏化和參數優(yōu)化:假設每個訓練樣本包含一個是否為支持向量的概率屬性,該概率大小可以通過遺傳算法來優(yōu)化,從而將上述稀疏化和參數優(yōu)化統(tǒng)一為多維參數的優(yōu)化問題。將本文提出的方法建立了PX(ParaXylene)氧化過程中對羥基苯甲醛(4-carboxy-benzaldchydc,4-CBA)含量的軟測量模型,比較了稀疏前后模型的訓練精度和驗證精度。
最小二乘支持向量機方法用如下形式的函數對未知函數進行估計
其中,x∈Rn,y∈R,非線性函數φ(·) :Rn→Rnh將輸入空間映射為高維特征空間。
滿足約束
為此,可以定義如下Lagrange 函數
其中,αk是 Lagrange 乘子。分別求出L(w,b,e,α)對w,b,e,α的偏微分,可以得到式(2)的最優(yōu)條件如下
將其中的ek和w用αk和b表示,則有
其 中,y=[y1,…,yN]T,1=[1 ,…,1]T,α=Ω是一個方陣,其第k行l(wèi)列的元素為選擇γ>0保證矩陣
可逆,則可以得到α和b的解析表達式
將式(8)代入式(5),求出w,從而得到非線性逼近模型為
其中,K(x,xk)是核函數,常用的核函數有線性核、高斯核和多項式核函數等。正則化參數γ和核函數參數的大小會影響到模型的預測精度。
從式(9)可以看出,函數逼近模型的項數為訓練樣本總數加1,如果訓練樣本數較多,則模型規(guī)模龐大,影響模型的應用。
本文采用遺傳算法進行最小二乘支持向量機稀疏化及參數優(yōu)化,實質是將問題轉化為一個(N+m)維的多維參數優(yōu)化問題,前N維用來稀疏化操作,后m維用于正則化參數和核函數參數的優(yōu)化。先定義一個包括稀疏率和訓練誤差及測試誤差在內的適應度函數,然后對每個訓練樣本賦予一個[0,1]區(qū)間內的隨機數,該隨機數表示該訓練樣本是否是支持向量的概率,如果某個概率小于0.5 表示對應樣本不是支持向量,將該樣本作為測試樣本放入測試樣本集,否則即為支持向量,放入保留的訓練樣本集中。將保留的訓練樣本集和后m維的優(yōu)化參數建立最小二乘支持向量機模型,計算適應度函數,直到找到使適應度函數最小的一組樣本,則該樣本建立的模型與所有訓練樣本都作為支持向量機相比,模型規(guī)模要小,即實現(xiàn)了稀疏化。
最小二乘支持向量機的稀疏化過程實質是將總的訓練樣本動態(tài)地分為兩部分,一部分為稀疏后保留的樣本,稱為保留的訓練樣本集,另一部分為稀疏化后刪除的樣本,稱為測試樣本集,因此適應度函數應該包含3 部分:其一為保留的訓練樣本集的平均訓練誤差,表示模型的訓練精度;其二為測試樣本集的平均預測誤差,表示模型的預測能力;其三包括稀疏化率,表示稀疏化的程度,本文用保留的樣本數除以訓練樣本總數,該值越小越好。定義適應度函數如下
其中,N為訓練樣本總數,M為稀疏后保留的樣本數,yi為保留的訓練樣本的輸出值,y?i為保留的訓練樣本的估計值,yj為測試樣本的輸出值,y?j為測試樣本的估計值。
最小二乘支持向量機的稀疏化及參數優(yōu)化的步驟如下所示。
(1)確定種群維數,種群維數為訓練樣本的總個數加上需要優(yōu)化的參數個數m。優(yōu)化參數的個數視核函數類型而定,如果是線性核,需要優(yōu)化的只有正則化參數γ,如果是RBF(radical basis function)核函數,則需要優(yōu)化的參數為正則化參數γ和核函數參數σ。
(2)確定種群的上下限,前N維的上下限為[0,1],后面m維的上下限根據具體的樣本值而定。
(3)確定種群的大小,根據給定的種群上下限,隨機給每個個體賦初值。
(4)對每個個體前N維對應的概率與0.5 進行比較,選出M個樣本作為保留的訓練樣本,進行最小二乘支持向量機建模,并以每個個體最后m維的數據作為建模需要的參數,根據式(10)計算適應度函數,保留適應度函數最小的個體,循環(huán)條件是否滿足,如果滿足退出,否則轉步驟(5)。
(5)對種群進行選擇、交叉和變異操作,然后轉步驟(4)。
(6)將整個循環(huán)中適應度最小的一個個體對應的保留的訓練樣本建立的最小支持向量機模型作為最終模型。
PX 氧化[20-21]是在反應溫度為190℃左右,壓力為1.258 MPa,在鈷、錳等催化劑作用下以醋酸為溶劑,用空氣中的氧氣將PX 氧化為TA(terephthalic acid,對苯二甲酸),TA 進一步純化后得到PTA(purified terephthalic acid,精對苯二甲酸)的過程。PX 氧化反應主要由4 個反應組成,除原料PX 和最終產品 PTA 外,還有其他中間產物:TALD(p-tolualdehyde,對甲基苯甲醛)、PT(p-toluic acid,對甲基苯甲酸)和4-CBA。其中4-CBA 含量是PTA產品中的重要質量指標。根據文獻[19-20]對反應機理的研究,4-CBA 含量過低,則氧化反應程度加深,副反應加劇,能耗及醋酸、PX 單耗增加。4-CBA含量過高,則PTA 產品的質量達不到要求。為了節(jié)能降耗,并保證PTA 的產品純度,非常有必要對4-CBA 含量進行實時監(jiān)控。
表1 稀疏前后不同核函數的模型比較Table 1 Comparison of sparse models and non-sparse models with different type kernel
4-CBA 含量無法用常規(guī)的傳感器在線測量,而是通過實驗室分析化驗出來,化驗時間比較長;同時由于化驗成本較高,其采樣間隔較長,如某工廠對4-CBA 含量的采樣周期為8 h,每天固定在0 點、8 點和16 點采樣,因此一天最多只有3 個滯后數小時的4-CBA 含量的分析值。需要采用軟測量技術在線估計4-CBA 含量。
影響4-CBA 含量的因素較多,本文依據文獻[21-22]選擇氧化反應器物料進料流量、催化劑濃度、氧化反應器液位、氧化反應器溫度、氧化反應器尾氧含量、第三冷凝器排出水量、第一結晶器溫度、第一結晶器尾氧含量、反應生成的二氧化碳含量、反應生成的一氧化碳含量共10 個過程變量作為軟測量模型的輸入變量。輸出量為4-CBA 的含量,單位為mol·kg-1。
本文采用的數據來源于某化工廠,總共收集了177 組樣本,樣本按時間順序排列,取前面120 組樣本作為訓練總樣本(training samples,TS),后面57 組樣本作為驗證模型有效性的驗證樣本(validation samples,VS),種群數為100,樣本稀疏化概率的范圍為[0,1],γ和σ的取值范圍均為[0.01,1000],迭代次數500 次,交叉概率0.25,變異概率0.08,選擇方法為輪盤賭。分別采用線性核和RBF 核,對120 個訓練樣本進行稀疏化。算法程序在CPU 為2.6 GHz、內存為4 GB 的電腦運行,經過多次運行后,選擇最好的結果如表1所示,表1中的誤差均為平均相對誤差。從表中可以看出,稀疏前樣本數為120,也即模型規(guī)模有121 項,不論是線性核還是RBF 核,模型訓練誤差都很小,但是驗證誤差相比而言較大;稀疏后,只剩下16 個樣本(線性核)和17 個樣本(RBF 核),稀疏化率接近87%,模型規(guī)模大幅度減小,與稀疏前相比,模型訓練誤差有所變大,但是驗證誤差卻比稀疏前要小,這說明對于最小二乘支持向量機而言,并非訓練樣本越多越好,因為訓練樣本越多,意味著模型越復雜,從而降低了模型的推廣性能。從表1還發(fā)現(xiàn),無論稀疏前后,非線性核的驗證誤差比線性核的大,也就是說對于同等規(guī)模的訓練樣本建立的模型,線性核的推廣能力比RBF 核要好,這是因為本文的過程數據是靜態(tài)數據,在靜態(tài)工作點附近基本是線性的,線性核與過程的狀態(tài)更匹配。表2給出了從程序的運行時間上比較稀疏前后模型的性能。從表中可以看出,用遺傳算法進行稀疏化所用的時間遠大于直接建模所用的時間,而稀疏模型投入運行后,對同樣規(guī)模的驗證樣本所需要的計算時間要小。因此引入遺傳算法稀疏化增加了建模所用的時間,但是由于建模是離線進行的,不影響模型的在線投運。
為了進一步驗證算法的穩(wěn)定性,將稀疏算法程序(線性核情況)經過5000 次運行,計算稀疏化率、訓練誤差和驗證誤差的平均值和方差分別86.67%±0.025、0.0376±0.0064 和0.0397±0.0092。方差比較小,表明本文提出的方法穩(wěn)定性較好。
表2 稀疏前后建模和驗證時間比較Table 2 Running time comparison of sparse models and non-sparse models/s
圖1和圖2分別給出了在線性核情況下,稀疏前后模型的輸出比較。
提出了基于遺傳算法的最小二乘支持向量機的稀疏化和參數優(yōu)化方法,并將該方法應用于工業(yè)PX 氧化過程4-CBA 含量的軟測量中,工業(yè)數據仿真結果表明,用本文提出的方法稀疏化率高,自動 完成正則化參數和核函數參數的優(yōu)化,稀疏化后模型的預測結果更好。
圖2 稀疏前后最小二乘支持向量機模型驗證結果Fig.2 Validation results of sparse LSSVM model and non-sparse LSSVM model
[1]Vapnik V,Levin E,Le Cun Y.Measuring the VC dimension of learning machines [J].Neural Computation(S0899-7667),1994 (6):851-876
[2]Vapnik V.The Nature of Statistical Learning Theory [M].New York:Springer,1995
[3]Vapnik V.Statistical Learning Theory [M].New York:John Wiley,1998
[4]Cao Wei (曹巍),Zhao Yingkai (趙英凱),Gao Shiwei (高世偉).Multi-class support vector machines based on fuzzy kernel cluster [J].CIESC Journal(化工學報),2010,61 (2):420-424
[5]Wang Anna (王安娜),Li Yunlu (李云路),Zhao Fengyun (趙鋒云),Shi Chenglong (史成龍).Novel semi-supervised classification algorithm based on TSVM [J].Proceedings of CSEE(中國電機工程學報),2011,32 (7):1546-1550
[6]Yang Zhimin,He Junyun,Shao Yuanhai.Feature selection based on linear twin support vector machines [J].Procedia Computer Science,2013,17:1039-1046
[7]Wendy Flores-Fuentes,Moises Rivas-Lopez,Oleg Sergiyenko,et al.Combined application of power spectrum centroid and support vector machines for measurement improvement in optical scanning systems [J].Signal Processing,2014,98:37-51
[8]Wang Bo (王博),Sun Yukun (孫玉坤),Ji Xiaofu (嵇小輔),et al.Soft-sensor modeling for lysine fermentation processes based on PSO_SVM inversion [J].CIESC Journal(化工學報),2012,63 (9):3000-3007
[9]Li Jin (李瑾),Liu Jinpeng (劉金朋),Wang Jianjun (王建軍).Mid-long term load forecasting based on simulated annealing and SVM algorithm [J].Proceedings of CSEE(中國電機工程學報),2011,31 (16):63-66
[10]Wang Zhanneng (王占能),Xu Zuhua (徐祖華),Zhao Jun (趙均),Shao Zhijiang (邵之江).Coal-fired power plant boiler combustion process modeling based on support vector machine and load data division [J].CIESC Journal(化工學報),2013,64 (12):4496-4502
[11]Suykens J A K,Vandewalle J.Least squares support vector machine classifiers [J].Neural Processing Letters,1999,9 (3):293-300
[12]Suykens J A K,Lukas L,Vandewalle J.Sparse approximation using least squares support vector machine//IEEE Intenational Symposium on Circuits and Systems [C].Geneva,Swizerland,2000:757-760
[13]Suykens J A K,De Brabanter J,Lukas L,Vandewalle J.Weighted least squares support vector machines:robustness and sparse approximation [J].Neurocomputing,2002,48:85-105
[14]Cawley Gavin C,Talbot Nicola L C.Improved sparse least-squares support vector machines [J].Neurocomputing,2002,48:1025-1031
[15]Gan Liangzhi (甘良志),Sun Zonghai (孫宗海),Sun Youxian (孫優(yōu)賢).Sparse least squares vector machine [J].Journal of Zhejiang University:Engineering(浙江大學學報:工學版),2007,41 (2):245-248
[16]Zhang Chunxiao (張春曉),Zhang Tao (張濤).Oil holdup modeling of oil-water two-phase flow using thermal method based on LSSVM and GA [J].CIESC Journal(化工學報),2009,60 (7):1651-1655
[17]Chen Lei (陳磊).Genetic least squares support vector machine approach to hourly water consumption prediction [J].Journal of Zhejiang University:Engineering(浙江大學學報:工學版),2011,45 (6):1100-1103
[18]Shang Wanfeng (尚萬峰),Zhao Shengdun (趙升噸),Shen Yajing (申亞京).Application of LSSVM optimized by genetic algorithm to modeling of switched reluctance motor [J].Proceedings of CSEE(中國電機工程學報),2009,29 (12):65-69
[19]Lin Bihua (林碧華),Gu Xingsheng (顧幸生).Soft sensor modeling based on DE-LSSWM [J].Journalof Chemical Industry and Engineering(China) (化工學報),2008,59 (7):1681-1685
[20]Li Xi (李希),Xie Gang (謝剛),Hua Weiqi (華衛(wèi)琦).Key problems and research program for PTA process domestic development [J].Polyester Industry(聚酯工業(yè)),2001,14 (1):1-7
[21]Wang Lijun (王麗軍).Studies on the kinetics ofp-xylene oxidation and the reactor simulation [D].Hangzhou:Zhejiang University,2001
[22]Liu Ruilan (劉瑞蘭),Mou Shengjing (牟盛靜),Su Hongye (蘇宏業(yè)),et al.Modeling soft sensor based on support vector machine and particle swarm optimization algorithms [J].Control Theory and Applications(控制理論與應用),2006,23 (6):895-900