Application of KPCA-LSSVM in Prediction of the Primary Air Flow of Pulverizer
金秀章 韓 超
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,河北 保定 071003)
KPCA-LSSVM在磨煤機(jī)一次風(fēng)量預(yù)測(cè)中的應(yīng)用
Application of KPCA-LSSVM in Prediction of the Primary Air Flow of Pulverizer
金秀章韓超
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,河北 保定071003)
摘要:針對(duì)建立熱電廠磨煤機(jī)一次風(fēng)量軟測(cè)量模型訓(xùn)練樣本多、樣本特征維數(shù)大等特點(diǎn),考慮到現(xiàn)場(chǎng)測(cè)量所需的實(shí)時(shí)性和準(zhǔn)確性,提出了基于樣本優(yōu)化、核主成分分析(KPCA)和最小二乘支持向量機(jī)(LSSVM)相結(jié)合的方法進(jìn)行建模。運(yùn)用某電廠歷史運(yùn)行數(shù)據(jù)對(duì)模型進(jìn)行仿真驗(yàn)證,結(jié)果表明:基于樣本優(yōu)化的KPCA-LSSVM軟測(cè)量模型在精確性、跟蹤能力和運(yùn)行速度上均要優(yōu)于LSSVM、BP和KPCA-BP模型,這為現(xiàn)場(chǎng)磨煤機(jī)一次風(fēng)量的準(zhǔn)確、實(shí)時(shí)測(cè)量提供了一定的理論依據(jù)。
關(guān)鍵詞:軟測(cè)量樣本優(yōu)化核主成分分析最小二乘支持向量機(jī)BP神經(jīng)網(wǎng)絡(luò)
Abstract:In accordance with the features of establishing soft sensing model for primary air (PA) flow of pulverizers in cogeneration power plant, e.g., more training samples and sample characteristics with large dimension, and considering the requirements of real time performance and precision in field measurement, the method of establishing model based on the combination of sample optimization, kernel principal component analysis(KPCA), and least square support vector machine (LSSVM) is proposed. The simulation verification of the model is conducted using historical operating data of certain power plant; the results indicate that the method based on sample optimization KPCA-LSSVM soft sensing model is better than LSSVM, BP or KPCA-BP model in accuracy, tracking capability and operating speed, this provides certain theoretical basis for real time and accurate measurement of PA air flow of the pulverizers.
Keywords:Soft sensingSample optimizationKernel principal component analysis(KPCA)Least square support vector machine(LSSVM)
BP neural network
0引言
針對(duì)硬件測(cè)量?jī)x表對(duì)磨煤機(jī)一次風(fēng)量的測(cè)量效果差、經(jīng)常性堵塞等問(wèn)題,應(yīng)用軟測(cè)量技術(shù)對(duì)磨煤機(jī)一次風(fēng)量進(jìn)行測(cè)量不失為一種好的方法。軟測(cè)量技術(shù)利用一些與被測(cè)變量關(guān)系密切且易于實(shí)時(shí)測(cè)量的變量,通過(guò)在線運(yùn)算來(lái)估計(jì)難以測(cè)量或不可測(cè)量的變量[1]??紤]到熱工過(guò)程的復(fù)雜性,采用機(jī)理建立軟測(cè)量模型難度較大,進(jìn)而改為采用黑箱建模?;谌斯ど窠?jīng)網(wǎng)絡(luò)的磨煤機(jī)一次風(fēng)量預(yù)測(cè)雖有成功的案例[2],但在模型訓(xùn)練中存在過(guò)擬合、訓(xùn)練時(shí)間長(zhǎng)、易于陷入局部最小和網(wǎng)絡(luò)結(jié)構(gòu)不確定等問(wèn)題。最小二乘支持向量機(jī)(least square support vector machine,LSSVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,具備堅(jiān)實(shí)的統(tǒng)計(jì)理論和出色的學(xué)習(xí)能力,已成功運(yùn)用到工業(yè)軟測(cè)量技術(shù)當(dāng)中。其將標(biāo)準(zhǔn)支持向量機(jī)目標(biāo)函數(shù)進(jìn)行變形,使其由二次尋優(yōu)轉(zhuǎn)變?yōu)榍蠼饩€性方程組,加快了求解速度,得到了廣泛應(yīng)用[3-4]。
1核主成分分析
磨煤機(jī)一次風(fēng)量軟測(cè)量模型輸入樣本特征維數(shù)高,各特征之間存在強(qiáng)耦合、非線性等特點(diǎn),使得模型復(fù)雜性增高、精度降低、泛化和學(xué)習(xí)能力減弱。將統(tǒng)計(jì)學(xué)理論上的數(shù)據(jù)驅(qū)動(dòng)方法應(yīng)用到多相關(guān)的樣本特征中,將其壓縮為少數(shù)獨(dú)立的特征,使得這些相互獨(dú)立的特征保留絕大部分原特征的信息,從而去除數(shù)據(jù)樣本特征之間的相關(guān)性,消除噪聲,降低特征維數(shù)。核主成分分析可將原始樣本特征由非線性變換映射到高維特征空間,再在高維空間中進(jìn)行主成分分析 (principal component analysis,PCA)[5]。
(1)
它符合特征方程:
Cv=λv
(2)
根據(jù)再生核理論,存在αi(i=1,2,…,l)使得:
(3)
引入核函數(shù)Kij:
(4)
(5)
將式(1)、式(3)代入式(5),經(jīng)簡(jiǎn)化可得下式:
Kα=lλα
(6)
(7)
核主成分個(gè)數(shù)的選擇根據(jù)下式:
(8)
式中:η通常大于0.85。
(9)
式中:1l×l為系數(shù)為1/l的l×l階全1矩陣。
對(duì)于測(cè)試樣本同樣需要進(jìn)行核矩陣的變換,變換如下:
(10)
2基于相似度的樣本優(yōu)化
熱電廠運(yùn)行工況多,其一次風(fēng)量軟測(cè)量模型的訓(xùn)練樣本集規(guī)模要大。針對(duì)大規(guī)模數(shù)據(jù)集的KPCA問(wèn)題,為了提高運(yùn)算的效率,核Hebbin算法、分塊核主成分、對(duì)數(shù)據(jù)集進(jìn)行分割的方法均有應(yīng)用[6]。上述方法原理復(fù)雜,實(shí)現(xiàn)起來(lái)不是十分方便。 本文運(yùn)用樣本優(yōu)選的方法優(yōu)化大規(guī)模的訓(xùn)練樣本集,從而大幅度減少訓(xùn)練樣本的個(gè)數(shù),簡(jiǎn)化模型,適合LSSVM應(yīng)用小樣本學(xué)習(xí)的特點(diǎn),提高運(yùn)算的精確性與實(shí)時(shí)性[4-7]。
采用一種基于相似度函數(shù)的方法,其思想和模式識(shí)別中的最小距離法相似,若兩樣本點(diǎn)之間的歐式距離過(guò)小,則認(rèn)為這兩個(gè)樣本是重復(fù)的,重復(fù)的樣本增加了模型的復(fù)雜度,可舍去其一。以此對(duì)訓(xùn)練樣本進(jìn)行優(yōu)化,剩下合理的能代表絕大部分工況的樣本點(diǎn)。
選擇相似度函數(shù):
(11)
式中:xi∈Rn,i=1,2,3,…l,n為樣本的特征維數(shù),l為樣本的個(gè)數(shù);‖·‖2為向量二范數(shù);Fij為第i個(gè)樣本點(diǎn)和第j個(gè)樣本點(diǎn)之間的相似度值。
針對(duì)樣本數(shù)據(jù)信息,并考慮到減小數(shù)據(jù)采集和分析的誤差,選擇整體的歸一化參數(shù)δ,計(jì)算公式如下:
(12)
式中:Ci為樣本第i個(gè)特征的值;n為樣本特征的維數(shù)。
若兩個(gè)樣本值越接近,則經(jīng)過(guò)相似度函數(shù)計(jì)算后,其相似度值就越接近于1。這樣可認(rèn)為這兩個(gè)樣本含有相同數(shù)據(jù)信息量較大,若同時(shí)作為模型的訓(xùn)練樣本,將會(huì)造成數(shù)據(jù)量的冗余,增加計(jì)算量,此時(shí)去除其一[8]。
3最小二乘支持向量機(jī)
支持向量機(jī)(supportvectormachine,SVM)[9]是Vapnik等人根據(jù)統(tǒng)計(jì)學(xué)理論提出的一種新的通用學(xué)習(xí)方法, 它是建立在統(tǒng)計(jì)學(xué)理論的機(jī)構(gòu)風(fēng)險(xiǎn)最小原理和VC維理論基礎(chǔ)上的,能夠?qū)π颖?、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問(wèn)題進(jìn)行較好的處理。
(13)
(14)
式中:ωT為置信空間,對(duì)模型的復(fù)雜度進(jìn)行控制;c>0為誤差懲罰函數(shù),表示函數(shù)的允許誤差大于ε的數(shù)值和平滑度之間的折中;Remp為經(jīng)驗(yàn)風(fēng)險(xiǎn),即不敏感損失函數(shù)。
損失函數(shù)不同,構(gòu)造的支持向量機(jī)也不同。最小二乘支持向量機(jī)將誤差ξi的二次項(xiàng)作為損失函數(shù),其優(yōu)化問(wèn)題為:
(15)
通過(guò)上式的對(duì)偶形式可以求其最優(yōu)解,對(duì)偶形式可以根據(jù)目標(biāo)函數(shù)和約束條件建立拉格朗日函數(shù):
(16)
根據(jù)優(yōu)化條件:
可得:
(17)
(18)
最后得到最小二乘支持向量機(jī)的估計(jì)輸出函數(shù):
(19)
核函數(shù)不同,構(gòu)造的支持向量機(jī)也不同,常用的核函數(shù)有:
① 多項(xiàng)式核函數(shù):
(20)
② 徑向基核函數(shù):
(21)
③ 感知器核函數(shù):
(22)
④ B樣條函數(shù):
(23)
4軟測(cè)量模型建立
軟測(cè)量技術(shù)主要由輔助變量的選擇、數(shù)據(jù)采集與處理、軟測(cè)量模型幾部分組成。軟測(cè)量建模是軟測(cè)量的核心。
選取輔助變量在軟測(cè)量模型建立過(guò)程中至關(guān)重要,包括輔助變量的類型、數(shù)目以及測(cè)點(diǎn)的位置。從某電廠獲取一天的歷史運(yùn)行數(shù)據(jù),由于每臺(tái)磨的條件相差不大,所以只對(duì)一臺(tái)磨進(jìn)行軟測(cè)量模型的建立(假如為A磨),其他磨的一次風(fēng)量均可利用此模型。根據(jù)系統(tǒng)設(shè)備流程,結(jié)合流量的測(cè)量原理和影響流量測(cè)量的因素,列出了以下輔助變量,如表1所示。
表1 輔助變量
由于數(shù)據(jù)在DCS的SAMA圖中已進(jìn)行了濾波處理,在進(jìn)行模型訓(xùn)練時(shí)不需要再進(jìn)行此環(huán)節(jié)。但需要用3σ法則將不合理的樣本數(shù)據(jù)剔除。
去除和一次風(fēng)量相關(guān)系數(shù)小于0.1的輔助變量,剩下30個(gè)一次風(fēng)量的輔助變量,用這30個(gè)輔助變量作為樣本的特征。由于還要對(duì)數(shù)據(jù)進(jìn)行核主成分分析,用核主成分分析對(duì)樣本數(shù)據(jù)特征進(jìn)行去噪,消除數(shù)據(jù)特征之間的相關(guān)性,所以此處應(yīng)該盡可能保留大部分輔助變量。
一次風(fēng)量預(yù)測(cè)模型如圖1所示。經(jīng)過(guò)預(yù)處理的輔助變量作為樣本的特征,將獲取的訓(xùn)練樣本經(jīng)過(guò)樣本優(yōu)化,得到優(yōu)化樣本集;再對(duì)優(yōu)化后的樣本集進(jìn)行核主成分分析降維,得到降維后的新特征,將其作為最小二乘支持向量機(jī)的輸入進(jìn)行軟測(cè)量模型的訓(xùn)練、建立,建模流程具體如下。
圖1 基于樣本優(yōu)化的KPCA-LSSVM一次風(fēng)量預(yù)測(cè)模型
4.2.1相似度函數(shù)閾值ε的選擇
經(jīng)過(guò)數(shù)據(jù)預(yù)處理,優(yōu)化處理全部訓(xùn)練樣本,剩余樣本數(shù)隨閾值ε的不同而不同。閾值ε的確定要經(jīng)過(guò)所建立的KPCA-LSSVM模型驗(yàn)證,同時(shí)兼顧模型的學(xué)習(xí)能力和泛化能力,得到合理的閾值ε的范圍。不同閾值和剩余樣本的關(guān)系曲線如圖2所示。
從圖2可以看出,隨著相似度函數(shù)閾值ε的增大,剩余樣本的數(shù)量逐漸增多。在區(qū)間(0.98,1)之內(nèi),剩余樣本的變化率較大,說(shuō)明在此區(qū)間內(nèi)樣本的簡(jiǎn)化效率較高, 同時(shí)綜合考慮所建立的模型,最終將相似度函數(shù)的閾值ε設(shè)為0.988,此時(shí)剩余的訓(xùn)練樣本數(shù)為306個(gè)。
圖2 剩余樣本數(shù)量和相似度函數(shù)閾值關(guān)系圖
4.2.2樣本數(shù)據(jù)的核主成分分析
對(duì)訓(xùn)練樣本進(jìn)行優(yōu)選后,再對(duì)訓(xùn)練樣本進(jìn)行核主成分分析。由4.2.1章節(jié)可知,訓(xùn)練樣本集最終取優(yōu)選后的306個(gè)樣本組成,則會(huì)產(chǎn)生306×306維的核矩陣。采用徑向基核函數(shù)進(jìn)行核主成分分析,隨著σ2增大,核函數(shù)矩陣前幾個(gè)特征值之和占全部特征值和的比重越來(lái)越大。當(dāng)σ2增大到一定程度后,核矩陣的特征值變化得很小,同時(shí)可以保證一個(gè)很好的特征提取貢獻(xiàn)率,則將核函數(shù)參數(shù)σ2設(shè)為1 800。取前5個(gè)主成分時(shí),其特征值貢獻(xiàn)率已達(dá)90.36%。取前7個(gè)主成分時(shí),其特征值貢獻(xiàn)率已達(dá)94.10%。
取核矩陣最大的7個(gè)特征值對(duì)應(yīng)的特征向量作為投影向量集。將306×306維核矩陣在投影向量集上投影,得到了經(jīng)過(guò)降維和非線性提取后的306×7維數(shù)據(jù)(即訓(xùn)練樣本集,306為樣本個(gè)數(shù),7為樣本特征維數(shù)),樣本特征維數(shù)由原來(lái)的29降為7。測(cè)試樣本在進(jìn)行模型的測(cè)試驗(yàn)證時(shí),根據(jù)章節(jié)1求出測(cè)試樣本的核矩陣,在投影向量集上進(jìn)行投影,得到了經(jīng)過(guò)降維和非線性提取的測(cè)試樣本集。KPCA提取主成分的值及累計(jì)貢獻(xiàn)率如表2所示。
表2 核主成分分析結(jié)果
5仿真結(jié)果與分析
選擇某電廠一天的運(yùn)行數(shù)據(jù),共等間隔采集了5 760組樣本,并從中優(yōu)選出模型的訓(xùn)練樣本,同時(shí)隨機(jī)選擇60組樣本進(jìn)行模型的測(cè)試。LSSVM、KPCA-LSSVM、BP和KPCA-BP模型的訓(xùn)練樣本均使用優(yōu)化后的樣本,NOP-BP(未經(jīng)樣本優(yōu)化的BP模型)的訓(xùn)練樣本為全部樣本。
本文采用徑向基核函數(shù),誤差懲罰參數(shù)c和徑向基核函數(shù)參數(shù)σ2的取值對(duì)LSSVM軟測(cè)量模型的性能有著重要影響,c用來(lái)控制樣本偏差和機(jī)器泛化能力之間的關(guān)系。σ2太大或太小會(huì)對(duì)樣本數(shù)據(jù)造成過(guò)學(xué)習(xí)或欠學(xué)習(xí)[10]。本文通過(guò)網(wǎng)格十折交叉驗(yàn)證的方法對(duì)參數(shù)c和σ2進(jìn)行尋優(yōu),直到找到最佳的參數(shù)對(duì),使得模型精度最高,最終選取c=18.65,σ2=11.88。
不同軟測(cè)量預(yù)測(cè)模型下磨煤機(jī)一次風(fēng)量的測(cè)試曲線對(duì)比如圖3~圖7所示。
圖3 LSSVM模型測(cè)試曲線
圖4 KPCA-LSSVM模型測(cè)試曲線
圖5 NOP-BP模型測(cè)試曲線
圖6 BP模型測(cè)試曲線
圖7 KPCA-BP模型測(cè)試曲線
為了評(píng)價(jià)軟測(cè)量預(yù)測(cè)模型的精度,分別使用最大絕對(duì)值誤差、均方根誤差(RMSE)、相對(duì)均方根誤差(RRMSE)、平均誤差(AE),對(duì)模型的預(yù)測(cè)準(zhǔn)確性和跟蹤變化能力進(jìn)行了分析[11],計(jì)算結(jié)果如表3所示。
表3 不同模型預(yù)測(cè)結(jié)果分析
最大絕對(duì)值誤差:
(24)
均方根誤差(RMSE):
(25)
相對(duì)均方根誤差(RRMSE):
(26)
平均誤差:
(27)
對(duì)于模型的運(yùn)行速度則用模型測(cè)試60組樣本所用的運(yùn)行時(shí)間T60作為參考,以毫秒為計(jì)量單位。
從表3結(jié)果分析可知,KPCA-LSSVM所建立的軟測(cè)量模型的預(yù)測(cè)結(jié)果在各個(gè)評(píng)價(jià)指標(biāo)中都是最好的,證明了其在預(yù)測(cè)準(zhǔn)確性和跟蹤能力上都要優(yōu)于其他的軟測(cè)量模型。
通過(guò)對(duì)比可知,經(jīng)過(guò)樣本優(yōu)化和核主成分分析后的模型更優(yōu)。
6結(jié)束語(yǔ)
本文共建立了五個(gè)軟測(cè)量模型對(duì)磨煤機(jī)一次風(fēng)量進(jìn)行預(yù)測(cè)。結(jié)合運(yùn)行數(shù)據(jù),進(jìn)行數(shù)據(jù)仿真。仿真結(jié)果表明:用KPCA和LSSVM相結(jié)合的軟測(cè)量模型在精確性、跟蹤能力和運(yùn)行速度上均要優(yōu)于LSSVM、BP、KPCA-BP等模型,這為現(xiàn)場(chǎng)磨煤機(jī)一次風(fēng)量的有效測(cè)量提供了一定的理論依據(jù),有一定的實(shí)用價(jià)值。
參考文獻(xiàn)
[1] 韓璞,喬弘,翟永杰,等.火電廠熱工參數(shù)軟測(cè)量技術(shù)的發(fā)展和現(xiàn)狀[J].儀器儀表學(xué)報(bào),2007,28(6):1139-1146.
[2] Yang Yaoquan,Zhao Kai,Zhang Qin.Soft sensor for coal mill primary air flow based on nerual network[C]∥Proceedings of the 3rdInternational Conference on Computational Intelligence and Industrial Application,2010:53-56.
[3] 王強(qiáng),田學(xué)民.基于KPCA-LSSVM的軟測(cè)量建模方法[J].化工學(xué)報(bào),2011,62(10):2813-2817.
[4] 田大中,高憲文,李琨.基于KPCA與LSSVM的網(wǎng)絡(luò)控制系統(tǒng)時(shí)延預(yù)測(cè)方法[J].系統(tǒng)工程與電子技術(shù),2013,35(6):1281-1285.
[5] 趙歡,王培紅,陸璐.電站鍋爐熱效率與NOX排放響應(yīng)特性建模方法[J].中國(guó)電機(jī)工程學(xué)報(bào),2008,28(32):96-100.
[6] 史衛(wèi)亞,郭躍飛,薛向陽(yáng).一種解決大規(guī)模數(shù)據(jù)集問(wèn)題的核主成分分析算法[J].軟件學(xué)報(bào),2009,20(8):2153-2159.
[7] 許巧玲,林偉豪,趙超,等.基于KPCA-LSS-VM的工業(yè)鍋爐煙氣含氧量預(yù)測(cè)[J].計(jì)算機(jī)與應(yīng)用化學(xué),2012,29(7):121-125.
[8] 張傳標(biāo),倪建軍,劉明華,等.樣本優(yōu)化核主元分析及其在水質(zhì)監(jiān)測(cè)中的應(yīng)用[J].中國(guó)環(huán)境監(jiān)測(cè),2012,28(2):92-96.
[9] Vapnik V N.Statistical learning thoery [M].New York:Addision Wiley,1998.
[10]談愛(ài)玲,畢衛(wèi)紅.基于KPCA和LSSVM的蜂蜜近紅外光譜鑒別分析[J].激光與紅外,2011,41(12):1331-1335.
[11]唐春霞,楊春華,桂衛(wèi)華,等.基于KPCA-LSSVM的硅錳合金熔煉過(guò)程爐渣堿度預(yù)測(cè)研究[J].儀器儀表學(xué)報(bào),2010,31(3):689-693.------------------------------------------------------------------------------------------------
中圖分類號(hào):TP181
文獻(xiàn)標(biāo)志碼:A
DOI:10.16086/j.cnki.issn1000-0380.201503017
修改稿收到日期:2014-08-26。
第一作者金秀章(1969-),男,2006年獲華北電力大學(xué)控制理論與工程專業(yè),獲博士學(xué)位,副教授;主要從事先進(jìn)控制策略在大型電力機(jī)組的控制研究。