陸榮秀,饒運(yùn)春,楊 輝,朱建勇,楊 剛
(1.華東交通大學(xué)電氣與自動(dòng)化工程學(xué)院,江西南昌 330013;2.江西省先進(jìn)控制與優(yōu)化重點(diǎn)實(shí)驗(yàn)室,江西南昌 330013)
在稀土分離企業(yè)中,實(shí)現(xiàn)稀土生產(chǎn)過(guò)程的自動(dòng)控制,獲得穩(wěn)定、合格的稀土產(chǎn)品,關(guān)鍵環(huán)節(jié)是實(shí)時(shí)掌握和了解稀土萃取過(guò)程中監(jiān)測(cè)點(diǎn)各元素組分含量變化[1-2].近年來(lái)隨著人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)回歸等智能建模方法在過(guò)程控制中的推廣應(yīng)用,基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量建模方法在稀土萃取工業(yè)過(guò)程中的研究也越來(lái)越多[3-6].針對(duì)鐠/釹(Pr/Nd)萃取過(guò)程中元素的組分含量與其顏色特征相關(guān)的特性,部分學(xué)者將顏色特征應(yīng)用于稀土元素組分含量的快速檢測(cè)中.文獻(xiàn)[7]在色調(diào)-飽和度-強(qiáng)度(hue-saturation-intensity,HSI)顏色空間提取H分量作為顏色特征,利用最小二乘法擬合組分含量與H分量之間的函數(shù)關(guān)系,首次實(shí)現(xiàn)了鐠/釹元素組分含量的軟測(cè)量預(yù)測(cè).文獻(xiàn)[8]采用主成分分析法在HSI顏色空間中分析各顏色分量對(duì)組分含量的影響,選取影響較大的H,S特征分量一階矩作為輸入,并利用最小二乘支持向量機(jī)(least squares support vector machine,LSSVM)建立鐠/釹元素組分含量全局預(yù)測(cè)模型.文獻(xiàn)[9]以鐠/釹溶液圖像的H,S,I分量一階矩作為模型輸入,并由加權(quán)最小二乘支持向量機(jī)(weighted least squares support vector machine,WLSSVM)建立組分含量預(yù)測(cè)模型,實(shí)現(xiàn)了鐠/釹元素組分含量預(yù)測(cè)精度的提升.上述3種軟測(cè)量方法均為離線建立的全局模型,適用于萃取過(guò)程工況穩(wěn)定的環(huán)境下;而在實(shí)際的稀土萃取分離中,現(xiàn)場(chǎng)生產(chǎn)工況會(huì)因?yàn)楦鞣N因素發(fā)生變化,如原始料液配分、有機(jī)濃度以及環(huán)境溫度發(fā)生變化等情況,此時(shí)離線建立的全局模型預(yù)測(cè)精度將會(huì)有所下降,因此有必要建立一種能夠能跟隨工況特性自適應(yīng)更新的組分含量在線預(yù)測(cè)模型.
目前,不少學(xué)者將即時(shí)學(xué)習(xí)方法[10-13]用于工業(yè)過(guò)程建模,通過(guò)在線建立預(yù)測(cè)模型,提高模型預(yù)測(cè)精度.文獻(xiàn)[14]將時(shí)間有序性融入到樣本相似度準(zhǔn)則計(jì)算中,應(yīng)用到濕法冶金浸出過(guò)程的浸出率預(yù)測(cè),在精度和實(shí)時(shí)性上效果表現(xiàn)良好.文獻(xiàn)[15]將變量相關(guān)性引入到即時(shí)學(xué)習(xí)算法樣本相似度準(zhǔn)則的計(jì)算中,應(yīng)用于選擇性催化還原(selective catalytic reduction,SCR)脫硝系統(tǒng)建模,預(yù)測(cè)精度和實(shí)時(shí)性能夠滿足要求.文獻(xiàn)[16]將特征加權(quán)策略引入即時(shí)學(xué)習(xí)算法,應(yīng)用于工業(yè)高爐中的硅含量在線預(yù)測(cè),獲得了較好的預(yù)測(cè)性能.文獻(xiàn)[17]提出了一種基于云模型相似性度量的改進(jìn)即時(shí)學(xué)習(xí)算法,運(yùn)用到球磨機(jī)的料位測(cè)量中,實(shí)現(xiàn)了球磨機(jī)料位的實(shí)時(shí)準(zhǔn)確檢測(cè).
在基于即時(shí)學(xué)習(xí)策略的軟測(cè)量建模中,保證模型高精度的關(guān)鍵是準(zhǔn)確選取算法學(xué)習(xí)集和建立合適的局部模型[18-21].本文以萃取現(xiàn)場(chǎng)采集的Pr/Nd溶液圖像H(hue),S(saturation),I(intensity),RR(relative red)和顏色矢量角(color vector angle,CVA)顏色特征分量一階矩和Nd元素組分含量為預(yù)測(cè)模型的歷史數(shù)據(jù)庫(kù),采用K矢量鄰近(K-vector nearest neighbors,K-VNN)方法[22-23]確定學(xué)習(xí)集,由互信息公式[24-25]計(jì)算各個(gè)輸入變量的權(quán)重,建立基于LSSVM 的稀土萃取過(guò)程組分含量預(yù)測(cè)模型;當(dāng)稀土萃取工況發(fā)生變化時(shí),引入由相似度閾值更新和數(shù)據(jù)庫(kù)更新組成局部模型更新策略,較正局部模型以滿足非線性系統(tǒng)的實(shí)時(shí)建模要求.將該模型運(yùn)用到鐠/釹萃取現(xiàn)場(chǎng)數(shù)據(jù)測(cè)試仿真實(shí)驗(yàn),結(jié)果表明本文方法在準(zhǔn)確性和實(shí)時(shí)性上均滿足稀土元素組分含量檢測(cè)需求.
即時(shí)學(xué)習(xí)算法是一種基于數(shù)據(jù)驅(qū)動(dòng)的建模策略,根據(jù)當(dāng)前狀態(tài)信息在歷史數(shù)據(jù)庫(kù)搜索相似的數(shù)據(jù)構(gòu)成算法學(xué)習(xí)集,以此建立預(yù)測(cè)模型.即時(shí)學(xué)習(xí)算法的特點(diǎn)在于可根據(jù)不同工況更新模型參數(shù),具有本質(zhì)的在線自適應(yīng)能力;相比于全局模型,基于即時(shí)學(xué)習(xí)策略的局部模型所需樣本數(shù)據(jù)較少.而決定基于即時(shí)學(xué)習(xí)策略的建模方法性能優(yōu)劣的關(guān)鍵在于選取合適的學(xué)習(xí)集和局部模型.
對(duì)于歷史數(shù)據(jù)庫(kù)樣本輸入和樣本輸出集合:
其中:Xi為歷史樣本輸入,yi為歷史樣本輸出,m為特征向量個(gè)數(shù),采用K-VNN方法計(jì)算當(dāng)前工況點(diǎn)輸入Xq與歷史數(shù)據(jù)庫(kù)中樣本輸入Xi的歐式距離d和夾角β,表達(dá)式如下:
以數(shù)據(jù)信息的指數(shù)(exponential kernel)與夾角余弦加權(quán)之和構(gòu)成相似度準(zhǔn)則[23]選取Xq的學(xué)習(xí)集,當(dāng)前工況點(diǎn)輸入Xq與歷史數(shù)據(jù)輸入Xi之間的相似度計(jì)算如式(2)所示:
式中:λ為加權(quán)因子,它的取值范圍為λ ∈[0,1],λ越大距離所起的作用就越大.相似度準(zhǔn)則在表示Xi與Xq相似程度的同時(shí)也代表了歷史數(shù)據(jù)輸入Xi對(duì)模型的影響程度,即式(2)中相應(yīng)的相似度Sqi越大則其對(duì)模型的影響越大.對(duì)Sqi按降序排列,由相似度準(zhǔn)則選取與當(dāng)前工作點(diǎn)相似度最大的k個(gè)(該值一般由經(jīng)驗(yàn)估計(jì))歷史數(shù)據(jù)構(gòu)造即時(shí)學(xué)習(xí)算法的學(xué)習(xí)集Ωk:
由式(3)確定的即時(shí)學(xué)習(xí)算法學(xué)習(xí)集Ωk通常是小樣本數(shù)據(jù)集,為了保證模型的準(zhǔn)確性,選用具有快速學(xué)習(xí)能力、計(jì)算簡(jiǎn)單且適用于小樣本數(shù)據(jù)建模等特點(diǎn)的LSSVM算法建立即時(shí)學(xué)習(xí)算法的局部模型[26].LSSVM的最小化目標(biāo)函數(shù)為
其中:ei為誤差向量,γ為用于擇中訓(xùn)練誤差和模型復(fù)雜性的懲罰系數(shù).為求解該優(yōu)化問題,構(gòu)建拉格朗日函數(shù):
因此,可以將優(yōu)化問題的求解轉(zhuǎn)換成一個(gè)線性方程組的求解.根據(jù)Mercer條件,LSSVM的模型預(yù)測(cè)輸出為
式中:Xq為當(dāng)前工作點(diǎn)輸入,Xi為學(xué)習(xí)集樣本輸入,αi為拉格朗日算子,b為偏差值,K(·)為徑向基核函數(shù),
由上述推導(dǎo)過(guò)程,需要優(yōu)化的參數(shù)組合為(γ,σ),其中γ為誤差懲罰系數(shù),σ為高斯核函數(shù)寬度,采用網(wǎng)格搜索法與十折交叉驗(yàn)證[27]優(yōu)化上述參數(shù).
在基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量建模過(guò)程中,歷史數(shù)據(jù)的各個(gè)輸入變量和輸出變量的相關(guān)程度并不相同,因此在選取即時(shí)學(xué)習(xí)算法學(xué)習(xí)集的時(shí)候需要考慮變量相關(guān)性的影響.互信息可以通過(guò)計(jì)算各輸入與輸出變量的相關(guān)度來(lái)衡量各變量之間的相關(guān)性,將該相關(guān)度引入到即時(shí)學(xué)習(xí)算法學(xué)習(xí)集的選取中,用以選取當(dāng)前工況點(diǎn)的建模鄰域,進(jìn)而提高模型的預(yù)測(cè)精度.
在信息論中,兩個(gè)隨機(jī)變量間的互信息(mutual information,MI)是變量之間相互依賴性的量度,互信息與相關(guān)性成正相關(guān).對(duì)于歷史數(shù)據(jù)庫(kù)中的輸入變量zd=(x1d,x2d,···,xNd)T,d=1,2,···,m,計(jì)算各輸入變量與輸出變量之間互信息的公式如下:
式中:d=1,2,···,m;N為歷史數(shù)據(jù)庫(kù)的樣本總數(shù)目;φ(·)為digamma函數(shù),具有式(9)的一般性質(zhì):
式(8)的基本思想是:令歷史數(shù)據(jù)庫(kù)中每個(gè)輸入變量與輸出變量組成二維矩陣Qd=(zd,y),將矩陣每個(gè)點(diǎn)Qid=(xid,yi)與其他點(diǎn)的歐式距離排列,該點(diǎn)K近鄰距離定義為.εid=max{εxid,εyi},是這兩點(diǎn)間的水平距離,是這兩點(diǎn)間的垂直距離.將所有與點(diǎn)Qid的水平距離嚴(yán)格小于的點(diǎn)的個(gè)數(shù)定義為nxid,距離點(diǎn)Qid的垂直距離嚴(yán)格小于的點(diǎn)的數(shù)目定義為nyi.圖1為互信息計(jì)算公式參數(shù)確定示例圖,當(dāng)K取1時(shí),nxid=6,nyi=4.
圖1 互信息中εid,nxid,nyi值的確定示例Fig.1 Example of determining the εid,nxid,nyi value in mutual information
根據(jù)每一個(gè)輸入變量與輸出變量的互信息確定各輸入變量對(duì)應(yīng)的權(quán)重,wd為第d個(gè)輸入變量的權(quán)重,計(jì)算式為
W=[w1··· wm]T為輸入權(quán)重向量,將該權(quán)重融入歷史數(shù)據(jù)和當(dāng)前工作點(diǎn):
則基于互信息加權(quán)的相似度準(zhǔn)則為
式(11)作用與式(2)相同,由基于互信息加權(quán)的相似度準(zhǔn)則計(jì)算當(dāng)前工況點(diǎn)輸入Xq與歷史數(shù)據(jù)樣本輸入Xi的相似度Sqi,以此構(gòu)造即時(shí)學(xué)習(xí)算法的學(xué)習(xí)集Ωk.
選取合適的學(xué)習(xí)集是決定基于即時(shí)學(xué)習(xí)策略建模方法性能優(yōu)劣的重要環(huán)節(jié),學(xué)習(xí)集樣本選擇過(guò)多可能造成信息冗余,增加建模時(shí)間,影響模型實(shí)時(shí)性;學(xué)習(xí)集樣本選擇過(guò)少又可能造成信息的缺失,導(dǎo)致模型精度降低.傳統(tǒng)即時(shí)學(xué)習(xí)算法對(duì)于學(xué)習(xí)集樣本個(gè)數(shù)k的選取通常是在[km,kM]范圍內(nèi)由經(jīng)驗(yàn)確定,選取的k值存在很大的主觀性.本文采用式(12)所示的累積相似因子[28]來(lái)確定學(xué)習(xí)集的大小,按照貢獻(xiàn)度的值選擇k值,這樣可以在獲得大部分相似樣本的同時(shí)減小學(xué)習(xí)集規(guī)模.式中:sk為設(shè)定的貢獻(xiàn)度,該值大小由實(shí)驗(yàn)確定;km為輸入向量的個(gè)數(shù);kM為數(shù)據(jù)庫(kù)樣本個(gè)數(shù);分子表示排序后相似度前k組樣本的貢獻(xiàn)之和,分母表示當(dāng)前時(shí)刻工作點(diǎn)Xq與所有樣本的相似度總和.
由于傳統(tǒng)即時(shí)學(xué)習(xí)算法的相似度準(zhǔn)則沒有考慮到輸入與輸出變量間的相關(guān)性,本文根據(jù)信息論中的互信息原理計(jì)算各輸入與輸出變量的相關(guān)程度,通過(guò)引入加權(quán)相似度準(zhǔn)則使學(xué)習(xí)集的選取更加合理,進(jìn)而提高模型的精度.基于加權(quán)相似度準(zhǔn)則的即時(shí)學(xué)習(xí)算法建模步驟如下:
步驟1對(duì)于工業(yè)現(xiàn)場(chǎng)采集的輸入輸出歷史數(shù)據(jù)庫(kù),應(yīng)考慮相關(guān)冗余信息的剔除以及數(shù)據(jù)歸一化等預(yù)處理;
步驟2引入互信息加權(quán)的相似度準(zhǔn)則,按式(8)計(jì)算各輸入變量和輸出變量的互信息,將互信息代入式(10)計(jì)算各變量權(quán)重,將計(jì)算出的變量權(quán)重乘以相應(yīng)的歷史數(shù)據(jù)代入式(11)構(gòu)成新的相似度準(zhǔn)則;
步驟3由式(11)計(jì)算當(dāng)前工作點(diǎn)Xq和歷史數(shù)據(jù)樣本的相似度,并更新式(3)降序排列相似度,通過(guò)累積相似因子式(12)來(lái)確定k值從而確定學(xué)習(xí)集Ωk;
步驟4確定學(xué)習(xí)集Ωk后,采用式(6)建立局部模型,由網(wǎng)格搜索法與十折交叉驗(yàn)證優(yōu)化參數(shù)(γ,σ),對(duì)當(dāng)前工作點(diǎn)進(jìn)行預(yù)測(cè);
步驟5進(jìn)入下一時(shí)刻工作點(diǎn),等待讀取新工況數(shù)據(jù)樣本.
傳統(tǒng)即時(shí)學(xué)習(xí)算法應(yīng)對(duì)現(xiàn)場(chǎng)工況和環(huán)境的變化的方式是通過(guò)不斷更新局部模型,但若每次新樣本輸入都建立局部模型會(huì)增加耗時(shí),影響模型實(shí)時(shí)性.另一方面,用于建模的歷史數(shù)據(jù)庫(kù)來(lái)源于離線獲取,并不能包含所有工況的數(shù)據(jù),有必要對(duì)歷史數(shù)據(jù)庫(kù)進(jìn)行更新用以提高模型的預(yù)測(cè)精度.因此,本文基于相似度閾值更新和數(shù)據(jù)庫(kù)更新策略判定是否需要更新局部模型,以此降低計(jì)算量,提高算法的精度和實(shí)時(shí)性.
模型更新策略由相似度閾值更新和數(shù)據(jù)庫(kù)更新兩部分組成,相似度閾值更新用于提高模型的實(shí)時(shí)性降低計(jì)算量,數(shù)據(jù)庫(kù)更新通過(guò)更新歷史數(shù)據(jù)庫(kù)提高模型的精度.
4.1.1 相似度閾值更新
在傳統(tǒng)即時(shí)學(xué)習(xí)軟測(cè)量建模方法中,由于對(duì)每個(gè)工作點(diǎn)都都建立局部模型,計(jì)算量較大.現(xiàn)考慮現(xiàn)場(chǎng)工況的實(shí)際變化,引入基于相似度閾值的模型更新策略,即當(dāng)工況產(chǎn)生突變的時(shí)候,及時(shí)更新局部模型;而在工況穩(wěn)定的時(shí)刻沿用之前建立的模型,以此降低局部模型更新頻率,減少模型建立的時(shí)間,提高預(yù)測(cè)模型的實(shí)時(shí)性.具體流程如下.
假設(shè)t0為模型初始時(shí)刻,初始工作點(diǎn)為Xt0,以加權(quán)相似度準(zhǔn)則選取初始輸入工作點(diǎn)的最大建模鄰域,通過(guò)累積相似因子sk確定學(xué)習(xí)集的k值,進(jìn)而確定最終學(xué)習(xí)集為Ωk.采用式(6)建立局部模型
若下一時(shí)刻工作點(diǎn)Xt1與工作點(diǎn)Xt0的相似度比設(shè)定的相似度閾值大即當(dāng)時(shí),當(dāng)前系統(tǒng)處于平穩(wěn)狀態(tài),系統(tǒng)局部模型不變,當(dāng)前工作點(diǎn)的預(yù)測(cè)輸出仍由上次建立的局部模型求得.此時(shí)相似度閾值不變,仍為
4.1.2 數(shù)據(jù)庫(kù)更新
由于S(Xi,Xq)的值直接反映了Xq和原數(shù)據(jù)庫(kù)中樣本的相似程度,此信息包含當(dāng)前樣本輸入Xq周圍的“密度”情況.也就是說(shuō),如果原數(shù)據(jù)庫(kù)中包含很多類似Xq的數(shù)據(jù)點(diǎn),則建模鄰域Ωk中樣本點(diǎn)的S(Xi,Xq)值都比較大,通過(guò)密度參數(shù)j和δ設(shè)置數(shù)據(jù)更新機(jī)制對(duì)數(shù)據(jù)進(jìn)行刪選,若當(dāng)前工況下的數(shù)據(jù)點(diǎn)密度達(dá)到設(shè)定要求,為了避免舊數(shù)據(jù)點(diǎn)對(duì)預(yù)測(cè)產(chǎn)生干擾,用當(dāng)前樣本點(diǎn)替換與其相似度最小的樣本點(diǎn);若不滿足這個(gè)要求,則說(shuō)明此時(shí)的數(shù)據(jù)是新工況下的數(shù)據(jù)點(diǎn)或是未達(dá)到密度要求的工況數(shù)據(jù)點(diǎn),將其加入到數(shù)據(jù)庫(kù)中,以此抑制數(shù)據(jù)庫(kù)的無(wú)限增大.具體描述如下.
在當(dāng)前Xq的建模鄰域中,如果S(X1,Xq)=1,說(shuō)明在鄰域中,樣本點(diǎn)X1完全類似于Xq,令更新標(biāo)志Flag=0,丟棄當(dāng)前的樣本輸入.
若S(X1,Xq)<1且S(Xj,Xq)>δ,說(shuō)明有較多類似Xq工況的數(shù)據(jù)點(diǎn),此時(shí)為了刪除某些可能干擾學(xué)習(xí)集選取和預(yù)測(cè)的舊數(shù)據(jù)點(diǎn),令更新標(biāo)志Flag=1,用當(dāng)前樣本點(diǎn)q替換數(shù)據(jù)庫(kù)中與其相似度最小的樣本點(diǎn)j.
不滿足上述條件,則認(rèn)為當(dāng)前樣本輸入Xq是新工況下的數(shù)據(jù)點(diǎn)或是未達(dá)到密度要求的工況數(shù)據(jù)點(diǎn),令更新標(biāo)志Flag=2,將當(dāng)前樣本點(diǎn)q添加進(jìn)數(shù)據(jù)庫(kù)中.
該更新策略特點(diǎn)在于利用了學(xué)習(xí)集Ωk中樣本的排列方式,無(wú)需額外的計(jì)算;通過(guò)密度參數(shù)設(shè)置數(shù)據(jù)刪選條件,可以有效抑制數(shù)據(jù)庫(kù)的無(wú)限增加,策略中密度參數(shù)j和δ的取值范圍為1 <j ≤k,0 <δ <1,通過(guò)具體對(duì)象的實(shí)驗(yàn)對(duì)比確定.
傳統(tǒng)的即時(shí)學(xué)習(xí)軟測(cè)量建模方法需要對(duì)每個(gè)工作點(diǎn)建立局部模型,大大降低了模型的實(shí)時(shí)性,因此本文在第3節(jié)的基礎(chǔ)上通過(guò)引入第4.1節(jié)中的模型更新策略來(lái)提高模型的實(shí)時(shí)性,同時(shí)該策略中的數(shù)據(jù)庫(kù)更新能夠通過(guò)更新歷史數(shù)據(jù)庫(kù)來(lái)提高模型精度.圖2為改進(jìn)后的即時(shí)學(xué)習(xí)算法建模流程圖.
圖2 改進(jìn)即時(shí)學(xué)習(xí)算法建模流程圖Fig.2 Modeling flow chart based on improved just-in-time learning algorithm
相應(yīng)的建模步驟如下:
步驟1同第3.3節(jié)步驟1;
步驟2同第3.3節(jié)步驟2;
步驟3同第3.3節(jié)步驟3;
步驟4確定學(xué)習(xí)集后Ωk,采用LSSVM建立局部模型,由網(wǎng)格搜索法與十折交叉驗(yàn)證優(yōu)化參數(shù)(γ,σ),對(duì)當(dāng)前工作點(diǎn)進(jìn)行預(yù)測(cè),同時(shí)設(shè)定初始相似度閾值;
步驟5通過(guò)數(shù)據(jù)更新策略判斷是否滿足數(shù)據(jù)更新條件,滿足條件則更新歷史數(shù)據(jù)庫(kù);
步驟6讀取下一時(shí)刻工作點(diǎn),當(dāng)前工作點(diǎn)Xq按步驟1-3確定學(xué)習(xí)集Ωk,通過(guò)模型更新策略判斷是否更新模型,若(ti為上次更新局部模型的時(shí)刻),則需要更新LSSVM局部模型,步驟同上,同時(shí)更新相似度閾值S*=S(Xk,Xq),轉(zhuǎn)至步驟5更新Flag值判斷是否需要更新歷史數(shù)據(jù)庫(kù);否則沿用之前更新的局部模型預(yù)測(cè).
綜上所述,該算法考慮輸入與輸出數(shù)據(jù)的相關(guān)性,通過(guò)互信息計(jì)算各個(gè)輸入變量與輸出量的相關(guān)度,將該相關(guān)度引入到即時(shí)學(xué)習(xí)算法學(xué)習(xí)集的選取中,用以選擇當(dāng)前工況點(diǎn)的建模鄰域,其中學(xué)習(xí)集大小k值由累積相似因子確定;確定學(xué)習(xí)集后,采用LSSVM 作為即時(shí)學(xué)習(xí)算法的局部模型預(yù)測(cè)工作點(diǎn)的輸出;為避免局部模型過(guò)度重構(gòu),減少局部模型建模的耗時(shí),提高預(yù)測(cè)的實(shí)時(shí)性,引入了基于相似度閾值和數(shù)據(jù)庫(kù)更新的模型更新策略;同時(shí)通過(guò)引入的數(shù)據(jù)庫(kù)更新策略抑制數(shù)據(jù)庫(kù)的無(wú)限增大,提高模型的預(yù)測(cè)精度.
稀土萃取是利用溶劑萃取法實(shí)現(xiàn)稀土各元素分離和提取的過(guò)程,而在稀土萃取工業(yè)過(guò)程中,如何快速準(zhǔn)確的檢測(cè)萃取槽內(nèi)的稀土組分含量分布是決定稀土萃取產(chǎn)品質(zhì)量的重要一環(huán),只有實(shí)時(shí)掌握和了解稀土萃取過(guò)程中關(guān)鍵監(jiān)測(cè)點(diǎn)各元素組分含量值變化才能及時(shí)調(diào)整工藝參數(shù)、保證產(chǎn)品質(zhì)量.鑒于萃取現(xiàn)場(chǎng)生產(chǎn)原料的來(lái)源地和批次不同,原始料液配分差異較大,會(huì)對(duì)稀土萃取分離過(guò)程工況產(chǎn)生直接影響;另外,有機(jī)濃度和環(huán)境溫度的變化也會(huì)引起工況發(fā)生類似的變化.目前對(duì)稀土萃取過(guò)程組分含量的預(yù)測(cè)研究仍停留在離線狀態(tài),當(dāng)現(xiàn)場(chǎng)工況發(fā)生變化時(shí)離線模型可能無(wú)法適應(yīng)新的工況進(jìn)行準(zhǔn)確預(yù)測(cè),致使模型預(yù)測(cè)精度下降.本文從在線建模的角度出發(fā),采用改進(jìn)即時(shí)學(xué)習(xí)算法進(jìn)行組分含量的在線預(yù)測(cè),根據(jù)現(xiàn)場(chǎng)工況的變化情況建立不同的局部預(yù)測(cè)模型,進(jìn)而提高稀土元素組分含量的預(yù)測(cè)精度.
為了檢驗(yàn)改進(jìn)即時(shí)學(xué)習(xí)算法在稀土萃取過(guò)程組分含量建模過(guò)程中的預(yù)測(cè)性能,以江西某稀土公司的Pr/Nd萃取分離生產(chǎn)過(guò)程為研究對(duì)象,在更換稀土萃取原始料液配分和溫差明顯變化等工況變化時(shí)刻,從Pr/Nd萃取線的混合槽體中采集85份樣本溶液,離線化驗(yàn)樣本溶液的元素組分含量,其中Nd元素組分含量分布在1.8%~99.965%,采用機(jī)器視覺技術(shù)獲取混合溶液圖像并提取溶液圖像的H,S,I顏色特征分量一階矩、相對(duì)紅色分量RR[29]和顏色矢量角CVA[30].以混合溶液的H,S,I,RR和CVA值作為模型輸入,以Nd元素組分含量作為模型輸出,組成歷史數(shù)據(jù)庫(kù):
i=1,2,···,85,建立顏色特征分量與Nd元素組分含量的對(duì)應(yīng)關(guān)系.
在此次仿真實(shí)驗(yàn)中選取70組數(shù)據(jù)作為訓(xùn)練集,剩余15組數(shù)據(jù)作為測(cè)試集用于驗(yàn)證組分含量預(yù)測(cè)模型的有效性.為了消除各變量間數(shù)量級(jí)差異帶來(lái)的影響,對(duì)歷史數(shù)據(jù)庫(kù)進(jìn)行歸一化處理.將處理后的訓(xùn)練集按式(8)與式(10)計(jì)算各輸入和輸出變量間的互信息與對(duì)應(yīng)權(quán)重,計(jì)算結(jié)果如表1所示,其中Nd元素組分含量與H和CVA顏色分量的相關(guān)度較大,I分量與組分含量的相關(guān)度最小,這充分說(shuō)明不同顏色特征分量對(duì)組分含量的影響是不同的.將計(jì)算出的權(quán)重代入式(11)獲得加權(quán)相似度準(zhǔn)則用于即時(shí)學(xué)習(xí)算法學(xué)習(xí)集的選取.
本文仿真實(shí)驗(yàn)使用相同的歷史數(shù)據(jù)庫(kù),分別采用5種建模方法進(jìn)行對(duì)比試驗(yàn):最小二乘支持向量機(jī)(LSSVM)全局模型、互信息加權(quán)最小二乘支持向量機(jī)(MI-LSSVM)全局模型、基于傳統(tǒng)即時(shí)學(xué)習(xí)(just-in-time learning,JITL)的最小二乘支持向量機(jī)(JITL-LSSVM)、基于傳統(tǒng)即時(shí)學(xué)習(xí)的互信息加權(quán)最小二乘支持向量機(jī)(MI-JITL-LSSVM)和基于模型更新策略即時(shí)學(xué)習(xí)算法的互信息加權(quán)最小二乘支持向量機(jī)(MI-SJITL-LSSVM).需要注意的是:方法1來(lái)源于參考文獻(xiàn)[8],模型輸入是H和S顏色特征分量;方法2是對(duì)參考文獻(xiàn)[9]的改進(jìn),模型輸入是H,S和I顏色特征分量,為了更好的與本文局部模型的預(yù)測(cè)性能進(jìn)行比較,輸入權(quán)重采用互信息加權(quán)方式確定;方法3是本文第1節(jié)描述方法,即基于傳統(tǒng)即時(shí)學(xué)習(xí)算法的預(yù)測(cè)模型;方法4是本文第2節(jié)描述方法,引入了互信息作為相似度加權(quán)的即時(shí)學(xué)習(xí)算法預(yù)測(cè)模型;方法5為基于模型更新策略的即時(shí)學(xué)習(xí)算法預(yù)測(cè)模型,其數(shù)據(jù)庫(kù)更新的兩個(gè)自由度參數(shù)j和δ以及相似度準(zhǔn)則的加權(quán)系數(shù)λ和累積相似因子sk借鑒文獻(xiàn)[31]由實(shí)驗(yàn)對(duì)比確定,j取10,δ取0.9,λ取0.66,sk取0.8.仿真測(cè)試結(jié)果見圖3-4,各模型部分參數(shù)如表2所示.
表1 各輸入變量和輸出變量間的互信息和權(quán)重Table 1 Mutual information and weight between each input variable and output variable
表2 軟測(cè)量模型參數(shù)Table 2 Soft measurement model parameters
圖3是5種建模方法預(yù)測(cè)值與化驗(yàn)值的對(duì)比圖,縱坐標(biāo)為組分含量值;圖4為5種建模方法預(yù)測(cè)值與化驗(yàn)值之間的相對(duì)誤差,縱坐標(biāo)為相對(duì)誤差百分比.為了更好地對(duì)比模型測(cè)試結(jié)果的優(yōu)劣,以式(13)平均相對(duì)誤差(MEANRE)、式(14)最大相對(duì)誤差(MAXRE)和式(15)均方根誤差(root mean square error,RMSE)3個(gè)誤差作為衡量模型性能的指標(biāo),表3為各個(gè)模型測(cè)試性能指標(biāo)結(jié)果.
式中:yi為第i組Nd元素組分含量的化驗(yàn)值,為第i組Nd元素組分含量的輸出預(yù)測(cè)值,n的值為15.
表3 軟測(cè)量模型測(cè)試性能結(jié)果比較Table 3 Comparisons of soft-sensing test performance
由圖3-4及表3可以得出以下結(jié)論:
1)方法5組中分含量預(yù)測(cè)模型的平均相對(duì)誤差、最大相對(duì)誤差和均方根誤差分別為0.7816%,3.2670%和0.01148,3個(gè)測(cè)試性能指標(biāo)均優(yōu)于方法1-3;而方法4的平均相對(duì)誤差最小,原因是該方法的局部模型一直處于更新狀態(tài),從算法耗時(shí)上可以看出,方法4是以損耗實(shí)時(shí)性為代價(jià)提高模型精度,因此,本文提出的方法5綜合性能指標(biāo)最佳;
2)對(duì)比在線局部模型方法3與方法4的性能指標(biāo)發(fā)現(xiàn),在采用互信息對(duì)各個(gè)輸入變量進(jìn)行加權(quán)能夠有效提高模型預(yù)測(cè)精度,證實(shí)了變量相關(guān)性對(duì)模型預(yù)測(cè)精度的影響;
3)對(duì)比表3離線全局模型方法2與在線局部模型方法4的預(yù)測(cè)性能指標(biāo),由于本文方法4增加了RR,CVA顏色分量作為模型輸入,其預(yù)測(cè)精度有較大提高,且由表1各變量間的互信息值也表明,RR和CVA顏色分量對(duì)組分含量有較大影響;
4)從算法耗時(shí)方面衡量,由于全局模型方法1-2僅建立一次預(yù)測(cè)模型,因此所需運(yùn)算時(shí)間最短,但因其屬于離線建模方法,萃取工況變化后會(huì)降低模型預(yù)測(cè)精度;比較本文所述的3種在線建模方法,方法5由于具有模型更新策略,減小了模型更新次數(shù)進(jìn)而縮短了建模時(shí)間,在適應(yīng)不同萃取工況準(zhǔn)確預(yù)測(cè)元素組分含量的前提下,能夠有效提高模型實(shí)時(shí)性.
綜上,對(duì)比表3離線全局模型方法1-2和在線局部模型方法3-5的預(yù)測(cè)性能指標(biāo),在線局部模型預(yù)測(cè)性能指標(biāo)總體上更優(yōu),說(shuō)明適應(yīng)工況變化的在線建模方法能夠有效提高稀土元素組分含量的預(yù)測(cè)精度;在線局部模型方法3-5預(yù)測(cè)值與化驗(yàn)值的相對(duì)誤差絕對(duì)值均小于5%,都達(dá)到了稀土萃取生產(chǎn)現(xiàn)場(chǎng)的應(yīng)用要求,能夠?qū)崿F(xiàn)稀土元素組分含量的快速準(zhǔn)確預(yù)測(cè),其中本文提出的方法5(MI-SJITL-LSSVM模型)由于引入了模型更新策略,在算法的預(yù)測(cè)精度和實(shí)時(shí)性上總體表現(xiàn)效果更佳.
圖3 組分含量軟測(cè)量模型預(yù)測(cè)輸出結(jié)果Fig.3 Output result of component content soft-sensing model
圖4 組分含量軟測(cè)量模型輸出相對(duì)誤差Fig.4 Relative error of component content soft-sensing model
為了精確預(yù)測(cè)具有離子顏色特征的鐠/釹萃取過(guò)程中元素的組分含量,本文提出了一種基于改進(jìn)即時(shí)學(xué)習(xí)算法的組分含量預(yù)測(cè)模型.引入互信息改進(jìn)即時(shí)學(xué)習(xí)算法的相似度準(zhǔn)則用于學(xué)習(xí)集的選取,同時(shí)通過(guò)引入相似度閾值更新和數(shù)據(jù)庫(kù)更新的模型更新策略判斷局部模型是否需要更新,從而在保證準(zhǔn)確性的前提下提高模型實(shí)時(shí)性.通過(guò)與LSSVM,MI-LSSVM全局模型和基于傳統(tǒng)即時(shí)學(xué)習(xí)算法的LSSVM模型進(jìn)行比較,結(jié)果表明本文提出的MISJITL-LSSVM組分含量預(yù)測(cè)模型通過(guò)引入互信息計(jì)算的變量加權(quán)相似度準(zhǔn)則得到更加合理的學(xué)習(xí)集,能夠有效提高模型預(yù)測(cè)精度;由于引入了模型更新策略,模型的預(yù)測(cè)精度和實(shí)時(shí)性得到了較大提高,能夠滿足稀土萃取組分含量檢測(cè)的快速性和準(zhǔn)確性要求,同時(shí)可為具有顏色特征的其他工業(yè)過(guò)程監(jiān)測(cè)提供借鑒.