周新杰,王建林,艾興聰,隨恩光,王汝童
(北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100029)
間歇過(guò)程是現(xiàn)代工業(yè)中的重要生產(chǎn)方式,目前已應(yīng)用于化工、生物制藥及半導(dǎo)體領(lǐng)域[1-2]。間歇過(guò)程質(zhì)量變量的在線預(yù)測(cè)是實(shí)現(xiàn)過(guò)程有效監(jiān)控和優(yōu)化控制的關(guān)鍵[3-5]。因具有核函數(shù)不受限制、在線預(yù)測(cè)效率高和泛化能力強(qiáng)的優(yōu)點(diǎn),相關(guān)向量機(jī)(relevance vector machine,RVM)被廣泛用于間歇過(guò)程的質(zhì)量變量在線預(yù)測(cè)[6-7]。然而,受頻繁操作條件變化和物料更替的影響,間歇過(guò)程包含了多個(gè)不同的運(yùn)行模態(tài)。而現(xiàn)有方法普遍將間歇過(guò)程視為一個(gè)整體建立單一預(yù)測(cè)模型,忽略了過(guò)程的多模態(tài)特性,使得過(guò)程模型難以體現(xiàn)各模態(tài)的不同數(shù)據(jù)特征,降低了模型的預(yù)測(cè)性能[8]。因此,對(duì)間歇過(guò)程進(jìn)行合理的模態(tài)劃分,并分別建立各個(gè)模態(tài)的預(yù)測(cè)模型,有利于提升間歇過(guò)程質(zhì)量變量的在線預(yù)測(cè)精度,對(duì)保證產(chǎn)品質(zhì)量與生產(chǎn)過(guò)程安全具有重要意義[9-11]。
現(xiàn)有間歇過(guò)程模態(tài)劃分方法可分為基于模型識(shí)別和基于聚類分析兩類[12]?;谀P妥R(shí)別的模態(tài)劃分方法通過(guò)建立統(tǒng)計(jì)分析模型提取過(guò)程變量的特征信息實(shí)現(xiàn)模態(tài)劃分。Dong 等[13]通過(guò)MPCA(multi-way principal component analysis)提取每個(gè)采樣時(shí)刻的變量相關(guān)性,并對(duì)整個(gè)批次進(jìn)行建模用于間歇過(guò)程模態(tài)劃分;Ye 等[14]根據(jù)每個(gè)采樣時(shí)間的特征變化,通過(guò)設(shè)計(jì)控制界限識(shí)別不同的模態(tài);Zhao 等[15]考慮局部時(shí)間域內(nèi)的相似性,采用依次添加時(shí)間片數(shù)據(jù)的建模方式提出了逐步時(shí)序模態(tài)劃分算法,并在之后的研究中得到了推廣和改進(jìn)[16-19]。然而,上述基于模型識(shí)別的模態(tài)劃分方法通過(guò)PCA(principal component analysis)算法獲得時(shí)間片數(shù)據(jù)模型,需要數(shù)據(jù)服從高斯分布,而間歇過(guò)程數(shù)據(jù)的非高斯特征降低了該類方法模態(tài)劃分的有效性。
聚類分析方法對(duì)過(guò)程數(shù)據(jù)沒(méi)有高斯分布的要求,在間歇過(guò)程的模態(tài)劃分問(wèn)題中得到了廣泛的研究和應(yīng)用。Lu 等[20]對(duì)間歇過(guò)程數(shù)據(jù)的加載矩陣進(jìn)行KM(k-means)聚類用于確定三水箱系統(tǒng)的不同模態(tài);張雷等[21]利用模糊最大似然估計(jì)聚類算法實(shí)現(xiàn)了間歇過(guò)程的模態(tài)劃分。然而,上述方法忽略了間歇過(guò)程數(shù)據(jù)的時(shí)序特征,導(dǎo)致模態(tài)劃分結(jié)果不滿足時(shí)序約束的要求。為保證模態(tài)劃分的時(shí)序性,Luo 等[22]基于WKM(warped k-means)聚類算法,通過(guò)在KM 方法中加入時(shí)序約束來(lái)處理間歇過(guò)程模態(tài)劃分中的時(shí)序問(wèn)題,提高了模態(tài)劃分的合理性,但兩種方法均只能將間歇過(guò)程劃分為不同的穩(wěn)定模態(tài)。間歇過(guò)程從一個(gè)模態(tài)運(yùn)行到另一個(gè)模態(tài)是一種動(dòng)態(tài)轉(zhuǎn)移行為,具有過(guò)渡特性。Luo 等[23-24]通過(guò)在FCM(fuzzy c-means)算法中增加時(shí)序約束條件而提出了SCFCM(sequence-constrained fuzzy c-means)算法,在滿足時(shí)序性的同時(shí)實(shí)現(xiàn)了過(guò)渡模態(tài)劃分;劉偉旻等[25]結(jié)合SCFCM 模態(tài)劃分方法,實(shí)現(xiàn)了多模態(tài)間歇過(guò)程的過(guò)程監(jiān)控。然而,這些方法在模態(tài)劃分時(shí)需要初始聚類中心作為算法的輸入?yún)?shù),不利于間歇過(guò)程的模態(tài)劃分。密度峰值聚類(density peaks clustering,DPC)算法[26]通過(guò)計(jì)算數(shù)據(jù)樣本的局部密度和相對(duì)距離構(gòu)建決策圖確定聚類中心,但對(duì)于類簇間樣本密度不平衡的間歇過(guò)程模態(tài)劃分問(wèn)題,同樣難以從決策圖中選取恰當(dāng)?shù)哪B(tài)中心[27-29],且上述方法在模態(tài)劃分時(shí)以歐氏距離度量數(shù)據(jù)樣本間的相似性,未考慮過(guò)程數(shù)據(jù)高維特征的影響。因此,過(guò)程數(shù)據(jù)高維特征及模態(tài)中心選取問(wèn)題影響了現(xiàn)有模態(tài)劃分方法的有效性,降低了多模態(tài)模型的質(zhì)量變量預(yù)測(cè)精度。
本文提出了一種基于IDPC-RVM 的多模態(tài)間歇過(guò)程質(zhì)量變量在線預(yù)測(cè)方法。首先,充分考慮過(guò)程數(shù)據(jù)的高維特征,進(jìn)行數(shù)據(jù)樣本間的相似性度量;其次,構(gòu)建樣本密度不平衡下的模態(tài)中心選取策略,準(zhǔn)確獲取間歇過(guò)程的模態(tài)中心,并根據(jù)模態(tài)劃分指標(biāo)確定最優(yōu)模態(tài)數(shù)目;然后,依據(jù)相鄰模態(tài)切換過(guò)程中的樣本隸屬度變化,識(shí)別過(guò)渡模態(tài)實(shí)現(xiàn)間歇過(guò)程的模態(tài)劃分;在此基礎(chǔ)上,分別建立各模態(tài)數(shù)據(jù)的RVM預(yù)測(cè)模型,實(shí)現(xiàn)間歇過(guò)程質(zhì)量變量的在線預(yù)測(cè)。最后,通過(guò)青霉素發(fā)酵過(guò)程的仿真實(shí)驗(yàn)驗(yàn)證所提方法的有效性。
DPC 對(duì)每個(gè)數(shù)據(jù)點(diǎn)計(jì)算兩個(gè)特征量:局部密度ρ和相對(duì)距離δ[26]。數(shù)據(jù)樣本xi的局部密度ρi定義為
當(dāng)xi不是全局密度最大值點(diǎn)時(shí),δi為該點(diǎn)到任何比其密度大的點(diǎn)之間的最短距離;而當(dāng)xi為全局密度最大值點(diǎn)時(shí),δi為該點(diǎn)與其他點(diǎn)間的最遠(yuǎn)距離。由式(1)和式(2)可以計(jì)算出所有樣本的ρ和δ兩個(gè)參數(shù),然后以局部密度ρ為橫軸,相對(duì)距離δ為縱軸構(gòu)建決策圖。在決策圖分布中,與其他數(shù)據(jù)點(diǎn)偏離較大的點(diǎn)被選為聚類中心。最后,剩余的數(shù)據(jù)點(diǎn)將會(huì)被分配到密度更高、距離最近的點(diǎn)所屬類簇中。
1.1.1 高維數(shù)據(jù)樣本相似性度量 DPC 使用歐氏距離度量數(shù)據(jù)樣本間的相似性,當(dāng)數(shù)據(jù)樣本處于低維時(shí),歐氏距離具有較高的計(jì)算效率和準(zhǔn)確度,但隨著數(shù)據(jù)維度的增加,導(dǎo)致歐氏距離度量數(shù)據(jù)樣本間相似性的準(zhǔn)確度降低。考慮間歇過(guò)程的高維數(shù)據(jù)特征,引入Close 函數(shù)[30]度量數(shù)據(jù)樣本間的相似性,具有d個(gè)維度的兩個(gè)數(shù)據(jù)樣本x1和x2之間的相似性為
當(dāng)x1和x2在同一維度上的|x1j-x2j|越小,則x1和x2的相似性越高,克服了歐氏距離度量高維數(shù)據(jù)樣本間相似性的缺點(diǎn),提高了高維數(shù)據(jù)樣本間相似性度量的準(zhǔn)確度。為了將數(shù)據(jù)樣本間的相似性信息轉(zhuǎn)換為距離矩陣,對(duì)Close函數(shù)進(jìn)行變換得到間歇過(guò)程高維數(shù)據(jù)樣本距離計(jì)算函數(shù)dist為
式中,?為一個(gè)很小的數(shù)。計(jì)算得到的dist函數(shù)值大于等于0,值越大表示兩個(gè)數(shù)據(jù)樣本間距離越遠(yuǎn)。
1.1.2 密度不平衡下的樣本得分計(jì)算 多模態(tài)間歇過(guò)程由于其運(yùn)行狀態(tài)的復(fù)雜性,在過(guò)程動(dòng)態(tài)特性較強(qiáng)或模態(tài)切換比較頻繁的區(qū)域?qū)?yīng)數(shù)據(jù)樣本的局部密度較低,而當(dāng)間歇過(guò)程運(yùn)行狀態(tài)穩(wěn)定或運(yùn)行模態(tài)總體不再發(fā)生變化時(shí),該區(qū)域內(nèi)對(duì)應(yīng)數(shù)據(jù)樣本具有較高的局部密度。因此,運(yùn)行狀態(tài)復(fù)雜的多模態(tài)間歇過(guò)程存在數(shù)據(jù)樣本間密度不平衡的問(wèn)題。
DPC 通過(guò)構(gòu)造決策圖的方式選取聚類中心,但該方式引入了人為的主觀性。由式(5)計(jì)算每個(gè)樣本的γ得分,再根據(jù)得分向量進(jìn)行聚類中心的選取,然而這種計(jì)算方式在類簇間樣本密度不平衡時(shí)會(huì)錯(cuò)誤選取聚類中心,導(dǎo)致錯(cuò)誤的聚類結(jié)果。
如圖1 所示,具有兩個(gè)密度相差較大的類簇1和類簇2。高密度的類簇1其聚類中心為點(diǎn)p1,具有最高的局部密度及γ得分,次高的局部密度點(diǎn)為點(diǎn)p2。樣本密度較低的類簇2,其聚類中心為點(diǎn)p3,由于類簇1的樣本密度遠(yuǎn)大于類簇2,使得點(diǎn)p2的γ得分高于點(diǎn)p3。因此,在已知兩類數(shù)據(jù)分布的情況下,選取γ值較大點(diǎn)p1 和點(diǎn)p2 作為聚類中心將導(dǎo)致錯(cuò)誤的聚類結(jié)果。
圖1 樣本密度不平衡的類簇分布Fig.1 Clusters distribution with unbalanced sample density
為避免高密度區(qū)域非聚類中心點(diǎn)對(duì)低密度區(qū)域聚類中心點(diǎn)選取帶來(lái)的干擾,本文利用每個(gè)數(shù)據(jù)點(diǎn)的ρ和δ組成新的數(shù)據(jù)樣本ti=(ρi,δi),對(duì)新的數(shù)據(jù)樣本計(jì)算每個(gè)樣本ti與樣本均值tˉ間的馬氏平方距離,θi得分為
式中,Σ為協(xié)方差矩陣。式(6)綜合考慮了決策圖中數(shù)據(jù)點(diǎn)間的偏離程度作為θ得分,與γ得分相比削弱了樣本密度偏差對(duì)分值計(jì)算的影響,θ值越大,表示該點(diǎn)在決策圖中的分布與常規(guī)數(shù)據(jù)點(diǎn)偏離程度越大,對(duì)應(yīng)的數(shù)據(jù)樣本越有可能選為聚類中心。
式中,τ為設(shè)定的閾值。
重復(fù)上述步驟,第一個(gè)不滿足該條件的點(diǎn)即為拐點(diǎn),記拐點(diǎn)索引為xP。根據(jù)索引xP,對(duì)向量θ進(jìn)行升序排序,位于xP之后的數(shù)據(jù)點(diǎn)即為模態(tài)中心。由上述模態(tài)中心選取策略可以獲得每個(gè)批次的F個(gè)模態(tài)中心,將各批次數(shù)據(jù)分別按模態(tài)數(shù)目為1 到F進(jìn)行劃分,并記模態(tài)數(shù)目集合F={1,2,…,F}。為保證模態(tài)劃分的時(shí)序性,將跨模態(tài)分配的數(shù)據(jù)點(diǎn)按式(10)計(jì)算時(shí)序約束標(biāo)簽
基于最優(yōu)模態(tài)數(shù)目的劃分結(jié)果,需要對(duì)相鄰穩(wěn)定模態(tài)間的過(guò)渡模態(tài)進(jìn)行識(shí)別。具有f*個(gè)穩(wěn)定模態(tài),需要進(jìn)行f*- 1 次過(guò)渡模態(tài)識(shí)別,設(shè)每?jī)蓚€(gè)相鄰穩(wěn)定模態(tài)中心之間的區(qū)域?yàn)檫^(guò)渡區(qū)域,第r個(gè)模態(tài)過(guò)渡區(qū)域內(nèi)的數(shù)據(jù)點(diǎn)為xrk,則該數(shù)據(jù)點(diǎn)對(duì)第r個(gè)模態(tài)的隸屬度urk為
式中,vr為模態(tài)r的中心;Ck為該數(shù)據(jù)點(diǎn)與vr之間的所有數(shù)據(jù)點(diǎn)組成的集合且集合中數(shù)據(jù)點(diǎn)數(shù)目為nk。
由式(16)計(jì)算出urk,則該數(shù)據(jù)點(diǎn)對(duì)模態(tài)r的相鄰模態(tài)的隸屬度為1 -urk,與其余f*- 2 個(gè)模態(tài)的隸屬度均為0。給定閾值搜索范圍,計(jì)算不同閾值下模態(tài)劃分結(jié)果的SQE 值,選擇使SQE 值最小的閾值進(jìn)行判定,隸屬度小于該閾值的樣本被識(shí)別為過(guò)渡模態(tài)。改進(jìn)密度峰值聚類的間歇過(guò)程模態(tài)劃分流程如圖2所示,其算法步驟如下。
圖2 改進(jìn)DPC的間歇過(guò)程模態(tài)劃分流程圖Fig.2 Mode partitioning flowchart of batch processes for improved DPC
(1)對(duì)間歇過(guò)程三維歷史數(shù)據(jù)集X={X1,X2,…,XI},Xi∈RK×J(i= 1,2,…,I為批次索引,I、J、K分別為批次總數(shù)、變量數(shù)和采樣點(diǎn)數(shù))分批次進(jìn)行標(biāo)準(zhǔn)化,消除過(guò)程數(shù)據(jù)量綱影響;
(2)由式(4)計(jì)算間歇過(guò)程數(shù)據(jù)樣本間的距離矩陣,再根據(jù)式(1)和式(2)計(jì)算標(biāo)準(zhǔn)化后數(shù)據(jù)樣本的ρ和δ;
(3)計(jì)算數(shù)據(jù)樣本的θ得分,根據(jù)樣本密度不平衡下的間歇過(guò)程模態(tài)中心選取策略獲得每批次數(shù)據(jù)的F個(gè)模態(tài)中心;
(4)將每批次間歇過(guò)程數(shù)據(jù)分別按模態(tài)數(shù)目為1至F進(jìn)行劃分;
(5)利用不同模態(tài)數(shù)目下的劃分結(jié)果由式(11)~式(15)計(jì)算得到間歇過(guò)程的最優(yōu)模態(tài)數(shù)目f*;
(6)基于f*下的模態(tài)劃分結(jié)果,對(duì)相鄰穩(wěn)定模態(tài)過(guò)渡區(qū)域內(nèi)的數(shù)據(jù)樣本按式(16)計(jì)算對(duì)應(yīng)前后模態(tài)的隸屬度實(shí)現(xiàn)過(guò)渡模態(tài)的識(shí)別;
(7)間歇過(guò)程模態(tài)劃分完成。
以IDPC模態(tài)劃分結(jié)果為基礎(chǔ),分別對(duì)間歇過(guò)程各模態(tài)數(shù)據(jù)集建立RVM 預(yù)測(cè)模型,RVM 對(duì)于輸入x和輸出y之間的關(guān)系可描述為
對(duì)于在線樣本的待測(cè)變量xnew,根據(jù)樣本采樣時(shí)間確定樣本所屬模態(tài)r,將其標(biāo)準(zhǔn)化后得xˉnew,并傳入第r個(gè)RVM模型可獲得對(duì)應(yīng)的在線預(yù)測(cè)值y^new為
基于IDPC-RVM 的多模態(tài)間歇過(guò)程質(zhì)量變量在線預(yù)測(cè)流程如圖3所示,其算法步驟如下。
圖3 基于IDPC-RVM 的多模態(tài)間歇過(guò)程質(zhì)量變量在線預(yù)測(cè)流程圖Fig.3 Flow chart of online prediction of quality variables in multimode batch processes based on IDPC-RVM
(1)根據(jù)IDPC 模態(tài)劃分結(jié)果建立各模態(tài)數(shù)據(jù)集;
(2)對(duì)各模態(tài)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化并建立RVM 預(yù)測(cè)模型;
(3)對(duì)于每個(gè)在線樣本,根據(jù)樣本采樣時(shí)間確定所屬模態(tài)r;
(4)利用第r個(gè)模態(tài)數(shù)據(jù)的均值和標(biāo)準(zhǔn)差對(duì)在線樣本進(jìn)行標(biāo)準(zhǔn)化;
(5)標(biāo)準(zhǔn)化后的樣本由式(25)可獲得對(duì)應(yīng)的在線預(yù)測(cè)結(jié)果。
以青霉素發(fā)酵過(guò)程為研究對(duì)象,通過(guò)對(duì)比不同模態(tài)劃分方法下RVM 模型的青霉素濃度在線預(yù)測(cè)性能,驗(yàn)證所提方法的有效性。其中,采用如式(26)和式(27)所示的均方根誤差(RMSE)和判定系數(shù)(R2)來(lái)評(píng)價(jià)青霉素濃度的在線預(yù)測(cè)性能,更低的RMSE 和更高的R2代表具有更好的預(yù)測(cè)結(jié)果,其模型性能越好。
青霉素發(fā)酵過(guò)程是一個(gè)典型的多模態(tài)間歇過(guò)程,利用Pensim V2.0 仿真平臺(tái)[31],在不同初始條件和高斯白噪聲下生成35 批次數(shù)據(jù)。其中25 批次作為訓(xùn)練集用于間歇過(guò)程模態(tài)劃分,其余10個(gè)批次作為測(cè)試集用于測(cè)試不同模態(tài)劃分結(jié)果下多模態(tài)預(yù)測(cè)模型性能。每批次采樣時(shí)間為400 h,采樣間隔為1 h。因此,模態(tài)劃分?jǐn)?shù)據(jù)集為{Xi(400 × 17)},1 ≤i≤25。表1為青霉素發(fā)酵過(guò)程變量,選取青霉素濃度作為質(zhì)量變量進(jìn)行在線預(yù)測(cè)。
表1 青霉素發(fā)酵過(guò)程變量Table 1 Variables of penicillin fermentation process
對(duì)標(biāo)準(zhǔn)化后的青霉素發(fā)酵過(guò)程數(shù)據(jù)計(jì)算ρ和δ,圖4和圖5為某批次的ρ和決策圖。由圖4和圖5可知,青霉素發(fā)酵過(guò)程在第200 h 采樣點(diǎn)前樣本密度較小,在此之后樣本密度逐漸變大,整個(gè)過(guò)程被分為了密度相差較大的兩個(gè)區(qū)域,因此,青霉素發(fā)酵過(guò)程存在樣本密度不平衡的問(wèn)題。
圖4 青霉素發(fā)酵過(guò)程樣本密度Fig.4 Sample density of penicillin fermentation process
對(duì)圖5 中低密度區(qū)域內(nèi)的A點(diǎn)和高密度區(qū)域內(nèi)的B點(diǎn)進(jìn)行分析,點(diǎn)A和B在決策圖中的坐標(biāo)分別為(0.1696,0.1649),(0.9064,0.0499),可得A和B對(duì)應(yīng)樣本點(diǎn)的γ得分為0.0280 和0.0452。依據(jù)密度峰值聚類算法對(duì)決策圖中聚類中心點(diǎn)的選取原則,相較于點(diǎn)B,點(diǎn)A與其他數(shù)據(jù)點(diǎn)的偏離更大,其被選為模態(tài)中心的優(yōu)先級(jí)應(yīng)高于點(diǎn)B,然而,此時(shí)點(diǎn)A對(duì)應(yīng)數(shù)據(jù)樣本的γ得分卻低于點(diǎn)B對(duì)應(yīng)數(shù)據(jù)樣本的γ得分,造成了模態(tài)中心的錯(cuò)誤選取。利用本文提出的θ得分分別計(jì)算點(diǎn)A和B對(duì)應(yīng)樣本的得分值為0.0173 和0.0093,前者得分大于后者。因此,本文提出的θ得分能夠更客觀地表示每個(gè)樣本被選為模態(tài)中心的得分,克服在選取低密度區(qū)域模態(tài)中心時(shí)受到高密度區(qū)域非模態(tài)中心點(diǎn)干擾的問(wèn)題。
圖5 決策圖Fig.5 Decision graph
按式(6)計(jì)算所有批次數(shù)據(jù)點(diǎn)的θ得分,最終識(shí)別到的拐點(diǎn)索引xp為393(τ取1.3),因此每批次數(shù)據(jù)排序后的θ值從394 至400 所對(duì)應(yīng)的樣本被選為
設(shè)定模態(tài)數(shù)目為4,對(duì)比不同方法下獲得的穩(wěn)定模態(tài)(steady mode,SM),如圖8 所示。從圖中可知,SCFCM 算法雖然獲得了較好的模態(tài)劃分結(jié)果,但該算法需要人為輸入模態(tài)數(shù)目用于尋找初始模態(tài)中心,不同的初始模態(tài)中心會(huì)產(chǎn)生不同的模態(tài)劃分結(jié)果;DPC 方法在選取模態(tài)中心時(shí)錯(cuò)誤地將高密度區(qū)域的非模態(tài)中心點(diǎn)選為了模態(tài)中心,導(dǎo)
圖8 不同方法的穩(wěn)定模態(tài)Fig.8 Steady modes with different methods
對(duì)最優(yōu)模態(tài)數(shù)目f*下的劃分結(jié)果進(jìn)行過(guò)渡模態(tài)(transition mode,TM)識(shí)別。每批次數(shù)據(jù)具有4 個(gè)穩(wěn)定模態(tài),因此需要進(jìn)行3次過(guò)渡模態(tài)識(shí)別,本文方法下設(shè)置的過(guò)渡模態(tài)判定閾值的搜索范圍為0.90至0.95,搜索間隔為0.005,最終的模態(tài)劃分結(jié)果如表2 所示。可以看出,SCFCM 方法在識(shí)別過(guò)渡模態(tài)時(shí)將第3 個(gè)穩(wěn)定模態(tài)和第4 個(gè)穩(wěn)定模態(tài)內(nèi)的大量樣本誤識(shí)別到了第3 個(gè)過(guò)渡模態(tài);而DPC 方法無(wú)法進(jìn)行過(guò)渡模態(tài)的識(shí)別。模態(tài)中心,所以F=7。以批次3 為例,圖6 與圖7 分別展示了該批次數(shù)據(jù)劃分為2 至7 個(gè)模態(tài)的結(jié)果及不同模態(tài)劃分?jǐn)?shù)目與模態(tài)劃分函數(shù)P、模態(tài)劃分指標(biāo)MPI 的關(guān)系。從圖7(a)可以看出,模態(tài)劃分函數(shù)值隨著模態(tài)數(shù)目的增加逐漸減小,當(dāng)模態(tài)數(shù)目較大時(shí),模態(tài)劃分函數(shù)值的變化量減慢,結(jié)合圖6的模態(tài)劃分結(jié)果可知此時(shí)出現(xiàn)了樣本數(shù)較少的穩(wěn)定模態(tài),不利于質(zhì)量變量預(yù)測(cè)模型的建立。依據(jù)圖7(b)模態(tài)劃分指標(biāo)MPI 的變化情況可以看出,當(dāng)模態(tài)數(shù)目為4 時(shí)對(duì)應(yīng)的MPI 值最小,因此最優(yōu)模態(tài)數(shù)目為4,即f*= 4。致錯(cuò)誤地將發(fā)酵過(guò)程后期分為了兩個(gè)模態(tài),并且在所識(shí)別到的第2 個(gè)模態(tài)中有大量樣本被錯(cuò)誤分配到了第4 個(gè)模態(tài),即模態(tài)劃分結(jié)果不滿足時(shí)序約束的要求;本文方法在進(jìn)行模態(tài)劃分時(shí)考慮過(guò)程數(shù)據(jù)的高維特征,通過(guò)合理的模態(tài)中心選取以及對(duì)剩余樣本進(jìn)行時(shí)序的模態(tài)分配,獲得了較好的模態(tài)劃分結(jié)果。
圖6 批次3在不同模態(tài)數(shù)目下的劃分結(jié)果Fig.6 Partitioning results of batch 3 with different number of modes
圖7 最優(yōu)模態(tài)數(shù)目判別Fig.7 Discrimination of the optimal number of modes
根據(jù)表2 不同方法下的模態(tài)劃分結(jié)果,分別建立RVM、SCFCM-RVM、DPC-RVM 以及IDPC-RVM的多模態(tài)預(yù)測(cè)模型對(duì)10 個(gè)測(cè)試批次的青霉素濃度進(jìn)行在線預(yù)測(cè)。
表2 不同方法的最終模態(tài)劃分結(jié)果Table 2 Final mode partitioning results of different methods
圖9中青霉素濃度的預(yù)測(cè)值和實(shí)際值的變化圖表明本文方法的預(yù)測(cè)值更接近于實(shí)際值,其中未考慮模態(tài)因素的RVM 預(yù)測(cè)模型對(duì)青霉素濃度的預(yù)測(cè)在整個(gè)發(fā)酵過(guò)程中與實(shí)際值均有較大的偏離。圖10 為測(cè)試批次1 在各采樣點(diǎn)處的預(yù)測(cè)誤差,可以看出本文方法的預(yù)測(cè)誤差始終在0附近具有很小的波動(dòng),表明本文方法對(duì)青霉素濃度具有很好的預(yù)測(cè)和跟蹤性能。從圖11 可以看出,相較于RVM、SCFCM-RVM 和DPC-RVM 方法,本文方法對(duì)10 個(gè)測(cè)試批次均具有最低的預(yù)測(cè)誤差,且對(duì)不同批次的預(yù)測(cè)誤差波動(dòng)較小,具有較好的穩(wěn)定性。如表3 所示,本文方法對(duì)青霉素濃度預(yù)測(cè)的R2提升至0.9995,RMSE 比RVM、SCFCM-RVM 和DPC-RVM 方法分別降低了84.3%、44.3%和75.7%,有效地提升了青霉素濃度的預(yù)測(cè)精度。
表3 不同方法下的平均RMSE和平均R2Table 3 Mean RMSE and mean R2 of different methods
圖9 測(cè)試批次1在不同方法下的預(yù)測(cè)結(jié)果Fig.9 Prediction results of test batch 1 with different methods
圖10 測(cè)試批次1各采樣點(diǎn)處的預(yù)測(cè)誤差Fig.10 Prediction error at each sampling point in test batch 1
圖11 不同批次的RMSEFig.11 RMSE of different batches
實(shí)驗(yàn)結(jié)果表明,基于單模型的預(yù)測(cè)方法對(duì)青霉素濃度的預(yù)測(cè)結(jié)果遠(yuǎn)不如基于多模型的預(yù)測(cè)方法。SCFCM-RVM 方法和DPC-RVM 方法雖然比單模型的預(yù)測(cè)方法具有更好的預(yù)測(cè)結(jié)果,但兩種方法在模態(tài)劃分時(shí)采用歐氏距離度量數(shù)據(jù)樣本間的相似性,均未考慮過(guò)程數(shù)據(jù)的高維特征;在選取模態(tài)中心時(shí),相較于SCFCM 方法,DPC 方法雖然能夠獲得數(shù)據(jù)樣本的密度峰值點(diǎn),但其低密度區(qū)域模態(tài)中心選取易受高密度區(qū)域非模態(tài)中心點(diǎn)干擾產(chǎn)生不合理的模態(tài)劃分結(jié)果,導(dǎo)致其預(yù)測(cè)誤差較大,且對(duì)不同批次的預(yù)測(cè)結(jié)果具有較大的波動(dòng)。與這些方法相比,本文方法考慮了過(guò)程數(shù)據(jù)的高維特征,且能夠獲取合理的模態(tài)中心,有效實(shí)現(xiàn)了青霉素發(fā)酵過(guò)程的模態(tài)劃分,提高了青霉素濃度的在線預(yù)測(cè)精度。
間歇過(guò)程數(shù)據(jù)的高維特征和模態(tài)中心選取影響模態(tài)劃分結(jié)果的合理性,導(dǎo)致間歇過(guò)程質(zhì)量變量在線預(yù)測(cè)精度較低。本文提出了一種基于IDPCRVM 的多模態(tài)間歇過(guò)程質(zhì)量變量在線預(yù)測(cè)方法。該方法所構(gòu)建的樣本距離計(jì)算函數(shù),充分考慮了過(guò)程數(shù)據(jù)高維特征對(duì)樣本相似性度量的影響,其結(jié)果更有利于間歇過(guò)程的模態(tài)劃分;在樣本密度不平衡情況下,結(jié)合提出的樣本得分計(jì)算方式,所構(gòu)建的模態(tài)中心選取策略能夠克服高密度區(qū)域非模態(tài)中心點(diǎn)的干擾,準(zhǔn)確獲取間歇過(guò)程的模態(tài)中心,避免了不合理的模態(tài)劃分結(jié)果,從而提高了多模態(tài)模型的預(yù)測(cè)精度。青霉素發(fā)酵過(guò)程的實(shí)驗(yàn)結(jié)果表明,相較于SCFCM-RVM 方法和DPC-RVM 方法,本文方法實(shí)現(xiàn)了合理的模態(tài)劃分,建立的多模態(tài)模型進(jìn)一步提升了青霉素濃度的在線預(yù)測(cè)精度。