黃永紅,吳紅生,虞永勝
(1.江蘇大學(xué) 電氣信息工程學(xué)院,鎮(zhèn)江212013;2.江蘇弗洛瑞生物工程設(shè)備有限公司,鎮(zhèn)江212200)
近年來,隨著現(xiàn)代生物技術(shù)的不斷發(fā)展,動物細(xì)胞體外懸浮培養(yǎng)技術(shù)備受關(guān)注,已廣泛應(yīng)用于各類生物制品以及獸用疫苗的生產(chǎn)研究過程中[1]。我國是農(nóng)業(yè)大國,同時也是畜牧養(yǎng)殖業(yè)大國,動物傳染病的暴發(fā)流行對我國國民經(jīng)濟(jì)影響較大[2]。禽流感病毒AIV(avian influenza virus)是動物界常見的一種急性傳染病,目前全世界每年約有(25~50)萬人死于AIV[3]。我國現(xiàn)階段預(yù)防AIV 的主要方法是采用滅活疫苗免疫接種,當(dāng)前,大多數(shù)的禽流感滅活疫苗均通過禽流感疫苗細(xì)胞體外懸浮培養(yǎng)的方式進(jìn)行病毒抗原的大量生產(chǎn)。該方法具有活細(xì)胞密度高、空間利用率大、工藝條件穩(wěn)定等優(yōu)點。
禽流感疫苗MDCK 細(xì)胞體外懸浮培養(yǎng)是一個高度復(fù)雜的非線性過程,培養(yǎng)過程包含許多難以實時在線測量的關(guān)鍵狀態(tài)變量,如基質(zhì)濃度(主要為葡萄糖)、代謝產(chǎn)物(主要是乳酸)和活細(xì)胞密度等。這些變量直接影響著MDCK 細(xì)胞的產(chǎn)量和質(zhì)量,所以實現(xiàn)懸浮培養(yǎng)過程的實時在線監(jiān)測和控制、優(yōu)化培養(yǎng)條件,從而使細(xì)胞達(dá)到最佳生長狀態(tài)是大量高效制備禽流感疫苗的前提[4]。
軟測量技術(shù),利用易在線測量的量來預(yù)測難以實時在線測量的量,是合理解決以上弊端的主流方式。傳統(tǒng)的軟件測量建模方法,例如多元線形回歸法和基于時間序列的分析法,無法獲取最佳的預(yù)測結(jié)果。
人工神經(jīng)網(wǎng)絡(luò)算法在非線性計算方面優(yōu)勢顯著,并在工業(yè)建模和模型優(yōu)化方面得到普遍推廣,人工神經(jīng)網(wǎng)絡(luò)結(jié)果的建立具有較強(qiáng)的主觀性特點,且在具體學(xué)習(xí)階段弊端顯著。文獻(xiàn)[5]采用灰色關(guān)聯(lián)度分析法GRA 法建立人工神經(jīng)網(wǎng)絡(luò)系統(tǒng),并對糧食產(chǎn)量進(jìn)行科學(xué)預(yù)測,在前期對輸入變量的篩選剔除主觀性影響,提升了BP 網(wǎng)絡(luò)的自適應(yīng)能力和預(yù)測精度。文獻(xiàn)[6]基于幾種典型的預(yù)測模型的精度及魯棒性特點,提出了模糊聚類分析法FCM 的多模型結(jié)構(gòu)特點。
文獻(xiàn)[7]選用最小二乘法支持向量模型,并將其應(yīng)用在草酸鈷粒度的測試實踐中,獲取了最終單一化最小二乘支持向量模型的高精度預(yù)測結(jié)果。然而,在具體的工業(yè)生產(chǎn)實踐中,該預(yù)測模型存在一定的滯后性,例如:系統(tǒng)的數(shù)據(jù)存儲單元在工作時存在延時性,導(dǎo)致數(shù)據(jù)傳輸出現(xiàn)延時,而靜態(tài)軟測定建模技術(shù)尚未分析滯后因素,致使變量和主變量之間的關(guān)系出現(xiàn)異常,最終導(dǎo)致建模結(jié)果精度降低。
文獻(xiàn)[8]將動態(tài)軟測量應(yīng)用到BHK-21 細(xì)胞懸浮培養(yǎng)的活細(xì)胞密度、乳酸濃度和葡萄糖濃度的軟測量上,提出了一種動態(tài)關(guān)聯(lián)向量機(jī)DRVM 軟測量。關(guān)聯(lián)向量機(jī)RVM(relevance vector machine)具有支持向量機(jī)SVM(support vector machine)的所有優(yōu)點,與SVM 相比,RVM 更稀疏、 更適用于在線檢測,并且動態(tài)軟測量更符合實際工業(yè)生產(chǎn)。然而,DRVM模型也存在一些問題,如模型的預(yù)測時間長,其泛化能力受實際生產(chǎn)中數(shù)據(jù)缺失等的影響嚴(yán)重。
綜上所述,在此提出一種基于灰色關(guān)聯(lián)分析和核模糊聚類的動態(tài)關(guān)聯(lián)向量機(jī)GRA-KFCM-DRVM的測試建模技術(shù)。
設(shè)給定樣本集{vi,ti},其中:i=1,2,…,n;vi∈Rd,vi為輸入樣本;ti∈R,ti為輸出采 樣值;n 為樣本總數(shù)。通過對樣本的學(xué)習(xí),其回歸模型與SVM 相同,即
式中:{ωi}為權(quán)值向量;K(v,vi)為核函數(shù),一般取高斯徑向基RBF(radial basis function)核函數(shù),即
假設(shè),vi與ti都屬于獨立分布,且噪聲εi服從均值為零方差為σ2的高斯分布,則其輸出為
若目標(biāo)值ti獨立同分布,訓(xùn)練樣本集的似然函數(shù)為
其中
式中:Φ 為核函數(shù)組成的n×(n+1)階矩陣,即
其中
為了防止在評價ω 極大似然估計時過學(xué)習(xí)問題的出現(xiàn),并進(jìn)一步提高模型的泛化能力,RVM 定義的每個權(quán)值的高斯先驗概率分布為
其中
式中:a 為決定權(quán)值ω 的先驗分布的超參數(shù)。
RVM 算法推理過程的流程如圖1 所示。
圖1 RVM 算法流程Fig.1 RVM algorithm flow chart
通常采用{x(k),y(k)}的形式進(jìn)行軟測量建模,這是當(dāng)前測試實踐中普遍使用的靜態(tài)測量建模技術(shù)。該技術(shù)采用靜態(tài)測量模式,并將滯后及延時因素考慮在內(nèi)。與穩(wěn)態(tài)技術(shù)相比,在工業(yè)生產(chǎn)實踐中,很多流程處于動態(tài)過程中,實際的工業(yè)測量難以保證其始終處于工作區(qū)域內(nèi)。換言之,在k 值影響下的輸出變量不僅是k 時刻的數(shù)據(jù)輸入x(k),還包括過渡階段的x(k-1),x(k-2),…,x(k-m+1),其中m為數(shù)據(jù)長度。考慮實際生產(chǎn)過程的動態(tài)因素,動態(tài)關(guān)聯(lián)向量機(jī)DRVM 軟測量模型的原理如圖2 所示。
圖2 DRVM 軟測量原理Fig.2 DRVM soft sensing schematic
在圖2 中經(jīng)過動態(tài)加權(quán)后新的輸入變量為
式中:n 為輔助變量的個數(shù);m 為數(shù)據(jù)長度;d 為人為測量造成的純時延;wj為動態(tài)權(quán)值。則DRVM 的預(yù)測輸出為
取自現(xiàn)場工業(yè)生產(chǎn)現(xiàn)場的樣本尚未降噪,而且在生產(chǎn)實踐中依照現(xiàn)場調(diào)度情況進(jìn)行的生產(chǎn)調(diào)整,會造成很多孤立點的存在和數(shù)據(jù)的遺失,這些都會不同程度地影響動態(tài)關(guān)聯(lián)條件下向量模型的數(shù)據(jù)訓(xùn)練效果,且DRVM 模型對于訓(xùn)練集合中的數(shù)據(jù)降噪要求及孤立點敏感性較高[9]。為了切實克服這一弊端,建立了滿足這種不完整數(shù)據(jù)且存在噪音的模糊核聚類算法,實現(xiàn)輸入數(shù)據(jù)的智能化遴選,降低奇異點對支持向量機(jī)的模型影響。
聚類分析是將一組已經(jīng)給定的未知樣本數(shù)據(jù)依照類型劃分,使得相同類型樣本的相似度較高,且不同類型的樣本相似度低,聚類分析的目的是深度描繪數(shù)據(jù)的內(nèi)在結(jié)構(gòu)形式。其中,模糊c-均值聚類分析算法FCMA(fuzzy c-means algorithm)將模糊數(shù)學(xué)基本理論與聚類分析相結(jié)合,是當(dāng)前主要使用的聚類分析法之一[10]。使用核函數(shù)并將其添加到FCM內(nèi),建立模糊矩陣,通過數(shù)據(jù)輸入空間引導(dǎo)一類核函數(shù)的依賴距離測定,并將FCM 在歐拉坐標(biāo)下的距離標(biāo)準(zhǔn)推廣到相同空間內(nèi)的不同距離聚類測量中,提升不完整數(shù)據(jù)及噪音數(shù)據(jù)的魯棒性和精度指標(biāo)。
模糊核函數(shù)距離算法的目標(biāo)函數(shù)[11]為
式中:xj為樣本集;vi為聚類中心;隸屬度值uij應(yīng)滿足以下3 個條件:
定義核函數(shù)K(x,y),滿足
將式(9)展開并代入核函數(shù),在式(10)的約束下優(yōu)化,得到
最終,把樣本分成N 個子類,并對不同的子空間建立相應(yīng)的關(guān)聯(lián)隨機(jī)向量模型,依照樣本的時間、空間特點和分布情況,對不同類型的樣本賦值不同的隸屬度指標(biāo)uj,采用加權(quán)計算法得到的輸出結(jié)果為
MDCK 細(xì)胞體外懸浮培養(yǎng)過程中營養(yǎng)物質(zhì)的耗竭和大量代謝副產(chǎn)物的積累是限制活細(xì)胞生長密度、影響培養(yǎng)過程的主要因素,而細(xì)胞生長過程中主要的營養(yǎng)物質(zhì)是葡萄糖,此外還有8 種必需的氨基酸及其他非必需氨基酸。
葡萄糖為MDCK 細(xì)胞生長提供主要的碳源,是最重要的能源來源之一,葡萄糖通過分解產(chǎn)生乳酸。分析葡萄糖的濃度值和乳酸濃度值的高低,對MDCK 細(xì)胞體外懸浮培養(yǎng)生產(chǎn)禽流感疫苗的過程影響顯著。此外,活細(xì)胞的濃度指標(biāo)是禽流感疫苗生產(chǎn)效率的重要表征,參數(shù)值預(yù)測的目的是為了能夠更加精準(zhǔn)地測定并控制活細(xì)胞的濃度,為生產(chǎn)疫苗做儲備。故在此選定葡萄糖濃度、乳酸濃度、活細(xì)胞濃度作為DRVM 測量模型的主變量。
影響DRVM 模型主導(dǎo)變量的因素有很多。所選擇的輸入變量過多會加大模型的復(fù)雜度,增加模型預(yù)測時間;選擇不當(dāng)還會影響模型預(yù)測精度。
灰色關(guān)聯(lián)分析(GRA)屬于一類相對性的序列排布分析法[12]。它可以測定系統(tǒng)內(nèi)不同因素的關(guān)聯(lián)度,進(jìn)而為確定細(xì)胞濃度等因素的重要性奠定基礎(chǔ)。GRA 理論的核心思想是基于空間結(jié)合圖形外形相似度的關(guān)聯(lián)度評價[13]。其計算流程如下:
步驟1計算表征行為特點的輸出序列及影響行為系統(tǒng)的輸入序列的標(biāo)準(zhǔn)化處理方式。
步驟2關(guān)聯(lián)度的計算。在t=n 時,輸入序列{xi(n)}和輸出序列{xo(n)}的關(guān)聯(lián)指標(biāo)為
式中:λ 為分辨系數(shù),且0<λ<1;Δmin為第二最小差值;Δmax為兩級的最大差值;Δio(n)為不同輸入序列的{xi(n)}曲線對應(yīng)的輸出序列{xo(n)}中的不同點的差值絕對值。
步驟3關(guān)聯(lián)度τio的計算。輸入及輸出序列的關(guān)聯(lián)度標(biāo)準(zhǔn)計算為
步驟4關(guān)聯(lián)度的序列排布。計算關(guān)聯(lián)度指標(biāo)的序列值。采用灰色關(guān)聯(lián)度計算法,定量分析不同因素對測試軟件及模型的影響程度[14]。從原理層面分析,得到影響主導(dǎo)變量的環(huán)境變量有:溫度T(X1),pH 值(X2),O2溶解量DO(X3),O2分壓PO2(X4),CO2分壓PCO2(X5),體積V(X6),壓力P(X7)。進(jìn)一步對所得變量做灰色關(guān)聯(lián)分析,計算出每個變量與主導(dǎo)變量葡萄糖濃度(Y1)、乳酸濃度(Y2)、活細(xì)胞密度(Y3)的關(guān)聯(lián)度; 選擇1 個培養(yǎng)批次的數(shù)據(jù)作為樣本,取分辨系數(shù)λ=0.5,計算結(jié)果見表1。
表1 環(huán)境變量與主導(dǎo)變量的關(guān)聯(lián)度Tab.1 Relevance between environmental variables and dominant variables
根據(jù)表1 關(guān)聯(lián)度指標(biāo)計算結(jié)果,分析不同環(huán)節(jié)的變量之間的相互關(guān)聯(lián)度指標(biāo),然后按照綜合關(guān)聯(lián)度的大小進(jìn)行排序,得到:A2>A6>A3>A1>A4>A5>A7(其中A 為各環(huán)境變量與主導(dǎo)變量的綜合關(guān)聯(lián)度)。此外,PO2,PCO2及P 與主導(dǎo)變量的關(guān)聯(lián)度均低于0.5,表明這3 個變量對主導(dǎo)變量的影響不大。因此最終選擇T,pH,DO,V 這4 個環(huán)境變量作為輔助變量。軟測量模型結(jié)構(gòu)如圖3 所示。
圖3 DRVM 軟測量模型結(jié)構(gòu)Fig.3 DRVM soft sensing model structure
試驗中共采集5 個培養(yǎng)批次的數(shù)據(jù),對樣本數(shù)據(jù)進(jìn)行歸一化處理分析,并將歸一化后的數(shù)據(jù)(不同批次數(shù)據(jù)含有58 個樣本,不同樣本中含有7 個變量,分別為軟測試變量模型的輔助變量和主體變量)拆分為2 批次,一批次為訓(xùn)練樣本,用于訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)(前4 批次,含232 樣本),另一批次為測試樣本集合(另5 個批次,58 個樣本)。
根據(jù)樣本的數(shù)據(jù)特點,把232 個樣本分為16類,并對不同的子類型建立動態(tài)化的關(guān)聯(lián)向量機(jī)模型,依照樣本在時空上的分布特點,對不同的樣本賦值不同的隸屬度指標(biāo)ui,借助加權(quán)計算法得到輸出結(jié)果。軟測試建模分析流程如圖4 所示。
圖4 基于GRA-KFCM-DRVM 軟測量建模Fig.4 Soft sensing modeling based on GRA-KFCM-DRVM
基于MDCK 細(xì)胞懸浮培養(yǎng)生產(chǎn)禽流感疫苗階段的技術(shù)要求,將反應(yīng)器內(nèi)的溫度保持在36.5 ℃左右,pH 值控制在7.0~7.2,勻速攪拌速率控制在30 r/min,氧氣溶解量控制在40%~45%。
為驗證GRA-KFCM-DRVM 模型的預(yù)測精度,將其與DRVM 軟測量模型預(yù)測結(jié)果做對比。在MatLab 環(huán)境下進(jìn)行仿真,仿真結(jié)果如圖5,圖6 和圖7 所示;誤差如圖8,圖9 和圖10 所示。
由圖5,圖6 和圖7 可見,與DRVM 模型的預(yù)測效果相比,GRA-KFCM-DRVM 模型的預(yù)測結(jié)果更接近參數(shù)的真實值,同時GRA-KFCM-DRVM 的確定系數(shù)R2更接近于1。說明GRA-KFCM-DRVM 的預(yù)測精度較高于DRVM。
圖5 葡萄糖濃度預(yù)測趨勢曲線Fig.5 Trend curve for predicting glucose concentration
圖6 乳酸濃度預(yù)測趨勢曲線Fig.6 Predictive trend curve of lactic acid concentration
圖7 活細(xì)胞密度預(yù)測趨勢曲線Fig.7 Trend curve for predicting living cell density
葡萄糖濃度預(yù)測誤差曲線如圖8 所示。由圖可見,DRVM 模型的最大誤差為7.7%;GRA-KFCMDRVM 模型的最大誤差為3.6%。結(jié)果表明,GRAKFCM-DRVM 模型的預(yù)測精度更高; 由圖形的走勢可見,GRA-KFCM-DRVM 波動更小、更加穩(wěn)定。
乳酸濃度預(yù)測誤差曲線如圖9 所示。由圖可見,DRVM 模型的最大誤差為6.6%;GRA-KFCMDRVM 模型的最大誤差為4.9%,小于DRVM 模型的預(yù)測誤差,且隨著樣本量的增加GRA-KFCMDRVM 模型的預(yù)測誤差越來越穩(wěn)定。DRVM 模型和GRA-KFCM-DRVM 模型的活細(xì)胞密度預(yù)測誤差曲線如圖10 所示。由2 個模型的走勢可見,GRA-KFCM-DRVM 模型的預(yù)測精度更高且更穩(wěn)定。
圖8 葡萄糖濃度預(yù)測誤差Fig.8 Prediction error of glucose concentration
圖9 乳酸濃度預(yù)測誤差曲線Fig.9 Error curve of lactic acid concentration prediction
圖10 活細(xì)胞密度預(yù)測誤差Fig.10 Prediction error of living cell density
為了更直觀地說明GRA-KFCM-DRVM 模型的優(yōu)勢,利用最大誤差eMSE,決定系數(shù)R2和預(yù)測時間3個性能評價指標(biāo)來反映其優(yōu)越性(見表2)。由表可知,GRA-KFCM-DRVM 模型的誤差更低,R2更接近1;DRVM 模型的預(yù)測時間更短,但與GRA-KFCMDRVM 模型相差不大,且GRA-KFCM-DRVM 模型的預(yù)測時間在合理的范圍內(nèi)。結(jié)果表明GRAKFCM-DRVM 模型性能更好。
表2 模型的性能比較Tab.2 Performance comparison of model
在動態(tài)關(guān)聯(lián)向量機(jī)的基礎(chǔ)上,提出基于灰色關(guān)聯(lián)分析的模糊核聚類DRVM 軟測試建模技術(shù),并對通過灰色關(guān)聯(lián)度遴選的樣本進(jìn)行模糊核聚類分析,降低或者直接剔除缺失數(shù)據(jù)和噪音數(shù)據(jù)對動態(tài)關(guān)聯(lián)向量機(jī)模型的影響程度。選用真實數(shù)據(jù)的論證結(jié)果表明,基于靜態(tài)軟測試模型基礎(chǔ)而建立的動態(tài)軟測量模型,相較于一般靜態(tài)模型,能夠深刻反映工業(yè)生產(chǎn)階段的動態(tài)化本質(zhì)特點;通過灰色關(guān)聯(lián)分析確定了與主導(dǎo)變量密切關(guān)聯(lián)的輔助變量,減少了計算維度,利用模糊核聚類對新樣本進(jìn)行聚類,增強(qiáng)了模型魯棒性,提高了模型的泛化能力;通過仿真驗證分析,與原有的DRVM 模型相比,GRA-KFCMDRVM 模型的預(yù)測精度更高、更穩(wěn)定。