焦 敏 張 湜 李麗娟 李 霜 黃 和
(南京工業(yè)大學(xué)自動化與電氣工程學(xué)院1,江蘇 南京 211816;南京工業(yè)大學(xué)生物與制藥工程學(xué)院2,江蘇 南京 211816)
花生四烯酸發(fā)酵過程的建模方法研究
焦 敏1張 湜1李麗娟1李 霜2黃 和2
(南京工業(yè)大學(xué)自動化與電氣工程學(xué)院1,江蘇 南京 211816;南京工業(yè)大學(xué)生物與制藥工程學(xué)院2,江蘇 南京 211816)
對發(fā)酵法生產(chǎn)花生四烯酸的建模方法進行了初步研究,并基于四種溫度下的試驗數(shù)據(jù),建立了發(fā)酵過程模型。比較分析了最小二乘支持向量機(LS-SVM)和廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)這兩種方法的特點。結(jié)果表明,這兩種方法均能較好地建立該發(fā)酵過程的模型,LS-SVM建模的預(yù)測能力稍優(yōu)于GRNN,為后續(xù)花生四烯酸發(fā)酵過程的優(yōu)化及控制的研究奠定了基礎(chǔ)。
發(fā)酵過程 最小二乘支持向量機 廣義回歸神經(jīng)網(wǎng)絡(luò) 建模 Matlab
花生四烯酸(arachidonic acid,AA或ARA)是一種重要的人體多不飽和高級脂肪酸,它對人體的免疫系統(tǒng)及心血管系統(tǒng)具有十分重要的作用[1]。迄今為止,花生四烯酸已經(jīng)在醫(yī)藥、化工、保健食品、化妝品等領(lǐng)域得到廣泛應(yīng)用[2]。使用傳統(tǒng)方法制備ARA不僅價格昂貴,而且不能滿足大量的市場需求[3]。本文利用微生物發(fā)酵的方法。與傳統(tǒng)方制備法相比,采用該方法不僅ARA產(chǎn)量大,而且綠色環(huán)保[4-5],這也和國家現(xiàn)在大力提倡的低碳經(jīng)濟不謀而合。
本研究以實驗室中高山被孢霉發(fā)酵生產(chǎn)ARA為研究背景,針對實驗數(shù)據(jù)樣本小的特點,選擇最小二乘支持向量機(LS-SVM)與廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network,GRNN)的方法建立ARA產(chǎn)量的模型,并通過均方差(MSE)和平均絕對誤差(MAE)兩個性能指標(biāo)來評判模型的優(yōu)劣性,最后對結(jié)果進行了分析與比較。
最小二乘支持向量機由Suyken等人提出,它的訓(xùn)練過程用等式約束替代了傳統(tǒng)的不等式約束,并且用誤差平方和損失函數(shù)作為訓(xùn)練集的經(jīng)驗損失,將解二次規(guī)劃問題轉(zhuǎn)化為求解線性方程組問題,大大提高了求解問題的計算速度。
首先假設(shè)訓(xùn)練樣本集為(x1,y1),…,(xi,yi)(i為樣本的數(shù)量),用一個非線性映射ψ(·)將原樣本空間Rn映射到特征空間φ(xi),在高維特征空間中建立最優(yōu)決策函數(shù):
式中:ω∈Rn(原樣本空間),為權(quán)重向量;b為偏置。
利用結(jié)構(gòu)風(fēng)險最小化原則,最小二乘支持向量機可轉(zhuǎn)化為在一定約束條件下求解最小化泛函的問題:
約束條件為:
式中:ωT、ω為控制模型的復(fù)雜度;c為正規(guī)化參數(shù);ξi為松弛因子,i=1,2,...,l。
用拉格朗日法求解這個優(yōu)化問題,即:
式中:ω為權(quán)重向量;b為偏置;ξi為松弛因子;αi為拉格朗日算子。
由Karush-Kuhn-Tucker(KKT)最優(yōu)條件,通過對ω、b、ξi和α求偏微導(dǎo)并令各式等于0,聯(lián)立可得:
求解上式可得LS-SVM非線性回歸函數(shù)為:
式中:K(xi,xj)=φT(xi)φ(xj)為核函數(shù)。
常用的核函數(shù)主要分為以下幾種[6]。
①多項式核函數(shù)
式中:q∈N;c>0。
②徑向基核函數(shù)(RBF)
式中:σ為核函數(shù)的參數(shù),它定義了從原始空間到高維特征空間的非線性映射。
③Sigmoid核函數(shù)
式中:b、c為常數(shù)。
由此可見,LS-SVM模型主要是對式(5)進行求解。核函數(shù)的引入避免了高維空間容易造成的“維數(shù)災(zāi)難”,并解決了大量的計算問題[7]。研究表明,徑向基核函數(shù)RBF的效果較好,故本文采用RBF核函數(shù)的LS-SVM。
由于生物發(fā)酵過程是一個緩慢的過程,相鄰采樣點的數(shù)據(jù)一般不會發(fā)生突變,因此,本文采用三次平滑樣條插值的擬合方法。具體實現(xiàn)方法是通過調(diào)用Matlab中的spline函數(shù)實現(xiàn)。
本文以高山被孢霉發(fā)酵生產(chǎn)花生四烯酸ARA為研究對象,選擇15℃、20℃和25℃時的三組溫度下的試驗數(shù)據(jù)作為建模使用,28℃時數(shù)據(jù)作外推使用。具體實現(xiàn)方法是將每組數(shù)據(jù)中的時間、溫度、pH作為輸入變量,將花生四烯酸的產(chǎn)量作為輸出變量,采用LSSVM以及廣義回歸神經(jīng)網(wǎng)絡(luò)GRNN來建立模型[8]。
首先將LS-SVM lab1.5工具箱添加到Matlab中的toolbox,其使用方法可參見相關(guān)的資料,主要程序代碼如下。
其中,LS-SVM中g(shù)am和sig2為兩個可調(diào)整的參數(shù),前者是正則化參數(shù),決定了適應(yīng)誤差的最小化和平滑程度;后者是RBF核函數(shù)的參數(shù)。其中classification用于分類,function estimation用作函數(shù)回歸使用。P、T分別為訓(xùn)練網(wǎng)絡(luò)的輸入和輸出。
通過仿真,LS-SVM擬合及外推效果如圖1所示。其中:“﹡”線表示產(chǎn)物花生四烯酸(ARA)產(chǎn)量的試驗測量值;實線表示LS-SVM模型的計算值;縱坐標(biāo)X為細胞干重。
圖1 LS-SVM擬合及外推效果Fig.1 The results of LS-SVM fitting and extrapolation
為了評判LS-SVM建模效果的優(yōu)劣[9],在此引入均方差性能指標(biāo)(MSE)和平均絕對誤差性能指標(biāo)(MAE),LS-SVM的性能指標(biāo)如表1所示。
表1 LS-SVM的性能指標(biāo)Tab.1 The performance indexes of LS-SVM
廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)是徑向基網(wǎng)絡(luò)的一種變化形式,它的特點是訓(xùn)練速度快、非線性映射能力強,適合于進行曲線逼近擬合。為了與上述LS-SVM的建模方法進行比較,現(xiàn)擬用廣義回歸神經(jīng)網(wǎng)絡(luò)GRNN進行建模。
GRNN建模的具體方法如下:針對同一批數(shù)據(jù)使用GRNN神經(jīng)網(wǎng)絡(luò)進行建模,同樣計算所建立模型的擬合誤差和外推誤差,并與LS-SVM進行比較。GRNN神經(jīng)網(wǎng)絡(luò)的創(chuàng)建是調(diào)用Matlab函數(shù)庫中的newgrnn函數(shù),具體調(diào)用格式為:net=newgrnn(P,T,spread)。其中:P為R×Q維的輸入向量;T為S×Q維的輸出向量;spread為散步常數(shù),它的選取是關(guān)鍵,數(shù)值越大,代表需要的神經(jīng)元就越少,但同時精度會下降,本網(wǎng)絡(luò)中選取的散步常數(shù)為0.1。
通過仿真,得到GRNN模擬擬合及外推效果曲線如圖2所示。其中:“﹡”線表示產(chǎn)物花生四烯酸(ARA)產(chǎn)量的試驗測量值;實線表示GRNN模型的計算值。
圖2 GRNN擬合及外推效果曲線Fig.2 The results curves of GRNN fitting and extrapolation
GRNN的性能指標(biāo)如表2所示。
表2 GRNN的性能指標(biāo)Tab.2 The performance indexes of GRNN
為了便于分析與比較上述兩種建模方法的優(yōu)劣性,將表1和表2聯(lián)立,得到LS-SVM與GRNN的性能比較,具體如表3所示。
表3LS-SVM與GRNN性能比較Tab.3 Performance comparison of LS-SVM and GRNN
由表3可以看出,GRNN神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集性能指標(biāo)(即擬合精度)較LS-SVM要好,但LS-SVM的測試集性能(即預(yù)測精度)卻略優(yōu)于GRNN神經(jīng)網(wǎng)絡(luò)。究其原因,主要是由于ARA發(fā)酵過程中的數(shù)據(jù)量較小,對于小樣本數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)“過擬合”現(xiàn)象,外推能力得不到最優(yōu)化;而LS-SVM模型則可以防止此類現(xiàn)象的出現(xiàn),預(yù)測能力較神經(jīng)網(wǎng)絡(luò)GRNN好。
本文使用了最小二乘支持向量機和廣義回歸神經(jīng)網(wǎng)絡(luò)兩種方法建立了花生四烯酸發(fā)酵過程的模型。通過仿真結(jié)果表明:這兩種方法相差不大,均能較好地建立該發(fā)酵過程的模型,但LS-SVM建模的預(yù)測能力稍優(yōu)于GRNN。這為后續(xù)花生四烯酸發(fā)酵過程的優(yōu)化及調(diào)控奠定了基礎(chǔ)。
本文所使用的兩種建模方法的預(yù)測精度均受到模型參數(shù)(如GRNN中的散步常數(shù)spread,LS-SVM中的gam和sig2)的影響,未來研究的主要方向可集中在對模型參數(shù)的優(yōu)化以及算法的改進等方面。
[1]姚昕,秦文,齊春梅,等.花生四烯酸的生理活性及其應(yīng)用[J].糧油加工與食品機械,2004,10(5):57-59.
[2]楊朝霞,張麗,李朝陽.花生四烯酸的營養(yǎng)保健功能[J].食品與藥品,2005,7(1A):69-71.
[3] Singh A,Word O P.Production of high yield of arachidonic acid in a fed batch system by mortieralla alpina ATCC 32222 [J].Appl Microbiol Biotechnol,1997,48(7):1-5.
[4]周蓬蓬,余龍江,吳元喜,等.高山被孢霉產(chǎn)花生四烯酸發(fā)酵條件的研究[J].工業(yè)微生物,2003(2):414-415.
[5]歐陽平凱,韋萍,姚忠.生物化工研究現(xiàn)狀與發(fā)展趨勢[J].化工進展,2003,22(1):1-7.
[6]閻威武,朱宏棟,邵惠鶴.基于最小二乘支持向量機的軟測量建模[J].系統(tǒng)仿真學(xué)報,2003,15(10):1494-1496.
[7]閻威武,邵惠鶴.支持向量機和最小二乘支持向量機的比較及應(yīng)用研究[J].控制與決策,2003,18(3):358-360.
[8]陳文略,王子羊.三次樣條插值在工程擬合中的應(yīng)用[J].華中師范大學(xué)學(xué)報:自然科學(xué)版,2004,38(4):418-422.
[9]袁安平,張湜,姜珉,等.丁二酸發(fā)酵過程軟測量模型的參數(shù)優(yōu)化研究[J].化工自動化及儀表,2009,36(5):13-17.
Study on the Modeling Methods for Fermentation Process of Arachidonic Acid
The modeling method for fermentation process of arachidonic acid is studied preliminary,and on the basis of the test data under four of the temperatures,the model of fermentation process is setup.The features of two methods,i.e.least square support vector machine(LS-SVM)and generalized regression neural network(GRNN)are compared and analyzed.The result indicates that both these two methods are good to establish the model,while LS-SVM is better than GRNN on prediction capability.This builds foundation for researching the optimization and control of the fermentation process of arachidonic acid.
Fermentation process Least square support vector machine Generalized regression neural network Modeling Matlab
TP183
A
南京工業(yè)大學(xué)基金資助項目(編號:39710005)。
修改稿收到日期:2011-04-11。
焦敏,男,1985年生,現(xiàn)為南京工業(yè)大學(xué)控制理論與控制工程專業(yè)在讀碩士研究生;主要從事生化工程建模、優(yōu)化、控制方面的研究。