崔世鋼,石蘭婷,張永立,何 林,李欣頎,張靖宇
(天津職業(yè)技術師范大學,天津 300222)
蝦青素是一種酮類胡蘿卜素[1],比其他天然抗氧化藥物具有更強的抗氧化活性。蝦青素能夠對多種疾病起到輔助治療的作用,能夠抑制腫瘤生長、保護中樞神經系統(tǒng)、預防心腦血管疾病等,因此廣泛用于食品、醫(yī)藥和化妝品[2-4]。雨生紅球藻在特定的脅迫條件下可以快速積累蝦青素,最大積累量可達其干細胞重量的1%。近年來,國內外對于大量生產蝦青素的研究已經逐漸向培育雨生紅球藻靠攏[5]。
侯奇等[6]建立了預測李斯特菌生長的二級BP神經網絡模型。由于雨生紅球藻生長周期長,而且與大多數微生物不同,其生長狀態(tài)分為2個階段,不同階段生長條件也不相同,因此很少有可供參考的客觀數據。特別是在試驗過程中需要消耗大量的時間對雨生紅球藻的生長狀況進行觀測,但其生長趨勢依舊很難預測,導致反復試驗消耗大量的人力物力依舊不容易得到好的培養(yǎng)效果。因此建立雨生紅球藻生長趨勢的預測模型,對提高雨生紅球藻生產效率的研究提供重要的參考。鑒于此,根據影響雨生紅球藻生長的主要環(huán)境(pH),建立基于遺傳算法的BP神經網絡模型,并對雨生紅球藻生長狀況進行試驗驗證。
雨生紅球藻(Haematococcuspluvialis)是一種生活在淡水中的單細胞綠藻,其生長狀態(tài)分為細胞大量增殖階段和蝦青素積累階段。在環(huán)境適宜營養(yǎng)充足的條件下,該細胞主要呈現綠色并處于游動狀態(tài),此時繁殖迅速,蝦青素含量少。當生存環(huán)境惡劣時,為了保證正常生長游動細胞的鞭毛退化,細胞停止游動,為了保證正常生存開始大量積累蝦青素,細胞逐漸變?yōu)榧t色[7-8]。
根據雨生紅球藻的生長特性,國內外的學者提出了2階段生產方式的生產模式:第1階段是對藻細胞進行大量的增殖(也被稱為細胞增殖階段);第2階段是脅迫雨生紅球藻細胞快速積累蝦青素(也被稱為蝦青素積累階段)。大量研究表明,雨生紅球藻的生長需要很多適宜的條件,如溫度、光照強度、生存環(huán)境的營養(yǎng)成分、pH等,其中pH是關鍵因素之一。雨生紅球藻培養(yǎng)過程中,pH的范圍將直接影響藻類細胞的生長和蝦青素的積累[9]。相關研究表明,當擴培階段的藻液處于弱堿性(pH=7.0~9.0)時,光合作用效率大幅提高,藻細胞大量增殖。當誘導階段的藻液pH為7.0~8.0[10]時,蝦青素積累最快[11]。
BP神經網絡(Back Propagation Neural Network)是一種多層前饋神經網絡,可以通過誤差的反向傳播來修正層間的參數。通過輸入和期望輸出,學習需預測的數據樣本。通過輸入層將數據傳遞給隱藏層中的各個神經元,通過計算得到預測的輸出值,若預測值與實際值相減的誤差不滿足預測的精度,則輸入層將所得的誤差返回,從而修改各層之間的權閾值,使得到的預測輸出與實際輸出之間的誤差逐漸減小,直至滿足預測所需的精度。其學習規(guī)則采用梯度下降法,以此來得到目標函數的最小值,常用于解決復雜的非線性模型。
雨生紅球藻的生長環(huán)境參數與生長情況之間存在著非線性關系,因此采用對非線性函數具有最佳逼近性和全局最優(yōu)性能的神經網絡來預測雨生紅球藻的生長條件。該研究將雨生紅球藻的培養(yǎng)時的pH作為神經網絡的輸入量,其他環(huán)境變量保持不變,將試驗測得的生長狀態(tài)數據作為神經網絡的輸出量,建立雨生紅球藻在不同pH生長狀態(tài)預測模型。其拓撲結構如圖1所示。
圖1 BP神經網絡結構
遺傳算法(Genetic Algorithm,GA)起源于生物進化論,它是模擬自然界生物進化過程中優(yōu)勝劣汰的一種優(yōu)化算法。將種群和DNA的概念引入需要優(yōu)化的參數中,形成參數種群編碼,按照適應度函數對遺傳信息進行選擇、交叉、變異等操作,從而實現對個體的篩選。保留具有優(yōu)秀基因的個體,淘汰適應度差的個體。種群不斷地迭代、循環(huán)直至得到滿足條件的最優(yōu)解[12]。
BP神經網絡主要由信息前向傳播和誤差反向傳播組成。信息前向傳播指的是待預測數據經過輸入層傳遞到隱藏層中,在隱藏層通過對閾值和權值進行計算得到輸出結果。將預測結果和實際值做差得到預測的誤差值,將誤差值傳回隱藏層,并通過誤差函數對權值和閾值進行更新,不斷重復上述2個過程,最終得到理想的參數[13-15]。
由于BP神經網絡是采用梯度下降法來對相應的參數進行優(yōu)化,因此在優(yōu)化的過程中會因為初值的選取出現局部最小值的問題,這樣不僅訓練時間長,收斂速度也慢。因此,由于遺傳算法具有良好的全局尋優(yōu)能力,故采用其對BP神經網絡進行優(yōu)化,從而找到最優(yōu)的權值和閾值,提高預測模型的準確率。
3.1 BP神經網絡的建立
3.1.1設定初始參數。網絡的訓練方法采用梯度下降法。最大訓練次數epochs為2 000,學習率μ=0.005,目標誤差0.000 01。
3.1.2確定隱含層節(jié)點數。BP神經網絡選取結構為3層,分別是1個輸入神經元、5個隱含神經元和1個輸出神經元,分別對細胞和數量進行預測。其中,隱含層神經元數量根據式(1)確定為5個,并經過驗證可達到最佳的預測效果。
(1)
式中,n、l、m分別為輸入、輸出以及隱含層節(jié)點數量,α取1~10的整數。
3.1.3轉移函數的選取。隱含層的傳遞函數采用Tanh函數,值域為(-1, 1)。其定義為:
(2)
輸出層的傳遞函數采用Sigmoid函數。其函數定義見式(3):
(3)
3.2 遺傳算法優(yōu)化BP神經網絡將遺傳算法的3類遺傳算子與BP神經網絡的權值與閾值結合以來,通過對數據進行訓練,找到最優(yōu)的參數,進而達到對雨生紅球藻的生長趨勢的精準預測。其模型建立步驟如下:
3.2.1種群初始化。種群的個體是BP神經網絡的所有權值和閾值,對個體采用實數編碼。編碼采用二進制表示,長度為:
S=n×m+m+m×l+l
(4)
種群的規(guī)模要根據實際問題進行選取,才能使遺傳算法的優(yōu)化性能達到最好。因此,初始種群為15。
3.2.2適應度函數。通過編碼個體得到BP神經網絡的初始權值和閾值,以BP神經網絡訓練得到的輸出與實際輸出之間的絕對誤差E推出個體適應度值fi。
(5)
式中,BP神經網絡的預期輸出和實際輸出分別為yi、oi。根據適應度函數,期望輸出和實際輸出的誤差越小,適應度函數越大。
3.2.3選擇操作。從種群中選擇優(yōu)秀個體作為繁殖后代的母體。方法采用輪盤賭選擇法。主要思想是每個個體被選中的概率與適合度成正比。即:
(6)
3.2.4交叉操作。交叉操作是遺傳基因重組的過程,以便將當前的最優(yōu)基因傳到下一代并獲得新的個體。從群體中隨機選擇2個個體進行配對,根據交叉概率pc=0.2交換2個個體的部分基因。從而獲得2個具有新基因的個體。將隨機選取的個體ω1、ω2在第k位基因的交換如下:
(7)
式中,b為[0,1]的隨機數。
3.2.5變異操作。變異操作相當于生物學上的基因突變,根據變異概率pm=0.1對第i個個體的第j個基因gij進行變異,隨機產生優(yōu)秀的生物個體,豐富種群的多樣性。其變異方法如下:
(8)
式中,b1為隨機數,d為當前迭代次數,Dmax為最大進化次數,gmax為基因gij的上界,gmin為基因gij的下界。
GA-BP神經網絡算法流程見圖2。
圖2 GA-BP神經網絡算法流程
4.1 試驗方法與設計雨生紅球藻藻種(Haematococcuspluvialis,FACHB-712)購于上海光語生物科技有限公司藻種庫。藻種培養(yǎng)基選用BG11培養(yǎng)基,按照藻液∶培養(yǎng)基=1∶2的比例進行配比。采用直流驅動的單色光照,光照黑暗時間對比為12 h∶12 h,每天測量一組數據。
細胞增殖階段培養(yǎng)基pH分別為7.5、8.0、8.5,將配制好的藻液放置到光照強度為20 μmol/(m2·s)且溫度為室溫的光生物培養(yǎng)架上。
4.2 樣本數據采集每次從試驗樣本中取出15 mL藻液,在超凈工作臺進行取樣以及數據測量,共測量70 d增殖試驗的藻細胞半徑和數量。測量第35天的數據后,在錐形瓶中加入200 mL BG11培養(yǎng)基,為藻的進一步增殖提供所需的營養(yǎng)物質。
4.3 數據預處理由于需要預測的藻細胞數量和半徑具有不同的數量級且差異較大,會影響網絡的預測結果,因此需要對原始數據進行歸一化處理。采用Matlab的mapminmax(x)函數對數據進行歸一化處理,使處理后的數據范圍在[-1,1],其轉換公式為:
(9)
式中,x為藻細胞數據的初始值,xmax為藻細胞數據的最大值,xmin為藻細胞數據的最小值,ymax、ymin為參數,可自己設定也可默認為[-1,1]。經過歸一化處理的數據,在預測結束后需要進行反歸一化,將數據恢復到正常值,該研究反歸一化采用postmnmx函數。
采用Matlab作為預測的平臺,利用Matlab自帶的函數實現神經網絡的搭建。將收集到的70 d試驗數據作為預測的訓練集和測試集,前60 d為訓練集,后10 d為測試集。為了得到不同pH下細胞平均半徑和細胞數量變化趨勢,采用BP和GA-BP神經網絡分別對pH=7.5、8.0、8.5進行預測。預測結果如圖2~4所示,部分預測數據如表1、2所示。
表1 BP神經網絡部分預測結果
圖3 pH 7.5時細胞增殖階段藻細胞的生長趨勢
圖4 pH 8.0時增殖培養(yǎng)階段藻細胞的生長趨勢
圖5 pH 8.5時增殖培養(yǎng)階段藻細胞的生長趨勢
采用平均絕對百分比誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)對預測模型性能進行評價。
(10)
(11)
其評價結果如表3、4所示。從上述試驗可以看出,GA-BP神經網絡的MAPE和RMSE均低于BP神經網絡。因此,可以得出GA-BP神經網絡預測的準確率較高。
表3 GA-BP和BP神經網絡預測半徑評價結果
表4 GA-BP和BP神經網絡預測數量評價結果
通過對雨生紅球藻在不同pH下的生長狀況數據進行訓練,得到了根據時間預測藻細胞生長趨勢的模型。從訓練結果看,在不同pH下,GA-BP神經網絡對10 d數據的預測結果精確度高于90%,且較合理地預測出了藻細胞的生長趨勢,說明網絡架構已達到預期效果。
該模型的使用一方面可以快速得出雨生紅球藻在一定時間內的生長狀況,克服其周期長的問題;另一方面能夠更節(jié)省人力物力,在試驗前通過模擬預測,可以得到單變量環(huán)境對雨生紅球藻生長狀況的影響,方便研究人員更好地找到最適合藻細胞生長的環(huán)境值,在培養(yǎng)過程中能夠更節(jié)省時間避免過多的重復試驗,也能夠大大降低試驗的失敗率。