李民東,王海燕,陳慶偉,周軍,皇攀凌
(1.山東大學 機械工程學院,山東 濟南 250061;2.山東大學 藥學院,山東 濟南 250012;3.山東大學 高效潔凈機械制造教育部重點實驗室,山東 濟南 250061)
流化床的工藝參數(shù)少,操作時間短,并且可以減低操作者的勞動強度,因此廣泛應用于藥物制粒的生產(chǎn)過程中[1]。
水分是流化床制粒過程中顆粒的關鍵質(zhì)量屬性之一,水分含量影響最終產(chǎn)品的流動性、可壓縮性和穩(wěn)定性[2]。許多學者已經(jīng)對流化床制粒過程水分預測方面做了相關研究,Rantanen等[3]采用近紅外水分測量與溫濕度測量相結(jié)合的方法,控制顆粒水分含量的變化。Barla等[4]采用近紅外技術,利用PLS對流化床制粒過程中顆粒的水分進行了定性和定量分析。提升對流化床制粒過程中水分的預測精度,使得水分含量保持在一定范圍內(nèi),對提高制粒的成功率具有重要意義。
現(xiàn)階段的流化床制粒過程中無法對物料的關鍵質(zhì)量屬性進行科學準確的分析,只能在制造生產(chǎn)過程中不斷取樣,依靠工廠工人的經(jīng)驗對制粒過程顆粒的質(zhì)量屬性進行分析。這樣使得流化床制粒效率低下,而且很難達到批次間的一致性。為了實時掌握顆粒的關鍵質(zhì)量屬性,從而對流化床的工藝參數(shù)進行及時的控制,必須對流化床設備進行工程化改造。
微晶纖維、玉米淀粉、乳糖、羧鉀淀粉、對乙酰氨基酚均為分析純。
LGL 002實驗型流化床;xy-102水分含量測試儀;MicroNIR PATU微型近紅外光譜儀。
流化床設備改造示意圖見圖1。
圖1 流化床設備改造示意圖Fig.1 Schematic diagram of fluidized bedequipment renovation
在流化床的底鍋上進行打孔,用于放置近紅外探頭,孔的位置與物料取樣口在同一水平線上,這樣可以保證近紅外光譜數(shù)據(jù)和獲得的一級數(shù)據(jù)在相同或相似條件下獲得。采用法蘭將外接探頭安裝到流化床內(nèi)部使流化床的探頭長度為大概6 cm。
活性藥物成分、微晶纖維素、玉米淀粉、乳糖、羧鉀淀粉按比例混合,采用頂噴方式的流化床進行制粒。從流化床取樣口取出少量待測樣品,放到重為M的瓶中稱重,測得重量M1,進行近紅外光譜采集。樣品烘干,每隔1 h稱量1次,直到樣品重量不再變化,經(jīng)過大約6 h測得烘干樣品重量為M2,通過計算烘干前后的M1和M2質(zhì)量差,求出樣品的水分含量[5]。
實驗過程中每一批次隔3 min取1次樣品,每批15個樣品,采集了6批一共90個樣品。其中第一批樣品中水分含量見表1。從所有樣本中隨機選取60個樣品作為測試集,用于建立模型并進行交叉驗證,剩下的30個樣品作為預測集。
表1 第一批樣品中水分含量Table 1 Water content in the first batch of samples
近紅外光譜儀采用漫反射方式采集樣品光譜,光譜范圍是908.1~1 676.2 cm-1,波數(shù)間隔為6.195 cm-1,共有125個點的光譜數(shù)據(jù) 光譜采集軟件為MicroNIR Pro v2.3,得到樣品的近紅外光譜圖見圖2。
圖2 近紅外光譜數(shù)據(jù)圖Fig.2 Near infrared spectroscopy data map
為了研究對比建立近紅外光譜預測的最優(yōu)模型,采用全光譜進行建模分析。分別采用偏最小二乘法(PLS),粒子群-嶺回歸(PSO-KRR),隨機森林-偏最小二乘法(RF-PLS)建立回歸模型。通過計算預測集的均方根誤差(RMSE)和相關系數(shù)(R)作為模型的評估標準,RMSE越小,R越接近于1,說明真實值與預測值之間的誤差越小,模型的預測能力越好。
PLS[6]是一種基于因子分析的多元線性回歸方法。近紅外光譜數(shù)據(jù)維度較多,而且各個維度之間都存在多重相關性,傳統(tǒng)的回歸分析預測效果較差。PLS集中了主成分分析、典型相關分析和多元線性回歸的特點。在進行PLS計算前,光譜數(shù)據(jù)和濃度數(shù)據(jù)都經(jīng)過中心化處理,對光譜矩陣進行分解提取主因子,消除光譜矩陣中無用的信息,保證光譜數(shù)據(jù)和水分濃度之間具有良好的線性關系。
首先采用全光譜PLS進行建模,用不同的主成分數(shù)在測試集上進行十折交叉驗證,取10次得到的RMSE的平均值作為評價標準,當交叉驗證均方根誤差(RMSECV)最小時,對應的主成分數(shù)即為最優(yōu)。用不同的主成分建立的模型的RMSE見圖3。
圖3 主成分數(shù)與RMSE的關系Fig.3 Relation between the number of principalcomponent and RMSE
由圖3可知,當主成分的數(shù)目為13時,驗證集的RMSECV值最小。因此,選用主成分為13對預測集進行建模。得到預測集的RMSE值為 0.218 0,相關系數(shù)R為0.971 7,結(jié)果見圖4。
圖4 PLS模型預測集水分含量預測Fig.4 Prediction of catchment watercontent by PLS model
嶺回歸[7]是一種有偏的回歸估計方法,實際上使一種經(jīng)過優(yōu)化的最小二乘算法,可以用于克服光譜數(shù)據(jù)多重共線性的問題。將光譜數(shù)據(jù)進行l(wèi)2正則化處理,損失一部分光譜信息,可以有效防止模型的過擬合,從而獲得更符合實際、更加可靠的回歸系數(shù)。
核嶺回歸[8]是一種將自變量數(shù)據(jù)進行非線性變換再進行嶺回歸的技術。基本原理是將原始數(shù)據(jù)通過核函數(shù)映射到高維空間,并用得到的新的高維空間數(shù)據(jù)建立嶺回歸模型。原始的數(shù)據(jù)大多是非線性的,而映射后的數(shù)據(jù)在高維空間往往會呈現(xiàn)出線性的關系,選擇合適的核函數(shù),將光譜數(shù)據(jù)映射到高維空間進行建模,這樣得到的模型會有更高的精度和更強的泛化能力。
粒子群優(yōu)化算法(PSO)[9]是一種基于種群的隨機優(yōu)化算法,使用粒子來模擬鳥群中鳥的捕食,通過判斷與目標點的距離來尋找全局最優(yōu)點。PSO算法初始化一群隨機粒子作為隨機解,以KRR模型預測的均方根誤差RMSE作為適應度函數(shù)來評價解的品質(zhì),通過迭代搜尋最優(yōu)解即得RMSE最小。算法的建模流程圖見圖5。
圖5 PSO-KRR建模流程圖Fig.5 Modeling flow chart of PSO-KRR
通過PSO優(yōu)化算法,選擇KRR中的最優(yōu)參數(shù)正則化系數(shù)alpha,粒子群數(shù)目選擇50,目標參數(shù)的范圍在1×10-9~1×10-5之間,更新的最小速度為1×10-9,獲得的最優(yōu)解為alpha=7.681 010 79×10-6,將最優(yōu)解帶入KRR模型中,得到預測集RMSE為0.215 4,相關系數(shù)為0.973 8,結(jié)果見圖6。
圖6 PSO-KRR模型預測集水分預測Fig.6 Prediction of catchment water by PSO-KRR model
近紅外光譜儀數(shù)據(jù)采集過程中,不可避免的會有一些干擾因素,就會產(chǎn)生一些對預測結(jié)果無效甚至起反作用的光譜數(shù)據(jù),影響模型的預測結(jié)果。進行對近紅外光譜數(shù)據(jù)的波段選擇,剔除無用的光譜數(shù)據(jù),不僅可以降低數(shù)據(jù)的維度,還可以提高預測的精度[10]。
隨機森林(RF)是一種回歸分類器,使用多個決策樹來訓練樣本,并集成預測。從原始的數(shù)據(jù)中隨機選取一部分特征進行組合,然后對每個特征組合進行打分。用變量重要性的二次距離確定變量重要性的最小閾值,利用所選變量的最優(yōu)子集進行預測[11]。對于含有噪聲及缺失值的數(shù)據(jù),采用RF建模會得到較為準確的結(jié)果,對每一個維度的特征進行特征權(quán)重提取,設置權(quán)重閾值0.005,對貢獻度小的無用數(shù)據(jù)進行剔除,得到最優(yōu)的特征組合共有47個維度,基本遍布整個光譜的各個階段,見圖7。
圖7 隨機森林進行波段選擇Fig.7 Feature selection by random forest
利用RF選擇出來的波段,用PLS進行建模,遍歷主成分數(shù),交叉驗證,得到最優(yōu)主成分數(shù)為12,將主成分數(shù)帶入PLS模型中,得到預測集RMSE為0.205 9,相關系數(shù)為0.973 3,結(jié)果見圖8。
圖8 RF-PLS模型預測集水分預測Fig.8 Prediction of catchment water by RF-PLS model
通過上述建模,PLS、PSO-KRR、RF-PLS建立的模型的均方根誤差,相關系數(shù)見表2。
表2 模型的RMSE和RTable 2 RMSE and R of models
PLS模型的RMSE為0.218 0,R為0.971 7,PSO-KRR模型的RMSE為0.215 4,R為0.973 8;RF-PLS模型的RMSE為0.205 9,R為0.973 3,模型的RMSE得到了較大的提升。預測精度更高,為流化床制粒過程顆粒質(zhì)量屬性的數(shù)字化、智能化監(jiān)控提供方法。