劉 婧,劉海順,左 劍,張存林,,趙躍進,梁美彥
1. 北京理工大學(xué),北京 1000812. 首都師范大學(xué),北京 1000483. 山西大學(xué),山西 太原 030013
氨基酸是構(gòu)建生物細胞和組織的基本成分。L-苯丙氨酸和L-酪氨酸在合成神經(jīng)遞質(zhì)和激素的過程中起重要作用,這些神經(jīng)遞質(zhì)和激素參與了人體的糖和脂肪的代謝過程。這兩種氨基酸具有相似的分子結(jié)構(gòu),不同在于L-酪氨酸多了一個羥基,這卻導(dǎo)致了兩種氨基酸在功能上具有明顯區(qū)別。前人的研究表明,這兩種氨基酸在低頻振動上存在顯著差異。近年來,太赫茲(THz)光譜學(xué)技術(shù)作為研究生物分子低頻動力學(xué)的有效手段被廣泛應(yīng)用[1-2],因此通過太赫茲光譜對氨基酸進行研究,對進一步了解蛋白質(zhì)和相關(guān)生物活性具有重要意義。2005年和2010年,Yamamoto等[3-4]利用太赫茲手段對氨基酸及其多肽的低頻譜進行了研究。2013年,Yu等[5]在太赫茲波段通過主成分分析(PCA)手段處理與吸收線形函數(shù)(ALF)方法,對兩種氨基酸混合物進行了識別研究。
多變量校準方法[如偏最小二乘法(partial least squares,PLS)]已成功應(yīng)用于太赫茲多組分光譜數(shù)據(jù)定量分析研究中。陳濤等[6]將太赫茲光譜技術(shù)與PLS回歸手段結(jié)合,研究多組分藥物混合物的實際濃度與預(yù)測濃度之間的一致性。Lu等[7]通過PLS和基于太赫茲吸收光譜的區(qū)間偏最小二乘(iPLS)回歸對L-谷氨酸和L-谷氨酰胺的二元混合物進行了定性和定量的分析研究。
然而,傳統(tǒng)校準技術(shù)由于僅在光譜和目標之間建立單個模型預(yù)測未知樣品,其預(yù)測性能有時仍不盡人意。因此,具有更好精度的集成建模方法(ensemble modeling method)應(yīng)運而生[8]。集成建模的基本概念是組合多個單獨模型的優(yōu)勢以產(chǎn)生更好的預(yù)測結(jié)果。
1998年,Huang[9]提出了經(jīng)驗?zāi)B(tài)分解(empirical mode decomposition,EMD)的方法。該方法可以將信號自適應(yīng)地分解為一組本征模式函數(shù)(intrinsic mode functions,IMF),成功地廣泛應(yīng)用于信號和光譜處理中[10-11]。基于EMD方法的信號分析也已在太赫茲波段開始使用[12-15]。然而,在對物質(zhì)進行定量分析的過程中,目前還沒有報道基于EMD方法的太赫茲光譜PLS回歸的相關(guān)工作。本文提出了一種基于EMD的PLS方法,用于定量分析研究不同濃度氨基酸混合物的太赫茲吸收光譜。該方法提取了基于前幾個IMF的吸收光譜,用于建立PLS回歸模型,比較了其結(jié)果與原始吸收譜的PLS建模結(jié)果。
EMD的主要思想是將信號f(t)分解為一系列本征模式函數(shù)(IMFs)。每個IMF應(yīng)滿足兩個基本標準: (1)極值和零交叉數(shù)量必須相等或在整個數(shù)據(jù)集中最多有一個差異; (2)由局部最小值和最大值定義的包絡(luò),其平均值應(yīng)為零[9]。該信號可寫為
(1)
其中xk(t)是第k個IMF分量,rN(t)是殘差函數(shù)。
信號f(t)的分解過程可歸納如下:
(1)找出f(t)的所有極值(最大值或最小值);
(2)使用三次樣條曲線將所有局部最大值或最小值連接為上限或下限;
(3)計算包絡(luò)m1(t)的平均值;
(4)提取新的數(shù)據(jù)序列h1(t)=f(t)-m1(t);
(5)迭代h1(t),直到h1(t)滿足IMF的上述兩個標準,以此來找到第一個IMF分量x1(t);
(6)對信號r1(t)=f(t)-x1(t)重復(fù)上述步驟,并獲取其余的IMF。
當(dāng)殘差函數(shù)rN(t)變?yōu)閱握{(diào)函數(shù)或常數(shù)時,該過程即可停止。由此可見,信號f(t)可以分解為一組IMF和殘差函數(shù)。這里,IMF由不同的振蕩模式組成,并且更高階的IMF對應(yīng)于較低頻率的信息。
PLS是一種較為成熟的線性回歸方法[6-7]。該模型的性能主要通過相關(guān)系數(shù)(R),校正均方根誤差(RMSEC)和預(yù)測均方根誤差(RMSEP)這幾個參數(shù)來評估。當(dāng)一個模型具有更高R,更小的RMSEC和RMSEP時,該模型被認為是較理想的模型。
EMD-PLS方法的流程示意圖如圖1所示。原始的太赫茲時域信號首先通過EMD手段,分解為一系列IMF和一個殘差函數(shù),然后前幾個IMF相加作為一個整體,隨后對其吸收光譜進行重建。最后,建立PLS模型用于進一步的物質(zhì)定量分析。
圖1 EMD-PLS建模流程圖Fig.1 Flowchart of EMD-PLS modeling
氨基酸樣品(L-苯丙氨酸和L-酪氨酸)與聚乙烯粉末充分混合(L-苯丙氨酸質(zhì)量占比分別為0%,15%,25%,40%,50%,55%,60%,61%,64%,70%,75%,85%,95%,100%),然后研磨成均勻的顆粒。并在5 t壓力下被壓成圓片。樣品均購于sigma-aldrich公司。圓片樣品的厚度約為0.6 mm,直徑為13 mm。每個濃度的樣品數(shù)量為2,共有28個圓片樣品。使用太赫茲時域光譜(THz-TDS)系統(tǒng)對樣品進行測試,樣品被放置在兩個拋物面鏡的焦點之間。所有測量均在21 ℃下進行,相對濕度小于4%。
圖2 (a) 28個氨基酸混合物樣品的原始時域信號; (b) 28個氨基酸混合物樣品的原始吸收信號Fig.2 (a) 28 original temporal signals and (b) absorptionspectra of 28 original amino acids samples
圖2(a)和(b)為28個原始THz時域信號及其在0.7~2.5 THz波段的吸收光譜。由圖可知,該氨基酸混合物的三個吸收峰分別位于0.97,1.9和2.08 THz??梢钥闯?,隨著L-苯丙氨酸含量從100%降至0%,混合光譜吸收峰的幅值逐漸增加。所以,L-苯丙氨酸沒有明顯的特征峰,三個峰均來自于L-酪氨酸。前人的理論模擬結(jié)果表明,L-酪氨酸的吸收峰主要由分子的振動和扭轉(zhuǎn)引起,即分子的不同振動模式和強度產(chǎn)生了不同的吸收峰[16]。
此處僅對L-苯丙氨酸濃度為0%樣品的時域信號進行舉例分析,以說明信號分解的過程,其余27個時域信號均按此方法進行處理。圖3為該樣品的分解結(jié)果,它可以分解為8個IMF和1個殘差函數(shù)。很明顯,一階IMF(IMF1)信號具有最多的信號能量,而其余IMF信號能量隨著階數(shù)增加而減少。可以看出,低階模式更接近原始時間信號。
圖3 L-苯丙氨酸濃度為0%樣品EMD 分解后的IMF和殘差函數(shù)Fig.3 EMD decomposed IMFs and residual function of concentration=0% sample
圖4描述了L-苯丙氨酸濃度為 0%樣品的時域信號經(jīng)過EMD分解后,第一個IMF(IMF1),前兩個IMF疊加(IMF1+IMF2),前三個IMF疊加(IMF1+IMF2+IMF3),前四個IMF疊加(IMF1+IMF2+IMF3+IMF4)和前五個IMF疊加(IMF1+IMF2+IMF3+IMF4+IMF5)相應(yīng)的吸收光譜??梢钥闯觯捎诘皖l信息不完整,IMF1的吸收光譜明顯不同于其他吸收光譜。因此進一步建模中,我們不考慮IMF1。隨后,使用PLS對剩余數(shù)據(jù)集與目標值之間建立了定量分析模型。此處,采用Kennard-Stone方法將數(shù)據(jù)集劃分為校正和預(yù)測集。實驗數(shù)據(jù)集中,18個樣本作為校正集,并將剩余的10個樣本作為預(yù)測集。這五組THz吸收光譜(原始與分解后)的PLS統(tǒng)計分析結(jié)果列于表1中。與原始結(jié)果相比,前兩個IMF疊加的預(yù)測效果不好,說明前兩個IMF疊加刪除冗余信息的同時丟失了某些有用信息。雖然前五個IMF疊加在校正集中有較好結(jié)果,但是其RMSEP較大,說明其中可能存在噪聲導(dǎo)致過度擬合。通過比較可以確定前四個IMF疊加具有最佳的預(yù)測效果,這證實了EMD方法的有效性。
表1 對兩種氨基酸混合物的PLS校正與預(yù)測效果Table 1 PLS calibration and prediction performance statistics for binary mixtures
圖4 L-苯丙氨酸濃度為 0%的樣品EMD分解后,第一個IMF(IMF1),前兩個IMF疊加(IMF1+IMF2),前三個IMF疊加(IMF1+IMF2+IMF3),前四個IMF疊加(IMF1+IMF2+IMF3+IMF4))和前五個IMF疊加(IMF1+IMF2+IMF3+IMF4+IMF5)后相對應(yīng)的吸收光譜
圖5(a)和(b)分別為單獨使用PLS模型和使用EMD-PLS模型(基于前四個IMF之和的結(jié)果)對不同氨基酸混合物樣品實際濃度與預(yù)測濃度之間的相關(guān)性,可以看出EMD-PLS模型可以獲得更理想的預(yù)測結(jié)果。
圖5 (a)PLS模型和(b)EMD-PLS模型(IMF1+IMF2+IMF3+IMF4)下不同濃度氨基酸混合物樣品的實際濃度與預(yù)測濃度的關(guān)系
提出了一種基于太赫茲光譜技術(shù)的多元校正模型(EMD-PLS),對氨基酸混合物進行了定量分析。該方法首先通過EMD方法分解太赫茲時域信號,并將前幾個IMF信號疊加替代原始信號,然后對原始信號和使用EMD處理信號對應(yīng)的吸收譜進行PLS回歸分析。定量分析結(jié)果表明,與其他吸收譜相比,基于前四個IMF疊加的吸收光譜具有更好的預(yù)測結(jié)果(Rp=0.996 1和RMSEP=0.019 8),這說明EMD可以作為一種有效的預(yù)處理手段。該工作表明了基于EMD的太赫茲信號定量分析技術(shù)的有效性,證明了EMD-PLS模型可以實現(xiàn)較為理想的預(yù)測精度。