韓 筠
(廣東海洋大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,廣東 湛江 524088)
糖尿病是一組以高血糖為特征的代謝性疾病,目前尚無(wú)根治方法。我國(guó)是糖尿病大國(guó),截至2017年我國(guó)糖尿病人群約為1.14億,居世界首位,未來(lái)50年內(nèi)糖尿病及其并發(fā)癥仍將是我國(guó)一個(gè)嚴(yán)重的公共衛(wèi)生問(wèn)題[1]。研究表明,良好的血糖監(jiān)測(cè)能夠有效的診斷和預(yù)防糖尿病的發(fā)生,減緩糖尿病并發(fā)癥的發(fā)生和發(fā)展[2]。糖化血紅蛋白(HbA1c)是評(píng)價(jià)長(zhǎng)期血糖水平的“金標(biāo)準(zhǔn)”,它不易受其他因素(進(jìn)食、用藥等)的影響,能客觀反映高血糖狀態(tài)。因此,HbA1c的快速準(zhǔn)確檢測(cè)對(duì)糖尿病篩查、診斷和治療都具有重要意義。目前的HbA1c臨床檢測(cè)方法較為繁瑣,不便于大人群的血糖篩查,研發(fā)快速簡(jiǎn)便的HbA1c的檢測(cè)新方法具有重要意義。HbA1c是血液中葡萄糖與血紅蛋白發(fā)生非酶促糖化反映,經(jīng)不可逆重排后形成的,這一過(guò)程涉及一系列非酶促反應(yīng)(Maillard reactions,美拉德反應(yīng))[3]。在臨床實(shí)踐中,健康人的HbA1c含量大約在4.0%~6.0%,HbA1c>6.0%為糖尿病表型陽(yáng)性的患者[4]。近紅外光(NIR)是介于可見(jiàn)光(Vis)和中紅外光(MIR)之間的電磁波,由分子振動(dòng)的非諧振性使分子振動(dòng)從基態(tài)向高能級(jí)躍遷時(shí)產(chǎn)生,反映含氫基團(tuán)X-H(如C-H、N-H、O-H等)振動(dòng)的倍頻和合頻吸收[5]。NIR技術(shù)是一項(xiàng)綠色環(huán)保的分析技術(shù),對(duì)大多數(shù)類型的樣品,不需要進(jìn)行預(yù)處理(或僅需簡(jiǎn)單制樣)便可進(jìn)行測(cè)量,具有檢測(cè)快速且無(wú)污染的優(yōu)勢(shì),已成功應(yīng)用于很多領(lǐng)域[6-8]。由于葡萄糖和血紅蛋白(Hb)分子均含有含氫基團(tuán)X-H,它們對(duì)近紅外光產(chǎn)生吸收,因此,NIR光譜已成功應(yīng)用于無(wú)試劑快速分析血液葡萄糖和Hb[6]。血紅蛋白被糖化的過(guò)程(美拉德反應(yīng))涉及了許多含氫基團(tuán)X-H,它們對(duì)NIR產(chǎn)生吸收,所以,NIR具有分析HbA1c的理論依據(jù)。但由于HbA1c是糖化血紅蛋白相對(duì)于總血紅蛋白(Hb)的百分比,是一個(gè)相對(duì)性指標(biāo),其大小與光譜吸收值(吸光度)不具備直接的線性相關(guān)性,不滿足朗伯-比爾定律,在采用NIR光譜分析時(shí),不能直接建立HbA1c與吸光度的定標(biāo)預(yù)測(cè)模型,這對(duì)建模體系提出了挑戰(zhàn)。因此,到目前為止,采用NIR光譜直接定量分析HbA1c的相關(guān)研究尚少。文獻(xiàn)[3]基于NIR和折射率測(cè)量方法,研究了糖化血紅蛋白模擬溶液(配制不同葡萄糖濃度的血紅蛋白和白蛋白水溶液)的光學(xué)特性,還未直接應(yīng)用到直接測(cè)量糖化血紅蛋白(即HbA1c)。采用了一種間接分析方法:基于絕對(duì)性指標(biāo)血紅蛋白(Hb)和血紅蛋白的絕對(duì)含量(Hb?HbA1c)的定量分析,實(shí)現(xiàn)相對(duì)性指標(biāo)HbA1c的定量分析。由于血液樣品是包含有多組分和背景的復(fù)雜體系,其光譜中存在待測(cè)目標(biāo)以外的吸收干擾及光譜測(cè)量本身的系統(tǒng)噪音干擾,因此,適當(dāng)?shù)墓庾V預(yù)處理是需要的。通過(guò)對(duì)比實(shí)驗(yàn),采用對(duì)人血液樣品取得良好預(yù)測(cè)效果的Savitzky-Golay(SG)平滑方法對(duì)光譜進(jìn)行預(yù)處理。研究表明[7, 8],特征波長(zhǎng)篩選對(duì)NIR分析是非常重要的,它可以大大降低模型的復(fù)雜性同時(shí)提高模型的預(yù)測(cè)效果。采用移動(dòng)窗口偏最小二乘(MW-PLS)和等間隔多元線性回歸(EC-MLR)兩種方法對(duì)Hb和Hb?HbA1c兩個(gè)指標(biāo)進(jìn)行波長(zhǎng)篩選,以得到高精度的定量分析模型。
共收集到200份人外周血樣品,用雙蒸水配制成2倍溶血液樣品用于光譜測(cè)定。采用BC-3000Plus全自動(dòng)血細(xì)胞分析儀(深圳麥瑞公司,中國(guó))測(cè)量這些樣品的Hb值;采用ADAMSTM A1c HA-8160 糖化血紅蛋白自動(dòng)分析儀(ARKRAY公司,日本)測(cè)量這些樣品的HbA1c值。將這些常規(guī)方法得到的測(cè)量值作為后面光譜分析的參考值。指標(biāo)Hb和HbA1c的測(cè)量值統(tǒng)計(jì)分析總結(jié)在表1中,根據(jù)HbA1c臨床截?cái)嘀?6.0%),陰性(正常對(duì)照)樣品有98份,陽(yáng)性樣品有102份。
表1 指標(biāo)Hb和HbA1c的測(cè)量值統(tǒng)計(jì)分析
采用XDS Rapid ContentTM型近紅外光柵光譜分析儀(FOSS公司,丹麥)和透射樣本附件進(jìn)行光譜采集,探測(cè)器為Si(400~1100 nm)和PbS(1100~2498 nm)。在780~2498 nm范圍內(nèi)采集光譜,間隔為2 nm,共860個(gè)波長(zhǎng)點(diǎn),實(shí)驗(yàn)室溫度為251℃,濕度為46%RH。
圖1 200個(gè)人溶血液樣品的近紅外光譜圖
為了使所建立的模型具有好的穩(wěn)健性,采用多次建模的思路。具體步驟如下:首先,從200個(gè)樣品中隨機(jī)挑選出28個(gè)陰性樣品和32個(gè)陽(yáng)性樣品作為檢驗(yàn)樣品,余下的140個(gè)樣品作為建模樣品,檢驗(yàn)樣品不參與建模過(guò)程;其次,將建模樣品中的70個(gè)陰性樣品和70個(gè)陽(yáng)性樣品隨機(jī)劃分35個(gè)陰性樣品和35個(gè)陽(yáng)性樣品到定標(biāo)集,余下的作為預(yù)測(cè)集,這個(gè)過(guò)程重復(fù)100次,對(duì)每一次劃分都進(jìn)行建模和優(yōu)化,將篩選出的100個(gè)模型的預(yù)測(cè)結(jié)果的平均值作為最終預(yù)測(cè)結(jié)果來(lái)篩選最優(yōu)模型;最后,用沒(méi)參與建模過(guò)程的檢驗(yàn)樣品對(duì)優(yōu)選的模型進(jìn)行重新檢驗(yàn),以確保模型的穩(wěn)定可靠。指標(biāo)Hb和Hb?HbA1c采用相同的建模過(guò)程獨(dú)立地進(jìn)行定量分析,通過(guò)測(cè)量這兩個(gè)指標(biāo)可間接獲得相對(duì)百分比HbA1c的預(yù)測(cè)值。
移動(dòng)窗口偏最小二乘方法(MW-PLS)是一種性能良好,被廣泛使用的連續(xù)波長(zhǎng)篩選方法[10]。它將N個(gè)連續(xù)的波長(zhǎng)作為一個(gè)窗口,該窗口的位置和大小可以改變,在每個(gè)窗口都建立PLS模型,根據(jù)模型預(yù)測(cè)效果篩選最優(yōu)分析波段。該方法的參數(shù)有起始波長(zhǎng)(B),波長(zhǎng)個(gè)數(shù)(N)和PLS因子個(gè)數(shù)(F)。B和F的設(shè)置如下:B∈{780,782,…,2498},F(xiàn)∈{1,2,…,30},為了減少程序耗時(shí)又不失代表性,N的設(shè)置如下:NHb∈{1,2,…,450}∪{460,470,…,860},NHb?HbA1c∈{1,2,…,200}∪{215,230,…,860}。對(duì)定標(biāo)集、預(yù)測(cè)集的每一次劃分,在每一個(gè)參數(shù)組合(B,N,F)確定的波長(zhǎng)組合內(nèi)建立PLS模型,根據(jù)最小M_SEPAve選擇最優(yōu)波段。
EC-MLR是一種選擇等距離離散波長(zhǎng)組合的方法,它包括波長(zhǎng)起點(diǎn)(B)、波長(zhǎng)數(shù)(N)和波長(zhǎng)間隔(G)三個(gè)參數(shù),通過(guò)設(shè)置參數(shù)以移動(dòng)窗口的模式選擇所有等間隔離散波長(zhǎng)組合。根據(jù)各參數(shù)組合對(duì)應(yīng)的MLR預(yù)測(cè)效果確定篩選結(jié)果。EC-MLR方法的搜索范圍可以是全譜,也可以根據(jù)樣品的吸收特征篩選部分譜。本文采用的是在全譜區(qū)域進(jìn)行搜索,B,N和G的設(shè)置如下:B∈{780, 782,…,2498},N∈{1,2,…,50},G∈{1,2,…,100}。對(duì)定標(biāo)集、預(yù)測(cè)集的每一次劃分,在每一個(gè)參數(shù)組合(B,N,G)確定的波長(zhǎng)組合內(nèi)建立MLR模型,根據(jù)最小M_SEPAve選擇最優(yōu)波長(zhǎng)組合。
圖1是200個(gè)人溶血液樣品的近紅外光譜圖。作為比較,首先在全譜區(qū)建立Hb和Hb·HbA1c兩個(gè)指標(biāo)的PLS模型。在建模之前,采用1階導(dǎo)數(shù)、3次多項(xiàng)式、13個(gè)平滑點(diǎn)的SG平滑模式對(duì)光譜進(jìn)行預(yù)處理。模型的預(yù)測(cè)結(jié)果匯總在表2中,結(jié)果表明,Hb的預(yù)測(cè)值和臨床測(cè)量值有較高的相關(guān)性,但Hb·HbA1c的預(yù)測(cè)值和臨床測(cè)量值相關(guān)性不夠理想。此外,模型采用了860個(gè)波長(zhǎng),較為復(fù)雜。
為了降低模型的復(fù)雜度,同時(shí)提高預(yù)測(cè)精度,采用MW-PLS方法進(jìn)行特征波長(zhǎng)篩選。分別根據(jù)最小M_SEPAve值,篩選Hb和Hb·HbA1c的最優(yōu)MW-PLS模型,相應(yīng)參數(shù)和預(yù)測(cè)結(jié)果(M_SEPAve, M_RP,Ave, M_SEPSD, M_RP,SD)總結(jié)在表3中。結(jié)果表明,Hb的最優(yōu)MW-PLS模型對(duì)應(yīng)的起點(diǎn)波長(zhǎng)(B)和波長(zhǎng)個(gè)數(shù)(N)分別為948nm和413,相應(yīng)的波段為948~1772 nm;Hb·HbA1c的最優(yōu)MW-PLS模型對(duì)應(yīng)的B和N分別為1480nm和180,相應(yīng)的波段為1480~1838 nm。Hb的最優(yōu)模型所采用的波長(zhǎng)個(gè)數(shù)(413)不足全譜波長(zhǎng)個(gè)數(shù)(860)的一半,而Hb·HbA1c的最優(yōu)模型所采用的波長(zhǎng)個(gè)數(shù)(180)不足全譜波長(zhǎng)個(gè)數(shù)的四分之一,因此,模型的復(fù)雜度大大降低了。由表2和表3可以看出,與全譜區(qū)的最優(yōu)PLS模型相比,兩個(gè)指標(biāo)的最優(yōu)MW-PLS模型對(duì)應(yīng)的預(yù)測(cè)均方根誤差平均值M_SEPAve均明顯降低了,尤其是對(duì)于指標(biāo)Hb·HbA1c。
表2 指標(biāo)Hb和Hb?HbA1c的全譜區(qū)PLS模型的預(yù)測(cè)效果
表3 指標(biāo)Hb和Hb?HbA1c的最優(yōu)MW-PLS模型的預(yù)測(cè)效果
采用上面討論的EC-MLR方法選擇等間隔離散波長(zhǎng)組合。得到的Hb的最優(yōu)模型所對(duì)應(yīng)的起點(diǎn)波長(zhǎng)(B),波長(zhǎng)個(gè)數(shù)(N)和波長(zhǎng)間隔(G)分別為1532nm,8和10,相應(yīng)的波長(zhǎng)組合為1532、1552、1574、1594、1614、1634、1654和 1674 nm;Hb?HbA1c的最優(yōu)模型所對(duì)應(yīng)的B,N和G分別為1572nm,12和9,相應(yīng)的波長(zhǎng)組合為1572、1590、1608、1626、1644、1662、1680、1698、1716、1734、1752和1770 nm。兩個(gè)指標(biāo)最優(yōu)模型的預(yù)測(cè)結(jié)果總結(jié)在表4中。
由表3和表4可以看出,MW-PLS和EC-MLR兩種方法的預(yù)測(cè)結(jié)果是接近的。與最優(yōu)MW-PLS模型相比,最優(yōu)EC-MLR模型采用了更少的波長(zhǎng),Hb和Hb?HbA1c的最優(yōu)EC-MLR模型分別采用了8和12個(gè)波長(zhǎng),因此,模型復(fù)雜度顯著降低。值得注意的是,兩個(gè)指標(biāo)的最優(yōu)EC-MLR模型所采用的等間隔離散組合波長(zhǎng)均包含在最優(yōu)MW-PLS模型的波段內(nèi)。這表明,兩種方法對(duì)應(yīng)的光譜吸收區(qū)域是一致的,波長(zhǎng)選擇是合理的。
表4 指標(biāo)Hb和Hb·HbA1c的最優(yōu)EC-MLR模型的預(yù)測(cè)效果
分別采用兩種方法的最優(yōu)模型計(jì)算60個(gè)檢驗(yàn)樣品的Hb和Hb·HbA1c的預(yù)測(cè)值。其中,采用最優(yōu)MW-PLS模型得到的兩個(gè)指標(biāo)的檢驗(yàn)預(yù)測(cè)均方根誤差和預(yù)測(cè)相關(guān)系數(shù)(V_SEP、V_RP)分別為3.1 g L-1、0.966和0.60 g L-1、0.949;采用最優(yōu)EC-MLR模型得到的V_SEP和V_RP分別為3.4 g L-1、0.961和0.72 g L-1、0.940。結(jié)果表明,兩個(gè)模型均取得了較高的檢驗(yàn)預(yù)測(cè)精度,兩個(gè)指標(biāo)的預(yù)測(cè)值與臨床測(cè)量值均有很高的相關(guān)性。由于在建模過(guò)程中,考慮了模型的穩(wěn)健性(通過(guò)對(duì)定標(biāo)集、預(yù)測(cè)集的多次劃分克服模型對(duì)部分樣品的依賴),所以篩選出的模型對(duì)于隨機(jī)挑選出來(lái)的樣品也能取得較為理想的檢驗(yàn)效果。
基于Hb和Hb·HbA1c的預(yù)測(cè)值可以計(jì)算出相對(duì)百分比HbA1c的預(yù)測(cè)值。MW-PLS方法得到的HbA1c的檢驗(yàn)預(yù)測(cè)均方根誤差和預(yù)測(cè)相關(guān)系數(shù)(V_SEP、V_RP)分別為0.44%和0.918;EC-MLR方法得到的HbA1c的V_SEP和V_RP分別為0.50%和0.908。采用兩種方法算出的60個(gè)檢驗(yàn)樣品的HbA1c的預(yù)測(cè)值和臨床測(cè)量值均高度相關(guān)。結(jié)果表明,通過(guò)NIR光譜同時(shí)定量分析兩個(gè)絕對(duì)性指標(biāo)間接實(shí)現(xiàn)相對(duì)性指標(biāo)的定量分析的方法是可行的,進(jìn)一步證實(shí)了近紅外光譜定量模型建立前,特征波長(zhǎng)的篩選是必要的。
基于指標(biāo)Hb和HbA1c的內(nèi)在聯(lián)系,采用一種間接分析方法實(shí)現(xiàn)了近紅外光譜對(duì)HbA1c的測(cè)定。為了得到穩(wěn)定可靠的定量分析模型,采用MW-PLS和EC-MLR兩種方法,基于定標(biāo)集和預(yù)測(cè)集的多種不同劃分,篩選Hb和Hb·HbA1c的特征波長(zhǎng)。兩種方法所選出的波長(zhǎng)模型均取得了理想的預(yù)測(cè)效果。其中,EC-MLR的最優(yōu)模型采用了較少的波長(zhǎng),且這些波長(zhǎng)包含在MW-PLS最優(yōu)模型所采用的波段內(nèi),表明兩種方法所對(duì)應(yīng)的光譜吸收區(qū)域是一致的,波長(zhǎng)選擇是合理的。
進(jìn)一步,由Hb和Hb·HbA1c的預(yù)測(cè)結(jié)果可算出HbA1c的預(yù)測(cè)值。結(jié)果表明兩種方法得到的HbA1c的預(yù)測(cè)值跟臨床測(cè)量值都有很高的相關(guān)性。因此,采用NIR光譜間接測(cè)定糖化血紅蛋白(HbA1c)是可行的。與傳統(tǒng)的HbA1c的檢測(cè)方法相比,基于NIR光譜的檢測(cè)技術(shù),具有簡(jiǎn)便快速、精度適中、無(wú)需化學(xué)試劑等優(yōu)點(diǎn),是非常適合于糖尿病大人群篩查的一種簡(jiǎn)便新技術(shù)。這對(duì)于預(yù)防糖尿病及其并發(fā)癥的發(fā)生和發(fā)展,提高人口素質(zhì)具有重要意義,具有廣闊的應(yīng)用前景。此外,這種基于兩個(gè)絕對(duì)性指標(biāo)的同時(shí)快速測(cè)定間接實(shí)現(xiàn)相對(duì)性指標(biāo)的快速測(cè)定的技術(shù)可以應(yīng)用到近紅外光譜分析其他領(lǐng)域的相對(duì)性指標(biāo)中,這在一定程度上拓寬了近紅外光譜技術(shù)的應(yīng)用范圍。
佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年1期