鐘奇秀, 趙天卓*, 李 欣, 連富強(qiáng), 肖 紅,聶樹真, 孫思寧, 樊仲維
1. 中國科學(xué)院空天信息創(chuàng)新研究院, 北京 100094 2. 中國科學(xué)院大學(xué)光電學(xué)院, 北京 100049 3. 國家半導(dǎo)體泵浦激光工程技術(shù)研究中心, 北京 100094 4. 北京國科世紀(jì)激光技術(shù)有限公司, 北京 102211
激光誘導(dǎo)擊穿光譜由于無需樣品預(yù)處理, 檢測(cè)速度快, 且能夠?qū)崿F(xiàn)多元素實(shí)時(shí)在線檢測(cè), 已在工業(yè)生產(chǎn)、 環(huán)境監(jiān)測(cè)、 食品安全、 垃圾回收等多個(gè)領(lǐng)域得到廣泛應(yīng)用[1-7]。 交叉驗(yàn)證的基本思想是通過對(duì)樣本進(jìn)行多次劃分, 每次將部分樣本用于訓(xùn)練模型, 而剩余樣本用于測(cè)試模型, 直至將所有樣本既用作訓(xùn)練, 又用作測(cè)試, 再將所有結(jié)果合并用于估計(jì)泛化誤差[8]。 近年來, 交叉驗(yàn)證在激光誘導(dǎo)擊穿光譜(laser-induced breakdown spectroscopy, LIBS)定量分析領(lǐng)域已有所應(yīng)用, 并取得良好效果。 Labutin[9]等對(duì)碳錳鋼中的C進(jìn)行了檢測(cè), 并使用主成分回歸方法進(jìn)行定量分析, 主成分個(gè)數(shù)為4時(shí), 對(duì)C的交叉驗(yàn)證均方根誤差(root mean square error of cross-validation, RMSECV)為0.045%。 Cama-Moncunill等[10]利用偏最小二乘算法對(duì)奶粉中的Ca進(jìn)行定量分析, 并分別對(duì)定標(biāo)模型進(jìn)行交叉驗(yàn)證與外部驗(yàn)證, 對(duì)Ca的RMSECV為0.062%, 外部驗(yàn)證均方根誤差為0.068%。 谷艷紅等利用偏最小二乘算法對(duì)鋼合金中的Ni和Cr進(jìn)行定量分析, 對(duì)兩種元素的平均預(yù)測(cè)相對(duì)誤差分別為6.349%與5.940%。 陳添兵等[11]先使用多元散射校正方法對(duì)豬肉的LIBS光譜進(jìn)行預(yù)處理, 再對(duì)其中的Pb進(jìn)行定量分析, 其RMSECV為0.302%。
進(jìn)行交叉驗(yàn)證時(shí)通常使用各元素的RMSECV均值來評(píng)價(jià)對(duì)多元素的分析準(zhǔn)確度, 但將LIBS用于多元素分析時(shí), 不同元素的RMSECV大小存在較大差異, 導(dǎo)致以RMSECV均值為評(píng)價(jià)指標(biāo)進(jìn)行數(shù)據(jù)優(yōu)化時(shí), 容易淹沒某些RMSECV較小元素的分析準(zhǔn)確度的變化趨勢(shì)。 另外, 人們往往通過重復(fù)測(cè)量以期減小隨機(jī)誤差。 但是, 重復(fù)測(cè)量過程中受測(cè)量條件波動(dòng)等不確定因素的影響, 會(huì)引入異常光譜, 對(duì)分析準(zhǔn)確度會(huì)產(chǎn)生負(fù)面影響。
本文提出了多元素的RMSECV標(biāo)準(zhǔn)化方法, 并引入標(biāo)準(zhǔn)化交叉驗(yàn)證均方根誤差(standardized root mean square error of cross-validation, SRMSECV)的概念, 可有效縮小元素間RMSECV的差異, 更全面地表征多元素的分析準(zhǔn)確度, 從而在數(shù)據(jù)優(yōu)化過程中體現(xiàn)多數(shù)元素的分析準(zhǔn)確度的變化趨勢(shì)。 此外, 通過光譜面積篩選, 有效濾除LIBS檢測(cè)中存在的異常光譜, 并使各元素的定標(biāo)模型的決定系數(shù)(coefficient of determination,R2)均值與SRMSECV均值都得到一定程度改善。
對(duì)10塊Ni基標(biāo)樣進(jìn)行了檢測(cè)氣壓維持在0.5 Pa左右。 所使用的Nd∶YAG激發(fā)光源(GKNQL-1064-10, 北京國科世紀(jì)激光), 輸出波長為1 064 nm, 脈沖能量為55 mJ, 脈寬為20 ns, 重復(fù)頻率為5 Hz。 調(diào)焦系統(tǒng)將激光與等離子信號(hào)探測(cè)系統(tǒng)的焦點(diǎn)匯聚于一點(diǎn), 并具有同步變焦功能, 實(shí)驗(yàn)中輸出鏡至樣品表面距離固定為1.8 m。 四通道型光纖光譜儀(AvaSpec-Desktop, Avantes)波長范圍為190~557 nm, 分辨率為0.04 nm, 受激光器觸發(fā), 積分時(shí)間為1.05 ms, 積分延遲為0.6 μs。 實(shí)驗(yàn)對(duì)每塊樣品均進(jìn)行500個(gè)脈沖的測(cè)試, 為減小光譜儀的讀數(shù)誤差, 每累計(jì)50個(gè)脈沖輸出一幅光譜, 輸出結(jié)果為50次測(cè)試的均值, 即對(duì)每個(gè)樣品共獲得10幅經(jīng)平均的光譜。
圖1 實(shí)驗(yàn)裝置示意圖
實(shí)驗(yàn)樣品集由10塊Ni基合金(安泰科技)組成, 表1給出了各元素在其中的濃度范圍。
表1 樣品集中各元素的濃度范圍(Wt%)
先利用多譜線內(nèi)標(biāo)法根據(jù)10塊Ni基樣品的光譜信息構(gòu)建定標(biāo)模型, 并選出各元素R2較高的一定數(shù)量的特征譜線對(duì), 繼而通過留一交叉驗(yàn)證對(duì)各定標(biāo)模型的性能進(jìn)行測(cè)試, 最終選用各元素RMSECV最低的定標(biāo)模型。
進(jìn)行交叉驗(yàn)證時(shí), 常使用RMSECV來表征定標(biāo)模型的好壞, RMSECV越小表明定標(biāo)模型對(duì)測(cè)試集樣品中的元素含量的分析準(zhǔn)確度越高, 其計(jì)算公式如式(1)
(1)
使用多譜線內(nèi)標(biāo)法構(gòu)建的各元素定標(biāo)模型所選用的分析線組與內(nèi)標(biāo)線組如表2所示, 其中內(nèi)標(biāo)元素均選用基體元素Ni, 各定標(biāo)模型的R2與RMSECV如表3所示。
進(jìn)行交叉驗(yàn)證時(shí), 通常根據(jù)RMSECV的大小來估計(jì)定標(biāo)模型的泛化誤差。 但是, 多譜線內(nèi)標(biāo)法構(gòu)建的定標(biāo)模型的RMSECV的元素間差異較大, 實(shí)驗(yàn)中C與Cr的差異高至8.96倍, 導(dǎo)致RMSECV均值無法較全面地表征多元素的分析準(zhǔn)確度。 因此, 將RMSECV均值選為數(shù)據(jù)優(yōu)化的評(píng)價(jià)指標(biāo)時(shí), 可能不能反映大多數(shù)元素的分析準(zhǔn)確度的變化趨勢(shì)。
表2 各元素定標(biāo)模型所選用的分析線組與內(nèi)標(biāo)線組
表3 各元素定標(biāo)模型的R2與RMSECV
本文發(fā)現(xiàn), 不同元素在樣品集中濃度范圍的差異是造成元素間RMSECV差異的重要因素。 利用多譜線內(nèi)標(biāo)法構(gòu)造定標(biāo)模型, 即是利用最小二乘法對(duì)某元素的特征譜線對(duì)的強(qiáng)度與其在樣品中的濃度進(jìn)行擬合。 當(dāng)樣品中某元素濃度等于該元素在樣品集中的濃度均值時(shí), 對(duì)濃度的回歸值等于基準(zhǔn)值, 定標(biāo)模型在理論上對(duì)該元素濃度的預(yù)測(cè)偏差為0; 濃度偏離濃度均值越大, 回歸值與基準(zhǔn)值的偏差越大, 預(yù)測(cè)偏差也越大。 為證明RMSECV與濃度范圍間的相關(guān)性, 使用最小二乘法對(duì)其進(jìn)行擬合驗(yàn)證, 結(jié)果表明RMSECV與濃度范圍間可近似用線性關(guān)系表述, 其R2為0.7327, 如圖2所示。
圖2 RMSECV與元素濃度范圍的線性最小二乘法關(guān)系曲線
為此, 提出標(biāo)準(zhǔn)化交叉驗(yàn)證均方根誤差(SRMSECV), 其計(jì)算公式由式(2)給出
(2)
式中,CS為某元素在樣品集中的濃度跨度, 其他參數(shù)的定義在介紹RMSECV時(shí)已給出。 由于RMSECV的單位與濃度跨度相同, SRMSECV是無量綱參數(shù)。 圖3給出了各元素標(biāo)準(zhǔn)化前后的RMSECV, 由于RMSECV與濃度跨度具有較高的線性相關(guān)性, 標(biāo)準(zhǔn)化后各元素RMSECV的相對(duì)標(biāo)準(zhǔn)差(relative standard deviation, RSD)由68.7%降至48.9%, 其均值對(duì)不同元素的靈敏度差異顯著減小, 元素間的RMSECV最大差異由8.96倍降至3.93倍。
圖3 各元素的RMSECV及SRMSECV
RMSECV均值對(duì)于個(gè)別元素過于靈敏, 在數(shù)據(jù)優(yōu)化過程中, 可能導(dǎo)致其無法反映大多數(shù)元素分析準(zhǔn)確度的變化趨勢(shì)。 以各樣品的光譜面積中位數(shù)(后文統(tǒng)稱S)為中心, 在(0.977 5S, 1.022 5S)區(qū)間進(jìn)行光譜面積篩選時(shí), 各元素定標(biāo)模型的RMSECV與SRMSECV如表4所示。
經(jīng)過光譜面積篩選, 14種元素中, 雖然有11種元素的RMSECV減小, 但由于Mo元素的RMSECV本身較大, 且在面積篩選后出現(xiàn)較明顯的惡化, 導(dǎo)致各元素的RMSECV均值由0.145 8%增大至0.148 2%, 掩蓋了多數(shù)元素RMSECV減小的趨勢(shì)。 若改用SRMSECV來表征分析準(zhǔn)確度, 則各元素的SRMSECV均值由面積篩選前的0.108 6減小至0.108 3, 多數(shù)元素RMSECV減小的趨勢(shì)得以體現(xiàn)。 這表明, 相較于RMSECV均值, SRMSECV均值能夠更全面地表征多元素分析準(zhǔn)確度, 更有利于實(shí)現(xiàn)定標(biāo)曲線的全自動(dòng)優(yōu)化。
表4 光譜面積篩選區(qū)間(0.977 5S, 1.022 5S)下各元素定標(biāo)模型的RMSECV與SRMSECV
Table 4 RMSECV and SRMSECV of each element under the spectral area screening interval(0.977 5S, 1.022 5S)
評(píng)價(jià)指標(biāo)RMSECV/(Wt%)SRMSECV評(píng)價(jià)指標(biāo)RMSECV/(Wt%)SRMSECVTi0.121 70.064 2Nb0.177 50.074 9Cr0.328 10.061 4W0.229 80.201 6Mn0.050 40.058 6Al0.279 40.069 3V0.061 60.051 3Si0.073 60.099 4Fe0.101 10.114 7C0.035 90.189 1Co0.095 00.082 4Zr0.037 10.123 9Mo0.341 60.133 9Cu0.141 30.190 7
光譜面積篩選, 即是根據(jù)同一樣品的各張等離子光譜的譜圖信息選定某一數(shù)值, 如光譜面積的均值、 中位數(shù)、 中間值等, 并以此數(shù)值為中心, 選定某一光譜面積區(qū)間, 舍棄面積在該區(qū)間之外的光譜, 使用余下光譜進(jìn)行定量分析。 LIBS檢測(cè)中往往存在異常光譜, 其特征之一是面積較正常光譜偏大或偏小。 同一樣品下只有10張光譜且當(dāng)中存在異常光譜時(shí), 均值光譜會(huì)包含異常光譜信息, 而中位數(shù)光譜往往由正常光譜平均而成, 故將光譜面積中位數(shù)S選作篩選中心。
多元素分析準(zhǔn)確度可由各元素定標(biāo)模型的R2均值與SRMSECV均值體現(xiàn)。 為研究篩選區(qū)間跨度對(duì)R2均值與SRMSECV均值的影響, 分別在6個(gè)跨度不同的區(qū)間下進(jìn)行光譜面積篩選, 并利用多譜線內(nèi)標(biāo)法對(duì)篩選剩余的光譜進(jìn)行定量分析, 結(jié)果如圖4所示。
圖4 R2均值與SRMSECV均值隨篩選區(qū)間跨度的變化規(guī)律
Fig.4 The variation of the averageR2and the average SRMSECV with the span of the screening interval
未經(jīng)光譜面積篩選時(shí), 各元素定標(biāo)模型的R2均值為0.950 4, SRMSECV均值為0.108 6。 隨著篩選跨度逐漸縮小,R2均值呈現(xiàn)先增大后減小的趨勢(shì), 而SRMSECV均值則呈現(xiàn)先減小后增大的趨勢(shì)。
出現(xiàn)這種現(xiàn)象, 是由于構(gòu)建定標(biāo)模型時(shí), 各樣品的所有光譜共同組成樣本, 而各樣本點(diǎn)則由單個(gè)樣品的各幅光譜組成。 各樣本點(diǎn)均存在兩類誤差, 一類是隨機(jī)誤差, 由光譜儀基底噪聲、 燒蝕面形貌等因素引入, 另一類則是粗大誤差, 由測(cè)量條件波動(dòng)(如激光脈沖能量, 振動(dòng))等因素引入。 隨機(jī)誤差廣泛存在于各張光譜中, 而異常光譜中既包含隨機(jī)誤差, 也包含粗大誤差。 采樣次數(shù)較多時(shí), 各張光譜所組成整體的隨機(jī)誤差趨向于0, 且異常光譜較集中地分布于光譜面積分布區(qū)間的兩端。 篩選跨度本身較寬時(shí), 縮小篩選跨度能夠有效濾去異常光譜, 從而減小粗大誤差。 然而, 光譜面積篩選在濾去異常光譜時(shí), 變相減少了采樣次數(shù), 致使篩選剩余光譜組成整體的隨機(jī)誤差增大。 當(dāng)篩選跨度減小到一定程度時(shí), 面積篩選減小粗大誤差的效果已不明顯, 而隨機(jī)誤差隨著光譜張數(shù)減少逐漸增大, 導(dǎo)致分析準(zhǔn)確度反而下降。
表5給出的是在優(yōu)化篩選跨度下, 進(jìn)行光譜面積篩選所獲得的各元素定標(biāo)模型的R2與SRMSECV。
表5 (0.974 7S, 1.025 3S)跨度下各元素定標(biāo)模型的R2與SRMSECV
Table 5 TheR2and SRMSECV of each element under the spectral area screening interval (0.974 7 S, 1.025 3 S)
評(píng)價(jià)指標(biāo)R2SRMSECV評(píng)價(jià)指標(biāo)R2SRMSECVTi0.990 00.064 3Nb0.992 40.071 3Cr0.993 10.060 6W0.870 70.200 5Mn0.995 60.058 4Al0.977 50.069 8V0.992 70.049 6Si0.963 30.104 4Fe0.929 30.112 7C0.882 80.191 8Co0.982 50.079 0Zr0.947 70.126 0Mo0.958 20.111 7Cu0.858 50.188 9
經(jīng)過光譜面積篩選, 14種分析元素中, 有10種元素定標(biāo)模型的R2得到優(yōu)化,R2均值由0.950 4升至0.952 5; 有11種元素定標(biāo)模型的SRMSECV得到優(yōu)化, SRMSECV均值由0.108 6降至0.106 4。 可見, 在合適的篩選跨度下進(jìn)行光譜面積篩選, 可在一定程度上提高LIBS的多元素分析準(zhǔn)確度。
通過對(duì)RMSECV進(jìn)行標(biāo)準(zhǔn)化, 可有效減小元素間的RMSECV差異, 與RMSECV均值相比, SRMSECV均值能夠更全面表征多元素的分析準(zhǔn)確度, 將后者作為評(píng)價(jià)指標(biāo)進(jìn)行數(shù)據(jù)優(yōu)化時(shí), 能夠體現(xiàn)多數(shù)元素分析準(zhǔn)確度的變化趨勢(shì)。 在0.5 Pa真空下, 對(duì)10塊Ni基標(biāo)樣進(jìn)行了檢測(cè), 使用光譜面積篩選進(jìn)行預(yù)處理后, 利用多譜線內(nèi)標(biāo)法對(duì)其中的14種元素成分進(jìn)行了定量分析。 在優(yōu)化光譜面積篩選跨度下, 各元素定標(biāo)模型的R2均值與SRMSECV均值都得到一定程度改善。