• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      近紅外光譜樣本集劃分以及預(yù)處理的方法研究*

      2023-04-06 10:41:20陳方方丁躍武李四海
      甘肅科技 2023年1期
      關(guān)鍵詞:殘差校正預(yù)處理

      陳方方,丁躍武,楊 友,李四海

      (甘肅中醫(yī)藥大學(xué)信息工程學(xué)院,甘肅 蘭州 730000)

      近紅外光譜技術(shù)是介于可見光與中紅外光譜之間的一種電磁波,光譜范圍為780~2 520 nm,主要信息來源于對(duì)氫基團(tuán)的倍頻和合頻的吸收,不同的基團(tuán)產(chǎn)生的信息不相同,相同的基團(tuán)在不同的環(huán)境下產(chǎn)生的信息也不相同。因近紅外光譜技術(shù)具有操作便捷、效率高、無污染等特點(diǎn)得到廣泛應(yīng)用[1-3]。

      以研究過程中的方法選擇、數(shù)據(jù)處理為主要研究內(nèi)容,提取最大限度的化學(xué)和分析信息,不僅能夠提高操作中的效率,還可以提高模型的預(yù)測精度。異常樣本識(shí)別、樣本集劃分、光譜預(yù)處理是建立分析模型的基礎(chǔ),良好的數(shù)據(jù)處理方法是建立穩(wěn)定性好、預(yù)測能力強(qiáng)的分析模型的重要條件。褚小立等[4]、閔順耕等[5]分別對(duì)異常樣本識(shí)別、預(yù)處理等一些化學(xué)計(jì)量學(xué)方法進(jìn)行總結(jié),然而這些算法已是多年之前的研究,隨著技術(shù)的發(fā)展,近些年產(chǎn)生了大量的新算法,文章在此基礎(chǔ)上介紹了近幾年近紅外光譜的異常樣本識(shí)別、樣本集劃分、光譜預(yù)處理算法原理及應(yīng)用。

      1 近紅外光譜異常樣本識(shí)別

      近紅外光譜分析的對(duì)象通常都是較為復(fù)雜的對(duì)象,在對(duì)數(shù)據(jù)進(jìn)行化學(xué)分析時(shí),常常由于環(huán)境問題、操作人員的失誤、取樣不均以及樣本的復(fù)雜度等問題,導(dǎo)致檢測結(jié)果不可靠或異常樣本的出現(xiàn),會(huì)對(duì)模型精確度產(chǎn)生影響。因此,為建立一個(gè)更加穩(wěn)定可靠的模型,在進(jìn)行定量分析之前需要對(duì)樣本的異常值進(jìn)行識(shí)別和剔除。

      1.1 常用的異常樣本識(shí)別方法

      光譜數(shù)據(jù)中的異常樣本可以通過觀察光譜數(shù)據(jù)本身進(jìn)行剔除,但由于會(huì)受人為等一些其他因素的干擾,難以實(shí)現(xiàn)對(duì)光譜數(shù)據(jù)客觀、準(zhǔn)確地分析,選擇適合的方法對(duì)樣本進(jìn)行異常值篩選,能更好地保證模型的穩(wěn)定性。目前,常用的方法主要有Cook距離、馬氏距離、樣本杠桿值、學(xué)生化殘差、濃度殘差值、光譜殘差值、蒙特卡洛交叉驗(yàn)證(Monte-Carlo Cross Validation,MCCV)等[6-9]。

      1.1.1 Cook距離

      Cook距離主要用來檢驗(yàn)?zāi)硺颖镜拇嬖趯?duì)模型回歸系數(shù)產(chǎn)生的影響,其距離計(jì)算如下:

      1.1.2 樣本杠桿值和學(xué)生化殘差

      在多元回歸模型中,光譜矩陣Xc存在:

      H通常被稱為“帽子矩陣”,對(duì)角線上的元素Hi表示第i個(gè)樣本杠桿值(Leverage)。當(dāng)杠桿值大于的樣本被認(rèn)為是異常樣本,p是光譜波數(shù)個(gè)數(shù),n是樣本個(gè)數(shù)。樣本杠桿值表示樣本值對(duì)模型的影響程度,杠桿值越小代表該樣本有利于模型的建立,但樣本杠桿值大的不一定是異常樣本,需要結(jié)合學(xué)生化殘差來進(jìn)行綜合考慮。

      學(xué)生化殘差考慮了樣本性質(zhì)矩陣的預(yù)測能力,其表達(dá)式為:

      式中:yi是第i個(gè)樣本的真實(shí)值是第i個(gè)樣本的預(yù)測值,si是剔除第i個(gè)樣本后擬合回歸的均方根誤差。學(xué)生化殘差表示樣本杠桿值對(duì)應(yīng)的樣本濃度預(yù)測能力的優(yōu)劣,如果樣若樣本的學(xué)生化殘差和杠桿值都很大,判斷該樣本為異常樣本的可能性較大。

      1.1.3 馬氏距離

      馬氏距離是指樣本光譜集與標(biāo)準(zhǔn)光譜集的平均光譜距離,用來衡量某一個(gè)樣本對(duì)整個(gè)樣本集產(chǎn)生的影響,如果馬氏距離大于閾值,表明該樣本影響模型的穩(wěn)定性,此樣本可能是異常樣本。

      馬氏距離的算法步驟如下:

      式中:ti是樣本集的主成分得分向量,是標(biāo)準(zhǔn)光譜集的主成分得分的平均值,V-1是標(biāo)準(zhǔn)光譜數(shù)據(jù)集的協(xié)方差的逆矩陣。

      1.1.4 濃度化殘差

      濃度殘差法通過計(jì)算樣本的化學(xué)絕對(duì)值誤差的方差與整個(gè)數(shù)據(jù)集各樣本的絕對(duì)方差的平均值,用F檢驗(yàn)來判別,大于閾值可判定為異常樣本。

      當(dāng)Fi>F0.05(1,n-1)可以判斷第i個(gè)樣本為異常樣本。光譜化殘差是指計(jì)算原始光譜與重構(gòu)光譜的殘差譜的方差,可用來判斷光譜異常值和特征峰的異常。

      1.1.5 蒙特卡洛異常值采樣

      MCCV利用蒙特卡洛交叉驗(yàn)證中奇異樣本的統(tǒng)計(jì)規(guī)律來識(shí)別奇異樣本,通過MCCV計(jì)算出模型中預(yù)測殘差平方和(PRESS),再建立定量分析模型,如果樣本在具有小的PRESS的分析模型中的出現(xiàn)次數(shù)明顯偏離則表明為奇異樣本。具體過程如下:

      (1)對(duì)樣本建立PLS模型確定最佳主成分?jǐn)?shù);

      (2)采用蒙特卡洛隨機(jī)取樣法選取80%的樣本作為校正集,20%作為驗(yàn)證集,確定最佳主成分?jǐn)?shù),對(duì)校正集建立PLS回歸模型,用驗(yàn)證集進(jìn)行預(yù)測,得到驗(yàn)證集樣本的預(yù)測值;

      (3)對(duì)步驟(2)進(jìn)行循環(huán),得到預(yù)測誤差分布;

      (4)計(jì)算樣本預(yù)測殘差的均值和方差,確定在一定的方差下,具有較大殘差下的樣本數(shù),將這些樣本視為異常樣本。

      此外,在對(duì)數(shù)據(jù)進(jìn)行異常樣本剔除時(shí),可能會(huì)存在異常樣本點(diǎn)的誤判,不能實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)完全剔除,針對(duì)這種現(xiàn)象祝詩平等[10]提出對(duì)可疑樣本進(jìn)行二次驗(yàn)證,即“二審”剔除法,其基本思想是指在對(duì)樣本進(jìn)行一次異常樣本檢驗(yàn)時(shí),如果被檢測為可疑樣本,不馬上對(duì)其進(jìn)行剔除,而是繼續(xù)對(duì)其進(jìn)行二次計(jì)算,如果仍被判定為異常樣本,就對(duì)其進(jìn)行剔除,否則,進(jìn)行保留,通過“二審”剔除法,使模型更具有代表性和穩(wěn)定性,進(jìn)一步提高近紅外光譜模型定量分析的精度。

      2 近紅外光譜樣本集劃分

      在對(duì)樣本數(shù)據(jù)集進(jìn)行分析時(shí),選取合適有效的樣本進(jìn)行化學(xué)建模不僅可以提高模型的精準(zhǔn)度,還為后續(xù)模型的維護(hù)和更新提供更為便捷的方法。目前,常用的樣本集劃分方法有隨機(jī)抽樣(Random Sampling,RS)法[11]、常規(guī)選擇(Conventional Selection,CS)法[12]、Kennard-stone(KS)法[13]、X-Y聯(lián)合距離的樣本集劃分(Sample Set Portioning base on joint xy distance,SPXY)[14]等。詹雪艷等[15]比較了三種校正集選擇方法并對(duì)積雪草中的積雪草苷的含量建立NIR定量分析模型。陳奕云等[16]以江漢平原洪湖地區(qū)水稻土為研究對(duì)象,采用KS法,SPXY法構(gòu)建樣本數(shù)占總校正集不同比例的子校正集,建立定量分析模型。

      2.1 常用的樣本集劃分方法

      CS法在對(duì)樣本進(jìn)行劃分時(shí),增強(qiáng)樣本中的某些特征如:廠家、產(chǎn)地等一些因素的變異,對(duì)樣本的化學(xué)含量值進(jìn)行測量、篩選、按大小進(jìn)行排序,以校正集和測試集比例選擇化學(xué)測量值最高或最低的樣本進(jìn)行分配。RS法是指對(duì)光譜數(shù)據(jù)集進(jìn)行隨機(jī)挑選,篩選出來的一部分樣本作為校正集,其余的作為測試集。RS方法具有操作簡單,不需要對(duì)數(shù)據(jù)進(jìn)行挑選、排序、計(jì)算等特點(diǎn),此方法適用于樣本數(shù)量比較大的樣本集,當(dāng)用于樣本集較少的情況下會(huì)導(dǎo)致樣本劃分不均勻,影響模型的預(yù)測精度。

      2.1.1 KS法

      在近紅外光譜分析模型分析中,樣本集較少的情況下可選擇KS法,根據(jù)計(jì)算樣本間光譜的歐式距離來計(jì)算樣本間差異。采用KS算法不僅可以起到降低算法計(jì)算代價(jià),加快學(xué)習(xí)速度之作用外,還可以避免過擬合現(xiàn)象發(fā)生。KS算法的具體步驟如下:

      (1)將所有的樣本都視為訓(xùn)練集,計(jì)算整個(gè)樣本集中的歐式距離,選擇歐式距離最大的2個(gè)樣本做為訓(xùn)練集;

      (2)計(jì)算剩余樣本與已選樣本之間的距離,最短距離選為訓(xùn)練集,待所有的剩余樣本計(jì)算過后,選擇這些最短距離中的最長距離所對(duì)應(yīng)的樣本選作訓(xùn)練集;

      (3)重復(fù)步驟2,直至所選的樣本集樣本個(gè)數(shù)等于事先確定的數(shù)目為止。

      歐式距離為歐幾里得度量(Euclidean Metric)指在n維空間中兩點(diǎn)之間的真實(shí)距離,或者向量的自然長度。其公式如下:

      式中:xp和xq表示2個(gè)不同的樣本,N表示樣本的光譜波點(diǎn)數(shù)量。

      2.1.2 SPXY

      SPXY算法是在KS的基礎(chǔ)上發(fā)展而來的,是一種均勻的采樣方法,在計(jì)算樣本間距離時(shí)綜合考慮了數(shù)據(jù)變量和化學(xué)測量值之間的歐式距離,能夠改善所建模型的預(yù)測能力。其計(jì)算公式如下:

      將光譜數(shù)據(jù)x和化學(xué)測量值y同時(shí)考慮在內(nèi),p、q之間的距離為dxy(p,q),公式如下:

      為確保x和y在每個(gè)樣本上具有相同的權(quán)重,對(duì)數(shù)據(jù)集中的最大距離值dx(p,q)和dy(p,q)進(jìn)行歸一化。然后,采用類似于KS算法逐步選擇,直到選擇出需要的數(shù)據(jù)為止。

      3 近紅外光譜預(yù)處理方法

      近紅外光譜在采集過程中由于光的散射、背景干擾以及儀器誤差等原因,對(duì)建立的分析模型產(chǎn)生影響,因此,有必要對(duì)已經(jīng)獲得的光譜信息進(jìn)行預(yù)處理。常用的預(yù)處理方法主要分為基線校正、散射校正、平滑處理、尺度縮放[17]四類。其中,基線校正包括一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、小波變換等,主要是消除儀器背景干擾以及光線漂移對(duì)信號(hào)產(chǎn)生的影響。尺度縮放包括均值中心化[18]、最大最小歸一化、標(biāo)準(zhǔn)化、矢量歸一化等,主要是通過消除尺度差異過大帶來的影響。散射校正主要包括多元散射校正(Multiplicative Scatter Correction,MSC)[19]、標(biāo)準(zhǔn)正態(tài)變量變換(Standard Normalized Variate,SNV)[20]、正交信號(hào)校正(Orthogonal Signal Correction,OSC)[21]、去趨勢算法(Dr-trending)等,主要通過消除由于樣品顆粒不均勻及顆粒大小不同而產(chǎn)生的散射。平滑處理包括移動(dòng)窗口平滑、Savitzky-Golay(SG)平滑[22]等,主要消除光譜中隨機(jī)噪聲產(chǎn)生的影響。

      3.1 基線校正

      光譜數(shù)據(jù)采集時(shí)會(huì)受到由基線漂移以及光譜重疊的影響,進(jìn)而在數(shù)據(jù)建模中產(chǎn)生較多的隨機(jī)誤差。對(duì)光譜數(shù)據(jù)進(jìn)行求導(dǎo)可以消除光譜數(shù)據(jù)集中不重要的基線漂移。一階導(dǎo)數(shù)可以用來消除同波長無關(guān)漂移;二階導(dǎo)數(shù)可以消除同波長線性相關(guān)的漂移,同時(shí)提高光譜的分辨率,但也會(huì)降低光譜的信噪比。此外,對(duì)光譜的求導(dǎo)方法包括直接差分法和Savitzky-Golay卷積求導(dǎo)法。當(dāng)獲得的數(shù)據(jù)具有高分辨率、波長點(diǎn)數(shù)量多的情況下,直接差分法和Savitzky-Golay卷積求導(dǎo)存在誤差較小。

      小波變換主要包括離散小波變換(Discrete Wavelet Transform,DWT)和連續(xù)小波變換(Continuous Wavelet Transform,CWT)是一種有效的數(shù)值求導(dǎo)方法,不僅可以提高光譜分辨率還可以保證光譜的信噪比。通過對(duì)原始光譜進(jìn)行分解,得到時(shí)域和頻域的信息,進(jìn)一步對(duì)信號(hào)進(jìn)行濾噪和平滑,消除低頻背景和高頻噪聲。小波變換常用的小波函數(shù)具有多樣性,不同的小波函數(shù)處理相同的問題得到的結(jié)果相差也較大,其小波函數(shù)的正確使用也是當(dāng)前研究的一大熱點(diǎn)之一。

      3.2 散射校正

      在對(duì)數(shù)據(jù)進(jìn)行采集時(shí)由于顆粒大小、形狀、分布不均勻等會(huì)引起光的散射漂移,導(dǎo)致相同的樣本在不同光譜圖中存在差異,這種現(xiàn)象稱為光的散射現(xiàn)象。MSC和SNV正是用來消除這種現(xiàn)象對(duì)光譜造成的影響,MSC計(jì)算校正集所有光譜的平均值,將每條光譜與平均光譜做一元線性回歸,得到線性回歸的斜率和截距,以此對(duì)原始光譜進(jìn)行校正,但對(duì)于光譜數(shù)據(jù)來說將每條光譜都視為線性相關(guān)是難以實(shí)現(xiàn)的。相對(duì)于MSC,SNV是從原始光譜中減去該光譜的平均值,再除以標(biāo)準(zhǔn)差,以此來消除光的散射效應(yīng)。SNV可以減少散射、粒度以及多重線性對(duì)近紅外光譜中的一些影響,但這些情況是需要保證整個(gè)光譜范圍是均勻的。去趨勢算法[5]通過消除光譜漫反射產(chǎn)生的基線漂移,提高模型的預(yù)測效果,該方法不僅可以單獨(dú)使用,還可以跟其他預(yù)處理方法進(jìn)行結(jié)合使用。

      3.3 平滑處理

      平滑處理是一種低通濾波器,可以用來消除光譜信號(hào)中的隨機(jī)噪聲,提高信號(hào)的信噪比。移動(dòng)窗口算法會(huì)對(duì)光譜信息的邊界點(diǎn)造成損失,此外,在進(jìn)行移動(dòng)窗口時(shí)對(duì)其寬度需要設(shè)置一個(gè)恰當(dāng)?shù)膮?shù)。當(dāng)移動(dòng)窗口過小時(shí)不能更好地減少噪聲,過大則會(huì)對(duì)波譜的波峰平滑過多,造成有用信號(hào)失真。因此,提出了SG卷積平滑算法,其實(shí)質(zhì)是一種加權(quán)平均算法,主要是利用多項(xiàng)式對(duì)原始光譜移動(dòng)窗口內(nèi)的數(shù)據(jù)進(jìn)行多項(xiàng)式分解并對(duì)其進(jìn)行最小二乘擬合。SG平滑算法是目前使用較為廣泛的去噪方法,但對(duì)移動(dòng)窗口寬度及多項(xiàng)式次數(shù)的選擇仍需進(jìn)行優(yōu)化選擇。

      3.4 尺度縮放

      尺度縮放的作用就是用來消除數(shù)據(jù)由于尺度差異過大而帶來的一些影響。均值中心化是將每個(gè)樣品光譜減去校正集的平均光譜,用以消除光譜的絕對(duì)吸收,能夠增強(qiáng)樣本光譜之間的差異,提高建模時(shí)光譜特征的識(shí)別,減少數(shù)據(jù)之間的線性和相互作用項(xiàng)之間的協(xié)方差。光譜標(biāo)準(zhǔn)化又稱均值標(biāo)準(zhǔn)化,將數(shù)據(jù)經(jīng)過均值中心化后再除以校正集光譜陣的標(biāo)準(zhǔn)偏差,能夠賦予所有波長變量相同的權(quán)重,這對(duì)低濃度組分樣品建模有較大幫助。其中,均值中心化和標(biāo)準(zhǔn)化是最常用的2種方法,這2種方法在對(duì)光譜數(shù)據(jù)進(jìn)行處理的同時(shí),往往對(duì)目標(biāo)函數(shù)也進(jìn)行同樣的變換。歸一化通常用于校正微小光程差異帶來的光譜變化,是將每個(gè)光譜點(diǎn)減去所在變量列的最小值后,再除以光譜所在列最大值和最小值的差值。最大最小歸一化具有可以提高模型收斂速度和模型精度的特點(diǎn)。

      目前,有學(xué)者提出對(duì)近紅外光譜預(yù)處理方法進(jìn)行組合,以提高模型預(yù)測效果[23]。張朱珊瑩[24]等對(duì)選取的血液樣本分別進(jìn)行無預(yù)處理和單一預(yù)處理,將每類最優(yōu)的預(yù)處理再進(jìn)行組合研究,并根據(jù)建模后的交互驗(yàn)證均方根誤差選出最優(yōu)的預(yù)處理方法。實(shí)驗(yàn)表明將預(yù)處理方法按照效果進(jìn)行分類并組合可得到最佳的預(yù)處理效果。羅曦等[25]對(duì)62份水稻抗性淀粉含量進(jìn)行測定,通過比較未進(jìn)行預(yù)處理、MSC+1thD、1thD+SNV預(yù)處理效果,表明經(jīng)過結(jié)合的預(yù)處理方法無論內(nèi)部驗(yàn)證還是外部驗(yàn)證都具有較高的決定系數(shù)和較低的誤差值,模型精度更高,誤差更小。

      4 結(jié)束語

      近紅外光譜技術(shù)在現(xiàn)代分析技術(shù)中的重要地位已經(jīng)不言而喻,文章綜述了多達(dá)幾十種的選擇算法,這些方法都有各自的優(yōu)點(diǎn)和缺點(diǎn)。然而,在實(shí)際應(yīng)用中還需要考慮如何選取最優(yōu)方案等問題,盡管有規(guī)律可循,但不同方法進(jìn)行結(jié)合,產(chǎn)生的結(jié)果也不盡相同,需要對(duì)這些方法進(jìn)行比較,以獲得最優(yōu)效果?,F(xiàn)如今,近紅外光譜化學(xué)計(jì)量學(xué)算法也是未來發(fā)展的一個(gè)重要方向,也為近紅外光譜的發(fā)展提供一定的借鑒意義。

      猜你喜歡
      殘差校正預(yù)處理
      基于雙向GRU與殘差擬合的車輛跟馳建模
      基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
      劉光第《南旋記》校正
      國學(xué)(2020年1期)2020-06-29 15:15:30
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      一類具有校正隔離率隨機(jī)SIQS模型的絕滅性與分布
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      機(jī)內(nèi)校正
      淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
      絡(luò)合萃取法預(yù)處理H酸廢水
      平穩(wěn)自相關(guān)過程的殘差累積和控制圖
      河南科技(2015年8期)2015-03-11 16:23:52
      长岭县| 锦屏县| 兰溪市| 德兴市| 景泰县| 绿春县| 山西省| 荆门市| 武义县| 澄江县| 西畴县| 天祝| 玉树县| 鸡泽县| 石楼县| 赣榆县| 讷河市| 多伦县| 龙川县| 岳阳市| 汤阴县| 隆林| 西吉县| 平昌县| 辽源市| 吉木萨尔县| 阿坝| 开阳县| 岳阳市| 武邑县| 丁青县| 侯马市| 塔城市| 原阳县| 洛扎县| 清徐县| 光泽县| 曲沃县| 岑巩县| 彰武县| 乡城县|