王玉喜,賈振紅*,楊 杰,Nikola K Kasabov
1. 新疆大學(xué)信息科學(xué)與工程學(xué)院, 新疆 烏魯木齊 830046 2. 上海交通大學(xué)圖像處理與模式識(shí)別研究所,上海 200240 3. Knowledge Engineering and Discovery Research Institute, Auckland University of Technology, Auckland 1020, New Zealand
近幾年來(lái),近紅外光譜(NIR)分析在石化、制藥、環(huán)境、臨床、農(nóng)業(yè)、食品和生物醫(yī)學(xué)等領(lǐng)域得到了廣泛的應(yīng)用; 有時(shí),不同樣品的光譜包含的信息非常相近,變量提取困難。 靈敏、快速和準(zhǔn)確的提取相關(guān)變量來(lái)預(yù)測(cè)樣品的化學(xué)成分是化學(xué)計(jì)量學(xué)的重要內(nèi)容。 一般來(lái)說(shuō),近紅外光譜技術(shù)與多變量技術(shù)結(jié)合用于對(duì)相關(guān)物質(zhì)的定性或定量分析。 在光譜化學(xué)計(jì)量學(xué)中通常遇到的是具有大量波長(zhǎng)變量和相對(duì)較少樣本的光譜數(shù)據(jù)情況,在這種情況下建模具有過(guò)度擬合的高風(fēng)險(xiǎn),并導(dǎo)致多變量校準(zhǔn)模型不良或低效的預(yù)測(cè)結(jié)果。 多變量分析中的變量選擇是一個(gè)非常重要的步驟,因?yàn)橄裏o(wú)關(guān)或無(wú)信息變量和降低數(shù)據(jù)維度不僅可以簡(jiǎn)化校準(zhǔn)建模,并在準(zhǔn)確性和魯棒性方面也能改進(jìn)預(yù)測(cè)結(jié)果。
鑒于變量選擇帶來(lái)的益處,基于不同策略的變量選擇方法已被大量提出。 這不僅包括傳統(tǒng)經(jīng)典的方法,如前向選擇和后向消除[1]; 懲罰性方法,如最小絕對(duì)收縮和選擇算子(LASSO)[2],彈性網(wǎng)和最小角度回歸(LARS)[3-4]; 智能學(xué)習(xí)算法,如遺傳算法(GA)[5],蟻群優(yōu)化(ACO)[6]和粒子群優(yōu)化(PSO)[7]。 還有一些基于不同的變量排列標(biāo)準(zhǔn)的方法,如回歸系數(shù)[8],投影中的變量重要性(VIP)和選擇性比率(SR)[9],蒙特卡羅無(wú)信息消除(MC-UVE)[10]和子窗口置換分析(SPA)[11]。 隨著模型群體分析(MPA)思想的發(fā)展,在此基礎(chǔ)上提出了一些新的算法如競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(CARS)[12],變量迭代空間收縮法(VISSA)[13],搜索空間的交替通縮和膨脹法(ADISS)[14],自加權(quán)變量組合集群分析法( AWVCPA)[15], 變量組合群體分析(VCPA)[16],自舉軟收縮法(BOSS)[17]等。
本算法繼續(xù)了MPA(模型集群分析)策略算法的優(yōu)點(diǎn),首先從大量的子模型中提取有用信息,避免單個(gè)模型的結(jié)果或參數(shù)不可靠性。 其次保留變量間的協(xié)同與組合效應(yīng),在隨機(jī)采樣優(yōu)化中產(chǎn)生隨機(jī)變量的組合。 并通過(guò)收縮策略逐步消除無(wú)關(guān)變量,保留信息變量。 同時(shí)還規(guī)避掉了此策略算法需要大量的迭代和循環(huán)、算法效率低、收斂速度慢的缺點(diǎn)。 本算法將時(shí)間效率和變量選擇效果考慮在內(nèi),即降低時(shí)間成本,同時(shí)能夠保證選擇出近紅外光譜中的信息變量,消除數(shù)據(jù)集變量中的無(wú)信息和干擾變量,增加光譜模型的可靠性與穩(wěn)定性。 還考慮了關(guān)鍵變量以回歸系數(shù)絕對(duì)值定義的問(wèn)題,MPA策略下的算法大部分以回歸系數(shù)絕對(duì)值作為變量重要性的依據(jù),以采樣技術(shù)(如二進(jìn)制重采樣)通過(guò)收縮策略逐步消除無(wú)關(guān)變量,由于回歸系數(shù)的絕對(duì)值并不總是反映變量重要性的真實(shí)信息,會(huì)受到噪聲等諸多因素的影響[18],從而會(huì)對(duì)變量選擇算法造成不良影響,而以SR(選擇比率)得分值定義的重要變量會(huì)更有優(yōu)勢(shì),可以消除噪聲諸多因素對(duì)光譜數(shù)據(jù)的影響。 啤酒酵母底物數(shù)據(jù)集在采集光譜時(shí)在1 100~2 500 nm處存在噪聲,本算法可以消除噪聲的影響,即采用選擇比率可以定位到信息變量區(qū)域,減弱噪聲因素和無(wú)關(guān)變量對(duì)變量選擇算法的影響,減少噪聲和無(wú)關(guān)變量被選入關(guān)鍵變量的可能。
1.1.1 啤酒數(shù)據(jù)集
啤酒近紅外光譜數(shù)據(jù)集[19]是使用NIR Systems Inc.收集25 ℃下的分散近紅外數(shù)據(jù)(包括視覺(jué)區(qū)域)。 并以2 nm的間隔在400~2 250 nm范圍內(nèi)收集。 對(duì)于該研究,選擇了NIR區(qū)域1 100~2 250 nm(576個(gè)數(shù)據(jù)點(diǎn))。 原始提取物濃度表明酵母發(fā)酵成酒精的底物被認(rèn)為是研究感興趣的化學(xué)性質(zhì),并用化學(xué)方法測(cè)量其濃度。 通過(guò)對(duì)提取值進(jìn)行分類(lèi),運(yùn)用Kennard-Stone分類(lèi)法選取其中的40個(gè)樣本的近紅外光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為校正預(yù)測(cè)模型集,剩余的20個(gè)樣本的近紅外光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為預(yù)測(cè)集檢驗(yàn)?zāi)P汀?/p>
1.1.2 小麥蛋白數(shù)據(jù)集
圖1 (a)啤酒光譜; (b)小麥蛋白光譜
假設(shè)大小為n×p的數(shù)據(jù)矩陣X包含行中n樣本和列中的p變量,并且大小為n×1的向量y表示所測(cè)量的感興趣屬性。 在建立PLS模型時(shí),X和y都以均值中心化處理。
模型評(píng)價(jià)參數(shù)的作用是評(píng)價(jià)通過(guò)校正集樣本建立的預(yù)測(cè)模型可靠性。 在近紅外光譜多元校正建模過(guò)程中,由相關(guān)系數(shù)Q2、預(yù)測(cè)均方根誤差(RMSEP)和交叉驗(yàn)證均方根誤差(RMSECV)對(duì)模型評(píng)價(jià)。 模型相關(guān)系數(shù)Q2越高,即越接近1越好。 RMSECV和RMSEP越小,即越接近0模型預(yù)測(cè)能力越強(qiáng)。
使用的是一臺(tái)通用聯(lián)想計(jì)算機(jī),內(nèi)核為i5 3.2 GHz CPU,內(nèi)存為4g,操作系統(tǒng)為Microsoft Windows 7。 所有計(jì)算均在MATLAB 2016a中進(jìn)行。 數(shù)據(jù)可視化處理用Origin2016。
將功能指數(shù)遞減函數(shù)(EDF)的迭代次數(shù)和蒙特卡羅采樣(MCS)次數(shù)設(shè)置為N。 每次隨機(jī)MCS采樣的采樣比率為R。 使用上述設(shè)置,SRCMPA可以在每次迭代中分為四個(gè)步驟: (1)變量的子集使用固定選擇比率的蒙特卡羅抽樣隨機(jī)建立。 (2)計(jì)算每個(gè)變量的SR得分值,為一個(gè)p維的得分值向量,并對(duì)其值排序,然后使用EDF強(qiáng)制消除排列靠后面的非信息或冗余變量,以變量保留比例ri=ae-ki, 即以EDF消除ri×p數(shù)量以外的靠后變量。 (3)標(biāo)準(zhǔn)化的SR分?jǐn)?shù)作為每個(gè)波長(zhǎng)和自適應(yīng)加權(quán)抽樣方法進(jìn)一步消除變量的權(quán)重。 有較大權(quán)重的變量被保留的概率更大,而權(quán)重弱的變量競(jìng)爭(zhēng)力較弱,并且在變量的群體內(nèi)逐漸被消除。 (4)N次迭代后會(huì)獲得N變量子集,并應(yīng)用交叉驗(yàn)證以評(píng)估每個(gè)子集。 其中交叉驗(yàn)證的最小均方根誤差的子集被選為最佳子集。
蒙特卡羅抽樣是一個(gè)用于分析復(fù)雜(多元變量)問(wèn)題十分有效且應(yīng)用廣泛的重要統(tǒng)計(jì)工具,在每次采樣運(yùn)行中,樣本和變量都分別隨固定數(shù)量隨機(jī)選擇。 MCS在樣本空間和校準(zhǔn)集的可變空間中實(shí)現(xiàn),以此獲得若干個(gè)子數(shù)據(jù)集,并利用PLS等一些回歸方法在每個(gè)子數(shù)據(jù)集建立子模型,進(jìn)而形成模型空間。 利用統(tǒng)計(jì)分析方法可對(duì)每個(gè)子模型輸出參數(shù)分析,來(lái)評(píng)價(jià)每個(gè)子數(shù)據(jù)集感興趣的未知參數(shù)。
模型解釋是偏最小二乘法(PLS)的大多數(shù)應(yīng)用中的重要任務(wù)。 從作為潛在回歸方法的性質(zhì)看,偏最小二乘回歸提供了一種多對(duì)多線性回歸建模的方法,能夠處理具有嚴(yán)重多重相關(guān)性高維度數(shù)據(jù)。 然而,使用潛在變量也會(huì)給模型解釋帶來(lái)困難。 這種困難是由于PLS構(gòu)造的潛在變量不僅是為了最大化數(shù)據(jù)矩陣X和響應(yīng)y的相關(guān)性,而且還同時(shí)嘗試X解釋方差的最大化。 因此我們無(wú)法使用諸如權(quán)重和負(fù)荷之類(lèi)的模型參數(shù)來(lái)直接解釋模型。 尤其是在受多種變異來(lái)源影響的分析數(shù)據(jù)中,當(dāng)主要變異源與Y無(wú)關(guān)時(shí),所解釋的X方差的最大化可能會(huì)將無(wú)關(guān)信息帶入PLS模型。 因此基于這些參數(shù)對(duì)PLS模型和變量重要性解釋并不容易。
2.2.1 回歸系數(shù)
對(duì)于回歸系數(shù)(Beta)重要變量的選擇,直接的策略是量化回歸系數(shù)周?chē)闹眯艆^(qū)間,但在PLS線性模型下,響應(yīng)向量y依賴(lài)其正交投影到由X的列向量所生成的子空間上的投影矩陣,即帽子矩陣。 PLS回歸系數(shù)也沒(méi)有用于不確定性的封閉分析形式。 因此,重采樣技術(shù)通常用于確定置信區(qū)間。 各種重采樣技術(shù)可用于PLS回歸系數(shù),但并沒(méi)有一種方法可以在模型中提供變量重要性的直接排序。 通常以回歸系數(shù)的絕對(duì)值作為指導(dǎo),但回歸系數(shù)的絕對(duì)值并不總是反映變量重要性的真實(shí)信息,還會(huì)受到噪聲等諸多因素的影響。
另外,如果選擇跟團(tuán)游,超過(guò)70歲以上老人,一般要求有可照顧老人家屬陪同,對(duì)于具體參團(tuán)目的地暫時(shí)沒(méi)有限制,但建議游客選擇行程輕松、舒適,不過(guò)于勞累或疲憊的線路,此外不建議參加有較大安全風(fēng)險(xiǎn)的產(chǎn)品,例如水上項(xiàng)目、高風(fēng)險(xiǎn)運(yùn)動(dòng)類(lèi)的產(chǎn)品。
2.2.2 選擇比率
關(guān)于選擇比(SR)[21],在給定PLS的回歸系數(shù)向量bpls條件下,TP分?jǐn)?shù)是通過(guò)以X的行在歸一化回歸系數(shù)向量上的投影來(lái)實(shí)現(xiàn)的,tTP是與預(yù)測(cè)值成比例的。 對(duì)于載荷PTP是通過(guò)投影X的列到分?jǐn)?shù)向量得到的
tTP=Xbpls/‖bpls‖
(1)
(2)
解釋和殘差方差可以通過(guò)變量矩陣X和投影(TP)分?jǐn)?shù)和載荷來(lái)計(jì)算
(3)
(4)
Si, res=‖eTPi‖2,i=1, 2, …,p
(5)
由式(4)和式(5)確定選擇比被定義為對(duì)于第i個(gè)變量的解釋的方差Si, exp與每個(gè)變量的殘差方差Si, res之比
SRi=Si,exp/Si, res,i=1, 2, …,p
(6)
F檢驗(yàn)定義為高辨別能力的可變區(qū)域間的邊界和非興趣區(qū)域。 為了確定哪一個(gè)變量具有高辨別能力和拒絕零假設(shè)(解釋和剩余方差是相同),其值必須超過(guò)F分布的臨界值Fcrit
SRi>Fcrit=F(α,N-2,N-3)
(7)
應(yīng)用SR來(lái)重新量化X方差,以通過(guò)目標(biāo)旋轉(zhuǎn)或正交濾波策略改進(jìn)對(duì)變量重要性的解釋。 目的是分配與X和y之間的協(xié)方差成比例的信息,同時(shí)隔離正交無(wú)關(guān)變化。 參考文獻(xiàn)中提出了確定變量重要性的臨界閾值。 在SRi中評(píng)估F分布的N-2和N-3自由度。 這項(xiàng)工作中,選擇了F檢驗(yàn)(95%)標(biāo)準(zhǔn)選擇候選目標(biāo)。
圖2 啤酒光譜數(shù)據(jù)集以選擇比率和回歸系數(shù)絕對(duì)值的變量重要性圖示
Fig.2Thevariableimportanceofthebeerspectraldatasetwiththeselectionratioandtheabsolutevalueoftheregressioncoefficient
The red line represents the threshold of important variable
(a): Selectivity ratio scores;(b): Absolute value of regression coefficient
圖2中SR定義的重要變量的曲線比較平滑,干擾較少。 而回歸系數(shù)的絕對(duì)值定義的重要變量還包括了大量無(wú)關(guān)變量的存在,曲線出現(xiàn)大量的干擾變量,這會(huì)對(duì)以此為變量重要性的變量選擇算法會(huì)造成非常大影響,會(huì)大大增加無(wú)關(guān)和干擾變量被選入關(guān)鍵變量的可能性。 并且SR定義的重要變量區(qū)域與啤酒數(shù)據(jù)集酵母底物化學(xué)性質(zhì)的重要變量吻合,在啤酒光譜數(shù)據(jù)集中1 100~1 350 nm區(qū)域?qū)?yīng)O—H拉伸鍵振動(dòng)的第一倍頻和C—H拉伸鍵的第二倍頻。 它符合啤酒光譜集所要研究的感興趣的酵母底物的化學(xué)性質(zhì)。 所以SR作為變量選擇方法的重要變量定義更具有優(yōu)勢(shì),它可以將噪聲影響剔除掉。
SR=[sr1,sr2, …,srp]T是p維SR分?jǐn)?shù)向量, 其中SR向量里的值都大于臨界閾值,SR分?jǐn)?shù)中第i個(gè)元素sri反映第i個(gè)波長(zhǎng)對(duì)于y貢獻(xiàn)。 我們?cè)u(píng)估每個(gè)波長(zhǎng)的重要性,將SR進(jìn)行排序,排名越靠前的變量越重要。 我們?cè)谶@里對(duì)于評(píng)估每個(gè)變量,還要定義歸一化的權(quán)重用于自適應(yīng)抽樣來(lái)競(jìng)爭(zhēng)選擇重要變量
(8)
另外注意的是被消除的波長(zhǎng)的權(quán)重被強(qiáng)制變?yōu)榱?,并使得?quán)重向量總是p維的。
EDF被用來(lái)模仿“物競(jìng)天擇”原則。 EDF的選擇可分為兩個(gè)階段[12],第一階段被名為“快速篩選”,有很多不重要的變量會(huì)被迅速消除,對(duì)于指數(shù)遞減函數(shù)在開(kāi)始階段對(duì)應(yīng)的消除比率比較大,消除無(wú)信息力度比較大。 第二階段被名為“精細(xì)篩選”,隨著無(wú)信息和不重要的變量的減少,指數(shù)遞減函數(shù)對(duì)應(yīng)的消除比率越來(lái)越小,且接近于0,是為了避免錯(cuò)誤的消除關(guān)鍵變量。
在基于EDF的強(qiáng)制波長(zhǎng)減少之后,SRCMPA中采用自適應(yīng)重加權(quán)采樣(ARS)以競(jìng)爭(zhēng)方式進(jìn)一步消除波長(zhǎng)。 采用自適應(yīng)采樣進(jìn)一步消除較弱權(quán)重的變量,這類(lèi)似于進(jìn)化論中的“適者生存”。 權(quán)重越大的變量具有較大的概率被保留,而其較弱權(quán)重的變量競(jìng)爭(zhēng)性比較差,在變量種群會(huì)被逐漸淘汰。
基于Kennard-Stone(KS)方法將所有數(shù)據(jù)集分成校準(zhǔn)集和獨(dú)立測(cè)試集。 KS方法旨在通過(guò)最大化每對(duì)所選樣本之間的歐幾里德距離來(lái)覆蓋多維空間。 校準(zhǔn)集用于變量選擇和擬合優(yōu)度,獨(dú)立測(cè)試集用于驗(yàn)證校準(zhǔn)模型以進(jìn)行預(yù)測(cè)。 校準(zhǔn)集進(jìn)行變量選擇時(shí),用交叉驗(yàn)證。 此外,為了評(píng)估SRCMPA的性能,我們將與優(yōu)秀方法CARS,BOSS,VISSA進(jìn)行比較。 通過(guò)交叉驗(yàn)證與蒙特卡羅采樣次數(shù)之間的參數(shù)優(yōu)化選擇,對(duì)于CARS和SRCMPA的蒙特卡羅采樣運(yùn)行的次數(shù)都選擇為300,并且蒙特卡羅采樣比率都為0.9。 BOSS算法的二進(jìn)制采樣次數(shù)為1000,優(yōu)秀子集占優(yōu)比率為0.1。 VISSA算法二進(jìn)制采樣次數(shù)為5000,子集選擇比率為0.05。 對(duì)于所有方法,最大潛在變量限制為10,潛在變量的數(shù)量由10倍交叉驗(yàn)證確定。 在建模之前,每個(gè)數(shù)據(jù)集將被均值中心化。 所有方法進(jìn)行50次運(yùn)行以獲得統(tǒng)計(jì)結(jié)果并公平地比較這些方法。
在圖3(a)中,啤酒近紅外光譜所選中的信息變量區(qū)域主要分布在1 100~1 350 nm之間,這個(gè)區(qū)域與O—H鍵伸縮振動(dòng)第一倍頻區(qū)一致。 這與本研究感興趣的酵母底物的化學(xué)性質(zhì)相一致,說(shuō)明本方法SRCMPA能夠很好地消除無(wú)信息或干擾變量,達(dá)到較好的選擇信息變量的目的。
在圖3(b)中小麥蛋白數(shù)據(jù)集中所選的波長(zhǎng)變量集中在1 100~1 400 nm的區(qū)域,這部分區(qū)域?qū)儆贑—H拉伸模式的第二倍頻和O—H的拉伸模式的第一倍頻。 光譜特征和官能團(tuán)的振動(dòng)模式有關(guān)。 樣品中存在的有機(jī)物在NIR區(qū)域具有明顯的光譜特征,對(duì)應(yīng)于幾個(gè)官能團(tuán)相對(duì)強(qiáng)烈的組合模式的吸收強(qiáng)度。 本算法選擇了相關(guān)的信息區(qū)域變量,達(dá)到消除無(wú)關(guān)或無(wú)信息變量的目的,這也與我們選擇研究的小麥蛋白化學(xué)有機(jī)物的性質(zhì)相一致,說(shuō)明本算法SRCMPA有很好的選擇特性。
圖3 SRCMPA運(yùn)行50次后(a)啤酒光譜變量被選取的頻率和(b)小麥光譜變量被選取的頻率
Fig.3(a)Frequencyofbeerspectralvariablesselectedand(b)frequencyofwheatspectralvariablesselectedafterrunningSRCMPAfor50times
將均值中心化的啤酒和小麥近紅外光譜數(shù)據(jù)在相同條件下分別采用4變量選擇方法(CARS,VISSA,BOSS,SRCMPA)進(jìn)行50次變量選擇選取特征波長(zhǎng),然后利用PLS建立預(yù)測(cè)模型。 對(duì)模型輸出結(jié)果平均值和標(biāo)準(zhǔn)差來(lái)說(shuō)明。 表1和表2分別是啤酒中酵母濃度和小麥蛋白以不同方法建模后的結(jié)果。 本算法在啤酒數(shù)據(jù)集的運(yùn)行結(jié)果,相較于全光譜PLS模型,變量個(gè)數(shù)已由567個(gè)減少到42個(gè)左右。 并且模型的RMSECV由0.622下降到0.115,RMSEP由0.823減少到了0.263左右,預(yù)測(cè)精度分別提高了81.5%和68.0%。 Q2_CV和Q2_test也分別由0.940, 0.852提高到了0.994和0.995,啤酒酵母底物數(shù)據(jù)集在1 100~2 500 nm內(nèi)采集時(shí)存在噪聲,本算法消除了噪聲的影響,使得建模效果要比其他的算法更有優(yōu)勢(shì)。 本算法在小麥蛋白數(shù)據(jù)集的運(yùn)行結(jié)果,相較于全光譜PLS模型,變量個(gè)數(shù)已由175個(gè)減少到18個(gè)左右。 并且模型的RMSECV由0.607下降到0.292,RMSEP由0.519減少到了0.234左右,預(yù)測(cè)精度分別提高了51.9%和54.9%。 Q2_CV和Q2_test也分別由0.748, 0.774提高到了0.931和0.839。
表1 不同建模方法對(duì)啤酒中酵母濃度的預(yù)測(cè)結(jié)果
注: nVAR: 選擇變量數(shù); nLVS: 潛在變量數(shù); RMSECV: 交叉驗(yàn)證均方根誤差; RMSEP: 預(yù)測(cè)均方根誤差; Q2_CV: 交叉驗(yàn)證相關(guān)系數(shù); Q2_test: 測(cè)試集的相關(guān)系數(shù);T/s: 運(yùn)行50次的平均時(shí)間; 所有的統(tǒng)計(jì)結(jié)果均為50次運(yùn)行的平均值±標(biāo)準(zhǔn)差,下同
Note: nVAR: Number of variables; nLVs: Number of latent variables; RMSECV: Root-mean-square error of cross-validation; RMSEP: Root-mean-square error of prediction; Q2_CV: Coefficient of determination of cross-validation; Q2_test: Coefficient of determination of test set;T/s: Average time for 50 runs; All statistical results are the mean values±standard deviations over 50 runs, the same below
表1和表2說(shuō)明所有變量選擇方法的建模結(jié)果都優(yōu)于全光譜建模,變量選擇是十分必要的,可以剔除無(wú)信息或干擾變量,消除全光譜建模時(shí)的過(guò)擬合或不可靠的問(wèn)題。 對(duì)比本算法SRCMPA與CARS-PLS,VISSA-PLS,BOSS-PLS可知,本算法在建模的預(yù)測(cè)與交叉驗(yàn)證的統(tǒng)計(jì)結(jié)果上,總體都有最佳的結(jié)果,并且在算法運(yùn)行時(shí)間效率上也是最佳的。 可以通過(guò)節(jié)省大量的時(shí)間成本,來(lái)達(dá)到快速建模的目的,預(yù)測(cè)結(jié)果也同時(shí)得到保障。 SRCMPA-PLS在啤酒數(shù)據(jù)集的預(yù)測(cè)均方根誤差(RMSEP)0.263,比CARS-PLS,VISSA-PLS, BOSS-PLS的RMSEP都要低,預(yù)測(cè)的相關(guān)確定系數(shù)(Q2_test)0.995, 比CARS-PLS,VISSA-PLS, BOSS-PLS的都要高,凸顯了本算法的優(yōu)勢(shì)。 同樣在小麥蛋白數(shù)據(jù)集上模型預(yù)測(cè)也都有良好的結(jié)果。 VISSA-PLS和BOSS-PLS雖然可以達(dá)到選擇信息變量建模提高效果的目的,但效率低,需要非常多的時(shí)間消耗在選擇變量步驟上面。 近紅外光譜分析也要考慮到時(shí)間成本問(wèn)題,快速有效的分析模型對(duì)現(xiàn)實(shí)應(yīng)用十分重要。
表2 不同方法小麥蛋白的預(yù)測(cè)結(jié)果
提出了一種新的變量選擇方法SRCMPA,該算法結(jié)合了選擇比率,自適應(yīng)加權(quán)采樣和模型群體分析(MPA),變量排列和指數(shù)遞減函數(shù)(EDF)競(jìng)爭(zhēng)的方法。 CARS,VISSA和BOSS都以PLS的回歸系數(shù)作為重要信息變量思路,在啤酒和小麥蛋白兩種真實(shí)光譜的建模情況下,總體效果都不具備SRCMPA算法的優(yōu)勢(shì)。 本算法規(guī)避掉了從PLS模型以回歸系數(shù)作為提取重要信息思路的弊端,而采用新的重要變量表示方法選擇比率。 并且VISSA和BOSS算法都會(huì)在變量選擇時(shí)花費(fèi)較多時(shí)間,效率比較低,而本算法同樣解決了時(shí)間效率上的問(wèn)題。 證明了SRCMPA能夠消除無(wú)信息變量和進(jìn)行波長(zhǎng)選擇以構(gòu)建高性能校準(zhǔn)模型。