杜樹新,裘 一
(湖州師范學(xué)院 工學(xué)院,浙江 湖州 313000)
成品紙張的質(zhì)量指標(biāo)是衡量紙張質(zhì)量的重要因素,包括水分(紙產(chǎn)品中含有的水量)、灰分(紙經(jīng)高溫灼燒后剩下殘留礦物質(zhì)與原來質(zhì)量之比)、克重(每單位面積紙的質(zhì)量,也稱紙張定量)、厚度、機(jī)械漿和化學(xué)漿含量等.作為無損、快速的檢測技術(shù),近紅外光譜在紙張質(zhì)量檢測中受到越來越廣泛的關(guān)注[1-3].
近紅外光譜曲線在數(shù)學(xué)上表現(xiàn)為向量形式,一般采用主元回歸、偏最小二乘、神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)等基于向量形式的方法建立校正模型.在基于向量形式的建模方法中,向量長度與建模中需要確定的模型參數(shù)相關(guān).一條近紅外光譜曲線一般有成百上千個光譜數(shù)據(jù)點,如果采用向量形式的方法建模就需確定成百上千個模型參數(shù),這就意味著需要大量的訓(xùn)練樣本[4].而在小樣本情況下,由于訓(xùn)練樣本較少,容易導(dǎo)致欠擬合,校正模型的精度達(dá)不到理想要求.
支持張量機(jī)是近年來發(fā)展起來的、適用于張量數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,是支持向量機(jī)方法在張量形式上的進(jìn)一步擴(kuò)展.支持張量機(jī)中需要確定的模型參數(shù)數(shù)量是張量數(shù)據(jù)的維數(shù)之和.以二階張量X∈Rn1×n2為例,其模型參數(shù)數(shù)量為n1+n2.如果將一個長向量(長度為n)通過某種方式組裝成一個n1×n2的二階張量(n≈n1×n2),那么需要確定的模型參數(shù)數(shù)量就由n下降為n1+n2,這樣也降低了對訓(xùn)練樣本數(shù)量的要求.
本文將采集的成品紙張近紅外光譜的向量數(shù)據(jù)組裝成二階張量數(shù)據(jù),再采用支持張量機(jī)方法進(jìn)行建模,實現(xiàn)對成品紙張質(zhì)量的檢測,并對雙面銅版紙進(jìn)行實驗研究.將向量數(shù)據(jù)組裝成二階張量數(shù)據(jù),可使待確定的模型參數(shù)數(shù)量顯著減少,從而顯著降低對訓(xùn)練樣本數(shù)量的要求,提高小樣本校正模型的檢測精度.
假設(shè)將向量x∈Rn組裝成二階張量X∈Rn1×n2,即根據(jù)n確定n1和n2的值.假定n1≥n2,為保證在組裝二階張量時擁有至少n個元素,n、n1、n2需要滿足(n1-1)×n2 根據(jù)優(yōu)化得到的n1和n2,將n個元素的向量x填充到n1×n2的二階張量X中.具體方法為:將x中的前n1個元素放在張量X的第1列,下一組n1個元素放在張量X的第二列,以此類推.對剩余沒有被填滿的位置,用任意值進(jìn)行填充.圖1是將長度為11的向量組裝成4×3的二階張量. 圖1 將長度為11的向量組裝成4×3的二階張量Fig.1 The vector of length 11 assembled into a 4 × 3 second order tensor 支持張量機(jī)方法是支持向量機(jī)擴(kuò)展到張量模式的一種監(jiān)督學(xué)習(xí)方法,由Tao等于2005年首次提出并應(yīng)用于分類預(yù)測問題,2012年Guo等將分類預(yù)測擴(kuò)展到回歸預(yù)測[4],從而可應(yīng)用于光譜的定量分析.由于所組裝的張量為二階張量,可直接采用文獻(xiàn)[5]中N階張量的支持張量機(jī)方法.為便于理解,本文簡單給出二階張量的支持張量機(jī)方法. 給定訓(xùn)練樣本及輸出{Xi,yi},i=1,2,…,M,其中Xi∈Rn1×n2為輸入的、經(jīng)組裝成二階張量的近紅外光譜數(shù)據(jù);yi∈R為輸出的目標(biāo)值即紙張質(zhì)量指標(biāo);M為訓(xùn)練樣本數(shù)量.所構(gòu)造的回歸估計函數(shù)(校正模型)為: f(X)=uTXv+b, (1) 其中,u∈Rn1、v∈Rn2、b∈R為模型待定參數(shù).由此看出,待定的模型參數(shù)數(shù)量為n1+n2+1.類似于支持向量機(jī)方法,引入ε不敏感損失函數(shù),將回歸函數(shù)的確定轉(zhuǎn)化為如下優(yōu)化問題[5]: (2) 步驟1:初始化向量u,如u的所有元素值為1. (3) 這是標(biāo)準(zhǔn)的支持向量機(jī)形式.其可采用支持向量機(jī)中的二次規(guī)劃方法,即拉格朗日乘子法求解該優(yōu)化問題[4],即求得向量v. (4) 這是標(biāo)準(zhǔn)的支持向量機(jī)形式,可經(jīng)同樣的計算得到u. 步驟4:循環(huán)執(zhí)行步驟2和步驟3,直到本次循環(huán)得到的u∈Rn1、v∈Rn2、b∈R與上次循環(huán)得到的值充分接近.達(dá)到最優(yōu)化后,根據(jù)所計算的u、v和b,由式(2)得到回歸模型,即校正模型. 由某紙業(yè)公司品管部技術(shù)人員對雙面銅板紙的水分、灰分、克重和厚度進(jìn)行檢測,并采用布魯克公司的傅里葉近紅外光譜儀(Bruker Equinox 55)采集近紅外光譜數(shù)據(jù)(波長為800~2 500 nm;光譜數(shù)據(jù)點為2 203個).為確保數(shù)據(jù)的正確性,每個樣品重復(fù)檢測3次,取平均值,共采集816個雙面銅版紙樣本. 光譜預(yù)處理的目的是消除原始光譜中儀器噪聲、背景漂移及測量干擾等的影響,預(yù)處理的方法包括消除噪聲、基線校正及歸一化等. 實驗中訓(xùn)練集和測試集的樣本大致按4∶1的比例隨機(jī)抽取,訓(xùn)練集的樣本數(shù)為652個,測試集的樣本數(shù)為164個. 光譜經(jīng)過預(yù)處理后,首先根據(jù)相關(guān)系數(shù)分析法選取相關(guān)系數(shù)較大的光譜點組成向量.然后按照1.1節(jié)的方法組裝成二階張量,位數(shù)不足的用0補(bǔ)全.水分選取2 444~2 481 nm共35個波長點組裝成6×6的二階張量;灰分選取2 348~2 381 nm共30個波長點組裝成6×5的二階張量;厚度選取2 441~2 484 nm共45個波長點組裝成7×7的二階張量;克重選取2 431~2 484 nm共50個波長點組裝成8×7的二階張量.最后使用支持張量機(jī)方法對組裝成的二階張量進(jìn)行建模,對水分、灰分、克重、厚度等獨立建模.圖2至圖5分別為測試樣本的水分、灰分、厚度、克重等質(zhì)量參數(shù)與實際值的相關(guān)性圖.從圖中可見,采用支持張量機(jī)方法建立的校正模型檢測效果較理想. 圖2 水分檢測的相關(guān)性Fig.2 Correlation of moisture 圖3 灰分檢測的相關(guān)性Fig.3 Correlation of ash 圖4 克重檢測的相關(guān)性Fig.4 Correlation of gram per square meter 圖5 厚度檢測的相關(guān)性Fig.5 Correlation of thickness 為進(jìn)行比較,采用主元回歸(PCR)、偏最小二乘(PLS)、支持向量機(jī)(SVM)等基于向量的方法建立校正模型,并對雙面銅版紙質(zhì)量參數(shù)進(jìn)行預(yù)測.表1為這3種方法與支持張量機(jī)方法(STM)建立的模型性能比對結(jié)果(支持向量機(jī)采用高斯核函數(shù)).評估模型性能的指標(biāo)為相關(guān)系數(shù)和預(yù)測誤差均方根,相關(guān)系數(shù)越接近1,預(yù)測誤差均方根越小,說明模型性能越好.從表1可看出,支持張量機(jī)方法相比主元回歸、偏最小二乘、支持向量機(jī)等方法,相關(guān)系數(shù)和預(yù)測誤差均方根都有一定改善,其原因是支持張量機(jī)中待確定的參數(shù)數(shù)量較少. 表1 采用PCR、PLS、SVM、STM等方法建立的模型性能比較 將向量形式的近紅外光譜數(shù)據(jù)表示成二階張量形式進(jìn)行,再采用支持張量機(jī)方法建立校正模型,其目的是解決小樣本情況下的欠擬合問題,因此需要對不同樣本數(shù)量建立的模型性能進(jìn)行考察.實驗樣本數(shù)由10逐漸增加到816,并采用留一驗證法評估模型的性能.圖6至圖9分別為當(dāng)樣本數(shù)由10到816變化時,通過支持向量機(jī)方法與支持張量機(jī)方法所建模型來預(yù)測水分、灰分、克重和厚度的相關(guān)系數(shù)和預(yù)測誤差均方根的變化情況.從圖中可以看出,樣本數(shù)較少時,采用支持張量機(jī)方法建立的模型性能優(yōu)于支持向量機(jī)方法;隨著樣本數(shù)的增加,兩種方法建立的模型性能漸漸趨向一致(除灰分和厚度的預(yù)測誤差均方根外,其他質(zhì)量參數(shù)均保持較固定的差距).換言之,樣本數(shù)較少時,支持張量機(jī)方法建立的模型性能優(yōu)于支持向量機(jī)方法;樣本數(shù)較多時,兩者差異不大,即對小樣本問題,采用支持張量機(jī)方法建立的模型預(yù)測效果優(yōu)于支持向量機(jī)方法. 圖6 水分的模型性能隨樣本數(shù)量變化情況Fig.6 The change of moisture model performance with the number of samples 圖7 灰分的模型性能隨樣本數(shù)量變化情況Fig.7 The change of ash model performance with the number of samples 圖8 克重的模型性能隨樣本數(shù)量變化情況Fig.8 The change of model performance for gram per square meter with the number of samples 圖9 厚度的模型性能隨樣本數(shù)量變化情況Fig.9 The change of thickness model performance with the number of samples 本文將采集的成品紙張近紅外光譜的向量數(shù)據(jù)組裝成二階張量數(shù)據(jù),再采用支持張量機(jī)方法進(jìn)行建模,實現(xiàn)對成品紙張質(zhì)量的檢測移正.該方法減少了模型參數(shù)的數(shù)量,降低了對訓(xùn)練樣本數(shù)的要求,更適合小樣本校正模型的建立.采用校正模型對雙面銅版紙的水分、灰分、克重和厚度等質(zhì)量指標(biāo)進(jìn)行檢測,結(jié)果表明,采用支持張量機(jī)方法建立的校正模型,其相關(guān)系數(shù)、預(yù)測均方根誤差等性能指標(biāo)優(yōu)于基于向量的主元回歸、偏最小二乘、支持向量機(jī)等方法建立的模型.實驗還研究了訓(xùn)練樣本數(shù)量與模型性能的關(guān)系,結(jié)果表明,隨著樣本數(shù)的增加,采用支持向量機(jī)方法建立的校正模型,其性能逐步增加,兩種方法建立的模型性能差距逐漸減少;在小樣本情況下,支持張量機(jī)方法建立的校正模型,其相關(guān)系數(shù)、預(yù)測誤差均方根明顯優(yōu)于基于支持向量機(jī)方法建立的模型.由此說明,本文采用支持張量機(jī)方法建立的校正模型更適宜小樣本.1.2 二階張量的支持張量機(jī)方法
2 結(jié)果與分析
2.1 紙張質(zhì)量數(shù)據(jù)、近紅外光譜數(shù)據(jù)的采集
2.2 近紅外光譜數(shù)據(jù)的預(yù)處理
2.3 采用支持張量機(jī)方法建立校正模型的實驗結(jié)果
2.4 與其他建模方法的比較
2.5 實驗樣本數(shù)對模型性能的影響
3 結(jié) 論