高 宇, 孫雪劍*, 李廣華, 張立福, 曲 亮, 張東輝, 常晶晶, 戴曉愛
1. 中國科學(xué)院空天信息創(chuàng)新研究院, 遙感衛(wèi)星應(yīng)用國家工程實(shí)驗(yàn)室, 北京 100101
2. 故宮博物院, 北京 100009
3. 成都理工大學(xué)地球科學(xué)學(xué)院, 四川 成都 610059
粘度是表征紙張材質(zhì)聚合度屬性的重要參數(shù)[1]。 通過粘度的測(cè)定, 能夠掌握紙張的材質(zhì)、 強(qiáng)度、 老化程度等關(guān)鍵信息, 這對(duì)于紙張的修復(fù)和保護(hù)提供了第一手的研究資料[2]。 隨著目前對(duì)古籍紙張保護(hù)的重視, 粘度含量的科學(xué)測(cè)定成為文物保護(hù)領(lǐng)域的研究熱點(diǎn)之一。 因此, 開展以粘度為代表的紙張材質(zhì)劣變生化參數(shù)研究, 將對(duì)紙質(zhì)文物的保護(hù)方案實(shí)施與修復(fù)工作的開展提供技術(shù)參考[3]。
高光譜遙感技術(shù)是一種接收地物反射譜信息來表征成分含量的技術(shù)。 物體由于自身屬性的差異, 在光譜中從短波到長波呈現(xiàn)不同的反射規(guī)律, 根據(jù)這一現(xiàn)象可以反推物體的各種定量信息[4]。 其中, 推掃式成像光譜儀能夠同時(shí)采集物體的光譜、 圖像、 位置信息, 實(shí)現(xiàn)了空間維與光譜維上的“圖譜合一”。 傳統(tǒng)上將這一技術(shù)應(yīng)用地質(zhì)礦產(chǎn)[5]、 生態(tài)環(huán)境[6]、 農(nóng)林漁業(yè)[7]等領(lǐng)域, 取得了一系列突破性的成果, 提高了對(duì)原有理論的認(rèn)識(shí)豐度。
同時(shí), 在文物保護(hù)領(lǐng)域, 前人的研究集中在三個(gè)方面: 一是文物的三維建模與數(shù)字化, 該技術(shù)是利用結(jié)構(gòu)光對(duì)目標(biāo)進(jìn)行虛擬成像, 從而實(shí)現(xiàn)永久性存儲(chǔ)[8]; 二是文物的材質(zhì)本底和色彩成分分析, 包括古畫[9]、 唐卡[10]、 瓷器[11]、 紡織品[12]等, 這一工作在修復(fù)領(lǐng)域取得了突破性的進(jìn)展; 三是文物信息探測(cè), 宏觀上有基于衛(wèi)星和無人機(jī)的尋址與發(fā)現(xiàn)[13], 微觀上有字畫隱藏信息提取[14]。 然而在專門針對(duì)紙張材質(zhì)的研究方面, 受限于傳感器的光學(xué)敏感性不足, 以及缺乏系統(tǒng)的光譜信息處理流程, 導(dǎo)致尚處于起步階段。 粘度作為一種微量信息, 在高光譜信息提取過程中, 面臨光譜降噪、 光譜指數(shù)遴選、 光譜信息增強(qiáng)等一系列復(fù)雜的科學(xué)問題, 需要設(shè)計(jì)一套專門的技術(shù)方法。 傳統(tǒng)的紙張粘度分析方法主要采用化學(xué)手段。 其過程是, 首先對(duì)紙張進(jìn)行粉碎, 將其烘干處理; 其次添加銅乙二胺溶液和蒸餾水, 排除空氣制成紙漿溶液; 最后將溶液瓶浸入恒溫[(25±1) ℃]水浴, 通過粘度計(jì)計(jì)算粘度含量。 這一過程不僅耗時(shí)耗力, 無法滿足快速分析的目的, 同時(shí)也是一種有損檢測(cè), 對(duì)于有極高價(jià)值的紙張無法適用。
綜上, 本文引入高光譜技術(shù), 采集不同老化程度的紙張樣本光譜, 并結(jié)合傳統(tǒng)化學(xué)手段測(cè)量各個(gè)紙張樣本的粘度含量信息, 形成光譜標(biāo)簽, 按照光譜降噪、 光譜變換、 光譜信息擴(kuò)展、 光譜指數(shù)構(gòu)建、 模型精度評(píng)價(jià)的流程, 開展了專門針對(duì)紙張粘度的研究。 在研究過程中, 將變換后光譜引入表征光譜局部、 整體特征的信息參數(shù), 構(gòu)建并提取光譜數(shù)據(jù)中最佳反映粘度含量的差值指數(shù)、 比值指數(shù)和歸一化指數(shù), 并將其作為自變量構(gòu)建粘度含量一元回歸模型, 通過對(duì)比模型精度驗(yàn)證提取光譜指數(shù)的可用性, 得到紙張粘度含量的無損快速預(yù)測(cè)方法, 相關(guān)結(jié)論驗(yàn)證了高光譜技術(shù)在紙張粘度含量提取的有效性。
紙張樣本的高光譜圖像由大幅面高精度文物光譜成像自動(dòng)掃描系統(tǒng)(HS-VN/SW2500CR)中進(jìn)行采集(圖1)。 該系統(tǒng)由可見近紅外傳感器和短波紅外傳感器共光路設(shè)計(jì), 采集光譜范圍400~2 500 nm, 其中可見光波段光譜分辨率為1.6 nm, 近紅外波段光譜分辨率為9.6 nm, 且光源與儀器同步運(yùn)動(dòng)保證成像幅面, 瞬時(shí)視場(chǎng)角優(yōu)于1.5 mrad, 最大幀率為200 fps, 最大成像幅面設(shè)計(jì)為2 m×2 m, 自動(dòng)化掃描平臺(tái)在采集程序控制下按照設(shè)定的路線進(jìn)行采集工作。
圖1 HS-VN/SW2500CR型文物光譜成像系統(tǒng)
紙張樣本材質(zhì)統(tǒng)一為“紅星棉料四尺單宣”, 紙面涂抹有不同濃度配比下的膠礬水對(duì)其進(jìn)行“熟化”處理, 放置于恒溫室[(105±5) ℃]通過調(diào)節(jié)室內(nèi)相對(duì)濕度來模擬紙張?jiān)诟蔁岷蜐駸醿煞N自然環(huán)境下的老化過程, 根據(jù)不同的放置時(shí)間得到共計(jì)110份表征不同老化程度的紙張樣本。 參考GB/T1548—2004《紙漿粘度的測(cè)定》的方法, 首先將紙張樣本裁剪一部分粉碎制成紙屑, 添加適量的銅乙二胺和等量的蒸餾水配置紙張樣本的紙漿溶液, 排除殘留氣體, 通過粘度計(jì)和秒表對(duì)實(shí)驗(yàn)紙張樣本的粘度含量進(jìn)行測(cè)定, 得到不同老化程度紙張的粘度含量數(shù)據(jù)集, 如表1所示。 依據(jù)實(shí)驗(yàn)紙張樣本表面成分的7種類型分布特點(diǎn), 將110組紙張粘度含量及其光譜數(shù)據(jù)按照類間“7∶3”比例隨機(jī)抽樣進(jìn)行數(shù)據(jù)集劃分, 得到均勻分布的訓(xùn)練集77組、 測(cè)試集33組。
表1 不同類型的紙張粘度含量信息表(單位: mL·g-1; 膠指黃明膠, 礬指明礬)
1.3.1 光譜降噪
在成像光譜儀的光譜信號(hào)采集過程中, 首尾譜段容易受到來自儀器本身電子元件噪聲和外界環(huán)境的干擾導(dǎo)致真實(shí)光譜信號(hào)失真[15], 不利于后續(xù)表征紙張粘度含量的光譜提取。 因此, 本文選取425~977 nm范圍內(nèi)共340個(gè)波段的高光譜遙感影像作為基礎(chǔ)數(shù)據(jù), 并結(jié)合SG濾波進(jìn)行逐象元光譜去噪處理, 以此提高光譜信息定量分析的穩(wěn)健性和準(zhǔn)確性[16]。 最后再將經(jīng)過去噪處理后的紙張光譜影像進(jìn)行均值計(jì)算, 得到與各個(gè)紙張樣本粘度含量對(duì)應(yīng)的光譜數(shù)據(jù)(圖2)。
圖2 不同粘度含量的紙張光譜反射曲線圖
1.3.2 光譜變換
光譜變換能夠增強(qiáng)特征波段信息, 達(dá)到提高信息提取精度的目的[17]。 在紙張樣本降噪后光譜的基礎(chǔ)上, 為凸顯光譜中的隱藏信息以及消除背景噪聲干擾, 分別對(duì)其進(jìn)行一階微分處理、 對(duì)數(shù)一階微分處理和指數(shù)一階微分處理, 共計(jì)三種光譜變換處理, 以此豐富本實(shí)驗(yàn)所搭建的對(duì)應(yīng)不同粘度含量的紙張光譜數(shù)據(jù)庫, 共計(jì)得到實(shí)驗(yàn)紙張樣本下的四種分析光譜數(shù)據(jù)(圖3)。
1.3.3 光譜信息擴(kuò)展
在光譜因子分析研究中, 常見基于光譜譜段范圍的特征提取, 忽視了有關(guān)光譜整體或局部形態(tài)的參數(shù)信息, 導(dǎo)致其中可能表征物質(zhì)本身屬性的重要光譜未能有效利用。 由此, 將經(jīng)過變換處理后的光譜數(shù)據(jù), 在其原本波長范圍內(nèi)的光譜通量基礎(chǔ)上, 計(jì)算能表征光譜整體能量強(qiáng)弱的光譜積分(spectral integration, SI), 表征光譜整體拉伸情況的光譜反差(spectral contrast, SC), 表征光譜集中情況的光譜均值(spectral average, SA)和表征光譜振動(dòng)程度的光譜方差(spectral variance, SV), 以及基于參考文獻(xiàn)[18]中表征物質(zhì)本身吸收特征的光譜吸收深度(spectral absorption depth, SAD), 使得在原有340個(gè)光譜通道的基礎(chǔ)上擴(kuò)增到345個(gè)光譜特征, 以此實(shí)現(xiàn)在原有光譜波段數(shù)據(jù)上的信息擴(kuò)展衍生, 兼顧了光譜本身的波段信息以及表征其局部和整體的特征信息。
光譜指數(shù)可以從光譜中快速、 有效的表征一種物質(zhì)成分的含量, 并且不同的光譜指數(shù)構(gòu)建形式能夠突出采集物不同的理化生信息[19]。 將訓(xùn)練集中不同粘度含量下的紙張光譜經(jīng)過光譜降噪、 光譜變換與信息擴(kuò)展后, 參照植被指數(shù)的構(gòu)建形式, 例如F1-F2、F1/F2和(F1-F2)/(F1+F2), 分別提取光譜中的兩個(gè)不同特征F1和F2構(gòu)建差值、 比值、 歸一化指數(shù), 實(shí)現(xiàn)對(duì)光譜差異信息增強(qiáng)與同質(zhì)信息壓縮, 并計(jì)算各個(gè)光譜指數(shù)組合值與紙張粘度含量之間的相關(guān)性系數(shù), 得到不同輸入光譜下與粘度相關(guān)的12種最佳光譜指數(shù)提取結(jié)果(表2), 以表中“Wave977”為例, 表示波長為977 nm處的光譜。
表2 不同光譜變換方式下最大相關(guān)光譜指數(shù)提取結(jié)果表
紙張粘度是一種表征紙張整體纖維素聚合程度的參量, 是紙張本身復(fù)雜理化屬性綜合作用的表現(xiàn)結(jié)果, 其含量變化規(guī)律很難用一種固定參數(shù)的經(jīng)驗(yàn)?zāi)P瓦M(jìn)行模擬[20], 而線性模型憑借其普適性強(qiáng)和容差性強(qiáng)的優(yōu)點(diǎn)脫穎而出。 故此, 本文通過在訓(xùn)練集中選取與紙張粘度含量相關(guān)性最高的12種光譜指數(shù)搭建關(guān)于粘度含量的一元線性回歸模型, 并根據(jù)模型在測(cè)試集的擬合精度來反映提取光譜指數(shù)是否能有效表征紙張中的樣本含量。 并采用決定系數(shù)(coefficient of determination,R2)作為模型精度檢驗(yàn)標(biāo)準(zhǔn), 結(jié)合平均相對(duì)誤差(mean relative error, MRE)和均方根誤差(root mean square error, RMSE)對(duì)模型擬合數(shù)值精度與穩(wěn)定性進(jìn)行評(píng)估, 其計(jì)算公式為
將紙張光譜經(jīng)過預(yù)處理后, 根據(jù)不同變換光譜其與粘度含量之間的相關(guān)性系數(shù)值分布狀態(tài)來反映相關(guān)性強(qiáng)度的變化(圖4)。 經(jīng)過變換處理后提取到的相關(guān)性系數(shù)數(shù)值的均值與中位數(shù)相對(duì)于原始光譜而言得到了明顯的提升, 說明通過光譜變換處理能在原始光譜的基礎(chǔ)上, 有效提升光譜整體與粘度含量之間的信息關(guān)聯(lián)度。 同時(shí), 統(tǒng)計(jì)在不同變換光譜下相關(guān)性數(shù)值大于0.7的高相關(guān)子特征數(shù)量占比, 得到在原始光譜中占有6.38%, 一階微分處理光譜中為37.39%, 對(duì)數(shù)一階微分光譜中為39.42%, 指數(shù)一階微分光譜中為35.94%, 不僅證明了表征紙張老化程度的粘度含量變化可以在光譜中得到有效反映, 也說明了光譜變換方法對(duì)于光譜中有關(guān)粘度信息的挖掘非常重要, 其中對(duì)數(shù)一階微分變換處理對(duì)于光譜中有關(guān)粘度信息表達(dá)的提升效果最優(yōu)。
圖4 不同輸入光譜下粘度含量相關(guān)性數(shù)值統(tǒng)計(jì)圖
從單特征角度來看, 將經(jīng)過光譜變換與信息擴(kuò)展后的光譜處理結(jié)果與粘度含量分別進(jìn)行逐波段、 逐參量相關(guān)性分析, 得到不同光譜條件下分別在波長范圍內(nèi)和擴(kuò)展衍生光譜參量范圍內(nèi)的粘度相關(guān)性最大值及其位置結(jié)果(表3)。 對(duì)比可知在同樣光譜條件下, 得到的最大相關(guān)性特征信息參量相比光譜波段而言其相關(guān)性強(qiáng)度有了一定程度的提升, 其中以在原始光譜中的表現(xiàn)更為明顯, 在原始光譜中提取的光譜反差相關(guān)性系數(shù)值(0.874)相比其波長范圍內(nèi)最大相關(guān)的430 nm處譜段(0.754)而言提升了16%, 說明粘度含量信息與表征光譜形態(tài)特征的信息參量之間存在更強(qiáng)的映射關(guān)系。
表3 單特征最強(qiáng)相關(guān)分析結(jié)果表
從表2中提取的光譜指數(shù)來看, 在不同光譜變換處理下提取出的最佳差值、 比值和歸一化指數(shù)構(gòu)建內(nèi)容中大部分有擴(kuò)展衍生后的信息參量參與, 其中由對(duì)數(shù)一階微分處理后“(SI-SAD)/(SI+SAD)”歸一化指數(shù)相關(guān)性最強(qiáng), 為-0.917, 說明了引入信息擴(kuò)展的光譜指數(shù)構(gòu)建方法能極大程度上挖掘出光譜中表征粘度含量變化的有效信息, 可有效應(yīng)用于紙張老化程度的分析研究之中。
表2中提取的12種最佳光譜指數(shù)與粘度含量的相關(guān)性數(shù)值都在0.89以上, 篩選其中與粘度相關(guān)性最強(qiáng)的差值、 比值和歸一化值光譜指數(shù)作為代表, 分別得到經(jīng)過對(duì)數(shù)一階微分處理后提取的“SA-Wave772”差值指數(shù)和“(SI-SAD)/(SI+SAD)”歸一化指數(shù), 以及原始光譜中“Wave427/Wave977”比值指數(shù), 以上指數(shù)在訓(xùn)練集中與粘度的相關(guān)性系數(shù)分別是-0.912、 -0.917和0.915。
結(jié)合點(diǎn)密度分析驗(yàn)證以上提取的三種代表光譜指數(shù)對(duì)于紙張粘度含量變化的表征情況(圖5), 可知三種代表光譜指數(shù)在訓(xùn)練集中對(duì)于粘度含量的擬合R2都在0.83以上, 且構(gòu)建擬合95%置信橢圓涵蓋訓(xùn)練集中的大部分粘度含量, 其中以對(duì)數(shù)一階微分處理后“(SI-SAD)/(SI+SAD)”歸一化指數(shù)的效果最佳。 同時(shí), 以上三種光譜指數(shù)的點(diǎn)密度分布集中反映在粘度含量為400~500 mL·g-1的區(qū)間, 說明以上三種提取的代表光譜指數(shù)對(duì)于當(dāng)粘度含量為400~500 mL·g-1時(shí)為強(qiáng)解釋性。
圖5 篩選光譜指數(shù)與粘度含量關(guān)系點(diǎn)密度圖
將提取的12種最佳光譜指數(shù)作為自變量結(jié)合最小二乘法建立有關(guān)粘度含量的一元線性回歸模型, 并驗(yàn)證其在訓(xùn)練集和測(cè)試集中的精度, 得到各模型結(jié)果如表4所示, 可知在不同的光譜變換方法處理下, 提取的最大相關(guān)光譜指數(shù)模型在訓(xùn)練集和測(cè)試集中的擬合效果都一致較好, 說明本文中篩選得到的光譜指數(shù)能有效表征紙張粘度含量信息。
表4 基于光譜指數(shù)構(gòu)建的紙張粘度含量一元回歸模型結(jié)果表
表4中擬合效果最優(yōu)的模型為紙張光譜經(jīng)過對(duì)數(shù)一階微分處理后“(SI-SAD)/(SI+SAD)”歸一化指數(shù)所構(gòu)建的模型, 該模型在訓(xùn)練集和測(cè)試集上R2分別為0.84和0.76, 說明該光譜指數(shù)模型可有效用于表征紙張的粘度含量, 為本文中提取到的可表征紙張粘度含量變化的最佳光譜指數(shù)。
在訓(xùn)練數(shù)據(jù)集中, 該光譜指數(shù)模型效果如圖6所示, 紙張粘度含量數(shù)據(jù)在該模型的95%預(yù)測(cè)精度區(qū)間內(nèi),R2達(dá)到了0.84, 訓(xùn)練集MRE達(dá)到了0.065, 同時(shí)訓(xùn)練集RMSE為31.198 mL·g-1, 說明該模型訓(xùn)練精度較好, 可在訓(xùn)練集光譜中有效反映紙張粘度含量數(shù)據(jù)的變化趨勢(shì)。
圖6 基于(SI-SAD)/(SI+SAD)指數(shù)的模型訓(xùn)練集結(jié)果圖
該光譜指數(shù)模型的測(cè)試效果如圖7所示, 測(cè)試集中紙張粘度含量數(shù)據(jù)都在該模型的95%預(yù)測(cè)精度區(qū)間內(nèi),R2達(dá)到了0.76, 測(cè)試集中MRE為0.089, 同時(shí)RMSE為40.29 mL·g-1, 說明該模型能在測(cè)試數(shù)據(jù)集中依然能夠良好反映紙張粘度含量數(shù)據(jù)的整體變化趨勢(shì)。 以上實(shí)驗(yàn)結(jié)果證明了本文得到的粘度光譜指數(shù)對(duì)于紙張中的粘度含量變化響應(yīng)明顯, 由該指數(shù)建立的模型能得到較高反演精度, 為紙張粘度含量光譜分析提供理論基礎(chǔ)。
圖7 基于(SI-SAD)/(SI+SAD)指數(shù)的模型測(cè)試集結(jié)果圖
針對(duì)紙張老化程度的無損分析, 設(shè)計(jì)出了一套基于光譜指數(shù)的紙張粘度含量分析方法, 得到了一種可有效反映粘度含量變化的光譜指數(shù), 并將其搭建模型來驗(yàn)證適用性和有效性, 為紙張粘度含量的無損分析提供了新的思路。 結(jié)果表明: (1)將采集得到的紙張光譜經(jīng)過預(yù)處理后, 統(tǒng)計(jì)其中原始光譜、 一階微分光譜、 對(duì)數(shù)一階微分光譜和指數(shù)一階微分光譜中的高相關(guān)特征子集數(shù)量占比, 分別為6.38%、 37.39%、 39.42%和35.94%, 并且光譜在經(jīng)過變換處理后的相關(guān)性均值與中值得到了有效提升。 (2)在不同變換光譜中提取的與粘度最大相關(guān)信息參數(shù)的相關(guān)性強(qiáng)于光譜波段, 其中以原始光譜最為明顯, 提取的光譜反差相對(duì)于在波長范圍內(nèi)中最相關(guān)譜段的相關(guān)性提升了16%, 并且在提取的12種最佳光譜指數(shù)中大部分都有擴(kuò)展后的信息參量參與。 (3)不同輸入光譜下提取的最佳光譜指數(shù)與粘度含量的相關(guān)性都在0.89以上, 由其中篩選得到的三種具備代表性的光譜指數(shù)都有效反映紙張粘度在400~500 mL·g-1時(shí)的變化情況。 (4)紙張光譜經(jīng)過對(duì)數(shù)一階微分處理后構(gòu)建的(SI-SAD)/(SI+SAD)指數(shù)與粘度相關(guān)性最強(qiáng), 為-0.917, 且該指數(shù)構(gòu)建的模型精度最高, 在訓(xùn)練集和測(cè)試集上R2分別為0.84和0.76, 其在測(cè)試集中MRE為0.089, RMSE為40.29 mL·g-1。 以上結(jié)論說明通過光譜變換與引入信息擴(kuò)展可有效挖掘出光譜中的有效信息, 并且提取出的光譜指數(shù)可以良好地反映紙張光譜中的粘度含量變化趨勢(shì), 佐證了高光譜遙感技術(shù)可為紙張中粘度等劣化性質(zhì)參數(shù)估測(cè)的無損分析提供新的可行思路。