摘要 紅外光譜技術(shù)具有高效和無損等優(yōu)點(diǎn),在石油類污染物分類檢測領(lǐng)域中具有重要的研究與應(yīng)用價值。本研究提出了一種結(jié)合離散小波變換(DWT)算法和基于Inception 卷積模塊的一維卷積神經(jīng)網(wǎng)絡(luò)(Inception-1D-CNN)的石油類污染物分類方法,首先使用DWT算法對原始紅外光譜數(shù)據(jù)進(jìn)行去噪處理,消除因?qū)嶒灜h(huán)境、儀器誤差和人工操作等因素產(chǎn)生的干擾信息;再通過Inception-1D-CNN模型獲取多尺度的紅外光譜特征信息,并基于此模型對石油類污染物進(jìn)行分類預(yù)測。實驗結(jié)果表明,與標(biāo)準(zhǔn)正態(tài)變換(SNV)、迭代自適應(yīng)加權(quán)懲罰最小二乘法(AirPLS)和卷積平滑(S-G)預(yù)處理方法相比, DWT算法結(jié)合卷積核大小為3×1的1D-CNN模型的預(yù)測準(zhǔn)確率為86.6%,分別提高了6.6%、6.6%和3.3%;DWT算法結(jié)合卷積核大小為5×1的1D-CNN模型的預(yù)測準(zhǔn)確率為93.3%,分別提高了10.0%、7.0%和3.3%;DWT 算法結(jié)合卷積核大小為7×1的1D-CNN 模型的預(yù)測準(zhǔn)確率為90.0%,分別提高了6.7%、10.0%和3.4%;DWT 算法結(jié)合Inception-1D-CNN 模型的預(yù)測準(zhǔn)確率為100.0%,分別提高了10.0%、10.0%和3.4%。因此,結(jié)合DWT算法和Inception-1D-CNN模型能夠?qū)κ皖愇廴疚餃?zhǔn)確分類預(yù)測,為后續(xù)海面溢油污染治理提供了一定的基礎(chǔ)。
關(guān)鍵詞 紅外光譜;石油類污染物;Inception 模塊;卷積神經(jīng)網(wǎng)絡(luò);離散小波變換
石油是世界三大能源之一,在現(xiàn)代社會的發(fā)展過程中發(fā)揮著極其重要的作用,是人類生產(chǎn)生活中不可缺少的一部分[1]。然而,在石油的開采、運(yùn)輸和使用過程中,不可避免地會發(fā)生泄漏。含油污水排放、海上船舶故障或意外碰撞、海上石油開采和運(yùn)輸[2]等都可能導(dǎo)致大量石油進(jìn)入海洋環(huán)境,形成海面溢油污染。這不僅造成資源浪費(fèi)和環(huán)境污染,還對人類健康構(gòu)成威脅[3-4]??焖贉?zhǔn)確地鑒別石油類污染物種類是治理海面溢油污染的基礎(chǔ)與前提[5]。因此,實現(xiàn)石油類污染物種類的精準(zhǔn)快速鑒別對海面溢油污染的治理具有重要意義。
紅外光譜(Infrared spectrum, IR)具有簡單、快速、無損和分辨率高等優(yōu)點(diǎn)[6],廣泛應(yīng)用于石油[7]、醫(yī)藥[8]、煙草[9]、化工[10]和環(huán)境監(jiān)測[11]等領(lǐng)域。紅外光譜技術(shù)在光譜分析過程中主要包括數(shù)據(jù)預(yù)處理與建立模型兩個步驟。傳統(tǒng)模型的預(yù)測效果通常依賴于數(shù)據(jù)的準(zhǔn)確性,然而,隨著紅外光譜數(shù)據(jù)量激增,數(shù)據(jù)之間存在信息冗余和共線性問題。此外,影響紅外光譜數(shù)據(jù)采集的因素較多,當(dāng)實驗環(huán)境和儀器設(shè)備等因素發(fā)生變化時,紅外光譜信號也會發(fā)生改變,這使得傳統(tǒng)模型無法有效地提取紅外光譜數(shù)據(jù)的特征。
近年來,隨著人工智能理論的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)通過卷積層和池化層的交替學(xué)習(xí),可以有效提取紅外光譜數(shù)據(jù)的特征,在紅外光譜分析研究中取得了顯著成果[12]。郝惠敏等[13]利用VGG 深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合紅外光譜實現(xiàn)了7 種單組分氣體的分類識別。Hu 等[14]利用1D-CNN 結(jié)合拉曼光譜實現(xiàn)了對農(nóng)藥的分類。王磊等[15]提出了一種基于1D-CNN 的超參數(shù)自動搜索全流程近紅外光譜分析模型,實現(xiàn)了對玉米、柴油、牛奶和啤酒濃度的定量分析。然而,使用單一尺度的一維常規(guī)卷積所能提取的特征信息有限。Szegedy 等[16]提出的Inception 模型通過并聯(lián)不同尺寸的卷積層,實現(xiàn)了多尺度的特征融合,適合進(jìn)行多尺度的特征學(xué)習(xí)。本研究采用該結(jié)構(gòu)構(gòu)建了基于紅外光譜技術(shù)的石油類污染物分類模型,提出了一種結(jié)合離散小波變換(DWT)算法和基于Inception 卷積模塊的一維卷積神經(jīng)網(wǎng)絡(luò)(Inception-1D-CNN)模型的石油類污染物分類方法。采用DWT 算法對原始紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理,去除原始紅外光譜數(shù)據(jù)中的噪聲。引入Inception 模塊代替單一尺度的一維常規(guī)卷積,建立Inception-1D-CNN 模型對紅外光譜特征進(jìn)行多尺度學(xué)習(xí)。從采集的4 種石油類污染物紅外光譜數(shù)據(jù)集中,結(jié)合DWT 算法和Inception-1D-CNN 模型能夠準(zhǔn)確分類預(yù)測石油類污染物。
1 實驗部分
1.1 儀器與試劑
VERTEX 70 系列紅外光譜儀(德國Bruker 公司);79-1 磁力加熱攪拌器(上海江星儀器有限公司);HF-8 固定液體池和溴化鉀窗片(天津恒創(chuàng)立達(dá)科技發(fā)展有限公司)。
0#柴油(中國石化集團(tuán)公司,純度gt;99%);生物柴油(濟(jì)南科瑞達(dá)化工有限公司,純度gt;99%);95#汽油(中化石油有限公司,純度gt;99%);航空煤油(山東桐鑫化工有限公司,純度gt;99.9%);Span-80 乳化劑和Tween-80 乳化劑(國藥集團(tuán)化學(xué)試劑有限公司,純度≤100%);實驗用水為純凈水(杭州娃哈哈集團(tuán)有限公司)。
采用OPUS 傅里葉紅外光譜采集軟件和Origin、MATLAB 和PyCharm 等數(shù)據(jù)處理軟件對紅外光譜數(shù)據(jù)進(jìn)行采集和分析。
1.2 紅外光譜數(shù)據(jù)集
1.2.1 樣品制備
將定量的石油類污染物樣本與Span-80 乳化劑混合并攪拌均勻;將定量的純凈水與Tweeen-80 乳化劑混合并攪拌均勻。將上述兩種樣本溶液混合,倒入容量瓶中,定容至100 mL。將定容后的樣本溶液轉(zhuǎn)移至燒杯中,利用磁力攪拌器攪拌20 min,以確保溶液達(dá)到乳化狀態(tài)。攪拌完成后,將乳化后的樣本溶液密封,保存?zhèn)溆谩?/p>
在實驗過程中,為確保數(shù)據(jù)的準(zhǔn)確性,采用精度為0.01 g 的電子天平進(jìn)行稱量,并定期對天平進(jìn)行校準(zhǔn)。此外,所有操作均在穩(wěn)定的環(huán)境中進(jìn)行,以避免環(huán)境因素對實驗結(jié)果的影響。
按照一定濃度梯度分別配制4 種石油類污染物各25 個樣本,共計100 個樣本。樣本濃度的配制信息見表1, 4 種石油類污染物樣本信息見表2。
1.2.2 紅外光譜采集
采用德國布魯克VERTEX 70 系列紅外光譜儀采集紅外光譜,掃描范圍為4000~500 cm–1,分辨率為4 cm–1,樣本掃描時間為16 s。每個樣本采集6 次,取6 次數(shù)據(jù)的平均值作為該樣本的紅外光譜數(shù)據(jù),共得到4 種石油類污染物的100 個樣本。4 種石油類污染物的高含油率紅外光譜數(shù)據(jù)如圖1 所示,高含水率紅外光譜數(shù)據(jù)如圖2 所示。
1.2.3 樣本集劃分
將4 種石油類污染物樣本數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測試集。其中,訓(xùn)練集樣本用于訓(xùn)練模型,通過迭代對模型參數(shù)進(jìn)行優(yōu)化,得到預(yù)測準(zhǔn)確度最優(yōu)的模型;測試集樣本用于評估模型。按訓(xùn)練集∶測試集=7∶3 的比例設(shè)置樣本,得到訓(xùn)練集樣本70 個,測試集樣本30 個。
1.3 光譜預(yù)處理
在采集紅外光譜數(shù)據(jù)過程中,由于實驗環(huán)境、儀器誤差和人工操作等因素的影響,所獲取的紅外光譜數(shù)據(jù)不僅包含有效信息,還夾雜了大量干擾信息。本研究采用DWT 算法對原始紅外光譜數(shù)據(jù)進(jìn)行去噪處理[17]。具體步驟包括:(1)信號分解 使用小波變換將原始紅外光譜數(shù)據(jù)分解為近似系數(shù)和細(xì)節(jié)系數(shù),其中,近似系數(shù)包含低頻信息,細(xì)節(jié)系數(shù)包含高頻信息,設(shè)置小波基函數(shù)為bior 3.3,分解層數(shù)為5;(2)閾值去噪 使用Brige-Massart 策略確定閾值,對細(xì)節(jié)系數(shù)進(jìn)行軟閾值處理,去除噪聲信號;(3)信號重構(gòu) 對經(jīng)過閾值處理的小波系數(shù)進(jìn)行逆小波變換,得到重構(gòu)信號。
1.4 模型結(jié)構(gòu)
1.4.1 1D-CNN模型
本研究搭建了3 種不同卷積核大小的單尺度1D-CNN 模型,包括2 個卷積層、2 個歸一化層、2 個最大池化層和2 個全連接層,分別標(biāo)記為Conv1、Conv2、BatchNorm1、BatchNorm2、Maxpool1、Maxpool2、FC1 和FC2。其中,卷積核大小為3×1 的1D-CNN 模型結(jié)構(gòu),如圖3 所示, Conv1 和Conv2 的卷積核大小均為3×1,步長為1,卷積核數(shù)量依次為32 和64;BatchNorm1 和BatchNorm2 設(shè)置特征維數(shù)依次為32 和64;激活函數(shù)選擇ReLu 非線性激活函數(shù);Maxpool1 和Maxpool2 的池化核大小均為3×1,步長為3;FC1 和FC2 的神經(jīng)元個數(shù)依次為12800 和256;Dropout 函數(shù)設(shè)置概率參數(shù)p 為0.5。
1.4.2 Inception模塊
Inception 模塊通過在同一層上使用不同尺寸的卷積核,可以同時進(jìn)行小尺度和大尺度特征提取。本研究搭建的Inception 卷積模塊包含4 個并行的分支,分別為Branch1、Branch2、Branch3 和Branch4。其中, Branch1 使用一個大小為1×1 的卷積核;Branch2 使用兩個級聯(lián)的卷積核,卷積核大小分別為1×1 和3×1;Branch3 使用兩個級聯(lián)的卷積核,卷積核大小分別為1×1 和5×1;Branch4 使用一個最大池化核后級聯(lián)一個卷積核,其中池化核和卷積核大小分別為3×1 和1×1。具體Inception 卷積模塊結(jié)構(gòu)如圖4 所示。
1.4.3 Inception-1D-CNN模型
使用Inception 卷積模塊代替1D-CNN 中單一尺度的一維常規(guī)卷積層,得到Inception-1D-CNN 模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。其中Inception 卷積模塊設(shè)置Branch1 中1×1 卷積核數(shù)量為8, Branch2 中1×1卷積核數(shù)量為8, 3×1 卷積核數(shù)量為16;Branch3 中1×1 卷積核數(shù)量為8, 5×1 卷積核數(shù)量為16, Branch4中1×1 卷積核數(shù)量為8。
Inception-1D-CNN 模型采用Adam 優(yōu)化器,學(xué)習(xí)率初始化為0.001,迭代次數(shù)為40,批處理大小為2,采用交叉熵?fù)p失(Cross entropy loss)函數(shù)對模型進(jìn)行訓(xùn)練。
2 結(jié)果與討論
2.1 紅外光譜分析
石油是由多種物質(zhì)組成的有機(jī)混合物,包含多環(huán)芳烴、苯類和酚類等物質(zhì),其主要元素組成為C 和H,還有少量的O、N 和S[18-19]。本研究在0#柴油、生物柴油、95#汽油和航空煤油紅外光譜數(shù)據(jù)集基礎(chǔ)上進(jìn)行, 4 種石油類污染物樣本在95%含油率下的原始紅外光譜數(shù)據(jù)如圖6 所示。
柴油主要由烷烴、芳香烴和硫化合物組成。結(jié)合圖6A 中0#柴油的紅外光譜特征峰分析可知,2950~2850 cm–1 處的吸收峰為烷烴的C–H 伸縮振動吸收峰, 1600~1585 cm–1 處的吸收峰為芳香烴的C=C 伸縮振動吸收峰, 1300~1000 cm–1 范圍內(nèi)的吸收峰可能是硫化合物的特征吸收帶。生物柴油主要由甲酯類化合物和雜質(zhì)組成。結(jié)合圖6B 中生物柴油的紅外光譜特征峰分析可知, 1750~1735 cm–1 處的吸收峰為甲酯類的C=O 伸縮振動吸收峰, 1300~1000 cm–1 范圍內(nèi)的吸收峰為C–O 伸縮振動吸收峰。汽油主要由烷烴、芳香烴、烯烴和環(huán)烷烴類化合物組成。結(jié)合圖6C 中95#汽油的紅外光譜特征峰分析可知, 3000~2800 cm–1 處的吸收峰為烷烴的C–H 伸縮振動吸收峰, 1600~1585 cm–1 處的吸收峰為芳香烴的C=C 伸縮振動吸收峰。航空煤油主要由烷烴、環(huán)烷烴和芳香烴類化合物組成,結(jié)合圖6D 中航空煤油的紅外光譜特征峰分析可知, 2950~2850 cm– 1 處的吸收峰為烷烴的C–H 伸縮振動吸收峰,1500~1470 cm–1 處的吸收峰為環(huán)烷烴的C–H 彎曲振動吸收峰[20]。
2.2 不同建模方法的結(jié)果分析
采用標(biāo)準(zhǔn)正態(tài)變換(SNV)、卷積平滑(S-G)、迭代自適應(yīng)加權(quán)懲罰最小二乘法(AirPLS)和DWT 預(yù)處理方法,分別結(jié)合3 種不同卷積核大小的單尺度1D-CNN 模型和Inception-1D-CNN 模型對4 種石油類污染物樣本進(jìn)行分類預(yù)測,預(yù)測準(zhǔn)確率結(jié)果如表3 所示。模型1、2、3 和4 分別代表卷積核大小為3×1的1D-CNN 模型、卷積核大小為5×1 的1D-CNN 模型、卷積核大小為7×1 的1D-CNN 模型和Inception-1D-CNN 模型。
預(yù)測準(zhǔn)確率結(jié)果表明,原始光譜數(shù)據(jù)結(jié)合模型1、模型2、模型3 和模型4 對4 種石油類污染物的預(yù)測準(zhǔn)確率較差,這是由于原始光譜數(shù)據(jù)中包含噪聲等干擾信息。與SNV、S-G 和AirPLS 這3 種預(yù)處理方法相比, DWT算法結(jié)合模型1、模型2、模型3 和模型4 的預(yù)測準(zhǔn)確率最優(yōu)。其中, DWT算法結(jié)合模型1的預(yù)測準(zhǔn)確率為86.6%,與其它3 種預(yù)處理方法相比分別提高了6.6%、6.6%和3.3%;DWT 算法結(jié)合模型2 的預(yù)測準(zhǔn)確率為93.3%,與其它3 種預(yù)處理方法相比分別提高了10.0%、7.0%和3.3%;DWT 算法結(jié)合模型3 的預(yù)測準(zhǔn)確率為90.0%,與其它3 種預(yù)處理方法相比分別提高了6.7%、10.0%和3.4%;DWT 算法結(jié)合模型4 的預(yù)測準(zhǔn)確率為100.0%,與其它3 種預(yù)處理方法相比分別提高了10.0%、10.0%和3.4%。
采用DWT 算法對含油率為95%的4 種石油類污染物樣本的原始紅外光譜數(shù)據(jù)進(jìn)行去噪處理,結(jié)果如圖7 所示,其中,黑色曲線a 為4 種石油類污染物的原始紅外光譜數(shù)據(jù),紅色曲線b 為使用DWT 算法對原始紅外光譜數(shù)據(jù)去噪后的結(jié)果。
由表3 可知,在4 種石油類污染物紅外光譜數(shù)據(jù)集中, DWT 算法結(jié)合Inception-1D-CNN 模型的預(yù)測準(zhǔn)確率最高,為100%。其中, DWT 算法結(jié)合Inception-1D-CNN 模型預(yù)測結(jié)果的混淆矩陣如圖8 所示,其中,橫坐標(biāo)代表真實值標(biāo)簽,縱坐標(biāo)代表預(yù)測值標(biāo)簽。由圖8 可知,測試集包含4 個柴油樣本、10 個生物柴油樣本、10 個95#汽油樣本和6 個航空煤油樣本,使用DWT 算法結(jié)合Inception-1D-CNN 模型對4 種石油類污染物樣本的預(yù)測準(zhǔn)確率均為100%。
綜上,結(jié)合DWT 算法和Inception-1D-CNN 模型能夠準(zhǔn)確分類預(yù)測4 種石油類污染物。DWT 算法通過將原始紅外光譜信號分解成不同的分量,能夠有效分離出噪聲信號。Inception 卷積模塊使用不同大小的卷積核進(jìn)行特征提取,然后在深度維度上聚合不同大小卷積核提取的特征,使得Inception-1D-CNN 模型具有良好的預(yù)測精度。
3 結(jié)論
DWT 算法是一種時頻分析方法,通過DWT 分離紅外光譜數(shù)據(jù)中的噪聲和信號。Inception-1D-CNN模型是一種基于CNN 的紅外光譜分類預(yù)測模型,使用Inception 卷積模塊代替一維常規(guī)卷積,可在不同的卷積尺寸上對紅外光譜信息進(jìn)行特征提取。此外, Inception 卷積模塊中使用1×1 卷積實現(xiàn)跨通道的信息交互,彌補(bǔ)了基于單尺度卷積的1D-CNN 模型提取特征有限的不足,提高了模型的預(yù)測準(zhǔn)確率。實驗結(jié)果表明,結(jié)合DWT 算法和Inception-1D-CNN 模型可以實現(xiàn)對石油類污染物的精準(zhǔn)鑒別,為石油類污染物的快速準(zhǔn)確檢測提供了參考。
References
[1] JHA M N, LEVY J, GAO Y. Sensors, 2008, 8(1): 236-255.
[2] CUI Hong-Ran. Chem. Engineer. Equip. , 2020, 282(7): 234-235.
崔洪然. 化學(xué)工程與裝備, 2020, 282(7): 234-235.
[3] LI P, CAI Q, LIN W, CHEN B, ZHANG B. Mar. Pollut. Bull. , 2016, 110(1): 6-27.
[4] LAFFON B, PASARO E, VALDIGLESIAS V. J. Toxicol. Environ. Health, Part B, 2016, 19(3-4): 105-128.
[5] AL-RUZOUQ R, GIBRIL M B A, SHANABLEH A, KAIS A, HAMED O, AL-MANSOORI S, KHALIL M A. Remote Sens. ,2020, 12(20): 3338.
[6] ZHOU Jun, YANG Yang, YAO Yao, LI Zi-Wen, WANG Jian, HOU Chang-Jun. Spectrosc. Spectral Anal. , 2022, 42(3):764-768.
周軍, 楊洋, 姚瑤, 李子文, 王健, 侯長軍. 光譜學(xué)與光譜分析, 2022, 42(3): 764-768.
[7] MOHAMMADI M, KHORRAMI M K, VATANI A, GHASEMZADEH H, VATANPARAST H, BAHRAMIAN A, FALLAH A. Spectrochim. Acta, Part A, 2020, 232: 118157.
[8] BEC K B, GRABSKA J, HUCK C W. Molecules, 2020, 25(12): 2948.
[9] ZHANG L, DING X Q, HOU R C. J. Anal. Methods Chem. , 2020, 2020(1): 9652470.
[10] ZHUANG J, LI M, PU Y, RAGAUSKAS A, YOO C. Appl. Sci. , 2020, 10(12): 4345.
[11] CHEN Y, WEN D, PEI J, FEI Y, OUYANG D, ZHANG H, LUO Y. Curr. Opin. Environ. Sci. Health, 2020, 18: 14-19.
[12] LI Q, ZENG J, LIN L, ZHANG J, ZHU J, YAO L, WANG S, DU J, WU Z. LWT-Food Sci. Technol. , 2021, 140: 110856.
[13] HAO Hui-Min, LIANG Yong-Guo, WU Hai-Bin, BU Ming-Long, HUANG Jia-Hai. Spectrosc. Spectral Anal. , 2021, 41(3):782-788.
郝惠敏, 梁永國, 武海彬, 卜明龍, 黃家海. 光譜學(xué)與光譜分析, 2021, 41(3): 782-788.
[14] HU J, ZOU Y, SUN B, YU X, SHANG Z, HUANG J, JIN S, LIANG P. Spectrochim. Acta, Part A, 2022, 265: 120366.
[15] WANG Lei, HUAN Ke-Wei, LIU Xiao-Xi, YUE Dan, HAN Feng-Di, ZHANG Wen-Jie. Chin. J. Anal. Chem. , 2022,50(12): 1918-1926.
王磊, 宦克為, 劉小溪, 岳丹, 韓豐地, 張文捷. 分析化學(xué), 2022, 50(12): 1918-1926.
[16] SZEGEDY C, LIU W, JIA Y Q, SERMANET P, REED S, ANGUELOV D, ERHAN D, VANHOUCKE V, RABINOVICH A. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1-9.
[17] YANG L, ZHANG Y, LIU J, ZHANG Z, XU M, JI F, CHEN J, ZHANG T, LU R. Rev. Sci. Instrum. , 2022, 93(3): 033002.
[18] KUMAR K, MISHRA A K. Anal. Methods, 2011, 3(11): 2616-2624.
[19] ZHANG Kun-Feng, CHANG Sheng, FU Qing, FAN Yue-Ting, WANG En-Rui, SUN Xing-Bin, WANG Shan-Jun. Environ.Sci. , 2022, 43(6): 3005-3015.
張坤鋒, 昌盛, 付青, 樊月婷, 王恩瑞, 孫興濱, 王山軍. 環(huán)境科學(xué), 2022, 43(6): 3005-3015.
[20] CHEN Yuan-Yuan, WU Di, WANG Li-Lian, TIAN Mao-Hong. China Pet. Chem. Stand. Qual. , 2014, 34(8): 266-267.
陳圓圓, 吳嫡, 王麗蓮, 田茂宏. 中國石油和化工標(biāo)準(zhǔn)與質(zhì)量, 2014, 34(8): 266-267.
國家自然科學(xué)基金項目(No. 62173289)資助。