朱永健,劉金福,潘曉文*,金 晶
(1.福建農(nóng)林大學(xué) 計算機(jī)與信息學(xué)院,福建 福州;2.福建農(nóng)林大學(xué) 林學(xué)院,福建 福州;3.福州市臺江環(huán)境監(jiān)測站,福建 福州)
化學(xué)需氧量(COD)和濁度是監(jiān)測水質(zhì)的常規(guī)指標(biāo),可以反映水體中有機(jī)物污染程度和水透明度。光學(xué)法中的紫外吸收光譜法由于操作簡單、分析快速以及無二次污染等優(yōu)點(diǎn),近年來被廣泛應(yīng)用于水質(zhì)監(jiān)測領(lǐng)域[1]?,F(xiàn)有研究較多的單波長、多波長方法無法應(yīng)用光譜的全部數(shù)據(jù),但應(yīng)用全光譜數(shù)據(jù)構(gòu)建水質(zhì)預(yù)測模型時,傳統(tǒng)的最小二乘法(LS)和偏最小二乘法(PLS)在擬合此類復(fù)雜非線性數(shù)據(jù)時表現(xiàn)較差。深度學(xué)習(xí)方法具有處理大規(guī)模數(shù)據(jù)和解決非線性問題的能力,因此被逐漸應(yīng)用于水質(zhì)檢測領(lǐng)域[2]。在構(gòu)建基于深度學(xué)習(xí)的水質(zhì)檢測模型時,由于水質(zhì)成分復(fù)雜多變,且樣本標(biāo)注成本高昂,通常難以獲取大規(guī)模標(biāo)注數(shù)據(jù)集。因此,為了解決訓(xùn)練樣本少,提高使用深度學(xué)習(xí)方法構(gòu)建水質(zhì)參數(shù)預(yù)測模型的魯棒性和準(zhǔn)確性,本研究提出利用紫外吸收光譜獲得的全光譜數(shù)據(jù),建立基于小樣本學(xué)習(xí)的Siamese CNN 水質(zhì)參數(shù)預(yù)測模型,以提高深度學(xué)習(xí)模型在水質(zhì)檢測領(lǐng)域的實(shí)用性。
實(shí)際水樣來自于福建省閩江流域福州段,COD 濃度測定采用重鉻酸鉀COD 回流法,濁度濃度測定采用濁度計法。實(shí)驗(yàn)室標(biāo)準(zhǔn)水樣來源于國家有色金屬及電子材料分析測試中心提供的標(biāo)準(zhǔn)溶液稀釋得到,為在實(shí)驗(yàn)中檢驗(yàn)?zāi)P偷姆夯芰?,配置的?biāo)準(zhǔn)水樣包括單參數(shù)溶液(COD、濁度、硝酸鹽氮),兩參數(shù)混合溶液(COD 和濁度、COD 和硝酸鹽氮、濁度和硝酸鹽氮)、三參數(shù)混合溶液三種類型。
紫外吸收光譜數(shù)據(jù)依據(jù)朗伯- 比爾定律,使用高利GLA600-UVN 紫外光纖光譜儀進(jìn)行測量。
在獲取樣本的紫外吸收光譜過程中,CCD 探頭會隨時間產(chǎn)生波動,從而引入噪聲,本研究通過增加獲取每個光譜數(shù)據(jù)點(diǎn)時的平均測量次數(shù),降低這種噪聲對結(jié)果的影響。除光譜儀內(nèi)部會產(chǎn)生噪聲外,設(shè)備的使用及光源、光路不穩(wěn)定等同樣會產(chǎn)生噪聲,對于此類噪聲,采用小波變換進(jìn)行濾除[3]。
小波變換是把基本小波函數(shù) ψ (t)做位移 τ后,在不同尺度 α下與待測信號 χ(t)做內(nèi)積。表達(dá)式為:
轉(zhuǎn)換為等效的頻域表達(dá)式為:
公式(1)、(2)中,X(w) 和 ψ(w) 分別為x(t) 和 ψ(t)的傅里葉變換。
軟閾值濾波得到的小波系數(shù)整體連續(xù)性較好,因此本研究使用軟閾值去噪,公式為:
公式(3)中,wλ為軟閾值濾波的收縮函數(shù),s gn(w)表示W(wǎng) 的符號。圖1 為濾波前后對比效果圖。
圖1 濾波前后對比圖
本文采用隨機(jī)擦除(Random Erasing)方法進(jìn)行數(shù)據(jù)增強(qiáng),即隨機(jī)遮擋訓(xùn)練集中一定比例的數(shù)據(jù),且保持?jǐn)?shù)據(jù)的長度不變,以提高模型的泛化能力,防治出現(xiàn)過擬合情況。
孿生神經(jīng)網(wǎng)絡(luò)(Siamese Network)能夠從有限的數(shù)據(jù)中學(xué)習(xí)特征。Siamese Network 可以同時對兩個不同的水質(zhì)光譜(光譜a 和光譜b)進(jìn)行編碼和特征提取,生成與水質(zhì)光譜對應(yīng)的特征向量processed_a 和processed_b。經(jīng)過多模型對比后,本研究選擇CNN 作為BackBone。CNN 特征提取后,兩個特征向量將被輸入到歐式距離計算層,以計算出a 和b 之間的距離(distance),并根據(jù)預(yù)設(shè)的閾值來判斷它們是否相似。歐氏距離計算公式如下:
使用歐氏距離進(jìn)行相似性檢測可以找到與輸入光譜數(shù)據(jù)最接近的樣本,這為模型提供了先驗(yàn)知識。此外,這種將光譜數(shù)據(jù)兩兩組合為樣本對的方法,變相地擴(kuò)充了訓(xùn)練數(shù)據(jù)集。在數(shù)據(jù)量相對較少的情況下,通過這種方式也可以訓(xùn)練出具有較好性能的深度神經(jīng)網(wǎng)絡(luò)模型。
Siamese CNN 的特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,水質(zhì)參數(shù)預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)如圖2(b)所示。
圖2 Siamese CNN 特征學(xué)習(xí)和水質(zhì)參數(shù)預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)
通過測試集水質(zhì)參數(shù)識別值與真實(shí)值的相關(guān)系數(shù)R2,最大絕對誤差(MAE),均方根誤差RMSE 三個指標(biāo)對模型的性能進(jìn)行評價,R2、MAE、RMSE 按公式(5)(6)(7)計算。
式中:n 為樣本量,y^ 為識別值,yi為真實(shí)值,y為樣本均值。R2值越接近于1,MAE 值和RMSE 值越小,表明模型的識別效果越好。
本研究構(gòu)建了以下模型用于水質(zhì)參數(shù)預(yù)測:孿生全連接網(wǎng)絡(luò)(Siamese FC)采用全連接神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)、Siamese CNN 采用卷積神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),以及CNN、梯度提升決策樹(GBDT)、隨機(jī)森林(RF)以及偏最小二乘法(PLS)。我們對這六種模型的預(yù)測精度進(jìn)行了比較,并將水樣按照一定比例劃分為訓(xùn)練集和測試集。
2.1.1 同類標(biāo)準(zhǔn)水樣預(yù)測
同類標(biāo)準(zhǔn)水樣是指訓(xùn)練集和測試集的樣本屬于相同類型的水樣。同類水樣的預(yù)測是實(shí)際檢測過程中最常見的情況。本研究按照3:1 的比例劃分訓(xùn)練集和測試集,各模型在測試集上對COD 濃度的預(yù)測結(jié)果見表1。
表1 同類標(biāo)準(zhǔn)水樣測試集COD 濃度預(yù)測結(jié)果
如表1 所示,Siamese CNN 的三個評價指標(biāo)明顯優(yōu)于其他模型。通過對比COD 標(biāo)準(zhǔn)溶液和三參數(shù)混合溶液的預(yù)測精度,發(fā)現(xiàn)在面對更復(fù)雜的水環(huán)境時,模型的預(yù)測精度會有所下降。但與其他模型相比,Siamese CNN 的評價指標(biāo)下降幅度最小,表明模型魯棒性最優(yōu)。
2.1.2 不同類標(biāo)準(zhǔn)水樣預(yù)測
不同類水樣是指訓(xùn)練集和測試集中的樣本不屬于相同類型的水樣。僅對同類水樣進(jìn)行預(yù)測可能無法評估模型的泛化能力,也無法應(yīng)對實(shí)際水質(zhì)檢測中水質(zhì)參數(shù)可能發(fā)生變化的情況。因此,本研究將兩參數(shù)混合溶液作為訓(xùn)練集,三參數(shù)混合溶液作為測試集,測試集中COD 和濁度濃度的預(yù)測結(jié)果見表2。
表2 不同類標(biāo)準(zhǔn)水樣測試集COD 濃度預(yù)測結(jié)果
如表2 所示,模型預(yù)測精度較表1 普遍下降。但Siamese CNN 的降幅最小,表明該模型較其他模型具備出色的泛化能力,可以應(yīng)對水質(zhì)參數(shù)濃度發(fā)生變化的情況。對于濁度濃度的預(yù)測,Siamese CNN 同樣表現(xiàn)出最佳的預(yù)測性能。
為進(jìn)一步提高模型的預(yù)測精度,對訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)操作,隨機(jī)擦除比例為0.2。數(shù)據(jù)增強(qiáng)后,Siamese CNN 對測試集的預(yù)測結(jié)果見表3,三個評價指標(biāo)均顯著提升,表明該數(shù)據(jù)增強(qiáng)方法可以有效提高模型的預(yù)測精度。
表3 掩膜后樣本類5 測試集COD、濁度預(yù)測結(jié)果
為進(jìn)一步驗(yàn)證其實(shí)用性,將該模型應(yīng)用于實(shí)際水樣預(yù)測,預(yù)測結(jié)果見表4。從表4可以看出,COD 和濁度的R2均達(dá)到了0.97,表明該模型可以成功用于實(shí)際水樣檢測。
基于小樣本學(xué)習(xí)的Siamese CNN 模型具有較強(qiáng)的特征提取能力,可以實(shí)現(xiàn)小樣本數(shù)據(jù)集的COD 和濁度濃度預(yù)測,結(jié)合數(shù)據(jù)增強(qiáng)方法,可進(jìn)一步提高模型的預(yù)測精度。將紫外吸收光譜的全光譜數(shù)據(jù)與Siamese CNN 模型相結(jié)合,構(gòu)建了一種高效穩(wěn)定的水質(zhì)COD 和濁度濃度預(yù)測模型。該模型具有更高的識別精度和更強(qiáng)的泛化能力,為在線監(jiān)測水體中COD 和濁度的污染程度提供了一種新的技術(shù)支持。