賈宗潮,王子鑒,李雪瑩,2*,邱慧敏,侯廣利,范萍萍*
1. 齊魯工業(yè)大學(xué)(山東省科學(xué)院),山東省科學(xué)院海洋儀器儀表研究所,山東 青島 266061 2. 中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266590
海洋沉積物是指經(jīng)過(guò)漫長(zhǎng)而復(fù)雜的海洋沉積作用形成的海底沉積物,記錄了古氣候變化,海陸變遷,化學(xué)循環(huán)等過(guò)程的詳細(xì)信息[1-2]。粒度分析作為沉積學(xué)與沉淀學(xué)的重要研究方法,在地球地質(zhì)、海洋地質(zhì)和海洋環(huán)境保護(hù)的研究中有著非常重要的應(yīng)用價(jià)值。沉積物的粒度是一個(gè)非常重要的物理參數(shù),反映了沉積物的運(yùn)動(dòng)過(guò)程和沉積物的結(jié)構(gòu)特征,在沉積環(huán)境研究中有非常重要的意義[3-5]。海洋沉積物的在漫長(zhǎng)的沉積過(guò)程中,海水中的有機(jī)質(zhì)、碳酸鹽等在不同的沉積物上的分布呈現(xiàn)的特征也是不均勻的,其中污染物等其他有害物質(zhì)也會(huì)在沉積物上不斷疊加從而引起沉積物自身粒度的變化,海洋沉積物粒度的研究有助于了解人類(lèi)活動(dòng)對(duì)自然環(huán)境的影響,從而為海洋環(huán)境保護(hù)提供理論指導(dǎo)[6]。因此近海沉積物粒徑分析對(duì)海洋環(huán)境保護(hù)和生態(tài)修復(fù)有著重要的意義。
傳統(tǒng)粒度測(cè)量技術(shù)一般包括直接測(cè)量、篩析法、雙目顯微鏡、沉降法和電子顯微鏡法,其中常用的是沉降法和篩析法[7]。沉降法是基于顆粒在懸浮體系中以恒定速度沉降來(lái)測(cè)定分類(lèi)的,測(cè)試時(shí)間較長(zhǎng),操作繁瑣。篩析法是直徑不同孔徑的篩子將沉積物過(guò)篩,分出不同的粒級(jí),目前篩析法對(duì)于小于0.045 mm的粒子不具備測(cè)量能力[5]。隨著分析技術(shù)的發(fā)展,出現(xiàn)了多種非接觸式的測(cè)量技術(shù)。如激光粒度分析法,該方法具有精度高,分析速度快等優(yōu)點(diǎn),但粒子取樣要求較高,且對(duì)大體積質(zhì)子測(cè)量誤差較大[8]。圖像法和超聲譜分析法也是目前較為常用的粒度分析方法,圖像法能夠表達(dá)每個(gè)顆粒的大小及粒形信息,但存在著數(shù)據(jù)處理復(fù)雜等問(wèn)題[9],超聲譜分析法可以取得比圖像法偏差更小的測(cè)量結(jié)果,但對(duì)緩沖塊介質(zhì)的要求較嚴(yán)格[10]。
光譜分析具有檢測(cè)速度快、靈敏度高、無(wú)損傷檢測(cè)等優(yōu)點(diǎn),在化學(xué)成分分析、質(zhì)量檢測(cè)等領(lǐng)域應(yīng)用廣泛[11]??梢?jiàn)-近紅外吸收/反射光譜中富含樣品O—H、N—H、C—H等有機(jī)官能團(tuán)的種類(lèi)和數(shù)量信息,在土壤和海洋沉積物C,N等有機(jī)質(zhì)含量快速測(cè)定方面取得了非常多的成果。不同粒徑海洋沉積物有機(jī)官能團(tuán)的種類(lèi)和數(shù)量信息有一定的不同,故其吸收/反射光譜信息也有一定的不同,利用可見(jiàn)-近紅外光譜特性對(duì)海洋沉積物粒徑進(jìn)行分類(lèi)具有很好的研究前景。
以青島市東大洋村潮間帶表層沉積物為例,將海洋沉積物劃分為0.3~0.2、0.2~0.1、0.1~0.075和<0.075 mm四個(gè)不同粒徑的沉積物樣品,分別測(cè)定不同粒徑下沉積物的可見(jiàn)-近紅外反射光譜。采用主成分分析和連續(xù)投影算法融合的特征光譜提取方法(fusion of principal component analysis and successive projection algorithm,FOPAS)提取不同粒徑沉積物的特征光譜。該方法能夠獲得比單一特征提取方法更豐富的特征波長(zhǎng),綜合兩種特征提取方法的優(yōu)勢(shì),既實(shí)現(xiàn)無(wú)關(guān)特征和干擾信息的剔除,又能夠最大限度減少特征信息的丟失,提高模型的正確率和穩(wěn)定性。將主成分分析和連續(xù)投影融合算法分類(lèi)結(jié)果和單一特征提取方法的分類(lèi)結(jié)果進(jìn)行比對(duì)分析,尋找最優(yōu)海洋沉積物粒度特征信息,從而建立正確率更高的分類(lèi)模型,實(shí)現(xiàn)對(duì)沉積物粒度的快速分類(lèi)。
采樣地點(diǎn)位于青島市東大洋村潮間帶,于2019年8月借助竹筏采樣,共采集32份沉積物樣品。把采集到的沉積物樣品放在實(shí)驗(yàn)室風(fēng)干,破碎,全部通過(guò)0.3 mm篩,低溫烘干后研磨,把研磨過(guò)后的樣品進(jìn)行篩分,分別過(guò)0.2、0.1和0.075 mm三層篩子,對(duì)應(yīng)得到0.3~0.2、0.2~0.1、0.1~0.075和<0.075 mm不同粒徑的沉積物樣品,共計(jì)32份樣品,用于后續(xù)可見(jiàn)-近紅外光譜的檢測(cè)。
使用海洋光學(xué)QE65000光譜儀搭配DH-2000-BAL型光源采集沉積物樣品的反射光譜,光譜采樣間隔為1 nm,積分時(shí)間600 ms,譜區(qū)范圍200~1 100 nm,通過(guò)Y型光纖(QR400-7-UV-VIS)連接光譜儀和光源,Y型光纖探頭由支架固定,將樣品放置于自制的樣品盒中,探測(cè)樣品的反射光譜。每個(gè)樣品測(cè)定5次光譜反射率,取5次光譜反射率的平均值作為該樣品的反射光譜。
不同粒徑32份沉積物的反射光譜共128條。由于光譜前段和后段受噪聲影響,因此去掉前段和后段光譜,取226~975 nm波段光譜,如圖1所示。
圖1 不同粒徑沉積物反射光譜圖Fig.1 Reflectance spectra of sediments with different particle sizes
圖2 主成分分析和連續(xù)投影融合算法流程圖Fig.2 Flow chart of principal component analysis and continuous projection fusion algorithm
對(duì)不同粒徑的沉積物樣品測(cè)定碳氮含量(北京植物所,碳氮分析儀)。TN、TC的含量的實(shí)測(cè)值統(tǒng)計(jì)列表如表1所示。不同粒徑下的沉積物CN含量值有所差異。
表1 C、N含量平均值統(tǒng)計(jì)(Mean±SD)Table 1 Mean values of C,N contents (Mean±SD)
主成分分析和連續(xù)投影融合算法是利用兩種特征提取方法,對(duì)原始光譜數(shù)據(jù)進(jìn)行降維和特征提取,可以用更少的變量去代替更多的原始變量,降低模型的復(fù)雜度,使模型更加高效和穩(wěn)定。
主成分分析(principal component analysis,PCA),是一種經(jīng)典的特征提取法,旨在降低數(shù)據(jù)集復(fù)雜性的同時(shí)能夠最大限度的減少信息的丟失。它通過(guò)正交變換的方式可以將一組變量的觀(guān)察值轉(zhuǎn)換成一組不存在相關(guān)性的變量,轉(zhuǎn)換完成后獲得的變量被稱(chēng)為主成分[12]。在光譜分析中,PCA通過(guò)正交變換將光譜數(shù)據(jù)中具有相關(guān)性的數(shù)據(jù)變量轉(zhuǎn)換成不相關(guān)的光譜變量即是主成分,從而達(dá)到了降低光譜數(shù)據(jù)的復(fù)雜性的同時(shí)也能夠獲取不同粒徑沉積物的特征光譜,最大限度的減少了光譜信息的丟失。
連續(xù)投影算法(successive projections algorithm,SPA)是一種使矢量空間共線(xiàn)最小化的前向變量選擇算法,能夠很好的消除波長(zhǎng)數(shù)值間共線(xiàn)性的影響,優(yōu)選出能夠反映樣本關(guān)鍵信息的有效特征波段從而降低模型的復(fù)雜度,提高模型的穩(wěn)定性和準(zhǔn)確性。它是一種前向循環(huán)篩選方法,即從一個(gè)波長(zhǎng)作為起點(diǎn),每次循環(huán)合并一個(gè)新的波長(zhǎng),直到達(dá)到指定數(shù)目的波長(zhǎng)為止[13]。通過(guò)連續(xù)投影算法對(duì)光譜數(shù)據(jù)波長(zhǎng)進(jìn)行篩選,得到共線(xiàn)性最小的波長(zhǎng),即得到了最能反映關(guān)鍵特征的波長(zhǎng),降低了數(shù)據(jù)的復(fù)雜性,減少了無(wú)關(guān)信息的干擾,提高了分類(lèi)模型的準(zhǔn)確率和穩(wěn)定性。
主成分分析和連續(xù)投影融合算法(fusion of principal component analysis and successive projection algorithm,FOPAS)是將兩種算法得到的特征光譜融合作為建模光譜值,具體如式(1)所示
F=F1+F2
(1)
式(1)中:F為融合后得到的特征光譜,F1為主成分分析法得到的特征光譜,F2為連續(xù)投影算法得到的特征波長(zhǎng)。
主成分分析(PCA)和連續(xù)投影算法(SPA)作為多變量分析中常用的降維和特征提取方法,在消除光譜變量間的多重共線(xiàn)性,降低模型復(fù)雜度等研究方面取得了很好的效果。主成分分析(PCA)不僅能夠濃縮光譜數(shù)據(jù),同時(shí)還具有不相關(guān)的性質(zhì),最大限度的避免信息重疊帶來(lái)的虛假性。連續(xù)投影算法(SPA)通過(guò)向量投影能夠選出冗余度低,共線(xiàn)性小又能反映光譜關(guān)鍵特征的有效波段。融合算法能夠有效地融合兩種算法的優(yōu)點(diǎn),將兩種特征提取方法獲取的特征光譜融合,獲得比單一特征提取方法更豐富的特征波長(zhǎng),從而既達(dá)到無(wú)關(guān)特征和干擾信息的剔除,又能夠最大限度的減少特征信息的丟失,既提高了建模速度又降低了模型的復(fù)雜度,進(jìn)而提高了模型的正確率和穩(wěn)定性。
支持向量機(jī)(support vector machine,SVM)作為最常用的分類(lèi)方法,它的核心思想是通過(guò)核函數(shù)將向量映射到更高維的空間中,構(gòu)造一個(gè)最優(yōu)分類(lèi)超平面。尋找兩個(gè)距離最大且平行于分類(lèi)超平面的平行超平面。通過(guò)構(gòu)造一個(gè)超平面f(x)=ωx+b=0,其中ω為分類(lèi)平面的法向量,b為分類(lèi)平面的偏移量,則構(gòu)造的分類(lèi)函數(shù)為f(x)=ωx+b。平行超平面之間的距離越大,分類(lèi)器的分類(lèi)準(zhǔn)確率越高。SVM算法遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,能有效的解決其他機(jī)器學(xué)習(xí)算法中小樣本、非線(xiàn)性的情況下過(guò)擬合以及陷入局部最優(yōu)解等問(wèn)題。
在本研究中,SVM算法選取高斯徑向基函數(shù)作為核函數(shù)建立定性分析判別模型,從而將數(shù)據(jù)映射到高位空間,有效的解決了原始空間中線(xiàn)性不可分的問(wèn)題。支持向量機(jī)的建模與預(yù)測(cè)在Matlab R2016a環(huán)境下完成。
模型評(píng)價(jià)標(biāo)準(zhǔn)采用正確率Accuracy、均方根誤差(root mean square error,RMSE)、決定系數(shù)R2。
(2)
(3)
(4)
首先對(duì)沉積物全光譜數(shù)據(jù)先進(jìn)行歸一化處理,然后采用SVM方法建立模型,建模集和檢驗(yàn)集的比例分別以2∶1(建模集樣品86個(gè),檢驗(yàn)集樣品42個(gè)),1∶1(建模集樣品64個(gè),檢驗(yàn)集樣品64個(gè))和1∶2(建模集樣品42個(gè),檢驗(yàn)集樣品86個(gè))進(jìn)行分析,分類(lèi)順序按照0.3~0.2 mm 32個(gè)、0.2~0.1 mm 32個(gè)、0.1~0.075 mm 32個(gè)、<0.075 mm 32個(gè)等距離選取,全光譜模型分類(lèi)結(jié)果如表2所示。
表2 全光譜模型分類(lèi)結(jié)果Table 2 Full-spectrum model classification results
由表2,在全光譜模型的下,建模集和檢驗(yàn)集的比例分別以2∶1、1∶1、1∶2時(shí),建模集的分類(lèi)正確率分別為93.02%、95.31%、93.02%,建模集的最小均方根誤差為0.22,決定系數(shù)最高的為0.96,檢驗(yàn)集分類(lèi)正確率分別為73.81%、70.31%、55.29%,當(dāng)比例為1∶2時(shí)檢驗(yàn)集的分類(lèi)正確率最低,同樣在比例為1∶1時(shí)均方根誤差最大0.70,決定系數(shù)最小為0.65。
采用全光譜模型分類(lèi),在建模集和檢驗(yàn)集為1∶1比例下,分別統(tǒng)計(jì)四個(gè)粒徑的分類(lèi)的正確率,見(jiàn)表3。
表3 全光譜模型各粒徑建模集和檢驗(yàn)集以1∶1比例的分類(lèi)結(jié)果Table 3 Classification results of modeling set and test set in a ratio of 1∶1 using entire-spectrum data for each particle size
由表3,建模集和檢驗(yàn)集為1∶1比例下,0.1~0.075粒徑建模集的分類(lèi)正確率達(dá)到了100%,其余3個(gè)粒徑的建模集的分類(lèi)正確率都為93.75%,錯(cuò)誤樣本都為1個(gè)。檢驗(yàn)集分類(lèi)正確率最高的是<0.075 mm粒徑,分類(lèi)正確率為81.25%,0.2~0.1 mm粒徑和0.1~0.075 mm粒徑分類(lèi)正確率相同為68.75%,分類(lèi)正確率最低的是0.3~0.2 mm粒徑,分類(lèi)正確率為62.50%,錯(cuò)誤樣本為6個(gè)。
在對(duì)沉積物光譜數(shù)據(jù)進(jìn)行歸一化處理后,采用主成分分析法對(duì)128個(gè)不同粒徑的沉積物樣品的光譜數(shù)據(jù)進(jìn)行降維,選取貢獻(xiàn)率大于99%的前4個(gè)主成分。在對(duì)歸一化后的光譜數(shù)據(jù)使用連續(xù)投影算法選出11個(gè)波長(zhǎng),分別是226、228、229、286、581、583、584、685、942、944和950 nm。將主成分分析法獲得的貢獻(xiàn)率大于99%,即前4個(gè)主成分與連續(xù)投影算法提取到的11個(gè)波長(zhǎng)點(diǎn)融合使用,使用SVM進(jìn)行建模,同樣,建模集和檢驗(yàn)集的比例分別以2∶1,1∶1和1∶2進(jìn)行分析,分類(lèi)順序與前文所述方法相同,將分類(lèi)結(jié)果與單一特征提取算法對(duì)比。結(jié)果如表4所示。
表4 兩種算法單獨(dú)使用和融合算法分類(lèi)結(jié)果Table 4 Classification results of the two algorithms alone and fused algorithms
由表4可得,建模集和檢驗(yàn)集的比例分別以2∶1、1∶1、1∶2時(shí),主成分分析方法的建模集的分類(lèi)正確率分別為82.56%、78.13%、76.71%,檢驗(yàn)集分類(lèi)正確率分別為42.86%、46.88%、44.71%,3種比例分類(lèi)結(jié)果表現(xiàn)均衡,但檢驗(yàn)集的均方根誤差較建模集增大明顯,決定系數(shù)減小明顯,均未超過(guò)0.6。連續(xù)投影算法的建模集的分類(lèi)正確率分別為98.84%、87.50%、90.69%,檢驗(yàn)集分類(lèi)正確率分別為90.47%、73.44%、72.94%,當(dāng)建模集與檢驗(yàn)集的比例為2∶1時(shí),檢驗(yàn)集分類(lèi)結(jié)果最好,檢驗(yàn)集的均方根誤差比建模集略有增加,決定系數(shù)相差明顯。融合算法建模集正確率均達(dá)到了90%以上,高于其他方法,檢驗(yàn)集分類(lèi)正確率最低的是1∶2比例,為75.29%,其他兩個(gè)比例的檢驗(yàn)集正確率分別為83.33%、82.81%,平均分類(lèi)正確率也均高于其他方法,但在檢驗(yàn)集上均方根誤差最低為0.60,決定系數(shù)最高為0.75,較建模集減小明顯。
由表5,在建模集和檢驗(yàn)集為1∶1比例下,主成分分析0.3~0.2與0.2~0.1 mm粒徑建模集的分類(lèi)正確率都為81.25%,0.1~0.075與<0.075 mm粒徑建模集分類(lèi)正確率都是75%。檢驗(yàn)集分類(lèi)正確率最高的是<0.075 mm粒徑,分類(lèi)正確率為68.75%,分類(lèi)正確率最低的是0.1~0.075 mm粒徑,分類(lèi)正確率為25%。連續(xù)投影算法分類(lèi)模型,除了0.3~0.2 mm粒徑檢驗(yàn)集正確率較低,僅為43.75%,其他粒徑的檢驗(yàn)集分類(lèi)正確率均大于等于75%。融合算法的檢驗(yàn)集分類(lèi)正確率最低的是0.1~0.075 mm粒徑,為75%,除0.1~0.075 mm粒徑外其他3個(gè)粒徑的檢驗(yàn)集分類(lèi)正確率均高于80%,分別為93.75%、81.25%、81.25%。
表5 兩種算法單獨(dú)使用和融合算法的各粒徑建模集和檢驗(yàn)集以1∶1比例的分類(lèi)結(jié)果Table 5 Classification results of modeling set and test set in a 1∶1 ratio using each of PCA,SPA and PCA fused with SPA the two algorithms alone and the fusion algorithm
全光譜模型分類(lèi),建模集分類(lèi)正確率與檢驗(yàn)集分類(lèi)正確率相差明顯,除<0.075 mm粒徑,總體和其余粒徑檢驗(yàn)集分類(lèi)效果均不理想。基于主成分分析的沉積物分類(lèi)模型三種比例建模集與檢驗(yàn)集分類(lèi)結(jié)果都不好,各粒徑的建模集和檢驗(yàn)集分類(lèi)正確率也低于全光譜模型分類(lèi)。基于連續(xù)投影算法方法的分類(lèi),不僅在總體分類(lèi)結(jié)果優(yōu)于全光譜和基于主成分分析的,除0.3~0.2 mm粒徑外其他3個(gè)粒徑的分類(lèi)正確率均有一定的提升。兩種特征提取算法融合的分類(lèi)方法,除低于在2∶1比例下連續(xù)投影算法檢驗(yàn)集正確率,其余正確率相對(duì)于單一特征提取算法均有顯著的提高,另外由于在粒徑<0.075 mm時(shí)由于粒徑過(guò)小,光譜特征較大粒徑樣品光譜變得不明顯,所以建模集有過(guò)擬合的現(xiàn)象,造成了檢驗(yàn)集結(jié)果變差。在均方根誤差和決定系數(shù)方面,由于四個(gè)粒徑的觀(guān)測(cè)值0.3~0.2 mm用1,0.2~0.1 mm用2,0.1~0.075與<0.075 mm分別用3和4代替,融合算法在0.1~0.075與<0.075 mm粒徑上的分類(lèi)正確率的較低,這兩種粒徑的代替值為3和4,其模型預(yù)測(cè)值與真實(shí)值的誤差相對(duì)于0.3~0.2與0.2~0.1 mm粒徑的代替值1和2所占比較大,從而導(dǎo)致總體的均方根誤差變大和決定系數(shù)變小。從以上結(jié)果分析表明使用融合算法的提取的特征光譜建立的分類(lèi)模型在訓(xùn)練集樣本量少,粒徑更大的條件下,其分類(lèi)模型相較于使用兩個(gè)單獨(dú)的特征提取算法的模型更具有優(yōu)勢(shì),另外融合算法在大粒徑樣品的分類(lèi)正確率上也有很大的提升。
在尋找最優(yōu)沉積物粒徑特征光譜中,通過(guò)使用兩種不同的特征提取算法對(duì)光譜數(shù)據(jù)進(jìn)行降維提取特征光譜,同時(shí)消除相關(guān)性高的波長(zhǎng)數(shù)據(jù)對(duì)模型的干擾。采用兩種特征提取算法融合的模型分類(lèi)結(jié)果要好于單獨(dú)使用兩種特征提取方法和全光譜模型的結(jié)果。因此采用基于主成分分析和連續(xù)投影算法聯(lián)用的海洋沉積物粒度分類(lèi)模型,能夠提高海洋沉積物粒度分類(lèi)的正確率。后續(xù)將嘗試其他預(yù)處理和特征提取算法處理小粒徑樣品光譜,以獲得更好的分類(lèi)結(jié)果。
以青島市東大洋村潮間帶表層沉積物為例,將海洋沉積物劃分為0.3~0.2、0.2~0.1、0.1~0.075和<0.075 mm四個(gè)不同粒徑樣品的沉積物樣品,并分別測(cè)定不同粒徑樣品的可見(jiàn)-近紅外反射光譜。由分類(lèi)正確率可知采用兩種特征提取算法融合的方法的分類(lèi)模型,在訓(xùn)練集樣本量少、粒徑清晰的條件下,優(yōu)于單獨(dú)使用一種特征提取方法的分類(lèi)模型和全光譜分類(lèi)模型,其在總體分類(lèi)正確率和各個(gè)粒徑分類(lèi)正確率上都有顯著的提高。因此采用基于主成分分析和連續(xù)投影融合算法的海洋沉積物粒度分類(lèi)模型,能夠提高海洋沉積物粒度分類(lèi)結(jié)果的正確率,建立正確率更高的粒度分類(lèi)模型,對(duì)快速粒度分類(lèi)提供了解決方法。