李 濤,郁百成,鄒德武,任利利
(1.交通運(yùn)輸部水運(yùn)科學(xué)研究所,北京 100088;2.浙江省港航管理中心,浙江 杭州 310011;3.衢州市港航管理局,浙江 衢州 324000)
近年來(lái),海洋生物入侵防范已成為世界海洋環(huán)境治理中的研究熱點(diǎn)。港口和航運(yùn)業(yè)的持續(xù)發(fā)展,造成船舶壓載水交換量增加,壓載水帶來(lái)越來(lái)越多的外來(lái)生物,對(duì)近岸海洋生態(tài)系統(tǒng)造成了持續(xù)而顯著的影響[1-4]。據(jù)測(cè)算,全世界每年交換壓載水約120 億t,90%以上的潛在有害海洋生物通過(guò)船舶壓載水傳播。依據(jù)全國(guó)船舶自動(dòng)識(shí)別系統(tǒng)(Automatic Identification System,AIS)數(shù)據(jù)計(jì)算,僅天津港2017 年壓載水排放量就超過(guò)5 000 萬(wàn)t。根據(jù)江陰海關(guān)多年來(lái)對(duì)船舶壓載水中外來(lái)生物的檢測(cè)結(jié)果,我國(guó)壓載水和沉積物中檢測(cè)到的有毒有害生物達(dá)195 種。而經(jīng)常在我國(guó)海域發(fā)現(xiàn)的赤潮物種,如夜光藻、中肋骨條藻、米氏凱倫藻等,均在壓載水中被檢測(cè)出。
國(guó)內(nèi)外對(duì)海洋生態(tài)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)的研究和應(yīng)用持續(xù)升溫,開(kāi)發(fā)出了各種數(shù)據(jù)倉(cāng)庫(kù),如:德國(guó)計(jì)算機(jī)科學(xué)研究中心(Fonschangszentrum Informatik,FZI)開(kāi)發(fā)的虛擬歐洲環(huán)境數(shù)據(jù)倉(cāng)庫(kù)Coast Base[5];澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織(Common?wealth Scientific and Industrial Research Organiza?tion,CSIRO)開(kāi)發(fā)的海洋數(shù)據(jù)倉(cāng)庫(kù)[6];美國(guó)地質(zhì)調(diào)查局(United States Geological Survey,USGS)針對(duì)海洋物種數(shù)據(jù)建立的NAS(Nonindigenous Aquatic Species)數(shù)據(jù)庫(kù)[7];大連海事大學(xué)為了滿足船舶運(yùn)輸?shù)陌踩螅⒘藬?shù)字海洋空間數(shù)據(jù)庫(kù)方案并提出了信息內(nèi)容和結(jié)構(gòu)設(shè)計(jì)[8];青島海洋大學(xué)建立了全球極端海面風(fēng)速預(yù)測(cè)模型和基于極端海面風(fēng)速預(yù)測(cè)的海洋地理信息系統(tǒng)[9]。這些數(shù)據(jù)庫(kù)的建設(shè)和應(yīng)用為研究海洋生態(tài)環(huán)境,查詢海洋物種在近海的時(shí)空分布及變化情況提供了支持。
數(shù)據(jù)挖掘是一個(gè)知識(shí)提取的過(guò)程。數(shù)據(jù)挖掘技術(shù)被應(yīng)用于各領(lǐng)域研究中[10-11],在生態(tài)環(huán)境領(lǐng)域同樣得到了廣泛的應(yīng)用[12-15],例如:美國(guó)加利福尼亞大學(xué)的Baker 等人針對(duì)海洋環(huán)境信息異構(gòu)數(shù)據(jù)構(gòu)建了靈活的信息系統(tǒng)結(jié)構(gòu)[16];日本東京國(guó)家情報(bào)學(xué)院采用了數(shù)據(jù)挖掘技術(shù)進(jìn)行大數(shù)據(jù)分析以預(yù)報(bào)臺(tái)風(fēng)[17];美國(guó)密西西比州立大學(xué)的Wooley等人采用分類(lèi)分析和聚類(lèi)分析方法對(duì)海洋數(shù)據(jù)進(jìn)行挖掘研究[18];美國(guó)麻省理工學(xué)院的Guo 等人采用海洋數(shù)據(jù)的特征抽取和可視化技術(shù)進(jìn)行海洋環(huán)境分析[19]。目前國(guó)內(nèi)外針對(duì)生物入侵的大數(shù)據(jù)研究主要是利用數(shù)據(jù)挖掘技術(shù)分析影響特定物種入侵行為的主要環(huán)境影響因子(如水溫、溶解氧、pH 值等)及作用關(guān)系[20-21]。而采用數(shù)據(jù)挖掘技術(shù)進(jìn)行壓載水排放引起的海洋生物入侵影響因子的研究較少。
浮游植物的豐度預(yù)測(cè)模型包括人工神經(jīng)網(wǎng)絡(luò)模型[22-23]、多元回歸模型[24-25]、基于事例推理的相似預(yù)測(cè)[26],其中常用的是人工神經(jīng)網(wǎng)絡(luò)模型和多元回歸模型。根據(jù)連接的拓?fù)浣Y(jié)構(gòu),人工神經(jīng)網(wǎng)絡(luò)模型可以分為前向網(wǎng)絡(luò)和反饋網(wǎng)絡(luò)(Back Propagation Neural Network,BP 神經(jīng)網(wǎng)絡(luò))。BP 神經(jīng)網(wǎng)絡(luò)將誤差前饋,可以縮小誤差。研究表明,BP 神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確性高于多元回歸模型[27]。所以,本文首先采用數(shù)據(jù)挖掘技術(shù)獲取海洋生物入侵的影響因素,繼而采用BP 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行生物豐度預(yù)測(cè)。
中肋骨條藻是我國(guó)沿海較為常見(jiàn)的廣溫廣鹽浮游植物,也是常見(jiàn)的赤潮藻種。本文以中肋骨條藻為例建立生物豐度預(yù)測(cè)模型,通過(guò)在模型中輸入環(huán)境影響因子監(jiān)測(cè)結(jié)果來(lái)計(jì)算中肋骨條藻的增殖擴(kuò)散風(fēng)險(xiǎn)。趙行行等人[28]的研究結(jié)果表明,影響中肋骨條藻生長(zhǎng)的關(guān)鍵環(huán)境因子為水溫、硅酸鹽和磷酸鹽,此外化學(xué)需氧量(Chemical Oxy?gen Demand,COD)、pH 值、透明度及鹽度等環(huán)境因子也對(duì)中肋骨條藻的生長(zhǎng)有重要影響。宋婭婷等人[29]的研究也表明溫度、光照和磷酸鹽及其交互作用對(duì)中肋骨條藻的生長(zhǎng)有顯著影響。根據(jù)《近岸海域環(huán)境監(jiān)測(cè)技術(shù)規(guī)范》(HJ 442—2020)[30]的要求,水質(zhì)監(jiān)測(cè)頻次一般為每年3 次,采樣時(shí)間分別為3 月—5 月、7 月—8 月 和9 月—11 月?!逗K|(zhì)標(biāo)準(zhǔn)》(GB 3097—1997)[31]規(guī)定,水質(zhì)監(jiān)測(cè)指標(biāo)包含水溫、鹽度、pH 值、溶解氧、COD、生化需氧量(Biochemical Oxygen Demand,BOD)、無(wú)機(jī)氮、磷酸鹽、懸浮物等參數(shù)。天津港建港時(shí)間長(zhǎng),擁有長(zhǎng)期的監(jiān)測(cè)數(shù)據(jù),港區(qū)和監(jiān)測(cè)站圍繞渤海分布密集,有利于針對(duì)監(jiān)測(cè)數(shù)據(jù)的挖掘分析。本文收集了天津港2005—2017年海域監(jiān)測(cè)獲得的水質(zhì)與生物指標(biāo)數(shù)據(jù),用聚類(lèi)分析[32-34]和關(guān)聯(lián)分析[35-36]等數(shù)據(jù)挖掘算法[37]分析港口水域生物指標(biāo)與港口水域水質(zhì)環(huán)境指標(biāo)的潛在相關(guān)性;然后以中肋骨條藻為例建立海洋生物豐度的BP 預(yù)測(cè)模型,以解決港口水域的浮游植物生物入侵風(fēng)險(xiǎn)評(píng)估這一關(guān)鍵技術(shù)難題。
本文收集整理了2005—2017年在天津港海域28 次監(jiān)測(cè)的共計(jì)210 個(gè)監(jiān)測(cè)站位的數(shù)據(jù),監(jiān)測(cè)項(xiàng)目為水質(zhì)、沉積物和生物,并利用這些數(shù)據(jù)建立港口生態(tài)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)。港口生態(tài)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)指標(biāo)主要包括:采樣時(shí)間、生物多樣性指數(shù)、生物均勻度指數(shù)、站位優(yōu)勢(shì)度、生物豐度、水溫、鹽度、懸浮物、溶解氧、pH 值、COD、無(wú)機(jī)氨、磷酸鹽等影響因子。
海洋生物的生長(zhǎng)與環(huán)境影響因子直接相關(guān)。本文關(guān)注的重點(diǎn)是與港口水域海洋生物的生態(tài)特征有關(guān)的屬性。本文對(duì)港口水域水質(zhì)生物指標(biāo)進(jìn)行梳理,采用第三范式(Third Normal Form,3rd NF)[38-39]建模,根據(jù)各屬性的對(duì)應(yīng)關(guān)系,提出并明確關(guān)系數(shù)據(jù)庫(kù)中數(shù)據(jù)的存取方法和存儲(chǔ)結(jié)構(gòu),建立了包括港口水質(zhì)信息、港口水質(zhì)采樣站位信息、港口信息、監(jiān)測(cè)站信息等10個(gè)數(shù)據(jù)表結(jié)構(gòu)的數(shù)據(jù)邏輯模型。基于數(shù)據(jù)邏輯模型建立的港口生態(tài)環(huán)境數(shù)據(jù)庫(kù)物理模型如圖1所示。
為了分析港口生態(tài)環(huán)境影響因子的關(guān)聯(lián)性,本文對(duì)港口生態(tài)環(huán)境影響因子進(jìn)行關(guān)聯(lián)分析。采用K均值聚類(lèi)算法[40]對(duì)定量屬性進(jìn)行離散處理。生物多樣性指數(shù)、生物均勻度指數(shù)、站位優(yōu)勢(shì)度、生物豐度的聚類(lèi)屬性集合均為{0,1,2,3},鹽度、懸浮物、無(wú)機(jī)氨、磷酸鹽的聚類(lèi)屬性集合為{0,1,2},水溫、溶解氧、pH 值、COD 的聚類(lèi)屬性集合為{0,1}。
基于離散處理后的屬性值,為明晰港口水域海洋生物指標(biāo)與時(shí)間屬性、空間屬性及水質(zhì)指標(biāo)之間的關(guān)聯(lián)關(guān)系,輸入限定的最小支持度為0.2、最小的置信度為0.7,計(jì)算相應(yīng)的支持度和隸屬度,并根據(jù)輸入限定的最小支持度和最小置信度計(jì)算相關(guān)規(guī)則。
對(duì)樣本數(shù)據(jù)進(jìn)行挖掘,先后得到頻繁1項(xiàng)集、頻繁2項(xiàng)集、頻繁3項(xiàng)集、頻繁4項(xiàng)集。從樣本中挖掘出所有的頻繁項(xiàng)目后,即可獲得相應(yīng)的關(guān)聯(lián)規(guī)則。
根據(jù)關(guān)聯(lián)結(jié)果,對(duì)關(guān)聯(lián)性進(jìn)行分析。為尋找水質(zhì)指標(biāo)、時(shí)間屬性、空間屬性與豐度之間的關(guān)系,將豐度作為后件,將水質(zhì)指標(biāo)、時(shí)間屬性、空間屬性作為前件,利用上述算法,計(jì)算滿足條件的規(guī)則,其中有指導(dǎo)意義的規(guī)則如表1所示。
圖1 港口生態(tài)環(huán)境數(shù)據(jù)的物理模型
表1 豐度規(guī)則列表
以表1中第一條規(guī)則為例,該規(guī)則的意義為:前件{種群名稱=浮游植物,COD=1,磷酸鹽=2}出現(xiàn)時(shí),后件{豐度=0}出現(xiàn)的概率為85%,意味著COD 為1、磷酸鹽為2 時(shí),浮游植物的豐度有85%的頻率取值為0。
從表1 中可以發(fā)現(xiàn):浮游植物在COD 較高、磷酸鹽含量適中的環(huán)境中豐度低;浮游植物在水溫較低時(shí)豐度低,置信度為0.83;浮游植物在磷酸鹽含量適中的條件下豐度低,置信度為0.81;底棲生物在溶解氧含量較低、無(wú)機(jī)氮含量較高的理化條件下豐度較高;浮游動(dòng)物在溶解氧含量較低、懸浮物含量較高時(shí)豐度高。以上結(jié)果說(shuō)明,種群類(lèi)型、磷酸鹽、COD、水溫與豐度關(guān)聯(lián)性較高。其中,浮游植物在COD 含量較高、磷酸鹽含量適中、水溫較低時(shí)豐度偏低。港口水域生物豐度與該水域的理化指標(biāo)(水溫、鹽度、無(wú)機(jī)氮、磷酸鹽、溶解氧、COD)之間具有潛在關(guān)聯(lián)性。
基于關(guān)聯(lián)性分析結(jié)果,采用BP 神經(jīng)網(wǎng)絡(luò)模型,建立港口水域浮游植物的豐度與理化指標(biāo)之間的預(yù)測(cè)模型。實(shí)驗(yàn)環(huán)境為Windows10+Py?thon3.5+keras2.2.2,在該環(huán)境中設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)浮游植物的豐度進(jìn)行預(yù)測(cè)。原始數(shù)據(jù)為監(jiān)測(cè)站點(diǎn)采集到的水溫、鹽度、無(wú)機(jī)氮、pH 值、懸浮物、溶解氧、磷酸鹽、COD 等理化指標(biāo)。對(duì)采集到的原始數(shù)據(jù)采用Z-score 數(shù)據(jù)標(biāo)準(zhǔn)化進(jìn)行預(yù)處理操作,作為BP神經(jīng)網(wǎng)絡(luò)的輸入層特征。
根據(jù)2.1 節(jié)的關(guān)聯(lián)性分析結(jié)果,COD、水溫、鹽度、無(wú)機(jī)氮、磷酸鹽、溶解氧對(duì)浮游植物豐度影響較大,故將其作為影響豐度的主要初始特征。但是在進(jìn)行預(yù)實(shí)驗(yàn)時(shí)發(fā)現(xiàn),將上述6 個(gè)理化指標(biāo)作為影響豐度的特征進(jìn)行BP 網(wǎng)絡(luò)訓(xùn)練,易出現(xiàn)過(guò)擬合現(xiàn)象。經(jīng)過(guò)多輪實(shí)驗(yàn),根據(jù)模型的收斂比較結(jié)果與預(yù)測(cè)的均方根誤差,最終選擇了水溫、鹽度、無(wú)機(jī)氮、磷酸鹽這4 項(xiàng)作為模型的訓(xùn)練特征。
BP 神經(jīng)網(wǎng)絡(luò)輸入層包括4 個(gè)訓(xùn)練特征,隱藏層設(shè)置了8 個(gè)神經(jīng)元,輸出層為豐度值。用梯度下降法進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化。圖2 為本文構(gòu)建的豐度預(yù)測(cè)BP模型。
圖2 豐度預(yù)測(cè)BP模型
本文利用BP 神經(jīng)網(wǎng)絡(luò),以浮游植物中肋骨條藻為例建立外來(lái)生物入侵風(fēng)險(xiǎn)預(yù)測(cè)模型,其生物入侵風(fēng)險(xiǎn)大小以生物的豐度變化來(lái)表示。為了確定BP 神經(jīng)網(wǎng)絡(luò)中各神經(jīng)元的權(quán)重及閾值,本文以中肋骨條藻的豐度以及水溫、鹽度、無(wú)機(jī)鹽、磷酸鹽的48 組數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),隨機(jī)選取其中38 組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),余下10組作為測(cè)試數(shù)據(jù),一共訓(xùn)練400epoch。繪制訓(xùn)練集的損失函數(shù)與驗(yàn)證集的損失函數(shù)(如圖3 所示),顯示兩個(gè)函數(shù)全部收斂。最終模型訓(xùn)練神經(jīng)元的權(quán)重及閾值結(jié)果如表2、表3所示。
圖3 損失函數(shù)
表2 模型訓(xùn)練輸入層神經(jīng)元的權(quán)重及閾值
表3 模型訓(xùn)練隱藏層神經(jīng)元的權(quán)重及閾值
為了檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果,訓(xùn)練后保存模型,對(duì)測(cè)試集的10組數(shù)據(jù)進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果與真實(shí)值進(jìn)行比較,得到如圖4 所示的豐度預(yù)測(cè)值與真實(shí)值對(duì)比圖。
從圖4 可以看到,與真實(shí)值相比,預(yù)測(cè)值存在偏大或偏小的情況。對(duì)10組數(shù)據(jù)的偏差進(jìn)行分析,得到預(yù)測(cè)值與真實(shí)值的均方根誤差RMSE 為0.071 5,相對(duì)誤差絕對(duì)值的平均值為14.7%。實(shí)驗(yàn)結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)對(duì)于中肋骨條藻豐度有較好的預(yù)測(cè)效果。
圖4 豐度預(yù)測(cè)值與真實(shí)值對(duì)比
本節(jié)實(shí)驗(yàn)的特征選擇主要分兩個(gè)階段:第一階段是基于數(shù)據(jù)挖掘技術(shù)和關(guān)聯(lián)分析方法,找出對(duì)浮游植物影響較大的港口水域水質(zhì)環(huán)境指標(biāo),包括COD、水溫、鹽度、無(wú)機(jī)氮、磷酸鹽、溶解氧等共6 項(xiàng);第二階段是基于BP 神經(jīng)網(wǎng)絡(luò)模型,通過(guò)更換多次訓(xùn)練結(jié)果證明水溫、鹽度、無(wú)機(jī)氮、磷酸鹽等特征能更好地表征中肋骨條藻的豐度,同時(shí)也減少了過(guò)擬合狀況。
本文運(yùn)用聚類(lèi)分析和關(guān)聯(lián)分析的方法,從天津港海域生態(tài)環(huán)境數(shù)據(jù)中挖掘出港口水域生物指標(biāo)與港口水域水質(zhì)環(huán)境指標(biāo)的相關(guān)性和潛在知識(shí);并通過(guò)關(guān)聯(lián)性分析,篩選出港口水質(zhì)環(huán)境指標(biāo)特征,包括水溫、鹽度、無(wú)機(jī)氮和磷酸鹽;然后通過(guò)建立基于BP 神經(jīng)網(wǎng)絡(luò)的入侵生物豐度預(yù)測(cè)模型,以中肋骨條藻為例,根據(jù)水溫、鹽度、無(wú)機(jī)氮、磷酸鹽模擬其豐度,預(yù)測(cè)值與真實(shí)值相差較小,表明BP 神經(jīng)網(wǎng)絡(luò)對(duì)于中肋骨條藻豐度的預(yù)測(cè)具有一定的可靠性和準(zhǔn)確性,預(yù)測(cè)效果較好,可以為港口水域的浮游植物豐度變化模擬提供可靠的技術(shù)手段。數(shù)據(jù)挖掘技術(shù)和BP 神經(jīng)網(wǎng)絡(luò)模型的綜合應(yīng)用,解決了港口水域的浮游植物豐度變化模擬及外來(lái)生物入侵風(fēng)險(xiǎn)評(píng)估的關(guān)鍵技術(shù)難題,可以為指定港口水域的浮游植物豐度變化模擬及生物入侵風(fēng)險(xiǎn)評(píng)估提供支持。本文研究結(jié)果也可以用來(lái)模擬預(yù)測(cè)其他外來(lái)生物入侵的過(guò)程和損害程度。另外,外來(lái)生物的生長(zhǎng)除了與水質(zhì)、生態(tài)等環(huán)境因子有關(guān)外,還與水的運(yùn)動(dòng)有關(guān)。因而,更準(zhǔn)確地評(píng)估壓載水生物入侵風(fēng)險(xiǎn)還需要考慮水動(dòng)力因素,將水動(dòng)力模型與豐度預(yù)測(cè)模型耦合。
本文采集的樣本量偏小,時(shí)空連續(xù)性存在不足,還需要進(jìn)一步收集數(shù)據(jù)對(duì)結(jié)果加以驗(yàn)證。同時(shí),在今后的研究中可運(yùn)用大數(shù)據(jù)技術(shù)對(duì)水生物種群的演變過(guò)程展開(kāi)深入分析;本文中的數(shù)據(jù)挖掘理論及相關(guān)模型還有待在實(shí)際應(yīng)用過(guò)程中進(jìn)一步優(yōu)化。