張宇 ,周燕,陶邦一,3*,顧吉星,趙傳高,郝增周,張藝蔚,5,黃海清,毛志華
(1.自然資源部第二海洋研究所 衛(wèi)星海洋環(huán)境動(dòng)力學(xué)國家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310012;2.浙江省海洋科學(xué)院,浙江 杭州 310007;3.南方海洋科學(xué)與工程廣東實(shí)驗(yàn)室,廣東 廣州 511458;4.國家海洋局煙臺(tái)海洋環(huán)境監(jiān)測中心站,山東 煙臺(tái) 264006;5.中國科學(xué)院上海技術(shù)物理研究所,上海 200083)
海上浮標(biāo)是獲得長時(shí)序、高精度海洋環(huán)境參數(shù)最主要的手段,確保浮標(biāo)數(shù)據(jù)的質(zhì)量可靠性是開展數(shù)據(jù)應(yīng)用所面臨的首要問題,因此開展浮標(biāo)異常數(shù)據(jù)的檢測識(shí)別是其中一項(xiàng)重要工作[1]。異常數(shù)據(jù)一般指超過正常合理數(shù)值范圍的以及偏離由海洋環(huán)境引起的變化規(guī)律的數(shù)據(jù)[2]。將臺(tái)州大陳(TZ01)和溫州南麂島(NJ01)的兩個(gè)浮標(biāo)葉綠素?cái)?shù)據(jù)與Aqua/MODIS、VIIRS和GOCI 海洋水色衛(wèi)星反演的葉綠素產(chǎn)品進(jìn)行比對(圖1),研究發(fā)現(xiàn)浮標(biāo)反演的葉綠素產(chǎn)品存在兩種異常類型:(1)浮標(biāo)數(shù)據(jù)在時(shí)序分布上連續(xù)且與衛(wèi)星數(shù)據(jù)有較好的一致性(圖1a),但由于海洋隨機(jī)過程產(chǎn)生如圖1a 中紅色方框標(biāo)記的跳變數(shù)據(jù),屬于傳統(tǒng)意義上的跳變異常數(shù)據(jù)類型;(2)紅色條帶標(biāo)記的一段浮標(biāo)葉綠素測量異常數(shù)據(jù)呈現(xiàn)出:在時(shí)序變化過程中連續(xù)平穩(wěn),但隨時(shí)間逐漸推移,最后整體偏離正常數(shù)據(jù)的分布特征(圖1b),這種異常數(shù)據(jù)屬于一種新的漸變異常數(shù)據(jù)類型?;诤Q蟓h(huán)境要素時(shí)序數(shù)據(jù)分布平穩(wěn)的假設(shè)[3-6],傳統(tǒng)的異常數(shù)據(jù)統(tǒng)計(jì)識(shí)別方法僅對跳變異常數(shù)據(jù)類型的數(shù)據(jù)檢測有效,而對漸變的質(zhì)量異常數(shù)據(jù)類型無法識(shí)別[5-12]。主要原因在于異常發(fā)生的初始階段,其變化特征與由海洋環(huán)境變化引起的變化趨勢很難在沒有先驗(yàn)知識(shí)的條件下進(jìn)行區(qū)分,只有利用后續(xù)正常數(shù)據(jù)分布特征等后驗(yàn)證知識(shí)進(jìn)行識(shí)別。這類漸變異常數(shù)據(jù)可能與傳感器探頭受污、供電異常等因素有關(guān)。漸變的異常數(shù)據(jù)類型在長時(shí)間觀測的浮標(biāo)數(shù)據(jù)中時(shí)有發(fā)生,因此如何在這一類型異常數(shù)據(jù)發(fā)生的初始階段進(jìn)行有效識(shí)別,對于浮標(biāo)異常的實(shí)時(shí)監(jiān)測、及時(shí)維護(hù)、保證數(shù)據(jù)的可靠和連續(xù)性具有現(xiàn)實(shí)意義。
圖1 浮標(biāo)數(shù)據(jù)與衛(wèi)星數(shù)據(jù)葉綠素a 濃度對比Fig.1 Comparison of chlorophyll a concentration between buoy data and satellite data
國內(nèi)外都已開展海上浮標(biāo)觀測應(yīng)用工作多年,但實(shí)際上實(shí)現(xiàn)各類型異常數(shù)據(jù)的自動(dòng)檢測識(shí)別仍有較大難度[3-4],國內(nèi)對海洋數(shù)據(jù)的檢測主要依賴專家經(jīng)驗(yàn)、歷史資料以及常識(shí)形成的海洋環(huán)境監(jiān)測數(shù)據(jù)檢驗(yàn)標(biāo)準(zhǔn)庫[5]。目前已有的異常檢測方法主要有極值檢驗(yàn)、一致性判斷、遞增性判斷、格拉布斯檢驗(yàn)、狄克遜檢驗(yàn)、拉依達(dá)檢驗(yàn)、過度梯度檢測、尖峰檢測和無梯度檢測等[1,6-19],這些異常檢測方法主要是針對單一參數(shù)在某一時(shí)間尺度的平穩(wěn)隨機(jī)過程中進(jìn)行統(tǒng)計(jì)學(xué)的分析處理,在傳統(tǒng)跳變異常數(shù)據(jù)類型識(shí)別中取得了較好的檢測效果,但對于漸變異常數(shù)據(jù)類型的自動(dòng)檢測識(shí)別研究較少。
隨著技術(shù)發(fā)展,目前浮標(biāo)平臺(tái)上搭載的傳感器數(shù)目和測量的參數(shù)越來越多,而在這些測量參數(shù)中存在某些參數(shù)相互關(guān)聯(lián)的特征。多元時(shí)間序列數(shù)據(jù)分析方法(如建立矢量自回歸(VAR)、多元譜分析,廣義自回歸條件異方差模型(GARCH)等)被廣泛地應(yīng)用到質(zhì)量異常數(shù)據(jù)的檢測和識(shí)別上[20-23]。Tsay[24]將4 種類型單參數(shù)時(shí)間序列異常數(shù)據(jù)識(shí)別方法拓展到了多元序列數(shù)據(jù)。此外,異常質(zhì)量數(shù)據(jù)檢測中也應(yīng)用到了矢量自相關(guān)性系數(shù)、差分整合移動(dòng)平均自回歸模型、遺傳算法等方法[25-29]。然而,上述方法主要適用于跳變異常數(shù)據(jù)的識(shí)別,而且對數(shù)據(jù)平穩(wěn)性要求較高、計(jì)算流程復(fù)雜,并未在本文發(fā)現(xiàn)的漸變異常數(shù)據(jù)類型上得到應(yīng)用。其中,在海洋多元長時(shí)序數(shù)據(jù)異常識(shí)別方面,Schuckmann 等[12]提出相關(guān)性分析方法成功地識(shí)別了葉綠素濃度高而溶解氧濃度低的錯(cuò)誤數(shù)據(jù)類型。在浮標(biāo)數(shù)據(jù)質(zhì)量控制中的應(yīng)用,僅給出了白天葉綠素濃度高而溶解氧濃度低的錯(cuò)誤數(shù)據(jù)類型的識(shí)別案例。竇文潔等[18]則根據(jù)海洋碳酸鹽系統(tǒng)中海水CO2分壓本身于水體溫度鹽度存在定量相關(guān)性關(guān)系的特點(diǎn),在假設(shè)觀測參數(shù)變化在非常小的時(shí)間尺度內(nèi)為一平穩(wěn)過程的基礎(chǔ)上,提出了基于多參數(shù)觀測序列差分統(tǒng)計(jì)特征的異常點(diǎn)識(shí)別方法。雖然該方法由于僅基于參數(shù)平穩(wěn)性假設(shè)而無法進(jìn)一步有效識(shí)別漸變異常數(shù)據(jù)類型,但相比于單一參數(shù)分析方法,利用多參數(shù)強(qiáng)關(guān)聯(lián)性對異常數(shù)據(jù)進(jìn)行檢測,會(huì)對數(shù)據(jù)的處理有更加全面、深入的把控。
目前,我國常規(guī)生態(tài)浮標(biāo)通常會(huì)同時(shí)觀測酸堿度(pH)、溶解氧(DO)濃度以及葉綠素a(Chla)濃度等數(shù)據(jù)。大量的研究表明,它們之間雖然具有較緊密的相關(guān)性[30-31],特別是在海水藻類生長暴發(fā)期間[31],但它們并不存在穩(wěn)定的相關(guān)關(guān)系,如謝群等[32]在流沙灣得出溶解氧濃度與葉綠素a濃度成正比例關(guān)系,尤其是冬季,海水中的溶解氧濃度與葉綠素a濃度具有極顯著正相關(guān),春季次之,夏秋兩季兩者之間不存在相關(guān)性的結(jié)論。可見在不同海域、不同季節(jié)及不同海洋過程中的參數(shù)之間相關(guān)性特征具有明顯的差異性,并不能類似于Schuckmann 等[12]采用事先設(shè)定的相關(guān)性特征進(jìn)行多年長時(shí)序數(shù)據(jù)的處理。Hollinger 和Richardson[33]在海洋數(shù)據(jù)不確定分析時(shí)提出了“單塔日變化法”,其基本假設(shè)是相鄰日期間在相同或相似的環(huán)境條件下數(shù)據(jù)變化過程相似。因此本研究認(rèn)為,浮標(biāo)觀測到的正常多參數(shù)數(shù)據(jù)不僅單一參數(shù)在時(shí)序變化上平穩(wěn)連續(xù),并且兩兩參數(shù)間的相關(guān)性在一定時(shí)序上穩(wěn)定甚至一致。
本文基于上述假設(shè),希望通過對浙江沿岸海域浮標(biāo)多年的pH、DO 濃度、Chla濃度數(shù)據(jù)相關(guān)性進(jìn)行分析,了解當(dāng)某一參數(shù)出現(xiàn)漸變異常時(shí),與其他參數(shù)的相關(guān)性特征的變化規(guī)律,基于多參數(shù)相關(guān)性變化提出一種簡單、適用的漸變異常數(shù)據(jù)檢測識(shí)別方法,并且探討該方法在該海域的適用性。
浮標(biāo)數(shù)據(jù)采用浙江省沿岸的溫州南麂大沙岙(NJ01)、臺(tái)州大陳(TZ01)、寧波南韭山(NB01)、寧波漁山(NB03)、舟山嵊泗綠華(ZS03)和舟山普陀?xùn)|極(ZS04)6 處浮標(biāo)數(shù)據(jù),浮標(biāo)分布如圖2 所示。
觀測時(shí)間在2012 年8 月至2017 年5 月之間,數(shù)據(jù)每15 min 或1 h 傳輸1 次,以同一浮標(biāo)同一時(shí)間獲取的數(shù)據(jù)為一組,共計(jì)183 967 組數(shù)據(jù),其中狀態(tài)顯示異常、故障或維護(hù)的數(shù)據(jù)有8 662 組,儀器運(yùn)行正常狀態(tài)的原始浮標(biāo)數(shù)據(jù)(DO 濃度、Chla濃度和pH)有175 305 組,占總數(shù)據(jù)量的95%,數(shù)據(jù)情況如表1 所示。對儀器運(yùn)行正常狀態(tài)的175 305 組數(shù)據(jù)進(jìn)行分析處理,對其他狀態(tài)的數(shù)據(jù)不予處理。
本文根據(jù)pH 與DO 濃度具有正相關(guān)關(guān)系,Chla濃度與pH 和DO 濃度的關(guān)系因藻類生長、季節(jié)變換等因素呈現(xiàn)顯著正相關(guān)或不相關(guān)關(guān)系等特點(diǎn),利用最基本相關(guān)性統(tǒng)計(jì)學(xué)方法來計(jì)算pH 與DO 濃度、pH與Chla濃度、DO 與Chla濃度兩兩相關(guān)性系數(shù)。在對生態(tài)浮標(biāo)數(shù)據(jù)進(jìn)行多參數(shù)協(xié)同分析后發(fā)現(xiàn),異常判定方法的關(guān)鍵是相關(guān)性計(jì)算時(shí)所要選取的時(shí)間窗口以及基于相關(guān)平穩(wěn)性異常的判定方法。
圖2 研究區(qū)域浮標(biāo)分布Fig.2 Distribution of buoys in the study area
表1 浮標(biāo)數(shù)據(jù)統(tǒng)計(jì)Table 1 Statistical buoys data
由于浙江沿岸海域生化參數(shù)日變化動(dòng)態(tài)范圍較大,如以太短或者太長的時(shí)間段內(nèi)的兩兩相關(guān)性來建立成段異常數(shù)據(jù)方法,則存在較大的隨機(jī)與不確定性,不利于對長時(shí)序浮標(biāo)數(shù)據(jù)的穩(wěn)定性研究與漸變異常數(shù)據(jù)的早期識(shí)別。因此,選擇合適的時(shí)間窗口,對于建立相關(guān)性分析處理異常數(shù)據(jù)模型至關(guān)重要。本文將浙江沿岸6 處儀器運(yùn)行正常狀態(tài)的175 305 組浮標(biāo)數(shù)據(jù)經(jīng)過不可能出現(xiàn)的范圍和5S 方法剔除異常數(shù)據(jù)等預(yù)處理后,剩余156 305 組浮標(biāo)數(shù)據(jù)參與多參數(shù)協(xié)同分析。其中,選出13 620 余組各參數(shù)質(zhì)量較好的浮標(biāo)數(shù)據(jù)對其進(jìn)行兩兩相關(guān)性分析。部分正確的浮標(biāo)數(shù)據(jù)序列如圖3 所示。
將圖3 的pH、DO 濃度和Chla濃度數(shù)據(jù)的兩兩相關(guān)系數(shù)(Rnd)計(jì)算的時(shí)間窗口逐天擴(kuò)大,從1 d 擴(kuò)大到16 d,結(jié)果如圖4a 所示。由圖可見,隨著時(shí)間窗口的擴(kuò)大,相關(guān)性逐步提升,并且當(dāng)擴(kuò)大到8 d 時(shí)Rnd都處于穩(wěn)定狀態(tài),即當(dāng)時(shí)間窗口大于8 d 后相關(guān)性并未明顯增強(qiáng)。同時(shí)以8 d 為時(shí)間窗口對圖3 中的多組浮標(biāo)長時(shí)序數(shù)據(jù)進(jìn)行8 d 兩兩相關(guān)系數(shù)(R8d)的計(jì)算(圖4b),可以看出正常原始浮標(biāo)數(shù)據(jù)的R8d在一定時(shí)期內(nèi)同樣非常穩(wěn)定,因此時(shí)間窗口選定為8 d,同時(shí)將R8d作為檢測漸變異常數(shù)據(jù)的核心參數(shù)。
圖3 部分正確的浮標(biāo)數(shù)據(jù)序列Fig.3 Partially correct buoy data sequence
圖4 不同時(shí)間窗口的相關(guān)系數(shù)(a)和基于8 d 時(shí)間窗口的相關(guān)系數(shù)(b)Fig.4 Correlation coefficient for different time windows (a),and correlation coefficient for 8 d time window (b)
首先,利用多參數(shù)之間相關(guān)性程度來進(jìn)行異常數(shù)據(jù)判定。如圖4b 所示,正常數(shù)據(jù)的R8d變化平穩(wěn),狀態(tài)穩(wěn)定。為定量化正常R8d變化的范圍,利用6 處浮標(biāo)多年中的正常數(shù)據(jù)集,統(tǒng)計(jì)了浙江海域R8d的數(shù)值分布情況,如圖5 和表2 所示。統(tǒng)計(jì)結(jié)果表明:(1)pH與DO 濃度之間正相關(guān)性最強(qiáng),幾乎所有正常數(shù)據(jù)的R8d(pH-DO)都大于0;(2)DO 濃度與Chla濃度之間相關(guān)性次之,其R8d(DO-Chla) 大于-0.3,其中大于0 的數(shù)據(jù)近95%;(3)pH 與Chla濃度之間相關(guān)性變化較大,但有92% 數(shù)據(jù)的R8d(pH-Chla) 大于0,另6.8%的R8d(pH-Chla)數(shù)據(jù)在-0.3~0 之間,并且僅有1.2%的R8d(pH-Chla) 小于-0.3。因此,(1)正常數(shù)據(jù)pH 與DO 濃度、pH 與Chla濃度、DO 濃度與Chla濃度明顯存在較高的正相關(guān)關(guān)系,其判定原則較為簡單,即兩項(xiàng)以上的相關(guān)性R8d都大于0.5 可以作為數(shù)據(jù)正常有效標(biāo)志;(2)因pH 與DO 濃度之間不存在負(fù)相關(guān)關(guān)系,明顯錯(cuò)誤數(shù)據(jù)的判定原則為當(dāng)R8d(pHDO)<0 時(shí)為異常值;另外當(dāng)R8d(pH-DO)>0 時(shí),如果Chla濃度與DO 濃度、pH 之間不存在較強(qiáng)的負(fù)相關(guān)關(guān)系,即R8d(pH-Chla)<-0.3 時(shí),或R8d(DO-Chla)<-0.3,可識(shí)別為可疑數(shù)據(jù)。實(shí)際上,單一的R8d只能用于識(shí)別相對明確的正確及異常數(shù)據(jù),而對于其中某項(xiàng)相關(guān)性R8d小于0.5 的浮標(biāo)數(shù)據(jù)需要進(jìn)一步采用其他相關(guān)性時(shí)序穩(wěn)定性指標(biāo)來進(jìn)行識(shí)別。
圖5 R8d(a)和ΔR(b)的分布情況Fig.5 Distribution of R8d (a) and ΔR(b)
表2 R8d 的分布情況Table 2 Distribution of R8d
如前文所述,本文認(rèn)為正常浮標(biāo)多參數(shù)數(shù)據(jù)之間的兩兩相關(guān)性在一定時(shí)序上是穩(wěn)定甚至是一致的,因此需要建立一個(gè)指標(biāo)來表征R8d本身的穩(wěn)定性。本文利用前后兩天R8d之差的絕對值(ΔR)作為判斷相關(guān)性時(shí)序分布穩(wěn)定與否的指標(biāo)。通過統(tǒng)計(jì)正常浮標(biāo)數(shù)據(jù)的ΔR分布情況(圖5b,表3)可見,其中約有60%~70%數(shù)據(jù)的ΔR<0.06,且ΔR<0.1 數(shù)據(jù)都達(dá)到了77.6%以上。從數(shù)據(jù)分布上可以看出,正常浮標(biāo)數(shù)據(jù)的多參數(shù)之間相關(guān)性變化是穩(wěn)定或緩變的過程,符合前文的穩(wěn)定性假設(shè)。由于計(jì)算求得ΔR的標(biāo)準(zhǔn)差為0.068,同時(shí)從表3 的統(tǒng)計(jì)結(jié)果也可看出,各相關(guān)性中ΔR>0.34的數(shù)據(jù)僅占1.0%左右,因此選取5 倍標(biāo)準(zhǔn)差[19]即0.34為判斷穩(wěn)定性閾值,即當(dāng)0<R8d(pH-DO)<0.5,-0.3<R8d(DO-Chla,pH-Chla)<0.5 時(shí),有一項(xiàng)ΔR>0.34則判定為異常值。
表3 ΔR 的分布情況Table 3 Distribution of ΔR
利用R8d和ΔR兩項(xiàng)指標(biāo)進(jìn)行漸變異常數(shù)據(jù)的判斷與識(shí)別流程如圖6 所示。第一步利用單一指標(biāo)R8d來判定簡單的正確數(shù)據(jù)和異常數(shù)據(jù);第二步則是利用ΔR作為R8d穩(wěn)定性指標(biāo)來進(jìn)一步判定異常數(shù)據(jù)。
圖6 數(shù)據(jù)判斷流程圖Fig.6 Flow chart of buoy data processing
圖7 2015 年4-6 月(a-c)和2014 年6-7 月(d-f)TZ01 浮標(biāo)的原始數(shù)據(jù)(a,d)、R8d(b,e)和ΔR(c,f)Fig.7 TZ01 buoy raw data (a,d),R8d (b,e),and ΔR(c,f) in April to June,2015 (a-c) and June to July,2014 (d-f)
本文利用浙江溫州、臺(tái)州及舟山海域NJ01 浮標(biāo)、TZ01 浮標(biāo)以及ZS04 處浮標(biāo)典型數(shù)據(jù),對漸變異常數(shù)據(jù)的判定方法進(jìn)行了適用性驗(yàn)證。首先,選取同樣位于臺(tái)州外海TZ01 浮標(biāo)的2015 年4-6 月(圖7a-c)和2014 年6-7 月(圖7d-f)的兩組正常數(shù)據(jù)。第一組2015 年的原始數(shù)據(jù)是十分具有代表性的正確數(shù)據(jù),Chla濃度、DO 濃度和pH 之間存在非常高的正相關(guān)性,兩兩R8d大于0.5,并且相關(guān)性的變化平穩(wěn),ΔR都小于0.34。而第二組2014 年的正確數(shù)據(jù)相比于第一組數(shù)據(jù)變化更加復(fù)雜,從6 月下旬,Chla濃度與DO濃度和pH 存在極弱的相關(guān)性,R8d(DO-Chla)和R8d(pHChla)接近于0,但隨著7 月初藻華事件的出現(xiàn),上述R8d逐漸升高,并在整個(gè)藻華期間處在一個(gè)平穩(wěn)的高相關(guān)性時(shí)期。雖然在這一過程中R8d的總體變化很大,但根據(jù)ΔR的計(jì)算結(jié)果都小于0.34,可以說明這個(gè)變化過程是穩(wěn)定的漸變過程。那么根據(jù)圖6 的識(shí)別方法仍然可以準(zhǔn)確判定為正確數(shù)據(jù),因此證明了本文方法的適用性。
本研究同樣利用了浙江臺(tái)州海域TZ01 浮標(biāo)2013年5-6 月(圖8a-c),以及溫州海域NJ01 浮標(biāo)2014 年6 月(圖8d-f)和2015 年3-4 月(圖8h-j)的3 組存在漸變異常的數(shù)據(jù)集對本文識(shí)別方法進(jìn)行了適用性驗(yàn)證。
第一組案例是2013 年5-6 月TZ01 浮標(biāo)數(shù)據(jù)(圖8a),其中,5 月初有一次藻華事件,3 個(gè)參數(shù)變化同步浮標(biāo)數(shù)據(jù)正常,而漸變異常數(shù)據(jù)實(shí)際上出現(xiàn)在5 月24 日前后,pH 上升發(fā)生偏離,后續(xù)在5 月30 日前后恢復(fù)正常。圖8b 和圖8c 分別給出了對應(yīng)的R8d和ΔR數(shù)據(jù),圖中紅色為異常值區(qū)間(5 月24-29 日),灰色部分為相關(guān)性計(jì)算受異常值影響區(qū)間??梢钥闯? 月15 日出現(xiàn)ΔR>0.34 的情況,但是根據(jù)圖6 判斷流程,5 月15 日3 組R8d都升高到0.5 以上,因而仍然判定為正確數(shù)據(jù)。而在5 月24 日(表4),R8d(pH-DO)下降到-0.42,R8d(Chla-pH)下降到-0.39,并且ΔR(pH-DO)為0.89,大于0.34,多項(xiàng)指標(biāo)符合本文漸變異常數(shù)據(jù)的判定標(biāo)準(zhǔn),因此成功判定為異常數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)異常早期識(shí)別。另外DO-Chla的R8d雖然有所下降,但仍然保持在0.5 以上。如果利用排除法,本方法可以進(jìn)一步判定是3 個(gè)參數(shù)中pH 值出了問題。
圖8 2013 年5-6 月TZ01 浮標(biāo)原始數(shù)據(jù)(a)、R8d(b)和ΔR(c),2014 年6 月(d-f)和2015 年3-4 月(g-i)NJ01 浮標(biāo)原始數(shù)據(jù)(d,g)、R8d(e,h)和ΔR(f,i)Fig.8 TZ01 buoy raw data (a),R8d (b),and ΔR(c) in May to June,2013,and NJ01 buoy raw data (d,g),R8d (e,h),and ΔR(f,i) in June 2014 (d-f) and March to April 2015 (g-i)
第二組案例是2014 年6 月NJ01 浮標(biāo)的數(shù)據(jù),如圖8d 所示漸變異常數(shù)據(jù)出現(xiàn)在6 月9 日前后。根據(jù)圖8e 和圖8f 對應(yīng)的R8d和ΔR結(jié)果(表4),在6 月9 日雖然R8d(DO-Chla)和R8d(pH-Chla)的下降并未超過-0.3,但是DO-Chla和pH-Chla的ΔR分別高達(dá)0.41、0.44,皆大于0.34,故可判斷出在6 月9 日數(shù)據(jù)出現(xiàn)了異常。根據(jù)后續(xù)Chla濃度的變化也可看出6 月9 日是異常數(shù)據(jù)出現(xiàn)較早時(shí)期,證明了本文方法早期識(shí)別的有效性。
表4 浮標(biāo)出錯(cuò)日期的R8d 和ΔR 情況Table 4 R8d and ΔR of buoy error date
第三組案例是2015 年3 月和4 月NJ01 浮標(biāo)數(shù)據(jù)(圖8g-i),同樣可以看出漸變異常數(shù)據(jù)開始出現(xiàn)在4月7 日的前后。然而與前兩組數(shù)據(jù)不同的是,本組不同的R8d出現(xiàn)相反的變化趨勢(表4),其中R8d(DO-Chla)降到了-0.41,而R8d(pH-Chla)卻上升到了0.45,但兩者的ΔR都大于0.34,最終4 月7 日被判定為異常數(shù)據(jù)起始點(diǎn)。通過上述多組案例的驗(yàn)證,本文的識(shí)別方法能夠適用于浙江沿海多參數(shù)浮標(biāo)數(shù)據(jù)的漸變異常類型識(shí)別。
圖9 2015 年9 月ZS04 浮標(biāo)原始數(shù)據(jù)(a)、R8d(b)和ΔR(c)Fig.9 ZS04 buoy raw data (a),R8d (b),and ΔR(c) in September,2015
海洋水體生化特性變化并不完全同步,一些參數(shù)相比于其他參數(shù)具有滯后現(xiàn)象。部分大型赤潮發(fā)生時(shí),如圖9a 所示的舟山2015 年9 月25 日前后的一次赤潮事件,藻類暴發(fā)導(dǎo)致葉綠素峰值的出現(xiàn)往往早于DO 濃度或pH。這就導(dǎo)致在初期,葉綠素濃度與DO 濃度或pH 的R8d數(shù)值相對較?。▓D9b),同時(shí)隨著赤潮的發(fā)展,R8d迅速升高,導(dǎo)致ΔR可能大于閾值0.34(圖9c)。此種情況下,如果R8d都高于0.5 呈現(xiàn)極高正相關(guān)性亦可判定為正確數(shù)據(jù),但是如果小于0.5 則很容易被錯(cuò)誤識(shí)別為異常數(shù)據(jù)。在這種劇烈而快速的海洋過程中,如何有效識(shí)別正常海洋規(guī)律現(xiàn)象與漸變異常數(shù)據(jù)是十分重要但又極具挑戰(zhàn)性的問題。實(shí)際上,本文采用的方法是時(shí)間同步相關(guān)性分析。如果利用時(shí)間延遲模式或許可以有效避免此類異常數(shù)據(jù)的錯(cuò)誤識(shí)別。然而,目前對于該類滯后現(xiàn)象產(chǎn)生的海洋學(xué)機(jī)制并不十分明了。因此,在識(shí)別方法中如何具體引入時(shí)間延遲模式(如延遲區(qū)間等)還需進(jìn)一步研究。
本文數(shù)據(jù)主要集中在上半年,而季節(jié)性變化(特別是冬季)對近海海域的海洋現(xiàn)象有著重要影響。由于浙江沿岸受河流沖淡水、季風(fēng)和各類水團(tuán)影響較大,冬季浙江沿海海域受浙閩沿岸流影響,水中懸浮泥沙含量高,限制了藻類生長。在這一時(shí)期,水體Chla濃度、pH 和DO 濃度的相關(guān)性比春、夏和秋3 個(gè)季節(jié)要弱很多。圖10 為2014 年冬季(2014 年11 月至2015 年2 月)TZ01 浮標(biāo)的觀測結(jié)果,從圖10a 可看出,3 個(gè)參數(shù)的時(shí)序變化依然連續(xù)平穩(wěn),ΔR也基本在0.34 以內(nèi)(圖10c),也說明了數(shù)據(jù)的平穩(wěn)性,但是相關(guān)性系數(shù)R8d時(shí)高時(shí)低(圖10b),甚至出現(xiàn)極強(qiáng)的負(fù)相關(guān)。主要原因是在冬季水溫低,藻類豐富度較小,導(dǎo)致葉綠素濃度變化很小,對pH 和DO 濃度的影響作用有限。反而在這一時(shí)期,DO 濃度的變化受溫度影響較大,有個(gè)緩慢上升過程。因此,冬季浙江海域的3 個(gè)參數(shù)在機(jī)理上并不存在明確的相關(guān)性,而本文方法也僅基于同一年份前序時(shí)間數(shù)據(jù)的相關(guān)性進(jìn)行漸變異常數(shù)據(jù)識(shí)別,所以在冬季可能會(huì)失效。
圖10 2014 年冬季TZ01 浮標(biāo)原始數(shù)據(jù)(a)、R8d(b)和ΔR(c)Fig.10 TZ01 buoy raw data (a),R8d (b),and ΔR (c) in the winter of 2014
在上述不適用的情況下,我們需對時(shí)序相關(guān)性的概念進(jìn)一步拓展,可利用同一海域季節(jié)性數(shù)據(jù)存在物候等現(xiàn)象,依靠歷史同一時(shí)期觀測數(shù)據(jù)集等,對浮標(biāo)漸變異常數(shù)據(jù)進(jìn)行有效地識(shí)別。如劉增宏等[34]采用歷史水文觀測資料集得到的溫-鹽度關(guān)系對Argo 剖面浮標(biāo)鹽度資料進(jìn)行校正,王輝贊等[35]也同樣通過尋找Argo 浮標(biāo)不同剖面位置與其“最佳匹配”歷史剖面資料對比判別的途徑,對Argo 浮標(biāo)鹽度偏移現(xiàn)象進(jìn)行有效甄別。上述方法雖然用的是連續(xù)深度剖面數(shù)據(jù),但是替換成連續(xù)時(shí)間序列數(shù)據(jù)同樣適用。如圖11所示,為臺(tái)州大陳浮標(biāo)在2014-2015 年冬季與2015-2016 年冬季的pH、DO 濃度和Chla濃度數(shù)據(jù)對比結(jié)果,可以看出這兩年冬季同一時(shí)期的pH、DO 濃度和Chla濃度數(shù)據(jù)變化有較好的一致性趨勢。因此利用與多年歷史數(shù)據(jù)的相關(guān)性,可對pH、DO 濃度和Chla濃度數(shù)據(jù)進(jìn)行異常識(shí)別。這或許是本文識(shí)別方法在冬季失效問題的一種有效解決方式,但需要大量歷史數(shù)據(jù)的積累,目前還無法實(shí)現(xiàn),需要進(jìn)一步研究。
本研究通過對浙江沿岸6 處浮標(biāo)多年多參數(shù)觀測數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了與傳統(tǒng)跳變異常數(shù)據(jù)不同的漸變異常數(shù)據(jù)類型。該異常數(shù)據(jù)類型呈現(xiàn)出在時(shí)序變化過程連續(xù)平穩(wěn),但隨時(shí)間逐漸偏移,最后整體偏離正常數(shù)據(jù)的分布特征;并且在異常發(fā)生的初始階段,其變化特征與由海洋環(huán)境變化引起的變化趨勢很難在沒有先驗(yàn)知識(shí)的條件下進(jìn)行區(qū)分。因此本文提出了一種假設(shè):浮標(biāo)觀測到的正常多參數(shù)數(shù)據(jù)不僅單一參數(shù)在一定時(shí)序上的變化是平穩(wěn)連續(xù)的,并且兩兩參數(shù)間的相關(guān)性在一定時(shí)序上是穩(wěn)定甚至是一致的。根據(jù)上述假設(shè),本文建立了基于pH、DO 濃度、Chla濃度數(shù)據(jù)兩兩相關(guān)性的漸變異常數(shù)據(jù)類型自動(dòng)識(shí)別方法,確定了以8 d 時(shí)間窗口的兩兩相關(guān)系數(shù)(R8d)作為核心相關(guān)性表征指標(biāo),并將前后兩天R8d之差的絕對值(ΔR)作為判斷相關(guān)性時(shí)序分布穩(wěn)定性指標(biāo),形成了利用R8d和ΔR兩項(xiàng)指標(biāo)進(jìn)行漸變異常數(shù)據(jù)判斷與識(shí)別的流程。
圖11 TZ01 浮標(biāo)冬季原始數(shù)據(jù)Fig.11 TZ01 buoy raw data in winter
本文提出的方法重點(diǎn)突出了多元參數(shù)間相關(guān)性系數(shù)時(shí)間序列上的變化特征,各判別指數(shù)計(jì)算過程簡單、直觀,易于實(shí)際浮標(biāo)監(jiān)測工作人員的理解和掌握。通過浙江沿海浮標(biāo)實(shí)際測量數(shù)據(jù)案例檢驗(yàn),證明了該方法可以用于漸變異常數(shù)據(jù)類型的實(shí)時(shí)監(jiān)測,對浮標(biāo)的傳感器漸變異常做到早期識(shí)別,特別是由生物污垢導(dǎo)致傳感器測量值持續(xù)增加而引起的假赤潮現(xiàn)象,有較好的識(shí)別效果,可解決由此帶來的赤潮預(yù)報(bào)虛警等問題。因此,在指導(dǎo)浮標(biāo)日常檢查與維護(hù)、確保數(shù)據(jù)的準(zhǔn)確性和完整性方面有實(shí)際意義。本文根據(jù)單參數(shù)自校方法無法識(shí)別漸變異常數(shù)據(jù)類型,提出了一種簡單,實(shí)用的有效解決方法。此方法為漸變異常值的自動(dòng)識(shí)別及處理提供了新的思路。由于所處海域的不同,可能相關(guān)性穩(wěn)定的時(shí)間窗口有所不同,需因地制宜,考慮季節(jié)性差異等因素的影響。因此在后續(xù)研究中應(yīng)當(dāng)針對在多參數(shù)變化不同步、冬季數(shù)據(jù)和非高斯分布數(shù)據(jù)等情況下,識(shí)別精度不高等局限性,可利用多年歷史數(shù)據(jù)對其進(jìn)行物候特征分析,提高相關(guān)性識(shí)別方法精度。