高峰,陳新軍*,官文江,李綱
(1. 上海海洋大學(xué) 海洋科學(xué)學(xué)院,上海 201306;2. 上海海洋大學(xué) 大洋漁業(yè)資源可持續(xù)開發(fā)省部共建教育部重點(diǎn)實(shí)驗(yàn)室,上海 201306;3. 上海海洋大學(xué) 國(guó)家遠(yuǎn)洋漁業(yè)工程技術(shù)研究中心,上海 201306;4. 遠(yuǎn)洋漁業(yè)協(xié)同創(chuàng)新中心,上海 201306)
基于提升回歸樹的東、黃海鮐魚漁場(chǎng)預(yù)報(bào)
高峰1,2,3,4,陳新軍1,2,3,4*,官文江1,2,3,4,李綱1,2,3,4
(1. 上海海洋大學(xué) 海洋科學(xué)學(xué)院,上海 201306;2. 上海海洋大學(xué) 大洋漁業(yè)資源可持續(xù)開發(fā)省部共建教育部重點(diǎn)實(shí)驗(yàn)室,上海 201306;3. 上海海洋大學(xué) 國(guó)家遠(yuǎn)洋漁業(yè)工程技術(shù)研究中心,上海 201306;4. 遠(yuǎn)洋漁業(yè)協(xié)同創(chuàng)新中心,上海 201306)
為提高東、黃海鮐魚漁場(chǎng)預(yù)報(bào)準(zhǔn)確率、降低漁業(yè)生產(chǎn)成本,研究提出了一種基于提升回歸樹的漁場(chǎng)預(yù)報(bào)模型。研究采用2003—2010年我國(guó)大型燈光圍網(wǎng)漁撈日志數(shù)據(jù),以有網(wǎng)次記錄的小漁區(qū)為漁場(chǎng),以漁撈日志未記錄的區(qū)域作為背景場(chǎng)隨機(jī)選擇假定非漁場(chǎng)數(shù)據(jù),以海表水溫等環(huán)境因子作為預(yù)測(cè)變量構(gòu)建東、黃海鮐魚漁場(chǎng)預(yù)報(bào)模型并以2011年的實(shí)際作業(yè)記錄對(duì)預(yù)報(bào)模型進(jìn)行精度驗(yàn)證。驗(yàn)證計(jì)算得到預(yù)報(bào)模型的AUC(area under receiver operating curve)值為0.897,表明模型的預(yù)報(bào)精度較高。模型的空間預(yù)測(cè)結(jié)果表明,預(yù)報(bào)漁場(chǎng)與實(shí)際作業(yè)位置基本吻合,其位置移動(dòng)也與實(shí)際情況相符。這表明基于提升回歸樹的漁場(chǎng)預(yù)報(bào)模型可以用來進(jìn)行東、黃海鮐魚漁場(chǎng)的預(yù)報(bào)。
提升回歸樹;鮐魚;漁場(chǎng)預(yù)報(bào);東、黃海
鮐魚(Scomberjaponicus)屬大洋暖水性中上層魚類,廣泛分布于西北太平洋沿岸海域,主要為中國(guó)、日本、韓國(guó)等國(guó)的燈光圍網(wǎng)漁業(yè)所利用[1]。鮐魚是一種季節(jié)洄游性魚類,其作業(yè)漁場(chǎng)位置與洄游路線密切相關(guān),同時(shí)也受到海洋環(huán)境條件變動(dòng)的影響,呈現(xiàn)出較大的年際變化[2]。目前,在鮐魚漁場(chǎng)方面的研究主要是對(duì)鮐魚漁場(chǎng)形成機(jī)制[3—4]、時(shí)空分布[2,5]以及漁場(chǎng)與環(huán)境因子之間關(guān)系[6]的分析和解釋,對(duì)于鮐魚漁場(chǎng)的預(yù)報(bào)則以棲息地指數(shù)模型(Habitat suitability index,HSI)等專家系統(tǒng)方法為主[2,7—9]。棲息地指數(shù)模型實(shí)現(xiàn)過程簡(jiǎn)單,易與地理信息系統(tǒng)(Geographical information system,GIS)結(jié)合應(yīng)用[10],但其預(yù)報(bào)結(jié)果中適宜的棲息地范圍一般較廣,對(duì)于實(shí)際漁業(yè)生產(chǎn)的指導(dǎo)作用有限。
提升回歸樹(boosted regression trees,BRT)是一種基于決策樹的集成學(xué)習(xí)方法[11],已在漁業(yè)上有一定的應(yīng)用,如單位捕撈努力漁獲量(catch per unit effort,CPUE)標(biāo)準(zhǔn)化[12]、魚類空間分布、豐度和多樣性預(yù)測(cè)[13—14]、魚類棲息地研究[15—16]、兼捕預(yù)測(cè)[17]等。與傳統(tǒng)多元回歸方法相比,提升回歸樹能自動(dòng)擬合自變量的交互作用,且不易出現(xiàn)過度擬合,因此泛化誤差較低,對(duì)于新數(shù)據(jù)的預(yù)測(cè)精度較高[13]。本研究基于2003—2010年我國(guó)大型燈光圍網(wǎng)漁船捕撈日志數(shù)據(jù),利用提升回歸樹方法建立東、黃海鮐魚作業(yè)漁場(chǎng)預(yù)報(bào)模型,并用2011年的實(shí)際作業(yè)漁場(chǎng)位置對(duì)模型進(jìn)行了驗(yàn)證。
2.1 漁業(yè)數(shù)據(jù)及處理
本文研究區(qū)域?yàn)?5°~40°N、120°~130°E圍內(nèi)的東、黃海海域,時(shí)間為2003—2011年7—12月。
東、黃海鮐魚大型燈光圍網(wǎng)漁撈日志數(shù)據(jù)由中國(guó)遠(yuǎn)洋漁業(yè)協(xié)會(huì)上海海洋大學(xué)魷釣技術(shù)組提供。數(shù)據(jù)包括作業(yè)日期、作業(yè)船組、作業(yè)位置(大漁區(qū)、小漁區(qū))、產(chǎn)量(箱)、放網(wǎng)次數(shù)和平均網(wǎng)次產(chǎn)量(箱/網(wǎng))。將數(shù)據(jù)按小漁區(qū)(空間分辨率10′×10′)和周為單位進(jìn)行重新統(tǒng)計(jì)并添加小漁區(qū)中心經(jīng)緯度坐標(biāo)。處理后的數(shù)據(jù)覆蓋928個(gè)小漁區(qū),共2 880條記錄。
漁撈日志數(shù)據(jù)只記錄了作業(yè)漁場(chǎng)的信息,而沒有記錄非作業(yè)漁場(chǎng)的信息。根據(jù)生物分布預(yù)測(cè)中處理“僅包含發(fā)現(xiàn)”(presence-only)的數(shù)據(jù)的方法[18],以漁撈日志中未作記錄的時(shí)間和小漁區(qū)作為背景場(chǎng),采用完全隨機(jī)的方式選擇2 880條假定非作業(yè)漁場(chǎng)數(shù)據(jù)記錄[19]。將其與處理后的漁撈日志數(shù)據(jù)合并組成漁業(yè)數(shù)據(jù)集。
2.2 環(huán)境數(shù)據(jù)
已有的研究表明,東、黃海鮐魚漁場(chǎng)的形成和時(shí)空分布變動(dòng)受海表水溫、海水水質(zhì)、餌料生物等眾多海洋環(huán)境要素的影響[2—7,20—22],但考慮到實(shí)際漁業(yè)生產(chǎn)中對(duì)于漁場(chǎng)預(yù)報(bào)的要求,本研究?jī)H選取了4個(gè)可通過海洋衛(wèi)星遙感獲取且實(shí)時(shí)性和可用性較好的環(huán)境因子,即海表水溫(sea surface temperature,SST),海表水溫梯度(gradient of sea surface temperature,GSST),海面高度(Sea Surface Height,SSH)和地轉(zhuǎn)流流速(geostrophic velocity,GV)。
周平均SST來自NOAA OceanWatch網(wǎng)站(http://oceanwatch.pifsc.noaa.gov/)提供的AVHRR全球覆蓋海表水溫?cái)?shù)據(jù)集,空間分辨率為0.1°,單位為℃。
海表水溫梯度采用計(jì)算公式[23]:
(1)
式中,SSTi±1,j和SSTi,j±1為上下左右4個(gè)網(wǎng)格點(diǎn)的海表水溫,Δx和Δy為SST網(wǎng)格數(shù)據(jù)在經(jīng)度和緯度方向的分辨率,其單位為(°)。
周平均SSH和地轉(zhuǎn)流數(shù)據(jù)來自NOAA OceanWatch網(wǎng)站提供的衛(wèi)星高度計(jì)融合數(shù)據(jù)產(chǎn)品,其中SSH以大地水準(zhǔn)面為起算面,空間分辨率為0.25°,單位為cm。地轉(zhuǎn)流數(shù)據(jù)包括東西方向(u)和南北方向(v)兩個(gè)分量,其空間分辨率為0.5°,單位為cm/s。
地轉(zhuǎn)流流速GV采用計(jì)算公式:
(2)
另外,時(shí)空數(shù)據(jù)方面選取了周數(shù)(Week)、經(jīng)度(Longi)和緯度(Lati)3個(gè)因子作為預(yù)測(cè)變量。
將環(huán)境因子數(shù)據(jù)插值到與漁業(yè)數(shù)據(jù)相同的空間分辨率(10′×10′小漁區(qū))并與漁業(yè)數(shù)據(jù)進(jìn)行匹配,匹配后的數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集(2003—2010年數(shù)據(jù))和驗(yàn)證數(shù)據(jù)集(2011年數(shù)據(jù))兩部分。
2.3 預(yù)報(bào)模型及參數(shù)選擇
2.3.1 預(yù)報(bào)模型
研究采用提升回歸樹模型,以小漁區(qū)是否為漁場(chǎng)為響應(yīng)變量、相關(guān)環(huán)境和時(shí)空因子為預(yù)測(cè)變量對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行建模。模型擬合使用R語(yǔ)言(3.0.3版,R核心開發(fā)組,2014)gbm包[24]以及Elith編寫的實(shí)用函數(shù)包[13]。
提升回歸樹是一種自適應(yīng)的集成學(xué)習(xí)方法,它結(jié)合了提升(boosting)和分類回歸樹(classification and regression trees,CART)兩種技術(shù)[13,25—26]。與傳統(tǒng)統(tǒng)計(jì)學(xué)方法和CART不同的是,提升回歸樹并不尋求單一的“最佳”模型,而是通過組合大量相對(duì)簡(jiǎn)單的決策樹的方式以優(yōu)化模型的預(yù)測(cè)性能[13]。提升回歸樹模型可以寫成M棵分類回歸樹相加的形式:
(3)
式中,X為SST、SSH等預(yù)測(cè)變量,Tm(X,γm)為第m棵分類回歸樹,γm為其參數(shù),代表了該決策樹的分裂點(diǎn)和每個(gè)葉子結(jié)點(diǎn)的賦值,求解γm的過程即單棵決策樹的學(xué)習(xí)過程。
2.3.2 模型參數(shù)選擇
提升回歸樹采用逐步迭代的方式[11]按順序?qū)W習(xí)每一棵決策樹。有3個(gè)參數(shù)可以用來調(diào)整提升回歸樹的學(xué)習(xí)過程。首先,每棵決策樹在學(xué)習(xí)時(shí)僅按比例隨機(jī)抽取部分觀測(cè)數(shù)據(jù)作為學(xué)習(xí)樣本,這個(gè)比例稱為裝袋分?jǐn)?shù)(bagging fraction),其目的是通過引入隨機(jī)因素以提高模型預(yù)測(cè)精度[27]。其次,為了降低模型對(duì)觀測(cè)數(shù)據(jù)的擬合速度,防止出現(xiàn)過度擬合,需要在每棵決策樹前乘以一個(gè)較小(小于0.1)的收縮系數(shù)ν之后再加入模型,這個(gè)收縮系數(shù)也稱為學(xué)習(xí)率(learning rate,lr)。最后,提升回歸樹中所有決策樹的葉節(jié)點(diǎn)數(shù)都相同,訓(xùn)練時(shí)葉節(jié)點(diǎn)達(dá)到相應(yīng)數(shù)量即停止生長(zhǎng),因此不需要剪枝。單棵決策樹的葉節(jié)點(diǎn)數(shù)量也稱為樹的復(fù)雜度(tree complexity,tc),它代表了提升回歸樹模型能夠擬合的環(huán)境因子之間交互作用的階數(shù)[11]。這3個(gè)參數(shù)中,裝袋分?jǐn)?shù)一般推薦取值0.5~0.75,為減小模型的變異性[13],選擇裝袋分?jǐn)?shù)為0.75。lr和tc的取值對(duì)模型的預(yù)測(cè)性能影響相對(duì)較大,因此分別設(shè)置lr為0.001、0.005、0.01、0.1,tc為1、2、4、8,按年分組隨機(jī)選取訓(xùn)練數(shù)據(jù)集的70%構(gòu)建模型,以剩余30%數(shù)據(jù)計(jì)算模型的預(yù)測(cè)偏差,根據(jù)模型的擬合過程以及預(yù)測(cè)偏差的大小選擇最優(yōu)的lr和tc。為減小運(yùn)算時(shí)間,限制模型最多包含5 000棵分類回歸樹。
2.3.3 最優(yōu)決策樹數(shù)量
隨著決策樹數(shù)量的逐漸增加,提升回歸樹模型對(duì)訓(xùn)練數(shù)據(jù)的擬合將越來越好,但決策樹超過一定數(shù)量,則可能出現(xiàn)過度擬合,導(dǎo)致模型的預(yù)測(cè)精度降低。本研究先以10倍交叉驗(yàn)證(10-fold cross-validation)方法建立提升回歸樹模型,取平均估計(jì)偏差最小的決策樹數(shù)量為最佳決策樹數(shù)量,然后使用全部訓(xùn)練數(shù)據(jù)建立包含最佳數(shù)量決策樹的漁場(chǎng)預(yù)報(bào)模型。
2.4 預(yù)測(cè)因子重要性計(jì)算
對(duì)于單棵分類回歸樹,以Jn(T)作為第n個(gè)預(yù)測(cè)因子Xn與響應(yīng)變量的相關(guān)性度量[26],其中:
(4)
).
(5)
實(shí)際計(jì)算中可以對(duì)結(jié)果進(jìn)行正規(guī)化處理,使所有預(yù)測(cè)因子的相對(duì)重要性之和為1.0,以百分?jǐn)?shù)的形式來表示單個(gè)預(yù)測(cè)因子的重要性。
2.5 預(yù)報(bào)模型分析及驗(yàn)證
2.5.1 模型精度評(píng)價(jià)
將驗(yàn)證數(shù)據(jù)集中各記錄的環(huán)境和時(shí)空數(shù)據(jù)部分代入預(yù)報(bào)模型,計(jì)算相應(yīng)的漁場(chǎng)概率。使用預(yù)測(cè)偏差(predictive deviance)和ROC(receiver operating curve)曲線[28]下的面積(area under ROC,AUC)對(duì)模型的預(yù)報(bào)精度進(jìn)行評(píng)價(jià)。
預(yù)測(cè)偏差使用計(jì)算公式[24]:
(6)
式中,(xi,yi)為測(cè)試數(shù)據(jù),wi為第i個(gè)測(cè)試樣本的權(quán)重,測(cè)試樣本權(quán)重全部為1.0,f(X)為提升回歸樹模型的原始輸出,即作業(yè)漁場(chǎng)概率的對(duì)數(shù)優(yōu)勢(shì)。
AUC是評(píng)價(jià)二值預(yù)測(cè)模型的預(yù)測(cè)性能的常用標(biāo)準(zhǔn),AUC值為0.5表示模型的預(yù)報(bào)與隨機(jī)取值效果相同,AUC值為1則表示模型能正確預(yù)報(bào)所有作業(yè)漁場(chǎng)和非作業(yè)漁場(chǎng)[13],一般AUC大于0.75的預(yù)報(bào)模型就可以認(rèn)為是“有用”的[28]。AUC相關(guān)的計(jì)算使用R語(yǔ)言PresenceAbsence包[29]。
2.5.2 最佳閾值的選擇
提升回歸樹模型的輸出值是作業(yè)漁場(chǎng)的概率,因此一般需要選擇一個(gè)閾值對(duì)模型輸出結(jié)果進(jìn)行二值化處理,即預(yù)測(cè)漁場(chǎng)概率大于該閾值的漁區(qū)為中心漁場(chǎng),反之則非中心漁場(chǎng)。雖然確定最佳閾值的方法較多,但本研究所采用的非漁場(chǎng)數(shù)據(jù)為隨機(jī)選取,而非真實(shí)的非漁場(chǎng)數(shù)據(jù),理論上這些方法并不適用[29]。在根據(jù)漁撈日志數(shù)據(jù)來確定中心漁場(chǎng)或高產(chǎn)漁區(qū)時(shí),常以單位漁區(qū)上的作業(yè)次數(shù)或捕撈努力量、以及漁獲量作為評(píng)價(jià)指標(biāo),因此本研究將模型預(yù)測(cè)漁場(chǎng)概率平均分為5個(gè)區(qū)間,即0~0.2、0.2~0.4、0.4~0.6、0.6~0.8、0.8~1.0,然后根據(jù)2011年實(shí)際作業(yè)網(wǎng)次和漁獲量在這些區(qū)間上的分布來選擇一個(gè)合適的閾值。
2.5.3 空間預(yù)測(cè)驗(yàn)證
將2011年7—12月各周的環(huán)境數(shù)據(jù)帶入預(yù)報(bào)模型,計(jì)算研究區(qū)域內(nèi)所有漁區(qū)每周的漁場(chǎng)概率。由于實(shí)際作業(yè)周次較多,將每個(gè)月4或5周的預(yù)報(bào)漁場(chǎng)概率進(jìn)行平均,得到每月的漁場(chǎng)概率分布圖,并與當(dāng)月實(shí)際作業(yè)漁場(chǎng)位置進(jìn)行疊加,以考察預(yù)報(bào)漁場(chǎng)與實(shí)際作業(yè)漁場(chǎng)的吻合程度以及預(yù)報(bào)漁場(chǎng)位置分布的合理性。
3.1 預(yù)報(bào)模型擬合
由圖1可知,當(dāng)lr為0.005和0.001時(shí),各模型擬合過程均比較慢,當(dāng)決策樹達(dá)到5 000棵時(shí)模型的預(yù)測(cè)偏差曲線仍處于下降階段,未能達(dá)到最佳的預(yù)測(cè)性能。當(dāng)學(xué)習(xí)率為0.1時(shí),各模型均能在2 000棵決策樹之前達(dá)到最小預(yù)測(cè)偏差。當(dāng)學(xué)習(xí)率為0.01時(shí),tc為1、2和4的模型在5 000棵決策樹之前預(yù)測(cè)偏差曲線均處于下降階段,而tc為8的模型在5 000棵決策樹之前達(dá)到最小預(yù)測(cè)偏差,且最小預(yù)測(cè)偏差的值也比學(xué)習(xí)率為0.1時(shí)各模型的最小預(yù)測(cè)偏差值小。因此選擇0.01和8作為預(yù)報(bào)模型的學(xué)習(xí)率和復(fù)雜度參數(shù)。
圖1 不同學(xué)習(xí)率和復(fù)雜度下的模型預(yù)測(cè)偏差與決策樹數(shù)量的關(guān)系Fig.1 The relationship between predictive deviance and number of trees for models fitted with four learning rates and four levels of tree complexity模型以訓(xùn)練數(shù)據(jù)的70%進(jìn)行擬合,以剩余30%數(shù)據(jù)計(jì)算預(yù)測(cè)偏差;圖中虛線表示模型的最小預(yù)測(cè)偏差The models were fitted with 70% records of the training dataset,and the remaining 30% were used to calculating the predictive deviances. The dashed line marks the minimum predictive deviance
設(shè)置模型的lr為0.01,tc為8、10倍交叉驗(yàn)證方法得到的平均估計(jì)偏差與決策樹數(shù)量的關(guān)系如圖2所示。隨著模型中決策樹數(shù)量的增加,平均估計(jì)偏差逐漸降低。當(dāng)決策樹為50棵時(shí),平均估計(jì)偏差約為1.146。當(dāng)模型中決策樹達(dá)到1 000棵時(shí),平均估計(jì)偏差下降至0.674。最佳決策樹數(shù)量為4 950棵,此時(shí)平均估計(jì)偏差達(dá)到最小值0.578。以上參數(shù)擬合全部訓(xùn)練數(shù)據(jù)并建立最終的漁場(chǎng)預(yù)報(bào)模型。
圖2 10倍交叉驗(yàn)證平均估計(jì)誤差與決策樹數(shù)量的關(guān)系Fig.2 The relationship between mean estimated deviance of 10-fold cross-validation and number of trees虛線表示模型最小平均估計(jì)偏差0.578及最優(yōu)的決策樹數(shù)量4 950The dashed line identifies the minimum mean estimated deviance as 0.578 and the optimal number of trees as 4 950
3.2 因子重要性
分析認(rèn)為,SST與漁場(chǎng)的關(guān)系最為密切,其相對(duì)重要性達(dá)到22.4%;其次是空間因子,其中緯度的相對(duì)重要性(21.6%)大于經(jīng)度(18.8%)。SSH和Week的重要性稍低,分別是14.5%和12.9%。GV和GSST的重要性較低,分別是5.4%和4.4%(圖3)。
圖3 預(yù)測(cè)因子的相對(duì)重要性Fig.3 Relative importance of the predictor variables
3.3 模型精度評(píng)價(jià)以及中心漁場(chǎng)閾值的選擇
由表1可知,交叉驗(yàn)證得到的模型AUC值為0.942,以2011年實(shí)際作業(yè)漁場(chǎng)數(shù)據(jù)驗(yàn)證得到的模型AUC值為0.935。從數(shù)據(jù)驗(yàn)證的角度來看,模型預(yù)報(bào)的預(yù)報(bào)精度較高。
表1 預(yù)報(bào)模型的預(yù)測(cè)偏差及AUC值Tab.1 Predictive deviance and AUC of the forecasting model
表2可知,在預(yù)測(cè)漁場(chǎng)概率小于0.4的海區(qū),作業(yè)網(wǎng)次和漁獲量比例分別為6.48%和5.28%,總數(shù)均不超過全年的10%,且漁獲量比例低于作業(yè)網(wǎng)次比例,即CPUE低于年平均CPUE。在預(yù)測(cè)漁場(chǎng)概率大于0.7的海區(qū),作業(yè)網(wǎng)次和漁獲量比例分別為77.11%和80.24%,總數(shù)均超過全年的75%,且漁獲量比例高于作業(yè)網(wǎng)次比例,即CPUE高于年平均CPUE。這表明預(yù)測(cè)模型能有效的區(qū)分出低產(chǎn)和高產(chǎn)的區(qū)域。在對(duì)預(yù)測(cè)漁場(chǎng)概率進(jìn)行二值化處理時(shí),若以作業(yè)網(wǎng)次和漁獲量作為中心漁場(chǎng)的準(zhǔn)確性指標(biāo),則0.7應(yīng)是一個(gè)合適的閾值。為了避免出現(xiàn)中心漁場(chǎng)范圍過大的問題,也可以取0.8為閾值,即將預(yù)測(cè)漁場(chǎng)概率大于0.8作為中心漁場(chǎng)的判斷標(biāo)準(zhǔn)。
表2 2011年作業(yè)網(wǎng)次和漁獲量在模型預(yù)測(cè)漁場(chǎng)概率區(qū)間上的百分比分布Tab.2 Percentages of nets and catch in different predicted probability ranges of fishing grounds in 2011
3.4 作業(yè)漁場(chǎng)預(yù)測(cè)
由圖4可知,2011年7-9月的預(yù)報(bào)漁場(chǎng)主要位于東海中南部26.5°~31°N、122.5°~127°E區(qū)域以及29°~31°N、124°E以西的舟山漁場(chǎng),其中9月份東海中南部漁場(chǎng)向東北方向稍有移動(dòng),并且在36°N附近的黃海海域也有漁場(chǎng)分布,但預(yù)報(bào)的漁場(chǎng)概率不高。10-12月的預(yù)報(bào)漁場(chǎng)主要位于黃海海域,隨時(shí)間推移預(yù)報(bào)漁場(chǎng)有向黃海南部移動(dòng)的趨勢(shì),12月份的主要預(yù)報(bào)漁場(chǎng)已南移至33.5°N,最南達(dá)到東海北部海域,同時(shí)東海中南部也有小范圍的漁場(chǎng)分布??傮w上看,除了9月份黃海海域和10月份東海北部海域?qū)嶋H作業(yè)漁場(chǎng)概率預(yù)測(cè)值偏低之外,預(yù)報(bào)漁場(chǎng)的位置與實(shí)際作業(yè)位置基本吻合,其隨時(shí)間的位置移動(dòng)也基本與實(shí)際情況相符,這說明模型的預(yù)報(bào)漁場(chǎng)在空間分布上是合理的。
圖4 2011年預(yù)測(cè)漁場(chǎng)與鮐魚大型燈光圍網(wǎng)漁業(yè)實(shí)際作業(yè)位置Fig.4 Distribution of predicted fishing grounds and the fishing locations of Chinese large-type lighting purse seine fishery for chub mackerel in 2011
4.1 假定非漁場(chǎng)數(shù)據(jù)的選擇及其影響
在漁場(chǎng)預(yù)報(bào)研究中,常以單位區(qū)域內(nèi)CPUE或捕撈努力量作為該區(qū)域漁場(chǎng)好壞的指標(biāo),并以此為響應(yīng)變量建立漁場(chǎng)預(yù)報(bào)模型[30—31]。但這種基于CPUE或捕撈努力量定義漁場(chǎng)的方法對(duì)一些漁業(yè)并不合適。Andrade[32]在研究西南大西洋金槍魚桿釣漁業(yè)與海表溫度的關(guān)系時(shí)指出,CPUE僅能作為魚群可用性的指標(biāo),而不能代表資源的豐度或漁場(chǎng)的好壞。其原因在于該區(qū)域金槍魚桿釣漁業(yè)特定的作業(yè)過程:作業(yè)人員根據(jù)經(jīng)驗(yàn)選擇合適的作業(yè)地點(diǎn),若發(fā)現(xiàn)魚群,即拋灑餌料以吸引魚群聚集,之后開始竿釣作業(yè)。考察東、黃海鮐魚大型燈光圍網(wǎng)漁業(yè)的作業(yè)過程會(huì)發(fā)現(xiàn),雖然聚集魚群的方法和作業(yè)網(wǎng)具與金槍魚竿釣漁業(yè)不同,但這兩種漁業(yè)的作業(yè)方式具有3個(gè)相同的特點(diǎn),一是作業(yè)位置的選擇主要依據(jù)作業(yè)人員的經(jīng)驗(yàn)(可能主要是基于水溫的經(jīng)驗(yàn));二是發(fā)現(xiàn)魚群之后才開始作業(yè);三是漁獲量主要受作業(yè)行為本身的效率以及魚群狀態(tài)(聚集程度、聚集位置等)的影響,導(dǎo)致CPUE或捕撈努力量只能代表捕撈行為的成功率(或魚群的可用性),而并不能代表資源的豐度或漁場(chǎng)的情況。
基于上述原因,本研究使用了一種新的處理方式,即將有作業(yè)記錄的小漁區(qū)均作為漁場(chǎng),以隨機(jī)選擇的背景數(shù)據(jù)作為假定的非漁場(chǎng),從而建立漁場(chǎng)預(yù)報(bào)模型。從模型預(yù)報(bào)結(jié)果的準(zhǔn)確率來看,這種處理方法是有效的。但同時(shí),在訓(xùn)練樣本中引入假定非漁場(chǎng)數(shù)據(jù)也會(huì)對(duì)預(yù)報(bào)模型產(chǎn)生一定的影響。首先,由于大型燈光圍網(wǎng)漁業(yè)的產(chǎn)量在東、黃海鮐魚總產(chǎn)量中的比例逐年下降[2],從概率上講,很大一部分假定非漁場(chǎng)數(shù)據(jù)其實(shí)是真實(shí)的作業(yè)漁場(chǎng);其次,由于假定非漁場(chǎng)數(shù)據(jù)取值在環(huán)境空間上的隨機(jī)性,相同的環(huán)境因子在漁場(chǎng)和假定非漁場(chǎng)條件下的分布可能存在某些相似性,這必然導(dǎo)致環(huán)境因子作用的相互抵消[33]。如圖5所示,由于南北漁場(chǎng)的作業(yè)時(shí)間和環(huán)境條件的不同,實(shí)際作業(yè)漁場(chǎng)的SST分布呈現(xiàn)明顯的雙峰,但假定非作業(yè)漁場(chǎng)下的SST分布在26~30℃范圍同樣也出現(xiàn)了峰值。由于這種分布上的相似性,SST對(duì)漁場(chǎng)的作用很可能被弱化。此外,由于鮐魚漁場(chǎng)分布的總體概率未知,只能根據(jù)經(jīng)驗(yàn)確定假定非漁場(chǎng)數(shù)據(jù)記錄的數(shù)量,相應(yīng)的,模型所預(yù)測(cè)的漁場(chǎng)概率只是一個(gè)相對(duì)值,并不是實(shí)際的漁場(chǎng)概率[10]。
圖5 假定非漁場(chǎng)和實(shí)際作業(yè)漁場(chǎng)記錄中海表水溫的分布Fig.5 Distribution of sea surface temperature of fishing grounds and pseudo non-fishing grounds
4.2 預(yù)測(cè)因子的相對(duì)重要性
提升回歸樹模型認(rèn)為,SST與鮐魚漁場(chǎng)的關(guān)系最為密切,這與其他研究者的研究結(jié)果是一致的[20],當(dāng)然這也可能是因?yàn)樵趯?shí)際作業(yè)過程中水溫是作業(yè)人員選擇作業(yè)位置的主要依據(jù)。相應(yīng)的,GSST和GV的影響并不顯著,這可能有3個(gè)原因:一是作業(yè)人員在根據(jù)經(jīng)驗(yàn)選擇作業(yè)位置時(shí)可能未考慮GSST和GV因素,因?yàn)樽鳂I(yè)人員一般很難獲知當(dāng)前作業(yè)位置的GSST和GV;二是由于假定非漁場(chǎng)數(shù)據(jù)的選擇使得漁場(chǎng)和非漁場(chǎng)條件下的GSST和GV分布相同,影響相互抵消因而弱化了效果;三是GSST和GV可能主要是對(duì)鮐魚的聚集和作業(yè)的成功率有影響,但對(duì)作業(yè)漁場(chǎng)位置卻影響不大。
此外,模型也發(fā)現(xiàn),時(shí)間和空間因子對(duì)作業(yè)漁場(chǎng)位置具有非常強(qiáng)的影響,二者的相對(duì)重要性合計(jì)超過了50%。這一方面是因?yàn)椤澳硶r(shí)間在某地點(diǎn)可能會(huì)出現(xiàn)漁場(chǎng)”是作業(yè)人員經(jīng)驗(yàn)的重要組成部分,因此對(duì)作業(yè)漁場(chǎng)位置的選擇確實(shí)存在重要影響。另一方面這也與預(yù)報(bào)模型本身有關(guān),提升回歸樹是一種機(jī)器學(xué)習(xí)方法,它傾向于僅使用訓(xùn)練數(shù)據(jù)所包含的模式來解釋漁場(chǎng)的分布[34]。由于一些重要的環(huán)境因子(如餌料條件)可能未包含在模型中,已有的環(huán)境因子又由于假定非漁場(chǎng)數(shù)據(jù)的影響而作用被減弱,結(jié)果導(dǎo)致時(shí)空因子的作用被大大強(qiáng)化了。這也從側(cè)面說明,雖然機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)的擬合能力強(qiáng)于傳統(tǒng)的線性和加性回歸,能充分利用訓(xùn)練數(shù)據(jù)中所包含的各種模式,但如果訓(xùn)練數(shù)據(jù)本身不具有代表性,模型所發(fā)現(xiàn)的模式很可能與實(shí)際情況有偏差。因此在使用機(jī)器學(xué)習(xí)方法進(jìn)行漁場(chǎng)預(yù)報(bào)時(shí),對(duì)預(yù)測(cè)因子的選擇工作將更加重要。
4.3 模型預(yù)報(bào)效果及完善
由表1、表2和圖4可知,從基于驗(yàn)證數(shù)據(jù)集的評(píng)價(jià)結(jié)果來看,模型預(yù)報(bào)準(zhǔn)確率較高(AUC值0.935),且能有效地區(qū)分低產(chǎn)和高產(chǎn)區(qū)域。從空間位置上來看,預(yù)報(bào)漁場(chǎng)的范圍也基本與實(shí)際作業(yè)位置吻合。因此,采用基于提升回歸樹的漁場(chǎng)預(yù)報(bào)模型來預(yù)報(bào)東、黃海鮐魚漁場(chǎng)是可行的。同時(shí),從鮐魚漁業(yè)資源管理和保護(hù)的角度來說,中心漁場(chǎng)或高產(chǎn)漁區(qū)同時(shí)也是鮐魚資源保護(hù)的關(guān)鍵區(qū)域。因此,準(zhǔn)確的預(yù)測(cè)這些區(qū)域的位置,對(duì)于鮐魚資源的管理和保護(hù)也有重要的意義。
由表2和圖4可知,模型對(duì)2011年9月黃海海域和10月東海北部海域作業(yè)漁場(chǎng)的預(yù)測(cè)概率值偏低,其主要原因可能在于2011年9-10月為當(dāng)年大型燈光圍網(wǎng)漁業(yè)在南北漁場(chǎng)之間轉(zhuǎn)場(chǎng)時(shí)間,故在東海和黃海海域均有作業(yè),而預(yù)報(bào)模型未能發(fā)現(xiàn)這種作業(yè)模式,僅能正確預(yù)測(cè)主要漁場(chǎng)區(qū)域而對(duì)次要作業(yè)區(qū)域預(yù)測(cè)值偏低。這很可能表明模型對(duì)時(shí)空因子作用的強(qiáng)化已經(jīng)對(duì)預(yù)報(bào)的準(zhǔn)確性產(chǎn)生了一定的影響。另外,一些對(duì)漁場(chǎng)位置分布具有顯著影響的環(huán)境因子也可能未被包含在模型中,因此SST等環(huán)境條件的差異未能對(duì)預(yù)報(bào)漁場(chǎng)產(chǎn)生足夠的影響。針對(duì)這些問題,在后續(xù)的研究中可以從兩方面對(duì)模型進(jìn)行完善:首先,可以考慮將水團(tuán)、鋒面和渦流、底層水溫以及餌料條件等環(huán)境因子加入模型以增加訓(xùn)練數(shù)據(jù)集的代表性。其次,在選擇假定非漁場(chǎng)數(shù)據(jù)時(shí),可使用基于環(huán)境因子的分組隨機(jī)采樣,或者采用HSI、生態(tài)位因子分析[10](Ecological niche factor analysis,ENFA)和最大熵值法[35](maximum entropy,MAXENT)等模型確定背景場(chǎng)以降低假定非漁場(chǎng)數(shù)據(jù)引起的模型偏差。
[1] 程家驊,林龍山. 東海區(qū)鮐魚生物學(xué)特征及其漁業(yè)現(xiàn)狀的分析研究[J]. 海洋漁業(yè),2004,26(2): 73-78.
Cheng Jiahua,Lin Longshan. Study on the biological characteristics and status of common mackerel (ScomberjaponicusHouttuyn) fishery in the East China Sea region[J]. Marine Fisheries,2004,26(2): 73-78.
[2] Li Gang,Chen Xinjun,Lei Lin,et al. Distribution of hotspots of chub mackerel based on remote-sensing data in coastal waters of China[J]. International Journal of Remote Sensing,2014,35(11/12): 4399-4421.
[3] 苗振清. 東海北部鮐鲹中心漁場(chǎng)形成機(jī)制的統(tǒng)計(jì)學(xué)[J]. 水產(chǎn)學(xué)報(bào),2003,27(2): 143-150.
Miao Zhenqing. The statistical research on the formation mechanism of central fishing ground ofPneumatophorusjaponicusandDecapterusmaruadsiin the north of East China Sea[J]. Journal of Fisheries of China,2003,27(2): 143-150.
[4] 李曰嵩,潘靈芝,嚴(yán)利平,等. 基于個(gè)體模型的東海鮐魚漁場(chǎng)形成機(jī)制研究[J]. 海洋學(xué)報(bào),2014,36(6): 67-74.
Li Yuesong,Pan Lingzhi,Yan Liping,et al. Individual-based model study on the fishing ground of chub mackerel (Scomberjaponicus) in the East China Sea[J]. Haiyang Xuebao,2014,36(6): 67-74.
[5] 李綱,陳新軍. 東海鮐魚資源和漁場(chǎng)時(shí)空分布特征的研究[J]. 中國(guó)海洋大學(xué)學(xué)報(bào),2007,37(6): 921-926.
Li Gang,Chen Xinjun. Tempo-spatial characteristic analysis of the mackerel resource and its fishing ground in the East China Sea[J]. Periodical of Ocean University of China,2007,37(6): 921-926.
[6] 鄭波,陳新軍,李綱. GLM和GAM模型研究東黃海鮐資源漁場(chǎng)與環(huán)境因子的關(guān)系[J]. 水產(chǎn)學(xué)報(bào),2008,32(3): 379-386.
Zheng Bo,Chen Xinjun,Li Gang. Relationship between the resource and fishing ground of mackerel and environmental factors based on GAM and GLM models in the East China Sea and Yellow Sea[J]. Journal of Fisheries of China,2008,32(3): 379-386.
[7] Chen Xinjun,Li Gang,F(xiàn)eng Bo,et al. Habitat suitability index of chub mackerel (Scomberjaponicus) from July to September in the East China Sea[J]. Journal of Oceanography,2009,65(1): 93-102.
[8] 張?jiān)孪?,丘仲鋒,伍玉梅,等. 基于案例推理的東海區(qū)鮐魚中心漁場(chǎng)預(yù)報(bào)[J]. 海洋科學(xué),2009,33(6): 8-11.
Zhang Yuexia,Qiu Zhongfeng,Wu Yumei,et al. Predicting central fishing ground ofScomberjaponicain East China Sea based on case-based reasoning[J]. Marine Sciences,2009,33(6): 8-11.
[9] 陳峰,雷林,毛志華,等. 基于遙感水質(zhì)的夏季東海鮐魚漁情預(yù)報(bào)研究[J]. 廣東海洋大學(xué)學(xué)報(bào),2011,31(3): 56-62.
Chen Feng,Lei Lin,Mao Zhihua,et al. Fishery forecasting for chub mackerel (Scomberjaponicus) in summer in the East China Sea based on water quality from remote sensing[J]. Journal of Guangdong Ocean University,2011,31(3): 56-62.
[10] Franklin J. Mapping species distributions: spatial inference and prediction[M]. New York: Cambridge University Press,2009: 200-205.
[11] Hastie T,Tibshirani R,F(xiàn)riedman J. The elements of statistical learning: data mining,inference,and prediction[M]. New York: Springer-Verlag,2001: 299-345.
[12] Abeare S. Comparisons of boosted regression tree,GLM and GAM performance in the standardization of yellowfin tuna catch-rate data from the Gulf of Mexico longline fishery[D]. Baton Rouge: Louisiana State University,2009: 1-94.
[13] Elith J,Leathwick J R,Hastie T. A working guide to boosted regression trees[J]. Journal of Animal Ecology,2008,77(4): 802-813.
[14] Froeschke B F,Tissot P,Stunz G W,et al. Spatiotemporal predictive models for juvenile southern flounder in Texas estuaries[J]. North American Journal of Fisheries Management,2013,33(4): 817-828.
[15] Lewin W C,Mehner T,Ritterbusch D,et al. The influence of anthropogenic shoreline changes on the littoral abundance of fish species in German lowland lakes varying in depth as determined by boosted regression trees[J]. Hydrobiologia,2014,724(1): 293-306.
[16] Compton T J,Morrison M A,Leathwick J R,et al. Ontogenetic habitat associations of a demersal fish species,Pagrusauratus,identified using boosted regression trees[J]. Marine Ecology Progress Series,2012,462: 219-230.
[17] Soykan C U,Eguchi T,Kohin S,et al. Prediction of fishing effort distributions using boosted regression trees[J]. Ecological Applications,2014,24(1): 71-83.
[18] Pearce J L,Boyce M S. Modelling distribution and abundance with presence-only data[J]. Journal of Applied Ecology,2006,43(3): 405-412.
[19] Barbet-Massin M,Jiguet F,Albert C H,et al. Selecting pseudo-absences for species distribution models: how,where and how many?[J]. Methods in Ecology and Evolution,2012,3(2): 327-338.
[20] 李綱,陳新軍. 夏季東海漁場(chǎng)鮐魚產(chǎn)量與海洋環(huán)境因子的關(guān)系[J]. 海洋學(xué)研究,2009,27(1): 1-8.
Li Gang,Chen Xinjun. Study on the relationship between catch of mackerel and environmental factors in the East China Sea in summer[J]. Journal of Marine Sciences,2009,27(1): 1-8.
[21] 官文江,陳新軍,高峰,等. 海洋環(huán)境對(duì)東、黃海鮐魚燈光圍網(wǎng)捕撈效率的影響[J]. 中國(guó)水產(chǎn)科學(xué),2009,16(6): 949-958.
Guan Wenjiang,Chen Xinjun,Gao Feng,et al. Environmental effects on fishing efficiency ofScomberjaponicusfor Chinese large lighting purse seine fishery in the Yellow and East China Seas[J]. Journal of Fishery Sciences of China,2009,16(6): 949-958.
[22] 官文江,陳新軍,李綱. 海表水溫和拉尼娜事件對(duì)東海鮐魚資源時(shí)空變動(dòng)的影響[J]. 上海海洋大學(xué)學(xué)報(bào),2011,20(1): 102-107.
Guan Wenjiang,Chen Xinjun,Li Gang. Influence of sea surface temperature and La Nia event on temporal and spatial fluctuation of chub mackerel (Scomberjaponicus) stock in the East China Sea[J]. Journal of Shanghai Ocean University,2011,20(1): 102-107.
[23] 陳新軍,劉必林,田思泉,等. 利用基于表溫因子的棲息地模型預(yù)測(cè)西北太平洋柔魚(Ommastrephesbartramii)漁場(chǎng)[J]. 海洋與湖沼,2009,40(6): 707-713.
Chen Xinjun,Liu Bilin,Tian Siquan,et al. Forecasting the fishing ground ofOmmastrephesbartramiiwith SSJ-based habitat suitability modelling in Northwestern Pacific[J]. Oceanologia et Limnologia Sinica,2009,40(6): 707-713.
[24] Ridgeway G. Generalized boosted regression models: A guide to the gbm package[EB/OL]. (2007-08-03)[2014-09-30]. http://ftp.ctex.org/mirrors/cran/web/packages/gbm/.
[25] Friedman J H. Greedy function approximation: a gradient boosting machine[J]. The Annals of Statistics,2001,29(5): 1189-1232.
[26] Brieman L,F(xiàn)riedman J,Olshen R A,et al. Classification and regression trees[M]. Belmont: Chapman & Hall/CRC,1984: 1-368.
[27] Friedman J H. Stochastic gradient boosting[J]. Computational Statistics & Data Analysis,2002,38(4): 367-378.
[28] Swets J A. Measuring the accuracy of diagnostic systems[J]. Science,1988,240(4857): 1285-1293.
[29] Freeman E A,Moisen G. PresenceAbsence: An R package for presence absence analysis[J]. Journal of Statistical Software,2008,23(11): 1-31.
[30] 崔雪森,伍玉梅,張晶,等. 基于分類回歸樹算法的東南太平洋智利竹筴魚漁場(chǎng)預(yù)報(bào)[J]. 中國(guó)海洋大學(xué)學(xué)報(bào),2012,42(7/8): 53-59.
Cui Xuesen,Wu Yumei,Zhang Jing,et al. Fishing ground forecasting of Chilean jack mackerel (Trachurusmurphyi) in the Southeast Pacific Ocean based on CART decision tree[J]. Periodical of Ocean University of China,2012,42(7/8): 53-59.
[31] 陳雪忠,樊偉,崔雪森,等. 基于隨機(jī)森林的印度洋長(zhǎng)鰭金槍魚漁場(chǎng)預(yù)報(bào)[J]. 海洋學(xué)報(bào),2013,35(1): 158-164.
Chen Xuezhong,F(xiàn)an Wei,Cui Xuesen,et al. Fishing ground forecasting ofThunnusalalungin Indian Ocean based on random forest[J]. Haiyang Xuebao,2013,35(1): 158-164.
[32] Andrade H A. The relationship between the skipjack tuna (Katsuwonuspelamis) fishery and seasonal temperature variability in the south-western Atlantic[J]. Fisheries Oceanography,2003,12(1): 10-18.
[33] VanDerWal J,Shoo L P,Graham C,et al. Selecting pseudo-absence data for presence-only distribution modeling: how far should you stray from what you know?[J]. Ecological Modelling,2009,220(4): 589-594.
[34] 陳新軍,高峰,官文江,等. 漁情預(yù)報(bào)技術(shù)及模型研究進(jìn)展[J]. 水產(chǎn)學(xué)報(bào),2013,37(8): 1270-1280.
Chen Xinjun,Gao Feng,Guan Wenjiang. et al. Review of fishery forecasting technology and its models[J]. Journal of Fisheries of China,2013,37(8): 1270-1280.
[35] Phillips S J,Anderson R P,Schapire R E. Maximum entropy modeling of species geographic distributions[J]. Ecological Modelling,2006,190(3/4): 231-259.
Fishing ground forecasting of chub mackerel in the Yellow Sea and East China Sea using boosted regression trees
Gao Feng1,2,3,4,Chen Xinjun1,2,3,4,Guan Wenjiang1,2,3,4,Li Gang1,2,3,4
(1.CollegeofMarineSciences,ShanghaiOceanUniversity,Shanghai201306,China; 2.KeyLaboratoryofSustainableExploitationofOceanicFisheriesResources,MinistryofEducation,ShanghaiOceanUniversity,Shanghai201306,China; 3.NationalDistance-waterFisheriesEngineeringResearchCenter,ShanghaiOceanUniversity,Shanghai201306,China; 4.CollaborativeInnovationCenterforDistant-waterFisheries,Shanghai201306,China)
To improve the accuracy of fishing ground forecasting of chub mackerel (Scomberjaponicus) in the Yellow and East China Sea,and reduce the fishery production cost,a new fishing ground forecasting model based on boosted regression trees was proposed in this study. Model was fitted with data extracted from electronic logbooks of Chinese mainland large-type lighting purse seine fishery for chub mackerel,with a range from 2003 to 2010. The fishing area with fishing effort was identified as fishing ground and the pseudo non fishing ground data was randomly collected from background field,which is the fishing areas with no records in the logbooks. The predictive variables were sea surface temperature and other environmental factors. The performance of prediction of the model was evaluated with the testing dataset consist of actual fishing locations of year 2011. The results of the evaluation showed that the prediction model had a high prediction performance with an AUC value of 0.897. The results of spatial prediction showed that the predicted fishing ground and its shifting were coincided with the actual fishing locations,which indicated that the forecasting model based on boosted regression trees can be used to forecasting the fishing ground of chub mackerel in the Yellow and East China Sea.
boosted regression trees; chub mackerel; fishing ground forecasting; Yellow Sea; East China Sea
2014-12-16;
2015-07-14。
國(guó)家863項(xiàng)目(2012AA092301);國(guó)家發(fā)改委產(chǎn)業(yè)化專項(xiàng)(2159999);國(guó)家科技支撐計(jì)劃(2013BAD13B01);上海市教委科研創(chuàng)新項(xiàng)目(14ZZ147)。
高峰(1979—),男,湖北省宜都市人,博士生,研究方向?yàn)闈O業(yè)GIS和漁情預(yù)報(bào)。E-mail:gaofeng@shou.edu.cn
*通信作者:陳新軍,男,教授,研究方向?yàn)闈O業(yè)資源與漁場(chǎng)學(xué)。E-mail:xjchen@shou.edu.cn
10.3969/j.issn.0253-4193.2015.10.004
S931.4
A
0253-4193(2015)10-0039-10
高峰,陳新軍,官文江,等. 基于提升回歸樹的東、黃海鮐魚漁場(chǎng)預(yù)報(bào)[J].海洋學(xué)報(bào),2015,37(10):39—48,
Gao Feng,Chen Xinjun,Guan Wenjiang,et al. Fishing ground forecasting of chub mackerel in the Yellow Sea and East China Sea using boosted regression trees[J]. Haiyang Xuebao,2015,37(10):39—48,doi:10.3969/j.issn.0253-4193.2015.10.004