汪金濤,高峰,雷林,鄒曉榮,官文江,陳新軍
(1.上海海洋大學(xué)海洋科學(xué)學(xué)院,上海 201306;2.大洋漁業(yè)資源可持續(xù)開發(fā)省部共建教育部重點實驗室,上海 201306;3.國家遠(yuǎn)洋漁業(yè)工程技術(shù)研究中心,上海 201306;4.遠(yuǎn)洋漁業(yè)協(xié)同創(chuàng)新中心,上海 201306)
基于主成分和BP神經(jīng)網(wǎng)絡(luò)的智利竹筴魚漁場預(yù)報模型研究
汪金濤1,4,高峰1,2,3,4,雷林1,2,3,4,鄒曉榮1,2,3,4,官文江1,2,3,4,陳新軍1,2,3,4
(1.上海海洋大學(xué)海洋科學(xué)學(xué)院,上海 201306;2.大洋漁業(yè)資源可持續(xù)開發(fā)省部共建教育部重點實驗室,上海 201306;3.國家遠(yuǎn)洋漁業(yè)工程技術(shù)研究中心,上海 201306;4.遠(yuǎn)洋漁業(yè)協(xié)同創(chuàng)新中心,上海 201306)
東南太平洋智利竹筴魚Trachurusmurphyi是我國大型拖網(wǎng)漁船隊的重要捕撈對象。準(zhǔn)確預(yù)報中心漁場是提高漁業(yè)生產(chǎn)能力的重要工作。本文根據(jù)2003—2009年我國船隊在東南太平洋海域捕撈智利竹筴魚的漁撈日志數(shù)據(jù),結(jié)合海洋遙感獲得的海表溫度(SST)和海面高度(SSH)等海洋環(huán)境因子,利用主成分和BP神經(jīng)網(wǎng)絡(luò)方法對智利竹筴魚中心漁場預(yù)報模型進行了研究。研究利用主成分分析法(PCA)得到累計貢獻率在90%以上樣本的主成分,綜合考慮模型測試的精度與速度,基于原始樣本和經(jīng)PCA處理后的主成分分別建立了BP模型,其最優(yōu)BP模型結(jié)構(gòu)分別為5∶10∶1和3∶7∶1。研究結(jié)果表明,經(jīng)PCA處理后的主成分所建立的BP神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練結(jié)果和測試結(jié)果上均要優(yōu)于用原始樣本建立的BP神經(jīng)網(wǎng)絡(luò)模型,兩者的預(yù)報準(zhǔn)確率分別為67%和60%。
東南太平洋;智利竹筴魚;BP神經(jīng)網(wǎng)絡(luò);主成分分析;漁場預(yù)報
東南太平洋智利竹筴魚Trachurusmurphyi是世界上重要的中上層魚類資源之一,屬于大洋性高度洄游性魚類[1],廣泛分布于東南太平洋,其產(chǎn)量一直位居世界單一魚種的前列[2-3]。準(zhǔn)確預(yù)報中心漁場是提高漁業(yè)生產(chǎn)能力的重要內(nèi)容。目前,利用海洋環(huán)境因子預(yù)報智利竹筴魚漁場已有一些研究。例如,牛明香等[4]利用廣義可加模型和案例推理預(yù)報智利竹筴魚中心漁場,崔雪森等[5]利用分類回歸樹算法預(yù)報智利竹筴魚中心漁場,張衡等[6]利用遙感數(shù)據(jù)開發(fā)了智利竹筴魚漁場預(yù)報系統(tǒng)。據(jù)前人研究,用于漁情預(yù)報的模型和方法較多,既有基于單一環(huán)境因子的漁情預(yù)報[7-8],又有基于多環(huán)境因子的漁情預(yù)報[9-10];在預(yù)報方法上,有統(tǒng)計學(xué)模型,包括一般的線性模型[11-12]、復(fù)雜的分段線性模型[13]、多項式回歸[14]、指數(shù)回歸[15-16]、分位數(shù)回歸[17]等;也有智能模型,如專家系統(tǒng)、遺傳算法、模糊推理等[18-19]。由于近實時遙感數(shù)據(jù)的缺乏,牛明香等[4]、崔雪森等[5]、張衡等[6]開發(fā)的漁情預(yù)報模型無法實行近實時的漁情預(yù)報工作。本文根據(jù)我國大型拖網(wǎng)漁船多年來在東南太平洋捕撈智利竹筴魚的生產(chǎn)統(tǒng)計數(shù)據(jù)和近實時的表溫、海面高度等遙感環(huán)境數(shù)據(jù),嘗試采用基于主成分分析的BP神經(jīng)網(wǎng)絡(luò)模型來建立漁情預(yù)報模型,并進行不同輸入因子的BP模型優(yōu)劣比較,為東南太平洋智利竹筴魚的科學(xué)生產(chǎn)提供手段。
2.1 數(shù)據(jù)及其預(yù)處理
2.1.1 數(shù)據(jù)來源
東南太平洋智利竹筴魚生產(chǎn)統(tǒng)計數(shù)據(jù)來自上海海洋大學(xué)大型拖網(wǎng)技術(shù)組,為中國大型拖網(wǎng)漁船上報的捕撈日志,數(shù)據(jù)包括作業(yè)日期、作業(yè)位置、作業(yè)船數(shù)和漁獲量,時間為2003—2009年。遙感獲得的海表溫度數(shù)據(jù)和海面高度數(shù)據(jù)來自美國OceanWatch網(wǎng)站(http://oceanwatch.noaa.gov/index.html),空間分辨率為0.25°×0.25°,時間分辨率為月。
2.1.2 數(shù)據(jù)預(yù)處理
(1)CPUE計算
CPUE(Catch per Unit Effort,t/d)為單位捕撈努力量漁獲量,作為智利竹筴魚的資源豐度指標(biāo)。智利竹筴魚生產(chǎn)數(shù)據(jù)按空間分辨率0.25°×0.25°、時間分辨率按月進行統(tǒng)計。計算月平均CPUE,計算公式如下:
式中,CPUE(i,j,m,y)表示m月y年,位置i,j的平均CPUE;C(i,j,m,y)表示m月y年,位置i,j的總產(chǎn)量;E(i,j,m,y)表示m月y年,位置i,j的總的作業(yè)船數(shù)。
(2)樣本組成
按時間、空間將智利竹筴魚生產(chǎn)數(shù)據(jù)和遙感環(huán)境數(shù)據(jù)進行匹配組成樣本集,其中輸入向量為月份、經(jīng)度、緯度、海表溫度、海面高度,輸出向量為CPUE。
2.2 建模方法
2.2.1 主成分分析方法
對神經(jīng)網(wǎng)絡(luò)而言,輸入向量維度過多時,網(wǎng)絡(luò)結(jié)構(gòu)變得復(fù)雜,網(wǎng)絡(luò)的訓(xùn)練負(fù)擔(dān)加重,學(xué)習(xí)速度急劇下降;輸入向量維度過少時,預(yù)測精度又無法達到要求。如果主觀選擇很有可能包含與輸出相關(guān)性很小的輸入變量,增加了陷入局部極小點的可能性,非但沒有提高預(yù)測精度,反而降低了神經(jīng)網(wǎng)絡(luò)預(yù)測的性能。主成分分析(Principle component analysis PCA)是將研究對象的多個相關(guān)變量指標(biāo)化為少數(shù)幾個不相關(guān)變量的一種多元統(tǒng)計方法,且這些不相關(guān)的綜合變量包含了原變量提供的大部分信息,即對原始多變量數(shù)據(jù)達到降維的目的[20]。其研究方法見文獻[21-23]。
2.2.2 誤差反向傳播網(wǎng)絡(luò)
誤差反向傳播網(wǎng)絡(luò)(Error Backpropagation Network,BP)屬于多層前向神經(jīng)網(wǎng)絡(luò),采用誤差反向傳播的監(jiān)督算法,能夠?qū)W習(xí)和存儲大量的模式映射關(guān)系,已被廣泛應(yīng)用于各個領(lǐng)域[24-25]。
BP算法主要包括學(xué)習(xí)過程信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,樣本從輸入層進入,經(jīng)隱層激活函數(shù)處理,傳向輸出層,如輸出層的實際輸出與期望的輸出不符合誤差要求,則轉(zhuǎn)入誤差的反向傳播階段。反向傳播是將誤差以某種形式通過隱層向輸入層逐層反向傳播,將誤差分?jǐn)偨o各層所有節(jié)點,從而獲得各層節(jié)點的誤差信號,此誤差信號作為修正的依據(jù)。這種信號的正向傳播與誤差的反向傳播是周而復(fù)始地進行,權(quán)值不斷調(diào)整,也就是網(wǎng)絡(luò)學(xué)習(xí)的過程。此過程一直進行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度或進行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。
3.1 CPUE分布
由圖1可知,5—10月各月CPUE較高,其中7月份CPUE最高,達到了47.13 t/d。1月份CPUE最低,為9.26 t/d。這說明5—10月為捕撈智利竹筴魚的盛產(chǎn)期,其余各月為生產(chǎn)淡季。各月CPUE的方差與CPUE變化幾乎一致(圖1)。
圖1 2003—2009年智利竹筴魚月平均CPUE及方差分布Fig.1 CPUE and its variance ofTrachurusmurphyifrom January to December during 2003 to 2009
3.2 作業(yè)區(qū)分布
圖2 2003—2009年1—12月各月智利竹筴魚CPUE(t/d)空間分布Fig.2 Monthly spatial distribution ofTrachurusmurphyifrom January to December during 2003 to 2009
從圖2可看出,生產(chǎn)淡季(1—4月,11—12月)作業(yè)次數(shù)少(圖2),生產(chǎn)旺季(5—10月)作業(yè)次數(shù)多(見圖2)。從緯度分布來看,1—12月份生產(chǎn)作業(yè)位置分布相對集中,主要集中在47°~35°S范圍(見圖2);從經(jīng)度分布來看,生產(chǎn)旺季作業(yè)位置廣泛,分布在84°~119°W海域,生產(chǎn)淡季則相對集中,分布在84°~119° W海域。各月中“△”符號出現(xiàn)的次數(shù)均較多,這說明大部分CPUE值都在30 t/d以內(nèi);除2月外,其余各月中均出現(xiàn)“○”符號,這說明每月都有零產(chǎn)量的作業(yè)次數(shù)(見圖2)。
3.3 PCA處理結(jié)果
在Matlab軟件中,用PCA方法來提取月份、經(jīng)度、緯度、海表溫度、海面高度5個變量因子的主成分,經(jīng)過標(biāo)準(zhǔn)化后的相關(guān)系數(shù)矩陣的特征值、特征向量見表1,各主成分的貢獻率、累計貢獻率見圖3。本文選取前3個主成分,這3個主成分代表原變量因子90%以上的綜合信息量,選取的主成分構(gòu)成見下式:
表1 特征值和特征向量表Tab.1 Eigen values and eigen vectors
圖3 變量因子貢獻率及累計貢獻率Fig.3 The contribution rate and cumulative contribution rate of variables
3.4 模型結(jié)構(gòu)確定、比較與測試結(jié)果
BP模型結(jié)構(gòu)的確定主要包括輸入層、隱含層、輸出層神經(jīng)元個數(shù)的確定。輸入層、輸出層神經(jīng)元個數(shù)確定以模型應(yīng)用的實際情況為依據(jù)進行確定(見圖4);隱藏層神經(jīng)元個數(shù)的確定首先根據(jù)文獻[26]中的方法確定其個數(shù)范圍為5~14,然后根據(jù)測試均方誤差(Mean Squared Error,MSE)綜合考慮測試精度與速度確定模型網(wǎng)絡(luò)結(jié)構(gòu),得出用原始數(shù)據(jù)建立的BP模型結(jié)構(gòu)為5∶10∶1,用PCA處理過的數(shù)據(jù)建立的BP模型結(jié)構(gòu)為3∶7∶1(見圖5)。
確定模型結(jié)構(gòu)后,利用原始數(shù)據(jù)建立的BP模型和經(jīng)PCA處理后的主成分建立的BP模型進行擬合,結(jié)果表明前者的模擬精度為62%,后者為68%,均具有較好的擬合效果,其中,后者模型精度好于前者模型。
同時,利用訓(xùn)練好的BP模型,對2009年智利竹筴魚中心漁場進行預(yù)報和驗證,研究結(jié)果顯示,上述2種模型預(yù)報的準(zhǔn)確率都在60%以上,經(jīng)過PCA優(yōu)化后的模型預(yù)報準(zhǔn)確率達到67%。
目前,有關(guān)東南太平洋智利竹筴魚的研究多集中在資源和漁場的時空分布變化,對其中心漁場的預(yù)報則較少[27-29]。本文利用2003—2009年智利竹筴魚生產(chǎn)數(shù)據(jù)和獲得的遙感環(huán)境數(shù)據(jù),建立了預(yù)測東南太平洋智利竹筴魚CPUE空間分布的BP神經(jīng)網(wǎng)絡(luò)模型,雖然樣本數(shù)量多,但經(jīng)過主成分分析之后再訓(xùn)練BP模型,不但使得模型的規(guī)模減小,而且數(shù)據(jù)所包含的信息相對比較充分,因此網(wǎng)絡(luò)的訓(xùn)練速度加快,網(wǎng)絡(luò)的泛化能力反而得到提升。另外,兩種方法建立的BP模型所預(yù)測的結(jié)果及其變化趨勢是一致的,這說明用BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測智利竹筴魚中心漁場的方法是可行的。
圖4 BP模型結(jié)構(gòu)Fig.4 The structure of BP model
圖5 不同隱藏層神經(jīng)元個數(shù)下BP模型的MSE比較Fig.5 The MSE of BP models with different nodes in hidden layer
本文雖然利用的海洋環(huán)境數(shù)據(jù)偏少,但均可以近實時地獲得,從而使得預(yù)報模型能夠進行近實時業(yè)務(wù)化運行,比前人的研究[4-6]更具有實際的應(yīng)用價值。在預(yù)報精度上,本文模型利用有限的近實時環(huán)境數(shù)據(jù)基本上達到了前人研究的預(yù)報模型的精度,其最高預(yù)報精度達到了67%,相信未來隨著遙感技術(shù)的發(fā)展獲得更多的近實時數(shù)據(jù)可進一步提高模型預(yù)報精度。
由公式(2)的主成分分析發(fā)現(xiàn),海表溫度SST均有較高的權(quán)重,在第一、第二和第三主成分中,其SST的權(quán)重分別為0.416 3、0.468 9和0.622 5,而SSH的權(quán)重分別為0.515 6、0.089 2和-0.025 5,這說明SST對智利竹筴魚的棲息地和中心漁場有著重要影響,這一研究與前人研究[2,4-6,27-29]中均選取SST作為重要因子是一致的。
此外,神經(jīng)網(wǎng)絡(luò)模型是典型的“黑盒模型”,其權(quán)重不具備可解釋性。但在生態(tài)學(xué)研究中,國外已有學(xué)者初步總結(jié)了幾種方法去解釋變量與權(quán)重的關(guān)系,如神經(jīng)網(wǎng)絡(luò)解釋圖法(Neural Interpretation Diagram NID)、Garson算法、靈敏度分析法(Sensitivity analysis)、隨機測試法(Randomization test)等[30-31]。今后可嘗試使用這些方法解釋模型,例如輸入變量中的環(huán)境因子與輸出CPUE關(guān)系,不但說明環(huán)境因子對漁場預(yù)報的重要性,而且也提供了一種解釋環(huán)境因子與中心漁場關(guān)系的方法。
[1] 鄒莉瑾,張敏,鄒曉榮,等.東南太平洋公海智利竹筴魚年齡與生長研究[J].上海海洋大學(xué)學(xué)報,2010,19(1):61-67.
[2] 方宇,鄒曉榮,張敏,等.東南太平洋智利竹筴魚棲息地指數(shù)的比較研究[J].海洋漁業(yè),2010,32(2):178-185.
[3] FAO.The state of world fisheries and aquaculture[R].Rome:FAO,1996-2007.
[4] 牛明香,李顯森,徐玉成.基于廣義可加模型和案例推理的東南太平洋智利竹筴魚中心漁場預(yù)報[J].海洋環(huán)境科學(xué),2012,31(1):30-33.
[5] 崔雪森,伍玉梅,張晶,等.基于分類回歸樹算法的東南太平洋智利竹筴魚漁場預(yù)報[J].中國海洋大學(xué)學(xué)報(自然科學(xué)版),2012,42(7/8):53-59.
[6] 張衡,崔雪森,樊偉.基于遙感數(shù)據(jù)的智利竹筴魚漁場預(yù)報系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報,2012,28(15):140-144.
[7] 陳新軍,趙小虎.西南大西洋阿根廷滑柔魚產(chǎn)量分布與表溫關(guān)系的初步研究[J].大連水產(chǎn)學(xué)院學(xué)報,2005,20(3):222-228.
[8] 方舟,陳新軍,李建華,等.阿根廷專屬經(jīng)濟區(qū)內(nèi)魷釣漁場分布及其與表溫關(guān)系[J].上海海洋大學(xué)學(xué)報,2013,22(1):134-140.
[9] 高峰,陳新軍,范江濤,等.西南大西洋阿根廷滑柔魚中心漁場預(yù)報的實現(xiàn)及驗證[J].上海海洋大學(xué)學(xué)報,2011,20(5):754-758.
[10] 陳新軍,陸化杰,劉必林,等.利用棲息地指數(shù)預(yù)測西南大西洋阿根廷滑柔魚漁場[J].上海海洋大學(xué)學(xué)報,2012,21(3):431-438.
[11] 王為祥,朱德山.黃海鮐魚漁業(yè)生物學(xué)研究:Ⅱ.黃、渤海鮐魚行動分布與環(huán)境關(guān)系的研究[J].海洋水產(chǎn)研究,1984(6):59-76.
[12] 韋晟,周彬彬.黃渤海藍(lán)點馬鮫短期漁情預(yù)報的研究[J].海洋學(xué)報,1988,10(2):216-221.
[13] 陳新軍,馮波,許柳雄.印度洋大眼金槍魚棲息地指數(shù)研究及其比較[J].中國水產(chǎn)科學(xué),2008,15(2):269-278.
[14] 邵全琴,馬巍巍,陳卓奇,等.西北太平洋黑潮路徑變化與柔魚CPUE的關(guān)系研究[J].海洋與湖沼,2005,36(2):111-122.
[15] 劉傳楨,嚴(yán)雋箕,崔維喜.渤海秋汛對蝦數(shù)量預(yù)報方法的研究[J].水產(chǎn)學(xué)報,1981,5(1):65-73.
[16] 陳新軍,劉必林,田思泉,等.利用基于表溫因子的棲息地模型預(yù)測西北太平洋柔魚(Ommastrephesbartramii)漁場[J].海洋與湖沼,2009,40(6):707-713.
[17] 馮波,田思泉,陳新軍.基于分位數(shù)回歸的西南太平洋阿根廷滑柔魚棲息地模型研究[J].海洋湖沼通報,2010(1):15-22.
[18] 樊偉,崔雪森,沈新強.漁場漁情分析預(yù)報的研究及其進展[J].水產(chǎn)學(xué)報,2005,29(5):706-710.
[19] 易倩,陳新軍.基于信息增益法選取柔魚中心漁場的關(guān)鍵水溫因子[J].上海海洋大學(xué)學(xué)報,2012,21(3):425-430.
[20] 梁娜.基于神經(jīng)網(wǎng)絡(luò)與主成分分析的組合預(yù)測研究[D].武漢:武漢理工大學(xué),2007.
[21] Johnson R A,Wichern D W.Applied Multivariate Statistical Analysis[M].Upper Saddle River,NJ:Prentice Hall,2002.
[22] 何曉群.現(xiàn)代統(tǒng)計分析方法與應(yīng)用[M].北京:中國人民大學(xué)出版社,2007.
[23] 于秀林,任雪松.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,1999.
[24] Benediktsson J A,Swain P H,Ersoy O K.Neural network approaches versus statistical methods in classification of multisource remote sensing data[J].IEEE Transactions on Geoscience and Remote Sensing,1990,28(4):540-552.
[25] Hush D R,Horne B G.Progress in supervised neural networks[J].IEEE Signal Processing Magazine,1993,10(1):8-39.
[26] 劉維群,李元臣.BP網(wǎng)絡(luò)中隱含層節(jié)點優(yōu)化的研究[J].交通與計算機,2005,23(2):83-86.
[27] 化成君,張衡,樊偉.東南太平洋智利竹筴魚資源和漁場的時空變化[J].生態(tài)學(xué)報,2011,31(19):5676-5681.
[28] 張衡,張勝茂.東南太平洋智利竹筴魚漁場及單位捕撈努力量的時空分布[J].生態(tài)學(xué)雜志,2011,30(6):1142-1146.
[29] 牛明香,李顯森,徐玉成.基于廣義可加模型的時空和環(huán)境因子對東南太平洋智利竹筴魚漁場的影響[J].應(yīng)用生態(tài)學(xué)報,2010,21(4):1049-1055.
[30] Olden J D,Jackson D A.Illuminating the“black box”:a randomization approach for understanding variable contributions in artificial neural networks[J].Ecological Modelling,2002,154(1):135-150.
[31] ?zesmi S L,?zesmi U.An artificial neural network approach to spatial habitat modelling with interspecific interaction[J].Ecological Modelling,1999,116(1):15-31.
Application of BP neural network based on principal component analysis in fishing grounds of chilean jack mackerel (Trachurus murphyi)in the southeast Pacific Ocean
Wang Jintao1,4,Gao Feng1,2,3,4,Lei Lin1,2,3,4,Zou Xiaorong1,2,3,4Guan Wenjiang1,2,3,4,Chen Xinjun1,2,3,4
(1.College of Marine Sciences of Shanghai Ocean University,Shanghai 201306,China;2.The Key Laboratory of Sustainable Exploitation of Oceanic Fisheries Resources,Shanghai Ocean University,Ministry of Education,Shanghai 201306,China 3.National Distant-water Fisheries Engineering Research Center,Shanghai Ocean University,Shanghai 201306,China;4.Collaborative Innovation Center for Distant-water Fisheries,Shanghai 201306,China)
Chilean jack mackerel(Trachurusmurphyi)is an important target species for Chinese factory trawler fleet in the southeast Pacific Ocean,and the accurate forecasting of fishing ground can provide better scientific guidance for fishing operation.In this paper,we built the forecasting models by using the methods of principal component analysis(PCA)and BP neural networks according to the catch data from the logbooks and fishing yield statistics from Chinese factory trawler fleets,the sea surface temperature(SST)and sea surface height(SSH)obtained by satellite remote sensing from 2003 to 2009.Based on the PCA,we got the principal components of different factors.We also determined the two suitable model structures by using the original-samples and PCA-processed-samples combined with the accuracy of models,respectively.It is found that the model used by PCA-processed-samples is better than that model used by original-sampled based on the results of training and test,and their accuracy rates were 67%and 60%respectively.
southeast Pacific;Trachurusmurphyi;BP neural network;principal component analysis;fishing ground forecasting
A
0253-4193(2014)08-0065-07
2013-05-07;
2014-01-11。
國家863計劃(2012AA092301);國家發(fā)改委產(chǎn)業(yè)化專項(2159999);上海市科技創(chuàng)新行動計劃(12231203900)和國家科技支撐計劃(2013BAD13B01)。
汪金濤(1987-),男,安徽省安慶市人,博士生,研究方向為漁業(yè)資源學(xué)。E-mail:wangjintao0510@163.com
*通信作者:陳新軍(1967-),男,教授。E-mail:xjchen@shou.edu.cn
汪金濤,高峰,雷林,等.基于主成分和BP神經(jīng)網(wǎng)絡(luò)的智利竹筴魚漁場預(yù)報模型研究[J].海洋學(xué)報,2014,36(8):65—71,
10.3969/j.issn.0253-4193.2014.08.007
Wang Jintao,Gao Feng,Lei Lin,et al.Application of BP neural network based on principal component analysis in fishing grounds of Chilean jack mackerel(Trachurusmurphyi)in the southeast Pacific Ocean[J].Acta Oceanologica Sinica(in Chinese),2014,36(8):65—71,doi:10.3969/j.issn.0253-4193.2014.08.007