邱文欽, 唐存寶, 唐強(qiáng)榮
(廣州航海學(xué)院 海運(yùn)學(xué)院,廣州 510725)
隨著經(jīng)濟(jì)社會(huì)的不斷發(fā)展,港口航運(yùn)業(yè)面臨著空前的發(fā)展機(jī)遇。然而,由于船舶大型化的趨勢(shì)和船舶交通量的迅猛增長(zhǎng),通航環(huán)境日益復(fù)雜。風(fēng)險(xiǎn)管理的指導(dǎo)理念從事故后的安全有效處理逐步向事故前的風(fēng)險(xiǎn)評(píng)估轉(zhuǎn)變[1]。針對(duì)船舶進(jìn)港航道通航環(huán)境風(fēng)險(xiǎn)評(píng)估成為眾多研究關(guān)注的焦點(diǎn),有關(guān)學(xué)者采用事故樹分析法[2]、模糊理論[3-4]、粗糙集理論[5-6],貝葉斯理論[7-8]、云模型[9]、系統(tǒng)動(dòng)力學(xué)[10]和蒙特卡洛仿真[9, 11]等定性或定量的方法針對(duì)船舶通航風(fēng)險(xiǎn)進(jìn)行深入的研究,且取得一定的成果。雖然這些方法在通航風(fēng)險(xiǎn)評(píng)估工作中發(fā)揮重要作用,但卻存在著比較明顯的局限性:缺乏針對(duì)風(fēng)險(xiǎn)概率不確定性的考量。上述傳統(tǒng)通航風(fēng)險(xiǎn)評(píng)價(jià)理論或方法大多已比較成熟,且適用于各自不同的背景。然而,水上交通風(fēng)險(xiǎn)往往包含隨機(jī)性、模糊性和不完整性等信息[12],需要從不確定性角度對(duì)風(fēng)險(xiǎn)概率進(jìn)行量化。據(jù)此,本文結(jié)合高斯混合聚類模型(Gaussian Mixture Model,GMM)和概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network,PNN)的特點(diǎn),構(gòu)建基于GMM-PNN模型的船舶進(jìn)港航道通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)模型。
建立一個(gè)科學(xué)、合理的通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)體系是完成通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)過程中最重要的步驟之一,一個(gè)評(píng)價(jià)體系的質(zhì)量好壞直接影響著最后的評(píng)估結(jié)果。本研究在嚴(yán)格遵守風(fēng)險(xiǎn)評(píng)價(jià)體系建立時(shí)所需的科學(xué)性、系統(tǒng)性、層次性、綜合性和可操作性等原則的基礎(chǔ)上,廣泛收集相關(guān)研究的文獻(xiàn)和參考行業(yè)內(nèi)專家的意見,建立船舶進(jìn)港航道通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)體系見表1。
聚類是指將物理或者抽象對(duì)象按照一定的相似度進(jìn)行分組的過程,其中相似度是根據(jù)被描述對(duì)象的屬性值來進(jìn)行度量的,距離是我們最常用到的度量方式。GMM是一種典型的聚類方法,已在實(shí)際中得到廣泛的應(yīng)用。
GMM與聚類方法中最經(jīng)典的k-means方法十分類似,兩者最重要的區(qū)別在于GMM引入概率。GMM的主要思想是訓(xùn)練出若干個(gè)概率分布,對(duì)樣本的概率密度分布進(jìn)行估計(jì),而估計(jì)的模型即為高斯模型加權(quán)之和。每個(gè)高斯模型即代表一個(gè)簇。最后,針對(duì)樣本數(shù)據(jù)進(jìn)行投影,則可得到各高斯模型分別在各個(gè)簇上的概率?;旌细咚鼓P偷亩x為
(1)
式(1)中:k為數(shù)據(jù)點(diǎn)個(gè)數(shù);πk為第k個(gè)高斯的權(quán)重;p(x|k)為第k個(gè)高斯的概率密度函數(shù)。
在進(jìn)行參數(shù)估計(jì)時(shí),常常會(huì)采用最大似然法,即使得數(shù)據(jù)點(diǎn)在估計(jì)的概率密度函數(shù)上的概率值最大。因?yàn)楦怕手低?,所以?dāng)聯(lián)乘時(shí)結(jié)果會(huì)非常小,一般會(huì)取對(duì)數(shù),因此目標(biāo)函數(shù)可改為
(2)
式(2)中:μk為p(x|k)的均值;σk為p(x|k)的方差。
高斯混合模型中求解最常用的方法是EM算法,主要分為3步:
1)對(duì)第i個(gè)數(shù)據(jù)點(diǎn)而言,它由第k個(gè)高斯模型生成的概率為
(3)
式(3)中:j為上一步驟的數(shù)據(jù)點(diǎn)。
2)在得到每一個(gè)點(diǎn)的概率以后,對(duì)于樣本xi而言,其概率值由第k個(gè)高斯模型產(chǎn)生。用上文提到的最大似然法進(jìn)行估計(jì):
(4)
(5)
(6)
3)重復(fù)步驟1)和2),直到收斂。
PNN是一種基于統(tǒng)計(jì)原理的前饋性人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN),它的基本思想是貝葉斯決策規(guī)則將錯(cuò)誤分類的期望風(fēng)險(xiǎn)最小化,在多維輸入空間內(nèi)進(jìn)行決策。PNN將徑向基神經(jīng)網(wǎng)絡(luò)的特點(diǎn)與經(jīng)典的統(tǒng)計(jì)學(xué)結(jié)合,在模式識(shí)別等方面具有良好的效果。
2.2.1貝葉斯決策理論
貝葉斯決策理論,又稱貝葉斯最小風(fēng)險(xiǎn)準(zhǔn)則,是PNN的理論基礎(chǔ)。假設(shè)求解問題為一個(gè)二分類問題:q=q1或q=q2,其先驗(yàn)概率分別為x1=p(q1),x2=p(q2),x1+x2=1。
給定問題的初始向量c=[c1,c2, …,cN],根據(jù)以下條件進(jìn)行分類:
(7)
根據(jù)貝葉斯公式,后驗(yàn)概率為
(8)
當(dāng)對(duì)求解問題進(jìn)行決策時(shí),應(yīng)使得初始向量落在后驗(yàn)概率較大的類別里面。而且在實(shí)際應(yīng)用中還應(yīng)當(dāng)考慮到風(fēng)險(xiǎn)和損失,樣本分類出錯(cuò)引起的損失往往很大,因此需要調(diào)整規(guī)則。定義動(dòng)作αi為將初始向量分配到qi的動(dòng)作,βij為初始向量屬于qi時(shí)采取αi所造成的損失,則采取αi的期望風(fēng)險(xiǎn)為
R(q1c)=β12p(q2c)
(9)
則貝葉斯判定規(guī)則變?yōu)?/p>
(10)
以概率密度函數(shù)的方式進(jìn)行表達(dá),則為
(11)
q=qi,i=argmin(R(qic))
(12)
式(12)中:fi為類別ci的概率密度函數(shù)。
2.2.2概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
PNN與傳統(tǒng)的ANN結(jié)構(gòu)大致相同,由輸入層、隱含層、求和層和輸出層等組成,而其中最大的區(qū)別在于PNN有一個(gè)求和層,具體結(jié)構(gòu)見圖1。
需要指出的是PNN的隱含層為徑向基層,每一個(gè)隱含層的神經(jīng)元節(jié)點(diǎn)為一個(gè)中心,該中心計(jì)算輸入向量到隱含層的距離,輸出一個(gè)標(biāo)量。隱含層中第i類模式的第j神經(jīng)元所確定的輸入和輸出關(guān)系為
(13)
式(13)中:d為樣本空間數(shù)據(jù)的維度;xij為第i類樣本的第j個(gè)中心。將同一類隱含神經(jīng)元各個(gè)輸出進(jìn)行加權(quán)平均為
(14)
式(14)中:δi為第i類的輸出;M為第i類神經(jīng)元的個(gè)數(shù)。輸出層取求和層中最大的為輸出:y=argmax(δi)。而在實(shí)際過程中,徑向基函數(shù)應(yīng)為輸入向量與加權(quán)系數(shù)的乘積:Zi=xwi。假設(shè)x和w均已實(shí)現(xiàn)標(biāo)準(zhǔn)化,則對(duì)結(jié)果結(jié)果進(jìn)行徑向基計(jì)算為
即
(15)
式(15)中:σ為平滑因子,在PNN網(wǎng)絡(luò)中起著舉足輕重的作用。求和層的輸出與概率密度估計(jì)成正比,通過對(duì)輸出層的歸一化,可得到各分類的概率估計(jì)。
根據(jù)高斯混合聚類模型及概率神經(jīng)網(wǎng)絡(luò)的特點(diǎn),以概率為切入點(diǎn)對(duì)他們進(jìn)行整合。高斯混合聚類模型是一種無監(jiān)督的聚類分析,它實(shí)際上是幾個(gè)正態(tài)分布的疊加,每一個(gè)正態(tài)分布代表著一個(gè)類別。高斯混合聚類與常用的k-means聚類最大的區(qū)別在于后者為硬分類,一個(gè)樣本要么屬于A,要么屬于B。前者屬于軟分類,例如一個(gè)樣本有60%可能屬于A,有40%可能屬于B。概率神經(jīng)網(wǎng)絡(luò)針對(duì)概率密度函數(shù)有一個(gè)十分重要的假設(shè):各分類的概率密度函數(shù)形態(tài)相同,且此共同的概率密度函數(shù)為高斯分布。因此,兩個(gè)模型能夠有機(jī)結(jié)合,通過概率方式充分反映內(nèi)河航道通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)過程中的不確定性問題(見圖2)。
圖1 PNN網(wǎng)絡(luò)結(jié)構(gòu)圖2 GMM-PNN模型
基于GMM-PNN的船舶進(jìn)港航道通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)體系具有如下的顯著優(yōu)點(diǎn):
(1)針對(duì)風(fēng)險(xiǎn)進(jìn)行有效的定量分析。以概率為切入點(diǎn),將GMM和PNN進(jìn)行有機(jī)的整合;
(2)對(duì)通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)因子的輸入過程具有較強(qiáng)的容錯(cuò)性。由于BP神經(jīng)網(wǎng)絡(luò)具有容易出現(xiàn)局部最小值的缺陷,而GMM-PNN采用非線性的映射函數(shù)方式,有效避免了這一問題;
(3)可實(shí)現(xiàn)任意的非線性逼近。用PNN網(wǎng)絡(luò)形成的判決曲面與貝葉斯最優(yōu)準(zhǔn)則下的曲面非常接近。
本研究以廣州虎門港區(qū)、黃埔港區(qū)及北海港老港區(qū)、石步嶺港區(qū)等水域67段深水航道為例進(jìn)行風(fēng)險(xiǎn)評(píng)價(jià)。通過廣泛查閱歷史數(shù)據(jù),統(tǒng)計(jì)相關(guān)水域2015年1月—12月的水文氣象情況,獲取自然環(huán)境指標(biāo)下能見度、風(fēng)及流等指標(biāo)的具體數(shù)值。在2016年3月—6月期間,分別對(duì)相關(guān)港口進(jìn)行實(shí)地調(diào)研,獲取了航道條件以及交通環(huán)境指標(biāo)的各項(xiàng)具體數(shù)值(見表2)。
表2 港口深水航道參數(shù)值
首先,對(duì)表2中各航道參數(shù)數(shù)據(jù)進(jìn)行歸一化處理,然后根據(jù)式(1)將目標(biāo)函數(shù)設(shè)置為進(jìn)港航道通航環(huán)境風(fēng)險(xiǎn)度,其中A21、A22、A34、A35為使風(fēng)險(xiǎn)度降低因素,其值越大風(fēng)險(xiǎn)度越低。A11、A12、A13、A23、A24、A25、A26、A31、A32、A33為風(fēng)險(xiǎn)度升高因素,其值越大風(fēng)險(xiǎn)度越高。對(duì)相關(guān)要素進(jìn)行高斯混合聚類,結(jié)果見圖3。圖3中:類別1為低風(fēng)險(xiǎn)性航道;類別2為高風(fēng)險(xiǎn)性航道。
圖3 高斯混合聚類結(jié)果
概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的形成需要合理地設(shè)置隱含層,為此,我們采用經(jīng)驗(yàn)方程
(16)
式(16)中:a為1~10的常數(shù);m為輸入層神經(jīng)元個(gè)數(shù);n為輸出層神經(jīng)元個(gè)數(shù)。接著選取47組航道參數(shù)數(shù)據(jù)作為訓(xùn)練集,10組航道參數(shù)數(shù)據(jù)作為測(cè)試集,10組數(shù)據(jù)作為驗(yàn)證集。具體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖4。
圖4中:w為權(quán)重;b為常數(shù)項(xiàng);67為輸入網(wǎng)絡(luò)數(shù);14為中間神經(jīng)元網(wǎng)絡(luò)數(shù)。網(wǎng)絡(luò)的迭代次數(shù)設(shè)為1 000。訓(xùn)練結(jié)果和誤差見圖5。
圖4 PNN訓(xùn)練結(jié)果及誤差
a) PNN訓(xùn)練結(jié)果
b) PNN訓(xùn)練誤差
由圖5可知:誤差一直控制在0.5以下,模型表現(xiàn)良好。
隨機(jī)選取20組驗(yàn)證集,采用所構(gòu)建好的模型進(jìn)行風(fēng)險(xiǎn)度預(yù)測(cè),結(jié)果顯示有7組航道為高風(fēng)險(xiǎn)性航道,13組為低風(fēng)險(xiǎn)性航道。同時(shí),采用問卷調(diào)查的方式,對(duì)航道的風(fēng)險(xiǎn)進(jìn)行定性評(píng)價(jià),結(jié)果見表3。由表3可知,模型的準(zhǔn)確率高達(dá)90%。
表3 模型結(jié)果驗(yàn)證
1)引入GMM-PNN模型對(duì)內(nèi)河航道通航環(huán)境進(jìn)行定量風(fēng)險(xiǎn)評(píng)價(jià)。針對(duì)傳統(tǒng)通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)缺乏不確定性考量的不足,利用高斯混合聚類軟分類以及概率神經(jīng)網(wǎng)絡(luò)中概率密度函數(shù)分布的特點(diǎn),對(duì)內(nèi)河航道通航環(huán)境風(fēng)險(xiǎn)不確定性進(jìn)行有效量化。
2)針對(duì)風(fēng)險(xiǎn)進(jìn)行有效的定量分析,且模型對(duì)通航環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)因子的輸入過程具有較強(qiáng)的容錯(cuò)性,可以實(shí)現(xiàn)任意的非線性逼近。