李飛,盧勇奪,林波,陳哲,劉思晗,徐騰
(國(guó)家海洋環(huán)境預(yù)報(bào)中心,北京100081)
?
初探支持向量機(jī)算法在海洋站觀測(cè)數(shù)據(jù)質(zhì)量控制中的應(yīng)用
李飛,盧勇奪,林波,陳哲,劉思晗,徐騰
(國(guó)家海洋環(huán)境預(yù)報(bào)中心,北京100081)
摘要:為了有效提高海洋觀測(cè)數(shù)據(jù)的質(zhì)量,初步探索引入了一種統(tǒng)計(jì)學(xué)習(xí)算法——支持向量域描述(SVDD)用于海洋站多要素?cái)?shù)據(jù)質(zhì)量控制,建立了一套基于SVDD的多要素?cái)?shù)據(jù)質(zhì)控方法。該方法擁有懲罰系數(shù)C、RBF核參數(shù)、質(zhì)控調(diào)節(jié)因子ΔR等多個(gè)參數(shù),利用歷史樣本觀測(cè)數(shù)據(jù)訓(xùn)練構(gòu)建質(zhì)量控制模型,通過(guò)該模型實(shí)現(xiàn)海洋觀測(cè)數(shù)據(jù)質(zhì)量控制。本文利用真實(shí)觀測(cè)數(shù)據(jù)對(duì)該方法進(jìn)行了分析檢驗(yàn),驗(yàn)證了該方法能夠有效分析數(shù)據(jù)質(zhì)量、發(fā)現(xiàn)可疑數(shù)據(jù),對(duì)提高海洋觀測(cè)資料的可靠性、科學(xué)性具有一定借鑒價(jià)值。
關(guān)鍵詞:質(zhì)量控制;SVM;SVDD;海洋數(shù)據(jù);多要素檢驗(yàn)
海洋觀測(cè)數(shù)據(jù)是人們認(rèn)識(shí)、開(kāi)發(fā)與利用海洋的重要基礎(chǔ)。海洋環(huán)境監(jiān)測(cè)站,簡(jiǎn)稱海洋站,其海洋觀測(cè)設(shè)施能夠?qū)?、鹽度、潮位及波浪要素等進(jìn)行綜合觀測(cè)。海洋觀測(cè)數(shù)據(jù)是制作海洋預(yù)報(bào)、警報(bào)和研究海洋變化的基礎(chǔ)資料,其質(zhì)量狀況直接影響著海洋預(yù)報(bào)、警報(bào)和海洋變化研究的準(zhǔn)確性。由于海洋站觀測(cè)儀器所處惡劣環(huán)境的影響以及儀器本身的不穩(wěn)定性等因素,某些觀測(cè)值難免存在錯(cuò)誤或多種觀測(cè)值出現(xiàn)原理上的矛盾,所表征的海洋狀況與實(shí)際海洋狀況出現(xiàn)一定的偏差。為了減少這些情況的出現(xiàn),數(shù)據(jù)質(zhì)量控制是必不可少的,其重要性也是眾所周知。但當(dāng)前所采用的海洋觀測(cè)數(shù)據(jù)質(zhì)量控制方法卻比較簡(jiǎn)單,一般主要采用的有極值控制法、3-Sigma檢驗(yàn)法、一致性檢驗(yàn)法、狄克遜檢驗(yàn)法等,且多為單一要素質(zhì)量控制的方法[1]。
本文嘗試引入了支持向量機(jī)(Support Vector Machine,SVM)[2]的變型算法—支持向量與描述(Support Vector Domain Description,SVDD)[3]算法,該算法是基于統(tǒng)計(jì)學(xué)習(xí)理論[4]構(gòu)建,可實(shí)現(xiàn)多維樣本空間內(nèi)的學(xué)習(xí)和分類功能,它的超球面模型可應(yīng)用于判決數(shù)據(jù)的可靠性。基于SVDD構(gòu)建的數(shù)據(jù)質(zhì)量控制系統(tǒng)可利用海洋歷史觀測(cè)資料自動(dòng)學(xué)習(xí),生成數(shù)據(jù)質(zhì)量控制模型,并對(duì)新的觀測(cè)數(shù)據(jù)進(jìn)行診斷和分析,當(dāng)發(fā)現(xiàn)可疑數(shù)據(jù)時(shí)將給予標(biāo)注提示,為海洋預(yù)報(bào)人員與研究者提供參考。最后,本文以海洋站實(shí)際觀測(cè)資料為例,分析、探討了基于SVDD的多要素海洋站觀測(cè)數(shù)據(jù)質(zhì)量控制方法的可行性與優(yōu)越性。
SVM是一種當(dāng)前流行的模式識(shí)別算法,被廣泛應(yīng)用于人臉識(shí)別、說(shuō)話人識(shí)別、手寫識(shí)別、圖像識(shí)別、時(shí)間序列預(yù)測(cè)、金融工程、地球物理反演、數(shù)據(jù)挖掘等領(lǐng)域中[5-7]。SVDD是SVM的一種變型算法,在樣本空間中對(duì)樣本數(shù)據(jù)的分布規(guī)律進(jìn)行學(xué)習(xí),在樣本空間中劃定一個(gè)區(qū)域,并依此作為判決依據(jù)。在多要素的質(zhì)量控制中,特定的幾種觀測(cè)要素組成一個(gè)多維樣本空間,SVDD會(huì)為輸入的樣本計(jì)算出一個(gè)超球面的決策邊界,該邊界在樣本空間中描述了各要素之間的關(guān)系,并將整個(gè)空間劃分為兩部分。一部分是邊界內(nèi)的空間,是接受的部分,在數(shù)據(jù)質(zhì)量控制中,落在這部分空間中的樣本點(diǎn)可以被看作正常的觀測(cè)數(shù)據(jù);另一部分則是邊界外的空間,是拒絕的部分,落在這部分空間中的樣本點(diǎn)是被質(zhì)疑的觀測(cè)數(shù)據(jù)。
在訓(xùn)練的過(guò)程中,通過(guò)控制超球的大小和形狀使超球的含義不僅僅是分開(kāi)兩類,而且還要把球里面的樣本盡量包“牢”和包“純”,拒絕其它類樣本的進(jìn)入。這也就是既要求SVDD模型包含盡可能多的樣本點(diǎn),另一方面又要求它的半徑達(dá)到最小,因?yàn)橐粋€(gè)半徑無(wú)窮大的超球面在描述要素空間分布狀態(tài)時(shí)沒(méi)有任何意義[8]。這樣得到的質(zhì)量控制模型可以盡可能多地接受正常的觀測(cè)數(shù)據(jù),并拒絕異常的數(shù)據(jù)。
基于SVDD的質(zhì)量控制系統(tǒng)的工作流程如圖1所示。
圖1 SVDD的質(zhì)量控制系統(tǒng)的工作流程
系統(tǒng)訓(xùn)練的對(duì)象是整年的觀測(cè)數(shù)據(jù),然而各年度的氣候特點(diǎn)不同,一年中的四季也不同。因此將全部數(shù)據(jù)進(jìn)行一次訓(xùn)練而建出的模型是不能滿足實(shí)際需求的。類似于聲紋識(shí)別中短時(shí)平穩(wěn)的理論,本文采取滑動(dòng)時(shí)間窗的方式,將一年分為24個(gè)時(shí)間段,將各時(shí)間段分開(kāi)建立相應(yīng)的模型,從而提高模型在較短時(shí)間內(nèi)的準(zhǔn)確度。本文通過(guò)時(shí)間跨度為1個(gè)月的樣本訓(xùn)練時(shí)間跨度為15 d的模型,隨著窗體向右滑動(dòng)訓(xùn)練出不同時(shí)間段的質(zhì)量控制模型,如圖2所示。
生成的24個(gè)質(zhì)量控制模型對(duì)應(yīng)著一年中24個(gè)不同的時(shí)間段,在質(zhì)量控制時(shí),系統(tǒng)根據(jù)被檢驗(yàn)數(shù)據(jù)的日期,調(diào)用相應(yīng)時(shí)間段的質(zhì)控模型對(duì)該數(shù)據(jù)進(jìn)行檢測(cè)。
圖2滑動(dòng)時(shí)間窗示意圖
設(shè)在由N種海洋觀測(cè)要素組成的N維空間中存在一組訓(xùn)練樣本集X=,i=1,2,…,M},其樣本i表示N種海洋要素組成的第i個(gè)樣本向量。通過(guò)該樣本集可以在N維空間中確定出一個(gè)半徑為R,球心為的超球面。該超球面所包圍的空間是樣本集X 在N維要素空間中的分布范圍,即有下式成立:
為了使分布范圍更加準(zhǔn)確,超球面應(yīng)更多的包含樣本向量,且更少的包含沒(méi)有樣本向量存在的空間,需要保證超球面的半徑R最小。因此,引入拉格朗日算子,可以構(gòu)建一個(gè)拉格朗日函數(shù)使上式取得最小值:
式中:拉格朗日算子αi0。對(duì)式(3)求偏導(dǎo),并令其導(dǎo)數(shù)為0,可以得到以下條件:
將式(4)(5)帶入(3)中可以得到:
通過(guò)二次規(guī)劃算法得到最優(yōu)的αi使式(6)最小,滿足半徑R最小的要求,從而更加準(zhǔn)確的描述了樣本所在的空間位置。
由于由海洋觀測(cè)要素構(gòu)成的訓(xùn)練樣本質(zhì)量存在不確定因素,即使經(jīng)過(guò)人工檢驗(yàn)后的樣本數(shù)據(jù)也可能會(huì)有異常值的存在。從樣本空間位置上看,這些異常樣本往往會(huì)距離樣本點(diǎn)聚集區(qū)域較遠(yuǎn),若使超平面要包含所有樣本點(diǎn)的話,勢(shì)必會(huì)對(duì)空間區(qū)域描述的性能帶來(lái)很大損失,影響質(zhì)控模型的準(zhǔn)確性。為了降低異常樣本對(duì)質(zhì)控模型的影響,需要引入松弛因子εi進(jìn)入式(1):
然后,引入一個(gè)常數(shù)C作為懲罰系數(shù),控制超球面發(fā)生錯(cuò)誤接受與錯(cuò)誤拒絕的概率。得到下式:
上式與式(6)的形式基本一致,但是它們?cè)诙我?guī)劃優(yōu)化的時(shí)候αi的取值范圍是不同的。懲罰系數(shù)C表示了訓(xùn)練時(shí)分界面對(duì)訓(xùn)練樣本的拒絕率。在訓(xùn)練樣本數(shù)據(jù)經(jīng)過(guò)人工質(zhì)控或質(zhì)量較高的情況下,訓(xùn)練時(shí)C的取值較小,反之C的取值較大,從而降低異常數(shù)據(jù)對(duì)模型的影響。以二維數(shù)據(jù)為例,在C比較小的情況下,落入超球面內(nèi)的訓(xùn)練樣本會(huì)比較多,反之在超球面外的樣本會(huì)比較多??梢酝ㄟ^(guò)調(diào)整C的大小來(lái)控制質(zhì)控模型誤接受與誤質(zhì)疑的概率以滿足實(shí)際的需求。
所有α≠0的樣本點(diǎn)被稱為支持向量,保留支持向量與其α值作為訓(xùn)練結(jié)果。因?yàn)樵谧R(shí)別的過(guò)程中,α=0的訓(xùn)練樣本點(diǎn)對(duì)于識(shí)別沒(méi)有任何作用,而只會(huì)增加后續(xù)運(yùn)算的計(jì)算量,對(duì)判決超平面起決定性作用的是支持向量[9],這一點(diǎn)從下節(jié)式(13)中可以看出。
SVDD作為一種非標(biāo)準(zhǔn)與標(biāo)準(zhǔn)SVM一樣,SVDD也可以使用不同的和函數(shù)以適應(yīng)解決不同的問(wèn)題。引入核函數(shù)K(x,xi)之后式(11)可化為:
圖3不同懲罰系數(shù)下的超球面示意圖
本文采用RBF非線性核函數(shù)[10],由圖4可以看出不同的非線性參數(shù)σ對(duì)超球面邊界的影響。隨著σ的增大,超球面的邊界逐漸變得平滑,最終趨近于球面。
至此,由支持向量、拉格朗日算子αi構(gòu)成的數(shù)據(jù)質(zhì)量控制模型已訓(xùn)練完成,該模型表示了N維要素空間中觀測(cè)數(shù)據(jù)樣本的分布范圍特點(diǎn)。
在使用質(zhì)控模型進(jìn)行質(zhì)量控制的階段,通過(guò)下式判斷一個(gè)被測(cè)樣本是否位于超球面所包含的范圍內(nèi),從而判斷該樣本是否為可疑數(shù)據(jù)。
M
通過(guò)調(diào)節(jié)ΔR的大小改變模型對(duì)可疑數(shù)據(jù)的敏感度,當(dāng)被測(cè)樣本點(diǎn)的質(zhì)疑系數(shù)r滿足r(R+ΔR)2時(shí),認(rèn)為該測(cè)試樣本為正常數(shù)據(jù),否則為可疑數(shù)據(jù),交由糾錯(cuò)系統(tǒng)或人工進(jìn)行處理。
圖4不同參數(shù)σ對(duì)超球面邊界的影響
本文選取了小麥島3 a的水溫和氣溫歷史數(shù)據(jù)作為訓(xùn)練樣本。這兩種要素相關(guān)性強(qiáng),且要素樣本空間分布受時(shí)間影響較大,便于說(shuō)明算法應(yīng)用過(guò)程。
在水溫和氣溫組成的二維樣本空間中,這3 a的樣本在空間中的分布特征如圖5所示。
在通過(guò)分時(shí)間段進(jìn)行訓(xùn)練后,可得到各段時(shí)間所處的樣本空間位置。通過(guò)訓(xùn)練共生成24個(gè)時(shí)間跨度為半個(gè)月的模型,如圖6中紅色圈出的部分所示,所圈出的部分代表了質(zhì)控模型所處的空間范圍。
圖5水溫-氣溫二維樣本空間分布
圖6 質(zhì)控模型空間示意(圖a—x依次分別為1月上半月至12月下半月)
在使用模型進(jìn)行質(zhì)控的階段,通過(guò)待測(cè)樣本點(diǎn)與相應(yīng)時(shí)段模型所在的空間位置對(duì)比即可得到該數(shù)據(jù)的可疑程度。根據(jù)實(shí)際效果,通過(guò)調(diào)節(jié)因子ΔR改變模型對(duì)可疑數(shù)據(jù)識(shí)別的敏感度。圖7中紅色樣本點(diǎn)即為可以樣本。
如圖7所示,隨著調(diào)節(jié)因子增大,模型識(shí)別敏感度降低,系統(tǒng)所提示的可疑數(shù)據(jù)明顯減少,在降低誤質(zhì)疑率的同時(shí)增大了誤接受率,在實(shí)際使用中可根據(jù)不同需求設(shè)置相應(yīng)的ΔR值。
由于質(zhì)控功能的特殊性,無(wú)法通過(guò)觀測(cè)數(shù)據(jù)自身對(duì)質(zhì)控效果進(jìn)行檢驗(yàn),本文通過(guò)人工引入隨機(jī)誤差的方式檢驗(yàn)質(zhì)控效果。本文從3 a的樣本中隨機(jī)選取了1174個(gè)已經(jīng)被去除異常值的樣本點(diǎn),并給水溫和氣溫要素分別引入了隨機(jī)誤差。通過(guò)SVDD模型進(jìn)行質(zhì)量控制后的結(jié)果如表1所示。
表1中誤差距離表示引入誤差后的樣本點(diǎn)與原樣本點(diǎn)在樣本空間中的距離,距離越大誤差約大。根據(jù)實(shí)驗(yàn)結(jié)果,在誤差距離較小的情況下系統(tǒng)無(wú)法識(shí)別,這種情況在實(shí)際中一般屬于各次觀測(cè)的正常差異或可接受的觀測(cè)誤差,而隨著誤差距離的逐漸增加,系統(tǒng)發(fā)現(xiàn)可疑值的概率在逐步提高。
在單要素誤差引入的情況下,本文對(duì)SVDD算法和3-Sigma算法進(jìn)行了對(duì)比試驗(yàn),針對(duì)小麥島水溫?cái)?shù)據(jù),從3 a的樣本中隨機(jī)選取了已經(jīng)被去除異常值的樣本點(diǎn),并人工引入了隨機(jī)誤差。通過(guò)3-Sigma算法和SVDD算法分別進(jìn)行質(zhì)量控制,結(jié)果如表2所示。
表2中的誤差距離即所引入的水溫誤差值,通過(guò)對(duì)比可以看出,在誤差較小的時(shí)候,SVDD方法可識(shí)別出更多的異常值,并且在誤差約為4—4.5℃的時(shí)候即可識(shí)別出90%以上異常值,而3-Sigma算法需要在6.5—7℃。
由此可見(jiàn),SVDD算法在多要素的質(zhì)量控制中具有較好的性能,并且其單要素的質(zhì)量控制性能要明顯優(yōu)于3-Sigma算法。
圖7調(diào)節(jié)因子ΔR對(duì)識(shí)別的影響
表1 SVDD方法多要素誤差引入測(cè)試
表2 3-SIGMA方法單要素誤差引入測(cè)試
表3 SVDD方法單要素誤差引入測(cè)試
本文初步探討分析了基于SVDD算法的海洋站多要素?cái)?shù)據(jù)質(zhì)量控制方法,通過(guò)懲罰系數(shù)C、非線性核函數(shù)參數(shù)σ、調(diào)節(jié)因子ΔR的調(diào)節(jié),實(shí)現(xiàn)了分析、處理及標(biāo)示海洋數(shù)據(jù)質(zhì)量狀況的功能。驗(yàn)證了統(tǒng)計(jì)學(xué)習(xí)算法在海洋數(shù)據(jù)質(zhì)量控制中使用的可行性,對(duì)提高觀測(cè)資料的科學(xué)性、可靠性具有借鑒意義。海洋觀測(cè)數(shù)據(jù)量龐大、要素間取值范圍差異大、要素間相關(guān)程度不同等特點(diǎn)都會(huì)對(duì)數(shù)據(jù)質(zhì)量控制模型訓(xùn)練的準(zhǔn)確性帶來(lái)影響,需要不斷加以研究和優(yōu)化。同時(shí),統(tǒng)計(jì)學(xué)習(xí)算法與海洋數(shù)據(jù)質(zhì)量控制都是復(fù)雜、系統(tǒng)的科學(xué)過(guò)程,在海洋觀測(cè)數(shù)據(jù)質(zhì)量控制的實(shí)際應(yīng)用中仍有許多問(wèn)題需要進(jìn)一步研究。未來(lái)將嘗試通過(guò)相關(guān)性檢測(cè)和峰值檢測(cè)等多種手段進(jìn)一步檢測(cè)可疑值,盡可能的降低誤接受與誤質(zhì)疑率。
參考文獻(xiàn):
[1]陳上及,馬繼瑞.海洋數(shù)據(jù)處理分析方法及其應(yīng)用[M].北京:海洋出版社,1991
[2]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32-42.
[3]Tax D M J,Duin R P W.Support vector domain description[J]. Pattern Recognition Letters,1999,20(11-13):1191-1199.
[4]Vapnik V N.The Nature of Statistical Learning Theory[J].IEEE Transactions on Neural Networks,1995,10(5):988-999.
[6]楊一文,楊朝軍.基于支持向量機(jī)的金融時(shí)間序列預(yù)測(cè)[J].系統(tǒng)工程理論方法應(yīng)用,2005,14(2):176-181,doi:10.3969/j.issn. 1005-2542.2005.02.017.
[7]白鵬,張喜斌,張斌,等.支持向量機(jī)理論及工程應(yīng)用實(shí)例[M].西安:西安電子科技大學(xué)出版社,2008.
[8]李飛.基于支持向量機(jī)的說(shuō)話人識(shí)別[D].北京:北京信息科技大學(xué),2012.
[9]Tax D M J,Duin R P W.Support Vector Data Description[J]. Machine Learning,2004,54(1):45-66.
[10]Pekalska E,Paclik P,Duin R P W.A Generalized Kernel Approach to Dissimilarity-based Classification[J].Journal of Machine Learning Research,2002,2(2):175-211.
中圖分類號(hào):P714
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-0239(2016)02-0066-08
DOI:10.11737/j.issn.1003-0239.2016.02.010 [5]祁亨年.支持向量機(jī)及其應(yīng)用研究綜述[J].計(jì)算機(jī)工程,2004,30(10):6-9,10.3969/j.issn.1000-3428.2004.10.003.
收稿日期:2015-07-16
基金項(xiàng)目:國(guó)家海洋局海洋公益性行業(yè)科研專項(xiàng)(201205006);中國(guó)科學(xué)院海洋環(huán)流與波動(dòng)重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金課題(KLOCAW1410)
作者簡(jiǎn)介:李飛(1987-),男,工程師,碩士,主要從事預(yù)警報(bào)視頻會(huì)商系統(tǒng)和數(shù)據(jù)質(zhì)量控制的理論和應(yīng)用研究。E-mail:lif@nmefc.gov.cn
Preliminary study of marine observation data quality control based on support vector machine algorithm
LI Fei,LU Yong-duo,LIN Bo,CHEN Zhe,LIU Si-han,XU Teng
(National Marine Environment Forecasting Center,Beijing 100081 China)
Abstract:A statistical learning algorithm,supporting vector domain description(SVDD),is introduced,and a method of multi factor data quality control based on SVDD is established.Quality control model can be constructed by historical sample observation data,and the quality control of ocean observation data can be realized by the model.In this paper,the method is analyzed by real data,and proved to effectively analyze the data quality and find suspicious data.It has some reference value for improving the reliability and scientific of the marine observation data.
Key words:data quality control;SVM;SVDD;marine data;multi-element