王春鵬
(中海油石化工程有限公司,山東 濟(jì)南 250001)
Tax等人提出的支持向量數(shù)據(jù)描述(SVDD)是解決單值分類問題的有效方法,SVDD是一種基于支持向量機(jī)學(xué)習(xí)的算法;通過一個(gè)非線性映射函數(shù),把數(shù)據(jù)從輸入空間映射到一個(gè)高維空間,尋找支持向量在特征空間中,構(gòu)造包圍與最小半徑和超球體的最佳點(diǎn)[1]。超球體的描述模型目標(biāo)類是由支持向量,超球外點(diǎn)被判定為離群點(diǎn)的數(shù)據(jù)不屬于目標(biāo)類(也稱為離群點(diǎn))確定。以二維空間為例的超球體示意如圖1所示。
圖1 超球體示意圖
加入拉格朗日乘子αi,βi≥0,將原來的問題(1)可以轉(zhuǎn)化稱無約束的問題(2):
把(2)表示為對(duì)偶問題,并引入核函數(shù)來取代特征空間上的內(nèi)積運(yùn)算得:
當(dāng)模型在實(shí)際運(yùn)行中,如果發(fā)生過程的變化,如汽油干點(diǎn)軟測(cè)量中精餾塔的原油發(fā)生變化,那么測(cè)量的數(shù)據(jù)也會(huì)發(fā)生變化超出我們檢測(cè)判斷的正常范圍。因此,SVDD的參數(shù)半徑和球心也得隨著數(shù)據(jù)的變化而變化,這樣才能適應(yīng)過程的變化而不會(huì)導(dǎo)致誤判正常數(shù)據(jù)為離群點(diǎn)。
本文針對(duì)這個(gè)過程引入了指數(shù)加權(quán)移動(dòng)平均(EWMA)這種魯棒的方式來更新SVDD參數(shù),指數(shù)加權(quán)移動(dòng)平均的公式如下:
R_old和a_old代表著更新前離群點(diǎn)檢測(cè)的判斷參數(shù),R_new和a_new代表著更新后離群點(diǎn)檢測(cè)的判斷參數(shù),R_current和a_current是用一定量新的樣本所構(gòu)成的離群點(diǎn)檢測(cè)參數(shù)。λ為更新因子代表著參數(shù)更新的速度。
對(duì)一個(gè)正常的過程,譬如沒有連續(xù)檢測(cè)出大量離群點(diǎn),更新因子我們通常設(shè)定為0.7<λ<0.9。而當(dāng)連續(xù)檢測(cè)出大量的離群點(diǎn)時(shí)更新因子我們通常設(shè)為0.01<λ<0.05。
貝葉斯分類器是一種基于統(tǒng)計(jì)方法的典型的分類模型,它是基于貝葉斯理論,先驗(yàn)概率和后驗(yàn)概率被巧妙地聯(lián)系在一起,利用先驗(yàn)信息和樣本數(shù)據(jù)來確定所述事件的后驗(yàn)概率[2-3]。
采用貝葉斯分類原理對(duì)以檢測(cè)到的離群點(diǎn)進(jìn)一步分類,分類過程如圖2 所示。
圖2 貝葉斯對(duì)離群點(diǎn)的分類過程
為了表示在x1點(diǎn)發(fā)生階躍,我們定義置信限C1,則需要滿足:
僅僅依靠公式(7)我們還不能判斷此時(shí)發(fā)生的階躍是不是長階躍,因?yàn)檫€有可能是脈沖或者短階躍。因此,我們還需要Post-ChangeWindow中更多的數(shù)據(jù)來證明。由于我們假設(shè)階躍發(fā)生在Post-ChangeWindow的開始,所以隨著樣本數(shù)目的增加,后驗(yàn)概率也單調(diào)遞增:
為了提高對(duì)長階躍信號(hào)檢測(cè)和分類的精確性,我們需要讓整個(gè)Post-ChangeWindow的后驗(yàn)概率比置信限C2要大:
方程(6)~(9)用來作為判斷長階躍的準(zhǔn)則,一般情況下C1取0.8,C2取0.99,本文也是取這個(gè)值。
對(duì)于脈沖信號(hào)的干擾,在Post-ChangeWindow中的第一個(gè)值x1提供了脈沖信號(hào)的幅值。這是和階躍信號(hào)所不同的,階躍信號(hào)需要很多數(shù)據(jù)一起才能確定。因此,對(duì)于脈沖干擾μD=x1。為了確定脈沖干擾,我們首先需要滿足:
C1為置信限,x1滿足N(μD,σ2)分布。
根據(jù)上面講的長階躍和脈沖干擾的知識(shí),我們很容易確定對(duì)短階躍信號(hào)的處理。短階躍的幅值μD是對(duì)每個(gè)Post-ChangeWindow的子集來計(jì)算的。同樣的,在Post-ChangeWindow中的第一個(gè)值x1應(yīng)滿足:
因?yàn)槲覀兗僭O(shè)干擾是短階躍,在Post-ChangeWindow中短階躍持續(xù)階段的后驗(yàn)概率必須滿足和長階躍一樣的關(guān)系:
和式(9)一樣,在Post-ChangeWindow中短階躍持續(xù)階段的后驗(yàn)概率必須大于一個(gè)置信限C2:
最后,為了指出短階躍干擾結(jié)束,在Post-ChangeWindow后的短階躍的后驗(yàn)概率必須小于一個(gè)閾值,和式(14)對(duì)脈沖干擾一樣:
方程(13)-(15)就是判斷短階躍的準(zhǔn)則。
為了驗(yàn)證所給出的算法的有效性,我們針對(duì)化工過程中常用的軟測(cè)量技術(shù)進(jìn)行仿真研究,本文采用某煉化廠航空煤油的干點(diǎn)數(shù)據(jù)進(jìn)行研究仿真。
首先離線進(jìn)行離群點(diǎn)的檢測(cè),把檢測(cè)到的離群點(diǎn)排除掉然后利用PLS-RBF進(jìn)行離線建模作為軟測(cè)量模型[4],然后,用建立的模型對(duì)工業(yè)數(shù)據(jù)進(jìn)行仿真預(yù)測(cè),最后針對(duì)在線過程中檢測(cè)到的離群點(diǎn)引入離群點(diǎn)分類方法。
對(duì)于大型煉油裝置來說,常減壓蒸餾的主要裝置之一就是常壓塔。航空煤油(簡稱,航煤)是常壓塔的主要餾分,其中一個(gè)重要衡量質(zhì)量的指標(biāo)是其干點(diǎn),經(jīng)濟(jì)效益直接受干點(diǎn)影響。
本文選用的是某煉化公司航空煤油干點(diǎn)數(shù)據(jù),該數(shù)據(jù)是通過DCS采集與干點(diǎn)相關(guān)的現(xiàn)場數(shù)據(jù)生成。采集頻率10 min/次,化驗(yàn)數(shù)據(jù)采樣6次/d,時(shí)間間隔為4 h。共采集樣本數(shù)據(jù)近250組用于仿真研究,其中100組作為訓(xùn)練數(shù)據(jù),150組作為檢驗(yàn)數(shù)據(jù),其中150組數(shù)據(jù)中后50組是代表了過程變化。
本文建模之前,了解現(xiàn)場工藝情況及向相關(guān)工藝人員咨詢后,確定其中9個(gè)過程變量為該模型的輔助變量,首先采用主元分析法,設(shè)定貢獻(xiàn)率為90%,提取了6個(gè)主元作為模型的輸入。首先我們針對(duì)100組訓(xùn)練數(shù)據(jù)進(jìn)行離線離群點(diǎn)檢測(cè),為了說明我們所引入的支持向量數(shù)據(jù)描述方法的有效性我們和常規(guī)離群點(diǎn)判別方法“3δ”方法進(jìn)行對(duì)比。下圖為兩者對(duì)離群點(diǎn)的檢測(cè)圖像。其中現(xiàn)場采集的數(shù)據(jù)時(shí)所規(guī)定的溫度為253℃允許誤差為±1.5%。仿真圖像如圖3、4。
圖3 航空煤油干點(diǎn)的3δ離群點(diǎn)檢測(cè)
圖4 航空煤油干點(diǎn)的SVDD離群點(diǎn)檢測(cè)
表1是在計(jì)算機(jī)上的仿真參數(shù),本文以Matlab10.0(a)作為工具,計(jì)算機(jī)配置為2.82GHz。
表1 兩種離群點(diǎn)檢測(cè)方法性能對(duì)比
由圖3、4和表1比較可得,SVDD的離群點(diǎn)檢測(cè)方法要比 方法檢測(cè)率要高,也就是說誤判率要小,但是SVDD仿真時(shí)間比 要長。但是對(duì)于離線處理數(shù)據(jù)而言我們要求高檢測(cè)率為第一位,因此SVDD可以很好的作為離群點(diǎn)檢測(cè)的方法。針對(duì)離群點(diǎn)檢測(cè)完的數(shù)據(jù)采用PLS-RBF建模。仿真如圖5。
圖5 不含離群點(diǎn)的PLS-RBF建模曲線
當(dāng)模型建好之后在運(yùn)行過程中,我們要實(shí)時(shí)的對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)測(cè),有離群點(diǎn)的時(shí)候我們也會(huì)通過SVDD算法進(jìn)行檢測(cè),但是當(dāng)化工過程受到物料變化,工藝切換等改變生產(chǎn)流程的影響時(shí),我們所預(yù)測(cè)到的數(shù)據(jù)因?yàn)槠屏怂?guī)定的范圍將會(huì)被連續(xù)的誤判為離群點(diǎn),針對(duì)這個(gè)問題我們引入的離群點(diǎn)分類的概念就可以輕松的解決這個(gè)問題。下面還是以航空煤油干點(diǎn)作為研究的對(duì)象,這次我們用100組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),150組數(shù)據(jù)作為測(cè)試數(shù)據(jù),其中150組測(cè)試數(shù)據(jù)中前100組是和訓(xùn)練數(shù)據(jù)是同一過程的數(shù)據(jù),而后50組數(shù)據(jù)是同一生產(chǎn)裝置在改變?cè)蠒r(shí)所確定的數(shù)據(jù),以此來表示過程的變化來驗(yàn)證本文所給出出的貝葉斯分類方法的有效性。其中前100組數(shù)據(jù)時(shí)的狀態(tài)所規(guī)定的的標(biāo)準(zhǔn)數(shù)值為253℃允許誤差為±1.5%,而后50組數(shù)據(jù)的規(guī)定標(biāo)準(zhǔn)值為273℃允許誤差為±1.5%,根據(jù)先驗(yàn)知識(shí)規(guī)定在航空煤油干點(diǎn)仿真過程中本文提出的只有1個(gè)離群點(diǎn)為脈沖型離群點(diǎn),短階躍離群點(diǎn)規(guī)定為連續(xù)2~10離群點(diǎn),連續(xù)10個(gè)以上的離群點(diǎn)為長階躍離群點(diǎn)也就是新的過程變化,仿真圖像如圖6、7。
圖6 沒有參數(shù)更新和分類的離群點(diǎn)檢測(cè)
圖7 有參數(shù)更新和分類的離群點(diǎn)檢測(cè)
由圖6和圖7可知,當(dāng)加入Bayesian分類算法和SVDD參數(shù)更新時(shí)由過程變化的所引起的數(shù)據(jù)偏移不會(huì)被誤判為離群點(diǎn)。由上圖也很容易看出,當(dāng)過程發(fā)生變化后模型的預(yù)測(cè)已經(jīng)完全不符合實(shí)際了,這是由于模型還是原來的模型并沒有根據(jù)實(shí)際數(shù)據(jù)進(jìn)行更新,在第四章將會(huì)介紹模型更新的相關(guān)算法。由于汽油干點(diǎn)過程沒有本文所給出出的短階躍離群點(diǎn)狀態(tài),所以在下面的聚丙烯熔融指數(shù)的軟測(cè)量仿真過程中將會(huì)體現(xiàn)。
本文主要對(duì)離群點(diǎn)檢測(cè)和分類的算法進(jìn)行了分析和研究。根據(jù)故障檢測(cè)的理論,對(duì)在線軟測(cè)量模型引入了基于支持向量數(shù)據(jù)描述(SVDD)算法的離群點(diǎn)檢測(cè)方法。通過仿真研究驗(yàn)證了該方法作為離群點(diǎn)檢測(cè)算法的有效性。針對(duì)實(shí)際過程的變化也會(huì)引起數(shù)據(jù)的偏移,導(dǎo)致誤判為離群點(diǎn)處理掉問題,本文創(chuàng)造性的引入了離群點(diǎn)分類的概念,將離群點(diǎn)根據(jù)實(shí)際工況的先驗(yàn)知識(shí)主要分為脈沖型、短階躍型和長階躍型,其中,脈沖型和短階躍型是我們要排除的真正意義上的離群點(diǎn)而長階躍型是代表了化工過程的變化。本文離群點(diǎn)的分類算法采用的是貝葉斯分類算法。通過航空煤油干點(diǎn)數(shù)據(jù)的仿真研究該方法能有效的判斷出離群點(diǎn)的類別,從而實(shí)現(xiàn)對(duì)離群點(diǎn)的分類。
參考文獻(xiàn)
[1]黃光鑫.支持向量數(shù)據(jù)描述與支持向量機(jī)及其應(yīng)用[D].成都:電子科技大學(xué),2011.
[2]周開武.貝葉斯方法在化工軟測(cè)量建模中的應(yīng)用研究[D].無錫:江南大學(xué),2009.
[3]劉 敏.臭氧技術(shù)中的神經(jīng)網(wǎng)絡(luò)軟測(cè)量建模研究[D].大連:大連理工大學(xué),2003.
[4]Qin S J,McAvoy T J.Non-linear PLS modeling using neural networks.[J] Comput Chem Eng,1992,16:379-391.