基于離群點(diǎn)檢測(cè)和分類的軟測(cè)量方法

2018-05-24 01:00:04王春鵬

山東化工 2018年9期

王春鵬

(中海油石化工程有限公司，山東濟(jì)南 250001)

1 在線離群點(diǎn)檢測(cè)方法

1.1 支持向量數(shù)據(jù)描述(SVDD)算法理論

Tax等人提出的支持向量數(shù)據(jù)描述(SVDD)是解決單值分類問題的有效方法，SVDD是一種基于支持向量機(jī)學(xué)習(xí)的算法；通過一個(gè)非線性映射函數(shù)，把數(shù)據(jù)從輸入空間映射到一個(gè)高維空間，尋找支持向量在特征空間中，構(gòu)造包圍與最小半徑和超球體的最佳點(diǎn)[1]。超球體的描述模型目標(biāo)類是由支持向量，超球外點(diǎn)被判定為離群點(diǎn)的數(shù)據(jù)不屬于目標(biāo)類(也稱為離群點(diǎn))確定。以二維空間為例的超球體示意如圖1所示。

圖1 超球體示意圖

加入拉格朗日乘子αi,βi≥0，將原來的問題(1)可以轉(zhuǎn)化稱無約束的問題(2)：

把(2)表示為對(duì)偶問題，并引入核函數(shù)來取代特征空間上的內(nèi)積運(yùn)算得：

1.2 在線支持向量數(shù)據(jù)描述參數(shù)更新

當(dāng)模型在實(shí)際運(yùn)行中，如果發(fā)生過程的變化，如汽油干點(diǎn)軟測(cè)量中精餾塔的原油發(fā)生變化，那么測(cè)量的數(shù)據(jù)也會(huì)發(fā)生變化超出我們檢測(cè)判斷的正常范圍。因此，SVDD的參數(shù)半徑和球心也得隨著數(shù)據(jù)的變化而變化，這樣才能適應(yīng)過程的變化而不會(huì)導(dǎo)致誤判正常數(shù)據(jù)為離群點(diǎn)。

本文針對(duì)這個(gè)過程引入了指數(shù)加權(quán)移動(dòng)平均(EWMA)這種魯棒的方式來更新SVDD參數(shù)，指數(shù)加權(quán)移動(dòng)平均的公式如下：

R_old和a_old代表著更新前離群點(diǎn)檢測(cè)的判斷參數(shù)，R_new和a_new代表著更新后離群點(diǎn)檢測(cè)的判斷參數(shù)，R_current和a_current是用一定量新的樣本所構(gòu)成的離群點(diǎn)檢測(cè)參數(shù)。λ為更新因子代表著參數(shù)更新的速度。

對(duì)一個(gè)正常的過程，譬如沒有連續(xù)檢測(cè)出大量離群點(diǎn)，更新因子我們通常設(shè)定為0.7<λ<0.9。而當(dāng)連續(xù)檢測(cè)出大量的離群點(diǎn)時(shí)更新因子我們通常設(shè)為0.01<λ<0.05。

2 在線離群點(diǎn)分類方法

貝葉斯分類器是一種基于統(tǒng)計(jì)方法的典型的分類模型，它是基于貝葉斯理論，先驗(yàn)概率和后驗(yàn)概率被巧妙地聯(lián)系在一起，利用先驗(yàn)信息和樣本數(shù)據(jù)來確定所述事件的后驗(yàn)概率[2-3]。

采用貝葉斯分類原理對(duì)以檢測(cè)到的離群點(diǎn)進(jìn)一步分類，分類過程如圖2 所示。

圖2 貝葉斯對(duì)離群點(diǎn)的分類過程

2.1 長階躍數(shù)據(jù)的判斷準(zhǔn)則

為了表示在x1點(diǎn)發(fā)生階躍，我們定義置信限C1，則需要滿足：

僅僅依靠公式(7)我們還不能判斷此時(shí)發(fā)生的階躍是不是長階躍，因?yàn)檫€有可能是脈沖或者短階躍。因此，我們還需要Post-ChangeWindow中更多的數(shù)據(jù)來證明。由于我們假設(shè)階躍發(fā)生在Post-ChangeWindow的開始，所以隨著樣本數(shù)目的增加，后驗(yàn)概率也單調(diào)遞增：

為了提高對(duì)長階躍信號(hào)檢測(cè)和分類的精確性，我們需要讓整個(gè)Post-ChangeWindow的后驗(yàn)概率比置信限C2要大：

方程(6)～(9)用來作為判斷長階躍的準(zhǔn)則，一般情況下C1取0.8，C2取0.99，本文也是取這個(gè)值。

2.2 脈沖數(shù)據(jù)的判斷準(zhǔn)則

對(duì)于脈沖信號(hào)的干擾，在Post-ChangeWindow中的第一個(gè)值x1提供了脈沖信號(hào)的幅值。這是和階躍信號(hào)所不同的，階躍信號(hào)需要很多數(shù)據(jù)一起才能確定。因此，對(duì)于脈沖干擾μD=x1。為了確定脈沖干擾，我們首先需要滿足：

C1為置信限，x1滿足N(μD,σ2)分布。

2.3 短階躍數(shù)據(jù)的判斷準(zhǔn)則

根據(jù)上面講的長階躍和脈沖干擾的知識(shí)，我們很容易確定對(duì)短階躍信號(hào)的處理。短階躍的幅值μD是對(duì)每個(gè)Post-ChangeWindow的子集來計(jì)算的。同樣的，在Post-ChangeWindow中的第一個(gè)值x1應(yīng)滿足：

因?yàn)槲覀兗僭O(shè)干擾是短階躍，在Post-ChangeWindow中短階躍持續(xù)階段的后驗(yàn)概率必須滿足和長階躍一樣的關(guān)系：

和式(9)一樣，在Post-ChangeWindow中短階躍持續(xù)階段的后驗(yàn)概率必須大于一個(gè)置信限C2：

最后，為了指出短階躍干擾結(jié)束，在Post-ChangeWindow后的短階躍的后驗(yàn)概率必須小于一個(gè)閾值，和式(14)對(duì)脈沖干擾一樣：

方程(13)-(15)就是判斷短階躍的準(zhǔn)則。

3 仿真研究

為了驗(yàn)證所給出的算法的有效性，我們針對(duì)化工過程中常用的軟測(cè)量技術(shù)進(jìn)行仿真研究，本文采用某煉化廠航空煤油的干點(diǎn)數(shù)據(jù)進(jìn)行研究仿真。

首先離線進(jìn)行離群點(diǎn)的檢測(cè)，把檢測(cè)到的離群點(diǎn)排除掉然后利用PLS-RBF進(jìn)行離線建模作為軟測(cè)量模型[4]，然后，用建立的模型對(duì)工業(yè)數(shù)據(jù)進(jìn)行仿真預(yù)測(cè)，最后針對(duì)在線過程中檢測(cè)到的離群點(diǎn)引入離群點(diǎn)分類方法。

3.1 航空煤油生產(chǎn)過程介紹

對(duì)于大型煉油裝置來說，常減壓蒸餾的主要裝置之一就是常壓塔。航空煤油(簡稱，航煤)是常壓塔的主要餾分，其中一個(gè)重要衡量質(zhì)量的指標(biāo)是其干點(diǎn)，經(jīng)濟(jì)效益直接受干點(diǎn)影響。

本文選用的是某煉化公司航空煤油干點(diǎn)數(shù)據(jù)，該數(shù)據(jù)是通過DCS采集與干點(diǎn)相關(guān)的現(xiàn)場數(shù)據(jù)生成。采集頻率10 min/次，化驗(yàn)數(shù)據(jù)采樣6次/d，時(shí)間間隔為4 h。共采集樣本數(shù)據(jù)近250組用于仿真研究，其中100組作為訓(xùn)練數(shù)據(jù)，150組作為檢驗(yàn)數(shù)據(jù)，其中150組數(shù)據(jù)中后50組是代表了過程變化。

本文建模之前，了解現(xiàn)場工藝情況及向相關(guān)工藝人員咨詢后，確定其中9個(gè)過程變量為該模型的輔助變量，首先采用主元分析法，設(shè)定貢獻(xiàn)率為90%，提取了6個(gè)主元作為模型的輸入。首先我們針對(duì)100組訓(xùn)練數(shù)據(jù)進(jìn)行離線離群點(diǎn)檢測(cè)，為了說明我們所引入的支持向量數(shù)據(jù)描述方法的有效性我們和常規(guī)離群點(diǎn)判別方法“3δ”方法進(jìn)行對(duì)比。下圖為兩者對(duì)離群點(diǎn)的檢測(cè)圖像。其中現(xiàn)場采集的數(shù)據(jù)時(shí)所規(guī)定的溫度為253℃允許誤差為±1.5%。仿真圖像如圖3、4。

圖3 航空煤油干點(diǎn)的3δ離群點(diǎn)檢測(cè)

圖4 航空煤油干點(diǎn)的SVDD離群點(diǎn)檢測(cè)

表1是在計(jì)算機(jī)上的仿真參數(shù)，本文以Matlab10.0(a)作為工具，計(jì)算機(jī)配置為2.82GHz。

表1 兩種離群點(diǎn)檢測(cè)方法性能對(duì)比

由圖3、4和表1比較可得，SVDD的離群點(diǎn)檢測(cè)方法要比方法檢測(cè)率要高，也就是說誤判率要小，但是SVDD仿真時(shí)間比要長。但是對(duì)于離線處理數(shù)據(jù)而言我們要求高檢測(cè)率為第一位，因此SVDD可以很好的作為離群點(diǎn)檢測(cè)的方法。針對(duì)離群點(diǎn)檢測(cè)完的數(shù)據(jù)采用PLS-RBF建模。仿真如圖5。

圖5 不含離群點(diǎn)的PLS-RBF建模曲線

當(dāng)模型建好之后在運(yùn)行過程中，我們要實(shí)時(shí)的對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)測(cè)，有離群點(diǎn)的時(shí)候我們也會(huì)通過SVDD算法進(jìn)行檢測(cè)，但是當(dāng)化工過程受到物料變化，工藝切換等改變生產(chǎn)流程的影響時(shí)，我們所預(yù)測(cè)到的數(shù)據(jù)因?yàn)槠屏怂?guī)定的范圍將會(huì)被連續(xù)的誤判為離群點(diǎn)，針對(duì)這個(gè)問題我們引入的離群點(diǎn)分類的概念就可以輕松的解決這個(gè)問題。下面還是以航空煤油干點(diǎn)作為研究的對(duì)象，這次我們用100組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，150組數(shù)據(jù)作為測(cè)試數(shù)據(jù)，其中150組測(cè)試數(shù)據(jù)中前100組是和訓(xùn)練數(shù)據(jù)是同一過程的數(shù)據(jù)，而后50組數(shù)據(jù)是同一生產(chǎn)裝置在改變?cè)蠒r(shí)所確定的數(shù)據(jù)，以此來表示過程的變化來驗(yàn)證本文所給出出的貝葉斯分類方法的有效性。其中前100組數(shù)據(jù)時(shí)的狀態(tài)所規(guī)定的的標(biāo)準(zhǔn)數(shù)值為253℃允許誤差為±1.5%，而后50組數(shù)據(jù)的規(guī)定標(biāo)準(zhǔn)值為273℃允許誤差為±1.5%，根據(jù)先驗(yàn)知識(shí)規(guī)定在航空煤油干點(diǎn)仿真過程中本文提出的只有1個(gè)離群點(diǎn)為脈沖型離群點(diǎn)，短階躍離群點(diǎn)規(guī)定為連續(xù)2～10離群點(diǎn)，連續(xù)10個(gè)以上的離群點(diǎn)為長階躍離群點(diǎn)也就是新的過程變化，仿真圖像如圖6、7。

圖6 沒有參數(shù)更新和分類的離群點(diǎn)檢測(cè)

圖7 有參數(shù)更新和分類的離群點(diǎn)檢測(cè)

由圖6和圖7可知，當(dāng)加入Bayesian分類算法和SVDD參數(shù)更新時(shí)由過程變化的所引起的數(shù)據(jù)偏移不會(huì)被誤判為離群點(diǎn)。由上圖也很容易看出，當(dāng)過程發(fā)生變化后模型的預(yù)測(cè)已經(jīng)完全不符合實(shí)際了，這是由于模型還是原來的模型并沒有根據(jù)實(shí)際數(shù)據(jù)進(jìn)行更新，在第四章將會(huì)介紹模型更新的相關(guān)算法。由于汽油干點(diǎn)過程沒有本文所給出出的短階躍離群點(diǎn)狀態(tài)，所以在下面的聚丙烯熔融指數(shù)的軟測(cè)量仿真過程中將會(huì)體現(xiàn)。

4 結(jié)論

本文主要對(duì)離群點(diǎn)檢測(cè)和分類的算法進(jìn)行了分析和研究。根據(jù)故障檢測(cè)的理論，對(duì)在線軟測(cè)量模型引入了基于支持向量數(shù)據(jù)描述(SVDD)算法的離群點(diǎn)檢測(cè)方法。通過仿真研究驗(yàn)證了該方法作為離群點(diǎn)檢測(cè)算法的有效性。針對(duì)實(shí)際過程的變化也會(huì)引起數(shù)據(jù)的偏移，導(dǎo)致誤判為離群點(diǎn)處理掉問題，本文創(chuàng)造性的引入了離群點(diǎn)分類的概念，將離群點(diǎn)根據(jù)實(shí)際工況的先驗(yàn)知識(shí)主要分為脈沖型、短階躍型和長階躍型，其中，脈沖型和短階躍型是我們要排除的真正意義上的離群點(diǎn)而長階躍型是代表了化工過程的變化。本文離群點(diǎn)的分類算法采用的是貝葉斯分類算法。通過航空煤油干點(diǎn)數(shù)據(jù)的仿真研究該方法能有效的判斷出離群點(diǎn)的類別，從而實(shí)現(xiàn)對(duì)離群點(diǎn)的分類。

參考文獻(xiàn)

[1]黃光鑫．支持向量數(shù)據(jù)描述與支持向量機(jī)及其應(yīng)用[D]．成都:電子科技大學(xué)，2011.

[2]周開武．貝葉斯方法在化工軟測(cè)量建模中的應(yīng)用研究[D]．無錫:江南大學(xué)，2009.

[3]劉敏．臭氧技術(shù)中的神經(jīng)網(wǎng)絡(luò)軟測(cè)量建模研究[D].大連:大連理工大學(xué)，2003.

[4]Qin S J,McAvoy T J.Non-linear PLS modeling using neural networks.[J] Comput Chem Eng,1992,16:379-391.