高智勇,董榮光,高建民,王榮喜
(西安交通大學(xué)制造系統(tǒng)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,710049,西安)
?
采用聚類特征的基本概率分配生成方法及應(yīng)用
高智勇,董榮光,高建民,王榮喜
(西安交通大學(xué)制造系統(tǒng)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,710049,西安)
針對(duì)在識(shí)別框架不確定時(shí)基本概率分配(BBA)生成困難的問(wèn)題,提出一種基于聚類特征的基本概率分配生成方法,以減弱對(duì)樣本長(zhǎng)度的依賴性,并分析2種情況下的BBA生成。在框架未知時(shí),通過(guò)聚類分析獲得各個(gè)類別的聚類特征,建立樣本屬性的聚類特征區(qū)間模型;在框架已知時(shí),獲取聚類特征,建立樣本屬性的聚類特征區(qū)間模型;然后用各個(gè)區(qū)間模型之間的距離表示樣本屬性之間的差異,在此基礎(chǔ)上建立了一種相似度的度量方法;最后對(duì)相似度進(jìn)行歸一化得到BBA。采用Iris數(shù)據(jù)集和Wine數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明:所提方法對(duì)樣本長(zhǎng)度敏感程度低,對(duì)Wine數(shù)據(jù)集的一個(gè)類的分類結(jié)果達(dá)到100%。將該方法應(yīng)用于某煤化工企業(yè)壓縮機(jī)組子系統(tǒng)狀態(tài)監(jiān)測(cè)信息數(shù)據(jù)集,實(shí)現(xiàn)了監(jiān)測(cè)信息狀態(tài)的識(shí)別。
證據(jù)理論;基本概率分配;聚類特征區(qū)間模型;相似度;信息融合
利用提取的特征識(shí)別系統(tǒng)監(jiān)測(cè)信息狀態(tài)時(shí),由于每種特征在表述狀態(tài)信息時(shí)都有一定的不確定性甚至獲得沖突的結(jié)論,如何綜合利用多源特征信息、消除沖突成為了研究的熱點(diǎn)之一。決策級(jí)信息融合依據(jù)相應(yīng)準(zhǔn)則和決策的可信度,綜合利用主觀信息及客觀信息等,完成最優(yōu)決策的制定。決策級(jí)信息融合方法有貝葉斯推理、模糊理論和D-S證據(jù)理論等,證據(jù)理論由于其可滿足比概率論和貝葉斯推理更弱的條件,具有直接表達(dá)“不確定”和“不知道”的優(yōu)勢(shì),使得證據(jù)理論在機(jī)械/電子系統(tǒng)的故障診斷等領(lǐng)域獲得了廣泛的應(yīng)用。
Dempster-Shafer(D-S)證據(jù)理論產(chǎn)生子上世紀(jì)60年代,由Dempster提出集值映射的概念,并誘導(dǎo)和定義了上、下概率[1]。Shafer利用信度函數(shù)對(duì)上、下概率重新詮釋,創(chuàng)立了證據(jù)的數(shù)學(xué)理論[2];韓崇昭教授進(jìn)一步研究了D-S的研究進(jìn)展和方向[3]。在使用D-S證據(jù)理論進(jìn)行信息融合的應(yīng)用時(shí),為了使用證據(jù)理論的組合規(guī)則,首先要生成基本概率分配(basic belief assignment, BBA)[4-9],而對(duì)于如何生成合適的BBA,與D-S組合規(guī)則一起成為D-S證據(jù)理論研究中的2個(gè)開(kāi)放的話題,尚無(wú)一致的結(jié)論。
總體來(lái)看,BBA的生成分為2種模式,一種是專家經(jīng)驗(yàn)打分,一種是根據(jù)統(tǒng)計(jì)特征自動(dòng)生成BBA。由于專家背景知識(shí)的差異性以及主觀性強(qiáng)的特點(diǎn),往往會(huì)出現(xiàn)證據(jù)高度沖突的情況[10-11],因此基于統(tǒng)計(jì)分析的BBA自動(dòng)化生成方法得到更為廣泛的應(yīng)用。韓崇昭教授在文獻(xiàn)[12]中提出了一種在最大熵原則下生成BBA的方法;Bi等針對(duì)文本分類問(wèn)題設(shè)計(jì)了三焦元組BBA[13];Deng等提出了基于回轉(zhuǎn)半徑而得到相似度,進(jìn)而得出了BBA的方法[14];文獻(xiàn)[15]提出一種基于隨機(jī)集理論講模糊傳感器報(bào)告生成BBA并提出一種基于證據(jù)距離的融合方法。
分析現(xiàn)有的BBA生成方法,可以看出:BBA對(duì)樣本的完備性依賴性較強(qiáng),要求樣本具有相對(duì)完備的信息,同時(shí)要求樣本長(zhǎng)度要滿足一定要求,但在流程生產(chǎn)系統(tǒng)中,系統(tǒng)狀態(tài)信息呈現(xiàn)出海量性以及系統(tǒng)狀態(tài)不可窮舉的特點(diǎn),具有分析意義的信息表現(xiàn)出強(qiáng)烈的不平衡性。因此,對(duì)目標(biāo)屬性進(jìn)行K-means聚類分析,可以在識(shí)別框架未知的情況下,完成目標(biāo)屬性的D-S信息融合,同時(shí)信息融合的結(jié)果對(duì)樣本長(zhǎng)度依賴程度較低。在對(duì)目標(biāo)屬性的聚類特征獲取的基礎(chǔ)上,本文提出了一種新的BBA生成方法,用聚類特征之間的距離來(lái)衡量目標(biāo)之間的差異性,獲得相似度,進(jìn)而得到基本信度分配。這種方法能應(yīng)用于識(shí)別框架未知或者樣本長(zhǎng)度變化的場(chǎng)合。
1.1 D-S證據(jù)理論
D-S證據(jù)理論作為一種不確定性推理方法,為決策級(jí)不確定信息的表征與融合提供了強(qiáng)有力的工具。與證據(jù)理論直接相關(guān)的若干概念介紹如下。
(1)辨識(shí)框架,用Θ表示。辨識(shí)框架是由一個(gè)有空而完備的樣本空間組成,組成取決于研究人員能知道什么和期望知道什么,任何一個(gè)關(guān)注的部分都成為識(shí)別框架的一個(gè)子集。對(duì)于Θ中元素,要求兩兩之間排斥,且包含研究中所要識(shí)別的全部對(duì)象。
(3)焦元。對(duì)于識(shí)別框架中任一子集A,如果滿足m(A)>0,則稱A為焦元。一個(gè)mass函數(shù)的所有焦元的集合組成為mass函數(shù)的核。
(4)Dempster組合規(guī)則。m1和m2分別是同一框架下來(lái)自2個(gè)不同信源的基本信度賦值組合,Dempster組合規(guī)則定義為
(1)
(2)
1.2 K-means聚類特征
聚類分析能夠有效從數(shù)據(jù)中發(fā)現(xiàn)有用的信息,所獲取的特征能較好反映所在簇的特點(diǎn)。聚類研究已經(jīng)有數(shù)十年的歷史,所產(chǎn)生的聚類方法很多,簡(jiǎn)單劃分為基于層次的方法[16]、基于劃分的方法[17]、基于密度的方法[18]等。李陽(yáng)陽(yáng)等提出一種基于流行距離的相似度衡量聚類算法,提高了未知對(duì)象隸屬度劃分的準(zhǔn)確性,并提出了一種新的衡量相似性的聚類特征[19],以期獲得全局的描述,并進(jìn)一步在文獻(xiàn)[20]中將該種聚類算法應(yīng)用于SAR圖像處理中。從算法研究程度和工程應(yīng)用上,K-means算法是典型的基于劃分的方法,并在研究和工程應(yīng)用中得到了更多的檢驗(yàn)。本文使用經(jīng)典K-means算法進(jìn)行聚類特征的獲取,聚類特征區(qū)間模型組成形式為[ci,cr],其中ci為聚類中心,cr為聚類半徑。以下將分別對(duì)2種情形進(jìn)行討論。
(1)識(shí)別框架未知。使用K-means對(duì)獲得的樣本數(shù)據(jù)首先進(jìn)行聚類分析,獲得K個(gè)類別。提取每個(gè)類別(簇)的聚類特征,組成相應(yīng)的區(qū)間模型。
(2)識(shí)別框架已知。該種情形最為簡(jiǎn)潔,直接對(duì)樣本數(shù)據(jù)進(jìn)行處理,建立每個(gè)樣本屬性的聚類特征區(qū)間模型。
本節(jié)將提出基于聚類特征區(qū)間的BBA生成方法。在BBA的生成過(guò)程中,涉及到待識(shí)別樣本與模型樣本之間的相似度,本節(jié)將首先提出衡量?jī)烧咧g相似度的方法,之后詳細(xì)說(shuō)明BBA的生成過(guò)程。
2.1 聚類特征相似度
設(shè)F1=[ci1,cr1]和F2=[ci2,cr2]是2個(gè)單元素焦元,則它們之間的相似距離定義為
D2(F1,F2)=(ci1-ci2)2+(cr1-cr2)2
(3)
2個(gè)聚類特征模型之間的相似度定義為
(4)
式中:α>0是支持系數(shù),其主要作用是調(diào)節(jié)生成相似度數(shù)值的離散程度,尤其是對(duì)于由于值相對(duì)集中(精度原因)造成的誤差。
從相似度的定義可以看出:當(dāng)兩模型相等時(shí),S(F1,F2)=1;當(dāng)兩者的差異越大,則計(jì)算得出的相似度值就越小;同樣可以得出S(F1,F2)=S(F2,F1)。
2.2 BBA生成步驟
用聚類特征區(qū)間模型生成BBA的過(guò)程是:首先用收集到的樣本特征構(gòu)造區(qū)間模型;然后求待測(cè)樣本與模型區(qū)間的距離,并在此基礎(chǔ)上獲得兩者的相似度計(jì)算值;最后對(duì)相似度進(jìn)行歸一化生成BBA。過(guò)程的具體步驟如下:
(1)建立樣本特征屬性的聚類特征區(qū)間模型;
(2)計(jì)算待識(shí)別樣本屬性值與模型區(qū)間之間的距離;
(3)計(jì)算待識(shí)別樣本屬性值與模型區(qū)間之間的相似度;
(4)對(duì)相似度進(jìn)行歸一化,生成BBA。
對(duì)于多元素的焦元,即焦元中包含多于一個(gè)元素的情況,此時(shí)往往由于樣本屬性在單元素焦元之間具有存在重疊部分,對(duì)于該重疊部分聚類特征區(qū)間模型的處理詳見(jiàn)2.3節(jié)。
2.3 多元素焦元的聚類特征區(qū)間
本節(jié)以3個(gè)模型(即3個(gè)單元素焦元)為例說(shuō)明對(duì)存在交集多元素焦元的區(qū)間模型生成。
設(shè)F1=[ci1,cr1],F2=[ci2,cr2]和F3=[ci3,cr3]為3個(gè)單元素焦元,對(duì)于焦元{F1,F2}、{F1,F3}、{F2,F3}和{F1,F2,F3}的聚類特征區(qū)間模型,其獲取過(guò)程如圖1所示。
(a)雙元素焦元交集 (b)三元素焦元交集圖1 多元素交集示意圖
以{F1}、{F2}兩者交集和{F1,F2,F3}三者交集為例,計(jì)算多元素焦元的聚類特征區(qū)間模型。
(1){F1}、{F2}兩者交集為{F1,F2},兩者交于A和B2點(diǎn),過(guò)A、B2點(diǎn)的圓即為交集的聚類區(qū)間模型,如圖1a所示,則交集的聚類中心與聚類半徑分別為
(5)
(6)
因此,焦元{F1,F2}的聚類特征區(qū)間模型為[ci,AB,cr,AB]。
(2){F1}、{F2}、{F3}三者交集為{F1,F2,F3},3個(gè)焦元的聚類區(qū)間交于C和D2點(diǎn),過(guò)C、D2點(diǎn)的圓即為三者交集的聚類區(qū)間模型,則三者交集的聚類中心與聚類半徑為
(7)
(8)
則焦元{F1,F2,F3}的聚類特征區(qū)間模型為[ci,CD,cr,CD]。
(3)對(duì)于不存在交集的其他焦元,統(tǒng)一規(guī)定為[0,0]。遇到該類型的焦元進(jìn)行下一步的計(jì)算時(shí),應(yīng)該排除在外。
2.4 關(guān)于方法的若干討論
(1)聚類特征是文中所提方法的基礎(chǔ),其有效性對(duì)BBA結(jié)果的可信性有較大影響。文中采用K-means聚類方法,針對(duì)以下2種情況:一是識(shí)別框架未知而數(shù)據(jù)集已獲得的情況,通過(guò)合理確定初始類個(gè)數(shù)k和聚類中心予以聚類特征有效的保證;二是識(shí)別框架已知情況,聚類特征的有效性主要依靠合理確定聚類中心和聚類半徑予以保證。
(2)若聚類特征提取不很有效,造成其表征該狀態(tài)下的特征集的能力有限,衡量不同類相似性的能力有限,對(duì)BBA生成效果有影響。針對(duì)該類問(wèn)題的解決方法,應(yīng)研究合適的聚類特征提取方法,本文所應(yīng)用的K-means聚類算法不僅能處理小樣本數(shù)據(jù),同時(shí)也能處理大樣本數(shù)據(jù),所提取的聚類特征具有很強(qiáng)表征能力。
(3)證據(jù)理論中BBA的生成原則在于未知樣本與已知樣本集之間相似性的衡量,目前各研究方法的不同之處多在于衡量相似性的方法不同。基于距離衡量相似性是研究應(yīng)用比較多而且工程適用性比較強(qiáng)的一類方法。本文提出的相似度衡量方法是對(duì)歐氏距離取倒數(shù),保證最終相似性計(jì)算結(jié)果小于1,同時(shí)保證了未知樣本與識(shí)別框架中每個(gè)焦元的差異性衡量,方法簡(jiǎn)潔、便于工程計(jì)算,因此具有較強(qiáng)實(shí)用性和有效性。
(4)對(duì)于BBA的生成,使用本文中的相似度衡量方法能滿足應(yīng)用和研究需要。文中使用的相似度是基于距離的相似度,尚未考慮角度相似度。給予后續(xù)研究啟示:雖然衡量樣本相似度的方法和研究較多,選取有效的相似度衡量方法是非常重要的。
以下將使用Iris和Wine數(shù)據(jù)集對(duì)上述方法進(jìn)
行驗(yàn)證,并對(duì)不同訓(xùn)練樣本情況下的Dempster信息融合結(jié)果對(duì)比,并對(duì)Wine分類結(jié)果做分析,實(shí)例分析了某煤化工企業(yè)壓縮機(jī)組子系統(tǒng)的狀態(tài)信息。
3.1 Iris數(shù)據(jù)的BBA生成
Iris數(shù)據(jù)集[21]共有3個(gè)種類,分別是Setosa、Versicolor、Virginica,簡(jiǎn)記為Se、Ve、Vi。數(shù)據(jù)集有150個(gè)樣本,其中每個(gè)種類有50個(gè)樣本。每類都有4個(gè)屬性特征描述,分別是Sepal Length、Sepal Width、Petal Length和Petal Width,特征屬性分別簡(jiǎn)記為SL、SW、PL、PW。BBA生成步驟如下。
步驟1 生成聚類特征區(qū)間模型。對(duì)于這3個(gè)種類的Iris,都隨機(jī)選擇20個(gè)樣本,建立它們的區(qū)間模型。每個(gè)種類下都隨機(jī)選取一個(gè)樣本,作為測(cè)試樣本。聚類特征區(qū)間模型如表1所示。
步驟2 求待測(cè)樣本與模型屬性之間的距離Ls。把待測(cè)樣本的屬性值作為聚類特征區(qū)間模型,例如Ls=4.5可以看成區(qū)間[4.5,0]。在計(jì)算的距離基礎(chǔ)上,獲得待測(cè)樣本與模型屬性之間的相似度(此時(shí)支持系數(shù)取為1),相似度及BBA計(jì)算結(jié)果如表2所示。
步驟3 對(duì)求得的相似度進(jìn)行歸一化,獲得基本信度分配結(jié)果,如表2所示。
步驟4 Dempster-Shafer信息融合及決策分析。共有3個(gè)待測(cè)樣本,分別是S1:{5.4,3.4,1.7,0.2};S2:{5.9,3.2,4.8,1.8};S3:{6.9,3.2,5.7,2.3}。每個(gè)焦元的融合結(jié)果及待測(cè)樣本決策分析如表3所示。
數(shù)據(jù)集的聚類特征能夠?qū)崿F(xiàn)較好的基本概率分配 (即mass函數(shù)的獲取),并且經(jīng)過(guò)D-S決策級(jí)信息融合后的結(jié)果顯示,未知樣本能夠準(zhǔn)確歸屬于已知的類別。
3.2 樣本數(shù)量變化下的Iris融合結(jié)果分析
本節(jié)將探索在不同樣本數(shù)據(jù)量情況下本文方法的有效性,將采用3.1節(jié)的{5.4,3.4,1.7,0.2}作為測(cè)試樣本,變化訓(xùn)練樣本長(zhǎng)度。樣本的規(guī)模依次為20,25,30,35,40,45,對(duì)經(jīng)過(guò)D-S信息融合后的結(jié)果進(jìn)行對(duì)比分析,結(jié)果見(jiàn)表4。
表1 4種特征屬性的聚類特征區(qū)間模型
表2 相似度及BBA計(jì)算結(jié)果(以Setosa為例)
表3 每個(gè)焦元的融合結(jié)果及待測(cè)樣本決策分析
表4 不同樣本長(zhǎng)度的D-S信息融合結(jié)果對(duì)比
表4結(jié)果顯示,基于K-means聚類特征的BBA生成方法對(duì)樣本數(shù)據(jù)量不敏感。K-means方法不僅對(duì)于分析小樣本具有很好的表現(xiàn),對(duì)于處理較大樣本同樣具有很好的表現(xiàn),因此可同時(shí)進(jìn)行處理大數(shù)據(jù)量樣本以及小樣本數(shù)據(jù)。文獻(xiàn)[4]同樣可以處理小樣本數(shù)據(jù),對(duì)于處理大樣本數(shù)據(jù),聚類特征能更好表征樣本的特性。
3.3 Wine數(shù)據(jù)集分類結(jié)果
Wine數(shù)據(jù)集共有3類,分別簡(jiǎn)記為C1、C2和C3,對(duì)應(yīng)的每個(gè)類的數(shù)據(jù)樣本數(shù)為59、71和48,樣本的字符數(shù)為178,每個(gè)類有13個(gè)屬性。采用本文的BBA生成方法,對(duì)C1的59個(gè)樣本應(yīng)用證據(jù)理論進(jìn)行分類(其他2類計(jì)算過(guò)程相似)。同時(shí),為了說(shuō)明本文所提BBA生成方法的穩(wěn)健性,只選取Malic acid和Flavanoids這2個(gè)屬性。
采用本文基于聚類特征的BBA生成方法,選擇待測(cè)樣本為{1.810,2.910},應(yīng)用證據(jù)組合規(guī)則計(jì)算每個(gè)焦元的信度函數(shù),即[m(C1),m(C2),m(C1,C2),m(C1,C3),m(C2,C3),m(C1,C2,C3),m(?)=[0.334,0.188,0.199,0.112,0.725,0.066 5,0.018 7],從而得出決策分析結(jié)果:待測(cè)樣本準(zhǔn)確歸屬為C1。
對(duì)C1類的59個(gè)樣本重復(fù)上述過(guò)程,計(jì)算分類結(jié)果及誤分的樣本數(shù)量。其中C1的59個(gè)樣本準(zhǔn)確歸屬為C1類,分類正確率為100%。
應(yīng)用本文BBA生成方法對(duì)C1類中59個(gè)樣本決策級(jí)的信息融合結(jié)果表明:59個(gè)樣本被準(zhǔn)確分到C1類中,準(zhǔn)確率達(dá)到100%。但是,在計(jì)算C1中第22個(gè)樣本時(shí),決策向量中{C1}和{C3}的信度函數(shù)值相差較小,為0.042 3,因此后續(xù)研究中需要研究更好的聚類特征提取方法,以適應(yīng)研究和工程應(yīng)用的需要。
3.4 某煤化工壓縮機(jī)組子系統(tǒng)狀態(tài)信息
圖2 壓縮機(jī)組子系統(tǒng)部分變量耦合關(guān)系網(wǎng)絡(luò)
應(yīng)用本文的BBA生成方法及證據(jù)組合規(guī)則,識(shí)別某煤化工集團(tuán)壓縮機(jī)組系統(tǒng)的狀態(tài)。該系統(tǒng)是由油路、蒸汽冷凝、空壓機(jī)、增壓機(jī)和軸系等子系統(tǒng)構(gòu)成的分布式復(fù)雜機(jī)電系統(tǒng),是典型的非線性系統(tǒng)。由于系統(tǒng)不能進(jìn)行重復(fù)性或破壞性試驗(yàn),研究應(yīng)用替代數(shù)據(jù)法模擬A1點(diǎn)位高于設(shè)定值(高報(bào)警)、低于設(shè)定值(低報(bào)警)和設(shè)定值微波動(dòng)(正常)3種狀態(tài)下的監(jiān)測(cè)信息序列,選取與A1耦合的監(jiān)測(cè)點(diǎn)位A2、A3和A4(連接關(guān)系見(jiàn)圖2,依據(jù)監(jiān)測(cè)信息序列間長(zhǎng)程冪率相關(guān)建立網(wǎng)絡(luò)模型)。采用本文的BBA生成方法及證據(jù)組合規(guī)則所得到的決策結(jié)果如表5所示。
每種監(jiān)測(cè)信息狀態(tài)下獲取A1的監(jiān)測(cè)信息序列及其他3個(gè)點(diǎn)位的監(jiān)測(cè)信息序列。每個(gè)耦合關(guān)系提取Kendall秩相關(guān)系數(shù)、互信息及DCCA指數(shù)[22],進(jìn)行D-S信息融合。分別對(duì)每種監(jiān)測(cè)信息序列狀態(tài)截取20組樣本數(shù)為2 000的序列,提取耦合特征,建立耦合特征矩陣。
對(duì)系統(tǒng)中的任何監(jiān)測(cè)點(diǎn)位,3種監(jiān)測(cè)信息狀態(tài)組成完備的識(shí)別框架。按照基于區(qū)間數(shù)獲得每一個(gè)證據(jù)的BBA,形式表現(xiàn)為對(duì)每個(gè)焦元分配的BBA值,例如SL表示賦予低報(bào)警狀態(tài)的基本信度分配BBA值;對(duì)于空集的BBA值賦予0。由于每種狀態(tài)需要足夠多的典型故障案例數(shù)據(jù),而實(shí)際生產(chǎn)中往往不能滿足這種要求,因此這里使用替代數(shù)據(jù)法對(duì)正常監(jiān)測(cè)信息序列的部分進(jìn)行替換,產(chǎn)生多組異常信息序列。
表5 采用本文方法所得到的決策結(jié)果
計(jì)算結(jié)果表明,第1個(gè)決策向量對(duì)監(jiān)測(cè)信息的正常狀態(tài)支持程度為0.393 8,第2個(gè)決策向量對(duì)監(jiān)測(cè)信息的高報(bào)狀態(tài)支持程度為0.510,第3個(gè)決策向量對(duì)監(jiān)測(cè)信息的低報(bào)狀態(tài)支持程度為0.503。在存在證據(jù)沖突的情況下,D-S證據(jù)融合的結(jié)果對(duì)于這些狀態(tài)的判斷基本是正確的。D-S決策級(jí)信息融合考慮了監(jiān)測(cè)信息序列的非線性特征,區(qū)分多種監(jiān)測(cè)信息的狀態(tài)。需要注意的是:監(jiān)測(cè)信息高于設(shè)定值和低于設(shè)定值的信度函數(shù)計(jì)算結(jié)果比較接近,后續(xù)研究中可針對(duì)該類型的問(wèn)題,研究更為合適的聚類特征。
采用聚類特征描述不確定性信息時(shí)對(duì)樣本數(shù)據(jù)量不敏感,并且對(duì)于處理大樣本時(shí)聚類特征能夠更好表征樣本屬性,同時(shí)通過(guò)調(diào)整支持系數(shù)使D-S融合結(jié)果的更為有效。對(duì)于識(shí)別框架未知的情形,通過(guò)聚類分析同樣可以獲得每一類別的聚類特征區(qū)間模型,實(shí)現(xiàn)基于D-S的信息融合和決策分析。Iris數(shù)據(jù)集的D-S信息融合結(jié)果驗(yàn)證了本文方法的有效性,Wine數(shù)據(jù)集的分類結(jié)果說(shuō)明本文方法的穩(wěn)健性,最后分析某煤化工企業(yè)壓縮機(jī)組子系統(tǒng)監(jiān)測(cè)信息的狀態(tài)識(shí)別,使得該方法相對(duì)簡(jiǎn)單、易行,適用于工程應(yīng)用。后續(xù)的研究將針對(duì)Dempster-Shafer組合規(guī)則的研究及改進(jìn)和更有效的聚類特征提取方法,為流程工業(yè)生產(chǎn)系統(tǒng)狀態(tài)監(jiān)測(cè)信息狀態(tài)識(shí)別結(jié)果及檢測(cè)耦合關(guān)系的沖突,實(shí)現(xiàn)監(jiān)測(cè)信息準(zhǔn)確性評(píng)價(jià)奠定基礎(chǔ)。
[1] DEMPSTER A P. Upper and lower probabilities induced by a multiple value mapping [J]. The Annals of Mathematical Statistics, 1967, 38(2): 325-339.
[2] SHAFER G. A mathematical theory of evidence [M]. Princeton, NJ, USA: Princeton University Press, 1976: 1-30.
[3] 韓德強(qiáng), 楊藝, 韓崇昭. DS證據(jù)理論研究進(jìn)展及相關(guān)問(wèn)題探討 [J]. 控制與決策, 2014, 29(1): 1-11. HAN Deqiang, YANG Yi, HAN Chongzhao. Advances in DS evidence theory and related discussions [J]. Control and Decision, 2014, 29(1): 1-11.
[4] 康兵義, 李婭, 鄧勇, 等. 基于區(qū)間數(shù)的基本概率指派生成方法及應(yīng)用 [J]. 電子學(xué)報(bào), 2012, 40(6): 1092-1096. KANG Bingyi, LI Ya, DENG Yong, et al. Determination of basic probability assignment based on interval numbers and its application [J]. Acta Electronica Sinica, 2012, 40(6): 1092-1096.
[5] HAN D Y, DEZERT J, HAN C Z. New basic belief assignment approximations based on optimization [C]∥15th International Conference on Information Fusion. Piscataway, NJ, USA: IEEE, 2012: 282-293.
[6] ZHU J, YAN M L, WANG C X, et al. New construction approach of basic belief assignment based in confusion matrix [J]. Research Journal of Applied Sciences, Engineering and Technology, 2012, 4(16): 2716-2722.
[7] 李云彬, 李輝, 王云飛. 基于模糊數(shù)相似性的BPA生成方法 [J]. 現(xiàn)代電子技術(shù), 2011, 34(15): 5-7. LI Yunbin, LI Hui, WANG Yunfei. BPA generation method based on the similarity of fuzzy numbers [J]. Modern Electronics Technique, 2011, 34(5): 5-7.
[8] 周哲. 證據(jù)理論中證據(jù)生成和融合方法研究 [D]. 杭州: 杭州電子科技大學(xué), 2011: 18-22.
[9] 文成林, 周哲, 徐曉濱. 一種新的廣義梯形模糊數(shù)相似性度量方法及在故障診斷中的應(yīng)用 [J]. 電子學(xué)報(bào), 2011, 39(3): 1-6. WEN Chenglin, ZHOU Zhe, XU Xiaobin. A new similarity measure between generalized trapezoidal fuzzy numbers and its application to fault diagnosis [J]. Acta Electronica Sinica, 2011, 39(3): 1-6.
[10]何友, 王國(guó)宏, 陸大金, 等. 多傳感器信息融合及應(yīng)用 [M]. 北京: 電子工業(yè)出版社, 2001: 5-25.
[11]鄧勇, 施文康, 朱振福. 一種有效處理沖突證據(jù)的組合方法 [J]. 紅外與毫米波學(xué)報(bào), 2004, 23(1): 27-32. DENG Yong, SHI Wenkang, ZHU Zhenfu. Efficient combination approach of conflict evidence [J]. Journal of Infrared and Millimeter Waves, 2004, 23(1): 27-32.
[12]韓崇昭, 韓德強(qiáng), 介婧. 從生物感知認(rèn)識(shí)到系統(tǒng)工程方法論 [J]. 系統(tǒng)工程理論與實(shí)踐, 2008(S1): 75-95. HAN Changzhao, HAN Deqiang, JIE Jing. From biological cognition and perception to methodologies of system engineering [J]. System Engineering: Theory and Practice, 2008(S1): 75-96.
[13]BI Y X, BELL D, GUAN J W. Combining evidence from classifiers in text categorization [C]∥Proceedings of the 8th International Conference on Knowledge-Based Intelligent Information and Engineering Systems. Berlin, Germany: Springer-Verlag, 2004: 521-528.
[14]DENG Y, JIANG W, XU X, et al. Determining BPA under uncertainty environments and its application [J]. Chinese Journal of Electronics, 2009, 26(1): 13-17.
[15]DENG Y, SHI W K, ZHU Z F, et al. Combining belief function based on distance of evidence [J]. Decision Support System, 2004, 38(3): 389-493.
[16]ZHANG T, RAMAKRISHNANA R, OGIHARA M. An efficient data clustering method for very large databases [C]∥Proceeding of ACM-SIGMOD International Conference on Management of Data. New York, USA: ACM, 1996: 103-114.
[17]HUANG Z. Extensions to theK-means algorithm for clustering large data sets with categorical values [J]. Data Mining and Knowledge Discovery, 1998(2): 283-304.
[18]ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovery clusters in large spatial database [C]∥Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 1996: 266-231.
[19]李陽(yáng)陽(yáng), 石洪竺, 焦李成, 等. 基于流行距離的量子進(jìn)化聚類算法 [J]. 電子學(xué)報(bào), 2011, 39(10): 2343-2347. LI Yangyang, SHI Hongzhu, JIAO Licheng, et al. Quantum-inspired evolutionary clustering algorithm based on manifold distance [J]. Acta Electronica Sinica, 2011, 39(10): 2343-2347.
[20]LI Y Y, FENG S X, ZHANG X R, et al. SAR image segmentation based on quantum-inspired multiobjective evolutionary clustering algorithm [J]. Information Processing Letters, 2014, 114(6): 287-293.
[21]Iris Data Set. Famous database for pattern recognition from Fisher[EB/OL]. (2011-03-20) [2016-01-05]. http: ∥archive.ics.uci.edu/ml/datasets/Iris.
[22]PODOBNIK B, STANLEY H E. Detrended cross-correlation analysis: a new method for analyzing two nonstationary time series [J]. Physical Review Letters, 2008, 100(8): 0814021.
(編輯 劉楊)
A Method to Generate Basic Belief Assignment Based on Clustering Analysis and Its Application
GAO Zhiyong,DONG Rongguang,GAO Jianmin,WANG Rongxi
(State Key Laboratory for Manufacturing Systems Engineering, Xi’an Jiaotong University, Xi’an 710049, China)
A method to generate BBA (basic belief assignment) based on cluster analysis is proposed to focus the problem that the mass function is hard to determine when the frame is unknown. The method tackles the situation whether the frame of discernment is known or not. A clustering analysis method is applied to extract cluster features and models of cluster features are constructed with the samples. Then the distances between different cluster feature models are calculated to represent differences between sample attributes and then the similarities of them are obtained. Finally, the values of similarities are normalized to get the BBA. The analysis results of classifying the Iris dataset and Wine dataset show that the proposed method is less dependent on the length of samples and the classification accuracy in Wine dataset is 100%. Monitoring information series by applying the method to a compressor unit system proves the effectiveness of the method, and the condition of monitoring information can be clearly recognized.
evidence theory; basic belief assignment; cluster feature interval model; similarity; information fusion
2016-03-17。 作者簡(jiǎn)介:高智勇(1973—),男,副教授,博士生導(dǎo)師。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(51375375)。
時(shí)間:2016-07-21
網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20160721.2215.014.html DOI:10.7652/xjtuxb201610002
TP391
A
0253-987X(2016)10-0008-07