任會娟,黃麗霞,張雪英,李鳳蓮,杜海文,于麗君
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原 030024;2.山西省中電科新能源技術(shù)有限公司,太原 030024)
由于生產(chǎn)環(huán)境、生產(chǎn)次數(shù),測量誤差等諸多因素,沉積數(shù)據(jù)往往具有顯著的不確定性。D-S證據(jù)理論作為一種處理不確定性問題的理論方法,及其在不確定信息的表示、處理和組合等方面的優(yōu)勢,已經(jīng)廣泛使用于決策融合的不確定性推理系統(tǒng)中[1]。但是D-S證據(jù)理論在處理沖突證據(jù)時(shí),容易產(chǎn)生與事實(shí)相悖的結(jié)果,不利于實(shí)際生產(chǎn)應(yīng)用。
針對上述問題,現(xiàn)有研究方向主要包括:改變Dempster組合規(guī)則[2-3]和修正原證據(jù)體[4-5]。前者認(rèn)為組合規(guī)則本身存在缺陷需要修改,但修改破壞了D-S證據(jù)理論的完整性[6],在處理大量證據(jù)時(shí),效果并不理想;后者認(rèn)為悖論的出現(xiàn)主要是由于證據(jù)本身的缺陷導(dǎo)致,即存在一個(gè)或多個(gè)沖突證據(jù),而解決沖突問題關(guān)鍵是通過折扣系數(shù)對證據(jù)進(jìn)行修正,減小沖突證據(jù)的占比,削減證據(jù)的沖突程度,最大程度上保留了D-S證據(jù)理論的完整性。因此,本文將折扣系數(shù)的確定方式作為研究的重點(diǎn)。
目前,折扣系數(shù)的確定方法分兩種:一種是利用距離衡量證據(jù)的不確定性;另一種是基于相關(guān)系數(shù)描述沖突程度[7-8]。前者又可分為兩類:一類是點(diǎn)到點(diǎn)距離。文獻(xiàn)[9]通過分析Jousselme距離提出廣義證據(jù)距離,但是很難用一個(gè)點(diǎn)衡量不確定區(qū)間,不可避免地造成信息的丟失;另一類是區(qū)間距離[10-11]。文獻(xiàn)[12]利用基于定積分的區(qū)間距離衡量證據(jù)的不確定性并得到很好的融合效果。關(guān)于后者,文獻(xiàn)[13]使用Pearson相關(guān)系數(shù)對證據(jù)進(jìn)行修正,但Pearson相關(guān)系數(shù)適用于符合正態(tài)分布的數(shù)據(jù),對數(shù)據(jù)源的要求很高。文獻(xiàn)[14]使用Spearman相關(guān)系數(shù)有效的解決了這一問題,但沒有考慮到證據(jù)的不確定性,造成了部分信息的丟失。
綜上所述,本文在相關(guān)性和置信區(qū)間的基礎(chǔ)上,引入Spearman相關(guān)系數(shù)和基于定積分的區(qū)間距離來分別描述和計(jì)算證據(jù)間的支持度以及各證據(jù)的不確定度,并根據(jù)這兩個(gè)指標(biāo),確定新的折扣系數(shù)以修正原證據(jù)體。以此為基礎(chǔ),建立一種基于改進(jìn)D-S證據(jù)理論的碳/碳復(fù)合材料沉積質(zhì)量預(yù)測模型,為碳/碳復(fù)合材料的沉積過程提供有效參考。
碳/碳復(fù)合材料,是一種具有較好物理性能和力學(xué)性能的新型復(fù)合材料,廣泛應(yīng)用于航空航天、導(dǎo)航、核能等高科技領(lǐng)域[15]。但是目前國內(nèi)外絕大多數(shù)的研究主要針對致密技術(shù)進(jìn)行實(shí)驗(yàn)和研究[16-17],而隨著生產(chǎn)數(shù)據(jù)的增多和實(shí)際生產(chǎn)的需要,對致密化過程產(chǎn)生的數(shù)據(jù)進(jìn)行智能分析,發(fā)現(xiàn)各工序之間的關(guān)系及最后的作用效果,對于開展碳/碳復(fù)合材料沉積質(zhì)量預(yù)測的研究具有重要意義。
下面給出D-S證據(jù)理論相關(guān)定義:
定義1 設(shè)Θ為識別框架,基本信任分配函數(shù)m是一個(gè)從集合2Θ到[0,1]的映射,A表示識別框架Θ的任一子集,記為A?Θ,且滿足[8]:
(1)
式中:m(A)稱為命題A的基本概率分配(Basic Probability Assignment,BPA)函數(shù),表示證據(jù)對的信任程度。
定義2 假設(shè)Θ為識別框架,m為BPA函數(shù),則
(2)
Bel(A)為信任函數(shù),表示命題A所有子集的BPA之和。
(3)
Pl(A)為似然函數(shù),表示命題A非假的信任程度。[Bel(A),Pl(A)]為置信區(qū)間或不確定區(qū)間,區(qū)間的長度反映了命題A的不確定程度[15]。
定義3 設(shè)m1,m2,…,mn是同一識別框架Θ上的n個(gè)BPA函數(shù),焦元分別為Ai(i=1,2,…,N),則D-S證據(jù)理論的合成規(guī)則為:
(4)
本節(jié)針對Spearman相關(guān)系數(shù)的規(guī)范性問題進(jìn)行說明并加以改進(jìn),并對支持度和不確定度對于沖突度量的必要性進(jìn)行分析;最后,提出融合支持度和不確定度的D-S證據(jù)理論,并詳細(xì)介紹所提理論對于沖突證據(jù)融合流程。
雖然Spearman相關(guān)系數(shù)在非正態(tài)分布的樣本上表現(xiàn)優(yōu)異,但將其引入到D-S證據(jù)理論進(jìn)行證據(jù)修正時(shí),仍存在以下問題:
1) 忽略了相關(guān)系數(shù)為[-1,0)和0時(shí)的區(qū)別;
2) 默認(rèn)樣本值無重復(fù)。
下面將給出原始的Spearman相關(guān)系數(shù)定義,如定義3,并對以上兩個(gè)問題分別展開討論并舉例說明:
(5)
為變量x和y之間的Spearman相關(guān)系數(shù)。其中,di為變量x和y之間的等級差。r取值范圍為[-1,1],r的值越大,x、y相似性越高。當(dāng)r=1時(shí),x和y在函數(shù)上嚴(yán)格單調(diào)遞增。當(dāng)r=-1時(shí),x和y在函數(shù)上嚴(yán)格單調(diào)遞減。當(dāng)r=0時(shí),x和y的單調(diào)關(guān)系在函數(shù)上并不明顯[17]。
針對Spearman相關(guān)系數(shù)取值無法滿足基本概率分配函數(shù)要求的情況,即m(A)>0且∑A?Θm(A)=1.文獻(xiàn)[17]將Spearman相關(guān)系數(shù)為[-1,0]的全部歸零,即r=0;認(rèn)為r為負(fù)數(shù)的證據(jù)完全沖突,忽略了r為負(fù)數(shù)的證據(jù)的沖突程度也有區(qū)分,以下進(jìn)行舉例說明。
例1:設(shè)辨識框架Θ={A,B,C},3個(gè)證據(jù)的基本概率分配如下:
m1∶m1(A)=0.8,m1(B)=0.2,m1(C)=0;
m2∶m2(A)=0,m2(B)=0.8,m2(C)=0.2;
m3∶m3(A)=0.3,m3(B)=0.5,m3(C)=0.2.
推理m1對命題A的信度較高,且m1和m2對命題B的均有信度,即具有一定的相關(guān)性;較m2,m3對命題A的信度有所上升,且對命題B的信度有所下降,m1和m3的相關(guān)性應(yīng)大于m1和m2的相關(guān)性。
根據(jù)文獻(xiàn)[17]的計(jì)算方式得,m1和m2之間的Spearman相關(guān)系數(shù)r12=0,m1和m3的r13=0,與上述推理結(jié)果不符。
針對這一問題,對Spearman相關(guān)系數(shù)計(jì)算公式(5)進(jìn)行改進(jìn),由于原始Spearman相關(guān)系數(shù)的取值范圍為[-1,1],對其進(jìn)行加1處理,使其取值范圍變[0,2];再次對整體除以2,為使之取值范圍變?yōu)閇0,1],改進(jìn)后的Spearman相關(guān)系數(shù)計(jì)算公式,如式(6)所示:
(6)
其中,n為焦元個(gè)數(shù),di為焦元之間的等級差。改進(jìn)之后的Spearman相關(guān)系數(shù)既考慮了相關(guān)系數(shù)為[-1,0)和0時(shí)的區(qū)別,又滿足了基本概率分配函數(shù)的要求。
根據(jù)公式(6)計(jì)算得,m1和m2的r12=0.25,m1和m3的r13=0.75,與上述推理結(jié)果完全吻合。
另外,針對Spearman相關(guān)系數(shù)默認(rèn)樣本值要求無重復(fù)的缺陷,考慮證據(jù)的BPA無法保證無重復(fù)。因此,在計(jì)算時(shí),對存在重復(fù)值的部分取等級均值。以下進(jìn)行舉例說明:
例2:設(shè)辨識框架Θ={A,B,C},兩個(gè)證據(jù)的基本概率分配如下:
m1∶m1(A)=0.5,m1(B)=0.2,m1(C)=0.3;
m2∶m2(A)=0.6,m2(B)=0.2,m2(C)=0.2.
若不對等級取均值,由公式(6)計(jì)算可得,m1和m2的r12=0.75.對重復(fù)值的部分取等級均值得m1的等級分別為1,3,2;m2的等級分別為1,2.5,2.5.則m1和m2的r12=0.937 5.對存在重復(fù)值的部分取等級均值,m1和m2之間的支持度相對較高。
支持度是從證據(jù)間的相互性出發(fā),描述證據(jù)間的變化趨勢是否相關(guān),而證據(jù)的不確定度是以證據(jù)本身特性作為依據(jù),用來反映證據(jù)的聚集程度,不確定度越高,說明證據(jù)的聚集程度越低,對自身的BPA分配越不認(rèn)可;反之,對自身的BPA分配的認(rèn)可度越高。所以,證據(jù)間的支持度和證據(jù)自身的不確定度互不影響,且都屬于證據(jù)自身所擁有的信息。僅考慮其中之一,都將破壞證據(jù)信息的完整性,不利于對沖突證據(jù)的有效修正。
因此本文的研究重點(diǎn)是相關(guān)系數(shù)和區(qū)間距離在證據(jù)體上的具體應(yīng)用以及新的折扣系數(shù)的確定。
由上述研究可知,綜合考慮證據(jù)間的支持度和證據(jù)的不確定度,可以有效描述證據(jù)間的信任程度,并且對證據(jù)的聚集程度也得以體現(xiàn),最大程度上利用了證據(jù)信息。以此為基礎(chǔ),構(gòu)建融合支持度和不確定度的D-S證據(jù)理論。通過證據(jù)間的支持度和證據(jù)的不確定度,確定新的折扣系數(shù),修正原證據(jù)體,削減證據(jù)的沖突程度以達(dá)到正確融合的效果。具體的流程如圖1所示。
圖1 沖突證據(jù)融合流程圖Fig.1 Conflict evidence fusion flowchart
多證據(jù)融合方法和步驟具體如下:
1) 利用式(6)計(jì)算兩兩證據(jù)之間的相關(guān)系數(shù)rij,并構(gòu)成證據(jù)體的相關(guān)性矩陣
(7)
其中,n為證據(jù)體的證據(jù)個(gè)數(shù)。
2) 根據(jù)相關(guān)性矩陣,確定證據(jù)體對各證據(jù)的支持度。定義證據(jù)體對證據(jù)mi(i=1,2,…,n)的支持度:
(8)
其中,Ri的取值范圍為[0,1].
3) 將證據(jù)的支持度Ri作為折扣公式:
(9)
中的折扣系數(shù)αi,對原證據(jù)體進(jìn)行第一次修正。
4) 在考慮了證據(jù)體對各證據(jù)支持度的基礎(chǔ)上,結(jié)合修正后證據(jù)體中各證據(jù)的置信區(qū)間和基于定積分的區(qū)間距離:
(10)
確定修正后證據(jù)體中各證據(jù)自身的不確定度Ui.
公式(10)中,E、F為兩個(gè)區(qū)間,表示為[eu,el]、[fu,fl],D(E,F)的取值范圍為[0,1],本文對p取1.有關(guān)基于定積分區(qū)間距離的其他性質(zhì),參考文獻(xiàn)[15].
各證據(jù)自身不確定度Ui的計(jì)算步驟如下:
①使用Dempster組合規(guī)則對第一次修正后的證據(jù)體進(jìn)行融合,得到結(jié)果中BPA最大的焦元A′(A′?A);
5) 根據(jù)各證據(jù)的支持度和不確定度計(jì)算新的折扣系數(shù):
wi=Ri×(1-Ui) .
(11)
式中,wi的取值范圍為[0,1].證據(jù)的支持度越大,不確定度越小,則證據(jù)的可靠性越強(qiáng),即折扣系數(shù)越大。當(dāng)證據(jù)的支持度Ri=0或Ui=1時(shí),證據(jù)的折扣系數(shù)wi=0,即該證據(jù)與其他證據(jù)完全沖突或者該證據(jù)對融合結(jié)果完全不信任,將從證據(jù)體剔除。當(dāng)證據(jù)的支持度Ri=1并且Ui=0時(shí),證據(jù)的折扣系數(shù)wi=1.
6) 將新的折扣系數(shù)帶入式(9),對原證據(jù)體進(jìn)行第二次修正。
7) 使用Dempster組合規(guī)則對第二次修正后的證據(jù)體進(jìn)行融合,對應(yīng)BPA最高的焦元為最終的融合結(jié)果。
以文獻(xiàn)[18]中提到的4種常見悖論的BPA函數(shù)為數(shù)據(jù)源,如表1所示。從方法的有效性方面,對比幾個(gè)經(jīng)典改進(jìn)算法,對比結(jié)果如表2所示。
表1 四個(gè)常見悖論的BPATable 1 BPA of four common paradoxes
由表2易知,在完全沖突下,D-S證據(jù)理論失效、Yager組合規(guī)則將沖突完全給全集,認(rèn)為證據(jù)完全無知;孫全等[2]雖有所改善,但全集的BPA仍然很高,不利于實(shí)際判斷。在0信任悖論下,D-S證據(jù)理論和Yager組合規(guī)則對A的信任度對0,與實(shí)際不符;Sun仍存在全集的BPA仍然過高問題。在1信任悖論下,D-S證據(jù)理論、Yager組合規(guī)則、Sun仍然存在上述問題。在高沖突悖論下,D-S證據(jù)理論、Yager組合規(guī)則和Sun仍然存在上述問題。Murphy組合規(guī)則[3]、鄧勇等[4]和本文方法在四個(gè)沖突悖論下都能得到正確的結(jié)果,但本文方法具有更高的基本概率分配,收斂更快。實(shí)驗(yàn)結(jié)果證明了本文方法有效性。
由于本文的不確定性的度量方法參考了文獻(xiàn)[12]中的基于定積分的區(qū)間距離。因此,使用文獻(xiàn)[12]的實(shí)驗(yàn)數(shù)據(jù),如表3所示,與本文方法進(jìn)行對比。相比文獻(xiàn)[12],本文綜合考慮了證據(jù)間的支持度以及證據(jù)的不確定度,對沖突的度量較為全面,很大程度上證據(jù)信息的缺失;并且本文采用Dempster組合規(guī)則對修正后的證據(jù)體進(jìn)行融合計(jì)算,較文獻(xiàn)[12]采用PCR5組合規(guī)則,計(jì)算過程更為簡單、快速,便于生產(chǎn)實(shí)踐應(yīng)用。兩個(gè)方法的對比結(jié)果,如表4所示。
表2 四個(gè)常見悖論合成結(jié)果Table 2 Four common paradox synthesis results
結(jié)果表明,文獻(xiàn)[12]和本文方法都能有效地融合證據(jù)體。較文獻(xiàn)[12]融合結(jié)果,本文方法得到的結(jié)果具有較高的基本概率分配。
表3 沖突證據(jù)體的BPATable 3 BPA of conflict evidence
表4 沖突證據(jù)體合成結(jié)果Table 4 Conflict evidence synthesis results
D-S證據(jù)理論以其在不確定推理方面的優(yōu)勢,被廣泛應(yīng)用于許多信息融合系統(tǒng)中,然而如何確定基本概率分配仍是必要環(huán)節(jié)??紤]到基于正態(tài)分布模型的嵌套結(jié)構(gòu)BPA函數(shù)[19]無需大量的訓(xùn)練數(shù)據(jù)集,且沒有復(fù)雜的計(jì)算,方法實(shí)現(xiàn)容易;考慮到碳/碳復(fù)合材料沉積數(shù)據(jù)量有限,因此參考文獻(xiàn)[19]的方法確定每個(gè)測試樣本的基本概率分配。結(jié)合本文所提出的融合支持度和不確定度的D-S證據(jù)理論,構(gòu)建基于改進(jìn)D-S證據(jù)理論的碳/碳復(fù)合材料沉積質(zhì)量預(yù)測模型。為驗(yàn)證所提模型的準(zhǔn)確性與實(shí)用效果,選取了山西省中電科新能源技術(shù)有限公司沉積數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。在調(diào)查研究其沉積重量影響因素和碳/碳復(fù)合材料沉積產(chǎn)品等資料后,結(jié)合實(shí)地可測數(shù)據(jù)和鄰域粗糙屬性約簡結(jié)果,確定了以沉積時(shí)間、爐內(nèi)溫度、甲烷流量,氮?dú)饬髁?,耗電量,裝爐位置等共6個(gè)屬性,作為碳/碳復(fù)合材料沉積質(zhì)量的特征因素,將量化之后的單位沉積質(zhì)量作為碳/碳復(fù)合材料致密性的評價(jià)指標(biāo)。隨后,收集碳/碳復(fù)合材料不同的沉積工藝數(shù)據(jù),建立質(zhì)量預(yù)測樣本數(shù)據(jù)庫。
在本節(jié)中,利用第二節(jié)中所提的方法構(gòu)建一個(gè)基于改進(jìn)D-S證據(jù)理論的碳/碳復(fù)合材料沉積質(zhì)量預(yù)測模型。模型框架如圖2所示。首先,將碳/碳復(fù)合材料相關(guān)的某個(gè)數(shù)據(jù)集,分為訓(xùn)練集和測試集;然后,使用文獻(xiàn)[19]提到的基于正態(tài)分布模型的BPA函數(shù),獲取每個(gè)屬性對于每個(gè)測試樣本的BPA;值得注意的是,為了避免高沖突問題的產(chǎn)生,文獻(xiàn)[19]采用嵌套結(jié)構(gòu)來構(gòu)建BPA函數(shù),但是這一定程度上加大了沖突證據(jù)對于結(jié)果的影響。因此,本文將歸一化的結(jié)果直接作為各焦元的BPA,避免了這一問題,并且本文提出的融合支持度和不確定度的D-S證據(jù)理論能夠很好的融合沖突證據(jù),無需在確定BPA的時(shí)候避免沖突的出現(xiàn)。其次,對每組BPA使用本文提出的基于支持度和不確定度的沖突證據(jù)融合方法,對每組BPA進(jìn)行折扣修正并得到融合結(jié)果;最后,將最大值對應(yīng)的焦元作為最終碳/碳復(fù)合材料沉積質(zhì)量預(yù)測結(jié)果。
圖2 模型框架圖Fig.2 Model framework diagram
在本節(jié)中,選取部分樣本作為測試樣本,以驗(yàn)證模型的有效性。限于篇幅,表5僅列出5組典型樣本,其中,標(biāo)簽列中的“1”表示樣本不合格,“2”表示樣本合格。
根據(jù)訓(xùn)練集建立正態(tài)分布模型后,測試樣本通過基于正態(tài)分布模型的嵌套結(jié)構(gòu)BPA函數(shù)得到每個(gè)屬性的基本概率分配,每個(gè)樣本得到n個(gè)證據(jù),其中,n為屬性個(gè)數(shù)。因?yàn)槊總€(gè)屬性對于樣本的預(yù)判有合格和不合格兩種情況,因此每條證據(jù)有兩個(gè)焦元。所得的BPA函數(shù),如表6所示。
表5 典型樣本Table 5 Typical sample
觀察表6發(fā)現(xiàn),若以各屬性BPA函數(shù)中最大值對應(yīng)的標(biāo)簽,作為第一次的預(yù)測結(jié)果,則預(yù)測結(jié)果存在一定概率的誤判。如樣本3中,甲烷流量出現(xiàn)了誤判的情況;樣本5中,耗電量、裝爐位置兩個(gè)屬性都出現(xiàn)了誤判的情況。因此,應(yīng)用單一屬性進(jìn)行質(zhì)量預(yù)測存在較大的不確定性。而將多個(gè)屬性的基本概率分配作為融合支持度和不確定度的D-S證據(jù)理論的賦值進(jìn)行融合,最終預(yù)測結(jié)果正確率則有很大提高。在應(yīng)用融合支持度和不確定度的D-S證據(jù)理論的過程中,使用新的折扣系數(shù)對沖突證據(jù)的占比進(jìn)行調(diào)整,同時(shí)引入不確定信息,更加接近和符合實(shí)際生產(chǎn)情況。經(jīng)新的折扣系數(shù)修正后的基本概率分配,如表7所示。
表6 典型樣本的BPATable 6 BPA for typical samples
表7 典型樣本BPA修正結(jié)果Table 7 Typical sample BPA correction results
觀察表7發(fā)現(xiàn),每個(gè)樣本沖突證據(jù)的BPA函數(shù)值減小,證據(jù)體的沖突程度得到了一定程度的削減。經(jīng)Dempster組合規(guī)則融合后的結(jié)果,如表8所示。對比測試樣本的實(shí)際標(biāo)簽,模型的預(yù)測結(jié)果正確,證明了基于改進(jìn)D-S證據(jù)理論的碳/碳復(fù)合材料沉積質(zhì)量預(yù)測模型的有效性。
表8 典型樣本預(yù)測結(jié)果Table 8 Typical sample predictions
由于不同的沉積工藝有相應(yīng)的生產(chǎn)工序,而每個(gè)生產(chǎn)工序的致密度不同,所以對不同生產(chǎn)工序的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,表9為整理的生產(chǎn)工序的數(shù)據(jù)集信息。
表9 生產(chǎn)工序的數(shù)據(jù)集信息Table 9 Data set information for production operations
采用十折交叉驗(yàn)證,對比懷卡托智能分析環(huán)境[19](Waikato environment for knowledge analysis,WEKA)中的支持向量機(jī)、K近鄰、決策樹、隨機(jī)森林等經(jīng)典分類器以及文獻(xiàn)[19]的模型,結(jié)果如表10所示,預(yù)測模型準(zhǔn)確率提高了5%~13%,證明了所提模型的有效性。
表10 不同方法的預(yù)測準(zhǔn)確率Table 10 Predicts the accuracy of different methods %
本文從證據(jù)間支持度和各證據(jù)不確定度的角度對D-S證據(jù)理論存在的證據(jù)沖突問題進(jìn)行改進(jìn),并建立了基于改進(jìn)D-S證據(jù)理論的碳/碳復(fù)合材料沉積質(zhì)量預(yù)測模型。實(shí)驗(yàn)對比主要結(jié)論如下:
1) 引入Spearman相關(guān)性限制,并對其進(jìn)行改進(jìn),使之取值范圍限制在[0,1],為后續(xù)將其用于具有取值限制的相關(guān)算法提供了參考。
2) 對沖突證據(jù)體進(jìn)行二次修正,并將第一次修正后組合結(jié)果的置信區(qū)間作為證據(jù)不確定度量的參考,充分發(fā)揮了度量方式的優(yōu)勢,為區(qū)間信度研究提供了新的思路。
3) 與經(jīng)典改進(jìn)算法和引入基于定積分區(qū)間距離改進(jìn)的算法相比,本文算法能有效地融合沖突證據(jù),并且都表現(xiàn)更高的基本概率分配。
4) 建立了基于改進(jìn)D-S證據(jù)理論的碳/碳復(fù)合材料沉積質(zhì)量預(yù)測模型,結(jié)果表明,綜合考慮證據(jù)間的支持度和各證據(jù)的不確定度將提高決策的準(zhǔn)確性。