崔興華,杜文莉,趙亮,李江利,池亮
(1化學(xué)工程聯(lián)合國家重點實驗室,華東理工大學(xué)化工過程先進控制和優(yōu)化技術(shù)教育部重點實驗室,上海 200237;2中國石油天然氣股份有限公司吉林石化分公司,吉林省 吉林市 132000)
直覺模糊多核聚類算法及其在乙烯原料屬性聚類中的應(yīng)用
崔興華1,杜文莉1,趙亮1,李江利2,池亮2
(1化學(xué)工程聯(lián)合國家重點實驗室,華東理工大學(xué)化工過程先進控制和優(yōu)化技術(shù)教育部重點實驗室,上海 200237;2中國石油天然氣股份有限公司吉林石化分公司,吉林省 吉林市 132000)
隨著乙烯裂解原料種類的日益增多,原料分析儀價格昂貴,因此根據(jù)乙烯裂解原料屬性進行在線聚類,對實現(xiàn)乙烯收率建模,優(yōu)化乙烯產(chǎn)率、節(jié)能減耗具有重要現(xiàn)實意義。為了提高原料在聚類的準確性,提出了一種基于直覺模糊集理論的核聚類算法。即在定義直覺模糊集隸屬度時通過引入猶豫度來表征數(shù)據(jù)的不確定信息,同時利用直覺模糊熵對多核聚類算法的損失函數(shù)重新定義,使類簇中的數(shù)據(jù)點最優(yōu)化;進一步地,使用隨機森林對裂解原料屬性進行特征選擇,依據(jù)對乙烯產(chǎn)率的貢獻度選取聚類的主要特征屬性。最后根據(jù)實際工業(yè)裂解的石腦油數(shù)據(jù)驗證了所述算法的有效性。
算法;熵;優(yōu)化;直覺模糊;乙烯裂解
在乙烯生產(chǎn)過程中[1],乙烯收率不僅受到裂解過程中的操作條件如溫度、壓力、停留時間等影響,其裂解原料屬性也是決定收率的重要因素,然而裂解原料僅石腦油類別就有上百種不同的油品屬性,其餾程范圍為30~220℃,考慮針對所有不同油品屬性進行產(chǎn)率的建模不僅模型規(guī)模大,油品屬性的頻繁變化也導(dǎo)致在線實施困難[2]。因此需要結(jié)合工業(yè)實際檢測指標,然而工業(yè)現(xiàn)場提供的密度測定法、餾程測定法等檢測指標不能明確裂解原料的組成,其相對應(yīng)的裂解產(chǎn)物收率無法準確建模,因此對不同裂解原料進行聚類,為每類油品選擇能夠代表該簇特征屬性的聚類中心,并根據(jù)代表該簇特征屬性的聚類中心選擇裂解產(chǎn)率模型[3],進而調(diào)整運行條件。
聚類算法作為非監(jiān)督的學(xué)習(xí)方法在識別數(shù)據(jù)的內(nèi)在結(jié)構(gòu)方面具有極其重要的作用。聚類算法是根據(jù)數(shù)據(jù)的特征屬性,對目標進行分類,致使一個類簇內(nèi)的數(shù)據(jù)具有較高相似性,不同類簇之間具有較低的相似性。
在過去數(shù)十年間,許多聚類算法被提出,包括k-means[4]、混合模型聚類[5]、譜聚類[6]等聚類。這些方法中的大多數(shù)都屬于硬聚類,對類別的歸屬是嚴格的,只能分配每一個對象單個類簇,對于類簇緊湊,類別明顯的數(shù)據(jù)會產(chǎn)生很好的聚類效果。然而,在現(xiàn)實世界中,類簇之間有重疊,當一個對象屬于兩個或多個簇時,模糊聚類算法將會取得更好的效果。
模糊C均值聚類算法[7]以算法收率速度快、算法簡易能夠處理大量數(shù)據(jù)[8]等優(yōu)點成為模糊聚類中采用最主要的算法。它定義隸屬度,表明數(shù)據(jù)屬于不同類別的程度。然而,就和大多數(shù)其他聚類方法一樣,模糊C均值聚類算法是基于歐式聚類,在對于球形簇,將會取得較好的效果,而對于更一般的簇,F(xiàn)CM不適宜處理。因此基于核函數(shù)[9]的聚類方法被提出,其通過核函數(shù)將數(shù)據(jù)進行非線性映射到高維空間來處理非球形簇問題。文獻[10]提出的多核聚類算法用多個核函數(shù)進行加權(quán),動態(tài)的調(diào)整權(quán)重使其避免對于特定任務(wù)選擇核函數(shù)的難題[11]。
在實際裂解過程中,乙烯原料特征屬性眾多,綜合分析比較復(fù)雜,相關(guān)學(xué)者針對裂解原料屬性[12]存在模糊邊界的問題,采用隸屬度信息對裂解原料進行了聚類劃分,如文獻[13]引入了混合概率模型的模糊隸屬度設(shè)置方法,從而充分利用裂解原料的先驗知識進行更加有效的模糊聚類;文獻[14]指出由于在工業(yè)中石腦油原料組分復(fù)雜,油品特性波動大,致使乙烯裂解深度建模精度不高,為解決此問題,采用模糊核聚類對石腦油數(shù)據(jù)庫進行最優(yōu)劃分,同時用最小二乘支持向量機對每個聚類做非線性回歸的方法來提高模型精度。文獻[15]通過采用一種基于核函數(shù)的動態(tài)聚類方法,以廣義的歐氏距離作為高維特征空間的相似性度量,進而提高聚類的準確性,優(yōu)化乙烯裂解過程中操作模式。
本文相較于以上算法的創(chuàng)新之處在于,將直覺模糊集[16]應(yīng)用到多核模糊聚類算法上,提出了直覺模糊多核聚類算法(IKFC)。在以往的模糊聚類算法中,模糊集只定義了隸屬度、非隸屬度,描述了對象“亦次亦彼”的模糊概念,在缺少先驗知識的情況下,隸屬度的定義是不準確的,會出現(xiàn)不確定信息。借助于文獻[17]提出的直覺模糊集理論,在IKFC算法中引入新的屬性參數(shù)-猶豫度來表示這種不確定性。使得直覺模糊集在處理具有不確定信息[18]的決策時比傳統(tǒng)的模糊集具有更強的表示能力,且更具靈活性。同時在聚類的損失函數(shù)上引入直覺模糊熵,降低數(shù)據(jù)所屬類別的不確定性,最優(yōu)化聚類中的數(shù)據(jù)點,從而更善于處理乙烯裂解原料中的不確定信息。
在以往對乙烯裂解原料進行聚類時,均是根據(jù)先驗知識選取影響裂解乙烯產(chǎn)率的原料特征屬性,本文提出利用隨機森林[19]對乙烯裂解原料屬性進行特征選擇,將每個特征對乙烯產(chǎn)率的貢獻度量化,相對于文獻[13-15]的方法,更利于分析哪些特征屬性對乙烯產(chǎn)率起主導(dǎo)作用。并且和主成分分析、線性判別分析和逐步回歸等特征選擇方法相比較,隨機森林方法不僅能夠?qū)⒇暙I度量化,同時也避免了過擬合的難題。
1.1 模糊C均值聚類算法
在傳統(tǒng)的模糊C均值聚類算法(fuzzy C-means clustering, FCM)中,給定聚類的類別C,數(shù)據(jù)集X={x1,x2,…,xn} 包含N個l維向量xi。定義隸屬度uic表示數(shù)據(jù)xi屬于類別C的能力,最小化目標函數(shù)
式中,d是歐氏距離;m是隸屬度的加權(quán)指數(shù),m>1;Uic是N×C的隸屬度矩陣,i=1,…,N;c=1,…,C;vc是聚類中心。
1.2 多核模糊聚類算法
傳統(tǒng)的核聚類算法通常使用一個核函數(shù),這樣對于特定任務(wù),特定模型需要選用相應(yīng)的核函數(shù)才能很好地處理問題,而如何選擇核函數(shù)一直是研究的難點,文獻[10]提出的多核模糊聚類算法(multiple kernel fuzzy clustering, MKFC)采用多個核函數(shù)加權(quán),并動態(tài)的調(diào)整各個核函數(shù)的權(quán)重,使其能夠聚集成更一般的簇,并解決了核函數(shù)[20]選擇的難題。定義其損失函數(shù)
2.1 直覺模糊集的定義
傳統(tǒng)的聚類算法采用的是集合論,集合論只能描述非此即彼的分明概念;在模糊理論[21]中,引入隸屬度,從而可以描述亦此亦彼的模糊概念。在直覺模糊集理論增加一個新的屬性參數(shù)——猶豫度,進而還可描述非此非彼的中立狀態(tài)[22],它是對模糊集理論的一種擴充和發(fā)展。
定義1(直覺模糊集):設(shè)X是一個給定論域,則X上的直覺模糊集為A={x,uA(x),vA(x)|x∈X}。其中分別表示隸屬度uA(x)和非隸屬度vA(x)。對于A上x∈X,滿足0≤uA(x)+vA(x)≤1。同時定義隸屬度函數(shù)πA(x)=1-uA(x)-vA(x),0≤πA(x)≤1。
Pal等[23]分析經(jīng)典的香農(nóng)信息論和熵指數(shù),得出對于一個概率分布:p=p1,p2,…,pn,其指數(shù)熵定義為。在模糊集中,定義直覺模糊程度。
2.2 構(gòu)建猶豫度
由Yager[24]生成函數(shù)定義:直覺模糊泛函(fuzzy complement functional)
式中,g(·)為增函數(shù)。
直覺模糊補集
式中,N(1)=0,N(0)=1。
由式(6)、式(7)、式(8)得出直覺模糊集
從而確定猶豫度
2.3 直覺模糊多核聚類算法
在本文提出的直覺模糊多核聚類算法(IKFC)中,損失函數(shù)最小化包含兩部分:(1)基于猶豫度多核聚類算法的損失函數(shù);(2)直覺模糊熵。
2.3.1 定義直覺模糊隸屬度 猶豫度由式(10)計算得到,則重新定義的直覺模糊隸屬度
2.3.2 定于猶豫度的熵 猶豫度熵代表的是數(shù)據(jù)點的不確定程度,引入猶豫度[25]熵的目的是使類簇中的數(shù)據(jù)點達到最優(yōu),不確定性降低。
猶豫度的熵定義為
最終的損失函數(shù)定義為
3.1 隨機森林回歸
隨機森林(random forest, RF)回歸是由Brieman[26]于2001年提出一種集成機器學(xué)習(xí)方法,它在分類、回歸和特征選擇方面均被廣泛的采用。隨機森林方法采用隨機重采樣(bootstrap)技術(shù)和節(jié)點隨機方法生成多個回歸樹組成隨機森林,生成的隨機森林為多元非線性回歸分析模型。它可以看成是由很多弱預(yù)測器(回歸樹)集成為強預(yù)測器的方法。其特征和數(shù)據(jù)選取的雙重隨機性保證了回歸樹選擇的多樣性,避免了過擬合的現(xiàn)象。
設(shè)數(shù)據(jù)集X包含N個L維向量xixi,X={x1,x2,…,xN}。隨機森林回歸算法的流程如下。
(1)采用bootstrap有放回從數(shù)據(jù)集X中隨機抽取n個自助樣本集,并由此構(gòu)建n棵回歸樹,每次未被抽樣的樣本組成n個袋外數(shù)據(jù)(out-of-bag,OOB)。
(2)從L維輸入特征中隨機挑選l維特征(l<<L),遍歷每個特征l,以及每個特征的取值s,計算每個切分點的損失函數(shù)如式(16)所示,選擇損失函數(shù)最小的切分點。得到的切分點將輸入空間劃分為兩部分,遞歸進行步驟(2),直至不能繼續(xù)劃分。
(3)將輸入空間劃分為m個區(qū)域R={R1,R2,…,Rm}生成回歸樹
(4)將生成的回歸樹組成隨機森林,采用袋外數(shù)據(jù)(OOB)殘差的均方值和,如式(18)作為預(yù)測結(jié)果的評價標準。
式中,cm為所在區(qū)域輸出值的平均值;I(·)為指示函數(shù),當括號內(nèi)成立返回1,否則返回0;yi為袋外數(shù)據(jù)中目標的實際值;y?i為隨機森林的預(yù)測值。
3.2 貢獻度評價標準
特征屬性對目標值貢獻度評分采用Permutation Test[27]方法。Permutation Test的方法是通過將第l維特征的所有數(shù)據(jù)重新隨機調(diào)整位置,然后比較原始數(shù)據(jù)和調(diào)整之后數(shù)據(jù)表現(xiàn)的差距,從而評價這個維度的特征的重要性。
(1)對n個自助樣本建立回歸模型,并對相應(yīng)的袋外數(shù)據(jù)進行預(yù)測,得到n個殘差均方:MSE1,MSE2,…,MSEn。
(2)特征屬性l上的數(shù)據(jù)在n個袋外數(shù)據(jù)樣本中隨機置換,產(chǎn)生新的測試樣本,并得到新的袋外殘差均方
(3)將MSE1,MSE2,…,MSEn與矩陣式(19)對應(yīng)的第i行相減,取均值后再除以標準誤差SE即為特征屬性對目標值的貢獻度
為驗證IKFC算法對聚類效果的改進及其在乙烯裂解原料中的應(yīng)用,首先使用經(jīng)典的Iris和Seeds數(shù)據(jù)集進行算例比較,之后使用石腦油數(shù)據(jù)表1作為測試數(shù)據(jù),驗證算法在實際工業(yè)中的應(yīng)用效果。
4.1 Dunn聚類評價指標
Dunn[28]指標利用簇間距離和簇內(nèi)直徑之比的非線性組合來評價聚類結(jié)果。其定義為
式中,d(vi,vj)表示類vi和類vj之間的距離;表示簇內(nèi)最大距離,當有緊密分布的數(shù)據(jù)集中在一個類中,而類與類之間比較分離,那么此時類內(nèi)直徑比小,而類間距離大,根據(jù)式(21)表明Dunn指標越大,則聚類效果越理想。
4.2 Iris和Seeds數(shù)據(jù)集測試
為驗證直覺模糊多核聚類算法(IKFC)在聚類效果上的改進,首先使用IKFC算法,模糊C均值聚類算法(FCM),多核模糊聚類算法(MKFC)在經(jīng)典的Iris[29]和Seeds[30]數(shù)據(jù)集上進行算例比較。如圖1和圖2所示,其中縱坐標Dunn是聚類的評價指標,橫坐標m為隸屬度的加權(quán)指數(shù),隨著m值的增大,數(shù)據(jù)的模糊劃分程度越大。
從圖1、圖2中可看出,在m>1.35時,IKFC算法在Iris和Seeds數(shù)據(jù)集的Dunn指標大于FCM算法和MKFC算法的Dunn指標,表明使用IKFC算法進行聚類使得不同類簇的間距變大,簇內(nèi)直徑變小,數(shù)據(jù)分布更加緊湊,即取得比FCM和MKFC更好的聚類效果。
圖1 鳶尾花 Dunn數(shù)據(jù)指標對比Fig.1 Comparison of Iris Dunn index
圖2 種子 Dunn數(shù)據(jù)指標對比Fig.2 Comparison of Seeds Dunn index
表1 某廠石腦油原料數(shù)據(jù)Table 1 Naphtha oil property data
4.3 油品數(shù)據(jù)測試
在過去的很多文獻中,通常根據(jù)反應(yīng)機理判斷和先驗經(jīng)驗選擇正構(gòu)烷烴質(zhì)量分數(shù)與異構(gòu)烷烴質(zhì)量分數(shù)作為影響乙烯收率原料的特征變量。在表2中FCM和EM_FCM[13]兩行數(shù)據(jù)展示了選取石腦油中正構(gòu)烷烴和異構(gòu)烷烴的質(zhì)量分數(shù)作為特征屬性的聚類結(jié)果。
表2 聚類有效性指標Table 2 Cluster validity index
本文利用隨機森林方法對石腦油油品特征進行特征選擇,展示不同特征屬性對乙烯收率的貢獻度。如圖3所示,縱坐標為石腦油特征屬性對乙烯收率的貢獻度,從圖中可以看出正構(gòu)烷烴質(zhì)量分數(shù)、10%鎦點、密度、初餾點、30%鎦點的貢獻度要大于其余屬性,經(jīng)實驗驗證,選取前4種特征屬性取得較好的效果,如表3所示。特征屬性的貢獻度為正值表明對目標值具有很強的正面影響,負值代表特征屬性對目標為負面影響。
在表2中,聚類類別數(shù)C=4,對數(shù)據(jù)迭代50次取均值得到最后的Dunn評價指標。可以看出本文選擇影響乙烯收率的主要特征屬性:正構(gòu)烷烴質(zhì)量分數(shù),10%鎦點,密度,初餾點作為石腦油的特征屬性進行聚類,結(jié)果如圖4所示,要明顯高于文獻[13]中所提出的利用EM_FCM算法選擇正構(gòu)烷烴質(zhì)量分數(shù)和異構(gòu)烷烴質(zhì)量分數(shù)作為主要特征屬性的結(jié)果如表2所示。本文結(jié)果相較于文獻[13]的聚類效果更好是因為在代入算法前,利用隨機森林算法對石腦油的特征屬性進行特征選擇,選擇那些對乙烯產(chǎn)率貢獻度大的特征作為石腦油代入聚類算法的特征,同時IKFC算法中引入直覺模糊集理論定義猶豫度及其熵,使其相比較FCM、EM_FCM和MKFC算法更善于處理數(shù)據(jù)集中不確定信息,如圖5所示。
圖3 特征屬性的貢獻度Fig.3 Contribution degree of attribute
表3 前4種與5種特征屬性聚類結(jié)果對比Table 3 Comparison of four kinds with five kinds of attributes
圖4 石腦油Dunn數(shù)據(jù)指標對比Fig.4 Comparison of naphtha oil index
圖5 隨機森林和直覺模糊多核聚類算法流程Fig.5 Flowchart of random forest and IKFC algorithm
IKFC算法通過提高乙烯裂解原料屬性的聚類精度,能夠更加準確的確定模型數(shù)量,提高模型精度,從而能有效地指導(dǎo)原料-產(chǎn)率多模型的建立。
本文基于直覺模糊集理論,將猶豫度和直覺模糊熵引入到多核聚類算法上,解決了由于缺少先驗知識致使隸屬度定義不準確的問題。并利用隨機森林算法進行特征選擇,表示出石腦油不同屬性對乙烯產(chǎn)率的貢獻度。最后用石腦油數(shù)據(jù)進行仿真,驗證了IKFC算法的精確性。然而該算法對隸屬度的加權(quán)指數(shù)m的選擇依賴性較大,如何確定m將是以后研究的重點。
[1] SONG G, TONG Q, CHEN B. Improved resource-task network-based flare minimization model for ethylene plant start-up: rigorous treatment of cracking furnace and high-pressure steam[J]. Industrial & Engineering Chemistry Research, 2015, 54(24): 6326-6333
[2] 彭輝, 張磊, 邱彤, 等. 乙烯裂解原料等效分子組成的預(yù)測方法[J].化工學(xué)報, 2011, 62(12): 3447-3451. PENG H, ZHANG L, QIU T,et al. Method of predicting equimolecular mixture of ethylene cracking feedstock[J]. CIESC Journal, 2011, 62(12): 3447-3451.
[3] 李平, 李奇安, 雷榮孝, 等. 乙烯裂解爐先進控制系統(tǒng)開發(fā)與應(yīng)用[J]. 化工學(xué)報, 2011, 62(8): 2216-2220. LI P, LI Q A, LEI R X,et al.Advanced control system development and application of ethylene cracking furnance[J]. CIESC Journal, 2001, 62(8): 2216-2220.
[4] XU R, DONALD C W. Survey of clustering algorithms[J]. IEEE Transactions on Neural Networks, 2005, 16(3): 645-678.
[5] MCLACHLAN G J, BEAN R W, PEEL D. A mixture model-based approach to the clustering of microarray expression data[J]. Bioinformatics, 2002, 18(3): 413-422.
[6] LUXBURG U. A tutorial on spectral clustering[J]. Statistics and Computing, 2007, 17(4): 395-416.
[7] KANNAN S R, DEVI R, RAMATHILAGAM S,et al.Effective FCM noise clustering algorithms in medical images[J]. Computers in Biology and Medicine, 2012, 43(2): 73-83.
[8] HAVENS T C, BEZDEK J C, LECKIE C,et al.Fuzzy c-means algorithms for very large data[J]. IEEE Transactions on Fuzzy Systems, 2012, 20(6): 1130-1146.
[9] ZHANG D Q, CHEN S C. Clustering incomplete data using kernel-based fuzzy c-means algorithm[J]. Neural Processing Letters, 2003, 18(3): 155-162.
[10] HUANG H C, CHUANG Y Y, CHEN C S. Multiple kernel fuzzy clustering [J]. IEEE Transactions on Fuzzy Systems, 2012, 20(1): 120-134.
[11] ZHANG L, HU X. Locally adaptive multiple kernel clustering[J]. Neurocomputing, 2014, 137(11): 192-197.
[12] CORMA A, MENGUAL J, MIGUEL P J. Im-5 zeolite for steam catalytic cracking of naphtha to produce propene and ethene. An alternative to zsm-5 zeolite[J]. Applied Catalysis A: General, 2013, 460(11): 106-115.
[13] 李嘉雯, 杜文莉, 李進龍, 等. 基于改進模糊C均值聚類算法的乙烯裂解原料識別[J]. 化工學(xué)報, 2013, 64(12): 4366-4372. LI J W, DU W L, LI J L,et al. Feed property identification of ethylene cracking based on improved fuzzy c-mean clustering algorithm[J]. CIESC Journal, 2013, 64(12): 4366-4372.
[14] 陳貴華, 王昕, 王振雷, 等. 基于模糊核聚類的乙烯裂解深度DE-LSSVM多模型建模[J]. 化工學(xué)報, 2012, 63(6): 1790-1796. CHEN G H, WANG X, WANG Z L,et al. Multiple DE-LSSVM modeling of ethylene cracking severity based on fuzzy kernel clustering[J]. CIESC Journal, 2012, 63(6): 1790-1796.
[15] GENG Z Q, ZHU Q X. Dynamic kernel clustering algorithm and its application in optimal pattern recognition of ethylene production[J]. Control and Instruments in Chemical Industry, 2005, 32(2): 5-8
[16] CHAIRA T. A novel intuitionistic fuzzy c means clustering algorithm and its application to medical images[J]. Applied Soft Computing, 2011, 11(2): 1711-1717.
[17] LAKSHMANA G N V, SIVARAMAN G. Ranking of interval-valued intuitionistic fuzzy sets[J]. Applied Soft Computing, 2011, 11(4): 3368-3372.
[18] CHAIRA T, RAY A K. A new measure using intuitionistic fuzzy set theory and its application to edge detection[J]. Applied Soft Computing, 2008, 8(2): 919-927.
[19] LAKSHMANA G N V, SIVARAMAN G. Ranking of interval-valued intuitionistic fuzzy sets[J]. Applied Soft Computing, 2011, 11(4): 3368-3372.
[20] CHEN L, CHEN C L P, LU M. A multiple-kernel fuzzy c-means algorithm for image segmentation[J]. IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics, 2011, 41(5): 1263-74.
[21] WEI Z Z, FENG P. Analysis of rainfall-runoff evolution characteristics in the Luanhe River basin based on variable fuzzy set theory[J]. Journal of Hydraulic Engineering, 2011, 42(9): 1051-1057.
[22] XU Z, CHEN J, WU J. Clustering algorithm for intuitionistic fuzzy sets[J]. Information Sciences, 2008, 178(19): 3375-3790.
[23] PAL N R, PAL S K. Entropy: a new definition and its applications[J]. IEEE Transactions on Systems Man & Cybernetics, 1991, 21(5): 1260-1270.
[24] YAGER R R. On the measure of fuzziness and negation(Ⅰ): Membership in the unit interval[J]. International Journal of General Systems, 1979, 5(4): 221-229.
[25] CHAIRA T. A rank ordered filter for medical image edge enhancement and detection using intuitionistic fuzzy set[J]. Applied Soft Computing, 2012, 12(4): 1259-1266.
[26] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[27] BELMONTE M, YURGELUNTODD D. Permutation testing made practical for functional magnetic resonance image analysis[J]. IEEE Transactions on Medical Imaging, 2001, 20(3): 243-8.
[28] LUNA-ROMERA J M, GARCíA-GUTIéRREZ J, RIQUELME- SANTOS J C. An approach to silhouette and dunn clustering indices applied to big data in spark[M]//Advances in Artificial Intelligence. Berlin: Springer, 2016: 160-169.
[29] KOTSIANTIS S B, PINTELAS P E. Logitboost of simple Bayesian classifier[J]. Informatica, 2010, 29(1): 53-59.
[30] CHARYTANOWICZ M, NIEWCZAS J, KULCZYCKI P,et al.Complete gradient clustering algorithm for features analysis of X-ray images[M]//Information Technologies in Biomedicine. Berlin: Springer, 2010: 15-24.
Intuitionistic set theory based multiple kernel fuzzy clustering and its application of ethylene raw material properties
CUI Xinghua1, DU Wenli1, ZHAO Liang1, LI Jiangli2, CHI Liang2
(1State Key Laboratory of Chemical Engineering,Key Laboratory of Advanced Control and Optimization for Chemical Processes,East China University of Science and Technology,Shanghai200237,China;2PetroChina Jilin Petrochemical Company,Jilin132000,Jilin,China)
Along with the increasing types of ethylene cracking materials and expensive feed analyzer, clustering of ethylene cracking materials which is to improve ethylene yield modeling, ethylene yield and energy consumption has very important practical significance. In order to improve the accuracy of online identification of raw materials, an intuitionistic fuzzy kernel clustering algorithm based on the theory of intuitionistic fuzzy sets is presented. In the definition of membership, membership considers uncertain information which is the hesitation degree. At the same time, intuitionistic fuzzy entropy is incorporated in the loss function of multiple kernel clustering algorithm. That is to optimize the data points in the class. Further, the cracking material attribute feature selection using random forest, based on the main attributes of contribution of ethylene yield. Finally, the actual ethylene cracking naphtha data of industry is used to verify the effectiveness and superiority of the algorithm.
algorithm; entropy; optimization; intuitionistic fuzzy; ethylene cracking
Prof. DU Wenli, wldu@ecust.edu.cn
TP 227
:A
:0438—1157(2017)02—0739—07
10.11949/j.issn.0438-1157.20161069
2016-07-28收到初稿,2016-10-08收到修改稿。
聯(lián)系人:杜文莉。
:崔興華(1989—),男,碩士研究生。
國家自然科學(xué)基金重點項目(61590923);國家自然科學(xué)基金優(yōu)秀青年基金項目;國家自然科學(xué)基金青年科學(xué)基金項目(61422303,61403141);上海市教育委員會和上海市教育發(fā)展基金會“曙光計劃”資助項目。
Received date: 2016-07-28.
Foundation item: supported by the Key Program of National Natural Science Foundation of China (61590923), the National Science Fund for Excellent Young Scholars, the Young Scientists Fund of the National Natural Science Foundation of China (61422303, 61403141) and the Shanghai Municipal Education Commission and Shanghai Education Development Foundation “Dawn Project”.