• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于k-means聚類與粗糙集算法的指標(biāo)篩選方法研究

    2021-01-07 01:26:14張立軍高春曉
    運(yùn)籌與管理 2020年12期
    關(guān)鍵詞:約簡粗糙集聚類

    張立軍,高春曉

    (湖南大學(xué) 金融與統(tǒng)計(jì)學(xué)院,湖南 長沙 410079)

    0 引言

    在綜合評價問題中,運(yùn)用恰當(dāng)?shù)姆椒ㄟM(jìn)行指標(biāo)篩選是不容忽視的重要環(huán)節(jié),如果篩選出的指標(biāo)體系不能系統(tǒng)全面地反映評價對象的特征,就會影響到最終的評價結(jié)果。粗糙集方法依靠其特有的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)功能,能處理不精確、不確定、不完整的信息,具有較強(qiáng)的魯棒性和可操作性[1]。

    目前,作為一種指標(biāo)定量篩選的方法,利用指標(biāo)間的某種相關(guān)性對評價指標(biāo)進(jìn)行篩選的方法得到了廣泛的應(yīng)用,這類方法能夠剔除信息重疊的部分指標(biāo)。通過相關(guān)性分析剔除信息重復(fù)性指標(biāo)的方法主要有:

    依據(jù)指標(biāo)兩兩之間的相關(guān)程度刪除信息重復(fù)的指標(biāo),一是根據(jù)相關(guān)分析或偏相關(guān)分析剔除相關(guān)系數(shù)和偏相關(guān)系數(shù)比較高的部分指標(biāo)。如張昆、遲國泰結(jié)合相關(guān)系數(shù)和粗糙集篩選出了生態(tài)評價指標(biāo)體系[2]。陳險峰借助模糊隸屬度、差異性分析、相關(guān)性分析、信度與效度檢驗(yàn)、穩(wěn)定性與貼近度等技術(shù)指標(biāo)探討了產(chǎn)業(yè)集群競爭力評價環(huán)節(jié)中的指標(biāo)遴選問題[3]。二是利用互信息剔除反映信息重疊的指標(biāo)[4]?;バ畔⑹抢眯畔㈧販y度指標(biāo)間依賴程度的工具,屬于信息論研究方法?;バ畔⒌拇笮∧軌蚍从持笜?biāo)相關(guān)性的強(qiáng)弱,互信息越大,關(guān)系越密切,該方法通常需要結(jié)合其他方法剔除相對不重要的指標(biāo)。上述方法僅僅能夠度量兩個指標(biāo)相互之間的相關(guān)性,并不能完全反映指標(biāo)集內(nèi)部的相關(guān)性,因此不能有效地降低指標(biāo)集間的信息重疊。

    (2)結(jié)合非參數(shù)統(tǒng)計(jì)、數(shù)據(jù)挖掘等理論分析指標(biāo)間的相互關(guān)系,剔除冗余指標(biāo)。如石寶峰、遲國泰等利用聚類方法分析每一類內(nèi)相關(guān)程度高的指標(biāo),僅保留每一類中最重要的指標(biāo),從而間接減少指標(biāo)間的重復(fù)信息[5]。又如王惠文等利用Gram-Schmid變換,構(gòu)造正交的“主基底”,在盡量多的保留原始數(shù)據(jù)信息的情況下,排除所有的冗余變量及重疊信息[6]。再如侯娜等利用粗糙集約簡思想判斷灰色聚類結(jié)果的影響,篩選出的指標(biāo)能顯著影響樣本分類的最終結(jié)果[7]。類似的,趙煥煥等利用灰色關(guān)聯(lián)分析的思想方法,構(gòu)建了一種區(qū)間粗糙數(shù)多屬性決策方法[8]。這些研究利用客觀數(shù)據(jù)縮減了指標(biāo)間的重復(fù)信息,但均忽略了對指標(biāo)實(shí)際意義的考量。

    針對現(xiàn)有方法的不足,本文提出了一種基于k-means聚類與粗糙集相對約簡原理的指標(biāo)篩選方法,由樣本的空間分布密度得到改進(jìn)的初始聚類中心點(diǎn),進(jìn)而實(shí)現(xiàn)基于k-means聚類算法的數(shù)據(jù)離散化過程,再由知識的相對約簡方法求解約簡的指標(biāo)集,該方法既能夠?qū)Χ嘤嘈畔⑦M(jìn)行屬性約簡,又保證了指標(biāo)的實(shí)際含義。

    1 基于粗糙集理論的屬性約簡方法

    1.1 連續(xù)屬性離散化

    由于粗糙集的學(xué)習(xí)算法僅可以對離散數(shù)據(jù)的決策表進(jìn)行處理,因此將連續(xù)屬性離散化就成為數(shù)據(jù)預(yù)處理的關(guān)鍵問題,其效果好壞直接影響數(shù)據(jù)分析結(jié)果。

    目前,國內(nèi)外學(xué)者已經(jīng)針對連續(xù)屬性的離散化提出了一些高效通用的方法,根據(jù)是否利用類信息,離散化方法主要分為無監(jiān)督方法和有監(jiān)督方法兩種類型。k-means聚類離散化方法屬于一種無監(jiān)督方法,該方法將距離作為相似性的測度,并把距離近的對象歸為一類或一簇,其能夠充分考慮每一維屬性的數(shù)據(jù)特點(diǎn),使每一簇中的對象高度相似,同時使不同簇中的對象高度相異。但傳統(tǒng)的k-means聚類算法存在對初始聚類中心敏感度高的弊端,聚類結(jié)果會隨預(yù)先給定的聚類數(shù)目以及初始聚類中心的不同而產(chǎn)生波動,影響聚類的準(zhǔn)確性和穩(wěn)定性。為克服傳統(tǒng)k-means算法的上述缺陷,本文借鑒謝娟英等提出的聚類優(yōu)化思想[9],通過定義數(shù)據(jù)對象的空間分布密度并將高密度數(shù)據(jù)樣本作為初始聚類中心的方法,對基于k-means聚類的連續(xù)屬性的離散化過程做出了改進(jìn)。

    定義1已知樣本數(shù)據(jù)總體D={x1,x2,…,xn},通過計(jì)算樣本相似性來衡量空間樣本密度,對象xi的空間分布密度記作density(xi)。

    (1)

    由式(1)可知,density(xi)越小,表明空間中樣本距離較近,樣本數(shù)據(jù)密度較大;density(xi)越大,表明空間中樣本距離越遠(yuǎn),樣本數(shù)據(jù)密度越小。

    定義2對于任意數(shù)據(jù)對象x,將以x為中心,R為半徑所形成的圓形區(qū)域稱作數(shù)據(jù)對象x的鄰域,記為δ。

    δ={x|0

    (2)

    定義3設(shè)樣本數(shù)據(jù)集X={xi|i=1,2,…,n},則類簇平均質(zhì)心距離的平均值記為E:

    (3)

    連續(xù)屬性離散化的具體算法步驟如下:

    步驟1利用誤差平方和(SSE)指標(biāo)確定初始聚類中心數(shù)目k并計(jì)算所有樣本對象的密度density(xi),并定義一個初始化中心點(diǎn)集M={};

    步驟2選擇density(xi)最小的樣本對象xmin=min{xi|xi∈D,i=1,2,…,n}作為第一個初始中心點(diǎn),添加到中心點(diǎn)集M中,即M=M∪{xmin},并從樣本數(shù)據(jù)庫D中刪去該對象,即D=D-{xmin},根據(jù)定義2計(jì)算xmin鄰域內(nèi)的所有的樣本對象,并從樣本數(shù)據(jù)庫D中刪去;

    步驟3重復(fù)執(zhí)行步驟2,直到初始中心點(diǎn)集中有k個中心點(diǎn)作為初始聚類中心,即|M|=k;

    步驟4根據(jù)歐氏距離來判斷相似度量,確定每個數(shù)據(jù)對象屬于哪個簇,計(jì)算并更新每個簇中對象的平均值,并將其確定為新的聚類中心;

    步驟5計(jì)算類簇平均質(zhì)心距離的平均值E;

    步驟6循環(huán)步驟4、步驟5直到E收斂為止,得到聚類結(jié)果;

    步驟7使用聚類結(jié)果中的類簇標(biāo)簽代替類簇中數(shù)據(jù)的值,將連續(xù)屬性離散化。

    1.2 粗糙集屬性約簡理論

    近年來,粗糙集理論(Rough Set Theory, RST)[11]被廣泛用于機(jī)器學(xué)習(xí)、知識獲取、決策分析等領(lǐng)域。粗糙集方法應(yīng)用于指標(biāo)篩選,是根據(jù)粗糙集的屬性約簡原理,依賴于數(shù)據(jù)本身的性質(zhì)從大量指標(biāo)中剔除相關(guān)指標(biāo)和冗余指標(biāo),提取核心指標(biāo),從而得到約簡指標(biāo)體系。

    定義4對每個屬性子集R?A,R在U上的不可分辨的二元關(guān)系IND(R)為:

    IND(R)={(xi,xj)∈U×U,?r∈R,(r(xi)=r(xj))}

    (4)

    定理1設(shè)信息表S=(U,A,V,f),R?A且r∈R。

    如果IND(R)=IND(R-{r}),則稱r在R中是冗余的,否則r在R中是必要的。

    假設(shè)Q∈R,若Q獨(dú)立,且IND(Q)=IND(P),則論域U在屬性集P上的約簡為Q,Q的所有約簡組成的集合記為Red(B)。

    定義5若P?A,X?U,x∈U,集合X關(guān)于I的下近似為:

    apr-P(X)=∪{x∈U:I(x)?X}

    (5)

    集合X關(guān)于I的上近似為:

    (6)

    X的P正域?yàn)?

    posP(X)=apr-p(X)

    (7)

    若指標(biāo)集A和指標(biāo)集A-ai生成的等價類的數(shù)量一致,那么指標(biāo)ai即為冗余指標(biāo),否則,指標(biāo)ai即為不可或缺的指標(biāo)。

    設(shè)S?P,S為P的Q約簡,當(dāng)且僅當(dāng)S是P的Q獨(dú)立子族且posS(Q)=posP(Q),P的Q約簡稱為相對約簡。

    1.3 基于粗糙集的屬性約簡模型

    在理論分析的基礎(chǔ)上,本文采用的基于粗糙集的屬性約簡思路如下:

    (1)確定屬性集。根據(jù)初選指標(biāo)確定屬性集,建立信息表。

    (2)連續(xù)屬性的離散化。利用本文提出的基于改進(jìn)k-means聚類的離散化方法對連續(xù)數(shù)據(jù)指標(biāo)進(jìn)行離散化,構(gòu)建屬性約簡決策表,明確條件屬性和決策屬性。

    (3)屬性約簡。求取粗糙集信息系統(tǒng)中評價對象的等價類,由知識的相對約簡原理刪除影響決策屬性的冗余指標(biāo)。

    (4)KW檢驗(yàn)。對最終保留的指標(biāo)作顯著性分析,以驗(yàn)證指標(biāo)篩選方法的效果。若KW檢驗(yàn)中概率P值小于選定的顯著性水平,則拒絕原假設(shè),表明篩選后的指標(biāo)間存在顯著性差異,構(gòu)建的指標(biāo)體系是合理的。

    圖1 指標(biāo)篩選過程

    2 實(shí)證分析

    2.1 樣本選取及數(shù)據(jù)來源

    本文選取2016年我國31個省、自治區(qū)和直轄市的綠色經(jīng)濟(jì)指標(biāo)數(shù)據(jù),原始數(shù)據(jù)來源于2017年《中國統(tǒng)計(jì)年鑒》、《中國環(huán)境統(tǒng)計(jì)年鑒》、《中國城市建設(shè)統(tǒng)計(jì)年鑒》、《中國能源統(tǒng)計(jì)年鑒》、《中國教育統(tǒng)計(jì)年鑒》、《中國科技統(tǒng)計(jì)年鑒》和全國環(huán)境統(tǒng)計(jì)公報。

    2.2 評價指標(biāo)的初選

    根據(jù)可獲得性、可測性與可操作性原則初選指標(biāo),保證初步篩選出的指標(biāo)符合實(shí)際且可量化,能夠有足夠的客觀數(shù)據(jù)作支撐。從綠色經(jīng)濟(jì)的內(nèi)涵及基本特征、海內(nèi)外權(quán)威機(jī)構(gòu)及學(xué)者的研究成果[12,13]出發(fā)遴選出28個指標(biāo),并設(shè)置經(jīng)濟(jì)發(fā)展、資源環(huán)境、社會民生、政策支持四個準(zhǔn)則層,如表1所示。

    表1 綠色經(jīng)濟(jì)評價指標(biāo)集及篩選結(jié)果

    2.3 指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化

    指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過數(shù)學(xué)變換將不同量綱或單位的數(shù)據(jù)無量綱化的方法。記第i個省份對應(yīng)的第j個指標(biāo)的標(biāo)準(zhǔn)化后值為mij(i=1,2,…,31;j=1,2,…),第i個省份對應(yīng)的第j個指標(biāo)的原始數(shù)據(jù)為nij(i=1,2,…,31;j=1,2,…)。對于正向指標(biāo),指標(biāo)數(shù)據(jù)越大,說明綠色經(jīng)濟(jì)水平越高,正向指標(biāo)的標(biāo)準(zhǔn)化公式為:

    (8)

    對于負(fù)向指標(biāo),指標(biāo)數(shù)據(jù)越小,說明綠色經(jīng)濟(jì)水平越高。負(fù)向指標(biāo)的標(biāo)準(zhǔn)化公式為:

    (9)

    式中,mij∈[0,1]。

    由式(8)和式(9)及表1中注明的指標(biāo)類型,得到標(biāo)準(zhǔn)化處理后的值,列入表2。

    表2 標(biāo)準(zhǔn)化數(shù)據(jù)及信息表

    2.4 基于改進(jìn)k-means聚類的數(shù)據(jù)離散化

    將標(biāo)準(zhǔn)化后的數(shù)據(jù)按照1.1中的算法進(jìn)行離散化處理。

    利用R軟件計(jì)算出最優(yōu)聚類中心數(shù)目,即k=2,按照步驟2、步驟3的方法計(jì)算得到初始聚類中心,進(jìn)而得到離散化結(jié)果見表2。

    2.5 基于決策表相對約簡原理的指標(biāo)篩選

    在將原始數(shù)據(jù)標(biāo)準(zhǔn)化和離散化的基礎(chǔ)上,以各準(zhǔn)則層的指標(biāo)作為條件屬性,以系統(tǒng)聚類結(jié)果作為決策屬性,將28個指標(biāo)按照四個準(zhǔn)則層分別形成四個決策表,運(yùn)用R軟件進(jìn)行編程,基于1.2中的相對約簡原理刪除準(zhǔn)則層內(nèi)對評價對象沒有顯著影響的指標(biāo)。

    現(xiàn)以經(jīng)濟(jì)發(fā)展準(zhǔn)則層為例,詳述該準(zhǔn)則層指標(biāo)的篩選過程,其他三個準(zhǔn)則層的求解方法同理。經(jīng)濟(jì)發(fā)展準(zhǔn)則層的決策表如表3所示。

    表3 經(jīng)濟(jì)發(fā)展準(zhǔn)則層的決策表

    其中,U代表省份,x1~x31分別代表北京、天津等31個省,c1~c6分別代表國內(nèi)生產(chǎn)總值、財政收入占GDP比重、失業(yè)率、第三產(chǎn)業(yè)比重、城鎮(zhèn)居民人均可支配收入6個影響決策指標(biāo)的條件指標(biāo),D代表各省份的聚類結(jié)果。

    令C={C1,C2,C3,C4,C5,C6}為條件屬性集,D=j5i0abt0b為決策屬性集,計(jì)算過程如下:

    由C導(dǎo)出的等價類為:U/C={{x1},{x2},{x3,x4,x5,x6,x7,x8,x12,x13,x14,x18,x22,x23,x24,x25,x27,x30},{x10,x11},{x9},{x15},{x16},{x17,x20,x21,x26,x28,x29},{x19},{x31}}。

    由D導(dǎo)出的等價類為:U/D={{x1,x3,x9,x10,x11,x15,x16,x17,x18,x19,x23},{x2,x4,x5,x6,x7,x8,x12,x13,x14,x20,x21,x22,x24,x25,x26,x27,x28,x29,x30,x31}}。

    D的C正域:posC(D)={x1,x2,x9,x10,x11,x15,x16,x19,x31},U/(C-{c1})={{x1},{x2},{x3,x4,x5,x6,x7,x8,x12,x13,x14,x18,x22,x23,x24,x25,x27,x30},{x9},{x10,x11},{x15},{x16},{x17,x20,x21,x26,x28,x29},{x19},{x31}}。

    D的C-{c1}正域:pos(C-{c1})(D)={x1,x2,x9,x10,x11,x15,x16,x19,x31}。

    因此,pos(C-{c2})(C)≠posD(C),c2是C中必要的,保留。同理可得:U/(C-{c2})={{x1},{x2},{x3,x4,x5,x6,x7,x8,x12,x13,x14,x18,x22,x23,x24,x25,x27,x30},{x9},{x10,x11},{x15},{x16},{x17,x20,x21,x26,x28,x29},{x19},{x31}}。

    D的C-{c2}正域:pos(C-{c2})(D)={x1,x2,x9,x10,x11,x15,x16,x19},因此,pos(C-{c2})(C)≠posD(C),c2是C中必要的,保留。同理可得:pos(C-{c3})(C)=pos(C-{c6})(C)=posD(C),pos(C-{c4})(C)≠pos(C-{c5})(C)≠posD(C)。

    所以c1、c3、c6是C中D不必要的,約簡刪除,c2、c4、c5是C中D必要的,保留。經(jīng)過相對約簡刪除后,經(jīng)濟(jì)發(fā)展準(zhǔn)則層剩余指標(biāo)為財政收入占GDP比重、第三產(chǎn)業(yè)比重、城鎮(zhèn)居民人均可支配收入3個指標(biāo)。

    同理對資源環(huán)境、社會民生、政策支持三個準(zhǔn)則層執(zhí)行指標(biāo)篩選過程,共刪除13個指標(biāo),保留突發(fā)環(huán)境事件次數(shù)、工業(yè)用水量、電力消費(fèi)量等9個指標(biāo)。

    經(jīng)過相對約簡刪除后,從28個海選指標(biāo)中保留12個指標(biāo),最終篩選結(jié)果見表1。

    2.6 指標(biāo)篩選合理性分析

    通過基于粗糙集相對約簡原理的指標(biāo)篩選,在初選的28個指標(biāo)中保留了12個指標(biāo),且在顯著性水平為0.05時,KW檢驗(yàn)的檢驗(yàn)概率值為0.007,說明構(gòu)建的綠色經(jīng)濟(jì)指標(biāo)體系中各指標(biāo)間具有顯著差異,從而驗(yàn)證了指標(biāo)篩選模型的合理性。

    3 結(jié)論

    本文針對k-means聚類結(jié)果對初始聚類中心具有敏感性的問題,定義了樣本空間分布密度,從而改進(jìn)了k-means聚類離散化方法。在此基礎(chǔ)上,基于粗糙集知識的相對約簡原理,確定了指標(biāo)體系的約簡,剔除包含重復(fù)信息的冗余指標(biāo)。以綠色經(jīng)濟(jì)評價指標(biāo)體系的構(gòu)建為實(shí)證對象,將初選的28個指標(biāo)約簡為12個指標(biāo),驗(yàn)證了基于k-means與粗糙集相對約簡原理的指標(biāo)篩選模型的可行性。通過KW檢驗(yàn)證明最終篩選的指標(biāo)具有顯著性差異,說明了指標(biāo)篩選模型的合理性。

    猜你喜歡
    約簡粗糙集聚類
    基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
    基于二進(jìn)制鏈表的粗糙集屬性約簡
    實(shí)值多變量維數(shù)約簡:綜述
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    基于模糊貼近度的屬性約簡
    多?;植诩再|(zhì)的幾個充分條件
    雙論域粗糙集在故障診斷中的應(yīng)用
    基于改進(jìn)的遺傳算法的模糊聚類算法
    兩個域上的覆蓋變精度粗糙集模型
    一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
    新和县| 盐城市| 临潭县| 邵阳市| 安塞县| 崇阳县| 永和县| 晋城| 盐山县| 修武县| 白玉县| 泾源县| 霍林郭勒市| 廉江市| 民丰县| 唐河县| 禄丰县| 博客| 唐海县| 长宁区| 施秉县| 林芝县| 股票| 廊坊市| 阳高县| 鲜城| 离岛区| 承德县| 武强县| 汽车| 和田市| 苏尼特右旗| 射阳县| 炉霍县| 汤阴县| 吉林省| 孟连| 安多县| 鲁山县| 新宁县| 四子王旗|