楊貴軍,于 洋
(天津財(cái)經(jīng)大學(xué) 中國經(jīng)濟(jì)統(tǒng)計(jì)研究中心,天津 300222)
在大數(shù)據(jù)背景下,從海量數(shù)據(jù)中挖掘有價(jià)值信息的方法研究日益重要。粗糙集是Pawlak于1982年提出的一種數(shù)據(jù)挖掘方法[1],具有分類規(guī)則易于理解、不受數(shù)據(jù)分布類型限制等優(yōu)點(diǎn),現(xiàn)已廣泛應(yīng)用于經(jīng)濟(jì)[2-4]、人工智能[5-6]等領(lǐng)域。現(xiàn)有粗糙集的研究主要集中于粗糙集構(gòu)造方法的完善以及針對(duì)不確定性數(shù)據(jù)和模糊性數(shù)據(jù)的粗糙集構(gòu)造等問題[7-8],而粗糙集優(yōu)良性評(píng)估標(biāo)準(zhǔn)一直是研究重點(diǎn),直接影響到粗糙集擇優(yōu)與粗糙集屬性約簡。粗糙集擇優(yōu)注重對(duì)采用不同方法構(gòu)建的多個(gè)粗糙集進(jìn)行擇優(yōu),屬性約簡注重對(duì)剔除冗余信息屬性的多個(gè)粗糙集進(jìn)行比較?,F(xiàn)有的粗糙集優(yōu)良性評(píng)價(jià)目的是在多個(gè)備選粗糙集中選擇出預(yù)測準(zhǔn)確度高的粗糙集,而粗糙集的優(yōu)良性評(píng)估準(zhǔn)則仍是目前具有挑戰(zhàn)性的問題。
粗糙集是根據(jù)研究對(duì)象的條件屬性與決策屬性之間的關(guān)系建立分類規(guī)則,以識(shí)別新觀測對(duì)象所屬類別。粗糙集優(yōu)良性評(píng)估注重粗糙集的分類能力,主要對(duì)粗糙集的分類性能進(jìn)行評(píng)價(jià),如Düntsch等人利用隨機(jī)化統(tǒng)計(jì)方法考查粗糙集的分類規(guī)則是否僅基于少數(shù)隨機(jī)觀測得到,試圖分析粗糙集分類的可信度[9]。很多文獻(xiàn)也以分類誤判率或分類正確率來評(píng)價(jià)粗糙集分類的正確性,如Hu等人構(gòu)建了基于數(shù)據(jù)庫系統(tǒng)的新粗糙集,并進(jìn)行了粗糙集屬性約簡[10],而采用分類正確率考量新方法具有更高的計(jì)算效率;Jaworski給出了衡量粗糙集分類規(guī)則準(zhǔn)確性和覆蓋度的估計(jì)指標(biāo),并基于這些指標(biāo)對(duì)粗糙集屬性進(jìn)行約簡和粗糙集優(yōu)良性評(píng)價(jià)[11];Cornelis等人總結(jié)了使用模糊容差關(guān)系進(jìn)行粗糙集屬性約簡的方法,給出的實(shí)際分析案例具有高正確率[8];鄧維斌等人建立了基于優(yōu)勢關(guān)系粗糙集的自主式學(xué)習(xí)模型,并用正確率和平均絕對(duì)誤差評(píng)價(jià)粗糙集分類性能[12];翟育明等人構(gòu)造了基于(α,β)集對(duì)限制優(yōu)勢關(guān)系的粗糙集[13],而新模型分類具有更低整體誤判率。
綜上所述,現(xiàn)有研究注重粗糙集分類的準(zhǔn)確性,大多文獻(xiàn)選擇分類誤判率作為粗糙集優(yōu)良性評(píng)估標(biāo)準(zhǔn),然而粗糙集在測試集中的誤判率最低,但在新數(shù)據(jù)集的預(yù)測準(zhǔn)確度并不總是最高。本文對(duì)于京津冀務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口數(shù)據(jù)集,分別采用基于最大概率的粗糙集方法和基于貝葉斯的粗糙集方法構(gòu)造了500個(gè)粗糙集,其中在測試集中最低誤判率的500個(gè)粗糙集中,只有422個(gè)粗糙集在新數(shù)據(jù)集中預(yù)測準(zhǔn)確度最高。誤判率標(biāo)準(zhǔn)對(duì)評(píng)價(jià)粗糙集優(yōu)良性很重要,而只注重粗糙集的判錯(cuò)率則過于簡易,未考慮粗糙集的模型復(fù)雜度,特別是在測試集中多個(gè)粗糙集誤判率差異小的情況,采用誤判率標(biāo)準(zhǔn)不易選出在新數(shù)據(jù)集中預(yù)測準(zhǔn)確度高的粗糙集。
針對(duì)決策屬性為兩分類的數(shù)據(jù)集,筆者引入了基于AIC準(zhǔn)則的粗糙集擇優(yōu)方法并演示其良好的性質(zhì)[14]。本文引入基于貝葉斯信息準(zhǔn)則(BIC)的粗糙集擇優(yōu)和屬性約簡方法,先利用粗糙集的分類規(guī)則定義解釋變量,將決策屬性作為因變量,并構(gòu)造Logistic模型以表達(dá)該粗糙集的分類;采用最大似然方法估計(jì)Logistic模型參數(shù),用擬合模型的BIC值作為該粗糙集的BIC值進(jìn)行粗糙集擇優(yōu)和屬性約簡。新方法兼顧了粗糙集的分類正確概率與復(fù)雜度,能有效避免過擬合問題,數(shù)據(jù)分析結(jié)果顯示當(dāng)多個(gè)粗糙集在測試集中誤判率差異小時(shí),新方法能更好地選擇預(yù)測準(zhǔn)確度高的粗糙集。
對(duì)于同一數(shù)據(jù)集,采用不同構(gòu)造方法所得到的粗糙集并不總是一致的,其誤判率和預(yù)測準(zhǔn)確度也往往有差異。目前,粗糙集構(gòu)造方法主要有基于最大概率的粗糙集方法和基于貝葉斯的粗糙集方法[15]。
設(shè)有n個(gè)研究對(duì)象,記U={u1,u2,…,un},X={x1,x2,…,xk}為條件屬性,k表示條件屬性個(gè)數(shù),Y為決策屬性,這里約定其為兩分類變量,取值為0或1。為簡化敘述,將一個(gè)類別記為c類,另一個(gè)類別記為1-c類。基于最大概率的粗糙集方法先計(jì)算第i(i=1,2,…,n)個(gè)個(gè)體ui的條件屬性xi1,xi2,…,xik在第c類的概率,計(jì)算公式為:
如果P(yi=c|xi1,xi2,…,xik)≥P(yi=1-c|xi1,xi2,…,xik),將個(gè)體ui判為第c類,分類規(guī)則記為:
r∶xi1,xi2,…,xik→yi=c
ifP(yi=c|xi1,xi2,…,xik)
≥P(yi=1-c|xi1,xi2,…,xik)
(1)
其中條件屬性為xi1,xi2,…,xik,將屬于1-c(c=0,1)類的第i(i=1,2,…,n)個(gè)個(gè)體ui,判為第c(c=0,1)類的誤判損失,記為λ(yi=c|xi1,xi2,…,xik)≥0?;谪惾~斯的粗糙集方法,先計(jì)算本屬于1-c(c=0,1)類的第i(i=1,2,…,n)個(gè)個(gè)體ui的條件屬性xi1,xi2,…,xik被判為第c類的誤判平均損失為:
αc=λ(yi=c|xi1,xi2,…,xik)·
P(yi=c|xi1,xi2,…,xik)·
P(xi1,xi2,…,xik|yi=1-c)
如果αc≤α1-c,則將個(gè)體ui判為第c類,分類規(guī)則為:
r∶xi1,xi2,…,xik→yi=cifαc≤α1-c
(2)
基于最大概率的粗糙集方法和基于貝葉斯的粗糙集方法所構(gòu)造的粗糙集分類規(guī)則并不總是相同的,相應(yīng)粗糙集的誤判率也往往是不一樣的。
分類誤判率側(cè)重評(píng)價(jià)粗糙集分類的準(zhǔn)確性,與此類似,Logistic模型也適用于數(shù)據(jù)分類,而且往往具有較高的分類準(zhǔn)確性。本文引入的基于BIC的粗糙集擇優(yōu)方法試圖組合兩類模型以得到更高的分類準(zhǔn)確性。這里,將決策屬性yi作為Logistic模型的因變量,將判為第一類的分類規(guī)則定義為解釋變量,記為zi=(zi1,zi2,…,zim)。zij為由第j個(gè)分類規(guī)則所定義的解釋變量,m為新變量個(gè)數(shù),i=1,2,…,n(n為觀測個(gè)數(shù))。為避免共線性問題,在定義賦值新變量時(shí)僅選取判為第一類的分類規(guī)則,構(gòu)建的Logistic模型為:
(3)
采用最大似然法估計(jì)模型(3)的參數(shù),并計(jì)算其BIC值為:
(4)
對(duì)于給定數(shù)據(jù)集,基于最大概率的粗糙集方法和基于貝葉斯的粗糙集方法所構(gòu)造的粗糙集,其屬性常常會(huì)存在冗余信息,而剔除冗余信息,并進(jìn)行屬性約簡,則可得到優(yōu)化的粗糙集。BIC準(zhǔn)則也可以作為屬性約簡的標(biāo)準(zhǔn),稱其為基于BIC的粗糙集屬性約簡,具體方法如下:
對(duì)于需要屬性約簡的粗糙集,將決策屬性yi作為Logistic模型的因變量,選取判為第一類的分類規(guī)則定義為解釋變量,構(gòu)建Logistic模型式(3),計(jì)算其BIC值,記為BIC(all);令p為粗糙集的屬性總數(shù),對(duì)于j=1,2,…,p利用粗糙集的分類規(guī)則,依次去掉其屬性列aj=(a1j,a2j,…,anj)′,合并重復(fù)的規(guī)則并按照最大概率原則處理分類矛盾的規(guī)則,基于處理后的規(guī)則分別計(jì)算相應(yīng)Logistic模型的BIC值,記為BIC(-aj),比較所有BIC(-aj)(j=1,2,…,p),選擇其中最小值與BIC(all)比較:若其不大于BIC(all),則剔除最小BIC值對(duì)應(yīng)的aj;否則,對(duì)應(yīng)BIC(all)的粗糙集為在BIC準(zhǔn)則下的最優(yōu)粗糙集;剔除粗糙集的屬性,需要再利用粗糙集的分類規(guī)則,重復(fù)上述過程,直至選出在BIC準(zhǔn)則下的最優(yōu)粗糙集。這里,將BIC值作為粗糙集屬性約簡的標(biāo)準(zhǔn),選出預(yù)測準(zhǔn)確性高的粗糙集。本文關(guān)注二分類決策屬性的情況,基于BIC的粗糙集屬性約簡方法也可推廣到多分類決策屬性的情況。
將基于BIC的粗糙集擇優(yōu)方法和基于BIC的粗糙集屬性約簡方法用于分析兩組數(shù)據(jù):一是京津冀地區(qū)的流動(dòng)人口生存發(fā)展?fàn)顩r調(diào)查數(shù)據(jù),考察京津冀地區(qū)務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口的特征;二是加州大學(xué)歐文分校數(shù)據(jù)挖掘研究數(shù)據(jù)庫中的Breast Cancer Wisconsin(Original)(以下簡稱Breastcancer)數(shù)據(jù)集,分析乳腺癌細(xì)胞的主要特征。
隨著中國經(jīng)濟(jì)發(fā)展以及京津冀協(xié)同發(fā)展政策的不斷推進(jìn),京津冀地區(qū)已成為繼長三角、珠三角地區(qū)后最引人注目的流動(dòng)人口聚集地,其中外出務(wù)工經(jīng)商是人口流動(dòng)的主要原因。高學(xué)歷人群作為具有高人力資本的群體,在流動(dòng)人口中占有相當(dāng)比例,而研究京津冀務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口的主要特征,能夠幫助政府更好地服務(wù)和管理流動(dòng)人口。本文考察的高學(xué)歷包括大學(xué)??啤⒈究茖W(xué)歷;數(shù)據(jù)來源于2015年國家衛(wèi)生計(jì)生委全國流動(dòng)人口生存發(fā)展?fàn)顩r及衛(wèi)生計(jì)生委服務(wù)管理抽樣調(diào)查的京津冀地區(qū)數(shù)據(jù);經(jīng)數(shù)據(jù)預(yù)處理后共得到有效樣本4 336份,其中北京2 307份、天津657份、河北1 372份;高學(xué)歷人口的基本信息包括年齡xi1、性別xi2、戶口登記類型xi3、婚姻狀況xi4;流動(dòng)相關(guān)信息包括本次流動(dòng)時(shí)間xi5;經(jīng)濟(jì)情況包括恩格爾系數(shù)xi6、總支出占總收入比重xi7;將7個(gè)可能對(duì)流動(dòng)原因有影響的變量作為條件屬性;將流動(dòng)原因是否為務(wù)工經(jīng)商作為決策屬性yi,為1者代表是、為0者代表否;其中年齡分為15~20歲、21~35歲、36~60歲、61歲以上的四水平分類變量;本次流動(dòng)時(shí)間為以月計(jì)的連續(xù)變量;恩格爾系數(shù)由月平均食品支出/月平均總收入得到,分為0.4以下、0.4及以上的二水平分類變量;總支出占總收入比重由月平均總支出/月平均總收入得到,分為0.5以下、0.5及以上的二水平分類變量。
1.基于BIC的粗糙集擇優(yōu)。分別采用基于最大概率的粗糙集方法和基于貝葉斯的粗糙集方法,構(gòu)建粗糙集分類規(guī)則,可以得到兩類不同的京津冀地區(qū)務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口的特征?;贐IC的粗糙集擇優(yōu)方法能有效選擇出具有高預(yù)測準(zhǔn)確度的一類特征,因此本文基于BIC對(duì)兩個(gè)粗糙集進(jìn)行擇優(yōu)。對(duì)7個(gè)條件屬性xi1,xi2,xi3,xi4,xi5,xi6,xi7離散化并進(jìn)行屬性約簡,約簡后剩余4個(gè)屬性,記為xri1,xri3,xri4,xri5,結(jié)果見表1的第2~5列。先采用基于最大概率的粗糙集方法構(gòu)建分類規(guī)則,選取判為第一類的分類規(guī)則,去掉出現(xiàn)頻數(shù)少的分類規(guī)則;再利用分類規(guī)則定義解釋變量并且賦值作為Logistic模型的解釋變量,如表2所示。對(duì)應(yīng)訓(xùn)練集和測試集的新變量z的取值見表1的第7~10列所示,決策屬性的取值見表1第6列。
表1 對(duì)應(yīng)訓(xùn)練集和測試集的新變量表
表2 Logistic模型解釋變量表
將決策屬性作為因變量建立Logistic模型,計(jì)算相應(yīng)模型的BIC值為2 885.13。同樣地,采用基于貝葉斯的粗糙集方法,計(jì)算相應(yīng)Logistic模型的BIC值為2 927.38。采用基于最大概率的粗糙集方法得到的粗糙集BIC值更小,由其所得規(guī)則歸納出務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口的特征為年輕人、具有農(nóng)業(yè)或非農(nóng)業(yè)戶口(即不包括農(nóng)業(yè)轉(zhuǎn)居民和非農(nóng)業(yè)轉(zhuǎn)居民戶口)、未婚且流動(dòng)時(shí)間較短,或年輕人、具有農(nóng)業(yè)或非農(nóng)業(yè)戶口(即不包括農(nóng)業(yè)轉(zhuǎn)居民和非農(nóng)業(yè)轉(zhuǎn)居民戶口)、已婚且流動(dòng)時(shí)間較長,其歸納結(jié)果較為合理。
為進(jìn)一步驗(yàn)證基于BIC的粗糙集擇優(yōu)方法在本實(shí)例中的有效性,本文將該方法與傳統(tǒng)的基于誤判率的粗糙集擇優(yōu)方法進(jìn)行比較。從該數(shù)據(jù)集中隨機(jī)抽取80%的數(shù)據(jù)作為訓(xùn)練集與測試集,用于粗糙集的構(gòu)建與選擇;其余20%的數(shù)據(jù)作為預(yù)留數(shù)據(jù)集,用于比較誤判率準(zhǔn)則和BIC準(zhǔn)則的粗糙集選擇效果,即取訓(xùn)練集容量為2 775、測試集容量為694、預(yù)留數(shù)據(jù)集容量為867,為避免訓(xùn)練集、測試集與預(yù)留數(shù)據(jù)集的選取對(duì)結(jié)果造成顯著影響,隨機(jī)抽取訓(xùn)練集、測試集與預(yù)留數(shù)據(jù)集,采用五折交叉驗(yàn)證方法來進(jìn)行計(jì)算,重復(fù)模擬100次。為比較BIC準(zhǔn)則和誤判率準(zhǔn)則,選擇在預(yù)留數(shù)據(jù)集中最高預(yù)測準(zhǔn)確度的粗糙集為最優(yōu),這里最高預(yù)測準(zhǔn)確度是指粗糙集在預(yù)留數(shù)據(jù)集中的誤判率最低。若所選粗糙集在測試集的誤判率最小且在預(yù)留數(shù)據(jù)集上的預(yù)測準(zhǔn)確度最高,則認(rèn)為采用誤判率準(zhǔn)則選出了“正確”粗糙集,否則認(rèn)為選出了“錯(cuò)誤”粗糙集;若所選粗糙集的BIC值最小且在預(yù)留數(shù)據(jù)集上的預(yù)測準(zhǔn)確度最高,則認(rèn)為BIC準(zhǔn)則選出了“正確”粗糙集,否則認(rèn)為選出了“錯(cuò)誤”粗糙集。
對(duì)于該數(shù)據(jù)集,在100次重復(fù)的五折交叉驗(yàn)證計(jì)500次過程中,分別采用BIC準(zhǔn)則和誤判率準(zhǔn)則進(jìn)行粗糙集選擇的結(jié)果見表3第1行;表3的第2~5列,分別給出了采用誤判率準(zhǔn)則選擇粗糙集的錯(cuò)誤次數(shù)和正確次數(shù);采用BIC準(zhǔn)則選擇粗糙集的錯(cuò)誤次數(shù)和正確次數(shù):第6列給出了兩種準(zhǔn)則都正確選擇粗糙集的次數(shù),第7列給出了BIC準(zhǔn)則正確選擇粗糙集而采用誤判率準(zhǔn)則錯(cuò)誤選擇粗糙集的次數(shù)。對(duì)于采用基于最大概率的粗糙集方法和基于貝葉斯的粗糙集方法所構(gòu)造的兩個(gè)粗糙集在測試集的誤判率之差小于3%的情況,BIC準(zhǔn)則和誤判率準(zhǔn)則選擇粗糙集的結(jié)果見表3第2行;由表3第1行知,采用誤判率準(zhǔn)則和BIC準(zhǔn)則同時(shí)正確選擇粗糙集的情況達(dá)到384次,正確選擇粗糙集的比率高達(dá)84%以上。與誤判率準(zhǔn)則相比,BIC準(zhǔn)則適用于粗糙集的選擇和評(píng)價(jià),選出的粗糙集具有較高的預(yù)測準(zhǔn)確率。此外,多次出現(xiàn)了BIC準(zhǔn)則選擇正確粗糙集,而誤判率準(zhǔn)則選擇了錯(cuò)誤粗糙集的情況,此時(shí)BIC準(zhǔn)則優(yōu)于誤判率準(zhǔn)則??傊?,BIC準(zhǔn)則可以代替誤判率準(zhǔn)則擇優(yōu)粗糙集,是粗糙集擇優(yōu)的備選準(zhǔn)則。表3第2行數(shù)據(jù)顯示,兩種方法所構(gòu)造的粗糙集在測試集的誤判率之差小于3%的情況共有353次,其中有39次BIC準(zhǔn)則選出“正確”粗糙集,而誤判率準(zhǔn)則選了“錯(cuò)誤”的粗糙集,在這種情況下BIC準(zhǔn)則優(yōu)于誤判率準(zhǔn)則,BIC準(zhǔn)則選出正確粗糙集的頻率更高,具有更好的預(yù)測準(zhǔn)確度。
表3 兩種準(zhǔn)則選擇結(jié)果對(duì)比情況表
2.基于BIC的粗糙集屬性約簡。上節(jié)得到京津冀地區(qū)務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口特征的粗糙集均是采用傳統(tǒng)的粗糙集屬性約簡方法,即由信息熵方法得到的,亦即用信息熵方法約簡屬性時(shí)保留了多個(gè)屬性,規(guī)則涵蓋內(nèi)容較多。因此,本文采用基于BIC的粗糙集屬性約簡方法進(jìn)行分析,找出更精煉的規(guī)則及影響京津冀務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口的關(guān)鍵特征:先利用基于最大概率的粗糙集方法構(gòu)建粗糙集分類規(guī)則;再針對(duì)不同屬性個(gè)數(shù)的分類規(guī)則,采用基于BIC的粗糙集屬性約簡方法對(duì)所得多個(gè)粗糙集進(jìn)行選擇,約簡后屬性為年齡、婚姻狀況及本次流動(dòng)時(shí)間3個(gè)屬性,并由其規(guī)則可得到基于務(wù)工經(jīng)商原因流動(dòng)的高學(xué)歷人群的特征為年輕人、未婚且一次流動(dòng)時(shí)間較短,或年輕人、已婚且一次流動(dòng)時(shí)間較長的結(jié)論。歸納結(jié)果相比上節(jié)更加精煉,這也與筆者已知的實(shí)際情況較為吻合。
為進(jìn)一步驗(yàn)證該方法在本實(shí)例中的有效性,本文將基于BIC的粗糙集屬性約簡方法與信息熵方法進(jìn)行對(duì)比,用預(yù)測準(zhǔn)確度作為比較標(biāo)準(zhǔn)。針對(duì)該數(shù)據(jù)集,取訓(xùn)練集容量為3 469、測試集容量為867,隨機(jī)抽取訓(xùn)練集與測試集,采用五折交叉驗(yàn)證方法來進(jìn)行計(jì)算,重復(fù)模擬100次。對(duì)于該數(shù)據(jù)集,在100次五折交叉驗(yàn)證共500次過程中,分別采用信息熵方法和BIC方法進(jìn)行粗糙集屬性約簡的結(jié)果見表4。表4的第1行給出了500次采用兩種方法進(jìn)行粗糙集屬性約簡的誤判率均值;第2行給出了500次分別采用兩種方法得到的屬性約簡后屬性個(gè)數(shù)均值;第3行給出了500次分別采用兩種方法得到的屬性約簡后的粗糙集分類規(guī)則個(gè)數(shù)均值;第4行給出了500次中與信息熵方法相比BIC方法的誤判率不大于或更小次數(shù)。由表4知:基于BIC的屬性約簡得到的屬性個(gè)數(shù)與規(guī)則個(gè)數(shù)平均而言小于采用信息熵方法,且采用BIC方法的誤判率平均低于采用信息熵方法,其誤判率不大于信息熵方法的次數(shù)達(dá)到401次。
表4 兩種方法單獨(dú)約簡結(jié)果對(duì)比情況表(500次時(shí))
圖1是兩種方法屬性約簡結(jié)果的誤判率密度圖,給出了采用信息熵方法和采用BIC方法進(jìn)行500個(gè)粗糙集屬性約簡的誤判率情況,顯示采用BIC方法進(jìn)行屬性約簡后誤判率小的粗糙集的頻率更高更集中。
誤判率
圖2和圖3給出了采用信息熵方法和采用BIC方法進(jìn)行500個(gè)粗糙集屬性約簡的屬性與規(guī)則個(gè)數(shù)的詳細(xì)情況。圖2是兩種方法約簡結(jié)果屬性個(gè)數(shù)的密度圖,顯示采用BIC方法進(jìn)行屬性約簡得到的屬性個(gè)數(shù)普遍更少,屬性個(gè)數(shù)小的頻率高。圖3是兩種方法約簡結(jié)果的規(guī)則個(gè)數(shù)的密度圖,顯示采用BIC方法進(jìn)行屬性約簡得到的規(guī)則個(gè)數(shù)普遍更少,規(guī)則個(gè)數(shù)小的頻率高。
圖2 兩種方法約簡結(jié)果屬性個(gè)數(shù)密度圖
圖3 兩種方法約簡結(jié)果規(guī)則個(gè)數(shù)密度圖
綜合上述分析,基于BIC屬性約簡方法的屬性個(gè)數(shù)與規(guī)則個(gè)數(shù)普遍小于采用信息熵方法,且采用BIC方法的誤判率普遍低于信息熵方法,BIC方法的屬性約簡程度相對(duì)更好。
3.基于BIC和信息熵組合的粗糙集屬性約簡。基于BIC的粗糙集屬性約簡方法可與信息熵方法組合使用,組合方法計(jì)算量相對(duì)較少,消除了冗余信息,利于識(shí)別出務(wù)工經(jīng)商高學(xué)歷流動(dòng)人口的關(guān)鍵特征。先給定數(shù)據(jù)集,采用信息熵方法進(jìn)行屬性約簡,得到的結(jié)果包括年齡、戶口登記類型、婚姻狀況、本次流動(dòng)時(shí)間共4個(gè)屬性,識(shí)別出的高學(xué)歷流動(dòng)人口的特征較多;在得到的粗糙集分類規(guī)則的基礎(chǔ)上,再采用BIC方法進(jìn)一步屬性約簡,得到年齡、婚姻狀況、本次流動(dòng)時(shí)間3個(gè)屬性,相比原始數(shù)據(jù)信息減少了4個(gè)屬性,約簡力度大;仍與信息熵方法比較,進(jìn)行100次五折交叉驗(yàn)證,得到的500次過程中先用信息熵方法再用BIC方法,組合進(jìn)行粗糙集屬性約簡的結(jié)果見表5。
表5 兩種方法結(jié)合約簡結(jié)果情況對(duì)比(500次時(shí))
由表5可知:采用兩種方法組合進(jìn)行屬性約簡,可有效減少屬性個(gè)數(shù)與規(guī)則個(gè)數(shù),且組合方法的誤判率平均低于只采用信息熵方法,其誤判率不大于信息熵方法的次數(shù)達(dá)到396次,頻率較高。
Breastcancer數(shù)據(jù)集為威斯康星大學(xué)Wolberg博士有關(guān)乳腺癌的臨床病例數(shù)據(jù),考察不同樣品屬于良性還是惡性,共包含699個(gè)樣品,剔除缺失的16個(gè)數(shù)據(jù),條件屬性包括腫塊厚度、細(xì)胞大小均勻性、細(xì)胞形狀均勻性、邊緣粘、單上皮細(xì)胞大小、裸核、乏味染色體、正常核、有絲分裂;決策屬性為1者代表良性,為0者代表惡性。
具體分析過程類似第一個(gè)例子。采用五折交叉驗(yàn)證方法,針對(duì)基于BIC的粗糙集擇優(yōu)方法取訓(xùn)練集容量為437、測試集容量為109、預(yù)留數(shù)據(jù)集容量為137,針對(duì)基于BIC的粗糙集屬性約簡方法和基于BIC和信息熵組合的粗糙集屬性約簡方法,取訓(xùn)練集容量為546、測試集容量為137,重復(fù)100次,結(jié)果見表6。
表6 兩種準(zhǔn)則選擇結(jié)果對(duì)比情況表
表6顯示:采用誤判率準(zhǔn)則和BIC準(zhǔn)則同時(shí)正確選擇粗糙集的情況達(dá)到361次,正確率高于72%,出現(xiàn)110次BIC準(zhǔn)則選擇了正確粗糙集而誤判率準(zhǔn)則選擇了錯(cuò)誤粗糙集的情況;特別是在測試集誤判率之差小于3%的情況下,有108次BIC準(zhǔn)則選了“正確”粗糙集而誤判率準(zhǔn)則選了“錯(cuò)誤”的粗糙集,BIC準(zhǔn)則選出正確粗糙集的頻率更高。
表7 兩種方法單獨(dú)約簡結(jié)果對(duì)比情況表(500次時(shí))
表8 兩種方法結(jié)合約簡結(jié)果對(duì)比情況表(500次時(shí))
表7顯示:基于BIC的屬性約簡得到的屬性與規(guī)則個(gè)數(shù)平均而言小于信息熵約簡方法,誤判率相對(duì)更低,其誤判率不大于信息熵方法的次數(shù)達(dá)到340次;表8顯示:采用兩種方法組合進(jìn)行屬性約簡,相比只采用信息熵方法,約簡力度更大,誤判率更低,其誤判率不大于信息熵方法的次數(shù)達(dá)到347次。
綜上所述,BIC方法引入了模型參數(shù)個(gè)數(shù)懲罰,懲罰力度較大,特別是對(duì)于數(shù)據(jù)集采用信息熵方法屬性約簡后數(shù)據(jù)維數(shù)較高的情況,可引入基于BIC的粗糙集屬性約簡方法進(jìn)一步提高約簡效果。相比于參考文獻(xiàn)[14]的研究,本文選擇的BIC準(zhǔn)則比AIC準(zhǔn)則更傾向于模型約簡,其約簡程度要更強(qiáng)。
BIC準(zhǔn)則是常用的統(tǒng)計(jì)模型選擇準(zhǔn)則之一。針對(duì)粗糙集優(yōu)良性評(píng)估,本文引入了BIC準(zhǔn)則,構(gòu)建了基于BIC的粗糙集擇優(yōu)和屬性約簡方法。新方法綜合考慮了模型分類正確概率與模型復(fù)雜度,并選擇了更高預(yù)測準(zhǔn)確度的粗糙集,以完善粗糙集優(yōu)良性評(píng)估準(zhǔn)則,為粗糙集擇優(yōu)與屬性約簡提供了新思路。實(shí)際數(shù)據(jù)分析結(jié)果顯示:基于BIC的粗糙集擇優(yōu)方法與誤判率準(zhǔn)則選擇正確粗糙集的頻率都較高;對(duì)于誤判率差異小的多個(gè)備選粗糙集,BIC準(zhǔn)則選出高預(yù)測準(zhǔn)確度粗糙集的頻率更高;基于BIC的粗糙集屬性約簡方法比信息熵方法約簡程度更高,并可與信息熵方法結(jié)合使用,以進(jìn)一步提高約簡效果。
[1] Pawlak Z.Rough Sets[J].International Journal of Computer and Information Sciences,1982,11(5).
[2] Tay F E H,Shen L.Economic and Financial Prediction Using Rough Sets Model[J].European Journal of Operational Research,2002,141(3).
[3] 曹黎俠,黃光球,況湘玲.基于粗糙集理論的第三方支付平臺(tái)的效益問題[J].統(tǒng)計(jì)與信息論壇,2016(1).
[4] 王宏智,高學(xué)東,賴媛媛.基于灰粗集屬性知識(shí)簡約算法的海運(yùn)規(guī)則發(fā)現(xiàn)[J].統(tǒng)計(jì)與信息論壇,2017(1).
[5] Qian Y H,Liang J Y,Pedrycz W,et al.An Efficient Accelerator for Attribute Reduction from Incomplete Data in Rough Set Framework[J].Pattern Recognition,2011,44(8).
[6] 鄧大勇,盧克文,苗奪謙,等.知識(shí)系統(tǒng)中全粒度粗糙集及概念漂移的研究[J].計(jì)算機(jī)學(xué)報(bào),2016,39.
[7] Qian Y H,Liang J Y,Pedrycz W,et al.Positive Approximation:An Accelerator for Attribute Reduction in Rough Set Theory[J].Artificial Intelligence,2010,174(9/10).
[8] Cornelis C,Jensen R,Hurtado G,et al.Attribute Selection with Fuzzy Decision Reducts[J].Information Sciences,2010(2).
[9] Düntsch I,Gediga G.Statistical Evaluation of Rough Set Dependency Analysis[J].International Journal of Human-Computer Studies,1997,46(5).
[10] Hu X H,Lin T Y,Han J.A New Rough Sets Model Based on Database Systems[J].Fundamenta Informaticae,2004,59(2).
[11] Jaworski W.Rule Induction:Combining Rough Set and Statistical Approaches[C].Rough Sets & Current Trends in Computing,2008.
[12] 鄧維斌,王國胤,胡峰.基于優(yōu)勢關(guān)系粗糙集的自主式學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),2014,37(12).
[13] 翟育明,蔡紅,郭斌.(α,β)集對(duì)限制優(yōu)勢粗糙集及決策模型[J].系統(tǒng)管理學(xué)報(bào),2014,23(3).
[14] 楊貴軍,于洋,孟杰.基于AIC的粗糙集擇優(yōu)方法[J].模糊系統(tǒng)與數(shù)學(xué),2018,32(1).
[15] 范霄文.基于粗糙集的定性數(shù)據(jù)分析方法研究[D].廈門:廈門大學(xué),2008.