李穎杰
(重慶交通大學(xué),重慶400074)
為了給各地區(qū)物資稀缺程度評(píng)級(jí),首先通過分析發(fā)現(xiàn)影響一個(gè)地區(qū)物資緊缺程度的因素主要有該區(qū)域的總?cè)丝?、新確診肺炎人數(shù)、區(qū)域醫(yī)院數(shù)量、區(qū)域醫(yī)護(hù)人員數(shù)量、區(qū)域醫(yī)療設(shè)備生產(chǎn)廠數(shù)量和區(qū)域的GDP。下面先對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,并進(jìn)行主成分分析。
首先,由于指標(biāo)的大小差異很大,對(duì)原始數(shù)據(jù)進(jìn)行了歸一化,使每個(gè)指標(biāo)處于相同的數(shù)量級(jí)。采用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化法,即:
與此相對(duì)應(yīng),以下稱為標(biāo)準(zhǔn)化指標(biāo)向量:
考慮到上述指標(biāo)間還可能存在著一定的相關(guān)性,為了更精準(zhǔn)地分析影響地區(qū)物資緊缺程度的指標(biāo),使用了主成分分析法對(duì)指標(biāo)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,用盡可能少的主成分來代替原來的變量,同時(shí)又使保留的主成分具有與原數(shù)據(jù)相同的信息。
主成分分析步驟如下:
第一步,計(jì)算相關(guān)系數(shù)矩陣:
第二步,計(jì)算相關(guān)系數(shù)矩陣Rλ的特征值λ1≥λ2≥…≥λm≥0 以及相應(yīng)的特征向量μ1,μ2,…,μ6,從特征向量中組合m 個(gè)新的索引量:
第三步,計(jì)算特征值λj(j=1,2,…,6)的信息貢獻(xiàn)率和累積貢獻(xiàn)率。主成分yj的信息貢獻(xiàn)率bj的公式如下所示。主成分yj的累積貢獻(xiàn)率αp公式如下所示。當(dāng)αp的取值接近于1(一般取值為0.85、0.90、0.95)時(shí),則選擇前p 個(gè)指標(biāo)變量y1,y2,…,yp作為p 個(gè)主成分,以此來代替原來的6 項(xiàng)指標(biāo)。
通過上述分析,我們確立了p 個(gè)主成分,這p 個(gè)主成分互不相關(guān),并且保留了原始數(shù)據(jù)的基本信息。
確定聚類的最優(yōu)數(shù)量對(duì)聚類的有效性有很大的影響,使用相同的聚類算法來評(píng)估不同聚類條件下聚類結(jié)果的指標(biāo)優(yōu)度。內(nèi)部指標(biāo)有三類:基于數(shù)據(jù)集模糊劃分的指標(biāo)、基于數(shù)據(jù)集樣本結(jié)構(gòu)的指標(biāo)和基于數(shù)據(jù)集統(tǒng)計(jì)信息的指標(biāo)?;跀?shù)據(jù)集幾何結(jié)構(gòu)的指標(biāo)是根據(jù)數(shù)據(jù)集本身的統(tǒng)計(jì)特征和聚類結(jié)果來評(píng)價(jià)聚類結(jié)果,并根據(jù)聚類結(jié)果選擇最佳的聚類數(shù)。根據(jù)K 均值聚類方法的原理,選擇Davies-Bouldin 指數(shù)進(jìn)行評(píng)價(jià)。
DB指數(shù)是通過描述樣本的類別散度和類別中心之間的距離來評(píng)估的,DB越小,類之間的相似性越低,聚類效果越好。定義如下:
確定最優(yōu)聚類數(shù)應(yīng)首先給定K的范圍(給定K范圍為0~9),在數(shù)據(jù)集上使用不同的聚類數(shù)K運(yùn)行相同的聚類算法,得到一系列聚類結(jié)果,并計(jì)算每種聚類數(shù)的DB值,結(jié)果如圖1 所示。分析圖1 結(jié)果,選擇了最佳聚類數(shù)為4 個(gè)類別。
圖1 DB 值計(jì)算結(jié)果
K-Means 聚類算法是聚類算法中最廣泛應(yīng)用的一種算法,易于實(shí)現(xiàn),效率高。下面對(duì)湖北各地區(qū)的物資緊缺程度進(jìn)行K-Means 聚類分析。
記湖北各地區(qū)的特征向量為a1,a2,…,am,按照如下步驟聚類分析。
Step1,選擇初始的k個(gè)類別中心u1,u2,…,uk。
Step2,對(duì)于剩余的每個(gè)特征向量,將其歸類到距離最近的類別中心的類別,即
Step3,將每個(gè)類別中心更新為隸屬該類別的所有樣本的均值,即,cj為第j個(gè)類別的集合。
Step4,重復(fù)Step2、Step3,當(dāng)j值為4 時(shí),停止運(yùn)算。
在問題的求解中,本文主要用到了湖北各區(qū)域的總?cè)丝?、新確診肺炎人數(shù)、各區(qū)域醫(yī)院數(shù)量、各區(qū)域醫(yī)護(hù)人員數(shù)量、各區(qū)域醫(yī)療設(shè)備生產(chǎn)廠數(shù)量和區(qū)域的GDP 等數(shù)據(jù)來刻畫某區(qū)域的物資緊缺程度。在求解中,首先通過計(jì)算DB的值選取了最佳聚類數(shù)——4 類,從而通過K-Means 聚類法將把湖北各地區(qū)的物資緊缺程度劃分為四個(gè)等級(jí),劃分的結(jié)果如表1 所示。
表1 湖北各地區(qū)物資緊缺程度
我們應(yīng)給物資緊缺程度高的地區(qū)分配更多的醫(yī)療物資,根據(jù)以上的聚類結(jié)果,結(jié)合實(shí)際情況制定了物資分配方案,如表2 所示。
表2 物資分配方案
通過對(duì)湖北各地區(qū)指標(biāo)的主成分分析以及K-Means 聚類,將湖北各地區(qū)的物資緊缺程度分成了四個(gè)等級(jí),并制定了可行合理的物資分配方案,這對(duì)湖北地區(qū)的物資分配問題有較大的參考價(jià)值。同時(shí),本文將Davies-Bouldin 指數(shù)與K-Means 聚類法結(jié)合的模型還可以推廣到更多的領(lǐng)域,對(duì)我們處理大數(shù)據(jù)和指標(biāo)分類有重要的意義。