基于改進的K-means聚類算法的汽車市場競爭情報分析

2019-02-20 02:02:42,,,,

山東科技大學(xué)學(xué)報(自然科學(xué)版) 2019年1期

,,,,

(1.山東科技大學(xué) 計算機科學(xué)與工程學(xué)院，山東青島 266590；2.山東科技大學(xué) 信息工程系，山東泰安 271019)

在激烈的市場競爭中，企業(yè)只有找準(zhǔn)自己的定位及競爭優(yōu)勢，才能實時地制定產(chǎn)品戰(zhàn)略，以期更好地發(fā)展。社會網(wǎng)絡(luò)分析(social network analysis，SNA)對社會個體進行網(wǎng)絡(luò)化的分析，建立聯(lián)系、比較差異，是目前將數(shù)據(jù)挖掘技術(shù)與社會生活密切聯(lián)系起來的最優(yōu)方法之一，同時也給競爭情報工作帶來了新的方向[1-2]。近年來，社會網(wǎng)絡(luò)在競爭情報獲取和分析上的應(yīng)用逐步推廣，張玥等[3]以圖書館、情報學(xué)專業(yè)領(lǐng)域博客交流網(wǎng)絡(luò)為例，進行中心度、凝聚子群以及小世界效應(yīng)分析，對促進科研人員之間的信息溝通與交流具有指導(dǎo)性。裴雷等[4]探討了社會網(wǎng)絡(luò)在情報學(xué)領(lǐng)域的研究現(xiàn)狀、典型應(yīng)用以及計量分析理論，完善了社會網(wǎng)絡(luò)分析與競爭情報的理論性結(jié)合基礎(chǔ)。徐振宇[5]分析了社會網(wǎng)絡(luò)在經(jīng)濟學(xué)領(lǐng)域諸如在網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)效應(yīng)、網(wǎng)絡(luò)形成等方面的應(yīng)用，客觀評價了社會網(wǎng)絡(luò)分析與經(jīng)濟學(xué)結(jié)合的優(yōu)勢與困境。唐曉波等[6]則將社會網(wǎng)絡(luò)分析應(yīng)用于企業(yè)競爭市場，以手機市場為例構(gòu)建競爭網(wǎng)絡(luò)，從宏觀和微觀角度得出企業(yè)競爭狀況，具有較強實踐意義。

選擇目前在中國轎車市場中最為廣泛使用的A級車為例，首先運用層次分析法(AHP)和熵權(quán)法(EWM)對車輛指標(biāo)數(shù)據(jù)進行量化處理，提出競爭威脅概念并設(shè)計該數(shù)據(jù)指標(biāo)，改進K-means聚類算法，應(yīng)用該算法對其進行聚類分析，最后通過競爭矩陣和競爭網(wǎng)絡(luò)的建立對企業(yè)品牌以及車輛本身做中間中心度和凝聚子群分析，從而使得汽車企業(yè)了解其品牌在A級車市場中的競爭地位，同時為用戶選購車輛提供依據(jù)。

表1 判斷標(biāo)度及其定義表Tab.1 The scale of judgment and its definition table

1 數(shù)據(jù)的標(biāo)準(zhǔn)化處理

1.1 數(shù)據(jù)采集與基于AHP的文本數(shù)據(jù)處理

樣本數(shù)據(jù)是通過Python從汽車之家、搜狐汽車和網(wǎng)上車市等網(wǎng)站爬取得到。選取了目前中國A級轎車市場的幾乎所有最新款車輛，由于同款汽車存在配置差異導(dǎo)致價格區(qū)間過大，同一車型高低版本太多，所以統(tǒng)一選取各樣本對象同款車型中的最高配作為衡量標(biāo)準(zhǔn)，以便進行比較分析。統(tǒng)計樣本數(shù)據(jù)包括88輛目前主流A級轎車，選取了最能代表汽車性能的16個指標(biāo)：價格、最大馬力、最大扭矩、變速箱、百公里油耗、軸距等?？紤]到在中國A級轎車市場中，國產(chǎn)制造與合資車輛存在明顯的品牌效應(yīng)差異，對用戶選擇存在差異性影響，所以將汽車品牌也作為一項重要指標(biāo)，并賦予不同權(quán)重值[7]。

汽車屬性指標(biāo)中存在比如品牌、變速箱、座椅材質(zhì)等文本型指標(biāo)，因此采用AHP方法來確定權(quán)重系數(shù)。將屬性中每一個指標(biāo)值作為一個評估因素，建立評估因素集U={u1,u2,…,un}，ui的取值選擇1-9標(biāo)度方法[8]，如表1所示。根據(jù)AHP方法定義表，文本屬性數(shù)據(jù)化后處理結(jié)果如表2所示。

表2 文本屬性數(shù)據(jù)化后處理結(jié)果(部分數(shù)據(jù))表Tab.2 Text attribute data post-processing result (partial data) table

1.2 基于熵權(quán)法EWM的數(shù)據(jù)歸一化處理

熵最先由香農(nóng)引入信息論，已經(jīng)在工程技術(shù)、社會經(jīng)濟等領(lǐng)域得到了廣泛應(yīng)用。熵權(quán)法的基本思路是根據(jù)指標(biāo)變異性的大小來確定客觀權(quán)重。在表示汽車性能屬性的指標(biāo)中，各個指標(biāo)對一輛車的影響程度是不同的，用戶選擇車輛時的指標(biāo)側(cè)重點同樣存在差異。因此采用主觀性較小的熵權(quán)法對車輛數(shù)據(jù)進行歸一化處理并求出權(quán)重，最后對數(shù)據(jù)賦權(quán)求出標(biāo)準(zhǔn)化數(shù)據(jù)。

1) 數(shù)據(jù)歸一化處理

表3 指標(biāo)數(shù)據(jù)歸一化后結(jié)果(部分數(shù)據(jù))表Tab.3 Normalized index data (partial data) table

2) 確定指標(biāo)信息熵及權(quán)重

表4 信息熵和權(quán)重結(jié)果表Tab.4 Information entropy and weight result table

因此，在對指標(biāo)歸一化后數(shù)據(jù)賦權(quán)重使之標(biāo)準(zhǔn)化的過程中，可以根據(jù)歸一化后車輛指標(biāo)數(shù)據(jù)首先得到一個88×16的原始矩陣(1)。

(1)

其中：n為車輛個數(shù)，值為88；m為性能指標(biāo)，值為16。將權(quán)重代入，可得到矩陣表達式(2)，詳細數(shù)據(jù)如表5所示。

(2)

表5 指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后結(jié)果(部分數(shù)據(jù))表Tab.5 Normalized results of indicator data (partial data) table

2 改進K-means算法的聚類分析

K-means算法是典型的空間聚類方法，基于歐式距離作相似度測試，即認為兩個對象的距離越近，其相似度就越大。該算法認為簇是由距離靠近的對象組成的，把得到緊湊且獨立的簇作為最終目標(biāo)[9]。本文樣本數(shù)據(jù)屬于多維的空間數(shù)據(jù)，因此應(yīng)用空間聚類的代表K-means算法可以得到更精確高效的數(shù)值。在典型的K-means算法中聚類數(shù)K必須是事先給定的確定值，但在實際中K很難被確定，因此會產(chǎn)生隨機誤差?？紤]到如果能精確地選取K值和初始聚類中心，K-means算法就能更確切地劃分類簇[10-13]，所以對典型的K-means算法進行了改進。

2.1 改進的K-means算法

1) 類間距離

令K={X,R}為空間聚類的聚類空間，其中，X={x11,x12,…,xij,xnm}，i表示樣本，j表示樣本對象維數(shù)(1≤i≤n,1≤j≤m)。假設(shè)n個空間對象被聚類為K個簇，定義類間距離為所有聚類中心(簇內(nèi)樣本每一維的均值)到全域中心(全體樣本每一維的均值)的距離之和：

(3)

2) 類內(nèi)距離

類內(nèi)距離為所有聚類簇內(nèi)部距離的總和,即每個簇的內(nèi)部距離為簇內(nèi)樣本的每一維到簇內(nèi)樣本每一維的均值之和：

(4)

3) 距離代價函數(shù)

距離代價函數(shù)S(U,K)為類間距離與類內(nèi)距離之和，即

(5)

式中變量的含義與式(3)、(4)中相同。

此K-means聚類改進算法以距離代價最小為基準(zhǔn)，即當(dāng)距離代價函數(shù)的值達到最小時，空間聚類結(jié)果為最優(yōu)，K的取值由下式給出：

(6)

表6 聚類類簇確定表Tab.6 Clustering class cluster determination table

2.2 聚類分析

根據(jù)改進的K-means算法，可得聚類K=3。將初始聚類簇值與標(biāo)準(zhǔn)化樣本數(shù)據(jù)導(dǎo)入SPSS建立聚類模型，具體步驟如下：

1) 對樣本元素集合(其中每個元素具有n個可觀察屬性)建立輸入數(shù)據(jù)矩陣；

2) 對數(shù)據(jù)進行歸一化處理，得到指標(biāo)矩陣；

3) 將指標(biāo)數(shù)據(jù)矩陣導(dǎo)入模型中，建立K-means模型，根據(jù)已確定的K值對數(shù)據(jù)進行聚類，得到最終聚類結(jié)果。

對于88個A級轎車，依據(jù)上面確定的聚類數(shù)以及在完整數(shù)據(jù)建模流程運算下得到的聚類結(jié)果如表7所示。

2.3 實驗對比和分析

將本文樣本數(shù)據(jù)分別代入楊善林等[14]構(gòu)造的距離代價函數(shù)與本文改進的新距離代價函數(shù)中，通過對比兩種算法聚類后樣本點到其所在類簇聚類中心的歐氏距離，比較兩種算法的優(yōu)劣。將樣本數(shù)據(jù)應(yīng)用到改進后距離代價函數(shù)并進行聚類分析得到結(jié)果(表7)，K值為3。將數(shù)據(jù)代入改進前的距離代價函數(shù)得到K值為4，其聚類結(jié)果如表8所示。

表7 最終聚類結(jié)果表Tab.7 Final cluster result table

表8 改進前算法的聚類結(jié)果表Tab.8 Clustering result table of the previous algorithm

對于樣本數(shù)據(jù)集S={X1,X2,…,Xi…,Xn}，任意兩個樣本數(shù)據(jù)Xi和Xj間的歐式距離為：

圖1 算法模型改進前后樣本歐式距離分布圖Fig.1 Improved Euclidean distance distribution of sample before and after algorithm model

由圖1中的折線分布狀況，可知改進后算法聚類得到的各產(chǎn)品對象到其類簇聚類中心的歐式距離基本都小于產(chǎn)品對象使用改進前算法得到的歐式距離。因此根據(jù)K-means算法的定義屬性，類簇內(nèi)對象到其聚類中心的距離越小則相似度越高，類簇內(nèi)對象關(guān)系越緊密，聚類效果越好。因此改進后算法更適用于本文的樣本對象，得到更為準(zhǔn)確的聚類效果。

3 SNA數(shù)值實驗結(jié)果與分析

3.1 社會網(wǎng)絡(luò)分析

將數(shù)據(jù)挖掘與社會網(wǎng)絡(luò)分析相結(jié)合，可以在海量數(shù)據(jù)中尋找到有價值的信息并加以整合處理。通過數(shù)據(jù)挖掘?qū)?shù)據(jù)規(guī)整聚類，使得類簇之間不相關(guān)性達到最大。根據(jù)簇內(nèi)樣本分布及類族個數(shù)K，對每一類族和整體分別完成品牌競爭威脅的量化并構(gòu)建競爭矩陣，對企業(yè)競爭力完成量化并構(gòu)建競爭矩陣，然后通過社會網(wǎng)絡(luò)分析軟件進行中間中心度和凝聚子群等分析，形成數(shù)據(jù)挖掘在社會網(wǎng)絡(luò)分析中的社會和商業(yè)應(yīng)用價值。

1) 單類簇內(nèi)品牌競爭威脅

2) 整體品牌競爭威脅

由表7中聚類結(jié)果，將同一類簇中相同品牌的產(chǎn)品規(guī)整為一體，根據(jù)上述競爭威脅數(shù)據(jù)指標(biāo)定義，建立品牌間的競爭矩陣，如表9所示。

表9 品牌間競爭矩陣數(shù)據(jù)(部分)表Tab.9 Brand competition matrix data (partial data) table

將競爭矩陣與指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后，導(dǎo)入社會網(wǎng)絡(luò)分析軟件UCINET(主要用于網(wǎng)絡(luò)分析集成)生成企業(yè)競爭圖，進行社會網(wǎng)絡(luò)分析。首先分析產(chǎn)品性能數(shù)據(jù)，用UCINET可得到各個產(chǎn)品對于16個屬性指標(biāo)的側(cè)重程度，如圖2所示。

圖2 企業(yè)產(chǎn)品對于屬性指標(biāo)的偏重程度圖Fig.2 The degree of weight of enterprise product to attribute index

根據(jù)圖2的鏈接路線及相關(guān)系數(shù)分析可得：

1) 以產(chǎn)品8、9、11…為代表的日系車在價格方面稍貴，馬力、變速箱偏重較高，但是其扭矩和升功率都不高，因此動力性能一般，但其油耗低，內(nèi)飾及安全性高于平均水平；

2) 以產(chǎn)品1、2、22…為代表的德系車價格相對要高，其性能側(cè)重在變速箱、扭矩與升功率，因此動力較強，加速體驗與駕駛樂趣較好，但其油耗稍微偏高；

3) 14、39、40…為代表的美系車，動力性能側(cè)重較強，但油耗和價格都高于平均水平，內(nèi)飾與安全性系數(shù)較為一般；

4) 以4、5、7…為代表的國產(chǎn)車在動力性能、內(nèi)飾及安全方面的系數(shù)都要低于平均值，但價格相對較低，且加速性能不錯，由圖2可以看出國產(chǎn)品牌現(xiàn)已占據(jù)我國A級車市場的半壁江山；

5) 以3、45、48…為代表的韓系車動力方面?zhèn)戎夭蛔悖瑑?nèi)飾及安全系數(shù)略顯一般，且毫無價格優(yōu)勢。

據(jù)此，用戶可根據(jù)自己的偏重喜好選擇適合自己的產(chǎn)品。

根據(jù)定義的企業(yè)競爭關(guān)系，導(dǎo)入品牌競爭矩陣生成品牌競爭關(guān)系1模網(wǎng)絡(luò)圖(顯示品牌之間競爭力強弱)，如圖3所示。

根據(jù)結(jié)點中心度、緊密中心度，從圖中分析可得：東風(fēng)日產(chǎn)、上汽大眾、上汽集團和吉利汽車等處于該圖中心位置，與其他品牌聯(lián)系緊密，因此這幾個品牌目前在中國A級車市場中競爭力較強，對其他品牌造成有力威脅及沖擊。邊緣位置的力帆、北京汽車和廣汽菲亞特等競爭力較差，對其他品牌威脅較小。綜合之前聚類結(jié)果發(fā)現(xiàn)，同一品牌在三個類簇中分布的廣泛程度與其品牌競爭力成正相關(guān)，表明品牌效應(yīng)與企業(yè)底蘊在汽車市場同樣影響巨大，因此汽車行業(yè)往往容易出現(xiàn)大魚吃小魚的企業(yè)兼并行為。

3.2 中間中心度分析

圖3 品牌競爭關(guān)系1模網(wǎng)絡(luò)圖Fig.3 Brand competition relationship 1 model network diagram

品牌標(biāo)號品牌1 Betweenness2 nBetweenness13上汽大眾27.8552.80812上汽集團27.8552.80811吉利20.6322.0802比亞迪20.6322.0801北京現(xiàn)代20.6322.0806東風(fēng)悅達起亞20.6322.0804東風(fēng)日產(chǎn)20.6322.08010海馬20.6322.08014神龍汽車20.6322.08025上汽通用10.2991.03820東風(fēng)雪鐵龍10.2991.038

由表10可知，上汽大眾和上汽集團具有較高中間中心度，表明這兩個品牌處于行業(yè)領(lǐng)先位置，是大多數(shù)品牌的競爭目標(biāo)，同時也證實了在聚類類別中這兩個品牌產(chǎn)品的高性能。緊隨其后的是國產(chǎn)車代表吉利和比亞迪，表明中國國產(chǎn)車雖然產(chǎn)品性能還需加強，但因其低廉的價格優(yōu)勢在中國小型轎車市場中所占份額及市場競爭力越來越大。其他中心度為零的品牌說明在市場競爭中處于十分劣勢地位，品牌所屬企業(yè)需要制定措施積極整改，增強技術(shù)投入與產(chǎn)品營銷水平，以免被市場淘汰。

3.3 凝聚子群分析

凝聚子群分析是社會網(wǎng)絡(luò)分析學(xué)科對社會結(jié)構(gòu)的網(wǎng)絡(luò)研究，是對社會行動者之間實際存在的或者潛在關(guān)系的研究，簡單來說“凝聚子群是滿足如下條件的一個行動者子集合，即在此集合中的行動者之間具有相對較強的、直接的、緊密的、經(jīng)常的或積極的關(guān)系?！迸上凳墙⒃诨セ菪曰A(chǔ)上的凝聚子群，是指一個圖中至少包含三個節(jié)點的最大完備子圖，顯示小團體之間的競爭關(guān)系，如圖4所示。

圖4 派系分析圖Fig.4 Factional analysis chart

通過派系分析圖可知，東風(fēng)裕隆、觀致和廣汽本田等處于第一個小團體，東風(fēng)、華晨金杯和奇瑞等處于第二個小團體。以此類推，表明處于同一小團體中的品牌具有更為緊密的聯(lián)系和直接競爭力，之間具有較強的競爭關(guān)系。上汽與上汽大眾聯(lián)系緊密，表明其同處于上海汽車集團旗下，只不過一個是合資品牌一個是國產(chǎn)品牌，在密切聯(lián)系下二者也具有直接競爭關(guān)系。孤點的菲亞特則說明其競爭力不強，在中國市場處于淘汰邊緣。

4 結(jié)論

應(yīng)用AHP(層次分析法)和EWM(熵權(quán)法)，對中國A級轎車市場數(shù)據(jù)進行了分析量化處理，設(shè)計了競爭威脅數(shù)據(jù)指標(biāo)，基于改進的K-means聚類算法對該市場進行了社會網(wǎng)絡(luò)分析；通過品牌間競爭矩陣構(gòu)建了中間中心度及凝聚子群，分析了產(chǎn)品性能指標(biāo)偏重程度和品牌所在市場的競爭地位，對用戶選擇合適的產(chǎn)品以及為品牌所屬企業(yè)提供精準(zhǔn)的市場競爭優(yōu)勢具有重要意義。數(shù)值實驗表明：改進的K-means聚類算法對于文中樣本對象，得到了更為精確的聚類效果。對中國A級轎車市場的社會網(wǎng)絡(luò)分析準(zhǔn)確有效。