(1.東南大學(xué)經(jīng)濟(jì)管理學(xué)院 江蘇 南京 210000;2.東南大學(xué)經(jīng)濟(jì)管理學(xué)院 江蘇 南京 210000)
城市服務(wù)業(yè)的合理選址可以有效滿足城市社區(qū)居民的多樣化需求,提高客戶對(duì)公司的滿意度。但是,由于社區(qū)居民位置分布廣,需求層次不同等因素,難以對(duì)目標(biāo)服務(wù)群體進(jìn)行劃分,使得城市服務(wù)業(yè)合理選址難以實(shí)現(xiàn)。近年來(lái),學(xué)者們大多利用聚類(lèi)分析來(lái)解決目標(biāo)服務(wù)群體劃分問(wèn)題。Everitt等(2011)認(rèn)為聚類(lèi)分析包括一系列將多元數(shù)據(jù)分類(lèi)為子組的方法,可以幫助揭示任何結(jié)構(gòu)或模式的特征。A.Joy Christy等(2018)為了細(xì)分客戶,提出對(duì)公司事務(wù)數(shù)據(jù)進(jìn)行RFM分析,然后利用傳統(tǒng)的K均值和模糊C均值算法對(duì)事務(wù)數(shù)據(jù)進(jìn)行聚類(lèi)。而在當(dāng)前大數(shù)據(jù)環(huán)境下,為了解決傳統(tǒng)聚類(lèi)研究中耗時(shí)費(fèi)力的數(shù)據(jù)采集問(wèn)題,學(xué)者們開(kāi)始利用數(shù)據(jù)挖掘技術(shù)從多種渠道獲取數(shù)據(jù)。徐曉宇等(2019)利用爬蟲(chóng)技術(shù)獲取大眾點(diǎn)評(píng)平臺(tái)的北京地區(qū)數(shù)據(jù),引入聚類(lèi)算法對(duì)于餐飲業(yè)的地理聚集特征進(jìn)行了分析。
本文以南京地區(qū)為研究對(duì)象,從互聯(lián)網(wǎng)平臺(tái)獲取了居民社區(qū)位置、房?jī)r(jià)信息等大量數(shù)據(jù),通過(guò)改進(jìn)的K-means算法對(duì)南京地區(qū)社區(qū)進(jìn)行聚類(lèi),利用聚類(lèi)結(jié)果對(duì)南京地區(qū)社區(qū)空間分布進(jìn)行了分析。
本文以南京地區(qū)為研究對(duì)象,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取安居客上的社區(qū)數(shù)據(jù),包括社區(qū)名稱(chēng)、經(jīng)緯度、詳細(xì)地址、平均房?jī)r(jià)等屬性信息。數(shù)據(jù)獲取時(shí)間為2019年4月1-30日,原始數(shù)據(jù)共計(jì)2231個(gè)社區(qū)。首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,刪除了部分有問(wèn)題的數(shù)據(jù),確保數(shù)據(jù)的有效性。然后采用空間坐標(biāo)轉(zhuǎn)換技術(shù)將其經(jīng)緯度轉(zhuǎn)換為百度坐標(biāo),最終篩選出2165個(gè)小區(qū)用于本文研究。
當(dāng)前,在處理較大數(shù)據(jù)對(duì)象時(shí)大多使用經(jīng)典K-means聚類(lèi)算法。因?yàn)槠淇缮炜s性和有效性比較好,而且結(jié)構(gòu)簡(jiǎn)單易于實(shí)現(xiàn)。但是由于南京地區(qū)的社區(qū)數(shù)量多、空間分布復(fù)雜,而K-means算法容易受到簇?cái)?shù)及初始聚類(lèi)中心位置的影響。因此,為了使聚類(lèi)結(jié)果更加合理,本文采用Bisecting K-means算法對(duì)社區(qū)數(shù)據(jù)進(jìn)行處理。
Yu Zhuang等(2016)認(rèn)為Bisecting K-means是對(duì)K-means算法在聚類(lèi)質(zhì)量和效率上的改進(jìn)。其基本思想是:將所有點(diǎn)作為一個(gè)簇,將該簇一分為二,再選擇一個(gè)合適的簇劃分為兩個(gè)簇,不斷重復(fù),直到簇的數(shù)目等于目標(biāo)簇?cái)?shù)k。相對(duì)于原始K-means算法相比,這種方法可以確保得到全局最優(yōu)解。
本文使用輪廓系數(shù)來(lái)確定最佳k值,從圖1聚類(lèi)簇?cái)?shù)效果圖可以看出,聚類(lèi)簇?cái)?shù)在達(dá)到30個(gè)簇之后,輪廓系數(shù)的增量就很小,因此選擇簇?cái)?shù)K值為30比較合理。利用Bisecting K-means算法對(duì)南京地區(qū)社區(qū)進(jìn)行聚類(lèi),由圖2可以看出,聚類(lèi)中心主要集中在鼓樓區(qū)、建鄴區(qū)、玄武區(qū)、棲霞區(qū)、雨花臺(tái)區(qū)、秦淮區(qū)及浦口區(qū),呈圈層式分布,由主城區(qū)向外密集程度逐漸減弱。
圖1 聚類(lèi)簇?cái)?shù)效果圖
圖2 聚類(lèi)結(jié)果圖
總體來(lái)看,南京地區(qū)社區(qū)整體分布不均衡,大多數(shù)聚類(lèi)中心都處于南京的主城區(qū)附近,其他地區(qū)聚類(lèi)中心較少且分散,同時(shí)沿交通線擴(kuò)散。據(jù)官方統(tǒng)計(jì)資料,南京地區(qū)2018年鼓樓區(qū)常住人口密度為2.64萬(wàn)人/km2;秦淮區(qū)常住人口密度為1.04萬(wàn)人/km2;玄武區(qū)常住人口密度為0.63萬(wàn)人/km2;而溧水區(qū)常住人口密度最小為0.04萬(wàn)人/km2。將社區(qū)聚類(lèi)中心的空間分布與每個(gè)城區(qū)的居民人口密度分布進(jìn)行比較,發(fā)現(xiàn)兩者基本一致。主要差別在于浦口區(qū)的社區(qū)較密集而其人口密度較低,原因是其社區(qū)主要聚集在沿河地區(qū),在空間分布上符合圍繞主城區(qū)進(jìn)行布局的格局。
經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),安居客上社區(qū)平均房?jī)r(jià)集中在3000~100000元區(qū)間內(nèi)。社區(qū)的平均房?jī)r(jià)一定程度上能夠代表該社區(qū)的消費(fèi)等級(jí),本文將社區(qū)平均房?jī)r(jià)劃分為3個(gè)等級(jí),代表社區(qū)居民消費(fèi)的三個(gè)等級(jí):社區(qū)平均房?jī)r(jià)45000元以上的為高消費(fèi)等級(jí)社區(qū);15000~45000元的為中消費(fèi)等級(jí)社區(qū);0~15000元的為低消費(fèi)等級(jí)社區(qū)。社區(qū)平均房?jī)r(jià)熱力圖如下圖所示,顏色越深表示社區(qū)越聚集。高消費(fèi)等級(jí)社區(qū)共計(jì)263個(gè),如圖3-1所示。高消費(fèi)等級(jí)社區(qū)主要聚集在河西地區(qū)。中消費(fèi)等級(jí)社區(qū)共計(jì)1862家,由圖3-2可看出,中消費(fèi)等級(jí)社區(qū)數(shù)量明顯增多,而且呈現(xiàn)圍繞主城區(qū)的分布特征。低消費(fèi)等級(jí)社區(qū)共計(jì)209家,由圖3-3可看到,集聚地更多更分散,基本覆蓋南京地區(qū)所有行政區(qū),且表現(xiàn)出了沿交通線擴(kuò)展的集聚特征。
圖3-1 高消費(fèi)等級(jí)社區(qū)
圖3-2 中消費(fèi)等級(jí)社區(qū)
圖3-3 低消費(fèi)等級(jí)社區(qū)
總體來(lái)看,不同消費(fèi)等級(jí)社區(qū)的空間分布特征存在明顯差異。南京地區(qū)中低消費(fèi)等級(jí)社區(qū)數(shù)量占總數(shù)的絕大部分,而高消費(fèi)等級(jí)社區(qū)數(shù)量則較少,且多集中在河西地區(qū)附近。隨著等級(jí)降低,社區(qū)的集聚特性呈現(xiàn)出邊緣化分散的特點(diǎn),且更易受交通便捷性的影響。
根據(jù)南京地區(qū)社區(qū)聚類(lèi)中心和消費(fèi)等級(jí)的空間分布可以將社區(qū)分為以下四種情況:(1)不僅密集而且消費(fèi)等級(jí)高,以河西地區(qū)的社區(qū)為代表;(2)分布雖十分密集,但其消費(fèi)等級(jí)卻并不高,以浦口和江寧副城區(qū)等地社區(qū)為代表;(3)消費(fèi)等級(jí)高卻分布稀疏,以玄武區(qū)和秦淮區(qū)等地社區(qū)為代表;(4)消費(fèi)等級(jí)低而且較為分散,以六合和高淳等地社區(qū)為代表。通過(guò)對(duì)比社區(qū)位置和區(qū)位特征,發(fā)現(xiàn)產(chǎn)生這種差異性主要是因?yàn)槌鞘胁季趾途用駛€(gè)體屬性的影響。
河西地區(qū)是南京地區(qū)傳統(tǒng)的富人區(qū),而且位于南京市城區(qū)的中心地區(qū),靠近南京最繁華的商業(yè)區(qū),導(dǎo)致大量的高收入人群聚集。所以,以河西地區(qū)社區(qū)為代表的社區(qū)表現(xiàn)出了高密度、高消費(fèi)的特征。
江寧區(qū)、浦口區(qū)等地因?yàn)楣I(yè)區(qū)而匯聚了大量的外來(lái)就業(yè)人口,而大量的外來(lái)就業(yè)人口導(dǎo)致了社區(qū)的聚集,房?jī)r(jià)處于中等水平,符合實(shí)際消費(fèi)等級(jí)。所以,以浦口和江寧副城區(qū)等地社區(qū)為代表的社區(qū)表現(xiàn)出了高密度、低消費(fèi)的特征。
主城東部以玄武區(qū)和秦淮區(qū)等地社區(qū)為代表,表現(xiàn)出低密度、高消費(fèi)的屬性。其原因在于城東地區(qū)科研院所與高科技園區(qū)的布局。南京主城東部外圍的環(huán)鐘山風(fēng)景區(qū)一帶的大片區(qū)域存在大量的高校和科研院所,而居住在周邊的居民大多是高收入高學(xué)歷人群。
以六合和高淳等地社區(qū)為代表,特征是低密度、低消費(fèi)。因?yàn)槠浯蠖辔挥诔侵写宓貐^(qū)或者偏遠(yuǎn)郊區(qū),經(jīng)濟(jì)發(fā)展水平較低,居民收入不高。
本文通過(guò)數(shù)據(jù)挖掘技術(shù)獲取南京地區(qū)的社區(qū)信息,并通過(guò)Bisecting K-means聚類(lèi)算法對(duì)其進(jìn)行聚類(lèi)。從其空間分布密集程度和消費(fèi)等級(jí)方面對(duì)其蘊(yùn)含的地理特征進(jìn)行了分析。研究發(fā)現(xiàn):
(1)南京地區(qū)社區(qū)呈現(xiàn)不均衡分布情況,聚類(lèi)中心大多靠近主城區(qū),其他地區(qū)聚類(lèi)中心較少且分散,而且沿交通線擴(kuò)展。同時(shí),社區(qū)聚類(lèi)中心空間分布受區(qū)域人口密度和交通便捷性影響很大。
(2)南京地區(qū)社區(qū)消費(fèi)能力呈現(xiàn)出等級(jí)體系特征,其空間分布特點(diǎn)是:高消費(fèi)等級(jí)社區(qū)少,主要在河西地區(qū),城東地區(qū)分布較為稀疏,但都表現(xiàn)出小范圍內(nèi)規(guī)模聚集。中低消費(fèi)等級(jí)社區(qū)集聚區(qū)多且分散,并受交通便利性的影響。
(3)影響南京地區(qū)社區(qū)聚類(lèi)中心和消費(fèi)等級(jí)空間分布的因素主要是城市布局和居民個(gè)體屬性?xún)蓚€(gè)方面。其中,城市布局是主要因素,而居民本身的屬性則是次要因素。