摘" 要:二手房市場的發(fā)展變化對城市更新、城市規(guī)劃決策非常重要。利用網(wǎng)絡(luò)爬取軟件獲取貴陽市核心區(qū)2023年第一季度的二手房掛牌數(shù)據(jù),通過數(shù)據(jù)整理和空間可視化,使用核密度分析方法、熱點(diǎn)分析法、K均值聚類法,研究分析貴陽市核心區(qū)二手房市場交易的熱點(diǎn)區(qū)域、空間分布情況,研究發(fā)現(xiàn):貴陽老城區(qū)花果園二手房分布最為密集,并沿東北方向延伸,形成二手房售賣熱點(diǎn)聚集區(qū);貴陽觀山湖區(qū)、大十字、噴水池、甲秀樓一帶二手房房價(jià)明顯高于其他區(qū)域;觀山湖區(qū)的二手房均價(jià)要比老城區(qū)的二手房均價(jià)高1 000多元。
關(guān)鍵詞:二手房;核密度分析;熱點(diǎn)分析;K均值聚類
中圖分類號:TP311.1" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號:2096-4706(2024)12-0134-05
Research on the Spatial Distribution of Second-hand House Based on
Kernel Density Estimation and Hot Spot Analysis
—Taking Guiyang City as an Example
YE Chun, MA Fujun
(School of Geography and Resources, Guizhou Education University, Guiyang" 550018, China)
Abstract: The development and changes of the second-hand housing market are very important for urban renewal and urban planning decision-making. It uses web crawling software to obtain second-hand housing listing data for the first quarter of 2023 in the core area of Guiyang City. Through data organization and spatial visualization, kernel density analysis, hotspot analysis, and K-means clustering methods are used to study and analyze the hot areas and spatial distribution of transactions in the second-hand housing market in the core area of Guiyang City. It is found that the distribution of second-hand housing in the flower and fruit gardens in the old urban area of Guiyang is the most dense, extending along the northeast direction, forming a cluster of second-hand housing sales hotspots. The second-hand housing prices in the areas of Guanshanhu District, Dashixi, fountain, and Jiaxiulou in Guiyang are significantly higher than those in other areas. The average price of second-hand houses in Guanshanhu District is more than 1 000 yuan higher than that in the old urban area.
Keywords: second-hand house; kernel density analysis; hot spot analysis; K-means clustering
0" 引" 言
城市是一個(gè)復(fù)雜的巨系統(tǒng),二手房的供需信息可以一定程度上反映城市居住功能的情況。貴陽市作為山地城市,土地資源稀缺,近年來住宅市場上經(jīng)歷了逐漸由“增量擴(kuò)張為主”過渡到“存量更新為主”的城市發(fā)展階段,城市更新正逐漸成為滿足居民提高、改善居住功能的重要途徑。房地產(chǎn)業(yè)經(jīng)過多年快速的發(fā)展,住宅供給市場上二手房數(shù)量占城市住宅供給總量的比重逐漸增高[1-3]。研究二手房的價(jià)格及其空間分布特征,對城市的可持續(xù)發(fā)展和功能優(yōu)化具有重要的意義。
互聯(lián)網(wǎng)上各大房地產(chǎn)平臺(tái)有大量二手房掛牌交易,本文通過網(wǎng)絡(luò)爬蟲軟件爬取了貝殼網(wǎng)上的貴陽市核心區(qū)2023年第一季度的二手房掛牌數(shù)據(jù)。以此作為數(shù)據(jù)基礎(chǔ),經(jīng)過數(shù)據(jù)整理和空間可視化,使用核密度分析方法,熱點(diǎn)分析法,K均值聚類法,研究分析貴陽市核心區(qū)(包括云巖區(qū)、南明區(qū)和觀山湖區(qū))二手房市場交易的熱點(diǎn)區(qū)域、空間分布情況,從而對貴陽市城市更新、規(guī)劃提供參考依據(jù)。
1" 數(shù)據(jù)獲取與研究方法
1.1" 數(shù)據(jù)獲取
二手房數(shù)據(jù)較為豐富的平臺(tái)有安居客,貝殼找房等,經(jīng)比較發(fā)現(xiàn)貝殼找房的數(shù)據(jù)較全并有掛牌時(shí)間,本文利用網(wǎng)絡(luò)爬取軟件采集了貝殼網(wǎng)上貴陽市核心區(qū)(指云巖區(qū)、南明區(qū)、觀山湖區(qū))2023年第一季度的二手房信息作為研究對象,原始采集數(shù)據(jù)中包含了網(wǎng)址鏈接、地址、標(biāo)題、小區(qū)名稱、均價(jià)、總價(jià)、戶型面積等信息。經(jīng)過Excel軟件和ArcGIS可視化檢查分析發(fā)現(xiàn),獲取到的數(shù)據(jù)存在一些重復(fù)、超出研究范圍等情況,對數(shù)據(jù)進(jìn)行清洗和整理,將明顯不符合要求的數(shù)據(jù)進(jìn)行補(bǔ)充、刪除等處理,使數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)。獲取到2023年第一季度的云巖區(qū)二手房信息2 082條,南明區(qū)的二手房信息2 981條,觀山湖區(qū)的二手房信息1 725條,并按照順序進(jìn)行編號。
根據(jù)清洗后的二手房地址文本信息,利用MapLocation-地名查詢經(jīng)緯度,對地址進(jìn)行批量轉(zhuǎn)換成經(jīng)緯度(sjfkai.com),將二手房數(shù)據(jù)在ArcGIS軟件上空間化、可視化。
1.2" 研究方法
1.2.1" 核密度分析
核密度分析是地理信息系統(tǒng)(ArcGIS)中的一種空間分析方法,該工具可以用于計(jì)算研究對象在指定地理空間上中分布的密度,該研究對象可以是點(diǎn)要素,也可以是線要素。核密度分析工具的工作原理是,假設(shè)每一個(gè)點(diǎn)要素上面都有一個(gè)平滑的曲面,在這個(gè)點(diǎn)所在的位置其值是最高的,然后以此點(diǎn)作為圓心,設(shè)定一個(gè)搜索半徑,隨著與圓心距離的增加,表面值越來越小,在等于設(shè)定的搜索半徑的位置,表面值為零。該平滑曲面與其下面的平面共同圍成了一個(gè)空間,該空間的體積就等于該點(diǎn)的Population字段值,如果此字段值為NONE其體積就等于1 [4]。如果Population設(shè)置其他的值,則設(shè)定的值就是該點(diǎn)被計(jì)數(shù)的次數(shù),也就相當(dāng)于被加權(quán)了。如果相同位置存在不同點(diǎn)要素的平滑曲面重疊在一起了,就將其表面值疊加累計(jì)。該方法基于空間中的點(diǎn)分布情況,通過計(jì)算每個(gè)點(diǎn)周圍的鄰域內(nèi)點(diǎn)的數(shù)量關(guān)系來確定密度值。具體而言,ArcGIS核密度法使用了一種稱為“核函數(shù)”的數(shù)學(xué)方法,核函數(shù)是一個(gè)衡量點(diǎn)對于某一點(diǎn)密度貢獻(xiàn)的函數(shù)。
核密度分析法能幫助我們了解區(qū)域內(nèi)點(diǎn)分布的集中程度,發(fā)現(xiàn)空間分布的模式和規(guī)律。它應(yīng)用于聚集類要素的分析研究,通過分析點(diǎn)要素之間的關(guān)系和密度來估計(jì)數(shù)據(jù)聚集情況,以此來探索空間區(qū)域中的熱點(diǎn)分布情況和變化特征[5]。其計(jì)算式為:
(1)
其中,x - xi表示兩個(gè)點(diǎn)之間的距離,n表示點(diǎn)的總數(shù);h表示帶寬參數(shù)。
1.2.2" 熱點(diǎn)分析
ArcGIS軟件自帶的空間統(tǒng)計(jì)方法主要有空間自相關(guān)法,高低聚類法,聚類和異常值分析法,熱點(diǎn)分析法等。熱點(diǎn)分析是構(gòu)建在統(tǒng)計(jì)推斷中的零假設(shè)檢驗(yàn)的思想之上的,由于我們的眼睛和大腦無時(shí)無刻不在分析數(shù)據(jù)背后的模式,即使是統(tǒng)計(jì)學(xué)上隨機(jī)分布的事件,在某些時(shí)候我們的直觀感受,也會(huì)覺得這些事件在空間上表現(xiàn)出一定程度的集聚[6-8]。通過ArcGIS軟件的熱點(diǎn)分析工具,我們可以方便地識(shí)別出具有統(tǒng)計(jì)學(xué)意義上的集聚區(qū)域,這可以一定程度上說明這些事件可能受到某些特殊因素的影響,存在空間上的某種相關(guān)性。
該工具的工作原理是,通過掃描查看周圍要素環(huán)境中的每一個(gè)要素,高值要素具有高值,且周圍也有和他一樣的高值要素環(huán)繞,其發(fā)生的頻率達(dá)到了統(tǒng)計(jì)學(xué)意義上的集聚,并且這種局部的現(xiàn)象與所有要素的總和進(jìn)行比較分析,會(huì)計(jì)算其z得分、p值和置信區(qū)間。識(shí)別出具有統(tǒng)計(jì)意義的高值區(qū)和低值區(qū)(又稱為冷熱點(diǎn))的空間聚類[9]。
1.2.3" K均值聚類算法
K均值聚類算法(K-means Clustering Algorithm)是一種聚類分析算法,基本原理是,先將數(shù)據(jù)分為K個(gè)小組,然后隨機(jī)選取K個(gè)點(diǎn)作為聚類中心,然后計(jì)算數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)與各個(gè)中心點(diǎn)的距離,距離某中心點(diǎn)最近的數(shù)據(jù)相互關(guān)聯(lián)起來聚成一類,把每個(gè)數(shù)據(jù)都分配給距離它最近的聚類中心[10]。聚類中心以及分配給它們的數(shù)據(jù)一起成為一個(gè)小組,每增加一個(gè)數(shù)據(jù),該小組的平均值和中心都會(huì)被重新計(jì)算。這個(gè)過程不斷重復(fù)、不斷迭代,直到?jīng)]有新的數(shù)據(jù)可以被重新分配給不同的小組,或者沒有聚類中心再發(fā)生改變,局部的誤差平方和最小。其原理簡單,可解釋性強(qiáng),通過SPSS軟件實(shí)現(xiàn)起來很方便,迭代收斂速度快,在數(shù)據(jù)挖掘、聚類分析上應(yīng)用很廣。
2" 結(jié)果分析
2.1" 二手房的空間核密度分析
將從貝殼找房網(wǎng)上爬取的二手房原始數(shù)據(jù)(如圖1所示)中重復(fù)的、與研究范圍不符合的數(shù)據(jù)進(jìn)行補(bǔ)充、完善和刪除整理并按順序進(jìn)行編號、定位(如圖2所示)。然后導(dǎo)入ArcGIS軟件,利用ArcMap的核密度分析工具對導(dǎo)入的貴陽市核心區(qū)(觀山湖區(qū)、云巖區(qū)、南明區(qū))的二手房空間數(shù)據(jù)進(jìn)行分析。考慮到數(shù)據(jù)的特征,以及貴陽市3個(gè)核心區(qū)的空間形狀和實(shí)際面積,選用高斯核函數(shù)(Gaussian kernel)進(jìn)行分析。
搜索半徑的選擇是根據(jù)數(shù)據(jù)集的特點(diǎn)和感興趣的區(qū)域來確定的,也會(huì)影響到核密度估計(jì)的精細(xì)程度。通過試驗(yàn)觀察,系統(tǒng)默認(rèn)的搜索半徑(輸出空間參考中輸出范圍的寬度或高度的最小值除以30)能較好地滿足分析要求,故采用系統(tǒng)默認(rèn)值,搜索半徑為5.655 719 815 636 57×10-3。經(jīng)ArcMap軟件處理后結(jié)果如圖3所示。
從圖3的核密度分析圖可以看出,老城區(qū)云巖區(qū)和南明區(qū)2023年第一季度的掛牌售賣二手房較多,形成集中分布中心,其中以南明區(qū)花果園分布最為密集,沿東北方向延伸,形成二手房售賣熱點(diǎn)聚集區(qū),可一定程度上反映老城區(qū)置換需求和部分多套房業(yè)主套現(xiàn)離場的現(xiàn)象較為明顯,這與和房產(chǎn)中介訪談獲取的信息相符合。觀山湖區(qū)呈現(xiàn)出較均衡的分布,其中以世紀(jì)城和會(huì)展城一帶較為密集,這與觀山湖區(qū)是新城區(qū),房齡普遍都不長,集中售賣的現(xiàn)象還不多有關(guān)。
2.2" 二手房的熱點(diǎn)分析
熱點(diǎn)分析也是ArcMap自帶的分析工具,該工具可對輸入的空間數(shù)據(jù)集進(jìn)行評估,對其高值與低值在空間上是否發(fā)生聚類進(jìn)行統(tǒng)計(jì)學(xué)分析。文章把貴陽市核心三區(qū)(觀山湖區(qū)、云巖區(qū)、南明區(qū))的二手房價(jià)格作為“分析字段”,使用創(chuàng)建漁網(wǎng)工具在點(diǎn)要素上方構(gòu)建面格網(wǎng),然后使用空間連接工具對落在每個(gè)格網(wǎng)面內(nèi)的事件進(jìn)行統(tǒng)計(jì)分析。在ArcMap軟件中打開熱點(diǎn)分析工具,步驟為ArcToolbox-空間統(tǒng)計(jì)工具-聚類分布制圖-熱點(diǎn)分析,導(dǎo)入圖2所示的貴陽市二手房空間數(shù)據(jù)集,加權(quán)字段為二手房價(jià)格,系統(tǒng)自動(dòng)輸出結(jié)果(如圖4所示)。
如圖4所示,在不同的置信區(qū)間中顯示出不同的冷熱點(diǎn)。深紅色點(diǎn)的表示在99%置信區(qū)間上屬于價(jià)格加權(quán)的熱點(diǎn)區(qū)域,表示是價(jià)格較高集中區(qū)域,次紅色的點(diǎn)表示在95%置信區(qū)間上屬于價(jià)格加權(quán)的熱點(diǎn)區(qū)域,也表示是價(jià)格較高集中的區(qū)域,深藍(lán)色點(diǎn)表示在99%置信區(qū)間上屬于價(jià)格加權(quán)的冷點(diǎn)區(qū)域,表示是價(jià)格較低的集中區(qū)域,次藍(lán)色點(diǎn)表示在95%置信區(qū)間上屬于價(jià)格加權(quán)的冷點(diǎn)區(qū)域,表示是價(jià)格較低的集中區(qū)域。
從圖4房屋均價(jià)加權(quán)的熱力分析圖可以看出,老城區(qū)東部的噴水池、大十字、甲秀樓一帶的房價(jià)在99%置信區(qū)間偏高一些,西南部的花果園、太慈橋一帶和東北部的未來方舟、大營坡一帶的房價(jià)在99%置信區(qū)間偏低一些,這和實(shí)際調(diào)查的情況是相符合的,觀山湖區(qū)雖然密度不高,也是屬于99%置信區(qū)間的熱點(diǎn)地區(qū),其房價(jià)在整個(gè)區(qū)域是偏高的,這和實(shí)際情況也是相符合的。說明熱力分析工具的應(yīng)用可以較好地反映客觀情況,在數(shù)據(jù)處理和可視化方面具有優(yōu)勢。
2.3" K均值聚類分析
為了更進(jìn)一步的分析貴陽市核心三區(qū)(觀山湖區(qū)、云巖區(qū)、南明區(qū))二手房價(jià)格的分布情況,文章利用統(tǒng)計(jì)軟件SPSS的聚類分析中的K-means聚類法,將貴陽市核心三區(qū)(觀山湖區(qū)、云巖區(qū)、南明區(qū))二手房價(jià)格數(shù)據(jù)進(jìn)行聚類分析。將清洗整理過的核心三區(qū)二手房數(shù)據(jù)導(dǎo)入SPSS軟件,選擇分組時(shí),分別嘗試了分3~8組,最后通過人機(jī)交互分析,選擇5組進(jìn)行具體分析。軟件分析過程為,隨機(jī)選取5個(gè)對象作為初始的聚類中心,然后通過SPSS軟件進(jìn)行迭代分析,計(jì)算每個(gè)對象與各個(gè)種子聚類中心之間的距離,把每個(gè)對象分配給距離它最近的聚類中心。最后聚類結(jié)果如表1所示。
從表1的K均值聚類分析表可知,南明區(qū)的第二類和第四類的房源最多,分別為1 583套和1 020套,第二類的中心價(jià)是6 826.68元,第四類的中心價(jià)是8 646.91元,均價(jià)8 253.29元。云巖區(qū)的第二類和第五類的房源最多,分別為738套和901套,第二類的中心價(jià)是9 105.86元,第五類的中心價(jià)是6 880.87元,均價(jià)8 811.60元。觀山湖區(qū)的第一類和第二類的房源最多,分別為556套和674套,第一類的中心價(jià)是10 930.8元,第二類的中心價(jià)是8 487.2元,均價(jià)11 152.9元。
從表1可以發(fā)現(xiàn),觀山湖區(qū)的均價(jià)要比老城區(qū)的房價(jià)高1千多元,南明區(qū)的最低,中位數(shù)觀山湖區(qū)的要比南明區(qū)的甚至高出接近3千元,一定程度上反映了消費(fèi)者對南明區(qū)部分二手房的不那么認(rèn)可。進(jìn)一步分析發(fā)現(xiàn),南明區(qū)有1 473套花果園的房源,占掛牌售賣的比例約50%,大部分房源價(jià)格在6 500~8 500元/平方的價(jià)格區(qū)間,通過實(shí)地調(diào)查可知,花果園雖然房齡也不高,但由于房屋密度過高,住戶的居住體驗(yàn)并不太好,有很多置換的需求,這在未來的城市規(guī)劃和城市更新中要引起重視。
3" 結(jié)" 論
本文以貴陽市主城區(qū)二手房市場為研究對象,通過探索性空間數(shù)據(jù)分析,了解貴陽市核心區(qū)二手房市場數(shù)據(jù)的空間分布情況,研究發(fā)現(xiàn),核密度分析可以較好地反映研究區(qū)域二手房的集聚情況,在獲取的二手房數(shù)據(jù)中,地址信息填寫至小區(qū)某一棟或附近位置,并不是很精確,核密度分析是通過離散點(diǎn)數(shù)據(jù)進(jìn)行內(nèi)插,運(yùn)用距離衰減函數(shù)測度局部密度的變化情況,其計(jì)算結(jié)果分布較平滑,能夠較直觀地反映研究區(qū)域數(shù)據(jù)的空間布局特征,彌補(bǔ)了數(shù)據(jù)不夠精準(zhǔn)的問題。研究結(jié)果和實(shí)地調(diào)查是相符合的。
ArcGIS 10.2軟件中的熱點(diǎn)分析工具價(jià)格字段加權(quán)后,可以較好反映價(jià)格低值區(qū)和高值區(qū),與客觀情況事項(xiàng)符合的。同時(shí)利用SPSS軟件中K均值聚類分析工具可以更進(jìn)一步的了解各區(qū)域價(jià)格分布情況,研究結(jié)果對貴陽市城市更新、規(guī)劃具有一定的參考意義。之后的研究中,可以在其他房地產(chǎn)平臺(tái)上獲取更多的數(shù)據(jù),與本文研究的結(jié)果進(jìn)行比對,以達(dá)到更好的效果。
參考文獻(xiàn):
[1] 徐博雅.武漢市二手房價(jià)格影響因素空間分異研究——基于POI數(shù)據(jù) [J].中國房地產(chǎn),2022(26):30-37.
[2] 周湘,袁文,李漢青,等.北京市二手房價(jià)格時(shí)空演變特征 [J].地球信息科學(xué)學(xué)報(bào),2017,19(8):1049-1059.
[3] 王夢瑋,劉勇,劉秀華.多中心山地城市住房價(jià)格空間格局研究——以重慶主城區(qū)為例 [J].西南大學(xué)學(xué)報(bào):自然科學(xué)版,2016,38(5):133-138.
[4] 張城銘,張子昂.中國三大城市群旅游景點(diǎn)空間分布與影響因素研究 [J].中國名城,2021,35(12):15-22.
[5] 朱壽佳,甄峰,秦蕭,等.基于核密度估計(jì)的南京二手房活躍度特征及影響機(jī)制研究 [J].地球信息科學(xué)學(xué)報(bào),2015,17(6):698-704.
[6] 朱隴強(qiáng),楊宇宇,郭昆明,等.我國地學(xué)可視化研究的熱點(diǎn)分析及演化路徑 [J].測繪與空間地理信息,2022,45(7):123-126+130.
[7] 劉堯,王穎志,王立君,等.交通事故的時(shí)空熱點(diǎn)分析 [J].浙江大學(xué)學(xué)報(bào):理學(xué)版,2020,47(1):52-59.
[8] 惠倩.基于步行可達(dá)性的城市公園綠地布點(diǎn)研究 [D].西安:西安建筑科技大學(xué),2020.
[9] 馮海霞,寧二偉,王琦,等.基于GIS的濟(jì)南市交通事故成因分析 [J].重慶交通大學(xué)學(xué)報(bào):自然科學(xué)版,2023,42(5):124-131.
[10] 王屹偉,路寅,寇艷紅,等.基于K-means聚類的GPS同步式欺騙識(shí)別方法 [J].電子與信息學(xué)報(bào),2023,45(11):4137-4149.
作者簡介:葉春(1975—),女,漢族,貴州畢節(jié)人,副教授,碩士,研究方向:區(qū)域分析與規(guī)劃。