陳琦越 梁復(fù)榮 黃銳權(quán) 邱梓杰
摘 要:影響房價的因素不再僅限于地區(qū),還受出行便利程度、房屋區(qū)域熱度的影響。針對房屋集群的識別與進一步研究,對于及時把握供需關(guān)系、價格等都有極大的幫助。文章基于密度的聚類(DBSCAN)和深度神經(jīng)網(wǎng)絡(luò)(DNN),對房屋集群進行識別聚類,根據(jù)簇的結(jié)果與房價影響因素訓(xùn)練神經(jīng)網(wǎng)絡(luò),達到房價預(yù)測的效果。實驗結(jié)果表明,對所采用的數(shù)據(jù)進行預(yù)測達到準(zhǔn)確的效果。通過研究,可為集群房屋區(qū)位定價提供參考。
關(guān)鍵詞:房地產(chǎn);DBSCAN聚類算法;空間格局
中圖分類號:F293.35 文獻標(biāo)識碼:A 文章編號:1005-6432(2022)06-0001-03
DOI:10.13939/j.cnki.zgsc.2022.06.001
關(guān)于房屋集群,馬小賓等人[1]利用DBSCAN算法對民宿集群進行分類,找出Airbnb民宿區(qū)位分布特征。湯新程等人[2]利用BP神經(jīng)網(wǎng)絡(luò)預(yù)測邯鄲市房價。文章采用基于密度的聚類(DBSCAN)和人工神經(jīng)網(wǎng)絡(luò)(DNN),對UCI機器學(xué)習(xí)儲存庫中房屋數(shù)據(jù)集進行識別,形成簇并分類,根據(jù)簇的結(jié)果與房價影響因素訓(xùn)練神經(jīng)網(wǎng)絡(luò),最終達到房價預(yù)測的目的。
1 數(shù)據(jù)來源
文章采用的數(shù)據(jù)是臺灣淡江大學(xué)分享的關(guān)于臺灣省新北市新店區(qū)的房地產(chǎn)估計數(shù)據(jù)集,該數(shù)據(jù)集一共包含了414條房地產(chǎn)交易數(shù)據(jù)。數(shù)據(jù)主要包括房屋所在地的經(jīng)緯度、房屋年齡、距離捷運站(地鐵站)的距離等。從位置以外的變量來看,所選的變量如地鐵站、便利店數(shù)量,都是城市基礎(chǔ)設(shè)施的一部分,短時間有大變動的概率比較低,基于該數(shù)據(jù)可以得到一定時間內(nèi)設(shè)施存在對該地區(qū)房價的合理影響。首先,對數(shù)據(jù)進行探索,特別對數(shù)據(jù)集中提供的經(jīng)緯度數(shù)據(jù)進行可視化,其結(jié)果如下。
通過圖1可以看出,數(shù)據(jù)點的地理位置分布呈現(xiàn)一定的聚集性,但是具體的分類數(shù)和分類方式有待確定。通過分析,最終采用DBSCAN方法進行聚類。通過調(diào)節(jié)參數(shù)來調(diào)節(jié)聚類數(shù),并且和后面的預(yù)測算法相結(jié)合,尋求最優(yōu)的分類方式。
2 模型
2.1 DBSCAN
Density-based Spatial Clustering of Applications with Noise(DBSCAN)是由Ester等人提出的一種基于密度數(shù)據(jù)的聚類算法,被廣泛應(yīng)用于地理研究、統(tǒng)計學(xué)研究。它最大的特點是所需變量少,只需要半徑(r)和最小點個數(shù)(MinPts)兩個參數(shù),根據(jù)所給的半徑找出突變點,在給定的半徑內(nèi)進行掃描,若大于所給的密度閾值,則稱該點為核心點,形成一個集合,再從核心點出發(fā),尋找新的密度相連的點,作為新的核心點進行集群,形成新的簇,最終形成簇群的一個過程。文章借助于聚類算法對臺灣新北市新店區(qū)分布特征進行識別,并形成群簇。
2.2 DNN神經(jīng)網(wǎng)絡(luò)
Deep Neural Networks(DNN)與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(ANN)的區(qū)別在于,DNN相較于ANN,在輸入與輸出之間插入了許多隱藏層,層與層之間通過神經(jīng)元相連。DNN的工作原理和感知機是一樣的,由線性函數(shù)(w)和激活函數(shù)構(gòu)成(softmax分類器等)。在多維的情況下,分類器無法進行進一步的學(xué)習(xí),因此DNN引入了偏倚,通過偏倚聯(lián)通隱藏層,進行進一步學(xué)習(xí),上一層的輸出不斷向下一層輸出。DNN算法利用輸入數(shù)據(jù)經(jīng)過隱藏層中的不斷優(yōu)化以后,得出最優(yōu)結(jié)構(gòu)。文章中,DNN算法將在最優(yōu)簇群的情況下進行訓(xùn)練。
2.3 模型結(jié)構(gòu)
文章最終采用的模型結(jié)構(gòu)如下:首先,利用DBSCAN算法,利用經(jīng)緯度數(shù)據(jù)對樣本進行聚類,獲得樣本相應(yīng)的類別。其次,對數(shù)據(jù)集進行劃分(80%訓(xùn)練集,20%測試集),將其他標(biāo)簽和類別標(biāo)簽一起,作為DNN輸入、輸出房價的預(yù)測值。通過梯度下降和反向傳播,獲得訓(xùn)練好的模型并用于預(yù)測。
3 數(shù)據(jù)實驗
3.1 (地理位置)聚類(3,5,7)類——基于DBSCAN算法
本小節(jié)調(diào)節(jié)參數(shù)以獲得不同的聚類效果,下面對其進行展示(該部分未接入預(yù)測算法,僅做探索)。其對應(yīng)的參數(shù)設(shè)置如表1所示。
可視化聚類結(jié)果如圖 3所示。
可以看出,通過調(diào)節(jié)不同的聚類參數(shù),可以得到不同的聚類效果。但是,并不是分類數(shù)越多越好,分類數(shù)較多容易產(chǎn)生過擬合。下面將連接預(yù)測算法,查看最佳的分類方式。
3.2 神經(jīng)網(wǎng)絡(luò)(12個神經(jīng)元)
文章最終將構(gòu)建房價預(yù)測模型,經(jīng)過DBSCAN處理后,將原本標(biāo)簽和類別標(biāo)簽一起作為神經(jīng)網(wǎng)的輸入,首先設(shè)置神經(jīng)網(wǎng)絡(luò)的層為4層(輸入層、2個隱藏層和輸出層),而類別數(shù)設(shè)置為3、5、7并進行實驗。loss的計算公式如下:
其中,yturei表示樣本真實值,ypredicti表示樣本預(yù)測值,N為樣本數(shù)量。最終訓(xùn)練結(jié)果如下。
從圖4右圖可知,在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同的情況下,分為三個類別數(shù)據(jù)集,在訓(xùn)練集和測試集上都表現(xiàn)出比其他分類數(shù)更好的結(jié)果,且能夠較快地達到一個收斂值(0.0080),其具體訓(xùn)練數(shù)據(jù)如表2所示。
3.3 調(diào)節(jié)神經(jīng)元個數(shù)(6,12,15個),得到15個效果最好
在分類數(shù)為三的情況下調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)參數(shù),以獲得一個較好的預(yù)測模型。分別在隱藏神經(jīng)元個數(shù)為6,12,15情況下進行實驗,可獲得如下實驗結(jié)果,見圖5。
觀察可知,15個神經(jīng)元的情況下模型的效果最好(右圖為局部放大效果),數(shù)據(jù)如下。
4 結(jié)論與討論
實驗表明,在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)固定的情況下,對經(jīng)緯度數(shù)據(jù)進行3類是最好的訓(xùn)練結(jié)果。在此基礎(chǔ)上,固定聚類類別,修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??芍?,15個神經(jīng)元數(shù)時損失值最小,模型結(jié)構(gòu)最優(yōu)。文章中,使用了位置、屋齡等變量,融合DBSCAN和DNN對未來房價進行預(yù)測,達到了一個較為有效的預(yù)測結(jié)果,文章的研究具有一定的參考價值。但是,實際的房屋交易市場中,影響價格的因素可能不止文中研究的變量,這也是文章研究的不足之處。
參考文獻:
[1]馬小賓, 侯國林, 李莉, 等. 基于 DBSCAN 算法的民宿集群識別、分布格局及影響因素——以南京市為例[J].人文地理, 2021, 36(1):84-93.
[2]湯新程, 王志海. 基于BP神經(jīng)網(wǎng)絡(luò)的房價預(yù)測研究——以邯鄲市為例[J].統(tǒng)計學(xué)與應(yīng)用, 2019, 8(5):6.
[3]高玉明, 張仁津. 基于遺傳算法和 BP 神經(jīng)網(wǎng)絡(luò)的房價預(yù)測分析[J].計算機工程, 2014, 40(4):187-191.
[4]李東月. 房價預(yù)測模型的比較研究[J].工業(yè)技術(shù)經(jīng)濟, 2006, 25(9):65-67.
[5]侯普光, 喬澤群. 基于小波分析和 ARMA 模型的房價預(yù)測研究[J].統(tǒng)計與決策, 2014(30):15.