劉智祿 王慧麗
(西安財經(jīng)大學 統(tǒng)計學院,陜西 西安 710100)
城市房價的波動影響著城市居民的生活,西安市作為西部重要的經(jīng)濟中心城市,從2016年開始,房價開始迅速上漲,特別是2017年以來,隨著城市落戶新政的實施,再次將房價問題推向高潮,引起了人們的廣泛關(guān)注。因此,對房價影響因素的研究,并對未來房價的變動趨勢進行預測,對于調(diào)控房地產(chǎn)市場有一定的借鑒意義。
在已有的研究中,學者們從不同角度分析了房價的主要影響因素。趙麗麗、焦繼文從供給和需求兩個方面選取房價影響因素指標,應用灰色關(guān)聯(lián)度分析,得出各影響因素的相對重要程度。[1]74-75邱啟榮、于婷運用主成分分析法對影響房價指標進行重新組合生成新的綜合指標。[2]24-26楊中宣、楊洋洋從需求因素、供給因素和外界因素3個維度選取影響因素指標。[3]33-36在分析方法的選擇上,大多數(shù)學者采用主成分分析、逐步回歸等方法,不僅對數(shù)據(jù)的依賴程度很高,還伴有一定主觀因素的影響,在變量確定后,建立的回歸模型大都采用一般的統(tǒng)計模型。武秀麗、張鋒采用時間序列分析法,對廣州市房價數(shù)據(jù)建立預測模型。[4]5631-5635鐘麗燕、高淑蘭利用逐步回歸法建立多元線性回歸模型。[5]94-96還有學者應用灰色理論建立灰色系統(tǒng)模型進行預測。[6]22-24侯普光、喬澤群建立時間序列模型進行房價的分析預測研究。[7]20-23傳統(tǒng)回歸模型使用最小二乘估計法來估計模型的系數(shù),但是當變量之間出現(xiàn)多重共線性時,會出現(xiàn)過擬合現(xiàn)象,使得模型的精度受到影響,甚至出現(xiàn)不合理的結(jié)論。
為了改善變量的選擇方法,提高模型的擬合精度,本文采用Adaptive- Lasso 變量選擇方法確定房價的主要影響因素,并將BP神經(jīng)網(wǎng)絡與灰色預測相結(jié)合,建立房價的組合預測模型,實現(xiàn)變量選擇與參數(shù)估計同時進行,并對所建模型進行驗證及對未來房價進行預測。
多元線性回歸通常是利用逐步回歸法確定模型的解釋變量,但是,在研究一些復雜的經(jīng)濟問題時,如果影響因素過多,利用逐步回歸等子集選擇的方法就會顯得繁瑣,所以,利用傳統(tǒng)的變量選擇方法就不夠?qū)嵱?。正則化的方法則可以在傳統(tǒng)最小二乘法的基礎(chǔ)上進行改進,加入約束條件,依次防止系數(shù)取值過大,在減少變量的同時,處理線性模型中的過度擬合問題,其中,Lasso就兼?zhèn)溥x擇和收縮的功能,是一種將參數(shù)估計與變量選擇同時進行的正則化方法。
假設所考慮的被解釋變量為y,解釋變量為xj,則在Lasso方法中,模型中變量xj的系數(shù)估計式定義見(1)式:
(1)
Lasso方法可以解決線性模型中的最小二乘法和變量選擇時逐步回歸出現(xiàn)的局部最優(yōu)估計問題,但其自身也存在一定的局限性。從(1)式中可以看出,Lasso對所有的變量施加了相同的懲罰,因此,對非零參數(shù)估計的懲罰也相應變大,導致參數(shù)估計的偏差較大。為此,可以將該方法進行適當?shù)母倪M,采取改進的Lasso方法進行變量選擇,并給不同的參數(shù)系數(shù)賦予不同的權(quán)重,這樣就可以解決上述問題,具體定義見(2)式:
(2)
灰色系統(tǒng)理論是我國著名學者鄧聚龍教授于1982年提出的。該理論的研究對象為“部分信息已知,部分信息未知”的不確定性系統(tǒng),通過對部分已知信息的生成、開發(fā)并實現(xiàn)對現(xiàn)實世界的確切描述和認識。[8]43-47
設變量X(0)={X(0)(i),i=1,2,…,n}為一非負單調(diào)原始數(shù)據(jù)序列,首先對X(0)進行一次累加,得到序列:X(1)={X(1)(k),k=1,2,…,n}。
下面對X(1)建立一階線性微分方程,見(3)式:
(3)
即GM(1,1)模型。
求解微分方程,得到預測模型,見(4)式:
(4)
(5)
對所建立的模型進行檢驗,相應的后驗查檢驗模型精度表如表1所示。
表1 后驗查檢驗模型精度表
人工神經(jīng)網(wǎng)絡是在現(xiàn)代神經(jīng)科學的基礎(chǔ)上提出和發(fā)展起來的,其工作方法是模仿人腦,旨在反映人腦結(jié)構(gòu)及功能的一種抽象數(shù)學模型,即首先以一定的學習準則進行學習,然后才能進行判斷評價等工作。[9]187-191有關(guān)的理論和方法已經(jīng)發(fā)展成一門介于物理學、數(shù)學、計算機科學和神經(jīng)生物學之間的交叉學科。BP神經(jīng)網(wǎng)絡是其中的一種網(wǎng)絡模型,又稱為反向傳播神經(jīng)網(wǎng)絡,是一種多層次反饋型網(wǎng)絡,通過對樣本數(shù)據(jù)的訓練,不斷去修正網(wǎng)絡模型中權(quán)值和閾值,從而使誤差函數(shù)沿負梯度方向下降,來逼近期望的輸出。[10]96-99該模型具有運算速度快,問題求解效率高、自學能力強、適應面寬等優(yōu)點,多用于函數(shù)逼近、模型識別分類、數(shù)據(jù)壓縮和時間序列預測等。三層BP神經(jīng)網(wǎng)絡模型見圖1。
圖1 三層BP神經(jīng)網(wǎng)絡模型
圖1模型選用S型傳遞函數(shù)f(x)=1/(1+e-x),定義反傳誤差函數(shù)見(6)式:
(6)
(6)式中,Ti為期望輸出,Oi為網(wǎng)絡的計算輸出,通過不斷調(diào)節(jié)網(wǎng)絡權(quán)值和閾值使誤差函數(shù)E達到極小。
由于灰色預測模型對小數(shù)據(jù)量數(shù)據(jù)具有很好的預測性,神經(jīng)網(wǎng)絡對歷史數(shù)據(jù)信息能充分提取,從而預測和模擬的精度高,本文結(jié)合兩者的優(yōu)點,構(gòu)建組合模型,以提高模型的預測精度和解釋性。
下面利用Adaptive-Lasso方法建立選擇變量模型來篩選變量,進而根據(jù)上述GM(1,1)模型對篩選出來的變量分別建立灰色預測模型進行預測,得到變量在 2018年、2019年的預測值;然后對歷史變量數(shù)據(jù)建立BP神經(jīng)網(wǎng)絡預測模型,把通過灰色預測模型得到的預測值代入訓練好的模型中,從而得到充分考慮歷史信息的2018年—2020年西安市房價的預測值。組合模型的流程圖如圖2所示。
圖2 組合模型流程圖
本文借鑒袁芳的觀點[11]477-478,綜合考慮房地產(chǎn)行業(yè)的特點,選取以下13個影響因素(數(shù)據(jù)均來自《西安統(tǒng)計年鑒》):
X1:西安市生產(chǎn)總值GDP;
X2:財政收入;
X3:城鎮(zhèn)居民人均可支配收入;
X4:居民消費價格指數(shù);
X5:城鎮(zhèn)居民家庭的恩格爾系數(shù);
X6:城鎮(zhèn)居民人口;
X7:人口密度;
X8:房地產(chǎn)開發(fā)投資額;
X9:住宅竣工面積;
X10:住宅銷售面積;
X11:住宅銷售額;
X12:住宅出租面積;
X13:建筑業(yè)總產(chǎn)值;
Y:西安市住宅價格。
相關(guān)系數(shù)用來描述變量之間的相關(guān)關(guān)系,初步判斷因變量與解釋變量之間是否具有線性相關(guān)性。本文利用R語言實現(xiàn)變量間的相關(guān)性分析,表2給出了上述各變量間的Person相關(guān)系數(shù)矩陣。
通過相關(guān)系數(shù)檢驗結(jié)果,可以看出居民消費價格指數(shù)、住宅出租面積兩個變量與西安市的住宅價格線性關(guān)系不顯著,其余的變量中,除了居民的恩格爾系數(shù)與住宅價格呈高度的負相關(guān)關(guān)系外,其它的變量均與住宅價格呈現(xiàn)高度的正相關(guān)關(guān)系。
表2 變量Pearson相關(guān)系數(shù)矩陣
通過R語言中的相關(guān)算法,編制程序?qū)崿F(xiàn)Adaptive-Lasso方法的變量選擇,變量選擇系數(shù)見表3。
表3 變量選擇系數(shù)
R-squared:0.999
由表3可以看出,居民消費價格指數(shù)(X4)、人口密度(X7)、房地產(chǎn)開發(fā)投資額(X8)、住宅竣工面積(X9)、住宅銷售額(X11)、住宅出租面積(X12)、建筑業(yè)總產(chǎn)值(X13),這些因素的系數(shù)為0,即在模型的建立過程中這幾個變量被剔除了。
居民的消費價格指數(shù)(X4)、住宅出租面積(X12)與住宅價格(Y)的相關(guān)性太小;房地產(chǎn)開發(fā)投資額與建筑業(yè)總產(chǎn)值存在明顯的共線性;人口密度、住宅竣工面積、住宅銷售額也存在共線性;因此在使用Adaptive-Lasso 方法構(gòu)建模型時,這些變量被剔除。通過以上的Adaptive-Lasso方法得到房價的預測模型為見(7)式:
Y=0.740 10X1-1.913 41X2+0.036 30X3+
112.132 98X5-4.484 81X6+2.390 71X10-1 630.717
(7)
2.4.1 灰色預測模型
基于西安市2001—2017年的房價數(shù)據(jù),建立單一灰色GM(1,1)預測模型,并利用R語言軟件實現(xiàn)GM(1,1)模型的預測值與房價真實值的比較曲線,如圖3所示。
圖3 GM(1,1)預測結(jié)果對比
圖3說明利用GM(1,1)模型預測的房價走勢和真實值的走勢大致一致,但也存在一定的誤差。
2.4.2 灰色預測與神經(jīng)網(wǎng)絡的組合預測模型
通過Adaptive-Lasso方法進行變量選擇之后,對選擇的變量構(gòu)建灰色預測與BP神經(jīng)網(wǎng)絡的組合模型。將西安市生產(chǎn)總值GDP(X1)、財政收入(X2)、城鎮(zhèn)居民人均可支配收入(X3)、城鎮(zhèn)居民家庭的恩格爾系數(shù)(X5)、城鎮(zhèn)居民人口(X6)、住宅銷售面積(X10),這些經(jīng)濟指標2018年和2019年的預測數(shù)值通過R語言建立灰色預測模型進行計算,灰色預測模型相關(guān)因素精度見表4。
表4 灰色預測模型相關(guān)因素精度
由于BP神經(jīng)網(wǎng)絡對歷史樣本數(shù)據(jù)模擬具有較好的精度,因而將上述變量的預測值代入建立的BP神經(jīng)網(wǎng)絡預測模型,由此可得西安市2018—2020年的房價預測值,真實值與預測值的比較結(jié)果如圖4所示。
圖4 組合模型預測結(jié)果對比
由圖4可知,組合模型預測的房價走勢基本和真實值走勢相同,可見,該模型的預測效果較理想。
2.4.3 模型對比
通過對單一灰色預測模型與組合模型的預測結(jié)果比較,得出模型的預測結(jié)果對比情況。見表5。
GM(1,1)模型的預測值、組合模型的預測值以及真實值的對比曲線如圖5所示,相應的模型的預測誤差對比如圖6所示。
表5 模型的預測結(jié)果對比情況
圖5 模型預測結(jié)果對比
圖6 GM(1,1)模型與組合模型的預測誤差對比
由單一灰色預測模型與組合模型的預測結(jié)果可以看出,西安市房價處于上升趨勢,尤其是近幾年的上升幅度較大。根據(jù)圖6模型預測誤差對比情況可知,利用GM(1,1)灰色預測模型預測的房價與真實值的誤差大于利用灰色預測和BP神經(jīng)網(wǎng)絡組合模型預測的誤差,判斷組合模型的預測效果比較好。
另外,灰色預測模型僅僅基于房價歷史數(shù)據(jù)進行預測,而組合模型將與房價影響程度較大的因素充分考慮在模型中,通過這些變量來預測房價的走勢,更具有解釋性和理解性。
基于西安市2001—2017年影響房價的經(jīng)濟指標歷史數(shù)據(jù),首先建立了Adaptive- Lasso變量選擇模型,確定西安市生產(chǎn)總值GDP、財政收入、城鎮(zhèn)居民人均可支配收入、城鎮(zhèn)居民家庭的恩格爾系數(shù)、城鎮(zhèn)居民人口和住宅銷售面積等六項因素是影響西安市住宅價格的主要因素。在此基礎(chǔ)上,對選擇的變量構(gòu)建了灰色預測GM(1,1)與BP神經(jīng)網(wǎng)絡的組合模型,從而對未來的房價進行預測,通過對比發(fā)現(xiàn)預測的房價與真實值比較吻合,同時,該組合預測模型與單一使用灰色預測模型來預測房價相比,能夠充分考慮歷史數(shù)據(jù),將影響因素指標也考慮在模型中,具有較好的解釋性和可理解性。