鄭永坤,劉 春
(中國電信股份有限公司廣州研究院大數(shù)據(jù)應(yīng)用研發(fā)中心,廣東 廣州 510630)
近年來,我國房地產(chǎn)交易市場火爆,房價居高不下。2017年8月31日,胡潤研究院發(fā)布了《2017上半年胡潤全球房價指數(shù)》[1],報告中指出,全球房價漲幅前10名中有6個中國城市,而廣州是唯一上榜的一線城市。未來廣州房價何去何從,很多剛需和投資者也都在觀望,房地產(chǎn)市場價格的變化引起了人們的高度重視,而如何準(zhǔn)確地預(yù)測未來房價的走勢將變得尤為重要。
針對房價的預(yù)測,目前已有一些學(xué)者做了相關(guān)的研究。崔慶都[2]和高玉明[3]等采用BP神經(jīng)網(wǎng)絡(luò)對房價進行預(yù)測,將影響房價的幾個主要因素和房價進行相關(guān)性分析;王希晶[4]通過對互聯(lián)網(wǎng)搜索數(shù)據(jù)的挖掘和分析,構(gòu)建了基于網(wǎng)絡(luò)搜索的二手房和新建商品房價格預(yù)測模型,對房價指數(shù)有較好的擬合和預(yù)測效果,但與基本的房價預(yù)測模型相比較,加入網(wǎng)絡(luò)搜索指數(shù)后的預(yù)測模型改進作用有限;楊楠[5]等結(jié)合灰色預(yù)測和馬爾可夫鏈預(yù)測的優(yōu)點對房價指數(shù)進行預(yù)測分析,模型擬合精度較高,但只能應(yīng)用于較短的時間序列數(shù)據(jù)。本文采用的ARIMA預(yù)測模型,是根據(jù)隨著時間變化的近5年的歷史房產(chǎn)價格,利用差分自回歸移動平均來排除其他對房價有影響的復(fù)雜因素,諸如人口、經(jīng)濟發(fā)展、國家政策等因素,從而找出數(shù)據(jù)變動的規(guī)律,構(gòu)建一個客觀真實的預(yù)測模型,來持續(xù)預(yù)測未來房價的變化趨勢。
ARIMA模型是由博克思(Box)和詹金斯(Jenkins)在1970年代初提出來的著名時間序列預(yù)測模型之一,全稱為自回歸移動平均模型(Autoregressive Integrated Moving Average Model),也稱為博克思-詹金斯法或Box-Jenkins模型[6-7]。記作ARIMA(p,d,q),AR是自回歸,p為自回歸項數(shù);MA是移動平均,q為移動平均項數(shù),d為非平穩(wěn)時間序列轉(zhuǎn)化為平穩(wěn)時間序列時所做的差分次數(shù)(階數(shù))[8]。
ARIMA(p,d,q)模型是ARMA(p,q)模型的擴展。ARIMA模型的實質(zhì)是將非平穩(wěn)的歷史時間序列Yt進行d次差分后得到新的平穩(wěn)時間序列Xt,將Xt擬合成ARMA(p,q)模型,然后再將原d次差分還原,便可以得到Y(jié)t的預(yù)測數(shù)據(jù)[9]。其中,ARMA(p,q)的一般表達式為:
Xt=φ1Xt-1+…+φpXt-p+εt-θ1εt-1-…-θqεt-q,φp≠0,θq≠0
當(dāng)q=0時,ARMA(p,q)模型成為AR(p)模型:
Xt=φ1Xt-1+…+φpXt-p+εt,φp≠0
當(dāng)p=0時,ARMA(p,q)模型成為MA(q)模型:
Xt=εt-θ1εt-1-…-θqεt-q,θq≠0
ARIMA模型的特點是不直接考慮其他相關(guān)隨機變量的變化,它將預(yù)測對象隨時間推移而形成的數(shù)據(jù)序列當(dāng)做一個隨機序列,并且這個隨機序列可以通過自回歸移動平均過程來生成,即該時間序列可以由它自身的過去值或滯后值和隨機干擾項來解釋[10]。如果該時間序列是平穩(wěn)的,即它的行為不會隨著時間的推移而發(fā)生明顯的變化,那么就可以通過該時間序列的過去值及現(xiàn)在值來預(yù)測未來值,這恰恰是隨機時間序列分析模型的優(yōu)勢所在[11]。
通過建立ARIMA(p,d,q)模型進行廣州二手房價格預(yù)測的基本流程,如圖1所示。
圖1 廣州二手房價格預(yù)測建模流程
本文實驗所需的數(shù)據(jù)是通過國內(nèi)某知名大型房產(chǎn)網(wǎng)站爬取的[12]。該房產(chǎn)網(wǎng)站是個開放的平臺,它集合了各家房產(chǎn)中介的房源信息,且會對房源進行審核,過濾掉價格離譜的房源,最后才從這些房源中統(tǒng)計出均價,通過這種方式得出來的數(shù)據(jù)是靠譜的,可供參考。經(jīng)過筆者的觀察,房產(chǎn)網(wǎng)站上的均價跟市場上的均價相差無幾。因此,本文爬取房產(chǎn)網(wǎng)站上2013年1月份至2017年8月份的廣州和深圳二手房歷史均價數(shù)據(jù)作為實驗研究基礎(chǔ)。
首先將廣州二手房的歷史均價數(shù)據(jù)作出一個時序圖,如圖2所示。
圖2 廣州二手房均價時序圖
顯而易見,從2014年底開始,廣州二手房價格就一直處于上漲狀態(tài),該時間序列基本可視為非平穩(wěn)時間序列。為了穩(wěn)妥起見,也可以通過自相關(guān)圖來驗證判斷。廣州二手房均價自相關(guān)圖如圖3所示。
圖3 廣州二手房均價自相關(guān)圖
從自相關(guān)圖3中可以看到,隨著延遲期數(shù)的增加,該時間序列的自相關(guān)系數(shù)并沒有很快地衰減向零,而是在零軸一側(cè)上下波動。因此,可以認為該序列是非平穩(wěn)時間序列。
除此之外,可以利用ADF單位根檢驗方法[13]來判斷序列是否平穩(wěn),它的原假設(shè)為序列具有單位根,即非平穩(wěn)。對于一個平穩(wěn)的時間序列,就需要在給定的置信水平上顯著,拒絕原假設(shè)。通過計算得出p值為0.99,大于顯著水平值0.05,不拒絕原假設(shè),則不通過檢驗,即存在單位根,該序列為非平穩(wěn)時間序列。
現(xiàn)在對原始時間序列進行一階差分后再檢驗,若仍然未通過檢驗,則需要進行二次差分變換[14]。一階差分后的時序圖如圖4所示,可以看到,該時序圖并沒有明顯的趨勢,在零附近上下徘徊,可以初步認為它是個平穩(wěn)的時間序列。
圖5 一階差分后的自相關(guān)圖和偏自相關(guān)圖
一階差分的自相關(guān)圖和偏自相關(guān)圖如圖5所示,從圖5(a)可以看到,該時間序列的自相關(guān)系數(shù)很快衰減向零,在零附近上下徘徊,沒有顯著地不等于零,呈現(xiàn)一階拖尾的自相關(guān)性;從偏自相關(guān)圖(圖5(b))中也可以看到,偏自相關(guān)系數(shù)是截尾的情況,呈現(xiàn)一階的偏自相關(guān)性。
進一步對該時間序列進行ADF單位根的檢驗,計算出的p值為0.0057,小于顯著水平值0.05,也就是說拒絕了原假設(shè),它是一個平穩(wěn)的時間序列。
在對原非平穩(wěn)時間序列進行平穩(wěn)化處理后,接下來需要判斷差分后的時間序列是否是白噪聲,假如是白噪聲則沒有研究的意義。白噪聲是一個純粹的隨機過程,它是嚴(yán)平穩(wěn)的,其原假設(shè)是延遲期數(shù)小于或等于m期的序列值之間相互獨立[15]。通過計算得出的p值為0.0000046,小于0.05,拒絕了原假設(shè),所以它不是一個白噪聲序列。
在得出時間序列為平穩(wěn)的非白噪聲序列后,就可以對ARMA模型進行識別,估計模型中未知的參數(shù)。由于前面對原時間序列進行了一階差分,所以d=1,現(xiàn)在需要對p和q進行定階分析。定階主要有2種方法:一種是根據(jù)自相關(guān)圖和偏自相關(guān)圖人為觀察識別;另一種是根據(jù)信息準(zhǔn)則進行識別。
從圖5中可以看到,自相關(guān)圖(圖5(a))從一階后逐漸衰減向零,是一階拖尾的情況;偏自相關(guān)圖(圖5(b))從一階迅速降到零附近徘徊,是一階截尾的情況。當(dāng)自相關(guān)函數(shù)拖尾,偏自相關(guān)函數(shù)截尾時,它是屬于AR模型;當(dāng)自相關(guān)函數(shù)截尾,偏自相關(guān)函數(shù)拖尾時,它是屬于MA模型;當(dāng)自相關(guān)函數(shù)和偏自相關(guān)函數(shù)均拖尾時,它是屬于ARMA模型[16]。根據(jù)人為判斷,應(yīng)該建立AR(1)模型,即p=1,q=0。
下面根據(jù)BIC準(zhǔn)則來識別模型,BIC準(zhǔn)則是日本統(tǒng)計學(xué)家赤池弘次在AIC準(zhǔn)則基礎(chǔ)上提出來的一種對數(shù)據(jù)序列進行建模定階的方法,是英文Bayesian Information Criterion(貝葉斯信息準(zhǔn)則)的縮寫[17]。通常來說,在給出不同模型的BIC計算公式基礎(chǔ)上,選取使BIC值達到最小的那一組階數(shù)為理想階數(shù),一般階數(shù)不會超過length/10 (length是數(shù)據(jù)長度)。首先創(chuàng)建一個空的BIC矩陣,通過循環(huán)分別擬合p和q的值,把每次擬合后的BIC值加入矩陣中來,最后從矩陣中找出p和q的最小值。BIC準(zhǔn)則擬合出的p和q最小值分別為1和0,跟之前人為識別的結(jié)果是一致的,因此建立ARIMA(1,1,0)模型。
模型建好后,就可以使用該模型對未來的廣州二手房價格進行預(yù)測。傳統(tǒng)的方式是直接使用該模型預(yù)測未來幾個月的房價,這樣的預(yù)測結(jié)果并不是建立在近幾個月真實房價的基礎(chǔ)上的,而是在預(yù)測結(jié)果上再進行預(yù)測。另外本文以滾動的方式使用該模型進行預(yù)測,即每個月都把當(dāng)月的實際房價加入模型當(dāng)中來預(yù)測下一個月的房價。
首先將數(shù)據(jù)集分為2部分,2013年1月份至2016年12月份的數(shù)據(jù)作為模型開發(fā)數(shù)據(jù),2017年1月份至2017年8月份的數(shù)據(jù)作為模型驗證數(shù)據(jù)。將采用滾動預(yù)測后的每個月的預(yù)測均價和實際均價都打印出來,并和直接使用模型進行預(yù)測的均價進行對比,如表1所示??梢钥吹剑褂媚P椭苯宇A(yù)測未來前一兩個月的房價時還算合理,一旦預(yù)測超過2個月后的數(shù)據(jù)將變得不準(zhǔn)確,而滾動預(yù)測的方式在實踐中將會表現(xiàn)出更好的性能。因此,本文采用滾動預(yù)測的方式來對房價進行預(yù)測。
表1 實際均價和預(yù)測均價對比
月份實際均價滾動預(yù)測均價直接預(yù)測均價2017-012374423157.79623157.7962017-022442724237.69123339.5572017-032505224870.00423497.2932017-042536925476.34223643.4932017-052606125620.15023784.1532017-062732926529.98723922.1542017-072819628206.40324058.8772017-082852928822.64024194.987
此外,本文使用均方根誤差(RMSE)來衡量預(yù)測的精度,它是預(yù)測值與實際值偏差的平方與預(yù)測次數(shù)n的比值的平方根,表達式為:
在本實驗中,采用傳統(tǒng)的直接預(yù)測方法的RMSE值為2729.715,而使用滾動預(yù)測方法的RMSE值為409.759,相對上萬元的房價來說,幾百元的誤差是基本可以忽略的,說明該滾動預(yù)測模型有良好的性能表現(xiàn)。
圖6 廣州二手房實際均價與預(yù)測均價對比
與此同時,畫出廣州二手房均價預(yù)測結(jié)果與實際結(jié)果之間相互比較的圖表,并用多項式回歸擬合實際結(jié)果值,如圖6所示,實線為實際均價,點畫線為多項式回歸擬合,虛線為滾動預(yù)測均價,點線為直接預(yù)測均價??梢钥吹剑囗検交貧w只是粗糙地擬合了實際房價曲線,預(yù)測結(jié)果相差較大,而采用滾動預(yù)測方法相比直接預(yù)測較好地擬合了實際結(jié)果值,具有持續(xù)性預(yù)測的特性。
上述實驗用前4年的數(shù)據(jù)來預(yù)測接下來幾個月的數(shù)據(jù),雖然驗證了模型的準(zhǔn)確性,但因為2014年下半年后的數(shù)據(jù)是呈逐漸上漲趨勢,模型的驗證還不是很充分。接下來用2014年上半年之前的數(shù)據(jù)來預(yù)測2014年下半年以后的數(shù)據(jù)的變化趨勢,以此來驗證該模型對這樣有拐點的波動預(yù)測的適用性。從圖7可以看到,即使數(shù)據(jù)存在像2014年-2015年前后的巨大波動,該模型依然能夠很好地持續(xù)預(yù)測未來的均價,而采用直接預(yù)測或多項式回歸預(yù)測都與實際均價結(jié)果相差甚遠。
圖7 廣州二手房實際均價與預(yù)測均價波動預(yù)測對比
圖8 深圳二手房實際均價與預(yù)測均價對比
為了驗證該模型在其他城市房價預(yù)測上的可適性,再選取一個房價波動比較大的城市——深圳來做實驗測試。如圖8所示,滾動預(yù)測方法依然表現(xiàn)出很好的預(yù)測性能,該模型仍然可以很準(zhǔn)確地預(yù)測深圳未來的房價走勢。因此,該模型具有普適性,有一定的應(yīng)用價值。
本文基于時間序列ARIMA模型主要對廣州二手房均價進行預(yù)測,相比于其他預(yù)測方式,排除了一些復(fù)雜的影響因素,并使用滾動預(yù)測的方法,相比于直接使用模型進行預(yù)測,更加客觀真實地對房價進行持續(xù)性預(yù)測,提升了預(yù)測的精度。建模中通過BIC準(zhǔn)則進行模型的識別及定階,實驗中對2017年廣州和深圳的房價進行預(yù)測及驗證,通過均方根誤差及圖表的對比,可知取得了顯著的預(yù)測效果,說明該模型可為房屋買賣者提供有用的參考。
參考文獻:
[1] 胡潤百富. 2017上半年胡潤全球房價指數(shù)[DB/OL]. http://www.hurun.net/CN/Article/Details?num=8AD-654C8DF26, 2017-08-31.
[2] 崔慶都. 基于BP神經(jīng)網(wǎng)絡(luò)的房價預(yù)測[D]. 成都:西南石油大學(xué), 2011.
[3] 高玉明,張仁津. 基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的房價預(yù)測分析[J]. 計算機工程, 2014,40(4):187-191.
[4] 王希晶. 基于網(wǎng)絡(luò)搜索的中國區(qū)域房價預(yù)測模型及應(yīng)用研究[D]. 南京:南京大學(xué), 2016.
[5] 楊楠,邢力聰. 灰色馬爾可夫模型在房價指數(shù)預(yù)測中的應(yīng)用[J]. 統(tǒng)計與信息論壇, 2006,21(5):52-55.
[6] Cryer J D, Chan K S. 時間序列分析及應(yīng)用[M]. 潘紅宇,等譯. 2版. 北京:機械工業(yè)出版社, 2011.
[7] Brockwell P J, Davis R A. 時間序列的理論與方法[M]. 北京:世界圖書出版公司, 2015.
[8] Wikipedia. Autoregressive Integrated Moving Average[EB/OL]. https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average, 2017-09-13.
[9] Tsay R S. 金融時間序列分析[M]. 北京:人民郵電出版社, 2012.
[10] 王燕. 應(yīng)用時間序列分析[M]. 4版. 北京:中國人民大學(xué)出版社, 2015.
[11] 李子奈,潘文卿. 計量經(jīng)濟學(xué)[M]. 3版. 北京:高等教育出版社, 2010.
[12] Lawson R. 用Python寫網(wǎng)絡(luò)爬蟲[M]. 北京:人民郵電出版社, 2016.
[13] Wikipedia. Augmented Dickey-fuller Test[EB/OL]. https://en.wikipedia.org/wiki/Augmented_Dickey%E2%80%93Fuller_test, 2017-09-19.
[14] Enders W. 應(yīng)用計量經(jīng)濟學(xué):時間序列分析[M]. 北京:高等教育出版社, 2006.
[15] 百度百科. 白噪聲序列[EB/OL]. https://baike.baidu.com/item/%E7%99%BD%E5%99%AA%E5%A3%B0%E5%BA%8F%E5%88%97/8436886, 2017-09-19.
[16] Guo Jianhua. Housing price forecasting based on stochastic time series model[J]. International Journal of Business Management and Economic Research, 2012,3(2):498-505.
[17] Wikipedia. Bayesian Information Criterion[EB/OL]. https://en.wikipedia.org/wiki/Bayesian_information_criterion, 2017-08-01.