胡本田 年靖宇
(安徽大學(xué),安徽 合肥 230601)
2016年,合肥、廈門、南京、蘇州4個城市的房價漲幅一度領(lǐng)跑全國,帶來了一輪全國房價的快速上漲,引起了諸多的社會經(jīng)濟(jì)問題。因此提前對房價進(jìn)行預(yù)測,能夠起到維護(hù)經(jīng)濟(jì)穩(wěn)定的作用??紤]到房地產(chǎn)市場中一般會存在三個主體,即消費者、房地產(chǎn)開發(fā)商和政府,房價上漲或下跌的因素有部分來源于這三個主體的行為,在購房或開發(fā)房地產(chǎn)之前消費者和房地產(chǎn)開發(fā)商會預(yù)先利用手頭的資源去更全面的了解房地產(chǎn)情況,這時候,他們往往會利用網(wǎng)絡(luò)搜索引擎去查詢搜索所需要了解的信息,這就會在搜索引擎的后臺留下數(shù)據(jù),比如谷歌指數(shù),百度指數(shù)等等,因此可以利用網(wǎng)絡(luò)搜索引擎后臺所記錄的關(guān)鍵詞搜索量,來了解人們對于房地產(chǎn)的需求狀況。
據(jù)中國互聯(lián)網(wǎng)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告顯示,截至2017年12月,我國網(wǎng)民規(guī)模達(dá)7.72億,普及率達(dá)到55.8%,其中手機(jī)網(wǎng)民占97.5%,而網(wǎng)民使用頻率最高的應(yīng)用仍為即時通信、搜索引擎、網(wǎng)絡(luò)新聞等等,在國內(nèi)各大搜索引擎中,百度搜索是人們最常用的搜索引擎,在2016年就已經(jīng)有82.9%的網(wǎng)民使用,搜狗搜索位于第二,有41.1%的網(wǎng)民使用,鑒于百度搜索在網(wǎng)民中具有很好的滲透率,所以本文欲利用百度指數(shù)上的關(guān)鍵詞搜索數(shù)據(jù),通過找尋搜索數(shù)據(jù)與房地產(chǎn)價格指數(shù)之間的關(guān)系,以此來對房地產(chǎn)價格指數(shù)進(jìn)行短期預(yù)測。
目前對于房價的預(yù)測可以分為以下幾個階段,先是有王聰,王昊,蓋美、田野利用多因素回歸模型來對房價進(jìn)行預(yù)測,找到影響房價的因素,利用這些因素所代表的指標(biāo)進(jìn)行回歸,從而達(dá)到預(yù)測的目的[1-3]。然后有學(xué)者將灰色理論應(yīng)用到房地產(chǎn)價格的預(yù)測中去,任文娟、杜葵表明房地產(chǎn)市場是一個有著已知因素和未知因素的灰色系統(tǒng),因此可以使用GM(1,1)模型來對房地產(chǎn)價格進(jìn)行預(yù)測[4]。之后學(xué)者利用數(shù)據(jù)挖掘算法來對房價進(jìn)行預(yù)測,在數(shù)據(jù)挖掘算法中,研究利用最多的是SVR算法和BP神經(jīng)網(wǎng)絡(luò),對于SVR算法,申瑞娜,張彥周、賈利新,袁秀芳等都建立了基于SVR的商品房價格預(yù)測模型[5-7]。而周學(xué)軍等,高平等就利用BP神經(jīng)網(wǎng)絡(luò)算法對房價進(jìn)行預(yù)測,均取得了不錯的效果[8-9]。但是上述的研究中,所使用的房價數(shù)據(jù)基本上都是年度數(shù)據(jù),此數(shù)據(jù)非公開并且沒有時效性用,有學(xué)者就開始研究房地產(chǎn)價格指數(shù)數(shù)據(jù)。對于房地產(chǎn)價格指數(shù)的預(yù)測的最新研究是通過利用網(wǎng)絡(luò)搜索數(shù)據(jù),通過引入網(wǎng)絡(luò)搜索數(shù)據(jù),一般是谷歌指數(shù)或者百度指數(shù)上面關(guān)鍵詞搜索量數(shù)據(jù),以此來建立模型。該理論最先是Ginsberg et al.利用Google搜索數(shù)據(jù)成功地預(yù)測美國流感疾病趨勢[10],在取得不錯的效果之后,Kulkarni R.et al.,Schmidt T,Vosen S分別利用網(wǎng)絡(luò)搜索數(shù)據(jù)對失業(yè)率和caseshiller指數(shù)中進(jìn)行預(yù)測,能夠在官方數(shù)據(jù)發(fā)布前提前知曉情況[11-12]。董倩等利用網(wǎng)絡(luò)搜索數(shù)據(jù)對15個大中城市的房價指數(shù)進(jìn)行預(yù)測[13],莊虹莉等,張娟以百度指數(shù)上面的關(guān)鍵詞為解釋變量,分別建立模型對房地產(chǎn)價格指數(shù)進(jìn)行預(yù)測[14-15],蒲東齊等(2018)則得到利用搜索數(shù)據(jù)預(yù)測商品房價可領(lǐng)先于官方發(fā)布數(shù)據(jù)10-15天的結(jié)論[16]。
但是目前國內(nèi)學(xué)者的研究中,存在基期未轉(zhuǎn)換、未進(jìn)行隨機(jī)性檢驗、主成分合成指數(shù)不好解釋,隨機(jī)波動性未剔除等問題。鑒于此,本文選取這次漲幅最大的二線城市——合肥市,以2011年1月至2018年2月的新建商品房銷售價格指數(shù)的同比數(shù)據(jù)來進(jìn)行房地產(chǎn)價格指數(shù)的預(yù)測。由于該指數(shù)每五年輪換一個基期,所以為了具有可比性,需要先將2016年至2018年的數(shù)據(jù)全部轉(zhuǎn)換為以2010年為基期的數(shù)據(jù),但因為百度指數(shù)的數(shù)據(jù)在2011年才開始收集,所以為了使數(shù)據(jù)的時期相同,我們將合肥市2011年的每月數(shù)據(jù)分別作為基期,計算得到合肥市2012年1月至2018年2月的新建商品房銷售價格指數(shù)同比數(shù)據(jù),對百度指數(shù)上的關(guān)鍵詞搜索量的處理也按照上述方法來做,之后再通過簡單篩選和相關(guān)性檢驗,得到與房地產(chǎn)價格指數(shù)有關(guān)系的關(guān)鍵詞數(shù)據(jù),然后利用lasso算法在眾多關(guān)鍵詞中提取特征,找到最終的解釋變量,以時間段為2012年2月至2017年8月的數(shù)據(jù)作為訓(xùn)練集,2017年9月至2018年1月的數(shù)據(jù)作為檢驗集,利用SVR模型對訓(xùn)練集進(jìn)行訓(xùn)練,通過檢驗集找到訓(xùn)練模型中的最優(yōu)模型,最后利用最優(yōu)模型來預(yù)測合肥市新建商品房銷售價格指數(shù)。
在房地產(chǎn)市場上,存在一個供求關(guān)系,
房地產(chǎn)開發(fā)商是供應(yīng)的一方,而購房者則是需求的一方,他們對房地產(chǎn)市場的反應(yīng)可以用他們的搜索行為來代替,因此可以把這些網(wǎng)絡(luò)搜索數(shù)據(jù)加入到預(yù)測模型中。此外房地產(chǎn)市場還受到了政府宏觀調(diào)控的影響。該理論可以用圖1來表示。
1.被解釋變量
圖1供求理論框架圖
國家統(tǒng)計局從2011年1月份開始,就開始發(fā)布70個大中城市的新建商品房價格指數(shù),分別包括新建住宅銷售價格指數(shù)和新建商品住宅銷售價格指數(shù),由于在2018年1月就已經(jīng)不公布新建住宅銷售價格指數(shù),所以在此我們選取的是新建商品住宅銷售價格指數(shù)的同比指數(shù)來進(jìn)行預(yù)測,通過對數(shù)據(jù)進(jìn)行處理之后,我們使用的是2012年1月至2018年1月的扣除了一般物價因素影響的數(shù)據(jù),數(shù)據(jù)見表1,此數(shù)據(jù)反映了房價的實際變動,具有可比性,我們將此數(shù)據(jù)作為被解釋變量,命名為Y。
表1剔除一般物價指數(shù)后的合肥市新建商品房價格指數(shù)的同比指數(shù)
2.解釋變量
考慮到房地產(chǎn)市場的各個主體,分別從供應(yīng)、需求、政策三個因素中,確定7個初始關(guān)鍵詞,它們是樓盤、中國建材網(wǎng)、合肥市房產(chǎn)網(wǎng)、合肥房價、房價調(diào)控、房貸利率、住房公積金,然后再利用百度長尾關(guān)鍵詞工具得到102個關(guān)鍵詞,關(guān)鍵詞見表2。
分別對這102個關(guān)鍵詞進(jìn)行百度指數(shù)的查詢,發(fā)現(xiàn)在102個關(guān)鍵詞中,有28個關(guān)鍵詞未被百度指數(shù)所收錄,因此在網(wǎng)站上爬取不到這28個關(guān)鍵詞的有效數(shù)據(jù)。在百度指數(shù)的頁面,輸入關(guān)鍵詞,再通過審查元素就可以得到網(wǎng)頁的源代碼,利用java和maven兩個軟件,可以抓取剩下的74個關(guān)鍵詞從2011年1月至2018年2月每天的搜索數(shù)據(jù),將爬取到的關(guān)鍵詞天數(shù)據(jù)累加為月度數(shù)據(jù),按照處理被解釋變量的方法對這些關(guān)鍵詞數(shù)據(jù)進(jìn)行處理。又由于網(wǎng)絡(luò)搜索數(shù)據(jù)有很大的波動性,所以處理之后我們再用HP濾波法對數(shù)據(jù)進(jìn)行長期趨勢的提取,得到初步的解釋變量。
表2部分關(guān)鍵詞數(shù)據(jù)
在這74個解釋變量中,首先需要進(jìn)行簡單的篩選,剔除那些搜索記錄為0的變量,發(fā)現(xiàn)所選變量均未出現(xiàn)上述情況,然后對剩下的變量進(jìn)行隨機(jī)性檢驗,然后再檢驗各個變量與被解釋變量的相關(guān)系數(shù),相關(guān)系數(shù)如果小于0.4,認(rèn)為顯著不相關(guān),所以剔除。將相關(guān)系數(shù)絕對值大于0.4的變量留下,最后留下了36個變量。由于變量之間存在很嚴(yán)重的共線性,利用主成分分析法進(jìn)行降維又存在很多問題,而lasso算法能夠有效處理多重共線性,它的基本思想是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使得殘差最小化,從而可以將所選入的一些對模型沒有貢獻(xiàn)的指標(biāo)系數(shù)直接壓縮為0,達(dá)到特征選擇或者壓縮變量的目的。在R語言中可以使用Lars函數(shù)包實現(xiàn)這一過程,利用AIC準(zhǔn)則給統(tǒng)計模型的變量做一個截斷,實現(xiàn)降維過程。通過程序運(yùn)行的結(jié)果,我們最終選用5個變量作為解釋變量,這五個變量代表的關(guān)鍵詞分別是房貸利率表,合肥房產(chǎn)地圖,房貸利率優(yōu)惠,房價調(diào)控,個人所得稅,我們將這五個變量依次命名為 X1、X2、X3、X4、X5,可以看出,這五個變量基本上未涉及到房地產(chǎn)開發(fā)商的行為,即使我們在確定初始關(guān)鍵詞的時候,選取了房地產(chǎn)開發(fā)商可能會進(jìn)行搜索的關(guān)鍵詞,但是發(fā)現(xiàn)與我們所要研究的房價指數(shù)并沒有什么明顯的關(guān)系,所以在接下來的建模過程中,利用上述五個解釋變量可能會遺漏關(guān)于房地產(chǎn)開發(fā)商的影響因素,這也是文中的不足之處,但是由于技術(shù)水平的限制,如何找到與房價有關(guān)的供給方面的關(guān)鍵詞,還需要進(jìn)一步的研究。
3.解釋變量與被解釋變量的關(guān)系
分別作出Y與X1-X5的折線圖,如圖2-6所示,可以看出,X1、X2、X3與 Y的整體趨勢剛好是相反的,而X4、X5與 Y的整體趨勢是相同的,盡管在某些時間內(nèi)存在一些差異,因此利用搜索數(shù)據(jù)來預(yù)測房價指數(shù)是可行的。
圖2 Y與X1的雙軸圖
圖3 Y與X2的雙軸圖
圖4 Y與X3的雙軸圖
圖5 Y與X4的雙軸圖
圖6 Y與X5的雙軸圖
4.預(yù)測模型的建立與分析
(1)SVR 模型
SVR(支持向量機(jī)回歸)模型實際上是SVM(支持向量機(jī))的一種推廣形式,支持向量機(jī)是目前最為常用、效果最好的分類器之一,因為其本身的優(yōu)化目標(biāo)是結(jié)構(gòu)風(fēng)險化最小,而不是經(jīng)驗風(fēng)險最小,因此減低了對數(shù)據(jù)規(guī)模和數(shù)據(jù)分布的要求,能夠在小樣本訓(xùn)練集上有突出的表現(xiàn),SVM的提出首先是為了解決分類問題的,而SVR則是解決回歸問題的。因此這兩種模型的目標(biāo)函數(shù)都是一樣的,與SVM相似,通過最小化結(jié)構(gòu)風(fēng)險函數(shù)構(gòu)造的原始優(yōu)化問題可以求解權(quán)重向量以及常數(shù):
(2)模型的評價指標(biāo)
使用MSE(均方誤差)和NMSE(標(biāo)準(zhǔn)均方誤差)來比較兩個模型,其中,模型的穩(wěn)定性由MSE判定,模型的擬合度由NMSE判定,兩個評級指標(biāo)的數(shù)值都是越小越好,兩個指標(biāo)的公式如下:
考慮到需要檢驗?zāi)P偷目煽啃?,我們將樣本分為?xùn)練集和檢驗集,訓(xùn)練集的時間區(qū)間為2012年1月至2017年12月,檢驗集的時間區(qū)間為2018年1月至2018年3月,以訓(xùn)練集來建立模型,以檢驗集來檢驗?zāi)P偷目煽啃浴?/p>
將數(shù)據(jù)導(dǎo)入R語言中,利用kernlab函數(shù)包來實現(xiàn)SVR的過程。在SVR中需要確定參數(shù)的最優(yōu)值,使用train.auto函數(shù)確定最優(yōu)值,得到最優(yōu)值為ε=0.1,C=10,通過運(yùn)行已經(jīng)寫好的程序,對訓(xùn)練集進(jìn)行擬合,計算出該模型的MSE和NMSE分別為2.34和0.018,可以看出模型的預(yù)測精度很好。為了驗證該模型的預(yù)測效果,我們引入傳統(tǒng)的時間序列模型SARIMA模型與其進(jìn)行比較。
SARIMA模型是指帶季節(jié)差分ARIMA的模型,如果時間序列只包含趨勢性,可以表示ARIMA(p,d,q)模型,如果時間序列同時包含季節(jié)性和趨勢性,則可表示為 SARIMA(p,d,q)×(P,D,Q)s。 其中,d,D 分別為逐期差分和季節(jié)差分的階數(shù),p,q分別為自回歸和移動平均的階數(shù),P,Q分別為季節(jié)自回歸和季節(jié)移動平均的階數(shù)。
考慮到異方差的問題,在建立模型前,對數(shù)據(jù)都進(jìn)行了取對數(shù)處理,然后導(dǎo)入數(shù)據(jù),利用R軟件畫時序圖,發(fā)現(xiàn)房價指數(shù)序列存在季節(jié)性和趨勢性,利用zoo函數(shù)包和forecast函數(shù)包來實現(xiàn)SARIMA模型的預(yù)測,通過arima.auto函數(shù)尋找擬合最優(yōu)的模型,最終得到最優(yōu)的模型為 SARIMA (1,1,0)×(2,1,0)12,ar1的系數(shù)為 0.5638,sar1的系數(shù)為 0.6892,sar2的系數(shù)為-0.2759,該模型的MSE和NMSE分別為5.69和0.043。
通過訓(xùn)練集的擬合結(jié)果來看,加入了搜索項的SVR模型要優(yōu)于僅使用歷史數(shù)據(jù)的SARIMA模型,為了推廣到未知樣本的情形,我們利用檢驗集再一次的檢驗兩個模型的預(yù)測效果,在此我們以平均誤差率來評價模型的精度,計算得到的平均誤差率見表3,可見如果未來發(fā)生波動,SARIMA模型由于只能利用歷史數(shù)據(jù),預(yù)測效果就會變差,而SVR模型由于利用了即時的信息,預(yù)測效果不會發(fā)生很大的改變,因此可以利用SVR模型對合肥市的房價指數(shù)進(jìn)行預(yù)測。 預(yù)測得到合肥市2018年4月的新建商品住宅銷售價格指數(shù)為106.25。(本文中的預(yù)測值均是扣除了一般物價指數(shù)因素后的值)
表3兩個模型的預(yù)測值及平均誤差率
本文首先從供需理論出發(fā),找到百度指數(shù)關(guān)鍵詞搜索數(shù)據(jù)與房價指數(shù)之間的相關(guān)關(guān)系,然后以合肥市2012年1月至2018年1月的新建商品住宅銷售價格指數(shù)以及“合肥房價”、“樓盤”、“建材網(wǎng)”等74個關(guān)鍵詞數(shù)據(jù),通過lasso算法選取進(jìn)入模型的關(guān)鍵詞,以此來對房價指數(shù)進(jìn)行擬合與預(yù)測,得到結(jié)論:
1.加入搜索數(shù)據(jù)的SVR模型的預(yù)測效果要好于ARIMA模型,這說明網(wǎng)絡(luò)搜索數(shù)據(jù)是可以用于房價指數(shù)的預(yù)測中去的。
2.不僅僅是房價指數(shù)數(shù)據(jù),只要能夠從理論出發(fā),利用網(wǎng)絡(luò)搜索數(shù)據(jù)可以對其他變量進(jìn)行預(yù)測,比如股票的收益率,CPI指數(shù)、失業(yè)率等。
3.只要每個月月底對搜索數(shù)據(jù)進(jìn)行處理,就能得到該月的房價指數(shù),而官方數(shù)據(jù)發(fā)布時間通常是下個月15-20號,因此利用模型預(yù)測房價指數(shù)可以比官方數(shù)據(jù)提前15-20天,能夠?qū)崟r的對房地產(chǎn)市場進(jìn)行監(jiān)控,有很好的預(yù)警效果。
4.利用網(wǎng)絡(luò)搜索數(shù)據(jù)建立預(yù)測型,怎樣科學(xué)的選取關(guān)鍵詞是難點,在本文中,即使綜合考慮了三個方面的因素,也不能完全代表房地產(chǎn)市場的各種因素,這也是本文中存在缺陷的地方。百度指數(shù)上的關(guān)鍵詞搜索數(shù)據(jù),并不能完全代表消費者和房地產(chǎn)開發(fā)商的整體行為,因為還有一部分人買房是通過其他搜索引擎或傳統(tǒng)方式 (傳統(tǒng)媒體或親戚朋友口耳相傳)收集信息的,所以下一步研究還得考慮到各個地區(qū)網(wǎng)絡(luò)普及率的情況。