李盛達(dá)
(南京審計(jì)大學(xué)信息工程學(xué)院,江蘇 南京211815)
中國(guó)的房地產(chǎn)業(yè)已經(jīng)成為國(guó)民經(jīng)濟(jì)的支柱產(chǎn)業(yè),房地產(chǎn)市場(chǎng)的調(diào)整將影響整個(gè)金融市場(chǎng)的變化,因此穩(wěn)定房?jī)r(jià)是國(guó)家近年來(lái)提出的目標(biāo)。[1-2]線性回歸是數(shù)理統(tǒng)計(jì)中的一種統(tǒng)計(jì)分析方法,需要給出訓(xùn)練數(shù)據(jù)的分類標(biāo)識(shí),是機(jī)器學(xué)習(xí)系統(tǒng)的典型構(gòu)成。有著建模速度快、可根據(jù)系數(shù)給出每個(gè)變量的解釋、對(duì)異常值敏感三個(gè)優(yōu)點(diǎn)。多元線性回歸分析是指包括兩個(gè)及以上自變量且因變量和自變量滿足線性關(guān)系。傳統(tǒng)的房?jī)r(jià)預(yù)測(cè)模型僅僅考慮了當(dāng)前房?jī)r(jià)與周圍城市房?jī)r(jià),沒有考慮市場(chǎng)環(huán)境及國(guó)家宏觀因素,如失業(yè)率、貸款利率及國(guó)民消費(fèi)指數(shù),而這些因素均會(huì)影響房?jī)r(jià)的走勢(shì),消費(fèi)指數(shù)更是一項(xiàng)影響經(jīng)濟(jì)發(fā)展的重要指標(biāo),預(yù)測(cè)時(shí)加以考慮,能更好的得出結(jié)果[3]。
首先考慮時(shí)間和房?jī)r(jià)指數(shù)作為最基本的變量。房?jī)r(jià)指數(shù)是指房屋銷售價(jià)格指數(shù),反映一定時(shí)期內(nèi)房屋銷售價(jià)格變動(dòng)程度和趨勢(shì)的相對(duì)數(shù),通過百分?jǐn)?shù)的表示來(lái)反映房?jī)r(jià)在不同時(shí)期的漲跌幅度,包括商品房、公有房屋和私有房屋的銷售價(jià)格變動(dòng)情況,可以很好反應(yīng)當(dāng)?shù)氐恼w水平與價(jià)格空間,部分?jǐn)?shù)據(jù)如表1 第2 列所示。
考慮失業(yè)指數(shù)作為一個(gè)重要變量,是指不同時(shí)期的失業(yè)人數(shù)比率,可以用來(lái)衡量失業(yè)人數(shù)變動(dòng)的程度,用百分?jǐn)?shù)表示并作為一項(xiàng)指標(biāo)。 實(shí)驗(yàn)中將其劃分為六種不同狀態(tài)(total_umemployed 完全沒有工作的;more-than-15-weeks 超過15 周的;not_in 沒有找工作的;multi_jobs 多份工作的;leavers 自動(dòng)離職的;losers 被解雇的),部分?jǐn)?shù)據(jù)如表1 第7-12 列所示。
考慮美國(guó)聯(lián)邦政府貸款買房的利率,貸款利率的高低直接決定著利潤(rùn)在借款企業(yè)和銀行之間的分配比例,進(jìn)而影響著借貸雙方的經(jīng)濟(jì)利益,是一項(xiàng)相當(dāng)重要的屬性。貸款利率因貸款種類和期限的不同而有所差異,同時(shí)也與借貸資金的稀缺程度相聯(lián)系。部分?jǐn)?shù)據(jù)如表1 第13 列所示。
考慮工業(yè)生產(chǎn)總值,其與國(guó)家整體發(fā)展相關(guān),且房地產(chǎn)行業(yè)與工業(yè)密不可分??紤]其中四個(gè)因素(total_expenditures 消費(fèi);labor_force_pr 人力資源;producer_price_index 生產(chǎn)者價(jià)格指數(shù);gross_domestic_product 國(guó)民生產(chǎn)總值),截取部分?jǐn)?shù)據(jù)如表1 第14-17 列所示。
建模時(shí),強(qiáng)調(diào)找到數(shù)據(jù)之間的相關(guān)性并經(jīng)行驗(yàn)證。同時(shí),使用數(shù)據(jù)要避免數(shù)據(jù)孤島情況的發(fā)生,需要對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)性操作,而相關(guān)分析的目的在于檢驗(yàn)兩個(gè)隨機(jī)變量的共變趨勢(shì)。對(duì)于回歸分析而言,其中的因變量必須為隨機(jī)變量,而自變量則可以是普通變量,但也可以是隨機(jī)變量,并不會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生根本性的影響。
表1 數(shù)據(jù)獲取及關(guān)聯(lián)性分析
3.2.1 首先對(duì)數(shù)據(jù)集進(jìn)行關(guān)聯(lián)合并,以多個(gè)表的共同列——日期作為連接依據(jù);部分代碼如下所示。
df=housing_price_index.merge (shiller,on='date')
.merge(unemployment,on='date')
.merge(federal_funds_rate,on='date')
.merge(gross_domestic_product,on='date')
3.2.3 評(píng)價(jià)指標(biāo):Ordinary Linear Square 普通線性方差
通過summary()函數(shù),觀察這個(gè)模型的情況,具體方式如圖1 所示,所得出的結(jié)果中,R-squared=0.952,說(shuō)明相關(guān)性比較大,即模型所選取的自變量可以有效的影響y 的值。
圖1 summary()函數(shù)分析
實(shí)驗(yàn)圖像如圖2 所示。
圖2 實(shí)驗(yàn)結(jié)果圖
通過對(duì)數(shù)據(jù)的擬合及對(duì)變量的分析,實(shí)驗(yàn)預(yù)測(cè)房?jī)r(jià)指數(shù)結(jié)果為174.883133,與實(shí)際值178.652 的誤差為3.769967,誤差率約為2%,屬于小概率范圍,進(jìn)一步證明了此模型可以很好的預(yù)測(cè)曼哈頓市房?jī)r(jià),具有很強(qiáng)的操作性與準(zhǔn)確率,實(shí)驗(yàn)較為成功,提出的多變量回歸模型是值得推薦并廣泛使用的,可以達(dá)到很好的預(yù)測(cè)效果。