文/潘巍 晉松
房地產(chǎn)的價(jià)格隨國(guó)民經(jīng)濟(jì)的發(fā)展上下波動(dòng),房地產(chǎn)價(jià)格主要用于房產(chǎn)交易所和銀行等金融機(jī)構(gòu)進(jìn)行抵押貸款或資產(chǎn)清算等活動(dòng)時(shí),對(duì)房地產(chǎn)的估算價(jià)格的準(zhǔn)確性高低對(duì)于金融行業(yè)和房產(chǎn)交易等為回避風(fēng)險(xiǎn)給出了至關(guān)重要的預(yù)測(cè)尺度。近幾十年來,國(guó)內(nèi)外常應(yīng)用相關(guān)的經(jīng)濟(jì)模型和方法來對(duì)房地產(chǎn)價(jià)格進(jìn)行估價(jià),如市場(chǎng)比較法、成本法和收益還原法等。但這些方法存在單一性和片面性。針對(duì)上述方法存在的問題,許多學(xué)者將機(jī)器學(xué)習(xí)技術(shù)引入到房地產(chǎn)估價(jià)中,在房地產(chǎn)的多元屬性和價(jià)格間構(gòu)建出回歸模型并得到了良好的效果。許多研究人員將層次分析、特征選擇、神經(jīng)網(wǎng)絡(luò)和SVM等技術(shù)應(yīng)用到房地產(chǎn)估價(jià)中,楊和禮等人利用RS-BPNN神經(jīng)網(wǎng)絡(luò)模型對(duì)房地產(chǎn)的價(jià)格進(jìn)行預(yù)測(cè),并采用粗糙集的屬性粒度計(jì)算來約簡(jiǎn)掉冗余房地產(chǎn)屬性。再者,李毅等人將SVM模型應(yīng)用到房地產(chǎn)估價(jià)中取得了良好的效果,有效解決了神經(jīng)網(wǎng)絡(luò)局部最優(yōu)的缺陷。
本文選取LS-SVM來建立房地產(chǎn)價(jià)格的回歸模型,從而實(shí)現(xiàn)對(duì)房地產(chǎn)評(píng)估的增量學(xué)習(xí)。
但在本文中,采集的房地產(chǎn)樣本是通過網(wǎng)絡(luò)爬蟲獲得的WEB數(shù)據(jù),它是隨著時(shí)間序列獲得的或在線采集的致使數(shù)據(jù)量將不斷增大,就必須使用增量式學(xué)習(xí)算法或在線學(xué)習(xí)算法來訓(xùn)練模型,以減少訓(xùn)練的存儲(chǔ)開銷。更重要的是增量學(xué)習(xí)算法會(huì)使學(xué)習(xí)機(jī)具有在線自適應(yīng)的能力,能夠隨著時(shí)間而進(jìn)化。
根據(jù)系統(tǒng)需求,房地產(chǎn)數(shù)據(jù)主要由人工采集、購(gòu)買和WEB數(shù)據(jù)組成。由此我們可將房地產(chǎn)數(shù)據(jù)定義為,其中為人工采集房產(chǎn)交易數(shù)據(jù),為購(gòu)買的房產(chǎn)交易數(shù)據(jù),為WEB的房產(chǎn)交易數(shù)據(jù)(),xh為一個(gè)房產(chǎn)交易數(shù)據(jù)樣本,yh為房產(chǎn)交易價(jià)格而 xh=(Xh1, Xh2, …, Xh10),每個(gè)房產(chǎn)交易數(shù)據(jù)樣本由10個(gè)屬性組成,它們分別是房屋新舊程度、戶型、裝修程度、樓層、朝向、建筑面積、樓盤綠化率、樓盤類型、所處區(qū)域和所處城市。
表1:房地產(chǎn)估價(jià)算法準(zhǔn)確性對(duì)比表
表2:房地產(chǎn)估價(jià)算法運(yùn)行時(shí)間(s)對(duì)比表
為了便于建立增量學(xué)習(xí)模型,令i+j+l=N,因l是隨時(shí)間不斷增大的,因此房產(chǎn)數(shù)據(jù)的整體規(guī)模N也是隨時(shí)間不斷增大的,因此我們對(duì)于整體的樣本而言,認(rèn)為樣本集D隨著時(shí)刻t的遞進(jìn)而每次新增一個(gè)樣本。增量學(xué)習(xí)的樣本集可以表示為,其中
那么,在數(shù)據(jù)樣本集D上,房產(chǎn)價(jià)格預(yù)測(cè)的LS-SVM回歸模型為:
來擬合樣本集,式(1)中x為房產(chǎn)交易數(shù)據(jù)樣本,y為房產(chǎn)價(jià)格,w和b為回歸參數(shù),w為超平面的法向量,b為超平面的截距。
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理和擬合誤差,回歸問題可以表示為約束優(yōu)化問題:
其中ξ為樣本的損失。
在房產(chǎn)價(jià)格的LS-SVM回歸模型中,以便使輸入空間中的非線性擬合問題變成高維特征空間中的線性擬合問題,可利用k(·)非線性映射把數(shù)據(jù)集從輸入空間映射到特征空間,我們選取高斯核對(duì)樣本做非線性映射。
則可轉(zhuǎn)化為如下形式
其中
本文提出的房產(chǎn)估價(jià)算法簡(jiǎn)稱為mySVRLSSVM。將本文使用得到方法與回歸支持向量機(jī)(R-SVM)和回歸神經(jīng)網(wǎng)絡(luò)算法(RNN)進(jìn)行性能對(duì)比分析。在從房產(chǎn)代理公司購(gòu)買到的近1年哈爾濱市的真實(shí)房產(chǎn)交易數(shù)據(jù)用于實(shí)驗(yàn),該數(shù)據(jù)集包含10000條數(shù)據(jù),稱它為RestateData數(shù)據(jù)集。其中R-SVM和mySVRLSSVM算法中采用了RBF核且利用十折交叉驗(yàn)證來得到上述三種算法中的參數(shù)。從RestateData數(shù)據(jù)集中選取出7個(gè)房產(chǎn)交易記錄作為最終的測(cè)試預(yù)測(cè)值的準(zhǔn)確性來使用,具體的對(duì)比結(jié)果見表1所示。
通過表1可以看出,R-SVM和mySVRLSSVM算法比RNN算法誤差率至少低1%,且mySVR-LSSVM算法比R-SVM算法的誤差率低0.14%,因此可知mySVR-LSSVM算法有良好的預(yù)測(cè)準(zhǔn)確性。
接下來,為了對(duì)比三種算法的實(shí)際訓(xùn)練時(shí)間,我們用RestateData數(shù)據(jù)集對(duì)其進(jìn)行測(cè)試。在RestateData數(shù)據(jù)集中分別選100,200,500,1000,2000,5000,10000個(gè)樣本作為訓(xùn)練樣本,并分別對(duì)每組樣本進(jìn)行重復(fù)10次實(shí)驗(yàn)來分析三種算法的運(yùn)行效率。房地產(chǎn)估價(jià)算法的運(yùn)行時(shí)間對(duì)比結(jié)果,見表2。
通過表2可以看出,隨著樣本數(shù)目的增加三種算法中mySVR-LSSVM的訓(xùn)練時(shí)間最少,RNN算法的訓(xùn)練時(shí)間最長(zhǎng),且在算法的測(cè)試時(shí)間上三種算法基本相同。