趙根 閆亮
重慶市規(guī)劃和自然資源信息中心 重慶 400015
傳統(tǒng)的數(shù)據(jù)管理與分析技術(shù)通常以結(jié)構(gòu)化數(shù)據(jù)為管理對象,利用集中化軟硬件架構(gòu)或計算存儲設(shè)施設(shè)備處理和分析小規(guī)模數(shù)據(jù)集,計算、存儲、分析成本較高,大數(shù)據(jù)的數(shù)據(jù)分析技術(shù)通過分布式架構(gòu)數(shù)據(jù)處理及管理方式,對于多源異構(gòu)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)、圖片、影像、文檔資料等)、大規(guī)模數(shù)據(jù)集(PB量級)等無論是數(shù)據(jù)類型還是數(shù)據(jù)量方面的處理,其效率有著指數(shù)級提升。大數(shù)據(jù)分析以數(shù)據(jù)全體或總體為分析對象,數(shù)據(jù)是核心和關(guān)鍵,聚焦于分析數(shù)據(jù)的屬性、特征、聯(lián)系和規(guī)律[1]。本文所指房地產(chǎn)市場監(jiān)測分析是對重慶市主城區(qū)城鎮(zhèn)土地上的商品房從規(guī)劃建設(shè)、預(yù)售許可、上市交易、可售存量、抵押貸款、轉(zhuǎn)移登記、二手房交易等全生命周期的動態(tài)數(shù)據(jù),同時采集經(jīng)濟(jì)政策、房產(chǎn)市場調(diào)控政策及部分開發(fā)企業(yè)、中介機(jī)構(gòu)等數(shù)據(jù)。所以利用大數(shù)據(jù)技術(shù)對長時間、全域性、多種類數(shù)據(jù)進(jìn)行處理和分析,對決策支持和政策制定研究具有重大意義。
本文以重慶市主城區(qū)2010年以來的房地產(chǎn)市場交易數(shù)據(jù)為研究對象,選取2010—2019年的年度及月度市場交易、檔案、宏觀調(diào)控政策等數(shù)據(jù),利用大數(shù)據(jù)挖掘、關(guān)聯(lián)分析等技術(shù),結(jié)合房地產(chǎn)市場監(jiān)測分析方法,構(gòu)建全面、合理的重慶市房地產(chǎn)市場分析指標(biāo)體系,對重慶市房地產(chǎn)市場進(jìn)行客觀分析和系統(tǒng)研究,為進(jìn)一步全面實(shí)現(xiàn)基于大數(shù)據(jù)分析的重慶市房地產(chǎn)市場監(jiān)測、分析等決策支持系統(tǒng)提供支撐和示范。
近年來,重慶市積極發(fā)揮中國西部橋頭堡引領(lǐng)作用,圍繞習(xí)近平總書記對重慶提出的營造良好政治生態(tài),堅(jiān)持“兩點(diǎn)”定位、“兩地”“兩高”目標(biāo),發(fā)揮“三個作用”和推動成渝地區(qū)雙城經(jīng)濟(jì)圈建設(shè)等重要指示要求,重慶經(jīng)濟(jì)飛速發(fā)展、城市建設(shè)大大加快,房地產(chǎn)市場也發(fā)展迅速。近十年全國房地產(chǎn)市場發(fā)展熱潮的影響,以及重慶市本身城市特點(diǎn)和建設(shè)的統(tǒng)籌規(guī)劃,對于重慶市房地產(chǎn)市場發(fā)展的規(guī)律和后期趨勢變化有著緊密的關(guān)系。因此,對重慶市房地產(chǎn)市場的發(fā)展情況進(jìn)行數(shù)據(jù)分析,對城市重點(diǎn)及熱點(diǎn)區(qū)域進(jìn)行監(jiān)測和趨勢判斷,這對于領(lǐng)導(dǎo)決策城市規(guī)劃建設(shè)及調(diào)整和指導(dǎo)房地產(chǎn)市場健康、有序、穩(wěn)定發(fā)展具有重大意義。分析過程中所需要加工處理的各類業(yè)務(wù)數(shù)據(jù)、交易數(shù)據(jù)、檔案數(shù)據(jù),以及宏觀經(jīng)濟(jì)、社會、政策數(shù)據(jù)等急劇增加[2],截止到2020年12月,重慶市主城區(qū)各不動產(chǎn)登記中心所辦理的交易、登記數(shù)據(jù)達(dá)到1.2PB。
當(dāng)前房產(chǎn)業(yè)務(wù)數(shù)據(jù)存在數(shù)據(jù)量巨大、含有大量非結(jié)構(gòu)化數(shù)據(jù)、實(shí)時動態(tài)變化等顯著特點(diǎn),傳統(tǒng)的建立在關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫基礎(chǔ)上的分析方式已不能支撐動態(tài)、智能化的決策分析需求,其不足之處主要體現(xiàn)在以下幾個方面[3]:
(1)對非結(jié)構(gòu)化數(shù)據(jù)支持有限,不能利用所有可能的有效數(shù)據(jù)源,使得分析結(jié)果存在片面性;
(2)傳統(tǒng)的數(shù)據(jù)存儲和處理方式?jīng)Q定了其難以應(yīng)對海量數(shù)據(jù)的讀寫和計算要求,其管理方式存在局限性;
(3)由于對海量數(shù)據(jù)處理能力較差,在做數(shù)據(jù)分析時,通常采用的方式是抽取一定樣本進(jìn)行有監(jiān)督的數(shù)據(jù)分析,這使得分析結(jié)果的準(zhǔn)確性很大程度依賴樣本的合理性和準(zhǔn)確度,存在不確定性。
房地產(chǎn)市場作為重要的經(jīng)濟(jì)市場之一,其在規(guī)模上、流程上、層次上和結(jié)構(gòu)上都具有相當(dāng)?shù)膹?fù)雜度。從流程上講,有土地供應(yīng)、開發(fā)建設(shè)、上市交易、轉(zhuǎn)移登記、可售管控、二手房交易等環(huán)節(jié)[4],其他各種類型數(shù)據(jù)還有以下幾種:
(1)基礎(chǔ)屬性數(shù)據(jù)。房屋作為市場中的基本數(shù)據(jù)單元,也是市場的交易客體。基本屬性數(shù)據(jù)包括:位置坐落、價格朝向、建筑信息、商業(yè)自住、房屋類型、周邊配套、附加設(shè)施、周界規(guī)劃信息等。
(2)市場交易數(shù)據(jù)。交易活動數(shù)據(jù)作為房產(chǎn)市場重要數(shù)據(jù)組成部分,其數(shù)據(jù)類型包括預(yù)售上市價格(一戶一價)、商品房及存量房交易數(shù)據(jù)(交易時間、成交量、抵押、轉(zhuǎn)移登記等動態(tài)數(shù)據(jù)),其中根據(jù)現(xiàn)房或期房,又需要進(jìn)一步收集網(wǎng)簽數(shù)據(jù)或金融機(jī)構(gòu)解抵押數(shù)據(jù)等。
(3)宏觀數(shù)據(jù)。房地產(chǎn)市場作為重大民生保障經(jīng)濟(jì)市場之一,涉及點(diǎn)多面廣,政府部門涉及發(fā)改、規(guī)劃、國土、住建、交通、市政、水務(wù)、電力等多個部門,又同時和經(jīng)濟(jì)政策、國家或城市房產(chǎn)調(diào)控政策等息息相關(guān)。
本文通過研究大數(shù)據(jù)關(guān)鍵技術(shù),通過分析、比較,選擇符合實(shí)際需求的成熟模型,挖掘房地產(chǎn)市場各因子之間的潛在關(guān)系,以此為突破口研究大數(shù)據(jù)技術(shù)在房地產(chǎn)市場分析與預(yù)測中的應(yīng)用,包括數(shù)據(jù)的收集存儲、建模及預(yù)處理、分布式數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、展現(xiàn)和應(yīng)用等多個方面。系統(tǒng)的整體架構(gòu)如圖1所示。
圖1 房地產(chǎn)大數(shù)據(jù)分析整體架構(gòu)圖
房地產(chǎn)交易大數(shù)據(jù)的采集和預(yù)處理是將業(yè)務(wù)數(shù)據(jù)進(jìn)行有選擇的篩選和清洗后采集到大數(shù)據(jù)平臺中,并針對實(shí)際的需求進(jìn)行相應(yīng)的預(yù)處理,這是進(jìn)行數(shù)據(jù)分析和預(yù)測的前提[5]。
房地產(chǎn)交易大數(shù)據(jù)的分析與挖掘,在現(xiàn)有成熟模型、算法的分析比較大數(shù)據(jù)應(yīng)用中,最關(guān)鍵的是分析手段與數(shù)據(jù)挖掘技術(shù)的利用,通過需求分析,確定研究對象,選擇合適的成熟算法和模型,從而挖掘房屋購買需求、房屋價格、購房者分類、行業(yè)政策、宏觀經(jīng)濟(jì)指數(shù)等之間的潛在關(guān)系,為決策提供支持[6]。
(1)建模。以房產(chǎn)市場分析管理為核心,以“圖-房-人-金-檔”為主線,分析客體(房)、主體(人)、載體的關(guān)系,建立房產(chǎn)業(yè)務(wù)時空模型[7],該模型構(gòu)建計(規(guī))劃、立項(xiàng)、建設(shè)、交易、使用、征收的房屋全生命周期,圍繞商品房項(xiàng)目、政策性項(xiàng)目(房源)分析房屋業(yè)務(wù)及數(shù)據(jù);分析權(quán)利主體、從業(yè)主體以及管理主體三者之間的關(guān)系,實(shí)現(xiàn)人(自然人和法人)的管理,同時通過房屋的各類交易,建立人與房的緊密聯(lián)系;在交易和管理過程中形成了各種載體,即房產(chǎn)檔案;在交易的過程中又產(chǎn)生了資金、稅費(fèi)以及各類房屋價格的管理。最終,房屋交易和管理的一切活動,全部基于地圖進(jìn)行時空的展示、管理和分析,如圖2所示。
圖2 房產(chǎn)業(yè)務(wù)時空數(shù)據(jù)模型圖
(2)數(shù)據(jù)清洗。數(shù)據(jù)清洗是將不規(guī)范的數(shù)據(jù)篩除掉或修正,主要發(fā)生的原因來源于系統(tǒng)錯誤或人為錯誤等環(huán)境,如系統(tǒng)出現(xiàn)錯誤字符、關(guān)聯(lián)數(shù)據(jù)錯誤、識別錯誤等,人為錯誤包含交易登記各環(huán)節(jié)中的漏簽、錯簽、空簽及其他錯誤等。小部分?jǐn)?shù)據(jù)在不影響分析的情況下可以篩除,但是錯誤信息可以同步反饋給各部門進(jìn)行修正。
(3)數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換主要是轉(zhuǎn)換數(shù)據(jù)的類型、粒度以及計算規(guī)則[8],主要原因是在市場發(fā)展過程中,市場交易規(guī)則一直處于相應(yīng)變化中,各區(qū)域?qū)τ谑袌鲆?guī)則的制定和統(tǒng)一過程存在一定的差異,如交易價格(建筑面積、使用面積)、房屋類型(別墅有獨(dú)棟、聯(lián)排、疊拼,洋房有高層洋房、花園洋房、底層洋房等),統(tǒng)計口徑也存在粒度、周期、類型、規(guī)則等各種計算差異性。數(shù)據(jù)轉(zhuǎn)換即是根據(jù)統(tǒng)一的計算規(guī)則、統(tǒng)一的統(tǒng)計指標(biāo)進(jìn)行各類數(shù)據(jù)的轉(zhuǎn)換。
為了更加直觀地研究全市房地產(chǎn)市場變化趨勢,尤其是重點(diǎn)區(qū)域的變化前后對比情況,如“沿輕軌線”“兩江四岸”“環(huán)內(nèi)環(huán)線”等,從地理位置、城市發(fā)展的不同角度對房產(chǎn)交易數(shù)據(jù)進(jìn)行分析,對上述區(qū)域建造了數(shù)據(jù)模型,通過歷年來的數(shù)據(jù)可以展示相關(guān)地域的房產(chǎn)上市和交易隨著時空變化而產(chǎn)生的不同。
如圖3左部分所示,通過渝北區(qū)沿軌道熱力圖我們可以發(fā)現(xiàn),軌道交通具有十分明顯的外部效益,其形成的聚集效應(yīng)勢必會改變城市發(fā)展過度分散的土地利用形態(tài)和空間分布,促進(jìn)沿線房地產(chǎn)增值,將中心區(qū)域和其他區(qū)域緊密連接。另外,也能夠節(jié)省城市建設(shè)用地和發(fā)展空間,對城市空間布局的優(yōu)化和節(jié)約城市空間資源具有重要作用。
圖3 近十年城區(qū)(左)及兩江四岸(右)房地產(chǎn)市場變化趨勢
圖3右部分所示數(shù)據(jù)模型主要是根據(jù)管理部門業(yè)務(wù)需要動態(tài)建立的“兩江四岸”數(shù)據(jù)模型,通過上述房產(chǎn)交易數(shù)據(jù)分析,展示歷年來重慶市作為江邊城市中房產(chǎn)相關(guān)數(shù)據(jù)的變化,可以發(fā)現(xiàn)重慶市購房者對于“江景房”的購置熱情。以沿江房產(chǎn)熱力圖分析可以發(fā)現(xiàn),房地產(chǎn)市場與空間規(guī)劃和政策引導(dǎo)具有緊密聯(lián)系,房屋除了使用價值、本身建筑屬性價值之外,還受到空間位置、景觀環(huán)境、交通規(guī)劃、職住平衡等各方要素的疊加影響。
本文深入研究了大數(shù)據(jù)技術(shù),并通過收集、分析、梳理研究了房地產(chǎn)市場分析指標(biāo)和核心業(yè)務(wù)數(shù)據(jù)等內(nèi)容,建立了重慶市房地產(chǎn)交易監(jiān)測分析專題研究模型,實(shí)現(xiàn)了大數(shù)據(jù)關(guān)鍵技術(shù)應(yīng)用于房地產(chǎn)交易數(shù)據(jù)的采集、預(yù)處理、分布式存儲和管理,利用現(xiàn)有房地產(chǎn)交易的數(shù)據(jù)進(jìn)行分析與挖掘,使用現(xiàn)有成熟模型、算法的分析比較,對房地產(chǎn)市場中交易情況和發(fā)展變化趨勢等進(jìn)行全面分析和研究。
下一步工作計劃是重慶市機(jī)構(gòu)改革工作的推進(jìn),整合重慶市發(fā)改委、規(guī)劃、土地、住建等多部門業(yè)務(wù)數(shù)據(jù),形成完整的跨時空、跨業(yè)務(wù)流程的房地產(chǎn)全生命周期監(jiān)測分析。