錢 佩 黃 威 張燕旋
(廣東省國土資源測繪院,廣東 廣州 510500)
空間分異是城市空間中社會要素不均衡分布的體現(xiàn),引起城市地理學、社會學、人口學領域的廣泛關注[1]。經(jīng)濟不斷發(fā)展,引發(fā)了包括收入水平、貧富差距等資源配置方面不平衡的問題,進而導致了居民的收入分異問題[2]。國內外研究主要局限于居住空間的靜態(tài)分異,而在交通出行不斷發(fā)展的今天,活動空間下的分異研究顯得尤為必要,并且傳統(tǒng)模型難以對海量數(shù)據(jù)進行高效計算,從而難以準確挖掘活動空間下的居民分異規(guī)律。
本文提出一種基于表征學習的地理空間收入分異探測方法,通過深圳市POI數(shù)據(jù)、公交出行數(shù)據(jù)構造屬性相似矩陣、區(qū)域間接觸度、均質度矩陣,并通過圖嵌入方法得到每個區(qū)域的低維向量表達,最后以層次聚類方法得到不同尺度下深圳市居民收入分異程度。本文的貢獻包括:(1)基于人群出行的分異指數(shù)提出區(qū)域間分異強度矩陣的構建方法;(2)改進了異構信息圖嵌入模型,能夠結合靜態(tài)的屬性信息和動態(tài)的屬性信息。
空間分異是城市社會學與城市地理學的經(jīng)典研究議題,也是當前我國社會所面臨的現(xiàn)實問題。Reardon在2004年的一篇文章中,Massey在1988年提出的表示分異的五個維度重新歸類成兩個維度:空間接觸度與空間均質度[3]。
空間接觸度常常被用來表示群體與個體之間的關系,定義為個體所接觸到其他群體的人口與接觸到總人口的占比[4]。Schnell提出了個體分異程度的分異指數(shù)[4],該指數(shù)分為兩部分,一部分反映了個體與其他群體的孤立程度,另一部分反映了個體與其他群體的接觸程度,計算人群中不同群體的比例且按照個體所接觸的空間與時間進行加權。傳統(tǒng)的接觸度方法只考慮群體各自所在單元內的直接接觸,而未考慮群體在其他單元內的間接接觸。
空間均質度在早期使用D指數(shù)來進行描述,它能夠很好地探測居住空間的分異程度,但并不能反映群體所在空間的關系,也并不能像接觸度那樣反映出研究群體的人口占比等特性。學者們嘗試對D指數(shù)進行修正,Morgan提出的基于多群體計算的差異性指數(shù)被廣泛認可,能測算多群體空間的社會分異,如式(1)所示:
其中,式(1)中,ti與pi代表的含義為i單元內總人口數(shù)以及研究群體的占比;T為整個研究區(qū)域內的總人口數(shù);P為研究群體占比;n代表的含義為不同的研究區(qū)域。
圖嵌入(也叫網(wǎng)絡嵌入)模型包括鏈路預測、節(jié)點分類和社區(qū)檢測,它以高維真實網(wǎng)絡或圖形處理為核心,生成節(jié)點的低維矢量表示,從而對網(wǎng)絡進行下游計算。圖嵌入可歸納為三大類:基于因子分解的方法、基于隨機游走的方法和基于深度學習的方法?;谝蜃臃纸獾姆椒ㄊ菍D轉換成矩陣的形式,對這些矩陣進行因式分解,從而保持節(jié)點之間的相似度;基于隨機游走的方法核心思想是在網(wǎng)絡中不斷重復地隨機漫游,最終形成一條完整地通過網(wǎng)絡的路徑,隱式地保留節(jié)點間的相似度,獲取圖中局部上下文信息;基于深度學習的方法主要是將深度神經(jīng)網(wǎng)絡應用于圖的表示中。
定義1:屬性相似度圖Ga(V,Ea)是通過對兩節(jié)點之間的自身屬性的相似程度進行描述,Ea={Wa,ij}表示的是兩節(jié)點相似度,其值越大相似度越高。如式(2)所示:
式(2)中,||Hi-Hj||22代表相似性的量測值,γ是一個可選擇的參數(shù)。
定義2:空間接觸度圖GE={V,EExp,WExp},V為城市中單元的集合,EExp為單元之間基于可達性的接觸程度,接觸度越大,兩個單元間聯(lián)系越密切,WExp為單元間的接觸度集合,其子集WExp,i,j=Expij。M為各經(jīng)濟層次的集合,M={Rich,Middle,Poor},區(qū)域i與區(qū)域j的之間的可達性Acci→j,如式(3)所示:
式(3)中,ti→j為i區(qū)域到j區(qū)域的時間,tj表示其他區(qū)域到j區(qū)域的平均時間,duri→j表示i區(qū)域在j區(qū)域的逗留時間,表示其他區(qū)域到j區(qū)域后在j區(qū)域的逗留平均時間。i區(qū)域到j區(qū)域行程時間越久,意味著j區(qū)域對i區(qū)域的吸引力越大;在某個區(qū)域逗留的時間越久,與這個區(qū)域人口的接觸可能性就越大。定義i到j區(qū)域的局部接觸水平,如式(4)所示:
其中,
式(4)中,Trj,g表示j區(qū)域的g群體的數(shù)量;Acci→j表示i區(qū)域到j區(qū)域的可達性;Tri→j,k表示i區(qū)域到j區(qū)域的k群體數(shù)量;Trj→t,g表示j區(qū)域到t區(qū)域的g群體數(shù)量;Tri→t,k表示i區(qū)域到t區(qū)域的k群體數(shù)量。
定義3:空間均質度圖,GEv={V,EEv,WEv},如式(7)所示:
式(7)中,Acci,j為i區(qū)域和j區(qū)域與其他區(qū)域的累積可達性,I為辛普森系數(shù),Acci,j→cm為i區(qū)域和j區(qū)域流出到m群體的可達性,Acccm→i,j為m群體從其他區(qū)域流入到i,j區(qū)域的可達性;Rij→cm為i,j區(qū)域流出到m群體占整個區(qū)域流出的比例,Rcm→ij是指m群體流入到i,j區(qū)域與整個流入流量的比值。
Rj,m為j區(qū)域內m群體占整個區(qū)域m群體的比例,Ri→j,m是指i區(qū)域流向j區(qū)域m群體數(shù)量與i區(qū)域m群體數(shù)量的比值;Rm表示整個城市中m群體人口占比。
上文已經(jīng)定義了三類圖,為了得到公交出行的日?;顒訑?shù)據(jù)特征信息,需把三類圖嵌入一個相同的空間,本文引入了一種全局的聯(lián)合嵌入方法。以自編碼模型基礎模型,并加以改進。自編碼模型分為編碼和解碼,整體框架,如圖1所示。
圖1 聯(lián)合嵌入框架
編碼部分如式(10)所示:
式(10)中,Yk表示第K層表達;Wk、bk分別為第K層的權重和偏移量;σ為激活函數(shù)。
解碼部分如式(11)所示:
(1)損失函數(shù)的重建
目的是使輸入向量與輸出向量的誤差值最小,來維持屬性相似圖節(jié)點之間的相似性,屬性相似圖中的原始結構應該保持不變。
(2)接觸度屬性圖近似
要使得節(jié)點在低維空間具有接觸度圖的特征,損失函數(shù)可以被定義為:
(3)均質度屬性圖近似
兩節(jié)點在均質度方面表現(xiàn)十分相似,在重建加權誤差中它也是最小的。
最終的損失函數(shù)為:
式(16)中,α和β是可學習的參數(shù),用于對損失函數(shù)lp和ls進行加權計算。從公交出行模型中的三個獨立方面構建的圖進行模擬和近似計算損失函數(shù)。在后面的實驗中把損失函數(shù)的最終公式中的可變的加權參數(shù)設置為α=1和β=0.2。
分層的社區(qū)結構由兩個等級構成:(1)比較低級的社區(qū)結構是由K均值聚類得到;(2)比較高級的社區(qū)結構是由低級社區(qū)結構聚類而成。
低級社區(qū)結構通過間隔統(tǒng)計來確定最佳的簇數(shù),當間隔統(tǒng)計量G(k)取到最大值時得到了最佳的聚類數(shù)k,如式(17)所示:
式(17)中N是生成的數(shù)據(jù)集的個數(shù),這些數(shù)據(jù)集在圖嵌入向量的時候獲得;Dkn是第n個數(shù)據(jù)集與其他數(shù)據(jù)集之間的距離之和,用蒙特卡羅抽樣法來計算這些距離;Dk是所有K個聚類之間的距離之和。
通過K均值聚類方法,在最佳的聚類數(shù)k已經(jīng)確定的情況之下生成低級社區(qū)結構。在低級的社區(qū)結構中,對組成的嵌入向量進行平均值計算來提取嵌入向量;通過層次聚類,根據(jù)各個簇之間的平均距離生成高級社區(qū)結構。通過使用樹狀圖對高級社區(qū)的結構進行描述,最終完成不同尺度的收入分異探測。
根據(jù)國家統(tǒng)計局統(tǒng)計資料,2019年深圳市人均GDP達3萬美元,其中收入水平較高的南山區(qū)人均GDP為5.93萬美元,這只是一個市區(qū)級的粗略比較,在更加精確的區(qū)域劃分內,人均GDP的差距會進一步拉大。在這樣一個人均GDP位于國內前列的城市,其內部存在的收入分異值得去分析研究。更高的收入往往意味著能夠買得起更貴的房子,收入與房價之間存在正相關關系。通過深圳市房價分布反映收入分異,如圖2所示。
圖2 研究區(qū)分異情況
收入等級劃分為三個:高收入、中等收入以及低收入。且中等收入的上限與下限分別是高收入的下限以及低收入的上限。按照人均GDP來設置中等收入的下限,按照平均的人均GDP兩倍來設置中等收入的上限。
深圳市有8條地鐵線路、808條公交線路以及6425個公交以及地鐵站點。這些龐大而復雜的交通路線與節(jié)點共同構成了支撐深圳市日常公共交通出行的交通網(wǎng)絡。在這些公共交通出行數(shù)據(jù)中,使用了開始時間、結束時間、上下車站臺、交通路線等數(shù)據(jù)項。交通數(shù)據(jù)類型如表1所示。
表1 公交數(shù)據(jù)示例
根據(jù)聚類方法對社區(qū)進行檢測,以工作日早晚高峰交通出行數(shù)據(jù)為數(shù)據(jù)源,對早晚高峰的社區(qū)類型進行提取與分析。當K=14時聚類最為明顯,因此將早晚高峰的嵌入結果分為14類。
(1)低級社區(qū)結構
在所有的類別中,類別0(藍色框內)和類別6(紅色框內)所占的比重最大。通過與經(jīng)濟分區(qū)圖相對比再綜合交通流量數(shù)據(jù)發(fā)現(xiàn):類別0處于低收入水平單元且表現(xiàn)出交通流出比例遠大于流入比例;類別6處于中高收入水平單元且表現(xiàn)出交通流入比例遠大于流出比例。再進一步結合居住、辦公、游玩等社會功能性區(qū)域劃分信息,在類別0中:多數(shù)單元位于距離市中心商業(yè)辦公區(qū)2.5千米內的居住區(qū),而剩下的多數(shù)位于距離市中心商業(yè)辦公區(qū)5千米以上的市郊。在類別0中的流出群體大多在類別6中聚集,類別6中的一個普遍情況是:處于較為發(fā)達的深圳市中心地區(qū),幾乎囊括了所有的中高收入單元,區(qū)域內集中了大量的辦公區(qū)、交通樞紐、商業(yè)中心、娛樂場所、金融中心。與類別0相比,類別1雖然也是屬于高流出低流入類型,但是類別1主要為短距離出行,類別0則是中長距離出行。如圖3所示。
圖3 早高峰低層次社區(qū)結構
與早高峰類似,通過對晚高峰的低級社區(qū)結構進行分析,得出了與早高峰類似的結果。在晚高峰的14個低級社區(qū)結構當中,類別3(與早高峰類別0相對應)與類別5、7(與早高峰類別6、2)占了研究總單元的大部分。
在類別3中,群體在通過中長途的公交出行之后流入到低收入的居住區(qū)。
早晚高峰交通出行數(shù)據(jù)體現(xiàn)了高度的對稱性,市民在早高峰階段從居住區(qū)流向辦公場所,結束了一天忙碌的工作之后,在晚高峰由辦公場所流向居住區(qū),然而這只是低收入群體在工作日的流動情況,中高收入群體在這方面則表現(xiàn)得不如低收入群體明顯。幾個比較合理的解釋是:中高收入群體居住區(qū)域原本就位于市中心辦公場所附近,上班過程中無需使用交通工具;中高收入群體對公共交通的依賴程度較低;中高收入群體上下班時間相對來說不是十分地固定。
在對早晚高峰的低層次社區(qū)結構分析中發(fā)現(xiàn),分異現(xiàn)象在不同的類別和表現(xiàn)的程度上也不同。以早高峰為例,在類別0、10、12中,分異現(xiàn)象十分明顯,類別0前文已作解釋,而類別10、12都有一個共同的特點:位于城市邊緣的郊區(qū)或城市中心之間的低收入地區(qū)。而在類別1、4、9中,分異現(xiàn)象則表現(xiàn)得不是那么明顯,這幾個類別交錯散落在城市較發(fā)達的高收入地區(qū)。
(2)高級社區(qū)結構
圖4 晚高峰低層次社區(qū)結構圖
圖5 早高峰高級社區(qū)結構樹狀圖
表2 高級社區(qū)統(tǒng)計
通過使用層次聚類的方法,對上面的14個低級社區(qū)結構重新生成了6個高級社區(qū)結構。以早高峰為例對這6個高級社區(qū)結構進行了統(tǒng)計:
對這6個類別的模式進行分析得到:
類別Ⅰ:由低級類別2組成,占比為6.06%,主要的模式是低收入?yún)^(qū)域與中高收入?yún)^(qū)域之間的中短距離出行,流入比例高于流出,范圍較為分散。
類別Ⅱ:由低級類別4、9、12、13組成,占比為18.16%,主要的模式是低收入?yún)^(qū)域與中高收入?yún)^(qū)域內部的短距離出行,流入比例高于流入,范圍十分集中。
類別Ⅲ:由低級類別0、6組成,占比為35.42%,主要模式是低收入?yún)^(qū)域與中高收入?yún)^(qū)域之間的中長距離出行,流入與流出比例差別較大,范圍較為集中。
類別Ⅳ:由低級類別3、7、10組成,占比為17.75%,主要模式是中高收入?yún)^(qū)域內部之間的中距離出行,流入比例大于流出,范圍較為集中。
類別Ⅴ:由低級類別1組成,占比為6.06%,主要模式是低收入?yún)^(qū)域與中高收入?yún)^(qū)域之間的中短距離出行,流出比例大于流入,范圍較為集中。
圖6 早高峰高級社區(qū)結構圖
類別Ⅵ:由低級類別5、8、11組成,占比為13.22%,主要模式是低收入?yún)^(qū)域與高收入?yún)^(qū)域之間的中段距離出行,流出比例大于流入,范圍較為集中。
在對6個高級類別的所在區(qū)域的分異情況可視化后,發(fā)現(xiàn)在藍色框內的區(qū)域存在著較強的分異現(xiàn)象,這與低級社區(qū)的情況相吻合。這些區(qū)域內的單元大多都是低收入單元,且離辦公場所有一段較遠的距離,所以在早高峰出行中表現(xiàn)出中長距離的流出模式。而在類別Ⅰ、Ⅴ較為集中的區(qū)域,可以明顯地發(fā)現(xiàn)分異水平較低。
由此得出:分異在低收入?yún)^(qū)域的強度高于高收入?yún)^(qū)域,即位于低收入?yún)^(qū)域的群體往往更容易感受到分異現(xiàn)象。原因是:辦公場所往往位于城市中心地區(qū),而城市中心地區(qū)承載著大量的金融中心、娛樂場所、商業(yè)中心,所以辦公場所與高收入?yún)^(qū)域有著緊密的聯(lián)系,當來自不同群體的個體聚集到辦公場所時,高收入?yún)^(qū)域將會表現(xiàn)出不同群體的流入模式。同時,低收入?yún)^(qū)域通常位于城市的住宅區(qū),所以低收入?yún)^(qū)域表現(xiàn)的只是低收入群體的流出模式,因此低收入?yún)^(qū)域更容易感受分異現(xiàn)象。位于城市偏遠地區(qū)的低收入?yún)^(qū)域,距離高收入?yún)^(qū)域較為遙遠且缺乏對高收入群體的吸引,導致分異現(xiàn)象尤其明顯,而這類區(qū)域在早高峰的出行過程中一般表現(xiàn)為中長距離的流出模式。
本文利用公共交通出行數(shù)據(jù)、POI數(shù)據(jù)提出了構建城市節(jié)點之間局部接觸度和均質度的矩陣構建方法,通過數(shù)據(jù)驅動的方式對城市內部的收入分異情況進行探測,為空間分異的研究提供了一種新思路;在圖嵌入過程中,融合了靜態(tài)的屬性特征和動態(tài)的出行特征,并將出行信息抽象為接觸度圖和均質度圖;最后以非監(jiān)督的聚類方法完成了深圳市地理空間的收入分異探測,可為城市管理與建設、公交線路優(yōu)化等提供決策參考。