張凱業(yè), 汪 逸, 梁勤歐
(浙江師范大學(xué) 地理與環(huán)境科學(xué)學(xué)院,浙江 金華 321004)
建筑群的空間分布特征是指多個(gè)建筑物在地理空間分布中的形狀特征或排列方式,是進(jìn)行地理空間數(shù)據(jù)多尺度表達(dá)及地圖自動(dòng)綜合等的關(guān)鍵因素.因此,讓計(jì)算機(jī)像人腦一樣智能理解建筑群的空間分布特征,是地理空間認(rèn)知領(lǐng)域值得重點(diǎn)關(guān)注的問題[1-2].當(dāng)人們處于空間認(rèn)知方式時(shí),格式塔原則由于重視視覺認(rèn)知過程中物體結(jié)構(gòu)的整體性,它既符合人類對(duì)地理空間分布的認(rèn)知,又能讓計(jì)算機(jī)較完整地表達(dá)出隱含于建筑群中的空間信息,其在中大比例尺地圖自動(dòng)綜合中有著較為廣泛的應(yīng)用[3-4].
在格式塔原則約束下對(duì)建筑群聚類是挖掘建筑群空間分布特征、實(shí)現(xiàn)建筑群自動(dòng)綜合的首要條件.有許多研究對(duì)建筑群的聚類分析方法進(jìn)行了深入探討,如在層次聚類方面,劉慧敏等[5]、艾廷華等[6]利用建筑物加密點(diǎn)的Delaunay三角網(wǎng)描述建筑物之間的通視區(qū)域,并通過三角網(wǎng)的骨架線和最小生成樹(minimum spanning tree,MST)對(duì)建筑群進(jìn)行聚類.在MST基礎(chǔ)上,Qi等[7]提出逐個(gè)加入建筑物的面積、密度等格式塔因子對(duì)建筑群進(jìn)行分級(jí)約束,并根據(jù)各個(gè)影響因子的重要性,利用MST實(shí)現(xiàn)了建筑群的分層聚類.孫前虎[8]通過MST對(duì)比建筑物間的質(zhì)心距離、最近距離、旋轉(zhuǎn)卡殼平均距離等值,并結(jié)合方向性和鄰近性等探討了建筑物之間的不同距離約束對(duì)建筑群聚類的影響.王安東[9]、Zhang等[10-11]利用建筑物的MST連接邊,通過跟蹤算法實(shí)現(xiàn)了建筑群線性和非線性排列模式的識(shí)別,充分表達(dá)了建筑物的幾何特征和空間分布特征,為聚類后的建筑群進(jìn)行自動(dòng)綜合奠定了基礎(chǔ).在密度聚類方面,劉呈熠等[12]引入新的面要素分布密度參數(shù)——聚集度,利用聚集度識(shí)別聚類中心得到初始的面群,并通過建立的邊緣檢測(cè)和群組合并模型,得到空間鄰近面的主次關(guān)系,從而實(shí)現(xiàn)聚類.在劃分聚類方面,王真[13]、程博艷等[14]利用SOM(self organizing maps)競爭神經(jīng)網(wǎng)絡(luò)對(duì)建筑群進(jìn)行初步聚類,并在格式塔原則的約束下,通過行列掃描法和建筑物之間的因子特征相似性對(duì)建筑群進(jìn)行了二次精細(xì)聚類.另外,高曉蓉等[15]、楊俊等[16]基于空間相似性理論提出居民地、土地利用圖斑等面實(shí)體在多尺度空間中的語義相似度計(jì)算模型,為大比例尺下建筑群的聚類與地圖自動(dòng)綜合提供借鑒.
上述方法都充分考慮了建筑物自身的幾何形態(tài)特征和建筑群的空間分布特征,其中MST由于自身只需要設(shè)定少量參數(shù)便能達(dá)到聚類目的,在空間聚類中被廣泛應(yīng)用.相關(guān)文獻(xiàn)研究大都選用集中均勻排列的城區(qū)建筑群(類似圖1(a)),并設(shè)定合理閾值去對(duì)MST進(jìn)行剪枝、聚類,但都缺乏利用固定閾值對(duì)分散均勻排列的城區(qū)建筑群(類似圖1(b))的聚類討論.而閾值的設(shè)定往往具有較強(qiáng)的人工干預(yù)性.因?yàn)镸ST聚類不同于地圖自動(dòng)綜合,若點(diǎn)與點(diǎn)、線與線或面與面之間的距離小于地形圖圖式標(biāo)準(zhǔn)規(guī)范的距離,便對(duì)目標(biāo)進(jìn)行相應(yīng)的綜合操作.相反,MST剪枝邊的權(quán)值并沒有一個(gè)固定的標(biāo)準(zhǔn),需要人為指定.若閾值指定合理,則能提高計(jì)算機(jī)對(duì)建筑群聚類和自動(dòng)綜合的質(zhì)量,改善人們對(duì)地圖的認(rèn)知.但是合理的閾值往往需要大量的人工試驗(yàn),這并不符合計(jì)算機(jī)智能化處理的規(guī)定.為此,Zahn[17]提出了一種參數(shù)檢測(cè)方法,其不需要指定閾值就能對(duì)MST邊進(jìn)行剪枝,但是Zahn只是從算法的角度介紹各個(gè)參數(shù)設(shè)置的合理性,并沒有將該方法應(yīng)用到具有地理空間分布特征的建筑群中去,后續(xù)也沒有相關(guān)的研究將MST參數(shù)檢測(cè)與MST閾值方法進(jìn)行定量的比較.
(a)集中均勻排列城區(qū)建筑群
(b)分散均勻排列城區(qū)建筑群
因此,本文圍繞MST和格式塔原則下的建筑群空間分布智能理解這一主題,期待解決以下2個(gè)問題:1)對(duì)于分散均勻排列的城區(qū)建筑群來說,MST通過固定閾值聚類是否能像集中均勻排列的城區(qū)一樣維持建筑群的空間分布特征?若不能,原因是什么?2)MST參數(shù)聚類和閾值聚類的適應(yīng)性問題.
如何將格式塔這一心理學(xué)原則用于定量描述建筑物之間的特征差異?在描述這種差異之前,需先挖掘建筑物的鄰近關(guān)系.Delaunay三角網(wǎng)具備的“外接圓規(guī)則”和“最鄰近連接”特征是空間鄰近分析的有力工具[18].因此,本文利用Delaunay三角網(wǎng)將格式塔原則鄰近性質(zhì)對(duì)應(yīng)建筑物間的鄰近關(guān)系,相似性對(duì)應(yīng)鄰近建筑物間的面積差異、形狀差異、密度差異,同向性對(duì)應(yīng)方向差異.差異越大,則鄰近建筑物視覺距離越大,越不符合格式塔原則,越不能被視為一類.因此,可以將建筑物之間的特征差異問題定量為視覺距離大小問題,具體計(jì)算視覺距離的步驟如下:
首先,利用建筑物邊界內(nèi)插生成的加密點(diǎn)構(gòu)建Delaunay三角網(wǎng),若建筑物邊界與三角形其中一個(gè)邊界重合,則兩建筑物空間鄰近,生成鄰近矩陣,連接2個(gè)建筑物的質(zhì)心生成無加權(quán)值、不受約束的鄰近邊.其次,參考文獻(xiàn)[6]的骨架線連接方法,對(duì)連接之后的每條骨架線賦予通視區(qū)域,并進(jìn)行鄰近距離的計(jì)算,得到加權(quán)、不受約束的鄰近邊.同時(shí),選取建筑物的面積、密度、形狀、方向作為格式塔因子來約束鄰近邊,其對(duì)應(yīng)于格式塔原則的相似性和同向性.表1為各個(gè)參數(shù)的計(jì)算方法.
表1 視覺距離的定量化參數(shù)
之后利用式(1)~式(4)對(duì)鄰近邊進(jìn)行格式塔約束獲得加權(quán)、受約束的鄰近邊.
(1)
(2)
式(2)中:ymin和ymax分別表示2個(gè)鄰近建筑物之間最小和最大的面積、密度、形狀;Wy表示各因子對(duì)應(yīng)的權(quán)重.
(3)
式(3)中:θ表示建筑物之間的SMBR方向夾角.WD表示方向因子對(duì)應(yīng)的權(quán)重.
(4)
式(4)中,S表示視覺距離.最后利用Prim算法在空間鄰近圖的基礎(chǔ)上構(gòu)建MST,此時(shí)MST的權(quán)值為視覺距離S.如圖2(d)所示,雖然計(jì)算得到115—155和137—155的鄰近距離相當(dāng),但是經(jīng)過格式塔的面積約束,115—155的視覺距離要大于137—155的視覺距離(3個(gè)綠色建筑所示).
(a)Delaunay三角網(wǎng)
(b)骨架線(紅線)
(c)空間鄰近圖
(d)MST圖
最小生成樹(MST)是包含原圖n個(gè)頂點(diǎn)的極小連通子圖(圖2(d)所示),通過自身的結(jié)構(gòu)特點(diǎn)在空間聚類方面得到廣泛應(yīng)用,它并不用事先預(yù)定聚類的數(shù)目,而是只通過對(duì)邊的剪枝達(dá)到聚類的目的.大部分剪枝方法都是通過設(shè)定一定的閾值,若邊的權(quán)值大于該閾值,則剪枝該邊,Zahn稱剪枝邊為不一致邊.而MST邊的閾值剪枝僅僅考慮單條邊的權(quán)值,忽略了在一定范圍內(nèi)與該邊具有相似幾何和空間特征的建筑群之間邊的關(guān)系,即沒有考慮建筑群的空間分布特征.為此,Zahn提出一種檢測(cè)不一致邊的方法,即利用參數(shù)檢測(cè),其定義如下:
(5)
式(5)中,Il和Ir分別表示左鄰近邊綜合權(quán)值和右鄰近邊綜合權(quán)值,綜合權(quán)值為
I=max{f×Smean,Smean+n×Sstd}.
(6)
式(6)中:Smean表示左或右二階鄰近邊權(quán)值的平均值;Sstd表示左或右二階鄰近邊權(quán)值的標(biāo)準(zhǔn)差,若左或右不存在第2階鄰近邊,則只判斷右或左的二階鄰近邊;f和n為自定義參數(shù),由前人的研究結(jié)果可知,f≥1,n≥3對(duì)不一致邊的檢測(cè)有意義,具體原因可查看文獻(xiàn)[9].不一致邊檢測(cè)算法如下:
步驟1:將f設(shè)為1到2,步長為0.1,將n設(shè)為3~4,步長為0.1,即共有121種不同的參數(shù)組合.
步驟2:準(zhǔn)備A,B,C,D4個(gè)列表,A,B列表分別用來存儲(chǔ)左、右鄰近邊權(quán)值,C,D列表用來存儲(chǔ)檢測(cè)邊的ID碼,并將該邊標(biāo)為已訪問狀態(tài).同時(shí)提取檢測(cè)邊兩端頂點(diǎn)的ID碼作為變量.令L1為A|B列表中元素的個(gè)數(shù),L2為C|D列表中元素的個(gè)數(shù).
步驟3:在全局范圍內(nèi)搜索未訪問的并與一端頂點(diǎn)ID碼重合的邊,將權(quán)值寫入A列表中,將邊的ID碼寫入C列表,并將提取的鄰近邊標(biāo)為已訪問狀態(tài).計(jì)算L1.
步驟4:遍歷C列表,并重復(fù)步驟2和3直至所有邊都被標(biāo)為已訪問狀態(tài).計(jì)算L2.若L1=L2,則不存在第2階鄰近邊,將A列表及C列表清空.
步驟5:在全局范圍內(nèi)搜索未訪問的并與另一端頂點(diǎn)ID碼重合的邊,將權(quán)值寫入B列表中,將邊的ID碼寫入D列表,并將提取的鄰近邊標(biāo)為已訪問狀態(tài).計(jì)算L1.
步驟6:遍歷D列表,并將已遍歷的邊標(biāo)為已訪問狀態(tài),并重復(fù)步驟2和步驟3直至所有邊都被標(biāo)為已訪問狀態(tài).計(jì)算L2.若L1=L2,則不存在第2階鄰近邊,將B列表及D列表清空.
步驟7:分別對(duì)A,B列表計(jì)算Il和Ir,并利用式(5)~式(6)判斷MST中的不一致邊,若是不一致邊,則標(biāo)為False.之后轉(zhuǎn)至步驟2~步驟7,并清空A,B,C這3個(gè)列表,將所有邊都標(biāo)為未訪問狀態(tài).當(dāng)所有邊都判斷完畢后,將False邊刪除,轉(zhuǎn)至步驟1~步驟7.重新調(diào)整參數(shù)直至所有的參數(shù)組合計(jì)算完畢.
建筑物的語義特征在建筑物聚類或者是地圖自動(dòng)綜合中起著重要作用.為此,本文先利用建筑物的幾何形態(tài)特征和空間分布特征,再利用語義特征對(duì)建筑群進(jìn)行二次聚類,通過二次聚類的結(jié)果來表達(dá)更符合人類認(rèn)知的建筑群空間分布.在一般的地圖數(shù)據(jù)庫中,建筑物語義特征很難獲取,而通過高德地圖獲取POI數(shù)據(jù)是目前獲取建筑物語義特征效率最高的一種方式[20].雖然提取的POI數(shù)據(jù)能準(zhǔn)確描述建筑物的語義信息,但是并不是所有的POI數(shù)據(jù)點(diǎn)都會(huì)落在建筑物內(nèi),因此,需要對(duì)建筑物進(jìn)行一定距離的緩沖來覆蓋POI數(shù)據(jù)點(diǎn),若是建筑物的緩沖區(qū)沒有覆蓋POI數(shù)據(jù)點(diǎn),則默認(rèn)建筑物的語義特征與最鄰近建筑物相同.
由于POI數(shù)據(jù)類別的多樣性,高德地圖對(duì)POI數(shù)據(jù)進(jìn)行了分類編碼,本文根據(jù)試驗(yàn)區(qū)域?qū)OI劃分為相應(yīng)的語義類型.然而這些文本類的屬性信息并不像建筑物的面積、方向那樣能直接進(jìn)行定量化的描述和比較.為此,文獻(xiàn)[5]在語義信息的基礎(chǔ)上定義了建筑物的語義向量等指標(biāo),其定義為:
1)建筑物語義向量:假設(shè)研究區(qū)存在N類數(shù)據(jù)點(diǎn),那么任意的建筑物bi的語義類型可以通過一個(gè)N維向量進(jìn)行描述,表達(dá)為
Fi=(r1,r2,r3,…,rk,…,rN).
(7)
式(7)中,rk為落入bi的第k類數(shù)據(jù)點(diǎn)的數(shù)目與第k類數(shù)據(jù)點(diǎn)總數(shù)的比值.本文中N=7.
2)建筑物語義相似度:通過2個(gè)建筑物(bi和bj)的功能向量Fi,采用向量余弦來描述2個(gè)建筑物之間的語義相似度Fsim,表達(dá)為
(8)
式(8)中:|Fi|和|Fj|為功能向量的模;Fi·Fj為功能向量的內(nèi)積.
試驗(yàn)區(qū)域分別是金華市城區(qū)部分分散均勻排列建筑群,美國邁阿密城區(qū)部分集中均勻排列建筑群.建筑群矢量數(shù)據(jù)來源于OSM(open street map,開源平臺(tái)),前者共包含849個(gè)建筑,后者包含395個(gè)建筑,比例尺都為1∶6 500.如圖3所示.
(a)金華市部分分散均勻排列建筑群
(b)邁阿密部分集中均勻排列建筑群
(a)最優(yōu)參數(shù)聚類
(b)閾值聚類
(c)參數(shù)聚類值
(d)集中均勻排列建筑群聚類結(jié)果
(e)最優(yōu)參數(shù)聚類部分區(qū)域放大
1)圖4(e)中的虛線(ABCDFGH虛線)表示在閾值聚類中被視為不一致邊,而在參數(shù)聚類中被視為一致邊的線.對(duì)1區(qū)建筑進(jìn)行參數(shù)聚類時(shí),發(fā)現(xiàn)建筑群大致呈線性排列,MST邊沒有被剪枝,可以將這一列建筑群歸為一類;若使用閾值聚類,會(huì)發(fā)現(xiàn)ABCD邊由于大于設(shè)定的閾值而被剪枝,導(dǎo)致建筑群的空間分布特征被破壞.出現(xiàn)此情況是因?yàn)樵趨?shù)聚類時(shí)由于鄰近邊的存在,會(huì)提高式(5)中Il或Ir的值,導(dǎo)致其不容易符合式(5)不一致邊的識(shí)別條件.
2)對(duì)2區(qū)建筑進(jìn)行聚類時(shí),由于F邊連接的2個(gè)建筑面積及形狀的差異大,其視覺距離也增大,從而被閾值聚類和參數(shù)聚類同時(shí)視為不一致邊,維持了2區(qū)上方的8個(gè)建筑和下方的7個(gè)建筑的線性排列,符合格式塔原則.但是E邊和G邊在閾值聚類中卻被視為不一致邊,使得建筑群空間分布特征被破壞.原因是,雖然E,G兩邊的權(quán)值大于閾值,但是由于F邊的存在,利用參數(shù)聚類對(duì)E,G兩邊進(jìn)行不一致邊檢測(cè)時(shí)會(huì)提高式(5)中Il或Ir的值,導(dǎo)致其不易符合式(5)不一致邊的識(shí)別條件.
3)由于3區(qū)建筑群的整體排列結(jié)構(gòu)相對(duì)整齊,符合文獻(xiàn)[21]提到的組合直線模式,因此,3區(qū)建筑群往往會(huì)被歸為一類.但是由于面積、密度差異及鄰近距離較大,H邊所連接的兩建筑物的視覺距離權(quán)值會(huì)大于其余邊的權(quán)值,進(jìn)而在閾值聚類時(shí),H邊下方的2個(gè)建筑被單獨(dú)分成了一類.經(jīng)計(jì)算發(fā)現(xiàn),H邊的視覺距離為29.146 m,恰好大于27 m的閾值,而在參數(shù)聚類中H邊的Il為31.913 m,不符合不一致邊識(shí)別條件.
圖4(d)為集中均勻排列建筑群的MST,其利用參數(shù)聚類和閾值聚類挖掘建筑群空間分布特征.經(jīng)試驗(yàn)發(fā)現(xiàn),二者挖掘出的建筑群空間分布特征結(jié)果一致,并能很好地展現(xiàn)建筑群線性排列的空間分布特征,符合人類的視覺認(rèn)知.虛線表示檢測(cè)出的不一致邊.
經(jīng)過試驗(yàn)分析可以得出,MST的參數(shù)聚類不僅適用于集中均勻排列建筑群,且適用于分散均勻排列建筑群,而傳統(tǒng)MST的閾值聚類僅僅適用于集中均勻排列建筑群.
1)集中均勻排列建筑群由于排列整齊,同一簇建筑群之間鄰近距離小,視覺距離小,變化小,說明簇內(nèi)Cv值較小.而不同簇之間的建筑群,即圖5中MST虛線(不一致邊),其鄰近距離大,視覺距離權(quán)值大,明顯大于簇內(nèi)的視覺平均距離,這使得閾值較容易確定,很少出現(xiàn)在經(jīng)過格式塔約束后,簇內(nèi)建筑物視覺距離大于簇間建筑物視覺距離的情況.
2)簇間建筑物視覺距離往往會(huì)大于簇內(nèi)建筑物視覺的平均距離.對(duì)于分散均勻排列建筑群,由于簇與簇之間的鄰近距離小,簇間建筑物視覺距離與簇內(nèi)建筑物視覺平均距離的差異會(huì)小于集中均勻排列建筑群的差異,并且同一簇內(nèi)建筑物雖然鄰近距離小,但建筑物面積等變化大,視覺距離變化大,說明簇內(nèi)Cv值較大.這使得閾值不容易確定,導(dǎo)致同一簇內(nèi)部分建筑物視覺距離大于閾值,如圖4(e)的3個(gè)區(qū)域所示.
利用參數(shù)聚類后的建筑群進(jìn)行POI二次聚類.根據(jù)金華市城區(qū)部分建筑,將POI數(shù)據(jù)劃分為7種語義類型(具體見圖例).語義相似度閾值β1=0.7,建筑緩沖距離設(shè)置為5 m,得到二次聚類結(jié)果,具體如圖5所示.
(a)POI數(shù)據(jù)點(diǎn)
(b)POI二次聚類
實(shí)現(xiàn)建筑群自動(dòng)地圖綜合首先要挖掘出建筑群的空間分布特征,建筑群聚類是挖掘建筑群空間分布特征的基礎(chǔ).