陳曉東,余勁松弟
(福州大學(xué)數(shù)字中國研究院,福建福州 350108)
道路選取是地理信息科學(xué)領(lǐng)域的熱門研究問題,涉及地圖導(dǎo)航、交通情況分析、制圖綜合等多個方面的應(yīng)用[1-2],作為路網(wǎng)綜合的關(guān)鍵組成部分,對于優(yōu)化道路資源配置、指導(dǎo)道路層次建模,以及多尺度的地圖表達(dá)具有重要意義[3-4].道路選取涉及2個方面的問題:選多少和選哪些.前者是道路選取比例或數(shù)量的問題;后者是綜合多項(xiàng)因素進(jìn)行結(jié)構(gòu)化選取的問題[5],后者是本文研究的重點(diǎn).
目前,關(guān)于道路選取方法的研究主要涉及2類特征[6-13]:1)以幾何特征和語義特征為代表的道路個體特征;2)以拓?fù)涮卣骱涂臻g分布特征為代表的道路整體特征.由早期的主要基于道路等級的簡單選取[14],發(fā)展到基于4類特征中的多種多項(xiàng)指標(biāo)進(jìn)行綜合性的道路選取,但是指標(biāo)選取的范圍主要集中于道路自身特征,忽視了道路所處空間的復(fù)雜性,以及地理要素之間的相關(guān)性.
一條道路的重要性,不僅與其幾何、拓?fù)?、語義和空間分布特征有關(guān),更重要的是與其周邊重要地物或設(shè)施的關(guān)聯(lián)[15].常通過創(chuàng)建道路緩沖區(qū)的方法,建立道路與周邊要素的關(guān)聯(lián),以空間關(guān)系來計(jì)算道路關(guān)聯(lián)的信息,例如徐智邦[15]等創(chuàng)建30 m的緩沖區(qū),計(jì)算道路關(guān)聯(lián)的POI設(shè)施;張?jiān)品疲?6]等創(chuàng)建30 m的緩沖區(qū),計(jì)算POI連接的道路;袁林輝[17]建立300 m的緩沖區(qū),計(jì)算POI密度.但建立緩沖區(qū)的計(jì)算方法2個缺陷:1)因道路分布密度的差異,對路網(wǎng)建立固定量值的緩沖區(qū),可能會造成道路關(guān)聯(lián)信息計(jì)算不均衡的問題;2)不同的地區(qū),其路網(wǎng)和周邊要素的分布特征也存在一定的差異,難以調(diào)整緩沖區(qū)的閾值.緩沖區(qū)的閾值調(diào)整問題,其實(shí)質(zhì)上是一種關(guān)聯(lián)信息計(jì)算的調(diào)優(yōu)問題,不同地區(qū)的路網(wǎng)分布和道路周邊要素的分布特征都有所不同,使得該方法在不同地區(qū)的應(yīng)用,需要進(jìn)行重復(fù)性的最優(yōu)化閾值調(diào)整.對于關(guān)聯(lián)特征計(jì)算不均衡的的問題,除了路網(wǎng)和道路周邊要素的分布影響,緩沖區(qū)計(jì)算的方法也存在固有的缺陷,初始狀態(tài)的道路也存在著等級劃分,高等級和低等級的道路其影響范圍不同,以緩沖區(qū)的等值閾值計(jì)算不同等級道路的關(guān)聯(lián)信息,也會造成信息計(jì)算的不均衡性.
道路與其周邊要素關(guān)聯(lián)信息的計(jì)算實(shí)質(zhì)上是空間關(guān)系的計(jì)算,如緩沖區(qū)的方法類似于點(diǎn)面關(guān)系的拓?fù)溆?jì)算,緩沖區(qū)閾值的調(diào)整,使保持不動的點(diǎn)和變動的面之間會存在3種情況:1)點(diǎn)不屬于任何的面;2)點(diǎn)屬于某一個面;3)點(diǎn)同屬于多個面,這使得不同的閾值計(jì)算的結(jié)果會存在較大的偏差.空間關(guān)系是基于空間位置信息進(jìn)行計(jì)算和處理.空間位置主要表達(dá)形式為地址和坐標(biāo),以重復(fù)的坐標(biāo)點(diǎn)和閉合的坐標(biāo)串的計(jì)算,來調(diào)整緩沖區(qū)的閾值,使得在優(yōu)化閾值的同時會影響計(jì)算的效率.相比坐標(biāo)的多種表現(xiàn)形式和計(jì)算的復(fù)雜性,地址的表達(dá)形式更加穩(wěn)定.根據(jù)《GB/T 23705-2009數(shù)字城市地理信息公共平臺地名/地址編碼規(guī)則》提出的地址的層次規(guī)則,可以得出道路名是地址中的重要結(jié)構(gòu),每個地址都有其直接或間接關(guān)聯(lián)最緊密的一條道路,具有相對穩(wěn)定性和唯一性.通過對道路周邊要素地址的解析,能得到每個要素關(guān)聯(lián)最密切的道路,建立道路與其周邊要素的關(guān)聯(lián)關(guān)系.
綜上所述,筆者提出一種顧及語義關(guān)聯(lián)信息的道路選取方法,不同于通過空間位置信息中的坐標(biāo)來計(jì)算道路與其周邊要素的空間關(guān)聯(lián),通過空間位置信息中的地址來計(jì)算道路與其周邊要素的語義關(guān)聯(lián),兼顧了道路自身的主要特征和其周邊要素的關(guān)聯(lián)特征,進(jìn)一步地完善了道路的指標(biāo)體系,優(yōu)化了道路的選取方法,能夠提高道路選取的完整性.
1.1 指標(biāo)分析為了滿足多尺度、多領(lǐng)域和高精度的道路應(yīng)用需求,需要不斷地優(yōu)化道路評價體系和選取方法,而實(shí)現(xiàn)這一切的前提是科學(xué)的指標(biāo)選取.道路選取既要考慮指標(biāo)的廣度和深度,又要考慮實(shí)施的可行性.道路的特征是一個很大的范疇,涉及道路個體和道路整體的各個方面,常用的特征有幾何、拓?fù)?、語義和空間分布特征.
道路的長度和寬度是最重要、最常用的幾何特征[15,18],計(jì)算方法也相對簡單,通過簡單的幾何計(jì)算和等級關(guān)聯(lián),就可以獲取2項(xiàng)指標(biāo).道路的語義特征是4個特征里面范圍最廣的一個,眾多道路的屬性都可以用來表達(dá)和區(qū)分道路特征,例如:等級、限速、層級等.但其極度依賴于數(shù)據(jù)質(zhì)量,語義指標(biāo)值的缺失,很難計(jì)算和補(bǔ)充,比較容易計(jì)算和常用的主要有等級和限速[18-19].不同種類指標(biāo)間也具有相關(guān)性,在《城市綜合交通體系規(guī)劃標(biāo)準(zhǔn)》中等級、路寬和限速三者間存在緊密的相關(guān)性,得到任意兩者的指標(biāo),都可以將余下的指標(biāo)值控制在一個很小的區(qū)間內(nèi),在優(yōu)化指標(biāo)體系的同時,降低數(shù)據(jù)質(zhì)量對道路選取的不利影響.
道路的連通度、中介中心線和接近中心性是常用的3個拓?fù)渲笜?biāo)[12].其中連通度能最直觀的表達(dá)該道路在路網(wǎng)結(jié)構(gòu)中的重要性,中介中心線和接近中心性是偏向于路網(wǎng)整體的特征.對于局部區(qū)域的路網(wǎng)選取不夠理想,懸掛參數(shù)是對道路懸掛點(diǎn)的計(jì)算,是與連通度相輔相成的一個指標(biāo)[17].
廣義上道路的空間分布特征,不應(yīng)該局限于道路自身,應(yīng)該擴(kuò)展到與道路密切相關(guān)的要素上.狹義上道路的周邊要素與道路的關(guān)系,可以看作一種關(guān)聯(lián)特征,是對道路影響力或重要性的一種表達(dá),關(guān)聯(lián)越多,關(guān)系越復(fù)雜,說明該道路的外在影響力越強(qiáng).
1.2 關(guān)聯(lián)信息計(jì)算對于道路和周邊信息的關(guān)聯(lián)處理,關(guān)鍵在于找準(zhǔn)兩者間的連接點(diǎn).從GIS的角度上,多從空間上入手,以空間位置為紐帶,建立數(shù)據(jù)之間的關(guān)聯(lián).常用的空間位置表達(dá)方式有2種:空間坐標(biāo)和空間地址.空間坐標(biāo)常以數(shù)值的形式進(jìn)行處理、計(jì)算和分析,相比于地址在位置上的表述更加精確,但在穩(wěn)定性和計(jì)算強(qiáng)度上略有不足,數(shù)據(jù)或?qū)嶓w的空間位置存在著不同類型的坐標(biāo)值,在存儲和轉(zhuǎn)換中存在一定的偏差.地址信息具有穩(wěn)定的表達(dá)方式.在計(jì)算強(qiáng)度上,判斷兩者之間的關(guān)系,坐標(biāo)計(jì)算需要進(jìn)行坐標(biāo)或坐標(biāo)串?dāng)?shù)值計(jì)算,而地址可以直接通過語義上的比較建立關(guān)系.因此,從數(shù)據(jù)處理的穩(wěn)定性和計(jì)算強(qiáng)度上考慮,通過對地址的解析處理,來實(shí)現(xiàn)道路和周邊信息的關(guān)聯(lián)計(jì)算.
以POI數(shù)據(jù)為例,建立道路和周邊信息的關(guān)聯(lián).首先對POI數(shù)據(jù)地址的處理,需要考慮地址結(jié)構(gòu)的特點(diǎn)和道路的特征詞.根據(jù)《GB/T 23705-2009數(shù)字城市地理信息公共平臺地名/地址編碼規(guī)則》提出的地址的層次規(guī)則,可以得出道路名屬于地址第二層次的關(guān)鍵部分,在標(biāo)準(zhǔn)地址中出現(xiàn)的道路是相對唯一.在通用地址中,一條地址可能會拆解出多個道路,如道路交叉口和大小路組合的形式.從道路選取的意義上考慮,正則表達(dá)式會優(yōu)先提取地址中正向第一個的道路,道路通用的特征詞包括路、道、大道、大街、街等.正則表達(dá)式的匹配模版以通用道路特征詞為基礎(chǔ),結(jié)合地址中道路命名的地區(qū)特點(diǎn)進(jìn)行補(bǔ)充,編寫正則表達(dá)式提取代碼,并保存輸出.其次,將輸出結(jié)果和路網(wǎng)的道路名信息導(dǎo)入MySQL數(shù)據(jù)庫中,分別建立路網(wǎng)數(shù)據(jù)表和地址數(shù)據(jù)表.通過編寫SQL語句,計(jì)算POI數(shù)據(jù)中相同道路名出現(xiàn)的頻數(shù),并根據(jù)道路名將計(jì)算出的頻數(shù),賦值給路網(wǎng)數(shù)據(jù)表.最后,對于路網(wǎng)數(shù)據(jù)表中無頻數(shù)的道路,通過相似度查詢比對,并以空間中地址點(diǎn)和道路線的顯示為參考,統(tǒng)一道路名并補(bǔ)全缺少的道路頻數(shù),獲取完整的路網(wǎng)道路的語義關(guān)聯(lián)信息,具體流程如圖1所示.
圖1 關(guān)聯(lián)信息計(jì)算的主要流程
按照圖1中流程對區(qū)域內(nèi)地址數(shù)據(jù)和路網(wǎng)數(shù)據(jù)處理后,計(jì)算出道路的關(guān)聯(lián)頻數(shù)值,并與道路長度值做除法,計(jì)算道路的關(guān)聯(lián)密度值,以關(guān)聯(lián)頻數(shù)值和關(guān)聯(lián)密度值作為道路的2個關(guān)聯(lián)特征指標(biāo).
2.1 指標(biāo)選取及操作流程在考慮道路的幾何特征、語義特征和拓?fù)涮卣鞯幕A(chǔ)上,增加了關(guān)聯(lián)特征,綜合4類指標(biāo)進(jìn)行道路重要性評估和選取.每個特征對應(yīng)指標(biāo)如下:1)幾何特征包括道路長度和道路寬度;2)語義特征包括道路等級和道路限速;3)拓?fù)涮卣靼ㄟB接度和懸掛參數(shù);4)關(guān)聯(lián)特征包括道路的關(guān)聯(lián)頻數(shù)值和關(guān)聯(lián)密度值.
在選取好道路關(guān)鍵指標(biāo)的基礎(chǔ)上,通過路網(wǎng)數(shù)據(jù)獲取和計(jì)算幾何、拓?fù)浜驼Z義特征指標(biāo),并與道路關(guān)聯(lián)POI數(shù)據(jù)中計(jì)算出的關(guān)聯(lián)特征指標(biāo),共同構(gòu)建道路重要性評估模型,計(jì)算各條道路的重要性值,依據(jù)道路選取的數(shù)量、比例或重要性的閾值,從路網(wǎng)中抽取符合條件的道路,操作流程如圖2所示.
圖2 本文方法的流程
2.2 道路重要性評估模型定權(quán)方法對于多指標(biāo)的道路重要性評估模型,確定合理的指標(biāo)權(quán)重系數(shù),將直接影響到評估模型結(jié)果的科學(xué)性[20].確定權(quán)重系數(shù)的方法有2種:功能驅(qū)動賦權(quán)法和差異驅(qū)動賦權(quán)法.功能驅(qū)動賦權(quán)法是基于定權(quán)者對各評價指標(biāo)的認(rèn)知程度來確定權(quán)重系數(shù),其主觀性較強(qiáng).差異驅(qū)動賦權(quán)法主要根據(jù)數(shù)據(jù)之間的關(guān)系來確定權(quán)重,具有較強(qiáng)的數(shù)學(xué)理論基礎(chǔ)[4].熵值法是一種客觀賦權(quán)法,能夠根據(jù)各屬性的量化值,計(jì)算出各屬性的變異程度.通過信息熵的方法,最終得出較為客觀的屬性權(quán)重,廣泛的用于科學(xué)研究、工程技術(shù)和社會經(jīng)濟(jì)等領(lǐng)域[13].考慮到道路重要性評估模型指標(biāo)的復(fù)雜性,以及指標(biāo)值之間的度量偏差,最終決定通過熵值法計(jì)算各指標(biāo)的權(quán)重,主要包括6個計(jì)算步驟:
步驟1指標(biāo)數(shù)據(jù)的預(yù)處理.根據(jù)評估模型涉及的指標(biāo)因素,提取出n條道路的m個指標(biāo),可以看作一個n*m的矩陣M,其中xij為第i條道路的第j個指標(biāo),
步驟2各項(xiàng)指標(biāo)計(jì)量單位的標(biāo)準(zhǔn)化處理.由于各項(xiàng)指標(biāo)計(jì)量單位的差異,在計(jì)算綜合指標(biāo)前,需要對其進(jìn)行標(biāo)準(zhǔn)化處理,來計(jì)算標(biāo)準(zhǔn)化值Sij,
步驟3指標(biāo)比重的計(jì)算.以pij來表示第j項(xiàng)指標(biāo)下第i條道路占該指標(biāo)的比重,
步驟4指標(biāo)熵值的計(jì)算.以ej來表示第j項(xiàng)指標(biāo)的熵值,其中k=1/ln(n),滿足ej≥0,
步驟5指標(biāo)差異系數(shù)的計(jì)算.通過指標(biāo)熵值,計(jì)算對應(yīng)指標(biāo)的差異系數(shù)dj,
步驟6各項(xiàng)指標(biāo)權(quán)重的計(jì)算.通過單項(xiàng)指標(biāo)和總體指標(biāo)的差異系數(shù),計(jì)算各項(xiàng)指標(biāo)權(quán)重wj,
3.1 數(shù)據(jù)介紹與處理從成都市三環(huán)內(nèi)的路網(wǎng)中挑選屬性信息比較完整的快速路、主次干道和支路共計(jì)1 453條,從高德地圖獲取的POI數(shù)據(jù)共計(jì)273 714條,包括餐飲、公司、住宅、生活服務(wù)、科教文化等13個類別,如圖3所示.
圖3 數(shù)據(jù)介紹
數(shù)據(jù)處理包括2個部分:1)路網(wǎng)數(shù)據(jù)的處理,主要是對道路中心線的處理、道路等級的量化參考、連接度和懸掛參數(shù)的計(jì)算,通過要素轉(zhuǎn)線、打斷節(jié)點(diǎn)、拓?fù)錂z查和空間連接等計(jì)算;2)地址數(shù)據(jù)的處理,首先是獲取13個主要類別的POI數(shù)據(jù),然后判斷數(shù)據(jù)地址中道路信息的完整性,分析成都地區(qū)道路命名常用的語義特征詞,通過正則表達(dá)式進(jìn)行批量提取,計(jì)算關(guān)聯(lián)頻數(shù)值,以道路名為紐帶,把頻數(shù)賦給路網(wǎng)屬性對應(yīng)字段.實(shí)驗(yàn)案例1 453條道路,直接成功賦值的有1 320條,約為道路總數(shù)的91%.根據(jù)人工檢驗(yàn),9%的道路沒有賦值成功的原因主要有2個:1)2個數(shù)據(jù)的道路名不完全一致;2)部分道路附近不存在POI,通過創(chuàng)建30 m緩沖區(qū)計(jì)算得出,有45條道路的關(guān)聯(lián)值等于0.
根據(jù)道路的關(guān)聯(lián)頻數(shù)值和道路長度,計(jì)算道路的關(guān)聯(lián)密度值,并綜合道路長度、道路寬度、道路等級、道路限速、連接度和懸掛參數(shù),構(gòu)建道路重要性評估模型,然后通過熵值法計(jì)算各指標(biāo)權(quán)重,計(jì)算出各指標(biāo)權(quán)重因子分別是:道路長度0.106 278、道路寬度0.133 906、道路限速0.129 023、道路等級0.135 874、道路連接度0.039 344、道路懸掛系數(shù)0.197 219、道路關(guān)聯(lián)頻數(shù)值0.152 085、道路關(guān)聯(lián)密度值0.106 270.
3.2 多比例的對比分析在保持其他6個指標(biāo)不變的情況下,分別用語義和30 m緩沖區(qū)[15]計(jì)算道路的關(guān)聯(lián)頻數(shù)值和關(guān)聯(lián)密度值,并根據(jù)2種方法計(jì)算出來的道路重要性值進(jìn)行排序,按15%(217條)、30%(435條)和45%(652條)的比例選取道路進(jìn)行對比分析,如圖4所示.
由圖4可知,在3個不同比例的道路選取中,2種方法在道路選取的結(jié)果上具有高度相似性.為了更清晰地表達(dá)2種方法的相似性,通過空間連接和統(tǒng)計(jì)工具,計(jì)算共同選取的道路長度和數(shù)量,以及對應(yīng)的占比信息,如表1所示.
圖4 多比例道路選取效果對比圖
由表1可以看出,2種方法在多比例的道路選取中,共同選取的道路數(shù)量占選取道路總量的88%以上,并隨著選取的道路比例的提高,呈現(xiàn)上升趨勢;共同選取的道路長度占選取道路總長度的94%以上,也呈現(xiàn)出上升趨勢.
表1 多尺度道路選取結(jié)果的量化分析
通過以上結(jié)果分析表明本文方法在計(jì)算道路的關(guān)聯(lián)特征上,能與緩沖區(qū)計(jì)算的方法存在統(tǒng)一性,選取的道路結(jié)果間存在高度相似性.選取結(jié)果的相似性表明本文方法具有一定的實(shí)用價值,但無法表達(dá)方法的優(yōu)勢,將繼續(xù)從方法的輸入數(shù)據(jù)和輸出的重要性指標(biāo)上進(jìn)行比較,如表2和表3所示.
表2 2種方法在輸入數(shù)據(jù)上的比較
表3 2種方法在輸出的重要性指標(biāo)上的比較
從表2和表3中可以看出,相比緩沖區(qū)計(jì)算的方法,本文方法在計(jì)算道路對其周邊要素的關(guān)聯(lián)特征方面能夠使用更多數(shù)據(jù)量,綜合更多信息,數(shù)據(jù)利用率更高;在道路選取指標(biāo)的比較中,道路重要性值的總和、均值、極差、方差以及絕對值均差的差別都不大,但本文方法計(jì)算的極差和方差更小,說明值的離散程度更低,更穩(wěn)定.
綜上所述,本文方法在不需要坐標(biāo)生成點(diǎn)、坐標(biāo)轉(zhuǎn)換和緩沖區(qū)閾值調(diào)整等一系列的空間處理的條件下,同緩沖區(qū)計(jì)算道路關(guān)聯(lián)信息,得出的道路選取結(jié)果仍具有高度一致性.說明通過語義計(jì)算道路關(guān)聯(lián)信息的方法,可以補(bǔ)充或替代緩沖區(qū)這種以空間關(guān)系計(jì)算道路關(guān)聯(lián)信息的方法,具有3個方面的優(yōu)勢:1)操作流程去專業(yè)化,對GIS的操作要求低,便于多領(lǐng)域的使用和研究;2)數(shù)據(jù)綜合處理能力強(qiáng),可以利用和處理大體量數(shù)據(jù),且相比于空間計(jì)算,文本的語義計(jì)算效率更高,對計(jì)算機(jī)的處理能力要求更低;3)數(shù)據(jù)處理流程化,處理代碼的復(fù)用率高,不確定因素對于結(jié)果的影響主要限制在源數(shù)據(jù)的質(zhì)量上.
提出了一種顧及語義關(guān)聯(lián)信息的道路選取方法,首先通過對道路周邊要素地址數(shù)據(jù)的解析處理,然后建立道路與其周邊要素的語義關(guān)聯(lián),計(jì)算兩者間的關(guān)聯(lián)特征,融入道路選取的綜合評價體系中,進(jìn)一步地優(yōu)化道路的選取方法.在保持一些主要指標(biāo)不變的條件下,與緩沖區(qū)計(jì)算道路周邊要素的方法進(jìn)行多比例對比分析,得出以下結(jié)論:
1)能夠有效地計(jì)算道路與其周邊要素的關(guān)聯(lián)特征,道路選取結(jié)果與通過緩沖區(qū)計(jì)算得出的結(jié)果存在高度的相似性,可以替代緩沖區(qū)計(jì)算的道路關(guān)聯(lián)信息;
2)數(shù)據(jù)的綜合處理能力更強(qiáng),能匯聚和關(guān)聯(lián)更多與道路密切的數(shù)據(jù),處理結(jié)果更具說服力;
3)數(shù)據(jù)操作流程化,能有效減少空間數(shù)據(jù)預(yù)處理的時間,處理效率更高,穩(wěn)定性更強(qiáng).
此外本文方法在計(jì)算道路的關(guān)聯(lián)特征上,不局限于GIS的計(jì)算方法,便于更多領(lǐng)域的研究人員操作和使用.