周 迪 施 冬* 徐 豐
(長江大學地球科學學院,湖北 武漢430100)
分級統(tǒng)計地圖是通過將數(shù)據(jù)地圖化,用不同的色級或不同疏密的暈線表現(xiàn)地圖上各分區(qū)的數(shù)量指標,直觀地表現(xiàn)了各區(qū)現(xiàn)象的分布差別、分布趨勢[1]。目前,分級統(tǒng)計地圖的相似性研究相對較少,本文借鑒前人的思想并創(chuàng)新,基于改進的Jaccard系數(shù),進行分級統(tǒng)計地圖相似性比較,以計算分級統(tǒng)計地圖不同級別的數(shù)據(jù)集合之間的相似度,以突出分級統(tǒng)計圖的制圖對象的數(shù)量分布特征[2]。
本文基于Jaccard 系數(shù)算法,提出一種兼顧數(shù)據(jù)權重與計算效率的改進的Jaccard 系數(shù)算法,即比較具有相同數(shù)值的不同集合之間的相似度[3]。集合之間若無相同數(shù)值,則取值為0,以不同數(shù)據(jù)集合之間的相似性度量分級統(tǒng)計地圖的不同級別的相似性。設分級統(tǒng)計地圖的地理數(shù)據(jù)為數(shù)據(jù)集C={C1,C2,...,Ci}(i 為正整數(shù)),在ArcGIS 中將地理數(shù)據(jù)按照字段值分為m 級和n 級,不同級別之間進行兩兩對比,最后得出級別之間的相似性理論。則設Cm={D1,D2,...,Dm},Cn={E1,E2,...,En}(m,n 為正整數(shù)),用Cw(w為正整數(shù))表示數(shù)據(jù)集C 中的數(shù)值。其算法過程如下:
計算每個數(shù)值對集合相似度是否有貢獻。若集合Dm和集合En的數(shù)值無交集,則兩集合的相似度為0。設R(Cw)表示Cw是否在Dm和En中同時出現(xiàn),若R(Cw)=1。設數(shù)據(jù)Cw在集合Dm和En所占的數(shù)量個數(shù)分別為集合{1,2,3,...,X},{1,2,3,...,Y}(X,Y 為正整數(shù))。在集合Cm和集合En,若每個數(shù)值都不相等,數(shù)量個數(shù)為1;若有2 個數(shù)值相等,則數(shù)量個數(shù)為2,以此類推。設集合Dm和集合En的總數(shù)分別為S,T,計算Cw在集合Dm和集合En所占比重SD,TD,計算數(shù)據(jù)集合之間的Jaccard 相似度。設每個數(shù)值在總個數(shù)為K 的數(shù)量個數(shù)為M,計算L(Cw)表示每個數(shù)值在總個數(shù)K 中所占權重。設集合之間的相似度為Sim,Sim 越小,表明集合Dm和集合En越相似。計算得出的結果為不同級別的不同集合的相似度,用集合Q 表示,因不同級別的集合個數(shù)不一樣,比較級別之間的相似度較難,故需要進行數(shù)據(jù)標準化處理后再進行比較。Z-Score 標準化算法主要是將不同量級的數(shù)據(jù)統(tǒng)一轉化為同一個量級,劉競妍等對Z-Score 方法進行了總結,設不同級別之間的相似度為Z,?表示集合Q 的平均值,O 表示集合Q的標準差??梢杂肊xcel 計算集合Q 的平均數(shù)和標準差,提高計算效率。將集合Q 中每個數(shù)據(jù)標準化,并將計算的值相加,得到分級統(tǒng)計地圖不同級別之間的總相似度,即H=∑Z,對H 值進行比較,即得出不同集合的相似度差異。
本文選自2015 年河南省信陽市十個地區(qū)的人口密度數(shù)據(jù)(取整數(shù)),將人口密度數(shù)據(jù)按自然間斷點法分為3 級、5 級和7級,這里用同一色系的不同色相變化來體現(xiàn)信陽市的人口密度分布情況(見圖1)。本次實驗的數(shù)據(jù)即信陽市人口密度的數(shù)據(jù)集合C= {263,227,230,311,359,368,392,394,436,469},3 級的區(qū)間數(shù)據(jù)集合C3= {D1,D2,D3},5 級區(qū)間的數(shù)據(jù)集合C5={E1,E2,E3,E4,E5},7 級區(qū)間的數(shù)據(jù)集 合C7={E1,E2,E3,E4,E5,E6,E7}。則D1= {263,227,230},D2={311,359,368,392,394},D3={436,496};E1= {263,227,230},E2= {311},E3= 359,368},E4={392,394,436},E5= {496};E1= {227,230},E2= {263},E3={311},E4={359,368},E5={392,394},E6={436},E7={496}。
本文基于改進的Jaccard 系數(shù)算法,考慮數(shù)據(jù)權重這一因素,進行了分級統(tǒng)計地圖相似性比較,并且以信陽市十個地區(qū)的人口密度進行計算,得出分級統(tǒng)計地圖不同級別之間的相似度,該研究將為地理空間相似關系的進一步研究提供一定的參考價值。而該算法有助于提高地圖綜合制圖的質量,比較不同級別分級統(tǒng)計地圖的相似度,得出準確的數(shù)據(jù)分析,有利于為相關人和相關部門的決策提供參考價值,使相關部門做出更精準的判斷。本文運用改進的Jaccard 系數(shù)算法的計算相似度精度高,計算結果準確,但計算過程較為復雜,還需要從其它角度和其它方法進一步研究分級統(tǒng)計地圖的相似性度量問題。
圖1 基于自然斷點法的多級人口密度分布圖