基于改進Jaccard 系數(shù)的分級統(tǒng)計地圖相似性比較

2020-05-19 09:15:22周迪施冬*徐豐

科學技術創(chuàng)新 2020年11期

周迪施冬* 徐豐

（長江大學地球科學學院，湖北武漢430100）

分級統(tǒng)計地圖是通過將數(shù)據(jù)地圖化，用不同的色級或不同疏密的暈線表現(xiàn)地圖上各分區(qū)的數(shù)量指標，直觀地表現(xiàn)了各區(qū)現(xiàn)象的分布差別、分布趨勢[1]。目前，分級統(tǒng)計地圖的相似性研究相對較少，本文借鑒前人的思想并創(chuàng)新，基于改進的Jaccard系數(shù)，進行分級統(tǒng)計地圖相似性比較，以計算分級統(tǒng)計地圖不同級別的數(shù)據(jù)集合之間的相似度，以突出分級統(tǒng)計圖的制圖對象的數(shù)量分布特征[2]。

1 分級統(tǒng)計地圖相似性方法

本文基于Jaccard 系數(shù)算法，提出一種兼顧數(shù)據(jù)權重與計算效率的改進的Jaccard 系數(shù)算法，即比較具有相同數(shù)值的不同集合之間的相似度[3]。集合之間若無相同數(shù)值，則取值為0，以不同數(shù)據(jù)集合之間的相似性度量分級統(tǒng)計地圖的不同級別的相似性。設分級統(tǒng)計地圖的地理數(shù)據(jù)為數(shù)據(jù)集C={C1，C2，...，Ci}(i 為正整數(shù))，在ArcGIS 中將地理數(shù)據(jù)按照字段值分為m 級和n 級，不同級別之間進行兩兩對比，最后得出級別之間的相似性理論。則設Cm={D1，D2，...，Dm}，Cn={E1，E2，...，En}(m，n 為正整數(shù))，用Cw(w為正整數(shù))表示數(shù)據(jù)集C 中的數(shù)值。其算法過程如下：

計算每個數(shù)值對集合相似度是否有貢獻。若集合Dm和集合En的數(shù)值無交集，則兩集合的相似度為0。設R(Cw)表示Cw是否在Dm和En中同時出現(xiàn)，若R(Cw)=1。設數(shù)據(jù)Cw在集合Dm和En所占的數(shù)量個數(shù)分別為集合{1，2，3，...，X}，{1，2，3，...，Y}(X，Y 為正整數(shù))。在集合Cm和集合En，若每個數(shù)值都不相等，數(shù)量個數(shù)為1；若有2 個數(shù)值相等，則數(shù)量個數(shù)為2，以此類推。設集合Dm和集合En的總數(shù)分別為S，T，計算Cw在集合Dm和集合En所占比重SD，TD，計算數(shù)據(jù)集合之間的Jaccard 相似度。設每個數(shù)值在總個數(shù)為K 的數(shù)量個數(shù)為M，計算L(Cw)表示每個數(shù)值在總個數(shù)K 中所占權重。設集合之間的相似度為Sim，Sim 越小，表明集合Dm和集合En越相似。計算得出的結果為不同級別的不同集合的相似度，用集合Q 表示，因不同級別的集合個數(shù)不一樣，比較級別之間的相似度較難，故需要進行數(shù)據(jù)標準化處理后再進行比較。Z-Score 標準化算法主要是將不同量級的數(shù)據(jù)統(tǒng)一轉化為同一個量級，劉競妍等對Z-Score 方法進行了總結，設不同級別之間的相似度為Z，?表示集合Q 的平均值，O 表示集合Q的標準差?？梢杂肊xcel 計算集合Q 的平均數(shù)和標準差，提高計算效率。將集合Q 中每個數(shù)據(jù)標準化，并將計算的值相加，得到分級統(tǒng)計地圖不同級別之間的總相似度，即H=∑Z，對H 值進行比較，即得出不同集合的相似度差異。

2 實例分析

本文選自2015 年河南省信陽市十個地區(qū)的人口密度數(shù)據(jù)（取整數(shù)），將人口密度數(shù)據(jù)按自然間斷點法分為3 級、5 級和7級，這里用同一色系的不同色相變化來體現(xiàn)信陽市的人口密度分布情況（見圖1）。本次實驗的數(shù)據(jù)即信陽市人口密度的數(shù)據(jù)集合C= {263，227，230，311，359，368，392，394，436，469}，3 級的區(qū)間數(shù)據(jù)集合C3= {D1，D2，D3}，5 級區(qū)間的數(shù)據(jù)集合C5={E1，E2，E3，E4，E5}，7 級區(qū)間的數(shù)據(jù)集合C7={E1，E2，E3，E4，E5，E6，E7}。則D1= {263，227，230}，D2={311，359，368，392，394}，D3={436，496}；E1= {263，227，230}，E2= {311}，E3= 359，368}，E4={392，394，436}，E5= {496}；E1= {227，230}，E2= {263}，E3={311}，E4={359，368}，E5={392，394}，E6={436}，E7={496}。

3 結論

本文基于改進的Jaccard 系數(shù)算法，考慮數(shù)據(jù)權重這一因素，進行了分級統(tǒng)計地圖相似性比較，并且以信陽市十個地區(qū)的人口密度進行計算，得出分級統(tǒng)計地圖不同級別之間的相似度，該研究將為地理空間相似關系的進一步研究提供一定的參考價值。而該算法有助于提高地圖綜合制圖的質量，比較不同級別分級統(tǒng)計地圖的相似度，得出準確的數(shù)據(jù)分析，有利于為相關人和相關部門的決策提供參考價值，使相關部門做出更精準的判斷。本文運用改進的Jaccard 系數(shù)算法的計算相似度精度高，計算結果準確，但計算過程較為復雜，還需要從其它角度和其它方法進一步研究分級統(tǒng)計地圖的相似性度量問題。

圖1 基于自然斷點法的多級人口密度分布圖