楊文濤,鄧 敏,王玉朝,顏才玉
(1.中南大學(xué)地理信息系,湖南長(zhǎng)沙410083;2.云南大學(xué)資源環(huán)境與地球科學(xué)學(xué)院,云南昆明650091; 3.中南大學(xué)工商管理系,湖南長(zhǎng)沙410083)
一種基于信息熵的時(shí)空點(diǎn)模式分析方法
楊文濤1,鄧 敏1,王玉朝2,顏才玉3
(1.中南大學(xué)地理信息系,湖南長(zhǎng)沙410083;2.云南大學(xué)資源環(huán)境與地球科學(xué)學(xué)院,云南昆明650091; 3.中南大學(xué)工商管理系,湖南長(zhǎng)沙410083)
現(xiàn)有時(shí)空點(diǎn)模式分析方法在度量時(shí)空鄰近或時(shí)空密度時(shí),存在時(shí)空耦合參數(shù)選擇的主觀性問題,無(wú)法得到有效的分析結(jié)果,為此,該文提出了一種基于信息熵的時(shí)空點(diǎn)模式分析方法。首先,計(jì)算每個(gè)時(shí)空點(diǎn)實(shí)體的空間最近鄰的時(shí)間距離;進(jìn)而,統(tǒng)計(jì)不同范圍內(nèi)空間最近鄰的時(shí)間距離的頻率分布特征,計(jì)算歸一化信息熵值描述分布的不確定性程度,歸一化熵值越大越表現(xiàn)為聚集分布,熵值越小越趨近于隨機(jī)分布。最后進(jìn)行了模擬實(shí)驗(yàn)比較和實(shí)際應(yīng)用驗(yàn)證分析,結(jié)果表明:該方法在無(wú)須輸入敏感性參數(shù)條件下,能夠識(shí)別不同點(diǎn)模式類型,并能近似度量不同強(qiáng)度的聚集模式。
時(shí)空點(diǎn)模式;空間最近鄰的時(shí)間距離;信息熵
時(shí)空點(diǎn)模式分析是時(shí)空數(shù)據(jù)分析的一項(xiàng)重要內(nèi)容,旨在從時(shí)空點(diǎn)數(shù)據(jù)集中提取點(diǎn)群的時(shí)空分布特征和相互關(guān)系,即探討時(shí)空點(diǎn)對(duì)象集表現(xiàn)為聚集、隨機(jī)還是均勻分布模式[1,2]。對(duì)時(shí)空點(diǎn)數(shù)據(jù)集進(jìn)行模式分析,一方面能夠直接獲取時(shí)空點(diǎn)對(duì)象集的分布信息,如在犯罪“熱點(diǎn)”探測(cè)中,時(shí)空點(diǎn)模式分析可用于判別研究區(qū)域某時(shí)間段的犯罪事件集合是否表現(xiàn)為時(shí)空聚集模式,聚集程度如何等[3];另一方面也是進(jìn)行時(shí)空聚類、時(shí)空異常探測(cè)等相關(guān)分析的基礎(chǔ)性工作,如在時(shí)空點(diǎn)群聚類分析前需要對(duì)其可聚性進(jìn)行判別,只有在數(shù)據(jù)表現(xiàn)為聚集分布模式的條件下,得到的聚類結(jié)果才是有效的[4-6]。由此可見,時(shí)空點(diǎn)模式分析具有非常重要的作用。
現(xiàn)有空間點(diǎn)模式分析方法[7-15]主要借助于空間鄰近或空間密度指標(biāo)來判別分布類型,僅考慮空間特征卻忽略了時(shí)間特征,從而難以適應(yīng)于存在明顯時(shí)間跨度的時(shí)空數(shù)據(jù)。針對(duì)這一問題,一些研究試圖將現(xiàn)有的空間點(diǎn)模式分析方法從空間域擴(kuò)展到時(shí)空域,從時(shí)空一體化的角度度量時(shí)空鄰近或計(jì)算時(shí)空密度,然而時(shí)空耦合參數(shù)選擇的主觀性,直接影響著時(shí)空點(diǎn)模式分析結(jié)果的有效性。例如,在基于細(xì)胞單元的密度計(jì)算過程中[16-18],時(shí)空細(xì)胞單元的空間長(zhǎng)度與時(shí)間長(zhǎng)度難以確定,而在基于距離的密度計(jì)算過程中[19],空間k近鄰與時(shí)間k近鄰的參數(shù)k值亦難以確定。為此,本文提出一種基于信息熵的時(shí)空點(diǎn)模式分析方法,在不需要用戶輸入敏感性參數(shù)的條件下,該方法能夠兼顧空間特征與時(shí)間特征,采用空間最近鄰的時(shí)間距離來度量時(shí)空點(diǎn)對(duì)象間的鄰近性,同時(shí)考慮到空間最近鄰的時(shí)間距離在不同時(shí)空點(diǎn)模式類型下分布的差異性,借助于信息熵理論判別時(shí)空點(diǎn)模式的分布類型。
時(shí)空點(diǎn)模式主要包括3種類型:聚集分布模式、隨機(jī)分布模式和均勻分布模式,而地理空間中的點(diǎn)數(shù)據(jù)集一般較少表現(xiàn)為均勻分布,因而時(shí)空點(diǎn)模式分析主要是識(shí)別數(shù)據(jù)是隨機(jī)分布還是聚集分布(圖1)。對(duì)基于信息熵的時(shí)空點(diǎn)模式分析理論與步驟介紹前,有必要給出與分析過程有關(guān)的幾個(gè)概念。
圖1 時(shí)空點(diǎn)分布模式的3種類型Fig.1 Three types of spatio-temporal point pattern
1.1 相關(guān)定義
定義1 時(shí)空點(diǎn)對(duì)象:在地理空間中發(fā)生的事件能夠采用點(diǎn)對(duì)象進(jìn)行抽象表達(dá),這些地理事件有確定的空間位置(x,y)與確定的時(shí)間t,數(shù)據(jù)表示為(x,y,t),如圖2a所示。
定義2 空間最近鄰的時(shí)間距離:給定時(shí)空點(diǎn)實(shí)體對(duì)象集合P,P={p1,p2,p3,…,pn},對(duì)于P中任一點(diǎn)pi(xi,xi,ti),都存在pj(xj,xj,tj)(j≠i),使得任意pk(xk,yk,tk)(k≠i,k≠j))都滿足:
則pj為pi的空間最近鄰,pi空間最近鄰的時(shí)間距離為|ti-tj|。如圖2b所示,對(duì)p1點(diǎn)而言,其空間最近鄰為p2,在這種情況下p1的空間最近鄰的時(shí)間距離為Δt,即p1與p2時(shí)間距離的絕對(duì)值。
圖2 時(shí)空點(diǎn)對(duì)象與空間最近鄰時(shí)間距離的示意圖Fig.2 Illustration of spatio-temporal point object and temporal distance of spatial nearest neighbor
1.2 基于信息熵的時(shí)空點(diǎn)模式分析原理
時(shí)空點(diǎn)數(shù)據(jù)同時(shí)具有空間特征與時(shí)間特征,由于兩者具有不同的量綱,因而不能直接由空間位置信息與時(shí)間信息計(jì)算時(shí)空距離,也就無(wú)法得到時(shí)空最近鄰。但是空間最近鄰的時(shí)間距離是空間位置信息與時(shí)間信息的結(jié)合,空間最近鄰的時(shí)間距離能夠間接地度量時(shí)空鄰近性,高密度時(shí)空區(qū)域的空間最近鄰的時(shí)間距離在統(tǒng)計(jì)上小于低密度的空間最近鄰的時(shí)間距離,隨機(jī)分布模式下空間最近鄰的時(shí)間距離在整個(gè)取值區(qū)間上近似于均勻分布,不確定性較大,而聚集分布模式下空間最近鄰的時(shí)間距離在較小的取值區(qū)間中頻率較大,不確定性較小。
由于不同時(shí)空點(diǎn)分布模式類型中,空間最近鄰的時(shí)間距離分布存在差異,因而可以通過度量這種分布的不確定性,來判別時(shí)空點(diǎn)模式的分布類型。信息熵是度量不確定性的工具之一,不確定越大則信息熵越大[20],因此,空間最近鄰時(shí)間距離的分布不確定性可借助于信息熵進(jìn)行度量,隨機(jī)分布模式下的信息熵最大,而聚集分布模型模式下信息熵較小,并且數(shù)據(jù)聚集程度越高其信息熵越小。
1.3 基于信息熵的時(shí)空點(diǎn)模式分析過程
基于信息熵的時(shí)空點(diǎn)模式分析方法,將空間最近鄰時(shí)間距離的值域等間距地劃分為k個(gè)區(qū)間單元{Bi|i=1,2,3,…,k},若Bi包含Ci個(gè)數(shù)據(jù)對(duì)象,點(diǎn)對(duì)象總的數(shù)目為N,那么由信息熵理論規(guī)定如下:
其中,式(2)給出了空間最近鄰時(shí)間距離的信息熵(Inf o)計(jì)算方法,式(3)描述了信息熵的取值范圍,式(4)與式(5)給出了信息熵取最值的條件。當(dāng)空間最近鄰的時(shí)間距離的值域劃分為k個(gè)區(qū)間時(shí),信息熵的最大值為log2k,隨機(jī)分布模式下,空間最近鄰的時(shí)間距離近似于均勻分布,落在每個(gè)區(qū)間單元的點(diǎn)數(shù)大致相等,因而信息熵近似于log2k,聚集分布模式下信息熵小于log2k,并且聚集程度越高,則信息熵越小。考慮到k的取值對(duì)信息熵的影響,即不同劃分k對(duì)應(yīng)的信息熵存在差異,因此,對(duì)信息熵取值進(jìn)行歸一化處理,表達(dá)為:
或
由于Inf o取值為[0,log2k],則NI(Normalized Index)取值為[0,1];NI趨近于0時(shí),為隨機(jī)分布, NI值越大,則聚集程度越大。于是,基于信息熵的時(shí)空點(diǎn)模式分析的具體步驟為:1)計(jì)算每個(gè)空間實(shí)體的空間最近鄰的時(shí)間距離;2)將空間最近鄰時(shí)間距離取值區(qū)間等距劃分為k個(gè)區(qū)間單元{Bi|i=1, 2,3,…,k},計(jì)算落在每個(gè)區(qū)間單元的點(diǎn)個(gè)數(shù)Ci(i= 1,2,3,…,k)(k>10);3)依據(jù)式(6)計(jì)算歸一化指數(shù)NI,判別時(shí)空模式的類型,如果NI趨近于0則為隨機(jī)分布模式,NI越大聚集程度越高。
2.1 模擬實(shí)驗(yàn)
本文設(shè)計(jì)兩組模擬數(shù)據(jù)來驗(yàn)證算法的有效性,每組模擬數(shù)據(jù)包括4個(gè)數(shù)據(jù)子集。第一組模擬數(shù)據(jù)集描述一個(gè)由聚集到隨機(jī)的漸變過程,在(0,10)和(0,10)矩形空間區(qū)域中生成300個(gè)時(shí)空點(diǎn)對(duì)象,數(shù)據(jù)集的時(shí)間范圍為(0,10),如圖3所示。第二組模擬數(shù)據(jù)則考慮研究區(qū)域存在多個(gè)時(shí)空簇,以及時(shí)空簇密度存在差異,在(0,20)和(0,20)矩形空間區(qū)域中生成200個(gè)時(shí)空點(diǎn)對(duì)象,數(shù)據(jù)集的時(shí)間范圍為(0, 10),如圖4所示。
圖3 第一組模擬數(shù)據(jù)集Fig.3 The first group of simulated datasets
圖4 第二組模擬數(shù)據(jù)集Fig.4 The second group of simulated datasets
按照本文所提出的方法對(duì)兩組模擬數(shù)據(jù)分別進(jìn)行分析,空間最近鄰的時(shí)間距離區(qū)間劃分k取20,兩組數(shù)據(jù)的頻率直方圖如圖5和圖6所示,其中橫坐標(biāo)表示區(qū)間單元(空間最近鄰距離時(shí)間距離的一個(gè)取值范圍),縱軸表示頻率(落在某個(gè)取值范圍中點(diǎn)的數(shù)目占所有點(diǎn)數(shù)目的比例)。在實(shí)驗(yàn)中,為了分析k對(duì)NI取值的影響,計(jì)算不同區(qū)間劃分(k=5, 10,…,50)所對(duì)應(yīng)的NI值,實(shí)驗(yàn)結(jié)果如圖7和圖8所示??梢园l(fā)現(xiàn):兩組數(shù)據(jù)中聚集程度較大的數(shù)據(jù)集(1-1與2-1)的NI值較大,并且隨著數(shù)據(jù)的聚集程度降低,NI值也相應(yīng)減小;數(shù)據(jù)集1-4與數(shù)據(jù)集2-4模擬的是隨機(jī)分布模式,在不同的k值對(duì)應(yīng)的NI值均小于0.1,從而滿足理論上隨機(jī)分布下NI值趨近于0的推斷。此外,從圖7與圖8可以分析得出,式(2)中的信息熵經(jīng)過歸一化后,其取值平穩(wěn),但是NI值與k的選取存在一定相關(guān)性,當(dāng)k取較小的值,NI值偏大,這是由于劃分的區(qū)間個(gè)數(shù)較少導(dǎo)致整體不確定性減小。
因此,從上述實(shí)驗(yàn)可知,時(shí)空數(shù)據(jù)表現(xiàn)為隨機(jī)分布時(shí),其信息熵最大,對(duì)應(yīng)的NI值趨于0,而聚集分布模式的信息熵較小,聚集程度越高則信息熵越小,對(duì)應(yīng)的NI值越大。
圖5 第一組模擬數(shù)據(jù)集的頻率直方圖(k=20)Fig.5 Frequency histogram of the first group of simulated datasets(k=20)
圖6 第二組模擬數(shù)據(jù)集的頻率直方圖(k=20)Fig.6 Frequency histogram of the second simulated datasets(k=20)
2.2 實(shí)際應(yīng)用
實(shí)驗(yàn)數(shù)據(jù)為中國(guó)陸地2008-2009年震級(jí)大于4的地震數(shù)據(jù),如圖9所示。采用本文提出的基于信息熵的時(shí)空點(diǎn)模式分析方法對(duì)地震分布模式進(jìn)行分析,首先計(jì)算每個(gè)時(shí)空對(duì)象的空間最近鄰的時(shí)間距離,將整個(gè)取值范圍劃分k個(gè)區(qū)間單元,然后統(tǒng)計(jì)落在每個(gè)區(qū)間單元的點(diǎn)數(shù)。圖10表示k取20的頻率直方圖,圖11表示不同k所對(duì)應(yīng)的NI值,NI的取值均在0.4附近,以此可以判斷我國(guó)2008-2009年發(fā)生地震(M>4)為聚集分布模式,并且聚集程度較高。實(shí)際上,我國(guó)位于世界兩大地震帶—環(huán)太平洋地震帶與歐亞地震帶交匯部位,在2008-2009年地震(M>4)主要聚集分布在青藏高原地震區(qū)與四川龍門山地震帶,其中2008年5月四川龍門山地震帶發(fā)生里氏8.0級(jí)的地震以及隨之發(fā)生的余震表現(xiàn)為顯著的時(shí)空聚集特征?;谛畔㈧氐臅r(shí)空點(diǎn)模式分析可以用來獲取地震的分布類型,當(dāng)數(shù)據(jù)表現(xiàn)為顯著的聚集分布時(shí),可以對(duì)地震數(shù)據(jù)進(jìn)行更深入的分析,進(jìn)一步了解地震時(shí)空統(tǒng)計(jì)分布特征與演變規(guī)律。
圖7 模擬數(shù)據(jù)一的k區(qū)間劃分對(duì)應(yīng)的NI值Fig.7 Results of NI for the first group of datasets
圖8 模擬數(shù)據(jù)二的k區(qū)間劃分對(duì)應(yīng)的N I值Fig.8 Results of NI for the second group of datasets
圖9 2008-2009年中國(guó)陸地地震數(shù)據(jù)(M>4)Fig.9 China′s seismic data during 2008-2009(M>4)
圖10 地震數(shù)據(jù)的頻率直方圖Fig.10 Frequency histogram of the seismic data(k=20)
圖11 地震數(shù)據(jù)的k區(qū)間劃分對(duì)應(yīng)的N I值Fig.11 Results of NI for the seismic data
本文提出了一種基于信息熵的時(shí)空點(diǎn)模式分析方法,采用空間最近鄰的時(shí)間距離度量時(shí)空鄰近性,避免了用戶選取閾值的主觀性問題,進(jìn)而依據(jù)空間最近鄰的時(shí)間距離在隨機(jī)分布模式與聚集分布模式下分布的差異性,采用不確定性度量工具——信息熵定量地判別分布類型,通過兩組模擬數(shù)據(jù)和實(shí)際地震數(shù)據(jù)驗(yàn)證了本文方法的可行性與實(shí)用性。
本文對(duì)時(shí)空分布模式類型的判別是建立在單一的時(shí)空尺度上,考慮到時(shí)空數(shù)據(jù)分析在不同時(shí)空尺度上可能會(huì)產(chǎn)生不同的結(jié)果,因而,下一步的研究工作需考慮不同時(shí)空尺度對(duì)分布模式類型的影響。
[1] ANSELIN L,REY S J.Perspectives on Spatial Data Analysis [M].Springer Berlin Heidelberg,2010.
[2] SHEKHAR S,VATASAVA R R,CELIK M.Spatial and Spatiotemporal Data Mining:Recent Advances.Next Generation ofData Mining[M].New York:CRC Press,2009.
[3] MURRARY A T,MCGUFFOG I,WESTERN J S,et al.Exploratory spatial data analysis techniques for examining urban crime[J].British Journal of Criminology,2001,41(2):309-329.
[4] 鄧敏,劉啟亮,李光強(qiáng),等.空間聚類分析及應(yīng)用[M].北京:科學(xué)出版社,2011.
[5] DENG M,LIU Q L,WANG J Q,et al.A g eneral method of spatio-temporal clustering analysis[J].Science China:Information Science,2012,42(1):111-124.
[6] BIRANT D,KU T A.ST-DBSCAN:An algorithm for clustering spatial-temporal data[J].Data&Knowledg e Discovery,2007, 60(1):208-221.
[7] CLARK P J,EVANS F C.Distance to nearest neighbor as a measure of spatial relationships in populations[J].Ecology, 1954,35:445-453.
[8] RIPL E B D.Spatial Statistics[M].New York:Wiley,1981.
[9] BAILEY T C,GATRELL A C.Interactive Spatial Data Analysis[M].Harlow,England:Longman Scientific&Technical, 1995.
[10] HAASE P.Spatial pattern analysis in ecology based on Ripley′s K-function:Introduction and methods of edg e correction[J]. Journal of Vegetation Science,1995,6(4):575-582.
[11] GAT RELL A C,BAILEY T C,DIGGLE P J,et al.Spatial point pattern analysis and its application in geographical epidemiology[J].T ransaction of the Institute of British Geographers, 1996,21(1):256-274.
[12] BOOTS B N,GET IS A.Point Pattern Analysis[M].Newbury Park,CA:Sage Publications,1998.
[13] HAINING R P.Spatial Data Analysis:Theory and Practice[M]. U K:Cambridge University Press,2003.
[14] 王勁峰.空間分析[M].北京:科學(xué)出版社,2006.
[15] 王遠(yuǎn)飛,何洪林.空間數(shù)據(jù)分析方法[M].北京:科學(xué)出版社, 2007.
[16] KU LLDORFF M,HJALMARS U.T he Knox method and other tests for space-time interaction[J].Biometrics,1999,55:544 -552.
[17] KULLDORFF M,HEFFERNAN R,ASSUNCAO R,et al.A space-time permutation scan statistic for disease outbreak detection[J].Plos Medicine,2005,2(3):216-224.
[18] GAUDART J,POU DIOU GOU B,DICKO A,et al.Space-time clustering of childhood Malaria at the household level:A dynamic cohort in a Mali village[J].BMC Public Health,2008, 6:286.
[19] JACQUEZ G M.A K nearest neighbor test for space-time interaction[J].Statistics in M edicine,1996,15(17-18):1935-1949.
[20] SHANNON C E.A mathematical theory of communication[J]. The Bell System Technical Journal,1948,27:379-423,623-656.
A Method of Spatio-Temporal Point Pattern Analysis Based on Information Entropy
YANG Wen-tao1,DENG Min1,WANG Yu-chao2,YAN Cai-yu3
(1.Dep artment of Geo-inf ormatics,Central South University,Changsha410083; 2.School of Resource Environment and Earth Science,Yunnan University,Kunming650091; 3.Dep artment of Business Administration,Central South University,Changsha410083,China)
Existing methods of spatio-temporal point pattern analysis require users to set both space and time autocorrelation parameters,and the selection of those parameters is difficult and subjective,which makes it difficult to obtain effective and reliable results.T o overcome this difficulty,in this paper,a spatio-temporal point pattern analysis method based on the information entropy theory is proposed.In the method,the temporal distance of one object to its spatial nearest neighbor is firstly calculated, and then the frequency of the temporal distance is counted in each interval.Finally,an index based the normalized information entropy is developed to describe the uncertainty of the temporal distance distribution.According to the value of the index,the type of spatio-temporal point pattern can be identified,and a larger value indicates an aggregate distribution pattern while a small value(which is near zero)means a random distribution pattern.Both simulated and real-life datasets are used to evaluate the proposed method,and the results show that the proposed method can identify the different point pattern types with less parameters,and what′s more,it has been found that the index can even indicate the strength of aggregation patterns in some sense.
spatio-temporal point patterns;temporal distance of spatial nearest neighbor;information entropy
P208
A
1672-0504(2016)05-0071-05
10.3969/j.issn.1672-0504.2016.05.011
2016-01-09;
2016-05-24
湖南省研究生創(chuàng)新項(xiàng)目(CX2014B051)
楊文濤(1988-),男,博士研究生,研究方向?yàn)榈乩砜臻g數(shù)據(jù)挖掘。E-mail:yangwentao8868@126.com