李 浩,李 博
(河南工程學院計算機學院,河南 新鄭 451191)
基于關聯(lián)語義融合的WebGIS數(shù)據(jù)庫優(yōu)化檢索方法研究
李 浩,李 博
(河南工程學院計算機學院,河南 新鄭 451191)
為提高在Web上發(fā)布的空間數(shù)據(jù)的檢索能力,針對傳統(tǒng)的WebGIS數(shù)據(jù)庫模糊指向性聚類檢索方法容易陷入局部收斂導致檢索準確度不高的問題,提出一種基于關聯(lián)語義融合聚類的WebGIS數(shù)據(jù)庫優(yōu)化檢索方法。采用有向圖模型構建WebGIS數(shù)據(jù)庫檢索節(jié)點分布結構模型,在WebGIS數(shù)據(jù)庫存儲數(shù)據(jù)信息流中進行關聯(lián)語義特征信息挖掘,以挖掘的特征信息為數(shù)據(jù)庫檢索的指向性信息素,并采用分段融合模糊聚類方法進行關聯(lián)語義融合聚類處理,在數(shù)據(jù)融合中心中求得數(shù)據(jù)庫檢索目標值的全局最優(yōu)解,實現(xiàn)數(shù)據(jù)庫優(yōu)化檢索和訪問。仿真結果表明,采用該方法進行WebGIS數(shù)據(jù)庫檢索,對檢索數(shù)據(jù)的查準率較高,抗干擾能力較強,檢索過程的收斂性較好。
數(shù)據(jù)庫;檢索;WebGIS;語義;數(shù)據(jù)聚類
隨著計算機網絡技術和大數(shù)據(jù)信息處理技術的發(fā)展,采用網絡Web信息處理技術進行空間地理信息存儲和處理成為互聯(lián)網環(huán)境下進行地理信息應用和處理的重要工具,在互聯(lián)網上存儲地理信息的數(shù)據(jù)庫即為WebGIS數(shù)據(jù)庫,WebGIS數(shù)據(jù)庫建立在互聯(lián)網平臺上,客戶端應用軟件采用網絡協(xié)議進行空間數(shù)據(jù)的共享和互操作。WebGIS數(shù)據(jù)庫的客戶端采用多主機、多數(shù)據(jù)庫進行分布式部署,滿足應用客戶獲得各種空間信息和應用的功能[1]。WebGIS數(shù)據(jù)庫是一種級聯(lián)分布式數(shù)據(jù)庫,在對空間數(shù)據(jù)的共享操作中,需要進行地理信息的準確檢索,研究WebGIS數(shù)據(jù)庫優(yōu)化檢索方法是完善網絡地理信息系統(tǒng)構建的關鍵技術,相關的檢索算法研究受到相關領域專家的極大重視。目前,對WebGIS數(shù)據(jù)庫檢索及應用系統(tǒng)開發(fā)模式將數(shù)據(jù)源、業(yè)務邏輯和用戶界面以及通訊協(xié)議綁定在一起,進行GIS信息的在線查詢和業(yè)務處理,這種方法導致在空間數(shù)據(jù)發(fā)布、空間查詢與檢索中容易出現(xiàn)信息干擾,導致檢索效率較低,誤差較大。對此,需要一種智能的數(shù)據(jù)庫檢索方法,主要有空間信息點特征標注法、遺傳進化檢索方法、粒子群尋優(yōu)檢索方法等[2-3],上述方法主要通過對數(shù)據(jù)庫中存儲的數(shù)據(jù)進行信息特征提取和自適應尋優(yōu),采用向量量化編碼等方法實現(xiàn)檢索信息的關聯(lián)數(shù)據(jù)挖掘[4],達到數(shù)據(jù)庫檢索的目的,取得了一定的研究成果。其中,林楠等[5]提出一種基于多層空間模糊減法聚類算法的Web數(shù)據(jù)庫安全索引方法,通過數(shù)據(jù)庫信息矢量構建成多層矢量自回歸空間,采用遺傳進化算法變尺度調整聚類中心向量,結合改進的粒子群算法進行Web數(shù)據(jù)安全索引,阻止了鄰近數(shù)據(jù)點的干擾,提高了數(shù)據(jù)庫檢索的查準性。但是,該算法隨著WebGIS數(shù)據(jù)庫規(guī)模的增大,計算開銷幾何級增長,數(shù)據(jù)檢索的實時性較差。陳志華等[6]提出在云計算下環(huán)境下的WebGIS大數(shù)據(jù)非結構的穩(wěn)定性檢索方法,采用屬性相關度估計進行GIS空間信息點特征標注,結合關鍵詞語義特征匹配方法進行大數(shù)據(jù)非結構穩(wěn)定檢索,提高了數(shù)據(jù)庫檢索的穩(wěn)定性。但是該方法在受到較大的網絡Web環(huán)境干擾下檢索出現(xiàn)非法入侵和查詢?yōu)榭盏惹闆r,抗干擾能力不強。王躍飛等[7]提出的數(shù)據(jù)塊索引方法利用 URL內容文本特征進行WebGIS數(shù)據(jù)庫的內存擴展和檢索語義的語義文本信息尋優(yōu),通過量化編碼進行WebGIS空間數(shù)據(jù)信息編碼,提高了檢索過程中的安全性,但是該方法對數(shù)據(jù)庫中的疊加文本的自動識別能力不高,導致檢索精度受到限制。JIANG等[8]采用的模糊指向性聚類檢索方法雖然有較快的檢索實時性,但是容易陷入局部收斂,存在檢索準確度不高的問題。針對上述問題,為了克服傳統(tǒng)方法存在的弊端,本研究提出了一種基于關聯(lián)語義聚類的WebGIS數(shù)據(jù)庫優(yōu)化檢索方法。首先構建WebGIS數(shù)據(jù)庫檢索節(jié)點分布結構模型,在WebGIS數(shù)據(jù)庫存儲數(shù)據(jù)信息流中進行關聯(lián)語義特征信息挖掘,然后采用分段融合模糊聚類方法進行關聯(lián)語義融合聚類處理,在數(shù)據(jù)融合中心中求得數(shù)據(jù)庫檢索目標值的全局最優(yōu)解,實現(xiàn)數(shù)據(jù)庫優(yōu)化檢索和訪問。最后進行仿真試驗分析,得出有效性結論。
1.1原理分析與數(shù)據(jù)庫檢索節(jié)點分布結構
為了實現(xiàn)WebGIS數(shù)據(jù)庫的優(yōu)化檢索,采用分段融合模糊聚類方法進行特征分析。首先,建立WebGIS數(shù)據(jù)庫檢索的節(jié)點分布結構模型,本文設計的WebGIS數(shù)據(jù)庫檢索模型首先在WebGIS數(shù)據(jù)庫客戶端發(fā)布空間數(shù)據(jù),從Web的任意一個節(jié)點進行原始數(shù)據(jù)提取和語義特征分析,采用數(shù)據(jù)融合和關聯(lián)語義特征提取進行WebGIS數(shù)據(jù)庫檢索的關聯(lián)信息分析。然后,通過檢索接口返回到數(shù)據(jù)庫中進行檢索條件編碼,對檢索條件進行信息處理和反饋,利用因特網來進行客戶端和服務器之間的信息交換,進行WebGIS數(shù)據(jù)庫中的空間數(shù)據(jù)發(fā)布、空間數(shù)據(jù)信息查詢與檢索。最后,在用戶端顯示數(shù)據(jù)庫檢索結果[9-12]。根據(jù)上述設計原理,設計的WebGIS數(shù)據(jù)庫的優(yōu)化檢索流程如圖1所示。
結合圖1所示的數(shù)據(jù)庫檢索流程,進行數(shù)據(jù)庫檢索節(jié)點分布結構分析,采用假設Gc表示WebGIS數(shù)據(jù)庫的語義特征分布有向圖G1和G2的交集,在有向圖G1和G2的語義節(jié)點中,WebGIS數(shù)據(jù)庫的鄰域空間A,B和C具有共同節(jié)點,且同時屬于G1和G2。計算有向圖G1、G2語義關系相似度Sr,通過語義編輯和概率推理把SC和Sr組成統(tǒng)一的語義相似度S,得到WebGIS數(shù)據(jù)庫檢索節(jié)點分布的相似度SC的計算公式為:
(1)
式中:n(D1)和n(D2)分別表示WebGIS數(shù)據(jù)庫分布有向圖G1和G2中的檢索節(jié)點數(shù)目,n(D1∩D2)表示公共結點數(shù)目。
根據(jù)上述結算結果,形成WebGIS數(shù)據(jù)特征分布的語義相似度S:
S=SC*(a+b*Sr)
(2)
圖1 WebGIS數(shù)據(jù)庫的優(yōu)化檢索設計流程Fig.1 Optimized retrieval design flow of WebGIS database
式中:當Sr=0時,相似度S取決于SC*a。系數(shù)a表示檢索通道在G1、G2中的連接度:
(3)
式中:n(GC)表示Gc中語義檢索主題詞表個數(shù),mGC(G1)+mGC(G2)表示G1、G2中與Gc相關的關系弧數(shù)目。
1.2WebGIS數(shù)據(jù)庫檢索數(shù)據(jù)信息流模型
在WebGIS數(shù)據(jù)庫存儲結構模型中進行檢索數(shù)據(jù)信息流模型構建[13],采用標量時間序列表示一組WebGIS數(shù)據(jù)信息流模型為:
(4)
對上述標量時間序列進行WebGIS數(shù)據(jù)庫屬性集的向量量化處理[14],得到檢索語義特征屬性集的向量量化特征分解函數(shù)為:
(5)
式中:k表示分布式WebGIS數(shù)據(jù)庫的特征融合中心,采用小波變換對數(shù)據(jù)信息流從時域轉換到頻域空間,為:
(6)
式中:f(t)為WebGIS數(shù)據(jù)庫分布數(shù)據(jù)信息的頻域特征值,ρ(a,b)為時頻聯(lián)合分布,a為小波變換的尺度參數(shù),b為加窗時間延遲。在特征分布狀態(tài)空間中WebGIS數(shù)據(jù)信息流x(t)的特征匹配輸出向量為:
=min{D(xi,Aj(L))}
(7)
式中:xi∈Rn為數(shù)據(jù)庫中檢索數(shù)據(jù)的模糊度點集,ui∈Rm為數(shù)據(jù)信息流的相空間主頻特征分量。根據(jù)上述對WebGIS數(shù)據(jù)庫檢索數(shù)據(jù)信息流模型構建,為進行數(shù)據(jù)庫檢索提供準確的數(shù)據(jù)輸入基礎。
2.1關聯(lián)語義特征信息挖掘
在上述進行了WebGIS數(shù)據(jù)庫存儲結構分析和信息模型構建的基礎上,進行數(shù)據(jù)庫檢索優(yōu)化設計,本文提出一種基于關聯(lián)語義聚類的WebGIS數(shù)據(jù)庫優(yōu)化檢索方法。在上述構建的WebGIS數(shù)據(jù)庫存儲數(shù)據(jù)信息流中進行關聯(lián)語義特征信息挖掘,通過數(shù)據(jù)匹配檢測,得到WebGIS數(shù)據(jù)庫檢索數(shù)據(jù)信息流的包絡幅值為:
(8)
(9)
式中:N(z)是關聯(lián)語義特征分辨率,它的零點在z=e±jω0處頻域的分辨率下降,D(z)為模糊屬性集的聚類尺度因子,由此可得WebGIS數(shù)據(jù)庫中隱蔽數(shù)據(jù)信息流的交叉項[15],對隱蔽數(shù)據(jù)進行抗干擾抑制,實現(xiàn)關聯(lián)語義特征信息挖掘,得到挖掘輸出為:
(10)
式中:語義相似度屬性的模糊度點集滿足UT=U-1,VT=V-1,D∈Rm×M,且D=[∑ 0]。以上述挖掘的WebGIS數(shù)據(jù)特征信息為數(shù)據(jù)庫檢索的指向性信息素,進行數(shù)據(jù)庫檢索的優(yōu)化設計。
2.2分段融合模糊聚類及數(shù)據(jù)庫檢索實現(xiàn)
采用分段融合模糊聚類方法進行關聯(lián)語義融合聚類處理,假設WebGIS數(shù)據(jù)庫中的待檢索信息流時間序列x(n),〈x(n)〉代表對x(n)取分段融合均值:
(11)
通過對數(shù)據(jù)信息流進行動態(tài)副本自適應分簇匹配[16],得到WebGIS數(shù)據(jù)庫中的融合數(shù)據(jù)的語義屬性自相關特征狀態(tài)為:
xn=x(t0+nΔt)=h[z(t0+nΔt)]+ωn
(12)
式中:h(.)為多元數(shù)量值函數(shù);z(t)是數(shù)據(jù)庫檢索模型在時刻n或t的狀態(tài)向量;ωn為觀測或測量誤差。在相空間中挖掘數(shù)據(jù)庫檢索信息的幾何不變量,得到WebGIS數(shù)據(jù)庫的數(shù)據(jù)類群多樣性分類屬性狀態(tài)函數(shù)表示為:
z(t)=s(t)+js(t)?h(t)=s(t)+
(13)
式中:s(t)為WebGIS數(shù)據(jù)模糊隸屬函數(shù),稱為復信息流z(t)的瞬時幅度。
以挖掘的特征信息為數(shù)據(jù)庫檢索的指向性信息素,得到有限個WebGIS數(shù)據(jù)庫的信息素集:
X={x1,x2,…,xn}?Rs
(14)
把數(shù)據(jù)庫中的信息素集X分為c類,其中1 V={viji=1,2,…,c,j=1,2,…,s} (15) 其中,Vi為WebGIS數(shù)據(jù)庫聚類中心的第i個矢量,選擇一定的基函數(shù)對冗余數(shù)據(jù)歸集合并,得到聚類目標函數(shù): (16) 式中,μik為WebGIS數(shù)據(jù)庫檢索的延遲映射;m為檢索目標數(shù)據(jù)的高階譜特征分量;(dik)2為關聯(lián)語義融合聚類中心xk與Vi的歐式距離表示,為: (17) 且 (18) 在檢索通道鏈路層中進行WebGIS數(shù)據(jù)關聯(lián)語義信息模板匹配[17-19],結合模糊指向性控制的約束條件,在數(shù)據(jù)融合中心中求得數(shù)據(jù)庫檢索目標值的全局最優(yōu)解為: (19) (20) 在聚類中心初始值已經給定的情況下,根據(jù)上述求得的全局最優(yōu)解實現(xiàn)待檢索數(shù)據(jù)的準確定位和識別,實現(xiàn)WebGIS數(shù)據(jù)庫檢索優(yōu)化。 為了測試本文算法在實現(xiàn)WebGIS數(shù)據(jù)庫優(yōu)化檢索中的性能,進行仿真實驗。實驗采用C++和Matlab 7混合編程進行數(shù)據(jù)庫檢索算法處理和數(shù)據(jù)分析,Web服務器使用Tomcat4.1,數(shù)據(jù)庫服務器使用MySQL,服務器端代碼用Java實現(xiàn),WebGIS數(shù)據(jù)庫中進行檢索的時間間隔為1.45 s,WebGIS庫中采樣數(shù)據(jù)集的訓練數(shù)據(jù)長度為10 000,語義關聯(lián)特征空間的時間窗口系數(shù)τ為0.43,數(shù)據(jù)庫的分層列數(shù)為20,語義特征尺度參數(shù)a0=1.03,關聯(lián)語義特征分解的帶寬B=10 kHz,仿真實驗的持續(xù)時間T=100 s,分段融合聚類的迭代次數(shù)設定其1 000次,根據(jù)上述仿真環(huán)境和參數(shù)設定,進行WebGIS數(shù)據(jù)庫的優(yōu)化檢索仿真實驗。首先,對WebGIS數(shù)據(jù)庫中存儲的大數(shù)據(jù)進行信息采樣,形成海量數(shù)據(jù)集合作為測試樣本集,得到測試樣本數(shù)據(jù)的時頻域散點分布圖如圖2所示。 圖2 測試樣本數(shù)據(jù)的時頻域散點分布Fig.2 Scatter plot of time and frequency in test sample data 從圖2的數(shù)據(jù)分布空間狀態(tài)可見,原始測試數(shù)據(jù)在WebGIS數(shù)據(jù)庫中受到大量信息的相互干擾作用,難以有效實現(xiàn)準確的數(shù)據(jù)檢索和提取,采用本文方法進行關聯(lián)語義特征信息挖掘,實現(xiàn)對待檢索數(shù)據(jù)的分段融合模糊聚類,得到融合聚類結果如圖3所示。為了對比,圖4給出了采用文獻[5]提出的模糊減法聚類Web數(shù)據(jù)庫安全索引方法進行數(shù)據(jù)檢索的輸出結果,模糊聚類方法采用減法聚類的模糊推理構建索引函數(shù),變尺度調整聚類中心向量,阻止了鄰近數(shù)據(jù)點非法侵入和非法聚類,有效排除了非法數(shù)據(jù)輸出,實現(xiàn)Web數(shù)據(jù)庫安全索引,然而該方法存在收斂性不好和容易陷入局部最優(yōu)解的問題。 圖3 本文方法進行分段融合聚類后的數(shù)據(jù)檢索輸出Fig.3 Data retrieval output after segmentation and clustering with new method 圖4 傳統(tǒng)模糊聚類檢索輸出Fig.4 Traditional fuzzy clustering retrieval output 由圖3和圖4可知,采用本文方法進行數(shù)據(jù)庫檢索,相比傳統(tǒng)方法能有效濾除冗余數(shù)據(jù)的干擾,避免陷入局部最優(yōu)解,提高了數(shù)據(jù)庫檢索的聚類中心指向性能力,檢索的精度較高。為了定量分析算法性能,采用本文方法和傳統(tǒng)方法進行WebGIS數(shù)據(jù)庫檢索,得到查準率對比結果如圖5所示。 由圖5可知,采用本文方法進行數(shù)據(jù)庫檢索的查準率能快速收斂到100%,計算時間開銷較小,精度優(yōu)越傳統(tǒng)方法。 圖5 查準率對比結果Fig.5 Precision contrast results 本文研究了WebGIS數(shù)據(jù)庫的優(yōu)化檢索問題,提出一種基于關聯(lián)語義融合聚類的WebGIS數(shù)據(jù)庫優(yōu)化檢索方法,采用有向圖模型構建WebGIS數(shù)據(jù)庫檢索節(jié)點分布結構模型,在WebGIS數(shù)據(jù)庫存儲數(shù)據(jù)信息流中進行關聯(lián)語義特征信息挖掘,在檢索通道鏈路層中進行WebGIS數(shù)據(jù)關聯(lián)語義信息模板匹配,采用分段融合模糊聚類方法進行關聯(lián)語義融合聚類處理,求得數(shù)據(jù)庫檢索目標值的全局最優(yōu)解,實現(xiàn)待檢索數(shù)據(jù)的準確定位和識別,完成數(shù)據(jù)庫優(yōu)化檢索和訪問。以實際的WebGIS數(shù)據(jù)庫進行檢索試驗分析,并傳統(tǒng)的模糊減法聚類檢索方法進行對比分析,研究得出,采用本文方法進行WebGIS數(shù)據(jù)庫檢索,對干擾數(shù)據(jù)的抑制能力較好,經散點圖分布得知,本文的檢索方法把大量的冗余數(shù)據(jù)排除在外,由于本文方法采用分段融合方法進行語義特征聚類處理,避免了數(shù)據(jù)庫檢索過程中陷入局部優(yōu)化解,具有較好的收斂性和魯棒性。對比檢索結果得知,本文方法進行WebGIS數(shù)據(jù)庫檢索的查準率較高,在較短的測試時間使得查準率收斂到100%,表現(xiàn)出了較好的自適應尋優(yōu)能力,在WebGIS數(shù)據(jù)庫檢索和訪問等領域具有較高的應用價值。 [1] 邢淑凝, 劉方愛, 趙曉暉. 基于聚類劃分的高效用模式并行挖掘算法[J]. 計算機應用, 2016, 36(8): 2202-2206. [2] ZIHAYAT M, AN A.Mining top-k high utility patterns over data streams[J].Information Sciences,2014,285:138-161. [3] YUN U,RYANG H,RYU K H. High utility itemset mining with techniques for reducing overestimated utilities and pruning candidates[J].Expert Systems with Applications,2014,41(8):3861-3878. [4] 冶忠林, 楊燕, 賈真, 等. 基于語義擴展的短問題分類[J]. 計算機應用, 2015, 35(3): 792-796. [5] 林楠,史葦杭.基于多層空間模糊減法聚類算法的Web數(shù)據(jù)庫安全索引[J].計算機科學,2014,41(10):216-219. [6] 陳志華,劉曉勇. 云計算下大數(shù)據(jù)非結構的穩(wěn)定性檢索方法[J].現(xiàn)代電子技術,2016,39(6):58-61. [7] 王躍飛, 于炯, 魯亮. 面向內存云的數(shù)據(jù)塊索引方法[J]. 計算機應用, 2016, 36(5): 1222-1227. [8] JIANG Y Z, CHUNG F L, WANG S T, et al. Collaborative fuzzy clustering from multiple weighted views[J]. IEEE Transactions on Cybernetics, 2015, 45(4): 688-701. [9] PAO W, LOU W, CHEN Y, et al. Resource allocation for multiple input multiple output-orthogonal frequency division multiplexing-based space division multiple access systems [J]. IET Communications, 2014, 8(18):3424-3434. [10] 姜仁貴, 解建倉, 李建勛, 賀挺. 基于數(shù)字地球的WebGIS開發(fā)及其應用[J]. 計算機工程, 2011, 37(6): 225-227. [11] EISAYED A M A, ELSAID A, NOUR H M, et al. Dynamical behavior, chaos control and synchronization[J]. Communication in Nonlinear Science and Numerical Simulation, 2013, 18(1): 148-170. [12] 馮登國, 張敏, 李昊.大數(shù)據(jù)安全與隱私保護[J]. 計算機學報, 2014, 37(1):246-258. [13] 潘穎,元昌安,李文敬,等. 一種支持更新操作的數(shù)據(jù)空間訪問控制方法[J]. 電子與信息學報, 2016, 38(8): 1935-1941. [14] 郭明強, 黃穎, 謝忠. 一種多核環(huán)境下的WebGIS模型優(yōu)化策略[J]. 計算機工程, 2013, 39(8): 15-19. [15] 王映輝,馮德民.基于版本控制策略的WebGIS緩存實現(xiàn)機制研究[J].計算機科學,2003,30(12):89-91. [16] 潘穎, 湯庸, 劉海. 基于關系數(shù)據(jù)庫的極松散結構數(shù)據(jù)模型的訪問控制研究[J]. 電子學報, 2012, 40(3): 600-606. [17] 王天寶, 盧浩, 鐘耳順. 客戶端視角下的WebGIS開發(fā)框架研究[J]. 計算機工程, 2012, 38(9): 255-257. [18] MAHBOUBI H, MOEZZI K, AGHDAM A G, et al. Distributed deployment algorithms for improved coverage in a network of wireless mobile sensors[J]. IEEE Transactions on Industrial Informatics, 2014, 10(1): 163-174. [19] MAHBOUBI H. Distributed deployment algorithms for efficient coverage in a network of mobile sensors with nonidentical sensing capabilities[J]. IEEE Transactions on Vehicular Technology, 2014, 63(8): 3998-4016. (責任編輯:蔣國良) ResearchonWebGISdatabaseoptimizationretrievalmethodbasedonassociationsemanticfusion LI Hao, LI Bo (College of Computer Science, Henan University of Engineering, Xinzheng 451191,China) By using the traditional fuzzy clustering method to WebGIS database retrieval, the suggested answer would probably fall into local convergence condition,which would result in low retrieval accuracy. In this paper, an optimized method of WebGIS database retrieval based on semantic clustering is proposed for the problem, which improves the retrieval capability of spatial datareleased on Web. Firstly, a digraph is used to construct the distribution model of retrieval node in WebGIS database. Secondly, the data in the information flow of WebGIS database is mined by association semantic character. The mined feature information will be used as a information clue in retrieval. Finally, a global optimal solution of database retrieval in the clustering center is found by using the associated semantic clustering which is achieved by adopting piecewise fusion fuzzy clustering methods. The simulation results show that the proposed method has a high accuracy, strong anti-interference ability and good convergence performance in the WebGIS database retrieval process. database; retrieval; WebGIS; semantic; data clustering TP391 :A 2016-10-12 國家自然科學基金資助項目(61501174) 李浩(1974-),男,河南洛陽人,副教授,碩士,從事計算機網絡方面的研究工作。 1000-2340(2017)03-0396-063 仿真實驗與分析
4 結論