何駿
(江西省自然資源事業(yè)發(fā)展中心,江西南昌 330025)
測繪地理信息工作一直以來都是國民經(jīng)濟發(fā)展的基礎,同時也是國防事業(yè)發(fā)展的基石。通過技術手段掌握地球關鍵點或相關面的坐標、高程、方向等信息,探究其間的相互關聯(lián)關系并發(fā)現(xiàn)數(shù)據(jù)變化背后的規(guī)律性與科學性,基于這些數(shù)據(jù)信息開展科學研究與工業(yè)生產(chǎn),盡最大化滿足人們的使用需求并探索地球變化的奧秘,這是測繪地理信息的核心任務[1]。一般來說,測繪地理信息數(shù)據(jù)量大、需要具備相對較強的數(shù)據(jù)處理能力才能獲得精準的信息可視化表征,從而實現(xiàn)對相關地域地理知識的有效掌握。傳統(tǒng)上,對于地理測繪信息的分析采用的是變量解析的方法,主要依靠人工計算來完成,不僅工作量大、占用人力資源多,而且計算精度不高。近年來,隨著信息技術的發(fā)展,尤其是大數(shù)據(jù)技術在信息技術發(fā)展中引領地位的確立,人們提出可以利用大數(shù)據(jù)技術進行測繪地理信息數(shù)據(jù)的自動處理與深度挖掘。
利用衛(wèi)星對地球表面進行高空掃描、獲得詳細的遙感數(shù)據(jù)后傳輸至地面工作站進行分析與處理,是當前地理信息測繪技術的主要手段。遙感大數(shù)據(jù)是測繪地理信息數(shù)據(jù)中的主要存在方式。這類數(shù)據(jù)在獲取的時候,由于地球表面環(huán)境的復雜性,必然存在無法進行歸類與統(tǒng)一、相互之間缺乏聯(lián)動、無法共享等問題[2]。具體來說,測繪地理信息遙感大數(shù)據(jù)由于獲取方式的局限性,存在的特點如圖1 所示。
由圖1 可以看出,測繪地理信息大數(shù)據(jù)在獲取方式、存儲方式、共享方式、擴展方式、管理方式等方面都有不同于傳統(tǒng)測繪信息數(shù)據(jù)的特點,因此基于這些數(shù)據(jù)信息進行地理環(huán)境分析時需要有針對性地采用改進后的方法。為了獲得更加精確的測繪信息數(shù)據(jù)分析結果,本文提出了利用自動分析與數(shù)據(jù)挖掘技術處理大數(shù)據(jù)信息的方法。
圖1 測繪地理信息大數(shù)據(jù)特征
隨著測繪技術的發(fā)展,尤其是衛(wèi)星遙感技術的提升,測繪信息不僅以文本的形式表現(xiàn),更多的時候采用影像的形式表現(xiàn)[3]。針對文本與影像相互混雜的遙感數(shù)據(jù)信息,進行表達與特征分析時可以按照圖2 所示的流程進行。
由圖2 可以看出,遙感測繪數(shù)據(jù)信息進行表達與特征分析時,主要是對文本與圖像信息的綜合處理。這兩類信息在獲取之后需要進行特征聯(lián)合分析與本征表示,通過特征融合與歸一化表示獲得有效的數(shù)據(jù)流形和相關節(jié)點信息。其中,數(shù)據(jù)信息的融合主要是采用數(shù)據(jù)變換的方式將不同源、不同分辨率的多元特征離散化后統(tǒng)一到同一個分區(qū)特征空間中,實現(xiàn)數(shù)據(jù)維數(shù)的降低并易于提取主要特征,為獲得特征節(jié)點信息奠定基礎。
圖2 遙感測繪數(shù)據(jù)信息表達與特征分析方法流程
遙感大數(shù)據(jù)進行特征表達之后,需要進行存儲與檢索。數(shù)據(jù)存儲一般采用自建數(shù)據(jù)庫的方式進行,通過對數(shù)據(jù)特征進行編碼并歸類后進行存儲,同時搭建專用網(wǎng)絡用于鏈接不同數(shù)據(jù)庫,方便不同數(shù)據(jù)庫之間信息的調取。對于存儲的信息,為了實現(xiàn)快速檢索,需要對信息數(shù)據(jù)之間的相似性和互異性進行計算和表征。可以對數(shù)據(jù)設置標簽,根據(jù)不同標簽的內(nèi)容計算數(shù)據(jù)與標簽之間的相似度,對標簽相似度計算結果設置一定的閾值范圍,只有在閾值范圍以內(nèi)的數(shù)據(jù)才可以算作相互之間存在相似性,否則就是互異的。對數(shù)據(jù)的相似性和互異性進行表征之后,同一標簽下屬的數(shù)據(jù)都是相似的,不同標簽之間的數(shù)據(jù)都是互異的,這樣就實現(xiàn)了對數(shù)據(jù)的有效分類。在對數(shù)據(jù)進行有效分類之后,可以利用知識驅動的方法實現(xiàn)遙感大數(shù)據(jù)的快速檢索。
具體來說,基于知識驅動方法的遙感大數(shù)據(jù)檢索方法主要由圖3 所示的關鍵環(huán)節(jié)組成。
圖3 基于知識驅動的遙感大數(shù)據(jù)檢索方法流程
由圖3 可以看出,遙感大數(shù)據(jù)檢測主要是通過建立檢索服務鏈實現(xiàn)數(shù)據(jù)特征的自主學習,通過構建智能檢索系統(tǒng)輸出用戶所需場景,利用知識更新做好檢索系統(tǒng)的自學習,為下一次信息檢索提供自主實現(xiàn)功能。對信息特征的處理可以利用標簽相似度的方法實現(xiàn),之后利用人工神經(jīng)網(wǎng)絡構建知識在線自主學習機制,通過對標簽數(shù)據(jù)的反復訓練實現(xiàn)底層特征與高層語義之間的高精度關聯(lián),最終使檢索系統(tǒng)具有自主檢索數(shù)據(jù)信息的能力,達到“智能檢索”的目的。
傳統(tǒng)上遙感大數(shù)據(jù)是基于“面向特征”的處理方式進行理解的,利用大數(shù)據(jù)分析技術可以實現(xiàn)“面向特征”到“面向對象”處理方式的轉變,從而實現(xiàn)對對象層- 目標層的目標信息提取與識別。為了實現(xiàn)“面向對象”數(shù)據(jù)理解方式的轉變,需要對特征-目標- 場景語義進行數(shù)學建模,解決語義信息與特征信息之間的鴻溝問題,通過輸入多元特征信息獲得遙感大數(shù)據(jù)場景多元認知信息,為數(shù)據(jù)挖掘做好準備。
數(shù)據(jù)挖掘是基于特征分析的進一步深化,通過對數(shù)據(jù)之間的相關性進行分析可以獲得數(shù)據(jù)之間的規(guī)律變化,從而獲得科學的決策信息。遙感數(shù)據(jù)挖掘可以采用圖4 所示的流程實現(xiàn)。
由圖4 可以看出,對數(shù)據(jù)信息挖掘之前需要進行分類與回歸分析。當前,數(shù)據(jù)的分類與回歸分析可以自己開發(fā)軟件實現(xiàn),也可以利用現(xiàn)有的軟件進行,比如可以利用SPSS 軟件實現(xiàn),也可以利用成熟的聚類方法、統(tǒng)計分析方法、云理論方法等實現(xiàn)。
圖4 測繪地理信息遙感大數(shù)據(jù)挖掘流程
對于采集到的某遙感圖像,該圖像中有山地、丘陵、湖泊、平原等四類地形特征。為了給地形特征進行自動標記與分類,首先對平面像素進行歸一化,得到的數(shù)值如表1 所示。
表1 像素數(shù)據(jù)歸一化結果
對于歸一化得到的數(shù)值,經(jīng)過與實際數(shù)據(jù)對比,可以建立如下歸類關系:山地,數(shù)值≥1.0;丘陵,1.0>數(shù)值≥0.7;湖泊,0.7>數(shù)值≥0.4;平原,0.4>數(shù)值≥0。對于以上數(shù)據(jù),為了判定屬于某類數(shù)據(jù),可以利用直接分類的方法一一進行判斷;但是,當數(shù)據(jù)量比較大的時候,利用這種直接分類的方法必然會造成分類時間的增加,同時也會造成結果精度的下降,因此,可以采用K-means 算法進行自動分類。
K-means 算法計算步驟如下所示:
Step 1:計算樣本數(shù)據(jù)與待分類數(shù)據(jù)之間的距離,一般采用歐氏距離表示,即
其中,(x,y)表示待分類點坐標值,(xi,yi)表示樣本數(shù)據(jù)坐標值,di表示相互之間的距離。
Step 2:為待分類數(shù)據(jù)選擇k 個與其距離最小的樣本;
Step 3:統(tǒng)計出k 個樣本中大多數(shù)樣本所述的分類;
Step 4:依據(jù)統(tǒng)計結果確定待分類數(shù)據(jù)所屬的類別。
按照以上步驟,對數(shù)據(jù)進行迭代計算,就可以獲得理想的分類結果。
按照該方法對表1 中的數(shù)據(jù)進行分類,結果如表2 所示。
表2 像素數(shù)據(jù)分類結果
由表2 可以看出,利用K-means 算法計算得到的分類結果與直接分類方法的分類結果相一致,證明了這種分類方法的正確性,當數(shù)據(jù)量增大時可以直接進行運用。
測繪地理信息數(shù)據(jù)分析具有一定的難度,其分析結果直接影響著對地理信息的判斷精度。本文基于大數(shù)據(jù)分析技術研究了測繪地理信息遙感數(shù)據(jù)的自動分析與數(shù)據(jù)挖掘方法,后續(xù)在進行工程化應用時可以根據(jù)數(shù)據(jù)類型進行改進,通過不斷提升數(shù)據(jù)分類的準確度,拓展大數(shù)據(jù)分析技術在測繪地理信息系統(tǒng)開發(fā)中的應用空間。