翟永 劉津
建設地理信息大數(shù)據(jù)的思考
翟永劉津
“地理信息大數(shù)據(jù)的采集,一方面要堅持傳統(tǒng)的數(shù)據(jù)采集的優(yōu)點,適當擴大數(shù)據(jù)采集接收面(如地市級測繪單位),另一方面要積極引入VGI(Volunteered Geographic Information,志愿者地理信息)數(shù)據(jù)?!?/p>
大數(shù)據(jù)作為一種新型戰(zhàn)略資源,提供了一個在虛擬信息世界中了解和掌握客觀現(xiàn)實世界的前所未有的機會。地理信息行業(yè)作為信息產(chǎn)業(yè)的重要分支,應抓住大數(shù)據(jù)技術(shù)和應用所帶來的新機遇,面向最廣大的公眾在地理信息大數(shù)據(jù)采集、分析與服務方面進行機制創(chuàng)新,推動地理信息行業(yè)的快速發(fā)展。
從20世紀50年代GIS(地理信息系統(tǒng))誕生開始,地理信息行業(yè)就以數(shù)據(jù)為核心逐步發(fā)展壯大,其主要業(yè)務如采集、檢查、處理、建庫和分發(fā)服務無一不是緊緊圍繞數(shù)據(jù)進行的。數(shù)據(jù)是地理信息行業(yè)的靈魂。
目前,測繪地理信息系統(tǒng)內(nèi)已經(jīng)積累了大量的地理信息數(shù)據(jù),如全國重力、三角、水準及GPS大地測量成果,各?。ㄗ灾螀^(qū)、直轄市)覆蓋重點區(qū)域的1:500—1:10000大比例尺地形圖數(shù)據(jù),超過500萬張的航空影像數(shù)據(jù),覆蓋陸地國土超過7000萬km2(含重復覆蓋面積)的多種分辨率衛(wèi)星影像數(shù)據(jù),覆蓋全部國土的10~30m分辨率衛(wèi)星影像,對重點地區(qū)基本完成必要覆蓋的優(yōu)于5m分辨率的衛(wèi)星影像數(shù)據(jù),以及分辨率優(yōu)于2.1m(截至2012年)的資源三號衛(wèi)星影像數(shù)據(jù)等。
以上地理信息數(shù)據(jù)成果(含歷史數(shù)據(jù))在線存儲量超過560TB,離線存儲量超過1.3PB,并且在線數(shù)據(jù)成果以每年不低于300TB的增量擴展。這些內(nèi)容豐富、類型繁多的地理信息數(shù)據(jù)是地理信息大數(shù)據(jù)的基礎,可以更好地促進地理信息工作服務大局,服務社會與民生。
客觀來說,沒有地理信息數(shù)據(jù),地理信息服務無從談起;沒有海量、規(guī)模化、多類型的地理信息大數(shù)據(jù),地理信息智能服務將舉步維艱。在即將來臨的“智慧中國”時代,擁有海量數(shù)據(jù)級別、高價值含量的地理信息大數(shù)據(jù)是推進測繪地理信息服務走向智能化、智慧化轉(zhuǎn)型升級的必經(jīng)之路。大數(shù)據(jù)的發(fā)展是大勢所趨,是開啟智慧時代的必然要求。同時,測繪地理信息是國家重要戰(zhàn)略信息資源,建設地理信息大數(shù)據(jù)具有深遠的意義和強烈的現(xiàn)實需要。
目前,地理信息系統(tǒng)已積累了大數(shù)據(jù)量級別和多種類的地理信息數(shù)據(jù),但應客觀看到地理信息大數(shù)據(jù)發(fā)展中的制約因素。
1 傳統(tǒng)數(shù)據(jù)采集機制的制約
地理信息數(shù)據(jù)的采集是地理信息行業(yè)的基礎環(huán)節(jié),是大數(shù)據(jù)的孕育環(huán)節(jié)。傳統(tǒng)的地理信息數(shù)據(jù)采集機制是項目驅(qū)動下的計劃模式,即中央級測繪地理信息單位申請國家立項后,將任務分包到各個省級測繪地理信息單位,分頭組織數(shù)據(jù)采集和質(zhì)檢,再集中匯交進行數(shù)據(jù)建庫、分析與服務。這種采集模式在測繪信息化工作中發(fā)揮了重要作用,具有數(shù)據(jù)標準統(tǒng)一和管理高效等特點。同時,應該看到,這種模式存在數(shù)據(jù)獲取面不廣,未能納入市縣級測繪單位和數(shù)量眾多的公眾采集的地理信息;另一方面,數(shù)據(jù)的類型固化,更新周期長,現(xiàn)勢性不高,以1:50000基礎地理數(shù)據(jù)庫為例,全國范圍的更新周期一般需要3~5年;第三方面,傳統(tǒng)數(shù)據(jù)采集機制靈活度不高,反應時間長,難以滿足應急測繪等實時或準實時服務要求。
2 傳統(tǒng)數(shù)據(jù)分析架構(gòu)的制約
地理信息行業(yè)傳統(tǒng)上以數(shù)據(jù)密集型、IO密集型處理為主,隨著大數(shù)據(jù)技術(shù)的進步和新時期用戶的需求變化,計算密集型處理逐漸占有一席之地。在相關(guān)計算機裝備配置方面,大型高性能計算服務器主要配置在國家級數(shù)據(jù)中心的涉密局域網(wǎng)內(nèi),其他地理信息單位難以使用;同時,傳統(tǒng)的地理信息算法受制于早期計算機技術(shù)的制約,以串行計算為主,未能及時改進為并行算法,難以滿足大數(shù)據(jù)環(huán)境下分布式并行處理的架構(gòu)要求,不得不在昂貴的SMP(對稱多處理)服務器上運行,本單位或有業(yè)務關(guān)聯(lián)的其他單位的數(shù)目眾多的計算機設備無法有效利用。
3 傳統(tǒng)數(shù)據(jù)服務模式的制約
大數(shù)據(jù)應用的根本目的是將挖掘、分析得出的數(shù)據(jù)價值,快速全面向用戶服務,服務對象是政府、企事業(yè)單位、國防部門以及公眾的最大集合。否則,大數(shù)據(jù)就失去了全部或部分存在價值。傳統(tǒng)的地理信息服務主要面向涉密部門,在國民經(jīng)濟和國防建設以及應急救災中發(fā)揮了重要作用,例如2013年,國家級中心向用戶提供數(shù)據(jù)超過5TB,效果顯著。但是,應該看到,在面向非涉密的企事業(yè)單位、社會公眾服務方面,存在不足:一是數(shù)據(jù)內(nèi)容較少,僅限于可公開的低分辨率、低精度的地理信息數(shù)據(jù);二是現(xiàn)勢性不高,“舊數(shù)據(jù)”多,最新數(shù)據(jù)時效超過1年以上,其他數(shù)據(jù)多超過3年,這類用戶(數(shù)目更多)對此是不滿意的;三是功能不強,面向涉密單位的數(shù)據(jù)提供以人工為主、網(wǎng)絡手段為輔,面向非涉密單位的數(shù)據(jù)提供集中在“天地圖”網(wǎng)站,由于裝備能力不足,面向海量用戶服務存在等待時間較長、服務波動等不足。
通過以上分析,地理信息大數(shù)據(jù)的采集、分析、服務需要不斷挖掘新思路,突破原有測繪專業(yè)部門進行數(shù)據(jù)采集、質(zhì)檢、處理、分析和建庫的閉合環(huán)路,突破主要面向?qū)I(yè)用戶服務的制約。
1 地理信息大數(shù)據(jù)采集
目前,大多數(shù)地理信息系統(tǒng)是基于自上而下的方式建立的,只有官方提供者可以采集、處理、發(fā)布和維護數(shù)據(jù)資源,這種機制導致了資源維護技術(shù)比較復雜,限制了用戶的參與,造成貢獻資源的不足。地理信息大數(shù)據(jù)的采集,一方面要堅持傳統(tǒng)的數(shù)據(jù)采集的優(yōu)點,適當擴大數(shù)據(jù)采集接收面(如地市級測繪單位),另一方面積極引入VGI(Volunteered Geographic Information,志愿者地理信息)數(shù)據(jù)。
VGI 數(shù)據(jù)主要來自于公眾的自發(fā)行為,每一個人都可以成為地理信息數(shù)據(jù)的采集者,人人都是數(shù)據(jù)的生產(chǎn)者。長期居住的居民會對周邊的地理環(huán)境(地名、交通路網(wǎng))有著較為詳盡的了解,其中的部分信息是難以通過自動化的手段快速獲取的。例如,專業(yè)部門通過航空攝影獲得一個區(qū)域清晰的像片后,需在后期投入大量的人力、物力和財力才可獲取其詳細的地名注記,而發(fā)動公眾,以“人人都是傳感器”的思路,打破地理信息專業(yè)人員和公眾之間的界限,有效整合人們掌握的自己周邊的各種信息,降低成本,提高效率,可實現(xiàn)地理信息大數(shù)據(jù)快速分享和傳播。
在地理信息行業(yè)內(nèi),將傳統(tǒng)模式采集的地理信息數(shù)據(jù)與VGI數(shù)據(jù)相融合,會創(chuàng)造出具有活力的滿足移動互聯(lián)網(wǎng)時代用戶需求的大數(shù)據(jù)成果。
2 地理信息大數(shù)據(jù)分析
對于傳統(tǒng)的串行處理的大數(shù)據(jù)處理,基于涉密廣域網(wǎng),面向省級測繪單位開放國家級中心的高性能計算服務器,充分利用寶貴的計算資源;對于可以分布式并行計算的大數(shù)據(jù)處理,基于涉密廣域網(wǎng),充分利用省級測繪單位的中低端服務器資源,統(tǒng)籌協(xié)調(diào),構(gòu)建基于云計算的大數(shù)據(jù)分析環(huán)境。
對于VGI數(shù)據(jù),由于志愿者是自發(fā)貢獻數(shù)據(jù),會存在數(shù)據(jù)分布不均勻、連續(xù)性不一致甚至錯誤等問題,給VGI 數(shù)據(jù)的處理帶來挑戰(zhàn)。VGI 數(shù)據(jù)必須經(jīng)過處理和質(zhì)量檢查以保證數(shù)據(jù)的形式有效和內(nèi)容合法合規(guī)。在此基礎上,基于Hadoop等云計算架構(gòu),利用MapReduce技術(shù)開發(fā)分布式并行算法,面向涉密廣域網(wǎng)調(diào)用計算資源,進行地理信息大數(shù)據(jù)分析。
3 地理信息大數(shù)據(jù)服務
公眾是地理信息大數(shù)據(jù)的最終使用者,是地理信息大數(shù)據(jù)服務的主要對象。在國家保密法規(guī)許可的前提下,提高可公開大數(shù)據(jù)的分辨率和精度。同時,基于VGI數(shù)據(jù),動態(tài)更新傳統(tǒng)地理信息數(shù)據(jù)庫,增強現(xiàn)勢性,經(jīng)濟發(fā)達地區(qū)和災害多發(fā)區(qū)數(shù)據(jù)時效應在1年之內(nèi);豐富內(nèi)容,數(shù)據(jù)層和屬性信息不應少于Google Map。另外,提升“天地圖”網(wǎng)站計算機和網(wǎng)絡裝備水平,采用性價比較高的Hadoop云計算架構(gòu)和非關(guān)系型數(shù)據(jù)庫,在全國布設多個云計算分中心,全面提升網(wǎng)站服務質(zhì)量。
地理信息大數(shù)據(jù)分發(fā)服務,要快速將大數(shù)據(jù)及其分析成果與相關(guān)應用發(fā)布到最廣大的用戶群之中,到公眾中去,為公眾服務。
將大數(shù)據(jù)與VGI理念相結(jié)合,立足傳統(tǒng)地理信息數(shù)據(jù)成果,構(gòu)建地理信息大數(shù)據(jù),優(yōu)化分析和服務機制,發(fā)揮地理信息大數(shù)據(jù)的核心價值,即地理信息大數(shù)據(jù)來自公眾,地理信息大數(shù)據(jù)服務公眾。
(作者單位:國家基礎地理信息中心)