張金安
摘??要:隨著中國科技力量的不斷增強,各項科學技術都在不斷超前發(fā)展著,人們對于大數(shù)據(jù)處理這一詞匯的熟悉度不斷上升。目前,大數(shù)據(jù)處理技術的應用范圍是非常廣泛的,并且得到了很好的反響效果,因此備受各行各業(yè)青睞。本文就從地理信息檔案管理方面來探討大數(shù)據(jù)處理技術,本文的探討環(huán)節(jié)是首先了解常見的大數(shù)據(jù)處理技術,基于這個基本信息再進一步對其在地理信息檔案管理方面的應用進行深層次挖掘。
關鍵詞:大數(shù)據(jù)處理技術;地理信息檔案管理;應用分析
引言
目前我國的計算機網(wǎng)絡技術發(fā)展日趨成熟,無論是網(wǎng)絡信息量還是載體數(shù)量都在以一種飛快的速度增長著。大數(shù)據(jù)處理技術也是在這種特定的網(wǎng)絡環(huán)境中發(fā)展出來的,從它的身上可以很明顯地看到這個時代的網(wǎng)絡特征,并且它本身的應用性能也是非常的高。測繪地理信息技術也屬于高新技術的一種,它是在信息技術高度發(fā)展的形式下產(chǎn)生的,它的發(fā)展能夠從更高層次滿足人們對于地理信息的需求,從而實現(xiàn)更好服務人民的目標。所以說,將大數(shù)據(jù)處理技術應用在地理信息檔案管理中是非常明智的一個決定。
一、概述
在當今這個時代,信息技術一種不可阻擋的洪流之勢朝前開拓疆土,計算機網(wǎng)絡技術的應用范圍實際上是不斷擴大的。龐大的數(shù)據(jù)量使得數(shù)據(jù)處理的工作難度日益上升。一旦對信息的處理不能夠及時準確,就會給人們的日常生活帶來了很大的困擾,所以說,在這種形勢下,大數(shù)據(jù)處理技術就應運而生。這個時代的種種情況是數(shù)據(jù)處理技術出現(xiàn)的前提條件,缺一不可[1]。從理論上來看,大數(shù)據(jù)的含義是指在一定的時間段內(nèi)通過常規(guī)的數(shù)據(jù)處理工具廣泛抓取到的數(shù)據(jù)集合,這部分數(shù)據(jù)的數(shù)量是十分龐大的,類型繁多齊全并且傳播速度極快。與收集到的傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)所要求的層次水平更高這是由它的一些特性決定的。如龐大的數(shù)據(jù)中個性數(shù)據(jù)偏多,并且非機構化的數(shù)據(jù)成分占大比等。因此將大數(shù)據(jù)處理技術應用在地理信息檔案管理中時,首先要對大數(shù)據(jù)有一個全面而深入的了解。這樣才能夠在了解其特性的情況下,更好地將其應用在檔案管理中。
二、技術分析
(一)HDFS文件管理系統(tǒng)
HDFS文件管理系統(tǒng)是以Hadoop為技術核心的一種高新技術,它的推出具有十分重要的意義,這是因為它標志著在大數(shù)據(jù)時代下,有一種新型的,更便捷的文件管理系統(tǒng)應運而生。HDFS文件管理系統(tǒng)有一個突出特征,它是一種分布式的存儲文件系統(tǒng)。與前者相比,它做出了更多的優(yōu)化處理。存儲系統(tǒng)以一種分布式的方式存在,可以更好地對存儲信息進行分類管理,以便在信息輸出時達到更高效,更快速的目的。所以說,HDFS這一文件管理系統(tǒng)在當時文件管理困難的情況下作為一種有效的解決措施受到很多人的青睞。
(二)云存儲
云存儲這個概念是在云計算的基礎上進一步延伸出來的,這種網(wǎng)絡存儲技術出現(xiàn)的時間是非常短暫的,但是功能卻是非常卓越。它的工作原理是通過群體應用,網(wǎng)絡技術或者其他一些功能部分將分散在網(wǎng)絡中的各個存儲設備集合起來,在一個整體協(xié)調(diào)的環(huán)境中一同工作,使其成為一個集體向外提供儲存數(shù)據(jù)或者業(yè)務訪問的一個體系化系統(tǒng)。從簡單意義上理解,云存儲可以理解為人們將自己需要存放的資源放到一個特定的地方,這個地方被稱為云,當人們有需要時,可以隨時存取的一種新技術[2]。這項技術極大方便了人們的日常生活,因為人們對信息的存取可以完全自己掌控。一旦有需要就可以調(diào)閱,不會有時間上的延遲或者其他阻礙,這也是為什么云存儲技術能夠在短時間內(nèi)快速發(fā)展壯大起來的主要原因之一。
(三)Elastic?Search檢索
這項檢索技術在開發(fā)時采用的是java模式,并且它的接口端口部分都是以Web接口為基礎的。檢索功能非常強大,所支持的檢索方式很廣泛,包括全文檢索和關鍵詞檢索,基于這些其它檢索工具遠遠不能及的強大功能,Elastic?Search檢索得到了很多企業(yè)的認可并被廣泛應用。這里值得一提的是,在對地理信息文檔進行管理時,最困難的一個部分就是進行文檔檢索。Elastic?Search檢索配置具備搜索速度快,配置簡單幾乎為零等特點,這使其能夠完美地解決這一問題。并且Elastic?Search檢索與傳統(tǒng)的Java應用都是融合的,并不會產(chǎn)生排斥反應,所以與其他檢索程序相比,Elastic?Search檢索具有更強的適用性。
三、應用分析
(一)平臺建立
地理信息檔案資源是一個非常龐大的概念,它所涵蓋到的方面是非常多的,主要包括地圖、衛(wèi)星遙感影像地理位置的環(huán)境氣候測量結(jié)果,建筑工程的工程測量信息,以及航空路線測繪成果等等都在其中。除了這些龐大的數(shù)據(jù)信息之外,信息種類的也是非常繁多的,不僅包括基本的文檔文本,圖片,還包括各類表格圖表,音視頻文件等。以上種種都是造成地理信息檔案管理工作難度不斷上升的主要原因,為了應對這些問題,在對信息檔案中的許多異構不同源型數(shù)據(jù)進行處理時,可以考慮利用大數(shù)據(jù)處理技術來進行。實現(xiàn)這個目標主要是通過處理平臺這一介質(zhì)機構完成的,如何通過大數(shù)據(jù)處理技術來完善一個包含地理信息資源的處理平臺,需要幾個關鍵的步驟[3]。第一步,利用文件管理系統(tǒng)來對檔案中的數(shù)據(jù)文件進行分類,通過分類后,數(shù)據(jù)就重新集合成一個個群體。整個群體內(nèi)的所有節(jié)點需要同時進行工作,他們的任務就是負責存儲和計算輸入的數(shù)據(jù)。在后期時檔案管理資源不斷輸入,那么原有的群體已經(jīng)不能夠滿足存儲的需要,所以必須要進行節(jié)點擴充,這樣才能夠擴大對數(shù)據(jù)的存儲空間,從而提升計算性能滿足計算需要。第二步。需要對半結(jié)構化或者是非結(jié)構化的數(shù)據(jù)進行處理。這里利用到的是Hbase處理技術,這項技術可以將原先那些不能夠完善處理的數(shù)據(jù)重新轉(zhuǎn)化為結(jié)構數(shù)據(jù),轉(zhuǎn)換完畢后在數(shù)據(jù)管理類別的指導下就能夠順利管理入庫。最后一步是對數(shù)據(jù)行分布式計算。通過上述三個環(huán)節(jié),一個功能完整的地理信息檔案大數(shù)據(jù)處理平臺就建立了。
(二)信息數(shù)據(jù)化
近些年來,網(wǎng)絡信息資源的數(shù)據(jù)整體趨勢是暴漲的,新舊信息的數(shù)量加起來是一個非常龐大的數(shù)字,想要實現(xiàn)對其管理的目標,以人力絕對無法達到,只能通過大數(shù)據(jù)處理技術這一智能化技術來實現(xiàn)[4]。想要更好地將大數(shù)據(jù)處理技術應用在地理信息檔案資源的管理中,首先要明確的就是要進行數(shù)據(jù)的挖掘和知識發(fā)現(xiàn)。這是當今時代大數(shù)據(jù)技術應用的發(fā)展方向,也是檔案管理部門如何能夠創(chuàng)新服務的必經(jīng)之路。地理信息檔案儲存館內(nèi)有大量的異構不同源數(shù)據(jù)的存在,這一部分數(shù)據(jù)要再經(jīng)歷清洗,抽取,集成,轉(zhuǎn)換等一系列環(huán)節(jié)之后才能夠輸入到文件系統(tǒng)當中。在這之后再次進行分類或者是處理,才能夠搭建起一個處理平臺的雛形。那么此時對數(shù)據(jù)進行挖掘和知識發(fā)現(xiàn)的客觀環(huán)境已經(jīng)出現(xiàn),這時就能進行這個環(huán)節(jié)。
四、結(jié)束語
結(jié)合上文所講,讀者能夠初步認識到大數(shù)據(jù)處理技術的基本概念,種類及應用的意義所在,這也是本文的旨意所在。通過本文的剖析希望能夠?qū)ο嚓P人員有一定的借鑒意義,助力于大數(shù)據(jù)處理技術在地理信息檔案管理領域的發(fā)展。
參考文獻
[1] 梅樹紅,何琪.大數(shù)據(jù)時代測繪地理信息檔案資源的建設與應用[J].測繪與空間地理信息,2016,39(5):166-168.
[2] 鄒春林.大數(shù)據(jù)時代測繪地理信息檔案資源的建設與運用[J].城市建筑,2017(3):385-385.
[3] 烏瑋,李明.新時代測繪地理信息業(yè)務檔案管理淺談[J].地理信息世界,2018,v.25;No.129(03):122-125+130.
[4] 何偉.大數(shù)據(jù)時代的檔案信息資源共享平臺建設研究[J].辦公室業(yè)務,2016(3):135-135.