程世秀
(1.山東省第四地質(zhì)礦產(chǎn)勘查院,山東 濰坊 261021;2.山東省地礦局海岸帶地質(zhì)環(huán)境保護重點實驗室,山東 濰坊 261021)
進入新世紀后,國際上主要的經(jīng)濟體均已信息技術(shù)為抓手,開始了新一輪的技術(shù)革命,力圖掌握發(fā)展的主動權(quán)和新的技術(shù)制高點。我國大數(shù)據(jù)技術(shù)起步較晚,但是發(fā)展迅速,數(shù)字強國和數(shù)據(jù)治國戰(zhàn)略已經(jīng)成為了國家發(fā)展和治理的主要戰(zhàn)略之一。在此背景下,信息行業(yè)迎來了發(fā)展的黃金機遇期,但是在具體應(yīng)用層面,還有諸多需要解決的問題。實施信息化的基礎(chǔ)是數(shù)據(jù),數(shù)據(jù)的高效整合和利用是信息化發(fā)展的必然要求。以信息化和數(shù)字化為標志的高新技術(shù)極大地促進了地球物理技術(shù)的發(fā)展。
隨著地質(zhì)調(diào)查工作和調(diào)查技術(shù)的發(fā)展,分析測試手段逐漸增多,積累的數(shù)據(jù)要素和格式也隨之增加。高效處理和利用來源廣泛、時間跨度大、格式不一的數(shù)據(jù)技術(shù),為資源的開發(fā)提供數(shù)據(jù)支撐,是解決數(shù)據(jù)快速積累與充分挖掘之間矛盾的最佳手段。調(diào)研中發(fā)現(xiàn),現(xiàn)階段制約地質(zhì)與地球物理數(shù)據(jù)分析的主要問題包括數(shù)據(jù)分類不統(tǒng)一、數(shù)據(jù)來源復(fù)雜、異構(gòu)性突出、組織方式多樣等。在開展地質(zhì)與地球物理數(shù)據(jù)分類與組織研究時,需要建立數(shù)據(jù)體系,最終實現(xiàn)海量數(shù)據(jù)的有序化存儲與處理。地質(zhì)與地球物理數(shù)據(jù)涉及現(xiàn)場采集、室內(nèi)測試分析、處理解釋和研究等環(huán)節(jié)。數(shù)據(jù)分類一般先根據(jù)流轉(zhuǎn)和加工程度劃分,然后再根據(jù)數(shù)據(jù)類型進行細分。以地質(zhì)與地球物理數(shù)據(jù)加工程度和數(shù)據(jù)流轉(zhuǎn)為依據(jù),可分為以下幾類:
(1)任務(wù)文檔類:主要包括任務(wù)合同、實施方案等,以pdf或word格式存儲;任務(wù)文檔屬于調(diào)查和勘測之前的文檔,可為后續(xù)的數(shù)據(jù)處理提供依據(jù)。
(2)原始數(shù)據(jù)類:包括勘測儀器數(shù)據(jù)和現(xiàn)場原位測試數(shù)據(jù),儲存格式各異;數(shù)據(jù)多數(shù)是未經(jīng)處理的。
(3)整編數(shù)據(jù)類:按照規(guī)范要求整理的分析測試數(shù)據(jù)和勘測儀器數(shù)據(jù),質(zhì)量評估報告等,以txt/excel格式存儲;整編數(shù)據(jù)集是根據(jù)《地球物理資料整編技術(shù)規(guī)程》有關(guān)要求,對地質(zhì)采樣樣品分析測試數(shù)據(jù)和地球物理后處理成果數(shù)據(jù)進行整理分析形成。一般樣品室內(nèi)分析測試整編數(shù)據(jù)以excel形式存儲,儀器獲取處理成果數(shù)據(jù)以文本文件形式存儲。地質(zhì)與地球物理數(shù)據(jù)按樣品類型又可分為巖石、沉積物等類型。巖石測試數(shù)據(jù)包括物性測試、成分測試和化學測試等;沉積物數(shù)據(jù)包括古生物、沉積礦物、沉積物粒度及工程力學數(shù)據(jù)等是多種細分類型。整編數(shù)據(jù)類也可以按照調(diào)查手段進行分類,分為磁力調(diào)查數(shù)據(jù)、地震勘測數(shù)據(jù)、重力勘測數(shù)據(jù)、地層剖面、電磁探測數(shù)據(jù)等。
(4)標準數(shù)據(jù)集:標準數(shù)據(jù)集指的是按照規(guī)范的轉(zhuǎn)碼格式和質(zhì)量控制手段,重新排列后的文件集合,處理后的數(shù)據(jù)格式相對統(tǒng)一,可直接導(dǎo)入數(shù)據(jù)庫中使用。在這一過程中,標準化發(fā)揮著重要的作用,標準數(shù)據(jù)集是地質(zhì)與地球物理數(shù)據(jù)庫建設(shè)的基礎(chǔ)工作。
(5)項目成果。報告專著類:課題研究報告、發(fā)表的專著、專利和論文,以pdf或word格式存儲;圖片圖像類:專業(yè)拍攝設(shè)備獲取的視頻及圖像,jpg、MP4、wmv、img等,可直觀表示地質(zhì)地球成果,主要有重力分布圖、沉積物類型圖等;軟件類:軟件及相應(yīng)說明,軟件是進行數(shù)據(jù)處理和管理的主要工具,屬于技術(shù)支撐范疇。
由于地質(zhì)與地球物理數(shù)據(jù)來源、時期和單位各不相同,導(dǎo)致數(shù)據(jù)的組織結(jié)構(gòu)和表現(xiàn)方式不統(tǒng)一,在部分特殊地質(zhì)與地球物理數(shù)據(jù)中,數(shù)據(jù)的處理參數(shù)和處理方法也各不相同。這在一定程度上影響了同一地區(qū)地質(zhì)與地球物理數(shù)據(jù)的綜合分析和應(yīng)用,數(shù)據(jù)的價值無法體現(xiàn)。從這一角度分析,實現(xiàn)數(shù)據(jù)的標準化是挖掘數(shù)據(jù)價值的重要前提。
在數(shù)據(jù)標準化的處理過程中,需要保證數(shù)據(jù)的真實性、一致性和完整性。與此同時,為處理海量的地質(zhì)與地球物理數(shù)據(jù),需借助于相應(yīng)的處理軟件開展工作。按照數(shù)據(jù)的獲取方式不同,地質(zhì)與地球物理數(shù)據(jù)可分為室內(nèi)測試數(shù)據(jù)和儀器直接獲取數(shù)據(jù)兩類,其中儀器直接獲取數(shù)據(jù)包括重力/磁場/電場分布、地震及淺層剖面數(shù)據(jù)等,室內(nèi)分析測試數(shù)據(jù)包括礦物成分、巖石粒度和微量元素含量等。
(1)文件命名標準化。在統(tǒng)一的命名規(guī)則下,地質(zhì)與地球物理數(shù)據(jù)名稱通常包括項目編號、區(qū)塊編號和數(shù)據(jù)類型三部分。對于同一個區(qū)塊開展多次勘測時,不同時期數(shù)據(jù)可在一個區(qū)塊下進行合并。地質(zhì)與地球物理數(shù)據(jù)的文件劃分以測線為依據(jù),文件名稱中可直接反映測線。區(qū)塊編碼和項目編碼信息可在文件夾名稱中體現(xiàn)。
(2)數(shù)據(jù)完整性檢查。數(shù)據(jù)完整性檢查主要針對數(shù)據(jù)是否存在缺失及缺失的程度,對于數(shù)據(jù)不完整的數(shù)據(jù)文件,應(yīng)在第一時間通過對比原始數(shù)據(jù)和資料處理報告,確定數(shù)據(jù)缺失的部分,并進行補充。尤其應(yīng)注意,地質(zhì)與地球物理數(shù)據(jù)中的經(jīng)緯度等關(guān)鍵數(shù)據(jù)及字段信息必須完整,關(guān)鍵數(shù)據(jù)缺失將導(dǎo)致整體無法應(yīng)用。
(3)數(shù)據(jù)代碼統(tǒng)一。在地質(zhì)與地球物理數(shù)據(jù)標準化過程中,經(jīng)常會涉及公共字段的編碼,主要是區(qū)塊、項目和勘測時間信息等。不同的項目或者勘測時間產(chǎn)生的數(shù)據(jù)在編碼上可能存在差異,這就需要在數(shù)據(jù)代碼統(tǒng)一環(huán)節(jié)中進行統(tǒng)一編碼和規(guī)范管理。
(4)格式轉(zhuǎn)換。地質(zhì)與地球物理數(shù)據(jù)由于來源不同、采集人員不同、處理單位不同,導(dǎo)致數(shù)據(jù)格式不同意。對異構(gòu)數(shù)據(jù)進行格式轉(zhuǎn)化,能夠為后續(xù)數(shù)據(jù)的利用奠定基礎(chǔ),促進數(shù)據(jù)的共享。格式轉(zhuǎn)化的過程,需要解析源文件,將格式不同的源文件轉(zhuǎn)化為統(tǒng)一格式的數(shù)據(jù)。磁力、重力數(shù)據(jù)的標準格式為文本格式,關(guān)鍵字段和數(shù)據(jù)的位置相對固定,為后續(xù)查找和處理提供了便利條件。淺層剖面和地震剖面數(shù)據(jù)處理后轉(zhuǎn)化為標準格式的數(shù)據(jù),便于通過測線進行數(shù)據(jù)調(diào)用。
(5)數(shù)據(jù)質(zhì)量控制。數(shù)據(jù)質(zhì)量控制可結(jié)合人工和計算機管理實現(xiàn),為保證地質(zhì)與地球物理數(shù)據(jù)標準化的可靠性,在預(yù)處理階段和處理后數(shù)據(jù)的抽檢階段,主要采用人工抽檢的方式。對于標準數(shù)據(jù)集等大型文件,則需要專業(yè)化的計算機軟件進行,常用的質(zhì)量控制方法包括以下幾種:①站位一致性檢查:將站位表中的字段與數(shù)據(jù)中的站位信息核對,并做到一一對應(yīng);②數(shù)值范圍檢查:確定范圍檢查的經(jīng)驗值,并與數(shù)據(jù)中的要素對比;③著陸點檢查等:核對數(shù)據(jù)的空間分布是否與調(diào)查區(qū)塊對應(yīng);④邏輯一致性檢查:判斷數(shù)據(jù)之間的邏輯關(guān)系;⑤統(tǒng)計數(shù)據(jù)檢查:依據(jù)統(tǒng)計學基本規(guī)則,檢查統(tǒng)計數(shù)據(jù)的合理性,如百分比含量之和是否為100%。
按照一定的規(guī)則或者方式,對采集或者處理的數(shù)據(jù)進行分類,存儲,管理就是數(shù)據(jù)組織。高效的數(shù)據(jù)組織形式能夠在數(shù)據(jù)的管理應(yīng)用過程中起到積極作用。在數(shù)據(jù)組織架構(gòu)的確定中,應(yīng)結(jié)合數(shù)據(jù)本身特點和需求,建立分層次、成體系的管理框架。
基于文件的數(shù)據(jù)組織形式是地質(zhì)與地球物理數(shù)據(jù)最常用的形式之一,在各種數(shù)據(jù)類型的備份存檔和組織管理中都可應(yīng)用。依據(jù)管理目的的不同和管理需求的各異,可使用不同的邏輯關(guān)系,建立分層次的文件組織形式?,F(xiàn)實中地質(zhì)與地球物理勘探通常以項目為主線,建議在資源匯集過程中按照項目進行分類并建立組織管理,實現(xiàn)數(shù)據(jù)對象的分類和抽象。對于同一個項目,可按照不同的勘測時間或者是區(qū)塊進行分類。在同一行次范疇內(nèi),可依據(jù)數(shù)據(jù)的種類進行再次劃分。在此基礎(chǔ)上,根據(jù)每次任務(wù)取得的成果不同,可在文件組織架構(gòu)下進行相應(yīng)的擴充,通常情況下文件放置于專門的服務(wù)器中,并建立相應(yīng)的索引表,便于后期文件調(diào)閱??傮w來看,基于文件的組織形式管理較為便捷,后期擴充較為快捷,但是這種方式只針對于規(guī)范文件,并且對于組織結(jié)構(gòu)和分類體系要求較高,否則將會導(dǎo)致后期檢索和應(yīng)用非常繁瑣。
3.2.1 基礎(chǔ)數(shù)據(jù)庫
使用事務(wù)型數(shù)據(jù)庫管理系統(tǒng),對地質(zhì)與地球物理數(shù)據(jù)進行分類和管理,可按照方法和勘測專業(yè)的不同,建立地球物理基礎(chǔ)數(shù)據(jù)庫和海底地質(zhì)基礎(chǔ)數(shù)據(jù)庫。在數(shù)據(jù)庫的建立過程中,應(yīng)深入對象之間的邏輯關(guān)系和映射關(guān)系,建立關(guān)聯(lián)規(guī)則。在數(shù)據(jù)庫中又包含很多個數(shù)據(jù)庫表,每個數(shù)據(jù)庫表中包含若干信息。對于日常數(shù)據(jù)管理和目錄發(fā)布等基礎(chǔ)應(yīng)用,可建立結(jié)構(gòu)化的事務(wù)性數(shù)據(jù)庫。
3.2.2 綜合數(shù)據(jù)庫
以要素管理為主體,依托于分布式并行數(shù)據(jù)庫集群儲存技術(shù),可建立數(shù)據(jù)庫綜合管理系統(tǒng)。在綜合數(shù)據(jù)庫中可進行數(shù)據(jù)抽取、清洗等復(fù)雜操作,同時綜合數(shù)據(jù)庫中的最小組成單元是列。以可視化展示和統(tǒng)計分析為基礎(chǔ)的超大規(guī)模數(shù)據(jù)庫,可為各類數(shù)據(jù)的分析研究提供助力。
3.2.3 成果數(shù)據(jù)庫
成果數(shù)據(jù)庫主要存儲非結(jié)構(gòu)化的數(shù)據(jù),現(xiàn)階段最主要的框架使用的是Hadoop,Hadoop是一個開源的分布式計算框架,可在大量廉價硬件基礎(chǔ)上組成集群,構(gòu)建一個易擴展、高可用的并行分布系統(tǒng),該系統(tǒng)既可以從非結(jié)構(gòu)化數(shù)據(jù)文件,也可以存儲半結(jié)構(gòu)化的數(shù)據(jù)文件。其中非結(jié)構(gòu)化數(shù)據(jù)庫具有高靈活、易擴展、高讀寫優(yōu)勢,可快速建立數(shù)據(jù)之間的關(guān)聯(lián),并結(jié)合深度分析進行趨勢預(yù)測,滿足數(shù)據(jù)深度挖掘的應(yīng)用需求。
借助于國家重大專項的研究和應(yīng)用推廣,我國在近海、大陸架和遠洋深海等不同區(qū)域開展了大量的地質(zhì)及地球物理勘測工作,積累了大量的地質(zhì)地球物理數(shù)據(jù)。數(shù)據(jù)是管理的基礎(chǔ),也是應(yīng)用的根本條件,良好的數(shù)據(jù)分類與組織架構(gòu)能夠為數(shù)據(jù)應(yīng)用提供便捷條件。本文在深入分析地質(zhì)與地球物理數(shù)據(jù)特性的基礎(chǔ)上介紹了數(shù)據(jù)分類的基礎(chǔ)知識,并結(jié)合質(zhì)量控制和標準化處理,確定了數(shù)據(jù)存儲策略,在此基礎(chǔ)上探討了非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的組織架構(gòu),對于地質(zhì),地球物理數(shù)據(jù)管理和應(yīng)用具有重要意義。