史維鑫,高鵬鑫,回廣驥,張 弘,張海蘭,高卿楠,孫東洵
(自然資源實(shí)物地質(zhì)資料中心,河北 三河 065201)
鉆孔巖芯、標(biāo)本實(shí)物地質(zhì)資料是取自于地質(zhì)體的第一手地質(zhì)資料,廣泛應(yīng)用于地球科學(xué)研究、礦產(chǎn)資源勘查開發(fā)等方面。利用目前先進(jìn)的技術(shù)手段,如紅外光譜、X射線熒光光譜、磁化率等,可以連續(xù)、快速地提取實(shí)物蘊(yùn)含的各類信息,將實(shí)體巖芯、標(biāo)本等“數(shù)字化”。研發(fā)類型、結(jié)構(gòu)合理的數(shù)據(jù)庫,利用“地質(zhì)云”平臺將數(shù)據(jù)上網(wǎng)發(fā)布,消除數(shù)據(jù)鴻溝,實(shí)現(xiàn)最大范圍的數(shù)據(jù)共享。
近年來,國家和各省級實(shí)物地質(zhì)資料館積累了海量的、系統(tǒng)的實(shí)物地質(zhì)資料,但其資料服務(wù)仍局限于傳統(tǒng)的到館觀察、取樣等。一方面服務(wù)成本較高,給資料利用者造成較大不便;另一方面對實(shí)物損壞較大,不利于長期保管。此外單一的服務(wù)模式已經(jīng)明顯不符合新時(shí)期地質(zhì)工作對資料全面、高速、便捷的利用需求。在現(xiàn)代信息技術(shù)發(fā)展日新月異的背景下,如何深度挖掘?qū)嵨锏刭|(zhì)資料多元數(shù)據(jù),做好海量、異構(gòu)數(shù)據(jù)的規(guī)范化組織,安全存儲與快速發(fā)布,如何提供數(shù)據(jù)的有效應(yīng)用是實(shí)物地質(zhì)資料管理工作者要全面解決的問題。為了有效解決以上問題,本文從實(shí)物地質(zhì)資料信息化服務(wù)需求出發(fā),總結(jié)國內(nèi)外波譜數(shù)據(jù)庫建設(shè)情況,立足國內(nèi)具體情況及存在的問題,提出建設(shè)實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫的方案及相關(guān)建議。
中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫及其服務(wù)系統(tǒng)主要是基于國家、省級和基層地勘單位三級保管的巖芯、標(biāo)本等實(shí)物地質(zhì)資料,開展以圖像、紅外光譜掃描為主的數(shù)字化工作,提取實(shí)物的圖像、光譜反射率、礦物組分等信息并建立數(shù)據(jù)庫,實(shí)現(xiàn)多源、多元、異構(gòu)的數(shù)據(jù)統(tǒng)一組織管理,并基于“地質(zhì)云”統(tǒng)一發(fā)布。該數(shù)據(jù)庫主要包括三個(gè)子數(shù)據(jù)庫,即巖芯波譜數(shù)據(jù)庫、典型標(biāo)本波譜數(shù)據(jù)庫和其他實(shí)物波譜數(shù)據(jù)庫。數(shù)據(jù)管理系統(tǒng)主要實(shí)現(xiàn)數(shù)據(jù)處理、編輯、存儲、統(tǒng)計(jì)、錄入、導(dǎo)出等功能。數(shù)據(jù)服務(wù)系統(tǒng)主要實(shí)現(xiàn)數(shù)據(jù)的發(fā)布、查詢、瀏覽、下載等功能(圖1)。
建設(shè)中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫具有重要的意義,從國際視野來看,世界各國建立起實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫,地質(zhì)科學(xué)家們將更容易通過波譜數(shù)據(jù)庫的在線共享,提升對全球地質(zhì)演化的綜合研究水平。從國內(nèi)情況來看,建設(shè)該數(shù)據(jù)庫,一方面,可以提高我國實(shí)物地質(zhì)資料的數(shù)字化、信息化服務(wù)水平,有效改變傳統(tǒng)到館服務(wù)模式單一、效率低下的弊端;另一方面,技術(shù)應(yīng)用成熟后,可推廣到廣大地勘單位、工礦企業(yè),大量巖芯在圖像、光譜掃描后可進(jìn)行縮減埋藏等處置工作,既能夠降低保管成本,又能最大限度地降低因處置造成的信息損失。
圖1 中國典型礦床波譜數(shù)據(jù)庫及其服務(wù)系統(tǒng)的定義性框架圖
世界各礦業(yè)大國基于光譜蝕變礦物填圖、高光譜巖芯編錄系統(tǒng)、“玻璃地球”計(jì)劃等工作[1-4]開展了巖芯、礦物相關(guān)的波譜數(shù)據(jù)庫建設(shè)工作。但建設(shè)最先進(jìn)、數(shù)據(jù)量最大、服務(wù)效果最顯著的巖芯波譜數(shù)據(jù)庫是在澳大利亞和瑞典,兩國均建立了巖芯波譜數(shù)據(jù)庫及其服務(wù)系統(tǒng)并實(shí)現(xiàn)在線數(shù)據(jù)發(fā)布與共享。
澳大利亞通過將本國18個(gè)巖芯保管機(jī)構(gòu)的所有鉆孔巖芯進(jìn)行光譜掃描工作,建立了奧斯庫普國家虛擬巖芯庫(National Virtual Core Library),實(shí)現(xiàn)了數(shù)據(jù)上的統(tǒng)一匯聚、管理與發(fā)布,極大提升了數(shù)據(jù)的交流與共享。該項(xiàng)工作以逐步建立澳洲大陸地殼上部1~2 km范圍的地球物質(zhì)的新型高清影像,為世界級地學(xué)研究提供服務(wù)為目標(biāo)[5]。該巖芯庫除了提供巖芯圖像、波譜數(shù)據(jù)之外,還提供元素濃度等其他各類標(biāo)量數(shù)據(jù),且數(shù)據(jù)庫及其服務(wù)系統(tǒng)可拓展性極強(qiáng),只要帶有深度屬性的數(shù)據(jù),均可以加載到數(shù)據(jù)庫及其服務(wù)系統(tǒng)中進(jìn)行統(tǒng)一管理與發(fā)布,目前數(shù)據(jù)可直接通過AuScope的數(shù)據(jù)基礎(chǔ)設(shè)施和發(fā)現(xiàn)門戶網(wǎng)站、澳大利亞地球科學(xué)門戶網(wǎng)站進(jìn)行查詢或線下訂購[6]。
截至2016年,瑞典地質(zhì)調(diào)查局永久巖芯庫內(nèi)存放著來自瑞典各地18 000余個(gè)鉆孔的3 000 km鉆孔巖芯。為了提升巖芯的數(shù)字化程度,瑞典地質(zhì)調(diào)查局啟動了鉆孔巖芯掃描工作,主要計(jì)劃對國家鉆孔巖芯庫內(nèi)存放的巖芯開展高分辨率光學(xué)圖像掃描和紅外光譜掃描并建立光學(xué)和光譜的數(shù)據(jù)庫,將成為國家永久巖芯庫所藏鉆孔巖芯相關(guān)資料的有力補(bǔ)充[7]。該數(shù)據(jù)結(jié)果也實(shí)現(xiàn)了共享,在瑞典地質(zhì)調(diào)查局網(wǎng)站的地圖查看器中的“鉆孔巖芯”選項(xiàng)卡內(nèi)可進(jìn)行查看利用。
我國由于起步較晚,目前巖芯數(shù)字化程度較低,無論固體礦產(chǎn)還是油氣系統(tǒng),基本上停留在光學(xué)圖像掃描數(shù)字化階段,在線服務(wù)也僅停留在目錄、圖像的程度,與澳大利亞、瑞典等發(fā)達(dá)國家相比,無論數(shù)據(jù)種類還是數(shù)據(jù)量等均存在“代差”。
3.1.1 國家館巖芯波譜數(shù)據(jù)采集與保存情況
為了豐富數(shù)據(jù)種類,2015年,國家實(shí)物地質(zhì)資料館進(jìn)行了館藏固體礦產(chǎn)、油氣等多門類巖芯共20多個(gè)礦床上萬米巖芯的紅外光譜掃描工作。截至2018年年底,國家實(shí)物地質(zhì)資料館已經(jīng)積累了300余處典型礦床的近50萬m巖芯,已完成約30萬m巖芯的圖像掃描工作,并基于“地質(zhì)云”和“中國實(shí)物地質(zhì)資料信息網(wǎng)”進(jìn)行在線圖像發(fā)布服務(wù)?;谠擁?xiàng)工作,積累了既能夠滿足資料利用者數(shù)據(jù)精度的要求,又適合于館藏機(jī)構(gòu)快速、大批量、低成本開展館藏巖芯紅外光譜掃描的技術(shù)方法。此外,針對波譜數(shù)據(jù)庫的數(shù)據(jù)特點(diǎn),進(jìn)行數(shù)據(jù)庫建設(shè)預(yù)研究。以上工作為全面性地開展中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫建設(shè)工作積累了一定的工作經(jīng)驗(yàn)。
3.1.2 省級館巖芯波譜數(shù)據(jù)建設(shè)及相關(guān)工作開展現(xiàn)狀
截至2017年年底,全國各省級館已經(jīng)積累了約82萬m巖芯等實(shí)物地質(zhì)資料。省級實(shí)物地質(zhì)資料管理工作近幾年在庫房設(shè)施建設(shè)、資料采集收集等領(lǐng)域取得了進(jìn)展,但目前僅安徽、黑龍江、西藏等少數(shù)幾個(gè)省份開展了巖芯圖像掃描工作,且尚未實(shí)現(xiàn)上網(wǎng)服務(wù)。
3.1.3 基層單位巖芯波譜數(shù)據(jù)建設(shè)及相關(guān)工作開展現(xiàn)狀
2009年全國實(shí)物地質(zhì)資料及其管理情況摸底調(diào)查結(jié)果顯示:全國482個(gè)主要保管單位總計(jì)保存巖礦心已達(dá)1 006.04萬m。據(jù)2016年《中國礦產(chǎn)資源報(bào)告》[8],“十二五”期間,僅固體礦產(chǎn)領(lǐng)域,每年新增的巖芯仍將達(dá)到上千萬米,數(shù)量十分龐大。但全國絕大多數(shù)基層地勘單位、工礦企業(yè)實(shí)物地質(zhì)資料保管情況堪憂,數(shù)字化工作更無從談起。
國內(nèi)一些企事業(yè)單位、科研機(jī)構(gòu)等聯(lián)合地勘單位或礦業(yè)公司基于某一礦區(qū)進(jìn)行巖芯光譜掃描并建立了小型的巖芯波譜數(shù)據(jù)庫,促進(jìn)了相關(guān)研究工作[9-13],但同樣數(shù)據(jù)庫缺乏數(shù)據(jù)共享機(jī)制,數(shù)據(jù)在權(quán)屬上屬于私人企業(yè)或某個(gè)單位,數(shù)據(jù)共享程度低,使用效率低下。
與國外發(fā)達(dá)國家相比,我國實(shí)物地質(zhì)資料數(shù)字化程度偏低,以國家館和各省級館為例,數(shù)字化手段仍以圖像掃描為主,僅國家館開展了部分定量、半定量多參數(shù)掃描數(shù)字化試驗(yàn),相關(guān)技術(shù)尚未進(jìn)行推廣應(yīng)用。雖然部分科研單位、工礦企業(yè)針對某些特定礦區(qū)進(jìn)行了巖芯光譜掃描建庫,但數(shù)據(jù)量小且缺乏全國層面的統(tǒng)籌管理,難以對數(shù)據(jù)進(jìn)行匯聚、整合,數(shù)據(jù)零星分散,無法形成“大數(shù)據(jù)”的效應(yīng)。因此,總體上講,我國實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫建設(shè)尚處于起步階段。分析與國外波譜數(shù)據(jù)庫建設(shè)的差距,主要原因包括紅外光譜技術(shù)推廣應(yīng)用較晚;國內(nèi)投資項(xiàng)目不足;波譜數(shù)據(jù)的采集、解譯、數(shù)據(jù)組織等方面無統(tǒng)一的標(biāo)準(zhǔn);波譜數(shù)據(jù)庫建設(shè)缺乏全國層面的統(tǒng)一管理措施等,今后應(yīng)在國家層面予以重視和加強(qiáng)。
中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫建設(shè)既不是個(gè)別單位參與的,也不是“一次性”的任務(wù)。波譜數(shù)據(jù)需要持續(xù)不斷地更新、豐富、充實(shí),該項(xiàng)工作是全國各個(gè)實(shí)物保管單位廣泛參與并形成常態(tài)化的數(shù)據(jù)匯聚、更新機(jī)制的龐大工程,其建設(shè)既是一個(gè)涉及地質(zhì)、遙感、計(jì)算機(jī)技術(shù)等多學(xué)科交叉的技術(shù)問題,也是涉及數(shù)據(jù)匯聚、共享利用的管理體制機(jī)制問題。首先,需搭建國家-省級-基層單位的三級網(wǎng)絡(luò)體系,國家館為國家級數(shù)據(jù)中心,省級館為省級數(shù)據(jù)分中心,基層單位為數(shù)據(jù)采集終端的基本構(gòu)成單元(圖2)。國家館和省級中心既是數(shù)據(jù)匯聚中心,同時(shí)也是數(shù)據(jù)采集終端。最終,所有數(shù)據(jù)匯聚到國家級數(shù)據(jù)中心,并通過“地質(zhì)云”統(tǒng)一發(fā)布服務(wù)。
圖2 國家-省級-基層單位三級網(wǎng)絡(luò)體系
圖3 “樹根狀”數(shù)據(jù)庫組織體系
根據(jù)典型礦床波譜數(shù)據(jù)庫的數(shù)據(jù)特點(diǎn),按照由宏觀到具體的思路,建立“五級”數(shù)據(jù)組織體系,即“總數(shù)據(jù)庫-礦種-成因類型-典型礦床-鉆孔-數(shù)據(jù)”,形成“樹根狀”的數(shù)據(jù)組織體系(圖3)。
中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫及其服務(wù)系統(tǒng)在總體架構(gòu)上為“2-3-4-5”模式,即:2條主線,3層分布式模型,4層數(shù)據(jù)體系,5個(gè)主體功能,具體如下所述。
1) 2條主線。一條為理論與技術(shù)方法與管理制度研究,技術(shù)方法包括巖芯光譜掃描、數(shù)據(jù)處理、數(shù)據(jù)解譯、數(shù)據(jù)庫建設(shè)等技術(shù)方法,管理制度包括數(shù)據(jù)匯聚、共享、發(fā)布等制度;另一條是以數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)解譯、多元數(shù)據(jù)集成、專題成果發(fā)布等業(yè)務(wù)工作為核心的業(yè)務(wù)主線。
2) 3層數(shù)據(jù)庫分布式模型。該數(shù)據(jù)庫的系統(tǒng)架構(gòu)為一個(gè)邏輯上3層的分布式模型,包括應(yīng)用表示層、數(shù)據(jù)操作層和數(shù)據(jù)存儲層。應(yīng)用表示層包括兩個(gè)層面,一是數(shù)據(jù)展示層,為用戶提供系統(tǒng)操作和可視化交互展示界面,主要包括捕捉用戶輸入信息、展示查詢結(jié)果,實(shí)現(xiàn)不同的數(shù)據(jù)應(yīng)用模式;二是后臺業(yè)務(wù)應(yīng)用層,主要是后臺的系統(tǒng)管理、安全服務(wù)等功能。數(shù)據(jù)操作層主要包括信息服務(wù)、信息編輯和管理維護(hù)等功能,信息服務(wù)包括查詢、分析、顯示等功能;信息編輯包括數(shù)據(jù)輸入、數(shù)據(jù)挖掘、格式轉(zhuǎn)換、數(shù)據(jù)同步、數(shù)據(jù)輸出等功能;管理維護(hù)包括用戶管理和權(quán)限管理。數(shù)據(jù)存儲層主要負(fù)責(zé)將標(biāo)準(zhǔn)化的鉆孔巖芯數(shù)據(jù)、典型標(biāo)本數(shù)據(jù)及標(biāo)準(zhǔn)礦物光譜數(shù)據(jù)進(jìn)行存放管理(圖4)。
3) 4層數(shù)據(jù)體系。該數(shù)據(jù)庫的基本單元為單個(gè)鉆孔巖芯的數(shù)據(jù),單個(gè)鉆孔巖芯的數(shù)據(jù)可劃分為4個(gè)層次數(shù)據(jù),依次為光譜曲線數(shù)據(jù)、光譜參數(shù)數(shù)據(jù)、礦物解譯數(shù)據(jù)和地質(zhì)解釋數(shù)據(jù);其中光譜曲線數(shù)據(jù)是基礎(chǔ),基于光譜曲線圖像和反射率數(shù)據(jù),獲取光譜參數(shù)數(shù)據(jù);基于光譜參數(shù)數(shù)據(jù),利用解譯軟件并結(jié)合人工干預(yù),形成礦物解譯數(shù)據(jù);基于地質(zhì)知識,將礦物解譯數(shù)據(jù)轉(zhuǎn)化為地質(zhì)解釋語言;針對4個(gè)層次數(shù)據(jù)多元、異構(gòu)的特點(diǎn),數(shù)據(jù)庫存儲架構(gòu)的選擇,要滿足海量存儲、兼容性、安全性、管理效率、可擴(kuò)展性等性能需求。
4) 5個(gè)主體功能。數(shù)據(jù)庫管理及其服務(wù)系統(tǒng)要能夠提供數(shù)據(jù)的綜合管理、查詢、瀏覽、下載、借閱5項(xiàng)主體功能;數(shù)據(jù)管理與服務(wù)系統(tǒng)的建設(shè)充分結(jié)合數(shù)據(jù)類型、結(jié)構(gòu)、未來的發(fā)展趨勢等特點(diǎn)打造智能、快速運(yùn)行、高效管理的數(shù)據(jù)平臺,利用大數(shù)據(jù)和云計(jì)算等技術(shù),基于“地質(zhì)云”服務(wù)平臺,實(shí)現(xiàn)鉆孔巖芯數(shù)據(jù)的存儲、組織、管理、快速檢索與挖掘應(yīng)用。
圖4 數(shù)據(jù)庫系統(tǒng)架構(gòu)圖
建立巖芯、標(biāo)本的光譜掃描技術(shù)規(guī)范,對巖芯掃描前準(zhǔn)備(包括清潔、整理、處理等)、巖芯掃描(包括掃描間隔、單點(diǎn)時(shí)間控制、儀器定標(biāo)等)、數(shù)據(jù)解譯(包括解譯方法、解譯精度控制等)、地質(zhì)解釋和數(shù)據(jù)質(zhì)量控制進(jìn)行全流程的規(guī)范和約束,形成全流程的光譜掃描數(shù)字化技術(shù)規(guī)范。
核心數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn)是中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫建設(shè)的基礎(chǔ),需研究實(shí)物地質(zhì)資料波譜核心數(shù)據(jù)庫標(biāo)準(zhǔn)規(guī)范,研究多元異構(gòu)數(shù)據(jù)的規(guī)范化組織與管理;根據(jù)波譜數(shù)據(jù)的特點(diǎn),開展數(shù)據(jù)庫頂層架構(gòu)設(shè)計(jì),并對各類數(shù)據(jù)的類型、格式、命名、組織方法等進(jìn)行規(guī)范。
除了各類技術(shù)要求外,還需要配套制定一系列的數(shù)據(jù)管理與發(fā)布制度,對參與建設(shè)中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫的各個(gè)責(zé)任主體的權(quán)利、義務(wù)等進(jìn)行詳細(xì)約束,為波譜數(shù)據(jù)庫建設(shè)的常態(tài)化運(yùn)行提供制度保障。
采用“地質(zhì)云”作為服務(wù)平臺是技術(shù)支撐體系的重要一環(huán),需研究搭建數(shù)據(jù)庫與“地質(zhì)云”之間的數(shù)據(jù)接口,實(shí)現(xiàn)數(shù)據(jù)上云服務(wù)。該波譜數(shù)據(jù)庫服務(wù)系統(tǒng)應(yīng)屬于“數(shù)據(jù)共享”子系統(tǒng),在“地學(xué)數(shù)據(jù)”下設(shè)獨(dú)立數(shù)據(jù)庫服務(wù)系統(tǒng),如圖1所示。實(shí)物地質(zhì)資料具有很強(qiáng)的位置屬性,因此在傳統(tǒng)目錄檢索的基礎(chǔ)之上,實(shí)現(xiàn)強(qiáng)大的地理檢索是服務(wù)系統(tǒng)建設(shè)的關(guān)鍵所在。
1) 中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫建設(shè)采用成熟的信息提取技術(shù)方法,將巖芯、標(biāo)本等實(shí)體資料數(shù)字化,以“地質(zhì)云”為資源共享平臺,消除數(shù)據(jù)鴻溝,提升實(shí)物地質(zhì)資料服務(wù)能力和水平。
2) 中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫及其服務(wù)系統(tǒng)主要工作是開展以圖像、光譜掃描等為主的數(shù)字化工作,提取實(shí)物的圖像、反射率、組份等信息并建立數(shù)據(jù)庫,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一組織管理與發(fā)布。
3) 中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫在管理體制機(jī)制方面需要搭建“國家-省級-基層單位”的三級網(wǎng)絡(luò)體系,國家館為國家級數(shù)據(jù)中心,省級館為省級數(shù)據(jù)分中心,基層單位為數(shù)據(jù)采集終端的基本構(gòu)成單元;在數(shù)據(jù)組織體系方面需要搭建“礦種-成因類型-礦床-鉆孔-波譜數(shù)據(jù)”五級數(shù)據(jù)組織體系。
4) 中國典型礦床波譜數(shù)據(jù)庫及其服務(wù)系統(tǒng)采用“2-3-4-5”結(jié)構(gòu)模式。即2條主線:一條為技術(shù)方法與管理制度研究,另一條業(yè)務(wù)工作流程主線;3層數(shù)據(jù)庫分布式模型:數(shù)據(jù)存儲層、數(shù)據(jù)操作層和應(yīng)用展示層;4層單鉆孔數(shù)據(jù)體系:光譜反射率數(shù)據(jù)、光譜參數(shù)數(shù)據(jù)、礦物解譯數(shù)據(jù)和地質(zhì)解釋數(shù)據(jù);5個(gè)主體功能:數(shù)據(jù)的管理、查詢、瀏覽、下載和借閱。
5) 中國典型礦床實(shí)物地質(zhì)資料波譜數(shù)據(jù)庫的建設(shè)是一項(xiàng)長期且持續(xù)的工作,需要在體制機(jī)制及制度保障方面開展研究,國家牽頭、省級配合、全國參與,最終形成數(shù)據(jù)有效匯聚、常態(tài)更新、即時(shí)發(fā)布的“動態(tài)”數(shù)據(jù)庫及其服務(wù)系統(tǒng)。