常思思,汪新慶,2,過 劍,劉 夏
(1.中國地質(zhì)大學(xué) 數(shù)學(xué)地質(zhì)與遙感地質(zhì)研究所,湖北武漢 430074;2.中國地質(zhì)大學(xué) 地質(zhì)過程與礦產(chǎn)資源定量預(yù)測國家重點(diǎn)實(shí)驗(yàn)室,湖北武漢 430074)
為了積極開展礦產(chǎn)遠(yuǎn)景調(diào)查和綜合研究,并科學(xué)評估區(qū)域礦產(chǎn)資源潛力,為科學(xué)部署礦產(chǎn)資源勘查提供依據(jù),國土資源部部署了全國礦產(chǎn)資源潛力預(yù)測評價(jià)工作。隨之獲得的成果數(shù)據(jù),其種類繁多復(fù)雜、規(guī)模龐大異常。這些數(shù)據(jù)具有數(shù)據(jù)源豐富,數(shù)據(jù)量龐大,數(shù)據(jù)類型眾多,數(shù)據(jù)結(jié)構(gòu)復(fù)雜,即所謂多源、多量、多類、多維[1]的特點(diǎn)。另一方面,標(biāo)準(zhǔn)定性數(shù)據(jù)在潛力資源評價(jià)中又占了相當(dāng)數(shù)量,對這些數(shù)據(jù)進(jìn)行檢查顯得尤為重要。作者在本文中通過建立數(shù)據(jù)字典,數(shù)據(jù)標(biāo)準(zhǔn)來檢查標(biāo)準(zhǔn)定性數(shù)據(jù),以確保數(shù)據(jù)的正確性和完整性。
地質(zhì)數(shù)據(jù)都具有數(shù)量巨大,眾多繁多,結(jié)構(gòu)復(fù)雜的特征[1]。地質(zhì)數(shù)據(jù)按照其數(shù)據(jù)意義分為定性數(shù)據(jù)和定量數(shù)據(jù),它們共同描述和反映了地理世界中的實(shí)體及地理現(xiàn)象[2]。
其中,定性數(shù)據(jù)是以字符型數(shù)據(jù)為主,而字符型數(shù)據(jù)又可以分為以下二類[1]:
(1)名義型數(shù)據(jù)。此數(shù)據(jù)沒有次序之分,僅僅是對對象的客觀描述。比如巖石名稱、巖石組合、圖層名稱、圖元編號(hào)、異常編號(hào)、地層代號(hào)等字段。
(2)有序型數(shù)據(jù)。此數(shù)據(jù)相互之間程度有所差異。例如礦石品級、勘探工程密度、構(gòu)造層次、斷裂規(guī)模、蝕變強(qiáng)度等等。
由于數(shù)據(jù)檢查對象為字符型定性數(shù)據(jù),大量數(shù)據(jù)都是以文本形式存在,計(jì)算機(jī)難以對這些數(shù)據(jù)進(jìn)行有效的檢查。并且在地學(xué)上,不少術(shù)語一詞多解或者同物異名,這也給檢查帶來了困難。因此在檢查之前,需要對這些數(shù)據(jù)進(jìn)行規(guī)范化標(biāo)準(zhǔn)處理,將文本內(nèi)容代碼化[2、3]。代碼便于操作,可提高檢索和查詢的效率,還可增強(qiáng)數(shù)據(jù)的共享性。因此,在地質(zhì)數(shù)據(jù)庫中應(yīng)該大量使用代碼數(shù)據(jù)[1]。
對于有序型數(shù)據(jù),因?yàn)槠鋽?shù)據(jù)之間有明顯程度上差別(例如“斷裂規(guī)?!?,其值分為巨型、大型、中型和小型,這樣很容易對其進(jìn)行編碼。
對于名義型數(shù)據(jù),只有那些確定其值的才可以編碼(例如“巖石名稱”)。
“斷裂規(guī)?!薄ⅰ皫r石名稱”均為某一些有相同意義數(shù)據(jù)的集合,數(shù)學(xué)中稱其為枚舉值;而其它一些如“斷層名稱”對于其值不能事前確定即不是枚舉值,則這些數(shù)據(jù)不能將其編碼。在實(shí)際工作中,將確定數(shù)據(jù)項(xiàng)其值能夠代碼化的枚舉值稱之為下屬詞。
定性數(shù)據(jù)在地學(xué)數(shù)據(jù)庫中占有相當(dāng)大的比例,現(xiàn)以全國礦產(chǎn)資源評價(jià)數(shù)據(jù)庫為例,將所有數(shù)據(jù)項(xiàng)按數(shù)據(jù)類型、字段數(shù)進(jìn)行分類統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如圖1所示。
從圖1可知,字符串?dāng)?shù)據(jù)的字段數(shù)量占總字段量的77.8%,而雙精度數(shù)據(jù)占字段數(shù)量8.15%,其中標(biāo)準(zhǔn)化過的定性數(shù)據(jù)占整個(gè)字段數(shù)量的20.6%。由上可知,定性數(shù)據(jù)在全國礦產(chǎn)潛力資源評價(jià)數(shù)據(jù)中,占有相當(dāng)大的比例,所以對以描述性文字為主的定性數(shù)據(jù)做檢查,是一件十分棘手的事情。
再例如對于字符名義型數(shù)據(jù),“巖石名稱”其數(shù)據(jù)值可以為火成巖、橄欖巖、輝石橄欖巖、斜輝橄欖巖、閃長巖、二長巖、安山巖、正長巖等一系列巖石名稱。以全國礦產(chǎn)資源評價(jià)數(shù)據(jù)庫為例,根據(jù)《全國礦產(chǎn)資源評價(jià)數(shù)據(jù)模型數(shù)據(jù)項(xiàng)下屬詞規(guī)定分冊》可知,對于“巖石”名稱這個(gè)數(shù)據(jù)項(xiàng),共有2 446項(xiàng)可填值。在數(shù)據(jù)的錄入中,由于是手工錄入,很難保證值一定就在2 446項(xiàng)中,而對于這種字符型定性數(shù)據(jù)檢查,一般都采用普通的文本編輯功能進(jìn)行簡單的檢查,既費(fèi)時(shí)又費(fèi)人力。而且地學(xué)數(shù)據(jù)一般以海量計(jì)算,這樣往往難以有效地達(dá)到對數(shù)據(jù)進(jìn)行檢查分析的目的。如何確保這些數(shù)據(jù)的正確性和完備性,是一個(gè)有待解決的問題。作者通過將可代碼化的有序型、名義型數(shù)據(jù)進(jìn)行信息編碼,并以此建立標(biāo)準(zhǔn)模式字典,使其標(biāo)準(zhǔn)與數(shù)據(jù)字典有機(jī)的聯(lián)系起來,以此來確保數(shù)據(jù)的正確性和完備性。
對標(biāo)準(zhǔn)化字符型定性數(shù)據(jù)檢查內(nèi)容主要有以下三項(xiàng)。
在礦產(chǎn)資源潛力評價(jià)應(yīng)用系統(tǒng)中,數(shù)據(jù)采集員時(shí)常需要對地質(zhì)礦產(chǎn)分類代碼,進(jìn)行頻繁地檢索、查證、術(shù)語歸屬驗(yàn)證,以及層次歸并或?qū)哟畏纸獾炔僮?。同時(shí),在將地質(zhì)調(diào)查成果入庫時(shí),由于地礦術(shù)語的復(fù)雜性,在涉及到地礦術(shù)語的錄入上,工作人員很容易將錯(cuò)誤的術(shù)語錄入。而且由于各個(gè)礦產(chǎn)地建庫標(biāo)準(zhǔn)不一樣,對于同種數(shù)據(jù)項(xiàng)可能有不同描述,屬性誤差也尤為嚴(yán)重。
數(shù)據(jù)完整性主要是用于檢查有無多余數(shù)據(jù)或者缺少數(shù)據(jù)。由于制圖標(biāo)準(zhǔn)不一樣,屬性字段對于標(biāo)準(zhǔn)也就各不相同。對于同一種圖層,礦產(chǎn)區(qū)所提交的圖層屬性數(shù)據(jù)項(xiàng)缺失情況不盡相同。
值域一致性是值對值域的符合程度,此為邏輯一致性其中一種。在礦產(chǎn)潛力資源評價(jià)項(xiàng)目中,由于圖層沒有按照《全國礦產(chǎn)資源潛力評價(jià)數(shù)據(jù)模型》來劃分圖層。圖層代碼不規(guī)范,屬性字段代碼、類型、長度不一致,都能使提交上來的屬性數(shù)據(jù)不規(guī)范,屬性值不符合數(shù)據(jù)項(xiàng)值域要求。
圖1 數(shù)據(jù)類型統(tǒng)計(jì)Fig.1 Statistics for data types
對于以上情況光靠人工或者一般方式的程序檢查很難查出錯(cuò)誤,這樣就導(dǎo)致后期的地礦數(shù)據(jù)檢查工作變得繁重。檢查內(nèi)容如表1所示。
表1 檢查內(nèi)容[4]Tab.1 Checking contents
數(shù)據(jù)字典(Data Dictionary,DD)也稱為數(shù)據(jù)目錄或系統(tǒng)目錄[5],是關(guān)于數(shù)據(jù)庫系統(tǒng)中各類數(shù)據(jù)描述的集合,是進(jìn)行詳細(xì)的數(shù)據(jù)收集和數(shù)據(jù)分析所獲得的主要成果。在數(shù)據(jù)庫設(shè)計(jì)的第一階段,即需求分析階段,用數(shù)據(jù)流圖(Data Flow Diagram,DFD)來表達(dá)數(shù)據(jù)和處理的關(guān)系,而其中的基礎(chǔ)數(shù)據(jù)則用數(shù)據(jù)字典來描述。
利用數(shù)據(jù)字典將字典的結(jié)構(gòu)設(shè)計(jì)好,把模型、標(biāo)準(zhǔn)等所有的基礎(chǔ)數(shù)據(jù)作為一條一條的記錄,放入到相應(yīng)的數(shù)據(jù)字典中。用數(shù)據(jù)字典來管理數(shù)據(jù),用戶可以直接操作數(shù)據(jù)字典,不管數(shù)據(jù)怎樣變化,只要數(shù)據(jù)字典的結(jié)構(gòu)不變,程序始終是不變的,因?yàn)槌绦蛑皇轻槍?shù)據(jù)字典的結(jié)構(gòu)來操作。通過操作結(jié)構(gòu)取得數(shù)據(jù),而不是像一般的方法那樣直接操作數(shù)據(jù),如圖2所示。
從圖2中可以看出,數(shù)據(jù)字典相當(dāng)于是一個(gè)中間層,程序通過操作固定的字典結(jié)構(gòu),讀出動(dòng)態(tài)變化的數(shù)據(jù),這樣程序就可以不用改變,就可以應(yīng)對變化的數(shù)據(jù),達(dá)到不同的效果。這對程序編碼而言是一勞永逸的,大大提高了程序開發(fā)的效率,同時(shí)也體現(xiàn)出了數(shù)據(jù)字典的靈活性。
圖2 一般檢查和字典檢查的對比圖Fig.2 Comparison chart of general checking and dictionary checking
基于數(shù)據(jù)字典和將文字描述的內(nèi)容代碼化更有利于操作,檢索和檢查的優(yōu)點(diǎn)。根據(jù)1988年由國家標(biāo)準(zhǔn)局頒布了地質(zhì)礦產(chǎn)術(shù)語分類代碼(GB9649-88)[5],以及全國礦產(chǎn)潛力資源評價(jià)制定了關(guān)于地礦術(shù)語定性數(shù)據(jù)的編碼規(guī)則和代碼標(biāo)準(zhǔn),即《全國礦產(chǎn)潛力資源評價(jià)數(shù)據(jù)模型數(shù)據(jù)項(xiàng)下屬詞規(guī)定分冊》,利用數(shù)據(jù)庫中特有的數(shù)據(jù)字典技術(shù),建立數(shù)據(jù)項(xiàng)下屬詞標(biāo)準(zhǔn)字典ZXDC,即將《數(shù)據(jù)項(xiàng)下屬詞規(guī)定分冊》分類代碼,按照已提供的編碼方式入庫,生成計(jì)算機(jī)能夠識(shí)別的下屬詞數(shù)據(jù)項(xiàng)編碼,這樣就將下屬詞標(biāo)準(zhǔn)化(下屬詞標(biāo)準(zhǔn)字典如表2所示)。下屬詞數(shù)據(jù)項(xiàng)將以字典的方式存儲(chǔ),以供其余數(shù)據(jù)項(xiàng)調(diào)用和檢查。這里利用數(shù)據(jù)字典技術(shù)與質(zhì)量標(biāo)準(zhǔn),來檢查數(shù)據(jù)項(xiàng)下屬詞數(shù)據(jù)的完整性和一致性。
表2 下屬詞標(biāo)準(zhǔn)字典Tab.2 Standard dictionary of enumeration value
在整個(gè)項(xiàng)目中,根據(jù)全國礦產(chǎn)資源潛力評價(jià)數(shù)據(jù)模型,建立了圖件、圖層、數(shù)據(jù)項(xiàng)等數(shù)據(jù)字典,用來記錄它們之間聯(lián)系以及模型信息。其中,在標(biāo)準(zhǔn)模式字典D ICT記錄模型中,描述了所有圖層的屬性字段。通過標(biāo)準(zhǔn)模式字典D ICT[6]根據(jù)需要獲取控制參數(shù),然后通過下屬詞標(biāo)準(zhǔn)字典ZXDC來判斷是否符合標(biāo)準(zhǔn),不符合的既而根據(jù)下屬詞標(biāo)準(zhǔn)字典ZXDC修改用戶數(shù)據(jù),從而可以很好地控制數(shù)據(jù)項(xiàng)下屬詞的一致性和完整性。
數(shù)據(jù)檢查策略如圖3所示。
圖3 下屬詞數(shù)據(jù)檢查策略Fig.3 Checking strategy of enumeration value
在MAPGIS平臺(tái)下,采用數(shù)據(jù)字典技術(shù)實(shí)現(xiàn)了符合標(biāo)準(zhǔn)描述的定型數(shù)據(jù)檢查模塊。流程圖如圖4所示。
首先從圖件中獲取圖層信息,接著利用所取得的圖層信息獲取圖元屬性信息,然后判斷要檢查的屬性字段是否有下屬詞。這時(shí)需要到“標(biāo)準(zhǔn)模式字典D ICT”中去,把需要檢查的圖層進(jìn)入到這個(gè)字典中進(jìn)行核對。通過“FIELD_NAME”,就可以知道這個(gè)圖層中有哪些字段了。例如對于字段名為KCAJA I的蝕變強(qiáng)度,接著在“ZXDC”這一項(xiàng)中查看是否有值,如果有值,就表示該字段有下屬詞,從表3可以看出,“蝕變強(qiáng)度”有下屬詞;然后將“ZXDC”中的值讀出,這里是“KCAJA I”;最后在“下屬詞標(biāo)準(zhǔn)ZXDC字典”中,以“ZXDC”中的“KCAJA I”以及“CODE”中的值為關(guān)鍵字查找“C_NAME”中的值。如果用戶與其相對應(yīng),則說明用戶所錄入的“KCAJA I蝕變強(qiáng)度”中的值為正確;如果沒有查找到,則說明錯(cuò)誤,同時(shí)要把錯(cuò)誤的檢查結(jié)果顯示并輸出出來,以便給用戶進(jìn)行修改。
圖4 下屬詞檢查流程Fig.4 Checking process of enumeration value
表3 標(biāo)準(zhǔn)模式字典Tab.3 Standard mode dictionary
由于數(shù)據(jù)在設(shè)計(jì)的過程中經(jīng)常會(huì)發(fā)生變化,一些數(shù)據(jù)是一開始初定的,但是在后面項(xiàng)目的進(jìn)行中,還是會(huì)有些改變。所以如果用一般的方法來檢查的話,一旦數(shù)據(jù)發(fā)生了變化,用戶的程序都要隨時(shí)改變,這樣不但不靈活,而且還會(huì)大大降低程序開發(fā)的效率。經(jīng)實(shí)踐證明,利用數(shù)據(jù)字典技術(shù),可以檢查出在定型數(shù)據(jù)中的隱藏錯(cuò)誤,很好地控制了數(shù)據(jù)的完整性。利用標(biāo)準(zhǔn)規(guī)范可以有效檢查數(shù)據(jù)的一致性,并且這樣既保證了數(shù)據(jù)的變化,也能保證程序的變化達(dá)到最小。這比較人工檢查更為準(zhǔn)確、更省時(shí)省力。
“全國礦產(chǎn)資源潛力預(yù)測評價(jià)”項(xiàng)目,其規(guī)模之大堪稱建國以來地調(diào)行業(yè)之最。隨之獲得的成果數(shù)據(jù),其種類繁多復(fù)雜,規(guī)模龐大異常,涉及到的部門、人員眾多,要確保這項(xiàng)工作能夠順利進(jìn)行,首先要保證入庫數(shù)據(jù)的正確性,這里主要停留在實(shí)現(xiàn)了符合標(biāo)準(zhǔn)定型數(shù)據(jù)的數(shù)據(jù)項(xiàng)檢查,而對于圖件、圖層數(shù)據(jù)檢查是以后工作的重點(diǎn)。
致謝:感謝導(dǎo)師汪新慶副教授不遺余力的指導(dǎo)我,并在研究步驟和研究方法的確定上提出了許多寶貴的修改意見。在研究過程中始終得到全國礦產(chǎn)潛力資源評價(jià)數(shù)據(jù)模型管理項(xiàng)目組的支持,得到中國地質(zhì)大學(xué)(武漢)過劍碩士、邵雯碩士的幫助,在此一并表示衷心的感謝。
[1] 吳沖龍,汪新慶,劉剛,等.地質(zhì)礦產(chǎn)點(diǎn)源信系統(tǒng)設(shè)計(jì)原理及應(yīng)用[M].武漢:中國地質(zhì)大學(xué)出版社,1996.
[2] 周姍愛.地質(zhì)數(shù)據(jù)模型與數(shù)據(jù)描述標(biāo)準(zhǔn)化及相關(guān)技術(shù)研究[D].武漢:中國地質(zhì)大學(xué)(武漢),2007,5:36.
[3] 左仁廣,夏慶霖.礦產(chǎn)預(yù)測定型數(shù)據(jù)不確定性評價(jià)[J].金屬礦山,2007,(8):7.
[4] 中國地質(zhì)調(diào)查局地質(zhì)調(diào)查技術(shù)標(biāo)準(zhǔn)DD2006-07.地質(zhì)數(shù)據(jù)質(zhì)量與評價(jià)[S].2006.
[5] 吳沖龍,汪新慶,劉剛,等.資源信息系統(tǒng)教程[M].武漢:中國地質(zhì)大學(xué)出版社,2001.
[6] 汪新慶,劉剛,袁艷斌,等.地質(zhì)礦產(chǎn)術(shù)語分類代碼在地礦點(diǎn)源信息系統(tǒng)中的應(yīng)用[J].地球科學(xué),1999,24(5):529.
[7] 戴剛毅,鮑征宇,張錦章.基于GIS的礦山空間數(shù)據(jù)庫的建立[J].物探化探計(jì)算技術(shù),2000,22(1):78.
[8] 宋國耀,張曉華,肖克炎,等.礦產(chǎn)資源潛力評價(jià)的理論和GIS技術(shù)[J].物探化探計(jì)算技術(shù),1999,21(3):199.
[9] 馬小剛,汪新慶,毋麗紅,等.應(yīng)用數(shù)據(jù)字典實(shí)現(xiàn)多源地質(zhì)空間數(shù)據(jù)的通用管理[J].礦業(yè)研究與開發(fā),2007,27(1):38.
[10]陳永清,汪新慶,陳建國,等.基于GIS的礦產(chǎn)資源綜合定量評價(jià)[J].地質(zhì)通報(bào),2007,26(2):145.
[11]左仁廣,汪新慶,馬小剛.礦產(chǎn)預(yù)測評價(jià)基礎(chǔ)數(shù)據(jù)庫的入庫策略探討與實(shí)現(xiàn)[J].國土資源科技管理,2005,1:77.
[12]劉展,王萬銀,黃繼先,等.礦產(chǎn)資源評價(jià)系統(tǒng)的地質(zhì)礦產(chǎn)數(shù)據(jù)模型[J].西安石油學(xué)院學(xué)報(bào),2002,17(1):11.
[13]王本洋,余世孝.基于ArcView GIS的數(shù)據(jù)字典技術(shù)研究[J].遙感技術(shù)與應(yīng)用,2003,18(6):429.
[14]吳沖龍.資源信息系統(tǒng)導(dǎo)論[M].武漢:中國地質(zhì)大學(xué)出版社,1998.
[15]李裕偉.空間信息技術(shù)的發(fā)展及其在地球科學(xué)中的應(yīng)用[J].地學(xué)前緣,1998,5(2):337.
[16]孟小紅,王衛(wèi)民,姚長利,等.地質(zhì)模型計(jì)算機(jī)輔助設(shè)計(jì)原理與應(yīng)用[M].北京:地質(zhì)出版社,2001.