杜軍輝 閆麗莉 屈春燕 劉 治 單新建
(中國地震局地質(zhì)研究所,北京 100029)
地震數(shù)據(jù)模型優(yōu)化過程方法及初步應(yīng)用
杜軍輝 閆麗莉*屈春燕 劉 治 單新建
(中國地震局地質(zhì)研究所,北京 100029)
由于地震數(shù)據(jù)種類繁多且數(shù)量不斷增大,使得地震數(shù)據(jù)共享和數(shù)據(jù)服務(wù)面臨的困難越來越大。針對(duì)這個(gè)問題,提出了基于PowerDesigner建模工具對(duì)已有的地震數(shù)據(jù)模型進(jìn)行優(yōu)化的過程方法。并將此方法初步應(yīng)用于現(xiàn)有的1/400萬活動(dòng)斷層GIS數(shù)據(jù)庫中,針對(duì)該庫目前存在的問題,實(shí)現(xiàn)了對(duì)斷層數(shù)據(jù)模型的優(yōu)化,結(jié)合具體的實(shí)例,應(yīng)用了優(yōu)化后的斷層數(shù)據(jù)庫。同時(shí),將優(yōu)化前后的斷層數(shù)據(jù)物理模型進(jìn)行了對(duì)比分析,表明優(yōu)化后的模型使用起來更加靈活、方便,數(shù)據(jù)描述更加準(zhǔn)確,數(shù)據(jù)之間的關(guān)系更加清晰,數(shù)據(jù)約束更加規(guī)范、完善,能夠滿足地震工作者不同的需求,為今后的地震數(shù)據(jù)共享和數(shù)據(jù)服務(wù)奠定了良好的基礎(chǔ)。
PowerDesigner 地震數(shù)據(jù)模型 數(shù)據(jù)模型優(yōu)化 數(shù)據(jù)庫
目前國內(nèi)地震數(shù)據(jù)建模工作較成熟的應(yīng)屬石油地質(zhì)方面,圍繞石油儲(chǔ)層建模是近些年發(fā)展起來的高新技術(shù),可以實(shí)現(xiàn)對(duì)油氣儲(chǔ)層的定量表征及對(duì)各種尺度的非均質(zhì)性的刻畫。在地質(zhì)數(shù)據(jù)方面,通過研究地學(xué)數(shù)據(jù)的基礎(chǔ)內(nèi)容標(biāo)準(zhǔn)、專用標(biāo)準(zhǔn)和應(yīng)用規(guī)則,形成幾種較完整的地學(xué)數(shù)據(jù)建模的模式。例如地質(zhì)界面建模、地質(zhì)體建模、塊段建模、實(shí)體建模法,從二維地質(zhì)建模到三維建模研究,再到可視化的建模方法,并且建成了一批重要的地質(zhì)數(shù)據(jù)庫(馬承杰,2005;軒興濤,2008)。
地震數(shù)據(jù)模型是地震數(shù)據(jù)庫的基礎(chǔ),而地震數(shù)據(jù)庫已是地震業(yè)務(wù)、地震研究、地震信息網(wǎng)絡(luò)等的基礎(chǔ)。應(yīng)用需求與數(shù)據(jù)模型具有一一對(duì)應(yīng)的關(guān)系,即不同的需求對(duì)應(yīng)著不同的數(shù)據(jù)模型。地震數(shù)據(jù)模型的建立需要依據(jù)應(yīng)用需求和各個(gè)學(xué)科的數(shù)據(jù)特征來設(shè)計(jì)(李誼瑞等,1993;王秀英等,2004;姚運(yùn)生等,2006;路鵬等,2007)。中國地震基礎(chǔ)數(shù)據(jù)觀測(cè)網(wǎng)絡(luò)建立后,借助各種先進(jìn)的觀測(cè)手段,每天產(chǎn)生海量的動(dòng)態(tài)數(shù)據(jù)和數(shù)據(jù)產(chǎn)品。故需要建立各類地震數(shù)據(jù)庫,使得觀測(cè)數(shù)據(jù)能夠長(zhǎng)期、系統(tǒng)、準(zhǔn)確、全面地累積和保存。隨著地震信息獲取能力的不斷增強(qiáng),地震數(shù)據(jù)量和種類的不斷增多,應(yīng)用需求也在不斷的變化,這時(shí)基于原有地震數(shù)據(jù)模型的地震數(shù)據(jù)庫不再滿足不斷變化的應(yīng)用需求,在這些情況下,對(duì)現(xiàn)有地震數(shù)據(jù)庫的數(shù)據(jù)模型進(jìn)行優(yōu)化,建立健壯的數(shù)據(jù)庫系統(tǒng)顯得尤其重要。
本文針對(duì)目前地震行業(yè)地震數(shù)據(jù)模型的現(xiàn)狀,提出一種針對(duì)地震數(shù)據(jù)模型優(yōu)化的過程方法,并選取現(xiàn)有的全國1/400萬活動(dòng)斷層GIS數(shù)據(jù)庫(以下簡(jiǎn)稱斷層數(shù)據(jù)庫)(屈春燕,2008)對(duì)象作為樣本數(shù)據(jù),來說明優(yōu)化方案的具體實(shí)踐過程。
數(shù)據(jù)模型,就是描述數(shù)據(jù)的結(jié)構(gòu)和性質(zhì)、數(shù)據(jù)之間的聯(lián)系以及施加在數(shù)據(jù)或數(shù)據(jù)聯(lián)系上的一些限制。按不同的應(yīng)用層次分為3種類型:分別是概念數(shù)據(jù)模型(CDM)、邏輯數(shù)據(jù)模型(LDM)、物理數(shù)據(jù)模型(PDM)。
數(shù)據(jù)建模指的是對(duì)現(xiàn)實(shí)世界各類數(shù)據(jù)的抽象組織,確定數(shù)據(jù)庫需管轄的范圍、數(shù)據(jù)的組織形式等,直至轉(zhuǎn)化成現(xiàn)實(shí)的數(shù)據(jù)庫。將經(jīng)過系統(tǒng)分析后抽象出來的概念模型轉(zhuǎn)化為物理模型后,在數(shù)據(jù)庫建模工具基礎(chǔ)上,建立數(shù)據(jù)庫實(shí)體以及各實(shí)體之間關(guān)系的過程,就是數(shù)據(jù)建模的過程(薩師煊等,2000),如圖1所示為數(shù)據(jù)建模的過程。
圖1 數(shù)據(jù)建模過程Fig.1 Process of datamodeling.
PowerDesigner是一個(gè)允許設(shè)計(jì)人員創(chuàng)建、管理數(shù)據(jù)結(jié)構(gòu)及開發(fā)、利用數(shù)據(jù)結(jié)構(gòu),針對(duì)開發(fā)工具及環(huán)境快速生成應(yīng)用對(duì)象和數(shù)據(jù)的組件。Powerdesigner支持.net,java,pb、delphi等各種語言。開發(fā)人員可以使用同樣的物理數(shù)據(jù)模型查看數(shù)據(jù)庫的結(jié)構(gòu)和整理文檔,以及生成應(yīng)用對(duì)象和在開發(fā)過程中使用的組件。
此外,PowerDesigner還為我們提供了方便的逆向工程特性??梢詫⒛壳八辛餍械暮蠖藬?shù)據(jù)庫(包括SYBASE、DB2、Oracle等)的結(jié)構(gòu)信息通過逆向工程加入到PowerDesigner的物理數(shù)據(jù)模型和概念數(shù)據(jù)模型中,包括表、索引、觸發(fā)器、視圖等,即從已有數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)庫腳本文件生成PDM的過程。
地震數(shù)據(jù)庫為地震研究提供了基礎(chǔ),數(shù)據(jù)模型的建立關(guān)系著數(shù)據(jù)庫系統(tǒng)的好壞,PowerDesigner包括了數(shù)據(jù)庫數(shù)據(jù)建模的各個(gè)方面,從而可以保證高效和高質(zhì)量的數(shù)據(jù)庫建設(shè)以及數(shù)據(jù)管理工作。
地震數(shù)據(jù)模型優(yōu)化的整體過程較為復(fù)雜,既涉及到所選取的分析方法——面向?qū)ο蟮姆治龇椒ǎ稚婕暗降卣鹦袠I(yè)的專業(yè)知識(shí)以及對(duì)應(yīng)數(shù)據(jù)的應(yīng)用場(chǎng)景。
具體來說,對(duì)一個(gè)已有的地震數(shù)據(jù)模型進(jìn)行分析優(yōu)化的工作過程如下 (圖2):
圖2 地震數(shù)據(jù)模型優(yōu)化過程Fig.2 The flow chart of earthquake datamodel optimization.
創(chuàng)建已有數(shù)據(jù)結(jié)構(gòu)模型,根據(jù)選取的建模工具(PowerDesigner)的特點(diǎn),可以使用逆向工程或者手工重建數(shù)據(jù)結(jié)構(gòu)的方式創(chuàng)建。其中,數(shù)據(jù)結(jié)構(gòu)逆向工程是把數(shù)據(jù)庫中的數(shù)據(jù)表映射到設(shè)計(jì)軟件中,以圖表顯示,通過參數(shù)配置與添加,最終生成物理數(shù)據(jù)模型;手工重建數(shù)據(jù)結(jié)構(gòu),顧名思義,則是利用現(xiàn)有數(shù)據(jù)庫表手工重新創(chuàng)建數(shù)據(jù)結(jié)構(gòu)。
數(shù)據(jù)分析決定系統(tǒng)開發(fā)的成敗。在各類應(yīng)用系統(tǒng)開發(fā)的初期,進(jìn)行準(zhǔn)確全面的數(shù)據(jù)分析是必不可少的,能夠避免當(dāng)問題不斷出現(xiàn)時(shí)才不斷修補(bǔ),甚至系統(tǒng)構(gòu)架需要不斷調(diào)整或重新設(shè)計(jì)的情況。通常,我們借助圖形化的模型來理解數(shù)據(jù)所描述的領(lǐng)域,使系統(tǒng)開發(fā)過程變?yōu)橐环N圖形化的模型構(gòu)建過程,這也叫做建模過程??梢哉f,數(shù)據(jù)分析也是一個(gè)建模過程,具體包括以下過程:
(1)模型對(duì)象提取,需要從地震專業(yè)的角度對(duì)整體的數(shù)據(jù)對(duì)象進(jìn)行邏輯歸納,分類形成邏輯意義上的信息對(duì)象集合;
(2)參數(shù)化,需要通過對(duì)數(shù)據(jù)內(nèi)容的分析,歸納出所需的支持性內(nèi)容,即形成數(shù)據(jù)內(nèi)容的參數(shù)表(業(yè)務(wù)字典表),如果出現(xiàn)多張表使用同一的參數(shù)表,建議考慮創(chuàng)建此業(yè)務(wù)字典表作為共有的數(shù)據(jù)對(duì)象;
(3)規(guī)范化,需要從地震專業(yè)的角度歸納數(shù)據(jù)本身的從屬和冗余關(guān)系,應(yīng)用數(shù)據(jù)庫設(shè)計(jì)范式,拆分和理清關(guān)鍵的主從對(duì)象(表)關(guān)系;
(4)非規(guī)范化,非規(guī)范化過程本身是一個(gè)相對(duì)主觀的過程,可能包含的數(shù)據(jù)結(jié)構(gòu)調(diào)整有:為適應(yīng)常用業(yè)務(wù)的需要,對(duì)常用作查詢條件等內(nèi)容的信息進(jìn)行適度冗余,即將該信息字段重復(fù)存放于多張數(shù)據(jù)庫表當(dāng)中;為適應(yīng)常用業(yè)務(wù)的需要對(duì)日常進(jìn)行查詢的結(jié)果要求進(jìn)行適度派生,即將該查詢結(jié)果要求字段與相關(guān)信息字段在數(shù)據(jù)庫表中進(jìn)行適度的耦合關(guān)聯(lián)。
在完成模型分析方法分析后,產(chǎn)生的數(shù)據(jù)模型可能還是不能很好地適應(yīng)需求,那就需要在此基礎(chǔ)上進(jìn)一步考慮實(shí)際情況,對(duì)數(shù)據(jù)模型進(jìn)行分析優(yōu)化過程,這一階段的工作相對(duì)更偏向于應(yīng)用本身,而且本過程的優(yōu)化可能導(dǎo)致上述第2階段的工作需要重復(fù)進(jìn)行,細(xì)分該工作過程如下:
(1)分析數(shù)據(jù)對(duì)象寫入操作方式,采取對(duì)應(yīng)的優(yōu)化措施。包括:寫入過程頻繁的數(shù)據(jù)對(duì)象,盡量減少一次性寫入的字段個(gè)數(shù),減少在數(shù)據(jù)對(duì)象中的冗余字段,并且盡量使用字段表;批量寫入的數(shù)據(jù)對(duì)象(地震相關(guān)數(shù)據(jù)中該類數(shù)據(jù)比較多),盡量考慮“一表化”寫入,即批量寫入只操作一個(gè)數(shù)據(jù)對(duì)象,避免主外鍵沖突,如“一表化”代價(jià)過高可以考慮取消父子數(shù)據(jù)表間的主外鍵關(guān)系。
(2)分析數(shù)據(jù)對(duì)象更新/刪除操作方式(地震相關(guān)數(shù)據(jù)使用較少),采集對(duì)應(yīng)的優(yōu)化措施。包括:盡量使用無實(shí)際意義的ID作為表主外鍵,盡量避免使用聯(lián)合主鍵;分析長(zhǎng)期不使用的數(shù)據(jù),創(chuàng)建對(duì)應(yīng)的備份表脫機(jī)管理。
(3)分析數(shù)據(jù)對(duì)象讀取操作方式,采集對(duì)應(yīng)的優(yōu)化措施。包括:讀頻率遠(yuǎn)大于寫頻率的數(shù)據(jù)表,盡量使用心型、雪花型模式創(chuàng)建;讀寫頻率均很高的表,盡量針對(duì)操作方式分步建立數(shù)據(jù)結(jié)構(gòu);即“一表化”寫入,異步加載至查詢專用表;對(duì)于需要長(zhǎng)期在線,數(shù)據(jù)量又非常大的數(shù)據(jù)表,使用分區(qū)表或者分割表進(jìn)行處理。
創(chuàng)建結(jié)果數(shù)據(jù)結(jié)構(gòu),根據(jù)分析結(jié)果使用PowerDesigner創(chuàng)建對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)模型。根據(jù)需要可以考慮建立與具體的數(shù)據(jù)管理系統(tǒng)無關(guān)的概念數(shù)據(jù)模型或者直接創(chuàng)建對(duì)應(yīng)關(guān)系數(shù)據(jù)庫的物理數(shù)據(jù)模型。
地震數(shù)據(jù)不僅系統(tǒng)龐大,而且多樣化,范圍從空間數(shù)據(jù)到非空間數(shù)據(jù)無所不包。因此,對(duì)所有的地震數(shù)據(jù)進(jìn)行優(yōu)化是非常巨大的工程。而GIS數(shù)據(jù)作為地震數(shù)據(jù)的一類,包括地理要素的屬性數(shù)據(jù)和大量的空間數(shù)據(jù),即描述地理要素空間分布位置的數(shù)據(jù),具有自己的特殊性。所以本文選取地震斷層GIS數(shù)據(jù)作為樣本數(shù)據(jù),針對(duì)其本身特有的屬性,在現(xiàn)有GIS數(shù)據(jù)模型的基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化。
因此,我們選取現(xiàn)有的全國1/400萬活動(dòng)斷層GIS數(shù)據(jù)庫對(duì)象作為樣本數(shù)據(jù),來說明優(yōu)化方案的具體實(shí)踐過程,對(duì)比最后生成的數(shù)據(jù)模型與原數(shù)據(jù)庫的數(shù)據(jù)模型的不同,體現(xiàn)這種優(yōu)化方法的優(yōu)點(diǎn)。最后將優(yōu)化后生成的斷層數(shù)據(jù)庫應(yīng)用于具體的實(shí)例。
現(xiàn)有的1/400萬中國活動(dòng)構(gòu)造空間數(shù)據(jù)庫的地震活動(dòng)斷裂數(shù)據(jù)庫 (表1)中,按照活動(dòng)構(gòu)造數(shù)據(jù)庫中數(shù)據(jù)存儲(chǔ)形式的不同,分為圖形數(shù)據(jù)和屬性數(shù)據(jù)兩部分。其中,圖形數(shù)據(jù)描述的是各類地質(zhì)要素及現(xiàn)象在特定坐標(biāo)系中的空間分布,概括為點(diǎn)、線、面3種空間特征要素,采用拓?fù)浞绞降氖噶繑?shù)據(jù)結(jié)構(gòu)存儲(chǔ)。屬性數(shù)據(jù)是空間特征所具有的屬性描述,采用關(guān)系數(shù)據(jù)模型即二維表的結(jié)構(gòu)來記錄和存儲(chǔ)。
現(xiàn)有的1/400萬中國活動(dòng)構(gòu)造空間數(shù)據(jù)庫的地震活動(dòng)斷裂數(shù)據(jù)庫,建庫初期未經(jīng)過系統(tǒng)建模階段,數(shù)據(jù)結(jié)構(gòu)只包含一張屬性數(shù)據(jù)表,擁有26個(gè)屬性域。所有的數(shù)據(jù)按照斷層條目來存儲(chǔ),即一條數(shù)據(jù)存儲(chǔ)一條斷層信息。我們分析該地震斷層數(shù)據(jù)庫所存儲(chǔ)的斷層數(shù)據(jù)以及由表1分析數(shù)據(jù)的屬性信息后,認(rèn)為數(shù)據(jù)存在如下問題:
(1)該表為“一表化”表達(dá),表內(nèi)的數(shù)據(jù)關(guān)系表達(dá)不清楚,配合注釋及地震業(yè)務(wù)知識(shí)能夠簡(jiǎn)單理解數(shù)據(jù)含義;
(2)在數(shù)據(jù)中出現(xiàn)較多的惟一標(biāo)識(shí),但個(gè)別信息不同的情況(如斷層的分段情況),這些數(shù)據(jù)需要進(jìn)行對(duì)應(yīng)的數(shù)據(jù)表拆分;
(3)分段斷層的冗余存儲(chǔ)。地震斷層具有分段的特性,一條完整的斷層由多段分段斷層組成,因此在存儲(chǔ)時(shí)將這些分段斷層一一存儲(chǔ)。若斷層存在n個(gè)分段斷層,那么數(shù)據(jù)庫中就存儲(chǔ)n條斷層數(shù)據(jù)。例如,圖3 a,b,c藍(lán)色部分表示霍爾果斯-瑪納斯-吐谷魯斷裂帶的3條分段斷層,即該斷裂帶由3條分段斷層組成。
表2是在該數(shù)據(jù)庫中,霍爾果斯-瑪納斯-吐谷魯斷裂帶的存儲(chǔ)內(nèi)容,顯示該斷裂帶分為3條數(shù)據(jù)存儲(chǔ),其中對(duì)于該斷裂帶的基本信息,如斷層編號(hào)、斷層標(biāo)識(shí)、斷層名稱等內(nèi)容是相同的,分段斷層的信息,如分段編號(hào)、分段名稱、分段長(zhǎng)度等是不同的。因此,對(duì)于相同的斷層基本信息采用了重復(fù)存儲(chǔ),這樣的存儲(chǔ)方式造成了存儲(chǔ)數(shù)據(jù)的冗余。
(4)主鍵無法確定。主鍵是惟一標(biāo)識(shí)斷層實(shí)體的屬性或?qū)傩约彩菙鄬訑?shù)據(jù)相互約束條件之一,一個(gè)表只有一個(gè)主鍵。主鍵應(yīng)該有固定值(不能為Null或缺省值,要有相對(duì)穩(wěn)定性),不含代碼信息,易訪問。在該地震活動(dòng)斷層數(shù)據(jù)庫中,由于分段斷層的冗余存儲(chǔ),使得斷層編號(hào)、斷層標(biāo)識(shí)、斷層序號(hào)以及斷層名稱重復(fù)存儲(chǔ),無法惟一的標(biāo)識(shí)斷層實(shí)體,而分段編號(hào)只能用來惟一約束分段信息,對(duì)于無分段性質(zhì)的斷層,分段編號(hào)又不能作為主鍵來對(duì)其進(jìn)行約束。因此,無法找到一個(gè)合適的屬性或?qū)傩约鳛橹麈I。
針對(duì)上述現(xiàn)有的1/400萬地震活動(dòng)斷裂數(shù)據(jù)庫存在的問題,如不符合數(shù)據(jù)庫建立的規(guī)范,無法確定主鍵等,給今后地震業(yè)務(wù)、地震研究、地震信息網(wǎng)絡(luò)等大量不同需求的應(yīng)用及數(shù)據(jù)的共享服務(wù)帶來不便,為此應(yīng)用前面提出的地震數(shù)據(jù)模型優(yōu)化方法,對(duì)1/400萬地震活動(dòng)斷裂數(shù)據(jù)庫進(jìn)行優(yōu)化,具體過程如下。
圖3 霍爾果斯-瑪納斯-吐谷魯斷裂帶的分段斷層Fig.3 Fault segmentation of fault zone.
在分析地震活動(dòng)斷裂空間數(shù)據(jù)庫的數(shù)據(jù)現(xiàn)狀之前,我們先生成這個(gè)數(shù)據(jù)庫的物理數(shù)據(jù)模型。利用PowerDesigner提供的一種逆向工程的方法,即通過已有數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)或者數(shù)據(jù)庫腳本文件,逆向生成物理數(shù)據(jù)模型。我們利用這種方法,對(duì)原有數(shù)據(jù)庫的二維關(guān)系表逆向工程生成原始的物理數(shù)據(jù)模型(圖4)。
(1)模型對(duì)象提取。由以上分析得知:該斷層數(shù)據(jù)庫主要描述了3種數(shù)據(jù):斷層的基本信息(包括斷層編號(hào)、斷層名稱等)、分段斷層的信息(分段斷層的編號(hào)、名稱等)和與該斷層有關(guān)的古地震事件的信息。其中,分段斷層是斷層的特殊性質(zhì),由斷層運(yùn)動(dòng)而引起的地震信息存儲(chǔ)在古地震信息里。由此,提取出3種地震斷層數(shù)據(jù)對(duì)象:斷層基本信息對(duì)象、分段斷層信息對(duì)象和古地震信息對(duì)象,并對(duì)這3種對(duì)象重新定義其屬性,這些屬性只包括描述對(duì)象的如下信息:1)斷層的基本信息(斷層編號(hào)、斷層標(biāo)識(shí)、斷層序號(hào)、斷層名稱、斷層長(zhǎng)度、斷層走向、斷層傾向、斷層傾角);2)分段斷層信息(分段編號(hào)、分段名稱、分段產(chǎn)狀、分段性質(zhì)、分段長(zhǎng)度、水平滑動(dòng)速率、垂直滑動(dòng)速率);3)古地震信息(古地震時(shí)間年齡、地震地表破裂帶時(shí)間、地震地表破裂帶震級(jí)、地震地表破裂帶長(zhǎng)度、地震地表破裂帶位移、與盆地關(guān)系、資料來源)。
(2)參數(shù)化。在對(duì)數(shù)據(jù)屬性的整理中,我們發(fā)現(xiàn)如斷層的活動(dòng)性質(zhì)(包括正斷、逆斷等)、最晚活動(dòng)時(shí)代(包括Q3p、Qh等)和分段年齡(包括Q3p、Qh等)這類數(shù)據(jù),在數(shù)據(jù)上具有一定的范圍,我們可以將這3種數(shù)據(jù)提取出來,作為描述數(shù)據(jù)對(duì)象的參數(shù)表,與對(duì)象具有一定的依賴關(guān)系。其中,最晚活動(dòng)時(shí)代和分段年齡具有相同的數(shù)據(jù)內(nèi)容,都表示的是時(shí)間概念,因此將它們合并為一個(gè)參數(shù)表,同屬于斷層基本信息對(duì)象和分段斷層信息對(duì)象。
此外,在描述分段斷層時(shí),還需存儲(chǔ)分段斷層的起始點(diǎn)坐標(biāo),以確定分段斷層的位置。在分段信息對(duì)象中增加起始點(diǎn)坐標(biāo)的屬性,并將起始點(diǎn)坐標(biāo)作為一張表單獨(dú)存儲(chǔ),函數(shù)依賴于分段信息對(duì)象。
(3)規(guī)范化和非規(guī)范化。在地震活動(dòng)斷裂數(shù)據(jù)庫中,關(guān)系模式R的每一個(gè)分量都是不可再分的數(shù)據(jù)項(xiàng),滿足第1范式的要求,即R∈1NF,但是不滿足第2范式的要求。下面舉一個(gè)例子來說明R∈2NF,例如,對(duì)于關(guān)系模式:DC(斷層編號(hào)、斷層標(biāo)識(shí)、斷層序號(hào)、斷層長(zhǎng)度、分段編號(hào)、分段長(zhǎng)度)。
從這個(gè)庫表中我們可以看到:如果“斷層編號(hào)”設(shè)置為主鍵,則“斷層標(biāo)識(shí)”、“斷層序號(hào)”和“斷層長(zhǎng)度”與主鍵有一一對(duì)應(yīng)的關(guān)系,但是“分段編號(hào)”、“分段長(zhǎng)度”與主鍵并不是一一對(duì)應(yīng)的關(guān)系,因此此表并不滿足第2范式的要求。
斷層編號(hào)(1)→斷層標(biāo)識(shí)(1);斷層編號(hào)(1)→斷層序號(hào)(1);斷層編號(hào)(1)→斷層長(zhǎng)度(1);斷層編號(hào)(1)→分段編號(hào)(n);斷層編號(hào)(1)→分段長(zhǎng)度(n)
經(jīng)過模型對(duì)象提取和參數(shù)化后創(chuàng)建的斷層基本信息表和分段斷層信息表解決了不滿足第2范式的問題。
圖5 斷層數(shù)據(jù)表字段的函數(shù)依賴關(guān)系Fig.5 An example of functional dependency of fault data sheet field.
(4)業(yè)務(wù)模型分析調(diào)整。1)分析數(shù)據(jù)對(duì)象寫入操作方式,該表數(shù)據(jù)為一次性導(dǎo)入,導(dǎo)入頻度很低,可以基本不考慮寫入時(shí)的性能優(yōu)化;2)分析數(shù)據(jù)對(duì)象更新/刪除操作方式,該表數(shù)據(jù)可能會(huì)產(chǎn)生修正,但可能更新的數(shù)據(jù)項(xiàng)均為實(shí)體對(duì)象,本身不影響表的主外鍵結(jié)構(gòu)。該表基本不產(chǎn)生刪除操作,由此基本可以不考慮更新時(shí)的性能優(yōu)化;3)分析數(shù)據(jù)對(duì)象讀取操作方式,該表主要為其他查詢提供參數(shù)支撐,甚至本身就是其他查詢數(shù)據(jù)對(duì)象的維度表,另該表所包含的數(shù)據(jù)量不大,由此偏向使用雪花型模型進(jìn)行數(shù)據(jù)結(jié)構(gòu)分解。
(5)創(chuàng)建結(jié)果數(shù)據(jù)結(jié)構(gòu)。通過上述優(yōu)化方法的應(yīng)用,我們將地震斷層數(shù)據(jù)庫表按照最優(yōu)結(jié)構(gòu),拆分成活動(dòng)斷層基本信息、活動(dòng)斷層分段信息、古地震事件信息、時(shí)代判斷、起始點(diǎn)坐標(biāo)、活動(dòng)性質(zhì)等6張表。通過各子表進(jìn)行數(shù)據(jù)庫關(guān)聯(lián),最終達(dá)到優(yōu)化目的。
根據(jù)分析結(jié)構(gòu),創(chuàng)建較優(yōu)的斷層數(shù)據(jù)庫模型(圖6),優(yōu)化后的表結(jié)構(gòu)說明如下,其中數(shù)據(jù)對(duì)象表見表3~5,參數(shù)表見6~8。
其中,活動(dòng)斷層基本信息表記錄了描述斷層的基本屬性,即原數(shù)據(jù)庫中重復(fù)存儲(chǔ)的數(shù)據(jù)。由于一條分段斷層只屬于一條主斷層,一條斷層有多條分段斷層,故創(chuàng)建活動(dòng)斷層分段信息表。而一個(gè)古地震事件可以由多條斷層的運(yùn)動(dòng)引起;多條斷層也可能引起多個(gè)古地震事件,故由斷層運(yùn)動(dòng)而引起的地震的信息存儲(chǔ)在古地震事件表里。
我們利用PowerDesigner逆向生成原來未經(jīng)過優(yōu)化的地震活動(dòng)斷裂數(shù)據(jù)庫的物理數(shù)據(jù)模型(圖4),現(xiàn)將它與使用全程建模方法得到的新物理數(shù)據(jù)模型(圖6)進(jìn)行比較,得到以下結(jié)論:
(1)過程優(yōu)化方法提供了一個(gè)統(tǒng)一的地震數(shù)據(jù)結(jié)構(gòu)分析和優(yōu)化的表達(dá)過程,每個(gè)階段的優(yōu)化要素全面集成,生成實(shí)體關(guān)系圖或?qū)ο髨D,然后可以直接將圖轉(zhuǎn)換為概念數(shù)據(jù)模型和物理數(shù)據(jù)模型。
(2)過程優(yōu)化方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化分析,使數(shù)據(jù)對(duì)象更準(zhǔn)確,理清了數(shù)據(jù)之間的邏輯關(guān)系。
(3)提取對(duì)象后,明確了關(guān)鍵字和主鍵,使得數(shù)據(jù)之間的依賴關(guān)系得到整理,從數(shù)據(jù)模型三要素之一的數(shù)據(jù)約束方面優(yōu)化了數(shù)據(jù)模型。
(4)優(yōu)化后的數(shù)據(jù)模型改變了地震活斷層數(shù)據(jù)庫單一的二維表結(jié)構(gòu),豐富了數(shù)據(jù)信息,使整個(gè)數(shù)據(jù)流程一目了然。
(5)降低了數(shù)據(jù)冗余。新PDM體現(xiàn)了活斷層分段的特點(diǎn),解決了分段斷層冗余存儲(chǔ)的問題。參數(shù)表描述了數(shù)據(jù)對(duì)象的參數(shù)屬性,參數(shù)化的表達(dá)方式節(jié)省了數(shù)據(jù)存儲(chǔ)的空間。
(6)當(dāng)需求變化時(shí),傳統(tǒng)方法生成的地震數(shù)據(jù)模型往往會(huì)處于劣勢(shì),通過修改數(shù)據(jù)庫底層的邏輯數(shù)據(jù)模型來滿足變化,而這種過程優(yōu)化方法只需在系統(tǒng)分析的階段調(diào)整分析模型,便會(huì)自上而下得到新模型,而無須修改數(shù)據(jù)庫的底層數(shù)據(jù)模型。
應(yīng)用以上的數(shù)據(jù)模型優(yōu)化過程方法,得到優(yōu)化后的地震斷層數(shù)據(jù)庫。同時(shí),對(duì)斷層數(shù)據(jù)庫進(jìn)行實(shí)際應(yīng)用。依據(jù)不同的研究目標(biāo)設(shè)計(jì)程序,從前面優(yōu)化后的數(shù)據(jù)庫中提取相關(guān)的有效信息。如根據(jù)地震研究的需要,地震學(xué)者需要了解某條活動(dòng)斷層曾引發(fā)過多少次地震事件,為今后的地震研究工作提供準(zhǔn)確、可信、快速的信息。如以鮮水河斷裂為例進(jìn)行查詢,可以看到在距離斷層50km的范圍內(nèi),歷史上共發(fā)生了17次6級(jí)以上的地震事件(圖7)。
圖7 優(yōu)化后斷層數(shù)據(jù)庫應(yīng)用實(shí)例Fig.7 Examples of application of the optimized fault database.
通過分析地震數(shù)據(jù)模型目前存在的問題,應(yīng)用典型、功能強(qiáng)大的數(shù)據(jù)建模工具——Power-Designer,提出了基于PowerDesigner建模工具對(duì)已有的地震數(shù)據(jù)模型進(jìn)行優(yōu)化的過程方法,并以活動(dòng)構(gòu)造數(shù)據(jù)庫為例,進(jìn)行了地震數(shù)據(jù)模型優(yōu)化的初步應(yīng)用,結(jié)果表明:
(1)隨著地震信息獲取能力的增強(qiáng),地震觀測(cè)數(shù)據(jù)量和種類不斷增多,因此,對(duì)現(xiàn)有地震數(shù)據(jù)庫的數(shù)據(jù)模型進(jìn)行優(yōu)化,建立合理的數(shù)據(jù)庫系統(tǒng)顯得尤其重要。
(2)地震數(shù)據(jù)模型優(yōu)化步驟。利用PowerDesigner提供的一種逆向工程的方法,在數(shù)據(jù)優(yōu)化過程中,需要采用以下步驟:創(chuàng)建已有的數(shù)據(jù)結(jié)構(gòu)模型、模型分析、根據(jù)具體應(yīng)用調(diào)整模型、創(chuàng)建數(shù)據(jù)結(jié)構(gòu)模型。
(3)根據(jù)具體數(shù)據(jù)庫結(jié)構(gòu)存在的問題提出優(yōu)化方案。以1/400萬中國活動(dòng)構(gòu)造GIS數(shù)據(jù)庫為例,由于建庫初期未經(jīng)過系統(tǒng)建模階段,分析表明,數(shù)據(jù)結(jié)構(gòu)為較單一的“一表化”表達(dá),數(shù)據(jù)條目出現(xiàn)多個(gè)惟一標(biāo)識(shí),數(shù)據(jù)冗余較為嚴(yán)重。根據(jù)分析結(jié)果,依據(jù)所提出的地震數(shù)據(jù)模型優(yōu)化過程方法對(duì)斷層數(shù)據(jù)進(jìn)行了優(yōu)化。
(4)優(yōu)化前后對(duì)比分析。將數(shù)據(jù)模型優(yōu)化過程方法初步應(yīng)用于斷層GIS數(shù)據(jù)庫中,實(shí)現(xiàn)了對(duì)斷層數(shù)據(jù)模型的優(yōu)化。研究結(jié)果表明,經(jīng)過全程建模方法優(yōu)化得到的物理數(shù)據(jù)模型,數(shù)據(jù)描述更加準(zhǔn)確,數(shù)據(jù)之間的關(guān)系更加清晰,使用起來更加靈活、方便,數(shù)據(jù)約束更加規(guī)范、完善,數(shù)據(jù)冗余減小,能夠滿足地震工作者不同的需求,為地震數(shù)據(jù)的共享服務(wù)奠定了良好的基礎(chǔ)。
李誼瑞,牟其鐸.1993.中國地震數(shù)據(jù)庫建設(shè)及其應(yīng)用綜述[J].國際地震動(dòng)態(tài),9:8—12.
LIYi-rui,MU Qi-duo.1993.Overview of the establishmentof earthquake databases in China and their application[J].Recent Developments in World Seismology,9:8—12(in Chinese).
路鵬,苗良田,李志雄,等.2007.中國科學(xué)數(shù)據(jù)共享現(xiàn)狀的調(diào)查與分析[J].地震,27(3):125—130.
LU Peng,MIAO Liang-tian,LIZhi-xiong,et al.2007.Investigation on scientific data sharing situation and its analysis[J].Earthquake,27(3):125—130(in Chinese).
馬承杰.2005.地震數(shù)據(jù)訪問技術(shù)研究[J].石油工業(yè)計(jì)算機(jī)應(yīng)用,13(4):5—7.
MA Cheng-jie.2005.A study of seismic data access technology[J].Computer Applications of Petroleum,13(4):5—7(in Chinese).
屈春燕.2008.最新1/400萬中國活動(dòng)構(gòu)造空間數(shù)據(jù)庫的建立[J].地震地質(zhì),30(1):298—304.
QU Chun-yan.2008.Building to the active tectonic database of China[J].Seismology and Geology,30(1):298—304(in Chinese).
薩師煊,王珊.2000.數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社.
SA Shi-xuan,WANG Shan.2000.Introduction of Database Systems[M].Higher Education Press,Beijing(in Chinese).
王秀英,牛從達(dá).2004.臺(tái)網(wǎng)中心地震前兆數(shù)據(jù)庫的結(jié)構(gòu)及其管理維護(hù)[J].華北地震科學(xué),22(3):28—32.
WANG Xiu-ying,NIU Cong-da.2004.The structure of precursor database in network center and itsmanagement[J].North China Earthquake Sciences,22(3):28—32(in Chinese).
軒興濤.2008.基于PowerDesigner模型驅(qū)動(dòng)機(jī)制下的全程建模研究[J].西安石油大學(xué)學(xué)報(bào):自然科學(xué)版,23(6):104—106.
XUAN Xing-tao.2008.Full processmodeling technique based on the model drive mechanism of PowerDesigner[J].Journal of Xi'an Shiyou University(Natural Science Edition),23(6):104—106(in Chinese).
姚運(yùn)生,李井岡,李勝樂.2006.提高地震前兆數(shù)據(jù)庫存取效率的新表結(jié)構(gòu)[J].大地測(cè)量與地球動(dòng)力學(xué),26(3):122—126.
YAO Yun-sheng,LI Jing-gang,LISheng-le.2006.A new table structure to improve earthquake precursor database access efficiency[J].Journal of Geodesy and Geodynamics,26(3):122—126(in Chinese).
THE SEISM IC DATA MODEL OPTIM IZATION METHOD AND PRELIM INARY APPLICATION
DU Jun-hui YAN Li-li QU Chun-yan LIU Zhi SHAN Xin-jian
(Institute of Geology,China Earthquake Administration,Beijing 100029,China)
Because the seismic data is so various and is continuously increasing in number,sharing seismic data and providing data service ismore difficult.This paper proposes amethod to optimize the existing seismic datamodel based on themodeling tool of PowerDesigner.Themethod was initially applied to the exiting 1/4000000 active fault GIS database.Aimed at the actual problem of active fault GIS database,themethod realizes the optimization of fault data model.And the optimized fault database was applied to specific example cases.Meanwhile,comparative analysis was done between the optimized PDM with the old one.The result shows that the optimized model ismore flexible and convenient to use,the data description ismore accurate,the relationship between data is clearer,and the data constraint ismore standard and complete.It can meet the different needs of seismologists.The proposed optimization method for earthquake datamodel has a certain value of popularization and application,and it lays a good foundation for seismic data sharing and data service in the future.
PowerDesigner,seismic datamodel,datamodel optimization,database
P315.61
A
0253-4967(2011)03-0706-13
10.3969/j.issn.0253 - 4967.2011.03.019
2009-06-02收稿,2011-01-15改回。
地震行業(yè)科研專項(xiàng)“地震數(shù)據(jù)模型優(yōu)化技術(shù)研究”(200708049)資助。
閆麗莉,E -mail:yanlili_2003@163.com。
杜軍輝,女,1981生,中國地震局地質(zhì)研究所碩士研究生,主要從事計(jì)算機(jī)技術(shù)在地震科學(xué)研究中的應(yīng)用,E-mail:dujunhui810224@163.com。