王 瑞, 于曉霞, 葉 敏??, 梁生康, 楊燕群, 韋志國, 聶 婕, 魏志強, 王修林,4,5
(1. 中國海洋大學信息科學與工程學部, 山東 青島 266100; 2.山東省生態(tài)環(huán)境規(guī)劃研究院, 山東 濟南 250101; 3.中國海洋大學化學化工學院,山東 青島 266100; 4. 中國海洋大學海洋化學理論與工程技術(shù)教育部重點實驗室, 山東 青島 266100; 5. 深海圈層與地球系統(tǒng)前沿科學中心, 山東 青島 266100)
渤海是中國近岸海域環(huán)境問題最為突出的海區(qū)之一。作為我國唯一的半封閉型內(nèi)海,隨著沿海地區(qū)產(chǎn)業(yè)和人口的高速發(fā)展,渤海生態(tài)環(huán)境形式日趨嚴峻。近年來,中國高度重視渤海環(huán)境保護和治理工作,積累了豐富的陸海生態(tài)環(huán)境監(jiān)測、調(diào)查、統(tǒng)計和計算數(shù)據(jù)。主要包括:
(1)豐富的監(jiān)測和調(diào)查數(shù)據(jù)。在環(huán)渤海地區(qū)建立了較為完善的環(huán)境監(jiān)測網(wǎng)絡(luò)和計算模型,構(gòu)建了基于岸基、水上浮標、衛(wèi)星遙感等平臺的立體觀測體系,與常規(guī)監(jiān)測和調(diào)查手段相結(jié)合,形成了較為完善的連接污染源、流域、海域的監(jiān)測網(wǎng)絡(luò),積累了豐富的陸海環(huán)境監(jiān)測[1]和調(diào)查數(shù)據(jù)[2]。
(2)多樣的社會經(jīng)濟數(shù)據(jù)。渤海海域生態(tài)環(huán)境質(zhì)量狀況受到環(huán)渤海地區(qū)人類社會經(jīng)濟活動和自然環(huán)境變化協(xié)同作用的影響,社會經(jīng)濟統(tǒng)計數(shù)據(jù)成為深入解析渤海水質(zhì)演化和人類社會活動響應(yīng)機制的重要載體。只有充分挖掘人類社會活動和沿海水質(zhì)時空演化響應(yīng)關(guān)系,才能突破污染物產(chǎn)生、輸運、匯集等遷移轉(zhuǎn)化環(huán)節(jié)監(jiān)測盲點,制定精準有效的陸源污染物減排措施。隨著環(huán)渤海地區(qū)產(chǎn)業(yè)細分、人類社會活動多樣性趨向和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了規(guī)模巨大的多樣性社會經(jīng)濟統(tǒng)計數(shù)據(jù)。
(3)多元的地圖數(shù)據(jù)。除監(jiān)測、調(diào)查數(shù)據(jù)和經(jīng)濟統(tǒng)計數(shù)據(jù)外,GIS等地理信息數(shù)據(jù)也構(gòu)成了近海生態(tài)環(huán)境大數(shù)據(jù),主要包括地形地貌、點源、監(jiān)測站位、入海排污口坐標,面源、行政區(qū)、控制單元、水質(zhì)響應(yīng)區(qū)域、河流矢量圖等地圖數(shù)據(jù)。隨著空間控制粒度的精細化、地圖繪制技術(shù)的多樣性發(fā)展,形成了豐富的、跨尺度、多模態(tài)地理大數(shù)據(jù)系統(tǒng),為流域建模、海洋動力過程仿真、時空數(shù)據(jù)可視化等提供了更加精細和多元的地理信息空間。
(4)海量的計算數(shù)據(jù)。隨著海洋動力模式仿真計算和入海污染物生物地球化學過程建模技術(shù)的發(fā)展,水質(zhì)預(yù)報模型日益豐富,網(wǎng)格化的仿真計算數(shù)據(jù)能夠從不同時空粒度刻畫海域污染物的時空分布狀態(tài),隨著三維水動力和生物地球化學耦合模型的精細化和多樣化發(fā)展,計算數(shù)據(jù)規(guī)模激增[3]。
綜上,渤海生態(tài)環(huán)境大數(shù)據(jù)是加強渤海生態(tài)環(huán)境保護,改善渤海環(huán)境質(zhì)量,突破渤海入海污染物源解析和水質(zhì)目標管控等關(guān)鍵瓶頸問題的數(shù)據(jù)基礎(chǔ)。但海量多源異構(gòu)、跨時空、多尺度、多要素的生態(tài)環(huán)境數(shù)據(jù)的有效組織和管理給科學研究和決策分析帶來了巨大挑戰(zhàn)。因此,本文聚焦渤海生態(tài)環(huán)境大數(shù)據(jù)管理的迫切需求,針對渤海生態(tài)環(huán)境數(shù)據(jù)的存儲、檢索、管理等任務(wù),打破傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)范式,提出了一種多層級遞進式數(shù)據(jù)管理模式,通過遞進式數(shù)據(jù)庫設(shè)計和垂直應(yīng)用領(lǐng)域業(yè)務(wù)分級編碼方法,構(gòu)建基于語義和時空線索的多維一體化渤海生態(tài)環(huán)境數(shù)據(jù)分級檢索系統(tǒng)。為高效管理和利用陸海污染源數(shù)據(jù)進行科學研究和污染防治等提供技術(shù)支撐。
中國經(jīng)過長期的海洋觀測、監(jiān)測、衛(wèi)星遙感、專項調(diào)查,形成了豐富的海洋信息數(shù)據(jù)和管理系統(tǒng)。例如,謝志敏搭建了面向海洋氣象的數(shù)據(jù)匯聚平臺[4],針對海洋氣象數(shù)據(jù)標準各異、來源廣泛、結(jié)構(gòu)多樣等特點,建立了標準統(tǒng)一、存儲方便的氣象數(shù)據(jù)平臺;李立剛設(shè)計了海洋觀測數(shù)據(jù)管理系統(tǒng)[5],通過整合來源于不同觀測設(shè)備的異構(gòu)監(jiān)測數(shù)據(jù),實現(xiàn)了數(shù)據(jù)的一致性管理;趙彩云針對海洋環(huán)境數(shù)據(jù)的實時監(jiān)測和分析需求,設(shè)計了海洋環(huán)境在線監(jiān)測數(shù)據(jù)管理系統(tǒng)[6];趙雪[7]針對數(shù)據(jù)分散存儲和可信共享問題,提升了數(shù)據(jù)共享平臺的安全性;王天雨設(shè)計的面向海洋多元數(shù)據(jù)的云存儲管理系統(tǒng)[8],使用云計算和大數(shù)據(jù)的技術(shù)進一步提升數(shù)據(jù)存取的可靠性與實時性;陳宇設(shè)計的海洋平臺分布式綜合信息管理系統(tǒng)[9]通過數(shù)據(jù)分類過程的規(guī)范化和統(tǒng)一化約束設(shè)計數(shù)據(jù)編碼方法,將孤立分散的數(shù)據(jù)空間整合為全面系統(tǒng)的數(shù)據(jù)空間,從而提高了平臺使用的壽命和系統(tǒng)運行的質(zhì)量。
雖然針對海量多源異構(gòu)的海洋數(shù)據(jù)管理已形成了有效的數(shù)據(jù)集成和匯聚手段,但上述研究僅針對海洋監(jiān)測、調(diào)查、統(tǒng)計、地圖、計算數(shù)據(jù)中的單一數(shù)據(jù)或部分類型開展數(shù)據(jù)管理,由于數(shù)據(jù)異構(gòu)性和時空跨尺度等挑戰(zhàn),難以擴展至兼容多樣性數(shù)據(jù)類型的綜合管理平臺。其次,數(shù)據(jù)管理粒度切換困難?,F(xiàn)有數(shù)據(jù)管理系統(tǒng)難以同時應(yīng)對基于語義的文件數(shù)據(jù)檢索和基于時空線索的數(shù)值數(shù)據(jù)檢索。最后,由于缺乏陸海統(tǒng)籌、部門地域協(xié)同的陸海統(tǒng)籌污染控制機制,目前尚未形成支撐陸海統(tǒng)籌污染控制垂直應(yīng)用領(lǐng)域的渤海生態(tài)環(huán)境大數(shù)據(jù)管理平臺。
針對以上挑戰(zhàn),本文打破傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)范式,通過遞進式數(shù)據(jù)庫設(shè)計,形成了兼容監(jiān)測、調(diào)查、統(tǒng)計、地圖、計算等多種數(shù)據(jù)類型的原始數(shù)據(jù)庫、原始歸集數(shù)據(jù)庫、標準數(shù)據(jù)庫和功用數(shù)據(jù)庫的架構(gòu),實現(xiàn)跨尺度、多模態(tài)海量異構(gòu)數(shù)據(jù)的可兼容綜合管理;其次,通過面向垂直應(yīng)用領(lǐng)域的業(yè)務(wù)梳理和流程再造,提出了一套通用面向陸海統(tǒng)籌的污染源數(shù)據(jù)分級編碼方法,實現(xiàn)了語義和時空線索多維一體化數(shù)據(jù)檢索模式,并最終實現(xiàn)支撐陸海統(tǒng)籌污染控制的渤海生態(tài)環(huán)境數(shù)據(jù)庫管理系統(tǒng)。
系統(tǒng)的總體設(shè)計架構(gòu)如圖1所示。采用多層次體系結(jié)構(gòu),共分為7層,包括基礎(chǔ)設(shè)施層、數(shù)據(jù)庫、數(shù)據(jù)層、服務(wù)層、運行支持層、業(yè)務(wù)層和客戶端。基礎(chǔ)設(shè)施層主要包括支撐系統(tǒng)運行的必要硬件系統(tǒng)和軟件平臺。數(shù)據(jù)庫層包含了本系統(tǒng)所有的基礎(chǔ)數(shù)據(jù)庫,為了兼容監(jiān)測、調(diào)查、統(tǒng)計、地圖和計算等多類數(shù)據(jù)類型,本文提出了遞進式數(shù)據(jù)庫設(shè)計模式,提出原始數(shù)據(jù)庫,原始歸集數(shù)據(jù)庫,標準數(shù)據(jù)庫和功用數(shù)據(jù)庫的四級數(shù)據(jù)管理模式。其后,數(shù)據(jù)層和服務(wù)層主要提供數(shù)據(jù)緩存、讀寫、事務(wù)、用戶管理、配置、監(jiān)控、日志等通用中間件功能。運行支持層是上層實現(xiàn)對服務(wù)層進行調(diào)用的中介,業(yè)務(wù)層主要實現(xiàn)面向應(yīng)用的功能模塊和流程集成開發(fā),客戶端主要實現(xiàn)系統(tǒng)的登錄和用戶交互。標準規(guī)范體系,用于解決不同層次間相互調(diào)用的兼容問題,使整個系統(tǒng)在統(tǒng)一的標準下運行,有利于系統(tǒng)的維護和擴展。
圖1 系統(tǒng)架構(gòu)圖Fig.1 System architecture diagram
針對海洋監(jiān)測、調(diào)查、統(tǒng)計、地圖、計算數(shù)據(jù)跨尺度、多模態(tài)海量異構(gòu)數(shù)據(jù)的可兼容綜合管理需求,本文提出了多層級遞進式數(shù)據(jù)庫設(shè)計模式。將數(shù)據(jù)庫劃分為四個子數(shù)據(jù)庫,分別為原始數(shù)據(jù)庫、原始歸集數(shù)據(jù)庫、準數(shù)據(jù)庫、功用數(shù)據(jù)庫。其中原始數(shù)據(jù)庫采用文件粒度管理模式, 實現(xiàn)對匯聚數(shù)據(jù)的來源管理。原始歸集數(shù)據(jù)庫在原始數(shù)據(jù)庫的基礎(chǔ)上,進行數(shù)據(jù)清洗和質(zhì)量管控,同時依據(jù)元數(shù)據(jù)規(guī)范,將原始數(shù)據(jù)庫文件規(guī)約為格式標準的原始歸集數(shù)據(jù)表,形成原始歸集數(shù)據(jù)庫。在原始歸集數(shù)據(jù)庫的基礎(chǔ)上,依據(jù)垂直領(lǐng)域業(yè)務(wù)結(jié)構(gòu),抽取關(guān)鍵數(shù)據(jù),經(jīng)過可靠性過濾,匯聚形成標準數(shù)據(jù)庫。最后,面向終端應(yīng)用,基于業(yè)務(wù)需求進行數(shù)據(jù)抽取和生成,形成需求驅(qū)動的功用數(shù)據(jù)表,匯聚成為功用數(shù)據(jù)庫。這種遞進式的分級數(shù)據(jù)管理模式和基于業(yè)務(wù)結(jié)構(gòu)形成的陸海統(tǒng)籌時空語義多維一體化數(shù)據(jù)管理方法,是本系統(tǒng)的主要創(chuàng)新。
2.2.1 原始數(shù)據(jù)庫設(shè)計 原始數(shù)據(jù)庫實現(xiàn)對多源異構(gòu)數(shù)據(jù)管理。例如,對于地圖數(shù)據(jù)的shape文件、經(jīng)濟數(shù)據(jù)的excel表、科學計算的nc文件等原始數(shù)據(jù),其主要目標是實現(xiàn)對多來源、多類型、異構(gòu)文件的綜合管理。
根據(jù)原始數(shù)據(jù)庫管理需求,設(shè)計了一張原始數(shù)據(jù)庫元信息表,記錄待解析文件的相關(guān)信息,以輔助原始文件入庫。其字段結(jié)構(gòu)如表1所示。
表1 原始數(shù)據(jù)庫元信息表Table 1 Original database meta-information table
多來源、多類型、異構(gòu)文件存在數(shù)據(jù)結(jié)構(gòu)不一,數(shù)據(jù)類型多元的問題。因此無法采用單一解析方法,需分文件解析。
當原始文件入庫時,首先會對文件進行解析以獲取其對應(yīng)的文件名、文件類型和文件格式等信息,同時生成唯一主鍵sid并記錄于原始數(shù)據(jù)庫元信息表中,這樣每個被解析的文件就對應(yīng)原始數(shù)據(jù)庫元信息表中的一條記錄。
隨后依據(jù)原始數(shù)據(jù)庫元信息表所記錄的文件類型信息,采取相應(yīng)的數(shù)據(jù)解析操作。例如,對于柵格類型的文件會逐行讀取,對文本文件則會逐字節(jié)加載,而對圖片文件則會將其解析為一串二進制數(shù)據(jù)。
最后生成一張原始數(shù)據(jù)庫的數(shù)據(jù)表,存放所解析的數(shù)據(jù)。其中數(shù)據(jù)表名稱會關(guān)聯(lián)于原始數(shù)據(jù)庫元信息表中的sid字段,這樣便實現(xiàn)了數(shù)據(jù)與元信息相關(guān)聯(lián),有利于后續(xù)對數(shù)據(jù)的檢索與管理。
原始數(shù)據(jù)庫實現(xiàn)了對多源、異構(gòu)、渤海環(huán)境大數(shù)據(jù)的文件粒度級的綜合管理,但是由于原始文件類型多樣、規(guī)模各異,導致原始數(shù)據(jù)庫數(shù)據(jù)表規(guī)模龐大、要素分散、粒度不一、時空不均,難以有效支撐環(huán)境數(shù)據(jù)的查詢和檢索。因此,進一步提出原始歸集數(shù)據(jù)庫,對原始數(shù)據(jù)庫文件進行統(tǒng)一規(guī)約。
2.2.2 原始歸集數(shù)據(jù)庫設(shè)計 因原始數(shù)據(jù)庫面臨兩個方面的挑戰(zhàn),一方面原始數(shù)據(jù)庫包含大量小表,缺乏合理關(guān)聯(lián),導致管理困難。另一方面,表的內(nèi)部數(shù)據(jù)結(jié)構(gòu)不盡相同,造成字段缺失,數(shù)據(jù)冗余,數(shù)據(jù)置空等挑戰(zhàn)。因此,針對以上問題,通過規(guī)約原始數(shù)據(jù)庫中的小數(shù)據(jù)表,形成格式標準、質(zhì)量可靠原始規(guī)約數(shù)據(jù)表。這是原始歸集數(shù)據(jù)庫的構(gòu)建目標。
原始歸集數(shù)據(jù)庫同樣設(shè)計了一張原始歸集數(shù)據(jù)庫元信息表,用以輔助數(shù)據(jù)規(guī)約、轉(zhuǎn)換和質(zhì)控。原始歸集數(shù)據(jù)庫元信息表字段信息如表2所示:
表2 原始歸集數(shù)據(jù)庫元信息表Table 2 Meta-information table of the original collection database
借助元信息表開展原始歸集數(shù)據(jù)庫的結(jié)構(gòu)設(shè)計工作。首先,針對數(shù)據(jù)類別,在層次化的垂直方向上,將數(shù)據(jù)劃分為四類,“地圖數(shù)據(jù)”、“社會經(jīng)濟數(shù)據(jù)”、“陸源環(huán)境調(diào)查監(jiān)測數(shù)據(jù)”、“海洋環(huán)境監(jiān)測調(diào)查數(shù)據(jù)”,并將對應(yīng)的層次結(jié)構(gòu)信息記錄于原始歸集數(shù)據(jù)庫元信息表中。同時,在層次結(jié)構(gòu)的末端,會掛載一張具有規(guī)范結(jié)構(gòu)的原始歸集數(shù)據(jù)庫的數(shù)據(jù)表,從而將數(shù)據(jù)與類別信息進行關(guān)聯(lián)。最后依據(jù)該結(jié)構(gòu)并配合元信息表進行原始數(shù)據(jù)轉(zhuǎn)化工作。
當數(shù)據(jù)由原始數(shù)據(jù)庫向原始歸集數(shù)據(jù)庫轉(zhuǎn)化時,系統(tǒng)首先根據(jù)原始數(shù)據(jù)庫元信息表中的Data_Source字段信息,判斷并選擇其需要歸集到的特定原始歸集數(shù)據(jù)庫的數(shù)據(jù)表,由于原始數(shù)據(jù)庫和原始歸集數(shù)據(jù)庫表各自的數(shù)據(jù)表結(jié)構(gòu)不同,因此需要開展數(shù)據(jù)質(zhì)量控制,包括字段信息完整性校驗,數(shù)據(jù)值空缺補全,數(shù)據(jù)去冗余等。其后,生成主鍵ssid并將原始數(shù)據(jù)庫中的sid和相關(guān)元信息記錄于原始歸集數(shù)據(jù)庫元信息表;最后,將原始數(shù)據(jù)庫中相對應(yīng)的表的數(shù)據(jù)歸集進原始歸集數(shù)據(jù)表中。
如圖2所示,多張原始數(shù)據(jù)庫的數(shù)據(jù)表被歸并到一張原始歸集數(shù)據(jù)庫的表中。這樣便解決了數(shù)據(jù)格式規(guī)范不統(tǒng)一和大量小表存在的問題。
圖2 原始歸集數(shù)據(jù)庫結(jié)構(gòu)設(shè)計Fig.2 Original collection database structure design
原始歸集數(shù)據(jù)庫通過定義原始歸集數(shù)據(jù)元信息表和歸集數(shù)據(jù)標準表,實現(xiàn)數(shù)據(jù)的完整性和規(guī)范性的有效提升。但是,由于數(shù)據(jù)無法與相關(guān)業(yè)務(wù)的語義信息所關(guān)聯(lián),無法有效支撐面向業(yè)務(wù)領(lǐng)域的需求。因此,需要面向業(yè)務(wù)領(lǐng)域,開展數(shù)據(jù)管理,才能實現(xiàn)數(shù)據(jù)與業(yè)務(wù)之間的強耦合。
2.2.3 標準數(shù)據(jù)庫設(shè)計 標準數(shù)據(jù)庫需要滿足面向業(yè)務(wù)領(lǐng)域開展基于語義的數(shù)據(jù)檢索需求,既包括基于業(yè)務(wù)類型的全局數(shù)據(jù)檢索,也包括針對要素、時空等精細粒度的數(shù)據(jù)管理。因此,在原始歸集數(shù)據(jù)庫的基礎(chǔ)上,面向垂直應(yīng)用領(lǐng)域體系架構(gòu),通過業(yè)務(wù)梳理和流程再造,形成包含業(yè)務(wù)語義的層次化結(jié)構(gòu),將每條數(shù)據(jù)實現(xiàn)與相應(yīng)的業(yè)務(wù)層次進行關(guān)聯(lián),形成結(jié)構(gòu)化的標準數(shù)據(jù)庫表;其次,標準數(shù)據(jù)庫的數(shù)據(jù)需要和原始歸集數(shù)據(jù)庫、原始數(shù)據(jù)庫的數(shù)據(jù)進行關(guān)聯(lián),實現(xiàn)數(shù)據(jù)溯源。因此標準數(shù)據(jù)庫的實現(xiàn)需要兩個方面的工作,其一,構(gòu)建標準數(shù)據(jù)庫元信息表,實現(xiàn)標準數(shù)據(jù)庫的結(jié)構(gòu)化管理,將在本節(jié)中進行詳細說明。其二,形成數(shù)據(jù)編碼,實現(xiàn)數(shù)據(jù)的可回溯。將在2.3.4節(jié)中進行詳細介紹。
標準數(shù)據(jù)庫元信息表結(jié)構(gòu)如表3所示。
表3 標準數(shù)據(jù)庫元信息表Table 3 Standard database metadata table
由原始歸集數(shù)據(jù)庫向標準數(shù)據(jù)庫進行數(shù)據(jù)轉(zhuǎn)換的流程如下:首先,根據(jù)圖3的業(yè)務(wù)結(jié)構(gòu)圖,為每個葉子結(jié)點生成標準數(shù)據(jù)庫數(shù)據(jù)表,用以承載具體數(shù)據(jù)。本系統(tǒng)所依靠的業(yè)務(wù)結(jié)構(gòu)是根據(jù)陸海統(tǒng)籌污染治理業(yè)務(wù)需求和邏輯對業(yè)務(wù)流程進行模塊化和重塑后形成的業(yè)務(wù)體系,詳情如圖3所示,第一層次包含四大類,包括“陸海界面”,“海域水動力輸運過程多源入海”,“多源入海污染排放數(shù)量”和“海域生物生態(tài)過程”,其后,根據(jù)業(yè)務(wù)流程進行細粒度劃分,圖3僅對前兩層結(jié)構(gòu)進行簡單示意。所有的葉子結(jié)點都對應(yīng)標準數(shù)據(jù)庫中的一張數(shù)據(jù)表,數(shù)據(jù)表按照層次結(jié)構(gòu)進行關(guān)聯(lián),數(shù)據(jù)表元數(shù)據(jù)信息中的“業(yè)務(wù)層次結(jié)構(gòu)”字段對該關(guān)聯(lián)進行標識。例如鹽度sal要素通過數(shù)據(jù)業(yè)務(wù)層次結(jié)構(gòu)字段映射為2-2層次,第一層的2會解析為海域水動力輸運過程,第二層的2進一步歸屬為其下屬的水文類別。通過業(yè)務(wù)層次關(guān)聯(lián),表征了數(shù)據(jù)對應(yīng)的業(yè)務(wù)層次的語義信息。在數(shù)據(jù)檢索時,依據(jù)業(yè)務(wù)層次信息能快速實現(xiàn)業(yè)務(wù)領(lǐng)域定位,從而最大程度縮小檢索范圍,加快數(shù)據(jù)檢索速度。依據(jù)業(yè)務(wù)結(jié)構(gòu)圖中葉子結(jié)點所對應(yīng)的標準數(shù)據(jù)庫表,對原始歸集數(shù)據(jù)庫表開展數(shù)據(jù)篩選,加載到標準數(shù)據(jù)庫中,最終完成了標準數(shù)據(jù)庫的構(gòu)建。
圖3 業(yè)務(wù)結(jié)構(gòu)圖Fig.3 Business structure chart
2.2.4 功用數(shù)據(jù)庫設(shè)計 功用數(shù)據(jù)庫即特定功能用途的數(shù)據(jù)庫。功用數(shù)據(jù)庫是面向特定領(lǐng)域、特定用戶、特定功能的數(shù)據(jù)庫?;跇I(yè)務(wù)化需求進行數(shù)據(jù)抽取和生成,形成需求驅(qū)動的功用數(shù)據(jù)表,匯聚成為功用數(shù)據(jù)庫。因其數(shù)據(jù)結(jié)構(gòu)是面向特定業(yè)務(wù)功能開展定制,本文不做詳細的論述。
2.2.5 數(shù)據(jù)編碼表設(shè)計 對于渤海生態(tài)環(huán)境的數(shù)據(jù)利用,最重要的是時空數(shù)據(jù)的檢索和信息回溯。所謂時空數(shù)據(jù)檢索即依據(jù)給出的時間和空間信息,快速搜索出用戶所需要的數(shù)據(jù)。而對于信息回溯則是需要通過給定的數(shù)據(jù),由標準數(shù)據(jù)庫開始,由原始歸集數(shù)據(jù)庫到原始數(shù)據(jù)庫,最后定位到某個具體的文件并獲得數(shù)據(jù)來源相關(guān)的信息。
為了達到數(shù)據(jù)的全局檢索和信息回溯的需求,會在已有的原始數(shù)據(jù)庫元信息表,原始歸集數(shù)據(jù)庫元信息表和標準數(shù)據(jù)庫元信息表的基礎(chǔ)上,根據(jù)各自其部分信息生成一張編碼信息表。通過該表,從而實現(xiàn)了用戶通過時空條件進行全局檢索,同時進行信息回溯的目的。
編碼表的具體設(shè)計如圖4所示。
圖4 業(yè)務(wù)結(jié)構(gòu)圖Fig.4 Code table structure design
系統(tǒng)通過sid,ssid字段將三張表進行關(guān)聯(lián),同時篩選出特定的高頻使用字段信息生成編碼表。如圖4所示,紅色的字段對應(yīng)于選中字段。用戶對數(shù)據(jù)進行基于語義或者時空關(guān)系檢索時,解析所對應(yīng)的時空信息和語義信息,實現(xiàn)快速定位并查詢。同時能由給出的要素名稱字段,根據(jù)ssid,sid的關(guān)聯(lián),回溯至原始數(shù)據(jù)集,獲取數(shù)據(jù)的來源方的相關(guān)信息。
本系統(tǒng)采用了B/S架構(gòu)。同時使用了前后端分離的開發(fā)模式。使得整個系統(tǒng)呈現(xiàn)為高內(nèi)聚、低耦合的特性。
前端應(yīng)用vue.js框架,遵循MVVM開發(fā)的模式,通過數(shù)據(jù)驅(qū)動的方式,將頁面的構(gòu)建和數(shù)據(jù)的注入進行分離,使得數(shù)據(jù)和頁面徹底實現(xiàn)了解耦。后端采用了Springmvc的技術(shù),通過View、Controller、 Model三大模塊的構(gòu)建以應(yīng)對前端頁面?zhèn)鱽淼恼埱蠛秃笈_數(shù)據(jù)的處理。Mybatis框架技術(shù)實現(xiàn)了對數(shù)據(jù)庫的操作封裝。并提供操作數(shù)據(jù)的接口,以滿足系統(tǒng)對數(shù)據(jù)從源數(shù)據(jù)、歸集數(shù)據(jù)、標準數(shù)據(jù)、功用數(shù)據(jù)的逐步轉(zhuǎn)化需要。
該模塊劃分為五大類別,分別對應(yīng)原始數(shù)據(jù)庫,原始歸集數(shù)據(jù)庫,標準數(shù)據(jù)庫和功用數(shù)據(jù)庫。原始歸集數(shù)據(jù)庫和標準數(shù)據(jù)庫分別有對應(yīng)的層次結(jié)構(gòu)。圖5展示了標準數(shù)據(jù)庫的層次結(jié)構(gòu)以及所掛載的數(shù)據(jù)的樣例。通過左側(cè)導航欄可以快速定位業(yè)務(wù)表及數(shù)據(jù)。
圖5 標準數(shù)據(jù)庫界面Fig.5 Standard database interface
快速檢索模塊是利用上述分庫、分業(yè)務(wù)設(shè)計架構(gòu),依賴編碼表所提供的信息,快速定位某一個要素所處的業(yè)務(wù)表的層級,從而避免了全局遍歷數(shù)據(jù)的情況,大大減少了檢索數(shù)據(jù)的時間,實現(xiàn)快速檢索需求。
圖6展示了搜索界面,該搜索欄包括三個字段,分別為時間、空間和屬性名。系統(tǒng)會根據(jù)輸入的要素名稱所對應(yīng)的編碼信息解碼出對應(yīng)的業(yè)務(wù)層次,再結(jié)合所輸入的時空信息,將檢索問題限定在特定小范圍的進行解決。從而完美解決了大規(guī)模時空數(shù)據(jù)檢索的難題。
圖6 數(shù)據(jù)檢索Fig.6 data retrieval
如圖7所示,為使數(shù)據(jù)能夠直觀展示,而設(shè)計了一套可視化的界面,后臺系統(tǒng)通過數(shù)據(jù)統(tǒng)計分析,將其結(jié)果以條形圖、折線圖和餅狀圖的方式進行呈現(xiàn)。一方面展示數(shù)據(jù)的變化趨勢,另一方面又展示數(shù)據(jù)的占比情況。
圖7 數(shù)據(jù)可視化Fig.7 Data visualization
本文基于渤海海量多源異構(gòu)、跨時空、多尺度、多要素的生態(tài)環(huán)境大數(shù)據(jù)檢索與管理的迫切需求。通過遞進式數(shù)據(jù)庫設(shè)計和通過面向垂直應(yīng)用領(lǐng)域的業(yè)務(wù)梳理和流程再造方式方法,實現(xiàn)了一套渤海生態(tài)環(huán)境數(shù)據(jù)分級檢索系統(tǒng),解決了多來源、異構(gòu)數(shù)據(jù)的管理和快速檢索問題。為用戶高效利用數(shù)據(jù)做科學研究和近海污染防治決策分析提供了堅實的數(shù)據(jù)基礎(chǔ)。