謝穎斯
(廣東省環(huán)境科學(xué)研究院,廣東 廣州 510000)
生態(tài)環(huán)境信息化是當(dāng)今環(huán)境保護的重要手段,也是中國政府信息化建設(shè)的關(guān)鍵[1]。自生態(tài)環(huán)境信息化工作開展以來,全國各級環(huán)保部門先后就不同生態(tài)環(huán)境業(yè)務(wù)建設(shè)信息系統(tǒng),推動信息公開,在提高環(huán)保政務(wù)服務(wù)水平的同時,接受社會公眾監(jiān)督。但在信息化工作逐步推進(jìn)的過程中,因欠缺系統(tǒng)統(tǒng)籌規(guī)劃,各部門之間缺乏充分的溝通與交流,不同業(yè)務(wù)的信息系統(tǒng)獨立、分散,甚至重復(fù)建設(shè)[2]。由于沒有制定統(tǒng)一的建設(shè)標(biāo)準(zhǔn),導(dǎo)致各類業(yè)務(wù)數(shù)據(jù)相互割裂、質(zhì)量參差,長此以來使得大量數(shù)據(jù)可利用價值低下,不利于數(shù)據(jù)的后續(xù)更新與長遠(yuǎn)開發(fā)利用,造成資源浪費[3-4]。
隨著“大數(shù)據(jù)”理念及相關(guān)技術(shù)的普及,國務(wù)院也非常重視其在政務(wù)信息化建設(shè)中的作用和兩者相互促進(jìn)發(fā)展的成效[5],相關(guān)部門就各領(lǐng)域頒布多項大數(shù)據(jù)治理政策文件,大數(shù)據(jù)治理發(fā)展環(huán)境日益完善[6]。生態(tài)環(huán)境作為與民眾息息相關(guān)的一部分,也需建設(shè)智能、集成的生態(tài)環(huán)境大數(shù)據(jù)資源中心,進(jìn)一步提升對環(huán)境污染統(tǒng)一監(jiān)測、環(huán)保業(yè)務(wù)統(tǒng)一監(jiān)管和數(shù)據(jù)分析應(yīng)用的能力[7]。因此,建立一套長效的生態(tài)環(huán)境數(shù)據(jù)整合與開發(fā)利用的治理機制顯得尤為重要[8]。而這首要的基礎(chǔ),是要基于生態(tài)環(huán)境數(shù)據(jù)的特點,打通每個業(yè)務(wù)系統(tǒng)之間的壁壘并彼此建立聯(lián)系,將這些“信息孤島”連成一體,建立專門集成儲存生態(tài)環(huán)境信息的數(shù)據(jù)倉庫。
生態(tài)環(huán)境業(yè)務(wù)種類多,各信息系統(tǒng)中集合了污染源監(jiān)管、環(huán)境質(zhì)量監(jiān)測、環(huán)境信用許可、環(huán)境應(yīng)急管理等不同方面與類型的信息,涉及水、大氣、土壤、噪聲、輻射等方面。除了以污染源名稱、地理坐標(biāo)、污染源總量為典型的結(jié)構(gòu)化數(shù)據(jù)外,還包含了各類業(yè)務(wù)申報和審批文檔、監(jiān)測視頻、現(xiàn)場圖片等非結(jié)構(gòu)化數(shù)據(jù)。大部分業(yè)務(wù)持續(xù)運作,數(shù)據(jù)持續(xù)更新,數(shù)據(jù)體量持續(xù)增大。
不同業(yè)務(wù)系統(tǒng)之間建設(shè)標(biāo)準(zhǔn)不同,從數(shù)據(jù)庫選型、運行環(huán)境、數(shù)據(jù)模型,到字段命名、字段類型、數(shù)據(jù)驗證等,都沒有統(tǒng)一的標(biāo)準(zhǔn),基本數(shù)據(jù)字典目錄如行政區(qū)劃、國民經(jīng)濟行業(yè)分類、污染物種類等采用過時數(shù)據(jù)或非官方標(biāo)準(zhǔn)目錄的情況非常常見。大部分系統(tǒng)在日常前端數(shù)據(jù)錄入時沒有做好數(shù)據(jù)校驗,相當(dāng)一部分異常、無效、重復(fù)、不完整的數(shù)據(jù)進(jìn)入系統(tǒng)數(shù)據(jù)庫,更有一部分使用范圍小、更新頻率低的系統(tǒng)在建設(shè)時從簡,對數(shù)據(jù)的處理直接采用“收集—展示”方式,沒有對數(shù)據(jù)庫進(jìn)行嚴(yán)謹(jǐn)?shù)脑O(shè)計。
多數(shù)信息系統(tǒng)的作用皆為有空間屬性的實體業(yè)務(wù)對象(各行政區(qū)、流域、污染源等)在特定時間點的業(yè)務(wù)流程記錄或信息歸檔,各系統(tǒng)的實體業(yè)務(wù)對象基本存在相互交叉、重疊的情況。但由于各業(yè)務(wù)系統(tǒng)分散建設(shè),系統(tǒng)間數(shù)據(jù)呈碎片化,數(shù)據(jù)除了在自身所在系統(tǒng)內(nèi),沒有可分析利用的空間,多業(yè)務(wù)聯(lián)合分析統(tǒng)計的難度大增。結(jié)合前述兩點,海量數(shù)據(jù)以離散、毫無關(guān)聯(lián)的方式保存于各個數(shù)據(jù)庫中,數(shù)據(jù)價值大打折扣,加上“僵尸系統(tǒng)”和“失效數(shù)據(jù)”的大量存在,造成了資源的極大損失。
數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合。與存儲操作性數(shù)據(jù)的傳統(tǒng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫不同,它側(cè)重于數(shù)據(jù)分析與決策支持。生態(tài)環(huán)境信息數(shù)據(jù)倉庫基礎(chǔ)建設(shè)過程主要如下。
信息探究關(guān)鍵在于2個方面:一是梳理業(yè)務(wù)邏輯與流程,界定主要分析維度;二是理清各業(yè)務(wù)系統(tǒng)里的數(shù)據(jù)狀況,包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫模型設(shè)計特點、各數(shù)據(jù)表以及每個字段的含義等,確定進(jìn)入數(shù)據(jù)倉庫的內(nèi)容和數(shù)據(jù)入倉標(biāo)準(zhǔn)與策略。
同時,正確參照國家現(xiàn)有的《環(huán)境信息元數(shù)據(jù)規(guī)范》,遵循共享性、唯一性、穩(wěn)定性、可擴展性、前瞻性、可行性原則建立數(shù)據(jù)標(biāo)準(zhǔn)。對行政區(qū)劃代碼、國民經(jīng)濟行業(yè)分類、污染物名錄等建立唯一的公共字典目錄,并與各業(yè)務(wù)系統(tǒng)自身的字典目錄建立映射,為多業(yè)務(wù)聯(lián)動提供前提。
根據(jù)生態(tài)環(huán)境業(yè)務(wù)數(shù)據(jù)的特點,構(gòu)建“實體—時間—事件”模型,如圖1所示。
圖1 “實體—時間—事件”模型ER圖
“實體”指具有空間屬性,且有業(yè)務(wù)管理或統(tǒng)計需求的業(yè)務(wù)單元,按照實體之間的空間包含關(guān)系,可以確定其層級結(jié)構(gòu)并分類。由于大多數(shù)實體涉及多個業(yè)務(wù),因此在構(gòu)建實體關(guān)系結(jié)構(gòu)時引入“主數(shù)據(jù)”概念。實體關(guān)系結(jié)構(gòu)示例如圖2所示,實線表示實體的從屬關(guān)系,由實體數(shù)據(jù)的業(yè)務(wù)關(guān)系與地理坐標(biāo)信息確定;虛線表示相等關(guān)系,需要不同業(yè)務(wù)的同類實體數(shù)據(jù)比對后確定,如圖中的4個固定污染源就都表示相同的業(yè)務(wù)單元。這種定義實體關(guān)系的方法,縱向看同時兼容了多種層級關(guān)系,橫向看避免了復(fù)雜耗時的實體去重合并工作,而且還能由多個業(yè)務(wù)系統(tǒng)來對實體數(shù)據(jù)進(jìn)行查漏補缺,并保留各業(yè)務(wù)下側(cè)重不同的實體擴展信息,還能掌握實體參與各業(yè)務(wù)期間改名、易地的情況。
“時間”是實體業(yè)務(wù)對象在具體業(yè)務(wù)發(fā)生時的重要標(biāo)記,根據(jù)各業(yè)務(wù)發(fā)生頻率可分為年、季度、月、日、小時等多個類別。
圖2 實體關(guān)系結(jié)構(gòu)示例
“事件”即實體在特定時間內(nèi)發(fā)生的業(yè)務(wù)內(nèi)容,如某排污單位的排污許可證審批或某空氣質(zhì)量監(jiān)測點監(jiān)測一次空氣質(zhì)量,都可以作為事件看待。事件可按生態(tài)環(huán)境核心業(yè)務(wù)種類、業(yè)務(wù)負(fù)責(zé)部門等分別進(jìn)行分類。
“實體—時間—事件”模型的建立,也定義了生態(tài)環(huán)境信息的3個基本維度,如圖3所示,除了能適應(yīng)現(xiàn)有業(yè)務(wù),也能兼容未來新增業(yè)務(wù)的接入。
圖3 環(huán)境信息的3個基本維度
建立數(shù)據(jù)分層模型,對生態(tài)環(huán)境數(shù)據(jù)進(jìn)行歸納整理。這里將數(shù)據(jù)倉庫分為3層:ODS層(操作性數(shù)據(jù)層)、DW層(數(shù)據(jù)倉庫層)和DM層(數(shù)據(jù)集市層)[9],設(shè)計合適的ETL(抽取—轉(zhuǎn)換—加載)過程,將各業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)經(jīng)過“加工”后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中。數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫到實際應(yīng)用的流向示意圖如圖4所示,實際工作中需建立自動化的調(diào)度策略,用于定期有序執(zhí)行ETL作業(yè)流程,以保證數(shù)據(jù)倉庫的時效性。
ODS層是直接對接各個業(yè)務(wù)數(shù)據(jù)庫的一層,是數(shù)據(jù)源與數(shù)據(jù)倉庫之間的一個隔離,其數(shù)據(jù)庫結(jié)構(gòu)與業(yè)務(wù)數(shù)據(jù)庫基本保持一致。數(shù)據(jù)源中的數(shù)據(jù)經(jīng)過篩選,去除無效、異常、重復(fù)的部分后裝入本層。每個業(yè)務(wù)所用字典目錄與數(shù)據(jù)倉庫公共字典目錄的映射也于本層建立。
DW層為整個數(shù)據(jù)倉庫的核心部分,上述數(shù)據(jù)模型于本層實裝。ODS層中的數(shù)據(jù)按照所建立的數(shù)據(jù)模型重構(gòu)后加載到本層。DW層的數(shù)據(jù)通常只允許增加,不允許修改或刪除,實際過程中也需要定期對本層數(shù)據(jù)進(jìn)行質(zhì)量評審,以保證數(shù)據(jù)倉庫的準(zhǔn)確性。
DM層中的各個數(shù)據(jù)庫用于存儲基于數(shù)據(jù)倉庫中的整合數(shù)據(jù),根據(jù)特定需求匯總成某一專題的數(shù)據(jù)。每一個數(shù)據(jù)集市都可以看作是數(shù)據(jù)倉庫的一個子集,它一般是面向特定的部門、業(yè)務(wù)或主題。
數(shù)據(jù)集市中的專題數(shù)據(jù),可直接用于構(gòu)建專題。由于數(shù)據(jù)最終直接來源于現(xiàn)有業(yè)務(wù)數(shù)據(jù)庫,使得構(gòu)建應(yīng)用時省去了數(shù)據(jù)收集等步驟,避免了重復(fù)建設(shè)業(yè)務(wù)系統(tǒng)的弊端,也保證了數(shù)據(jù)與現(xiàn)有業(yè)務(wù)歷史數(shù)據(jù)的一致性。同時,各業(yè)務(wù)的數(shù)據(jù)也能夠按需進(jìn)行關(guān)聯(lián)分析,大大提高了現(xiàn)有數(shù)據(jù)資源的可用性與價值。
圖4 數(shù)據(jù)分層及過程策略
生態(tài)環(huán)境信息數(shù)據(jù)倉庫的構(gòu)建,提供面向應(yīng)用分析的集成化數(shù)據(jù)存儲環(huán)境,為解決生態(tài)環(huán)境數(shù)據(jù)現(xiàn)狀問題提供了整合方法與思路。后續(xù)可基于此快速構(gòu)建生態(tài)環(huán)境管理專題庫和應(yīng)用庫,并結(jié)合數(shù)據(jù)挖掘等技術(shù),有效提高生態(tài)環(huán)境信息資源的利用價值和效率,進(jìn)一步提升對生態(tài)環(huán)境業(yè)務(wù)綜合管理、智能分析應(yīng)用以及綜合決策等信息系統(tǒng)建設(shè)的支撐能力。
然而,現(xiàn)階段生態(tài)環(huán)境數(shù)據(jù)治理大部分還處于重點業(yè)務(wù)數(shù)據(jù)資源的基礎(chǔ)性治理階段,業(yè)務(wù)數(shù)據(jù)尚未完整匯聚整合,多級數(shù)據(jù)共享通道有待全面打通,數(shù)據(jù)資產(chǎn)構(gòu)建仍需進(jìn)一步體系化。因此,如何利用生態(tài)環(huán)境信息數(shù)據(jù)倉庫技術(shù)結(jié)合生態(tài)環(huán)境歷史數(shù)據(jù)和實時數(shù)據(jù)為智慧環(huán)保提供數(shù)據(jù)服務(wù)支撐,還需要進(jìn)一步的探索。