裘昱 潘登
摘要:信息系統(tǒng)建設(shè)離不開數(shù)據(jù),數(shù)據(jù)工程的方法是數(shù)據(jù)科學(xué)與數(shù)據(jù)技術(shù)的應(yīng)用和歸宿。該文提出的在信息系統(tǒng)建設(shè)中應(yīng)用數(shù)據(jù)工程的方法并發(fā)揮其作用,就是利用工程的觀點(diǎn)進(jìn)行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應(yīng)用,可避免信息系統(tǒng)建設(shè)過程中諸多現(xiàn)實(shí)問題。
關(guān)鍵詞:數(shù)據(jù)工程;信息系統(tǒng);作用
中圖分類號(hào):TP3? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? 文章編號(hào):1009-3044(2019)01-0009-02
1 數(shù)據(jù)、信息及信息系統(tǒng)
數(shù)據(jù)和信息是信息系統(tǒng)中最基本的術(shù)語。數(shù)據(jù)是指記錄下來的事實(shí),是客觀實(shí)體屬性的值。就其表現(xiàn)形式來看,可以分為模擬數(shù)據(jù)(其數(shù)據(jù)是連續(xù)的值,比如聲音、圖像等)和數(shù)字?jǐn)?shù)據(jù)(其數(shù)據(jù)是離散的值,如符號(hào)、數(shù)字等)。
信息是構(gòu)成一定含義的一組數(shù)據(jù)。信息是對(duì)客觀世界中各種事物的狀態(tài)、特征及其變化的反映,泛指人類社會(huì)傳播的一切內(nèi)容。人通過獲得、識(shí)別自然界和社會(huì)的不同信息來區(qū)別不同事物,得以認(rèn)識(shí)和改造世界。
信息和數(shù)據(jù)的關(guān)系非常緊密,息息相關(guān),可描述為:數(shù)據(jù)是信息的表現(xiàn)形式和載體。數(shù)據(jù)和信息是不可分離的,數(shù)據(jù)是信息的表達(dá),信息是數(shù)據(jù)的內(nèi)涵。數(shù)據(jù)本身沒有意義,數(shù)據(jù)只有對(duì)實(shí)體行為產(chǎn)生影響時(shí)才成為信息。[1]
信息系統(tǒng)是由人、計(jì)算機(jī)(包括網(wǎng)絡(luò))和管理規(guī)則組成的集成化系統(tǒng),是由計(jì)算機(jī)硬件、網(wǎng)絡(luò)和通信設(shè)備、計(jì)算機(jī)軟件、信息資源、信息用戶和規(guī)章制度組成的以處理信息流為目的的人機(jī)一體化系統(tǒng)。
二十世紀(jì)60、70年代,在以美國(guó)為代表的信息技術(shù)發(fā)達(dá)國(guó)家,出現(xiàn)了與“信息孤島”相類似的“數(shù)據(jù)處理危機(jī)”問題,表現(xiàn)為,信息系統(tǒng)建設(shè)出現(xiàn)了大量的失敗案例,無用的或效率很低的應(yīng)用程序越積越多,應(yīng)用開發(fā)的效率越來越低,信息系統(tǒng)的維護(hù)越來越困難。隨著信息工程的出現(xiàn),對(duì)解決“數(shù)據(jù)處理危機(jī)”發(fā)揮了重要的作用。信息工程作為一個(gè)學(xué)科,是多種技術(shù)、多種學(xué)科的綜合,是研究信息處理理論、技術(shù)和工程實(shí)現(xiàn)的專門學(xué)科。目前,信息工程多是以系統(tǒng)建設(shè)為核心,提出對(duì)數(shù)據(jù)的使用要求,尚不能涵蓋數(shù)據(jù)建設(shè)的全過程。我們認(rèn)為,為了進(jìn)一步理清數(shù)據(jù)工作的思路,信息系統(tǒng)建設(shè)還應(yīng)以數(shù)據(jù)為焦點(diǎn),應(yīng)用數(shù)據(jù)全壽命過程中的技術(shù)、管理和目標(biāo),達(dá)到進(jìn)一步降低風(fēng)險(xiǎn),提高效率的目的。同時(shí),信息工程的基本原理對(duì)于數(shù)據(jù)工程建設(shè)而言依然適用。
2 數(shù)據(jù)工程基本概念
數(shù)據(jù)工程(Data Engineering)是規(guī)范和支撐數(shù)據(jù)產(chǎn)生、維護(hù)、服務(wù)、使用、存儲(chǔ)全過程的一系列技術(shù)、建設(shè)、應(yīng)用和管理活動(dòng)的總稱,其主要目標(biāo)是強(qiáng)化數(shù)據(jù)的管理,提高數(shù)據(jù)的可見性、可訪問性和可理解性。數(shù)據(jù)工程建設(shè)的實(shí)質(zhì)是將系統(tǒng)工程的方法用于解決數(shù)據(jù)建設(shè)中存在的各種問題,最大程度提高數(shù)據(jù)的使用價(jià)值[2]。
數(shù)據(jù)工程建設(shè)由法規(guī)和標(biāo)準(zhǔn)、數(shù)據(jù)支撐環(huán)境和數(shù)據(jù)資源建設(shè)三個(gè)方面組成。數(shù)據(jù)法規(guī)和標(biāo)準(zhǔn)包括數(shù)據(jù)政策法規(guī)、數(shù)據(jù)標(biāo)準(zhǔn)體系、各類數(shù)據(jù)標(biāo)準(zhǔn)等,用于規(guī)范數(shù)據(jù)資源建設(shè)的各項(xiàng)活動(dòng)。數(shù)據(jù)支撐環(huán)境建設(shè)包括數(shù)據(jù)集成環(huán)境、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)中心/數(shù)據(jù)存儲(chǔ)災(zāi)備系統(tǒng)和數(shù)據(jù)安全保密系統(tǒng)。數(shù)據(jù)集成環(huán)境具有元數(shù)據(jù)注冊(cè)、數(shù)據(jù)建模、數(shù)據(jù)映射、數(shù)據(jù)抽取與轉(zhuǎn)換、數(shù)據(jù)挖掘和聚合等服務(wù)功能,為數(shù)據(jù)的共享與應(yīng)用提供(網(wǎng)絡(luò)化)支持環(huán)境。數(shù)據(jù)管理系統(tǒng)具有對(duì)各種數(shù)據(jù)的采集、匯總、審核、性能監(jiān)控和查詢分析等功能。數(shù)據(jù)中心/數(shù)據(jù)存儲(chǔ)災(zāi)備系統(tǒng)為數(shù)據(jù)提供各種服務(wù),包括安全、可靠、高效的存儲(chǔ)、容災(zāi)和備份服務(wù)。數(shù)據(jù)安全保密系統(tǒng)為數(shù)據(jù)提供安全保密手段和措施。從國(guó)家安全的高度出發(fā),數(shù)據(jù)支撐環(huán)境所依賴的基礎(chǔ)軟件應(yīng)該由非自主知識(shí)產(chǎn)權(quán)基礎(chǔ)軟件逐漸過渡到自主知識(shí)產(chǎn)權(quán)基礎(chǔ)軟件。數(shù)據(jù)資源主要包括共享數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)兩大類數(shù)據(jù)。共享數(shù)據(jù)是領(lǐng)域間通用的、基礎(chǔ)性的數(shù)據(jù)資源。業(yè)務(wù)數(shù)據(jù)是各業(yè)務(wù)部門為支持具體的業(yè)務(wù)工作而使用的專用數(shù)據(jù)。共享和業(yè)務(wù)數(shù)據(jù)是相對(duì)而言的,針對(duì)不同范圍的領(lǐng)域可能有著特定的含義?;A(chǔ)數(shù)據(jù)建設(shè)是為了促進(jìn)數(shù)據(jù)共享,如果有了基礎(chǔ)數(shù)據(jù)卻不能按需有權(quán)限共享,則意義有限。完成基礎(chǔ)數(shù)據(jù)建設(shè),完善數(shù)據(jù)更新和共享機(jī)制,對(duì)解決長(zhǎng)期困擾在信息化建設(shè)中數(shù)據(jù)橫向共享難的瓶頸問題,發(fā)揮信息系統(tǒng)的整體效益至關(guān)重要。
3 數(shù)據(jù)工程在信息系統(tǒng)建設(shè)中的作用
3.1 強(qiáng)化數(shù)據(jù)資源開發(fā)與利用
現(xiàn)代社會(huì)是信息化社會(huì),誰擁有了量多質(zhì)好的信息,誰就占據(jù)有利位置。因此,數(shù)據(jù)作為信息的載體和表現(xiàn)形式,正越來越受到大家的普遍重視。數(shù)據(jù)是信息化"彈藥",只有"彈藥"充足了,才能變信息優(yōu)勢(shì)為決策優(yōu)勢(shì)?,F(xiàn)代的信息化社會(huì)緊緊圍繞著一個(gè)核心,那就是數(shù)據(jù)。在信息系統(tǒng)建設(shè)中,非常重要的一點(diǎn)是運(yùn)用數(shù)據(jù)工程原理,強(qiáng)化數(shù)據(jù)資源的開發(fā)與利用,并且確保在各信息系統(tǒng)之間能夠互操作這些數(shù)據(jù)資源,發(fā)揮信息系統(tǒng)的整體效益。數(shù)據(jù)資源是信息系統(tǒng)最重要的資源之一,開發(fā)數(shù)據(jù)資源既是信息化的出發(fā)點(diǎn),又是信息化的目標(biāo)。
3.2 強(qiáng)調(diào)以數(shù)據(jù)為中心構(gòu)建信息系統(tǒng)
在建設(shè)信息系統(tǒng)時(shí),信息工程的基本原理依然適用,就是說應(yīng)該在以系統(tǒng)建設(shè)為核心的同時(shí),也要強(qiáng)調(diào)把數(shù)據(jù)作為中心來構(gòu)建信息系統(tǒng),一是應(yīng)用系統(tǒng)的研發(fā)應(yīng)面向數(shù)據(jù),而不應(yīng)面向過程。研發(fā)過程中,應(yīng)首要考慮的是系統(tǒng)的使用者需要系統(tǒng)提供哪些服務(wù),從而更加有效高效的組織數(shù)據(jù)。二是數(shù)據(jù)是穩(wěn)定的,處理是多變的。只要信息系統(tǒng)業(yè)務(wù)主體不變,所使用的數(shù)據(jù)模型就很少變化。通過使用多種數(shù)據(jù)分析方法,找到數(shù)據(jù)模型。根據(jù)數(shù)據(jù)模型建立并組織這些數(shù)據(jù),不僅能提供更加有效的服務(wù),當(dāng)組織或業(yè)務(wù)上出現(xiàn)變化時(shí)也能很快適應(yīng)。三是具有信息或數(shù)據(jù)的最終組織、運(yùn)用、管理和決策權(quán)力的高層用戶必須真正參加或指導(dǎo)信息系統(tǒng)的建設(shè)工作。信息系統(tǒng)建設(shè)是"一把手"工程,離開高層用戶緊密參與,是不可能真正成功的。
3.3 強(qiáng)力以數(shù)據(jù)集成推動(dòng)信息系統(tǒng)集成
近年來,隨著計(jì)算機(jī)技術(shù)運(yùn)用的不斷深入,不同軟件間,不同部門間的數(shù)據(jù)信息不能共享,設(shè)計(jì)、管理、生產(chǎn)的數(shù)據(jù)不能進(jìn)行交流,數(shù)據(jù)出現(xiàn)脫節(jié),產(chǎn)生了較為嚴(yán)重的“信息孤島”問題,信息系統(tǒng)集成難度變大,傳統(tǒng)的打補(bǔ)丁、寫接口轉(zhuǎn)換程序等做法很難從根本上解決問題。
從數(shù)據(jù)工程的角度來看,應(yīng)該面向數(shù)據(jù)集成,從數(shù)據(jù)法規(guī)和標(biāo)準(zhǔn)、數(shù)據(jù)支撐環(huán)境和數(shù)據(jù)資源建設(shè)等三個(gè)方面入手,強(qiáng)力推動(dòng)信息系統(tǒng)集成,即擬制相關(guān)數(shù)據(jù)法規(guī),解決數(shù)據(jù)的管理、維護(hù)等問題,規(guī)劃數(shù)據(jù)標(biāo)準(zhǔn)體系,建立穩(wěn)定的數(shù)據(jù)模型,設(shè)計(jì)共享數(shù)據(jù)庫,抓好數(shù)據(jù)重組工作(重組原有的信息資源),改造雜亂無序的數(shù)據(jù)支撐環(huán)境,構(gòu)建可共享的基礎(chǔ)數(shù)據(jù)資源,只有在能夠采用相對(duì)穩(wěn)定的數(shù)據(jù)模型和數(shù)據(jù)來描述各信息系統(tǒng)的共享需求,采用統(tǒng)一的方式(或環(huán)境)處理這些數(shù)據(jù)模型和數(shù)據(jù),又具備了可共享、交換的基礎(chǔ)數(shù)據(jù)資源后,才能解決數(shù)據(jù)集成問題,取得信息系統(tǒng)集成的主動(dòng)權(quán)[3]。
4 國(guó)外數(shù)據(jù)工程建設(shè)主要做法
國(guó)外(以美國(guó)為代表)高度重視數(shù)據(jù)工程建設(shè),其主要做法包括:一是技術(shù)推動(dòng)與法規(guī)制度建設(shè)并重。美國(guó)一方面靠技術(shù)推動(dòng),促進(jìn)轉(zhuǎn)型,另一方面又下大力氣,緊抓法規(guī)制度建設(shè),用法規(guī)制度為轉(zhuǎn)型保駕。例如美軍高度重視法規(guī)制度在轉(zhuǎn)型中的關(guān)鍵作用,為加強(qiáng)美軍的信息(數(shù)據(jù))能力,美軍除了信息柵格基礎(chǔ)設(shè)施(GIG)本身建設(shè)外,以國(guó)防部(DOD)為主要法規(guī)政策制定者,出臺(tái)了一系列相關(guān)的法規(guī)類文件,其中包括《美國(guó)國(guó)家安全戰(zhàn)略》《美國(guó)國(guó)防戰(zhàn)略》《美國(guó)國(guó)家軍事戰(zhàn)略》《國(guó)防部首席信息官戰(zhàn)略規(guī)劃》《GIG體系結(jié)構(gòu)構(gòu)想視圖》《美國(guó)國(guó)防部網(wǎng)絡(luò)中心數(shù)據(jù)共享實(shí)施指南》《網(wǎng)絡(luò)中心數(shù)據(jù)策略》和《網(wǎng)絡(luò)中心作戰(zhàn)和網(wǎng)絡(luò)中心戰(zhàn)參考模型》。這些法規(guī)類文件對(duì)促進(jìn)美軍的轉(zhuǎn)型起到了非常關(guān)鍵的作用。二是按照實(shí)際需求,逐步發(fā)展數(shù)據(jù)策略。以美國(guó)為例,其數(shù)據(jù)標(biāo)準(zhǔn)管理方式,先是分散管理,再由分散管理過渡到集中管理,然后在數(shù)據(jù)標(biāo)準(zhǔn)的指導(dǎo)下,再過渡到"非集中"管理的網(wǎng)絡(luò)中心數(shù)據(jù)策略。三是高度重視數(shù)據(jù)基礎(chǔ)環(huán)境和通用數(shù)據(jù)資源的建設(shè)。以數(shù)據(jù)基礎(chǔ)環(huán)境為信息系統(tǒng)建設(shè)的核心,以通用數(shù)據(jù)資源建設(shè)帶動(dòng)信息資源的整體建設(shè)。四是高度重視數(shù)據(jù)標(biāo)準(zhǔn)在信息系統(tǒng)互操作中的關(guān)鍵作用。美國(guó)認(rèn)為信息系統(tǒng)互操作等級(jí)的指標(biāo)體系由規(guī)程 (Procedures) 、應(yīng)用 (Applications) 、基礎(chǔ)設(shè)施 (Infrastructure) 和數(shù)據(jù) (Data)四個(gè)屬性構(gòu)成,其中,數(shù)據(jù)屬性描述系統(tǒng)處理的信息,涉及信息格式(語法)和其內(nèi)容或意義(語義)兩個(gè)方面,囊括了全部信息式樣和格式,包括自由文本、格式化文本、數(shù)據(jù)庫(格式化的和非格式化的)、視頻、語音、圖像、圖形(地圖)信息等等,是獲得系統(tǒng)互操作性的最關(guān)鍵的環(huán)節(jié)。
5 啟示
未來社會(huì)將是以數(shù)據(jù)為中心特點(diǎn)的數(shù)字化信息化社會(huì),在這樣的環(huán)境下,數(shù)據(jù)的來源是全方位的。必須抓住機(jī)遇,認(rèn)真解決在數(shù)據(jù)建設(shè)中存在的各種矛盾問題,只有抓好數(shù)據(jù)工程工作,重視數(shù)據(jù)工程建設(shè),強(qiáng)調(diào)以數(shù)據(jù)工程建設(shè)推動(dòng)信息系統(tǒng)建設(shè),著力以數(shù)據(jù)為中心構(gòu)建信息系統(tǒng),搞好以數(shù)據(jù)集成推動(dòng)信息系統(tǒng)集成,切實(shí)重視數(shù)據(jù)法規(guī)標(biāo)準(zhǔn)建設(shè),努力構(gòu)建基礎(chǔ)數(shù)據(jù)的一體化支撐環(huán)境,建立健全數(shù)據(jù)資源的管理機(jī)制體質(zhì),促進(jìn)數(shù)據(jù)共享,強(qiáng)化數(shù)據(jù)管理,規(guī)范數(shù)據(jù)全壽命活動(dòng),提高數(shù)據(jù)的可見性、可訪問性和可理解性,最大程度提高數(shù)據(jù)的使用價(jià)值,才能最終為提高信息系統(tǒng)整體效益,迎接數(shù)字化社會(huì),奠定堅(jiān)實(shí)的基礎(chǔ)。
參考文獻(xiàn):
[1] 岳昆. 數(shù)據(jù)工程—處理、分析與服務(wù)[M]. 北京:清華大學(xué)出版社, 2013.
[2] 李國(guó)杰, 程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J]. 北京:中國(guó)科學(xué)院院刊, 2012.
[3] 周傲英, 錢衛(wèi)寧. 數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時(shí)代的新興交叉學(xué)科[J].大數(shù)據(jù), 2015(2).