劉麗娜
(中國電子科技集團有限公司電子科學研究院,北京100041)
目前比較流行的集中數(shù)據(jù)集成共享模式主要有集中式集成共享模式、統(tǒng)一訪問式集成共享模式、數(shù)據(jù)融合集成共享模式。本文主要對數(shù)據(jù)融合集成共享模式進行了詳細研究。
集中式集成共享模式是指,使用數(shù)據(jù)采集工具,定制數(shù)據(jù)采集任務,自動化導入異構數(shù)據(jù)源數(shù)據(jù)信息,或將異構數(shù)據(jù)源數(shù)據(jù)打包成數(shù)據(jù)文件進行手工導入。然后將數(shù)據(jù)集中存儲起來的一種數(shù)據(jù)集成共享方式。這種集成共享方式的優(yōu)點在于可以將數(shù)據(jù)物理集中起來,方便后續(xù)進行統(tǒng)計挖掘分析。缺點是難以實現(xiàn)實時更新,對系統(tǒng)硬件環(huán)境要求較高,需要較大的數(shù)據(jù)存儲空間,并且需要系統(tǒng)能夠提供數(shù)據(jù)量持續(xù)增長對存儲空間的需求。
統(tǒng)一訪問式集成共享模式是指,異構數(shù)據(jù)源將數(shù)據(jù)訪問接口封裝成服務,集成共享平臺通過訪問異構數(shù)據(jù)查詢接口,調用數(shù)據(jù)信息資源,從而實現(xiàn)異構數(shù)據(jù)信息邏輯上的集成共享以及統(tǒng)一訪問,這種集成共享的模式好處在于可以實時獲取數(shù)據(jù)信息資源,數(shù)據(jù)信息準確度和時效性很高,減少了對硬件系統(tǒng)的需求。
數(shù)據(jù)融合集成共享模式是指,在集中式集成共享模式或統(tǒng)一訪問式集成共享模式的基礎上,在集成異構數(shù)據(jù)時,根據(jù)需求或業(yè)務數(shù)據(jù)源的特點對數(shù)據(jù)信息進行整合后,再進行集成共享的一種模式,該種模式能夠提高數(shù)據(jù)信息集成共享后的可用性以及提高集成異構信息數(shù)據(jù)質量。
XML技術(Extensible Markup Language可擴展標記語言)是一種由萬維網(wǎng)協(xié)會創(chuàng)建的自我描述性的語言。創(chuàng)建XML的最為重要的目的是實現(xiàn)數(shù)據(jù)采用一種合適的文本方式進行傳輸,XML可以創(chuàng)建其他的語言和描述其他語言采用的數(shù)據(jù)結構,并且將其構成一個由標記符和屬性描述的層次結構,這種自我描述的特性可以使XML具有自我解釋的能力,更容易讓系統(tǒng)理解和接收,同時由于XML語言具有文本特性,可以方便地進行運行維護和數(shù)據(jù)交換[1]。
Web Service是一種跨編程語言和跨操作系統(tǒng)平臺的遠程調用技術。它是一種輕量級的信息處理技術,它使用SOAP(Simple Object Access Protocol)簡單對象存取協(xié)議在Web上提供的軟件服務,以WSDL(Web Services Description Language)文件作為說明文檔,并通過UDDI(Universal Description,Discovery and Integration)進行注冊。Web Service以HTTP協(xié)議為基礎,通過XML進行客戶端與服務器端的通信[2]。
本文提出的異構數(shù)據(jù)集成共享模式是一種基于數(shù)據(jù)融合的集成共享方法,采用Web Service的面向服務的體系結構設計的系統(tǒng)。這里的面向服務的體系結構的含義是系統(tǒng)構成包括三種角色,即服務提供者、服務請求者以及注冊中心。異構數(shù)據(jù)的融合主要通過按照XML標準進行數(shù)據(jù)轉換來屏蔽底層數(shù)據(jù)源的異構性,并基于此建立異構數(shù)據(jù)融合注冊中心。通過Web服務代理包裝異構數(shù)據(jù)源,通過數(shù)據(jù)融合注冊交換中心連接分布式的異構數(shù)據(jù)源,從而提供數(shù)據(jù)訪問服務。
數(shù)據(jù)融合中心首先建立一個注冊服務用來保存各數(shù)據(jù)源的連接信息、數(shù)據(jù)模式以及注冊服務中心與各數(shù)據(jù)源之間的映射關系。由于XML具有跨平臺性,所以采用XML技術進行數(shù)據(jù)之間的轉換,可打破數(shù)據(jù)之間的異構性。這里采用基于模板驅動的映射,不需要事先定義好XML文檔與其他數(shù)據(jù)之間的映射關系,而是在XML文檔中嵌入帶參數(shù)的SQL語句,這里的SQL語句可以根據(jù)用戶顯示需要拼接業(yè)務邏輯,這些SQL語句在數(shù)據(jù)交換過程中帶入并被執(zhí)行,SQL語句的執(zhí)行結果獲得到的數(shù)據(jù)集替換顯示到指令所指的位置,從而生成目標XML文檔。通過這種模式,將獲得到的目標數(shù)據(jù)集返回到數(shù)據(jù)集成共享系統(tǒng)前端界面,可以實現(xiàn)從異構數(shù)據(jù)源融合集成數(shù)據(jù)的需求。
這種基于XML的異構數(shù)據(jù)融合集成方法比較適合業(yè)務數(shù)據(jù)量不是特別巨大,但是數(shù)據(jù)較為廣泛地分散在不同的業(yè)務系統(tǒng)中,且對數(shù)據(jù)需求靈活多變的中小企業(yè)的信息系統(tǒng)。它不需要建立龐大的數(shù)據(jù)中心,不需要采購高性能的計算服務器,就可以實現(xiàn)多源業(yè)務數(shù)據(jù)融合集成,在數(shù)據(jù)集成過程中,不存在對數(shù)據(jù)的加工過程,很好地保證了數(shù)據(jù)的質量與可信度,對原有業(yè)務系統(tǒng)影響不大,建設開發(fā)成本較低,能夠很好地提高企業(yè)數(shù)據(jù)集成共享效率。