• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)虛擬化研究綜述

      2016-08-06 01:58:24趙國鋒葛丹鳳
      關(guān)鍵詞:數(shù)據(jù)集成大數(shù)據(jù)

      趙國鋒,葛丹鳳

      (1.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)研究院, 重慶 400065; 2.重慶市光通信與網(wǎng)絡(luò)高校重點實驗室, 重慶 400065)

      ?

      數(shù)據(jù)虛擬化研究綜述

      趙國鋒1,2,葛丹鳳1

      (1.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)研究院, 重慶 400065; 2.重慶市光通信與網(wǎng)絡(luò)高校重點實驗室, 重慶 400065)

      摘要:大數(shù)據(jù)系統(tǒng)中數(shù)據(jù)源多,數(shù)據(jù)規(guī)模大,且數(shù)據(jù)具有異構(gòu)異質(zhì)的特點,為滿足各種數(shù)據(jù)集成需求,如何快速高效地整合數(shù)據(jù)就顯得越來越重要且具有挑戰(zhàn)性。數(shù)據(jù)虛擬化能夠靈活地實現(xiàn)各種數(shù)據(jù)集成需求,介紹數(shù)據(jù)虛擬化的概念、優(yōu)勢及應(yīng)用需求,給出一種數(shù)據(jù)虛擬化系統(tǒng)架構(gòu),并對其中的數(shù)據(jù)虛擬化平面與管理平面以及各層的功能進行了闡述。重點針對數(shù)據(jù)虛擬化系統(tǒng)中存在的一些關(guān)鍵問題與挑戰(zhàn)進行了詳細分析,給出了需要進一步研究的課題與方向。

      關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)集成;數(shù)據(jù)虛擬化

      0引言

      近年來,大數(shù)據(jù)為眾多行業(yè)的發(fā)展帶來了重大機遇也面臨著艱巨挑戰(zhàn)。面對多樣化、異構(gòu)多源產(chǎn)生且跨行業(yè)整合的大規(guī)模數(shù)據(jù),尤其是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),必須解決數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)安全5個方面的問題[1-4]。

      在大數(shù)據(jù)技術(shù)創(chuàng)新的第一階段,需要解決的主要問題是如何高效地組織存儲與快速處理大數(shù)據(jù)。出現(xiàn)了以Hadoop為代表的分布式存儲計算架構(gòu)、以HDFS(Hadoop distributed fiel system)為代表的分布式文件系統(tǒng)、以BigTable、DynamoDB為代表的多種存儲模型、大規(guī)模并行處理(massively parallel processing,MPP)數(shù)據(jù)庫等大數(shù)據(jù)處理技術(shù),這些技術(shù)是建立在大規(guī)模集群基礎(chǔ)上的,需要大量的物理資源,其中也必然存在手工部署難、成本高、效率低、單點失效(無法保證服務(wù)的連續(xù)性)等問題[5-6]。

      除了極少數(shù)企業(yè),如Google,F(xiàn)acebook等,大多數(shù)企業(yè)并不具備提供上述技術(shù)與基礎(chǔ)設(shè)施的能力,而云計算[7-8]為大數(shù)據(jù)提供了可以彈性擴展、相對便宜的存儲空間和計算資源,使得越來越多的企業(yè)將自己的各種應(yīng)用程序及信息基礎(chǔ)設(shè)施轉(zhuǎn)移到云平臺上,云計算模式帶來了大數(shù)據(jù)技術(shù)的第2次創(chuàng)新,即以用戶業(yè)務(wù)需求為基礎(chǔ)的技術(shù)創(chuàng)新[9-11]。

      在構(gòu)建全面的云基礎(chǔ)設(shè)施時,虛擬化是最主要的技術(shù)創(chuàng)新。目前云中心使用的虛擬化技術(shù)通常包括計算虛擬化(虛擬機),存儲虛擬化和網(wǎng)絡(luò)虛擬化技術(shù)。這些技術(shù)成為構(gòu)建云中心信息基礎(chǔ)設(shè)施的基石,也為云中的大數(shù)據(jù)分析應(yīng)用提供了技術(shù)保障。作為虛擬化技術(shù)的一種延伸,數(shù)據(jù)虛擬化技術(shù)引入到基于云的大數(shù)據(jù)平臺,使得云上的大數(shù)據(jù)擁有跨節(jié)點、集群和層化的功能服務(wù),為端用戶提供高靈活性[12-16]。大數(shù)據(jù)促使數(shù)據(jù)虛擬化成為一種新興的數(shù)據(jù)集成與管理方法,應(yīng)用領(lǐng)域由金融服務(wù)、電信業(yè)和政府部門逐漸擴展到醫(yī)療、保險、零售、制造、電子商務(wù)及媒體/娛樂行業(yè)等[17-19]。

      伴隨著SaaS(software-as-a-service),IaaS(infrastructure-as-a-service)、PaaS(platform-as-a-service)等云計算模式以及大數(shù)據(jù)的應(yīng)用,人們逐步認識到數(shù)據(jù)的價值并且將數(shù)據(jù)作為一種服務(wù)。同時也誕生新的商業(yè)模式,使用戶可以按需訂購各種所需的數(shù)據(jù)服務(wù)[20]。數(shù)據(jù)即服務(wù)(data-as-a-service,DaaS)作為一種數(shù)據(jù)資源的集中化管理和服務(wù)提供方法,使數(shù)據(jù)服務(wù)的提供更靈活,更有利于發(fā)揮數(shù)據(jù)的價值。同時大數(shù)據(jù)時代的到來也將促進DaaS模式的快速發(fā)展,用戶將重點關(guān)注數(shù)據(jù)服務(wù)帶來的價值而不再是技術(shù)細節(jié)[21]。

      數(shù)據(jù)虛擬化是實現(xiàn)數(shù)據(jù)服務(wù)的關(guān)鍵技術(shù),但是它也并非一個新概念。早在2003年就有人提出用數(shù)據(jù)虛擬化將多源數(shù)據(jù)進行統(tǒng)一邏輯抽象、集成或封裝為數(shù)據(jù)服務(wù)發(fā)布[22-23],2009年引起一些研究者注意但并沒有得到更多關(guān)注[24-25]。近年來隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)虛擬化再次得到重視。一般性來說,虛擬化是指對物理資源的透明模擬仿真。它將物理資源和邏輯資源相分離,使用戶僅與邏輯的虛擬資源進行交互。因此物理上多個數(shù)據(jù)源可能存儲在各處,而數(shù)據(jù)虛擬化技術(shù)并不改變數(shù)據(jù)源的物理存儲位置,但是在邏輯上進行集中以便于數(shù)據(jù)管理和使用。數(shù)據(jù)虛擬化技術(shù)能夠隱藏數(shù)據(jù)存儲的相關(guān)技術(shù)細節(jié)及數(shù)據(jù)源位置等信息,為用戶提供統(tǒng)一的數(shù)據(jù)服務(wù)訪問層,實現(xiàn)數(shù)據(jù)即服務(wù)的目標。

      數(shù)據(jù)虛擬化不管是作為大數(shù)據(jù)時代DaaS的一項關(guān)鍵技術(shù)還是一種獨立的數(shù)據(jù)集成與管理方法,都是為數(shù)據(jù)消費者提供靈活的、多角度和全方位的公共數(shù)據(jù)訪問。隨著用戶業(yè)務(wù)需求、云應(yīng)用的擴展、大數(shù)據(jù)應(yīng)用場景及數(shù)據(jù)復(fù)雜性的增長,數(shù)據(jù)虛擬化將成為一種主流的數(shù)據(jù)集成管理及用戶交互技術(shù)。理論上講,數(shù)據(jù)虛擬化平臺追求的最終目標是不僅保證數(shù)據(jù)的有效共享,還提供數(shù)據(jù)分析和挖掘服務(wù),讓各種技術(shù)性細節(jié)都“不復(fù)存在”,使用戶可以專注于解決業(yè)務(wù)應(yīng)用問題。

      1數(shù)據(jù)虛擬化的概念

      1.1數(shù)據(jù)虛擬化的概念

      數(shù)據(jù)虛擬化是針對異構(gòu)、多源、多所有者的數(shù)據(jù)集,通過對數(shù)據(jù)資源的邏輯虛擬化,實現(xiàn)數(shù)據(jù)的集成管理并提供統(tǒng)一的訪問接口,以便為各種數(shù)據(jù)消費需求提供跨數(shù)據(jù)源整合的數(shù)據(jù)服務(wù)。數(shù)據(jù)消費者不用關(guān)心數(shù)據(jù)從哪些數(shù)據(jù)源來,如何進行集成,以及數(shù)據(jù)的存儲位置與方式、訪問接口等細節(jié),數(shù)據(jù)虛擬化將這些技術(shù)細節(jié)對用戶應(yīng)用隱藏,通過一個邏輯抽象層集成管理、整合各個數(shù)據(jù)源。數(shù)據(jù)的清洗、轉(zhuǎn)換與加載在邏輯抽象層完成,實現(xiàn)用戶以完全透明的方式訪問所有的數(shù)據(jù)源。同時,數(shù)據(jù)處理整合的周期變得更短更靈活,并且能夠確保數(shù)據(jù)的統(tǒng)一訪問、建模、部署、優(yōu)化和管理,邏輯上就像統(tǒng)一的一個數(shù)據(jù)資源,用戶只需通過統(tǒng)一的接口進行訪問即可[15,26-27]。

      如圖1所示,來自于企業(yè)、網(wǎng)絡(luò)、感知、社交等等對象產(chǎn)生或提供的數(shù)據(jù)源,如企業(yè)銷售數(shù)據(jù)、網(wǎng)站交易數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等,具有數(shù)據(jù)多樣化、異構(gòu)化、分布式、不同開放性等特點,數(shù)據(jù)虛擬化系統(tǒng)提供跨數(shù)據(jù)源、跨平臺的數(shù)據(jù)集成、管理與整合服務(wù),為各種應(yīng)用需求提供所需的數(shù)據(jù)服務(wù)。

      圖1 數(shù)據(jù)虛擬化概念圖Fig.1 Conceptual data virtualization

      1.2數(shù)據(jù)虛擬化的應(yīng)用

      通過數(shù)據(jù)虛擬化,對數(shù)據(jù)消費者而言,不需提取和存儲大量的異構(gòu)數(shù)據(jù)集,只需查詢請求已發(fā)布的數(shù)據(jù)服務(wù),然后通過對應(yīng)的APIs查詢獲取所需數(shù)據(jù)資源,從而大大簡化用戶對各個分散數(shù)據(jù)源信息的訪問。

      數(shù)據(jù)虛擬化在數(shù)據(jù)質(zhì)量、緩存、查詢處理等方面也有了較大的改善。通常在數(shù)據(jù)集成中引起數(shù)據(jù)質(zhì)量問題的根源是對源數(shù)據(jù)的多次復(fù)制轉(zhuǎn)移,而數(shù)據(jù)虛擬化恰恰從根本上解決了這個問題。數(shù)據(jù)虛擬化通過邏輯抽象層實現(xiàn)源數(shù)據(jù)的共享,而且不需關(guān)心數(shù)據(jù)源的位置,避免了數(shù)據(jù)多次復(fù)制、轉(zhuǎn)移、加載過程導(dǎo)致的數(shù)據(jù)不一致等問題,從而提高了數(shù)據(jù)質(zhì)量,降低數(shù)據(jù)出錯的風(fēng)險[28]。

      在數(shù)據(jù)集成方面,郭樹盛等[29]提出一種基于數(shù)據(jù)虛擬化的新型TEL方法,利用數(shù)據(jù)虛擬化創(chuàng)建虛擬表,在數(shù)據(jù)抽取和加載之前完成虛擬轉(zhuǎn)換任務(wù),避免應(yīng)用臨時數(shù)據(jù)存儲區(qū)來暫存抽取過來的多源數(shù)據(jù),減少數(shù)據(jù)緩存壓力。此外文中還針對傳統(tǒng)ETL(extract-transform-load)中存在的數(shù)據(jù)臨時存儲、查詢響應(yīng)慢問題,提出基于數(shù)據(jù)虛擬化的SeaBase架構(gòu)(SeaBase是一個關(guān)系云數(shù)據(jù)庫而非一組數(shù)據(jù)庫的聯(lián)邦)。由于SQL(structured query language)查詢中可能包含不同應(yīng)用的部分相同數(shù)據(jù),利用數(shù)據(jù)虛擬化在SeaBase中緩存元數(shù)據(jù)而非源數(shù)據(jù),一方面減少查詢的響應(yīng)時間,一方面也優(yōu)化了數(shù)據(jù)存儲。所以,數(shù)據(jù)虛擬化在數(shù)據(jù)集成方面帶來了很多優(yōu)勢,為數(shù)據(jù)集成提供了一個新的方向。

      數(shù)據(jù)虛擬化在未來將有廣泛的應(yīng)用。對于企業(yè)而言,通過數(shù)據(jù)虛擬化在數(shù)據(jù)倉庫、應(yīng)用程序、文本數(shù)據(jù)等數(shù)據(jù)源之上建立整合所有系統(tǒng)信息的數(shù)據(jù)層,可以減少數(shù)據(jù)的存儲和維護成本,避免企業(yè)內(nèi)部及外部數(shù)據(jù)孤島的存在。對于一些難以用數(shù)字解釋和認知的對象,如人類復(fù)雜多變的表情不能用單純的數(shù)據(jù)進行準確表達,將數(shù)據(jù)虛擬化應(yīng)用于反映認知對象信息的海量數(shù)據(jù)分析,有助于快速進行認知和決策。另外,通過數(shù)據(jù)虛擬化可以將多源數(shù)據(jù)進行整合,并以數(shù)據(jù)服務(wù)的方式發(fā)布到外部,這樣就會催生出大量新的數(shù)據(jù)服務(wù)和應(yīng)用。

      2數(shù)據(jù)虛擬化系統(tǒng)架構(gòu)

      從用戶應(yīng)用的角度出發(fā),我們認為數(shù)據(jù)虛擬化系統(tǒng)架構(gòu)應(yīng)該包含3層:應(yīng)用層、數(shù)據(jù)虛擬化層和源數(shù)據(jù)層。其中,數(shù)據(jù)虛擬化層包括數(shù)據(jù)虛擬化平面和管理平面,二者相互結(jié)合執(zhí)行全方位的查詢、處理、集成和管理功能。數(shù)據(jù)虛擬化系統(tǒng)架構(gòu)如圖2所示。

      2.1應(yīng)用層

      應(yīng)用層主要是面向前端各種各樣的數(shù)據(jù)查詢訪問應(yīng)用,將用戶的查詢請求傳遞到數(shù)據(jù)虛擬化層。系統(tǒng)為數(shù)據(jù)消費者的查詢請求提供多種訪問接口,用于訪問數(shù)據(jù)虛擬化系統(tǒng),如某些數(shù)據(jù)消費者可以用JDBC/SQL接口訪問,另一些數(shù)據(jù)消費者可以采用MDX(multi-dimensional expressions)接口或基于SOAP(simple object access protocol)接口訪問相同的數(shù)據(jù)服務(wù),對數(shù)據(jù)消費者而言可以根據(jù)自己確定的訪問方式發(fā)起查詢請求。

      圖2 數(shù)據(jù)虛擬化系統(tǒng)架構(gòu)圖Fig.2 Architecture of data virtualization system

      2.2數(shù)據(jù)虛擬化層

      數(shù)據(jù)虛擬化層是整個數(shù)據(jù)虛擬化系統(tǒng)的核心,包括2個平面:數(shù)據(jù)虛擬化平面和管理平面。其中,數(shù)據(jù)虛擬化平面包含4個層次的內(nèi)容,完成數(shù)據(jù)的抽象、元數(shù)據(jù)建模、數(shù)據(jù)源映射、查詢驅(qū)動與響應(yīng)等功能;管理平面進行系統(tǒng)配置、管理、監(jiān)測、安全、數(shù)據(jù)檢查與維護等工作。下面對數(shù)據(jù)虛擬化平面及管理平面分別進行介紹。

      2.2.1數(shù)據(jù)虛擬化平面

      1)查詢響應(yīng)層。該層針對用戶的查詢需求,主要任務(wù)是制定最佳的查詢處理策略和性能優(yōu)化措施。其中處理策略是數(shù)據(jù)虛擬化系統(tǒng)根據(jù)用戶查詢請求對目標數(shù)據(jù)的訪問方式給出執(zhí)行方案與流程;優(yōu)化器是系統(tǒng)確定數(shù)據(jù)訪問方式之后,對查詢過程作出優(yōu)化以提高查詢效率。

      2)數(shù)據(jù)服務(wù)層。數(shù)據(jù)虛擬化系統(tǒng)面向用戶會創(chuàng)建各種數(shù)據(jù)服務(wù)。數(shù)據(jù)服務(wù)的最常用對象是數(shù)據(jù)視圖或虛擬表。整體上看,數(shù)據(jù)虛擬化系統(tǒng)中會定義2種類型的表:即虛擬表和數(shù)據(jù)封裝表。由于不同的數(shù)據(jù)源所有者會開放全部或部分的數(shù)據(jù)給虛擬化系統(tǒng),這些開放數(shù)據(jù)可能是原始數(shù)據(jù),更多的是加工后的數(shù)據(jù)。封裝表對應(yīng)于不同的數(shù)據(jù)源,實現(xiàn)對開放源數(shù)據(jù)的接口封裝,并作為這些數(shù)據(jù)源的代理供虛擬化系統(tǒng)調(diào)用。

      在數(shù)據(jù)服務(wù)層進行數(shù)據(jù)視圖/虛擬表的定義、認證和授權(quán);數(shù)據(jù)服務(wù)的封裝、發(fā)布與組合。視圖/虛擬表的定義是建立在封裝表或其他虛擬表之上,虛擬表之間可以進行組合與嵌套,虛擬表在定義之后可以作為一種數(shù)據(jù)服務(wù)發(fā)布出去。數(shù)據(jù)服務(wù)更多關(guān)注數(shù)據(jù)資源的獲取與集成方式,而虛擬表的定義關(guān)注的是數(shù)據(jù)本身,因此數(shù)據(jù)虛擬化系統(tǒng)可以以虛擬表的方式呈現(xiàn)數(shù)據(jù)服務(wù)所需的底層數(shù)據(jù)。

      3)元數(shù)據(jù)組織層。數(shù)據(jù)虛擬化系統(tǒng)不會存儲數(shù)據(jù)源的物理數(shù)據(jù),但是針對不同的數(shù)據(jù)源開放數(shù)據(jù),需要對開放數(shù)據(jù)源的元數(shù)據(jù)進行組織存儲與管理,并面向數(shù)據(jù)服務(wù)層作為其定義數(shù)據(jù)視圖或虛擬表的基礎(chǔ)。針對用戶的查詢請求,高性能的元數(shù)據(jù)組織、存儲與快速查找是保證用戶獲取所需數(shù)據(jù)資源的關(guān)鍵。該層主要包括2個方面的內(nèi)容:元數(shù)據(jù)的抽取、存儲與元數(shù)據(jù)組織模型。

      4)數(shù)據(jù)映射層。數(shù)據(jù)映射層實現(xiàn)虛擬表到數(shù)據(jù)源的映射,從而保證數(shù)據(jù)虛擬化平臺向數(shù)據(jù)消費者交付正確的數(shù)據(jù)。在此應(yīng)該理清虛擬表、映射與封裝表三者之間的關(guān)系。虛擬表是建立在封裝表基礎(chǔ)之上,而封裝表是以數(shù)據(jù)源為基礎(chǔ)的。封裝表與數(shù)據(jù)源之間是多對一的關(guān)系,根據(jù)一個數(shù)據(jù)源可以定義一個或多個封裝表。定義虛擬表的過程也是定義映射的過程,在封裝表基礎(chǔ)上定義虛擬表。映射對于虛擬表而言相當(dāng)于查詢定義,包含虛擬表的結(jié)構(gòu)(行、列選擇;列轉(zhuǎn)換;表名稱改變;分組等)、數(shù)據(jù)如何被轉(zhuǎn)換為虛擬表的內(nèi)容等。如果沒有映射,虛擬表就是一個沒有內(nèi)容的空表。因此,要保證正確的映射,必須正確分析封裝表中數(shù)據(jù)間關(guān)系,保證從數(shù)據(jù)源到封裝表再到虛擬表的定義是準確的。數(shù)據(jù)虛擬化系統(tǒng)中也允許少量虛擬表在起初不定義映射,它們是從數(shù)據(jù)消費者角度來定義的(自頂向下),因此定義時只關(guān)心數(shù)據(jù)消費需求而不考慮數(shù)據(jù)源表中數(shù)據(jù)類型、列間關(guān)系等,但是在后期必需執(zhí)行映射的再定義。

      總結(jié)來說,當(dāng)用戶發(fā)起一個查詢請求,查詢引擎確定查詢策略并進行查詢結(jié)果計算、優(yōu)化及結(jié)果響應(yīng)。若數(shù)據(jù)服務(wù)層沒有預(yù)先定義該查詢對應(yīng)的虛擬表,則元數(shù)據(jù)組織層需根據(jù)系統(tǒng)存儲的元數(shù)據(jù)信息對查詢所需的相關(guān)元數(shù)據(jù)進行組織,生成對應(yīng)的臨時虛擬表。數(shù)據(jù)映射層實施相應(yīng)虛擬表與封裝表的映射,進而訪問底層數(shù)據(jù)源。

      2.2.2管理平面

      管理平面的目標是通過配置、監(jiān)測、管理控制等手段支撐整個虛擬化系統(tǒng)的安全、可靠、高效運行。通過對數(shù)據(jù)虛擬化系統(tǒng)的配置,完成生產(chǎn)、備份、故障切換等任務(wù)。數(shù)據(jù)虛擬化平臺中的整合管理工具支持軟件供應(yīng),對源數(shù)據(jù)訪問的授權(quán),與LDAP(lightweight directory access protocol)的整合以及其他安全工具等。系統(tǒng)管理工具管理服務(wù)器會話、數(shù)據(jù)服務(wù)、元數(shù)據(jù)等。

      針對數(shù)據(jù)虛擬化平面的4個層次,管理平面也要完成對應(yīng)的管理功能。對于數(shù)據(jù)映射層而言,要實現(xiàn)每個應(yīng)用所需數(shù)據(jù)的映射,管理層必須實現(xiàn)對封裝表、源數(shù)據(jù)、源數(shù)據(jù)間關(guān)系的管理;在元數(shù)據(jù)組織層,管理環(huán)境要實施對元數(shù)據(jù)的清洗、一致性檢測等任務(wù),保證元數(shù)據(jù)緩存的高效性;在數(shù)據(jù)服務(wù)層,管理環(huán)境要完成對虛擬表或數(shù)據(jù)服務(wù)組合、更新過程的維護等,部署管理器完成對數(shù)據(jù)服務(wù)的擴展部署,確保其持續(xù)可用;針對查詢響應(yīng)層,控制器、監(jiān)測器、管理器等共同作用保證整個查詢過程的正確實施。

      2.3源數(shù)據(jù)層

      源數(shù)據(jù)層針對各個數(shù)據(jù)所有者提供的多源異構(gòu)數(shù)據(jù)源進行統(tǒng)一的接口管理,實現(xiàn)數(shù)據(jù)虛擬化系統(tǒng)中各種不同數(shù)據(jù)源的訪問細節(jié)對用戶進行屏蔽。通過ODBC/JDBC,JSON,API等接口,實現(xiàn)源數(shù)據(jù)的獲取和傳輸,最終完成用戶所需數(shù)據(jù)資源的交付。

      特別注意:源數(shù)據(jù)層只是對各種物理數(shù)據(jù)源的訪問接口管理,并不需要了解具體的物理源數(shù)據(jù)的組織、存儲及管理方式;物理數(shù)據(jù)源由所有者管理,并根據(jù)自身策略來開放全部或部分源數(shù)據(jù)的視圖給數(shù)據(jù)虛擬化系統(tǒng)。

      3數(shù)據(jù)虛擬化的研究問題

      一個完整的數(shù)據(jù)虛擬化系統(tǒng)應(yīng)具備創(chuàng)建視圖/虛擬表、提供數(shù)據(jù)服務(wù)、優(yōu)化聯(lián)合查詢、數(shù)據(jù)緩存、以及細粒度的安全性等能力,使用戶在不同數(shù)據(jù)源中發(fā)現(xiàn)數(shù)據(jù)、檢索與訪問數(shù)據(jù)。雖然數(shù)據(jù)虛擬化會在很大程度上能夠提高數(shù)據(jù)集成的靈活性和敏捷性,如用戶通過單一接入點訪問不同數(shù)據(jù)源的數(shù)據(jù)、數(shù)據(jù)服務(wù)面向所有的數(shù)據(jù)消費者、避免數(shù)據(jù)物理轉(zhuǎn)移、提高數(shù)據(jù)使用率等,但是仍然存在一些問題與挑戰(zhàn)需要研究解決。

      3.1異構(gòu)數(shù)據(jù)源的集成

      不同數(shù)據(jù)源的數(shù)據(jù)可能采用不同結(jié)構(gòu)的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化與混合結(jié)構(gòu)數(shù)據(jù)。如有的數(shù)據(jù)集采用關(guān)系數(shù)據(jù)模式,有的采用HTML/XML文件,有的采用日志格式文件等。這些異構(gòu)的數(shù)據(jù)源是數(shù)據(jù)統(tǒng)一集成中必然存在的巨大挑戰(zhàn)。一些研究者從不同角度出發(fā)進行研究,例如,改進和擴展查詢語言,將查詢請求劃分為多個子查詢,基于語義相似性對元數(shù)據(jù)融合等[30-31]。數(shù)據(jù)虛擬化面向的是多種不同應(yīng)用,若對每類應(yīng)用的查詢,分別優(yōu)化其查詢語言則會影響整個數(shù)據(jù)虛擬化平臺的效率,因此數(shù)據(jù)虛擬化平臺提供多種訪問接口對來自不同數(shù)據(jù)源的數(shù)據(jù)進行統(tǒng)一存取或訪問。例如,對于關(guān)系數(shù)據(jù)庫SQL Server,Oracle,Access,Excel等利用ODBC接口通過SQL語言訪問;對于web應(yīng)用程序則可以用REST或JSON接口等,以便屏蔽數(shù)據(jù)源數(shù)據(jù)模型的異構(gòu)性,提供對數(shù)據(jù)的統(tǒng)一訪問。解決數(shù)據(jù)源的異構(gòu)性是保證數(shù)據(jù)服務(wù)的基礎(chǔ),但是由于數(shù)據(jù)源的多樣性及復(fù)雜性,可能需要開發(fā)和改善更多種訪問接口,所以對于數(shù)據(jù)源的異構(gòu)性問題不容小覷。

      3.2異質(zhì)數(shù)據(jù)的集成

      對于數(shù)據(jù)異質(zhì)性問題,Sujansky[32]從結(jié)構(gòu)差異、命名差異、語義差異和內(nèi)容差異4個方面分析了多源數(shù)據(jù)的異質(zhì)性,如數(shù)據(jù)格式中存在多種日期與時間戳的格式,相同的數(shù)據(jù)在不同的數(shù)據(jù)源中有不同的定義等,因此數(shù)據(jù)異質(zhì)性處理不當(dāng)會導(dǎo)致集成數(shù)據(jù)的質(zhì)量急劇下降。一些解決方案通過將數(shù)據(jù)虛擬化、抽象化,用一種統(tǒng)一的描述語言(如XML)或代碼生成技術(shù)對所需數(shù)據(jù)進行處理或創(chuàng)建虛擬表、自動生成數(shù)據(jù)服務(wù)[33-34],對用戶而言屏蔽掉了底層數(shù)據(jù)的存儲格式、語義等方面的差異,一定程度上解決了這一問題,但是仍沒有通用的數(shù)據(jù)模型。

      由于XML語言易于操作、理解、跨平臺可移植性等特點,很多數(shù)據(jù)虛擬化平臺采用XML語言對數(shù)據(jù)進行統(tǒng)一描述,如文獻[35]從數(shù)據(jù)描述方式的通用性出發(fā),提出一種基于XML語言的DIMs(data information model)數(shù)據(jù)信息模型,并滿足數(shù)據(jù)模型的可移植性。

      解決數(shù)據(jù)異質(zhì)性是進行元數(shù)據(jù)組織,創(chuàng)建可重用視圖/虛擬表的前提。值得注意的是,由于底層數(shù)據(jù)模型的差異,在轉(zhuǎn)化為統(tǒng)一數(shù)據(jù)格式時,如何保證數(shù)據(jù)的正確、完整、一致性,從而確保數(shù)據(jù)映射的準確性,這是急需解決的一個關(guān)鍵問題。

      3.3數(shù)據(jù)映射

      在圖2所示的數(shù)據(jù)映射層,數(shù)據(jù)映射對查詢到準確的源數(shù)據(jù)十分重要?;谝粋€數(shù)據(jù)源可以定義多個封裝表,基于一個封裝表也可以定義多個虛擬表。由于底層數(shù)據(jù)源的復(fù)雜多樣性,分散的數(shù)據(jù)源間不可避免地會出現(xiàn)數(shù)據(jù)重復(fù),建立的封裝表間也會出現(xiàn)數(shù)據(jù)重疊現(xiàn)象。對查詢而言,同一虛擬表可能會產(chǎn)生多個映射,進而引發(fā)底層數(shù)據(jù)源中相同數(shù)據(jù)的重復(fù)查詢,導(dǎo)致查詢的整體效率下降[36-38]。這個問題涉及到封裝表與映射策略,在定義封裝表及映射過程中,要考慮到源端數(shù)據(jù)中的重復(fù)數(shù)據(jù)現(xiàn)象,對于基于不同數(shù)據(jù)源創(chuàng)建的有重疊數(shù)據(jù)的封裝表是進行舍棄還是有效地合并?此外對于自頂而下定義的虛擬表,如何根據(jù)查詢需求來正確定義映射?在保證數(shù)據(jù)消費者查詢到所需數(shù)據(jù)的同時又避免重復(fù)數(shù)據(jù)查詢,這是實現(xiàn)數(shù)據(jù)高效及準確映射時面臨的挑戰(zhàn)。

      3.4元數(shù)據(jù)組織模型

      類似于數(shù)據(jù)庫管理系統(tǒng),元數(shù)據(jù)也是虛擬化系統(tǒng)運行的核心。在元數(shù)據(jù)組織模型方面,目前的數(shù)據(jù)組織模型中,有些只關(guān)注某種特定應(yīng)用或服務(wù)本身,沒有考慮數(shù)據(jù)源間的數(shù)據(jù)關(guān)系,導(dǎo)致用戶在查詢時不得不對數(shù)據(jù)描述及組織方式進行分析,再通過編程查找底層數(shù)據(jù)源,這對于希望簡單快速地獲取所需數(shù)據(jù)資源的用戶而言過于復(fù)雜[39-41]。如文獻[39]在數(shù)據(jù)即服務(wù)思想基礎(chǔ)上,針對傳統(tǒng)HTML數(shù)據(jù)模型在用戶查詢方面的不足,提出一種概念信息模型DEMODS(description model for DaaS ),該模型隱藏了服務(wù)自動查詢方式,將各數(shù)據(jù)源的數(shù)據(jù)交予數(shù)據(jù)組合和分析工具,對用戶而言不用關(guān)心中間查詢的操作。文獻[40]針對鐵路分布式系統(tǒng)的信息轉(zhuǎn)換、數(shù)據(jù)共享中存在的數(shù)據(jù)模型的異質(zhì)性,提出一種基于XML的三維元數(shù)據(jù)組織模型,描述了不同系統(tǒng)中數(shù)據(jù)間關(guān)系,并實現(xiàn)不同數(shù)據(jù)模型與該元數(shù)據(jù)組織模型間的映射。

      針對一個數(shù)據(jù)虛擬化系統(tǒng),合適的元數(shù)據(jù)組織模型是關(guān)鍵。根據(jù)用戶查詢需求及源數(shù)據(jù)間關(guān)系,對元數(shù)據(jù)進行分析、重新歸類,建立結(jié)構(gòu)性與關(guān)聯(lián)性良好的、通用的元數(shù)據(jù)組織模型,特別是在數(shù)據(jù)服務(wù)層沒有預(yù)先定義虛擬表或數(shù)據(jù)服務(wù)的情況下,元數(shù)據(jù)組織模型對于及時快捷的數(shù)據(jù)交付十分重要。目前虛擬化系統(tǒng)中的元數(shù)據(jù)組織模型還沒有統(tǒng)一的標準,由于應(yīng)用需求的靈活多樣性,研究合適的元數(shù)據(jù)組織模型非常關(guān)鍵。

      3.5數(shù)據(jù)服務(wù)

      大數(shù)據(jù)技術(shù)的創(chuàng)新及DaaS模式的發(fā)展不僅促進了數(shù)據(jù)服務(wù)的潮流還推動了組合數(shù)據(jù)服務(wù)的研究,即多個基本數(shù)據(jù)服務(wù)通過關(guān)聯(lián)可以組合成滿足業(yè)務(wù)需求的復(fù)合數(shù)據(jù)服務(wù)。文獻[42-44]針對DaaS組合服務(wù)中存在的數(shù)據(jù)結(jié)構(gòu)的不兼容、數(shù)據(jù)隱私問題進行了研究,并提出了相應(yīng)的解決方法。數(shù)據(jù)虛擬化系統(tǒng)同樣支持數(shù)據(jù)服務(wù)間的組合,在組合過程中,由于不同數(shù)據(jù)服務(wù)中數(shù)據(jù)屬性、數(shù)據(jù)隱私程度、數(shù)據(jù)結(jié)構(gòu)等的不同,也存在數(shù)據(jù)結(jié)構(gòu)的不兼容、數(shù)據(jù)質(zhì)量下降、數(shù)據(jù)訪問權(quán)限差異等問題,目前數(shù)據(jù)虛擬化方案對這方面的研究較少,大都是用戶在利用相應(yīng)的分析組合工具進行處理,這增加了用戶的負擔(dān)。

      由于數(shù)據(jù)虛擬化系統(tǒng)創(chuàng)建的主要對象是數(shù)據(jù)服務(wù),未來的研究中可以將數(shù)據(jù)虛擬化系統(tǒng)與DaaS模式融合,將數(shù)據(jù)虛擬化系統(tǒng)創(chuàng)建的數(shù)據(jù)服務(wù)作為基本服務(wù),通過DaaS將基本數(shù)據(jù)服務(wù)模式進行合并、刪除、排序、數(shù)據(jù)結(jié)構(gòu)調(diào)整等,組合成新的數(shù)據(jù)服務(wù),在減少用戶操作的同時保證組合數(shù)據(jù)服務(wù)的質(zhì)量。

      另外,對于非關(guān)系數(shù)據(jù)庫,非結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容而言,如何創(chuàng)建數(shù)據(jù)服務(wù),能否以虛擬表的形式呈現(xiàn)各種底層數(shù)據(jù)源的查詢,這也是創(chuàng)建數(shù)據(jù)服務(wù)中的一個重要問題。為了保證數(shù)據(jù)服務(wù)的持續(xù)可用,數(shù)據(jù)虛擬化系統(tǒng)需要對虛擬表進行更新,涉及到虛擬表如何根據(jù)底層數(shù)據(jù)源的變化進行自動即時更新。針對數(shù)據(jù)服務(wù)生成的虛擬表,如何保證更新的一致性及效率問題都是需要研究的重要問題[45-46]。

      3.6查詢優(yōu)化

      查詢優(yōu)化的目標是提高用戶獲取所需數(shù)據(jù)資源的效率,也是數(shù)據(jù)虛擬化系統(tǒng)中的關(guān)鍵問題。一些研究利用中間件思想,將查詢優(yōu)化建立在數(shù)據(jù)模型基礎(chǔ)上。通過對數(shù)據(jù)的分析挖掘提取出能夠表示數(shù)據(jù)屬性、數(shù)據(jù)間關(guān)系的最少元數(shù)據(jù),通過訪問元數(shù)據(jù)縮小數(shù)據(jù)的查詢范圍從而減少查詢響應(yīng)時間,優(yōu)化查詢[47],這也從另一個角度說明了元數(shù)據(jù)的質(zhì)量及組織模型的重要性。也有一些研究通過優(yōu)化查詢系統(tǒng)的性能,提高查詢效率,如文獻[48]通過在存儲系統(tǒng)中加入一組豐富的硬件加速引擎來提高對存儲數(shù)據(jù)的并行處理能力。一些企業(yè)如Cisco,Composite利用基于規(guī)則或成本的優(yōu)化器對每個查詢請求制定最佳查詢方案,并利用掃描多路技術(shù)、約束傳播技術(shù)、并行處理技術(shù)等優(yōu)化網(wǎng)絡(luò)資源和數(shù)據(jù)庫,從而保證目標數(shù)據(jù)及時快捷地交付[49]。

      目前數(shù)據(jù)虛擬化系統(tǒng)常用的一些查詢優(yōu)化技術(shù)有Query substitution, SQL pushdown,Parallel processing,Distributed joins,Ship joins,SQL override等。這些技術(shù)針對不同的應(yīng)用場景,在某些方面也存在一定的限制,如Query substitution主要應(yīng)用于嵌套虛擬表的查詢;SQL pushdown不能用于底層數(shù)據(jù)源為序列文件或XML Web服務(wù);Ship joins一般用于合并2個不同的數(shù)據(jù)源[50-52]。

      由于應(yīng)用的多樣性,沒有一種查詢策略能夠適用于所有的應(yīng)用場景。此外在提高查詢效率方面,除了應(yīng)用這些優(yōu)化技術(shù),對于一些特定的查詢應(yīng)用,有時需要將查詢請求轉(zhuǎn)化為另一種查詢語言。

      從另外一個角度來看,應(yīng)用緩存技術(shù)對于提高系統(tǒng)查詢性能有極大的裨益。數(shù)據(jù)虛擬化系統(tǒng)通過提供靈活可擴展的緩存機制,針對底層數(shù)據(jù)源進行相關(guān)數(shù)據(jù)的緩存,對于查詢而言,可以從緩存中查找數(shù)據(jù),加速查詢并減小底層數(shù)據(jù)源的查詢負載。此外,為了保證緩存數(shù)據(jù)的一致性和新鮮度,還必須根據(jù)底層數(shù)據(jù)的變化即時更新緩存,這會涉及到數(shù)據(jù)一致性、更新效率問題。

      3.7系統(tǒng)擴展性

      數(shù)據(jù)虛擬化系統(tǒng)作為一種平臺,新的數(shù)據(jù)源、應(yīng)用請求、數(shù)據(jù)結(jié)構(gòu)等會持續(xù)加入,系統(tǒng)必須具備良好的擴展性。

      新的數(shù)據(jù)所有者會開放數(shù)據(jù)源并注冊到系統(tǒng)平臺,原有的開放數(shù)據(jù)源也會全部或部分注銷,這樣會引起系統(tǒng)內(nèi)的元數(shù)據(jù)組織、虛擬表定義、數(shù)據(jù)映射、數(shù)據(jù)緩存等等面臨重構(gòu)問題,系統(tǒng)必須具備在線添加、修改、更新能力,如何提高系統(tǒng)的擴展性與伸縮性是一個重要問題。

      由于用戶的應(yīng)用查詢需求是無法預(yù)測的,要保證數(shù)據(jù)查詢的性能,尤其是在處理一些大容量數(shù)據(jù)時,必須考慮到系統(tǒng)規(guī)模擴展后帶來的性能挑戰(zhàn)。在設(shè)計與開發(fā)數(shù)據(jù)虛擬化系統(tǒng)的早期階段,就需注意考慮數(shù)據(jù)查詢處理過程的性能與相關(guān)解決方案的可擴展性,以提高數(shù)據(jù)虛擬化系統(tǒng)的擴展性及查詢性能。

      另外,在數(shù)據(jù)源不斷地更新與數(shù)據(jù)消費者訪問規(guī)模增長的情況下,如何確保數(shù)據(jù)源、封裝表與虛擬表的同步性、數(shù)據(jù)一致性,并保證所有數(shù)據(jù)消費者的QoE體驗,這也是數(shù)據(jù)虛擬化系統(tǒng)需要考慮的重要課題。

      3.8數(shù)據(jù)安全

      數(shù)據(jù)安全包括數(shù)據(jù)的認證、授權(quán)和加密,認證和授權(quán)主要是針對用戶而言的,而加密則是從數(shù)據(jù)本身考慮的,數(shù)據(jù)只有在安全的基礎(chǔ)上實現(xiàn)有效的共享才會產(chǎn)生更大的價值[53-55]。數(shù)據(jù)虛擬化系統(tǒng)針對不同應(yīng)用的相同數(shù)據(jù)服務(wù)實行不同的認證和授權(quán)機制,這一特性對數(shù)據(jù)安全又有新的要求,如查詢與數(shù)據(jù)源間的安全通信、跨平臺/跨系統(tǒng)訪問的數(shù)據(jù)安全等。

      當(dāng)用戶進行數(shù)據(jù)請求訪問時,數(shù)據(jù)虛擬化系統(tǒng)會對用戶憑證(如用戶ID、密碼等)進行檢測。不同的用戶即便是對相同的數(shù)據(jù)元素的訪問權(quán)限也是不同的,如對于一個虛擬表,有些用戶可能只具有該表部分內(nèi)容的訪問權(quán)限。需特別注意的是數(shù)據(jù)虛擬化系統(tǒng)只執(zhí)行數(shù)據(jù)消費者權(quán)限的檢測,確定用戶對數(shù)據(jù)的訪問權(quán)利,而源數(shù)據(jù)訪問的授權(quán)工作則是由底層數(shù)據(jù)源的所有者決定的,二者的訪問權(quán)限必須區(qū)分開。有些底層數(shù)據(jù)源有自己的安全訪問機制,對數(shù)據(jù)消費者而言,要實施對源數(shù)據(jù)的訪問需要具備虛擬表與底層數(shù)據(jù)源的兩層訪問權(quán)限;也有一些底層數(shù)據(jù)存儲沒有定義安全機制,對上層數(shù)據(jù)訪問是完全公開的,用戶只執(zhí)行虛擬表的訪問權(quán)限。因此,用戶憑證的安全保存機制、合適的授權(quán)機制、安全認證性能等都是需要考慮的問題。

      針對數(shù)據(jù)服務(wù)訪問權(quán)限的定義也在一定程度上限制了用戶查詢數(shù)據(jù)的范圍,因此在定義數(shù)據(jù)服務(wù)時也需要考慮相應(yīng)的安全機制。但是從另外一方面來說,過于復(fù)雜的安全機制也會影響虛擬化系統(tǒng)在查詢、處理數(shù)據(jù)時的性能。因此在設(shè)計數(shù)據(jù)服務(wù)時如何進行安全與性能的折衷將是一個挑戰(zhàn)。

      3.9系統(tǒng)管理

      從圖2中可以看出,數(shù)據(jù)虛擬化系統(tǒng)實質(zhì)上也是一個數(shù)據(jù)共享的平臺,它以一種更簡單敏捷的架構(gòu)提供數(shù)據(jù)服務(wù),也必需提供對整個數(shù)據(jù)虛擬化環(huán)境的良好管理,解決由誰負責(zé)共享的基礎(chǔ)架構(gòu),誰負責(zé)共享的數(shù)據(jù)服務(wù)等問題[24]。數(shù)據(jù)虛擬化管理平面需要多種系統(tǒng)管理工具,對系統(tǒng)運行過程實施管理、監(jiān)控,如監(jiān)測查詢的數(shù)量、查詢性能、系統(tǒng)的可用性、緩存的使用、緩存更新的速率等,這些都是需要考慮的問題。

      4結(jié)束語

      數(shù)據(jù)虛擬化的實質(zhì)是數(shù)據(jù)聯(lián)合及集成。對數(shù)據(jù)消費者而言,數(shù)據(jù)虛擬化平臺將數(shù)據(jù)整合與集成,為各種用戶提供所需的數(shù)據(jù)服務(wù)。對于數(shù)據(jù)提供者而言,數(shù)據(jù)源和存儲位置是對用戶隔離的,數(shù)據(jù)提供者對數(shù)據(jù)進行完整或部分開放以供用戶共享。數(shù)據(jù)虛擬化需要屏蔽掉各數(shù)據(jù)源的異構(gòu)特性,用戶不用關(guān)心數(shù)據(jù)源位置也不用自己去進行數(shù)據(jù)轉(zhuǎn)換和集成,通過數(shù)據(jù)虛擬化平臺只需用統(tǒng)一的訪問規(guī)范和接口,即可獲取所需各數(shù)據(jù)源的數(shù)據(jù)。此外,利用虛擬化系統(tǒng)的整合功能,將數(shù)據(jù)資源進行加工處理,最后以各種數(shù)據(jù)服務(wù)的方式呈現(xiàn)出來,這也是數(shù)據(jù)虛擬化的魅力所在。

      數(shù)據(jù)虛擬化平臺可以與SOA(service-oriented architecture)架構(gòu)結(jié)合,通過創(chuàng)建、發(fā)布數(shù)據(jù)服務(wù)和組合服務(wù)提高應(yīng)用開發(fā)效率并簡化服務(wù)維護。這樣,則數(shù)據(jù)虛擬化系統(tǒng)將成為一個數(shù)據(jù)交換平臺,各類應(yīng)用所需的源數(shù)據(jù)在平臺中進行按需整合、集成,或者通過發(fā)布數(shù)據(jù)服務(wù)或視圖到外部世界進而催生出新的應(yīng)用,使大數(shù)據(jù)的價值發(fā)揮到最大。

      隨著大數(shù)據(jù)應(yīng)用范圍的不斷拓展,混合云中的大數(shù)據(jù)存在巨大的數(shù)據(jù)異構(gòu)及異質(zhì)性挑戰(zhàn)也將推動數(shù)據(jù)虛擬化這個領(lǐng)域方向的發(fā)展。當(dāng)然,未來數(shù)據(jù)虛擬化之路能夠走多遠,將取決于用戶業(yè)務(wù)需求和大數(shù)據(jù)環(huán)境的復(fù)雜性。此外,還取決于用戶對風(fēng)險、復(fù)雜性和開放、安全的承受程度。

      當(dāng)然,數(shù)據(jù)虛擬化也并不適合或解決所有的數(shù)據(jù)集成問題,例如對于數(shù)據(jù)倉庫或數(shù)據(jù)集市等某些特定應(yīng)用案例,通過 ETL 或 ELT 有時可以提供更好的解決方案。某些情況下,混合的解決方案更加有效,所以要根據(jù)具體的數(shù)據(jù)資源、業(yè)務(wù)或數(shù)據(jù)消費者的特點正確進行數(shù)據(jù)虛擬化,不能過多的虛擬化也不能虛擬化不夠。

      參考文獻:

      [1]BATINI Carlo, SCANNAPIECO Monica. Data Quality Issues in Data Integration Systems[M]∥Data and Information Quality. Switzerland: Springer International Publishing, 2016:279-307.

      [2]ZHANG X, XIANG S. Data Quality, Analytics, and Privacy in Big Data[M]∥Big Data in Complex Systems. Switzerland: Springer International Publishing, 2015:393-418.

      [3]KETTOUCH M S, LUCA C, HOBBS M, et al. Data integration approach for semi-structured and structured data (Linked Data)[C]∥2015 IEEE 13th International Conference on Industrial Informatics (INDIN). Cambridge :IEEE,2015:820-825.

      [4]CHEN M, MAO S, LIU Y. Big Data: A Survey[J]. Mobile Networks & Applications, 2014, 19(2):171-209.

      [5]KHAN N, YAQOOB I, HASHEM I A, et al. Big data: survey, technologies, opportunities, and challenges[J]. The scientific world journal, 2014(2014):1-18.

      [6]DEV D, PATGIRI R. A Survey of Different Technologies and Recent Challenges of Big Data[C]∥International Conference on Advanced Computing, NETWORKING and Informatics. India:Springer,2015:537-548.

      [7]GONG Y, YING Z, LIN M. A Survey of Cloud Computing[C]∥Proceedings of the 2nd International Conference on Green Communications and Networks 2012 (GCN 2012). Berlin Heidelberg: Springer, 2013(3):79-84.

      [8]BAHRAMI M, SINGHAL M. The Role of Cloud Computing Architecture in Big Data[M]∥Information Granularity, Big Data, and Computational Intelligence. Switzerland: Springer International Publishing, 2015:275-295.

      [9]SANGEETHA K S, PRAKASH P. Big Data and Cloud: A Survey[M]∥Artificial Intelligence and Evolutionary Algorithms in Engineering Systems. India: Springer, 2015:773-778.

      [10] MANJAIAH D H, SANTHOSH B, PINTO J L J. BigData: Processing of Data Intensive Applications on Cloud[C]∥Computational Intelligence for Big Data Analysis. Switzerland: Springer International Publishing, 2015:201-217.

      [11] Sá J O E, MARTINS C, SIMES P. Big Data in Cloud: A Data Architecture[M]∥New Contributions in Information Systems and Technologies. Switzerland: Springer International Publishing, 2015:723-732.

      [12] MANOHAR N. A Survey of Virtualization Techniques in Cloud Computing[C]∥Proceedings of International Conference on VLSI, Communication, Advanced Devices, Signals & Systems and Networking (VCASAN-2013). India: Springer, 2013:461-470.

      [13] SI S M W, AYE H M, AUNG T N. A Study on the Effects of Virtualization on Mobile Learning Applications in Private Cloud[M]∥ Genetic and Evolutionary Computing. Switzerland: Springer International Publishing, 2016:167-175.

      [14] TOFIGH T, ADIBI S, MOBASHER A, et al. Novel approach to big data collaboration with network operators network function virtualisation (NFV)[J]. International Journal of Parallel Emergent & Distributed Systems, 2014, 30(1):65-78.

      [15] YASKIN S. Thoughts on Big data and Data Virtualization [EB/OL]. (2012-12-22) [2016-05-24]. http:∥cloudcomputing, sys-con.com/node/1803581.

      [16] XIAO L, JIANG W, CHEN F X, et al. A Surveyof Cloud Computing Data Virtualization Service[M]∥Applied Mechanics and Materials.[s.l.]:Trans Tech Publications Inc, 2014(441): 1016-1019.

      [17] HE P, WANG P, GAO J, et al. City-Wide Smart Healthcare Appointment Systems Based on Cloud Data Virtualization PaaS[J]. International Journal of Multimedia & Ubiquitous Engineering, 2015, 10(2):371-382.

      [18] YU J, BAUMANN P, CROMPTON S, et al. Facilitate earth science data interoperability using the SCIDIP-ES data virtualization toolkit[J]. Earth Science Informatics, 2015, 8(3): 711-719.

      [19] XU X, YANG J, TANG Z. Data Virtualization for Coupling Command and Control (C2) and Combat Simulation Systems[M]∥ Advances in Image and Graphics Technologies. Berlin Heidelberg: Springer, 2015:190-197.

      [20] DELEN D, DEMIRKAN H. Data, information and analytics as services[J]. Decision Support Systems, 2013, 55(1):359-363.

      [21] SARKAR P. Data as a Service : A Framework for Providing Reusable Enterprise Data Services[M]. [s.l.]:Wiley-IEEE Computer Society Press, 2015.

      [22] WENG L, AGRAWAL G, CATALYUREK U, et al. Anapproach for automatic data virtualization[C]∥High performance Distributed Computing, 2004. Proceedings. 13th IEEE International Symposium on. [s.l.]: IEEE, 2004: 24-33.

      [23] DINIZ B, NOGUEIRA D L, CARDOSO A, et al. Assessing Data Virtualization for Irregularly Replicated Large Datasets[C]∥Cluster Computing and the Grid, 2006. CCGRID 06. Sixth IEEE International Symposium on. [s.l.]:IEEE, 2006, 1: 505-512.

      [24] Van der LANS R. Data Virtualization for business intelligence systems: revolutionizing data integration for data warehouses[M]. UK: Elsevier, 2012.

      [25] HOPKINS B,CULLEN A,GILPIN M,et al.Data virtualization reaches the critical mass[EB/OL].(2011-06-15) [2016-05-23].https:∥www.forrester.com/report/Data+Virtualization+Reaches+Critical+Mass/-/E-RES59322.[26] DAVIS J R, EVE R. Data Virtualization: Going Beyond Traditional Data Integration to Achieve Business Agility[M]. [s.l.]: Nine Five One Press, 2011.

      [27] PULLOKKARAN L J. Analysis of data virtualization & enterprise data standardization in business intelligence[D].USA:Massachusetts Institute of Technology,2013.

      [28] LOSHIN, D. Effecting data quality improvement through data virtualization[EB/OL]. (2014-06-16)[2016-05-23].http:∥dataqualitybook.com/kii-content/DataQualityDataVirtualization.pdf.

      [29] GUO S S, YUAN Z M, SUN A B, et al. A New ETL Approach Based on Data Virtualization[J]. Journal of Computer Science & Technology, 2015, 30(2):311-323.

      [30] MUHAMMAD Intizar Ali, REINHARD Pichler, HONGLINH Truong, et al. DeXIN: An Extensible Framework for Distributed XQuery over Heterogeneous Data Sources[J]. Lecture Notes in Business Information Processing, 2009(24):172-183.

      [31] MOURA A M D C, PORTO F, VIDAL V, et al. A semantic integration approach to publish and retrieve ecological data[J]. International Journal of Web Information Systems, 2015, 11(1):87-119.

      [32] SUJANSKY W. Heterogeneous Database Integration in Biomedicine[J]. Journal of Biomedical Informatics, 2001, 34(4):285-298.

      [33] ROCHLANI Yogesh R , ITKIKAR A R.Integrating Heterogeneous Data Sources Using XML[J]. International Journal of Advanced Research in Computer Engineering & Technology (IJARCET), 2013, 2(1):126-130.

      [34] FOKOUE-NKOUTCHE A B, HASSANZADEH O, KEMENTSIETSIDIS A, et al. Data Virtualization Across Heterogeneous Formats: U.S. Patent 20,160,055,184[P]. 2016-2-25.

      [35] PANG L Y, ZHONG R Y, FANG J, et al. Data-source interoperability service for heterogeneous information integration in ubiquitous enterprises[J]. Advanced Engineering Informatics, 2015, 29(3):549-561.

      [36] SU S H, HLA K H M S. An efficient ontology approach for organizing and mapping deep Web resources[C]∥ Computer and Automation Engineering (ICCAE), 2010 The 2nd International Conference on. [s.l.]: IEEE, 2010:235-240.

      [37] SCHADD F C, ROOS N. Word-Sense Disambiguation for Ontology Mapping: Concept Disambiguation using Virtual Documents and Information Retrieval Techniques[J]. Journal on Data Semantics, 2014:1-20.

      [38] LUO Yonghong, CHEN Tefang. A Data Mapping Strategy of Parallel Data Mining in Grid[C]∥ The International Conference on E-Business and E-Government, ICEE 2010, 7-9 May 2010. Guangzhou, China: Reference Publications, 2010:1377-1382.

      [39] VU Q H, PHAM T V, TRUONG H L, et al. DEMODS: A Description Model for Data-as-a-Service[C]∥ IEEE International Conference on Advanced Information Networking & Applications. Washington, DC, USA: IEEE Computer Society, 2012:605-612.

      [40] WANG H, XU W, JIA C. Metadata-oriented Data Model Supporting Railway Distributed System Integration[J]. Journal of Software, 2012, 7(4):814-822.

      [41] HELVOIRT S V, WEIGAND H. Operationalizing Data Governance via Multi-level Metadata Management[M]∥ Open and Big Data Management and Innovation. Switzerland: Springer International Publishing,2015:260-272.

      [42] AMAROUCHE I A, BENSLIMANE D, ALIMAZIGHI Z. Enabling Semantic Mediation in DaaS Composition: Service-Based and Context-Driven Approach[J]. International Journal of Information Technology & Web Engineering, 2013, 8(4):1-19.

      [43] ARAFATI M,DAGHER G G,FUNG B C M,et al.D-Mash:A Framework for Privacy-Preserving Data-as-a-Service Mashups[C]∥IEEE, International Conference on Cloud Computing.Anchorage,AK:IEEE,2014:498-505.[44] TBAHRITI S E, MRISSA M, MEDJAHED B, et al. Privacy-aware DaaS services composition[J]. Lecture Notes in Computer Science, 2011, 6860(55):202-216.

      [45] 張鵬, 韓燕波, 王桂玲. 基于數(shù)據(jù)服務(wù)的嵌套視圖動態(tài)更新方法[J]. 計算機學(xué)報, 2013, 36(2):226-237.ZHANG Peng,HAN Yanbo,WANG Guiling.Implementing Dynamic Nested View Update Based on Data Service[J].Chinese Journal of Computers,2013,36(2):226-237.

      [46] HAN Y, WANG G, JI G, et al. Situational data integration with data services and nested table[J]. Service Oriented Computing & Applications, 2013, 7(2):129-150.

      [47] HAAS L M, KOSSMANN D, WIMMERS E L, et al. Optimizing Queries Across Diverse Data Sources[C]∥ VLDB 97: International Conference on Very Large Data Bases. 2001:276-285.

      [48] PANGAL G, SCHMITZ M B, RAVINDRAN V, et al. Apparatus and method for data virtualization in a storage processing device: US, US 7353305[EB/OL].[2016-05-24]. http:∥xueshu.baidu.com/s?wd=paperuri%3A%2879e397dac9889e8ef005e3b1277dba39%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fwww.freepatentsonline.com%2F7353305.html&ie=utf-8&sc_us=9640895184321966038.

      [49] YUHANNA N, GILPIN M. The Forrester Wave?: Data Virtualization, Q1 2012[EB/OL]. [2016-05-26]. https:∥www.em360tech.com/wp-content/files_mf/13419239601888_forresterwavedatavirtualization_ar.pdf.

      [50] TELETIA N, HALVERSON A D, BLAKELEY J A, et al. Performing parallel joins on distributed database data: US, US8473483[P]. 2013.

      [51] CHEN Y, ZHANG Y Q. A Query Substitution-Search Result Refinement Approach for Long Query Web Searches[C]∥ Ieee/wic/acm International Conference on Web Intelligence, Wi 2009, Main Conference Proceedings. Milan, Italy: Reference Publications, 2009:245-251.

      [52] NI Xing-wang. Research on the Semi-join Query Optimization Technology[J]. Journal of Yangtze University(Natural Science Edition), 2014,11(34):55-58.

      [53] LI G S. Research on Security Mechanism of Sharing System Based on Geographic Information Service[M]∥ Proceedings of the International Conference on Information Engineering and Applications (IEA) 2012. London: Springer, 2013:345-351.

      [54] LEI D, ZHOU K, JIN H, et al. SFDS: A Security and Flexible Data Sharing Scheme in Cloud Environment[C]∥ International Conference on Cloud Computing and Big Data. Wuhan:IEEE, 2014:101-108.

      [55] THILAKANATHAN D, CHEN S, NEPAL S, et al. Secure Data Sharing in the Cloud[M]∥Security, Privacy and Trust in Cloud Systems. Berlin Heidelberg: Springer,2014:45-72.

      DOI:10.3979/j.issn.1673-825X.2016.04.009

      收稿日期:2016-07-05

      修訂日期:2016-07-19通訊作者:趙國鋒zhaogf@cqupt.edu.cn

      基金項目:國家自然科學(xué)基金(61501075)

      Foundation Item:The National Natural Science Foundation of China(61501075)

      中圖分類號:

      文獻標志碼:A

      文章編號:1673-825X(2016)04-0494-09

      作者簡介:

      趙國鋒(1972-),男,陜西人,教授,博士生導(dǎo)師,主要研究方向為互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)測試與測量。E-mail: zhaogf@cqupt.edu.cn

      葛丹鳳(1990-),女,河南人,碩士研究生,主要研究方向為網(wǎng)絡(luò)管理。E-mail:1255349756@qq.com。

      (編輯:魏琴芳)

      A survey on data virtualization

      ZHAO Guofeng1, 2, GE Danfeng1

      (1. Institute of Electrical Information and Network Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065,P. R. China; 2. Optical Communication and Network Key Laboratory of Chongqing, Chongqing 400065, P. R. China)

      Abstract:Varieties of data sources, gigantic volume, heterogeneous data structures shape the big data, where the data integration plays an important role. However, how to integrate data fast and effectively in big data system remains a big challenge. Data virtualization is characterized by a good potential of data integration, thus, we first introduce its concept and advantages. Then, we propose an architecture including two planes and detail the functionalities of each layers within each plane. To benefit future work in this field, we show some issues and research topics on data virtualization.Finally,we briefly discuss and conclude this paper.

      Keywords:big data;data integration;data virtualization

      猜你喜歡
      數(shù)據(jù)集成大數(shù)據(jù)
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      成本與制造數(shù)據(jù)集成分析
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
      信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
      XML數(shù)據(jù)交換技術(shù)在中醫(yī)智能化診斷數(shù)據(jù)集成中的應(yīng)用
      高校一表通系統(tǒng)建設(shè)探究
      基于數(shù)據(jù)集成的水上項目國家隊數(shù)據(jù)庫網(wǎng)絡(luò)管理平臺的設(shè)計與開發(fā)
      通州市| 丹巴县| 满洲里市| 海安县| 高雄县| 台南县| 东丰县| 琼结县| 南安市| 定南县| 南江县| 武宣县| 那坡县| 阿合奇县| 江津市| 冀州市| 城口县| 姚安县| 五华县| 东乡县| 郯城县| 德钦县| 清苑县| 广东省| 彭州市| 浪卡子县| 香港 | 上犹县| 桃园县| 汉川市| 海林市| 隆德县| 大理市| 上栗县| 土默特左旗| 汉阴县| 和平县| 工布江达县| 虹口区| 鄢陵县| 交城县|