• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于KETTLE的高校多源異構(gòu)數(shù)據(jù)集成研究及實踐

    2015-12-15 07:47:00劉充
    電子設(shè)計工程 2015年10期
    關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)源異構(gòu)

    劉充

    (南京中醫(yī)藥大學 信息技術(shù)學院,江蘇 南京 210023)

    基于KETTLE的高校多源異構(gòu)數(shù)據(jù)集成研究及實踐

    劉充

    (南京中醫(yī)藥大學 信息技術(shù)學院,江蘇 南京 210023)

    解決數(shù)字化校園建設(shè)中的多源異構(gòu)數(shù)據(jù)集成問題。利用開源ETL工具KETTLE,對學生考試信息與上網(wǎng)信息的抽取、轉(zhuǎn)換和加載。ETL模型自動生成了以上網(wǎng)行為事實表為中心表,以學生信息、上網(wǎng)信息、時間3個維度表的數(shù)據(jù)倉庫。利用KETTLE能夠快速實現(xiàn)高校多源異構(gòu)數(shù)據(jù)集成,形成高質(zhì)量的分析型數(shù)據(jù),為決策支持服務(wù)。

    數(shù)字化校園;異構(gòu)數(shù)據(jù);數(shù)據(jù)集成;KETTLE;ETL

    數(shù)字化校園是以網(wǎng)絡(luò)技術(shù)為基礎(chǔ),利用信息技術(shù)實現(xiàn)對教學、科研、管理、生活服務(wù)等信息的收集、處理、整合、存儲、傳輸和應(yīng)用,使數(shù)字資源得到充分優(yōu)化利用的一種虛擬教育環(huán)境[1]。然而,由于高校信息化建設(shè)尚未形成統(tǒng)一的標準,不同廠商的系統(tǒng)互不兼容,不同系統(tǒng)之間無法互聯(lián)互通和數(shù)據(jù)共享,形成一個個“信息孤島”,直接影響學校的日常管理。如何將這些“信息孤島”連通起來,實現(xiàn)高效多源異構(gòu)數(shù)據(jù)集成和共享是數(shù)字化校園建設(shè)的一個關(guān)鍵問題。

    數(shù)據(jù)抽取、轉(zhuǎn)換和裝載(Extraction,Transformation, Loading,ETL)是實現(xiàn)異構(gòu)數(shù)據(jù)集成的有效方法[2]。在ETL過程中,數(shù)據(jù)抽取可看作是數(shù)據(jù)的輸入過程,即從多個數(shù)據(jù)源中將數(shù)據(jù)抽取到統(tǒng)一的數(shù)據(jù)存儲中;數(shù)據(jù)轉(zhuǎn)換主要解決數(shù)據(jù)質(zhì)量問題,通過數(shù)據(jù)清洗策略檢測出海量數(shù)據(jù)中存在的數(shù)據(jù)冗余、錯誤及缺失并加以改正,然后使用用戶定義的轉(zhuǎn)換規(guī)則對數(shù)據(jù)進行合并、轉(zhuǎn)換等操作,使得數(shù)據(jù)正確、一致和完整;數(shù)據(jù)裝載可看作是數(shù)據(jù)的輸出過程,即將處理后的數(shù)據(jù)從統(tǒng)一的數(shù)據(jù)存儲裝載到目標數(shù)據(jù)倉庫中[3]。

    目前,越來越多廠商致力于ETL工具的研發(fā),如Oracle的Oracle Warehouse Builder(OWB)、Microsoft的Data Transformation Services(DTS)、IBM的Data Stage等,而較常用的開源ETL工具有KETTLE、Talend、Octopus等。本文采用開源ETL工具KETTLE,在分析KETTLE ETL特點的基礎(chǔ)上,嘗試構(gòu)建高效多源異構(gòu)數(shù)據(jù)ETL解決方案,實現(xiàn)異構(gòu)數(shù)據(jù)共享。

    1 KETTLE ETL簡介

    KETTLE是一款用Java編寫的開源ETL工具,其數(shù)據(jù)集成主要由轉(zhuǎn)換(Transformation)和作業(yè)(Job)兩部分完成,其中“轉(zhuǎn)換”由一系列步驟所組成的邏輯工作網(wǎng)絡(luò),每一個步驟表示對一個或多個數(shù)據(jù)流進行特定的轉(zhuǎn)換操作;而“作業(yè)”基于工作流模型,協(xié)調(diào)數(shù)據(jù)源、執(zhí)行過程和相關(guān)依賴性的ETL活動,其將功能性和實體過程聚合起來,完成對整個工作流的控制。ETL活動是一個四元組A=(ID,I,O,S),ID是活動標示符,I是輸入模式的集合,O是輸出模式的集合,S是一個或多個擴展的關(guān)系代數(shù)表達式,表示每個輸出模式的語義[4-5]。KETTLE的ETL活動可視為一個有向無環(huán)圖(DAG圖),圖的節(jié)點對應(yīng)于一個個作業(yè)或轉(zhuǎn)換步驟(Step),邊代表數(shù)據(jù)供給關(guān)系對應(yīng)于數(shù)據(jù)流節(jié)點連接(Hop)。KETTLE ETL的概念模型如圖1所示。

    圖1 KETTLE ETL的概念模型Fig.1 KETTLE ETL conceptual model

    2 高校多源異構(gòu)數(shù)據(jù)集成

    高校不同信息系統(tǒng)的數(shù)據(jù)存儲形式多樣,如關(guān)系型數(shù)據(jù)庫,電子表格、XML文件、文本文件等。KETTLE通過配置關(guān)系型數(shù)據(jù)庫的連接信息以及獲取半結(jié)構(gòu)化、非機構(gòu)化的文本文件、電子表格等文件的路徑實現(xiàn)對數(shù)據(jù)源的訪問。下面以教務(wù)管理系統(tǒng)中的學生考試信息和上網(wǎng)信息的ETL為例進行說明。

    2.1 數(shù)據(jù)源連接

    學生考試信息存儲于SQL Server 2008數(shù)據(jù)庫中,上網(wǎng)信息包括上網(wǎng)賬號信息(存儲于MySql數(shù)據(jù)庫中)及網(wǎng)絡(luò)訪問日志存儲于txt文本中。KETTLE提供了JDBC標準接口訪問關(guān)系型數(shù)據(jù)庫。本案例中,通過配置數(shù)據(jù)庫訪問XML文件實現(xiàn)SQL Server 2008、MySql的連接。而在處理于文本文件時,KETTLE將目錄信息轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)表示,轉(zhuǎn)換的數(shù)據(jù)包含文件名、目錄存儲路徑、大小、文件內(nèi)容等列信息,轉(zhuǎn)換成功的結(jié)構(gòu)化數(shù)據(jù)處理與操作關(guān)系型數(shù)據(jù)庫相似。數(shù)據(jù)庫訪問XML文件如下:

    2.2 作業(yè)及轉(zhuǎn)換流程設(shè)計

    利用KETTLE成功連接3個數(shù)據(jù)源后,設(shè)計作業(yè)流程及轉(zhuǎn)換流程,其中作業(yè)流程是對ETL過程的整體規(guī)劃,協(xié)調(diào)執(zhí)行過程和相關(guān)依賴性的ETL活動;轉(zhuǎn)換流程負責具體實施對源數(shù)據(jù)與目標數(shù)據(jù)的映射關(guān)系操作,經(jīng)過排序、去除重復數(shù)據(jù)等轉(zhuǎn)換操作,最終將數(shù)據(jù)加載至相應(yīng)的維度表與事實表中。

    2.2.1 定義作業(yè)流程

    本例的作業(yè)流程中包括日期維度、學生信息維度、上網(wǎng)信息維度及上網(wǎng)行為事實4個部分(見圖2)。每個維度定義了具體的轉(zhuǎn)換流程,負責形成相應(yīng)的維度表,而上網(wǎng)行為事實的轉(zhuǎn)換流程負責產(chǎn)生對應(yīng)的事實表。通過作業(yè)流程與轉(zhuǎn)換流程的協(xié)同工作,最終形成星型模式的數(shù)據(jù)倉庫,即由一個大的包含大批數(shù)據(jù)并且不冗余信息的中心表(事實表)和一組小的附屬表(維度表)構(gòu)成,事實表和維度表通過各維度表的關(guān)鍵字連接在一起[6]。

    圖2 作業(yè)流程Fig.2 Job process

    2.2.2 定義轉(zhuǎn)換流程

    1)日期維度

    日期維度幾乎是每個數(shù)據(jù)倉庫都必須提供的一個維度,因為每個數(shù)據(jù)倉庫都是時間系列的。事實上,日期通常是數(shù)據(jù)庫進行潛在分類排序的首選維度,這樣做的目的是,使按時間間隔連續(xù)加載的數(shù)據(jù)能夠順次存放到磁盤上的空白存儲區(qū)中[7]。日期維度的轉(zhuǎn)換流程如圖3所示。

    圖3 日期維度的轉(zhuǎn)換流程Fig.3 The converting process of time dimension

    2)學生信息維度

    教務(wù)管理系統(tǒng)中學生信息存儲于多張二維表中,包括院系表、專業(yè)表、班級表、學生表、選課表、成績表等,通過KETTLE從多張表中選擇需要的字段,形成學生信息維度表(如圖4所示)。

    圖4 學生信息維度的轉(zhuǎn)換流程Fig.4 The converting process of students’information dimension

    3)上網(wǎng)信息維度

    上網(wǎng)日志記錄了用戶IP、訪問地址、訪問時間、信息流量等,而上網(wǎng)信息包括學號、分配IP、網(wǎng)絡(luò)連接開始時間、結(jié)束時間和上網(wǎng)費用等。上述異構(gòu)數(shù)據(jù)通過IP和時間進行映射,因為設(shè)計一個轉(zhuǎn)換流程將上述數(shù)據(jù)合并,形成上網(wǎng)信息維度表(如圖5所示)。由于上網(wǎng)日志中存在異常記錄(數(shù)據(jù)丟失、亂碼等),因而設(shè)置專門的過濾策略對源數(shù)據(jù)進行清洗。

    4)上網(wǎng)行為事實

    從時間維度表、學生信息維度表及上網(wǎng)信息維度表中抽取主鍵信息,形成上網(wǎng)行為事實表(如圖6所示)。

    2.3 數(shù)據(jù)倉庫

    當運行上述作業(yè)及轉(zhuǎn)換流程時,KETTLE自動完成對異構(gòu)數(shù)據(jù)源ETL操作,建立二維表并插入數(shù)據(jù)。本例中自動生成了以上網(wǎng)行為事實表為中心表,以3個維度表為附屬表的數(shù)據(jù)倉庫(如圖7所示)。

    3 結(jié)束語

    隨著數(shù)字化校園建設(shè)進程的加快,“信息煙囪”、“信息孤島”等問題越發(fā)嚴峻。為了解決數(shù)字化校園建設(shè)過程中的多源異構(gòu)數(shù)據(jù)集成問題,本文利用開源ETL工具KETTLE,建立了學生考試信息與上網(wǎng)信息的ETL模型,實現(xiàn)了異構(gòu)數(shù)據(jù)的整合,為系統(tǒng)間的數(shù)據(jù)共享,乃至后續(xù)的數(shù)據(jù)分析挖掘(如學生考試成績與上網(wǎng)行為的相關(guān)性)提供了數(shù)據(jù)準備。在高校信息化建設(shè)過程中,可以嘗試應(yīng)用各類ETL工具,解決不同系統(tǒng)之間的數(shù)據(jù)共享、數(shù)據(jù)集成等問題,從而提高數(shù)字化校園的建設(shè)效率,減低建設(shè)成本。

    圖5 上網(wǎng)信息維度的轉(zhuǎn)換流程Fig.5 The converting process of network access information dimension

    圖6 上網(wǎng)行為事實的轉(zhuǎn)換流程Fig.6 The converting process of network access behavior

    圖7 星型數(shù)據(jù)結(jié)構(gòu)圖Fig.7 Star-topology of data structure

    [1]王秀娟.高校異構(gòu)數(shù)據(jù)集成模式技術(shù)研究 [J].科技信息:學術(shù)研究,2007(8):175-176.WANG Xiu-jun.Research on campus heterogeneous data integration technology[J].Technology Information:Academic Research,2007(8):175-176.

    [2]徐俊剛,裴瑩.數(shù)據(jù)ETL研究綜述[J].計算機科學,2011,38 (4):15-20.XU Jun-gang,PEI Ying.Overview of data extraction transformation and loading[J].Computer science,2011,38(4):15-20.

    [3]郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述 [J].軟件學報,2002,13(11):2076-2082.GUO Zhi-mao,ZHOU Ao-ying.Review of data quality and data cleansing[J].Journal of Software,2002,13(11):2076-2082.

    [4]吳遠紅.ETL執(zhí)行過程的優(yōu)化研究[J].計算機科學, 2007,34(1):81-83.WU Yuan-hong.The research of optimizing ETL execution process[J].Computer Science,2007,34(1):81-83.

    [5]崔有文,周金海.基于Pentaho的中藥飲片企業(yè)商業(yè)智能研究[J].電子設(shè)計工程,2014,22(7):12-15.CUI You-wen,ZHOU Jin-hai.Research on Chinese medicine enterprise business intelligence based on Pentaho[J].Electronic Design Engineering,2014,22(7):12-15.

    [6]王麗珍,周麗華,陳紅梅.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:科學出版社,2009.

    [7]Ralph Kimball,Margy Ross.The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling[M].John Wiley&Sons INC;3rd Revised edition,2013.

    Research on integration of college multi-source heterogeneous data

    LIU Chong
    (Institute of Information and Technology,Nanjing University of Chinese Medicine,Nanjing 210023,China)

    To solve the integration of college multi-source heterogeneous data.Using the open-source tool,KETTLE,to extract, transfer and load data from the exam system and the network management system.The data warehouse was built,which was consisted of a fact table and three dimension tables including students’information,network information and time table.In this research,we found that multi-source heterogeneous data could be integrated efficiently,and analytical data was prepared for decision support further.

    digital campus;heterogeneous data;data integration;KETTLE;ETL

    TN919

    A

    1674-6236(2015)10-0024-03

    2014-11-11 稿件編號:201411066

    劉 充(1990—),男,江蘇南京人,碩士研究生。研究方向:數(shù)字化校園。

    猜你喜歡
    數(shù)據(jù)倉庫數(shù)據(jù)源異構(gòu)
    試論同課異構(gòu)之“同”與“異”
    基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
    分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
    電子制作(2016年15期)2017-01-15 13:39:15
    探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
    overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
    電信科學(2016年11期)2016-11-23 05:07:56
    LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
    基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
    基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
    定日县| 安图县| 六枝特区| 汉沽区| 高邑县| 桃园市| 定西市| 河北区| 吴忠市| 延庆县| 石柱| 陇南市| 共和县| 隆德县| 汽车| 永宁县| 江津市| 侯马市| 阳城县| 皮山县| 嘉义市| 青铜峡市| 石城县| 原平市| 望都县| 正宁县| 慈溪市| 陇西县| 黎城县| 云南省| 通辽市| 和田县| 乌审旗| 乐平市| 丰原市| 横峰县| 图片| 崇仁县| 潼关县| 辽阳市| 桃源县|