• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于MPP-Hadoop混合架構(gòu)高校數(shù)據(jù)集成系統(tǒng)研究

    2018-08-21 01:59:56鄧涵元
    關(guān)鍵詞:數(shù)據(jù)倉庫結(jié)構(gòu)化軌跡

    鄧涵元,盧 山,程 光

    (1.武漢郵電科學(xué)研究院,湖北 武漢 430074;2.南京烽火軟件科技有限公司,江蘇 南京 210019;3.東南大學(xué),江蘇 南京 210019)

    0 引 言

    高校信息化從20世紀(jì)80年代開始,在21世紀(jì)引入了數(shù)字化校園的概念。數(shù)字化校園是構(gòu)建一個包括教學(xué)、科研、管理、服務(wù)于一體的數(shù)字環(huán)境,能夠提升傳統(tǒng)校園的工作效率,實(shí)現(xiàn)教學(xué)科研的全面信息化,提高教師的教學(xué)質(zhì)量,提升學(xué)校對于各個機(jī)構(gòu)和系統(tǒng)的管理水平[1]。隨著數(shù)字化校園的建設(shè)[2],在高校的各個系統(tǒng)中均積累了大量的數(shù)據(jù)。由于各個異構(gòu)系統(tǒng)的建設(shè)時期不同,采用的標(biāo)準(zhǔn)規(guī)范、技術(shù)路線編程語言等也不同,因而形成了一個個的“數(shù)據(jù)孤島”。這些“數(shù)據(jù)孤島”造成了高校資源分散、存儲冗余、管理成本高、決策支持弱、各職能部門無法進(jìn)行協(xié)同工作。

    于是將各信息系統(tǒng)的數(shù)據(jù)整合、匯聚到數(shù)據(jù)集成系統(tǒng)上就顯得尤為重要,這有利于從不同的角度來分析學(xué)生的生活、學(xué)習(xí)、心理等各方面的成長情況,有利于學(xué)校各個職能部門的管理和協(xié)調(diào)。據(jù)調(diào)研,目前,某高校每年均有約2萬名學(xué)生入學(xué),積累了大量的數(shù)據(jù);這些數(shù)據(jù)不僅數(shù)量級大,數(shù)據(jù)結(jié)構(gòu)也多樣,既有學(xué)生的基本信息、成績信息、校園卡消費(fèi)記錄等結(jié)構(gòu)化數(shù)據(jù),也有上網(wǎng)記錄等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。

    傳統(tǒng)的數(shù)據(jù)集成大多只是簡單地以集成后能夠查詢使用為目的進(jìn)行數(shù)據(jù)集成。當(dāng)前研究者對校園數(shù)據(jù)集成和分析做了多方面的研究。吳振濤[3]提出了基于數(shù)據(jù)倉庫的通用的校園數(shù)據(jù)集成框架,為高校的數(shù)據(jù)倉庫建設(shè)提供了一個整體框架和模型;王晶春[4]對高校數(shù)據(jù)集成廣泛應(yīng)用的幾類框架進(jìn)行綜合的比較,提出集線器總體架構(gòu)模式;李蘭友等[5]提出了基于ODI技術(shù)的高校數(shù)據(jù)流轉(zhuǎn)運(yùn)中心架構(gòu)模式。然而,這些研究都是基于傳統(tǒng)的數(shù)據(jù)集成技術(shù),大多是主機(jī)加集中存儲的架構(gòu)。軟件方面則主要選擇Oracle相關(guān)數(shù)據(jù)庫產(chǎn)品來搭建數(shù)據(jù)倉庫。而隨著數(shù)據(jù)的迅猛增長以及數(shù)據(jù)類型復(fù)雜程度的增加,傳統(tǒng)的數(shù)據(jù)倉庫產(chǎn)品的不足也逐漸凸現(xiàn)出來:處理數(shù)據(jù)量小,投資成本高,擴(kuò)展性差,數(shù)據(jù)加載和查詢效率低,針對非結(jié)構(gòu)化數(shù)據(jù)的特征提取、多數(shù)據(jù)融合分析遇到困難。

    針對以上問題,結(jié)合Hadoop和MPP技術(shù),文中設(shè)計(jì)并實(shí)現(xiàn)了一個基于MPP-Hadoop混合框架的高校異構(gòu)數(shù)據(jù)集成系統(tǒng),將數(shù)據(jù)融合、匯總、分析,提高數(shù)據(jù)查詢和加載的效率,提高擴(kuò)展性,并通過實(shí)驗(yàn)驗(yàn)證該系統(tǒng)的有效性。

    1 相關(guān)技術(shù)

    1.1 Hadoop

    Hadoop[6]是一個分布式的系統(tǒng)基礎(chǔ)架構(gòu),能夠充分利用集群進(jìn)行高速運(yùn)算和存儲。Hadoop有高可靠性[7]、高效性、可擴(kuò)展性、高容錯性等優(yōu)勢[8]。

    1.2 MPP數(shù)據(jù)庫

    Hadoop的優(yōu)勢在于能十分高效地處理大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。但與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,在處理復(fù)雜的多表關(guān)聯(lián)分析、數(shù)據(jù)分析挖掘以及易操作性方面還存在差距。

    MPP(massive parallel processing)[9]數(shù)據(jù)庫本質(zhì)上仍然是一個關(guān)系型數(shù)據(jù)庫。它可以將任務(wù)并行地分散到多個工作節(jié)點(diǎn)上,磁盤存儲系統(tǒng)和內(nèi)存系統(tǒng)均為每個節(jié)點(diǎn)獨(dú)有,不與其他節(jié)點(diǎn)共享,是share-nothing[10]模式,各個節(jié)點(diǎn)之間通過網(wǎng)絡(luò)互相連接,彼此協(xié)同計(jì)算,將各自的結(jié)果匯總到一起得到最終結(jié)果。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,MPP數(shù)據(jù)庫在數(shù)據(jù)處理方面,具有采用分布式架構(gòu)[11]、處理數(shù)據(jù)量大、更大的I/O能力、擴(kuò)展能力好、采用列式存儲[12]、節(jié)約存儲空間等優(yōu)勢。

    2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    2.1 系統(tǒng)框架設(shè)計(jì)

    該面向高校的異構(gòu)數(shù)據(jù)集成系統(tǒng)結(jié)合Hadoop和MPP兩種技術(shù)的優(yōu)勢,架構(gòu)設(shè)計(jì)如圖1所示,總體上分為數(shù)據(jù)層、應(yīng)用層和數(shù)據(jù)源層。

    (1)數(shù)據(jù)源即包含來自各個異構(gòu)系統(tǒng)的數(shù)據(jù),大致可以分為兩塊,一是來自傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),二是來自海量非結(jié)構(gòu)化或者半結(jié)構(gòu)化的大數(shù)據(jù)(如上網(wǎng)日志數(shù)據(jù))等。

    (2)數(shù)據(jù)層包括數(shù)據(jù)存儲平臺和ETL數(shù)據(jù)預(yù)處理平臺兩部分ETL數(shù)據(jù)預(yù)處理平臺從本地FTP服務(wù)器中抽取相關(guān)基礎(chǔ)數(shù)據(jù),抽取方式分為全量抽取和增量抽取兩種。全量抽取將所有的初始數(shù)據(jù)抽取到目標(biāo)數(shù)據(jù)庫中,增量抽取針對新增數(shù)據(jù),時間間隔為24小時自動抽取。抽取后的數(shù)據(jù)需要進(jìn)行清洗、轉(zhuǎn)換和加載,去除噪聲數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)格式、生成新的數(shù)據(jù)等。處理后的數(shù)據(jù)一部分進(jìn)入傳統(tǒng)的數(shù)據(jù)庫中,一部分存儲到Hadoop的HDFS中,再將兩部分的數(shù)據(jù)整合、匯聚到MPP數(shù)據(jù)倉庫中,完成數(shù)據(jù)的基本存儲功能。

    (3)在大數(shù)據(jù)背景下,簡單地將異構(gòu)的數(shù)據(jù)源集成起來實(shí)現(xiàn)查詢已經(jīng)不能滿足現(xiàn)實(shí)要求,應(yīng)用層的功能除了查詢和展示結(jié)果外,還有分析和挖掘、生成報(bào)表等。在高校應(yīng)用場景下,主體主要是教師、學(xué)生以及職工,應(yīng)用層將以不同的主體,不同的數(shù)據(jù)分析需求實(shí)現(xiàn)不同的功能。

    (4)元數(shù)據(jù)管理對各個來源的數(shù)據(jù)進(jìn)行集中管理,構(gòu)建元數(shù)據(jù)模型,能夠更加有效地對數(shù)據(jù)質(zhì)量進(jìn)行把控,更高效地進(jìn)行數(shù)據(jù)集成分析和挖掘。

    2.2 系統(tǒng)實(shí)現(xiàn)

    傳統(tǒng)的數(shù)據(jù)倉庫基本上都基于Oracle產(chǎn)品[13],數(shù)據(jù)加載速度、數(shù)據(jù)查詢效率在海量大數(shù)據(jù)情況下變慢甚至無法加載或者查詢。GreenPlum是EMC推出的大規(guī)模并行處理(MPP)的數(shù)據(jù)庫軟件,是一個基于PostgreSQL的開源分布式數(shù)據(jù)引擎,是目前業(yè)界研究和應(yīng)用比較廣泛的數(shù)據(jù)倉庫引擎之一。它具有高并發(fā)支持、良好的線性擴(kuò)展能力、高性價比、高可用性等優(yōu)勢。結(jié)合學(xué)生行為軌跡數(shù)據(jù)的特點(diǎn),選用GreenPlum作為數(shù)據(jù)倉庫來搭建面向?qū)W生行為軌跡數(shù)據(jù)分析的數(shù)據(jù)集成系統(tǒng),并與傳統(tǒng)數(shù)據(jù)倉庫Oracle產(chǎn)品搭建的數(shù)據(jù)集成系統(tǒng)進(jìn)行對比。

    在x86平臺上分別搭建Hadoop集群平臺和MPP數(shù)據(jù)庫平臺。Hadoop集群由1臺控制節(jié)點(diǎn)和3臺數(shù)據(jù)處理節(jié)點(diǎn)組成,操作系統(tǒng)采用Linux5.5,Java環(huán)境的JDK版本為jdk-1.7。MPP分布式環(huán)境由一個Master(主節(jié)點(diǎn))和多個Segment(數(shù)據(jù)節(jié)點(diǎn))組成,每個節(jié)點(diǎn)配置2個CPU內(nèi)核、8 GB內(nèi)存,節(jié)點(diǎn)之間使用千兆網(wǎng)絡(luò)連接。操作系統(tǒng)為Linux5.5,選擇的MPP數(shù)據(jù)庫版本為Greenplum-db-4.1.1.3,將具有高并發(fā)性、高可用性優(yōu)勢的MPP數(shù)據(jù)庫作為數(shù)據(jù)倉庫對海量數(shù)據(jù)進(jìn)行集中的管理和存儲,結(jié)合Hadoop集群的高速存儲和運(yùn)算的特點(diǎn),搭建系統(tǒng)的物理組網(wǎng)架構(gòu),如圖2所示。

    圖2 物理組網(wǎng)架構(gòu)

    3 學(xué)生行為軌跡數(shù)據(jù)應(yīng)用分析

    大學(xué)生群體作為一個特定的、龐大的社會群體,其軌跡行為具有很強(qiáng)的規(guī)律性。對于個體而言,掌握其行為軌跡規(guī)律對于掌握其學(xué)習(xí)、生活的規(guī)律和習(xí)慣有一定的幫助,對于出現(xiàn)的異常能夠起到一定的指導(dǎo)作用。而對于群體而言,了解校園熱點(diǎn)地區(qū)分布[14],對學(xué)校的后勤工作有一定的指導(dǎo)作用。對學(xué)生軌跡的相似度進(jìn)行分析,對于了解學(xué)生的線下社交[15]、好友發(fā)現(xiàn)、排除孤獨(dú)癥患者等有一定的意義,為學(xué)生心理健康的管理工作提供一定的依據(jù)。據(jù)了解,某高校有在校本科生2萬余名,每名學(xué)生每天均產(chǎn)生大量的軌跡數(shù)據(jù),在數(shù)據(jù)加載和查詢方面進(jìn)行對比評測。

    3.1 數(shù)據(jù)源選擇

    目前,某高校宿舍、圖書館、體育館均設(shè)有門禁設(shè)備,但是某些區(qū)域如教學(xué)樓沒有門禁,而且門禁可能存在代刷、漏刷的現(xiàn)象,所以,單以門禁記錄來研究學(xué)生的軌跡不夠準(zhǔn)確。通過調(diào)查發(fā)現(xiàn),該高校教學(xué)區(qū)、宿舍、食堂、休閑區(qū)域均有wifi部署,隨著校園移動設(shè)備用戶的爆炸式増長,產(chǎn)生了大量的wifi位置記錄數(shù)據(jù)。而且,wifi數(shù)據(jù)對研究學(xué)生的校園行為的位置,具有覆蓋范圍廣、定位精度高、成本低等特點(diǎn)。但是,單以wifi數(shù)據(jù)來研究學(xué)生的軌跡數(shù)據(jù),則可能存在學(xué)生進(jìn)入某區(qū)域未使用wifi連接網(wǎng)絡(luò)造成軌跡數(shù)據(jù)缺失的情況。故結(jié)合校園卡門禁刷卡數(shù)據(jù)和wifi上下線信息,能夠比較真實(shí)地反映學(xué)生的軌跡信息。

    該實(shí)驗(yàn)選取的數(shù)據(jù)來自某高校大一學(xué)生2016年一學(xué)期即4個月的wifi上下線日志數(shù)據(jù),約1 500萬條,以及學(xué)生校園卡刷卡記錄,約600萬條,總量大小為65.4 GB。

    3.2 數(shù)據(jù)清洗及預(yù)處理

    由于獲取的校園學(xué)生wifi登錄數(shù)據(jù)信息量大且復(fù)雜,包含字段較多,而真正有價值的只有幾個字段,因此首先需要對原始數(shù)據(jù)進(jìn)行過濾和篩選。為獲取學(xué)生行為軌跡數(shù)據(jù),主要有用的字段是學(xué)生學(xué)號、wifi登錄時間、校園位置Id、刷卡時間、刷卡位置Id。

    (1)對獲取到的原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,系統(tǒng)中存在一定時間內(nèi)反復(fù)刷卡或者反復(fù)登錄的情況,設(shè)置時間閾值Δt=1 min,過濾掉連續(xù)刷卡以及在某個時間反復(fù)連接wifi的數(shù)據(jù)。

    (2)根據(jù)用戶名過濾到教職工以及其他賬號信息,只保留學(xué)生的數(shù)據(jù)。

    (3)門禁刷卡記錄的原始數(shù)據(jù)中記錄了用戶登錄時所在校園位置的ID號;wifi上下線日志數(shù)據(jù)中存儲的位置信息用經(jīng)度(longtitude)和緯度(latitude)字段表示,結(jié)合百度地圖API[16]和文獻(xiàn)[14]提出的基于校園環(huán)境的逆地址解析算法進(jìn)行校園位置的轉(zhuǎn)換。

    經(jīng)過清洗后存儲到數(shù)據(jù)庫中的變量名及變量的含義如表1所示。

    表1 變量名及含義

    3.3 性能對比評測

    3.3.1 數(shù)據(jù)加載

    將預(yù)處理后的數(shù)據(jù)采用外部表的方式分別加載到原系統(tǒng)和現(xiàn)系統(tǒng)中,加載速度對比如表2所示。

    表2 數(shù)據(jù)加載速度對比

    3.3.2 數(shù)據(jù)查詢

    (1)在硬件配置相同的情況下,該系統(tǒng)采用4個節(jié)點(diǎn)與現(xiàn)有系統(tǒng)進(jìn)行查詢復(fù)雜度對性能影響的比較,在查詢復(fù)雜度Q3>Q2>Q1的情況下,查詢效率對比如圖3所示。

    圖3 數(shù)據(jù)查詢效率與復(fù)雜度的關(guān)系

    (2)將同樣的數(shù)據(jù)分別加載到現(xiàn)有系統(tǒng)和文中系統(tǒng)后,測試對比多表連接查詢語句(join)的查詢性能,如表3所示。

    表3 查詢效率對比

    從實(shí)驗(yàn)結(jié)果來看,與傳統(tǒng)數(shù)據(jù)庫的處理方式相比,文中系統(tǒng)在數(shù)據(jù)加載和查詢效率上有明顯的提升,并且具有良好的擴(kuò)展性,查詢效率隨著數(shù)據(jù)節(jié)點(diǎn)的增加近乎呈線性增長的趨勢。但是在數(shù)據(jù)量不大的情況下,現(xiàn)有系統(tǒng)查詢處理效率不比文中系統(tǒng)低,在海量數(shù)據(jù)處理的情況下,文中系統(tǒng)能夠體現(xiàn)出強(qiáng)大的處理能力。故搭建的異構(gòu)數(shù)據(jù)集成系統(tǒng)在高校的海量數(shù)據(jù)環(huán)境下在數(shù)據(jù)處理和分析上具有明顯的優(yōu)勢。

    3.4 學(xué)生行為軌跡數(shù)據(jù)分析

    為了分析學(xué)生軌跡變化,引入統(tǒng)計(jì)學(xué)中相似度的概念。相似度使用以度量兩組數(shù)據(jù)變化趨勢相似程度的一個數(shù)值亮度,其取值范圍為[-1,1]。相似度的計(jì)算方法基于統(tǒng)計(jì)學(xué)中相關(guān)系數(shù)的概念。

    另外,結(jié)合可視化技術(shù)比較不同學(xué)生的行為軌跡數(shù)據(jù),構(gòu)建班級社交網(wǎng)絡(luò),發(fā)現(xiàn)學(xué)生的社交關(guān)系,避免大量的問卷以及人工調(diào)查的繁瑣工作,分析出學(xué)生的社交情況,便于對社交能力弱的學(xué)生提供幫助,結(jié)合心理資源庫中的測評結(jié)果,篩選較為孤僻的學(xué)生,能夠?yàn)楦咝V械膶W(xué)生心理健康教育工作提供指導(dǎo)。

    4 結(jié)束語

    結(jié)合MPP和Hadoop技術(shù),將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中抽離出來,提出一種基于MPP-Hadoop混合架構(gòu)的高校數(shù)據(jù)集成的系統(tǒng)框架,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)共享,充分發(fā)揮數(shù)字化校園的整體協(xié)同功能,解決了傳統(tǒng)數(shù)據(jù)庫在海量數(shù)據(jù)情況下數(shù)據(jù)加載慢、數(shù)據(jù)查詢效率低、難以融合多種異構(gòu)數(shù)據(jù)源進(jìn)行分析等問題。并以學(xué)生行為軌跡數(shù)據(jù)的分析為例,驗(yàn)證了系統(tǒng)的有效性,為學(xué)生的管理工作提供支持。

    猜你喜歡
    數(shù)據(jù)倉庫結(jié)構(gòu)化軌跡
    促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
    軌跡
    軌跡
    結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
    基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
    軌跡
    進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
    中國三峽(2017年2期)2017-06-09 08:15:29
    分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
    電子制作(2016年15期)2017-01-15 13:39:15
    探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
    基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
    梓潼县| 鹤峰县| 娄底市| 乐清市| 光泽县| 岢岚县| 商河县| 开远市| 长白| 盐亭县| 武定县| 尉犁县| 台南县| 婺源县| 宾阳县| 吉隆县| 镇安县| 错那县| 罗平县| 锦屏县| 洪江市| 贡觉县| 大埔县| 黔西县| 宜章县| 清徐县| 富蕴县| 大竹县| 吉安县| 饶阳县| 台南市| 四会市| 射阳县| 怀柔区| 海晏县| 武鸣县| 潼关县| 永兴县| 丹巴县| 繁峙县| 江门市|