王建軍,張英成,戰(zhàn) 非,趙 侃
(西安航空學(xué)院 網(wǎng)絡(luò)信息中心,陜西 西安 710077)
在全國(guó)教育的第10個(gè)五年計(jì)劃中,教育信息化被列入國(guó)家的重點(diǎn)建設(shè)工程。國(guó)內(nèi)一些重點(diǎn)高校已經(jīng)率先完成了數(shù)字化校園建設(shè),進(jìn)入了智慧化校園建設(shè)階段。2018年4月25日,教育部《教育信息化2.0行動(dòng)計(jì)劃》的印發(fā),智慧校園建設(shè)進(jìn)入了快車道。智慧化校園建設(shè)對(duì)高校信息化建設(shè)與發(fā)展、信息資源的共享與利用提供了新的契機(jī),同時(shí)對(duì)高校信息資源服務(wù)提出了新的挑戰(zhàn)[1-2]。為了解決智慧校園中信息資源來(lái)源的問(wèn)題,本文根據(jù)Hadoop相關(guān)技術(shù),結(jié)合高校信息資源現(xiàn)狀,對(duì)高校信息資源從傳統(tǒng)存儲(chǔ)模式到云平臺(tái)的導(dǎo)入進(jìn)行研究。
目前高校的信息資源的管理與使用仍存在如下問(wèn)題。
高校信息資源來(lái)源繁雜,數(shù)據(jù)類型較多。既有日常教學(xué)過(guò)程數(shù)據(jù),也有實(shí)驗(yàn)過(guò)程中觀察記錄數(shù)據(jù)和設(shè)備收集數(shù)據(jù)。由于數(shù)據(jù)產(chǎn)生與采集的方式以及各部門信息化應(yīng)用程度不同,信息資源的存儲(chǔ)方式多種多樣。但是到目前為止,國(guó)內(nèi)外對(duì)信息資源的存儲(chǔ)管理沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)規(guī)范[3]。
受高校信息化建設(shè)水平限制,部分高校的信息系統(tǒng)關(guān)鍵信息量沒(méi)有達(dá)到大數(shù)據(jù)的量級(jí)。但是,經(jīng)過(guò)多年積累下來(lái)的教學(xué)活動(dòng)紙質(zhì)文檔、科研過(guò)程數(shù)據(jù)、學(xué)生日?;顒?dòng)數(shù)據(jù)已經(jīng)達(dá)到海量級(jí)別,而且呈指數(shù)級(jí)形式增長(zhǎng)[4]。在智慧化校園建設(shè)過(guò)程中,對(duì)這些信息資源的挖掘與分析有助于獲取更加準(zhǔn)確的預(yù)警、預(yù)測(cè)結(jié)果。
高校信息資源的存儲(chǔ)一般由各個(gè)業(yè)務(wù)部門負(fù)責(zé),數(shù)據(jù)共享實(shí)現(xiàn)困難。而且在資料遷移過(guò)程中數(shù)據(jù)丟失嚴(yán)重,這樣對(duì)信息資源造成了極大的浪費(fèi),對(duì)高校的發(fā)展造成了巨大的損失[5]。通過(guò)基于Hadoop的云平臺(tái)對(duì)現(xiàn)有信息資源及時(shí)整合與存儲(chǔ),既有利于防止了信息資源的意外丟失,又有利于信息資源的有效共享使用。
基于高校信息資源管理現(xiàn)狀,本文針對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)文件提出不同的導(dǎo)入方式,以招生就業(yè)數(shù)據(jù)為例進(jìn)行描述。
存儲(chǔ)于傳統(tǒng)數(shù)據(jù)庫(kù)中的高校信息資源可以直接導(dǎo)入基于Hadoop平臺(tái)的HBase分布式存儲(chǔ)系統(tǒng),HBase存儲(chǔ)系統(tǒng)中的信息資源也可直接導(dǎo)出到傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中[6]。本文通過(guò)Sqoop工具完成傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的高校信息資源到基于HBase分布式存儲(chǔ)系統(tǒng)的導(dǎo)入工作[7]。
Sqoop完成高校信息資源到基于HBase的分布式存儲(chǔ)系統(tǒng)的方法是:從傳統(tǒng)高校信息資源數(shù)據(jù)庫(kù)中獲取元數(shù)據(jù)信息(schema,table, field, field type),把導(dǎo)入功能轉(zhuǎn)換為只有Map的MapReduce作業(yè),在MapReduce中有很多Map,每個(gè)Map讀一片信息資源數(shù)據(jù),進(jìn)而并行地完成信息資源的拷貝[8]。為了實(shí)現(xiàn)傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的高校信息資源標(biāo)準(zhǔn)化導(dǎo)入基于HBase的分布數(shù)據(jù)庫(kù)中,在導(dǎo)入之前應(yīng)確定兩個(gè)數(shù)據(jù)表之間的關(guān)聯(lián)關(guān)系[9]。以招生數(shù)據(jù)導(dǎo)入為例,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的“考生基本信息表”對(duì)應(yīng)著HBase分布式招生信息表中的一個(gè)列族—“考生基本信息”;傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中考生基本信息表中的數(shù)據(jù)與HBase分布式招生信息表中連續(xù)的考生基本信息行數(shù)據(jù)對(duì)應(yīng);傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的考生基本信息表的行、列值與HBase分布式招生信息表中的行、列對(duì)應(yīng);傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的考生基本信息表的主鍵值作為HBase分布式招生信息表中行鍵值的組成部分;傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中考生基本信息表的“參數(shù)列名+列類型”對(duì)應(yīng)著HBase分布式招生信息表中考生基本信息的列名[10]。這些數(shù)據(jù)關(guān)聯(lián)關(guān)系如表1所示。
在設(shè)計(jì)完成傳統(tǒng)關(guān)系型考生基本信息表與基于HBase的分布式招生信息表數(shù)據(jù)的對(duì)應(yīng)關(guān)系之后,從傳統(tǒng)關(guān)系型考生基本信息表中將數(shù)據(jù)導(dǎo)入基于HBase的分布式招生信息表的過(guò)程如圖1所示。首先,將傳統(tǒng)教務(wù)教學(xué)數(shù)據(jù)庫(kù)的訪問(wèn)地址、數(shù)據(jù)庫(kù)名稱、數(shù)據(jù)庫(kù)密碼值、考生基本信息表名、導(dǎo)入過(guò)程需要啟動(dòng)的Map數(shù)量、基于HBase的分布式招生信息表名以及主鍵值等寫入Sqoop的參數(shù)表中;然后,判斷表中數(shù)據(jù)是否符合規(guī)范;最后,執(zhí)行導(dǎo)入數(shù)據(jù)任務(wù),所有數(shù)據(jù)都正確導(dǎo)入后,導(dǎo)入任務(wù)完成。
表1 傳統(tǒng)考生基本信息表與基于HBase的招生信息表數(shù)據(jù)關(guān)聯(lián)關(guān)系
本文結(jié)合高校信息資源的特點(diǎn),提出了基于Hadoop集群的分布式數(shù)據(jù)導(dǎo)入方案。下一步研究方向:進(jìn)一步研究基于HBase的海量高校信息資源數(shù)據(jù)的存儲(chǔ),以提高高校信息資源的存儲(chǔ)效率;其次,結(jié)合Hadoop生態(tài)系統(tǒng)中的MapReduce,Hive,Spark等技術(shù)對(duì)信息資源數(shù)據(jù)進(jìn)一步挖掘分析,為高校智慧化校園建設(shè)服務(wù)。
圖1 應(yīng)用Sqoop實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)數(shù)導(dǎo)入HBase的流程