文/邵炤昭 王壯
高等教育行業(yè)的快速發(fā)展,暴露出傳統(tǒng)線下辦事流程時(shí)效低、體驗(yàn)差等弊端,在一定程度上影響在校師生學(xué)習(xí)和生活的正常開(kāi)展。不少高校通過(guò)開(kāi)展數(shù)據(jù)治理工作,來(lái)解決線上服務(wù)中因數(shù)據(jù)交換困難而造成的弊端。
不少學(xué)者分析國(guó)內(nèi)高校通用業(yè)務(wù),總結(jié)出數(shù)據(jù)治理中的核心問(wèn)題,主要體現(xiàn)在以下六個(gè)方面[1,2]:
第一,數(shù)據(jù)共享困難。首先是信息系統(tǒng)相互之間協(xié)調(diào)困難,出現(xiàn)信息化“煙囪”現(xiàn)象。同時(shí),數(shù)據(jù)接口的多樣化,比如有的系統(tǒng)接口是數(shù)據(jù)庫(kù)視圖,有的則是數(shù)據(jù)文件,有的是采用Web Service 返回非標(biāo)準(zhǔn)的字符串等。另外,因數(shù)據(jù)共享機(jī)制,業(yè)務(wù)部門對(duì)自己管理的數(shù)據(jù)存在權(quán)利擔(dān)憂。最后,相關(guān)部門擔(dān)憂數(shù)據(jù)共享會(huì)反映自己業(yè)務(wù)管理存在瑕疵。
第二,數(shù)據(jù)質(zhì)量參差不齊。在信息化建設(shè)過(guò)程中,建設(shè)單位或部門,主要圍繞自身業(yè)務(wù)進(jìn)行需求的確認(rèn)和開(kāi)發(fā),在系統(tǒng)開(kāi)發(fā)過(guò)程中,對(duì)于不影響自己業(yè)務(wù)的數(shù)據(jù)缺乏基礎(chǔ)校驗(yàn),或者校驗(yàn)不足。這會(huì)導(dǎo)致在其他業(yè)務(wù)系統(tǒng)需要相關(guān)數(shù)據(jù)時(shí),系統(tǒng)無(wú)法提供準(zhǔn)確信息。同時(shí),不少系統(tǒng)管理人員沒(méi)有專業(yè)的數(shù)據(jù)維護(hù)意識(shí),在共享數(shù)據(jù)時(shí),發(fā)現(xiàn)數(shù)據(jù)錯(cuò)誤后,僅在下游系統(tǒng)進(jìn)行手動(dòng)修正,卻不提醒數(shù)據(jù)源頭維護(hù)好相關(guān)信息。
第三,數(shù)據(jù)權(quán)限管理混亂。國(guó)內(nèi)高校普遍缺乏數(shù)據(jù)管理權(quán)限體系。在業(yè)務(wù)場(chǎng)景中,最直接體現(xiàn)出來(lái)的問(wèn)題就是一數(shù)多源。當(dāng)下游業(yè)務(wù)系統(tǒng)無(wú)法確定數(shù)據(jù)源頭時(shí),就自行開(kāi)發(fā)數(shù)據(jù)收集界面,進(jìn)一步加劇數(shù)據(jù)管理的混亂狀況。對(duì)于用戶而言,就會(huì)出現(xiàn)反復(fù)填寫信息的情況,體驗(yàn)較差。與此同時(shí),下游業(yè)務(wù)系統(tǒng)開(kāi)發(fā)人員和系統(tǒng)管理員可能沒(méi)有相關(guān)資質(zhì)和培訓(xùn),無(wú)法確保數(shù)據(jù)的機(jī)密性,進(jìn)一步削弱數(shù)據(jù)安全體系。
第四,數(shù)據(jù)生命周期缺失。在實(shí)際業(yè)務(wù)中,業(yè)務(wù)系統(tǒng)對(duì)于數(shù)據(jù)的注銷和存檔相對(duì)不夠重視,在現(xiàn)實(shí)場(chǎng)景中最直接的問(wèn)題體現(xiàn)就是僵尸賬號(hào)和數(shù)據(jù)垃圾,用戶在系統(tǒng)中完成核心業(yè)務(wù)流程后,用戶數(shù)據(jù)沒(méi)有執(zhí)行注銷、刪除和保存。此外,系統(tǒng)監(jiān)管存在空白,相關(guān)人員離校后,系統(tǒng)依然對(duì)外開(kāi)放,給校內(nèi)系統(tǒng)留下后門漏洞。
第五,數(shù)據(jù)應(yīng)用監(jiān)管空白。目前,隨著《中華人民共和國(guó)數(shù)據(jù)安全法》和《中華人民共和國(guó)個(gè)人信息保護(hù)法》相繼出臺(tái),數(shù)據(jù)隱私管理開(kāi)始有法可依,但如何兼顧用戶個(gè)人數(shù)據(jù)隱私和數(shù)據(jù)共享,還待進(jìn)一步研究。
第六,數(shù)據(jù)創(chuàng)新應(yīng)用不足。主要體現(xiàn)在數(shù)據(jù)治理的成效對(duì)于數(shù)據(jù)源頭管理單位貢獻(xiàn)不大,或目前存在的數(shù)據(jù)問(wèn)題不是長(zhǎng)期或嚴(yán)重的問(wèn)題,對(duì)于數(shù)據(jù)需求系統(tǒng)的提升有限。
針對(duì)數(shù)據(jù)治理面臨的困境,不少業(yè)內(nèi)專家提出卓有成效的解決方案,并在任職機(jī)構(gòu)取得積極反饋[3,4]。這些方案主要是從以下三個(gè)層面進(jìn)行改革和突破:
首先,完善學(xué)校頂層信息化建設(shè)規(guī)劃。依據(jù)學(xué)校未來(lái)5年或者長(zhǎng)期目標(biāo),對(duì)學(xué)校業(yè)務(wù)和數(shù)據(jù)流向進(jìn)行分析,依據(jù)分析結(jié)果,成立數(shù)據(jù)核心管理層和數(shù)據(jù)指導(dǎo)團(tuán)隊(duì)。該團(tuán)隊(duì)主要負(fù)責(zé)制定數(shù)據(jù)治理的藍(lán)圖和收益方向、平衡數(shù)據(jù)治理中各方的責(zé)任、風(fēng)險(xiǎn)和成效,以及梳理數(shù)據(jù)治理中組織結(jié)構(gòu)關(guān)系,監(jiān)控?cái)?shù)據(jù)治理的成效??偟膩?lái)說(shuō),該團(tuán)隊(duì)負(fù)責(zé)數(shù)據(jù)治理的最終方向。
其次,搭建數(shù)據(jù)協(xié)調(diào)團(tuán)隊(duì)。數(shù)據(jù)協(xié)調(diào)團(tuán)隊(duì)是協(xié)調(diào)數(shù)據(jù)的責(zé)任主體,主要負(fù)責(zé)制定數(shù)據(jù)的技術(shù)標(biāo)準(zhǔn),確保上游業(yè)務(wù)系統(tǒng)能提供符合技術(shù)規(guī)范的高質(zhì)量數(shù)據(jù)。在數(shù)據(jù)治理期間,因?yàn)閿?shù)據(jù)源頭可能存在技術(shù)或者業(yè)務(wù)困難,協(xié)調(diào)團(tuán)隊(duì)會(huì)通過(guò)持續(xù)更新數(shù)據(jù)的采集和分發(fā)策略,來(lái)確保數(shù)據(jù)平臺(tái)能夠按照預(yù)期標(biāo)準(zhǔn)進(jìn)行采集。
最后,組建技術(shù)團(tuán)隊(duì)。技術(shù)團(tuán)隊(duì)主要責(zé)任是搭建數(shù)據(jù)平臺(tái)、維護(hù)數(shù)據(jù)接口、保護(hù)數(shù)據(jù)隱私以及保障數(shù)據(jù)安全。團(tuán)隊(duì)主要任務(wù)包括日常數(shù)據(jù)收集,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)標(biāo)準(zhǔn)化,確保數(shù)據(jù)存儲(chǔ)安全;適當(dāng)進(jìn)行數(shù)據(jù)接口的開(kāi)發(fā)和定制;保護(hù)數(shù)據(jù)平臺(tái)中數(shù)據(jù)的隱私,對(duì)關(guān)鍵信息,例如手機(jī)號(hào)和證件號(hào),進(jìn)行去隱私和加密處理;保障監(jiān)控平臺(tái)數(shù)據(jù)的完整性,對(duì)數(shù)據(jù)寫入和讀取進(jìn)行審計(jì)。
盡管在數(shù)據(jù)治理的體系方面有很多參考資源,但在技術(shù)層面的文獻(xiàn)和探討相對(duì)缺乏。部分學(xué)者推薦參照企業(yè)治理中的SOA架構(gòu)來(lái)重構(gòu)業(yè)務(wù)流程,然而市場(chǎng)上相關(guān)廠商則宣揚(yáng)用大數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)治理。由此可見(jiàn),技術(shù)平臺(tái)選擇的多樣化,讓很多高校的信息部門或者數(shù)據(jù)治理小組難以做出決策。
浙江大學(xué)國(guó)際聯(lián)合學(xué)院在2019年啟動(dòng)數(shù)據(jù)交換平臺(tái)項(xiàng)目來(lái)開(kāi)展數(shù)據(jù)治理。在建設(shè)實(shí)施前,采用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的存放和管理,項(xiàng)目開(kāi)展后,引入SOA技術(shù)框架,對(duì)業(yè)務(wù)系統(tǒng)中交換頻繁的核心數(shù)據(jù)進(jìn)行模型重構(gòu),對(duì)SOA在數(shù)據(jù)治理中遇到的問(wèn)題進(jìn)行了分析,積累了大量的項(xiàng)目實(shí)施經(jīng)驗(yàn)。同時(shí),對(duì)大數(shù)據(jù)平臺(tái)的功能也做了深度調(diào)研,對(duì)部分業(yè)務(wù)數(shù)據(jù)量較大的場(chǎng)景進(jìn)行實(shí)驗(yàn),總結(jié)出一套SOA技術(shù)架構(gòu)和大數(shù)據(jù)平臺(tái)整合的經(jīng)驗(yàn)。技術(shù)平臺(tái)架構(gòu)如圖1所示,主要包括以下幾個(gè)核心組件:
圖1 數(shù)據(jù)治理階段各組件功能示意
ETL工具:ETL工具使用開(kāi)源的Kettle,針對(duì)單次數(shù)據(jù)增加和更新小于10萬(wàn)條目的格式化數(shù)據(jù)集合,通過(guò)開(kāi)源工具Kettle對(duì)數(shù)據(jù)進(jìn)行采集。對(duì)于日志格式類型等大容量數(shù)據(jù),例如超過(guò)千萬(wàn)條記錄,首先通過(guò)Sqoop將數(shù)據(jù)采集到臨時(shí)數(shù)據(jù)庫(kù),再通過(guò)Impala進(jìn)行初步過(guò)濾和加工,將加工后的數(shù)據(jù)寫入到主數(shù)據(jù)平臺(tái)。
Hadoop文件存儲(chǔ)系統(tǒng):將采集過(guò)的原始數(shù)據(jù)寫入到Hadoop文件系統(tǒng)進(jìn)行永久性存儲(chǔ),Hadoop本身的文件系統(tǒng)在集群環(huán)境下自動(dòng)實(shí)現(xiàn)數(shù)據(jù)的多備份,從而實(shí)現(xiàn)數(shù)據(jù)的可靠性,并且可以通過(guò)增加節(jié)點(diǎn)快速擴(kuò)展存儲(chǔ)空間。
主數(shù)據(jù)平臺(tái):將采集和清洗后的數(shù)據(jù)寫入主數(shù)據(jù)平臺(tái)。之所以選擇主數(shù)據(jù)平臺(tái),不選擇數(shù)據(jù)倉(cāng)庫(kù),主要原因是主數(shù)據(jù)具有高精準(zhǔn)、唯一識(shí)別性和高擴(kuò)展性等特性。高精準(zhǔn)體現(xiàn)在每一條記錄都可以追溯最后更新時(shí)間、數(shù)據(jù)源頭、轉(zhuǎn)化規(guī)則以及和其他數(shù)據(jù)集合的關(guān)聯(lián)關(guān)系;唯一識(shí)別性體現(xiàn)在每一條記錄都有一個(gè)唯一的主鍵和唯一的檢索名,避免出現(xiàn)冗余數(shù)據(jù);高擴(kuò)展性是指數(shù)據(jù)屬性緯度的高度可擴(kuò)展性,例如對(duì)于人員屬性和性別,可以針對(duì)不同語(yǔ)言、不同別名進(jìn)行創(chuàng)建,而不會(huì)破壞現(xiàn)有數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。在本案例中,采用商業(yè)產(chǎn)品Stibo主數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)的處理。
數(shù)據(jù)監(jiān)控平臺(tái):對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行可視化的預(yù)覽,通過(guò)Power BI,業(yè)務(wù)單位可以隨時(shí)查看自己的業(yè)務(wù)數(shù)據(jù)質(zhì)量,對(duì)有質(zhì)量問(wèn)題的數(shù)據(jù)進(jìn)行修改。
API管理網(wǎng)關(guān):在學(xué)校信息化建設(shè)過(guò)程中,第三方業(yè)務(wù)系統(tǒng)數(shù)量會(huì)隨著學(xué)校業(yè)務(wù)發(fā)展快速增加,隨之帶來(lái)了愈發(fā)嚴(yán)重的用戶權(quán)限問(wèn)題和數(shù)據(jù)共享安全問(wèn)題。API管理平臺(tái)可以把關(guān)數(shù)據(jù)權(quán)限和數(shù)據(jù)獲取的歷史進(jìn)行記錄,從而保證數(shù)據(jù)的安全性。
消息隊(duì)列和內(nèi)存數(shù)據(jù)庫(kù):在數(shù)據(jù)獲取過(guò)程中,個(gè)別業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)的響應(yīng)延時(shí)提出了更高要求。主數(shù)據(jù)平臺(tái)加上API管理雖然能提供可靠、安全的數(shù)據(jù)請(qǐng)求管理,但這套組合在目前主流技術(shù)架構(gòu)下,無(wú)法提供低延時(shí)的請(qǐng)求。解決方案是,通過(guò)消息隊(duì)列和內(nèi)存數(shù)據(jù)庫(kù)組合的方式實(shí)現(xiàn)低延時(shí)的請(qǐng)求響應(yīng)。消息隊(duì)列存儲(chǔ)數(shù)據(jù)更新的時(shí)間戳,內(nèi)存數(shù)據(jù)庫(kù)存放時(shí)間戳對(duì)應(yīng)的數(shù)據(jù)。當(dāng)消息隊(duì)列中相關(guān)時(shí)間戳被消耗后,對(duì)應(yīng)的數(shù)據(jù)從內(nèi)存數(shù)據(jù)庫(kù)釋放,從而實(shí)現(xiàn)高性能的數(shù)據(jù)發(fā)布。同時(shí),消息隊(duì)列也可以用來(lái)解耦系統(tǒng)的關(guān)聯(lián)性,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的異步、削峰、解耦。當(dāng)然,系統(tǒng)維護(hù)的復(fù)雜性和不穩(wěn)定性也會(huì)因此增加,需要結(jié)合場(chǎng)景去考慮。
數(shù)據(jù)治理從傳統(tǒng)的角度可以簡(jiǎn)化為以下生命周期:數(shù)據(jù)的獲取,數(shù)據(jù)的轉(zhuǎn)換和清洗,數(shù)據(jù)的標(biāo)準(zhǔn)化和模型化,數(shù)據(jù)的發(fā)布和歸檔。在項(xiàng)目開(kāi)展之前,采用傳統(tǒng)結(jié)構(gòu)化的SQL模型進(jìn)行數(shù)據(jù)的存儲(chǔ)和管理。但是在實(shí)際運(yùn)行中,因業(yè)務(wù)需求發(fā)生變更,導(dǎo)致數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)頻繁調(diào)整,在調(diào)整過(guò)程中,對(duì)應(yīng)的數(shù)據(jù)收集和數(shù)據(jù)分發(fā)接口產(chǎn)生重構(gòu),因此導(dǎo)致時(shí)效低、穩(wěn)定性差的弊端。在參考相關(guān)文獻(xiàn)建議后[5,6],引入SOA技術(shù)架構(gòu)的重組和改造。SOA的改造基本遵循上述流程。
但在實(shí)際場(chǎng)景中發(fā)現(xiàn),數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)建模更多依賴于數(shù)據(jù)發(fā)布的格式。因此,通過(guò)數(shù)據(jù)交換出去的格式,來(lái)反推數(shù)據(jù)的存儲(chǔ)模式和字段,持續(xù)更迭模型之間的邏輯關(guān)系。具體來(lái)說(shuō),從數(shù)據(jù)的流程管理進(jìn)行分析,先分析數(shù)據(jù)會(huì)被哪些業(yè)務(wù)系統(tǒng)使用,得出數(shù)據(jù)的建模方向。
在數(shù)據(jù)建模方面,基于NoSQL的主數(shù)據(jù)模型可以很好地處理因業(yè)務(wù)需求變更而帶來(lái)的數(shù)據(jù)模型變更?;贜oSQL的主數(shù)據(jù)模型以主鍵作為對(duì)象的唯一標(biāo)識(shí),主鍵不一定限制于學(xué)號(hào)或者工號(hào),任何一個(gè)能唯一標(biāo)識(shí)一個(gè)對(duì)象的都可以作為主鍵。以課表為例,在課表標(biāo)識(shí)上,采用教學(xué)班代碼加學(xué)期代碼作為唯一標(biāo)識(shí)符,通過(guò)該唯一標(biāo)識(shí)符構(gòu)建屬性組,例如上課地點(diǎn)、人員、課表等。得益于NoSQL的數(shù)據(jù)模型,數(shù)據(jù)對(duì)象屬性的變更或者調(diào)整,對(duì)于數(shù)據(jù)接口中的抽取和發(fā)布影響較小。
系統(tǒng)在確定好數(shù)據(jù)模型后,開(kāi)始數(shù)據(jù)清洗規(guī)則的配置,包括數(shù)據(jù)的轉(zhuǎn)換規(guī)則,數(shù)據(jù)的篩選規(guī)則;在數(shù)據(jù)的清洗和抽取的過(guò)程中,采用主數(shù)據(jù)平臺(tái)自帶的數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)化功能,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化;對(duì)數(shù)據(jù)進(jìn)行追蹤溯源,每一個(gè)數(shù)據(jù)字段都能追蹤到最后一次的變更日期和操作者信息,從而得到可以直接交付給業(yè)務(wù)系統(tǒng)的黃金數(shù)據(jù),即完整、準(zhǔn)確、可追溯的數(shù)據(jù)。
完成建模和數(shù)據(jù)清洗、標(biāo)準(zhǔn)化后,通過(guò)可視化工具進(jìn)行數(shù)據(jù)質(zhì)量的監(jiān)控。可視化工具采用的是傳統(tǒng)的報(bào)表工具。在業(yè)務(wù)邏輯上,傳統(tǒng)的用戶報(bào)表業(yè)務(wù)一般都定位于數(shù)據(jù)流程末端的展示層。但是在數(shù)據(jù)治理中,數(shù)據(jù)質(zhì)量的監(jiān)控和用戶報(bào)表業(yè)務(wù)有明顯區(qū)分。在監(jiān)控層面,報(bào)表工具主要集中在空值、異常值,以及非標(biāo)準(zhǔn)值的監(jiān)控。然而在用戶報(bào)表業(yè)務(wù),報(bào)表主要集中在用戶關(guān)注的特定維度。以國(guó)家字段為例,在用戶展示層面,更加關(guān)注國(guó)家數(shù)據(jù),比如說(shuō)外國(guó)留學(xué)生來(lái)源國(guó)家前十排名,以及海外留學(xué)生國(guó)家總數(shù)統(tǒng)計(jì);在數(shù)據(jù)監(jiān)控層面,報(bào)表更加關(guān)注國(guó)家字段中的空值、異常值,以及非標(biāo)準(zhǔn)數(shù)值,例如國(guó)家名稱,有的寫中國(guó),有的寫中華人民共和國(guó)。
在數(shù)據(jù)發(fā)布層面,針對(duì)不同場(chǎng)景,提供不同的技術(shù)發(fā)布模式。對(duì)于數(shù)據(jù)量小,并且更新相對(duì)不頻繁的業(yè)務(wù),采用Web Service的方式進(jìn)行數(shù)據(jù)發(fā)布。針對(duì)數(shù)據(jù)量大,并且響應(yīng)延時(shí)低的業(yè)務(wù),采用消息隊(duì)列以及內(nèi)存數(shù)據(jù)庫(kù)的混合模式,進(jìn)行分發(fā)和管理。例如,對(duì)于浙江大學(xué)國(guó)際聯(lián)合學(xué)院的門戶網(wǎng)站黃頁(yè)接口數(shù)據(jù)而言,數(shù)據(jù)包含照片等非文本文件,數(shù)據(jù)量超過(guò)20M,但要求內(nèi)網(wǎng)門戶在調(diào)用該接口的時(shí)候,響應(yīng)延時(shí)不高于3秒。針對(duì)這樣的場(chǎng)景,采用消息隊(duì)列加內(nèi)存數(shù)據(jù)庫(kù)的模式進(jìn)行數(shù)據(jù)分發(fā)。
具體而言,消息隊(duì)列中存放數(shù)據(jù)變化的時(shí)間戳,該時(shí)間戳為前面提到的數(shù)據(jù)最后一次的更新時(shí)間。內(nèi)存數(shù)據(jù)庫(kù)中存放時(shí)間戳對(duì)應(yīng)的數(shù)據(jù)。通過(guò)自行開(kāi)發(fā)調(diào)度程序,定時(shí)將主數(shù)據(jù)平臺(tái)中的相關(guān)數(shù)據(jù)最后更新時(shí)間戳推送到消息隊(duì)列平臺(tái)中。下游業(yè)務(wù)系統(tǒng)獲取消息隊(duì)列中時(shí)間戳信息,將該時(shí)間戳和內(nèi)存數(shù)據(jù)庫(kù)中時(shí)間戳主鍵進(jìn)行對(duì)比,如果時(shí)間戳有變化,就從主數(shù)據(jù)平臺(tái)更新最新數(shù)據(jù),并且將該數(shù)據(jù)寫入內(nèi)存數(shù)據(jù)庫(kù)用于緩存。如果無(wú)變化,直接讀取內(nèi)存數(shù)據(jù)中緩存數(shù)據(jù)。
本案例中,生產(chǎn)系統(tǒng)配置參數(shù)見(jiàn)表1,性能見(jiàn)表2。在未加載內(nèi)存數(shù)據(jù)庫(kù)緩存數(shù)據(jù)時(shí),單個(gè)請(qǐng)求分別從主數(shù)據(jù)平臺(tái)和無(wú)緩存的內(nèi)存服務(wù)器讀取,數(shù)據(jù)的平均響應(yīng)時(shí)間分別為6.1秒和7.1秒,用戶體驗(yàn)較差。將數(shù)據(jù)放入內(nèi)存數(shù)據(jù)庫(kù)后,響應(yīng)時(shí)間下降到0.6秒,用戶體驗(yàn)明顯改善。在使用多線程模擬并發(fā)壓力測(cè)試的情況下,內(nèi)存數(shù)據(jù)庫(kù)的延遲比例明顯低于其他兩種場(chǎng)景。
表1 生產(chǎn)系統(tǒng)配置
表2 接口響應(yīng)時(shí)間 單位:ms
隨著業(yè)務(wù)擴(kuò)展,消息隊(duì)列的數(shù)據(jù)量也會(huì)水漲船高,因此,也需要對(duì)對(duì)應(yīng)硬件做相關(guān)的預(yù)估和規(guī)劃。對(duì)此,應(yīng)先統(tǒng)計(jì)現(xiàn)有的業(yè)務(wù)產(chǎn)生的消息隊(duì)列數(shù)據(jù),從表3可知,短期內(nèi)現(xiàn)有硬件資源能滿足業(yè)務(wù)的需求。值得注意的是,消息隊(duì)列數(shù)據(jù)量的增長(zhǎng),并非線性增長(zhǎng),其原因有兩點(diǎn):首先,個(gè)別業(yè)務(wù)系統(tǒng)對(duì)于消息隊(duì)列的數(shù)據(jù)需求,明顯高于其他業(yè)務(wù)系統(tǒng);其次,下游系統(tǒng)從消息隊(duì)列獲取數(shù)據(jù),輪詢時(shí)間隔較長(zhǎng),導(dǎo)致數(shù)據(jù)在消息隊(duì)列停留時(shí)間較長(zhǎng)。針對(duì)相關(guān)問(wèn)題,下游業(yè)務(wù)系統(tǒng)可以依據(jù)業(yè)務(wù)場(chǎng)景和性能進(jìn)行調(diào)整,避免后期可能出現(xiàn)的擁塞。長(zhǎng)期來(lái)看,業(yè)務(wù)增長(zhǎng)應(yīng)屬于緩慢增長(zhǎng),現(xiàn)有硬件資源可以滿足后期業(yè)務(wù)開(kāi)展。
表3 消息隊(duì)列中數(shù)據(jù)條目及其對(duì)應(yīng)資源消耗 單位:條
在項(xiàng)目實(shí)施后期,業(yè)務(wù)需求進(jìn)一步提升。在日志型數(shù)據(jù)中,關(guān)鍵信息的抽取和交換需求開(kāi)始浮現(xiàn),傳統(tǒng)的SOA架構(gòu)已經(jīng)無(wú)法滿足日志型文件的存放,針對(duì)該問(wèn)題,采用Hadoop生態(tài)群中的類SQL組件進(jìn)行數(shù)據(jù)的抽取和加工。在分析Hive、Spark SQL,以及Impala后發(fā)現(xiàn),Spark SQL性能最優(yōu),但是技術(shù)文檔和穩(wěn)定性有待提升,Hive和Impala文獻(xiàn)比較充足,并且穩(wěn)定性相對(duì)較高,在性能上Impala略勝一籌。因此,采用Impala進(jìn)行數(shù)據(jù)的加工和關(guān)鍵信息的抽取,抽取后的結(jié)果數(shù)據(jù)會(huì)寫入主數(shù)據(jù)平臺(tái)。對(duì)需要存儲(chǔ)的過(guò)程性數(shù)據(jù),可存放在Hadoop的HDFS文件系統(tǒng)中,供后期調(diào)用。
經(jīng)過(guò)數(shù)據(jù)改造后,目前浙江大學(xué)國(guó)際聯(lián)合學(xué)院交換平臺(tái)核心數(shù)據(jù)質(zhì)量從原來(lái)的77%準(zhǔn)確性,上升到91%,其中人員核心數(shù)據(jù)的可靠性上升到99.9%。數(shù)據(jù)業(yè)務(wù)范圍從人員數(shù)據(jù)擴(kuò)展到課表數(shù)據(jù)、教室多媒體數(shù)據(jù)、會(huì)議室數(shù)據(jù)、住宿數(shù)據(jù)。日志類型數(shù)據(jù)每天實(shí)現(xiàn)300M以上的增量同步。接入應(yīng)用系統(tǒng)從7個(gè)上升到21個(gè)。核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)實(shí)效性從平均1天下降到20分鐘。
從本次項(xiàng)目實(shí)施成效來(lái)看,SOA在傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)治理方面確實(shí)有更好的擴(kuò)展性;在日志類型的大數(shù)據(jù)層面,基于Hadoop的分布式系統(tǒng)更加具有優(yōu)勢(shì)。