文/陳琨,王萍利
為保證系統(tǒng)數(shù)據(jù)資源的全面性和合理性,本文基于數(shù)據(jù)庫設(shè)計(jì)了一款功能完善、實(shí)用性強(qiáng)的大數(shù)據(jù)平臺(tái)。首先,本文在分析大數(shù)據(jù)平臺(tái)需求的基礎(chǔ)上,對(duì)該大數(shù)據(jù)平臺(tái)進(jìn)行了科學(xué)設(shè)計(jì);其次,為全方位確保大數(shù)據(jù)平臺(tái)的運(yùn)行效果,本文為該大數(shù)據(jù)平臺(tái)配置了14臺(tái)服務(wù)器;最后,經(jīng)過測(cè)試,在數(shù)據(jù)庫的應(yīng)用背景下,本文所設(shè)計(jì)的大數(shù)據(jù)平臺(tái)運(yùn)行正常、可靠、穩(wěn)定,且平臺(tái)中各功能模塊均滿足相關(guān)設(shè)計(jì)要求??偟膩碚f,該大數(shù)據(jù)平臺(tái)有效地提高了數(shù)據(jù)集成水平,有助于企業(yè)更加高效地運(yùn)轉(zhuǎn)。本次研究旨在為相關(guān)技術(shù)人員提供有效借鑒。
得益于互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大數(shù)據(jù)技術(shù)被廣泛地應(yīng)用于各個(gè)領(lǐng)域,從而更好地滿足了日益多樣化的信息資產(chǎn)需求,同時(shí)也為企業(yè)的現(xiàn)代化運(yùn)行提供了重要的技術(shù)支持。隨著數(shù)據(jù)庫及大數(shù)據(jù)平臺(tái)的優(yōu)化設(shè)計(jì)和推廣應(yīng)用,企業(yè)的數(shù)據(jù)集成與分析應(yīng)用水平進(jìn)一步提高,進(jìn)而促使企業(yè)更加高效地運(yùn)轉(zhuǎn)。在此背景下,如何科學(xué)地設(shè)計(jì)和使用大數(shù)據(jù)平臺(tái),成為相關(guān)技術(shù)人員必須思考和解決的問題。
為確保所設(shè)計(jì)的基于數(shù)據(jù)庫的大數(shù)據(jù)平臺(tái)能夠更好地滿足企業(yè)用戶的實(shí)際需求,本文盡可能全面地收集和整理了相關(guān)企業(yè)實(shí)際需要的系統(tǒng)數(shù)據(jù)資源。經(jīng)整理,這些系統(tǒng)數(shù)據(jù)資源主要包含以下幾種。(1)工程管理系統(tǒng)。該系統(tǒng)通常涉及投資計(jì)劃、工程物質(zhì)等數(shù)據(jù),這類數(shù)據(jù)條目通常高達(dá)130萬條以上。(2)生產(chǎn)管理系統(tǒng)。該系統(tǒng)通常涉及庫存數(shù)據(jù)、運(yùn)行操作數(shù)據(jù)以及設(shè)備物資數(shù)據(jù)等數(shù)據(jù)信息,這類數(shù)據(jù)條目通常在1900萬條以上。(3)人力資源系統(tǒng)。在實(shí)際運(yùn)行過程中,該系統(tǒng)通常涉及員工薪資、員工職務(wù)等數(shù)據(jù)信息,且這類數(shù)據(jù)條目往往不少于4萬條。(4)財(cái)務(wù)管理系統(tǒng)。該系統(tǒng)主要包含企業(yè)在實(shí)際經(jīng)營過程中所需要的發(fā)票、合同、報(bào)銷等相關(guān)數(shù)據(jù)信息,這類數(shù)據(jù)條目通常在400萬條以上。本文通過系統(tǒng)化分析和研究上述系統(tǒng)數(shù)據(jù)資源,發(fā)現(xiàn)相關(guān)企業(yè)在實(shí)際管理和經(jīng)營過程中,各數(shù)據(jù)系統(tǒng)均表現(xiàn)出一定的獨(dú)立性和分散性,這無疑增加了信息數(shù)據(jù)共享的難度,同時(shí)極易引發(fā)“數(shù)據(jù)孤島”等問題。而基于數(shù)據(jù)
庫的大數(shù)據(jù)平臺(tái)的設(shè)計(jì)和應(yīng)用,不僅可以更好地歸納、存儲(chǔ)和轉(zhuǎn)化結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù),同時(shí)還能極大地提高數(shù)據(jù)集成水平,從而為相關(guān)企業(yè)的后續(xù)高效化、科學(xué)化運(yùn)營和管理提供良好的平臺(tái)支持。
通常,在大數(shù)據(jù)平臺(tái)設(shè)計(jì)階段,技術(shù)人員必須在嚴(yán)格遵循統(tǒng)一性、經(jīng)濟(jì)性、時(shí)效性等原則的基礎(chǔ)上,完成大數(shù)據(jù)集成平臺(tái)的總體框架設(shè)計(jì)。本文所研究的大數(shù)據(jù)集成平臺(tái)的總體框架設(shè)計(jì)如圖1所示。從圖1中可以看出,該大數(shù)據(jù)平臺(tái)重點(diǎn)整合了以下幾個(gè)層面。(1)數(shù)據(jù)源層。數(shù)據(jù)源層主要包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)等。為確保數(shù)據(jù)管理的統(tǒng)一性和集中性,用戶需要采用統(tǒng)一命名的方式,對(duì)不同類型的系統(tǒng)進(jìn)行科學(xué)命名[1],并以此提高數(shù)據(jù)存儲(chǔ)的規(guī)范性。(2)數(shù)據(jù)集成層。數(shù)據(jù)集成層主要包含接口數(shù)據(jù)文件、消息隊(duì)列、接口表等內(nèi)容?;趯?duì)系統(tǒng)所獲取的數(shù)據(jù)源層數(shù)據(jù)的整理和轉(zhuǎn)化,該大數(shù)據(jù)平臺(tái)能夠?qū)?shù)據(jù)存儲(chǔ)層進(jìn)行有效連接。此時(shí),用戶便可以通過大數(shù)據(jù)平臺(tái)提供的接口表[2],對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行不間斷的銜接處理,進(jìn)而確保結(jié)構(gòu)化數(shù)據(jù)能夠安全、準(zhǔn)確地傳輸?shù)綌?shù)據(jù)倉庫緩沖區(qū)。(3)數(shù)據(jù)存儲(chǔ)層。數(shù)據(jù)存儲(chǔ)層主要涉及數(shù)據(jù)倉庫平臺(tái)、流數(shù)據(jù)平臺(tái)以及分布式數(shù)據(jù)平臺(tái)。用戶可以利用數(shù)據(jù)存儲(chǔ)層,向數(shù)據(jù)源層安全、可靠地傳輸所需要的數(shù)據(jù)倉庫緩沖區(qū)的數(shù)據(jù)。
另外,在進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)集成設(shè)計(jì)期間,本文主要采用了FTP文件傳輸方式,并對(duì)數(shù)據(jù)文件進(jìn)行了科學(xué)化處理;同時(shí),本文還利用FTP文件傳輸方式將非結(jié)構(gòu)化數(shù)據(jù)傳輸?shù)紽TP服務(wù)器中;隨后,本文向數(shù)據(jù)平臺(tái)中安全、可靠地導(dǎo)入和存儲(chǔ)了此前獲取的非結(jié)構(gòu)化數(shù)據(jù),并向數(shù)據(jù)倉庫存儲(chǔ)區(qū)導(dǎo)入相應(yīng)的數(shù)據(jù)結(jié)構(gòu)信息,從而完成了數(shù)據(jù)存儲(chǔ)層的構(gòu)建。需要注意的是,當(dāng)大數(shù)據(jù)平臺(tái)內(nèi)部含有大量的非結(jié)構(gòu)化數(shù)據(jù)時(shí),用戶需要采用接口調(diào)用的方式,向數(shù)據(jù)倉庫緩沖區(qū)導(dǎo)入所需要的非結(jié)構(gòu)化數(shù)據(jù)。同時(shí),由于實(shí)時(shí)數(shù)據(jù)監(jiān)控系統(tǒng)在實(shí)際運(yùn)行過程中,需要處理的數(shù)據(jù)量相對(duì)較大,且這些數(shù)據(jù)的時(shí)效性通常較強(qiáng),所以本文所設(shè)計(jì)的大數(shù)據(jù)平臺(tái)可以通過數(shù)據(jù)源層來大量生成實(shí)時(shí)數(shù)據(jù),并實(shí)時(shí)向數(shù)據(jù)平臺(tái)傳輸所需數(shù)據(jù)。此外,該大數(shù)據(jù)平臺(tái)的流數(shù)據(jù)平臺(tái)設(shè)計(jì)示意圖如圖2所示。在流數(shù)據(jù)平臺(tái)的實(shí)際設(shè)計(jì)環(huán)節(jié),本文主要利用Redis技術(shù)和Java程序,完成了對(duì)Java轉(zhuǎn)儲(chǔ)程序的編寫;之后,本文將最終編寫好的轉(zhuǎn)儲(chǔ)程序存入了分布式數(shù)據(jù)平臺(tái)數(shù)據(jù)轉(zhuǎn)儲(chǔ)區(qū)。
當(dāng)前,大數(shù)據(jù)平臺(tái)所使用的產(chǎn)品主要包含數(shù)據(jù)倉庫、流數(shù)據(jù)平臺(tái)、分布式數(shù)據(jù)倉庫等,這些產(chǎn)品的對(duì)應(yīng)用途分別為分布式存儲(chǔ)、內(nèi)存數(shù)據(jù)庫、數(shù)據(jù)倉庫等。為了進(jìn)一步提高用戶的使用體驗(yàn),本文為此次設(shè)計(jì)的大數(shù)據(jù)平臺(tái)配置了14臺(tái)服務(wù)器;同時(shí),本文嚴(yán)格按照大數(shù)據(jù)平臺(tái)部署圖,將管理節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)同步設(shè)置到大數(shù)據(jù)平臺(tái)中。[3]隨后,本文結(jié)合相關(guān)企業(yè)的實(shí)際應(yīng)用需求,對(duì)服務(wù)器進(jìn)行了科學(xué)配置,從而在提高服務(wù)器資源利用率的基礎(chǔ)上,全面確保該大數(shù)據(jù)平臺(tái)具備強(qiáng)大的存儲(chǔ)功能和計(jì)算功能。此外,本文將設(shè)計(jì)完成的基于數(shù)據(jù)庫的大數(shù)據(jù)平臺(tái)科學(xué)地應(yīng)用到某水電企業(yè)。經(jīng)過六個(gè)月的運(yùn)行使用,本文確定該大數(shù)據(jù)平臺(tái)完全符合該水電企業(yè)的實(shí)際使用需求,并且該大數(shù)據(jù)平臺(tái)在運(yùn)行過程中具備較強(qiáng)的穩(wěn)定性和可靠性,能夠?yàn)槠髽I(yè)后期集成和分析應(yīng)用數(shù)據(jù)提供良好的技術(shù)支持,便于企業(yè)實(shí)現(xiàn)高效化、自動(dòng)化運(yùn)行。[4]
綜上所述,本文對(duì)基于數(shù)據(jù)庫的大數(shù)據(jù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn),大致經(jīng)歷了以下幾個(gè)階段。(1)本文通過全面分析相關(guān)企業(yè)的系統(tǒng)數(shù)據(jù)資源,發(fā)現(xiàn)各分部數(shù)據(jù)系統(tǒng)表現(xiàn)出一定的分散性和孤立性。對(duì)此,本文通過構(gòu)建擴(kuò)展性高、數(shù)據(jù)處理能力強(qiáng)的大數(shù)據(jù)平臺(tái),從根本上解決了各信息系統(tǒng)間存在的“數(shù)據(jù)孤島”等問題。(2)本文在嚴(yán)格遵循大數(shù)據(jù)平臺(tái)先進(jìn)性、時(shí)效性的基礎(chǔ)上,完成了大數(shù)據(jù)集成平臺(tái)總體框架的科學(xué)化設(shè)計(jì),從而為企業(yè)更好地整合企業(yè)全類型數(shù)據(jù)奠定了基礎(chǔ)。(3)本文采用逐層分解的方式,優(yōu)化了該大數(shù)據(jù)平臺(tái)的總體框架設(shè)計(jì),完成了大數(shù)據(jù)平臺(tái)的整體構(gòu)建,從而有效提高了系統(tǒng)運(yùn)行的穩(wěn)定性和可靠性。