申劍
摘要:隨著社會(huì)的發(fā)展,大數(shù)據(jù)時(shí)代終于到來(lái),在大數(shù)據(jù)的幫助下,社會(huì)生活都得到了極大的優(yōu)勢(shì)和幫助。而眾多的數(shù)據(jù)信息需要有科學(xué)的存儲(chǔ)技術(shù)作為支撐,通過(guò)各種先進(jìn)的方式進(jìn)行存儲(chǔ)與獲取,從而更好地處理和分析大數(shù)據(jù)帶來(lái)的多樣信息資源。大數(shù)據(jù)的來(lái)源是各種各樣的,比如大數(shù)據(jù)有不同的頻率和量,大數(shù)據(jù)的速度類(lèi)型與真實(shí)性也各不相同。需要我們?cè)诖鎯?chǔ)大數(shù)據(jù)的過(guò)程中,涉及到更多方面的維度,從而更好地治理大數(shù)據(jù),保證大數(shù)據(jù)的安全性。構(gòu)建合適的大數(shù)據(jù)分類(lèi)模型需要更完備的解決對(duì)策,結(jié)合重多因素進(jìn)行處理與分類(lèi)。
關(guān)鍵詞:大數(shù)據(jù);存儲(chǔ)技術(shù);分類(lèi)模型構(gòu)建
在大數(shù)據(jù)時(shí)代下,在不同的渠道中得到的原始數(shù)據(jù)往往沒(méi)有一致性,而且數(shù)據(jù)的結(jié)構(gòu)比較混雜,數(shù)據(jù)的量也在不斷地增長(zhǎng),導(dǎo)致單機(jī)系統(tǒng)的性能不穩(wěn)定逐漸下降,不斷提升硬件配置無(wú)法保證數(shù)據(jù)的增長(zhǎng)速度。導(dǎo)致傳統(tǒng)的大數(shù)據(jù)存儲(chǔ)技術(shù)沒(méi)有可行性。大數(shù)據(jù)技術(shù)是通過(guò)非傳統(tǒng)工具進(jìn)行的對(duì)大量數(shù)據(jù)展開(kāi)結(jié)構(gòu)化處理,并構(gòu)建半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)模型,從而保證其分析和預(yù)測(cè)的數(shù)據(jù)結(jié)果更加準(zhǔn)確,有更完善的存儲(chǔ)技術(shù),本文針對(duì)大數(shù)據(jù)存儲(chǔ)技術(shù)的分類(lèi)模型構(gòu)建進(jìn)行了分析探討。
一、大數(shù)據(jù)概述
大數(shù)據(jù)的數(shù)量非常巨大,而且比較難以收集和處理,有很難分析的數(shù)據(jù)集。在傳統(tǒng)基礎(chǔ)設(shè)施中無(wú)法得到長(zhǎng)期的保存,企業(yè)中IT基礎(chǔ)設(shè)施的規(guī)模也比較龐大,因此,業(yè)內(nèi)對(duì)大數(shù)據(jù)分類(lèi)存儲(chǔ)技術(shù)的應(yīng)用有非常的期望,其中的商業(yè)信息積累越多其帶來(lái)的價(jià)值就會(huì)越大。因此,需要技術(shù)人員把數(shù)據(jù)帶來(lái)的價(jià)值挖掘出來(lái)。在大數(shù)據(jù)存儲(chǔ)分類(lèi)模型構(gòu)建技術(shù)的增長(zhǎng)下,逐漸產(chǎn)生了很多獨(dú)特的架構(gòu),也加快了大數(shù)據(jù)的存儲(chǔ)和計(jì)算技術(shù)的發(fā)展。處理大數(shù)據(jù)存儲(chǔ)需求是一個(gè)比較新的挑戰(zhàn)。往往大數(shù)據(jù)的硬件發(fā)展需要軟件推動(dòng)。因此,我們可以明顯的分析出,大數(shù)據(jù)存儲(chǔ)分類(lèi)模型應(yīng)用的需求正在影響數(shù)據(jù)的存儲(chǔ)和基礎(chǔ)設(shè)施發(fā)展。然而在不同的角度出發(fā),這對(duì)于存儲(chǔ)商與其他的IT基礎(chǔ)設(shè)施廠商也是一個(gè)新的機(jī)遇。隨著大數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)化和非結(jié)構(gòu)化,大數(shù)據(jù)的數(shù)量有了持續(xù)性的增長(zhǎng),分析數(shù)據(jù)的來(lái)源也會(huì)更加多樣化。在這之前,人們對(duì)于存儲(chǔ)系統(tǒng)的設(shè)計(jì)并不能滿足大數(shù)據(jù)應(yīng)用的要求。存儲(chǔ)商意識(shí)到后,就會(huì)修改存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì),從而更好地適應(yīng)新的要求。
二、大數(shù)據(jù)存儲(chǔ)技術(shù)分類(lèi)模型構(gòu)建意義
大數(shù)據(jù)存儲(chǔ)技術(shù)是大數(shù)據(jù)領(lǐng)域的另一個(gè)關(guān)鍵數(shù)據(jù),人們利用分布式存儲(chǔ)代替集中式存儲(chǔ),用更廉價(jià)的機(jī)器代替之前昂貴的機(jī)器,讓海量存儲(chǔ)的成本大大降低。從Bigtable開(kāi)始各式各樣的存儲(chǔ)引擎如雨后春筍興起,以下就是幾個(gè)極具代表性的大數(shù)據(jù)存儲(chǔ)引擎。
大數(shù)據(jù)存儲(chǔ)的目的是要利用大數(shù)據(jù)存儲(chǔ)器將收集到的數(shù)據(jù)有效存儲(chǔ)起來(lái),建立一個(gè)比較完善的數(shù)據(jù)庫(kù),再通過(guò)大數(shù)據(jù)的管理與調(diào)用,從而保證大數(shù)據(jù)得到存儲(chǔ)和管理。大數(shù)據(jù)存儲(chǔ)技術(shù)的研究重點(diǎn)是大數(shù)據(jù)的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的大數(shù)據(jù),從而展開(kāi)管理和處理。讓大數(shù)據(jù)實(shí)現(xiàn)存儲(chǔ)表示,可以有可靠的處理與有效的傳輸?shù)鹊?。從而?duì)大量的文件進(jìn)行存儲(chǔ)和管理,把小文件有效存儲(chǔ)和索引管理,讓系統(tǒng)有可擴(kuò)展的可靠性。Web 數(shù)據(jù)可以滿足大數(shù)據(jù)的存儲(chǔ),使大數(shù)據(jù)處理技術(shù)有更加廣泛的了解和應(yīng)用,并開(kāi)發(fā)出更多的大數(shù)據(jù)開(kāi)源工具。大數(shù)據(jù)存儲(chǔ)技術(shù)是大數(shù)據(jù)領(lǐng)域的關(guān)鍵數(shù)據(jù),可以用分布式存儲(chǔ)技術(shù)代替集中式存儲(chǔ)方法,用價(jià)格低的機(jī)器取代價(jià)格高的機(jī)器,存儲(chǔ)成本就會(huì)降低。除此之外,使用LSM技術(shù),還可以讓數(shù)據(jù)性能得到大幅度的提高。
三、大數(shù)據(jù)分類(lèi)模型構(gòu)建建設(shè)方案
互聯(lián)網(wǎng)領(lǐng)域中包含了大量的數(shù)據(jù),而且業(yè)務(wù)要求的時(shí)效有較高的要求,很多都是實(shí)時(shí)要求?;ヂ?lián)網(wǎng)行業(yè)帶來(lái)的業(yè)務(wù)有比較頻繁的變化,和傳統(tǒng)行業(yè)不同的是,使用自頂向下的方法可以建立永久的數(shù)據(jù)倉(cāng)庫(kù),新的業(yè)務(wù)也可以在短時(shí)間內(nèi)融入到數(shù)據(jù)庫(kù)中,老業(yè)務(wù)方便從現(xiàn)有的數(shù)據(jù)庫(kù)中下線。
1.數(shù)據(jù)庫(kù)的分類(lèi)模型構(gòu)建架構(gòu)
數(shù)據(jù)源是數(shù)據(jù)的主要來(lái)源,互聯(lián)網(wǎng)公司的數(shù)據(jù)來(lái)源于公司不斷擴(kuò)張的規(guī)模,會(huì)有遞增的趨勢(shì),也會(huì)有不同的業(yè)務(wù)源。數(shù)據(jù)系統(tǒng)的數(shù)據(jù)表往往會(huì)單獨(dú)存儲(chǔ)一份,稱之為ODS層,是維度建模生成的事實(shí)表與維度表層加工數(shù)據(jù)的來(lái)源,也是ODS層存儲(chǔ)歷史增量的數(shù)據(jù)或全量數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)匯總層是數(shù)據(jù)倉(cāng)庫(kù)的主題內(nèi)容。DWD和DWS層的數(shù)據(jù)是ODS層轉(zhuǎn)換加載生成的,它們往往是維度建模理論構(gòu)建成的,通過(guò)一致性維度保證子主題有一致的維度。把DWD和DWS的明細(xì)數(shù)據(jù)進(jìn)行匯總,再把結(jié)果同步到DWS數(shù)據(jù)庫(kù)的各個(gè)應(yīng)用當(dāng)中。數(shù)據(jù)采集的任務(wù)是將數(shù)據(jù)從數(shù)據(jù)源中清洗或存儲(chǔ)。首先做sdk埋點(diǎn),再實(shí)時(shí)采集訪問(wèn)數(shù)據(jù),簡(jiǎn)單清洗之后存入hdfs。數(shù)據(jù)存儲(chǔ)是在企業(yè)擴(kuò)張規(guī)模之后,大公司產(chǎn)生的數(shù)據(jù)數(shù)量可以達(dá)到PB級(jí),以往的數(shù)據(jù)庫(kù)無(wú)法滿足其存儲(chǔ)要求。在離線計(jì)算的過(guò)程中,并沒(méi)有較高的實(shí)時(shí)性要求,Hive一般是首先選擇的方法,有比較豐富的數(shù)據(jù)類(lèi)型與內(nèi)置函數(shù)。ORC/PARQUET文件存儲(chǔ)格式的壓縮比比較高,比較適合SQL支持,Hive基于結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上,會(huì)比MapReduce的統(tǒng)計(jì)分析更加高效,SQL能夠完成需求,開(kāi)發(fā)MR要上百行的代碼。在實(shí)時(shí)計(jì)算的過(guò)程中,flink是比較好的選擇,目前基本上都是支持java的。數(shù)據(jù)同步是不同數(shù)據(jù)存儲(chǔ)系統(tǒng)間進(jìn)行數(shù)據(jù)遷移的,hdfs上的業(yè)務(wù)與應(yīng)用往往會(huì)由于效率低的原因無(wú)法從HDFS上直接獲得數(shù)據(jù),需要把hdfs上的數(shù)據(jù)統(tǒng)一匯總,然后才可以有數(shù)據(jù)同步,Sqoop往往很繁重,需要啟動(dòng)MapReduce訪問(wèn)業(yè)務(wù)數(shù)據(jù)庫(kù)。HBASE的數(shù)據(jù)往往是添加式,對(duì)頻繁改動(dòng)的數(shù)據(jù)有多個(gè)副本,無(wú)法合理維護(hù)數(shù)據(jù)。
2.維度建模
維度建模是用于分析型數(shù)據(jù)庫(kù)和數(shù)據(jù)集市建模的一種方法。往往會(huì)涉及到維度和事實(shí)。維度是維度建模過(guò)程的基礎(chǔ),在維度建模時(shí)要把度量作為事實(shí),把環(huán)境作為維度,維度可以分析事實(shí)中的多樣環(huán)境。在分析交易的過(guò)程中,要通過(guò)買(mǎi)家和賣(mài)家等維度,對(duì)交易的環(huán)境進(jìn)行描述。事實(shí)是數(shù)據(jù)存儲(chǔ)分類(lèi)模型構(gòu)建的核心,會(huì)圍繞業(yè)務(wù)的過(guò)程進(jìn)行設(shè)計(jì),獲取描述業(yè)務(wù)過(guò)程,從而表達(dá)業(yè)務(wù)的過(guò)程,包括引用的維度的度量。事實(shí)表中用來(lái)記錄表達(dá)的業(yè)務(wù)細(xì)節(jié)是粒度。粒度一般有兩種表述方式,維度屬性組合表示細(xì)節(jié)的程度和具體業(yè)務(wù)的含義。
維度建模包括星形模式,是星形模式中比較常用的建模方式,星形模式的維度建模由事實(shí)表與維表組成,維表只與事實(shí)表有關(guān)系,和維表之間并沒(méi)有一定的關(guān)聯(lián)。而維表的主碼都是單列,而且主碼會(huì)放置于事實(shí)表當(dāng)中,是兩邊連接的外碼。事實(shí)表圍繞核心呈現(xiàn)星形的分布方式,雪花模式是星形模式的擴(kuò)展,維表可以向外連接多個(gè)子維表。星形模式當(dāng)中維表的雪花模式比較大,不滿足規(guī)范化的設(shè)計(jì)要求。雪花模型相是把星形模式的大維表拆分為小維表,從而可以滿足規(guī)范化的設(shè)計(jì)要求。這種模式在實(shí)際應(yīng)用過(guò)程中并不多見(jiàn),往往會(huì)導(dǎo)致開(kāi)發(fā)有比較大的難度,數(shù)據(jù)也會(huì)比較冗余。星座模式是星型模式的擴(kuò)展,維度空間內(nèi)的事實(shí)表并非一個(gè),維表可以被多個(gè)事實(shí)表用到。在業(yè)務(wù)后期的發(fā)展階段,大部分?jǐn)?shù)據(jù)分類(lèi)模型構(gòu)建都會(huì)用星座模式。
結(jié)語(yǔ):
綜上所述,大數(shù)據(jù)存儲(chǔ)與管理的技術(shù)對(duì)整個(gè)大數(shù)據(jù)系統(tǒng)都至關(guān)重要,數(shù)據(jù)存儲(chǔ)與管理的好壞直接影響了整個(gè)大數(shù)據(jù)系統(tǒng)的性能表現(xiàn)。大數(shù)據(jù)存儲(chǔ)技術(shù)分類(lèi)模型構(gòu)建是綜合性的技術(shù)。如果該企業(yè)有比較復(fù)雜的業(yè)務(wù)時(shí),需要專(zhuān)門(mén)團(tuán)隊(duì)和專(zhuān)業(yè)業(yè)務(wù)人員進(jìn)行共同合作,從而才可以完成。因此,構(gòu)建優(yōu)秀的大數(shù)據(jù)存儲(chǔ)技術(shù)分類(lèi)模型構(gòu)建一定要有堅(jiān)實(shí)的數(shù)據(jù)倉(cāng)庫(kù),也要有建模的技術(shù),同時(shí)還要對(duì)現(xiàn)實(shí)業(yè)務(wù)進(jìn)行清晰透徹的理解和分析。除此之外,大數(shù)據(jù)分類(lèi)模型的架構(gòu)并非技術(shù)越多越好的,而是要能夠滿足相關(guān)的需求,將其化繁為簡(jiǎn)形成一個(gè)穩(wěn)定的模式。
參考文獻(xiàn):
[1]陳良臣.大數(shù)據(jù)存儲(chǔ)安全的關(guān)鍵技術(shù)研究[J].集成電路應(yīng)用,2021,38(11):46-47.
[2]汪洋.大數(shù)據(jù)時(shí)代計(jì)算機(jī)軟件技術(shù)應(yīng)用研究[J].智慧中國(guó),2021(10):88-89.
[3]趙蓮蓮,張蕊.大數(shù)據(jù)背景下計(jì)算機(jī)信息技術(shù)的應(yīng)用[J].黑龍江科學(xué),2021,12(20):96-97.
[4]張宇宏,張俊玲,楊延嵩.大數(shù)據(jù)存儲(chǔ)技術(shù)分類(lèi)模型構(gòu)建[C]//中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2020年第二十四屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì)論文集.[出版者不詳],2020:32-36.
[5]史虹,鄧紅霞,曹曉葉.采用云計(jì)算的數(shù)據(jù)挖掘技術(shù)可視化教學(xué)與實(shí)驗(yàn)方案[J].實(shí)驗(yàn)室研究與探索.2021(01):89-90