• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種安全可靠大數(shù)據(jù)存儲(chǔ)平臺(tái)的設(shè)計(jì)

    2018-02-07 01:44:31譚煒波
    信息安全研究 2018年1期
    關(guān)鍵詞:開(kāi)源架構(gòu)數(shù)據(jù)庫(kù)

    蔣 旭 孫 磊 譚煒波

    1(天津市海量數(shù)據(jù)處理技術(shù)實(shí)驗(yàn)室 天津 300384)2 (天津神舟通用數(shù)據(jù)技術(shù)有限公司 北京 100094) (jiangxu@bjsasc.com)

    大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)越來(lái)越多,這對(duì)原有的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)體系結(jié)構(gòu)[1]提出了非常大的挑戰(zhàn).傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)在聯(lián)機(jī)事務(wù)處理領(lǐng)域具有豐富的理論研究成果,但隨著大數(shù)據(jù)的到來(lái),數(shù)據(jù)分析需求顯得越發(fā)強(qiáng)烈,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)原有的行式存儲(chǔ)引擎、B-Tree索引結(jié)構(gòu)[2]、行級(jí)并發(fā)訪問(wèn)控制機(jī)制等方面都不能夠滿足大數(shù)據(jù)分析的需求.同時(shí)在擴(kuò)展性方面,傳統(tǒng)的基于單機(jī)的垂直擴(kuò)展模式,已經(jīng)無(wú)法滿足目前大數(shù)據(jù)環(huán)境下計(jì)算復(fù)雜度的要求,因此要設(shè)計(jì)一種更加合理的水平擴(kuò)展機(jī)制滿足計(jì)算性能擴(kuò)展的需求.

    此外,大數(shù)據(jù)安全問(wèn)題已成為制約大數(shù)據(jù)發(fā)展的關(guān)鍵因素之一,從安全的角度考慮,大數(shù)據(jù)的到來(lái)會(huì)產(chǎn)生新的挑戰(zhàn):由于將所有的數(shù)據(jù)都存儲(chǔ)在分布式環(huán)境中,大數(shù)據(jù)對(duì)于現(xiàn)有的存儲(chǔ)和防范措施可能提出新的挑戰(zhàn);另一方面大數(shù)據(jù)更加容易成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),大數(shù)據(jù)中數(shù)據(jù)量比較大,它的信息量也比較大,而且成本比較低,所以黑客更加樂(lè)意去攻擊;大數(shù)據(jù)加大了隱私泄露的風(fēng)險(xiǎn).

    本文從深入分析和提煉大數(shù)據(jù)場(chǎng)景下的真實(shí)需求,探索能夠滿足大數(shù)據(jù)存儲(chǔ)需要的工程解決方案,滿足我國(guó)對(duì)數(shù)據(jù)庫(kù)國(guó)產(chǎn)化進(jìn)程中的需要.

    1 現(xiàn)有技術(shù)路線分析

    目前,國(guó)外大數(shù)據(jù)存儲(chǔ)領(lǐng)域主要包括兩大研究方向:以互聯(lián)網(wǎng)公司為代表的基于非關(guān)系型的NoSQL存儲(chǔ)平臺(tái)(代表產(chǎn)品為Hadoop[3-5],Cassandra等);以傳統(tǒng)數(shù)據(jù)庫(kù)廠商為代表的并行分布式數(shù)據(jù)庫(kù)存儲(chǔ)平臺(tái)(代表產(chǎn)品為Exadata[6-9],Greenplum[10],Vertical,Netezza等).

    1.1 宏觀分析

    大數(shù)據(jù)存儲(chǔ)方案的宏觀分析重點(diǎn)關(guān)注的設(shè)計(jì)指標(biāo)是存儲(chǔ)結(jié)構(gòu)、并行架構(gòu)、普適性3個(gè)方面.

    1.1.1存儲(chǔ)結(jié)構(gòu)分析

    1.1.2并行架構(gòu)分析

    國(guó)外數(shù)據(jù)庫(kù)巨頭的多機(jī)MPP并行計(jì)算發(fā)展脈絡(luò),是基于傳統(tǒng)的數(shù)據(jù)庫(kù)中的各種查詢優(yōu)化理論發(fā)展而來(lái)的,其理論積累和延續(xù)性優(yōu)于以Hadoop為代表的開(kāi)源體系.以Hadoop為代表的開(kāi)源體系的多機(jī)并行處于如何進(jìn)行復(fù)雜業(yè)務(wù)并行的階段,而數(shù)據(jù)庫(kù)體系下的商業(yè)運(yùn)營(yíng)公司在經(jīng)過(guò)幾年的培育期之后,目前已經(jīng)處于如何設(shè)計(jì)更加友好的用戶體驗(yàn)和如何讓多機(jī)并行對(duì)用戶更透明的階段.

    單主機(jī)內(nèi)的處理能力越來(lái)越強(qiáng),如何能夠更好地利用單機(jī)的性能,這也是系統(tǒng)垂直擴(kuò)展能力的體現(xiàn).這一點(diǎn)也是在當(dāng)前多機(jī)并行浪潮下,單機(jī)SMP并行非常容易被大家忽略的,在單機(jī)上的處理性能差別達(dá)到5倍甚至10倍,多機(jī)的擴(kuò)展就會(huì)顯得蒼白無(wú)力.

    1.1.3普適性分析

    無(wú)論是大數(shù)據(jù)的應(yīng)用還是傳統(tǒng)的中小型應(yīng)用系統(tǒng),數(shù)據(jù)存儲(chǔ)系統(tǒng)的普適性都是非常重要的非技術(shù)指標(biāo).互聯(lián)網(wǎng)公司的需求是確定且單一的,對(duì)于大數(shù)據(jù)中心,數(shù)據(jù)存儲(chǔ)平臺(tái)的需求是紛繁復(fù)雜的,因此存儲(chǔ)系統(tǒng)的普適性十分重要,要能夠適應(yīng)“海量存儲(chǔ)、高速裝載、檢索、統(tǒng)計(jì)、分析、更新等”各種需求,其本質(zhì)是具備自管理特性的復(fù)雜存儲(chǔ)體系.當(dāng)前開(kāi)源陣營(yíng)中的任何產(chǎn)品均是為滿足特定需求而設(shè)計(jì),難以滿足大數(shù)據(jù)中心的建設(shè)需求.傳統(tǒng)數(shù)據(jù)庫(kù)廠商在存儲(chǔ)普適性設(shè)計(jì)中具有多年商業(yè)運(yùn)營(yíng)經(jīng)驗(yàn),以O(shè)racle Exadata為代表的產(chǎn)品中的混合存儲(chǔ)結(jié)構(gòu)就說(shuō)明了這一點(diǎn).

    1.2 微觀分析

    大數(shù)據(jù)存儲(chǔ)方案微觀分析,重點(diǎn)關(guān)注的技術(shù)指標(biāo)是精確查詢、統(tǒng)計(jì)查詢、復(fù)雜查詢3方面.

    1.2.1精確查詢分析

    精確查詢方面,索引是最為重要的性能提升手段,對(duì)于精確查詢性能問(wèn)題主要集中在3個(gè)方面:索引模型、緩存模型和代價(jià)評(píng)估模型.

    索引模型:靜態(tài)索引模型較易處理,帶有更新機(jī)制和并發(fā)控制的非靜態(tài)索引,開(kāi)源引擎目前的支持大多存在設(shè)計(jì)缺陷,難以保證事務(wù)完整性.傳統(tǒng)數(shù)據(jù)庫(kù)廠商在這方面的處理具有較大的技術(shù)優(yōu)勢(shì),且Oracle等廠商也在分析型應(yīng)用方面取得了突破.

    緩存模型:開(kāi)源引擎一般都是依賴于底層文件系統(tǒng)的緩存模型進(jìn)行緩存管理.而在軟件架構(gòu)層面上,緩存設(shè)計(jì)應(yīng)更貼近計(jì)算層,其對(duì)數(shù)據(jù)熱點(diǎn)的判定更為準(zhǔn)確,傳統(tǒng)數(shù)據(jù)庫(kù)在這方面已經(jīng)取得了豐碩的研究成果.

    代價(jià)評(píng)估模型:開(kāi)源引擎還基本沒(méi)有涉及,其大多基于規(guī)則優(yōu)化引擎進(jìn)行優(yōu)化,優(yōu)化器設(shè)計(jì)較為簡(jiǎn)陋,傳統(tǒng)數(shù)據(jù)庫(kù)在代價(jià)優(yōu)化方面已經(jīng)積累了豐富的理論和實(shí)踐經(jīng)驗(yàn),在代價(jià)評(píng)估方面開(kāi)源引擎也必然要經(jīng)歷傳統(tǒng)數(shù)據(jù)庫(kù)漫長(zhǎng)的歷史演進(jìn)過(guò)程.

    對(duì)于將來(lái)TB級(jí)大內(nèi)存大行其道的時(shí)候,更加精細(xì)化的索引模型和緩存策略必然成為主要的技術(shù)難點(diǎn),而開(kāi)源產(chǎn)品在這方面的積累十分有限,因此給后續(xù)的研發(fā)工作帶來(lái)一定的困難.

    1.2.2統(tǒng)計(jì)查詢分析

    統(tǒng)計(jì)查詢方面,存儲(chǔ)平臺(tái)的吞吐量十分關(guān)鍵,提升吞吐量主要有2種技術(shù)手段:水平擴(kuò)展性和垂直擴(kuò)展性.

    水平擴(kuò)展性:原來(lái)Hadoop等開(kāi)源平臺(tái)的發(fā)展初期,在水平擴(kuò)展性方面優(yōu)于傳統(tǒng)數(shù)據(jù)庫(kù),也是其主要優(yōu)勢(shì)所在,但經(jīng)過(guò)這么多年的發(fā)展,以Share-Nothing為代表的MPP并行數(shù)據(jù)庫(kù)產(chǎn)品的出現(xiàn),已經(jīng)吞噬了這一優(yōu)勢(shì).

    垂直擴(kuò)展性:開(kāi)源平臺(tái)要遠(yuǎn)差于傳統(tǒng)數(shù)據(jù)庫(kù),我們?cè)?jīng)做過(guò)一個(gè)實(shí)際測(cè)試,對(duì)比了當(dāng)前Hadoop平臺(tái)中使用較廣的一種存儲(chǔ)引擎Lucene和國(guó)內(nèi)數(shù)據(jù)庫(kù)廠商的HCC壓縮存儲(chǔ)引擎.在影響統(tǒng)計(jì)查詢性能十分關(guān)鍵的表掃描操作性能中,單線程Lucene的掃描性能不到100萬(wàn)行秒,而HCC壓縮存儲(chǔ)引擎的掃描性能為550萬(wàn)行秒.這種性能的差距是無(wú)法利用水平擴(kuò)展和廉價(jià)設(shè)備所能彌補(bǔ)的.

    1.2.3復(fù)雜查詢分析

    面向復(fù)雜查詢,當(dāng)前開(kāi)源陣營(yíng)中最為出色的當(dāng)屬Hive和Pig,但其計(jì)算性能也被業(yè)界所詬病.由于其優(yōu)化器簡(jiǎn)陋,缺乏合理的理論支撐,僅能滿足復(fù)雜查詢分析的功能需求,在性能表現(xiàn)方面不盡人意.在開(kāi)源陣營(yíng)內(nèi)部也出現(xiàn)了各種聲討Hive的聲音,但對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)幾十年發(fā)展而來(lái)的復(fù)雜查詢優(yōu)化經(jīng)驗(yàn),不是開(kāi)源陣營(yíng)幾年時(shí)間可以達(dá)到的,其道路還是十分漫長(zhǎng)的.

    綜上所述,傳統(tǒng)數(shù)據(jù)庫(kù)廠商的技術(shù)發(fā)展路線更加符合國(guó)產(chǎn)數(shù)據(jù)庫(kù)的技術(shù)脈絡(luò),同時(shí)其在接口標(biāo)準(zhǔn)化程度、產(chǎn)品通用性、性能優(yōu)化技術(shù)的理論成熟度和產(chǎn)品發(fā)展的集約型程度等方面都要優(yōu)于互聯(lián)網(wǎng)公司的NoSQL相關(guān)產(chǎn)品,因此本次大數(shù)據(jù)存儲(chǔ)平臺(tái)將主要依托于此技術(shù)路線進(jìn)行設(shè)計(jì)與實(shí)現(xiàn).

    2 平臺(tái)設(shè)計(jì)

    依據(jù)技術(shù)路線分析,大數(shù)據(jù)存儲(chǔ)平臺(tái)采用國(guó)外商用數(shù)據(jù)庫(kù)廠商的技術(shù)路線進(jìn)行頂層設(shè)計(jì),將大數(shù)據(jù)存儲(chǔ)平臺(tái)劃分為4個(gè)系統(tǒng),分別為:平臺(tái)中心服務(wù)系統(tǒng)、平臺(tái)元數(shù)據(jù)存儲(chǔ)系統(tǒng)、平臺(tái)代理服務(wù)系統(tǒng)和平臺(tái)存儲(chǔ)訪問(wèn)系統(tǒng).

    2.1 平臺(tái)軟件架構(gòu)

    平臺(tái)軟件架構(gòu)設(shè)計(jì)時(shí),充分利用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)已有的基于代價(jià)的查詢優(yōu)化技術(shù)、SMP優(yōu)化技術(shù)、緩存優(yōu)化技術(shù),設(shè)計(jì)并實(shí)現(xiàn)基于Share-Nothing的MPP平臺(tái)架構(gòu).在存儲(chǔ)引擎層面采用了行列混合存儲(chǔ)模型對(duì)原有的行式存儲(chǔ)引擎進(jìn)行改造,整個(gè)平臺(tái)的總體軟件架構(gòu)如圖1所示.

    在大數(shù)據(jù)平臺(tái)的總體架構(gòu)中,平臺(tái)中心服務(wù)系統(tǒng)相當(dāng)于平臺(tái)的“大腦”.通過(guò)多機(jī)并行優(yōu)化引擎,實(shí)現(xiàn)MPP并行流水線計(jì)劃的生成與下發(fā),并通過(guò)異步高速通信引擎實(shí)現(xiàn)對(duì)執(zhí)行狀態(tài)的統(tǒng)一控制和管理.其通過(guò)統(tǒng)一的元數(shù)據(jù)管理策略,實(shí)現(xiàn)了外部應(yīng)用透明化.對(duì)外提供統(tǒng)一的單一接入點(diǎn),實(shí)現(xiàn)對(duì)分布式表的各種存儲(chǔ)模型管理.圖2所示為平臺(tái)中心服務(wù)的系統(tǒng)架構(gòu).

    圖1 大數(shù)據(jù)存儲(chǔ)平臺(tái)總體架構(gòu)

    圖2 平臺(tái)中心服務(wù)系統(tǒng)架構(gòu)

    代理服務(wù)系統(tǒng)主要完成對(duì)平臺(tái)中心服務(wù)系統(tǒng)下發(fā)任務(wù)的執(zhí)行,設(shè)計(jì)平臺(tái)代理服務(wù)系統(tǒng)的目的主要是為了分解平臺(tái)中心服務(wù)系統(tǒng)的壓力,使其不負(fù)責(zé)任務(wù)執(zhí)行,避免單一主節(jié)點(diǎn)成為性能瓶頸點(diǎn).平臺(tái)代理服務(wù)系統(tǒng)采用在每個(gè)處理節(jié)點(diǎn)內(nèi)獨(dú)立部署的模式,其功能也較為簡(jiǎn)單,主要包括任務(wù)執(zhí)行、資源管理、數(shù)據(jù)交換、心跳檢測(cè)和網(wǎng)絡(luò)管理幾個(gè)部分,具體總體系統(tǒng)架構(gòu)圖如圖3所示:

    圖3 平臺(tái)代理服務(wù)系統(tǒng)架構(gòu)

    圖4 平臺(tái)存儲(chǔ)訪問(wèn)系統(tǒng)架構(gòu)

    平臺(tái)存儲(chǔ)訪問(wèn)系統(tǒng)負(fù)責(zé)執(zhí)行平臺(tái)代理服務(wù)系統(tǒng)下發(fā)的所有任務(wù),是大數(shù)據(jù)平臺(tái)中唯一具有真實(shí)運(yùn)算能力的系統(tǒng).大數(shù)據(jù)具有靜態(tài)半靜態(tài)的特征,并且其查詢需求混合了檢索類和統(tǒng)計(jì)類2種不同需求,因此需要在存儲(chǔ)、檢索和統(tǒng)計(jì)方面的性能和建設(shè)成本方面進(jìn)行重點(diǎn)設(shè)計(jì).

    本文針對(duì)大數(shù)據(jù)實(shí)際應(yīng)用場(chǎng)景的實(shí)際需求,提出的改進(jìn)點(diǎn)[11-13]主要包括:

    1) 大數(shù)據(jù)存儲(chǔ)優(yōu)化技術(shù).采用行列混合壓縮(HCC)技術(shù),對(duì)數(shù)據(jù)進(jìn)行壓縮存儲(chǔ),降低數(shù)據(jù)存儲(chǔ)成本,同時(shí)提升IO為主要瓶頸的統(tǒng)計(jì)分析類查詢的執(zhí)行性能.

    2) 大數(shù)據(jù)索引優(yōu)化技術(shù).針對(duì)面向大數(shù)據(jù)場(chǎng)景設(shè)計(jì)的HCC壓縮引擎,建立智能索引、Hash索引等特有索引優(yōu)化手段,使得壓縮態(tài)數(shù)據(jù)可以達(dá)到與非壓縮態(tài)數(shù)據(jù)同樣的查詢響應(yīng)時(shí)間.

    3) 大數(shù)據(jù)檢索優(yōu)化技術(shù).設(shè)計(jì)針對(duì)在大數(shù)據(jù)場(chǎng)景下,高并發(fā)類精確檢索查詢的優(yōu)化手段(例如:電信網(wǎng)上營(yíng)業(yè)廳的清單查詢等).

    4) 節(jié)點(diǎn)內(nèi)多核SMP并行計(jì)算技術(shù).主要用來(lái)解決統(tǒng)計(jì)分析類查詢執(zhí)行效率低下的問(wèn)題.

    根據(jù)上述改進(jìn)策略,基于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行改造后的平臺(tái)存儲(chǔ)訪問(wèn)系統(tǒng)的系統(tǒng)架構(gòu)如圖4所示:

    2.2 平臺(tái)拓?fù)浼軜?gòu)

    大數(shù)據(jù)存儲(chǔ)平臺(tái)采用了基于MPP的Share-Nothing架構(gòu),因此在拓?fù)浼軜?gòu)中也同樣具備這一特點(diǎn).平臺(tái)內(nèi)的各系統(tǒng)部署在每個(gè)獨(dú)立存儲(chǔ)服務(wù)器內(nèi),并通過(guò)千兆或萬(wàn)兆網(wǎng)絡(luò)進(jìn)行點(diǎn)對(duì)點(diǎn)連通.每個(gè)存儲(chǔ)節(jié)點(diǎn)具有自己獨(dú)立計(jì)算和存儲(chǔ)資源,最大限度地發(fā)揮多機(jī)并行的處理優(yōu)勢(shì),圖5所示為平臺(tái)拓?fù)浼軜?gòu):

    圖5 平臺(tái)拓?fù)浼軜?gòu)

    2.3 關(guān)鍵技術(shù)及解決思路

    2.3.1MPP多機(jī)并行查詢技術(shù)

    本文所使用的是基于Share-Nothing的無(wú)共享分布式設(shè)計(jì)架構(gòu),無(wú)共享架構(gòu)的優(yōu)點(diǎn)在于可以充分利用每個(gè)計(jì)算和存儲(chǔ)單元的性能,實(shí)現(xiàn)吞吐量的最大化.同時(shí)無(wú)共享架構(gòu)在全數(shù)據(jù)分析中不可避免地需要進(jìn)行數(shù)據(jù)分發(fā)操作,降低數(shù)據(jù)分發(fā)流量是多機(jī)并行計(jì)算架構(gòu)設(shè)計(jì)的重點(diǎn).本文的大數(shù)據(jù)存儲(chǔ)平臺(tái)的設(shè)計(jì)方案如圖6所示.

    該設(shè)計(jì)方案采用MOVE CODE TO DATA的優(yōu)化策略,即將計(jì)算放到各數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn),實(shí)現(xiàn)低網(wǎng)絡(luò)負(fù)載設(shè)計(jì),通過(guò)頂層設(shè)計(jì),在算子級(jí)別對(duì)計(jì)算進(jìn)行分解,形成更細(xì)粒度的可下降多節(jié)點(diǎn)的并行執(zhí)行算子;MPP并行的分布式計(jì)算規(guī)則較為復(fù)雜,下面以分組統(tǒng)計(jì)為樣例,描述一下本方案中設(shè)計(jì)的分布式計(jì)算過(guò)程,具體計(jì)算過(guò)程如圖7所示.

    圖6 MPP并行計(jì)算設(shè)計(jì)思想

    圖7 多機(jī)并行分組計(jì)算流程圖

    首先,將查詢請(qǐng)求分發(fā)到每個(gè)數(shù)據(jù)處理節(jié)點(diǎn)上,并在每個(gè)處理節(jié)點(diǎn)執(zhí)行查詢,生成中間統(tǒng)計(jì)結(jié)果;

    其次,每個(gè)數(shù)據(jù)節(jié)點(diǎn)的代理服務(wù),將各節(jié)點(diǎn)的統(tǒng)計(jì)結(jié)果,按照分組列Hash并進(jìn)行P2P分發(fā),使得相同分組間的中間統(tǒng)計(jì)結(jié)果分布到同一節(jié)點(diǎn)內(nèi);

    最后,在每個(gè)節(jié)點(diǎn)內(nèi)完成最終的分組統(tǒng)計(jì)計(jì)算.

    2.3.2多租戶的數(shù)據(jù)隔離

    圖8為神通安全數(shù)據(jù)庫(kù)集群系統(tǒng)在多租戶環(huán)境下實(shí)現(xiàn)數(shù)據(jù)隔離的組件模塊,包括2個(gè)在特權(quán)域Domain0中的軟件模塊:1個(gè)針對(duì)數(shù)據(jù)隔離;另1個(gè)針對(duì)網(wǎng)絡(luò)隔離;此外包括1個(gè)標(biāo)記服務(wù)(labeling service)部署在底層共享存儲(chǔ)設(shè)備上;另外針對(duì)每個(gè)用戶部署1個(gè)系統(tǒng)內(nèi)核級(jí)信息流追蹤組件,安裝在所有愿意使用用戶實(shí)例上.

    圖8 集群系統(tǒng)的安全隔離框架

    通過(guò)Domain0來(lái)管理系統(tǒng),云租戶可以指定安全策略并運(yùn)用部署在云服務(wù)提供商那里的標(biāo)記服務(wù)來(lái)自動(dòng)分配標(biāo)記到他們的數(shù)據(jù),這樣,就可以追蹤所有在租戶實(shí)例內(nèi)進(jìn)程和文件之間的信息流,如果租戶的數(shù)據(jù)不符合規(guī)定地流向了另一個(gè)租戶的虛擬機(jī)或是云外的網(wǎng)絡(luò),Domain0里的執(zhí)行組件就會(huì)終止類似的數(shù)據(jù)交換.網(wǎng)絡(luò)隔離組件主要干擾對(duì)共享硬件資源的多租戶探測(cè):通過(guò)中央數(shù)據(jù)庫(kù)重寫租戶虛擬實(shí)例的IP地址,首先阻止攻擊者探測(cè)租戶的真實(shí)IP地址,同時(shí)調(diào)節(jié)ping值返回時(shí)間,使得同一臺(tái)物理主機(jī)上虛擬機(jī)之間的ping時(shí)間值和不同物理主機(jī)之間的ping時(shí)間值是相同的.

    2.3.3稀疏索引技術(shù)

    本文在大數(shù)據(jù)索引技術(shù)上,揚(yáng)棄了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的行級(jí)索引機(jī)制,而是設(shè)計(jì)并使用了基于壓縮包級(jí)別的稀疏索引技術(shù).基于稀疏索引技術(shù),可以最大限度地降低索引的大小,從而使得檢索操作更多地利用內(nèi)存進(jìn)行.本文設(shè)計(jì)了智能索引,用于解決近似有序列檢索問(wèn)題,其設(shè)計(jì)原理如圖9所示.

    在此基礎(chǔ)上進(jìn)一步發(fā)展,設(shè)計(jì)了基于包級(jí)別的Hash,其主要目的是替代傳統(tǒng)B-Tree索引,具體設(shè)計(jì)原理如圖10所示.

    圖9 智能索引設(shè)計(jì)原理

    圖10 稀疏Sparse Bitmap哈希索引原理圖

    通過(guò)此改進(jìn)設(shè)計(jì),使得基于K-V檢索的索引大小降低90%以上,有效地提高了內(nèi)存利用率和大數(shù)據(jù)檢索性能.

    2.3.4基于負(fù)載均衡調(diào)整的在線擴(kuò)展技術(shù)

    本文設(shè)計(jì)了基于二級(jí)數(shù)據(jù)分發(fā)映射的數(shù)據(jù)分布架構(gòu),以保證大數(shù)據(jù)存儲(chǔ)平臺(tái)中的各種數(shù)據(jù)分布模型均可實(shí)現(xiàn)不移動(dòng)數(shù)據(jù)的在線平滑擴(kuò)展模式,二級(jí)分發(fā)的設(shè)計(jì)原理如圖11所示:

    圖11 二級(jí)分發(fā)映射設(shè)計(jì)原理圖

    3 應(yīng)用測(cè)試驗(yàn)證

    以某電信集團(tuán)公司無(wú)線網(wǎng)絡(luò)優(yōu)化平臺(tái)實(shí)際應(yīng)用場(chǎng)景為基礎(chǔ)測(cè)試支撐,在數(shù)據(jù)裝載、壓縮比、數(shù)據(jù)統(tǒng)計(jì)、精確查詢和DML等主要指標(biāo)對(duì)基于本方案實(shí)現(xiàn)的大數(shù)據(jù)平臺(tái)和國(guó)外同類產(chǎn)品進(jìn)行了較為全面的測(cè)試對(duì)比驗(yàn)證.如表1~8所示.

    表1 數(shù)據(jù)裝載性能對(duì)比

    表2 壓縮比對(duì)比

    表3 小時(shí)級(jí)匯總統(tǒng)計(jì)性能對(duì)比

    表4 天級(jí)匯總統(tǒng)計(jì)性能對(duì)比

    表5 周級(jí)匯總統(tǒng)計(jì)性能對(duì)比

    表6 精確查詢性能對(duì)比

    表7 數(shù)據(jù)刪除性能對(duì)比

    表8 數(shù)據(jù)更改性能對(duì)比

    4 結(jié) 論

    本文針對(duì)通用關(guān)系數(shù)據(jù)庫(kù)發(fā)展階段,提出了一種實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)平臺(tái)的衍生設(shè)計(jì)方案,通過(guò)應(yīng)用測(cè)試驗(yàn)證表明:

    1) 基于低網(wǎng)絡(luò)負(fù)載優(yōu)化技術(shù)的MPP架構(gòu),使得平臺(tái)具備多機(jī)并行計(jì)算能力;

    2) 設(shè)計(jì)了一種在多機(jī)環(huán)境下基于多租戶的安全機(jī)制;

    3) 基于稀疏索引技術(shù),提升了平臺(tái)在大數(shù)據(jù)場(chǎng)景下的精確查詢性能;

    4) 基于負(fù)載均衡調(diào)整的在線擴(kuò)展技術(shù),使得平臺(tái)具備在線水平擴(kuò)展能力.

    因此本文所提出的大數(shù)據(jù)存儲(chǔ)平臺(tái),能夠適應(yīng)目前大數(shù)據(jù)中心建設(shè)需求,具有一定工程應(yīng)用價(jià)值,在一定程度上提升了國(guó)產(chǎn)大數(shù)據(jù)產(chǎn)品的競(jìng)爭(zhēng)力.

    [1]Garcia-Molina H, Ullman J D, Widom J. Database System Implementation[M]. Englewood Cliffs, NJ: Prentice Hall, 2000

    [2]Bitmap Index vs. B-tree Index: Which and When[EB/OL]. [2017-12-15]. http://www.oracle.com/technetwork/articles/sharma-indexes-093638.html

    [3]Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data[J]. ACM Trans on Computer Systems, 2008, 26(2): 4-6

    [4]Ghemawat S, Gobioff H, Leung S T. The Google file system[J]. Communications of the ACM, 2003, 37(5): 29-43

    [5]Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113

    [6]Osborne K, Johnson R, P?der T. Expert Oracle Exadata[M]. Apress, 2011

    [7]張瑞. Oracle Exadata技術(shù)淺析[EB/OL]. [2017-12-15]. http://www.hellodb.net/2010/02/oracle_exadata.html

    [8]Oracle, Oracle Exadata Database Machine Technical Whitepaper[EB/OL]. [2017-12-15]. http://www.oracle.com/technetwork/server-storage/engineered-systems/exadata/exadata-technical-whitepaper-134575.pdf

    [9]Oracle Exadata Database Machine [EB/OL]. [2017-12-15]. http://www.oracle.com/us/products/database/exadata/overview/index.html

    [10]EMC. Greenplum數(shù)據(jù)庫(kù)技術(shù)白皮書(shū)[EB/OL]. [2017-12-15]. http://www.greenplum.com/products/greenplum-database

    [11]馮柯. 邁向100TB:電信業(yè)海量數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)庫(kù)實(shí)踐[EB/OL]. [2017-12-15]. http://wenku.it168.com/d_00000700.shtml

    [12]北京寰信通科技有限公司. SYBASE IQ紅寶書(shū)[M]. 北京: 中國(guó)水利水電出版社, 2008

    [13]System Administration Guide: Volume 1 [EB/OL]. [2017-12-15]. http://infocenter.sybase.com/help/topic/com.sybase.infocenter.dc00170.1540/doc/html/title.html

    猜你喜歡
    開(kāi)源架構(gòu)數(shù)據(jù)庫(kù)
    基于FPGA的RNN硬件加速架構(gòu)
    功能架構(gòu)在電子電氣架構(gòu)開(kāi)發(fā)中的應(yīng)用和實(shí)踐
    汽車工程(2021年12期)2021-03-08 02:34:30
    五毛錢能買多少頭牛
    LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
    數(shù)據(jù)庫(kù)
    大家說(shuō):開(kāi)源、人工智能及創(chuàng)新
    開(kāi)源中國(guó)開(kāi)源世界高峰論壇圓桌會(huì)議縱論開(kāi)源與互聯(lián)網(wǎng)+創(chuàng)新2.0
    數(shù)據(jù)庫(kù)
    數(shù)據(jù)庫(kù)
    數(shù)據(jù)庫(kù)
    龙口市| 普陀区| 称多县| 南皮县| 郎溪县| 保康县| 吴江市| 进贤县| 郓城县| 永州市| 绥江县| 上林县| 兴业县| 织金县| 江城| 弋阳县| 鹤山市| 垫江县| 武鸣县| 潜江市| 秭归县| 武平县| 呼伦贝尔市| 东乌珠穆沁旗| 合肥市| 元氏县| 工布江达县| 白水县| 驻马店市| 崇义县| 宽甸| 三亚市| 日照市| 博客| 田阳县| 正定县| 达州市| 南靖县| 沙雅县| 通辽市| 南昌县|