李蓉蓉
(廣東科技學(xué)院,廣東 東莞 523000)
伴隨著超大規(guī)模集成電路技術(shù)與微處理技術(shù)的發(fā)展,計(jì)算機(jī)運(yùn)算能力得到明顯的提升,同時(shí),運(yùn)算速度的提升也對(duì)計(jì)算機(jī)存儲(chǔ)性能提出了更高的要求,出現(xiàn)了運(yùn)算速度與存儲(chǔ)速度不協(xié)調(diào)的現(xiàn)象,導(dǎo)致“存儲(chǔ)墻”問題產(chǎn)生[1-2]。國內(nèi)相關(guān)學(xué)者早對(duì)并行數(shù)據(jù)庫技術(shù)進(jìn)行了研究,指出并行數(shù)據(jù)庫大多采用關(guān)系數(shù)據(jù)模型,以集群的方式來完成數(shù)據(jù)的并行存儲(chǔ)與優(yōu)化;同時(shí)能夠提供SQL 查詢的能力,具有較好的數(shù)據(jù)查詢效果。但其主要問題在于數(shù)據(jù)處理的彈性較差,且并行數(shù)據(jù)庫技術(shù)的容錯(cuò)能力較差,查詢過程需要具有一定的連續(xù)性,在大規(guī)模數(shù)據(jù)增長的條件下容易發(fā)生錯(cuò)誤[3-4]。戴紫彬等人對(duì)高效并行處理架構(gòu)進(jìn)行了研究,使用統(tǒng)計(jì)建模的方式,以時(shí)間綜合性能為指標(biāo),建立了三路異構(gòu)并行處理架構(gòu),這一研究方式提高了數(shù)據(jù)處理器的靈活性,但并未討論數(shù)據(jù)并行存儲(chǔ)模式等具體計(jì)算細(xì)節(jié)[5]。董振興等人對(duì)多路高速載荷數(shù)據(jù)的自主存儲(chǔ)和并行接收方式進(jìn)行了研究,提出總線并行擴(kuò)展方案,并對(duì)四級(jí)流水線操作需求進(jìn)行了詳細(xì)分析,該方法能夠滿足高速數(shù)據(jù)的存儲(chǔ)要求,但存儲(chǔ)容量小[6]。
針對(duì)上述研究存在的問題,本文提出一種加密環(huán)境下大數(shù)據(jù)特征集并行存儲(chǔ)方法。實(shí)驗(yàn)結(jié)果表明,所提并行存儲(chǔ)方法具有較好的性能,為數(shù)據(jù)處理深入研究提供了參考依據(jù)。
對(duì)大數(shù)據(jù)特征集進(jìn)行優(yōu)化分布時(shí),具有相同時(shí)間段標(biāo)記的特征集可以被映射到相同的數(shù)據(jù)節(jié)點(diǎn)上,且這些數(shù)據(jù)能夠用于MMSE 計(jì)算[7-9]。為此,采用MMSE 算法進(jìn)行大數(shù)據(jù)特征集的并行化處理,具體過程如下:
假設(shè)原始數(shù)據(jù)通道數(shù)量為g,相對(duì)應(yīng)的時(shí)間序列可表示為其中,i=1,2,…,g,每一維度上的時(shí)間序列對(duì)應(yīng)N個(gè)數(shù)據(jù)點(diǎn)。將尺度因子表示為δ,以此為基礎(chǔ)構(gòu)建多變量時(shí)間特征序列則有:
式中,當(dāng)δ=1 時(shí),時(shí)間特征序列即為原始序列。
式中,i=1,2,…,n,n=max{Q}×max{α}。以某一點(diǎn)為原點(diǎn),計(jì)算其與之間的距離,表示為:
將每個(gè)i值的計(jì)算事件表示為Si,給定閾值ψ,若則事件Si發(fā)生的概率為:
得出的事件Si發(fā)生的概率可以表示所有復(fù)合延遲數(shù)據(jù)矩陣與原點(diǎn)的關(guān)系,同時(shí)也可以表示多變量時(shí)間特征序列的變化規(guī)律。擴(kuò)展上述i的取值為k+1,重復(fù)上述式(1)~式(4)的步驟,可以得到事件Si+1發(fā)生的概率由此則可計(jì)算得大數(shù)據(jù)特征集的并行處理結(jié)果,表示為:
式中,MME(Q,α,ψ,i)為并行樣本數(shù)據(jù)特征集的熵值。
對(duì)大數(shù)據(jù)特征集進(jìn)行加密處理,將數(shù)據(jù)特征集進(jìn)行分塊處理,分塊記為F,對(duì)每一分塊進(jìn)行加密,密鑰M記為F的哈希值的低128位,則加密過程可以表示為:
在上述加密環(huán)境下,假定T為一次性批量插入的記錄總數(shù),K為分裂桶的閾值,b為通道容量,那么對(duì)于T條記錄的插入應(yīng)該增加的桶數(shù)目為:
根據(jù)當(dāng)前待分裂桶的位置P0,有如下兩種情況。
1)P0+BT<2N時(shí):
①使用一個(gè)線程分裂第P0號(hào)桶到P0+BT-1號(hào)桶,其中,P0號(hào)桶的元素分裂到P0+i號(hào)桶和B+i號(hào)桶,i=0,1,2,…,BT-1;
②Pn=P0+BTmod2N;
③所有線程并行地將T條記錄插入到Hash表的第0號(hào)桶到第B+BT-1號(hào)桶。
2)P0+BT≥2N時(shí):
①使用Hash函數(shù)hN+1分裂P0到2N-1號(hào)桶,使用Hash函數(shù)hN+2分裂第0號(hào)到第BT-(2N-P0)-1號(hào)桶;
②Pn=P0+BTmod2N;
③所有線程并行地將T條記錄插入到Hash表的第0號(hào)桶到第BT-(2N-P0)-1號(hào)桶。
在T個(gè)記錄并行插入過程中,由磁盤緩沖區(qū)的鎖保證插入相同的桶時(shí)不產(chǎn)生互斥問題。
在批量Hash索引插入的基礎(chǔ)上,對(duì)大數(shù)據(jù)特征集并行存儲(chǔ)進(jìn)行研究,給出了特征集并行存儲(chǔ)流程如下:
實(shí)時(shí)對(duì)數(shù)據(jù)流端口進(jìn)行監(jiān)測,在接收到用戶端存儲(chǔ)申請(qǐng)時(shí),對(duì)大數(shù)據(jù)特征集進(jìn)行分類處理,基于Map 函數(shù)在空閑工作進(jìn)程中對(duì)數(shù)據(jù)進(jìn)行映射處理,判斷映射處理是否完畢,若映射完畢,則可完成對(duì)大數(shù)據(jù)特征集的并行存儲(chǔ)。
在Matlab 環(huán)境下設(shè)計(jì)仿真實(shí)驗(yàn),驗(yàn)證本文方法的可行性和有效性。實(shí)驗(yàn)硬件環(huán)境采用Intel Pentium IV CPU 2.4 GHz,內(nèi)存為32 GB;軟件環(huán)境采用C/S 系統(tǒng)模式,Windows XP 操作系統(tǒng)。對(duì)大數(shù)據(jù)特征集采集過程中,每一個(gè)采集波門的數(shù)據(jù)設(shè)置為一幀數(shù)據(jù),使用數(shù)據(jù)幀為單位進(jìn)行存儲(chǔ)。
選取實(shí)驗(yàn)分析指標(biāo)為:存儲(chǔ)通道一致性、存儲(chǔ)速度、存儲(chǔ)容量。
本文在對(duì)大數(shù)據(jù)特征集進(jìn)行并行化MMSE 計(jì)算時(shí),多通道數(shù)據(jù)分布是其中重要的步驟。在采樣率為1.5 GSPS 和 500 MSPS 的情況下,計(jì)算 3 個(gè)隨機(jī)數(shù)據(jù)通道之間的時(shí)間差值,如圖1和圖2所示。
圖1 1.5 GSPS 采樣率下時(shí)域圖Fig.1 Time domain wave diagram at sampling rate of 1.5 GSPS
圖2 500 MSPS 采樣率下時(shí)域圖Fig.2 Time domain wave diagram at sampling rate of 500 MSPS
分析圖1、圖2可以看出,在1.5 GSPS 采樣率條件下,通道1、通道2 和通道3 均在20 s 時(shí)數(shù)據(jù)特征集達(dá)到第一個(gè)最大值點(diǎn);而在500 MSPS 采樣率條件下,通道1、通道2 和通道3 數(shù)據(jù)特征集的最大值點(diǎn)均為80 s。說明在不同的采樣率條件下,使用本文方法進(jìn)行采樣,不同通道均會(huì)在同一采樣時(shí)間下數(shù)據(jù)特征達(dá)到最大值,進(jìn)一步表明了各通道之間的一致性,驗(yàn)證了本文研究方法的可行性。
對(duì)本文方法與文獻(xiàn)[6]方法的存儲(chǔ)速度進(jìn)行對(duì)比,結(jié)果如表1所示。分析表1可以看出,本文方法的最大存儲(chǔ)速度為399 f/s,最小存儲(chǔ)速度為299 f/s;而文獻(xiàn)[6]方法的最大存儲(chǔ)速度為341 f/s,最小存儲(chǔ)速度為100 f/s。兩種方法的數(shù)據(jù)存儲(chǔ)速度具有明顯的差距,證明了本文方法在數(shù)據(jù)存儲(chǔ)速度方面具有優(yōu)越性。
為了進(jìn)一步證明本文方法的實(shí)用性,對(duì)本文方法與文獻(xiàn)[7]方法的存儲(chǔ)容量進(jìn)行對(duì)比,結(jié)果如圖3所示。將存儲(chǔ)容量劃分為10 個(gè)級(jí)別,級(jí)別越高表明存儲(chǔ)容量越大。
表1 存儲(chǔ)速度對(duì)比Table 1 Comparison of storage speed of two methods
圖3 存儲(chǔ)容量對(duì)比Fig.3 Comparison of storage capacity of two methods
分析圖3可以看出,本文方法的存儲(chǔ)級(jí)別普遍高于文獻(xiàn)[7]方法,在存儲(chǔ)時(shí)間為20 s 時(shí),兩種方法的存儲(chǔ)級(jí)別差距最大,本文方法的存儲(chǔ)級(jí)別基本接近9,而文獻(xiàn)[7]方法的存儲(chǔ)級(jí)別約為2。由此可以看出,本文方法能夠很好地完成大數(shù)據(jù)特征集的并行存儲(chǔ)。
通過上述的實(shí)驗(yàn)對(duì)比分析可知,本文方法的通道一致性、存儲(chǔ)速度以及存儲(chǔ)容量的性能均優(yōu)于其他的傳統(tǒng)方法,說明本文方法具有較高的實(shí)際應(yīng)用價(jià)值。
本文提出一種加密環(huán)境下大數(shù)據(jù)特征集并行存儲(chǔ)方法,采用MMSE 算法對(duì)大數(shù)據(jù)特征集進(jìn)行并行處理,在處理后的數(shù)據(jù)中插入批量Hash 索引,以此為基礎(chǔ),給出具體的大數(shù)據(jù)特征集并行存儲(chǔ)流程圖。實(shí)驗(yàn)結(jié)果表明,本文所提方法的數(shù)據(jù)通道的一致性較強(qiáng),且存儲(chǔ)速度快,容量大,表明本文方法具有較好的可行性。