王磊,陳 磊,張明儒,魏 敏,李晉先
(1.國網(wǎng)新源控股有限公司,北京 100761;2.河北豐寧抽水蓄能有限公司,河北豐寧 068350)
數(shù)據(jù)存儲(chǔ)與信息指令查詢共同構(gòu)成了數(shù)據(jù)庫查詢制。數(shù)據(jù)庫的基本類型分為集中式數(shù)據(jù)庫和分布式數(shù)據(jù)庫式[1]。其中,集中式數(shù)據(jù)庫具有內(nèi)模式、外模式兩種組成形式。其構(gòu)成形式相對較為簡單,在執(zhí)行查詢指令時(shí),無需額外處理傳輸信息參量,只需按照既定執(zhí)行順序,按需存儲(chǔ)數(shù)據(jù)文件;分布式數(shù)據(jù)庫則不具備直接執(zhí)行查詢指令的功能,為保證信息文件的傳輸準(zhǔn)確性,系統(tǒng)主機(jī)必須借助多個(gè)數(shù)據(jù)載體模塊。在記錄信息傳輸行為的同時(shí),提取必要的數(shù)據(jù)文本,從而使得整個(gè)數(shù)據(jù)庫體系始終保持相對完整的存儲(chǔ)狀態(tài)[2]。
由于非結(jié)構(gòu)化數(shù)據(jù)的連接結(jié)構(gòu)具有多變性,數(shù)據(jù)庫主機(jī)難以進(jìn)行信息轉(zhuǎn)存。這也是導(dǎo)致單位時(shí)間內(nèi)數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值不能達(dá)到預(yù)期水平標(biāo)準(zhǔn)的主要原因。為更好地解決上述問題,傳統(tǒng)I/O 模擬器存儲(chǔ)網(wǎng)絡(luò)根據(jù)哈希算法區(qū)分?jǐn)?shù)據(jù)信息,再根據(jù)半連接原則,將這些文件參量轉(zhuǎn)存至既定的數(shù)據(jù)庫主機(jī)之中[3]。然而此系統(tǒng)的作用能力有限,并不能完全滿足實(shí)際應(yīng)用需求。基于此,引入數(shù)據(jù)庫查詢思想,設(shè)計(jì)了一種新型的非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)。
數(shù)據(jù)融合存儲(chǔ)系統(tǒng)的非結(jié)構(gòu)化框架是完整的三級連接形式,即基礎(chǔ)存儲(chǔ)層、平臺(tái)服務(wù)層與業(yè)務(wù)應(yīng)用層。其中,基礎(chǔ)存儲(chǔ)層在非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)的最下端,可在子系統(tǒng)結(jié)構(gòu)的作用下,保持?jǐn)?shù)據(jù)聯(lián)立集群的完整性[4]。且由于融合服務(wù)體系的存在,存儲(chǔ)平臺(tái)結(jié)構(gòu)可直接負(fù)擔(dān)數(shù)據(jù)庫查詢指令的接入需求[5]。平臺(tái)服務(wù)層能夠?qū)崿F(xiàn)基礎(chǔ)存儲(chǔ)層、業(yè)務(wù)應(yīng)用層兩者之間的信息互通,可在調(diào)度鏈路負(fù)載、數(shù)據(jù)對接等服務(wù)的同時(shí),實(shí)時(shí)處理非結(jié)構(gòu)化數(shù)據(jù)。業(yè)務(wù)應(yīng)用層結(jié)構(gòu)同時(shí)搭載多個(gè)數(shù)據(jù)存儲(chǔ)載體,生成必要的數(shù)據(jù)信息融合與檢索服務(wù)指令。
圖1 非結(jié)構(gòu)化存儲(chǔ)框架結(jié)構(gòu)
該文設(shè)計(jì)的非結(jié)構(gòu)化存儲(chǔ)框架為融合控制電路、數(shù)據(jù)存儲(chǔ)載體提供了一個(gè)相對穩(wěn)定的系統(tǒng)連接環(huán)境。
非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)的控制電路以TMS320 芯片作為核心處理部件,可借助1-8 號(hào)傳輸接口,實(shí)現(xiàn)對數(shù)據(jù)信息參量的按需布施與擴(kuò)散[6]。整個(gè)電路包含4 個(gè)接入電阻,其中R1和R2兩電阻負(fù)責(zé)調(diào)度TMS320 芯片周圍的非結(jié)構(gòu)化數(shù)據(jù)信息參量??稍跀?shù)據(jù)庫主機(jī)的作用下,將已生成的查詢指令整合為既定傳輸形式[7]。R3和R4兩電阻的接入阻值水平相對較小,僅能承擔(dān)較少一部分的傳輸電壓,在融合存儲(chǔ)系統(tǒng)中負(fù)責(zé)建立TMS320 芯片與數(shù)據(jù)存儲(chǔ)載體之間的傳輸連接。
圖2 融合控制電路示意圖
由于TMS320 芯片外部負(fù)載的非結(jié)構(gòu)化數(shù)據(jù)信息接口數(shù)量相對較多,所以在融合存儲(chǔ)系統(tǒng)運(yùn)行過程中,控制電路連接形式改變后,各個(gè)接口的實(shí)時(shí)運(yùn)行狀態(tài)也隨之發(fā)生變化。
為更好地適應(yīng)數(shù)據(jù)庫查詢指令運(yùn)行需求,融合存儲(chǔ)系統(tǒng)中的數(shù)據(jù)存儲(chǔ)載體需要準(zhǔn)確區(qū)分結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息之間的差別[8]。一般來說,在適應(yīng)非結(jié)構(gòu)信息的數(shù)據(jù)存儲(chǔ)載體需求的同時(shí),還需要具備如下幾方面的能力。
1)在數(shù)據(jù)庫主機(jī)中,已生成的數(shù)據(jù)存儲(chǔ)載體模塊必須具備區(qū)分記錄頭標(biāo)區(qū)與字段區(qū)的能力。對于非結(jié)構(gòu)化信息而言,一個(gè)完整數(shù)據(jù)字符頭標(biāo)區(qū)所占據(jù)的存儲(chǔ)比重往往小于字段區(qū)。
2)由于信息參量元素的不同,數(shù)據(jù)存儲(chǔ)載體的連接能力必須滿足多樣性原則,即連接載體實(shí)時(shí)數(shù)量的變化趨勢必須與非結(jié)構(gòu)化信息的傳輸實(shí)值保持一致[9]。
3)數(shù)據(jù)存儲(chǔ)載體中非結(jié)構(gòu)化信息參量的傳輸行為,必須完全服從系統(tǒng)主機(jī)內(nèi)已生成的數(shù)據(jù)庫查詢指令。
在硬件設(shè)備結(jié)構(gòu)的支持下,按照查詢類型定義、非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)優(yōu)化、數(shù)據(jù)融合代價(jià)估算的處理流程,完成面向數(shù)據(jù)庫查詢的非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)的設(shè)計(jì)。
所謂查詢類型是指在執(zhí)行數(shù)據(jù)庫查詢指令時(shí),為實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)按需存儲(chǔ)而制定的信息參量排查原則。一般來說,隨著融合存儲(chǔ)系統(tǒng)覆蓋面積的增大,數(shù)據(jù)庫查詢指令的累積數(shù)量也會(huì)逐漸增大。在此情況下,待定義的非結(jié)構(gòu)化數(shù)據(jù)查詢類型條件也會(huì)不斷增多[10]。規(guī)定M1、M2代表兩個(gè)不同的數(shù)據(jù)庫查詢節(jié)點(diǎn)定義系數(shù),對于非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)而言,在數(shù)據(jù)傳輸量不超過額定數(shù)值條件的情況下,M1≠M(fèi)2的不等式條件恒成立。z、v表示兩個(gè)不同的數(shù)據(jù)信息查詢指征定義項(xiàng)。受到數(shù)據(jù)庫查詢指令的影響,在融合存儲(chǔ)系統(tǒng)應(yīng)用過程中,這兩項(xiàng)指標(biāo)參量的數(shù)值水平始終保持絕對穩(wěn)定的存在狀態(tài)。聯(lián)立上述物理量,可將非結(jié)構(gòu)化數(shù)據(jù)的查詢類型定義條件表示為:
非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)優(yōu)化是執(zhí)行數(shù)據(jù)庫查詢指令的必要處理環(huán)節(jié)。為了在最大程度上緩解數(shù)據(jù)存儲(chǔ)載體的工作壓力,應(yīng)保證數(shù)據(jù)庫主機(jī)的非結(jié)構(gòu)化信息參量具備最高的整合權(quán)限[12]。一般來講,非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)優(yōu)化的實(shí)際執(zhí)行方向應(yīng)以保障數(shù)據(jù)庫查詢指令的順利運(yùn)行為基礎(chǔ)。由于融合存儲(chǔ)系統(tǒng)始終保持較強(qiáng)的獨(dú)立性,所以在執(zhí)行優(yōu)化處理的過程中,必須同時(shí)滿足數(shù)據(jù)庫主機(jī)的存儲(chǔ)需求與非結(jié)構(gòu)化數(shù)據(jù)的并行傳輸需求[13-14]。設(shè)α1、α2代表兩個(gè)不同的非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)信息參量,f代表既定的數(shù)據(jù)信息查詢系數(shù),β代表數(shù)據(jù)庫存儲(chǔ)主機(jī)中的信息參量排列系數(shù),聯(lián)立式(1),將面向數(shù)據(jù)庫查詢的非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)優(yōu)化結(jié)果表示為:
為提升數(shù)據(jù)庫主機(jī)的實(shí)時(shí)存儲(chǔ)能力,融合存儲(chǔ)系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)優(yōu)化指令必須與數(shù)據(jù)庫查詢指令保持同步執(zhí)行狀態(tài)。
數(shù)據(jù)融合代價(jià)估算是設(shè)計(jì)非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)的必要執(zhí)行環(huán)節(jié),可在已知非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)優(yōu)化結(jié)果的基礎(chǔ)上,確定數(shù)據(jù)庫查詢指令的執(zhí)行有效性[15]。規(guī)定非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)所執(zhí)行的所有數(shù)據(jù)庫查詢指令應(yīng)滿足定向執(zhí)行的需求,因此為使數(shù)據(jù)融合代價(jià)估算結(jié)果更加趨于真實(shí),應(yīng)盡可能將非結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)傳輸量控制在相對較低的數(shù)值水平。設(shè)ε表示非結(jié)構(gòu)化數(shù)據(jù)的處理融合權(quán)限,λ表示面向數(shù)據(jù)查詢的信息參量代價(jià)系數(shù),r表示與非結(jié)構(gòu)化數(shù)據(jù)相關(guān)的查詢指令導(dǎo)向量,聯(lián)立式(2),可將面向數(shù)據(jù)庫查詢的數(shù)據(jù)融合代價(jià)估算結(jié)果表示為:
式中,μ表示存儲(chǔ)主機(jī)中的數(shù)據(jù)信息分辨系數(shù),Dˉ表示單位時(shí)間內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)傳輸均值,R表示數(shù)據(jù)信息容差值[16]。在確定數(shù)據(jù)庫查詢指令類型的基礎(chǔ)上,根據(jù)非結(jié)構(gòu)化數(shù)據(jù)目標(biāo)優(yōu)化結(jié)果,估算數(shù)據(jù)融合代價(jià),大幅提升單位時(shí)間內(nèi)的數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值。
為了驗(yàn)證非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)的實(shí)用性,設(shè)計(jì)如下對比實(shí)驗(yàn)。在非結(jié)構(gòu)化數(shù)據(jù)傳輸環(huán)境中,首先按照如圖3 所示的數(shù)據(jù)庫查詢流程對實(shí)驗(yàn)組數(shù)據(jù)參量進(jìn)行篩選;再利用I/O 模擬器存儲(chǔ)網(wǎng)絡(luò)篩選對照組數(shù)據(jù)參量;最后對比數(shù)據(jù)存儲(chǔ)過程中的相關(guān)指標(biāo)參量數(shù)值[17]。
圖3 數(shù)據(jù)庫查詢流程
數(shù)據(jù)存儲(chǔ)空間、單位時(shí)間內(nèi)數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)均能反映數(shù)據(jù)庫主機(jī)的實(shí)時(shí)存儲(chǔ)能力。一般來說,存儲(chǔ)空間消耗量越小,信息連接并發(fā)個(gè)數(shù)值越大,數(shù)據(jù)庫主機(jī)的實(shí)時(shí)存儲(chǔ)能力越強(qiáng),反之則越弱。
表1 記錄了隨實(shí)驗(yàn)數(shù)據(jù)增加,實(shí)驗(yàn)組、對照組數(shù)據(jù)存儲(chǔ)空間消耗量的具體變化情況。
表1 數(shù)據(jù)存儲(chǔ)空間消耗量
分析表1 可知,在面對等量的數(shù)據(jù)存儲(chǔ)需求時(shí),實(shí)驗(yàn)組、對照組所需消耗的存儲(chǔ)時(shí)間并沒有明顯差別。在整個(gè)實(shí)驗(yàn)過程中,始終保持穩(wěn)定上升的數(shù)值變化趨勢,但實(shí)驗(yàn)前期的上升幅度明顯高于實(shí)驗(yàn)后期。對于實(shí)驗(yàn)組系統(tǒng)而言,其空間消耗量在整個(gè)實(shí)驗(yàn)過程中始終保持階段性的穩(wěn)定變化狀態(tài),且實(shí)驗(yàn)后期的消耗量均值明顯高于實(shí)驗(yàn)前期。而對照組系統(tǒng)的空間消耗量數(shù)值在整個(gè)實(shí)驗(yàn)過程中始終不斷增大,全局最大值達(dá)到了5.1 G,與實(shí)驗(yàn)組最大值4.0 G相比,上升了1.1 G。
圖4 反映了實(shí)驗(yàn)組、對照組數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值的具體變化情況。
分析圖4 可知,在單位時(shí)長為10 s時(shí),實(shí)驗(yàn)組、對照組數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值的變化趨勢始終與理想數(shù)值保持一致。在整個(gè)實(shí)驗(yàn)過程中,三條曲線均保持不斷上升的變化趨勢。在前20 s的實(shí)驗(yàn)時(shí)間內(nèi),實(shí)驗(yàn)組曲線斜率明顯更大,代表實(shí)驗(yàn)組數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值在該段時(shí)間內(nèi)的增大趨勢最為明顯。從第20 s 開始,實(shí)驗(yàn)組曲線斜率雖然開始減小,但其整體均值水平依然遠(yuǎn)高于另外兩條曲線。對照組數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值在整個(gè)實(shí)驗(yàn)過程中基本保持均勻上升的變化趨勢。但其最大值僅能達(dá)到11 個(gè)左右,遠(yuǎn)低于理想最大值與實(shí)驗(yàn)組最大值水平。
圖4 單位時(shí)間內(nèi)的數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)
綜上可知,對于面向數(shù)據(jù)庫查詢的非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng)而言,其存儲(chǔ)等量數(shù)據(jù)信息所需的空間消耗量明顯小于傳統(tǒng)I/O 模擬器存儲(chǔ)網(wǎng)絡(luò)。且在單位時(shí)間內(nèi),與之匹配的數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值也相對更大,在實(shí)際應(yīng)用方面,其數(shù)據(jù)庫主機(jī)所具備的實(shí)時(shí)存儲(chǔ)能力明顯更強(qiáng)。
與I/O 模擬器存儲(chǔ)網(wǎng)絡(luò)相比,面向數(shù)據(jù)庫查詢的非結(jié)構(gòu)化數(shù)據(jù)融合存儲(chǔ)系統(tǒng),針對數(shù)據(jù)庫主機(jī)存儲(chǔ)能力較弱的問題進(jìn)行了改進(jìn)。利用融合控制電路、數(shù)據(jù)存儲(chǔ)載體等硬件應(yīng)用結(jié)構(gòu),估算數(shù)據(jù)融合代價(jià)的實(shí)際數(shù)值。從實(shí)用性角度來看,與該系統(tǒng)相關(guān)的數(shù)據(jù)存儲(chǔ)空間消耗量水平相對更低。而單位時(shí)間內(nèi)的數(shù)據(jù)信息連接并發(fā)個(gè)數(shù)值卻相對更大,符合提升數(shù)據(jù)庫主機(jī)實(shí)時(shí)存儲(chǔ)能力的實(shí)際應(yīng)用需求。