王儒升
摘要:分布式數(shù)據(jù)庫是數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)的結(jié)合產(chǎn)物,將其應(yīng)用于信息化管理系統(tǒng)中,具有共享性和自治性雙重價值:前者降低了信息化管理系統(tǒng)的數(shù)據(jù)成本,提高了用戶的數(shù)據(jù)應(yīng)用效率;后者在前者基礎(chǔ)上為信息化管理系統(tǒng)提供了選擇的機會,提升了分布式數(shù)據(jù)庫中的數(shù)據(jù)信息安全。文章通過分布式數(shù)據(jù)庫管理系統(tǒng)的搭建,開展管理系統(tǒng)相關(guān)路徑選取,實現(xiàn)信息化管理系統(tǒng)中分布式數(shù)據(jù)高效應(yīng)用。該文對此進(jìn)行了詳細(xì)論述,旨在為從業(yè)人員提升分布式數(shù)據(jù)庫應(yīng)用能力提供借鑒。
關(guān)鍵詞:信息化管理系統(tǒng);分布式數(shù)據(jù)庫;內(nèi)涵;應(yīng)用方向;應(yīng)用策略
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2023)35-0083-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
時至今日,信息技術(shù)應(yīng)用領(lǐng)域日益增多,促進(jìn)了新的信息化管理模式的發(fā)展,豐富了組織管理的可能性。在信息化管理系統(tǒng)的支持下,不僅在組織內(nèi)以有效和實用的方式傳播信息,而且還為管理層提供了個人和團(tuán)體溝通的工具,加強了組織內(nèi)的管理行動和管理過程。由于信息化管理系統(tǒng)對數(shù)據(jù)量、種類和速度的需求不斷增加,傳統(tǒng)的關(guān)系數(shù)據(jù)庫不再適用,而分布式數(shù)據(jù)庫似乎是一個可行的解決方案。目前,大量的分布式數(shù)據(jù)庫廣泛應(yīng)用于大型企業(yè)。而這些企業(yè)的分布式數(shù)據(jù)庫又為中小型企業(yè)經(jīng)營數(shù)據(jù)庫提供了基礎(chǔ)設(shè)施。由于分布式數(shù)據(jù)庫越來越多地部署在不同的行業(yè)領(lǐng)域,如電子商務(wù)、生物技術(shù)、連鎖、社交網(wǎng)絡(luò)等,分布式數(shù)據(jù)庫層面的云爆炸不僅引起了研究的關(guān)注,而且從行業(yè)角度來看,論證分布式數(shù)據(jù)庫的應(yīng)用也很重要[1]。在此背景下,本文通過對分布式數(shù)據(jù)庫的信息化管理應(yīng)用價值、應(yīng)用方向進(jìn)行研究,希望為行業(yè)人員提供參考。
1 分布式數(shù)據(jù)庫的內(nèi)涵
分布式數(shù)據(jù)庫被定義為多個數(shù)據(jù)庫的集合,以邏輯方式連接,物理分布在網(wǎng)絡(luò)中,并連接它們的不同節(jié)點。其中,每個節(jié)點都具有自主處理的能力。但是,需要每個節(jié)點也參與到某個全局應(yīng)用程序中,也就是說,它需要訪問存儲在其他位置的數(shù)據(jù)。因此,在分布式數(shù)據(jù)庫中,每一個邏輯都依托小型計算機和互聯(lián)網(wǎng),將數(shù)據(jù)存儲在不同的位置,通過網(wǎng)絡(luò)相互連接。在這樣的環(huán)境中,分布式數(shù)據(jù)庫安排了一組計算機,這些計算機能夠彼此相互操作,但也能夠自主開展工作。從另一個角度理解,分布式數(shù)據(jù)庫則為分布式系統(tǒng)中多個位置的數(shù)據(jù)組。由于分布式環(huán)境的興起,這種數(shù)據(jù)庫的采用日益增長。正因為如此,分布式數(shù)據(jù)庫能夠更好地適應(yīng)分散式結(jié)構(gòu)。事實上,大多數(shù)企業(yè)或者已經(jīng)整合或者正在開始這樣做,分散數(shù)據(jù)庫的使用,以便在這個適應(yīng)過程中實現(xiàn)簡單和經(jīng)濟(jì)的數(shù)據(jù)庫改進(jìn)。
通常,為了保證良好的性能,分布式數(shù)據(jù)庫必須易于擴展。具體來講分布式數(shù)據(jù)庫應(yīng)有4個優(yōu)勢:數(shù)據(jù)分片及復(fù)制管理、具有事務(wù)的可靠性存取、良好的性能、易于擴展[2],因此,在設(shè)計上,分布式數(shù)據(jù)需要體現(xiàn)出其數(shù)據(jù)分析片、分布式并發(fā)控制、目錄管理、分布式儲存等功能。關(guān)于分布式數(shù)據(jù)庫設(shè)計的流程可分為以下幾個步驟:概念模式設(shè)計;全局邏輯模式設(shè)計;本地物理模式設(shè)計;碎片化設(shè)計,也就是建立驅(qū)動碎片化的邏輯標(biāo)準(zhǔn);片段分配設(shè)計,即決定數(shù)據(jù)的物理位置和可能的副本。所有這些細(xì)節(jié)都存儲在一個全局?jǐn)?shù)據(jù)庫中,其中包括控制數(shù)據(jù)庫和提供數(shù)據(jù)庫自身的全局視圖所需的工具。為了實現(xiàn)數(shù)據(jù)的快速訪問,每個分布式數(shù)據(jù)庫受到其對應(yīng)的分布式數(shù)據(jù)管理系統(tǒng)所管理,管理系統(tǒng)具有向用戶提供復(fù)制、碎片化與分發(fā)的透明度作用[3],其主要任務(wù)之一是將這些查詢轉(zhuǎn)換為僅匹配所涉及的片段的其他查詢。
2 分布式數(shù)據(jù)庫在信息化管理系統(tǒng)中的應(yīng)用價值
當(dāng)下的信息化管理系統(tǒng)受益于混合云的影響,除了系統(tǒng)性能的提升,同時還實現(xiàn)了系統(tǒng)管理業(yè)務(wù)速度的提升,避免系統(tǒng)數(shù)據(jù)鎖定,并能夠在公共云中保留數(shù)據(jù)。管理系統(tǒng)功能作用由數(shù)據(jù)庫類型所決定,各類型的數(shù)據(jù)庫在數(shù)據(jù)復(fù)制、讀寫操作、數(shù)據(jù)分叉和數(shù)據(jù)一致性方面存在一定差異。例如,關(guān)系數(shù)據(jù)庫具有預(yù)先定義的模式,并擁有一個成熟的市場,但是,查詢性能不如非關(guān)系數(shù)據(jù)庫。相比之下,NoSQL數(shù)據(jù)庫有一個無架構(gòu)的數(shù)據(jù)模型,但為了獲取更好的性能而破壞了數(shù)據(jù)庫的強一致性。在這方面,信息化管理系統(tǒng)中應(yīng)用分布式數(shù)據(jù)庫的價值更多地體現(xiàn)在其共享性與自治性之中。
一方面,在對分布式數(shù)據(jù)庫模塊進(jìn)行設(shè)計的過程中,這種體系結(jié)構(gòu)在新客戶端和附加服務(wù)器上都很容易擴展。分布式數(shù)據(jù)庫選擇了客戶機/服務(wù)器架構(gòu),并為用戶提供了 Web 界面。在分布式數(shù)據(jù)庫中的程序托管服務(wù)中,能夠保證用戶使用數(shù)據(jù)庫與集中式數(shù)據(jù)庫相同,用戶可在權(quán)限允許的情況下對各位置的數(shù)據(jù)進(jìn)行查詢或修改。有站點上的數(shù)據(jù)都是共享的,這樣,就得到了一個開放的數(shù)據(jù)庫設(shè)計,只需要插入相應(yīng)的信息就可以在任何管理系統(tǒng)中使用數(shù)據(jù),這就是分布式數(shù)據(jù)庫的共享性。這種共享性能夠有效降低網(wǎng)絡(luò)通信的使用成本,提升用戶的數(shù)據(jù)操作效率,能夠?qū)崿F(xiàn)分布式數(shù)據(jù)的多客戶端訪問,而不需要用戶在本地安裝任何額外的軟件。另一方面,用于實現(xiàn)分布式數(shù)據(jù)庫的軟件元素如下:Web瀏覽器,它是用于與系統(tǒng)交互的可視化界面,它可以用于任何能夠執(zhí)行Java代碼的Web瀏覽器;Web服務(wù)器。通常信息化管理系統(tǒng)選擇ApacheTomcat服務(wù)器;數(shù)據(jù)庫管理系統(tǒng)。通常信息化管理系統(tǒng)使用Oracle 11g,而Java和Oracle之間的連接是通過JDBC控制器實現(xiàn)的[4]。這種軟件元素的組合由于其固有的可靠性和自主性,可以有效地用于具有節(jié)點連續(xù)連接和離開的動態(tài)對等網(wǎng)絡(luò),以及由大量節(jié)點永久連接到廣域網(wǎng)的靜態(tài)分散系統(tǒng)。在這兩種情況下,一個重要的系統(tǒng)目標(biāo)是限制分布式查詢處理生成的網(wǎng)絡(luò)流量。實現(xiàn)這一目標(biāo)的關(guān)鍵是有效地定位相關(guān)數(shù)據(jù)源,以便只向存儲這些數(shù)據(jù)源的節(jié)點提交查詢。換句話說,各節(jié)點的數(shù)據(jù)庫系統(tǒng)管理工作人員能夠根據(jù)現(xiàn)實情況,決定數(shù)據(jù)是否進(jìn)行全局共享。對于不可共享的數(shù)據(jù),則將其保留于原節(jié)點數(shù)據(jù)庫,充分地體現(xiàn)出分布式數(shù)據(jù)庫的自治屬性。
3 分布式數(shù)據(jù)庫在信息化管理系統(tǒng)中的應(yīng)用策略方法
3.1 分布式數(shù)據(jù)庫管理系統(tǒng)模塊構(gòu)建
新時期下,科學(xué)信息技術(shù)快速發(fā)展,對于分布式數(shù)據(jù)庫與其信息化管理系統(tǒng)有著更高的要求。一方面,高質(zhì)量的分布式數(shù)據(jù)庫能夠為信息化管理系統(tǒng)的設(shè)計構(gòu)建提供有效保障,使其設(shè)計過程更加合理。在應(yīng)用中,分布式數(shù)據(jù)庫在數(shù)據(jù)儲存與分發(fā)、相關(guān)管理系統(tǒng)控制中起到良好的作用;另一方面,高質(zhì)量的分布式數(shù)據(jù)庫能夠?qū)π畔⒐芾硐到y(tǒng)進(jìn)行精簡。通過分布式數(shù)據(jù)庫的應(yīng)用,信息化管理系統(tǒng)的每個級別都以緊湊的方式進(jìn)行描述。這種情況下,所考慮的信息化管理系統(tǒng)包括三個級別。其中,第一級別的應(yīng)用程序是該系統(tǒng)的最高級別,旨在修改分布數(shù)據(jù)庫中的數(shù)據(jù);第二級別的主數(shù)據(jù)庫與本地數(shù)據(jù)庫通信,在具有后備通信通道的廣域網(wǎng)中,對監(jiān)督級別的訪問起作用;第三級別的本地數(shù)據(jù)庫和控制器之間的通信是基于數(shù)據(jù)庫管理系統(tǒng)重構(gòu)信息化管理系統(tǒng)邏輯控制器(RLC)的關(guān)鍵。
由此可見,作為信息化管理系統(tǒng)應(yīng)用數(shù)據(jù)的核心,分布式數(shù)據(jù)庫管理系統(tǒng)不僅能夠?qū)崿F(xiàn)分布式數(shù)據(jù)庫的構(gòu)建、查詢與維護(hù)等功能,還可進(jìn)行分布式的查詢優(yōu)化、全區(qū)域事務(wù)執(zhí)行,為數(shù)據(jù)庫的一致性與同步更新提供堅實保障。分布式數(shù)據(jù)庫管理系統(tǒng)如圖1所示。
如圖1所示,雖然分布式數(shù)據(jù)庫管理系統(tǒng)的組成較為復(fù)雜,但是總體功能模塊可分為以下幾塊:
1) 查詢處理模塊。此模塊包含查詢分析與優(yōu)化處理兩項功能,前者針對系統(tǒng)使用者,后者針對系統(tǒng)管理者。該模塊的目標(biāo)在于減少分布式數(shù)據(jù)庫中,查詢處理數(shù)據(jù)的代價。
2) 完整性處理模塊。此模塊由維護(hù)完整性與維護(hù)一致性兩類功能組成,能夠更好地實現(xiàn)多分布式數(shù)據(jù)庫的同步更新。
3) 調(diào)度處理模塊。此模塊由兩部分組成,一是發(fā)布命令,二是數(shù)據(jù)傳輸。其主要目的是通過對站點進(jìn)行命令發(fā)布,采用相應(yīng)的DBMS對局部開展處理,從而實現(xiàn)站點之間必要的數(shù)據(jù)傳輸。
4) 可靠性處理模塊。該模塊包括兩個功能,一是故障預(yù)警,二是故障修復(fù)??煽啃蕴幚砟K能夠?qū)ο到y(tǒng)內(nèi)的各部分進(jìn)行監(jiān)測,及時發(fā)現(xiàn)故障,將故障維修后的部分重新接入系統(tǒng)中,從而實現(xiàn)數(shù)據(jù)庫的一致性。
3.2 分布式數(shù)據(jù)庫管理系統(tǒng)路徑選型
在信息化管理系統(tǒng)應(yīng)用分布式數(shù)據(jù)庫的過程中,需要數(shù)據(jù)庫內(nèi)的各節(jié)點明確全局?jǐn)?shù)據(jù)查詢途徑的選擇性。如果事先不知道路徑選擇性值,可以使用估計路徑選擇性值的技術(shù)。為此,本文提出了一個緊湊的數(shù)據(jù)結(jié)構(gòu)路徑選型路徑。數(shù)據(jù)查詢可在分布式數(shù)據(jù)庫信息化管理系統(tǒng)中分為兩個階段進(jìn)行處理:第一階段,查詢DHP(Diffie Hellman Protocol,密鑰協(xié)商協(xié)議)以確定存儲數(shù)據(jù)匹配的所有節(jié)點;提交給上一階段所識別的每個節(jié)點,以獲取所有數(shù)據(jù)匹配[5]。在此工作中,查詢處理的第一階段目標(biāo)是最小化生成的流量,以確定第二階段將要查詢的節(jié)點。為此,需要通過將一個鍵與數(shù)據(jù)庫路徑聯(lián)系起來,然后,負(fù)責(zé)與之關(guān)聯(lián)的鍵的節(jié)點保存一個指向存儲包含所有文檔的節(jié)點。例如,作為XPATE或XQQERY表達(dá)式,基本的選型策略包括將查詢分成若干子查詢,查詢中每個路徑一個子查詢[6]。由于每個子查詢被獨立解析,以找到存儲與相應(yīng)路徑匹配的文檔的節(jié)點集。因此,來自不同子查詢的結(jié)果集在查詢節(jié)點交叉,然后使用原始查詢交集中的所有節(jié)點,以獲得與該查詢匹配的所有數(shù)據(jù)[7]。
在實際中,上述選型策略可能導(dǎo)致在由幾個子查詢組成的復(fù)雜查詢中系統(tǒng)效率低下,特別是在分布式數(shù)據(jù)庫存在許多并發(fā)請求的情況下。為了克服這一缺點,另一種選型策略是只解決與選擇性最強的路徑有關(guān)的子問題,即:匹配最低節(jié)點數(shù)的路徑,然后可以用原始查詢結(jié)果集中的所有節(jié)點,以獲取滿足所有查詢約束的文檔(包括與其他路徑關(guān)聯(lián)的文檔)。其中,路徑p的選擇性sp由下式表示:
[sp=np/n]? ? (1)
其中,np為存儲至少一個路徑p實例的節(jié)點數(shù),n為DHT中的節(jié)點總數(shù),0≤sp≤1。這表示選擇性sp值越低,則路徑p選擇性越強。換言之,最低選擇性值對應(yīng)于選擇性最強的路徑。例如,在一個有10 000個節(jié)點的分布式數(shù)據(jù)庫中,存儲在50個節(jié)點中的路徑的選擇性為50/10 000=0.005;而存儲在5 000個節(jié)點中的路徑的選擇性為5 000/10 000=0.5。前者是高選擇性路徑(低選擇性值);后者是低選擇性路徑(高選擇性值)。
4 結(jié)束語
綜上所述,應(yīng)用于信息化管理系統(tǒng)中的分布式數(shù)據(jù)庫可實現(xiàn)信息數(shù)據(jù)的冗余控制,例如需求、功能、行為和結(jié)構(gòu)等。它是面向?qū)ο蟮摹?biāo)準(zhǔn)化的和廣泛適用的,并且能夠更有效地降低信息化管理系統(tǒng)的數(shù)據(jù)成本,提高了信息化管理系統(tǒng)用戶的數(shù)據(jù)應(yīng)用效率,提升了信息化管理系統(tǒng)數(shù)據(jù)信息安全水平。在具體應(yīng)用中,本文通過對系統(tǒng)與構(gòu)建分析,對管理系統(tǒng)模塊搭建與數(shù)據(jù)庫管理系統(tǒng)路徑選型進(jìn)行明確。研究顯示,信息化管理系統(tǒng)對分布式數(shù)據(jù)庫的應(yīng)用是基于系統(tǒng)可用性和自主性需求,挑戰(zhàn)是如何在維護(hù)安全性和可用性的同時,發(fā)布數(shù)據(jù)和程序以獲得預(yù)期的性能。為此,研究建議以分布式數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)分布式數(shù)據(jù)庫和信息化管理系統(tǒng)的對接。在許多并發(fā)請求的情況下,匹配最低節(jié)點數(shù)的路徑,然后可以用原始查詢結(jié)果集中的所有節(jié)點,以獲取滿足所有查詢約束的文檔(包括與其他路徑關(guān)聯(lián)的文檔)。
參考文獻(xiàn):
[1] 水治禹,盧衛(wèi),趙展浩,等.分布式數(shù)據(jù)庫多級一致性統(tǒng)一建模理論研究[J].軟件學(xué)報,2023,34(5):2392-2412.
[2] 李峻屹.基于熱點訪問的分布式數(shù)據(jù)庫HBase負(fù)載均衡算法研究[J].微型電腦應(yīng)用,2022,38(5):138-141.
[3] 包全磊.分布式數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)分布策略研究[J].信息與電腦(理論版),2022,34(24):196-198.
[4] 王華,王玲維,黃漢云.分布式數(shù)據(jù)庫隱私信息增量式更新方法仿真[J].計算機仿真,2022,39(4):268-272.
[5] 彭成輝.基于HBase分布式數(shù)據(jù)庫集群系統(tǒng)構(gòu)建方法[J].信息技術(shù)與信息化,2022(7):95-98.
[6] 田銳,喻婧.分布式數(shù)據(jù)庫技術(shù)及應(yīng)用分析[J].長江信息通信,2023,36(5):165-167.
[7] 段芳婷.基于分布式SOA架構(gòu)的高性能MIS框架設(shè)計與應(yīng)用[D].南昌:南昌大學(xué),2021.
【通聯(lián)編輯:代影】