張娟,王璇,邢倩倩
(1.北京國電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100070;2.國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司,北京 102200)
非結(jié)構(gòu)化數(shù)據(jù)是一種數(shù)據(jù)結(jié)構(gòu)不完整也沒有主觀定義形式的數(shù)據(jù)模型,在實際應(yīng)用過程中,可用數(shù)據(jù)庫二維邏輯表單來表示。作為計算機信息化系統(tǒng)中的重要數(shù)據(jù)傳輸形式,非結(jié)構(gòu)化數(shù)據(jù)具有格式多樣、標準多樣等幾類應(yīng)用優(yōu)勢,且在譯碼與轉(zhuǎn)碼的過程中,也并不拘泥于一種單獨的傳輸與理解形式[1-2]。一般來說,非結(jié)構(gòu)化數(shù)據(jù)可作為信息采集的執(zhí)行與處理基礎(chǔ),在開源數(shù)據(jù)庫體系的支持下,每一類傳輸數(shù)據(jù)都與一種非結(jié)構(gòu)化文檔保持獨立對應(yīng)關(guān)系。針對不同類型的傳輸信息,非結(jié)構(gòu)化數(shù)據(jù)在運行過程中所采取的處理原則也有所不同。
對于數(shù)字圖書資源來說,隨著無序與零散信息傳輸量的增大,數(shù)據(jù)信息的實際存儲環(huán)境則很難長時間保持系統(tǒng)化的存在狀態(tài)。為解決上述問題,傳統(tǒng)云存儲方式借助云狀網(wǎng)絡(luò)體系,同時定義數(shù)字圖書資源的存儲深度與存儲廣度條件,并根據(jù)HDFS訪問副本的開放形式,確定單位時間內(nèi)能存儲的最大數(shù)據(jù)信息資源量。但該方法在資源信息組織與整合方面的應(yīng)用能力有限,并不能實現(xiàn)對系統(tǒng)化資源信息存儲環(huán)境的有效維護?;诖?,提出并設(shè)計了一種新型的非結(jié)構(gòu)化數(shù)字圖書資源分布式儲存方法,在定義元數(shù)據(jù)含義的基礎(chǔ)上,完善非結(jié)構(gòu)化資源信息的查詢與編碼原則,再借助Hadoop 存儲架構(gòu),讀取關(guān)鍵的數(shù)字資源文件,從而實現(xiàn)對分布式瀏覽系數(shù)值的準確計算。
非結(jié)構(gòu)化數(shù)字圖書資源的存儲能力分析包含元數(shù)據(jù)定義、非結(jié)構(gòu)化查詢標準完善、編碼原則建立三個處理環(huán)節(jié),具體研究步驟如下。
元數(shù)據(jù)是與非結(jié)構(gòu)化數(shù)字圖書資源存儲相關(guān)的明確定義,在實際應(yīng)用過程當中,始終以描述信息的形式存在。根據(jù)數(shù)字圖書資源分布式存儲行為的不同,元數(shù)據(jù)可分為描述量、殘差量等幾種應(yīng)用類型,且根據(jù)資源信息所屬定義形式的不同,元數(shù)據(jù)參量所占據(jù)的存儲空間也有所不同[3-4]。若將非結(jié)構(gòu)化環(huán)境看作是一種獨立的數(shù)據(jù)信息存儲空間,則可認為元數(shù)據(jù)存在形式會隨著資源信息傳輸量的改變而出現(xiàn)不斷變化的情況,即任何一種固定不變的資源存儲格式,都不能完全滿足非結(jié)構(gòu)化元數(shù)據(jù)信息的實際定義需求。設(shè)εmin代表最小的資源信息分布系數(shù),εmax代表最大的資源信息分布系數(shù),代表單位時間內(nèi)的數(shù)字圖書資源信息查詢均值,聯(lián)立上述物理量,可將元數(shù)據(jù)定義結(jié)果表示為:
其中,β代表數(shù)字圖書資源信息的非結(jié)構(gòu)化特征值,r1,r2,…,rn代表n個不同的待存儲圖書資源信息。
數(shù)字圖書資源的非結(jié)構(gòu)化查詢標準由記錄頭標區(qū)、存儲地址目次區(qū)、信息字段區(qū)、分隔符四部分共同組成。其中,記錄頭標區(qū)能夠容納所有的數(shù)字圖書資源信息,能夠按照元數(shù)據(jù)標準,對數(shù)據(jù)信息進行按需存儲,總的來說,該區(qū)域中資源信息的最大存儲量只能達到24 字符,所有小于該存儲標準的信息參量,都能在頭標區(qū)空間內(nèi)自由傳輸[5-6]。存儲地址目次區(qū)中包含n個目次項指標,但是每個指標的最大存儲量只能達到12 字符,始終低于頭標區(qū)環(huán)境。資源信息字段區(qū)起到一定的穩(wěn)定存儲與數(shù)據(jù)過濾作用,可對已滿足非結(jié)構(gòu)化傳輸標準的數(shù)字圖書資源信息進行暫時存儲,并可將滿足應(yīng)用標準的傳輸數(shù)據(jù),過濾回存儲地址目次區(qū)中。非結(jié)構(gòu)化分隔符包含n個不固定字段,可對信息字段區(qū)已存儲的資源信息進行二次分辨。數(shù)字圖書資源的非結(jié)構(gòu)化查詢標準如圖1 所示。
圖1 數(shù)字圖書資源的非結(jié)構(gòu)化查詢標準
非結(jié)構(gòu)化數(shù)字圖書資源的編碼原則主要以原數(shù)據(jù)參量作為參考標準。若已知具體的數(shù)據(jù)信息查詢標準,則可認為待編碼的資源信息量越大,分布式儲存主機所面臨的執(zhí)行壓力也就越大。在非結(jié)構(gòu)化傳輸環(huán)境中,分布式編碼原則由頭結(jié)點查詢、中間成分查詢、尾節(jié)點查詢?nèi)糠止餐M成。頭結(jié)點確定了數(shù)字圖書資源的起始傳輸位置,尾節(jié)點確定了數(shù)字圖書資源的終止傳輸位置,一般情況下,二者之間的實值距離越大,分布式空間所具備的實時存儲能力也就越強[7-8]。中間成分決定了與非結(jié)構(gòu)化數(shù)字圖書資源相關(guān)的信息過渡條件,受到頭結(jié)點定義條件、尾節(jié)點定義條件兩項物理量的直接影響。設(shè)T0代表頭結(jié)點定義系數(shù),Tn代表尾節(jié)點定義系數(shù),代表中間查詢成分的信息量均值,聯(lián)立式(1),可將非結(jié)構(gòu)化編碼原則表示為:
通常在非結(jié)構(gòu)化存儲能力分析原則的支持下,按照Hadoop 存儲架構(gòu)搭建、資源文件讀取、分布式瀏覽系數(shù)計算的處理原則,完成新型數(shù)字圖書資源分布式儲存方法的設(shè)計與應(yīng)用。
Hadoop 架構(gòu)負責執(zhí)行所有與非結(jié)構(gòu)化數(shù)字圖書資源相關(guān)的存儲指令,整個框架體系以HDFS 模塊、數(shù)據(jù)傳輸?shù)貓D、檢索導(dǎo)航三個結(jié)構(gòu)作為主要應(yīng)用成分,可在整合數(shù)字圖書資源信息的同時,制定后續(xù)運行所需的分布式存儲文件[9-10]。HDFS 模塊作為Hadoop 架構(gòu)的核心應(yīng)用單元,可按照非結(jié)構(gòu)化數(shù)字圖書資源的實際存儲需求,構(gòu)建分布式傳輸框架,從而使信息數(shù)據(jù)的傳輸積極性得到充分調(diào)度[11-12]。數(shù)據(jù)傳輸?shù)貓D作為檢索導(dǎo)航建立的基層組織結(jié)構(gòu),可在已知數(shù)字圖書資源傳輸量標準的前提下,確定數(shù)據(jù)信息最遠所能到達的傳輸距離,從而實現(xiàn)對資源數(shù)據(jù)的最大化整合與處理。Hadoop 存儲架構(gòu)示意圖如圖2 所示。
圖2 Hadoop存儲架構(gòu)示意圖
資源文件讀取是數(shù)字圖書資源分布式儲存過程中的必要處理環(huán)節(jié),可借助Hadoop 架構(gòu),將各級信息參量集合到統(tǒng)一的數(shù)據(jù)庫主機中,一方面可減少無序與零散組織在網(wǎng)絡(luò)環(huán)境中的存在數(shù)量,另一方面也能夠?qū)崿F(xiàn)對資源信息數(shù)據(jù)的最大化聚合,從而使得整個數(shù)字圖書資源存儲環(huán)境不斷向著系統(tǒng)化方向趨近。假設(shè)非結(jié)構(gòu)化數(shù)字圖書資源在分布式存儲環(huán)境中只能保持單向傳輸?shù)倪B接狀態(tài),且信息參量的最大存儲條件不會受到任何外在條件的影響[13-14]。在此情況下,數(shù)據(jù)庫主機所能讀取的資源文件量越大,最終計算求得的分布式瀏覽系數(shù)值也就越大。設(shè)χ1、χ2代表兩個不同的數(shù)字圖書資源信息排列系數(shù),聯(lián)立式(2),可將資源文件讀取結(jié)果表示為:
其中,ΔT代表數(shù)字圖書資源信息的單位提取時長,代表分布式傳輸條件下的信息數(shù)據(jù)特征值,g代表資源文件在網(wǎng)絡(luò)環(huán)境中的單次讀取次數(shù)。
分布式瀏覽系數(shù)決定了非結(jié)構(gòu)化數(shù)字圖書資源的最大存儲條件,在網(wǎng)絡(luò)環(huán)境中,該項系數(shù)值的物理水平越高,待存儲的資源信息量也就越大。在不考慮其他干擾條件的情況下,分布式瀏覽系數(shù)計算結(jié)果受到資源數(shù)據(jù)存儲邊界、信息標度值兩項物理指標的直接影響[15-16]。資源數(shù)據(jù)存儲邊界由最大值cmax、最小值cmin兩部分組成,一般來說,二者之間的差值水平越大,數(shù)據(jù)庫主機所具備的資源信息存儲能力也就越強。信息標度值可表示為μ,在已知資源文件讀取條件的情況下,該項物理量的數(shù)值水平越大,分布式瀏覽系數(shù)的計算值結(jié)果也就越小。在上述物理量的支持下,聯(lián)立式(3),可將分布式瀏覽系數(shù)計算結(jié)果表示為:
式中,f1、f2分別代表兩個不同的非結(jié)構(gòu)化差異系數(shù)指標,代表f1與f2的物理均值。至此,完成相關(guān)系數(shù)值的計算與處理,在確保不出現(xiàn)其他干擾條件的情況下,實現(xiàn)非結(jié)構(gòu)化數(shù)字圖書資源分布式儲存方法的順利應(yīng)用。
通過人工布線的方式,建立完整的數(shù)字圖書資源存儲網(wǎng)絡(luò),分別采用分布式儲存方法、傳統(tǒng)云存儲方式對網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)信息傳輸行為進行干預(yù),將前者作為實驗組,后者作為對照組。
對于數(shù)字圖書資源來說,評論存儲能力強弱包含零散信息組織有效性、整合有效性兩部分。零散信息組織有效性是指網(wǎng)絡(luò)主機在單位時間內(nèi)所能組織處理的最大數(shù)字圖書資源信息量,一般來說,該項物理指標的數(shù)值水平越大,網(wǎng)絡(luò)主機所具備的零散信息組織有效性也就越強。
表1 記錄了實驗組、對照組資源信息組織量的數(shù)值變化情況。
表1 資源信息組織量
分析表1 可知,實驗組、對照組資源信息組織量在單位時間內(nèi)均呈現(xiàn)不斷增大的數(shù)值變化趨勢,但實驗組上升量級均值明顯更大,整個實驗過程中,實驗組最大值9.16×107MB 與對照組最大值5.67×107MB相比,上升了3.49×107MB。
零散信息整合有效性是指與網(wǎng)絡(luò)主機匹配的資源信息處理速率,一般來說,處理速率越快,零散信息的整合有效性越高。圖3 記錄了實驗組、對照組資源信息處理速率的具體數(shù)值情況。
圖3 資源信息處理速率
分析圖3 可知,實驗組、對照組資源信息處理速率曲線均呈現(xiàn)上升與下降相互交替的數(shù)值變化趨勢,在整個實驗過程中,實驗組曲線始終存在于對照組上方。從極限值角度來看,實驗組最大值8.54 MB/mm與對照組最大值3.62 MB/mm相比,上升了4.92 MB/mm,且實驗組的兩級差值水平也遠高于對照組。
綜上所述,文中實驗的結(jié)論如下:
1)分布式儲存方法在單位時間內(nèi)所能組織的數(shù)字圖書資源信息量較大,符合增強零散信息組織有效性的實際應(yīng)用需求,對提升數(shù)據(jù)信息存儲能力起到一定的促進作用。
2)與分布式儲存方法匹配的資源信息處理速率更快,有利于零散信息的有效整合,滿足最大化存儲數(shù)字圖書資源的實際處理目的。
與傳統(tǒng)云存儲方式相比,分布式儲存方法在已知元數(shù)據(jù)定義條件的基礎(chǔ)上,根據(jù)非結(jié)構(gòu)化查詢標準,建立完善的數(shù)據(jù)信息編碼原則。再聯(lián)合Hadoop框架,通過讀取已存儲資源文件的方式,得到分布式瀏覽系數(shù)的具體數(shù)值計算結(jié)果。從實用性角度來看,資源信息組織量增大與資源信息處理速率加快兩類變化的同時出現(xiàn),不但可增強網(wǎng)絡(luò)主機對于零散數(shù)字圖書資源的組織有效性及整合有效性,而且滿足通過有效組織無序與零散資源的方式,維持數(shù)字圖書資源存儲環(huán)境系統(tǒng)化的實際應(yīng)用需求。