康金兵 德州職業(yè)技術(shù)學(xué)院
油田設(shè)備文件系統(tǒng)數(shù)據(jù)存儲的優(yōu)化
康金兵 德州職業(yè)技術(shù)學(xué)院
Web油田智能網(wǎng)把所有關(guān)于文件系統(tǒng)名稱空間的信息和狀態(tài)的信息存儲在系統(tǒng)的映像文件中,編輯日志文件會存儲文件系統(tǒng)中所有的元數(shù)據(jù)的變化情況。文件系統(tǒng)映像和編輯日志都存儲在智能網(wǎng)的本地文件系統(tǒng)上。智能網(wǎng)建設(shè)過程中,需要對數(shù)據(jù)庫信息進行檢索,確保數(shù)據(jù)庫信息能夠符合節(jié)點控制和文件管理的要求。對于Web油田智能網(wǎng),錯誤恢復(fù)就是靠文件系統(tǒng)映像和編輯日志。一旦網(wǎng)絡(luò)出現(xiàn)問題,它就會根據(jù)最近的文件系統(tǒng)映像和映像之后的所有日志重新建立整個文件目錄,從而恢復(fù)智能網(wǎng)功能。
信息控制;設(shè)備;Web油田智能網(wǎng);設(shè)計;存儲
Web油田智能網(wǎng)把所有關(guān)于文件系統(tǒng)名稱空間的信息和狀態(tài)的信息存儲在系統(tǒng)的映像文件中(文件系統(tǒng)映像是文件系統(tǒng)元數(shù)據(jù)的持久性檢查點,包含文件系統(tǒng)中文件的復(fù)制等級、修改和訪問時間、訪問權(quán)限、數(shù)據(jù)塊的大小以及組成文件的數(shù)據(jù)塊,對于目錄則存儲它們的修改時間、權(quán)限和配額元數(shù)據(jù)),編輯日志文件會存儲文件系統(tǒng)中所有的元數(shù)據(jù)的變化情況(文件系統(tǒng)客戶端執(zhí)行寫操作,如新建文件或移動文件的時候,首先會被記錄在編輯日志中,編輯日志會在每次寫操作之后但尚未將成功代碼返回給客戶端時被刷新和同步)。文件系統(tǒng)映像和編輯日志都存儲在智能網(wǎng)的本地文件系統(tǒng)上。
Web油田智能網(wǎng)會定期為名稱空間建立檢查點,它從活動的智能網(wǎng)上下載文件系統(tǒng)映像并編輯日志,然后在本地進行組合,之后再把新的文件系統(tǒng)映像上傳到活動Web油田智能網(wǎng)上。
數(shù)據(jù)節(jié)點是基本的文件存儲單元,是HDFS分布式文件系統(tǒng)中的工作者。數(shù)據(jù)節(jié)點的主要工作模式就是定期向Web油田智能網(wǎng)匯報其狀況、等待并處理存儲數(shù)據(jù)。它將數(shù)據(jù)塊存儲在本地文件系統(tǒng)中同時,周期性地發(fā)送數(shù)據(jù)塊的報告給Web油田智能網(wǎng),通常以Rack(機架)的形式組織,通過一個交換機將所有系統(tǒng)連接在一起。Hadoop的一個假設(shè)是:機架內(nèi)部節(jié)點之間的數(shù)據(jù)傳輸速度比機架之間節(jié)點的傳輸速度快。
3.1 客戶端應(yīng)用程序設(shè)計
客戶端代表用戶通過與Web油田智能網(wǎng)和數(shù)據(jù)節(jié)點交互來訪問整個文件系統(tǒng)。它以一個類庫(包)的模式存在,并且在一個獨立的進程中提供服務(wù),為用戶提供文件讀寫、目錄操作等接口。當(dāng)用戶需要對HDFS進行文件讀寫的時候,只需要配置客戶端相關(guān)的包就可以使用HDFS提供的服務(wù)了。
客戶端提供一個類似POSIX(可移植操作系統(tǒng)界面)的文件系統(tǒng)接口,因此用戶在編程時并不需要知道Web油田智能網(wǎng)和數(shù)據(jù)節(jié)點及其功能??蛻舳讼氚盐募懙紿DFS上,需要先將該文件緩存到本地的臨時存儲設(shè)備中,如果緩存的數(shù)據(jù)大于所需的HDFS數(shù)據(jù)塊大小,創(chuàng)建文件的請求將發(fā)送給智能網(wǎng)。實際的I/O事務(wù)并沒有經(jīng)過Web油田智能網(wǎng),只有表示數(shù)據(jù)節(jié)點和數(shù)據(jù)塊的文件映射的元數(shù)據(jù)才經(jīng)過該網(wǎng)絡(luò)。
文件系統(tǒng)數(shù)據(jù)集群(Cluster)可以提高網(wǎng)絡(luò)數(shù)據(jù)信息管理能力,在節(jié)點之間通過高性能網(wǎng)絡(luò)(LAN或WAN)進行物理連接,這些計算機通過某種方式協(xié)同工作以完成共同的任務(wù);同時文件數(shù)據(jù)集群系統(tǒng)可以為用戶和應(yīng)用程序提供統(tǒng)一的系統(tǒng)映像,可以使用戶和應(yīng)用程序與文件數(shù)據(jù)集群系統(tǒng)進行交互時,整個文件數(shù)據(jù)集群系統(tǒng)就像是一臺高性能的計算機。
3.2 客戶端數(shù)據(jù)節(jié)點檢索
Web油田智能網(wǎng)建設(shè)過程中,需要對數(shù)據(jù)庫信息進行檢索,確保數(shù)據(jù)庫信息能夠符合節(jié)點控制和文件管理的要求。具體設(shè)計過程中需要擁有一臺主服務(wù)器(action)完成對數(shù)據(jù)信息的統(tǒng)計與整理,同時需要若干個客戶端和備份機(standby),此種模式通常被稱為active/standby模式,可以實現(xiàn)數(shù)據(jù)信息之間的通信。
在文件系統(tǒng)模型優(yōu)化的過程中,需要進行資源分配,讓不同的機器設(shè)備運用不同結(jié)構(gòu)的文件系統(tǒng),通過雙機互備模式,把設(shè)備資源和服務(wù)器結(jié)構(gòu)結(jié)合在一起,實現(xiàn)故障的多方面處理,為故障檢測和故障模型優(yōu)化提供支持。在設(shè)備運行的過程中,可以提高文件系統(tǒng)的綜合管理效率,實現(xiàn)文件系統(tǒng)的優(yōu)化管理。
通過建立負載均衡文件系統(tǒng)數(shù)據(jù)集群,提高對資源的利用率,為資源數(shù)據(jù)信息優(yōu)化創(chuàng)造良好的平臺。在均衡文件處理中,需要對不同的服務(wù)節(jié)點設(shè)置不同的權(quán)限,確保文件能夠符合數(shù)據(jù)集群控制處理的要求。在用戶數(shù)據(jù)信息處理之間形成文件管理系統(tǒng),在調(diào)用文件管理系統(tǒng)的文件時進行讀寫保護,確保文件系統(tǒng)能夠均衡負載在不同的服務(wù)器上,提高服務(wù)器和文件系統(tǒng)的管理效率。
3.3 數(shù)據(jù)節(jié)點存儲模式
將Web油田智能網(wǎng)的功能轉(zhuǎn)化成數(shù)學(xué)語言就是:對于一個含有N個樣本的樣本空間,將其記為{X1,X2,…XN},每一個樣本X(t)有n個屬性,并且每個樣本屬于一個分類yt,現(xiàn)在假定分類總數(shù)為2,也就是yt∈(0,1),模型的目標就是要找一組超平面,盡可能多的將這兩類樣本分開。
在分布式環(huán)境中,隨時都有可能發(fā)生機器失效的情況,HDFS的三個組成部分(Web油田智能網(wǎng)、數(shù)據(jù)節(jié)點和客戶端)都有可能出現(xiàn)這種問題。通過智能網(wǎng)數(shù)據(jù)優(yōu)化處理和節(jié)點設(shè)計,可以實現(xiàn)數(shù)據(jù)信息的傳輸和日志管理。
對于Web油田智能網(wǎng),錯誤恢復(fù)就是靠文件系統(tǒng)映像和編輯日志。在該網(wǎng)絡(luò)上,所有對文件和目錄操作的關(guān)鍵步驟都會被寫入日志(具體的文件內(nèi)容處在哪個數(shù)據(jù)服務(wù)器上的信息是不會被寫入日志的,因為這些信息是動態(tài)建立的)。另外,網(wǎng)絡(luò)會在某個時刻將當(dāng)下的文件目錄完整的序列化到本地,稱為文件系統(tǒng)映像。一旦網(wǎng)絡(luò)出現(xiàn)問題,它就會根據(jù)最近的文件系統(tǒng)映像和映像之后的所有日志重新建立整個文件目錄,從而恢復(fù)智能網(wǎng)功能。此時,數(shù)據(jù)節(jié)點會獲得新的Web油田智能網(wǎng)的信息并向該網(wǎng)絡(luò)發(fā)送消息。
(欄目主持關(guān)梅君)
10.3969/j.issn.1006-6896.2014.5.043