• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于道集流的地震數(shù)據(jù)并行輸入輸出方法

      2014-12-11 08:43:00劉永江
      關(guān)鍵詞:集流數(shù)據(jù)文件緩沖區(qū)

      劉永江,邵 慶

      (1.中海油研究總院 技術(shù)研發(fā)中心 北京100027; 2.東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

      0 引言

      隨著地球物理勘探技術(shù)的發(fā)展,地震數(shù)據(jù)的采集密度越來(lái)越高、采集容量越來(lái)越大,一個(gè)三維地震的數(shù)據(jù)文件通常達(dá)到1012b級(jí).針對(duì)高精度的三維地震數(shù)據(jù),人們研究各種地震資料處理算法,大多以道集為單元進(jìn)行數(shù)據(jù)處理[1-2].道集指在地震資料處理中,根據(jù)計(jì)算需要從地震數(shù)據(jù)體中抽取滿(mǎn)足某種條件的一組地震道數(shù)據(jù),如具有同一中心點(diǎn)的道數(shù)據(jù)組成的共CDP道集,其他還有共偏移距道集、共檢波點(diǎn)道集等[3-4].

      傳統(tǒng)的地震資料處理軟件是以地震道為單元進(jìn)行計(jì)算的,一次為處理模塊提供一個(gè)道數(shù)據(jù)或一組連續(xù)的道數(shù)據(jù),無(wú)法集成復(fù)雜的道集處理模塊[5].為了支持對(duì)道集處理模塊的集成,文必龍等開(kāi)發(fā)基于道集流的地震資料處理系統(tǒng)MPS(Marine Process System)[6].在地震資料處理作業(yè)流中,道集流模塊之間以道集作為數(shù)據(jù)輸入、輸出單元進(jìn)行數(shù)據(jù)傳遞.道集流方式為深海高精度復(fù)雜地震資料處理算法提供方便的數(shù)據(jù)輸入、輸出方法,但對(duì)數(shù)據(jù)I/O提出更高的需求,需要對(duì)數(shù)據(jù)按道集進(jìn)行分選、拆分、收集和存儲(chǔ)[7].在完成復(fù)雜數(shù)據(jù)操作的同時(shí)保證數(shù)據(jù)I/O速度,是基于道集流的地震資料處理平臺(tái)需要解決的關(guān)鍵問(wèn)題之一.文獻(xiàn)[7-10]研究道集流的數(shù)據(jù)I/O功能和效率,通過(guò)虛擬內(nèi)存映射[7]、統(tǒng)一數(shù)據(jù)存取[8-9]和數(shù)據(jù)存取流程優(yōu)化[10]等技術(shù)提高道集的數(shù)據(jù)I/O效率;這些技術(shù)主要是通過(guò)數(shù)據(jù)函數(shù)接口提供數(shù)據(jù)存取,只是在局部對(duì)數(shù)據(jù)操作進(jìn)行優(yōu)化設(shè)計(jì),沒(méi)有形成系統(tǒng)化的機(jī)制,難以滿(mǎn)足大規(guī)模地震資料處理在效率上的需求.

      在分析三維地震道集流特點(diǎn)和集群環(huán)境存儲(chǔ)設(shè)備特點(diǎn)的基礎(chǔ)上,筆者提出一種多道集流并行數(shù)據(jù)服務(wù)架構(gòu),優(yōu)化地震資料處理系統(tǒng)的并行數(shù)據(jù)存取效率,并在MPS上進(jìn)行測(cè)試和集成.

      1 地震資料處理數(shù)據(jù)服務(wù)

      常規(guī)地震資料處理作業(yè)流程由數(shù)據(jù)輸入模塊、若干處理方法模塊和數(shù)據(jù)輸出模塊,按執(zhí)行順序排列組成(見(jiàn)圖1).從輸入模塊到輸出模塊的運(yùn)行是在一個(gè)作業(yè)進(jìn)程中通過(guò)循環(huán)完成的,每循環(huán)一次完成一個(gè)道數(shù)據(jù)的處理.在作業(yè)流程內(nèi)部,輸入模塊、方法模塊和輸出模塊以串行方式運(yùn)行.在作業(yè)運(yùn)行時(shí),前一個(gè)模塊的輸出作為下一個(gè)模塊的輸入,構(gòu)成地震數(shù)據(jù)流.地震資料處理的基本單元是地震道數(shù)據(jù),處理方法模塊從數(shù)據(jù)流中收集道數(shù)據(jù),當(dāng)?shù)罃?shù)滿(mǎn)足處理方法模塊的輸入條件時(shí),對(duì)數(shù)據(jù)進(jìn)行計(jì)算并把數(shù)據(jù)返回?cái)?shù)據(jù)流緩沖區(qū).如此不斷循環(huán),完成數(shù)據(jù)處理任務(wù).

      為了在多節(jié)點(diǎn)的集群系統(tǒng)中進(jìn)行并行計(jì)算,地震資料處理系統(tǒng)需要為各節(jié)點(diǎn)分配計(jì)算任務(wù),將數(shù)據(jù)分為若干組,各計(jì)算節(jié)點(diǎn)或進(jìn)程按照作業(yè)流程計(jì)算分配的數(shù)據(jù)組.在道集流模式下,如果只將數(shù)據(jù)輸入、輸出單元由單道改為道集,難以滿(mǎn)足數(shù)據(jù)處理的要求,主要存在問(wèn)題:

      (1)道集數(shù)據(jù)輸入慢.由于一個(gè)道集的數(shù)據(jù)在地震數(shù)據(jù)體中不一定是連續(xù)存放的,需要進(jìn)行數(shù)據(jù)篩選,因此輸入模塊必須從地震數(shù)據(jù)體中收集道數(shù)據(jù)并構(gòu)成道集.當(dāng)?shù)卣饠?shù)據(jù)體很大時(shí),數(shù)據(jù)收集速度變慢.

      (2)道集數(shù)據(jù)輸出慢.由于各進(jìn)程、各節(jié)點(diǎn)間的作業(yè)流是并行執(zhí)行的,在數(shù)據(jù)文件并行讀方面不存在問(wèn)題,但在數(shù)據(jù)輸出時(shí)易產(chǎn)生寫(xiě)沖突.在單道數(shù)據(jù)輸出時(shí),由于數(shù)據(jù)輸出量小,操作系統(tǒng)內(nèi)部利用緩沖和事務(wù)處理功能可以解決寫(xiě)沖突;但是在道集輸出時(shí),一個(gè)道集數(shù)據(jù)就很大,系統(tǒng)的寫(xiě)沖突機(jī)制協(xié)調(diào)的結(jié)果是各節(jié)點(diǎn)排隊(duì)寫(xiě)數(shù)據(jù),導(dǎo)致并行計(jì)算的結(jié)果以串行方式輸出,產(chǎn)生數(shù)據(jù)輸出瓶頸.

      (3)難以處理多個(gè)道集.復(fù)雜的處理算法需要同時(shí)對(duì)多個(gè)道集進(jìn)行計(jì)算,流程更加復(fù)雜,傳統(tǒng)的作業(yè)流控制模式無(wú)法處理這種復(fù)雜的數(shù)據(jù)流.

      因此,提出基于索引數(shù)據(jù)庫(kù)的并行數(shù)據(jù)輸入、輸出架構(gòu),道集流并行數(shù)據(jù)流處理作業(yè)流程見(jiàn)圖2.該架構(gòu)具有特點(diǎn):

      圖1 常規(guī)地震資料處理作業(yè)流程Fig.1 Job flow in general seismic data process

      圖2 道集流并行數(shù)據(jù)流處理作業(yè)流程Fig.2 Parallel data flow for trace gathers flow processing

      (1)建立道頭字索引數(shù)據(jù)庫(kù).道頭字是抽道集的依據(jù).索引數(shù)據(jù)庫(kù)將道地震數(shù)據(jù)文件的道頭字保存在數(shù)據(jù)表中,通過(guò)條件篩選和排序,得到道集中每一道的排序及其在地震數(shù)據(jù)文件中的道號(hào).

      (2)建立獨(dú)立的數(shù)據(jù)輸入、輸出進(jìn)程.數(shù)據(jù)輸入、輸出進(jìn)程與作業(yè)進(jìn)程并行運(yùn)行,作業(yè)進(jìn)程的輸入、輸出模塊直接對(duì)數(shù)據(jù)緩沖區(qū)讀寫(xiě)數(shù)據(jù).由于在節(jié)點(diǎn)內(nèi)實(shí)現(xiàn)并行數(shù)據(jù)輸入、輸出,能夠大幅提高數(shù)據(jù)I/O效率,可以適應(yīng)多道集的處理.

      (3)設(shè)置獨(dú)立的數(shù)據(jù)庫(kù)節(jié)點(diǎn).在集群環(huán)境中專(zhuān)門(mén)設(shè)置數(shù)據(jù)庫(kù)節(jié)點(diǎn),保證各并行節(jié)點(diǎn)共享索引數(shù)據(jù)庫(kù)服務(wù).由于每一個(gè)節(jié)點(diǎn)有多個(gè)核,可以支持集群環(huán)境中大規(guī)模并行訪問(wèn)數(shù)據(jù)庫(kù).

      (4)設(shè)置專(zhuān)門(mén)的地震數(shù)據(jù)存儲(chǔ)系統(tǒng).在集群環(huán)境中建立磁盤(pán)陣列,用萬(wàn)兆級(jí)光纖網(wǎng)聯(lián)接計(jì)算節(jié)點(diǎn)與磁盤(pán)陣列,保證節(jié)點(diǎn)并行存取速度.

      2 索引數(shù)據(jù)庫(kù)

      地震數(shù)據(jù)存儲(chǔ)通常由文件頭、道數(shù)據(jù)和文件尾部分組成:SEGD、SEGY格式數(shù)據(jù)由文件頭和道數(shù)據(jù)部分[11-12]組成,DHT格式數(shù)據(jù)由文件頭、道數(shù)據(jù)和文件尾部分[13-14]組成.文件頭描述地震數(shù)據(jù)采集參數(shù),包括采樣間隔、采集方式、數(shù)據(jù)編碼格式和采集設(shè)備等全局性信息.文件尾包含一些與處理過(guò)程相關(guān)的信息.數(shù)據(jù)的主體是道數(shù)據(jù),由若干地震道數(shù)據(jù)按一定順序排列構(gòu)成.每個(gè)道數(shù)據(jù)由一個(gè)道頭字表和多個(gè)地震特性數(shù)據(jù)構(gòu)成.道頭字表由多個(gè)道頭字構(gòu)成,每個(gè)道頭字表示道數(shù)據(jù)的一個(gè)特性,如道號(hào)、炮號(hào)、共深度點(diǎn)、疊加次數(shù)、炮檢距、面元序號(hào)和三維inline號(hào)等.其中,道號(hào)是道在道數(shù)據(jù)集中序號(hào),按1、2、3……進(jìn)行編號(hào).

      道集流的基礎(chǔ)是抽道集,即從地震數(shù)據(jù)文件中將符合條件的道數(shù)據(jù)提取出來(lái),并按一定順序排列.每個(gè)道集用三元組表示:

      其中:

      ·where為道集篩選條件.where一般用1個(gè)或多個(gè)格式為“道頭字 比較符 數(shù)值”的邏輯表達(dá)式進(jìn)行

      描述,如:“炮號(hào)=4”的道,“共深度點(diǎn)>5and共深度點(diǎn)<10”的道.

      ·order為道集排列方式.由一個(gè)或多個(gè)道頭字組成,表示排序關(guān)鍵字.

      ·IDs為道集中所有道的道號(hào)集.

      一個(gè)道集包含若干個(gè)道,各道在地震數(shù)據(jù)體中不一定是連續(xù)存存儲(chǔ)的,其分布與輸入數(shù)據(jù)的存儲(chǔ)順序及道集抽取方式有關(guān).如當(dāng)輸入數(shù)據(jù)是炮序的,即按炮號(hào)為主關(guān)鍵排序(原始地震數(shù)據(jù)是按炮序排列的);如果按偏移距抽道集,道集中任何一個(gè)道都跨越所有的炮的道集,數(shù)據(jù)分布幾乎跨越整個(gè)地震數(shù)據(jù)文件.每抽一個(gè)道集都要遍歷一遍整個(gè)數(shù)據(jù)體文件,速度非常慢.

      圖3 道頭字索引數(shù)據(jù)庫(kù)ER主體結(jié)構(gòu)Fig.3 Primary part of ER chart for database of trace head indexing

      為了快速定位道集數(shù)據(jù),設(shè)計(jì)道頭字索引數(shù)據(jù)庫(kù),利用數(shù)據(jù)庫(kù)的檢索功能,快速篩選滿(mǎn)足where條件道集信息,并按order條件進(jìn)行排序,產(chǎn)生道集的道號(hào)集合IDs,輸入、輸出模塊根據(jù)IDs條件直接在地震數(shù)據(jù)文件中定位讀取數(shù)據(jù).道頭字索引數(shù)據(jù)庫(kù)存儲(chǔ)與地震工區(qū)相關(guān)的地震數(shù)據(jù)文件基本信息,以及每個(gè)地震數(shù)據(jù)文件的道頭信息,其ER(Entity Relationship,實(shí)體關(guān)系)主體結(jié)構(gòu)見(jiàn)圖3.

      工區(qū)表(Project)定義地震工區(qū)相關(guān)的信息.

      地震數(shù)據(jù)文件表(SeismicDataFile)定義一個(gè)地震數(shù)據(jù)文件的相關(guān)信息,包括文件的路徑和文件頭中的主要信息.

      道頭信息表(TraceHead)定義道頭字信息,道頭字中的每一個(gè)關(guān)鍵字都對(duì)應(yīng)一個(gè)TraceHead字段,每一道對(duì)應(yīng)一條TraceHead記錄.一個(gè)三維地震數(shù)據(jù)體包含的地震道多達(dá)千萬(wàn)條,為了提高數(shù)據(jù)檢索效率,將不同工區(qū)地震數(shù)據(jù)的TraceHead分開(kāi)建表,減少一個(gè)TraceHead表的數(shù)據(jù)記錄數(shù)量.

      通常情況下,在處理數(shù)據(jù)時(shí)一個(gè)工區(qū)只有一個(gè)地震數(shù)據(jù)文件.在地震數(shù)據(jù)采集過(guò)程中,有時(shí)將一炮或幾炮的數(shù)據(jù)保存在一個(gè)文件里,在地震資料處理前需要將這些文件合并為一個(gè)大文件,不僅花費(fèi)時(shí)間,占用很大的磁盤(pán)存儲(chǔ)空間,而且對(duì)人工的分工操作和數(shù)據(jù)管理等也不方便.

      提出虛擬地震數(shù)據(jù)文件的概念,在將多個(gè)實(shí)際的地震數(shù)據(jù)文件組織成一個(gè)新的地震數(shù)據(jù)文件時(shí),并不生成新的數(shù)據(jù)文件體,只是在表SeismicDataFile中建立一條記錄,在表TraceHead中增加一個(gè)文件號(hào),記錄每一道在哪個(gè)文件中的道號(hào)是多少;同時(shí)設(shè)計(jì)一張文件合并信息表MergeInfo,描述虛擬文件與各組成文件之間的組合關(guān)系.由于采用虛擬地震數(shù)據(jù)文件,避免人工合并文件,既可對(duì)單個(gè)文件進(jìn)行處理,也可對(duì)整個(gè)文件進(jìn)行處理.

      地震資料處理系統(tǒng)首次加載地震數(shù)據(jù)文件時(shí),通過(guò)對(duì)地震數(shù)據(jù)文件進(jìn)行一遍掃描獲取道對(duì)信息,在索引數(shù)據(jù)庫(kù)中建立索引數(shù)據(jù)表;此外,在處理作業(yè)輸出數(shù)據(jù)時(shí)也創(chuàng)建索引數(shù)據(jù)表.為了提高數(shù)據(jù)庫(kù)操作效率和適應(yīng)并行數(shù)據(jù)操作,采取策略:

      (1)按常用關(guān)鍵字對(duì)表TraceHead建立索引,每個(gè)關(guān)鍵字對(duì)應(yīng)一個(gè)索引.

      (2)采用事務(wù)鎖機(jī)制,保證數(shù)據(jù)操作的一致性.在數(shù)據(jù)處理過(guò)程中,各節(jié)點(diǎn)同時(shí)進(jìn)行創(chuàng)建、插入和查詢(xún)同一條記錄的概率高,對(duì)一些特定的操作采用事務(wù)鎖可以保持?jǐn)?shù)據(jù)的一致性.

      (3)利用數(shù)據(jù)庫(kù)連接池和批量加載技術(shù),減少進(jìn)程與數(shù)據(jù)服務(wù)器的通訊次數(shù).在數(shù)據(jù)處理過(guò)程中打開(kāi)和關(guān)閉數(shù)據(jù)庫(kù)時(shí),在數(shù)據(jù)庫(kù)服務(wù)器和客戶(hù)端交換數(shù)據(jù)庫(kù)管理信息,連接池只在客戶(hù)端首次連接數(shù)據(jù)庫(kù)時(shí)打開(kāi)數(shù)據(jù)庫(kù),中間再有打開(kāi)和關(guān)閉數(shù)據(jù)庫(kù)時(shí)只返回連接信息,不再進(jìn)行實(shí)際連接.向數(shù)據(jù)庫(kù)中插入一條記錄時(shí),也有客戶(hù)端與服務(wù)器之間的多次通訊,雖然每次操作的時(shí)間很短,但上千萬(wàn)次數(shù)據(jù)操作累積起來(lái)占用的時(shí)間很多;因此將向數(shù)據(jù)庫(kù)中插入的數(shù)據(jù)先緩存在本地磁盤(pán)文件中,在完成數(shù)據(jù)處理后一次性向服務(wù)器進(jìn)行批量加載,可大幅提高數(shù)據(jù)庫(kù)操作速度.

      3 并行數(shù)據(jù)輸入輸出

      3.1 節(jié)點(diǎn)間

      在地震資料處理系統(tǒng)啟動(dòng)各節(jié)點(diǎn)的分控程序時(shí),向分控程序傳遞該節(jié)點(diǎn)要計(jì)算的道集范圍,并啟動(dòng)數(shù)據(jù)輸入、輸出進(jìn)程(見(jiàn)圖2).因此,節(jié)點(diǎn)間的數(shù)據(jù)并行操作主要體現(xiàn)在數(shù)據(jù)庫(kù)查詢(xún)、數(shù)據(jù)讀和數(shù)據(jù)寫(xiě)的并行方面.

      各節(jié)點(diǎn)同時(shí)查詢(xún)或?qū)憯?shù)據(jù)庫(kù)時(shí),數(shù)據(jù)庫(kù)服務(wù)器本身具有多用戶(hù)并發(fā)操作控制機(jī)制,為每個(gè)節(jié)點(diǎn)派發(fā)一個(gè)線程處理相應(yīng)的數(shù)據(jù)請(qǐng)求;在各節(jié)點(diǎn)抽道集時(shí),操作系統(tǒng)和磁盤(pán)陣列可以很好地處理并行只讀操作,以避免產(chǎn)生沖突.

      在各節(jié)點(diǎn)輸出數(shù)據(jù)時(shí)將產(chǎn)生寫(xiě)沖突問(wèn)題,因?yàn)榇疟P(pán)系統(tǒng)對(duì)同一個(gè)數(shù)據(jù)塊一次只允許有一個(gè)寫(xiě)操作,提出3種并行輸出方式:

      (1)文件鎖方式.一個(gè)節(jié)點(diǎn)在寫(xiě)數(shù)據(jù)時(shí),將數(shù)據(jù)文件加上鎖,其他節(jié)點(diǎn)的進(jìn)程要寫(xiě)數(shù)據(jù)時(shí)將被阻塞,在該節(jié)點(diǎn)寫(xiě)完數(shù)據(jù)時(shí)直接釋放鎖.文件鎖方式本質(zhì)上是一種串行寫(xiě)操作,效率很低.只有在數(shù)據(jù)量不大或用戶(hù)在調(diào)試模式下工作時(shí),才用文件鎖方式.

      (2)隨機(jī)寫(xiě)方式.根據(jù)已知的輸出道數(shù)和道長(zhǎng)字節(jié)數(shù),預(yù)先生成一個(gè)足夠大的空文件,各節(jié)點(diǎn)只針對(duì)本節(jié)點(diǎn)寫(xiě)入的數(shù)據(jù)塊進(jìn)行操作.由于磁盤(pán)系統(tǒng)允許隨機(jī)并行寫(xiě)操作,因此不產(chǎn)生沖突.隨機(jī)寫(xiě)方式只適合輸出道集可預(yù)先計(jì)算的情況.

      (3)獨(dú)立輸出文件方式.各節(jié)點(diǎn)輸出各自的文件,相互不干擾,利用提出的虛擬地震數(shù)據(jù)文件的概念,將獨(dú)立的文件組織成一個(gè)虛擬地震數(shù)據(jù)文件,數(shù)據(jù)文件共享一個(gè)TraceHead表.這種方式輸出效率最高,并且適合各種情況.

      3.2 節(jié)點(diǎn)內(nèi)

      在一個(gè)計(jì)算節(jié)點(diǎn)中只有一個(gè)數(shù)據(jù)輸入進(jìn)程和一個(gè)數(shù)據(jù)輸出進(jìn)程,負(fù)責(zé)該節(jié)點(diǎn)多個(gè)作業(yè)進(jìn)程的統(tǒng)一輸入、輸出.節(jié)點(diǎn)內(nèi)的數(shù)據(jù)輸入、輸出并行指輸入進(jìn)程、輸出進(jìn)程和作業(yè)進(jìn)程同時(shí)運(yùn)行.

      在數(shù)據(jù)輸入進(jìn)程與作業(yè)進(jìn)程之間通過(guò)數(shù)據(jù)輸入緩沖區(qū)進(jìn)行數(shù)據(jù)協(xié)同.數(shù)據(jù)輸入進(jìn)程為根據(jù)任務(wù)清單進(jìn)行抽道集,將道集數(shù)據(jù)放入數(shù)據(jù)輸入緩沖區(qū);作業(yè)進(jìn)程由數(shù)據(jù)輸入模塊從緩沖區(qū)中按順序讀取道集,交給計(jì)算模塊處理.當(dāng)節(jié)點(diǎn)中有多個(gè)作業(yè)進(jìn)程并行運(yùn)行時(shí),各進(jìn)程從緩沖區(qū)的道集隊(duì)列中獲取道集,并行數(shù)據(jù)輸入流程見(jiàn)圖4.

      在輸入進(jìn)程與作業(yè)進(jìn)程并行運(yùn)行過(guò)程中,需要協(xié)同控制緩沖區(qū).數(shù)據(jù)輸入進(jìn)程不斷地往緩沖區(qū)中存入道集,當(dāng)緩沖區(qū)滿(mǎn)時(shí),需要等待緩沖中的道集被作業(yè)進(jìn)程讀出;當(dāng)向緩沖區(qū)存入一個(gè)道集時(shí),需要通知正在等待的作業(yè)進(jìn)程.作業(yè)進(jìn)程的輸入模塊不斷從緩沖區(qū)中讀入道集,當(dāng)緩沖區(qū)空閑時(shí),需要等待緩沖的道集被數(shù)據(jù)輸入進(jìn)程存入道集;當(dāng)從緩沖區(qū)讀出一個(gè)道集時(shí),需要通知正在等待緩沖區(qū)的數(shù)據(jù)輸入進(jìn)程.由于可能有多個(gè)進(jìn)程同時(shí)從緩沖區(qū)讀道集,因此需要對(duì)道集緩沖進(jìn)行全局性控制.

      圖4 并行數(shù)據(jù)輸入流程Fig.4 Work flow for parallel data input

      采用信號(hào)量控制緩沖區(qū)和道集數(shù)據(jù),給出統(tǒng)一的信號(hào)量、初始化、P操作和V操作定義,實(shí)現(xiàn)數(shù)據(jù)輸入進(jìn)程與作業(yè)進(jìn)程間的控制通訊.數(shù)據(jù)輸出流程與數(shù)據(jù)輸入流程相似.

      并行數(shù)據(jù)輸入、輸出機(jī)制能夠適應(yīng)多道集處理的需要.一般情況下,作業(yè)流程一次循環(huán)只處理一個(gè)道集,但在復(fù)雜的地震資料處理算法中,一次計(jì)算需要用到多個(gè)道集流的數(shù)據(jù),需要啟動(dòng)多個(gè)輸入進(jìn)程.

      通過(guò)數(shù)據(jù)并行輸入、輸出機(jī)制,能夠提高地震資料處理效率(見(jiàn)圖5).假設(shè)輸入一個(gè)道集的時(shí)間為T(mén)1,執(zhí)行一次處理流程所用時(shí)間為T(mén)2,輸出一個(gè)道集的時(shí)間為T(mén)3,共有n個(gè)道集需要處理.

      在串行模式下,完成全部資料處理的時(shí)間Ts為

      在并行模式下,在完成一個(gè)道集的輸入后才能啟動(dòng)作業(yè)流,在完成一次作業(yè)流后才有輸出,在完成所有處理后還要完成最后一次處理的輸出.在不考慮多個(gè)作業(yè)流并行及數(shù)據(jù)緩沖區(qū)等待的前提下,在并行模式下完成全部資料處理的時(shí)間為

      式中:T4為輸入、作業(yè)和輸出迭加執(zhí)行的時(shí)間,即各迭加部分最長(zhǎng)部分的時(shí)間.一般情況下作業(yè)計(jì)算占用的時(shí)間明顯多于輸入、輸出占用的,因此T4取為(n-1)T2.

      為了提高并行速度,即減少Tp,最直接的方式是減少T4的開(kāi)銷(xiāo).因此,在同一節(jié)點(diǎn)內(nèi),采用多核并行執(zhí)行作業(yè)進(jìn)程的核數(shù)越多,每一個(gè)核的循環(huán)次數(shù)就越少,T4越小.如果作業(yè)流程的處理模塊很少、處理開(kāi)銷(xiāo)小于數(shù)據(jù)輸出的時(shí)間時(shí),T4的開(kāi)銷(xiāo)變?yōu)檩敵龅兰臅r(shí)間.為了提高作業(yè)處理效率,可以減少作業(yè)流并行數(shù),增加輸出進(jìn)程的并行數(shù).通過(guò)調(diào)整不同進(jìn)程的并行數(shù),保持作業(yè)執(zhí)行時(shí)間與數(shù)據(jù)輸出時(shí)間的平衡,以實(shí)現(xiàn)處理效率的最優(yōu)化.

      圖5 地震資料處理時(shí)間序列Fig.5 Time series in seismic data process

      4 測(cè)試

      文中基于道集流的地震數(shù)據(jù)并行輸入、輸出方法在中國(guó)海洋石油總公司開(kāi)發(fā)的海上地震資料處理系統(tǒng)MPS中得到應(yīng)用,與商業(yè)地震資料處理軟件Foucs在同一集群環(huán)境中進(jìn)行對(duì)比,MPS的應(yīng)用效果優(yōu)于Focus的.MPS和Focus的測(cè)試數(shù)據(jù)I/O速度結(jié)果見(jiàn)表1,其中測(cè)試序號(hào)1~3分別表示3種測(cè)試情況:1表示有數(shù)據(jù)輸入,同時(shí)加載一個(gè)處理方法模塊;2表示有數(shù)據(jù)輸入和數(shù)據(jù)輸出,同時(shí)加載一個(gè)處理方法模塊;3表示只有數(shù)據(jù)輸入和數(shù)據(jù)輸出,不加載任何處理方法模塊.

      在相同條件下,MPS的處理速度要快于Focus的.當(dāng)計(jì)算節(jié)點(diǎn)數(shù)增加時(shí),MPS的速度提高幅度比Focus的明顯,主要原因是MPS在數(shù)據(jù)I/O上采用多文件輸出,避免并行數(shù)增加時(shí)數(shù)據(jù)輸出競(jìng)爭(zhēng)的現(xiàn)象.

      表1 MPS與Focus的效率測(cè)試結(jié)果Table 1 Comparison of data I/O efficiency in MPS and Focus

      此外,測(cè)試MPS在采用不同CPU核數(shù)進(jìn)行地震資料處理時(shí)的輸入﹑輸出效率,結(jié)果見(jiàn)表2.在有輸入﹑輸出和處理方法模塊時(shí),平均數(shù)據(jù)處理速度近150Mb/s.當(dāng)并行CPU核數(shù)達(dá)到40左右時(shí),即使再增加CPU核數(shù),也不能提高數(shù)據(jù)處理速度.這是因?yàn)殡S著并行數(shù)提高,進(jìn)程對(duì)磁盤(pán)I/O、網(wǎng)絡(luò)帶寬開(kāi)始形成競(jìng)爭(zhēng),再提高速度需要通過(guò)硬件升級(jí)提高網(wǎng)絡(luò)帶寬和磁盤(pán)I/O并發(fā)效率.測(cè)試序號(hào)1的速度隨核數(shù)增加提高得明顯,表明磁盤(pán)陣列能夠很好地處理數(shù)據(jù)的并行輸入,影響數(shù)據(jù)I/O效率的重點(diǎn)是數(shù)據(jù)的并行輸出.

      表2 不同核數(shù)時(shí)MPS并行處理性能測(cè)試結(jié)果Table 2 Test result for MPS Parallel processing performance with difference core

      5 結(jié)束語(yǔ)

      基于道集流的地震數(shù)據(jù)并行輸入﹑輸出方法集成數(shù)據(jù)庫(kù)技術(shù)、進(jìn)程并行控制技術(shù)、海量數(shù)據(jù)文件存取技術(shù),能夠有效地適應(yīng)基于道集流的地震資料處理,對(duì)海量三維地震資料處理有較高的數(shù)據(jù)存取效率;由于采用獨(dú)立數(shù)據(jù)輸入、輸出進(jìn)程,在數(shù)據(jù)存取方面具有較好的可擴(kuò)展性,可支持多道集流的處理模式,以及不同處理作業(yè)流程下的優(yōu)化配置.

      (References):

      [1]Brahim Abbad,Bjorn Ursin,Didier Rappin.Automatic nonhyperbolic velocity analysis[J].Geophysics,2009,74(2):1-12.

      [2]Fu Liyun.Wavefield interpolation in the Fourier wavefield extrapolation[J].Geophysics,2004,69(1):257-264.

      [3]Pang Tinghua,Lu Wenkai,Ma Yongjun.Adaptive multiple subtraction using a constrained L1-norm method with lateral continuity[J].Applied Geophysics,2009,6(3):241-247.

      [4]陳生昌,王漢闖,陳林.三維 VSP數(shù)據(jù)高效偏移成像的超道集方法[J].地球物理學(xué)報(bào),2012,55(1):232-237.Chen Shengchang,Wang Hanchuang,Chen Lin.A hight efficient super-gather migration method for 3DVSP data[J].Chinese Journal of Geophysics,2012,55(1):232-237.

      [5]胡學(xué)慶.集群環(huán)境下海量數(shù)據(jù)存儲(chǔ)管理技術(shù)的研究[D].大慶:東北石油大學(xué),2010.Hu Xueqing.Research of massive data storage and management in cluster environment[D].Daqing:Northeast Petroleum University,2010.

      [6]文必龍,胡學(xué)慶,劉永江.海量數(shù)據(jù)跨盤(pán)存儲(chǔ)機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào):自然科學(xué)版,2010,25(3):46-48.Wen Bilong,Hu Xueqing,Liu Yongjiang.Design and implementation of massive data across storage devices[J].Journal of Zhengzhou University of Light Industry:Natural Science Edition,2010,25(3):46-48.

      [7]文必龍,宗文棟.海量并行處理系統(tǒng)的大數(shù)據(jù)讀寫(xiě)接口優(yōu)化研究[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào):自然科學(xué)版,2012,27(3):28-31.Wen Bilong,Zong Wendong.Research on interface optimization for reading and writing large data of massive parallel processing system [J].Journal of Zhengzhou University of Light Industry:Natural Science Edition,2012,27(3):28-31.

      [8]Xiao Bo,Wen Bilong.Unified format definition for bulk data[C]//Proceedings of 2011International Conference on Electronic and Mechanical Engineering and Information Technology.EMEIT 2011:2571-2575.

      [9]Liu Yongjiang,Wen Bilong.Unified format definition for seismic data[C]//Proceedings of 2011International Conference on System Design and Data Processing.ICSDDP 2011:205-208.

      [10]文必龍,趙滿(mǎn),劉永江.虛擬地震數(shù)據(jù)文件并行訪問(wèn)策略[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(4):211-15.Wen Bilong,Zhao Man,Liu Yongjiang.Parallel access virtual seismic data file[J].Computer System Application,2013,22(4):211-115.

      [11]SEG Technical Standards Committee,SEG-D,Rev 3.0,SEG Field Tape Standards[S].Society of Exploration Geophysicist,2012.

      [12]SEG Technical Standards Committee,SEG Y rev 1Data Exchange[S].Society of Exploration Geophysicist,2002.

      [13]馮翔.基于hadoop的地震數(shù)據(jù)分布式存儲(chǔ)策略的研究[D].大慶:東北石油大學(xué),2013.Feng Xiang.The research of seismic data distributed storage strategy based on Hadoop[D].Daqing:Northeast Petroleum University,2013.

      [14]趙滿(mǎn).地震數(shù)據(jù)并行訪問(wèn)策略的研究[D].大慶:東北石油大學(xué),2012.Zhao Man.The research of parallel accessing strategies for seismic data[D].Daqing:Northeast Petroleum University,2012.

      猜你喜歡
      集流數(shù)據(jù)文件緩沖區(qū)
      嵌入式系統(tǒng)環(huán)形緩沖區(qū)快速讀寫(xiě)方法的設(shè)計(jì)與實(shí)現(xiàn)
      分布式送風(fēng)空調(diào)用多翼離心風(fēng)機(jī)集流器的優(yōu)化研究
      數(shù)據(jù)文件恢復(fù)專(zhuān)題問(wèn)答
      數(shù)據(jù)文件安全管控技術(shù)的研究與實(shí)現(xiàn)
      集流管內(nèi)壁沖壓模具設(shè)計(jì)
      SQL數(shù)據(jù)文件恢復(fù)工具
      傘式集流器總承零件標(biāo)準(zhǔn)化現(xiàn)狀分析
      關(guān)鍵鏈技術(shù)緩沖區(qū)的確定方法研究
      Tekla Structure數(shù)據(jù)文件交互格式分析
      地理信息系統(tǒng)繪圖緩沖區(qū)技術(shù)設(shè)計(jì)與實(shí)現(xiàn)
      汽车| 涟水县| 新田县| 河曲县| 五常市| 萨迦县| 重庆市| 错那县| 伊吾县| 盐城市| 库尔勒市| 应用必备| 维西| 南川市| 顺昌县| 惠东县| 哈密市| 革吉县| 湖北省| 嘉义市| 漳州市| 马龙县| 刚察县| 龙门县| 荔波县| 汕尾市| 临潭县| 泰来县| 麟游县| 保定市| 石台县| 南城县| 佛冈县| 额尔古纳市| 清新县| 淄博市| 三门峡市| 哈尔滨市| 勐海县| 房山区| 东丽区|