• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向海量數(shù)據(jù)的相對波速變化計算的并行化方法

      2022-02-19 10:23:16司冠南周風(fēng)余
      計算機應(yīng)用與軟件 2022年2期
      關(guān)鍵詞:數(shù)據(jù)文件單機數(shù)據(jù)量

      張 賽 司冠南* 周風(fēng)余 蔡 寅

      1(山東交通學(xué)院信息科學(xué)與電氣工程學(xué)院 山東 濟南 250300) 2(山東大學(xué)控制科學(xué)與工程學(xué)院 山東 濟南 250100) 3(山東省地震局 山東 濟南 250014)

      0 引 言

      目前,相對波速變化的計算在與火山活動和地震相關(guān)的地下結(jié)構(gòu)變化研究領(lǐng)域應(yīng)用非常廣泛。波速變化計算的實質(zhì)就是通過對兩接收點上的地震臺站背景噪聲數(shù)據(jù)進行互相關(guān)運算[1-3],可以提取兩點之間的格林函數(shù)[4-5],通過測量當(dāng)前經(jīng)驗格林函數(shù)與參考經(jīng)驗格林函數(shù)的相對走時偏移來計算相對波速的變化。隨著計算機技術(shù)與地震學(xué)研究的飛速發(fā)展,地震臺站數(shù)量大大增加,測量數(shù)據(jù)量也急劇增長。傳統(tǒng)的串行化處理方式是在單臺計算機上多次迭代,實時性較低,處理數(shù)據(jù)的速度遠遠落后于數(shù)據(jù)獲取的速度,導(dǎo)致大量的數(shù)據(jù)無法及時轉(zhuǎn)化為可用的信息,顯然這種處理數(shù)據(jù)的方式已不能滿足現(xiàn)有的需求。針對處理海量數(shù)據(jù)時相比并行方式存在計算速度慢、消耗時間長等問題,將大數(shù)據(jù)應(yīng)用到地震行業(yè)的數(shù)據(jù)處理中成為一種趨勢。謝瑋等[6]基于Hadoop的大數(shù)據(jù)技術(shù)構(gòu)建的大型地震勘測軟件平臺。王秀英等[7]利用大數(shù)據(jù)的研究思想,提出了一種前兆識別方法。張加慶[8]針對傳統(tǒng)空間模型在地震數(shù)據(jù)處理過程中造成地震損失評估結(jié)果偏差大的問題,基于大數(shù)據(jù)設(shè)計了一種地震損失價值評估模型。隨著數(shù)據(jù)量的不斷增加,數(shù)據(jù)的存儲管理、共享服務(wù)達到了性能瓶頸,郭凱等[9]基于大數(shù)據(jù)技術(shù)提出了相應(yīng)的分布式管理和計算架構(gòu)。陳湉等[10]根據(jù)地震災(zāi)區(qū)的物資需求和傷員的病情的需要,基于大數(shù)據(jù)提出了震后物資和人員的調(diào)度模型。現(xiàn)階段,國內(nèi)外關(guān)于波速計算的并行化計算研究較少,可以把大數(shù)據(jù)應(yīng)用到波速計算當(dāng)中,作為一個研究方向。目前一些相關(guān)算法的并行化的研究有: Rizvandi等[11]提出了基于hadoop框架實現(xiàn)PKTM算法,通過使用映射規(guī)約模式方法把原始地震數(shù)據(jù)集轉(zhuǎn)換成鍵值,然后進行數(shù)據(jù)處理,盡管改進了處理速度,但導(dǎo)致了過多的I/O開銷。Kurte等[12]基于多核GPU和MPI的并行方法處理遙感災(zāi)害的數(shù)據(jù),提出的并行方法雖然可以實現(xiàn)快速處理數(shù)據(jù)的目的,但是計算過程中進程的開銷較大。因此,本文針對常規(guī)方法面向海量數(shù)據(jù)的相對波速變化計算速度較慢的特點,結(jié)合Spark[13-15]優(yōu)勢提出一個基于分布式框架[16-17]的模型,將原始地震數(shù)據(jù)移植到計算框架中,并充分利用并行計算思想加速處理。

      1 模型設(shè)計

      模型設(shè)計的目的是將存儲在HDFS上的對應(yīng)波形數(shù)據(jù)分發(fā)到Spark框架的計算節(jié)點上進行并行計算來提高相對波速變化計算的速度。

      1.1 分布式波速計算流程

      分布式波速計算流程如圖1所示。

      圖1 波速計算流程

      波速計算流程主要包括以下內(nèi)容:

      1) 對地震原始數(shù)據(jù)進行數(shù)據(jù)處理,數(shù)據(jù)缺失時采用數(shù)據(jù)插補的方式,即采取前后相鄰幾個數(shù)據(jù)的平均值作為插值。

      2) 對處理后的數(shù)據(jù)進行波形的整理,得到所需的SAC文件。

      3) 將上述SAC文件進行歸一化處理,將分布式歸一化后的文件集合作為下一步并行計算的輸入。

      4) 對上述數(shù)據(jù)集在Spark平臺上并行計算,最后把生成的數(shù)據(jù)文件存儲到HDFS中。

      5) HDFS能提供高吞吐量的數(shù)據(jù)訪問,適合存儲處理完的大量地震數(shù)據(jù)文件,用于數(shù)據(jù)的共享和調(diào)度。

      1.2 模型主要步驟

      1.2.1數(shù)據(jù)準備階段

      對源數(shù)據(jù)進行數(shù)據(jù)處理之后,整理對應(yīng)波形,得到我們所需的不同時點上的各分量波形SAC文件,之后將兩個臺站在不同時點上的各分量波形SAC文件一一對應(yīng)起來,每個時點的對應(yīng)關(guān)系組成一個二元組,形如: 。二元組中每個元素表示一個波形文件名稱,其中:Station1、Station2為臺站名稱;Time為選取的時點;Component為波形所屬分量。每個二元組中各臺站的對應(yīng)時點和分量都相同,所有二元組組合起來構(gòu)成一個波形對應(yīng)集合,并將此集合作為分布式數(shù)據(jù)集。

      1.2.2分布式時域歸一化

      傳統(tǒng)的波速計算首先在波形中取一系列的小窗口,計算速度擾動前后該窗口內(nèi)的走時擾動Δτi;根據(jù)上述模型,對上述操作中構(gòu)成的波形對應(yīng)集合進行分布式處理,方便下一步Spark的模型對歸一化的數(shù)據(jù)進行分布式數(shù)據(jù)計算,達到快速計算的目的。

      1) 以每個二元組為一個數(shù)據(jù)單元,均勻分布到M=S×C個算法執(zhí)行隊列中并行執(zhí)行波形數(shù)據(jù)轉(zhuǎn)換,其中:S為計算節(jié)點的數(shù)量;C為計算節(jié)點的CPU核心數(shù)。

      2) 提取二元組各波形文件的數(shù)據(jù),執(zhí)行多頻段進行時域歸一化,并疊加這些歸一化的曲線來生成1個寬頻帶數(shù)據(jù),然后進行互相關(guān)運算,在時域和頻域得到更加均勻的能量分布。

      3) 最后每個數(shù)據(jù)單元形成名為“Station1_Station2_Time .dat”的數(shù)據(jù)文件,并將所有文件的集合作為輸入執(zhí)行下一步計算,其中:Station1、Station2為臺站名稱;Time為選取的時點。

      1.2.3分布式數(shù)據(jù)計算

      在傳統(tǒng)的波速計算中,假設(shè)在流逝時間處的小窗口,其長度為2tw,計算窗口內(nèi)fcur與fref的互相關(guān)函數(shù)的相位譜φ(f),其相位誤差為:

      (1)

      式中:c為相干系數(shù);Bω為信號的頻譜寬度。若窗口內(nèi)的走時偏移Δτi為常數(shù),則φ(f)的線性函數(shù)為:

      φ(f)=2πΔτif

      (2)

      因此可用互相關(guān)函數(shù)的相位譜的斜率計算Δτi,即:

      (3)

      (4)

      其中:

      (5)

      針對上述傳統(tǒng)的計算波速的問題,提出以下并行計算的框架,此模型設(shè)計的分布式計算的框架如圖2所示。

      圖2 分布式計算的框架

      1) 數(shù)據(jù)處理后的數(shù)據(jù)存儲在HDFS中,便于數(shù)據(jù)資源的調(diào)度和共享。

      2) Spark框架對數(shù)據(jù)源的分布式計算,得到最后的結(jié)果。

      3) 將結(jié)果集存儲到HDFS中。

      上述模型將數(shù)據(jù)集均勻分布到多個算法執(zhí)行隊列中并行計算。然后按照波速計算的原理,通過以下步驟計算出上述整合的分布式數(shù)據(jù)集。

      1) 將分布式時域歸一化所形成的文件集合整合成分布式數(shù)據(jù)集,數(shù)據(jù)集的數(shù)量應(yīng)滿足:

      (6)

      M≤S×C,M≤N≤ND

      (7)

      式中:TA為所有數(shù)據(jù)集計算總時間;TP為系統(tǒng)進行并行調(diào)度的損耗時間;N為分布式數(shù)據(jù)集的數(shù)量;TD為每個數(shù)據(jù)文件的計算時間;ND為數(shù)據(jù)文件的數(shù)量;M為計算隊列數(shù)量;S為計算節(jié)點的數(shù)量;C為計算節(jié)點的CPU核心數(shù)。TA、N、M未知,且TA需要取值最小。

      2) 根據(jù)數(shù)據(jù)文件的數(shù)量ND,通過非線性規(guī)劃法求得N、M的值。

      3) 將數(shù)據(jù)集均勻分布到M個算法執(zhí)行隊列中并行執(zhí)行。

      4) 每個數(shù)據(jù)文件形成名為“Station1_Station2_.txt”的結(jié)果文件。

      本文方法的優(yōu)點在于通過對數(shù)據(jù)集的劃分與算法的調(diào)度,并行執(zhí)行相對波速變化計算,在多個計算節(jié)點的支持下可以大大提高相對波速變化計算的速度。

      2 實 驗

      2.1 實驗過程

      采用50個計算節(jié)點進行地震波速計算處理,每個計算節(jié)點配置3核心CPU和16 GB內(nèi)存,數(shù)據(jù)量分別為131天、181天、231天、281天。

      1) 將兩個臺站LAW和TIA在不同時點上的各分量波形SAC文件一一對應(yīng)起來。每個時點的對應(yīng)關(guān)系組成一個二元組,形如:

      <2019.001_LAW_BHE.SAC, 2019.001_TIA_BHE.SAC>

      所有二元組組合起來構(gòu)成一個波形對應(yīng)集合,并將此集合作為分布式數(shù)據(jù)集。

      2) 將上述生成的分布式數(shù)據(jù)集以每個二元組為一個數(shù)據(jù)單元,均勻分布到150個算法執(zhí)行隊列中并行執(zhí)行。提取二元組各波形文件的數(shù)據(jù),執(zhí)行多頻段進行時域歸一化,并疊加這些歸一化的曲線來生成1個寬頻帶數(shù)據(jù),然后進行互相關(guān)運算,在時域和頻域得到更加均勻的能量分布。每個數(shù)據(jù)單元形成名為“LAW_TIA_2019.001.dat”的數(shù)據(jù)文件,并將所有文件的集合作為輸入執(zhí)行下一步計算。

      3) 將文件集合整合成分布式數(shù)據(jù)集。經(jīng)測量,系統(tǒng)進行并行調(diào)度的損耗時間為5 min,每個數(shù)據(jù)文件的計算時間為3 min。數(shù)據(jù)集的數(shù)量應(yīng)滿足:

      (8)

      M≤150M≤N≤ND

      (9)

      TA、N、M未知,且TA需要取值最小。根據(jù)數(shù)據(jù)文件的數(shù)量,ND分別取值131、181、231、281。

      4) 把每個數(shù)據(jù)文件形成名為“LAW_TIA_.txt”的結(jié)果文件,將最終的數(shù)據(jù)文件整合到一起上傳到HDFS中存儲,使得數(shù)據(jù)共享和 I/O 的效率更高。

      2.2 結(jié)果分析

      處理131天、181天、231天、281天分布式、單機MATLAB需要的時間并行化效果如圖3所示。

      圖3 波速計算并行化時間對比

      如圖3所示,隨著時間天數(shù)的增加,此方法并行計算得到數(shù)據(jù)的時間明顯小于采用單機MATLAB計算得到相應(yīng)數(shù)據(jù)時間,當(dāng)數(shù)據(jù)量達到281天的時候,利用本文方法時間為7.5 min,而采用單機MATLAB計算得到相應(yīng)數(shù)據(jù)時間為92.24 min,這較好地顯示出所設(shè)計模型的并發(fā)調(diào)度的優(yōu)勢,且模型具有較好的穩(wěn)定性和可擴展性。

      圖4為分布式與單機時間比的趨勢走向。

      圖4 分布式與單機MATLAB時間比

      如圖4所示,曲線存在整體下降的趨勢,說明并行計算的速度較快,從131天的數(shù)據(jù)量到231天的數(shù)據(jù)量的過程中,分布式與單機的時間比從9.85%下降到7.20%,分布式與單機的時間比越來越小,與小數(shù)據(jù)量計算任務(wù)相比,大數(shù)據(jù)量的計算任務(wù)的效率更高。181天到231天這段曲線相對平滑,沒有明顯下降的趨勢,原因有以下三點:

      1) 兩次數(shù)據(jù)集的數(shù)據(jù)量比較接近。

      2) 等待入隊的數(shù)據(jù)集相差不多,一個為31天的數(shù)據(jù)集,一個為81天的數(shù)據(jù)集。

      3) 計算節(jié)點處理數(shù)據(jù)的情況相同,沒有出現(xiàn)計算節(jié)點處理速度過慢或過快的問題。

      隨著數(shù)據(jù)量的增加,等待入隊的數(shù)據(jù)集增加,抵消了基于負載均衡并行策略帶來的快速計算的效果,可以看到231天到281天分布式與單機MATLAB的時間比出現(xiàn)了上升的趨勢,曲線上升的原因有以下兩點:

      1) 計算的數(shù)據(jù)集比較大。

      2) 處理281天數(shù)據(jù)集時,有的計算節(jié)點處理速度較慢,長時間占據(jù)計算節(jié)點,導(dǎo)致其他的數(shù)據(jù)集不能入隊進行計算。

      圖5為基于負載均衡的并行策略。

      圖5 基于負載均衡的并行策略

      由圖5可知:

      1) 因為該模型采用50個計算節(jié)點進行處理,每個計算節(jié)點配置3核心CPU和16 GB內(nèi)存,所以一共150個計算節(jié)點。

      2) 當(dāng)對131天的數(shù)據(jù)集進行計算時,131天的數(shù)據(jù)可以同時放到150個計算節(jié)點中進行計算,這個時候會有19個計算節(jié)點空閑出來,導(dǎo)致資源的浪費。

      3) 當(dāng)對181天的數(shù)據(jù)集進行計算時,前150天的數(shù)據(jù)集進入隊列進行計算,當(dāng)任意一個計算節(jié)點處理完數(shù)據(jù)空閑出來之后,剩余的31天數(shù)據(jù)集會基于負載均衡的并行策略及時入隊到計算節(jié)點完成的隊列中去,直到最后計算完成。

      4) 當(dāng)對231天,281天的數(shù)據(jù)集進行計算時,入隊原理同3)。

      實驗表明,通過對數(shù)據(jù)集的劃分與算法的調(diào)度,并行執(zhí)行相對波速變化計算,在多個計算節(jié)點的支持下可以提高相對波速變化計算的速度。

      3 結(jié) 語

      本文從并行化的角度,研究了面向海量數(shù)據(jù)的相對波速變化計算的方法,以地震波速計算為例,采用了并行計算的思想,利用分布式計算的算法對波速進行了并行計算,解決了傳統(tǒng)的串行化相對波速變化計算方法面向海量數(shù)據(jù)時存在計算速度慢、消耗時間長等問題,此外展示了分布式與單機實現(xiàn)相比的可行性和性能收益。實驗表明,隨著數(shù)據(jù)量的不斷增加,相對波速變化計算比相對于單機計算效率明顯提高。

      模型的流程中還存在人工干預(yù)的環(huán)節(jié),如:1) 數(shù)據(jù)的處理;2) 計算節(jié)點數(shù)的選取。今后可以從模型的流程的一體化方向以及計算節(jié)點數(shù)的選取做進一步的研究。

      猜你喜歡
      數(shù)據(jù)文件單機數(shù)據(jù)量
      熱連軋單機架粗軋機中間坯側(cè)彎廢鋼成因及對策
      新疆鋼鐵(2021年1期)2021-10-14 08:45:36
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標(biāo)準帶寬
      寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      宇航通用單機訂單式管理模式構(gòu)建與實踐
      數(shù)據(jù)文件恢復(fù)專題問答
      數(shù)據(jù)文件安全管控技術(shù)的研究與實現(xiàn)
      SQL數(shù)據(jù)文件恢復(fù)工具
      水電的“百萬單機時代”
      能源(2017年9期)2017-10-18 00:48:22
      内江市| 临江市| 岫岩| 西青区| 永新县| 盈江县| 麻城市| 辉县市| 九龙县| 呈贡县| 全南县| 嘉峪关市| 闻喜县| 防城港市| 确山县| 民县| 屏南县| 乃东县| 西安市| 巴林右旗| 贵德县| 浪卡子县| 安吉县| 冷水江市| 金乡县| 白沙| 冷水江市| 乌鲁木齐县| 孝昌县| 礼泉县| 凌海市| 太谷县| 乡宁县| 肇东市| 仁化县| 黑山县| 金塔县| 乌拉特中旗| 沙雅县| 封开县| 鄂州市|