• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向建設(shè)期鐵路大數(shù)據(jù)的分級(jí)存儲(chǔ)方法研究

      2022-03-30 03:45:06廉小親程智博王萬齊吳艷華
      關(guān)鍵詞:建設(shè)期數(shù)據(jù)表分級(jí)

      廉小親,楊 凱,程智博,王萬齊,3,吳艷華

      (1. 北京工商大學(xué) 人工智能學(xué)院,北京 100048;2. 中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081;3. 國家鐵路智能運(yùn)輸系統(tǒng)工程技術(shù)研究中心,北京 100081)

      我國鐵路正快步邁入大數(shù)據(jù)時(shí)代[1],鐵路系統(tǒng)的數(shù)據(jù)總量己達(dá)到10 PB數(shù)量級(jí)[2],其中,包含大量鐵路路段建設(shè)期的數(shù)據(jù)[3]。然而,在傳統(tǒng)的單節(jié)點(diǎn)數(shù)據(jù)存儲(chǔ)模式下,數(shù)據(jù)訪問效率和存儲(chǔ)介質(zhì)性能較低[4],因此,需要搭建一種分布式的數(shù)據(jù)分級(jí)存儲(chǔ)系統(tǒng)[5],并建立相應(yīng)的數(shù)據(jù)評(píng)價(jià)體系[6],來實(shí)現(xiàn)業(yè)務(wù)層面的數(shù)據(jù)高效分級(jí)存儲(chǔ)。

      鐵路大數(shù)據(jù)的分級(jí)存儲(chǔ)問題是當(dāng)前的研究熱點(diǎn)[7]之一。郭歌等人[8]以鐵路基礎(chǔ)設(shè)施各階段用例為中心,通過對(duì)鐵路基礎(chǔ)設(shè)施數(shù)據(jù)進(jìn)行層次化分析,形成一個(gè)可支撐鐵路全生命周期應(yīng)用的數(shù)據(jù)共享模型體系;王沛然等人[9]設(shè)計(jì)了一種鐵路大數(shù)據(jù)服務(wù)平臺(tái)存儲(chǔ)架構(gòu),針對(duì)不同業(yè)務(wù)、不同類型的數(shù)據(jù)采用不同的數(shù)據(jù)庫進(jìn)行存儲(chǔ),并根據(jù)數(shù)據(jù)的訪問頻次將數(shù)據(jù)分為冷數(shù)據(jù)和熱數(shù)據(jù);彭劍峰等人[10]從鐵路大數(shù)據(jù)的敏感度特點(diǎn)出發(fā),從多個(gè)維度對(duì)鐵路大數(shù)據(jù)進(jìn)行分類分級(jí)。

      本文分析了鐵路建設(shè)期大數(shù)據(jù)的存儲(chǔ)與管理需求[11],以海量建設(shè)期數(shù)據(jù)為研究對(duì)象,設(shè)計(jì)面向多源、異域、跨系統(tǒng)、多類型數(shù)據(jù)的分級(jí)存儲(chǔ)架構(gòu)及策略,有效提高數(shù)據(jù)的訪問效率及數(shù)據(jù)庫的利用率,增強(qiáng)平臺(tái)存儲(chǔ)性能、降低存儲(chǔ)成本。

      1 分級(jí)存儲(chǔ)架構(gòu)設(shè)計(jì)

      1.1 主流大數(shù)據(jù)分級(jí)存儲(chǔ)架構(gòu)

      目前主流的大數(shù)據(jù)分級(jí)存儲(chǔ)系統(tǒng)通常以數(shù)據(jù)的生命周期為依據(jù),將數(shù)據(jù)庫劃分為在線存儲(chǔ)數(shù)據(jù)庫、近線存儲(chǔ)數(shù)據(jù)庫及離線存儲(chǔ)數(shù)據(jù)庫,其存儲(chǔ)架構(gòu)如圖1所示。

      圖1 主流大數(shù)據(jù)分級(jí)存儲(chǔ)架構(gòu)

      在線存儲(chǔ)數(shù)據(jù)庫用來存儲(chǔ)當(dāng)前訪問頻率最高的熱數(shù)據(jù),以便數(shù)據(jù)申請(qǐng)者得到快捷、及時(shí)的響應(yīng)。為保證更好的數(shù)據(jù)訪問性能,在線存儲(chǔ)數(shù)據(jù)庫多采用性能較高的存儲(chǔ)設(shè)備[12],例如固態(tài)硬盤等。近線存儲(chǔ)數(shù)據(jù)庫主要用來存儲(chǔ)訪問頻次相對(duì)較低的溫?cái)?shù)據(jù),且對(duì)訪問速度要求較低,因此,近線存儲(chǔ)設(shè)備往往具有較高的存儲(chǔ)容量,同時(shí),在可接受的時(shí)間范圍內(nèi)向用戶反饋數(shù)據(jù),主要采用磁帶庫或低端磁盤設(shè)備。離線數(shù)據(jù)主要用來存儲(chǔ)訪問頻率最低的冷數(shù)據(jù),這部分?jǐn)?shù)據(jù)很少再被訪問到,主要采用光盤、磁帶庫等設(shè)備[13]。

      1.2 鐵路建設(shè)期大數(shù)據(jù)分級(jí)存儲(chǔ)架構(gòu)

      鐵路建設(shè)期業(yè)務(wù)繁多,數(shù)據(jù)種類復(fù)雜[14],從數(shù)據(jù)類型角度看,包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),且數(shù)據(jù)量日漸龐大,原有的大型計(jì)算機(jī)基于此類存儲(chǔ)任務(wù)的負(fù)荷也越來越重,目前,將計(jì)算機(jī)組成集群對(duì)海量多源異構(gòu)數(shù)據(jù)進(jìn)行分級(jí)存儲(chǔ)是一種可行、可靠、高效的模式[15]。本文在圖1所示的分級(jí)存儲(chǔ)架構(gòu)基礎(chǔ)上,結(jié)合鐵路建設(shè)期系統(tǒng)的業(yè)務(wù)特征,搭建了一種基于非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫及分布式文件系統(tǒng)的鐵路建設(shè)期大數(shù)據(jù)分級(jí)存儲(chǔ)架構(gòu),并在中間件判定該數(shù)據(jù)對(duì)應(yīng)的存儲(chǔ)級(jí)別,使得數(shù)據(jù)能夠合理的存放在指定數(shù)據(jù)庫中,存儲(chǔ)架構(gòu)如圖2所示。

      圖2 鐵路大數(shù)據(jù)分級(jí)存儲(chǔ)架構(gòu)

      鐵路大數(shù)據(jù)分級(jí)存儲(chǔ)系統(tǒng)架構(gòu)包括客戶端、中間件及分布式存儲(chǔ)節(jié)點(diǎn)3部分。其中,分布式存儲(chǔ)節(jié)點(diǎn)包含三級(jí)存儲(chǔ),一級(jí)存儲(chǔ)節(jié)點(diǎn)中包含Redis數(shù)據(jù)庫、MySQL數(shù)據(jù)庫和Swift分布式文件系統(tǒng),以存儲(chǔ)鐵路建設(shè)期的熱數(shù)據(jù);二級(jí)和三級(jí)存儲(chǔ)節(jié)點(diǎn)中包含MongoDB、MySQL數(shù)據(jù)庫和HDFS,分別存儲(chǔ)鐵路建設(shè)期的溫?cái)?shù)據(jù)和冷數(shù)據(jù)。

      當(dāng)客戶端產(chǎn)生的數(shù)據(jù)需要進(jìn)行存儲(chǔ)時(shí),向中間件提交存儲(chǔ)請(qǐng)求,該存儲(chǔ)請(qǐng)求包含數(shù)據(jù)格式、數(shù)據(jù)大小、數(shù)據(jù)所屬業(yè)務(wù)系統(tǒng)等基本信息,中間件中的鐵路大數(shù)據(jù)分級(jí)存儲(chǔ)算法會(huì)根據(jù)上述基本信息和當(dāng)前存儲(chǔ)系統(tǒng)中各級(jí)存儲(chǔ)的目錄信息計(jì)算數(shù)據(jù)價(jià)值,判定該數(shù)據(jù)對(duì)應(yīng)的存儲(chǔ)級(jí)別,并反饋至客戶端,客戶端即可根據(jù)存儲(chǔ)級(jí)別確定存儲(chǔ)位置,將數(shù)據(jù)存放至指定的數(shù)據(jù)庫中,從而實(shí)現(xiàn)數(shù)據(jù)的分級(jí)存儲(chǔ)。

      2 分級(jí)存儲(chǔ)算法

      2.1 分級(jí)存儲(chǔ)需求

      鐵路大數(shù)據(jù)中的建設(shè)期數(shù)據(jù)包含進(jìn)度、質(zhì)量、統(tǒng)計(jì)匯總、評(píng)估預(yù)測(cè)等多方面數(shù)據(jù),具有數(shù)據(jù)量大、涵蓋范圍廣、業(yè)務(wù)類別多、數(shù)據(jù)類型雜及產(chǎn)生頻率高的特點(diǎn),僅從單一維度對(duì)數(shù)據(jù)進(jìn)行級(jí)別劃分存在一定的局限性。因此,亟需針對(duì)建設(shè)期鐵路數(shù)據(jù)的業(yè)務(wù)特點(diǎn),建立一種多維度、綜合性的鐵路建設(shè)期大數(shù)據(jù)分級(jí)體系和價(jià)值評(píng)價(jià)體系,以實(shí)現(xiàn)鐵路大數(shù)據(jù)分級(jí)存儲(chǔ)算法。

      2.2 數(shù)據(jù)價(jià)值評(píng)價(jià)體系

      本文以建設(shè)期結(jié)構(gòu)化數(shù)據(jù)中的數(shù)據(jù)表為評(píng)價(jià)對(duì)象,根據(jù)鐵路建設(shè)期大數(shù)據(jù)特有的業(yè)務(wù)價(jià)值特點(diǎn),提出以下評(píng)價(jià)指標(biāo),構(gòu)建數(shù)據(jù)價(jià)值評(píng)價(jià)體系,如圖3所示。一級(jí)指標(biāo)為數(shù)據(jù)表的數(shù)據(jù)價(jià)值;二級(jí)指標(biāo)在一級(jí)指標(biāo)的基礎(chǔ)上劃分為數(shù)據(jù)表業(yè)務(wù)特征指標(biāo)和數(shù)據(jù)庫/數(shù)據(jù)表的自身屬性特征指標(biāo);三級(jí)指標(biāo)既包含定性評(píng)價(jià)指標(biāo),也包含定量評(píng)價(jià)指標(biāo),定量評(píng)價(jià)指標(biāo)為數(shù)據(jù)庫數(shù)據(jù)量大小指標(biāo)、數(shù)據(jù)庫“增”行為操作量指標(biāo)、數(shù)據(jù)庫“刪”行為操作量指標(biāo)、數(shù)據(jù)庫“改”行為操作量指標(biāo)和數(shù)據(jù)庫“查”行為操作量指標(biāo),此類指標(biāo)數(shù)值定期通過日志文件進(jìn)行更新。其余的三級(jí)指標(biāo)均為定性評(píng)價(jià)指標(biāo),本文采用專家評(píng)價(jià)法對(duì)其進(jìn)行價(jià)值判定[16],基本操作流程為:(1)對(duì)三級(jí)定性評(píng)價(jià)指標(biāo)下的四級(jí)指標(biāo)進(jìn)行打分;(2)對(duì)四級(jí)指標(biāo)的權(quán)重值進(jìn)行打分;(3)以加權(quán)求和方式得到三級(jí)指標(biāo)中定性指標(biāo)的結(jié)果。

      圖3 建設(shè)期鐵路大數(shù)據(jù)價(jià)值評(píng)價(jià)體系

      2.3 基于K-means的數(shù)據(jù)價(jià)值判定算法

      由2.2節(jié)可知,在數(shù)據(jù)價(jià)值評(píng)價(jià)體系中,每一張數(shù)據(jù)表均通過專家評(píng)價(jià)法和日志文件統(tǒng)計(jì)分析得到一組三級(jí)指標(biāo)打分結(jié)果,而數(shù)據(jù)價(jià)值評(píng)價(jià)體系的一級(jí)指標(biāo)為數(shù)據(jù)表的價(jià)值,因此需要建立數(shù)據(jù)表的價(jià)值與存儲(chǔ)級(jí)別之間的非線性映射關(guān)系,并根據(jù)數(shù)據(jù)表一級(jí)指標(biāo)的統(tǒng)計(jì)信息決定數(shù)據(jù)表所在的存儲(chǔ)級(jí)別。

      K-means聚類分析[17]是數(shù)據(jù)挖掘[18]中重要的無監(jiān)督學(xué)習(xí)算法之一。與監(jiān)督學(xué)習(xí)不同的是,該算法待處理的樣本數(shù)據(jù)集中沒有包含樣本分類相關(guān)信息。聚類是把數(shù)據(jù)集中的對(duì)象劃分成多個(gè)簇的過程,被廣泛應(yīng)用于模式分類等領(lǐng)域。K-means算法簡單便捷、收斂速度快,在大數(shù)據(jù)分級(jí)存儲(chǔ)中使用能有效減少計(jì)算時(shí)間、提高存儲(chǔ)效率。故本文采用K-means聚類算法建立上述映射關(guān)系。

      設(shè)定原始數(shù)據(jù)表三級(jí)指標(biāo)矩陣V為:

      其中,vji為第j(j=0,1,···,m?1)個(gè)數(shù)據(jù)表中第i(i=0,1,···,n?1)個(gè)三級(jí)指標(biāo)的分值;m為數(shù)據(jù)表數(shù)量;n為三級(jí)指標(biāo)數(shù)量。由于三級(jí)指標(biāo)評(píng)價(jià)結(jié)果包含定性評(píng)價(jià)結(jié)果和定量評(píng)價(jià)結(jié)果,需要在同一評(píng)價(jià)指標(biāo)維度下對(duì)各維度的數(shù)據(jù)進(jìn)行歸一化處理,以消除數(shù)據(jù)量綱,同時(shí),也可減小由于數(shù)據(jù)量級(jí)差導(dǎo)致的聚類誤差。三級(jí)指標(biāo)歸一化矩陣K如公式(2)所示。

      其中,ki表示第i+1個(gè)評(píng)價(jià)維度的歸一化尺度因子。歸一化后的三級(jí)指標(biāo)矩陣X為:

      對(duì)矩陣X進(jìn)行K-means聚類。由于本文搭建的數(shù)據(jù)分級(jí)存儲(chǔ)系統(tǒng)中包含三級(jí)存儲(chǔ)節(jié)點(diǎn),因此,設(shè)聚類中心數(shù)量為3,聚類標(biāo)簽集合為{“0”,“1”,“2”},設(shè)聚類后輸出結(jié)果向量為Y,K-means聚類模型為F(·),第j個(gè)數(shù)據(jù)表聚類結(jié)果為yj,則有:

      分別統(tǒng)計(jì)每一組聚類空間內(nèi)所有樣本歸一化后三級(jí)指標(biāo)各維度值的加權(quán)平均值Vp,如公式(5)所示。

      3 實(shí)驗(yàn)驗(yàn)證

      為實(shí)現(xiàn)建設(shè)期鐵路大數(shù)據(jù)的分級(jí)存儲(chǔ),本文搭建了基于NoSQL、RDB和DFS的分布式存儲(chǔ)系統(tǒng),以建設(shè)期鐵路大數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)為主要研究對(duì)象,建立一套鐵路大數(shù)據(jù)價(jià)值評(píng)價(jià)體系,通過Kmeans聚類算法判定各類數(shù)據(jù)相應(yīng)的存儲(chǔ)級(jí)別。其中,價(jià)值評(píng)價(jià)體系的可靠性和K-means聚類算法結(jié)果的準(zhǔn)確性決定了本文提出方法的可行性和可靠性。

      本節(jié)以脫敏后的鐵路建設(shè)期數(shù)據(jù)表和相應(yīng)的訪問日志為實(shí)驗(yàn)樣本,確定數(shù)據(jù)表在數(shù)據(jù)價(jià)值評(píng)價(jià)體系中各指標(biāo)的專家評(píng)價(jià)結(jié)果及指標(biāo)分值,利用Kmeans聚類算法判定數(shù)據(jù)表的分級(jí)存儲(chǔ)結(jié)果。

      3.1 數(shù)據(jù)價(jià)值評(píng)價(jià)體系四級(jí)指標(biāo)打分結(jié)果

      本文以四級(jí)指標(biāo)為評(píng)價(jià)維度,721張數(shù)據(jù)表的專家評(píng)價(jià)結(jié)果(部分)如表1所示,評(píng)價(jià)結(jié)果為“1”表明該數(shù)據(jù)表具有該項(xiàng)四級(jí)指標(biāo)特征,評(píng)價(jià)結(jié)果為“0”表示該數(shù)據(jù)表不具有該項(xiàng)四級(jí)指標(biāo)特征。

      表1 四級(jí)指標(biāo)專家評(píng)價(jià)結(jié)果(部分)

      3.2 數(shù)據(jù)價(jià)值評(píng)價(jià)體系四級(jí)指標(biāo)權(quán)重打分結(jié)果

      通過專家評(píng)價(jià)法對(duì)數(shù)據(jù)價(jià)值評(píng)價(jià)體系中的四級(jí)指標(biāo)分值進(jìn)行打分,打分結(jié)果如表2所示。

      表2 四級(jí)指標(biāo)分值專家打分結(jié)果

      3.3 數(shù)據(jù)價(jià)值評(píng)價(jià)體系三級(jí)指標(biāo)數(shù)值計(jì)算結(jié)果

      對(duì)表1和表2的評(píng)價(jià)結(jié)果進(jìn)行加權(quán)求和,并對(duì)日志數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算所有實(shí)驗(yàn)樣本的三級(jí)指標(biāo)結(jié)果,如表3所示。表3中的指標(biāo)1、2、3、4、9、10、11分別指代二級(jí)指標(biāo)下差異較大的各項(xiàng)三級(jí)指標(biāo)。

      表3 三級(jí)指標(biāo)數(shù)值計(jì)算結(jié)果

      3.4 K-means聚類結(jié)果及分析

      對(duì)表3中的三級(jí)指標(biāo)數(shù)值計(jì)算結(jié)果進(jìn)行歸一化處理,以{“0”, “1”, “2”}作為聚類結(jié)果標(biāo)簽進(jìn)行K-means聚類。聚類結(jié)果分布如圖4所示,將數(shù)據(jù)表三級(jí)指標(biāo)各指標(biāo)值求和即可得到各數(shù)據(jù)表的數(shù)據(jù)價(jià)值,數(shù)據(jù)價(jià)值分布如圖5所示。

      圖4 數(shù)據(jù)聚類結(jié)果分布情況

      圖5 數(shù)據(jù)價(jià)值分布情況

      由圖4和圖5可知,標(biāo)簽“0”的數(shù)據(jù)價(jià)值相對(duì)分布明顯高于標(biāo)簽“2”,標(biāo)簽“2”的數(shù)據(jù)價(jià)值相對(duì)分布明顯高于標(biāo)簽“1”,未出現(xiàn)明顯誤差,驗(yàn)證了K-means聚類結(jié)果的準(zhǔn)確性。

      按照公式(5)分別統(tǒng)計(jì)每一組聚類空間內(nèi)所有樣本歸一化后三級(jí)指標(biāo)各維度值的加權(quán)平均值經(jīng)計(jì)算,可知,標(biāo)簽為“0”的數(shù)據(jù)表應(yīng)存放至一級(jí)存儲(chǔ)節(jié)點(diǎn),標(biāo)簽為“2”的數(shù)據(jù)表應(yīng)存放至二級(jí)存儲(chǔ)節(jié)點(diǎn),標(biāo)簽為“1”的數(shù)據(jù)表應(yīng)存放至三級(jí)存儲(chǔ)節(jié)點(diǎn)。

      4 結(jié)束語

      本文結(jié)合了計(jì)算機(jī)領(lǐng)域數(shù)據(jù)分級(jí)存儲(chǔ)的思想,設(shè)計(jì)了一種面向建設(shè)期數(shù)據(jù)的鐵路分布式大數(shù)據(jù)分級(jí)存儲(chǔ)架構(gòu)和分級(jí)存儲(chǔ)算法,實(shí)現(xiàn)建設(shè)期鐵路大數(shù)據(jù)分級(jí)存儲(chǔ),提高數(shù)據(jù)的訪問效率及數(shù)據(jù)庫的利用效率,增強(qiáng)平臺(tái)存儲(chǔ)性能,降低存儲(chǔ)成本。實(shí)驗(yàn)結(jié)果表明,本文提出的數(shù)據(jù)價(jià)值評(píng)價(jià)體系和分級(jí)存儲(chǔ)算法能夠有效的對(duì)建設(shè)期鐵路大數(shù)據(jù)進(jìn)行存儲(chǔ)級(jí)別判定,為后續(xù)理論內(nèi)容的工程化應(yīng)用提供技術(shù)基礎(chǔ)。

      本文也存在一定的不足之處,例如,本文提出的數(shù)據(jù)價(jià)值評(píng)價(jià)體系中,采用專家評(píng)價(jià)法進(jìn)行打分,最終的計(jì)算結(jié)果很大程度上與打分人對(duì)指標(biāo)的主觀判斷有關(guān)聯(lián)。因此,在后續(xù)研究過程中,可考慮采用主觀判斷和客觀分析相結(jié)合的方式,共同決定評(píng)價(jià)指標(biāo)的最終取值,以此提高評(píng)價(jià)體系的可靠性。

      猜你喜歡
      建設(shè)期數(shù)據(jù)表分級(jí)
      湖北省新冠肺炎疫情數(shù)據(jù)表
      黨員生活(2020年2期)2020-04-17 09:56:30
      基于列控工程數(shù)據(jù)表建立線路拓?fù)潢P(guān)系的研究
      分級(jí)診療路難行?
      淺談山地風(fēng)電場建設(shè)期環(huán)保治理工作
      道安高速公路建設(shè)期能耗排放統(tǒng)計(jì)監(jiān)測(cè)與分析
      上海公路(2017年3期)2017-03-01 07:03:19
      分級(jí)診療的“分”與“整”
      分級(jí)診療的強(qiáng)、引、合
      “水到渠成”的分級(jí)診療
      火電項(xiàng)目建設(shè)期稅務(wù)籌劃的切入點(diǎn)探析
      涔天河水庫擴(kuò)建工程建設(shè)期的投資控制實(shí)踐
      福清市| 延川县| 洛阳市| 楚雄市| 喀喇| 达孜县| 汽车| 兰考县| 公主岭市| 淳安县| 卓资县| 邮箱| 平安县| 竹北市| 城固县| 遵义县| 文昌市| 延川县| 齐齐哈尔市| 手机| 黔江区| 长垣县| 东阿县| 民权县| 利川市| 永顺县| 广元市| 嘉鱼县| 萍乡市| 娱乐| 盐城市| 西宁市| 深泽县| 五莲县| 建昌县| 益阳市| 扬中市| 始兴县| 辽中县| 南乐县| 桃源县|