• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    水利工程灌漿大數(shù)據(jù)平臺設計與實現(xiàn)

    2019-06-12 07:48:30
    長江科學院院報 2019年6期
    關鍵詞:灌漿聚類水利工程

    (長江科學院 水利部巖土力學與工程重點實驗室,武漢 430010)

    1 研究背景

    隨物聯(lián)網(wǎng)和移動設備的發(fā)展,水利工程各類數(shù)據(jù)采集變得快捷與多樣化,其中涵蓋勘測、規(guī)劃、設計、施工、運行管理維護等數(shù)據(jù),各類采集數(shù)據(jù)通過傳感器物聯(lián)網(wǎng)24 h不間斷傳輸至數(shù)據(jù)中心。灌漿工程作為基礎處理工程,伴隨水利工程全生命周期,僅就筆者在白鶴灘水電站通過傳感器采集的文本數(shù)據(jù)而言,兩周就有將近1 GB之多,1 a將達24 GB的數(shù)據(jù)量,如何應對灌漿大數(shù)據(jù)的存儲和處理變得日趨重要。

    相比其他工程,灌漿工程具有施工隱蔽性、地質(zhì)條件復雜多變性和巖土體性質(zhì)不確定性等特征,影響灌漿質(zhì)量的因素多樣,包括巖體巖性、巖體裂隙結構特征、灌漿孔位布置、鉆孔方法、灌漿壓力、灌漿材料等,各類因素相互影響使得漿液在裂隙中的滲流特性呈現(xiàn)復雜的非線性關系,有必要在工程全生命周期獲取各種各樣的信息和數(shù)據(jù),并針對這些數(shù)量大、種類多的信息和數(shù)據(jù)進行快速處理,及時反饋,優(yōu)化設計,指導施工。

    現(xiàn)如今,數(shù)據(jù)處理以單節(jié)點模式為主而缺乏并行處理能力;以傳統(tǒng)離線分析處理為主而缺乏實時加工處理能力,大數(shù)據(jù)時代的到來對數(shù)據(jù)處理能力提出了更高的要求。面對水利工程灌漿海量、多源、異構數(shù)據(jù),傳統(tǒng)技術與方法已無法存取、計算如此大規(guī)模數(shù)據(jù)集,需引入海量數(shù)據(jù)采集、并行計算、流式計算等技術,研究新型數(shù)據(jù)存取、計算理論與技術,以提高數(shù)據(jù)存儲、處理能力[1]。

    本文利用大數(shù)據(jù)平臺在處理海量數(shù)據(jù)上的優(yōu)勢,搭建Hadoop分布式計算集群,集成水利工程灌漿結構化和非結構化數(shù)據(jù),規(guī)約高維特征變量,設計基于MapReduce和Spark并行化算法,開展海量數(shù)據(jù)挖掘和分析,設計和實現(xiàn)了基于B/S服務模式的水利工程灌漿大數(shù)據(jù)平臺。平臺功能模塊主要包括數(shù)據(jù)資源下載、數(shù)據(jù)集上傳、自定義算法、算法提交及運行、運行狀態(tài)及結果、大數(shù)據(jù)可視化和系統(tǒng)管理等,并結合白鶴灘水利工程建立灌漿工程單位注入量預測模型和灌漿成果異常檢測聚類模型。

    平臺的設計與實現(xiàn),將分布式集群并行計算技術和大數(shù)據(jù)挖掘技術應用到水利工程數(shù)據(jù)處理中,改變傳統(tǒng)隨機抽樣和單一挖掘分析模型,采用多粒度、多層次、多渠道分析模型對數(shù)據(jù)總體進行挖掘分析,實現(xiàn)了數(shù)據(jù)資源的交換共享、業(yè)務的高效處理、數(shù)據(jù)信息的知識發(fā)現(xiàn),提高了數(shù)據(jù)存取和處理的效率和精度,從海量數(shù)據(jù)中挖掘分析出對管理、決策和生產(chǎn)有用的信息,為當前水利工程灌漿數(shù)據(jù)的存儲與處理提供一種新的解決方法。

    2 大數(shù)據(jù)平臺相關技術

    2.1 Hadoop分布式計算平臺

    Hadoop是一個由Apache基金會所開發(fā)的分布式計算框架,實現(xiàn)海量數(shù)據(jù)的高效存儲和運算。Hadoop大數(shù)據(jù)管理平臺采用主從式的架構模型,由一個主節(jié)點和若干從節(jié)點組成,該平臺已成為一個生態(tài)系統(tǒng),包括眾多組件,其核心組件包括分布式文件系統(tǒng)HDFS、并行計算框架MapReduce以及分布式數(shù)據(jù)庫HBase。Hadoop平臺以一種可靠、高效、可擴展的方式存儲與管理大數(shù)據(jù),為大數(shù)據(jù)的存取、挖掘分析提供一套成熟可靠的解決方案。

    HDFS主要用于大規(guī)模數(shù)據(jù)集的分布式存儲,是保障平臺大數(shù)據(jù)高容錯性和可伸縮性的分布式文件系統(tǒng),具有高可用性、高可靠性、高擴展性等特性。由于能提供高吞吐量的數(shù)據(jù)訪問能力和容災備份機制,所以業(yè)界都采用HDFS作為大規(guī)模數(shù)據(jù)集應用的存儲方式。

    基于Google Bigtable數(shù)據(jù)模型、面向列存儲的HBase,是建立在HDFS之上的分布式開源數(shù)據(jù)庫,因其高可靠性、高性能、可伸縮等特性,且可存儲幾十億行、數(shù)百萬列,適合結構化、半結構化、非結構化水利工程數(shù)據(jù)的隨機訪問和實時讀寫,被廣泛用于大數(shù)據(jù)平臺數(shù)據(jù)存儲[2]。

    2.2 并行計算框架

    MapReduce是一種基于HDFS的面向大規(guī)模數(shù)據(jù)集的并行計算框架,適合離線批處理,具有很好的容錯性和擴展性。MapReduce主要包括Map元素映射轉化和Reduce元素聚合,提供了簡便的并行程序設計方法,用戶利用其抽象的操作和并行編程接口即可將自己的程序運行在分布式集群之上,實現(xiàn)大規(guī)模數(shù)據(jù)的編程和計算處理。其主要功能包括數(shù)據(jù)劃分和計算任務調(diào)度;數(shù)據(jù)/代碼互定位;系統(tǒng)優(yōu)化;出錯檢測和恢復等。同樣,Spark作為當前最為流行的開源大數(shù)據(jù)計算框架,廣泛應用于數(shù)據(jù)處理和分析,相對于MapReduce框架,所有過程基于內(nèi)存分布式數(shù)據(jù)集,適合迭代計算,減少磁盤讀寫,提高計算效率,并且提供豐富的算子和Python,Scala,Java編程接口。在Spark并行計算框架生態(tài)系統(tǒng)中,底層為HDFS,資源管理器Yarn,Mesos等,頂層為各種應用,包括結構化查詢、實時流計算、機器學習、圖計算和圖挖掘等[3]。

    2.3 人工智能算法

    人工智能算法指利用計算機強大的運算性能對大量數(shù)據(jù)進行挖掘分析,對人的意識、思維等過程進行模擬,使其模仿人類那樣思考,而計算能力遠超人類,進而完成以往需要人的智能才能勝任的復雜工作的理論與方法。

    人工智能算法主要有回歸分析、聚類分析、關聯(lián)分析、時序模式分析和偏差分析等。人工智能算法當前最典型的應用有模式識別、機器人技術、自然語言處理、用戶畫像、客戶細分等,其應用領域十分廣泛。

    3 平臺總體架構設計

    平臺總體架構采用松耦合的架構設計,各模塊通過元數(shù)據(jù)的共享與交互,驅(qū)動數(shù)據(jù)存取、計算,實現(xiàn)海量、多源、異構數(shù)據(jù)的實時采集、離線批處理和流式計算等功能。平臺總體架構自下而上包括基礎數(shù)據(jù)源層、數(shù)據(jù)采集層、業(yè)務邏輯層、應用服務層和信息發(fā)布終端,如圖1所示。平臺各層之間采用模塊化設計,通過建立數(shù)據(jù)安全訪問接口和應用程序訪問接口實現(xiàn)內(nèi)部各模塊和外部系統(tǒng)的集成。

    圖1 大數(shù)據(jù)平臺總體系統(tǒng)架構Fig.1 Architecture of the big data platform

    4 大數(shù)據(jù)平臺設計與實現(xiàn)

    4.1 平臺開發(fā)環(huán)境

    平臺由1個控制節(jié)點(NameNode)和3個數(shù)據(jù)節(jié)點(DataNode)構成,并通過交換機互聯(lián)互通,對外提供統(tǒng)一的管理和維護??刂乒?jié)點用來保存和管理元數(shù)據(jù)信息,數(shù)據(jù)節(jié)點用來存儲各類水利工程數(shù)據(jù)。

    本文集群硬件環(huán)境為CPU:Intel 3.4 GHz;內(nèi)存:4 GB;硬盤:1 TB;網(wǎng)絡帶寬:1 Gbps。各節(jié)點軟件環(huán)境如表1所示。

    表1 水利工程灌漿大數(shù)據(jù)平臺集群軟件環(huán)境配置Table 1 Environment configuration for clustered software in the big data platform for grouting of water conservancy project

    4.2 數(shù)據(jù)存儲設計

    水利工程灌漿大數(shù)據(jù)平臺數(shù)據(jù)源體量大、種類多、增長快、價值高,主要來源有關系型數(shù)據(jù)庫、數(shù)據(jù)文件、應用數(shù)據(jù)、遠程采集設備等。長江科學院灌漿與爆破基礎處理工程傳感器物聯(lián)網(wǎng)的成功應用,給本文積累了大量數(shù)據(jù)源。

    平臺存儲分為結構化存儲和非結構化存儲以及用來存儲元數(shù)據(jù)的元數(shù)據(jù)管理系統(tǒng)(MetaData Base)。平臺對于結構化數(shù)據(jù),以文本文件形式存儲于HDFS或遷移至HBase,并設置相應的一級索引和二級索引;對于非結構化數(shù)據(jù),以二進制的方式存儲于HDFS,并將其路徑存儲于HBase,完成數(shù)據(jù)資源的讀取操作;建立元數(shù)據(jù)管理系統(tǒng)實現(xiàn)數(shù)據(jù)資源的注冊、抽取、更新、審核和發(fā)布,通過元數(shù)據(jù)這一中間載體屏蔽不同軟、硬件平臺、網(wǎng)絡協(xié)議和管理系統(tǒng)之間的具體應用差別,在不同系統(tǒng)之間進行數(shù)據(jù)交換[4]。

    4.3 數(shù)據(jù)清洗與轉換

    在數(shù)據(jù)挖掘之前,ETL(抽取、轉換、加載)尤為重要,是指在數(shù)據(jù)預處理階段對前期采集到的原始數(shù)據(jù)在導入HDFS之前進行一系列的清洗與轉換。

    水利工程傳感器網(wǎng)絡(如流量、壓力、密度、抬動等)或用戶采集回來的數(shù)據(jù)中,大都是未經(jīng)過整編的數(shù)據(jù),有的測點數(shù)據(jù)異常、缺失、無效或重復,無法直接參與計算,都需要對數(shù)據(jù)進行分析和預處理以提高灌漿工程數(shù)據(jù)質(zhì)量[5]。

    4.4 業(yè)務邏輯設計

    在業(yè)務邏輯層中,封裝各種數(shù)據(jù)挖掘機器學習算法,包括分類、回歸、聚類、頻繁模式挖掘、協(xié)同過濾等。該類算法基于MapReduce或Spark框架進行并行化設計,可運行于多個計算節(jié)點,能夠處理大規(guī)模數(shù)據(jù)且具備良好的可擴展性。

    業(yè)務邏輯層為整個平臺的核心層,用戶既可針對不同的數(shù)據(jù)集在算法列表中選擇對應算法,亦可上傳自定義算法進行運算,算法運行完成后,將運行結果及說明性文檔存儲至HDFS或關系型數(shù)據(jù)庫,通過REST API(表現(xiàn)層狀態(tài)轉移接口)實現(xiàn)與應用服務層的交互。

    4.4.1 特征選擇與提取

    特征維度過高是大數(shù)據(jù)集的一個重要特征,水利工程灌漿大數(shù)據(jù)特征維度能高達幾百維度、甚至上萬維度,這些特征維度中,并非所有數(shù)據(jù)集的特征都會對分類、回歸有積極影響,維度過高甚至會降低分類、回歸精度,增加模型運行時間。因此,從這些特征中去除冗余或不相關的特征,構建一個相對小的特征子集,不僅能提高分類、預測精度,同時也能降低存儲空間和提高分類、預測效率,在大數(shù)據(jù)中處理表現(xiàn)更加明顯。

    特征選擇旨在從初始特征數(shù)據(jù)集中選取一組最有效的特征子集。本文特征選擇過程包括4個步驟:搜索策略、評估準則、停止條件、驗證方法,如圖2所示。特征選擇從多到少的過程中是一個逐步淘汰的過程,通過對不同特征的評價,從高維特征變量中去除冗余或不相關的特征,從原始特征集合中找出最具有統(tǒng)計意義的特征[6]。

    圖2 特征選擇算法框架Fig.2 Framework of feature selection algorithm

    4.4.2 系統(tǒng)算法設計

    本文以隨機森林算法(Random forest)和K-Means聚類算法為例,針對灌漿工程單位注入量預測和灌漿成果異常檢測分別建立回歸和聚類模型。選取基于Spark框架的隨機森林算法并行化設計流程如下[7]:

    (1)通過Bagging算法(bootstrap aggregating,隨機采樣)生成若干決策樹的樣本子空間,形成該決策樹的訓練樣本集,并存入分布式文件系統(tǒng)HDFS中。

    (2)將各個決策樹的樣本子空間讀入到不同節(jié)點內(nèi)存并抽象成RDD(Spark彈性分布式數(shù)據(jù)集)數(shù)據(jù)結構,通過對RDD操作完成并行化計算。

    (3)抽取每個決策樹的特征子空間,將每個決策樹的特征子空間Map映射到對應節(jié)點。

    (4)對各個節(jié)點的RDD進行Map操作,選擇分裂節(jié)點和并行化構建對應決策樹。

    (5)所有決策樹構建完成后,獲取每個節(jié)點對應的Key值,通過對各個節(jié)點的RDD進行Reduce規(guī)約操作并將決策樹存入HDFS。

    (6)將HDFS中的決策樹讀到不同的節(jié)點形成RDD,利用RDD的Map操作對輸入進行投票預測,通過RDD的Reduce組合預測結果并輸出。

    4.5 應用服務設計

    應用服務層采用B/S服務模式,以統(tǒng)一接口的方式對外提供服務,平臺提供兩種數(shù)據(jù)API接口,包括安全數(shù)據(jù)訪問API和面向應用API,前者提供數(shù)據(jù)資源下載、數(shù)據(jù)集上傳、運算結果下載、算法運行狀態(tài)服務,后者提供數(shù)據(jù)挖掘算法調(diào)用執(zhí)行服務。

    應用服務層采用基于Java語言的MVC3層框架來實現(xiàn)。后臺通過 Spring MVC 和 Spring REST 提供相應的接口或者符合Restful規(guī)范的REST接口,前臺通過JavaScript+JQuery+Ajax異步調(diào)用后臺提供的REST接口來實現(xiàn)前后臺之間的交互。系統(tǒng)利用ECharts工具以氣泡圖、矩陣圖、詞云以及地圖等可視化方式展現(xiàn)結果集,直觀地呈現(xiàn)給用戶。

    4.6 分布式集群搭建

    水利工程灌漿大數(shù)據(jù)平臺采用開源的Hadoop分布式計算框架作為數(shù)據(jù)基礎設施,Zookeeper作為資源協(xié)調(diào)管理器,HDFS作為分布式文件系統(tǒng),HBase作為分布式非關系型數(shù)據(jù)庫,并安裝部署Spark集群。

    本文大數(shù)據(jù)平臺由4個節(jié)點構成:1臺作為Master主節(jié)點,3臺作為Slave從節(jié)點。集群搭建順序如下:

    (1)Linux CentOS操作系統(tǒng)安裝部署。

    (2)JDK安裝。

    (3)ssh無密碼驗證配置。

    (4)安裝基礎環(huán)境(Java、Scala)。

    (5)安裝Zookeeper集群。

    (6)Hadoop完全分布式環(huán)境搭建。

    (7)Spark完全分布式環(huán)境搭建。

    (8)Hbase安裝部署。

    組件啟動順序: Zookeeper,HDFS,Yarn,Spark Master,Spark Slaves,HBase。啟動后集群運行主界面如圖3所示。

    圖3 Hadoop集群運行主界面Fig.3 Main interface of Hadoop cluster running

    4.7 平臺實現(xiàn)

    水利工程灌漿大數(shù)據(jù)平臺主要包括平臺登錄、數(shù)據(jù)資源下載、數(shù)據(jù)集上傳、自定義算法、算法提交運行、運行狀態(tài)及結果、大數(shù)據(jù)可視化、數(shù)據(jù)集和算法列表審核、系統(tǒng)管理等模塊。

    4.7.1 平臺登錄

    系統(tǒng)登錄頁面用戶類型分為普通用戶、專業(yè)用戶、系統(tǒng)開發(fā)人員和管理員4個層級。

    普通用戶權限為數(shù)據(jù)資源瀏覽、運算結果可視化查詢;專業(yè)用戶權限為提交數(shù)據(jù)集、專業(yè)算法庫,提交算法運行,數(shù)據(jù)資源瀏覽、下載,運算日志和結果下載,大數(shù)據(jù)可視化;系統(tǒng)開發(fā)人員權限為數(shù)據(jù)集和算法列表的審核;管理員權限為數(shù)據(jù)集、算法列表和數(shù)據(jù)資源的修改、備注和刪除,以及用戶權限分配等功能,如圖4所示。

    圖4 平臺登錄Fig.4 Platform login interface

    4.7.2 數(shù)據(jù)資源下載

    該模塊對水利工程灌漿大數(shù)據(jù)資源進行整合、發(fā)布,對外提供標準化接口,實現(xiàn)數(shù)據(jù)資源交換與集成,促進科學數(shù)據(jù)開放共享,如圖5所示。

    圖5 數(shù)據(jù)資源下載Fig.5 Data resources downloading

    4.7.3 算法提交運行

    該模塊針對特定數(shù)據(jù)集,選取平臺算法庫中對應算法或自定義算法,設置相關參數(shù)提交運算,以供同行業(yè)或同領域?qū)I(yè)人員進行運算分析,如圖6所示。

    圖6 提交業(yè)務算法Fig.6 Submitting of business algorithm

    4.7.4 運行狀態(tài)及結果

    由于平臺離線批處理和流式計算周期相對較長,所以用戶需要實時掌握算法執(zhí)行狀態(tài)進度。系統(tǒng)通過Ajax異步實時動態(tài)獲取集群算法運行狀態(tài),并提供用戶日志下載功能。針對算法運算結果集,系統(tǒng)以文件形式提供下載,包括算法運算結果及說明性文件,如圖7所示。

    圖7 算法運行狀態(tài)及結果Fig.7 Running status and results of algorithm

    4.7.5 大數(shù)據(jù)可視化

    針對計算輸出結果集,該模塊對結果集解析后進行可視化分析,將數(shù)據(jù)以更加直觀的、多維度的方式(如折線圖、氣泡圖、詞云、散點圖、雷達圖、地圖等)呈現(xiàn)給用戶表,以便用戶理解數(shù)據(jù)、分析計算成果,如圖8所示。

    圖8 大數(shù)據(jù)可視化Fig.8 Big data visualization

    4.8 平臺應用案列

    本文選取白鶴灘水利工程灌漿工程單位注入量預測模型和灌漿成果異常檢測模型進行平臺應用展示。

    圖10 相關性矩陣Fig.10 Correlation matrix

    4.8.1 數(shù)據(jù)采集、收集

    針對實時在線數(shù)據(jù),由施工現(xiàn)場灌漿工程傳感器物聯(lián)網(wǎng)進行數(shù)據(jù)采集、傳輸至數(shù)據(jù)中心,并實時同步轉換、加載至平臺HDFS或HBase;針對離線歷史數(shù)據(jù),結合相關工程地質(zhì)數(shù)據(jù),由Sqoop開源工具或HDFS接口實現(xiàn)結構化和非結構化數(shù)據(jù)的抽取,并加載至平臺分布式數(shù)據(jù)庫。

    4.8.2 數(shù)據(jù)清洗

    為提高灌漿工程數(shù)據(jù)質(zhì)量,本文建立異常數(shù)據(jù)識別方法和缺失數(shù)據(jù)恢復方法,對接入的數(shù)據(jù)進行剔除、填補、修正等處理,如圖9所示。處理好的數(shù)據(jù)利用HDFS進行持久化,保證數(shù)據(jù)的正確性、完整性、一致性和完備性。

    圖9 數(shù)據(jù)清洗與轉換流程Fig.9 Data cleaning and transform process

    4.8.3 數(shù)據(jù)特征選擇

    本文依據(jù)原始特征與目標特征之間的統(tǒng)計規(guī)律,采用R語言進行探索性分析,選用相關性分析方法,從原始特征集合中選擇與目標變量具有較強相關性的特征[7]。

    通過了解實際灌漿工藝流程和單位注入量的形成機制,結合相關背景知識,針對影響單位注入量的特征作出初步定性分析后,繪制相關性矩陣散點圖(如圖10)并進行顯著性檢驗等定量分析,最終選擇灌漿時間、灌漿段長度、碎石含量、碎石粒徑、灌漿孔間距5個影響灌漿工程單位注入量較強的特征子集。該5個特征為模型的輸入量,輸出量為單位注入量。部分訓練數(shù)據(jù)集見表2。

    表2 訓練樣本數(shù)據(jù)集Table 2 Training sample datasets

    4.8.4 單位注入量預測模型

    灌漿工程數(shù)據(jù)采集收集完成后,經(jīng)過數(shù)據(jù)清洗和轉化,選擇和提取特征變量,將其PUT至Spark集群HDFS進行分布式持久化,設計基于Spark的隨機森林并行化算法,并在Intellij IDEA集成開發(fā)環(huán)境下通過Scala函數(shù)式編程語言實現(xiàn),再由SBT編譯工具編譯打包成JAR包,上傳至Web服務器,建立單位注入量的預測模型。選擇訓練樣本和測試樣本作為模型輸入,設置隨機森林模型分類樹數(shù)量和節(jié)點分叉變量數(shù),提交平臺運行,輸出測試結果集,如圖11所示。

    圖11 灌漿工程單位注入量預測模型結果Fig.11 Prediction model for unit grouting injection amount

    本文通過R語言計算變量之間線性相關系數(shù)來評價模型精度。計算預測值與實際值之間的線性關聯(lián)度,關聯(lián)度越接近1表明2個變量之間線性相關性越強。該模型線性相關系數(shù)約為0.92,表明本文的預測結果和實際結果比較接近。對灌漿工程單位注入量的預測有助于定量分析巖層吸漿量的不足、正常以及漏漿情況,可實時調(diào)整灌漿壓力、灌漿材料及優(yōu)化灌漿孔位布置,為巖體的可灌性研究和地質(zhì)條件分析提供重要參數(shù)指標。

    4.8.5 灌漿成果異常檢測模型

    本文結合無先驗知識的大數(shù)據(jù)異常檢測原理,以無監(jiān)督模式下的K-Means聚類算法進行并行化設計建立聚類預測模型。選取白鶴灘水電站15 000份灌漿成果資料,進行標準化處理和特征選擇,設定聚類中心K值,提交大數(shù)據(jù)平臺進行聚類分析,規(guī)定小于總體樣本數(shù)量5%的數(shù)據(jù)點為離群點,最后去除人為干擾因素聚類出異常樣本和聚類影響因子,進而可分析產(chǎn)生異常的原因,有助于工程人員優(yōu)化施工工藝,提高灌漿工程質(zhì)量。多次試驗結果表明,大數(shù)據(jù)平臺下的K-Means聚類模型可達到90%以上的正確分類結果,具有較高的異常檢測精度。聚類結果如圖12所示。

    圖12 灌漿成果異常檢測聚類結果Fig.12 Clustering result of anomaly detection for grouting results

    通過聚類因子雷達圖描述聚類因子特征,可以得出每一類的優(yōu)勢特征和劣勢特征,如圖13所示。分析結果表明,影響某部位灌漿成果異常檢測的優(yōu)勢特征有純灌時間(min)、注灰量(kg)和注漿量(L),劣勢特征包含段次、段底(m)、段頂(m)、透水率(lu)和孔序,工程人員可以此加強灌漿成果優(yōu)勢特征分析,適當忽略劣勢特征,提高灌漿成果評價工作效率。

    圖13 灌漿成果異常檢測聚類因子雷達圖Fig.13 Radar chart of clustering factors of anomaly detection for grouting results

    5 結 語

    (1)面對多源、異構、海量的水利勘測、設計、施工、管理數(shù)據(jù)和傳統(tǒng)管理信息系統(tǒng)無法存儲和計算如此大規(guī)模數(shù)據(jù)集的現(xiàn)狀,本文搭建Hadoop分布式計算框架,設計并行化數(shù)據(jù)挖掘算法,利用MapReduce和Spark并行計算框架進行數(shù)據(jù)挖掘和分析,設計和實現(xiàn)了基于B/S服務模式的水利工程灌漿大數(shù)據(jù)平臺。平臺包括數(shù)據(jù)資源下載、數(shù)據(jù)集上傳、自定義算法、算法提交及運行、運行狀態(tài)及結果和大數(shù)據(jù)可視化等模塊,并結合實際水利工程建立灌漿工程單位注入量預測模型和灌漿成果異常檢測模型。

    (2)平臺的設計與實現(xiàn),將并行計算和大數(shù)據(jù)挖掘技術應用到水利工程中,采用多粒度、多層次、多渠道的分析模型對數(shù)據(jù)總體進行挖掘分析,有助于從海量數(shù)據(jù)中挖掘分析出對于管理、決策和生產(chǎn)有用的信息,實現(xiàn)數(shù)據(jù)資源集成共享、知識發(fā)現(xiàn)、業(yè)務的高效處理,提高數(shù)據(jù)存儲和計算的效率和精度,為當前水利工程大數(shù)據(jù)的存儲與計算提供一種新的解決方法。

    (3)水利工程大數(shù)據(jù)涉及勘察、設計、施工、管理等一系列數(shù)據(jù),數(shù)據(jù)類型多,體量大,本文僅將筆者從事的水利基礎處理工程(灌漿、爆破)傳感器物聯(lián)網(wǎng)采集的數(shù)據(jù)作為基本數(shù)據(jù)源,平臺還涉及其他眾多數(shù)據(jù)源,后期將會根據(jù)實際業(yè)務需求逐步遷移其他數(shù)據(jù)源,使得平臺數(shù)據(jù)源更加豐富、系統(tǒng)更加完善。

    猜你喜歡
    灌漿聚類水利工程
    谷子灌漿期噴施硫酸鋅增產(chǎn)
    重大水利工程復工風采
    營改增對水利工程造價的影響
    無蓋重固結灌漿在烏弄龍水電站的應用
    江西建材(2018年4期)2018-04-10 12:37:06
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    自流可控灌漿在堰塞體防滲加固處理中的應用
    歡迎訂閱《ANSYS在水利工程中的應用》
    基于改進的遺傳算法的模糊聚類算法
    安徽小型水利工程改造提升創(chuàng)新實踐與思考
    中國水利(2015年4期)2015-02-28 15:12:20
    一種層次初始的聚類個數(shù)自適應的聚類方法研究
    横山县| 江门市| 河源市| 邮箱| 鹿邑县| 封开县| 德庆县| 稷山县| 宁强县| 抚宁县| 五寨县| 基隆市| 延川县| 夏河县| 朔州市| 龙井市| 军事| 庆阳市| 西贡区| 错那县| 阳东县| 东辽县| 内丘县| 涿鹿县| 于田县| 柳州市| 平果县| 绵阳市| 福鼎市| 瓦房店市| 淮安市| 怀化市| 襄城县| 淮安市| 舞阳县| 香河县| 海南省| 衡水市| 铜山县| 鹤庆县| 根河市|