• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Spark的水泥廠煤耗特性分析與實(shí)時(shí)診斷

      2019-09-03 07:45:10吳敬兵唐漢卿蔡思堯
      自動(dòng)化與儀表 2019年8期
      關(guān)鍵詞:水泥廠煤耗特征選擇

      吳敬兵,唐漢卿,蔡思堯

      (武漢理工大學(xué) 機(jī)電學(xué)院,武漢 430070)

      水泥制造業(yè)是中國(guó)建材的重要產(chǎn)業(yè),雖然我國(guó)水泥生產(chǎn)消費(fèi)量居世界首位,但在能耗管控方面與世界先進(jìn)水平相差甚遠(yuǎn)。我國(guó)生產(chǎn)每噸水泥的煤耗比世界先進(jìn)水平要高出20%,電耗高出23%。為響應(yīng)我國(guó)綠色發(fā)展的號(hào)召,國(guó)內(nèi)水泥行業(yè)需要著重加強(qiáng)能耗管控。當(dāng)今世界進(jìn)入了大數(shù)據(jù)時(shí)代,大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域得到了廣泛的應(yīng)用,各種傳統(tǒng)行業(yè)也都在順應(yīng)大數(shù)據(jù)的潮流,應(yīng)采用相關(guān)技術(shù)從海量數(shù)據(jù)中挖掘有價(jià)值的信息以改善生產(chǎn)。制造業(yè)的數(shù)據(jù)量雖然不是特別巨大,但數(shù)據(jù)之間的相關(guān)性極為復(fù)雜,而且智能制造設(shè)備的數(shù)據(jù)需要實(shí)時(shí)處理[1],任務(wù)極為艱巨。

      在此背景下開展了水泥廠大數(shù)據(jù)應(yīng)用的研究,搭建了大數(shù)據(jù)計(jì)算平臺(tái),建立了煤耗特性的數(shù)學(xué)模型,對(duì)實(shí)時(shí)采集的水泥廠設(shè)備運(yùn)行數(shù)據(jù)進(jìn)行煤耗預(yù)測(cè)與診斷,得出具備指導(dǎo)意義的分析結(jié)果。

      1 大數(shù)據(jù)平臺(tái)架構(gòu)

      1.1 大數(shù)據(jù)生態(tài)圈介紹

      1)Hadoop Hadoop是分布式系統(tǒng)的基礎(chǔ)架構(gòu),是大數(shù)據(jù)技術(shù)的基礎(chǔ),其核心部分是HDFS和MapReduce。HDFS為分布式文件系統(tǒng),設(shè)計(jì)用于部署在低廉的硬件上并提供高吞吐量;MapReduce是一款大批量計(jì)算的模型,目前已很少使用。Spark,F(xiàn)link等新興的計(jì)算引擎速度更快,但它們均基于Hadoop的計(jì)算框架。

      2)Spark Spark是當(dāng)前最流行的大數(shù)據(jù)內(nèi)存計(jì)算框架,可以基于Hadoop上存儲(chǔ)的數(shù)據(jù)進(jìn)行計(jì)算;提供了大量的庫(kù),包括 SQL,DataFrames,MLlib,GraphX,Spark Streaming。開發(fā)者可以在同一個(gè)應(yīng)用程序中無縫組合使用這些庫(kù),以完成復(fù)雜的流處理、機(jī)器學(xué)習(xí)算法、數(shù)據(jù)庫(kù)存取等功能[2]。

      3)HBase HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù)。它不同于一般的關(guān)系數(shù)據(jù)庫(kù),是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的NoSQL數(shù)據(jù)庫(kù)。其小批量查詢速度快,適合作為查詢功能的媒介。

      4)Flume Flume是一個(gè)高可用、高可靠、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng);支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方用于收集數(shù)據(jù)。同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方的功能。

      5)Kafka Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),運(yùn)行在普通硬件上的Kafka也可以支持每s百萬(wàn)條消息,具備高吞吐量,支持通過Kafka服務(wù)器和消費(fèi)機(jī)集群來分區(qū)消息,支持Hadoop并行數(shù)據(jù)加載。

      1.2 平臺(tái)架構(gòu)

      平臺(tái)采用架構(gòu)如圖1所示。數(shù)據(jù)處理流程如下:

      步驟1采集水泥廠過往穩(wěn)態(tài)運(yùn)行數(shù)據(jù)與煤耗數(shù)據(jù)存儲(chǔ)到HBase以及HDFS中。

      步驟2使用Spark提取過往數(shù)據(jù),調(diào)用MLlib機(jī)器學(xué)習(xí)算法庫(kù)中的算法對(duì)數(shù)據(jù)進(jìn)行處理以及建立煤耗特性模型。

      步驟3采用Flume對(duì)接Kafka的方式采集實(shí)時(shí)數(shù)據(jù)到Spark Streaming,輸入到煤耗特性模型以及診斷模型中計(jì)算后將結(jié)果寫入HBase和MySQL。

      步驟4在Web端讀取HBase中的結(jié)果數(shù)據(jù)并使用Echarts實(shí)現(xiàn)數(shù)據(jù)的可視化處理。

      圖1 平臺(tái)架構(gòu)Fig.1 Platform architecture

      2 煤耗特性建模

      2.1 數(shù)據(jù)計(jì)算流程

      步驟1采集、清洗數(shù)據(jù)。采集水泥生產(chǎn)設(shè)備的穩(wěn)態(tài)運(yùn)行數(shù)據(jù)10000條,并進(jìn)行數(shù)據(jù)清洗,剔除錯(cuò)誤或異常數(shù)據(jù),以防止其帶來的模型精度誤差[3]。

      步驟2特征選擇。由于水泥生產(chǎn)設(shè)備的運(yùn)行數(shù)據(jù)種類繁多,即對(duì)于煤耗指標(biāo)來說特征值過多,嚴(yán)重影響計(jì)算速度與模型精度[4]。因此,需要先使用降維算法中的特征選擇算法對(duì)特征進(jìn)行篩選,計(jì)算出各特征對(duì)煤耗變化的權(quán)重并按大小排列,剔除對(duì)煤耗影響較小的特征。

      步驟3計(jì)算各特征的基準(zhǔn)值。使用聚類算法將篩選出來的特征計(jì)算出基準(zhǔn)值,為后續(xù)煤耗診斷提供參考指標(biāo)。

      步驟4建立煤耗特性模型。將清洗、篩選后的數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分,使用訓(xùn)練數(shù)據(jù)建立煤耗特性的數(shù)學(xué)模型,使用測(cè)試數(shù)據(jù)評(píng)定模型的精度并反復(fù)調(diào)優(yōu)。

      2.2 特征選擇

      2.2.1 特征選擇的意義

      水泥生產(chǎn)設(shè)備數(shù)量多且體積龐大,運(yùn)行參數(shù)繁多,設(shè)備內(nèi)部還布置有很多的傳感器監(jiān)測(cè)點(diǎn)。每一種數(shù)據(jù)都是煤耗的一個(gè)特征值,而過多的特征會(huì)帶來較大的模型精度誤差,因此要使用特征選擇算法選出對(duì)煤耗影響較大的一部分特征。

      特征選擇的意義如下:①減少所需的存儲(chǔ)空間;②加快計(jì)算速度;③去除冗余特征,即對(duì)煤耗完全沒有影響的特征;④提高模型精度,太多的特征或太復(fù)雜的模型可能導(dǎo)致過擬合。

      2.2.2 Stability selection 穩(wěn)定性選擇算法

      將采用Stability selection穩(wěn)定性選擇算法來實(shí)現(xiàn)水泥廠高維數(shù)據(jù)的特征選擇。

      Stability selection穩(wěn)定性選擇算法是特征選擇類型中較為新穎的算法,將2次抽樣和選擇算法相結(jié)合,具有很高的精度。它的主要思想是在不同的數(shù)據(jù)子集和特征子集上運(yùn)行特征選擇算法,不斷地重復(fù),最終匯總特征選擇結(jié)果,結(jié)果用得分的形式來表示各特征的影響系數(shù)大小。理想情況下,重要特征的得分會(huì)接近1,稍微弱一點(diǎn)的特征得分會(huì)是非零數(shù),而最無用的特征得分將會(huì)接近于0。

      2.2.3 特征選擇結(jié)果

      穩(wěn)定性選擇算法執(zhí)行的部分結(jié)果見表1。特征選擇將選取影響得分>0.5的32個(gè)特征。

      表1 特征對(duì)煤耗的影響系數(shù)Tab.1 Coefficient of characteristic influencing coal consumption

      2.3 基準(zhǔn)值計(jì)算

      2.3.1 K-means||聚類算法

      將采用K-means||聚類算法計(jì)算各特征的基準(zhǔn)值。

      K-means是一種被廣泛使用的聚類算法,原理簡(jiǎn)單,計(jì)算快并且精度較高,但必須提前確定聚類中心的個(gè)數(shù)。而煤耗的特征數(shù)量是已知的,特征數(shù)量即為聚類中心的個(gè)數(shù)。K-means||是K-means的一種改良版,在并行計(jì)算的同時(shí)還改變了每次遍歷時(shí)的取樣策略,大大提升了效率。

      K-means算法的原理是基于相似度將數(shù)據(jù)樣本劃分到距離最近的類中,每個(gè)類由其類中心的位置代表,因此算法的本質(zhì)是將每個(gè)數(shù)據(jù)樣本劃分到與其相似度最大的類中心所對(duì)應(yīng)的類中[5]。

      計(jì)算相似度即為計(jì)算距離,使用歐式距離進(jìn)行判定,即

      算法的主要步驟如下:

      步驟1初始化k個(gè)類中心,k即特征數(shù)量;

      步驟2計(jì)算數(shù)據(jù)樣本與各類中心的距離,將數(shù)據(jù)樣本劃分到最近的類中;

      步驟3更新類中心;

      步驟4重復(fù)前2個(gè)步驟直到滿足收斂條件。

      2.3.2 聚類結(jié)果

      聚類僅對(duì)特征選擇出來的15種特征進(jìn)行計(jì)算,部分結(jié)果見表2。

      表2 選定特征的基準(zhǔn)值Tab.2 Baseline values of selected features

      2.4 建立煤耗特性模型

      2.4.1 Random Forest隨機(jī)森林算法

      將采用隨機(jī)森林算法的回歸功能建立水泥廠煤耗特性模型。

      Random Forest隨機(jī)森林算法是一種集成算法(Ensemble Learning),具有速度快,模型精確度極高,功能多樣等諸多優(yōu)點(diǎn)。隨機(jī)森林算法主要用于分類與回歸問題,屬于Bagging類型,通過組合多個(gè)弱分類器,通過投票進(jìn)行分類,通過取均值進(jìn)行回歸[6],使整體模型的結(jié)果具有較高的精確度和泛化性能。隨機(jī)森林算法原理如圖2所示,執(zhí)行原理及步驟如下:

      1)從訓(xùn)練數(shù)據(jù)中隨機(jī)抽取部分樣本,作為每棵樹的根節(jié)點(diǎn)樣本。

      2)在建立決策樹時(shí),隨機(jī)抽取部分候選屬性,從中選擇最合適的屬性作為分裂節(jié)點(diǎn)。

      3)建立好隨機(jī)森林后,對(duì)于測(cè)試樣本,進(jìn)入每一棵決策樹進(jìn)行類型輸出或回歸輸出。若為分類問題,以投票的方式輸出最終類別;若為回歸問題,每一棵決策樹輸出的均值作為最終結(jié)果。

      圖2 隨機(jī)森林原理Fig.2 Principle of random forest

      2.4.2 數(shù)據(jù)預(yù)處理

      在Spark中,隨機(jī)森林回歸所采用的數(shù)據(jù)格式為L(zhǎng)IBSVM格式,因此在訓(xùn)練模型之前需要先將采集到的數(shù)據(jù)轉(zhuǎn)換為此格式。LIBSVM的每一條數(shù)據(jù)類型為L(zhǎng)abeledPoint,其格式為

      label index1:value1 index2:value2 index3:value3…

      其中:label為目標(biāo)值即煤耗;index為特征索引;value為特征值。

      2.4.3 煤耗特性模型

      建立回歸模型首先將數(shù)據(jù)分為2份,70%作為訓(xùn)練數(shù)據(jù),30%作為測(cè)試數(shù)據(jù)。訓(xùn)練完成后,代入測(cè)試數(shù)據(jù)計(jì)算均方誤差以評(píng)估模型準(zhǔn)確度,通過改變參數(shù)、對(duì)比誤差對(duì)模型進(jìn)行調(diào)優(yōu)。隨機(jī)森林回歸算法的部分Scala代碼如下:

      3 煤耗的實(shí)時(shí)預(yù)測(cè)與診斷

      3.1 計(jì)算規(guī)劃

      煤耗特性建模各步驟均為離線計(jì)算,無需部署在服務(wù)器端,直接編寫代碼調(diào)用Spark API運(yùn)行在IDE上即可,只需在計(jì)算完成后將基準(zhǔn)值存為一個(gè)Array[Double]類型的變量,將模型保存在項(xiàng)目resource目錄下以便煤耗預(yù)測(cè)與診斷時(shí)進(jìn)行快速調(diào)用。

      煤耗預(yù)測(cè)與診斷需要實(shí)時(shí)計(jì)算,將使用Spark Streaming進(jìn)行流處理,并且需要將項(xiàng)目打包提交到服務(wù)器端運(yùn)行,以實(shí)時(shí)的接收數(shù)據(jù)。

      3.2 實(shí)時(shí)數(shù)據(jù)的采集

      在大數(shù)據(jù)技術(shù)中,采集實(shí)時(shí)數(shù)據(jù)常用Fume-Kafka-Spark Streaming的方式,相較于Flume直接對(duì)接Spark Streaming的方式,具有數(shù)據(jù)推送穩(wěn)定,數(shù)據(jù)丟失率低的優(yōu)點(diǎn)[7]。

      1)配置 Flume的 conf文件,主要參數(shù)設(shè)置:sources.command=tail-F 加水泥廠日志文件名稱,追蹤文件,將新增數(shù)據(jù)發(fā)送給 Kafka,將 sinks.type設(shè)置為 org.apache.flume.sink.kafka.KafkaSink,將 sinks.kafka.topic設(shè)置為項(xiàng)目名,提交任務(wù)后flume就會(huì)將數(shù)據(jù)傳輸給Kafka。

      2)在啟動(dòng)Kafka的consumer時(shí)傳入 topic名,這樣Kafka就會(huì)接收到Flume的數(shù)據(jù)。

      3)在Spark提交的項(xiàng)目程序包中使用KafkaUtils.createStream()方法并傳入topic名,就可以獲取由Kafka推送來的數(shù)據(jù)。

      Flume配置文件部分內(nèi)容如下:

      3.3 煤耗預(yù)測(cè)

      在項(xiàng)目程序中,使用 RandomForestModel.load()方法讀取煤耗特性模型,并傳入從Kafka接收到的數(shù)據(jù),即可實(shí)時(shí)預(yù)測(cè)在當(dāng)前工況下將會(huì)產(chǎn)生的煤耗。由于僅得到預(yù)測(cè)的煤耗值對(duì)于水泥廠調(diào)整煤耗沒有太大的實(shí)際意義,因此需要建立診斷模型以計(jì)算出具有價(jià)值的結(jié)果。

      3.4 煤耗診斷

      采用控制變量法計(jì)算每一特征造成的煤耗偏差,以該值與其所占總煤耗偏差的比重來表示該特征實(shí)時(shí)值的優(yōu)劣,據(jù)此判斷該特征對(duì)應(yīng)的運(yùn)行參數(shù)是否需要調(diào)整。煤耗診斷結(jié)果存儲(chǔ)到HBase和MySQL中。煤耗診斷模型為

      式中:Pi為第i個(gè)特征造成的煤耗偏差占總煤耗偏差的比重;f(x)為煤耗特性模型,計(jì)算結(jié)果為預(yù)測(cè)煤耗;xc為特征的實(shí)時(shí)值;xb為特征的基準(zhǔn)值。

      4 數(shù)據(jù)可視化

      數(shù)據(jù)可視化能夠使復(fù)雜的計(jì)算結(jié)果變得一目了然,大大提升觀感和信息理解速度。

      使用Echarts提取HBase中的診斷結(jié)果來生成圖表的方式實(shí)現(xiàn)數(shù)據(jù)可視化,使用ajax實(shí)現(xiàn)圖表的實(shí)時(shí)更新,可視化效果如圖3所示。

      由圖可見,分解爐出口溫度這一參數(shù)的當(dāng)前數(shù)值處于較差的狀態(tài),會(huì)導(dǎo)致噸熟料煤耗增加3.57 kg,占此時(shí)總煤耗增值的23.11%。

      5 結(jié)語(yǔ)

      圖3 煤耗實(shí)時(shí)診斷結(jié)果可視化Fig.3 Visualization of real-time diagnosis results of coal consumption

      將大數(shù)據(jù)、數(shù)據(jù)挖掘技術(shù)引入水泥廠的煤耗管控中,為水泥廠搭建大數(shù)據(jù)計(jì)算平臺(tái),建立煤耗特性模型,實(shí)時(shí)采集設(shè)備運(yùn)行參數(shù)進(jìn)行煤耗診斷,判斷可能引起較大煤耗偏差的參數(shù),從而為水泥廠調(diào)整煤耗提供參考。還研究了煤耗特性模型的建模方法、實(shí)時(shí)采集數(shù)據(jù)和實(shí)時(shí)診斷的方法,為將要應(yīng)用大數(shù)據(jù)技術(shù)的水泥廠提供一些技術(shù)思路和參考。

      猜你喜歡
      水泥廠煤耗特征選擇
      基于PI數(shù)據(jù)和供電標(biāo)煤耗的機(jī)組冷端優(yōu)化研究
      能源工程(2021年2期)2021-07-21 08:39:48
      基于最小二乘法的煤耗預(yù)測(cè)在火電調(diào)峰經(jīng)濟(jì)性中的應(yīng)用
      湖南電力(2021年1期)2021-04-13 01:36:28
      兩點(diǎn)法確定供電煤耗-負(fù)荷特性曲線研究
      水泥廠風(fēng)掃煤磨機(jī)的永磁直驅(qū)改造
      上海建材(2019年3期)2019-09-18 01:50:50
      水泥廠購(gòu)置使用袋式、電袋復(fù)合除塵器可享受稅收優(yōu)惠
      江西建材(2018年2期)2018-04-14 08:00:06
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于FNO-PSO算法火電機(jī)組煤耗模型的參數(shù)辨識(shí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      強(qiáng)夯法在水泥廠建設(shè)中的應(yīng)用
      江蘇建材(2014年6期)2014-10-27 06:01:37
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      贵州省| 谢通门县| 乐昌市| 韶关市| 临武县| 屏东县| 龙海市| 石城县| 承德市| 莱芜市| 龙游县| 泸定县| 阳信县| 泰来县| 中阳县| 南乐县| 古丈县| 满城县| 曲沃县| 西贡区| 东莞市| 北票市| 深圳市| 马山县| 麻江县| 新密市| 肥西县| 卫辉市| 钟山县| 西安市| 彩票| 无锡市| 富平县| 商水县| 朝阳区| 台前县| 溧水县| 天峻县| 鄂伦春自治旗| 博客| 浦城县|