劉 婷 敖凌文* 焦 嘉
(湖南信息職業(yè)技術(shù)學(xué)院,湖南 長(zhǎng)沙 410200)
大數(shù)據(jù)技術(shù)發(fā)展到現(xiàn)在,在各行各業(yè)越來(lái)越受到重視以及應(yīng)用。在工業(yè)制造領(lǐng)域,特別是國(guó)家提出智能制造之后,制造行業(yè)對(duì)大數(shù)據(jù)技術(shù)的認(rèn)識(shí)有了質(zhì)的飛躍?,F(xiàn)在大數(shù)據(jù)技術(shù)在制造行業(yè)的主要應(yīng)用有生產(chǎn)工藝分析、設(shè)備故障診斷預(yù)警、生產(chǎn)供應(yīng)鏈優(yōu)化、工業(yè)產(chǎn)品升級(jí)等?,F(xiàn)在生產(chǎn)制造過(guò)程中,會(huì)用到大量傳感器,通過(guò)監(jiān)控傳感器數(shù)據(jù)的異常變化,優(yōu)化改善生產(chǎn)制造中的問(wèn)題。比如:監(jiān)測(cè)電力消耗異常,優(yōu)化電力能源的消耗。而在本文中,就主要介紹大數(shù)據(jù)技術(shù)在解決工業(yè)預(yù)警問(wèn)題方面的一些應(yīng)用。
隨著信息技術(shù)的發(fā)展,特別是近些年的高速發(fā)展,大多數(shù)行業(yè)都實(shí)現(xiàn)了信息化管理,尤其大數(shù)據(jù)技術(shù)產(chǎn)生以來(lái),數(shù)據(jù)規(guī)模出現(xiàn)了高速增長(zhǎng)。相比普通數(shù)據(jù),大數(shù)據(jù)是具有規(guī)模大、處理速度快、多樣化的信息資產(chǎn)。其具有顯著“4V”特點(diǎn),即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)[1]。
如果大數(shù)據(jù)技術(shù)僅僅只是收集數(shù)據(jù)的話,那么對(duì)于企業(yè)的發(fā)展沒(méi)有多大作用。故而大數(shù)據(jù)技術(shù)除了收集數(shù)據(jù),還要對(duì)數(shù)據(jù)進(jìn)行分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析可從這些海量的、高維的、多樣的數(shù)據(jù)中找到相比普通數(shù)據(jù)分析難以找到的模式,從而為企業(yè)找到新的商業(yè)價(jià)值和機(jī)會(huì)。
大數(shù)據(jù)技術(shù)主要分為四個(gè)方面,分別如下:(1)數(shù)據(jù)收集:這是大數(shù)據(jù)技術(shù)的基礎(chǔ),也是對(duì)大數(shù)據(jù)分析不可或缺的。數(shù)據(jù)的來(lái)源可以是本地?cái)?shù)據(jù)庫(kù)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等。在數(shù)據(jù)收集的過(guò)程中存在提取、轉(zhuǎn)換和加載[2]。(2)數(shù)據(jù)管理:由于收集的數(shù)據(jù)中會(huì)存在大量的臟數(shù)據(jù),所以需要對(duì)這些數(shù)據(jù)進(jìn)行相應(yīng)的清洗、去噪、數(shù)據(jù)集成和數(shù)據(jù)修正。同時(shí)也要為數(shù)據(jù)的快速查詢提供功能[3]。(3)大數(shù)據(jù)分析:大數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)的關(guān)鍵。對(duì)清洗修正過(guò)的數(shù)據(jù)采用合適的算法模型進(jìn)行分析建模,例如數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)算法以及近幾年流行起來(lái)的深度學(xué)習(xí)技術(shù)。對(duì)數(shù)據(jù)的處理方式分為兩類,一類是流處理,另一類是批量處理。(4)數(shù)據(jù)解釋:數(shù)據(jù)解釋的主要目的是讓大數(shù)據(jù)分析的結(jié)果能夠直觀的呈現(xiàn)給用戶,讓用戶能能夠方便的理解。數(shù)據(jù)可視化技術(shù)是現(xiàn)在最常用,也最直觀的展現(xiàn)方式[4]。
在工業(yè)生產(chǎn)過(guò)程中,設(shè)備不僅產(chǎn)生大量的工況數(shù)據(jù),也還會(huì)產(chǎn)生大量的告警數(shù)據(jù)。比如工況數(shù)據(jù)有從各種傳感器上采集到的數(shù)據(jù)(溫度、濕度)以及設(shè)備機(jī)臺(tái)上運(yùn)行參數(shù)(速度、壓力)。告警數(shù)據(jù)有超溫報(bào)警、電磁閥故障報(bào)警等等。如何通過(guò)分析工況數(shù)據(jù)與故障數(shù)據(jù),以及不同告警數(shù)據(jù)之間的關(guān)系,做一定的故障預(yù)警,也是改善工業(yè)生產(chǎn)的一種方法。
例如有一種場(chǎng)景是對(duì)溫度異常升高做出提前預(yù)警,工況數(shù)據(jù)有時(shí)間、溫度閥開關(guān)、濕度閥開關(guān)、濕度、溫度等維度數(shù)。其中取時(shí)間和溫度分別作為自變量和因變量來(lái)做回歸分析,預(yù)測(cè)溫度的變化。
回歸分析是一種預(yù)測(cè)性的建模技術(shù),它通過(guò)研究自變量和因變量的關(guān)系,來(lái)進(jìn)行預(yù)測(cè)分析。通常使用曲線來(lái)擬合數(shù)據(jù)點(diǎn),目標(biāo)是使曲線到數(shù)據(jù)點(diǎn)的距離差異最小。
線性回歸是回歸問(wèn)題中的一種,即滿足一個(gè)多元一次方程,特征值和預(yù)測(cè)值之間是線性關(guān)系。通過(guò)構(gòu)建損失函數(shù),最小化損失函數(shù)來(lái)求解參數(shù)w和b。通常我們可以表達(dá)成如下公式:
f(x)為預(yù)測(cè)值,自變量x 和因變量f(x)是已知的,對(duì)于一個(gè)新的x,我們想要預(yù)測(cè)其對(duì)應(yīng)的f(x)是多少。因此,為了構(gòu)建這個(gè)函數(shù)關(guān)系,目標(biāo)是通過(guò)已知數(shù)據(jù)點(diǎn),求解線性模型中w和b兩個(gè)參數(shù)。但有時(shí)自變量和因變量之間不是呈現(xiàn)直線關(guān)系,而是呈現(xiàn)曲線關(guān)系,如下公式:
如何求解最佳參數(shù),我們需要一個(gè)標(biāo)準(zhǔn)來(lái)對(duì)結(jié)果進(jìn)行衡量。為此我們需要來(lái)量化一個(gè)目標(biāo)函數(shù)。針對(duì)任何模型求解問(wèn)題,都是最終都是可以得到一組預(yù)測(cè)值y,對(duì)比已有的真實(shí)y,數(shù)據(jù)行數(shù)為n,可以將損失函數(shù)定義如下:
即預(yù)測(cè)值與真實(shí)值之間的平均的平方距離,統(tǒng)計(jì)中一般稱其為MSE 均方誤差。把之前的函數(shù)式代入損失函數(shù),并且將需要求解的參數(shù)w和b 看做是函數(shù)L 的自變量,可得
現(xiàn)在的任務(wù)是求解最小化L 時(shí)w 和b 的值,即核心目標(biāo)優(yōu)化式為
對(duì)于上面的模型參數(shù)可以采用以下兩種方式進(jìn)行求解:
2.1.1 最小二乘法
求解w 和b 是使損失函數(shù)最小化的過(guò)程,在統(tǒng)計(jì)中,稱為線性回歸模型的最小二乘參數(shù)估計(jì)。我們可以將L(w,b)分別對(duì)w和b 求導(dǎo),得到
2.1.2 梯度下降
梯度下降核心內(nèi)容是對(duì)自變量進(jìn)行不斷的更新,針對(duì)w 和b 求偏導(dǎo),使得目標(biāo)函數(shù)不斷逼近最小值的過(guò)程。
現(xiàn)在有數(shù)據(jù),包含時(shí)間、溫度閥開關(guān)、濕度閥開關(guān)、風(fēng)扇開關(guān)、加熱開關(guān)、加濕開關(guān)、實(shí)際溫度、實(shí)際濕度、設(shè)定溫度、設(shè)定濕度等維度。我們需要對(duì)以實(shí)際溫度作為目標(biāo)值,其他變量作為特征,來(lái)對(duì)溫度進(jìn)行預(yù)測(cè)。對(duì)數(shù)據(jù)做下面的預(yù)處理。
數(shù)據(jù)處理:分析各變量的性質(zhì),比如是連續(xù)變量,還是離散變量。
對(duì)于連續(xù)變量,如果數(shù)據(jù)存在缺失值,可以用其附近的均值作為填充。對(duì)于離散變量,如果數(shù)據(jù)存在缺失值,可以根據(jù)該變量的眾數(shù)來(lái)填充。
插值方式不僅僅只有上面的兩種,還有其它方法,本案例采用剛才的兩種方式來(lái)對(duì)數(shù)據(jù)進(jìn)行處理。對(duì)于異常值,也采用上面的方式進(jìn)行替換。由于數(shù)據(jù)是按時(shí)間進(jìn)行記錄的,有時(shí)數(shù)據(jù)會(huì)有重復(fù)的記錄,故對(duì)重復(fù)的記錄進(jìn)行去除,只保留一條記錄。
變量選擇:在對(duì)這些變量進(jìn)行分析時(shí),我們可以先從業(yè)務(wù)角度分析下變量的變化是否會(huì)對(duì)溫度產(chǎn)生影響。其次可以繪圖來(lái)初步觀察各個(gè)特征之間是否有相關(guān)性,然后采用降維方法對(duì)數(shù)據(jù)進(jìn)行降維,降低特征的維度。本例根據(jù)已有的數(shù)據(jù)做了分析,發(fā)現(xiàn)各個(gè)特征的走勢(shì)變化,對(duì)溫度的影響不是很大,故只選擇了時(shí)間作為特征。實(shí)際情況中,溫度不可能僅僅只是隨著時(shí)間變化而變化,也還與其它因素相關(guān)。故還需要大量數(shù)據(jù)積累,增加其它特征,來(lái)改善最終結(jié)果的預(yù)測(cè)準(zhǔn)確度。
變量重構(gòu):本例以時(shí)間作為自變量,并對(duì)時(shí)間進(jìn)行轉(zhuǎn)換,以溫度上升起點(diǎn)為時(shí)間零點(diǎn)。時(shí)間特征變?yōu)橐悦霝閱挝淮笮〉男碌臅r(shí)間特征。由于觀測(cè)溫度隨著時(shí)間的變化趨勢(shì)是曲線的,即是高階的。故把時(shí)間特征重構(gòu),生成新的多個(gè)維度特征,如x→(xn,xn-1,…,x2,x,1)變換。
算法選擇:本例采用線性回歸算法(LR),來(lái)對(duì)數(shù)據(jù)進(jìn)行擬合。
參數(shù)選定:由于我們不知道到底哪個(gè)參數(shù)是比較合適的,所以需要嘗試不同參數(shù)的模型在數(shù)據(jù)集上的擬合程度,以及預(yù)測(cè)效果。再根據(jù)模型的復(fù)雜程度(階的大小),選擇復(fù)雜程度比較小,擬合效果還比較好的模型。本列最后采用二階的一元多項(xiàng)式作為最終的模型。
本案例的分析過(guò)程大致如圖1 所示。
圖1 本案例的分析過(guò)程
機(jī)臺(tái)設(shè)備會(huì)經(jīng)常報(bào)各種各樣的故障,比如本案列會(huì)有風(fēng)機(jī)斷路器跳閘故障、模塊通訊故障、濕度模塊端口故障、溫度模塊端口故障、溫度控制閥故障、窯超溫報(bào)警等。如何找到這些故障之間的關(guān)系,提前避免一些故障的發(fā)生導(dǎo)致其它故障的發(fā)生,有很大的價(jià)值。在該案例中,根據(jù)經(jīng)驗(yàn)知道溫度控制閥出問(wèn)題,很可能會(huì)導(dǎo)致非正常加熱,使溫度異常上升,即會(huì)發(fā)生超溫報(bào)警。到底情況具體如何,在這里,我們可以采用關(guān)聯(lián)規(guī)則挖掘算法,并結(jié)合本案例的具體情況,增加規(guī)則,來(lái)找到這樣的關(guān)系。支持度就是幾個(gè)關(guān)聯(lián)的數(shù)據(jù)在數(shù)據(jù)集中出現(xiàn)的次數(shù)占總數(shù)據(jù)集的比重。或者說(shuō)幾個(gè)數(shù)據(jù)關(guān)聯(lián)出現(xiàn)的概率,比如有兩個(gè)關(guān)聯(lián)性的數(shù)據(jù)X 和Y,則對(duì)應(yīng)的支持度為:
以此類推,如果有三個(gè)關(guān)聯(lián)性的數(shù)據(jù)X,Y 和Z,則對(duì)應(yīng)的支持度為:
一般情況下,支持度高與數(shù)據(jù)是否構(gòu)成頻繁項(xiàng)集是沒(méi)有必然關(guān)系的,但是支持度太低的數(shù)據(jù)一定不構(gòu)成頻繁項(xiàng)集。
置信度主要反映的是在一個(gè)數(shù)據(jù)出現(xiàn)的情況下,另一個(gè)數(shù)據(jù)出現(xiàn)的概率,也就是我們常說(shuō)的條件概率。假設(shè)有兩個(gè)有關(guān)聯(lián)性的數(shù)據(jù)X 和Y,X 對(duì)Y 的置信度為:
表1 月度粒度表
這里將用經(jīng)典算法Apriori 算法來(lái)實(shí)現(xiàn)找到所有頻繁項(xiàng)集,且滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。通常來(lái)說(shuō),要確定好評(píng)估標(biāo)準(zhǔn),才能確定一個(gè)數(shù)據(jù)集合中的頻繁數(shù)據(jù)集。評(píng)估標(biāo)準(zhǔn)是用自定義支持度和置信度的一個(gè)組合,還用自定義的支持度,可以根據(jù)情況而定。通常會(huì)選擇支持度和置信度的結(jié)合。在應(yīng)用該算法之前,以及本案列的具體情況,按如下步驟計(jì)算。
步驟一:對(duì)數(shù)據(jù)做一下處理。首先通過(guò)故障發(fā)生的時(shí)間順進(jìn)行排序,可以選取不同時(shí)間粒度范圍,比如一天、一周、一個(gè)月等等粒度。然后生成以某一時(shí)間粒度的各個(gè)故障數(shù)據(jù)集。如下是按一個(gè)月的時(shí)間粒度:
步驟二:應(yīng)用Apriori 算法,產(chǎn)生滿足條件的頻繁項(xiàng)集。
步驟三:再?gòu)臉I(yè)務(wù)的角度來(lái)進(jìn)行判斷,即一個(gè)故障的發(fā)生是否會(huì)引起另一個(gè)故障發(fā)生,或者大概率引起另一個(gè)故障的發(fā)生。
總的來(lái)說(shuō),基于大數(shù)據(jù)的故障預(yù)警應(yīng)用覆蓋面非常廣泛,它的意義在于超前的故障預(yù)警提醒可以讓企業(yè)設(shè)備運(yùn)維人員有針對(duì)性的對(duì)設(shè)備進(jìn)行維護(hù),提前處理設(shè)備存在的隱患,提高設(shè)備的利用率,以及延長(zhǎng)設(shè)備的使用壽命,真正意義上實(shí)現(xiàn)了狀態(tài)驅(qū)動(dòng)運(yùn)維的模式。對(duì)于一些難以避免的故障,可以有針對(duì)性的且充分的事故演練,以保證有充足的時(shí)間去進(jìn)行配件準(zhǔn)備,避免引發(fā)二次事故,同時(shí)也大大減少因備件因素造成的非計(jì)停時(shí)間延長(zhǎng)情況的發(fā)生。另外,利用現(xiàn)代化工業(yè)制造生產(chǎn)線的傳感器探測(cè)溫度、壓力、熱能、振動(dòng)和噪聲,多形式分析手段包括設(shè)備診斷、用電量分析、能耗分析、質(zhì)量事故分析等可以掌控每個(gè)生產(chǎn)流程,改進(jìn)生產(chǎn)工藝,或建立虛擬模型仿真優(yōu)化。也可通過(guò)大數(shù)據(jù)的豐富信息來(lái)發(fā)現(xiàn)歷史預(yù)測(cè)和實(shí)際的偏差概率,考慮產(chǎn)能、人員、物料等的約束,采用智能優(yōu)化算法來(lái)排產(chǎn)。
由大數(shù)據(jù)驅(qū)動(dòng)導(dǎo)致制造業(yè)轉(zhuǎn)型升級(jí),是制造業(yè)在未來(lái)高效生產(chǎn)、提升產(chǎn)品質(zhì)量、提高資源利用率,降低資源消耗、改善生產(chǎn)安全、優(yōu)化銷售服務(wù)的重要一步。通過(guò)與移動(dòng)互聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、人工智能等技術(shù)的協(xié)作發(fā)展,由大數(shù)據(jù)驅(qū)動(dòng)的工業(yè)互聯(lián)網(wǎng)會(huì)成為經(jīng)濟(jì)發(fā)展的又一個(gè)增長(zhǎng)點(diǎn),為經(jīng)濟(jì)發(fā)展帶來(lái)新的活力。未來(lái)工業(yè)互聯(lián)網(wǎng)智能化的建設(shè)會(huì)推動(dòng)工業(yè)制造數(shù)字化、網(wǎng)絡(luò)化、智能化的實(shí)現(xiàn),而工業(yè)大數(shù)據(jù)作為其中重要的一環(huán),定會(huì)助力構(gòu)建資源富集、協(xié)同演進(jìn)的制造業(yè)生態(tài)。但就目前而言,工業(yè)大數(shù)據(jù)應(yīng)用價(jià)值巨大,挖掘這些價(jià)值還需要完成很多的工作,所以還要繼續(xù)努力。