唐向紅,易向華,陸見光,元 寧,劉國凱
(1a.貴州大學 現(xiàn)代制造技術(shù)教育部重點實驗室;b.機械工程學院,貴陽 550025;2.貴州省公共大數(shù)據(jù)重點實驗室,貴陽 550025)
融合云加端的制造產(chǎn)品在線質(zhì)量預測研究*
唐向紅1,2,易向華1a,陸見光1,2,元 寧1a,劉國凱1a
(1a.貴州大學 現(xiàn)代制造技術(shù)教育部重點實驗室;b.機械工程學院,貴陽 550025;2.貴州省公共大數(shù)據(jù)重點實驗室,貴陽 550025)
針對制造過程的在線質(zhì)量預測的實時性問題,提出了一種融合云加端的在線質(zhì)量預測架構(gòu)。該架構(gòu)在云加端提出一種基于遺傳算法(GA)參數(shù)優(yōu)化的隱含層節(jié)點自適應增長極端學習機(AG-ELM)方法,建立了優(yōu)化的產(chǎn)品質(zhì)量預測模型。同時,該架構(gòu)在終端改進了k-means方法并將其應用于在線質(zhì)量數(shù)據(jù)流聚類,并將聚類中心序列輸入產(chǎn)品質(zhì)量預測模型,預測產(chǎn)品的質(zhì)量。通過點焊過程的實驗表明該產(chǎn)品質(zhì)量預測模型方法實時性較BP神經(jīng)網(wǎng)絡和貝葉斯方法有較大優(yōu)勢,能應用于當前制造過程的在線質(zhì)量預測。
制造過程;在線質(zhì)量預測;數(shù)據(jù)流;K-means
隨著人們對質(zhì)量水平要求的不斷提高,使得企業(yè)對于產(chǎn)品質(zhì)量的控制不再僅僅滿足于質(zhì)量檢驗,而紛紛轉(zhuǎn)向?qū)ιa(chǎn)制造過程的監(jiān)控和分析,希望改善、消除不良的質(zhì)量影響因素來確保生產(chǎn)過程順利運行,同時生產(chǎn)成本得以減少。制造過程作為一種復雜生產(chǎn)過程,具有工藝參數(shù)眾多、機理復雜、非線性顯著和動態(tài)變化等特點,難以用常規(guī)方法建立其精確的數(shù)學模型。從質(zhì)量管理的角度分析,對制造過程中的質(zhì)量起關(guān)鍵作用的因素有5M1E,即:人(Man)、機(Machine)、料(Material)、法(Method)、環(huán)(Environment) 、測( Measurement )。近年來,隨著數(shù)據(jù)采集技術(shù)和計算機技術(shù)的快速發(fā)展,制造過程質(zhì)量特征參數(shù)的獲取變得容易[1]。制造過程的數(shù)據(jù)呈現(xiàn)出高維、強耦合、非線性并且以數(shù)據(jù)流的形式存在,故傳統(tǒng)的統(tǒng)計控制方法已經(jīng)不能滿足現(xiàn)代生產(chǎn)的需求。因而采用基于智能化方法的過程質(zhì)量控制方法是必要的。生產(chǎn)過程質(zhì)量預測是實現(xiàn)生產(chǎn)過程質(zhì)量控制的基礎(chǔ)?,F(xiàn)有的預測方法如:人工神經(jīng)網(wǎng)絡[2],貝葉斯方法[3]、支持向量機[4]等方法可以對產(chǎn)品質(zhì)量進行分析預測,并且取得了不錯的效果。但是,上述方法并不能實時的預測當前的質(zhì)量。
隨著工業(yè)云[5]以及海量數(shù)據(jù)存儲技術(shù)[6]的興起和研究,使得通過云端強大的計算能力,并對在線的實時數(shù)據(jù)提供參考成為可能。本文針對制造過程中的質(zhì)量數(shù)據(jù)以數(shù)據(jù)流的形式存在的特點,首先提出了一種融合云端的在線質(zhì)量預測架構(gòu),通過云加端強大的計算能力構(gòu)建AG-ELM模型,并且對模型的相關(guān)參數(shù)進行了GA優(yōu)化;在線部分應用基于數(shù)據(jù)流計算框架的改進K-means方法對工況進行聚類;最后,將云加端優(yōu)化的預測模型傳輸至在線部分完成質(zhì)量的在線預測。
云加端擁有著強大的計算能力,并且隨著存儲技術(shù)的不斷發(fā)展,使得云端存儲海量的歷史生產(chǎn)數(shù)據(jù)變得可能?;诖?,本文提出了一種融合云加端的在線質(zhì)量預測架構(gòu),通過云加端輔助在線部分進行質(zhì)量預測。如圖1所示。
圖1 融合云加端的在線質(zhì)量預測架構(gòu)
在線部分首先通過實驗確定k值,并通過采樣的方法確定初始聚類中心,極大限度的提升了K-means的收斂速度,然后本文改進了K-means算法并且將其引入數(shù)據(jù)流的計算框架,降低了算法的時間發(fā)雜度;同時,云加端首先通過歷史數(shù)據(jù)構(gòu)建AG-ELM模型,并且初始化AG-ELM,然后通過遺傳算法(GA)優(yōu)化學習機的參數(shù)(輸入權(quán)值和隱含層閾值),并且通過均方根誤差和驗證集對AG-ELM網(wǎng)絡進行驗證,直到找到最優(yōu)學習機;最后,在線部分通過調(diào)用云加端的GA-AG-ELM模型,于在線部分完成質(zhì)量的在線預測。
2.1 隱含層自適應增長極端學習機(AG-ELM)
隱含層節(jié)點自適應增長極端學習機(AG-ELM)[7]是一種特殊的極端學習機(ELM)[8]。與ELM一樣,AG-ELM同樣是一種基于單隱層前饋神經(jīng)網(wǎng)絡的學習方法,并且繼承了ELM的所有特點,如學習時間短、算法運行快、結(jié)構(gòu)確定簡便等。在此基礎(chǔ)上,AG-ELM對ELM中如何確定合適的網(wǎng)絡結(jié)構(gòu)做了研究,并給出了一種自適應的方式來確定極端學習機的網(wǎng)絡結(jié)構(gòu),即已經(jīng)存在的網(wǎng)絡會被一個新產(chǎn)生的隱層節(jié)點數(shù)更少的泛化性能更好的網(wǎng)絡所替代,并且AG-ELM有很好的逼近能力。ELM的網(wǎng)絡結(jié)構(gòu)圖如圖2所示。
圖2 極端學習機的網(wǎng)絡結(jié)構(gòu)
一個有N個輸入,n個隱含層節(jié)點,且一個線性輸出的單隱層前饋神經(jīng)網(wǎng)絡可以簡單用公式(1)表示:
(1)
其中, (ωj,tj)∈RN×R是第j個隱含層節(jié)點輸入權(quán)值和隱含層閾值,αj∈R是第j個隱含層節(jié)點與輸出節(jié)點之間的權(quán)值。
2.2 基于GA優(yōu)化的AG-ELM算法
在AG-ELM中,輸入權(quán)值是隨機產(chǎn)生的,這種方式確定的輸出權(quán)值準確率不高,而且極端學習機的輸出層權(quán)重也是根據(jù)預設(shè)的輸入層權(quán)重和隱含層閾值計算得出,這樣就會導致極端學習機對未知的測試數(shù)據(jù)集不敏感[9]。遺傳算法(GA)[10]是模擬自然界遺傳機制和生物進化論而形成的一種過程搜索最優(yōu)解算法,具有良好的全局并行搜索能力,魯棒性強,簡單通用,運行方式和實現(xiàn)步驟規(guī)范,能加速AG-ELM算法的訓練過程并且獲得更高的收斂精度。根據(jù)GA的思想,每個染色體由隱含層節(jié)點中的輸入權(quán)值ω,輸出權(quán)值α和閾值t組成。并且AG-ELM網(wǎng)絡中所有參數(shù)都是基于真均勻分布[11]產(chǎn)生的。GA優(yōu)化的隱層節(jié)點自適應增長極端學習機算法步驟如下:
(2)計算個體的適應值
(2)
(3)令f1ibest=f(C1i),f1best=min(f(C1i))1≤i≤L,即將這一代適應值最小的個體直接傳給下一代,并且利用交叉和變異等操作算子對當前群體進行處理,產(chǎn)生下一代群體。交叉概率m在[0.5,1.0]之間取值,否則易導致搜索過程停滯;變異概率n取值范圍為[0.01,0.2]。
(4)重復上述過程,直至選出最優(yōu)個體,記為C1best,其對應的適應值為f(C1best)。
(3)
…
Steps:隨機產(chǎn)生種群:
(4)
持續(xù)上面的過程,可得一組適應值序列C={f(C1best),f(C2best),…,f(Csbest)},選擇其中最小的適應值所在的那個粒子作為最后的測試網(wǎng)絡。
2.3 基于GA算法的AG-ELM建模
(1)將云端歷史的過程數(shù)據(jù)作為建模數(shù)據(jù),隨機產(chǎn)生輸入權(quán)值ω、隱含層閾值t,并通過實驗初始化AG-ELM的網(wǎng)絡結(jié)構(gòu);
(2) 應用計算出來的輸出層權(quán)值α、根據(jù)式(1)對預測集進行預測和驗證,計算出其標準均方根誤差E。E的計算如式(5)所示。
(5)
(3)通過GA優(yōu)化輸入權(quán)值ω、隱含層閾值t和輸出層權(quán)值α,并通過最優(yōu)的染色體建立AG-ELM模型。
在步驟(2)中,應用GA對AG-ELM輸入權(quán)值、隱含層閾值等參數(shù)的優(yōu)化過程如圖3所示。
圖3 AG-ELM參數(shù)GA優(yōu)化流程
3.1 基于數(shù)據(jù)流計算框架的改進K-means算法
聚類分析[12]是數(shù)據(jù)挖掘研究的一項重要技術(shù),屬于無監(jiān)督機器學習方法,它基于物以類聚原理,分析和探索事物的內(nèi)在聯(lián)系和本質(zhì)。常用的聚類分析方法包括基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法和基于變換的聚類算法。
K-means方法是一種典型的基于劃分的聚類算法,該算法將一個含有n個樣本的集合劃分為K個子集合,其中每個子集合代表一個類簇,同一類簇中的樣本具有高度的相似性,不同類簇中的樣本相似度較低。K-means算法以其思路簡潔、收斂速度快成為應用最廣泛的聚類算法。雖然K-means有著上述特點,但是其算法自身也存在一些缺陷,例如需要由用戶指定k值、初始聚類中心隨機選擇、產(chǎn)生局部最優(yōu)解甚至無解等。目前,許多算法均圍繞著K-means算法進行擴展和改進。文獻[13]提出基于K-means的Stream算法,使用質(zhì)心和子簇表示聚類。Na S[14]提出了一種改進的K-means算法,通過設(shè)置簡單的數(shù)據(jù)結(jié)構(gòu),存儲每次迭代中的一些有用信息用于下一次迭代,減少了迭代次數(shù)。文獻[15]通過將對數(shù)據(jù)集的多次采樣,選取最終較優(yōu)的初始聚類中心,使得改進后的算法受初始聚類中心選擇的影響度大大降低。
以上國內(nèi)外K-means算法的研究主要是基于集中式單節(jié)點環(huán)境下的。近幾年,隨著數(shù)據(jù)規(guī)模的無限擴大,分布式并行的K-means算法越來越受到人們的青睞。而MapReduce云計算框架作為當下管理大型計算機集群能力的一種流行方式得到重視。文獻[16]提出了基于MapReduce的K-means算法,但是沒有考慮初始聚類中心的選取問題。文獻[17]提出了一種數(shù)據(jù)流計算框架,即通過將MapReduce框架中的Map操作和Reduce操作進一步拆分,并且拆分出來的操作可以自行組合,與此同時采用IPO (Input-Processor-Output)的運行模型。大大節(jié)省了數(shù)據(jù)處理的時間。
本文基于數(shù)據(jù)流的計算框架,通過上述算法思想改進K-means算法,并通過多次采樣的方法(同樣基于數(shù)據(jù)流的計算框架,將多次采樣的處理過程并行化)確定初始聚類中心。
基于數(shù)據(jù)流的改進K-means算法執(zhí)行過程如下:
(1)計算每個數(shù)據(jù)對象到k個初始聚類中心的距離,根據(jù)最近鄰原則分配到簇,定義一個結(jié)構(gòu)體{cluster[i],distance[i]},其中,cluster[i]表示第i個數(shù)據(jù)對象的類簇標簽;distance[i]表示第i個數(shù)據(jù)對象到最近中心點的距離。
令cluster[i]=j,j為對象i最近的簇標簽;
令distance[i]=d(xi,center[j]),其中,center[j]為第j個類的聚類中心,d(xi,center[j])為到最近中心點的距離。
(2)按照平均法計算各個簇的質(zhì)心,得到新的簇中心。
(3)利用式(6)計算誤差平方和V。
(6)
(4)重復如下操作
1)計算每個數(shù)據(jù)對象到新聚類中心的距離d;
①如果d≤distance[i],表示第i個數(shù)據(jù)對象仍近似的在原來的簇中,故將該數(shù)據(jù)對象分給原來的簇;
②否則將計算數(shù)據(jù)點到所有中心的距離d(xi,c[m])1≤m≤k分配到最近的簇中心,使得:distance[i]=d(xi,c[m]);cluster[i]=m;
2)更新簇中心;
3)計算誤差平方和V,判斷V是否收斂,若收斂,算法結(jié)束,輸出最終聚類結(jié)果。
上述處理過程是基于數(shù)據(jù)流的計算框架上實現(xiàn)的,將整個K-means過程看成是一個大的計算任務,而這個大的計算任務包含了若干小的計算任務,這些小的任務包括將數(shù)據(jù)對象劃分到相應的類簇中、保存相關(guān)信息、計算新的聚類中心等。
3.2 聚類算法的理論代價分析
改進的基于數(shù)據(jù)流計算框架的K-means算法在基于采樣的初始聚類中心選取過程中,采樣的樣本遠小于原始數(shù)據(jù)集,故而迭代的次數(shù)很少。當原始數(shù)據(jù)集的數(shù)據(jù)量很大時,此部分消耗的時間可以忽略;在基于數(shù)據(jù)流的計算模型中,由多個節(jié)點共同完成K-means聚類算法。假定每個節(jié)點協(xié)同完成M個任務,在進行數(shù)據(jù)分配過程時,首先將N個數(shù)據(jù)對象分配到k個簇,計算量為O(nk/M);在后續(xù)的迭代過程中,一部分數(shù)據(jù)對象仍然近似的保存在原來的簇中,另一部分被分到其他的簇里面。若仍然保存在原來的簇里面,時間復雜度為O(1),否則為O(k/M)。隨著算法的不斷收斂,簇中數(shù)據(jù)對象移動會越來越少,若移動的部分為總體數(shù)據(jù)對象的s(0≤s≤1)倍,此時時間復雜度為O(nks/M)。所以數(shù)據(jù)分配的總的時間復雜度為O(nkr/M),其中r為總的迭代次數(shù)。所以本文算法的總的時間復雜度為O(nkr/M)。
在以下的實驗中,首先給出了本文在線數(shù)據(jù)流處理效果,然后通過對比BP神經(jīng)網(wǎng)絡、貝葉斯算法的時間和預測精度驗證了本文方法的可行性和優(yōu)越性。
本文以車身點焊過程為例,在實際生產(chǎn)過程中,影響點焊過程的過程質(zhì)量參數(shù)有焊接電流、電極間電壓、動態(tài)電阻、焊接時間、熱膨脹電極位移、能量消耗、聲發(fā)射、紅外輻射的最大輻射量等,根據(jù)實際生產(chǎn)經(jīng)驗可知,點焊接頭強度是點焊質(zhì)量的重要指標,而點焊接頭的強度主要取決于點焊熔核直徑[18]。
預測模型以焊接電流(I)、電極間電壓(U)、動態(tài)電阻(R)、焊接時間(T)為輸入,以點焊熔核直徑L做為輸出,對點焊過程中的工序質(zhì)量進行預測。
不考慮故障、干擾和數(shù)據(jù)不確定的情況下,通過生產(chǎn)過程中的200組過程參數(shù)數(shù)據(jù),在PC上進行實驗,實驗硬件環(huán)境如下:Inter Core i3-4160 ,3.60GHz,4G內(nèi)存。實驗軟件平臺:MATLAB 7.6。通過MATLAB模擬一個云端,以上述200個樣本數(shù)據(jù)作為訓練集和測試集,在線部分通過模擬數(shù)據(jù)來進行進數(shù)據(jù)聚類處理,將聚類的結(jié)果作為云端模型的輸入,得出預測值。圖4為聚類效果圖,其中k=4。
圖4 聚類結(jié)果
圖5為基于數(shù)據(jù)流計算框架的K-means算法與傳統(tǒng)算法隨著數(shù)據(jù)規(guī)模的擴大而變化的圖,其中數(shù)據(jù)流計算框架的節(jié)點個數(shù)為8。由圖5可知,隨著數(shù)據(jù)量的增長,兩個算法的執(zhí)行時間都會增加;在處理相同規(guī)模的數(shù)據(jù)量,本文算法具有明顯的優(yōu)勢;而隨著數(shù)據(jù)量的增大,基于采樣的方法確定初始聚類中心的時間優(yōu)勢會越來越明顯,因為好的聚類中心能夠大大的減少算法的迭代次數(shù),而且隨著數(shù)據(jù)規(guī)模增大,一次迭代的代價也會變得越來越大。
圖5 不同算法在不同數(shù)據(jù)量之間執(zhí)行時間的對比
將上述聚類得到的結(jié)果做為GA優(yōu)化AG-ELM模型的輸入,可以得到預測的熔核直徑。同時得到了應用BP神經(jīng)網(wǎng)絡和貝葉斯方法得出的預測結(jié)果以及處理1組數(shù)據(jù)的平均處理時間,如圖6和表1所示。
圖6 部分樣本三種方法預測值與實測值對比
方法平均處理時間(ms)本文方法8BP神經(jīng)網(wǎng)絡40貝葉斯方法18
由圖6和表1我們可知,本文方法的預測平均相對誤差在5%以內(nèi),因為本文在云加端采用了AG-ELM算法,并且在線部分基于數(shù)據(jù)流的計算框架,改進K-means方法極大限度的提高了算法的效率。反觀神經(jīng)網(wǎng)絡,為了保持高精度必須經(jīng)過大幅度的訓練和測試,時間復雜度高。與貝葉斯方法相比,本文應用GA算法優(yōu)化了輸入權(quán)值和隱含層閾值,縮短了建模時間和提升了預測精度。
鑒于制造產(chǎn)品的在線質(zhì)量預測是一個非常重要的研究領(lǐng)域,并且具有廣闊的前景,而現(xiàn)有的方法不能滿足日益提升的數(shù)據(jù)量和預測的實時性要求,本文提出了一種融合云加端的制造產(chǎn)品的在線質(zhì)量預測方法。在線部分將改進的K-means方法應用于數(shù)據(jù)流框架下,完成聚類,并得到聚類中心;云加端通過龐大的歷史生產(chǎn)數(shù)據(jù),建立了基于GA優(yōu)化的AG-ELM模型。最后在線處理完的數(shù)據(jù)通過調(diào)用云加端的模型,進行質(zhì)量預測。實驗結(jié)果表明,相對其他兩種方法,本文方法具有良好的預測精度和較高的效率,能適應當前制造過程中產(chǎn)品質(zhì)量的在線預測。
[1] 姜興宇,干世杰,趙凱,等.面向網(wǎng)絡化制造的智能工序質(zhì)量控制系統(tǒng)[J].機械工程學報,2010,46(4):186-194.
[2] 徐蘭, 方志耕, 劉思峰. 基于粒子群BP神經(jīng)網(wǎng)絡的質(zhì)量預測模型[J]. 工業(yè)工程, 2012,15(4):17-20.
[3] 丁鋼堅, 張小剛. 貝葉斯分類算法應用于回轉(zhuǎn)窯燒結(jié)溫度預測模型[J]. 計算機系統(tǒng)應用, 2011,20(9):200-203.
[4] 項前, 楊建國, 程隆棣. 基于支持向量機的紗線質(zhì)量預測[J]. 紡織學報, 2008,29(4):43-46.
[5] 曾宇, 王潔, 吳錫興,等. 工業(yè)云計算平臺的研究與實踐[J]. 中國機械工程, 2012, 23(1):69-74.
[6] 侯建, 帥仁俊, 侯文. 基于云計算的海量數(shù)據(jù)存儲模型[J]. 通信技術(shù), 2011, 44(5):163-165.
[7] Zhang R,Lan Y,Huang G B,et al.Universal approximation of extreme learning machine with adaptive growth of hidden nodes[J].Neural Networks and Learning Systems,IEEE Transactions on,2012,23(2):365-371.
[8] Jun Guo,Shunsheng Guo, Xiaobing Yu.Monitoring and Diagnosis of Manufacturing Process Using Extreme Learning Machine [J]Advanced Science Letters, 2011,4:2236-2239.
[9] Malathi V, Marimuthu N S, Baskar S. Intelligent approaches using support vector machine and extreme learning machine for transmission line protection[J].Neurocomputing,2010,73(10-12):2160-2167.
[10] 邊霞, 米良. 遺傳算法理論及其應用研究進展[J]. 計算機應用研究, 2010, 27(7):2425-2429.
[11] 趙敏汝. 基于粒子群優(yōu)化的構(gòu)造性極端學習機的研究[D]. 鎮(zhèn)江:江蘇大學,2015.
[12] Han Jiawei,Kamber M.Data Mining:Concepts and Techniques[M].2nded.Beijing,China:China Machine Press.2011.
[13] Guha S, Rastogi R, Shim K. Cure: an efficient clustering algorithm for large databases[J]. Information Systems, 1998, 26(1):35-58.
[14] Na S, Liu X, Yong G. Research on K-means Clustering Algorithm: An Improved K-means Clustering Algorithm[C]// Third International Symposium on Intelligent Information Technology and Security Informatics,IEEE, 2010:63-67.
[15] 黃韜, 劉勝輝, 譚艷娜. 基于K-means聚類算法的研究[J]. 計算機技術(shù)與發(fā)展, 2011, 21(7):54-57.
[16] 江小平, 李成華, 向文,等. K-means聚類算法的MapReduce并行化實現(xiàn)[J]. 華中科技大學學報:自然科學版, 2011, 39(S1):120-124.
[17] 王飛, 秦小麟, 劉亮,等. 云環(huán)境下基于數(shù)據(jù)流的K-means聚類算法[J]. 計算機科學, 2015, 42(11):235-239.
[18] 黃德智, 王治富. 利用點焊過程中的動態(tài)電阻監(jiān)測車身焊點質(zhì)量[J]. 焊接, 2003(3):9-13.
(編輯 李秀敏)
Research on Online Quality Prediction of Manufactured Products Based on the Framework of Cloud Computing Plus Terminal Computing
TANG Xiang-hong1,2,YI Xiang-hua1a, LU Jian-guang1,2,YUAN Ning1a,LIU Guo-kai1a
(1a.Key Laboratory of Advanced Manufacturing Technology, Ministry of Education;b.School of Mechanical Engineering, Guizhou University, Guiyang 550025, China; 2.Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025, China)
According to real-time problems of online quality prediction in manufacturing,this paper proposed a framework of online quality prediction of manufactured products based on cloud computing and terminal computing. In the framework, a hidden layer node adaptive growth extreme learning machine (AG-ELM) method based on parameter optimization of the genetic algorithm (GA) is proposed and an optimized model of product quality prediction is established in cloud computing.The method of K-means is improved to cluster the online quality data stream and the sequence of clustering centers is input into the model of product quality prediction to predict the quality of the product in terminal computing.The experiment of spot welding showed that a framework of online quality prediction this paper proposed was super to BP neural network and Bayesian and could be applied to the online quality prediction of manufacturing process.
manufacturing process; online quality prediction; data stream; K-means
1001-2265(2017)05-0064-05
10.13462/j.cnki.mmtamt.2017.05.017
2016-08-06;
2016-09-18
貴州省重大科技專項(黔科合重大專項字[2013]6019,黔科合重大專項字[2012]6018);貴州省基礎(chǔ)研究重大項目(黔科合JZ字[2014]2001)
唐向紅(1979—),男,湖南永州人,貴州大學副教授,碩十研究生導師,研究方向為實時數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)挖掘,(E-mail)txhwuhan@ 163.com。
TH164;TG506
A