陳少達(dá),夏士雄,王志曉
(中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 徐州221116)
國(guó)內(nèi)外對(duì)礦井提升機(jī)的故障診斷技術(shù)方法[1,2]主要分為3類(lèi),分別是基于解析模型、基于信號(hào)處理和基于智能技術(shù)與知識(shí)[3]。譜聚類(lèi)[4]是這些方法中的一個(gè)重要分支,其通過(guò)分析一個(gè)與故障數(shù)據(jù)集相關(guān)的矩陣的特征向量和特征值來(lái)得到故障診斷結(jié)果。譜聚類(lèi)方法具有很多優(yōu)點(diǎn),如,僅與數(shù)據(jù)點(diǎn)的數(shù)目有關(guān),而與數(shù)據(jù)對(duì)象的維數(shù)無(wú)關(guān),可以避免由于特征向量的過(guò)高維數(shù)所造成的奇異性問(wèn)題。另外,譜聚類(lèi)不對(duì)數(shù)據(jù)的全局結(jié)構(gòu)作假設(shè),可以避免“局部最優(yōu)”的問(wèn)題[5]。
傳統(tǒng)譜聚類(lèi)存在一些缺陷與不足,比如,需要人為確定聚類(lèi)數(shù)目,對(duì)初始聚類(lèi)中心敏感和魯棒性較差等。譜聚類(lèi)采用的節(jié)點(diǎn)矩陣主要有兩大類(lèi),分別是Laplace矩陣和Normal矩陣。在基于Laplace矩陣進(jìn)行故障診斷時(shí),無(wú)法知道故障數(shù)據(jù)能劃分為多少類(lèi),需要事先人為設(shè)置k 值和初始聚類(lèi)中心點(diǎn)。Normal矩陣在一定程度上解決了該問(wèn)題:Normal矩陣是半正定矩陣,存在k-1個(gè)與其最大特征值1相近的非平凡特征值 (非平凡特征值是值不為1的特征值),且這k-1個(gè)特征值所對(duì)應(yīng)的特征向量的元素呈現(xiàn)階梯分布,為故障診斷提供了數(shù)目依據(jù),階梯數(shù)即為故障種類(lèi)數(shù)t。但是,當(dāng)提升機(jī)故障分類(lèi)不明顯時(shí),Normal矩陣的這k-1個(gè)特征向量就不會(huì)呈現(xiàn)十分明顯的階梯狀,而是接近一條連續(xù)曲線[6],此時(shí)無(wú)法通過(guò)階梯數(shù)目判斷該故障種類(lèi)數(shù)k。
數(shù)據(jù)場(chǎng)模型[7]作為一種描述數(shù)據(jù)對(duì)象間的非接觸相互作用的數(shù)學(xué)模型,能夠很好地揭示數(shù)據(jù)對(duì)象的聚類(lèi)特性。提升機(jī)故障數(shù)據(jù)間并不孤立,而是存在相互的作用與聯(lián)系。本文將數(shù)據(jù)場(chǎng)模型引入到譜聚類(lèi)方法中,利用數(shù)據(jù)場(chǎng)模型剔除孤立數(shù)據(jù)點(diǎn),并借助數(shù)據(jù)場(chǎng)模型判斷譜聚類(lèi)算法的k值和初始聚類(lèi)中心點(diǎn),最后利用K-means聚類(lèi)算法進(jìn)行聚類(lèi)劃分。對(duì)UCI數(shù)據(jù)集和提升機(jī)軸承故障數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,將譜聚類(lèi)與數(shù)據(jù)場(chǎng)結(jié)合能夠有效提高提升機(jī)故障診斷的性能。
場(chǎng)作為物體非接觸相互作用所需的介質(zhì)最早由英國(guó)物理學(xué)家法拉第在電磁學(xué)研究中提出。場(chǎng)可以描述物體在空間中的分布狀況,通過(guò)量化物體間的空間分布和變化規(guī)律,得到物體間的作用關(guān)系。同樣在數(shù)據(jù)挖掘研究中,大量的數(shù)據(jù)之間存在著非直接的聯(lián)系,可以通過(guò)將數(shù)據(jù)抽象成數(shù)域空間,從而建立關(guān)于數(shù)據(jù)的場(chǎng),應(yīng)用物理學(xué)中場(chǎng)理論和研究方法,對(duì)場(chǎng)中的數(shù)據(jù)進(jìn)行科學(xué)分析與研究,這種建立起來(lái)的關(guān)于數(shù)據(jù)的場(chǎng)就叫做數(shù)據(jù)場(chǎng)[8]。大量的數(shù)據(jù)場(chǎng)的研究與實(shí)驗(yàn)結(jié)果表明數(shù)據(jù)場(chǎng)理論在處理數(shù)據(jù)之間的相互聯(lián)系上有著非常好的效果,目前數(shù)據(jù)場(chǎng)被應(yīng)用于大量的數(shù)據(jù)挖掘?qū)W科研究中,比如人臉識(shí)別[9]、層次聚類(lèi)、傳感器網(wǎng)絡(luò)路由[10]等領(lǐng)域。
提升機(jī)故障數(shù)據(jù)間并不孤立,而是存在相互的作用與聯(lián)系。數(shù)據(jù)場(chǎng)模型作為一種描述數(shù)據(jù)對(duì)象間的非接觸相互作用的數(shù)學(xué)模型,能夠很好地揭示提升機(jī)故障數(shù)據(jù)對(duì)象間的聚類(lèi)特性。因此,本文將數(shù)據(jù)場(chǎng)模型引入到提升機(jī)故障數(shù)據(jù)中,利用數(shù)據(jù)場(chǎng)模型刻畫(huà)故障數(shù)據(jù)間的相互作用與聯(lián)系??梢詮膭?shì)、梯度和場(chǎng)強(qiáng)等多個(gè)角度描述數(shù)據(jù)場(chǎng)。
定義 已知空間Ω 中包含數(shù)據(jù)集D ={x1,x2,…,xn}及其產(chǎn)生的數(shù)據(jù)場(chǎng),其中n為數(shù)據(jù)集D 的個(gè)數(shù),令數(shù)據(jù)對(duì)象的位置矢量為x1,x2,…,xn,則任一場(chǎng)點(diǎn)x點(diǎn)處的勢(shì)值可表示為
影響因子對(duì)于任一場(chǎng)點(diǎn)的勢(shì)值有著直接的影響。在式(1)中若δ值很小時(shí),那么e的指數(shù)就會(huì)非常的小,從而每一個(gè)點(diǎn)的勢(shì)值都會(huì)很小,得到的勢(shì)值和就會(huì)很小。反之,若δ值很大,那么e的指數(shù)就會(huì)相對(duì)較大,得到的勢(shì)值也會(huì)較大。因此,需要選擇合適的影響因子δ,使數(shù)據(jù)場(chǎng)的勢(shì)值分布真正體現(xiàn)語(yǔ)義的內(nèi)在分布。影響因子優(yōu)選勢(shì)熵法[11]。
針對(duì)譜聚類(lèi)算法存在的問(wèn)題與不足,本文將數(shù)據(jù)場(chǎng)模型引入到譜聚類(lèi)方法中,利用數(shù)據(jù)場(chǎng)模型剔除孤立數(shù)據(jù)點(diǎn),并借助數(shù)據(jù)場(chǎng)模型判斷譜聚類(lèi)算法的k 值和初始聚類(lèi)中心點(diǎn),最后利用K-means聚類(lèi)算法進(jìn)行聚類(lèi)劃分。
孤立點(diǎn)指數(shù)據(jù)集中與其它數(shù)據(jù)對(duì)象有較大不同的對(duì)象,或是那些顯著偏離其它數(shù)據(jù)的對(duì)象。本文給定一個(gè)閾值(經(jīng)過(guò)多次實(shí)驗(yàn)得出),孤立點(diǎn)可定義為在給定閾值范圍內(nèi)勢(shì)值最小的數(shù)據(jù)點(diǎn)。孤立點(diǎn)檢測(cè)的具體過(guò)程就是計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的勢(shì),并選擇最小勢(shì)的數(shù)據(jù)點(diǎn),如果該數(shù)據(jù)點(diǎn)滿(mǎn)足孤立點(diǎn)條件,將其作為一個(gè)孤立點(diǎn),標(biāo)記剔除。具體算法如下:
輸入:數(shù)據(jù)集Xm=(x1,x2,…,xm)
輸出:孤立點(diǎn)集合
步驟:
(1)依據(jù)數(shù)據(jù)集Xm=(x1,x2,…,xm)構(gòu)建數(shù)據(jù)場(chǎng);
(2)根據(jù)式 (1)計(jì)算數(shù)據(jù)場(chǎng)內(nèi)各點(diǎn)勢(shì)值;
(3)找出勢(shì)值最小的數(shù)據(jù)點(diǎn),將它從數(shù)據(jù)集Xm=(x1,x2,…,xm)中剔除,存入孤立點(diǎn)集合;
(4)重復(fù)上述步驟直至找出所有孤立點(diǎn)。
數(shù)據(jù)場(chǎng)能夠合理、客觀地展示數(shù)據(jù)對(duì)象間相互影響和相互作用,勢(shì)值是空間中所有數(shù)據(jù)對(duì)象作用力的疊加,全面體現(xiàn)了數(shù)據(jù)對(duì)象在整個(gè)數(shù)據(jù)空間的重要程度,其勢(shì)心更好地表達(dá)了數(shù)據(jù)對(duì)象的重心位置,通常稱(chēng)勢(shì)心為 “準(zhǔn)數(shù)據(jù)中心”。通過(guò)計(jì)算出故障數(shù)據(jù)的勢(shì)心,即可得出聚類(lèi)個(gè)數(shù)k及初始聚類(lèi)中心,從而自動(dòng)確定了聚類(lèi)分組數(shù)。在剔除孤立點(diǎn)之后,在剩下的數(shù)據(jù)集中確定聚類(lèi)個(gè)數(shù)k 及初始聚類(lèi)中心,其算法流程如下:
輸入:剔除孤立點(diǎn)后的數(shù)據(jù)集Xn=(x1,x2,…,xn)
輸出:聚類(lèi)個(gè)數(shù)k及初始聚類(lèi)中心集合
步驟:
(1)依據(jù)數(shù)據(jù)集Xn=(x1,x2,…,xn)構(gòu)建數(shù)據(jù)場(chǎng);
(2)根據(jù)式 (1)計(jì)算出每個(gè)數(shù)據(jù)對(duì)象的勢(shì)值,存入勢(shì)值矩陣F;
(3)利用Hesse矩陣的特征值確定局部極大值,確定聚類(lèi)個(gè)數(shù)k及初始聚類(lèi)中心。
基于改進(jìn)譜聚類(lèi)的提升機(jī)故障診斷算法主要步驟如下:
(1)對(duì) 數(shù) 據(jù) 集Xn=(x1,x2,…,xn)構(gòu) 建 相 似 度 矩 陣W ∈Rn×n,其中Wij=exp(-d(xi,xj/2δ2)),i≠j;
(2)構(gòu)造Laplacian矩陣L=D-1/2WD-1/2,其中Dij=Wij,D 為對(duì)角矩陣;
(3)根據(jù)2.2節(jié)給定的算法計(jì)算出聚類(lèi)數(shù)目k 及初始聚類(lèi)中心集合C =(c1,c2,…,ck);
(4)分別計(jì)算出Laplacian 矩陣L 的特征值和特征向量,選取特征值中最大的k個(gè)值對(duì)應(yīng)的特征向量z1,z2,…,zn,構(gòu)造矩陣Z =[z1,z2,…,zk]∈Rn×k;
(6)將矩陣Y 中的每一行視為Rn×k中的一個(gè)樣本,使用步驟 (3)得出的初始聚類(lèi)中心集合C=(c1,c2,…,ck)賦予K-means算法的初始聚類(lèi),然后對(duì)其進(jìn)行聚類(lèi),將其劃分為k類(lèi);
(7)將初始樣本點(diǎn)xi劃分為第j 類(lèi),當(dāng)且僅當(dāng)矩陣Y的第i行被劃分到聚類(lèi)j 中。
為驗(yàn)證改進(jìn)算法的有效性,本文選取UCI數(shù)據(jù)和提升機(jī)軸承故障數(shù)據(jù)進(jìn)行測(cè)試。本文利用上述數(shù)據(jù)集對(duì)比了3種算法的性能,這3種算法分別是:經(jīng)典的K-means算法、傳統(tǒng)譜聚類(lèi)算法 (NJW)和本文提出的改進(jìn)譜聚類(lèi)算法(NJW-Fields)進(jìn)行測(cè)試比較。本文實(shí)驗(yàn)環(huán)境為:處理器2.94GHz,內(nèi)存3GB,硬盤(pán)320GB,操作系統(tǒng)Windows 7,編譯環(huán)境為matlab7.0,所得出的實(shí)驗(yàn)結(jié)果為每個(gè)算法運(yùn)行30次取得的平均值。本文以F-measure作為評(píng)價(jià)指標(biāo)。
Iris數(shù)據(jù)集可劃分為3個(gè)類(lèi),每類(lèi)50個(gè)數(shù)據(jù),每個(gè)類(lèi)別代表一種類(lèi)型鳶尾花,150 個(gè)樣本在3 個(gè)類(lèi)簇中分布均勻。Wine數(shù)據(jù)集具有良好的聚類(lèi)結(jié)構(gòu),包含178 個(gè)樣本,13個(gè)數(shù)值型特征,可聚為3 個(gè)類(lèi),每一類(lèi)樣本數(shù)量不同。Zoo數(shù)據(jù)集共有101個(gè)樣本數(shù)據(jù),可劃分為7類(lèi)。
圖1為3種算法在Iris數(shù)據(jù)集上的每個(gè)聚類(lèi)結(jié)果的Fscore曲線圖,可以看出在Iris數(shù)據(jù)集上,傳統(tǒng)NJW 算法在第二類(lèi)聚類(lèi)結(jié)果比K-means算法好,但是其第三類(lèi)聚類(lèi)結(jié)果比K-means算法稍差,然而本文提出的NJW-Fields算法在3個(gè)聚類(lèi)結(jié)果都好于或等于其它兩個(gè)算法的聚類(lèi)結(jié)果。
圖1 Iris數(shù)據(jù)集聚類(lèi)F-score值
圖2為3種算法在Wine數(shù)據(jù)集上的每個(gè)聚類(lèi)結(jié)果的F-score曲線圖,可以看出在Iris數(shù)據(jù)集上,傳統(tǒng)NJW 算法每一個(gè)聚類(lèi)結(jié)果均比K-means算法結(jié)果好,本文提出的算法的聚類(lèi)結(jié)果好于傳統(tǒng)NJW 算法聚類(lèi)結(jié)果,說(shuō)明本文提出的NJW-Fields算法在具有良好聚類(lèi)結(jié)構(gòu)的數(shù)據(jù)集上聚類(lèi)結(jié)果的效果明顯。
圖2 Wine數(shù)據(jù)集聚類(lèi)F-score值
圖3為3種算法在Zoo數(shù)據(jù)集上的每個(gè)聚類(lèi)結(jié)果的Fscore曲線圖。可以看出,由于Zoo數(shù)據(jù)集元素線性不可分的關(guān)系,K-means算法聚類(lèi)結(jié)果在第3 類(lèi)和第7 類(lèi)聚類(lèi)結(jié)果效果都比較差,NJW 算法也在第3 類(lèi)聚類(lèi)結(jié)果表現(xiàn)較差,兩種算法在其它聚類(lèi)上的效果也不明顯。相反,本文提出的NJW-Fields算法在各類(lèi)別的聚類(lèi)效果較為均勻,總體聚類(lèi)結(jié)果的效果也較為明顯。
圖3 Zoo數(shù)據(jù)集聚類(lèi)F-score值
表1為K-means算法、NJW 算法和本文提出的NJWFields算法的MacroF1 值,可以看出本文的算法由于事先為最終的聚類(lèi)算法自動(dòng)指定了k 值和k 個(gè)聚類(lèi)中心,在3種數(shù)據(jù)集上的聚類(lèi)結(jié)果都好于其它兩種算法的聚類(lèi)結(jié)果。
表2為K-means算法、NJW 算法和本文提出的NJWFields算法在多次運(yùn)行過(guò)程中,取得的平均運(yùn)行時(shí)間的比較,可以看出在聚類(lèi)過(guò)程中K-means算法消耗的時(shí)間最多,而NJW 算法由于構(gòu)建了Laplace矩陣,并且取前k 個(gè)向量作為聚類(lèi)數(shù)據(jù)集,從而加快了算法的運(yùn)行速度,其運(yùn)行時(shí)間較短。本文的NJW-Fields算法由于事先將初始聚類(lèi)中心點(diǎn)給予了聚類(lèi)算法,使得本算法在運(yùn)行時(shí)間大大縮短,明顯快于前兩種算法的程序運(yùn)行時(shí)間。
表1 3種算法在3種數(shù)據(jù)集MacroF1比較
表2 3種算法在3種數(shù)據(jù)集上運(yùn)行的時(shí)間比較
本文搜集了部分提升機(jī)軸承故障樣本,樣本數(shù)據(jù)經(jīng)過(guò)一定預(yù)處理,選取其中的典型數(shù)據(jù)建立故障樣本數(shù)據(jù)集。每類(lèi)故障有1630個(gè)樣本數(shù)據(jù),每個(gè)樣本數(shù)據(jù)含10個(gè)信號(hào)特征,共有5類(lèi)故障。部分故障數(shù)據(jù)見(jiàn)表3。
將提升機(jī)故障信號(hào)數(shù)據(jù)分別導(dǎo)入K-means算法、NJW算法、NJW-Fields算法所實(shí)現(xiàn)的程序中,得出3種算法的運(yùn)行時(shí)間和MacroF1值對(duì)比表格,見(jiàn)表4、表5。
表4 3種算法運(yùn)行時(shí)間對(duì)比
表5 3種算法MacroF1值對(duì)比
表4為提升機(jī)軸承故障數(shù)據(jù)集分別在K-means算法、NJW 算法、NJW-Fields算法程序上運(yùn)行統(tǒng)計(jì)的時(shí)間,可以看出,K-means 算法速度最慢,NJW 算法其次,本文NJW-Fields算法在3種算法中運(yùn)行時(shí)間最短。
表5為提升機(jī)軸承故障數(shù)據(jù)集分別在K-means算法、NJW 算法、NJW-Fields算法得出的F-measure綜合值,可以看出,K-means算法得分最低,為0.5728,NJW 算法其次,得分為0.6183,本文NJW-Fields算法在3種算法中得分最高,為0.6571,根據(jù)F-measure得分越高,算法的效果越好的特性,可得出本文提出的NJW-Fields算法較其它兩種算法效果都較好。
礦井提升機(jī)一旦發(fā)生故障,便會(huì)造成巨大的人力和財(cái)力損失。礦井提升機(jī)故障診斷對(duì)煤礦安全生產(chǎn)至關(guān)重要。提升機(jī)故障診斷方法有很多,譜聚類(lèi)是一種典型方法。傳統(tǒng)譜聚類(lèi)需要人為地確定聚類(lèi)數(shù)目,對(duì)初始聚類(lèi)中心敏感,且魯棒性較差。
本文將數(shù)據(jù)場(chǎng)模型引入到譜聚類(lèi)方法中,借助數(shù)據(jù)場(chǎng)模型的優(yōu)點(diǎn)改善譜聚類(lèi)算法存在的缺陷與不足,提高故障診斷的性能。改進(jìn)的譜聚類(lèi)算法利用數(shù)據(jù)場(chǎng)模型剔除孤立數(shù)據(jù)點(diǎn),并借助數(shù)據(jù)場(chǎng)模型判斷譜聚類(lèi)算法的k 值和初始聚類(lèi)中心點(diǎn),最后利用K-means聚類(lèi)算法進(jìn)行聚類(lèi)劃分。對(duì)UCI數(shù)據(jù)集和提升機(jī)軸承故障數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,將譜聚類(lèi)與數(shù)據(jù)場(chǎng)結(jié)合能夠有效提高提升機(jī)故障診斷的性能。
[1]WANG Zhiping.Fault diagnosis and repair technology of coal mining machinery and equipment[J].Coal Technology,2013,32(8):246-247(in Chinese).[王智萍.煤礦機(jī)械設(shè)備的故障診斷及維修技術(shù)探析[J].煤炭技術(shù),2013,32 (8):246-247.]
[2]ZHOU Decai,XIA Shixiong,WANG Zhixiao.Improved fault diagnosis based on the mean C [J].Microelectronics & Computer,2012,29 (11):120-122 (in Chinese). [周德財(cái),夏士雄,王志曉.基于改進(jìn)C均值的故障診斷 [J].微電子學(xué)與計(jì)算機(jī),2012,29 (11):120-122].
[3]NIU Qiang.Fault diagnosis of mine hoist semantic environment[D].Xuzhou:China University of Mining,2010 (in Chinese).[牛強(qiáng).語(yǔ)義環(huán)境下的礦井提升機(jī)故障診斷研究 [D].徐州:中國(guó)礦業(yè)大學(xué),2010].
[4]ZHANG Yan,TANG Baoping,DENG Lei.Mechanical fault diagnosis spectral clustering initialization based NMF [J].Journal of Scientific Instrument,2013,34 (12):2806-2811(in Chinese).[張炎,湯寶平,鄧?yán)?基于譜聚類(lèi)初始化非負(fù)矩陣分解的機(jī)械故障診斷 [J].儀器儀表學(xué)報(bào),2013,34(12):2806-2811.]
[5]WANG Na,DU Haifeng,ZHUANG Jian,et al.For troubleshooting network segmentation spectral clustering method [J].Mechanical Engineering,2008,44 (10):228-233 (in Chinese).[王娜,杜海峰,莊健,等.用于故障診斷的網(wǎng)絡(luò)分割譜聚類(lèi)方法 [J].機(jī)械工程學(xué)報(bào),2008,44 (10):228-233].
[6]FU Chuanyi,XING Jieqing,CHEN Huandong.Spectral clustering and its research progress [C]//Seventh International Conference on Computational Intelligence and Security,2011.
[7]GAN Wenyan,HE Nan,LI Deyi,et al.Based topology discovery potential of online communities [J].Journal of Software,2009,20 (8):258-262 (in Chinese).[淦文燕,赫南,李德毅,等.一種基于拓?fù)鋭?shì)的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法 [J].軟件學(xué)報(bào),2009,20 (8):258-262.]
[8]LI Deyi.The era of artificial intelligence research and development network [J].Intelligent Systems,2009,4 (1):1-6(in Chinese).[李德毅.網(wǎng)絡(luò)時(shí)代人工智能研究與發(fā)展 [J].智能系統(tǒng)學(xué)報(bào),2009,4 (1):1-6.]
[9]WANG Shuliang,ZOU Shanshan.Face recognition method utilizing expression data field[J].Wuhan University(Information Science Edition),2010,35 (6):738-742 (in Chinese). [王樹(shù)良,鄒珊珊.利用數(shù)據(jù)場(chǎng)的表情臉識(shí)別方法 [J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,35 (6):738-742.]
[10]GUO Liang,ZHU Yi’an,CHI Wenming.Wireless sensor network routing hops protocol based on data field [J].Intelligent Instrumentation and Sensors,2010,18 (5):1214-1216(in Chinese).[郭亮,朱怡安,遲文明.基于跳數(shù)數(shù)據(jù)場(chǎng)的無(wú)線傳感器網(wǎng)絡(luò)路由協(xié)議研究 [J].智能儀表與傳感器,2010,18 (5):1214-1216.]
[11]LI Deyi.Uncertainty artificial intelligence[M].Beijing:Defense Industry Press,2005 (in Chinese). [李德毅.不確定性人工智能 [M].北京:國(guó)防工業(yè)出版社,2005].