徐德剛 徐戲陽(yáng) 陳曉 趙盼磊 蘇志芳 謝永芳 陽(yáng)春華
摘要:針對(duì)一致聚類(lèi)算法中聚類(lèi)數(shù)目判斷不準(zhǔn)確、聚類(lèi)速度慢等問(wèn)題,通過(guò)集成復(fù)雜網(wǎng)絡(luò)中的Newman貪婪算法與譜聚類(lèi)算法,提出了一種新的基于Minkowski距離的一致聚類(lèi)算法。該算法利用Minkowski距離刻畫(huà)樣本間的相似度,根據(jù)隨機(jī)游走策略,結(jié)合不同數(shù)據(jù)的特征值分布分析方法進(jìn)行聚類(lèi),實(shí)現(xiàn)聚類(lèi)數(shù)目的自動(dòng)識(shí)別。實(shí)驗(yàn)仿真說(shuō)明算法具有較少的運(yùn)算時(shí)間及較高的聚類(lèi)精度。結(jié)合實(shí)際銅礦泡沫浮選過(guò)程特點(diǎn),將該算法應(yīng)用于浮選工況分類(lèi),進(jìn)一步驗(yàn)證了算法的有效性。
關(guān)鍵詞:一致聚類(lèi);Minkowski距離;一致矩陣;聚類(lèi)數(shù)目;工況識(shí)別
中圖分類(lèi)號(hào):TP273 文獻(xiàn)標(biāo)識(shí)碼:A
聚類(lèi)分析作為一種有效的數(shù)據(jù)處理方法,在復(fù)雜工業(yè)工程中得到了廣泛關(guān)注。近年來(lái)涌現(xiàn)出了多種聚類(lèi)分析方法,包括層次聚類(lèi)算法、劃分式聚類(lèi)算法(如K-modes-Huang算法等)、基于網(wǎng)格和密度的聚類(lèi)算法(如網(wǎng)格密度等值線(xiàn)聚類(lèi)算法、基于移位網(wǎng)格概念的密度和網(wǎng)格的聚類(lèi)算法SGCE)等。這些聚類(lèi)方法在多個(gè)領(lǐng)域得到廣泛應(yīng)用,其理論也得到不斷的豐富和發(fā)展。
但是對(duì)不同結(jié)構(gòu)特征的數(shù)據(jù)進(jìn)行聚類(lèi)分析時(shí),現(xiàn)有的聚類(lèi)方法遇到了難題,如相似度矩陣的選取問(wèn)題、聚類(lèi)數(shù)目的自動(dòng)確定等。而一致聚類(lèi)方法的提出,成為解決聚類(lèi)問(wèn)題的一種重要分析方法。該方法也稱(chēng)作聚類(lèi)集成或劃分算法,即針對(duì)某一特定的數(shù)據(jù)獲得多種數(shù)目的不同聚類(lèi)結(jié)果,并從中選取最能反映聚類(lèi)信息的類(lèi)別。在確定聚類(lèi)數(shù)目方面,一致聚類(lèi)方法具有特色,并為基因微陣數(shù)據(jù)、文本數(shù)據(jù)等聚類(lèi)問(wèn)題的解決提供了很好的思路。由于聚類(lèi)過(guò)程中聚類(lèi)數(shù)目的判斷標(biāo)準(zhǔn)不盡相同,適用的領(lǐng)域也不同,其中最具有代表性的兩種一致聚類(lèi)方法是結(jié)合重采樣或交叉驗(yàn)證等技術(shù)的一致聚類(lèi)方法和基于迭代的一致聚類(lèi)方法。但這兩種一致聚類(lèi)算法也存在聚類(lèi)數(shù)目識(shí)別不準(zhǔn)確等問(wèn)題,主要是源于其重采樣方法中最優(yōu)的采樣次數(shù)及迭代方法中的迭代次數(shù)不能有效且最優(yōu)設(shè)定。
本文提出了一種新的基于Minkowski距離的一致聚類(lèi)分析方法,充分利用數(shù)據(jù)特征分布特點(diǎn),自動(dòng)識(shí)別聚類(lèi)的數(shù)目,從而解決一致聚類(lèi)中數(shù)目不能自動(dòng)設(shè)定的問(wèn)題。通過(guò)Minkowski距離優(yōu)化調(diào)節(jié)一致矩陣參數(shù),能夠在不同的度量下獲得有效的聚類(lèi)結(jié)果,且由于算法本身機(jī)制集成了多種聚類(lèi)算法,該法還具備一定的魯棒性。仿真結(jié)果表明本文算法在聚類(lèi)數(shù)目的確定精度和準(zhǔn)確度上優(yōu)于其他一致聚類(lèi)算法。
當(dāng)前銅礦泡沫浮選過(guò)程生產(chǎn)環(huán)境惡劣且長(zhǎng)期依靠人工肉眼現(xiàn)場(chǎng)監(jiān)測(cè),受到工人主觀經(jīng)驗(yàn)影響,易導(dǎo)致浮選工況操作波動(dòng)異常,引起浮選藥劑等資源和能源的浪費(fèi)。隨著計(jì)算機(jī)技術(shù)、圖像處理技術(shù)、智能控制等領(lǐng)域的迅速發(fā)展,機(jī)器視覺(jué)技術(shù)在礦物泡沫浮選領(lǐng)域得到越來(lái)越廣泛的應(yīng)用,為浮選生產(chǎn)過(guò)程提供豐富的實(shí)時(shí)監(jiān)控信息。
通過(guò)視覺(jué)圖像系統(tǒng)及液位、壓力等工藝參數(shù)傳感器測(cè)量,浮選生產(chǎn)現(xiàn)場(chǎng)積累了大量反映礦物生產(chǎn)狀態(tài)的泡沫圖像數(shù)據(jù)和生產(chǎn)操作信息,如何有效地分析和利用這些數(shù)據(jù)對(duì)浮選過(guò)程工況的分類(lèi)、識(shí)別及過(guò)程調(diào)控具有重要意義。為此,本文提出了基于Minkowski距離的一致聚類(lèi)分析方法,并應(yīng)用到銅礦泡沫浮選過(guò)程工況的判別,取得了較好的聚類(lèi)效果,有助于實(shí)現(xiàn)生產(chǎn)實(shí)時(shí)工況的自動(dòng)判別。
1 一致聚類(lèi)方法
常規(guī)聚類(lèi)分析過(guò)程中,由于單一的聚類(lèi)算法無(wú)法獲得對(duì)所有數(shù)據(jù)的最優(yōu)聚類(lèi)結(jié)果,融合多種聚類(lèi)算法的一致聚類(lèi)方法引起研究人員的關(guān)注。一致聚類(lèi)具體算法流程如圖1所示。
利用聚類(lèi)算法集成的一致聚類(lèi)方法的出發(fā)點(diǎn)主要通過(guò)進(jìn)行多次采樣或結(jié)合多種聚類(lèi)算法對(duì)數(shù)據(jù)進(jìn)行分析,獲得反映數(shù)據(jù)類(lèi)別信息的一致矩陣,從而進(jìn)行數(shù)據(jù)的劃分。一致聚類(lèi)算法已在基因數(shù)據(jù)分析及文本聚類(lèi)分析等應(yīng)用中取得了較好的效果。當(dāng)前一致聚類(lèi)主要有兩類(lèi)算法:基于重采樣的一致聚類(lèi)方法和基于迭代的一致聚類(lèi)分析方法。
1.1 基于重采樣的一致聚類(lèi)方法
基于重采樣的一致聚類(lèi)算法輸入樣本數(shù)據(jù)為D={e1,e2,…,eN},聚類(lèi)方法采用譜聚類(lèi)方法,一般把重采樣分段采樣比例設(shè)為80%,采樣次數(shù)為H,聚類(lèi)數(shù)目集合為K={k1,k2,…,kj}(j=length(K),即設(shè)定聚類(lèi)數(shù)目序列長(zhǎng)度),輸出為聚類(lèi)數(shù)目集合D,一致矩陣為M。基于重采樣的一致聚類(lèi)算法流程如下所示:
結(jié)合重采樣或交叉驗(yàn)證等技術(shù)來(lái)模擬原始數(shù)據(jù)的擾動(dòng),該法是通過(guò)多次運(yùn)行某一聚類(lèi)算法(例如隨機(jī)選取起始點(diǎn)的K-means或基于模型的貝葉斯聚類(lèi)方法等)來(lái)獲得類(lèi)別穩(wěn)定性,提供了一種可視化的途徑來(lái)觀察類(lèi)別數(shù)目、類(lèi)別成員以及類(lèi)別邊界等信息。
大量實(shí)驗(yàn)表明,盡管該方法適合基因表達(dá)數(shù)據(jù)的聚類(lèi),但對(duì)其他類(lèi)別聚類(lèi)效果不佳,其原因?yàn)椋褐夭蓸与S機(jī)采樣大部分樣本,采樣次數(shù)以及采樣比例對(duì)算法影響大;基于重采樣的一致聚類(lèi)分析方法中確定聚類(lèi)數(shù)目的準(zhǔn)則不統(tǒng)一,算法中△(k)為不同聚類(lèi)數(shù)目下CDF曲線(xiàn)與橫軸包圍面積的變化量,其最大值對(duì)應(yīng)最終的聚類(lèi)數(shù)目,將△(k)變化值作為判斷聚類(lèi)數(shù)目的標(biāo)準(zhǔn)不確定。針對(duì)這些問(wèn)題,一些學(xué)者提出了基于迭代的一致聚類(lèi)方法。
1.2 基于迭代的一致聚類(lèi)分析方法
該方法遵循一致聚類(lèi)方法的基本思路,不同之處在于不需要對(duì)樣本進(jìn)行重采樣,而是利用了多種聚類(lèi)算法分別對(duì)同一樣本數(shù)據(jù)進(jìn)行聚類(lèi),獲得一致矩陣,并通過(guò)將隨機(jī)游走的策略引入一致矩陣的分析中,獲得了概率轉(zhuǎn)移矩陣,然后通過(guò)分析概率轉(zhuǎn)移矩陣的特征值進(jìn)而確定聚類(lèi)的數(shù)目。如果矩陣特征值不能明顯反映聚類(lèi)信息,則將一致矩陣代替相似度矩陣進(jìn)行多次迭代,最終獲得能夠反映聚類(lèi)數(shù)目的特征值分布。該法采用多種聚類(lèi)算法,克服了僅采用一種聚類(lèi)算法的局限性,但仍存在缺陷,包括迭代的次數(shù)及迭代終止的條件不明確性,相似度矩陣的確定方法單一,僅依賴(lài)高斯距離公式進(jìn)行標(biāo)度等問(wèn)題。
針對(duì)上述兩類(lèi)聚類(lèi)方法存在的問(wèn)題,本文通過(guò)分析這兩類(lèi)方法的特點(diǎn),提出了基于Minkowski距離的一致聚類(lèi)分析方法,有效地避免多次迭代,能較準(zhǔn)確地獲得聚類(lèi)數(shù)目信息。
2 基于Minkowski距離的一致聚類(lèi)算法(CCBM)
本文提出了一種基于Minkowski距離的一致聚類(lèi)數(shù)目自動(dòng)識(shí)別為核心算法的一致聚類(lèi)方法(CCBM-consensusclusteringbasedMinkowskidis-tance)。該方法集成多種聚類(lèi)算法,與以上兩種一致聚類(lèi)方法不同之處在于相似度矩陣的構(gòu)建及聚類(lèi)算法的選擇上。為了克服重采樣、迭代方法采樣數(shù)目和迭代次數(shù)不能有效的最優(yōu)確定等缺點(diǎn),考慮到Minkowski距離公式能夠準(zhǔn)確刻畫(huà)數(shù)據(jù)大范圍的相似度量信息,本文方法采用Minkowski距離對(duì)輸入數(shù)據(jù)進(jìn)行了不同的度量,從而完成參數(shù)設(shè)定并對(duì)相似度矩陣進(jìn)行一致聚類(lèi),并確定最能反映聚類(lèi)信息的相似度度量,不需要迭代即能較準(zhǔn)確獲得聚類(lèi)數(shù)目信息。下面詳細(xì)說(shuō)明本文所提出的方法算法流程,如圖2所示。
2.1 Minkowski距離函數(shù)的設(shè)定
相對(duì)于常規(guī)的歐式距離或高斯距離,本文采用Minkowski距離公式,如式(1)-式(2)。其中,x和y為n維樣本點(diǎn),p和?為距離調(diào)整參數(shù)。當(dāng)p取1時(shí),式(1)為曼哈頓距離,刻畫(huà)的是數(shù)據(jù)i與j橫縱坐標(biāo)差值的絕對(duì)值之和;當(dāng)p取2時(shí),式(1)為歐式距離,刻畫(huà)的是數(shù)據(jù)i與。j的最短距離,即對(duì)角線(xiàn)距離;當(dāng)p取無(wú)窮大時(shí),式(1)為切比雪夫距離,刻畫(huà)的是數(shù)據(jù)i與j在某維度上的最大差值;p也可取其他值(如p=0.5,0.1等小于1的數(shù))。不同p值構(gòu)建的Minkowski距離,利用算法分析會(huì)產(chǎn)生不同的聚類(lèi)效果。式(2)中a為可調(diào)參數(shù),通過(guò)調(diào)整p值及?值,該距離公式能夠從不同角度反映數(shù)據(jù)(主要是聲值影響)的相似度信息。
本文設(shè)定3種不同的p值(p分別取1,2,3)及5類(lèi)不同?值(?分別取0.1,0.2,0.5,0.8,0.9),通過(guò)公式(1)-(2)獲得不同相似度矩陣的構(gòu)建(共15種),并對(duì)其進(jìn)行聚類(lèi)分析。由于以上構(gòu)建的15種距離能夠較全面地刻畫(huà)數(shù)據(jù)間不同角度的相似信息,因此可以結(jié)合矩陣特征值分析方法,獲得數(shù)據(jù)不同的特征值分布,為獲得數(shù)據(jù)的聚類(lèi)數(shù)目信息提供依據(jù)。
2.2 聚類(lèi)算法的集成
聚類(lèi)算法的集成需要考慮不同聚類(lèi)算法的特點(diǎn),選擇合適的聚類(lèi)算法對(duì)一致聚類(lèi)算法的有效集成至關(guān)重要。譜聚類(lèi)算法作為劃分式聚類(lèi)算法之一,能夠在任意形狀的樣本空間上聚類(lèi),并且能收斂于全局最優(yōu)解。而Newman貪婪算法作為復(fù)雜網(wǎng)絡(luò)層次式分析方法,由于其收斂速度快等優(yōu)點(diǎn),在數(shù)據(jù)的聚類(lèi)分析中有著廣泛的應(yīng)用。本文主要融合兩種不同Laplacian矩陣構(gòu)建的譜聚類(lèi)算法(如式(3)-式(4))與復(fù)雜網(wǎng)絡(luò)中的Newman貪婪算法的改進(jìn)算法,一定程度上避免了聚類(lèi)算法復(fù)雜度高的缺點(diǎn)。其中,D為將相似度矩陣每行之和賦值到對(duì)角線(xiàn)上的對(duì)角矩陣,L為相似度矩陣。
2.3 聚類(lèi)數(shù)目的識(shí)別
2.3.1 聚類(lèi)數(shù)目的識(shí)別準(zhǔn)則
由于相似矩陣可看作一個(gè)無(wú)向圖中節(jié)點(diǎn)之間的鄰接矩陣,樣本數(shù)可看作圖中的節(jié)點(diǎn)數(shù),相似矩陣中的權(quán)值可看作圖中節(jié)點(diǎn)之間的邊,并可以利用邊的粗細(xì)代表權(quán)值的大小。
在建立的無(wú)向圖中引入隨機(jī)游走策略,獲得轉(zhuǎn)移概率矩陣P,P=D-1S,其中S為相似矩陣,D=diag(S·e),e是一個(gè)值全為1的向量。令σ(P)={1=λ1≥λ2≥…≥λn)作為P的譜分布,即特征值分布。經(jīng)數(shù)學(xué)證明如果沒(méi)有子類(lèi)的劃分,1=λ1≥λ2≥…≥λn中會(huì)有k個(gè)特征值[λ1,…,λk]接近于1,而特征值λk與λ2k+1之間的相對(duì)間距可以決定數(shù)據(jù)聚類(lèi)的數(shù)目,這就為聚類(lèi)數(shù)目的合理識(shí)別提供了數(shù)學(xué)依據(jù)。
2.3.2 一致相似矩陣及其特征值分布
首先確定所選擇的聚類(lèi)數(shù)目的序列,k=[k2,k2,…,kn],其中n為所選擇類(lèi)別的數(shù)目,然后分別采用3.2節(jié)的三種聚類(lèi)方法;根據(jù)聚類(lèi)數(shù)目ki,i∈{1,2,…,n)進(jìn)行分別聚類(lèi),共獲得3×n個(gè)聚類(lèi)結(jié)果,形成一致聚類(lèi)矩陣M(如果第i個(gè)節(jié)點(diǎn)和第j個(gè)節(jié)點(diǎn)分到同一類(lèi),Mij為1,否則為0)構(gòu)建;最后將一致相似矩陣M代替相似矩陣S,按照隨機(jī)游走策略獲得轉(zhuǎn)移概率矩陣P,求得P的特征值分布,并通過(guò)特征值的分布獲得聚類(lèi)信息。
2.3.3 確定聚類(lèi)數(shù)目的一致聚類(lèi)算法流程
提出的基于Minkowski距離的一致聚類(lèi)算法確定聚類(lèi)數(shù)目的具體算法流程如圖3所示。
具體步驟如下:
結(jié)合Minkowski距離函數(shù)(如式(1)-式(2))建立樣本之間不同角度的距離測(cè)量,令聲∈[1,2,3],?∈[0.1,0.2,0.5,0.8,0.9],以盡量覆蓋參數(shù)的取值(共3×5=15種表示相似信息的情況)。
1)對(duì)于任取的一組p值和?值,令k=[k1,k2,…,kn](依據(jù)所采用的數(shù)據(jù)規(guī)模,本文設(shè)k∈[8,9,10,11,12,13,14,15],共8種聚類(lèi)數(shù)目),對(duì)于每一k值,分別對(duì)距離刻畫(huà)的相似信息采用上述3種聚類(lèi)算法進(jìn)行聚類(lèi),可得到3×8=24個(gè)聚類(lèi)結(jié)果,由這24個(gè)聚類(lèi)的結(jié)果構(gòu)建一致相似矩陣Mi(i∈1,2,…,15])。
2)重新對(duì)值p和?值進(jìn)行取值,重復(fù)前一步,最后得到15個(gè)一致相似度矩陣M=[M1,M2,…,M15],進(jìn)而獲得相應(yīng)的轉(zhuǎn)移概率矩陣P=[P1,P2,…,P1515]。
3)分別對(duì)轉(zhuǎn)移概率矩陣Pi(i∈[1,2,…,15])進(jìn)行特征值分解,并根據(jù)特征值之間差值判別規(guī)則獲得聚類(lèi)的數(shù)目。
3 基于Minkowski距離的一致聚類(lèi)算法(CCBM)分析
3.1 聚類(lèi)數(shù)目識(shí)別分析
本文算法優(yōu)越性體現(xiàn)在聚類(lèi)數(shù)目的自動(dòng)識(shí)別問(wèn)題上,能夠?qū)?shù)據(jù)進(jìn)行分析并獲得準(zhǔn)確的聚類(lèi)數(shù)目信息。為了驗(yàn)證算法有效性,測(cè)試數(shù)據(jù)為標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中的UCI數(shù)據(jù)、圖形數(shù)據(jù)及人工隨機(jī)數(shù)據(jù)等代表性數(shù)據(jù),如表1所示。
本文采用具有代表性的數(shù)據(jù)包括隨機(jī)5類(lèi)(仿真中利用Matlab軟件mvnrnd函數(shù)設(shè)置均向量分別為[1,1],[1,6],[6,1],[6,6]及[3.5,3.5],對(duì)應(yīng)方差均為0.1而獲得的高斯數(shù)據(jù))、Flame圖形數(shù)據(jù)、Iris數(shù)據(jù)及Wine數(shù)據(jù)(對(duì)維數(shù)較高的采用SVD降維),仿真結(jié)果如圖4-圖7所示。
由圖4-圖7可以發(fā)現(xiàn),本文算法對(duì)表1中數(shù)據(jù)聚類(lèi)數(shù)目的識(shí)別非常準(zhǔn)確,可有效地判斷概率轉(zhuǎn)移矩陣特征值分布(統(tǒng)計(jì)值接近于1的特征值數(shù)目)并確定聚類(lèi)數(shù)目。
3.2 聚類(lèi)數(shù)目結(jié)果分析
為了對(duì)比本文一致聚類(lèi)方法與其他一致聚類(lèi)算法的不同,針對(duì)表1的數(shù)據(jù),分別進(jìn)行聚類(lèi)分析,得到的結(jié)果如表2所示。
由表2可發(fā)現(xiàn),基于迭代的一致聚類(lèi)算法耗時(shí)最少,主要是由于其迭代次數(shù)較少且沒(méi)有重采樣和參數(shù)選擇環(huán)節(jié),但是其判斷數(shù)據(jù)類(lèi)別數(shù)目不準(zhǔn)確,如Iris數(shù)據(jù)的類(lèi)別判斷,其迭代終止的準(zhǔn)則不明確,因此判斷聚類(lèi)數(shù)目不可靠?;谥夭蓸拥囊恢戮垲?lèi)算法耗時(shí)最多,主要是由于其迭代次數(shù)較大,這是為了提高精度而選擇較多迭代次數(shù)的結(jié)果,但是其判斷類(lèi)別數(shù)目也不準(zhǔn)確,如隨機(jī)5類(lèi)數(shù)據(jù)的類(lèi)別判斷。本文算法由于要對(duì)Minkowski距離公式參數(shù)進(jìn)行選擇,故耗時(shí)多于基于迭代的一致聚類(lèi)算法,但是參數(shù)選擇種類(lèi)相對(duì)固定,耗時(shí)少于基于重采樣的一致聚類(lèi)算法。本文算法對(duì)于表1中4類(lèi)數(shù)據(jù)聚類(lèi)數(shù)目的判斷準(zhǔn)確,在聚類(lèi)數(shù)目的識(shí)別準(zhǔn)確性上優(yōu)于其他兩種一致聚類(lèi)算法。
4 銅礦泡沫浮選的工況識(shí)別
在某企業(yè)銅礦泡沫浮選廠(chǎng)中銅優(yōu)粗選流程如圖8所示。銅礦石經(jīng)過(guò)球磨粉碎過(guò)程,磨礦后的礦漿首先經(jīng)過(guò)抑泥槽,后接攪拌槽,再通過(guò)粗選首槽(槽I)和粗選槽Ⅱ,其中礦物泡沫到精選過(guò)程,而礦漿到掃選過(guò)程。根據(jù)該流程生產(chǎn)工藝特點(diǎn)獲知,對(duì)浮選生產(chǎn)有關(guān)鍵作用的是銅優(yōu)浮選過(guò)程的粗選首槽。
在浮選過(guò)程人礦條件穩(wěn)定的情況下,首槽泡沫會(huì)隨著生產(chǎn)操作參數(shù)的改變發(fā)生變化。因此,根據(jù)浮選泡沫的表觀形狀和其帶礦量的多少,可以將銅優(yōu)浮選粗選首槽泡沫進(jìn)行工況分類(lèi),并將分類(lèi)結(jié)果對(duì)應(yīng)相應(yīng)的操作變量,以給出合理的操作建議,指導(dǎo)操作。如圖9所示為浮選泡沫圖像的3種不同浮選生產(chǎn)狀態(tài),銅礦泡沫形態(tài)的特征可以分別描述為:
A類(lèi)泡沫:泡沫粒徑、形狀不規(guī)則,多為細(xì)長(zhǎng)的扁形且以連生體存在,泡沫間的邊緣不明顯,礦化程度高,含泥多,泡沫負(fù)荷過(guò)多,泡沫顏色泛白、粘稠、穩(wěn)定度高,但泡沫尺寸小、速度慢。
B類(lèi)泡沫:泡沫顏色、大小適中、形狀規(guī)則,氣泡上有堅(jiān)實(shí)的礦物負(fù)荷。
C類(lèi)泡沫:泡沫上負(fù)荷量減少,泡沫多為虛泡、不穩(wěn)定、易破裂或兼并。
通過(guò)現(xiàn)場(chǎng)觀察和生產(chǎn)指標(biāo)分析對(duì)比研究,在這3類(lèi)浮選生產(chǎn)狀態(tài)中,B類(lèi)狀態(tài)對(duì)應(yīng)泡沫含礦最多。由于在銅優(yōu)浮選粗選首槽已經(jīng)構(gòu)建由高分辨率工業(yè)攝像機(jī)、高頻光源及高性能工業(yè)控制計(jì)算機(jī)等設(shè)備組成的泡沫圖像采集平臺(tái),準(zhǔn)確提取了反映生產(chǎn)工況的泡沫表征特征(包括紋理、大小、顏色等)。針對(duì)圖9所示的3類(lèi)泡沫圖像特征,隨機(jī)選取了實(shí)際生產(chǎn)過(guò)程的1個(gè)月200組數(shù)據(jù),其中A,B,C類(lèi)數(shù)據(jù)分別為50,100,50組數(shù)據(jù),對(duì)其采用基于Minkowski距離的一致聚類(lèi)算法分析,一致矩陣特征值分布如圖10所示。由圖可見(jiàn),可以明顯劃分為3類(lèi)工況,數(shù)據(jù)聚類(lèi)的結(jié)果準(zhǔn)確性高。原數(shù)據(jù)和聚類(lèi)后的數(shù)據(jù)分別如圖11和圖12所示。
通過(guò)對(duì)比分析發(fā)現(xiàn)選取200組數(shù)據(jù)中只有2個(gè)誤分點(diǎn),正確率達(dá)到98.5%。因此,本文所提算法可用于實(shí)際銅礦泡沫浮選過(guò)程圖像數(shù)據(jù)的有效聚類(lèi),從而有助于進(jìn)一步實(shí)現(xiàn)浮選生產(chǎn)工況的自動(dòng)識(shí)別,識(shí)別浮選泡沫生產(chǎn)狀態(tài),為浮選生產(chǎn)操作提供指導(dǎo)。
5 結(jié)論
針對(duì)常規(guī)聚類(lèi)算法中相似度矩陣的選取問(wèn)題、聚類(lèi)數(shù)目的自動(dòng)確定等問(wèn)題,本文提出了基于Minkowski距離的一致聚類(lèi)分析方法。該方法利用Minkowski距離公式對(duì)數(shù)據(jù)進(jìn)行不同角度度量,集成多種聚類(lèi)算法進(jìn)行聚類(lèi),根據(jù)隨機(jī)游走策略,并將獲取的一致矩陣轉(zhuǎn)化為概率轉(zhuǎn)移矩陣,結(jié)合不同數(shù)據(jù)的特征值分布分析方法確定類(lèi)別數(shù)目,實(shí)現(xiàn)自動(dòng)聚類(lèi)。通過(guò)對(duì)標(biāo)準(zhǔn)數(shù)據(jù)實(shí)驗(yàn)對(duì)比表明算法具有較快的運(yùn)算速度和較高的類(lèi)別劃分準(zhǔn)確度。將本文算法應(yīng)用到銅礦泡沫浮選過(guò)程工況分類(lèi)效果,進(jìn)一步驗(yàn)證算法有效性,也為泡沫浮選工況自動(dòng)識(shí)別及生成過(guò)程操作提供了指導(dǎo)信息。