劉永文 吳全恩
中圖分類號:TP311.13文獻(xiàn)標(biāo)識碼:A文章編號:1673-0992(2009)05-050-02
摘要在對復(fù)雜流程制造業(yè)生產(chǎn)過程的數(shù)據(jù)特點(diǎn)進(jìn)行充分分析的基礎(chǔ)上,緊密結(jié)合流程制造業(yè)綜合自動(dòng)化的應(yīng)用需求,給出了流程制造業(yè)數(shù)據(jù)挖掘的體系框架,分析了流程制造業(yè)數(shù)據(jù)挖掘中的關(guān)鍵問題。
關(guān)鍵詞:數(shù)據(jù)挖掘;流程制造業(yè);海量數(shù)據(jù)
近年來,數(shù)據(jù)挖掘技術(shù)已經(jīng)在商業(yè)、金融、管理、工業(yè)等眾多領(lǐng)域廣泛應(yīng)用并取得了重大進(jìn)展,但大都僅限于企業(yè)的商業(yè)信息,在企業(yè)的生產(chǎn)過程中應(yīng)用的還比較少。
目前,在復(fù)雜流程制造業(yè)生產(chǎn)過程中,由于各種先進(jìn)工藝和工程技術(shù)的廣泛采用,產(chǎn)生和積累了大量的各種類型的歷史數(shù)據(jù)和當(dāng)前生產(chǎn)的實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),這些海量生產(chǎn)數(shù)據(jù)又包含用于生產(chǎn)和管理的大量的有價(jià)值的信息和知識。一方面,為了避免產(chǎn)品的設(shè)計(jì)知識數(shù)據(jù)重用率低,無法有效地實(shí)現(xiàn)產(chǎn)品配置設(shè)計(jì)和變形設(shè)計(jì),延長了產(chǎn)品的設(shè)計(jì)周期;另一方面,為了能夠?yàn)檫^程監(jiān)測、診斷、能效分析、先進(jìn)控制、優(yōu)化和調(diào)度、管理等各層次提供決策支持,使得流程制造業(yè)綜合自動(dòng)化系統(tǒng)性能達(dá)到最優(yōu)。這就需要一種高效可靠的分析工具,把隱藏在海量數(shù)據(jù)中的有用的深層次的知識和信息挖掘出來,提取這些數(shù)據(jù)的整體特征、關(guān)聯(lián)及對其發(fā)展趨勢的預(yù)測等,以幫助決策者提出問題、發(fā)現(xiàn)問題、分析問題和解決問題?;诹鞒讨圃鞓I(yè)的生產(chǎn)特點(diǎn)和數(shù)據(jù)性質(zhì)以及所面臨的問題,數(shù)據(jù)挖掘技術(shù)是解決流程制造業(yè)產(chǎn)生的海量信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一,并且數(shù)據(jù)挖掘技術(shù)也是目前國內(nèi)外研究的一個(gè)熱點(diǎn)。
本文從流程制造業(yè)的生產(chǎn)數(shù)據(jù)的特點(diǎn)及分析需求出發(fā),建立了一般流程制造業(yè)數(shù)據(jù)挖掘的體系結(jié)構(gòu),并分析了流程制造業(yè)數(shù)據(jù)挖掘中的關(guān)鍵問題,總結(jié)了數(shù)據(jù)挖掘方法在流程制造業(yè)領(lǐng)域的數(shù)據(jù)應(yīng)用技術(shù)方向。
一、數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是近年來隨著人工智能和數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)。它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒有一個(gè)標(biāo)準(zhǔn)的定義,簡單地說,數(shù)據(jù)挖掘就是從大量的已知數(shù)據(jù)中找出隱藏的、可信的、未知的、有用的信息,探索數(shù)據(jù)中隱藏的規(guī)律用來預(yù)測未來,其中數(shù)據(jù)可以放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中。數(shù)據(jù)挖掘工具能夠從企業(yè)數(shù)以百萬筆的歷史數(shù)據(jù)中提取有用的信息,為企業(yè)的生產(chǎn)與經(jīng)營提供決策依據(jù)。
數(shù)據(jù)挖掘過程由以下步驟組成:
1.挖掘主題——明確挖掘的要求、內(nèi)容及目標(biāo);
2.數(shù)據(jù)預(yù)處理——包括數(shù)據(jù)清理、數(shù)據(jù)歸約、數(shù)據(jù)集成與變換、離散化與概念提升等;
3.挖掘算法選擇——包括類的選擇、算法選擇及算法軟件選擇;
4.構(gòu)造數(shù)據(jù)挖掘(軟件、硬件)平臺;
5.結(jié)果展示及評價(jià)。
以上步驟是一個(gè)反復(fù)迭代的過程,最終目的是在數(shù)據(jù)中獲得有用的知識。在實(shí)踐中,數(shù)據(jù)挖掘的兩個(gè)基本目標(biāo)往往是預(yù)測和描述。預(yù)測涉及到使用數(shù)據(jù)集中的一些變量或域來預(yù)測其他我們所關(guān)心變量的求知或未來的值;另一方面,描述關(guān)注的則是找出描述可由人類解釋的數(shù)據(jù)模式。因此,數(shù)據(jù)挖掘活動(dòng)可分成預(yù)測性數(shù)據(jù)挖掘和描述性數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法大致可分為關(guān)聯(lián)(Apriori算法)、分類(決策樹算法、粗糙集、人工神經(jīng)網(wǎng)絡(luò)等)、聚類(層次、遺傳算法、劃分法等)三種。 簡而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。
二、流程制造業(yè)數(shù)據(jù)特點(diǎn)
制造業(yè)(Manufacturing Industry)是指經(jīng)物理變化或化學(xué)變化后成為了新的產(chǎn)品,不論是動(dòng)力機(jī)械制造,還是手工制作;也不論產(chǎn)品是批發(fā)銷售,還是零售,均視為制造。制造業(yè)按其產(chǎn)品制造工藝過程特點(diǎn)總體上可概括為離散型制造業(yè)和流程制造業(yè)兩種。典型的離散型制造行業(yè)包括電腦、汽車及工業(yè)用品制造等行業(yè);典型的流程制造行業(yè)包括化工,食品飲料,制藥,化妝品等以配方為基礎(chǔ)的行業(yè)。
流程制造業(yè)是工程學(xué)科的一個(gè)重要研究領(lǐng)域,系統(tǒng)非常復(fù)雜,成品一旦生產(chǎn)出來,就不能再提取它,回到它的原始成分。流程制造業(yè)整個(gè)流程生產(chǎn)過程是一個(gè)動(dòng)態(tài)的過程,產(chǎn)出量、物料特性、甚至物料加工路線受到原材料成分波動(dòng)、操作、加工溫度壓力、設(shè)備等等波動(dòng)的影響,并且不可預(yù)知。流程制造業(yè)制造過程是連續(xù)、在線的,所以說更加強(qiáng)調(diào)生產(chǎn)過程的跟蹤和調(diào)整,主要靠實(shí)時(shí)的跟蹤、控制糾偏?;诹鞒讨圃鞓I(yè)的生產(chǎn)特點(diǎn),流程制造業(yè)數(shù)據(jù)尤其是實(shí)際生產(chǎn)過程中的數(shù)據(jù)非常復(fù)雜,現(xiàn)在的流程制造業(yè)生產(chǎn)過程都采用了計(jì)算機(jī)控制系統(tǒng)定時(shí)采集系統(tǒng)的變量和設(shè)備狀態(tài),以供顯示、控制之用,日積月累產(chǎn)生大量的冗余數(shù)據(jù);同時(shí)又由于離散決策變量和連續(xù)決策變量同時(shí)存在,各種變量的值是在不斷變化的,數(shù)據(jù)類型也是多樣的,系統(tǒng)中既包括連續(xù)過程變量,也包括離散過程變量,使得這些它們之間有較強(qiáng)的耦合及非線性;許多變量的變化快慢各異,采集信號的頻率不同,導(dǎo)致時(shí)間上的不同步,在數(shù)據(jù)記錄上也可能丟失數(shù)據(jù),造成數(shù)據(jù)的不完整;流程制造業(yè)系統(tǒng)環(huán)境復(fù)雜,電、磁、噪聲干擾較強(qiáng),加之系統(tǒng)的不確定性,導(dǎo)致數(shù)據(jù)受污染。簡言之,流程制造業(yè)數(shù)據(jù)具有不確定性、動(dòng)態(tài)性、不完整性、多時(shí)標(biāo)性(部分不同變量采用不同的采樣周期)和數(shù)據(jù)類型多樣性、多模態(tài)性,非線性、強(qiáng)耦合性和交錯(cuò)性等特點(diǎn),致使全流程的模擬、診斷、決策與優(yōu)化變得極為困難,而數(shù)據(jù)挖掘技術(shù)對這些問題提供了一定的解決方案。
三、流程制造業(yè)數(shù)據(jù)挖掘的體系結(jié)構(gòu)
流程制造業(yè)數(shù)據(jù)挖掘體系結(jié)構(gòu)的確定是流程制造業(yè)數(shù)據(jù)挖掘項(xiàng)目成功的基礎(chǔ),依據(jù)流程制造業(yè)數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)挖掘技術(shù)的要求,構(gòu)建流程制造業(yè)數(shù)據(jù)挖掘的總體框架。如圖1所示:
圖1 流程制造業(yè)數(shù)據(jù)挖掘體系結(jié)構(gòu)
1.數(shù)據(jù)預(yù)處理
流程制造業(yè)生產(chǎn)過程中產(chǎn)生的海量數(shù)據(jù)一般是不完整的、含噪聲的和不一致的,數(shù)據(jù)預(yù)處理技術(shù)(數(shù)據(jù)采樣、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換等)可以檢測數(shù)據(jù)異常,改進(jìn)數(shù)據(jù)質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。
2.數(shù)據(jù)歸約
流程制造業(yè)生產(chǎn)過程中產(chǎn)生的海量數(shù)據(jù)經(jīng)過預(yù)處理后,數(shù)據(jù)質(zhì)量有了很大的提高,在此基礎(chǔ)上構(gòu)造數(shù)據(jù)倉庫和OLAP,數(shù)據(jù)倉庫中的數(shù)據(jù)集非常大,對海量數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰喈?dāng)長的時(shí)間,通過數(shù)據(jù)歸約技術(shù)可以將數(shù)據(jù)集中不相關(guān)、弱相關(guān)或冗余的屬性或刪除,并能保持原數(shù)據(jù)的完整性,對歸約后的數(shù)據(jù)集進(jìn)行挖掘?qū)⒏行?,并產(chǎn)生相同(幾乎相同)的分析結(jié)果。
3.挖掘方法選擇器
方法選擇專家系統(tǒng)及知識庫根據(jù)不同的挖掘要求選擇最有效的挖掘算法或幾種算法的序列組合,并且不斷地更新知識庫,用選擇的方法去執(zhí)行挖掘任務(wù)。目前系統(tǒng)常用的挖掘方法有統(tǒng)計(jì)分析方法、決策樹、人工神經(jīng)網(wǎng)絡(luò)、基因算法、粗糙集等。
4.評估界面 執(zhí)行數(shù)據(jù)挖掘任務(wù)得到的結(jié)果往往是一些抽象的模型或數(shù)據(jù),因此,系統(tǒng)提供了一種解釋機(jī)制,以一種直覺的方式來表現(xiàn)數(shù)據(jù)挖掘的結(jié)果,比如用文字、圖表和報(bào)表等多種可視化手段,幫助分析決策人員具體地了解所挖掘的結(jié)果。
四、流程制造業(yè)數(shù)據(jù)挖掘的關(guān)鍵問題
1.數(shù)據(jù)的質(zhì)量和數(shù)量
流程制造業(yè)數(shù)據(jù)挖掘的最根本問題在于數(shù)據(jù)的數(shù)量和質(zhì)量。一方面,數(shù)據(jù)量越充足,越能保證獲取的數(shù)據(jù)的連續(xù)性,從而易發(fā)現(xiàn)系統(tǒng)的一般性規(guī)律;另一方面,數(shù)據(jù)的準(zhǔn)確性和可靠性也是一切建模和分析是否有效的關(guān)鍵。因此,要盡可能完備地搜集與所研究問題相關(guān)的信息資料,包括公開發(fā)布和未公開發(fā)布的數(shù)據(jù)資料,然后從眾多的資料中把有用的部分挑選出來。挑選數(shù)據(jù)資料時(shí)應(yīng)按照相關(guān)性、可靠性、最新性等原則進(jìn)行。然后挑選出符合一定標(biāo)準(zhǔn)的資料,加以深入研究。然而收集數(shù)據(jù)資料并不容易,尤其是在我國當(dāng)前的情況下,各層次的資料往往不夠完整,真實(shí)性也有存在很大的問題,再加上涉及到數(shù)據(jù)的保密性問題,所以無形中就增加了數(shù)據(jù)搜集的難度,從而數(shù)據(jù)的數(shù)量和質(zhì)量也就難以保證。
2.數(shù)據(jù)倉庫的建立
從數(shù)據(jù)挖掘的定義可以看出,數(shù)據(jù)挖掘包含一系列旨在從數(shù)據(jù)庫中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果將其與數(shù)據(jù)倉庫緊密聯(lián)系在一起,將獲得意外的成功。傳統(tǒng)的觀點(diǎn)認(rèn)為,數(shù)據(jù)挖掘技術(shù)扎根于計(jì)算科學(xué)和數(shù)學(xué),不需要也不得益于數(shù)據(jù)倉庫。這種觀點(diǎn)并不正確。成功的數(shù)據(jù)挖掘的關(guān)鍵之一就是通過訪問正確、完整和集成的數(shù)據(jù),然后再進(jìn)行深層次的分析,尋求有益的信息,而這些正是數(shù)據(jù)倉庫所能夠提供的。數(shù)據(jù)倉庫不僅是集成數(shù)據(jù)的一種方式,而且數(shù)據(jù)倉庫的聯(lián)機(jī)分析功能(OLAP)還為數(shù)據(jù)挖掘提供了一個(gè)極佳的操作平臺。如果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘能夠?qū)崿F(xiàn)有效的聯(lián)結(jié).這將給數(shù)據(jù)挖掘帶來各種便利和功能。
數(shù)據(jù)倉庫為數(shù)掘挖掘提供了更廣闊的活動(dòng)空間。數(shù)據(jù)倉庫完成數(shù)據(jù)的收集、集成、存儲、管理等工作、數(shù)據(jù)挖掘面對的是經(jīng)初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘能更專注于知識的發(fā)現(xiàn)。又由于數(shù)據(jù)倉庫所具有的新特點(diǎn),對數(shù)據(jù)挖掘技術(shù)提出了更高的要求。另一方面,數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉庫提供了更好的決策支持,同時(shí)促進(jìn)了數(shù)據(jù)倉庫技術(shù)的發(fā)展。因此,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫技術(shù)要充分發(fā)揮潛力。就必須結(jié)合起來。
3.數(shù)據(jù)挖掘方法的選擇與應(yīng)用
目前數(shù)據(jù)挖掘方法很多,面對各層次不同的海量數(shù)據(jù),應(yīng)如何選擇和應(yīng)用其方法,是數(shù)據(jù)挖掘的另一關(guān)鍵問題。不同的人對同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大。因此,合理選擇分析方法很重要。數(shù)據(jù)挖掘常用的算法包括:統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、聚類分析、決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊集等,每種方法都有所側(cè)重,應(yīng)全面了解每種方法的基本原理與優(yōu)劣之處,選擇與要解決問題類型相匹配的數(shù)據(jù)挖掘方法。比如,神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納方法、決策樹學(xué)習(xí)、遺傳算法等適用于分類問題;硬均值聚類、模糊均值聚類、神經(jīng)網(wǎng)絡(luò)等適用于聚類;回歸分析、時(shí)間序列、神經(jīng)網(wǎng)絡(luò)等適用于預(yù)測。實(shí)際應(yīng)用時(shí),還要確定數(shù)據(jù)挖掘方法是直接應(yīng)用還是建模嵌入的開發(fā)應(yīng)用。
數(shù)據(jù)挖掘模型是數(shù)據(jù)挖掘算法的實(shí)際應(yīng)用,在流程制造業(yè)領(lǐng)域進(jìn)行數(shù)據(jù)挖掘必須針對流程制造業(yè)生產(chǎn)過程中產(chǎn)生的數(shù)據(jù)特點(diǎn)及特定的挖掘目標(biāo),選擇各層次數(shù)據(jù)的合適數(shù)據(jù)挖掘算法。
4.結(jié)果的解釋及評價(jià)
數(shù)據(jù)挖掘的結(jié)果是不確定的。因此,需要和專業(yè)知識相結(jié)合才能對其做出解釋,并在此基礎(chǔ)上評價(jià)模型的合理性,以提供科學(xué)的決策支持信息。
評價(jià)模型的合理性,即看模型是否準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,是否有實(shí)際意義和實(shí)用價(jià)值。評價(jià)的方法之一是直接使用原來建立模型的樣板數(shù)據(jù)來進(jìn)行檢驗(yàn);另一種辦法是另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實(shí)際的規(guī)律性的;再有一種辦法就是在實(shí)際運(yùn)行的環(huán)境中取出新鮮數(shù)據(jù)進(jìn)行檢驗(yàn)。
需要強(qiáng)調(diào)的是,要想真正做好數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工具只是其中的一個(gè)方面。流程制造業(yè)數(shù)據(jù)挖掘的成功要求對流程制造業(yè)領(lǐng)域有深刻的了解,理解流程制造業(yè)要素?cái)?shù)據(jù)的屬性,了解數(shù)據(jù)采集的過程,同時(shí)還需要對流程制造業(yè)生產(chǎn)過程有足夠的數(shù)據(jù)分析經(jīng)驗(yàn)。
五、結(jié)束語
數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用目前主要集中在市場推廣方面。如客戶特征、購物關(guān)聯(lián)分析及客戶關(guān)系管理,這方面技術(shù)相對來說已經(jīng)比較成熟,很好地解決了企業(yè)的許多商業(yè)信息問題,但應(yīng)用于工業(yè)制造生產(chǎn)流程還處于理論研究和初步實(shí)踐階段,起步較晚,并且實(shí)際成功應(yīng)用的事例也較少,基于此,數(shù)據(jù)挖掘技術(shù)更能顯現(xiàn)出它巨大的發(fā)展?jié)摿?,根?jù)流程制造業(yè)的數(shù)據(jù)特點(diǎn),量身定制合適的數(shù)據(jù)挖掘工具,為流程制造業(yè)提供決策依據(jù),解決流程制造業(yè)存在的不同程度的問題。
參考文獻(xiàn):
[1] Jiawei Han,Micheline Kanmber. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers,2001
[2] 朱群雄,麻德賢.過程工業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用.計(jì)算機(jī)與應(yīng)用化學(xué)[J].2004
[3] 孟永勝.裝備制造業(yè)產(chǎn)品制造數(shù)據(jù)集成管理研究與應(yīng)用 [博士學(xué)位論文].大連:大連理工大學(xué),2006
[4] 余軍合.面向全生命周期虛擬產(chǎn)品模型的研究與應(yīng)用 [博士學(xué)位論文].杭州:浙江大學(xué),2002
[5] 羅印升、李人厚、梅時(shí)春. 復(fù)雜工業(yè)過程中數(shù)據(jù)挖掘模型研究.信息與控制[J].2003
[6] 王建良,杜元?jiǎng)?徐建良. 面向離散制造業(yè)數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用.微計(jì)算機(jī)信息[J]. 2007