張迎錄,伍鐵軍,楊開永
(1.南京航空航天大學(xué)機電學(xué)院,江蘇南京 210016)
(2.紅云紅河(煙草)集團有限責(zé)任公司昆明卷煙廠生產(chǎn)一部,云南昆明 650000)
基于Apriori算法的煙片生產(chǎn)設(shè)備參數(shù)分析
張迎錄1,伍鐵軍1,楊開永2
(1.南京航空航天大學(xué)機電學(xué)院,江蘇南京 210016)
(2.紅云紅河(煙草)集團有限責(zé)任公司昆明卷煙廠生產(chǎn)一部,云南昆明 650000)
工業(yè)生產(chǎn)過程中產(chǎn)生的大量數(shù)據(jù),它們蘊含著許多與生產(chǎn)設(shè)備、生產(chǎn)過程相關(guān)的規(guī)律性。為了挖掘出隱含在數(shù)據(jù)中的潛在規(guī)律,以SQL Server 2005軟件為工具,以煙草企業(yè)實際數(shù)據(jù)為原型,選擇Apriori算法對數(shù)據(jù)進(jìn)行分析處理。結(jié)果顯示,煙片大片率受打輥1實時頻率和風(fēng)機1實時頻率影響最大,煙片中片率受打輥2實時頻率影響最大。經(jīng)現(xiàn)場調(diào)試驗證,該結(jié)果具有較高的準(zhǔn)確性和可靠性。
煙草設(shè)備;數(shù)據(jù)挖掘;參數(shù)分析;關(guān)聯(lián)規(guī)則
近年來,數(shù)據(jù)挖掘引起了工業(yè)生產(chǎn)領(lǐng)域的極大關(guān)注,其主要原因是工業(yè)生產(chǎn)過程中產(chǎn)生了大量的數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換為有用的知識。但人工很難理解這些數(shù)據(jù)并分析他們之間的關(guān)系,更不能及時地總結(jié)和預(yù)測。數(shù)據(jù)挖掘一般是指利用各種分析方法與技術(shù),將過去所積累的大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)進(jìn)行分析、歸納與整合,找出隱藏在數(shù)據(jù)中的信息,如趨勢、特征及相關(guān)性的過程,也就是從數(shù)據(jù)中挖掘信息或知識[1]。
關(guān)聯(lián)規(guī)則是形如A→B的蘊含表達(dá)式,其中A?B,B?I,并且A∩B=Φ。規(guī)則A→B的度量包括支持度(support)和置信度(confidence)。支持度是D中事務(wù)包含A∪B的百分比,表示這條規(guī)則在所有事務(wù)中有多大的代表性和適用性。置信度是D中包含A事務(wù)的同時也包含B事務(wù)的百分比,是確定B在包含A的事務(wù)中出現(xiàn)的頻率,表示規(guī)則在數(shù)據(jù)集上的可靠性。支持度和置信度可用如下公式表示:
式中:support_count表示支持度計數(shù);N表示數(shù)據(jù)集的事務(wù)數(shù)。
大于最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則稱為強關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的任務(wù)就是找出數(shù)據(jù)集中隱藏的強規(guī)則。此外很多學(xué)者提出了重要性或興趣度的概念,重要性的計算公式如下:
“在A條件下發(fā)生B的概率”高于“在沒有A的條件下發(fā)生B的概率”時,重要性數(shù)值大于0,且指標(biāo)越大,則代表規(guī)則越顯著。反之重要性小于0,則代表A對B的發(fā)生有抑制作用。
Apriori算法[3]是關(guān)聯(lián)規(guī)則領(lǐng)域的經(jīng)典算法,該算法由美國學(xué)者R.Agrawal等在1993年提出,是一種從大規(guī)模數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則的有效方法[4],目前已獲得廣泛的應(yīng)用。生成頻繁項集的Apriori算法描述如下[5]:
輸入:數(shù)據(jù)集D;最小支持度閾值min_sup輸出:D中的頻繁項集L
本文以煙草企業(yè)現(xiàn)場實際生產(chǎn)數(shù)據(jù)為研究對象,采用煙草企業(yè)生產(chǎn)線上一年的生產(chǎn)數(shù)據(jù),共1 381條原始數(shù)據(jù)記錄,如圖1所示,包括溫度、水分、設(shè)備參數(shù)等13項影響煙片率變化的參數(shù)。對歷史數(shù)據(jù)進(jìn)行深入分析研究,找出數(shù)據(jù)之間的規(guī)律,挖掘出那些與煙片率大小變化有較強關(guān)聯(lián)的參數(shù)。
圖1 原始數(shù)據(jù)圖
3.1 數(shù)據(jù)預(yù)處理
a.工業(yè)生產(chǎn)過程中產(chǎn)生的很多數(shù)據(jù)是有缺陷的,因此首先需要進(jìn)行數(shù)據(jù)清理,只保留符合實際情況的正確數(shù)據(jù)。主要解決的問題有:空缺值、錯誤數(shù)據(jù)、噪聲等。
b.對數(shù)據(jù)進(jìn)行離散化處理。關(guān)聯(lián)規(guī)則算法不接受連續(xù)屬性,因為它是一個計數(shù)引擎,用于計數(shù)離散屬性狀態(tài)的相關(guān)性,使用時必須對挖掘模型中的連續(xù)屬性離散化。通過對數(shù)據(jù)庫編程,將最近一次數(shù)據(jù)記錄和上一次數(shù)據(jù)記錄依次進(jìn)行對比,數(shù)值升高的設(shè)為H,降低的設(shè)為L,不變的設(shè)為S。如圖2所示。
3.2 使用Apriori算法挖掘數(shù)據(jù)
a.將數(shù)據(jù)從access數(shù)據(jù)庫導(dǎo)入到SQL Server 2005數(shù)據(jù)庫,如圖3所示。
b.搭建數(shù)據(jù)挖掘環(huán)境,設(shè)置算法參數(shù),生成項集和關(guān)聯(lián)規(guī)則,如圖4和圖5所示。
c.實驗結(jié)果分析。
企業(yè)生產(chǎn)過程中煙片質(zhì)量主要是以煙片的大中片率進(jìn)行衡量。本研究主要分析出影響煙片大中片率變化的主要設(shè)備參數(shù),挖掘出來的規(guī)則根據(jù)關(guān)聯(lián)的重要性和概率強度來排序。
圖2 離散化后的數(shù)據(jù)表
圖3 將數(shù)據(jù)導(dǎo)入SQL Server數(shù)據(jù)庫
圖4 挖掘出的大片率規(guī)則
圖5 挖掘出的中片率規(guī)則
由圖4可見,關(guān)聯(lián)最強規(guī)則是:打輥1實時頻率=L,風(fēng)機1實時頻率=L→大片率=H。打輥1實時頻率=L,風(fēng)機2實時頻率=L→大片率=H。也就是說打輥1實時頻率降低并且風(fēng)機1實時頻率降低,或者打輥1實時頻率降低并且風(fēng)機2實時頻率降低時,大片率升高是必然的。由圖4可知,打輥1實時頻率=H時→大片率=L這條規(guī)則也具有很強的關(guān)聯(lián)重要度和概率強度,該規(guī)則表明打輥1實時頻率升高時,大片率多數(shù)情況是降低的。綜合分析可知大片率受打輥1實時頻率影響最大。
同理,由圖5可得,中片率受打輥2實時頻率影響最大。
根據(jù)煙草企業(yè)生產(chǎn)線上的現(xiàn)場數(shù)據(jù),分析出相關(guān)生產(chǎn)設(shè)備參數(shù)對煙片率的影響,挖掘出影響煙片大中片率的主要設(shè)備參數(shù)。結(jié)果顯示,煙片大片率主要受打輥1實時頻率和風(fēng)機1、2實時頻率影響,煙片中片率主要受打輥2實時頻率影響。研究結(jié)果表明,數(shù)據(jù)挖掘技術(shù)在生產(chǎn)領(lǐng)域可以發(fā)現(xiàn)很多隱藏的、不為人知的規(guī)律性知識,為生產(chǎn)線進(jìn)一步調(diào)整、修正工藝參數(shù)提供了重要的參考,也為其他企業(yè)在相關(guān)參數(shù)分析方面提供借鑒。
[1]謝邦昌.商務(wù)智能與數(shù)據(jù)挖掘Microsoft SQL Server應(yīng)用[M].北京:機械工業(yè)出版社,2008.
[2]蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實踐[M].北京:電子工業(yè)出版社,2011.
[3]熊平.數(shù)據(jù)挖掘算法與Clementime實踐[M].北京:清華大學(xué)出版社,2011.
[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules in Large Databases[C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB'94),Santiago,Chile,1994:487 -499.
[5]郭秀娟.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究[D].長春:吉林大學(xué),2004.
Research on Operating Parameters of Tobacco Flake Production Equipment Based on Apriori Algorithm
ZHANG Yinglu1,WU Tiejun1,YANG Kaiyong2
(1.Nanjing University of Aeronautics and Astronautics,Jiangsu Nanjing,210016,China)
(2.Hongyun Honghe(Tobacco)Group Co.,Ltd.,Yunnan Kunming,650000,China)
In the industrial production process,the production line produces a large amount of real- time field data,which contains a lot of knowledge associated with the production equipment and production process.In order to excavate the potential rules hidden in the data,it uses the enterprise actual data as the prototype based on SQL Server 2005 software,and chooses Apriori algorithm to analyze the data.The result of the study shows that the real-time frequency of NO.1 roll and NO.1 fan has the greatest influence on the rate of large size tobacco flake and that the real-time frequency of NO.2 roll has the greatest influence on the rate of middle size tobacco flake.The field test and adjustment prove that the result has very good accuracy and reliability.
Tobacco Equipment;Data Mining;Parameter Analysis;Association Rule
TP391.4
A
2095-509X(2013)11-0018-04
10.3969/j.issn.2095-509X.2013.11.005
2013-09-16
張迎錄(1987—),男,山東日照人,南京航空航天大學(xué)碩士研究生,主要研究方向為數(shù)字化產(chǎn)品開發(fā)。