張杰 李昱曉
黃金葉生產(chǎn)制造中心 河南鄭州 450016
在卷包生產(chǎn)過程中,形成了以設(shè)備為中心的數(shù)據(jù)生產(chǎn)池,我們可以從卷包生產(chǎn)設(shè)備上獲取無(wú)數(shù)的數(shù)據(jù),包括產(chǎn)量、消耗、故障、設(shè)備性能等,這些數(shù)據(jù)作為生產(chǎn)過程的研究依據(jù),具有十分重要的研究?jī)r(jià)值,然而設(shè)備生產(chǎn)過程具有較多的不穩(wěn)定因素和干擾的因子,設(shè)備的數(shù)據(jù)都會(huì)存在或多或少的問題,這就需要對(duì)設(shè)備的數(shù)據(jù)進(jìn)行管理,管理的內(nèi)容包括對(duì)設(shè)備數(shù)據(jù)的清洗、數(shù)據(jù)整合、相似記錄檢測(cè)、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)處理等方面;
在行業(yè)內(nèi)對(duì)卷包設(shè)備數(shù)據(jù)已進(jìn)行了大量的學(xué)術(shù)研究和實(shí)際應(yīng)用的探究,在這些研究中,卷包設(shè)備數(shù)據(jù)質(zhì)量評(píng)價(jià)是提高數(shù)據(jù)質(zhì)量的基礎(chǔ)和必要的前提,它能對(duì)設(shè)備產(chǎn)生數(shù)據(jù)質(zhì)量狀況給出一個(gè)合理的評(píng)價(jià),從而可以幫助用戶了解設(shè)備數(shù)據(jù)質(zhì)量水平,從側(cè)面保證設(shè)備數(shù)據(jù)能正確反映設(shè)備的運(yùn)行生產(chǎn)情況,幫助卷包生產(chǎn)企業(yè)能更好的了解設(shè)備、維護(hù)設(shè)備,保證生產(chǎn)活動(dòng)能有序穩(wěn)定的進(jìn)行[1]。
在進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)時(shí),需要根據(jù)具體的數(shù)據(jù)質(zhì)量評(píng)價(jià)需求對(duì)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)進(jìn)行取舍,但是,數(shù)據(jù)質(zhì)量評(píng)價(jià)至少應(yīng)該包括以下幾個(gè)基本的數(shù)據(jù)評(píng)價(jià)指標(biāo):
完整性:數(shù)據(jù)完整性,主要研究采集數(shù)據(jù)是否完整,包括兩個(gè)方面,一個(gè)是字段完整性,另外就是記錄的完整性
準(zhǔn)確性:是指數(shù)據(jù)記錄的信息是否存在異?;蝈e(cuò)誤,和一致性不一樣,存在準(zhǔn)確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致,最為常見的數(shù)據(jù)準(zhǔn)確性錯(cuò)誤就如亂碼。
一致性:是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)記錄是否符合存在一致性規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。
及時(shí)性:包括數(shù)據(jù)采集、數(shù)據(jù)整理、數(shù)據(jù)加載的及時(shí)性,數(shù)據(jù)更新的及時(shí)性,按照采集規(guī)則,每條橫向數(shù)據(jù)記錄到達(dá)時(shí)間應(yīng)該是一致,每個(gè)數(shù)據(jù)記錄縱向到達(dá)時(shí)間間隔是應(yīng)該是相同。
穩(wěn)定性:描述數(shù)據(jù)是否穩(wěn)定,是否在有效期內(nèi)。
在數(shù)據(jù)質(zhì)量評(píng)價(jià)過程中,隨著對(duì)數(shù)據(jù)的應(yīng)用不同,對(duì)數(shù)據(jù)質(zhì)量的評(píng)價(jià)模型需求也會(huì)有較大的差異,一個(gè)數(shù)據(jù)集可以對(duì)應(yīng)多個(gè)質(zhì)量評(píng)價(jià)模型,在一個(gè)數(shù)據(jù)質(zhì)量評(píng)價(jià)模型中,一個(gè)數(shù)據(jù)集可以對(duì)應(yīng)多個(gè)評(píng)價(jià)指標(biāo),一個(gè)評(píng)價(jià)指標(biāo)可以對(duì)應(yīng)多個(gè)規(guī)則。
將數(shù)據(jù)質(zhì)量評(píng)估模型定義為一個(gè)六元組:
M=(D,I,R,W,E,S)
D:需要評(píng)價(jià)的數(shù)據(jù)集。
I:數(shù)據(jù)集D上需要進(jìn)行評(píng)估的指標(biāo),如準(zhǔn)確性、完整性、一致性等;
R:與評(píng)價(jià)指標(biāo)對(duì)應(yīng)的規(guī)則。
W:賦予規(guī)則R的權(quán)值,數(shù)據(jù)為大于0的整數(shù),描述了該規(guī)則在所有規(guī)則中所占的比重。
E:對(duì)規(guī)則R給出的期望值,數(shù)據(jù)介于0到100之間的實(shí)數(shù),是在評(píng)估之前對(duì)該規(guī)則所期望得到的結(jié)果。
S:規(guī)則R對(duì)應(yīng)的最終結(jié)果,數(shù)據(jù)介于0到100之間的實(shí)數(shù),是在檢測(cè)該規(guī)則后所得的結(jié)果。
在評(píng)價(jià)數(shù)據(jù)質(zhì)量時(shí),首先確定要評(píng)價(jià)的數(shù)據(jù)集的評(píng)價(jià)指標(biāo),其次根據(jù)要評(píng)價(jià)的指標(biāo)制定評(píng)價(jià)規(guī)則,再次根據(jù)規(guī)則R的賦予權(quán)值W,給出規(guī)則R的期望E,得到該規(guī)則下的檢查結(jié)果S,最后當(dāng)數(shù)據(jù)質(zhì)量評(píng)價(jià)模型構(gòu)造完成并計(jì)算了每條規(guī)則的結(jié)果后,并可以利用該模型計(jì)算出每個(gè)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量結(jié)果。
假設(shè)數(shù)據(jù)集D對(duì)應(yīng)的規(guī)則集為Ri,規(guī)則Ri的權(quán)值為Wi,期望值為Ei,Ri的計(jì)算結(jié)果分別為Si,由此計(jì)算結(jié)果集D的數(shù)據(jù)質(zhì)量:
數(shù)據(jù)質(zhì)量絕對(duì)量化值:
SA是規(guī)則集R所得結(jié)果得分的加權(quán)平均值,它反映了數(shù)據(jù)集D的真實(shí)的數(shù)據(jù)質(zhì)量狀況,SR反映了規(guī)則集R下所期望結(jié)果得分的加權(quán)平均值,如果SA大于SR說明數(shù)據(jù)質(zhì)量比預(yù)期的好,若小于則數(shù)據(jù)質(zhì)量比預(yù)期的差。
基本規(guī)則
數(shù)據(jù)缺失,該規(guī)則用于評(píng)價(jià)數(shù)據(jù)集D的基礎(chǔ)規(guī)則,包括評(píng)價(jià)數(shù)據(jù)集的字段內(nèi)記錄缺失和字段缺失,記錄缺失,對(duì)待評(píng)價(jià)數(shù)據(jù)集D,數(shù)據(jù)缺失判定規(guī)則如下,則評(píng)價(jià)結(jié)果為:
式中S1是使用規(guī)則R1對(duì)數(shù)據(jù)集中的第一列記錄進(jìn)行評(píng)價(jià)的結(jié)果,其中CMV 是在數(shù)據(jù)集中字段X缺失的記錄數(shù),Cf為數(shù)據(jù)集中字段X的總數(shù),同理,可以得出(2…n)列的評(píng)價(jià)結(jié)果(S2,S3…Sn),也能同步獲取字段記錄缺失評(píng)價(jià)結(jié)果Se,記錄缺失評(píng)價(jià)結(jié)果Sf;
由此可以獲取數(shù)據(jù)集的數(shù)據(jù)缺失評(píng)價(jià)結(jié)果:
邏輯規(guī)則
數(shù)據(jù)集的生成是按照一定的邏輯規(guī)則生成的,并且數(shù)據(jù)的產(chǎn)生應(yīng)該符合生產(chǎn)現(xiàn)場(chǎng)客觀規(guī)律,所以在數(shù)據(jù)集內(nèi)部數(shù)據(jù)記錄間應(yīng)該滿足相應(yīng)的邏輯關(guān)系,我們可以根據(jù)數(shù)據(jù)集內(nèi)部的邏輯關(guān)系建立相應(yīng)的判定規(guī)則,用以評(píng)價(jià)數(shù)據(jù)質(zhì)量,例如在數(shù)據(jù)集中,相同時(shí)間點(diǎn)的總煙產(chǎn)量應(yīng)該比好煙產(chǎn)量數(shù)據(jù)大,單位時(shí)間內(nèi)理論產(chǎn)量大于實(shí)際產(chǎn)量,由此可以建立規(guī)則R2,獲取數(shù)據(jù)質(zhì)量評(píng)價(jià)結(jié)果。對(duì)數(shù)據(jù)集中相同時(shí)間點(diǎn)的第ROW1行,使用邏輯判定規(guī)則,形成如下判定結(jié)果:
式中Cm為m行中不符合邏輯規(guī)則的記錄數(shù),Cf為m行的記錄總數(shù),Sm1為使用邏輯規(guī)則評(píng)價(jià)數(shù)據(jù)集中第m行的評(píng)價(jià)結(jié)果;由此可知,該數(shù)據(jù)集的對(duì)該邏輯評(píng)價(jià)規(guī)則的評(píng)價(jià)得分為:
在生產(chǎn)過程中,由于每個(gè)數(shù)據(jù)功能作用不相同,每個(gè)數(shù)據(jù)在相同的生產(chǎn)單位內(nèi)有相應(yīng)的數(shù)學(xué)特征,如數(shù)據(jù)產(chǎn)量、消耗、故障、時(shí)間數(shù)據(jù),在一個(gè)生產(chǎn)單位時(shí)間內(nèi)只能是單調(diào)增加,或者有電控掉電后,從0開始計(jì)數(shù)的情況;對(duì)某些數(shù)據(jù)是在一定值域范圍內(nèi)波動(dòng),但是這些值不能超過設(shè)定的額定值,如設(shè)備的車速一般在某個(gè)范圍內(nèi)波動(dòng),但車速不會(huì)超過設(shè)備設(shè)定的額定車速,同樣我們也可以通過這些特性建立相應(yīng)的判定規(guī)則,用以獲取數(shù)據(jù)質(zhì)量評(píng)價(jià)結(jié)果[2]。
對(duì)數(shù)據(jù)集的第n列數(shù)據(jù),理論上該行數(shù)據(jù)為單調(diào)增加,我們可以考慮使用數(shù)據(jù)點(diǎn)數(shù)學(xué)特性判定規(guī)則來(lái)評(píng)價(jià)該數(shù)據(jù)集,如下所示:
式中Cn為不符合單調(diào)增加邏輯規(guī)則的記錄,Cf是改行數(shù)據(jù)集的總記錄數(shù),Scn為第n列數(shù)據(jù)評(píng)價(jià)結(jié)果,由此可以得出該數(shù)據(jù)集的邏輯規(guī)則判定的結(jié)果為:
其他規(guī)則在評(píng)價(jià)數(shù)據(jù)質(zhì)量時(shí),我們也可以采用相應(yīng)的其他方法來(lái)建立數(shù)據(jù)判定規(guī)則,如可以建立數(shù)據(jù)的相互驗(yàn)證規(guī)則來(lái),判斷數(shù)據(jù)質(zhì)量,該規(guī)則是一種基于擬合的數(shù)學(xué)模型驗(yàn)證方法,其思想是:給定的樣本數(shù)據(jù)Xij(i=1,2….n,j=1,2…m),我們按照樣本組成字段進(jìn)行拆分,Ai1,Bij-1;
得出相對(duì)誤差后在置信水平條件下找出異常值,當(dāng)相對(duì)誤差在置信區(qū)間外,該記錄被認(rèn)為不符合數(shù)據(jù)一致性規(guī)則,統(tǒng)計(jì)規(guī)則外的記錄為Co,由此可以得到數(shù)據(jù)相互驗(yàn)證評(píng)價(jià)結(jié)果:
式中,CO為數(shù)據(jù)集中,數(shù)據(jù)置信區(qū)間外的記錄數(shù),Cf為記錄總數(shù),Sco為Ai1的評(píng)價(jià)結(jié)果,由此可以獲取數(shù)據(jù)集關(guān)于相互驗(yàn)證規(guī)則的評(píng)價(jià)結(jié)果:
隨著現(xiàn)代卷煙企業(yè)發(fā)展規(guī)模的不斷壯大,技術(shù)革新的不斷進(jìn)行,在激烈的行業(yè)競(jìng)爭(zhēng)環(huán)境下,要想取得輝煌的業(yè)績(jī)和高速的發(fā)展,就必須要有正確經(jīng)營(yíng)決策。新的決策手段需要使用大量的數(shù)據(jù)進(jìn)行支撐,用數(shù)據(jù)說話;在目前的大數(shù)據(jù)背景下,需要我們不僅要注意數(shù)據(jù)的量,也要關(guān)注數(shù)據(jù)的質(zhì),沒有足夠的數(shù)據(jù)就無(wú)法支撐復(fù)雜的數(shù)據(jù)分析,數(shù)據(jù)沒有較高的數(shù)據(jù)質(zhì)量,就無(wú)法保證決策的正確性,信息化與工業(yè)化的兩化融合是企業(yè)提高核心競(jìng)爭(zhēng)力的有效途徑。