大數(shù)據(jù)環(huán)境下基于主客觀賦權(quán)的數(shù)據(jù)質(zhì)量評估方法研究

2020-12-15 08:37:50張文婷

科學(xué)技術(shù)創(chuàng)新 2020年36期

張文婷

（華北電力大學(xué)，北京102200）

隨著互聯(lián)網(wǎng)技術(shù)的普及，進(jìn)入信息化時代，數(shù)據(jù)越來越成為公認(rèn)的最有價值的資產(chǎn)，對于數(shù)據(jù)質(zhì)量高低的研究也越來越成為人們孜孜不倦討論的課題。數(shù)據(jù)質(zhì)量的提升對于公司決策有著重大的作用，但是，由于數(shù)據(jù)的復(fù)雜性，影響因素太多，它們處于不同的層次，同時也具有不同的重要性權(quán)重，很難客觀地評估數(shù)據(jù)質(zhì)量。目前，針對數(shù)據(jù)采集信息系統(tǒng)中數(shù)據(jù)質(zhì)量評估的方法大多是從主觀層面得出，主觀評價依賴性過強(qiáng)[1]。因此，針對質(zhì)量評價體系的評價指標(biāo)的構(gòu)建、評價方法的研究等各個方面的不足，本文采用基于AHP- 信息熵的數(shù)據(jù)挖掘方法，通過挖掘隱藏在指標(biāo)隸屬度中的客觀分類知識信息來定義權(quán)重[2]。按照數(shù)據(jù)質(zhì)量評價指標(biāo)在總評選指標(biāo)中的重要性的不同，分離出決定性的指標(biāo)維度，并且通過熵權(quán)法客觀分析數(shù)據(jù)中隱藏的權(quán)重信息，本文通過實(shí)驗(yàn)驗(yàn)證了所提出模型的有效性，實(shí)現(xiàn)了采集的數(shù)據(jù)質(zhì)量的精準(zhǔn)有效評估。

1 數(shù)據(jù)質(zhì)量評估方法背景

1.1 方法研究的必要性

在如今的大數(shù)據(jù)環(huán)境下，數(shù)據(jù)量十分龐大，數(shù)據(jù)包含的維度也較為復(fù)雜, 如果不能及時地采集到的數(shù)據(jù)進(jìn)行實(shí)時有效的評估，在后續(xù)的工作中，依舊讓臟數(shù)據(jù)參與工作，這對于領(lǐng)導(dǎo)決策、有著非常大的危害作用[2]。數(shù)據(jù)質(zhì)量評估是一項很重要的事情，因?yàn)樗鼘τ诎l(fā)揮數(shù)據(jù)的商業(yè)價值有著非常重大的意義。目前，數(shù)據(jù)質(zhì)量評價方法的實(shí)現(xiàn)主要有兩類，一類是通過人工評價的方式，組成評價小組直接對其進(jìn)行打分，但是，這種人工的方式僅僅適用于人數(shù)較少情況，若是人數(shù)較多，統(tǒng)計起來也同樣費(fèi)時費(fèi)力、結(jié)果也有可能并不準(zhǔn)確；另一種便是基于傳統(tǒng)統(tǒng)計學(xué)的機(jī)器學(xué)習(xí)方法的評估，主要包括灰色理論、神經(jīng)網(wǎng)絡(luò)等，具有一定的表達(dá)能力和學(xué)習(xí)能力，但是考慮的因素過于簡單，對于評估結(jié)果的精確性有一定的影響[3]。因此，受這些想法的啟發(fā)，在傳統(tǒng)統(tǒng)計學(xué)的基礎(chǔ)上，本文對于這些方法做出了改進(jìn)，基于層次分析法和客觀熵權(quán)法對數(shù)據(jù)質(zhì)量評估模型進(jìn)行了深入的研究。

1.2 主客觀賦權(quán)法

層次分析法是一種定性與定量結(jié)合的方法，它能夠?qū)⑽覀兯芯康膯栴}拆分成許多組成因素，并對于這些組成因素賦予不同程度的重要性比較值，根據(jù)相關(guān)關(guān)系及隸屬關(guān)系分成不同的層次，轉(zhuǎn)化為多層次決策型問題[4]。根據(jù)各影響因素的重要程度構(gòu)造重要性矩陣，通過一致性檢驗(yàn)便可使用其最終的權(quán)重結(jié)果。

而熵權(quán)法中的熵值本是評估系統(tǒng)無序程度的一個重要指標(biāo)。在多指標(biāo)權(quán)重的確定過程中，熵權(quán)法的思路是通過各個指標(biāo)間的差異大小來求得權(quán)重值。若計算出的信息熵值較小，表明該指標(biāo)的差異程度越大，在綜合評價中起的作用也就越大，提供的信息越多，所偶得到的該指標(biāo)的權(quán)重值也就越大[5]。在電力質(zhì)量評價、醫(yī)療評估各方面熵權(quán)法都表現(xiàn)出了良好性能。

由于層次分析法（AHP）是根據(jù)專家經(jīng)驗(yàn)構(gòu)造重要性比較矩陣，經(jīng)過逐層檢驗(yàn)得到的主觀權(quán)重值，受到主觀想法影響較多，因此在此基礎(chǔ)上，我們結(jié)合基本不受主觀因素影響僅僅通過數(shù)據(jù)來判斷的熵權(quán)法得到的客觀權(quán)重值，將二者進(jìn)行結(jié)合，能使各指標(biāo)的權(quán)重值配比更加合理，對于數(shù)據(jù)質(zhì)量的評估也更精確，同時也減少了人工的復(fù)雜性與干預(yù)程度。

2 模型及驗(yàn)證

2.1 本文提出的模型

為建立合適的數(shù)據(jù)質(zhì)量評估模型，我們首先需要選定合適的指標(biāo)，我們從準(zhǔn)確性、完整性、依賴性三個角度出發(fā)，選取合適的指標(biāo)。準(zhǔn)確性（T1）：數(shù)據(jù)語義是否準(zhǔn)確（T11）、數(shù)據(jù)的表達(dá)語法是否準(zhǔn)確（T12）、數(shù)據(jù)值是否準(zhǔn)確（T13）；完整性（T2）：數(shù)據(jù)屬性是否完整（T21）、數(shù)據(jù)值域是否完整（T22）、數(shù)據(jù)量規(guī)模是否充足（T23）；依賴性（T3）：數(shù)據(jù)值依賴性（T31）、數(shù)據(jù)格式依賴性（T32）、數(shù)據(jù)格式依賴性（T33）。

對于不同的信息系統(tǒng)，指標(biāo)的貢獻(xiàn)程度也有所差異。例如，各行各業(yè)對于數(shù)據(jù)的準(zhǔn)確性要求是必然的，因此針對此屬性我們需要進(jìn)行詳細(xì)的檢測，必要時需預(yù)先設(shè)置好可參照庫，但某些領(lǐng)域?qū)τ跀?shù)據(jù)值之間的依賴性并沒有提出過高的要求。因此，我們的模型首先采用（1）層次分析法計算權(quán)重值，對各層中的因素進(jìn)行兩兩比較，構(gòu)造出判斷矩陣，我們計劃選取有經(jīng)驗(yàn)的專家構(gòu)造重要性矩陣，使得我們的主觀權(quán)重更加精確，得到權(quán)重值Wij；（2）熵權(quán)法。

（1）本模型對數(shù)據(jù)三個維度的情況進(jìn)行統(tǒng)計，針對各層次各指標(biāo)得到打分值Xij（表示i 層次j 指標(biāo)的打分結(jié)果）；

表1 多層次判斷矩陣

表2 AHP 求得各指標(biāo)權(quán)重結(jié)果表

（2）根據(jù)公式（1）（2）分別計算指標(biāo)信息熵Ei，信息冗余度Di

（3）計算指標(biāo)權(quán)重值

（4）計算組合權(quán)重值

（5）根據(jù)（2）中統(tǒng)計得的各層次各指標(biāo)分?jǐn)?shù)與組合權(quán)重值計算最終得分。

2.2 實(shí)驗(yàn)結(jié)果及驗(yàn)證

以某地交通信息采集系統(tǒng)中的電能質(zhì)量數(shù)據(jù)為實(shí)驗(yàn)對象，對其傳輸?shù)臄?shù)據(jù)進(jìn)行評估，驗(yàn)證本文所提出模型的有效性。

我們首先構(gòu)造多層次的判斷矩陣如表1。

經(jīng)過一致性檢驗(yàn)，其CR<0.1，因此通過了一致性檢驗(yàn)，我們得到各指標(biāo)的AHP 權(quán)重值如表2 所示。

本文根據(jù)所設(shè)定的模型將主觀權(quán)重和客觀權(quán)重分別通過層次分析法和熵權(quán)法算出，并求得了綜合權(quán)重與初始分?jǐn)?shù)相乘，得到了各項指標(biāo)的最終結(jié)果。從結(jié)果可以看出，我們的得分，并不完全依靠主觀評判，也同時擺脫了過于依賴數(shù)據(jù)的客觀結(jié)果，證明了本模型的有效性。

3 結(jié)論

本文通過主客觀賦權(quán)的方法提出了數(shù)據(jù)質(zhì)量評估模型，該模型適用于大多數(shù)的信息采集系統(tǒng)，本文以交通數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)為例，多層次地對采集到的數(shù)據(jù)進(jìn)行了評估，以便于及時匯報其中的差錯數(shù)據(jù)與臟數(shù)據(jù)，為后續(xù)數(shù)據(jù)的應(yīng)用提供強(qiáng)有力的保證。同時本文所提出的維度尚有不足，希望隨著時代的進(jìn)步能夠提出更精確有效的應(yīng)用范圍更為廣泛的數(shù)據(jù)質(zhì)量評估模型。