• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)據(jù)質(zhì)量維度與框架研究綜述

    2018-08-24 07:48:04滿,峰,超,
    關(guān)鍵詞:框架定義維度

    袁 滿, 劉 峰, 曾 超, 謝 蘭

    (1. 東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院, 黑龍江 大慶 163318; 2. 華北油田 數(shù)據(jù)中心, 河北 任丘 062552)

    0 引 言

    隨社會信息化進(jìn)程的不斷加速, 企業(yè)即將由IT時(shí)代進(jìn)入DT時(shí)代, 數(shù)據(jù)在企業(yè)的發(fā)展中將扮演越來越重要的角色。然而, 目前有許多企業(yè)的數(shù)據(jù)質(zhì)量達(dá)不到標(biāo)準(zhǔn), 無法滿足人們對企業(yè)的數(shù)據(jù)質(zhì)量要求。因此, 數(shù)據(jù)質(zhì)量問題得到社會與企業(yè)越來越多的關(guān)注, 如何管控?cái)?shù)據(jù), 保障企業(yè)所存儲數(shù)據(jù)質(zhì)量達(dá)標(biāo), 這是人們一直在研究的問題。在國內(nèi)數(shù)據(jù)質(zhì)量的研究者對完整性、 一致性等的稱謂不同, 例如在文獻(xiàn)[1]中稱其為數(shù)據(jù)質(zhì)量指標(biāo), 在文獻(xiàn)[2]則稱其為數(shù)據(jù)質(zhì)量屬性, 但在文獻(xiàn)[3]則稱其為數(shù)據(jù)質(zhì)量特性或性質(zhì), 目前應(yīng)用比較廣泛的是稱其為數(shù)據(jù)質(zhì)量維度[4]。如果數(shù)據(jù)質(zhì)量維度是研究數(shù)據(jù)質(zhì)量的基礎(chǔ), 則數(shù)據(jù)質(zhì)量框架則是研究數(shù)據(jù)質(zhì)量必不可缺少的體系架構(gòu)。國際和國內(nèi)可用的數(shù)據(jù)質(zhì)量框架有很多, 但國內(nèi)比較常用的只有TDQM(Total Data Quality Management)、 DQAF(Data Quality Assessment Framework)等幾種框架。對如何選擇適合需求的數(shù)據(jù)質(zhì)量框架可能比較迷茫, 因此筆者對數(shù)據(jù)質(zhì)量框架進(jìn)行研究對比, 選擇適合需求的數(shù)據(jù)質(zhì)量框架。

    1 數(shù)據(jù)質(zhì)量定義

    在許多文獻(xiàn)中, 數(shù)據(jù)質(zhì)量DQ(Data Quality)與信息質(zhì)量IQ(Information Quality)兩個術(shù)語通用[5]。目前對數(shù)據(jù)質(zhì)量并沒有一個明確的定義, 但是對于數(shù)據(jù)質(zhì)量的一些定義可以追溯到1996年, Wang等[6]給出了一個初步的定義, 即“適合數(shù)據(jù)消費(fèi)者使用的數(shù)據(jù)”。2001年Redman[7]給出了對數(shù)據(jù)質(zhì)量的定義, 如果數(shù)據(jù)符合其在操作、 決策和規(guī)劃中的預(yù)期用途, 則其具有高質(zhì)量; 如果數(shù)據(jù)沒有缺陷并且具有期望的特征, 則適合使用。2002年Strong等[8]對初步數(shù)據(jù)質(zhì)量的定義進(jìn)行了完善, 認(rèn)為數(shù)據(jù)質(zhì)量是“符合規(guī)格、 滿足或超過消費(fèi)者的期望”。2003年Olson[9]也給出了一個關(guān)于數(shù)據(jù)質(zhì)量的定義“如果數(shù)據(jù)滿足其預(yù)期用途的要求, 那么數(shù)據(jù)具有質(zhì)量”。2009年國際標(biāo)準(zhǔn)化組織ISO 8000將質(zhì)量定義成為“質(zhì)量是一組固有特性滿足要求的程度”[10]。

    2 數(shù)據(jù)質(zhì)量維度

    數(shù)據(jù)質(zhì)量維度是數(shù)據(jù)質(zhì)量評估的基礎(chǔ), 由于不同領(lǐng)域和不同的人對其認(rèn)知差異比較大, 而目前數(shù)據(jù)質(zhì)量越來越趨于規(guī)范。因此筆者從國內(nèi)外最原始的數(shù)據(jù)質(zhì)量維度定義出發(fā), 對其歷史演變進(jìn)行了分析、 研究與總結(jié)對比。

    1) 維度就是提供測量和管理信息數(shù)據(jù)的方式, 維度是由因素(factor)逐漸演變而來, 維度的提出最早追溯到1978年, 人們根據(jù)影響客戶滿意度提出了準(zhǔn)確性、 可靠性、 及時(shí)性、 一致性和充分性等10條因素。1983年Bailey等[11]通過對大量文獻(xiàn)的分析總結(jié)出38條影響用戶滿意度的因素。

    2) 由于不同的人對影響客戶滿意度的因素理解不同, 1985年Bollou等[12]給出了對于準(zhǔn)確性、 及時(shí)性、 完整性和一致性的定義。

    3) Wang等[6]通過兩次調(diào)查得到了消費(fèi)者比較關(guān)心的數(shù)據(jù)質(zhì)量屬性(維度)。第1次調(diào)查得到179個屬性(維度), 第2次調(diào)查得到118個屬性并給出了他們1-9的重要性評分。 然后根據(jù)因素分析方法和因素的穩(wěn)定性方法得出了比較重要的20個屬性(維度), 這些屬性后來減少到15個, 并且根據(jù)初步概念框架分為固有質(zhì)量、 關(guān)聯(lián)方面的質(zhì)量、 代表性方面的質(zhì)量和可訪問性方面的質(zhì)量4大類。并且Wang等[13]通過分析大量文獻(xiàn)總結(jié)出了數(shù)據(jù)質(zhì)量維度的有關(guān)定義。

    ① 準(zhǔn)確性(Accuracy and Precision)。文獻(xiàn)[13]還沒有給出準(zhǔn)確性的明確定義。

    ② 可靠性(Reliability)。 可靠性還沒有普遍接受的定義, 不同文獻(xiàn)對其解釋也不同。

    定義1 信息正確和可靠的程度。

    定義2 可靠性已經(jīng)被認(rèn)為是衡量期望和能力之間的協(xié)議。

    定義3 可靠性是指防止錯誤或失敗的概率。

    定義4 可靠性是指輸出信息的一致性和可靠程度。

    ③ 及時(shí)性(Timeliness and Currency)

    定義5 及時(shí)性是指數(shù)據(jù)是否過時(shí)。

    定義6 及時(shí)性是指輸出時(shí)間的有效性。

    定義7 與及時(shí)性密切相關(guān)的概念是流通性, 解釋為一個數(shù)據(jù)項(xiàng)存儲的時(shí)間。

    ④ 完整性(Completeness)。完整性是記錄某個變量的所有值。

    ⑤ 一致性(Consistency)。分析文獻(xiàn)[13]發(fā)現(xiàn)一致性包括3方面的數(shù)據(jù): 1) 數(shù)據(jù)的值; 2) 數(shù)據(jù)的表示; 3) 數(shù)據(jù)的物理表示。

    4) Strong等[8]根據(jù)對數(shù)據(jù)質(zhì)量維度的理解, 給出了一些數(shù)據(jù)質(zhì)量基本維度定義, 并說明了數(shù)據(jù)質(zhì)量維度如何在PSP/IQ(產(chǎn)品和服務(wù)信息質(zhì)量的性能模型)模型中應(yīng)用, 充分證明了數(shù)據(jù)質(zhì)量維度的重要性。

    5) Matthew等[14]通過對數(shù)據(jù)質(zhì)量的理解總結(jié)了AI1RI2, 即可訪問性、 可解釋性、 相關(guān)性、 完整性的定義。

    可訪問性: 為使用必須能得到信息。

    可解釋性: 能了解任何信息, 并且可以獲得信息的意義。

    相關(guān)性: 在可訪問性和可解釋性的基礎(chǔ)上, 與消費(fèi)者感興趣的領(lǐng)域相關(guān)聯(lián)程度。

    完整性: 得到可解釋和相關(guān)聯(lián)的信息要完整。

    2009年Carlo等[15]總結(jié)出了比較全面的數(shù)據(jù)質(zhì)量維度以及相關(guān)的指標(biāo)。

    數(shù)據(jù)質(zhì)量維度是數(shù)據(jù)質(zhì)量評估的基礎(chǔ), 為確保數(shù)據(jù)質(zhì)量達(dá)到預(yù)期的目標(biāo), 一個完整的數(shù)據(jù)質(zhì)量維度是必不可少的。因此研讀并分析大量有關(guān)數(shù)據(jù)質(zhì)量方面的文獻(xiàn), 可以為使用者提供可參考的數(shù)據(jù)質(zhì)量維度以及數(shù)據(jù)質(zhì)量管控的框架標(biāo)準(zhǔn)。

    若數(shù)據(jù)質(zhì)量維度為質(zhì)量評估提供了基礎(chǔ), 則數(shù)據(jù)質(zhì)量框架則為數(shù)據(jù)質(zhì)量研究提供了完整的體系結(jié)構(gòu)。體系結(jié)構(gòu)為數(shù)據(jù)質(zhì)量的研究提供核心的過程及其之間的關(guān)系, 下面就對數(shù)據(jù)質(zhì)量框架的研究進(jìn)行總結(jié)。

    3 數(shù)據(jù)質(zhì)量框架

    數(shù)據(jù)質(zhì)量框架方法是描述數(shù)據(jù)質(zhì)量的完整體系, 國內(nèi)外提出的數(shù)據(jù)質(zhì)量框架方法有許多種, 但使用者對框架方法在使用時(shí)如何選擇往往比較迷茫, 為此, 筆者將對國內(nèi)外已有的各種典型的數(shù)據(jù)質(zhì)量框架方法進(jìn)行研究和分類對比。

    3.1 國外數(shù)據(jù)質(zhì)量框架方法

    國外根據(jù)數(shù)據(jù)質(zhì)量框架的適用范圍, 通常劃分為Web領(lǐng)域、 協(xié)同、 數(shù)據(jù)倉庫、 分布式、 以及集中式, 下面根據(jù)這5種類別進(jìn)行分類敘述。

    3.1.1 Web領(lǐng)域

    2002年Eppler等[16]提出了適合Web數(shù)據(jù)的信息質(zhì)量框架IQM(Information Quality Measurement), 該方法將數(shù)據(jù)質(zhì)量問題定義為4個階段: 評估計(jì)劃、 評估配置、 評估及后續(xù)活動。IQM方法有助于根據(jù)數(shù)據(jù)質(zhì)量的優(yōu)異支持網(wǎng)站管理員在創(chuàng)建、 管理和維護(hù)網(wǎng)站時(shí)個性化工具選擇; 提供了確保評估所需的數(shù)據(jù)質(zhì)量基本維度, 包括可達(dá)性、 一致性、 時(shí)效性、 簡潔性、 可維護(hù)性、 流通性和適用性等。此外, 還包括兩套準(zhǔn)則, 即定義數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)的信息質(zhì)量框架準(zhǔn)則和執(zhí)行質(zhì)量評估行動計(jì)劃準(zhǔn)則。

    3.1.2 協(xié)同系統(tǒng)領(lǐng)域數(shù)據(jù)質(zhì)量框架

    適合協(xié)同系統(tǒng)數(shù)據(jù)質(zhì)量框架包括ISTAT(ISTAT Methodology)方法、 DaQuinCIS(Data Quality in Cooperative Information Systems)方法、 DQAF方法和CDQ(Comprehensive Methodology for Data Quality Management)方法。

    1) ISTAT方法。ISTAT方法是2003年Falorsi等[17]為意大利國家統(tǒng)計(jì)局普查收集和維護(hù)意大利公民和企業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量而提出的。該方法解決如何保證從多個地方的數(shù)據(jù)庫匯集到中央數(shù)據(jù)集的質(zhì)量問題。該方法定義了評估階段、 全面改善階段、 地方數(shù)據(jù)庫的改善活動和中央?yún)f(xié)調(diào)數(shù)據(jù)庫改善活動階段, 同時(shí)提供了多種簡單而有效的質(zhì)量測量統(tǒng)計(jì)技術(shù)。此外, 它還提供了數(shù)據(jù)清洗工具, 2004年意大利國家統(tǒng)計(jì)局在該方法的基礎(chǔ)之上制定了一系列規(guī)范[18]。

    2) DaQuinCIS方法。2004年Scannapieco[19]提出了DaQuinCIS方法, 定義了數(shù)據(jù)質(zhì)量定義、 質(zhì)量分析、 質(zhì)量評估, 質(zhì)量認(rèn)證和質(zhì)量改進(jìn)5個階段。該方法涉及準(zhǔn)確性、 完整性、 一致性、 流通性和可信性等維度, 而且其對數(shù)據(jù)質(zhì)量具有很好的擴(kuò)展性。DaQuinCIS方法解決了協(xié)同系統(tǒng)中數(shù)據(jù)質(zhì)量問題: 即一個是數(shù)據(jù)質(zhì)量取決于組織間的信任, 另一個是差的數(shù)據(jù)質(zhì)量可能會阻礙合作。為解決第1個問題, DaQuinCIS方法引入了數(shù)據(jù)質(zhì)量認(rèn)證的概念, 該概念是將數(shù)據(jù)與相應(yīng)的質(zhì)量措施聯(lián)系起來, 而且這些措施隨數(shù)據(jù)在組織間進(jìn)行交換; 第2個問題通過提供基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)選擇機(jī)制得到解決, 通過這種方式, 利用協(xié)同實(shí)現(xiàn)提高數(shù)據(jù)質(zhì)量。

    3) DQAF方法。國際貨幣基金組織(IMF)的數(shù)據(jù)質(zhì)量評估框架旨在提供一個通用的數(shù)據(jù)質(zhì)量評估框架(DQAF)和一個共同的方法[20], 該通用數(shù)據(jù)質(zhì)量評估框架采用級聯(lián)式結(jié)構(gòu), 它能描述全部數(shù)據(jù)集中共有的數(shù)據(jù)質(zhì)量維度, 其他數(shù)據(jù)集也可共享這些維度。整個評估框架包括從保障數(shù)據(jù)質(zhì)量的法律和制度環(huán)境再到數(shù)據(jù)質(zhì)量維度誠信保證、 方法的健全性、 準(zhǔn)確性和可靠性、 適用性、 可獲取性6個維度。DQAF具有一些鮮明特點(diǎn): ① 在結(jié)構(gòu)方面, 該評估框架將數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)按照“從共性到特性”的遞進(jìn)順序進(jìn)行組織, 從而增加了應(yīng)用中的靈活性和可操作性; ② 在內(nèi)容方面, 該評估框架不僅涵蓋了反映數(shù)據(jù)質(zhì)量主要維度指標(biāo), 而且還考慮了與數(shù)據(jù)質(zhì)量相關(guān)的統(tǒng)計(jì)體系的法制環(huán)境, 拓展了對數(shù)據(jù)質(zhì)量評估與管理的范圍; ③ 在6個專項(xiàng)評估框架之間, 既保持了基本結(jié)構(gòu)和內(nèi)容的一致, 又充分體現(xiàn)了各個特定數(shù)據(jù)集的技術(shù)特色, 強(qiáng)化了數(shù)據(jù)質(zhì)量評估規(guī)范的統(tǒng)一性和專業(yè)性。

    4) CDQ方法。2006年Batini等[21]對數(shù)據(jù)質(zhì)量的內(nèi)容、 方法論、 改進(jìn)技術(shù)和工具進(jìn)行介紹, 并對CDQ方法有了初步的構(gòu)思。2008年, Batini等[22]在前人研究的基礎(chǔ)上提出了CDQ框架方法。該方法定義了狀態(tài)重建、 評估和最佳改進(jìn)過程選擇3個階段。最后, 通過執(zhí)行成本效益分析選擇最合適的改進(jìn)過程。CDQ方法是通過考慮現(xiàn)有的技術(shù)和工具, 并將它們整合到一個可以在組織內(nèi)和組織間工作的框架中, 并且可應(yīng)用于所有數(shù)據(jù)類型, 包括結(jié)構(gòu)化、 半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。該方法是靈活的, 因?yàn)樗С钟脩粼诿總€階段和任何上下文中選擇最合適的技術(shù)和工具。并且CDQ方法對質(zhì)量維度具有很好的擴(kuò)展能力。CDQ框架比較簡單, 主要是因?yàn)樗蛛A段組織, 每個階段都具有特定目標(biāo)。

    3.1.3 數(shù)據(jù)倉庫領(lǐng)域

    DWQ(The Datawarehouse Quality Methodology)方法是在1998年由Jeusfeld等[23]在歐洲的數(shù)據(jù)倉庫質(zhì)量項(xiàng)目的基礎(chǔ)上提出的, 它適合于數(shù)據(jù)倉庫領(lǐng)域的數(shù)據(jù)質(zhì)量管控。

    DWQ是用于解決數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量問題的, 考慮質(zhì)量目標(biāo)的多樣性, 定義了相應(yīng)的元數(shù)據(jù)。將整個過程劃分為定義、 測量、 分析以及改進(jìn)4個階段。維度除了定義了一致性、 及時(shí)性和可訪問性之外, 還定義了準(zhǔn)確性(Accuracy)和完整性(Completeness)[24], 同時(shí)也包括了Wang等[25]提出的4類數(shù)據(jù)質(zhì)量維度, 即固有、 關(guān)聯(lián)、 代表性和可訪問性的數(shù)據(jù)質(zhì)量維度, 還包括其他一些維度, 例如數(shù)據(jù)驗(yàn)證(Data Validation)、 可追溯性(Traceability)、 可信性(Credibility)和20多個維度周期(Cycle Time)等, 該方法對維度具有很好的擴(kuò)展性, 但DWQ只提供一般流程建模的步驟, 并沒有提供執(zhí)行的細(xì)節(jié)。

    3.1.4 分布式系統(tǒng)領(lǐng)域

    適合分布式系統(tǒng)領(lǐng)域的數(shù)據(jù)質(zhì)量框架包括TDQM方法、 TIQM(Total Information Quality Management)方法、 AIMQ(A Methodology for Information Quality Assessment)方法、 CIHI(Canadian Institute for Health Information Methodology)方法、 DQA(Data Quality Assessment)方法、 ISTAT方法、 DaQuinCIS方法和CDQ方法。

    1) TDQM方法。1998年, Wang等[26]提出全面數(shù)據(jù)質(zhì)量管理(TDQM)方法。該方法根據(jù)戴明環(huán)原理建立了全面數(shù)據(jù)質(zhì)量管理的循環(huán)周期, 即定義、 測量、 分析以及改進(jìn)4個階段, 并且把文獻(xiàn)[6]提出的四大類15種維度運(yùn)用到該方法中。其缺點(diǎn)是該方法中的質(zhì)量維度是固定的, 不能得到擴(kuò)展。該方法是在文獻(xiàn)[27]提出的全面質(zhì)量管理(TQM)方法的擴(kuò)展, 目前, 很多企業(yè)都使用TQM方法保證產(chǎn)品的質(zhì)量, 但它在支持決策等方面存在一些不足。

    2) TIQM方法。1999年, English[28]提出了支持?jǐn)?shù)據(jù)倉庫項(xiàng)目的TIQM方法。該方法假定將數(shù)據(jù)源合并成一個特殊的一體化的數(shù)據(jù)庫, 用于提供聚合構(gòu)建數(shù)據(jù)倉庫時(shí)所需的所有數(shù)據(jù)類型, 這種集成消除了源數(shù)據(jù)庫的錯誤和異質(zhì)性。TIQM方法從管理員的角度定義3個階段: 評估、 改進(jìn)以及改進(jìn)管理和監(jiān)測, 其中第3階段提供了根據(jù)數(shù)據(jù)質(zhì)量管理要求以及用于成本效益評估的經(jīng)濟(jì)學(xué)方法。目標(biāo)是不僅實(shí)現(xiàn)更高的數(shù)據(jù)質(zhì)量水平, 而且只在經(jīng)濟(jì)效益可行的情況下才采取改進(jìn)行動。TIQM重點(diǎn)關(guān)注了負(fù)責(zé)運(yùn)營數(shù)據(jù)源整合的管理活動, 并且為管理員更好地進(jìn)行成本效益的分析, 提供了成本和收益的詳細(xì)分類。TIQM方法的有關(guān)維度包括完整性(Completeness), 業(yè)務(wù)規(guī)則一致性(Business Rules Conformance), 準(zhǔn)確性(Accuracy)和成本(Cost)等, 但是不足之處是數(shù)據(jù)質(zhì)量維度是固定的。

    3) AIMQ方法。AIMQ方法是2002年由Lee等[29]提出的。首先該方法通過調(diào)查得出一個矩陣信息質(zhì)量產(chǎn)品和服務(wù)績效矩陣(PSP/IQ), 以及根據(jù)用戶和管理員的觀點(diǎn)對Wang等[6]確定的數(shù)質(zhì)量維度進(jìn)行分類, 并且開發(fā)了信息質(zhì)量評估工具(IQA)。該方法系統(tǒng)地把信息質(zhì)量的評估和改進(jìn)結(jié)合起來, 操作性比較好; 定義了評估以及評估分析和解釋兩個階段, 但是其只關(guān)注評估活動, 而沒有提供改進(jìn)活動的指南、 技術(shù)和工具。雖然AIMQ方法是目前為止唯一關(guān)注信息質(zhì)量基準(zhǔn)方法, 但是其對應(yīng)用所需的基準(zhǔn)數(shù)據(jù)庫沒有提供任何描述, 只是提倡用差距分析技術(shù)作為基準(zhǔn)和解釋結(jié)果的標(biāo)準(zhǔn)方法。特別是建議兩種差距分析技術(shù): 一個是信息質(zhì)量基準(zhǔn)差距, 另一個是信息質(zhì)量角色差距。前者是將一個組織的數(shù)據(jù)質(zhì)量值與最佳實(shí)踐組織的數(shù)據(jù)質(zhì)量值進(jìn)行比較。后者比較了由不同組織角色提供的數(shù)據(jù)質(zhì)量評估, 即IS專業(yè)人員和信息用戶。這是一個客觀的和特定領(lǐng)域的技術(shù)數(shù)據(jù)質(zhì)量評估方法。

    4) DQA方法。2002年, Pipino等[30]提出了指導(dǎo)數(shù)據(jù)質(zhì)量指標(biāo)定義的一般性原則的DQA方法。該方法定義了主觀和客觀評估、 主觀和客觀評估對比以及改進(jìn)3個階段。在該方法中數(shù)據(jù)質(zhì)量指標(biāo)大多被定義為特定的, 即用于解決特定問題的指標(biāo), 因此數(shù)據(jù)質(zhì)量指標(biāo)取決于所考慮的問題。該方法是主觀和客觀質(zhì)量指標(biāo)的結(jié)合, 主觀質(zhì)量指標(biāo)反映的是信息用戶的需求, 而客觀指標(biāo)被劃分為任務(wù)獨(dú)立和任務(wù)相關(guān)兩部分。

    5) CIHI方法。2005年, Long等[31]為實(shí)現(xiàn)評估和提高加拿大健康信息研究所的數(shù)據(jù)質(zhì)量, 提出了CIHI方法。CIHI方法主要解決的是數(shù)據(jù)庫規(guī)模及其異質(zhì)性質(zhì)量。CIHI方法支持選擇一個數(shù)據(jù)子集進(jìn)行質(zhì)量評估, 同時(shí)還定義了評估異質(zhì)性指標(biāo)。該方法把質(zhì)量評估劃分為兩個階段: 一個是質(zhì)量框架的定義, 另一個是對訪問頻率高的數(shù)據(jù)的深入分析。其中第1階段又包括3步: 數(shù)據(jù)質(zhì)量信息的標(biāo)準(zhǔn)化、 制定數(shù)據(jù)質(zhì)量評估策略和為CIHI數(shù)據(jù)管理定義一個識別數(shù)據(jù)質(zhì)量優(yōu)先級并實(shí)施持續(xù)數(shù)據(jù)改進(jìn)程序的工作流程。第2階段也分為3步: 數(shù)據(jù)質(zhì)量分析、 評估和文件報(bào)告。

    3.1.5 集中式系統(tǒng)領(lǐng)域

    很多數(shù)據(jù)質(zhì)量框架一般都適合在集中式系統(tǒng)中使用, 下面給出用于集中系統(tǒng)領(lǐng)域的COLDQ(Cost-Effect of Low Data Quality)方法和QAFD(Methodology for the Quality Assessment of Financial Data)方法。

    1) COLDQ方法。2004年, Loshin[32]為對獲得不良信息對業(yè)務(wù)流程影響程度的定量評估, 提出了COLDQ方法。COLDQ定義了6個階段: 信息鏈映射(Mapping the Information Chain)、 分析(Analysis)、 隔離缺陷數(shù)據(jù)(Isolating Flawed Data)、 識別影響域(Identifying the Impact Domain)、 評估成本(Evalution of Costs)和聚合(Aggregating the Total), 并且提供了一個影響經(jīng)濟(jì)效益的分類, 而且還為每個分類賦予了一個經(jīng)濟(jì)值。最后, 通過評估和匯總質(zhì)量改進(jìn)項(xiàng)目的成本支持成本效益分析。COLDQ方法的基本目標(biāo)是提供一個數(shù)據(jù)質(zhì)量記分卡, 以支持對低數(shù)據(jù)質(zhì)量的成本效應(yīng)的評估, 與TIQM相似, 提供了一個成本與利益的詳細(xì)分類。由于該方法采用了改進(jìn)技術(shù), 避免了低質(zhì)量成本, 可獲得直接效益。COLDQ方法的有關(guān)維度包括模式層的全面性(Comprehensiveness)、 靈活性等以及關(guān)于數(shù)據(jù)的冗余性(Redundancy)、 成本(Cost)等, 但數(shù)據(jù)質(zhì)量維度在該方法中是固定的。

    2) QAFD方法。2004年, Amicis等[33]提出了QAFD方法。QAFD方法定義了財(cái)務(wù)變量選擇、 分析和數(shù)據(jù)模型支持的客觀評估、 業(yè)務(wù)專家、 客戶和數(shù)據(jù)質(zhì)量專家的主觀評估以及客觀和主觀評估對比的5個階段。該方法結(jié)合了定量和定性評估的方法確定數(shù)據(jù)質(zhì)量問題和選擇適當(dāng)?shù)臄?shù)據(jù)質(zhì)量改進(jìn)措施。分析階段主要是確定語法/語義準(zhǔn)確性、 內(nèi)部/外部一致性、 完整性、 流通性和唯一性維度的規(guī)則, 但該方法的維度是固定的。QAFD方法是目前為止財(cái)務(wù)領(lǐng)域數(shù)據(jù)質(zhì)量評估的唯一方法, 已被確定為金融業(yè)務(wù)數(shù)據(jù)的措施標(biāo)準(zhǔn), 從而減少質(zhì)量測量工具的成本。

    3.2 國內(nèi)數(shù)據(jù)質(zhì)量框架方法

    雖然國外提出了很多數(shù)據(jù)質(zhì)量框架方法, 但國內(nèi)研究者根據(jù)已有研究領(lǐng)域也提出了一些框架方法。下面對國內(nèi)的一些數(shù)據(jù)質(zhì)量框架進(jìn)行詳細(xì)闡述。

    1) AMEQ方法。2004年Su等[34]為符合組織目標(biāo)的產(chǎn)品信息質(zhì)量(PIQ)評估和改進(jìn)提供嚴(yán)格的理論基礎(chǔ)而提出了AMEQ(Activity-based Measuring and Evaluating of Product Information Quality Methodology)方法, 并定義了5個階段: 建立數(shù)據(jù)質(zhì)量環(huán)境、 定義、 評估、 分析和改進(jìn)。該方法在第1階段使用了信息質(zhì)量管理成熟度網(wǎng)格評估數(shù)據(jù)質(zhì)量環(huán)境, 在第4和第5階段用于評估制造公司的數(shù)據(jù)質(zhì)量, 并且提供了一種方法和方法論指導(dǎo)信息和生產(chǎn)相關(guān)流程的建模。該方法通過面向?qū)ο蠼5姆椒▽I(yè)務(wù)過程中相應(yīng)的信息產(chǎn)品進(jìn)行建模, 并且建立了8個模型: 人力資源、 信息資源、 企業(yè)活動、 資源輸入、 資源流程、 資源輸出、 績效測量和企業(yè)目標(biāo)。AMEQ方法的維度是根據(jù)業(yè)務(wù)活動的相關(guān)性進(jìn)行定義和分類的, 具有很好的擴(kuò)展能力。但是AMEQ方法不提供具體的實(shí)施方法和工具, 只是從理論上提供一般性指導(dǎo)。

    2) 模塊功能可定制的數(shù)據(jù)清洗框架。由于市場上的各種數(shù)據(jù)抽取、 轉(zhuǎn)化和裝載工具或多或少提供了一些數(shù)據(jù)清洗功能, 但是都缺乏擴(kuò)展性。因此郭志懋等[1]較早地認(rèn)識到數(shù)據(jù)質(zhì)量研究的重要價(jià)值, 并開展了一系列的研究工作, 提出了一個模塊功能可定制的數(shù)據(jù)清洗框架和一種基于N-Gram的相似重復(fù)記錄檢測方法, 在一定程度上解決了記錄檢測問題, 但該方法不適用于中文數(shù)據(jù)環(huán)境, 后來針對中文特性研究了一種檢測多語言數(shù)據(jù)重復(fù)記錄的綜合方法。

    3) 數(shù)據(jù)質(zhì)量評估模型。楊青云等[35]使用了6元組的形式描述數(shù)據(jù)質(zhì)量評估模型, 經(jīng)過4個步驟構(gòu)造數(shù)據(jù)質(zhì)量評估模型: 確定數(shù)據(jù)集評估應(yīng)用視圖、 選擇評估指標(biāo)、 制定規(guī)則集和計(jì)算規(guī)則結(jié)果得分。該模型是一個6元組M={D,I,R,W,E,S},D需進(jìn)行評估的數(shù)據(jù)集;I進(jìn)行評估的指標(biāo);R與評估指標(biāo)相對應(yīng)的規(guī)則, 規(guī)則可使用規(guī)范化的自然語言或形式化語言書寫, 以便于轉(zhuǎn)換成程序腳本。W給予規(guī)則的權(quán)值, 描述了該規(guī)則在所有規(guī)則中所占的比重;E對規(guī)則R給出的期望值, 是在評估之前對該規(guī)則所期望得到的結(jié)果;S是最終的結(jié)果, 給出了構(gòu)造模型的方法和如何計(jì)算指標(biāo)。該模型的主要創(chuàng)新是對于數(shù)據(jù)質(zhì)量的評估給出了量化的指標(biāo)。

    4) 數(shù)據(jù)清洗的框架。莊曉青等[36]對數(shù)據(jù)質(zhì)量及其在數(shù)據(jù)倉庫中的應(yīng)用進(jìn)行了研究, 他們主要是對數(shù)據(jù)質(zhì)量進(jìn)行分類并提出對這些分類的解決方法, 并在其基礎(chǔ)上提出了一個數(shù)據(jù)清洗的框架。一般的數(shù)據(jù)清理被分為以下幾個階段: 數(shù)據(jù)分析, 定義清理, 執(zhí)行清理和數(shù)據(jù)清理的一般框架。其框架分成清理設(shè)計(jì)工具和清理工具。清理設(shè)計(jì)工具完成清理的前兩個階段,將設(shè)計(jì)的結(jié)果保存到清理元數(shù)據(jù)庫中, 清理工具根據(jù)清理元數(shù)據(jù)庫中的元數(shù)據(jù)自動進(jìn)行清理。清理設(shè)計(jì)工具采用圖形化界面, 用戶可直接讀取原始數(shù)據(jù)進(jìn)行原始數(shù)據(jù)分析, 然后設(shè)計(jì)清理流程。一般具有自動發(fā)現(xiàn)數(shù)據(jù)問題的功能, 使用數(shù)據(jù)剖析和數(shù)據(jù)挖掘的方法進(jìn)行自動分析發(fā)現(xiàn)。清理工具一般采用批量處理的方法將輸入數(shù)據(jù)清理, 然后輸出到目的地。

    4 質(zhì)量框架模型對比

    通過上面的文獻(xiàn)調(diào)研, 將各個模型對不同因素支持的程度列在表1中。不同的行業(yè)或企業(yè)可依據(jù)其對數(shù)據(jù)質(zhì)量的需求進(jìn)行參考和選擇。

    表1 數(shù)據(jù)質(zhì)量框架比較

    5 結(jié) 語

    通過對數(shù)據(jù)質(zhì)量維度和數(shù)據(jù)質(zhì)量框架方法的分析與對比研究, 明確了數(shù)據(jù)質(zhì)量維度的定義及其與指標(biāo)的關(guān)系。同時(shí)通過對數(shù)據(jù)框架的分析、 對比研究, 明確了不同的數(shù)據(jù)質(zhì)量框架的應(yīng)用范圍以及所包含的質(zhì)量維度, 對于領(lǐng)域選擇適合數(shù)據(jù)質(zhì)量框架和數(shù)據(jù)質(zhì)量維度, 對數(shù)據(jù)質(zhì)量的整體評估和改進(jìn)都有很重要的作用。上述研究成果為具體應(yīng)用選擇適合需求的數(shù)據(jù)質(zhì)量框架、 維度與指標(biāo)提供了科學(xué)的依據(jù)。為企業(yè)實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的管控節(jié)省大量的時(shí)間、 人力和物力。相關(guān)領(lǐng)域的數(shù)據(jù)質(zhì)量框架相對已經(jīng)比較成熟, 但是不同的領(lǐng)域需求會有所不同, 此外, 不同領(lǐng)域?qū)?shù)據(jù)質(zhì)量維度與指標(biāo)的需求也會有所差別, 但是未來不同的領(lǐng)域會借鑒已有的數(shù)據(jù)質(zhì)量框架進(jìn)行完善與補(bǔ)充, 必將朝著領(lǐng)域標(biāo)準(zhǔn)化的質(zhì)量框架方向發(fā)展。

    猜你喜歡
    框架定義維度
    框架
    廣義框架的不相交性
    淺論詩中“史”識的四個維度
    中華詩詞(2019年7期)2019-11-25 01:43:00
    WTO框架下
    法大研究生(2017年1期)2017-04-10 08:55:06
    光的維度
    燈與照明(2016年4期)2016-06-05 09:01:45
    “五個維度”解有機(jī)化學(xué)推斷題
    成功的定義
    山東青年(2016年1期)2016-02-28 14:25:25
    一種基于OpenStack的云應(yīng)用開發(fā)框架
    人生三維度
    吐魯番(2014年2期)2014-02-28 16:54:43
    修辭學(xué)的重大定義
    栾城县| 岑溪市| 遂昌县| 东山县| 湖口县| 蕉岭县| 湖州市| 湘乡市| 嵊泗县| 长兴县| 徐州市| 湾仔区| 义乌市| 新龙县| 香港| 巢湖市| 民勤县| 开阳县| 南充市| 枣阳市| 易门县| 金溪县| 新巴尔虎左旗| 湘潭市| 云和县| 双江| 临江市| 桑日县| 贵南县| 通州区| 宜阳县| 鄂伦春自治旗| 岳西县| 长治市| 青海省| 巴楚县| 马鞍山市| 肥乡县| 西吉县| 曲松县| 普安县|