• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)的質(zhì)量問(wèn)題分析

      2020-05-23 15:45:19衛(wèi)鑫
      關(guān)鍵詞:數(shù)據(jù)質(zhì)量大數(shù)據(jù)

      【摘 要】如今,大數(shù)據(jù)是一種不斷增長(zhǎng)的技術(shù)。大數(shù)據(jù)有很多用途;人工智能、醫(yī)療保健、商業(yè)等等。因此,有必要對(duì)所獲取的大量數(shù)據(jù)進(jìn)行預(yù)處理與分析,以確保使用和生成的數(shù)據(jù)具有更高的質(zhì)量。如果想擁有較高質(zhì)量的大數(shù)據(jù),那么它的獲取規(guī)則、管理架構(gòu)等條件必須得到滿足。本文從數(shù)據(jù)本身、數(shù)據(jù)管理、數(shù)據(jù)處理和數(shù)據(jù)用戶的角度出發(fā),提出了需要測(cè)量的主要大數(shù)據(jù)質(zhì)量因素。這項(xiàng)研究強(qiáng)調(diào)了質(zhì)量因素,這些因素在以后可能會(huì)用于創(chuàng)建不同的大數(shù)據(jù)質(zhì)量模型。

      【關(guān)鍵詞】大數(shù)據(jù)、數(shù)據(jù)質(zhì)量、回歸規(guī)模

      1 引言

      大數(shù)據(jù)概念已經(jīng)使用了這么多年,研究人員在1944年以“信息爆炸”的名義開(kāi)始注意到它。在信息技術(shù)領(lǐng)域,“大數(shù)據(jù)”一詞最早是在1980年由Charles Telly使用的。Tim O'Reilly在2005年定義了我們今天所知道的術(shù)語(yǔ)“大數(shù)據(jù)”。這一術(shù)語(yǔ)將于2013年出現(xiàn)在牛津詞典中。此后,許多研究者從定義、應(yīng)用、技術(shù)、工具和質(zhì)量等方面對(duì)“大數(shù)據(jù)”進(jìn)行了討論。而現(xiàn)在的大數(shù)據(jù)是一個(gè)術(shù)語(yǔ),用來(lái)描述一個(gè)企業(yè)或系統(tǒng)日常的大量數(shù)據(jù),它可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的或非結(jié)構(gòu)化的。

      軟件質(zhì)量是軟件開(kāi)發(fā)的一個(gè)基本過(guò)程。它是“軟件產(chǎn)品滿足既定需求的程度;然而,質(zhì)量取決于這些既定需求準(zhǔn)確表示涉眾需求、愿望和期望的程度”。數(shù)據(jù),作為任何軟件產(chǎn)品的四大支柱之一,它必須盡可能高質(zhì)量,以確保它不會(huì)在系統(tǒng)中產(chǎn)生任何故障或失效。本文主要對(duì)大數(shù)據(jù)的質(zhì)量因素和問(wèn)題進(jìn)行了討論,以幫助大數(shù)據(jù)生產(chǎn)者,分析師和用戶衡量他們的大數(shù)據(jù)質(zhì)量。

      2 大數(shù)據(jù)基本特征

      如今,大數(shù)據(jù)涉及許多領(lǐng)域,如社交媒體、人工智能、機(jī)器學(xué)習(xí)、醫(yī)療保健、電力和核系統(tǒng)等等。2001年,Doug Laney[8]提出了大數(shù)據(jù)的三大主要特征,后來(lái)被稱為“大數(shù)據(jù)的三個(gè)V”:

      1、容量(Volume):大數(shù)據(jù),顧名思義,是需要處理和存儲(chǔ)的海量數(shù)據(jù);

      2、速度(Velocity):是通過(guò)系統(tǒng)移動(dòng)數(shù)據(jù)的速度。面對(duì)如此龐大的數(shù)據(jù)量,移動(dòng)數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn);

      3、多樣性(Variety):大數(shù)據(jù)是不同類型數(shù)據(jù)(圖像、視頻、音頻、文本等)的巨大集合。此外,收集的數(shù)據(jù)的格式和呈現(xiàn)方式也不同。

      大數(shù)據(jù)的特點(diǎn)和應(yīng)用提出了大數(shù)據(jù)質(zhì)量問(wèn)題。任何將要使用它的應(yīng)用程序都必須確保數(shù)據(jù)具有高質(zhì)量標(biāo)準(zhǔn),這是生成良好質(zhì)量系統(tǒng)的強(qiáng)制性要求。主要考慮大數(shù)據(jù)的質(zhì)量因素與傳統(tǒng)數(shù)據(jù)集相同。此外,一些額外的質(zhì)量因素,處理大量的數(shù)據(jù),如數(shù)據(jù)管理和修復(fù)。

      在以往的研究中,大多數(shù)研究者都討論了傳統(tǒng)數(shù)據(jù)的質(zhì)量因素。然而,傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)有許多相似的質(zhì)量因素,它們?cè)谫|(zhì)量應(yīng)用和度量上存在差異。

      在文獻(xiàn)[2-3]中,研究人員描述了網(wǎng)站數(shù)據(jù)的六個(gè)質(zhì)量評(píng)估標(biāo)準(zhǔn):權(quán)威性、準(zhǔn)確性、客觀性、通用性、覆蓋率/預(yù)期受眾和交互/交易特征。另一位研究人員討論了網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量,并與用戶進(jìn)行測(cè)試,以確定每種數(shù)據(jù)的重要性級(jí)別。另一位研究人員提出了六個(gè)質(zhì)量指標(biāo),包括貨幣、可用性、信息噪音比、權(quán)威性、流行性和凝聚力,以進(jìn)行調(diào)查。文獻(xiàn)[4]中引入了一個(gè)新的質(zhì)量模型,稱為IQIP(Identify,Quantify,Implement,and Perfect)。他們總結(jié)了最常見(jiàn)的不同的數(shù)據(jù)質(zhì)量/信息質(zhì)量框架。該模型作為一種管理互聯(lián)網(wǎng)爬蟲(chóng)搜索引擎質(zhì)量相關(guān)算法的選擇和實(shí)現(xiàn)的方法。

      3 大數(shù)據(jù)質(zhì)量挑戰(zhàn)

      大數(shù)據(jù)的準(zhǔn)確性、完整性、冗余性、可讀性、可訪問(wèn)性、一致性、信任度是主要的數(shù)據(jù)和大數(shù)據(jù)質(zhì)量因素。每個(gè)因素都與一個(gè)或多個(gè)必須滿足的質(zhì)量標(biāo)準(zhǔn)相關(guān)聯(lián),以滿足質(zhì)量因素。

      此外,對(duì)于大數(shù)據(jù)開(kāi)發(fā)人員來(lái)說(shuō),還有一些特性需要討論,這些特性是:準(zhǔn)確性;數(shù)據(jù)源的多樣性和處理的復(fù)雜性是評(píng)估大數(shù)據(jù)質(zhì)量的一個(gè)挑戰(zhàn)??勺冃?大數(shù)據(jù)類型和格式的變化可能導(dǎo)致質(zhì)量的巨大差異??赡苄枰~外的工作和資源來(lái)識(shí)別、處理和過(guò)濾低質(zhì)量的數(shù)據(jù),以減少工作量和成本增加數(shù)據(jù)的有用性。價(jià)值;大數(shù)據(jù)在處理和過(guò)濾大數(shù)據(jù)時(shí)所傳遞的價(jià)值是什么?這個(gè)問(wèn)題是大數(shù)據(jù)分析師面臨的主要挑戰(zhàn)。大數(shù)據(jù)質(zhì)量的衡量不僅僅是數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量管理(DQM)也是一個(gè)必須考慮的質(zhì)量挑戰(zhàn),DQM在大數(shù)據(jù)質(zhì)量度量中起著關(guān)鍵的作用,大數(shù)據(jù)生命周期的每個(gè)階段都必須根據(jù)一些質(zhì)量規(guī)則來(lái)衡量。

      大數(shù)據(jù)的生存周期圖如圖1所示,而DQM有五個(gè)主要步驟,可總結(jié)如下:

      1)人員:項(xiàng)目經(jīng)理、組織變革經(jīng)理、業(yè)務(wù)/數(shù)據(jù)分析師是任何數(shù)據(jù)質(zhì)量管理的關(guān)鍵角色;

      2)數(shù)據(jù)分析:數(shù)據(jù)審查、比較、報(bào)告和統(tǒng)計(jì)分析,以檢查數(shù)據(jù)的準(zhǔn)確性或找到使用可用數(shù)據(jù)的最佳方法;

      3)定義數(shù)據(jù)質(zhì)量:在此階段創(chuàng)建并定義數(shù)據(jù)的質(zhì)量規(guī)則;

      4)數(shù)據(jù)報(bào)告:刪除和報(bào)告所有泄露數(shù)據(jù);

      5)數(shù)據(jù)修復(fù):在這個(gè)階段,修復(fù)和更改數(shù)據(jù)的最佳方法。

      大數(shù)據(jù)生命周期也引入了質(zhì)量因素和需要衡量的問(wèn)題。因此,大數(shù)據(jù)的質(zhì)量因素包括關(guān)注數(shù)據(jù)本身以及大數(shù)據(jù)管理和用戶需求的因素。

      外國(guó)學(xué)者曾做過(guò)一項(xiàng)關(guān)于大數(shù)據(jù)的品質(zhì)因素研究,在這項(xiàng)研究中,這些品質(zhì)因素被分為四類,取決于他們的視角,這些類別是:

      數(shù)據(jù)透視圖:關(guān)注數(shù)據(jù)質(zhì)量因素,這些與通常的數(shù)據(jù)質(zhì)量因素非常相似;

      管理視角:如何從管理的角度處理數(shù)據(jù);

      處理和服務(wù)視角:如何使用和分析數(shù)據(jù);

      最后是用戶視角:如何將這些大數(shù)據(jù)交付給目標(biāo)用戶并使其可視化。

      一個(gè)國(guó)外的研究小組曾經(jīng)也進(jìn)行了四個(gè)獨(dú)立的、特定領(lǐng)域的大數(shù)據(jù)應(yīng)用案例研究。這些案例研究是對(duì)大數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問(wèn)題是否與傳統(tǒng)規(guī)模的數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問(wèn)題在原因、表現(xiàn)形式或檢測(cè)方面有本質(zhì)不同的問(wèn)題進(jìn)行的初步調(diào)查。這項(xiàng)研究從多個(gè)層面探討了影響大數(shù)據(jù)質(zhì)量的幾個(gè)因素,包括收集、處理和存儲(chǔ)。這項(xiàng)研究的主要發(fā)現(xiàn)強(qiáng)調(diào)了影響大數(shù)據(jù)的主要因素在于在保持?jǐn)?shù)據(jù)完整性的同時(shí)處理大數(shù)據(jù)的局限性和復(fù)雜性。這些關(guān)注點(diǎn)比數(shù)據(jù)的來(lái)源、處理以及用于準(zhǔn)備、操作和存儲(chǔ)數(shù)據(jù)的工具更重要。數(shù)據(jù)質(zhì)量對(duì)于所有的數(shù)據(jù)分析問(wèn)題都非常重要。從研究結(jié)果來(lái)看,“關(guān)于大數(shù)據(jù)的真相”是在大數(shù)據(jù)分析項(xiàng)目中沒(méi)有根本上新的“數(shù)據(jù)質(zhì)量”問(wèn)題。不過(guò),一些“數(shù)據(jù)質(zhì)量”問(wèn)題表現(xiàn)出規(guī)?;貓?bào)效應(yīng),在大數(shù)據(jù)分析中或多或少變得明顯。大數(shù)據(jù)質(zhì)量因不同類型的大數(shù)據(jù)和不同的大數(shù)據(jù)技術(shù)而異。

      4 結(jié)論

      在本文中,主要對(duì)大數(shù)據(jù)質(zhì)量因素進(jìn)行了討論。得出大數(shù)據(jù)的質(zhì)量不僅與數(shù)據(jù)本身有關(guān),而且還受到數(shù)據(jù)管理、數(shù)據(jù)處理和服務(wù)以及使用這些數(shù)據(jù)進(jìn)行決策的用戶的影響。因?yàn)閿?shù)據(jù)的重要性不僅僅在于數(shù)據(jù)本身,但事實(shí)上,如何使用、保護(hù)、呈現(xiàn)和使用數(shù)據(jù)才是正確的方法。在未來(lái),將使用所述大數(shù)據(jù)質(zhì)量因素來(lái)產(chǎn)生不同的大數(shù)據(jù)質(zhì)量模型,這些模型將用于以不同的術(shù)語(yǔ)衡量大數(shù)據(jù)應(yīng)用的大數(shù)據(jù)質(zhì)量。

      參考文獻(xiàn):

      [1]亓林芳.談全面提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量[J].合作經(jīng)濟(jì)與科技,2021(07):132-133.

      [2]J. E. Alexander and M. A. Tate,Web Wisdom;How to Evaluate and Create Information Quality on the Webb:L. Erlbaum Associates Inc.,1999.

      [3]L. Cai and Y. Zhu,The Challenges of Data Quality and Data Quality Assessment in the Big Data Era vol. 14,2015.

      作者簡(jiǎn)介:

      衛(wèi)鑫,2001年生,漢,研究方向:大數(shù)據(jù)質(zhì)量分析

      (作者單位:西南科技大學(xué)城市學(xué)院)

      猜你喜歡
      數(shù)據(jù)質(zhì)量大數(shù)據(jù)
      電子商務(wù)平臺(tái)數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
      強(qiáng)化統(tǒng)計(jì)執(zhí)法提高數(shù)據(jù)質(zhì)量
      淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
      金融統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的國(guó)際借鑒與中國(guó)實(shí)踐
      淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
      提高政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,增強(qiáng)政府公信力
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      汝阳县| 高青县| 呼和浩特市| 海盐县| 石城县| 巴青县| 老河口市| 临夏市| 昂仁县| 庆阳市| 鲜城| 崇礼县| 巩留县| 永昌县| 轮台县| 鄂托克前旗| 桐梓县| 德兴市| 三门县| 巴东县| 和龙市| 凤城市| 呼玛县| 贵阳市| 丹江口市| 南木林县| 昭平县| 土默特右旗| 伽师县| 建德市| 毕节市| 衡阳县| 常宁市| 财经| 班戈县| 民县| 汨罗市| 茂名市| 仪陇县| 六枝特区| 静乐县|