• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)中數(shù)據(jù)的質(zhì)量問題探析

      2020-02-14 05:49:05劉妍東
      現(xiàn)代商貿(mào)工業(yè) 2020年4期
      關(guān)鍵詞:解釋性可信性數(shù)據(jù)庫

      劉妍東

      摘 要:隨著云時代的來歷,大數(shù)據(jù)技術(shù)也越來越引起人們的關(guān)注。大數(shù)據(jù)帶來的巨大的技術(shù)和商業(yè)機(jī)遇使眾多的企業(yè)趨之若鶩。大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價值,但隨著數(shù)據(jù)規(guī)模的急劇劇增,數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多,數(shù)據(jù)的價值參差不齊,在數(shù)據(jù)分析時將導(dǎo)致分析偏差。所以在大數(shù)據(jù)時代,數(shù)據(jù)的質(zhì)量問題也是重中之重。通過分析,數(shù)據(jù)的質(zhì)量問題主要存在這六大方面的問題:準(zhǔn)確性、完整性、一致性、相關(guān)性、時效性、可信性和可解釋性。

      關(guān)鍵詞:大數(shù)據(jù);質(zhì)量問題

      中圖分類號:TB ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.04.092

      1 從采集的角度劃分質(zhì)量問題

      1.1 準(zhǔn)確性

      準(zhǔn)確性是指數(shù)據(jù)是否正確的,數(shù)據(jù)存儲在數(shù)據(jù)庫中的值是否對應(yīng)于真實世界的值。例如,某用戶在使用支付寶綁定銀行卡時,網(wǎng)站要求驗證用戶的真實姓名和身份證號碼。如果用戶提供的證件號碼與實際號碼一致,那么該號碼存儲在數(shù)據(jù)庫中的值就是正確的。

      數(shù)據(jù)的不準(zhǔn)確由如下原因造成:一是在收集數(shù)據(jù)時,設(shè)備出現(xiàn)故障,導(dǎo)致數(shù)據(jù)存儲的值出現(xiàn)亂碼。二是在數(shù)據(jù)輸入時,人為的輸入不準(zhǔn)確的信息,或者計算機(jī)內(nèi)部出錯導(dǎo)致錄入的信息有誤,比如我們上網(wǎng)注冊一些信息時,出于隱私考慮,用戶會故意輸入不正確的信息,包括年齡、地址、手機(jī)號等。 三是在數(shù)據(jù)傳輸?shù)倪^程中出現(xiàn)錯誤。比如,超出了傳輸緩沖區(qū)的大小,數(shù)據(jù)會出現(xiàn)截斷等現(xiàn)象。最后一種是命名約定、數(shù)據(jù)代碼、輸入字段的格式不一致導(dǎo)致出錯。其中,最常見的是:不按格式輸入導(dǎo)致出錯,例如輸入字段為日期時,多個用戶輸入日期的格式不一致。

      1.2 完整性

      完整性是指信息具有一個實體描述的所有必需的部分。在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中,完整性通常與空值(NULL)有關(guān)??罩凳侵溉笔Щ虿恢谰唧w的值,可能是一條記錄中的某個屬性缺失,也可能是整條記錄都丟失。

      不完整的數(shù)據(jù)對數(shù)據(jù)分析會產(chǎn)生影響,比如考慮構(gòu)造一個預(yù)測交通事故發(fā)生率的模型。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的數(shù)據(jù)信息。

      1.3 一致性

      數(shù)據(jù)一致性是指在數(shù)據(jù)庫中,不同表中存儲和使用的同一數(shù)據(jù)應(yīng)當(dāng)是等價的,表示數(shù)據(jù)有相等的值和相同的含義。

      比如表1描述學(xué)生的基本信息,包括學(xué)號、姓名、性別、出生日期和所在專業(yè),而所在專業(yè)必須從專業(yè)信息表獲取。表2描述了專業(yè)的基本信息。從這兩個表可以看到,表1中的學(xué)生李想所在的專業(yè)號并沒有出現(xiàn)在表2中,說明該條記錄的專業(yè)號有誤,必須修改正確,才能保證兩張表對應(yīng)字段的正確性,這是數(shù)據(jù)的邏輯不一致。 數(shù)據(jù)不一致還體現(xiàn)在記錄的不規(guī)范上,比如兩個表中對日期的格式記錄不一致,如20100405和2019年4月5日這兩種格式,會導(dǎo)致在數(shù)據(jù)集成中造成數(shù)據(jù)沖突。

      另外在數(shù)據(jù)出現(xiàn)冗余的情況下,數(shù)據(jù)內(nèi)容由于各種原因比如并發(fā)控制不當(dāng),或程序故障導(dǎo)致前后數(shù)據(jù)不一樣也是造成數(shù)據(jù)不一致的原因。

      2 從應(yīng)用的角度劃分質(zhì)量問題

      2.1 相關(guān)性

      數(shù)據(jù)的相關(guān)性是指數(shù)據(jù)與特定的應(yīng)用和領(lǐng)域有關(guān)。與數(shù)據(jù)相關(guān)的應(yīng)用場景一般有,比如進(jìn)行數(shù)據(jù)挖掘或構(gòu)造模型預(yù)測時,需要采集相關(guān)的數(shù)據(jù)。例如考慮構(gòu)造一個模型,預(yù)測交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的相關(guān)的數(shù)據(jù)信息。

      另外一個相關(guān)性的質(zhì)量問題表現(xiàn)在相同的數(shù)據(jù),在不同的應(yīng)用領(lǐng)域中,相關(guān)性也是不一樣的。例如,對于某個公司的大型客戶數(shù)據(jù)庫,由于時間和統(tǒng)計的原因,顧客地址列表的正確性為80%,其他地址可能過時或不正確。當(dāng)市場分析人員訪問公司的數(shù)據(jù)庫,獲取顧客地址列表時,基于目標(biāo)市場營銷考慮,市場分析人員對于該數(shù)據(jù)庫的準(zhǔn)確性滿意度較高。而當(dāng)銷售經(jīng)理訪問該數(shù)據(jù)庫時,由于地址的缺失和過時,對該數(shù)據(jù)庫的滿意度較低。

      2.2 時效性

      數(shù)據(jù)的時效性是指有些數(shù)據(jù)會隨時間而變化的,這些數(shù)據(jù)收集后就開始老化,使用老化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘,將會產(chǎn)生不同的分析結(jié)果。 如商品推薦。顧客的當(dāng)時購買行為或Web瀏覽行為稱為快照,它只代表有限時間內(nèi)的真實情況。如果數(shù)據(jù)已經(jīng)過時,則基于它的模型和模式也就已經(jīng)過時,所以進(jìn)行商品推薦需要采集當(dāng)前的數(shù)據(jù)進(jìn)行分析和推薦。在這種情況下,我們需要考慮重新采集數(shù)據(jù)信息,及時對數(shù)據(jù)進(jìn)行更新。

      另應(yīng)用場景是城市的智能交通管理。以前沒有智能手機(jī)和智能汽車,很多大城市雖然有交管中心,但它們收集的路況信息非常滯后。用戶看到的,可能已經(jīng)是半小時前的路況了,那這樣的信息就沒有什么價值。但是,能定位的智能手機(jī)普及以后可就不同。很多用戶開放了實時位置信息,做地圖服務(wù)的公司,就能實時得到人員流動信息,并且根據(jù)流動速度和所在位置,區(qū)分步行的人群和汽車,然后提供實時的交通路況信息,給用戶帶來便利。這就是大數(shù)據(jù)的時效性帶來的好處。

      3 從用戶的角度劃分質(zhì)量問題

      3.1 可信性

      數(shù)據(jù)的可信性由三個因素決定:數(shù)據(jù)來源的權(quán)威性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)產(chǎn)生的時間。例如新浪微博某一用戶發(fā)布的微博內(nèi)容是否具有可信性,首先確定數(shù)據(jù)來源是否具有權(quán)威性,如果是權(quán)威機(jī)構(gòu)的數(shù)據(jù),那么可信度比較高。如果微博字?jǐn)?shù)較長且敘述比較詳細(xì),可信度也會增加。同時微博的發(fā)布時間是否接近實時,也影響數(shù)據(jù)的可信度。

      3.2 可解釋性

      數(shù)據(jù)的可解釋性,也稱為可讀性,是指數(shù)據(jù)被人理解的難易程度,如果數(shù)據(jù)具有解釋性或包含有注釋性信息,而且數(shù)據(jù)書寫規(guī)范,則數(shù)據(jù)的可解釋性越高。相反如果數(shù)據(jù)晦澀難懂就根本不具備分析的條件。

      當(dāng)我們在數(shù)據(jù)采集和處理時能處理好這六種數(shù)據(jù)質(zhì)量問題,則在大數(shù)據(jù)分析中,就會得到正確及實用的信息。

      參考文獻(xiàn)

      [1]朱慧明.大數(shù)據(jù)背景下電商運(yùn)營課程教學(xué)改革研究[J].現(xiàn)代商貿(mào)工業(yè),2019,(32).

      [2]張余丹.大數(shù)據(jù)時代在線教育平臺商業(yè)模式淺析[J].現(xiàn)代商貿(mào)工業(yè),2019,(21).

      猜你喜歡
      解釋性可信性數(shù)據(jù)庫
      著力構(gòu)建可解釋性模型
      可變情報板發(fā)布內(nèi)容可信性檢測系統(tǒng)探究
      基于可信性的鍋爐安全質(zhì)量綜合評價研究
      論行政自由裁量的“解釋性控權(quán)”
      法律方法(2021年4期)2021-03-16 05:35:16
      在區(qū)間上取值的模糊變量的可信性分布
      Five golden rules for meeting management
      融媒體時代解釋性報道的發(fā)展之路
      傳播力研究(2017年5期)2017-03-28 09:08:30
      數(shù)據(jù)庫
      財經(jīng)(2017年2期)2017-03-10 14:35:35
      數(shù)據(jù)庫
      財經(jīng)(2016年15期)2016-06-03 07:38:02
      非解釋性憲法適用論
      温宿县| 灵宝市| 德令哈市| 景谷| 柳林县| 孝感市| 大理市| 保山市| 南投市| 互助| 桃园县| 耿马| 梓潼县| 宜宾县| 金秀| 墨江| 安顺市| 犍为县| 霍林郭勒市| 凤阳县| 横山县| 武山县| 万山特区| 襄樊市| 绥棱县| 贵德县| 会理县| 当阳市| 巴林右旗| 且末县| 宜章县| 交口县| 福安市| 邛崃市| 吴江市| 桐梓县| 托克逊县| 石首市| 镇原县| 财经| 寿宁县|