劉妍東
摘 要:隨著云時代的來歷,大數(shù)據(jù)技術(shù)也越來越引起人們的關(guān)注。大數(shù)據(jù)帶來的巨大的技術(shù)和商業(yè)機(jī)遇使眾多的企業(yè)趨之若鶩。大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價值,但隨著數(shù)據(jù)規(guī)模的急劇劇增,數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多,數(shù)據(jù)的價值參差不齊,在數(shù)據(jù)分析時將導(dǎo)致分析偏差。所以在大數(shù)據(jù)時代,數(shù)據(jù)的質(zhì)量問題也是重中之重。通過分析,數(shù)據(jù)的質(zhì)量問題主要存在這六大方面的問題:準(zhǔn)確性、完整性、一致性、相關(guān)性、時效性、可信性和可解釋性。
關(guān)鍵詞:大數(shù)據(jù);質(zhì)量問題
中圖分類號:TB ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.04.092
1 從采集的角度劃分質(zhì)量問題
1.1 準(zhǔn)確性
準(zhǔn)確性是指數(shù)據(jù)是否正確的,數(shù)據(jù)存儲在數(shù)據(jù)庫中的值是否對應(yīng)于真實世界的值。例如,某用戶在使用支付寶綁定銀行卡時,網(wǎng)站要求驗證用戶的真實姓名和身份證號碼。如果用戶提供的證件號碼與實際號碼一致,那么該號碼存儲在數(shù)據(jù)庫中的值就是正確的。
數(shù)據(jù)的不準(zhǔn)確由如下原因造成:一是在收集數(shù)據(jù)時,設(shè)備出現(xiàn)故障,導(dǎo)致數(shù)據(jù)存儲的值出現(xiàn)亂碼。二是在數(shù)據(jù)輸入時,人為的輸入不準(zhǔn)確的信息,或者計算機(jī)內(nèi)部出錯導(dǎo)致錄入的信息有誤,比如我們上網(wǎng)注冊一些信息時,出于隱私考慮,用戶會故意輸入不正確的信息,包括年齡、地址、手機(jī)號等。 三是在數(shù)據(jù)傳輸?shù)倪^程中出現(xiàn)錯誤。比如,超出了傳輸緩沖區(qū)的大小,數(shù)據(jù)會出現(xiàn)截斷等現(xiàn)象。最后一種是命名約定、數(shù)據(jù)代碼、輸入字段的格式不一致導(dǎo)致出錯。其中,最常見的是:不按格式輸入導(dǎo)致出錯,例如輸入字段為日期時,多個用戶輸入日期的格式不一致。
1.2 完整性
完整性是指信息具有一個實體描述的所有必需的部分。在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中,完整性通常與空值(NULL)有關(guān)??罩凳侵溉笔Щ虿恢谰唧w的值,可能是一條記錄中的某個屬性缺失,也可能是整條記錄都丟失。
不完整的數(shù)據(jù)對數(shù)據(jù)分析會產(chǎn)生影響,比如考慮構(gòu)造一個預(yù)測交通事故發(fā)生率的模型。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的數(shù)據(jù)信息。
1.3 一致性
數(shù)據(jù)一致性是指在數(shù)據(jù)庫中,不同表中存儲和使用的同一數(shù)據(jù)應(yīng)當(dāng)是等價的,表示數(shù)據(jù)有相等的值和相同的含義。
比如表1描述學(xué)生的基本信息,包括學(xué)號、姓名、性別、出生日期和所在專業(yè),而所在專業(yè)必須從專業(yè)信息表獲取。表2描述了專業(yè)的基本信息。從這兩個表可以看到,表1中的學(xué)生李想所在的專業(yè)號并沒有出現(xiàn)在表2中,說明該條記錄的專業(yè)號有誤,必須修改正確,才能保證兩張表對應(yīng)字段的正確性,這是數(shù)據(jù)的邏輯不一致。 數(shù)據(jù)不一致還體現(xiàn)在記錄的不規(guī)范上,比如兩個表中對日期的格式記錄不一致,如20100405和2019年4月5日這兩種格式,會導(dǎo)致在數(shù)據(jù)集成中造成數(shù)據(jù)沖突。
另外在數(shù)據(jù)出現(xiàn)冗余的情況下,數(shù)據(jù)內(nèi)容由于各種原因比如并發(fā)控制不當(dāng),或程序故障導(dǎo)致前后數(shù)據(jù)不一樣也是造成數(shù)據(jù)不一致的原因。
2 從應(yīng)用的角度劃分質(zhì)量問題
2.1 相關(guān)性
數(shù)據(jù)的相關(guān)性是指數(shù)據(jù)與特定的應(yīng)用和領(lǐng)域有關(guān)。與數(shù)據(jù)相關(guān)的應(yīng)用場景一般有,比如進(jìn)行數(shù)據(jù)挖掘或構(gòu)造模型預(yù)測時,需要采集相關(guān)的數(shù)據(jù)。例如考慮構(gòu)造一個模型,預(yù)測交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的相關(guān)的數(shù)據(jù)信息。
另外一個相關(guān)性的質(zhì)量問題表現(xiàn)在相同的數(shù)據(jù),在不同的應(yīng)用領(lǐng)域中,相關(guān)性也是不一樣的。例如,對于某個公司的大型客戶數(shù)據(jù)庫,由于時間和統(tǒng)計的原因,顧客地址列表的正確性為80%,其他地址可能過時或不正確。當(dāng)市場分析人員訪問公司的數(shù)據(jù)庫,獲取顧客地址列表時,基于目標(biāo)市場營銷考慮,市場分析人員對于該數(shù)據(jù)庫的準(zhǔn)確性滿意度較高。而當(dāng)銷售經(jīng)理訪問該數(shù)據(jù)庫時,由于地址的缺失和過時,對該數(shù)據(jù)庫的滿意度較低。
2.2 時效性
數(shù)據(jù)的時效性是指有些數(shù)據(jù)會隨時間而變化的,這些數(shù)據(jù)收集后就開始老化,使用老化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘,將會產(chǎn)生不同的分析結(jié)果。 如商品推薦。顧客的當(dāng)時購買行為或Web瀏覽行為稱為快照,它只代表有限時間內(nèi)的真實情況。如果數(shù)據(jù)已經(jīng)過時,則基于它的模型和模式也就已經(jīng)過時,所以進(jìn)行商品推薦需要采集當(dāng)前的數(shù)據(jù)進(jìn)行分析和推薦。在這種情況下,我們需要考慮重新采集數(shù)據(jù)信息,及時對數(shù)據(jù)進(jìn)行更新。
另應(yīng)用場景是城市的智能交通管理。以前沒有智能手機(jī)和智能汽車,很多大城市雖然有交管中心,但它們收集的路況信息非常滯后。用戶看到的,可能已經(jīng)是半小時前的路況了,那這樣的信息就沒有什么價值。但是,能定位的智能手機(jī)普及以后可就不同。很多用戶開放了實時位置信息,做地圖服務(wù)的公司,就能實時得到人員流動信息,并且根據(jù)流動速度和所在位置,區(qū)分步行的人群和汽車,然后提供實時的交通路況信息,給用戶帶來便利。這就是大數(shù)據(jù)的時效性帶來的好處。
3 從用戶的角度劃分質(zhì)量問題
3.1 可信性
數(shù)據(jù)的可信性由三個因素決定:數(shù)據(jù)來源的權(quán)威性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)產(chǎn)生的時間。例如新浪微博某一用戶發(fā)布的微博內(nèi)容是否具有可信性,首先確定數(shù)據(jù)來源是否具有權(quán)威性,如果是權(quán)威機(jī)構(gòu)的數(shù)據(jù),那么可信度比較高。如果微博字?jǐn)?shù)較長且敘述比較詳細(xì),可信度也會增加。同時微博的發(fā)布時間是否接近實時,也影響數(shù)據(jù)的可信度。
3.2 可解釋性
數(shù)據(jù)的可解釋性,也稱為可讀性,是指數(shù)據(jù)被人理解的難易程度,如果數(shù)據(jù)具有解釋性或包含有注釋性信息,而且數(shù)據(jù)書寫規(guī)范,則數(shù)據(jù)的可解釋性越高。相反如果數(shù)據(jù)晦澀難懂就根本不具備分析的條件。
當(dāng)我們在數(shù)據(jù)采集和處理時能處理好這六種數(shù)據(jù)質(zhì)量問題,則在大數(shù)據(jù)分析中,就會得到正確及實用的信息。
參考文獻(xiàn)
[1]朱慧明.大數(shù)據(jù)背景下電商運(yùn)營課程教學(xué)改革研究[J].現(xiàn)代商貿(mào)工業(yè),2019,(32).
[2]張余丹.大數(shù)據(jù)時代在線教育平臺商業(yè)模式淺析[J].現(xiàn)代商貿(mào)工業(yè),2019,(21).