邢迎秋
摘要:隨著云計算技術概念的提出和逐步發(fā)展,社會經(jīng)濟正在進入大數(shù)據(jù)應用時代。大數(shù)據(jù)背景下,統(tǒng)計工作必須緊緊著眼于用戶需求,提升統(tǒng)計數(shù)據(jù)的質量,更好地發(fā)揮統(tǒng)計數(shù)據(jù)的價值。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)統(tǒng)計;影響因素
大數(shù)據(jù)的技術應用正在向各個行業(yè)滲透,未來的數(shù)據(jù)將會像石油一樣成為重要的資源,推動社會的進步和發(fā)展。統(tǒng)計數(shù)據(jù)只有可靠,準確,及時才能為決策者提供合理的依據(jù),因此保證統(tǒng)計數(shù)據(jù)的質量,在今天大數(shù)據(jù)時代顯得尤為重要。大數(shù)據(jù)越來越呈現(xiàn)出海量,非結構化,實時,電子化處理和多元等特點,在數(shù)據(jù)的處理上帶來了難度,數(shù)據(jù)質量上一些細微的問題將會通過大數(shù)據(jù)海量的樣本被放大,導致嚴重的問題,這是當下大數(shù)據(jù)最需要解決的問題。
(一)統(tǒng)計數(shù)據(jù)核心的轉變
在大數(shù)據(jù)的背景下,數(shù)據(jù)統(tǒng)計的核心正發(fā)生著變化。傳統(tǒng)的數(shù)據(jù)統(tǒng)計對于數(shù)據(jù)的核心要求是“準確性”,統(tǒng)計數(shù)據(jù)要能真實反映發(fā)生的問題。而今天的數(shù)據(jù)統(tǒng)計最終是要向消費者服務的,數(shù)據(jù)統(tǒng)計的核心要求是“客戶需求”。
(二)統(tǒng)計數(shù)據(jù)的質量要求
針對目前的大數(shù)據(jù)發(fā)展情況,馬建光認為統(tǒng)計工作面臨的最大挑戰(zhàn)是海量的,多樣的大數(shù)據(jù)獲取和處理問題,它們決定著大數(shù)據(jù)的質量。如何解決這種問題,有關專家學者提出:要從技術,流程和管理三個方面入手進行相關問題探討,而且對統(tǒng)計數(shù)據(jù)的質量評估也要進行多維度的驗證,主要從邏輯規(guī)則檢驗、核算數(shù)據(jù)重估、計量模型分析、統(tǒng)計分布驗證、調查偏差評估、多維評估延伸六個角度。
大數(shù)據(jù)背景下,在統(tǒng)計數(shù)據(jù)的質量研究上國內(nèi)外學者形成了共識:非技術因素中人為因素和環(huán)境因素是兩大影響因素,非技術性因素在統(tǒng)計數(shù)據(jù)的質量上應該得到更多關注。大數(shù)據(jù)背景下,統(tǒng)計數(shù)據(jù)所呈現(xiàn)出來的特點使得統(tǒng)計數(shù)據(jù)質量問題極為復雜,這里面既有技術因素也存在非技術因素的作用。為了保證統(tǒng)計數(shù)據(jù)的質量,需要及時發(fā)現(xiàn)各種影響因素,并通過科學的方法將影響降到最低。
美國麻省理工學院的Richard Y.Wang教授提出了全面數(shù)據(jù)質量管理理論,他認為影響統(tǒng)計數(shù)據(jù)質量的主要影響因素是流程,技術和管理三個方面。圖1展示了這種理論概念模型。
(一)流程維度的影響
從該維度對數(shù)據(jù)進行分析,主要從數(shù)據(jù)收集,數(shù)據(jù)存儲,數(shù)據(jù)使用三個階段來進行,這是數(shù)據(jù)的整個生命周期在不同階段的處理功能。
1. 數(shù)據(jù)收集階段
在數(shù)據(jù)收集的方式和統(tǒng)計標準上,大數(shù)據(jù)時代因為智能設備,傳感器以及社交協(xié)作技術的應用和普及,使得數(shù)據(jù)的來源發(fā)生了很大的變化。
如今網(wǎng)頁,搜索引擎,社交媒體論壇,主動和被動系統(tǒng)傳感器成為大數(shù)據(jù)的產(chǎn)生來源,海量數(shù)據(jù)的產(chǎn)生,讓統(tǒng)計數(shù)據(jù)在廣度上無限接近“總體”,這樣的大數(shù)據(jù)收集明顯地優(yōu)勢就是會增加統(tǒng)計的準確性,但是數(shù)據(jù)接觸范圍的擴大會帶來許多以前未曾出現(xiàn)的問題。另一方面數(shù)據(jù)的時效性比以前大大縮短,而有效的數(shù)據(jù)收集,才能保證統(tǒng)計數(shù)據(jù)的質量,這也是一種新的挑戰(zhàn)。
2. 數(shù)據(jù)存儲階段
傳統(tǒng)的數(shù)據(jù)存儲結構已經(jīng)無法滿足大數(shù)據(jù)存儲的要求,大容量及高擴展性,高可用性,高性能和訪問接口的多樣性都要求改變單一的數(shù)據(jù)存儲結構。
現(xiàn)在的數(shù)據(jù)存在著大量視頻,圖片等非機構化數(shù)據(jù),使用以往的存儲要經(jīng)過復雜的轉換過程,將其轉換為結構化的數(shù)據(jù),但是這個過程不可避免地會出現(xiàn)轉化方式不合適,直接導致數(shù)據(jù)的完整性和準確性。實現(xiàn)大數(shù)據(jù)效益的最大化就必須將這些非結構化的數(shù)據(jù)與結構化的數(shù)據(jù)有機結合,建設新型的數(shù)據(jù)庫。
3. 數(shù)據(jù)使用階段
大數(shù)據(jù)時代數(shù)據(jù)成為一種共享的資源,不再由某一個人或者某一個部門單獨使用。數(shù)據(jù)的提取和更新愈加頻繁,這中間的任何失誤都將造成數(shù)據(jù)質量的下降。社會信息化的發(fā)展使得數(shù)據(jù)的產(chǎn)生和傳播加快,許多事情的產(chǎn)生都是瞬息萬變的,因此對數(shù)據(jù)進行及時處理分析,才能保證數(shù)據(jù)的價值不過期,作為決策者才能做出合適的決策。
(二)技術維度的影響
大數(shù)據(jù)技術包含數(shù)據(jù)庫技術,數(shù)據(jù)質量檢測識別和數(shù)據(jù)分析技術這三個方面,它是準確預測未來的保障,體現(xiàn)了數(shù)據(jù)分析的真正價值。
1. 數(shù)據(jù)庫技術
企業(yè)數(shù)據(jù)在大數(shù)據(jù)時代最明顯的特征就是數(shù)據(jù)量的增加,這種增加的速度是以往難以想象的,呈現(xiàn)出了指數(shù)級的增長。增長的內(nèi)容既有信息量的增長,也有數(shù)據(jù)結構的增長,因此數(shù)據(jù)的統(tǒng)計越來越復雜。
傳統(tǒng)的數(shù)據(jù)檢測技術在檢測結構化的數(shù)據(jù)時很方便,但是非結構化數(shù)據(jù)的出現(xiàn)使得傳統(tǒng)的檢測技術出現(xiàn)了難以應對的情況。數(shù)據(jù)中錯誤,缺失,無效或延遲的情況時有發(fā)生,這極大地增加了檢測的時間成本。企業(yè)需要配備更高端的檢測設備,引進或者研發(fā)新技術來處理大數(shù)據(jù),保證數(shù)據(jù)質量。
2. 數(shù)據(jù)質量檢測和識別技術
數(shù)據(jù)質量的準確性,適用性和及時性檢測依靠人工判斷,會越來越難,必須引進有效的數(shù)據(jù)檢測技術,及時發(fā)現(xiàn)數(shù)據(jù)存在的不足和缺陷,同時在實踐中完善數(shù)據(jù)質量檢測技術,滿足大數(shù)據(jù)時代數(shù)據(jù)檢測的要求。
3. 大數(shù)據(jù)分析技術
數(shù)據(jù)收集之后,經(jīng)過分析才能得出數(shù)據(jù)的價值。可視化分析成為目前大數(shù)據(jù)分析技術中的主流,數(shù)據(jù)挖掘算法可以有效處理不同類型和格式的數(shù)據(jù),對傳統(tǒng)的數(shù)據(jù)分析進行完善和促進這些都是數(shù)據(jù)分析能力的提升。
(三)管理維度的影響
數(shù)據(jù)管理作為數(shù)據(jù)質量保證的重要一環(huán),人在其中起到了決定性的作用。在這個維度中企業(yè)管理者的認識,專業(yè)數(shù)據(jù)庫管理人員的配備,政府統(tǒng)計制度和統(tǒng)計數(shù)據(jù)標準是影響數(shù)據(jù)質量的四個重要因素。
1. 管理者的認識
重視首先需要認識其重要性。企業(yè)的管理者要充分認識到大數(shù)據(jù)對于企業(yè)發(fā)展的重要性,支持和重視大數(shù)據(jù)的建設,讓大數(shù)據(jù)的應用有效落實到企業(yè)工作中,真正發(fā)揮大數(shù)據(jù)在企業(yè)決策中的作用,為企業(yè)提供正確地的發(fā)展方向。
2. 數(shù)據(jù)庫人員的配備
大數(shù)據(jù)的管理難度就在于它的復雜性。作為企業(yè)發(fā)展的重要部門,數(shù)據(jù)管理不能馬馬虎虎,應付了事。配備專門的數(shù)據(jù)庫人才進行數(shù)據(jù)庫的管理和維護,能夠確保大數(shù)據(jù)的質量。而這類人才的選拔既需要能夠解決技術問題,也需要熟知企業(yè)的業(yè)務。
3. 統(tǒng)計體制和標準的建立
大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展推動著社會經(jīng)濟增長,政府部門對此應該有足夠的重視,積極制定相關統(tǒng)計制度,建立統(tǒng)計體制和標準,進一步保障大數(shù)據(jù)的發(fā)展,適應國際發(fā)展形勢。
大數(shù)據(jù)時代的數(shù)據(jù)不再局限于單獨的部門,不同部門數(shù)據(jù)的共享將會打破以往統(tǒng)計數(shù)據(jù)之間的孤島問題,將統(tǒng)計數(shù)據(jù)變成一個生態(tài)系統(tǒng)。因此想要提高統(tǒng)計數(shù)據(jù)的質量就必須從整個數(shù)據(jù)的流程體系上進行改進。
(一)流程方面的解決對策
政府部門應該進一步增強對大數(shù)據(jù)的管理意識,建立專門的數(shù)據(jù)質量監(jiān)控和評估機構,建立健全和完善統(tǒng)計產(chǎn)品質量管理體系,形成統(tǒng)計數(shù)據(jù)質量保障的長效機制。
數(shù)據(jù)收集的時效性和數(shù)據(jù)收集過程中的干擾是影響數(shù)據(jù)質量的關鍵因素,新型的統(tǒng)計數(shù)據(jù)集成平臺必須致力于收集過程的規(guī)范化和透明化,提升時效性和減少統(tǒng)計的干擾因素。建立基于數(shù)據(jù)倉庫的統(tǒng)計數(shù)據(jù)集成平臺,實現(xiàn)多類型數(shù)據(jù)的存儲,提升數(shù)據(jù)集成以及后期數(shù)據(jù)分析處理效率。
政府部門應在統(tǒng)計工作中處于主導地位,加強統(tǒng)計工作的協(xié)調,尊重統(tǒng)計客觀規(guī)律,拓新統(tǒng)計技術和方法,放開數(shù)據(jù)共享關隘,最終建立以滿足用戶需求為導向的數(shù)據(jù)分析結果。
(二)技術方面的解決對策
技術方面的解決對策需要關注的一個是技術本身,另一個是使用技術的人。在技術引進上,云存儲技術專注于向用戶提供以互聯(lián)網(wǎng)為基礎的在線存儲服務,是一種高效率和低成本的數(shù)據(jù)存儲技術。最大方便地滿足了用戶對數(shù)據(jù)存儲的需求。為了保證統(tǒng)計數(shù)據(jù)的質量,必須將數(shù)據(jù)質量檢測技術貫穿整個數(shù)據(jù)周期。大數(shù)據(jù)技術應進行全面運用,統(tǒng)計數(shù)據(jù)的價值挖掘,預測分析和可視化分析將為數(shù)據(jù)預測的時效性和準確性提供重要支持。
(三)管理方面的解決對策
作為政府統(tǒng)計部門和企業(yè)管理者應該重視大數(shù)據(jù)的應用價值,樹立科學合理的統(tǒng)計觀念,加強統(tǒng)計法制法規(guī)的建設,完善數(shù)據(jù)標準和統(tǒng)計制度體系,來保證統(tǒng)計數(shù)據(jù)質量的提高。
參考文獻:
[1]魏瑤.統(tǒng)計調查中數(shù)據(jù)質量控制對策研究[J].中國高新技術企業(yè),2016(04).
[2]羅放華.大數(shù)據(jù)時代的統(tǒng)計主體利益均等化路徑研究[J].統(tǒng)計與決策,2015(02).
[3]郭彥君,魏婷.統(tǒng)計數(shù)據(jù)質量問題研究[J].現(xiàn)代經(jīng)濟信息,2015(02).
[4]宗威,吳鋒.大數(shù)據(jù)時代下數(shù)據(jù)質量的挑戰(zhàn)[J].西安交通大學學報(社會科學版),2013(05).
[5]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應用[J].國防科技,2013(02).
[6]程開明.基于利益相關者視角的統(tǒng)計數(shù)據(jù)質量管理體系研究[J].商業(yè)經(jīng)濟與管理,2013(03).
[7]邢建英.關于提高統(tǒng)計數(shù)據(jù)質量的幾點思考[J].統(tǒng)計教育,2005(09).
(作者單位:河北省東光縣商務局)