石巖
大數(shù)據(jù)是現(xiàn)今社會一個熱點話題,我們每個人都置身其中。就像前幾年出現(xiàn)的云計算一樣,大數(shù)據(jù)已經(jīng)逐步引起各行業(yè)的廣泛關(guān)注。那么,什么是大數(shù)據(jù)?如何對大數(shù)據(jù)進(jìn)行相應(yīng)的分析?它在以數(shù)據(jù)為主要工作內(nèi)容的統(tǒng)計中又如何應(yīng)用?本文將對以上問題作一些初步的探討。
一、大數(shù)據(jù)的概念與特征
(一)大數(shù)據(jù)的概念、特征與基本技術(shù)
1、大數(shù)據(jù)的概念
什么是大數(shù)據(jù)(big data)?大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策等更積極目的的咨詢。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,也即是處理分析數(shù)據(jù)的能力。
2、大數(shù)據(jù)的特點
(1)數(shù)據(jù)體量巨大。從TB[1]級別,躍升到PB級別,大型數(shù)據(jù)集規(guī)模一般為TB[1] 級左右,而大數(shù)據(jù)一般是 PB級至 EB 級。截至目前,人類生產(chǎn)的全部印刷材料的數(shù)據(jù)量約為200PB,而歷史上全人類所有說過的話的數(shù)據(jù)量大約為5EB。
(2)數(shù)據(jù)類型繁多。大數(shù)據(jù)類型很多,不再是傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),更多是非結(jié)構(gòu)化、分布式和單調(diào)模式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。
(3)價值密度低。大數(shù)據(jù)價值普遍偏低,以行車記錄儀為例,在連續(xù)不間斷監(jiān)控過程中,可能僅有一兩秒是有用信息。
(4)處理速度快。大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)采集技術(shù)有所不同,其處數(shù)據(jù)處理速度非???。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的傳感器,都是數(shù)據(jù)來源或者承載的方式。處理速度與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
二、大數(shù)據(jù)時代對統(tǒng)計工作提出更高要求
(一)統(tǒng)計工作方式方法要求更高
1、數(shù)據(jù)的采集環(huán)節(jié)要更加流暢。改革后的統(tǒng)計流程是從報表設(shè)計—報表布置—報表受理—數(shù)據(jù)采集—錄入?yún)R總—審核查詢—上報—公布,大數(shù)據(jù)生產(chǎn)的主體不同,來源形式多樣,因此遵循的統(tǒng)計標(biāo)準(zhǔn)也不相同,如何改進(jìn)原有采集模式,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化采集是目前統(tǒng)計工作面臨的主要問題。
2、數(shù)據(jù)的發(fā)布要求相對更高。傳統(tǒng)數(shù)據(jù)的對外發(fā)布以政府統(tǒng)計的主動公開為主,數(shù)據(jù)經(jīng)過層層把關(guān)、嚴(yán)格審核才予以公布,公布的范圍也僅限于傳統(tǒng)紙質(zhì)媒介,發(fā)布范圍較窄,統(tǒng)計數(shù)據(jù)的時效性也相對滯后。而大數(shù)據(jù)產(chǎn)生速度極快、更新時間極短、體量容積極大,對數(shù)據(jù)發(fā)布的時效性要求高、數(shù)據(jù)發(fā)布的形式多樣、數(shù)據(jù)發(fā)布內(nèi)容也提出更高的要求。
(二)統(tǒng)計指標(biāo)范圍要求更加規(guī)范
傳統(tǒng)的統(tǒng)計指標(biāo)是根據(jù)研究目的和研究對象的特點而設(shè)計的,是可以計算量化的結(jié)構(gòu)性指標(biāo);而大數(shù)據(jù)的生產(chǎn)主體不一、來源日趨多元,在形式和內(nèi)容上與傳統(tǒng)指標(biāo)大相徑庭。對傳統(tǒng)統(tǒng)計體系中應(yīng)用價值較少的指標(biāo)要予以廢除,認(rèn)真分析大數(shù)據(jù)的來源、存在方式、數(shù)據(jù)類型和統(tǒng)計標(biāo)準(zhǔn),與現(xiàn)行的統(tǒng)計標(biāo)準(zhǔn)和指標(biāo)體系進(jìn)行研究對比,統(tǒng)一統(tǒng)計范圍、指標(biāo)內(nèi)涵、統(tǒng)計口徑和相關(guān)定義,設(shè)計出一整套能夠適合大數(shù)據(jù)特點的統(tǒng)計指標(biāo)體系。
(三)數(shù)據(jù)采集方式應(yīng)該不斷完善
大數(shù)據(jù)時代,數(shù)據(jù)來源渠道非常廣泛、數(shù)據(jù)產(chǎn)生方式多種多樣,依靠原有的方式方法開展數(shù)據(jù)采集工作已不能適應(yīng)新形勢的需求。一大數(shù)據(jù)的數(shù)據(jù)采集方法發(fā)生了根本變化,調(diào)查設(shè)計也相應(yīng)作出改變,建立在大數(shù)據(jù)技術(shù)與后臺軟件基礎(chǔ)上的調(diào)查設(shè)計是通過數(shù)據(jù)挖掘與數(shù)據(jù)提煉來提升數(shù)據(jù)的使用價值。二可以積極運用先進(jìn)的技術(shù),采用源頭測量方法,取得信息技術(shù)記錄下的原始數(shù)據(jù),提高數(shù)據(jù)采集的效率和精度。三是通過培育和發(fā)展統(tǒng)計調(diào)查中介機構(gòu),建立數(shù)據(jù)采集中介機構(gòu)的法律準(zhǔn)入制度,充分利用社會力量參與統(tǒng)計數(shù)據(jù)采集工作,積極對現(xiàn)有的統(tǒng)計數(shù)據(jù)進(jìn)行相應(yīng)的印證、評估,從而提高統(tǒng)計數(shù)據(jù)的質(zhì)量和統(tǒng)計的公信力。
(四)對大數(shù)據(jù)的處理能力不斷增強
大數(shù)據(jù)本身的特點是體量龐大而且內(nèi)容繁雜,要在技術(shù)的研發(fā)和運用上著力,要認(rèn)真研究非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的技術(shù)和方法,通過對信息技術(shù)、巨量的數(shù)據(jù)、主要指標(biāo)進(jìn)行研究與分析,推動數(shù)據(jù)處理方式由簡單匯總向深層次挖掘方向進(jìn)行轉(zhuǎn)變,努力開發(fā)對數(shù)據(jù)的預(yù)處理的程序,提高數(shù)據(jù)處理的智能化應(yīng)用程度,運用大數(shù)據(jù)分析開展對經(jīng)濟(jì)的預(yù)警預(yù)測,打造出高質(zhì)量的統(tǒng)計數(shù)據(jù)產(chǎn)品為社會經(jīng)濟(jì)和公眾服務(wù)。
(五)統(tǒng)計信息服務(wù)不斷優(yōu)化
大數(shù)據(jù)要有大服務(wù),大服務(wù)需要大產(chǎn)品。在大數(shù)據(jù)環(huán)境下,統(tǒng)計產(chǎn)品的產(chǎn)生在數(shù)量與類別上也將大幅度攀升,統(tǒng)計產(chǎn)品得到極大的豐富。這必然要求發(fā)布媒介更加多樣,在部分較為成熟的領(lǐng)域或沒有爭議的數(shù)據(jù)進(jìn)行實時統(tǒng)計與數(shù)據(jù)發(fā)布,在不侵犯個人隱私和確保數(shù)據(jù)安全的前提下,利用目前趨向成熟的云技術(shù),開放數(shù)據(jù)源,讓用戶直接提取統(tǒng)計數(shù)據(jù),將統(tǒng)計服務(wù)進(jìn)一步向客戶端延伸,提升對統(tǒng)計數(shù)據(jù)的解讀能力,更大程度上滿足統(tǒng)計數(shù)據(jù)的多樣化需求。
三、如何利用大數(shù)據(jù)提升政府統(tǒng)計工作上水平
(一)轉(zhuǎn)變政府統(tǒng)計的職能
大數(shù)據(jù)時代,作為數(shù)據(jù)信息搜集發(fā)布維護(hù)的部門,政府統(tǒng)計不應(yīng)僅僅是數(shù)據(jù)的主要生產(chǎn)者,不應(yīng)再全面專注于的統(tǒng)計數(shù)據(jù)采集。而應(yīng)成為社會經(jīng)濟(jì)發(fā)展的權(quán)威、數(shù)據(jù)資料的主要提供者。新形勢下,統(tǒng)計部門要充分利用政府掌握的社會管理資料、行政記錄信息并結(jié)合自身采集數(shù)據(jù)資料來充分挖掘新的信息,建立社會經(jīng)濟(jì)數(shù)據(jù)權(quán)威平臺,成為數(shù)據(jù)信息的權(quán)威分析者和發(fā)布者。數(shù)據(jù)是統(tǒng)計工作的生命線,統(tǒng)計分析報告是政府統(tǒng)計的重要成果之一,政府統(tǒng)計分析應(yīng)取之于數(shù)據(jù)、經(jīng)過提煉加工,形成遠(yuǎn)高于數(shù)據(jù)累積的預(yù)測和擴(kuò)展性的分析。
(二)重塑政府統(tǒng)計生產(chǎn)流程
1、完善采集方式。針對大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)比重很大的特點,研究對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集的方式,開辟新的采集渠道,應(yīng)用新的采集技術(shù)。還要探索如何通過搜索、購買、合作等方式,采集重要的基礎(chǔ)數(shù)據(jù)。
2、改進(jìn)數(shù)據(jù)處理。針對大數(shù)據(jù)量大且內(nèi)容龐雜的特點,認(rèn)真研究將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法和技術(shù),積極推動數(shù)據(jù)處理方式從簡單匯總向數(shù)據(jù)挖掘方向轉(zhuǎn)變,加強對數(shù)據(jù)的預(yù)處理,提高數(shù)據(jù)處理的智能化程度。
3、豐富分析手段。針對大數(shù)據(jù)產(chǎn)生速度快、存在形式多樣且關(guān)聯(lián)性強的特點,通過加強實時分析、關(guān)聯(lián)分析和可視化分析,提高統(tǒng)計分析的時效性、趨勢性和直觀性,提升統(tǒng)計工作的分析水平和預(yù)警預(yù)測能力。
4、完善數(shù)據(jù)發(fā)布。針對大數(shù)據(jù)即時產(chǎn)生、內(nèi)容豐富、形式多樣、主體多元等諸多特點,增加統(tǒng)計數(shù)據(jù)發(fā)布的內(nèi)容,豐富數(shù)據(jù)發(fā)布的形式,提高數(shù)據(jù)發(fā)布的頻率和時效性,加強對數(shù)據(jù)的解讀,更好地滿足社會各界對統(tǒng)計數(shù)據(jù)的多樣化需求。
(三)構(gòu)建部門聯(lián)合統(tǒng)計體系
在大數(shù)據(jù)背景下,行政記錄、商業(yè)記錄等變得更加重要,要實現(xiàn)大數(shù)據(jù)的應(yīng)用,就要在堅持完善現(xiàn)行統(tǒng)計框架和調(diào)查渠道的基礎(chǔ)上,構(gòu)建規(guī)范、統(tǒng)一、高效的新型統(tǒng)計體系。
1、加強部門配合,強化基礎(chǔ)框架和整體設(shè)計,根據(jù)官方統(tǒng)計的需要,統(tǒng)一編碼系統(tǒng)和登記記錄系統(tǒng),整體設(shè)計使用大數(shù)據(jù)的基礎(chǔ)性框架,從大數(shù)據(jù)的產(chǎn)生源頭推進(jìn)數(shù)據(jù)的規(guī)范化、統(tǒng)一化。
2、明確部門義務(wù),對行政、商業(yè)登記數(shù)據(jù)的收集和發(fā)布都以明確的條文規(guī)定下來,并以法律的形式規(guī)范各部門的權(quán)利和義務(wù)。
3、推進(jìn)部門協(xié)作,共同協(xié)商大數(shù)據(jù)的價值挖掘與分享機制,使大數(shù)據(jù)能夠作為一種重要的資源,與傳統(tǒng)統(tǒng)計數(shù)據(jù)一起加以統(tǒng)籌使用,以最大限度地提高大數(shù)據(jù)的使用效率。
(四)實現(xiàn)大數(shù)據(jù)資源共享
要加快推進(jìn)統(tǒng)計信息化建設(shè)進(jìn)程,依照統(tǒng)計數(shù)據(jù)的準(zhǔn)確性、及時性、可得性和可解釋性等特點,開發(fā)建立與統(tǒng)計工作流程相配套的數(shù)據(jù)采集系統(tǒng)、存儲系統(tǒng)和分析軟件,實現(xiàn)對大數(shù)據(jù)資源的共享和開發(fā)利用。