王啟富、何中華、李文豪
(上海市閔行區(qū)統(tǒng)計(jì)局,上海201199)
?
信息化條件下統(tǒng)計(jì)數(shù)據(jù)管理與應(yīng)用的探索——以上海市閔行區(qū)工業(yè)統(tǒng)計(jì)為例
王啟富、何中華、李文豪
(上海市閔行區(qū)統(tǒng)計(jì)局,上海201199)
摘要:受限于各種制約因素,目前基層統(tǒng)計(jì)系統(tǒng)在統(tǒng)計(jì)數(shù)據(jù)的管理和應(yīng)用上普遍存在以下幾個(gè)不足:一是缺乏統(tǒng)一通用的數(shù)據(jù)處理分析平臺(tái),數(shù)據(jù)深度開發(fā)的時(shí)效性、準(zhǔn)確性、可驗(yàn)證性難以保證;二是數(shù)據(jù)來源的規(guī)范性差,數(shù)據(jù)結(jié)構(gòu)變動(dòng)頻繁,且數(shù)據(jù)組織偏重于采集,原始數(shù)據(jù)的可讀性差,制約了統(tǒng)計(jì)數(shù)據(jù)開發(fā)應(yīng)用的時(shí)效性;三是數(shù)據(jù)開發(fā)過程的自動(dòng)化程度較低,手工處理步驟多,對(duì)專業(yè)人員的計(jì)算機(jī)水平要求較高;四是數(shù)據(jù)資源的集中度、規(guī)范化不夠,不利于多指標(biāo)、多維度、長(zhǎng)時(shí)間序列分析。鑒于此,我們以閔行區(qū)經(jīng)濟(jì)總量較大的工業(yè)統(tǒng)計(jì)為突破口,在數(shù)據(jù)管理規(guī)范化、加工處理流程化、專業(yè)數(shù)據(jù)共享化、分析挖掘模型化方面進(jìn)行了嘗試和探索。
關(guān)鍵詞:信息化;數(shù)據(jù)管理;工業(yè)統(tǒng)計(jì)
自2011年國家統(tǒng)計(jì)局全面實(shí)施“四大工程”以來,在數(shù)據(jù)采集環(huán)節(jié),區(qū)縣統(tǒng)計(jì)部門獲取數(shù)據(jù)的時(shí)效性和質(zhì)量都有明顯提高,統(tǒng)計(jì)工作的重心也逐漸向數(shù)據(jù)的規(guī)范化管理、開發(fā)利用和深度挖掘轉(zhuǎn)移,政府決策部門、社會(huì)各界對(duì)統(tǒng)計(jì)數(shù)據(jù)的開發(fā)應(yīng)用水平也提出更高要求。
2011年,閔行區(qū)統(tǒng)計(jì)局經(jīng)濟(jì)科與數(shù)據(jù)中心組成課題組,對(duì)工業(yè)統(tǒng)計(jì)的歷年報(bào)表制度、數(shù)據(jù)來源、采集方式、分析角度、與其他專業(yè)的關(guān)聯(lián)度、有關(guān)部門的要求、主要匯總表式、歷年工業(yè)經(jīng)濟(jì)的熱點(diǎn)問題、數(shù)據(jù)保存形式、日常工作流程等進(jìn)行了認(rèn)真總結(jié)和梳理,對(duì)可以通過信息化手段加以提高的部分進(jìn)行了重點(diǎn)討論,對(duì)專業(yè)人員在數(shù)據(jù)處理中面臨的問題和領(lǐng)導(dǎo)需求進(jìn)行了分析,并決定依托現(xiàn)有的“閔行區(qū)統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)”(以下簡(jiǎn)稱“應(yīng)用系統(tǒng)”),實(shí)現(xiàn)以下目標(biāo):
(一)設(shè)計(jì)一套合理的數(shù)據(jù)管理模式。以有利于規(guī)范化管理數(shù)據(jù)、快速分析數(shù)據(jù)為原則,借助信息化平臺(tái),合理規(guī)范設(shè)置數(shù)據(jù)結(jié)構(gòu),并將分析處理結(jié)果集中統(tǒng)一存儲(chǔ)形成臺(tái)賬。
(二)創(chuàng)建一套合適的數(shù)據(jù)分析處理模型。以快速生成固定匯總表式為主要目標(biāo),結(jié)合多指標(biāo)、多維度、長(zhǎng)時(shí)間跨度分析需求,創(chuàng)建數(shù)據(jù)分析模型,并以數(shù)據(jù)共享目錄的形式提供數(shù)據(jù)共享。
(三)建立一套行之有效的數(shù)據(jù)分析處理流程制度。按照數(shù)據(jù)日常處理中的實(shí)際情況,以可操作性為原則,設(shè)計(jì)數(shù)據(jù)處理流程,合理安排各工作節(jié)點(diǎn),對(duì)完成數(shù)據(jù)分析流程所需要的必要支撐進(jìn)行明確定義,并以制度的形式確立下來。
自2011年起,課題組進(jìn)行了為期三年的實(shí)踐與探索,經(jīng)過不斷的迭代式開發(fā)與應(yīng)用,逐漸形成了適合閔行統(tǒng)計(jì)的數(shù)據(jù)管理和應(yīng)用開發(fā)方式。在實(shí)踐中,課題組感到,要做到數(shù)據(jù)規(guī)范連續(xù)、數(shù)據(jù)分析模型高效易用、數(shù)據(jù)分析處理流程合理長(zhǎng)效才能更好地提升基層統(tǒng)計(jì)數(shù)據(jù)管理與應(yīng)用水平。
(一)文檔集中統(tǒng)一管理與數(shù)據(jù)規(guī)范化
1.原始數(shù)據(jù)的集中歸檔統(tǒng)一管理。原始數(shù)據(jù)是后續(xù)數(shù)據(jù)分析處理的基石。目前,原始數(shù)據(jù)來源多、文件格式復(fù)雜、命名不規(guī)范,不利于數(shù)據(jù)的管理和應(yīng)用;各專業(yè)原始數(shù)據(jù)僅由各專業(yè)人員自行保存,不利于數(shù)據(jù)共享,且存在歷史數(shù)據(jù)遺失隱患。
為此,課題組在文件服務(wù)器開設(shè)了原始文檔存儲(chǔ)區(qū),按照專業(yè)、頻度、報(bào)告期、報(bào)表制度建立了對(duì)應(yīng)的存儲(chǔ)目錄,并要求統(tǒng)計(jì)人員在報(bào)告期結(jié)束后一周內(nèi)上傳原始文檔,由數(shù)據(jù)中心進(jìn)行規(guī)范化命名并定期進(jìn)行歸檔保存。
2.創(chuàng)建面向分析的數(shù)據(jù)資源。前已述及,目前面向采集的原始數(shù)據(jù)在結(jié)構(gòu)上偏重于存儲(chǔ)、格式多樣、由于報(bào)表制度變化導(dǎo)致連續(xù)性不強(qiáng)等原因,通常不能直接用于數(shù)據(jù)分析挖掘,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,生成結(jié)構(gòu)化程度高、連續(xù)性較強(qiáng)的數(shù)據(jù)才方便進(jìn)行后續(xù)開發(fā)應(yīng)用與挖掘。
經(jīng)整理,統(tǒng)計(jì)原始數(shù)據(jù)常見問題及預(yù)處理方法是:數(shù)據(jù)缺失,需要從其他數(shù)據(jù)源或根據(jù)特定規(guī)則補(bǔ)全缺失數(shù)據(jù);數(shù)據(jù)冗余,需要根據(jù)特定規(guī)則刪除多余數(shù)據(jù);報(bào)告期不規(guī)范,需要對(duì)報(bào)告期數(shù)據(jù)進(jìn)行格式化處理;空值無法參與分析挖掘,需要對(duì)空值進(jìn)行填充;多來源數(shù)據(jù)計(jì)量單位不一致問題,需要根據(jù)統(tǒng)計(jì)應(yīng)用的實(shí)際情況將多來源數(shù)據(jù)的計(jì)量單位轉(zhuǎn)換成一致;同一來源不同報(bào)告期數(shù)據(jù)字段名稱不一致但實(shí)際內(nèi)涵完全一致,需要用統(tǒng)計(jì)上約定俗稱的字段名稱進(jìn)行統(tǒng)一規(guī)范命名;同一來源不同報(bào)告期字段名稱一致但實(shí)際內(nèi)涵不同,需要根據(jù)實(shí)際情況擴(kuò)充新的指標(biāo),并做好原始數(shù)據(jù)與新數(shù)據(jù)結(jié)構(gòu)的映射;多來源數(shù)據(jù)相同內(nèi)涵的字段名稱不統(tǒng)一,需要用統(tǒng)計(jì)上約定俗成的字段名稱進(jìn)行統(tǒng)一規(guī)范命名。
以工業(yè)數(shù)據(jù)為例,存在的問題及預(yù)處理方法是:工業(yè)產(chǎn)銷總值及主要產(chǎn)品產(chǎn)量數(shù)據(jù)存在輕重工分類數(shù)據(jù)缺失、工業(yè)區(qū)代碼不規(guī)范,需根據(jù)行業(yè)代碼補(bǔ)全輕重工分類,并對(duì)工業(yè)區(qū)編碼進(jìn)行整理;生產(chǎn)者價(jià)格指數(shù)(PPI)數(shù)據(jù)存在某些行業(yè)中類數(shù)據(jù)缺失問題,需以對(duì)應(yīng)的行業(yè)大類數(shù)據(jù)補(bǔ)全;在地企業(yè)名錄存在包含大量無用數(shù)據(jù)問題,需以主管標(biāo)記非閔行、主管機(jī)構(gòu)是閔行為依據(jù)刪除多余記錄;工業(yè)產(chǎn)值數(shù)據(jù)的分析需要用指數(shù)縮減法剔除價(jià)格因素的影響,即在計(jì)算增幅的時(shí)候,先按照企業(yè)所在的行業(yè)中類用相應(yīng)的生產(chǎn)者價(jià)格指數(shù)(PPI)對(duì)產(chǎn)值數(shù)據(jù)進(jìn)行縮減,然后再進(jìn)行計(jì)算,需要新增用于存放可比累計(jì)、可比本月等數(shù)據(jù)的字段。
(二)建立數(shù)據(jù)分析模型
各統(tǒng)計(jì)專業(yè)在采集指標(biāo)、分析角度、工作模式和分析挖掘等方面存在很大差別,但都可以歸結(jié)為一個(gè)由指標(biāo)體系、分析維度、固定匯總表式及其匯總分析算法、即席查詢等方面構(gòu)成的分析模型。為此,課題組將工作重心集中到如何快速為不同的統(tǒng)計(jì)專業(yè)設(shè)計(jì)與創(chuàng)建對(duì)應(yīng)的分析模型上,通過此模型,可以快速獲取固定匯總表式數(shù)據(jù),也可以通過即席查詢進(jìn)行深度分析挖掘,還可以通過權(quán)限設(shè)置進(jìn)行數(shù)據(jù)共享。同時(shí),快速生成固定匯總表式數(shù)據(jù)的過程,也是積累臺(tái)賬數(shù)據(jù)資源的過程。
1.確立分析指標(biāo)集。由于數(shù)據(jù)結(jié)構(gòu)變動(dòng)頻繁,經(jīng)過數(shù)據(jù)預(yù)處理的數(shù)據(jù)中依然存在連續(xù)性不強(qiáng)的問題,課題組選擇了專業(yè)分析中較常用或數(shù)據(jù)連續(xù)性較好的部分指標(biāo)作為面向分析的指標(biāo)集的基礎(chǔ),并根據(jù)匯總分析實(shí)際需求生成派生指標(biāo),合理補(bǔ)充能耗、稅收等其他專業(yè)指標(biāo),并最終確立為分析指標(biāo)集。
以工業(yè)數(shù)據(jù)分析為例,確立的分析指標(biāo)集主要包括:工業(yè)總產(chǎn)值、工業(yè)企業(yè)主營(yíng)業(yè)務(wù)收入及利潤(rùn)總額的本月值、本月累計(jì)值和累計(jì)同比增幅,期末資產(chǎn)總計(jì)、期末負(fù)債總計(jì)、期末凈資產(chǎn)總計(jì)、期末應(yīng)收賬款凈額、期末產(chǎn)成品存貨、出口交貨值等原始指標(biāo),工業(yè)總產(chǎn)值可比本月值、工業(yè)總產(chǎn)值可比累計(jì)值等派生指標(biāo)及綜合能耗、納稅合計(jì)、增值稅等其他指標(biāo)。
2.確立分析維度。固定匯總表式中的分析指標(biāo)、對(duì)應(yīng)地分析維度及維度間的層次關(guān)系較為固定,但為了更詳盡的展示經(jīng)濟(jì)發(fā)展水平和變化,應(yīng)從多方位、多角度對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析挖據(jù)。
以工業(yè)統(tǒng)計(jì)為例,共確定了輕重工、行業(yè)分類等12個(gè)可用分析維度。工業(yè)固定匯總表式指標(biāo)與分析維度之間的對(duì)應(yīng)關(guān)系如表1所示。
表1 工業(yè)固定匯總表式指標(biāo)與分析維度對(duì)應(yīng)表
3.固定匯總表式與腳本設(shè)計(jì)。統(tǒng)計(jì)各專業(yè)在長(zhǎng)期的工作中積累了大量符合各方需要、直觀易懂的固定匯總表式。這些固定匯總表式既能反映地方經(jīng)濟(jì)水平,又能反映經(jīng)濟(jì)發(fā)展中的變化,是專業(yè)統(tǒng)計(jì)人員和各界需求的集成與固化。快速生成這些固定表式是數(shù)據(jù)分析模型最基礎(chǔ)的任務(wù)。
為此課題組針對(duì)固定匯總表式,根據(jù)專業(yè)提供的匯總分析算法和excel形式的匯總表樣式,設(shè)計(jì)了對(duì)應(yīng)的數(shù)據(jù)處理腳本,快速生成固定匯總表式數(shù)據(jù),并分專業(yè)、頻度、報(bào)告期集中統(tǒng)一存儲(chǔ)形成臺(tái)賬。
以工業(yè)統(tǒng)計(jì)為例,課題組共確定了涵蓋工業(yè)企業(yè)效益、規(guī)模、運(yùn)行質(zhì)量、經(jīng)營(yíng)趨勢(shì)預(yù)測(cè)等方面的固定表式12張,設(shè)計(jì)了18個(gè)數(shù)據(jù)處理腳本完成這些常規(guī)表式,并提供web頁面方便專業(yè)人員查看下載固定匯總表式數(shù)據(jù)。
4.設(shè)計(jì)即席查詢。為了更好的分析挖掘數(shù)據(jù),發(fā)現(xiàn)地方經(jīng)濟(jì)發(fā)展中新變化,各專業(yè)除了以固定匯總表式的形式分析挖掘數(shù)據(jù)外,還需要多指標(biāo)、多維度、長(zhǎng)時(shí)間跨度對(duì)數(shù)據(jù)進(jìn)行分析挖掘,讓各專業(yè)能夠隨時(shí)根據(jù)自己的需求靈活選擇查詢條件并給出分析挖掘結(jié)果也是本模型的重要任務(wù)。
以工業(yè)數(shù)據(jù)為例,課題組選擇工業(yè)總產(chǎn)值、工業(yè)企業(yè)主營(yíng)業(yè)務(wù)收入、利潤(rùn)總額等二十三個(gè)指標(biāo),以及統(tǒng)計(jì)管理級(jí)別、行業(yè)分類等十二個(gè)維度設(shè)計(jì)了即席查詢模版,并根據(jù)專業(yè)人員和有關(guān)部門人員的要求進(jìn)行動(dòng)態(tài)維護(hù)、及時(shí)更新。
(三)創(chuàng)建數(shù)據(jù)分析流程制度
在3年的實(shí)踐過程中,課題組深切感受到對(duì)數(shù)據(jù)分析進(jìn)行任務(wù)分工并合理安排任務(wù)節(jié)點(diǎn)的迫切性,以及各方均需嚴(yán)格完成既定任務(wù)的重要性。為此,課題組將上述數(shù)據(jù)分析處理過程進(jìn)行了任務(wù)化、流程化、定期化,并以制度的形式加以明確。
1.創(chuàng)建數(shù)據(jù)分析處理流程。數(shù)據(jù)分析處理過程需要完成的工作點(diǎn)較多,原始數(shù)據(jù)報(bào)告期也不盡相同,各專業(yè)還有特殊要求,需要合理的安排處理節(jié)點(diǎn)順序。同時(shí),數(shù)據(jù)分析處理過程往往并不是在同一數(shù)據(jù)處理平臺(tái)或工具中完成的,結(jié)合有關(guān)各方計(jì)算機(jī)水平,合理分工也顯得非常必要。為此,課題組結(jié)合現(xiàn)有工作實(shí)際情況與信息系統(tǒng)的支持程度設(shè)計(jì)了如圖2所示數(shù)據(jù)分析處理流程。
圖2 數(shù)據(jù)分析處理流程圖
其中,在對(duì)“執(zhí)行數(shù)據(jù)清理”、“導(dǎo)入數(shù)據(jù)”、“執(zhí)行數(shù)據(jù)處理腳本”三個(gè)任務(wù)節(jié)點(diǎn)進(jìn)行分配時(shí),既可以將其分配給數(shù)據(jù)處理中心執(zhí)行,也可將其分配給各專業(yè)人員執(zhí)行。課題組認(rèn)為如將其分配給數(shù)據(jù)處理中心執(zhí)行則存在數(shù)據(jù)處理中心任務(wù)過多、專業(yè)人員沒有自主性難以發(fā)揮專業(yè)知識(shí)優(yōu)勢(shì)、中間交互環(huán)節(jié)多難以保證時(shí)效性與準(zhǔn)確性等問題,因此將上述三個(gè)任務(wù)節(jié)點(diǎn)分配給各專業(yè)人員執(zhí)行。
2.科室協(xié)作制度建設(shè)。數(shù)據(jù)分析處理流程作為一個(gè)整體,必須各個(gè)任務(wù)節(jié)點(diǎn)都得到嚴(yán)格執(zhí)行,才能發(fā)揮既定作用,而這需要強(qiáng)有力的保障。同時(shí),為了保障專業(yè)人員能順利完成各任務(wù)節(jié)點(diǎn),數(shù)據(jù)中心應(yīng)提供培訓(xùn)、使用說明文檔等必要支持。
因此,課題組制定了科室協(xié)作制度,對(duì)數(shù)據(jù)分析流程中各方所承擔(dān)的任務(wù)節(jié)點(diǎn)及執(zhí)行時(shí)限、各方在需要交接的任務(wù)節(jié)點(diǎn)上的輸入和輸出、數(shù)據(jù)中心需要向各專業(yè)人員提供的支持等進(jìn)行了明確定義。
自2011年本數(shù)據(jù)處理模型構(gòu)建完成、2012年數(shù)據(jù)處理任務(wù)流程定義明確之后,各方嚴(yán)格按照科室協(xié)作制度執(zhí)行,完成自己的任務(wù)。從目前的情況看,已基本達(dá)到預(yù)期的目標(biāo)。
(一)建立了一套合理的數(shù)據(jù)管理模式。各來源數(shù)據(jù)文件在文件服務(wù)器上集中統(tǒng)一規(guī)范管理,有利于數(shù)據(jù)備份和數(shù)據(jù)共享;經(jīng)由數(shù)據(jù)預(yù)處理后,建立了面向應(yīng)用的數(shù)據(jù)資源,便于多指標(biāo)、多維度、長(zhǎng)時(shí)間跨度數(shù)據(jù)分析;生成的固定匯總表式數(shù)據(jù)也集中統(tǒng)一儲(chǔ)存在數(shù)據(jù)庫中形成臺(tái)賬,并能以較友好的形式展示。經(jīng)過進(jìn)一步的整理,工業(yè)專業(yè)目前已經(jīng)積累了近5年的臺(tái)賬數(shù)據(jù)和2003年以來的企業(yè)數(shù)據(jù)。
(二)總結(jié)出一套合適的數(shù)據(jù)分析處理模型建設(shè)方法。通過對(duì)工業(yè)專業(yè)建立數(shù)據(jù)分析模型的過程進(jìn)行分析總結(jié),梳理出如何快速為各個(gè)專業(yè)建立分析模型的一般方法,即首先根據(jù)專業(yè)固定匯總表式、可能的分析需求及數(shù)據(jù)的實(shí)際情況確定分析的指標(biāo)集和維度,并結(jié)合固定匯總表式匯總算法建立數(shù)據(jù)處理腳本,同時(shí)為即席查詢?cè)O(shè)計(jì)模板,以此保證固定表式數(shù)據(jù)生成的時(shí)效性、正確性和其他即席分析的靈活性。以工業(yè)為例,現(xiàn)在,專業(yè)人員在各來源數(shù)據(jù)齊備的情況下僅用兩三個(gè)小時(shí)就能獲取到固定匯總表式數(shù)據(jù),較以往在時(shí)效性和準(zhǔn)確性上有很大的提高。
(三)探索出一套有效的數(shù)據(jù)分析處理流程制度。以工業(yè)專業(yè)執(zhí)行數(shù)據(jù)分析處理的實(shí)際情況為主要參考,結(jié)合其他專業(yè)需求,平衡有關(guān)各方的工作量,合理安排任務(wù)節(jié)點(diǎn)和執(zhí)行時(shí)限,形成可行高效的數(shù)據(jù)分析處理流程。該數(shù)據(jù)分析處理流程,既能發(fā)揮專業(yè)人員的專業(yè)知識(shí)優(yōu)勢(shì),又能提高專業(yè)人員的自主性,還減少了流程執(zhí)行中不必要的環(huán)節(jié)提高數(shù)據(jù)處理的時(shí)效性、準(zhǔn)確性,保證了數(shù)據(jù)分析和資源積累的定期化、任務(wù)化和規(guī)范化。
4.驗(yàn)證了一套可行的統(tǒng)計(jì)信息化新模式。在定義數(shù)據(jù)分析處理流程時(shí),給專業(yè)人員分配了諸如“數(shù)據(jù)清理”、“數(shù)據(jù)導(dǎo)入”、“數(shù)據(jù)處理腳本執(zhí)行”等任務(wù)節(jié)點(diǎn),這些任務(wù)節(jié)點(diǎn)涉及到多種數(shù)據(jù)處理平臺(tái)、工具以及數(shù)據(jù)挖掘方面的知識(shí),對(duì)計(jì)算機(jī)水平要求較高。通過數(shù)據(jù)中心提供的培訓(xùn),結(jié)合良好的使用說明文檔,專業(yè)人員努力學(xué)習(xí)新的數(shù)據(jù)處理平臺(tái)操作方式及新的計(jì)算機(jī)知識(shí),達(dá)到了數(shù)據(jù)分析處理流程制度的要求,可以在較短時(shí)間內(nèi)完成常規(guī)分析工作,大大提高了工作效率。
課題組認(rèn)為,專業(yè)統(tǒng)計(jì)人員既是統(tǒng)計(jì)信息化的受益者,更應(yīng)該成為統(tǒng)計(jì)信息化的參與者。因此,在定義數(shù)據(jù)分析流程時(shí),可將信息化程度較高的任務(wù)節(jié)點(diǎn)分配給專業(yè)人員,任務(wù)驅(qū)動(dòng),借助于友好的數(shù)據(jù)處理平臺(tái),讓專業(yè)人員更加自主、高效的完成數(shù)據(jù)分析與挖掘工作,不斷提高自身計(jì)算機(jī)水平,提高統(tǒng)計(jì)信息化應(yīng)用水平。
下一步我們還將積極探索新的數(shù)據(jù)深度挖掘使用途徑,在工業(yè)分析方面嘗試建立涵蓋產(chǎn)品產(chǎn)量、銷售、訂貨、庫存、能源、科技、從業(yè)人員及工資在內(nèi)的大工業(yè)數(shù)據(jù)庫,對(duì)跨專業(yè)數(shù)據(jù)分析進(jìn)行探索,為在新形勢(shì)下研判工業(yè)經(jīng)濟(jì)發(fā)展提供支持。
(責(zé)任編輯:曹家樂)
統(tǒng)計(jì)科學(xué)與實(shí)踐2016年2期