步入數(shù)字經(jīng)濟(jì)發(fā)展新時(shí)代,以大數(shù)據(jù)為代表的新一代信息技術(shù)正引領(lǐng)著新一輪的科技革命和產(chǎn)業(yè)變革。數(shù)據(jù)作為新型生產(chǎn)要素,既是基礎(chǔ)性和戰(zhàn)略性資源,也已經(jīng)成為一種重要生產(chǎn)力。在工業(yè)和信息化領(lǐng)域如何積累數(shù)據(jù)資源、釋放數(shù)據(jù)價(jià)值,運(yùn)用大數(shù)據(jù)驅(qū)動(dòng)產(chǎn)業(yè)創(chuàng)新發(fā)展,對(duì)于促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)、推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展具有重要意義,也是工業(yè)和信息化主管部門推動(dòng)治理能力現(xiàn)代化的內(nèi)在需求和必要選擇。本文圍繞工業(yè)和信息化領(lǐng)域產(chǎn)業(yè)數(shù)據(jù)采集、匯聚、治理、管理、應(yīng)用等重點(diǎn)環(huán)節(jié),分析存在的關(guān)鍵問題,提出實(shí)踐解決策略,為工業(yè)和信息化主管部門、相關(guān)科研單位建設(shè)完善數(shù)據(jù)基礎(chǔ),加快提升獲取數(shù)據(jù)、分析數(shù)據(jù)、運(yùn)用數(shù)據(jù)的能力提供優(yōu)化路徑和參考。
產(chǎn)業(yè)數(shù)據(jù)的建設(shè)目標(biāo)是形成“來源穩(wěn)定、質(zhì)量可靠、管理有序、分析高效”的數(shù)據(jù)資源體系,為數(shù)據(jù)的分析、挖掘和應(yīng)用奠定基礎(chǔ)。目前相關(guān)部委、地方工信主管部門都在積極推進(jìn)產(chǎn)業(yè)數(shù)據(jù)建設(shè),結(jié)合調(diào)研和建設(shè)實(shí)踐情況,主要存在以下五方面問題。
數(shù)據(jù)構(gòu)成方面,工業(yè)和信息化領(lǐng)域涉及行業(yè)多、范圍廣,產(chǎn)業(yè)數(shù)據(jù)的邊界和范圍不明,難以針對(duì)性地開展研究和儲(chǔ)備。
數(shù)據(jù)采集方面,產(chǎn)業(yè)數(shù)據(jù)來源龐雜,數(shù)據(jù)類型及獲取方式多樣,難以保障數(shù)據(jù)持續(xù)、及時(shí)獲取。
數(shù)據(jù)匯聚方面,由于存儲(chǔ)成本降低和數(shù)據(jù)量增大,傳統(tǒng)數(shù)據(jù)集成過程(ETL)中的復(fù)雜處理非常耗時(shí),且數(shù)據(jù)在匯聚過程中同步開展轉(zhuǎn)換工作,若轉(zhuǎn)換規(guī)則有誤,數(shù)據(jù)將無法追溯,只能重新接入。
數(shù)據(jù)質(zhì)量方面,各來源獲取的數(shù)據(jù)質(zhì)量不一,不同層度上存在數(shù)據(jù)缺失、重復(fù)、異常值等問題,難以直接用于數(shù)據(jù)分析。
數(shù)據(jù)管理及應(yīng)用方面,難以掌握數(shù)據(jù)全貌,存在管理盲區(qū),導(dǎo)致大量數(shù)據(jù)獲取后 “躲”在后臺(tái),看不見、用不上、管不了。
(一)明確產(chǎn)業(yè)數(shù)據(jù)的邊界和內(nèi)容,找準(zhǔn)研究及建設(shè)的發(fā)力點(diǎn)
工業(yè)和信息化領(lǐng)域涉及行業(yè)多、企業(yè)多,數(shù)據(jù)的范圍廣、結(jié)構(gòu)復(fù)雜、頻率多樣,明確工業(yè)和信息化領(lǐng)域產(chǎn)業(yè)數(shù)據(jù)的范圍和內(nèi)容是推動(dòng)數(shù)據(jù)資源不斷豐富及體系架構(gòu)不斷完善的關(guān)鍵。圍繞工業(yè)和信息化主管部門主責(zé)主業(yè),根據(jù)數(shù)據(jù)的產(chǎn)生和應(yīng)用需要,從數(shù)據(jù)范圍來看,工業(yè)和信息化領(lǐng)域產(chǎn)業(yè)數(shù)據(jù)是工業(yè)和信息化主管部門行使職能,開展行業(yè)管理、推動(dòng)行業(yè)發(fā)展等過程中所產(chǎn)生和需要的數(shù)據(jù)集合。從數(shù)據(jù)的內(nèi)容構(gòu)成來來看,包括數(shù)據(jù)產(chǎn)生、組織、應(yīng)用三個(gè)角度。
數(shù)據(jù)產(chǎn)生角度,分為三個(gè)層面,即宏觀/區(qū)域/行業(yè)層面的基本信息、資源要素、統(tǒng)計(jì)匯總數(shù)據(jù);企業(yè)層面的基本信息、資源要素、生產(chǎn)經(jīng)營數(shù)據(jù);生產(chǎn)/流通/使用層面的行為和過程數(shù)據(jù)等方面。其中,以企業(yè)為主體而展開和延伸的各類數(shù)據(jù)是產(chǎn)業(yè)數(shù)據(jù)的核心和重點(diǎn);生產(chǎn)/流通/使用層面的行為和過程數(shù)據(jù)是產(chǎn)業(yè)數(shù)據(jù)的特色資源和有力補(bǔ)充。
數(shù)據(jù)組織角度,包括三個(gè)維度,即時(shí)間(不同頻率和區(qū)間)、空間(全國、省、市、縣及國際)和行業(yè)(國民經(jīng)濟(jì)行業(yè)分類或其他按需劃分的行業(yè)類型),可分別從時(shí)間、空間和行業(yè)的角度探討產(chǎn)業(yè)數(shù)據(jù)的構(gòu)成。
數(shù)據(jù)應(yīng)用角度,根據(jù)工信部門職責(zé)定位,包括應(yīng)用于行業(yè)管理、產(chǎn)業(yè)監(jiān)測(cè)、決策分析等多個(gè)方面的產(chǎn)業(yè)數(shù)據(jù)。
(二)完善數(shù)據(jù)采集手段,提高數(shù)據(jù)采集更新時(shí)效性
結(jié)合產(chǎn)業(yè)數(shù)據(jù)的范圍及內(nèi)容,數(shù)據(jù)獲取的方式主要分為線下文件、系統(tǒng)對(duì)接、手工填報(bào)、互聯(lián)網(wǎng)采集四種,通過建立線下數(shù)據(jù)電子化、數(shù)據(jù)接口、數(shù)據(jù)上報(bào)、網(wǎng)絡(luò)爬蟲等采集工具為不同的數(shù)據(jù)獲取方式匹配相應(yīng)的技術(shù)采集手段,保障數(shù)據(jù)的按需匯聚入庫,提高數(shù)據(jù)采集更新時(shí)效性。
線下數(shù)據(jù)電子化工具。應(yīng)用于線下方式提供的光盤、紙質(zhì)文件數(shù)據(jù)的電子化入庫,通過配置數(shù)據(jù)模板,實(shí)現(xiàn)數(shù)據(jù)的批量錄入及更新。
數(shù)據(jù)接口工具。應(yīng)用于與系統(tǒng)對(duì)接方式獲取數(shù)據(jù)的采集入庫,通過對(duì)各來源數(shù)據(jù)接口的統(tǒng)一管理和規(guī)則配置,可實(shí)現(xiàn)與數(shù)源系統(tǒng)的同步更新。
數(shù)據(jù)上報(bào)工具。應(yīng)用于政府、協(xié)會(huì)、企業(yè)等用戶在線填報(bào)、上傳數(shù)據(jù)(如地方生產(chǎn)、效益、投資等運(yùn)行數(shù)據(jù),特色行業(yè)數(shù)據(jù)),支持按需配置數(shù)據(jù)審核流程及短信催報(bào)等功能,數(shù)據(jù)上報(bào)后可實(shí)時(shí)更新入庫。
網(wǎng)絡(luò)爬蟲工具。應(yīng)用于外部門、行業(yè)協(xié)會(huì)、第三方機(jī)構(gòu)等在互聯(lián)網(wǎng)上公開發(fā)布數(shù)據(jù)(如海關(guān)總署月報(bào)數(shù)據(jù)、國家統(tǒng)計(jì)局公開發(fā)布指標(biāo)、各地政策新聞、投融資等)的采集入庫,可按需設(shè)定爬取頻率及入庫數(shù)據(jù)的格式,支持?jǐn)?shù)據(jù)的分鐘級(jí)更新。
(三)規(guī)范數(shù)據(jù)匯聚流程,保障多源數(shù)據(jù)持續(xù)積累
數(shù)據(jù)匯聚是通過集成工具指把各數(shù)據(jù)來源的原始數(shù)據(jù)進(jìn)行匯聚整合的過程,保障各渠道采集獲取數(shù)據(jù)的持續(xù)積累。傳統(tǒng)數(shù)倉一般采用ETL的方式進(jìn)行匯聚整合,在抽?。‥)和裝載(L)的過程中進(jìn)行清洗轉(zhuǎn)換(T)操作,這樣的方式如果轉(zhuǎn)換規(guī)則復(fù)雜,會(huì)導(dǎo)致ETL過程中消耗大量計(jì)算資源,且若轉(zhuǎn)換有錯(cuò)誤,由于沒有保留原始數(shù)據(jù),會(huì)導(dǎo)致數(shù)據(jù)無法追溯等問題。
本文采用ELT(Extract-Load-Transform)方式,按需抽?。‥)各數(shù)據(jù)源的原始數(shù)據(jù)裝載(L)至貼源數(shù)據(jù)層,再將匯聚后的數(shù)據(jù)按照統(tǒng)一庫表標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換(T),簡(jiǎn)化了抽取過程,且盡可能的保留了原始數(shù)據(jù)。
(四)規(guī)范數(shù)據(jù)匯聚流程,保障多源數(shù)據(jù)持續(xù)積累
建立完整的數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則,是發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,有效開展數(shù)據(jù)清洗加工的關(guān)鍵。針對(duì)產(chǎn)業(yè)數(shù)據(jù)質(zhì)量不一的問題,從數(shù)據(jù)的完整性、時(shí)效性、唯一性、準(zhǔn)確性等方面建立通用的質(zhì)量校驗(yàn)規(guī)則,定期開展數(shù)據(jù)質(zhì)量稽核,不斷提升數(shù)據(jù)的可用性和易用性。其中,完整性校驗(yàn)規(guī)則主要為比對(duì)數(shù)值、單位、起止時(shí)間等字段在庫表中是否完整、是否存在缺失值等;實(shí)效性校驗(yàn)規(guī)則主要為比對(duì)數(shù)據(jù)的更新時(shí)間是否與數(shù)據(jù)更新頻率一致;唯一性校驗(yàn)規(guī)則通過篩選指標(biāo)ID、字段名判斷是否存在重復(fù)數(shù)據(jù);準(zhǔn)確性校驗(yàn)規(guī)則通過設(shè)定閾值等方式比對(duì)數(shù)據(jù)記錄的內(nèi)容是否準(zhǔn)確、是否存在異?;蝈e(cuò)誤信息。
(五)構(gòu)建業(yè)務(wù)數(shù)據(jù)分類標(biāo)簽,推動(dòng)多維數(shù)據(jù)精細(xì)管理和分析應(yīng)用
數(shù)據(jù)標(biāo)簽是從業(yè)務(wù)視角對(duì)數(shù)據(jù)進(jìn)行的語義化描述,構(gòu)建了數(shù)據(jù)和業(yè)務(wù)之間的橋梁,可有效提升數(shù)據(jù)價(jià)值密度和數(shù)據(jù)可讀性。本文從數(shù)據(jù)的應(yīng)用、管理、安全三個(gè)維度,構(gòu)建數(shù)據(jù)標(biāo)簽,拓展數(shù)據(jù)的屬性和維度,加強(qiáng)數(shù)據(jù)的精細(xì)化管理能力和關(guān)聯(lián)分析應(yīng)用能力。
數(shù)據(jù)管理標(biāo)簽。面向數(shù)據(jù)的分類管理需求,構(gòu)建數(shù)據(jù)來源、數(shù)據(jù)頻率、數(shù)據(jù)質(zhì)量等管理標(biāo)簽,便于數(shù)據(jù)分類管理。其中,數(shù)據(jù)來源標(biāo)簽包括自有、外部門、行業(yè)協(xié)會(huì)、第三方機(jī)構(gòu)數(shù)據(jù)等;數(shù)據(jù)頻率標(biāo)簽包括不定期、年度、季度、月度、周度、日度、實(shí)時(shí)數(shù)據(jù)等;數(shù)據(jù)質(zhì)量標(biāo)簽根據(jù)數(shù)據(jù)質(zhì)量稽核情況區(qū)分質(zhì)量高、中、低三檔。
分析應(yīng)用標(biāo)簽。面向數(shù)據(jù)的分析應(yīng)用需求,構(gòu)建區(qū)域?qū)傩?、行業(yè)屬性、企業(yè)屬性等應(yīng)用標(biāo)簽,便于數(shù)據(jù)檢索查詢和關(guān)聯(lián)調(diào)用。其中,區(qū)域?qū)傩园ㄊ?市/縣等行政區(qū)劃標(biāo)簽,四大板塊、經(jīng)濟(jì)帶、城市群等重大區(qū)域戰(zhàn)略標(biāo)簽,工業(yè)園區(qū)和示范基地等工信特色區(qū)域標(biāo)簽;行業(yè)屬性包括國民經(jīng)濟(jì)行業(yè)標(biāo)簽,以及人工智能、工業(yè)互聯(lián)網(wǎng)等新興領(lǐng)域標(biāo)簽;企業(yè)屬性包括大中小微企業(yè)規(guī)模標(biāo)簽,國有、民營、外資等企業(yè)類型標(biāo)簽,單項(xiàng)冠軍、專精特新“小巨人”等重點(diǎn)企業(yè)標(biāo)簽。
安全管控標(biāo)簽。面向數(shù)據(jù)的安全管控需求,構(gòu)建數(shù)據(jù)流通性、數(shù)據(jù)保密性等分級(jí)標(biāo)簽,匹配相應(yīng)安全管理手段。其中,數(shù)據(jù)流通性標(biāo)簽包括無條件共享、有條件共享和不予共享數(shù)據(jù);數(shù)據(jù)敏感性標(biāo)簽包括內(nèi)部、公開等。
本文圍繞建設(shè)“來源穩(wěn)定、質(zhì)量可靠、管理有序、分析高效”的工業(yè)和信息化領(lǐng)域產(chǎn)業(yè)數(shù)據(jù)資源體系,深入分析了產(chǎn)業(yè)數(shù)據(jù)在采集、匯聚、清洗、管理、分析等重點(diǎn)環(huán)節(jié)存在的關(guān)鍵問題,從明確數(shù)據(jù)邊界及內(nèi)容、完善數(shù)據(jù)采集手段、強(qiáng)化數(shù)據(jù)質(zhì)量稽核、構(gòu)建業(yè)務(wù)數(shù)據(jù)分類標(biāo)簽等方面系統(tǒng)性的提出了解決策略,為推動(dòng)工業(yè)和信息化領(lǐng)域產(chǎn)業(yè)數(shù)據(jù)建設(shè),加快構(gòu)建滿足國家治理體系與治理能力現(xiàn)代化要求的工信大數(shù)據(jù)體系提供思路借鑒。
作者單位:中國信息通信研究院