摘 要:【目的】大數(shù)據(jù)時(shí)代科技管理信息種類多、數(shù)量大,給科技管理工作帶來了全新的挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)分析方法效率低、工作量大,難以滿足分析需求,急需新型科技管理信息分析方法?!痉椒ā刻岢鲆环N基于大數(shù)據(jù)的科技管理信息分析方法,運(yùn)用大數(shù)據(jù)技術(shù)對(duì)科技管理信息進(jìn)行數(shù)據(jù)預(yù)處理;設(shè)計(jì)數(shù)據(jù)分析模型,通過模型對(duì)數(shù)據(jù)進(jìn)行分析;最后運(yùn)用數(shù)據(jù)可視化技術(shù)展現(xiàn)分析結(jié)果?!窘Y(jié)果】該方法可對(duì)各類科技管理信息進(jìn)行融合分析,解決數(shù)據(jù)孤島問題,打造全省科技管理數(shù)據(jù)一張圖?!窘Y(jié)論】該方法可提高大數(shù)據(jù)時(shí)代科技管理信息的分析效率,為科技管理工作提供數(shù)據(jù)參考。
關(guān)鍵詞:大數(shù)據(jù);科技管理;數(shù)據(jù)分析
中圖分類號(hào):G353" " "文獻(xiàn)標(biāo)志碼:A" " "文章編號(hào):1003-5168(2024)09-0153-05
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.09.032
Analysis and Visualization Application of Science and Technology
Management Information Based on Big Data
YANG Yifan JIAO Changchun
(The Scientific amp; Technological Information Center of Henan, Zhengzhou 450000, China)
Abstract:[Purposes] In the era of big data, there are many types of technology management information and a large amount of data, which brings new challenges to technology management work. Traditional data analysis methods have drawbacks like low efficiency and heavy workload, which are difficult to meet the needs of analysis. Therefore, new technology management information analysis methods are badly needed. [Methods] Firstly,this article proposes a technology management information analysis method based on big data, which uses big data technology to preprocess technology management information; secondly, a data analysis model is designed to analyze the data; finally, the analysis results are displayed by data visualization technology. [Findings] Practice has proven that this method can effectively integrate and analyze various types of science and technology management information, solve the problem of data silos, and create a map of science and technology management data for the whole province. [Conclusions] This analysis method can improve the efficiency of analyzing technology management information in the era of big data, thus providing data reference for technology management work.
Keywords: big data; technology management; data analysis
0 引言
隨著科技的快速發(fā)展,伴隨科技管理工作產(chǎn)生的科技管理信息數(shù)據(jù)越來越多。這些數(shù)據(jù)大多是由不同的科技業(yè)務(wù)管理平臺(tái)產(chǎn)生的,存儲(chǔ)在不同的數(shù)據(jù)庫中,數(shù)據(jù)種類繁多,數(shù)據(jù)結(jié)構(gòu)、格式也多種多樣[1]。由于數(shù)據(jù)來源與獲取方式有限,傳統(tǒng)的數(shù)據(jù)分析方法得到的往往是單一業(yè)務(wù)類型的數(shù)據(jù),對(duì)不同業(yè)務(wù)數(shù)據(jù)無法進(jìn)行融合分析;傳統(tǒng)的數(shù)據(jù)分析方法只對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)計(jì)算,得到統(tǒng)計(jì)數(shù)據(jù)的占比、走勢(shì)等,難以深度挖掘數(shù)據(jù)的潛在價(jià)值。當(dāng)前,世界已進(jìn)入大數(shù)據(jù)時(shí)代,大數(shù)據(jù)處理技術(shù)具有速度快、分析方法多樣化以及高復(fù)雜性和變化性等特點(diǎn),打破了科技管理信息間的數(shù)據(jù)孤島,深度挖掘科技管理信息的潛在價(jià)值,提高數(shù)據(jù)利用率,為科技管理工作提供了數(shù)據(jù)參考。
1 大數(shù)據(jù)與科技管理概述
1.1 大數(shù)據(jù)的定義與特性
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,從社交媒體賬號(hào)到物聯(lián)網(wǎng)傳感器,再到科學(xué)研究的數(shù)據(jù),數(shù)據(jù)量的產(chǎn)生和積累呈現(xiàn)爆炸式增長(zhǎng)[2]。全球每天的數(shù)據(jù)量高達(dá)數(shù)十億GB,且涵蓋多個(gè)領(lǐng)域??萍脊芾硇畔⒌臄?shù)據(jù)量也隨著科技的發(fā)展急速增長(zhǎng)。大數(shù)據(jù)是無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的新處理模式,才能處理海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。新處理模式具有4V特點(diǎn),即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)[3]。大數(shù)據(jù)已成為企業(yè)、政府和學(xué)術(shù)界關(guān)注的焦點(diǎn),隨著信息時(shí)代的深入發(fā)展,大數(shù)據(jù)將會(huì)繼續(xù)影響和改變我們的生活和工作方式。大數(shù)據(jù)的應(yīng)用領(lǐng)域廣泛,包括但不限于商業(yè)分析、醫(yī)療保健、科學(xué)研究、社交媒體、金融等領(lǐng)域[4]。
1.2 大數(shù)據(jù)時(shí)代科技管理工作面臨的挑戰(zhàn)
在大數(shù)據(jù)時(shí)代,科技管理工作面臨著多方面的挑戰(zhàn)。首先,數(shù)據(jù)的數(shù)量不斷增加,使得科技管理需要處理的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。這種增長(zhǎng)不僅體現(xiàn)在數(shù)據(jù)的數(shù)量上,還體現(xiàn)在數(shù)據(jù)的復(fù)雜性和多樣性上。結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都在快速產(chǎn)生,加劇了數(shù)據(jù)的復(fù)雜性。這使得科技管理部門越來越難以管理、存儲(chǔ)、分析和保護(hù)其數(shù)據(jù)。其次,數(shù)據(jù)質(zhì)量也是科技管理面臨的一大挑戰(zhàn)。不一致、過時(shí)、缺失、錯(cuò)誤、難以辨認(rèn)和重復(fù)的數(shù)據(jù)可能會(huì)降低整個(gè)數(shù)據(jù)集的質(zhì)量。這種數(shù)據(jù)質(zhì)量問題可能引發(fā)嚴(yán)重的大數(shù)據(jù)問題,給管理部門帶來錯(cuò)誤、低效和誤導(dǎo)性的見解,最終影響決策的質(zhì)量和效果。再次,大數(shù)據(jù)的來源多種多樣,集成難度大。不同的數(shù)據(jù)源可能具有不同的格式、結(jié)構(gòu)和質(zhì)量標(biāo)準(zhǔn),使得數(shù)據(jù)集成變得復(fù)雜且困難[6]。這就要求科技管理工作具備更強(qiáng)大的數(shù)據(jù)處理和整合能力,以確保數(shù)據(jù)的準(zhǔn)確性和一致性。最后,大部分科研管理單位對(duì)大數(shù)據(jù)時(shí)代的認(rèn)識(shí)不夠充分,仍維持著保守、僵化的管理思想,難以深入發(fā)掘大數(shù)據(jù)的價(jià)值。同時(shí),管理單位也缺少相應(yīng)的信息分析技術(shù),存在存儲(chǔ)空間有限的局限性,使得數(shù)據(jù)研究工作難以有效開展。
1.3 大數(shù)據(jù)在科技管理工作中的應(yīng)用價(jià)值
大數(shù)據(jù)在科技管理工作中的應(yīng)用價(jià)值體現(xiàn)在多個(gè)方面,為科技管理工作帶來了顯著的改進(jìn)和效益。大數(shù)據(jù)在科技管理工作中的主要應(yīng)用之一是規(guī)范數(shù)據(jù)管理。在科技項(xiàng)目管理過程中,海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生,通過大數(shù)據(jù)技術(shù)的運(yùn)用,可以對(duì)這些數(shù)據(jù)進(jìn)行清洗、加工和統(tǒng)一規(guī)范標(biāo)準(zhǔn),形成科技大數(shù)據(jù)的標(biāo)準(zhǔn)化管理。這有助于更好地利用這些數(shù)據(jù),提升科技管理工作的效率和質(zhì)量。大數(shù)據(jù)在科技管理工作中的另一項(xiàng)重要應(yīng)用是開放數(shù)據(jù)共享??萍即髷?shù)據(jù)的數(shù)據(jù)來源廣泛,包括科技項(xiàng)目申報(bào)、科技成果公開、共享科技資源、科技文獻(xiàn)、科技政策公開等方面。大數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)多源數(shù)據(jù)的融合和共享,促進(jìn)科技資源的共享和利用。這有助于推動(dòng)科技創(chuàng)新發(fā)展,提升整個(gè)科技領(lǐng)域的競(jìng)爭(zhēng)力。
此外,大數(shù)據(jù)還為科技管理工作提供了精準(zhǔn)決策支持。通過對(duì)大量數(shù)據(jù)的分析和挖掘,可以揭示科技發(fā)展的趨勢(shì)、規(guī)律和模式,為科技管理部門的決策提供科學(xué)依據(jù)。這有助于優(yōu)化科技資源配置,提升科技投入的效益,推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)升級(jí)。
2 基于大數(shù)據(jù)的科技管理信息分析方法
典型的大數(shù)據(jù)處理流程可分為:數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析、數(shù)據(jù)展示4個(gè)階段。數(shù)據(jù)采集就是從不同的數(shù)據(jù)源收集數(shù)據(jù);數(shù)據(jù)處理與集成是對(duì)采集的數(shù)據(jù)進(jìn)行去重、去噪、補(bǔ)缺處理,對(duì)數(shù)據(jù)進(jìn)一步集成存儲(chǔ);數(shù)據(jù)分析是根據(jù)業(yè)務(wù)需求,采用適當(dāng)?shù)姆椒ɑ蚰P?,?duì)數(shù)據(jù)進(jìn)行分析;數(shù)據(jù)展示是采用圖表等可視化工具,對(duì)分析結(jié)果進(jìn)行展示。本文認(rèn)為,數(shù)據(jù)采集、處理與集成可統(tǒng)稱為數(shù)據(jù)預(yù)處理。因此,基于大數(shù)據(jù)的科技管理信息分析的基本步驟是:首先,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)處理后的數(shù)據(jù)統(tǒng)一存儲(chǔ);其次,建立數(shù)據(jù)分析模型,運(yùn)用數(shù)據(jù)分析模型對(duì)數(shù)據(jù)進(jìn)行分析,得到分析結(jié)果;最后,使用數(shù)據(jù)可視化工具對(duì)分析結(jié)果進(jìn)行可視化展示。
2.1 數(shù)據(jù)預(yù)處理
科技管理信息數(shù)據(jù)來自各個(gè)科技管理業(yè)務(wù)系統(tǒng),直接對(duì)這些來自不同系統(tǒng)中的原始數(shù)據(jù)進(jìn)行處理存在若干問題:
①存在重復(fù)數(shù)據(jù)。在對(duì)各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行集成時(shí),由于各業(yè)務(wù)系統(tǒng)可能對(duì)同一實(shí)體數(shù)據(jù)在字段定義、格式、名稱拼寫上存在差異,導(dǎo)致同一實(shí)體數(shù)據(jù)存在多條不同的數(shù)據(jù)記錄,會(huì)導(dǎo)致產(chǎn)生錯(cuò)誤的數(shù)據(jù)分析結(jié)果。因此,在對(duì)科技管理信息數(shù)據(jù)進(jìn)行分析前,需對(duì)數(shù)據(jù)進(jìn)行去重處理。
②數(shù)據(jù)格式不同。各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)格式定義各不相同,數(shù)據(jù)庫版本、操作系統(tǒng)版本的不同,都會(huì)導(dǎo)致數(shù)據(jù)結(jié)構(gòu)的不同。
③數(shù)據(jù)缺失。在各業(yè)務(wù)系統(tǒng)中,由于系統(tǒng)的設(shè)計(jì)缺陷、操作中的人為失誤、隱私信息保護(hù)等原因,往往會(huì)存在缺失數(shù)據(jù),這些數(shù)據(jù)的值被標(biāo)記為空、“unknown”“1”或其他空值符號(hào)。這些缺失數(shù)據(jù)會(huì)對(duì)分析結(jié)果造成影響。
為解決以上問題,要對(duì)科技管理信息數(shù)據(jù)進(jìn)行分析,構(gòu)建統(tǒng)一的數(shù)據(jù)倉庫,對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。
①統(tǒng)一數(shù)據(jù)格式:數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(Extract, Transformation, Loading, ETL)是構(gòu)建高質(zhì)量數(shù)據(jù)倉庫的重要步驟。借助ETL工具,可以將數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,并按照用戶的要求,對(duì)數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換、合并處理,統(tǒng)一數(shù)據(jù)格式,存入統(tǒng)一數(shù)據(jù)倉庫中。常用的ETL工具有:Oracle Warehouse Builder(OWB)、Data Transformation Services(DTS)、Kettle、CloverETL、Flume等[5]。本文選用開源的Kettle作為ETL工具。Kettle是一款使用Java語言編寫的開源ETL工具,可在多個(gè)版本的操作系統(tǒng)中運(yùn)行,安裝簡(jiǎn)單,支持多種數(shù)據(jù)庫,并且提供用戶操作界面,使用方便。
②重復(fù)數(shù)據(jù)清洗。為提高數(shù)據(jù)的準(zhǔn)確度,提高數(shù)據(jù)分析速度和效率,需要對(duì)重復(fù)數(shù)據(jù)進(jìn)行清洗。最簡(jiǎn)單的清洗方式是把每一條數(shù)據(jù)都與其他數(shù)據(jù)進(jìn)行對(duì)比,從而發(fā)現(xiàn)重復(fù)數(shù)據(jù)。這種方式雖然效果很好,但計(jì)算復(fù)雜度較高,在實(shí)際分析中這種方法的效率很低。目前比較普遍的重復(fù)檢查方法是基本近鄰排序算法(Basic Sorted Neighborhood Method, SNM)[6]。該算法的核心思想是:根據(jù)指定的關(guān)鍵字,對(duì)數(shù)據(jù)進(jìn)行排序;設(shè)置一個(gè)大小固定的窗口,在排序后的數(shù)據(jù)集上移動(dòng),僅比較窗口內(nèi)的數(shù)據(jù)?;静襟E如下。
①數(shù)據(jù)排序:選取一個(gè)字段作為關(guān)鍵字,對(duì)數(shù)據(jù)進(jìn)行排序,使重復(fù)數(shù)據(jù)盡可能在相鄰區(qū)域內(nèi)。
②合并去重:設(shè)置一個(gè)大小為m的窗口,在已排序的數(shù)據(jù)上依次滑動(dòng),將每一條進(jìn)入窗口的新數(shù)據(jù)與窗口內(nèi)的其他m-1條數(shù)據(jù)對(duì)比,剔除重復(fù)的數(shù)據(jù),直到窗口滑動(dòng)至數(shù)據(jù)集末尾。
③缺失數(shù)據(jù)清洗。缺失數(shù)據(jù)清洗是大數(shù)據(jù)分析的必要步驟,缺失的數(shù)據(jù)會(huì)影響數(shù)據(jù)分析的準(zhǔn)確性。
目前,缺失數(shù)據(jù)的清洗方法可大致分為兩類:①基于數(shù)據(jù)填充的缺失數(shù)據(jù)清洗方法。②忽略不完整數(shù)據(jù)的缺失數(shù)據(jù)清洗方法。
基于數(shù)據(jù)填充的缺失數(shù)據(jù)清洗方法是運(yùn)用數(shù)據(jù)填充算法,生成近似值來替換缺失數(shù)據(jù)。數(shù)據(jù)填充算法有很多,可分為以下幾類。
①基于統(tǒng)計(jì)學(xué)方法的數(shù)據(jù)填充算法:這類算法主要是通過對(duì)原始數(shù)據(jù)集進(jìn)行假設(shè),利用原始數(shù)據(jù)集的統(tǒng)計(jì)學(xué)特征填補(bǔ)缺失數(shù)據(jù)。常見的算法有:回歸分析算法、最大期望(Expectation Maximization, EM)填充算法、多重插補(bǔ)算法等[7]。
②基于機(jī)器學(xué)習(xí)方法的數(shù)據(jù)填充算法:這類算法是基于機(jī)器學(xué)習(xí)的方法,對(duì)缺失數(shù)據(jù)進(jìn)行分類或是聚類。其中分類算法是先構(gòu)造一個(gè)分類器(Classifier),使用分類器對(duì)缺失數(shù)據(jù)進(jìn)行分類,再在每一個(gè)類別中對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),但當(dāng)缺失屬性過多時(shí),會(huì)導(dǎo)致分類過多,造成填補(bǔ)效率低;聚類算法則是對(duì)缺失數(shù)據(jù)進(jìn)行聚類,劃分成多個(gè)簇,在每個(gè)簇內(nèi)根據(jù)相似度進(jìn)行數(shù)據(jù)填補(bǔ),缺失屬性不會(huì)影響簇的數(shù)量。具有代表性的算法有:k-最鄰近(k-Nearest Neighbor, k-NN)分類填補(bǔ)算法、貝葉斯網(wǎng)絡(luò)填補(bǔ)算法、k-means聚類填補(bǔ)算法[8]。
③人工填補(bǔ)法:人工填補(bǔ)就是由數(shù)據(jù)維護(hù)者自行人工對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),這種方法無疑是最準(zhǔn)確的。但如果缺失數(shù)據(jù)比較多,那么這種填補(bǔ)方式的工作量將會(huì)非常大。
科技管理信息對(duì)數(shù)據(jù)的準(zhǔn)確性要求非常高。在數(shù)據(jù)填報(bào)時(shí),省市區(qū)三級(jí)科技管理部門會(huì)對(duì)填報(bào)數(shù)據(jù)進(jìn)行層層審核。因此對(duì)于科技管理信息的缺失數(shù)據(jù),可直接聯(lián)系相關(guān)單位進(jìn)行詢問填補(bǔ),人工填補(bǔ)較為便捷。綜上所述,為保證數(shù)據(jù)分析的準(zhǔn)確度,科技管理信息的缺失數(shù)據(jù)宜采用人工填補(bǔ)的方法進(jìn)行缺失數(shù)據(jù)清洗。
經(jīng)過數(shù)據(jù)預(yù)處理后的原始數(shù)據(jù),即可存入數(shù)據(jù)倉庫內(nèi)。在大數(shù)據(jù)背景下,科技管理信息的數(shù)據(jù)量大,常見的MySQL、SQL Sever等關(guān)系型數(shù)據(jù)庫,隨著存儲(chǔ)數(shù)據(jù)量的增大其性能下降,無法滿足大數(shù)據(jù)時(shí)代科技管理信息數(shù)據(jù)倉庫的需求。Hadoop數(shù)據(jù)倉庫是使用Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System, HDFS)構(gòu)建的分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),具有高可靠、高性能、高擴(kuò)展性的特點(diǎn),是大數(shù)據(jù)時(shí)代最常用的數(shù)據(jù)倉庫框架[9]。本文選用Hadoop作為科技管理信息的數(shù)據(jù)倉庫,便于后續(xù)對(duì)數(shù)據(jù)的分析利用。
2.2 數(shù)據(jù)分析模型建立
在單個(gè)科技管理業(yè)務(wù)系統(tǒng)中,由于數(shù)據(jù)是單一業(yè)務(wù)的數(shù)據(jù),所以對(duì)科技管理信息的分析也往往是單一主題、單一維度的分析。借助大數(shù)據(jù)技術(shù)將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集成在一起,可以實(shí)現(xiàn)對(duì)科技管理信息的多主題、多維度分析。根據(jù)科技管理信息的數(shù)據(jù)內(nèi)容,須先對(duì)模型進(jìn)行統(tǒng)計(jì)主題預(yù)設(shè),以便對(duì)相應(yīng)主題數(shù)據(jù)進(jìn)行分析。目前科技管理信息數(shù)據(jù)涵蓋的主題有:
①科技創(chuàng)新統(tǒng)計(jì)包括研究與發(fā)展(Ramp;D)人員數(shù)、每名Ramp;D人員研發(fā)儀器和設(shè)備支出、有Ramp;D活動(dòng)的企業(yè)占比、研發(fā)經(jīng)費(fèi)投入、研發(fā)經(jīng)費(fèi)投入強(qiáng)度、萬人Ramp;D研究人員數(shù)、企業(yè)Ramp;D研究人員占比、Ramp;D經(jīng)費(fèi)支出與GDP比值、地方財(cái)政科技支出占地方財(cái)政支出比重、專利授權(quán)量、技術(shù)市場(chǎng)成交合同數(shù)、技術(shù)市場(chǎng)成交額、財(cái)政科技支出、財(cái)政科技支出占一般公共預(yù)算支出比重。
②創(chuàng)新平臺(tái)統(tǒng)計(jì)包括實(shí)驗(yàn)室、工程技術(shù)研究中心、新型研發(fā)機(jī)構(gòu)、野外科學(xué)觀測(cè)研究站、技術(shù)轉(zhuǎn)移示范機(jī)構(gòu)、國際科技合作基地。
③創(chuàng)新企業(yè)統(tǒng)計(jì)包括創(chuàng)新龍頭企業(yè)、瞪羚企業(yè)、高新技術(shù)企業(yè)、國家級(jí)科技型中小企業(yè)。
④創(chuàng)新人才統(tǒng)計(jì)包括兩院院士、中原學(xué)者、領(lǐng)軍人物、國家計(jì)劃。
⑤科技創(chuàng)新載體統(tǒng)計(jì)包括孵化器、大學(xué)科技園、眾創(chuàng)空間、專業(yè)化眾創(chuàng)空間、星創(chuàng)天地。
⑥科技園區(qū)統(tǒng)計(jì)包括高新區(qū)、農(nóng)業(yè)科技園區(qū)、可持續(xù)發(fā)展實(shí)驗(yàn)區(qū)。
針對(duì)不同的主題,可選用不同的維度,其中通用的維度是時(shí)間維度和地區(qū)維度。這兩個(gè)維度限定了區(qū)域和時(shí)間,可獲取某一區(qū)域在某個(gè)時(shí)間某個(gè)主題的統(tǒng)計(jì)數(shù)據(jù);也可不對(duì)主題進(jìn)行限定,獲取該區(qū)域該時(shí)間的全部數(shù)據(jù)。也就是說,該模型具有3個(gè)參數(shù),分別是主題、時(shí)間和地區(qū)。通過輸入這3個(gè)參數(shù),在大數(shù)據(jù)倉庫中進(jìn)行查詢計(jì)算,得到相應(yīng)的統(tǒng)計(jì)結(jié)果。
目前,用于大數(shù)據(jù)分析的工具有很多,其中,Hadoop大數(shù)據(jù)框架集成了MapReduce計(jì)算引擎。但MapReduce計(jì)算引擎需要將中間的計(jì)算結(jié)果寫入磁盤中,這將會(huì)導(dǎo)致非常頻繁的磁盤IO(Input Output),從而影響計(jì)算性能,因此MapReduce適合大規(guī)模的離線計(jì)算分析[10]。Spark計(jì)算引擎是一種基于內(nèi)存的大數(shù)據(jù)計(jì)算引擎,其中間計(jì)算結(jié)果可以直接寫入內(nèi)存,這大大提高了實(shí)時(shí)分析的計(jì)算速度。并且支持Java、Scala等編程語言,同時(shí)提供了Spark SQL工具,對(duì)于簡(jiǎn)單查詢計(jì)算,僅需要編寫SQL語句便可完成,降低了開發(fā)難度。因此,模型采用Spark計(jì)算引擎,設(shè)定3個(gè)模型參數(shù),對(duì)科技管理信息進(jìn)行統(tǒng)計(jì)分析,得到的分析結(jié)果存入數(shù)據(jù)庫中。
2.3 分析結(jié)果可視化
通過數(shù)據(jù)模型得到的科技管理信息分析結(jié)果,可以直接存儲(chǔ)到普通的關(guān)系型數(shù)據(jù)庫中。這里選用MySQL數(shù)據(jù)庫。數(shù)據(jù)可視化的工具多種多樣,Apache ECharts是一種開源的、基于 JavaScript的可視化圖表庫。其內(nèi)置了折線圖、柱狀圖、餅圖等多種圖表,以及地圖、日歷、提示框等組件,擁有豐富的動(dòng)畫效果,支持多種數(shù)據(jù)格式,可以滿足大數(shù)據(jù)科技管理信息分析結(jié)果的可視化展示要求。分析結(jié)果可視化采用MVC(Model、View、Controller)設(shè)計(jì)模式。簡(jiǎn)化了設(shè)計(jì)流程,提高了開發(fā)效率。
3 實(shí)踐與應(yīng)用
本文提出的基于大數(shù)據(jù)的科技管理信息分析方法,運(yùn)用于河南省科技服務(wù)綜合體信息管理平臺(tái)上,可從多個(gè)維度對(duì)多個(gè)主題的科技管理信息數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并使用數(shù)據(jù)可視化技術(shù)進(jìn)行展示。
圖1為2021年河南省科技創(chuàng)新統(tǒng)計(jì)圖,可直觀展示河南省各地市萬人研究與發(fā)展(Ramp;D)人員數(shù)。
除了以年份為維度,對(duì)各地市按照不同主題進(jìn)行統(tǒng)計(jì)分析,也可以以地區(qū)為維度,對(duì)各統(tǒng)計(jì)主題的趨勢(shì)進(jìn)行分析。以河南省全省實(shí)驗(yàn)室統(tǒng)計(jì)數(shù)據(jù)為例,圖2為全省實(shí)驗(yàn)室(包括省實(shí)驗(yàn)室、省級(jí)重點(diǎn)實(shí)驗(yàn)室、省級(jí)國際聯(lián)合實(shí)驗(yàn)室)歷年統(tǒng)計(jì)數(shù)據(jù),橫坐標(biāo)為年份,縱坐標(biāo)為實(shí)驗(yàn)室數(shù)量,可以直觀地看到全省實(shí)驗(yàn)室的建設(shè)趨勢(shì)。
河南省科技服務(wù)綜合體信息管理平臺(tái)運(yùn)用本文所提出的基于大數(shù)據(jù)的科技管理信息分析方法,對(duì)全省各地市科技管理信息數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)分析。通過該方法,可直觀地掌握各地市的科技發(fā)展情況,打造全省科技數(shù)據(jù)一張圖,為科技管理部門決策提供數(shù)據(jù)參考。
4 總結(jié)
本文提出了基于大數(shù)據(jù)的科技管理信息分析方法,采用該方法對(duì)科技管理信息原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)格式統(tǒng)一、重復(fù)數(shù)據(jù)清洗、缺失數(shù)據(jù)清洗,將處理后的數(shù)據(jù)存入Hadoop數(shù)據(jù)倉庫;建立數(shù)據(jù)統(tǒng)計(jì)分析模型,運(yùn)用Spark計(jì)算引擎進(jìn)行統(tǒng)計(jì)分析;最后運(yùn)用數(shù)據(jù)可視化計(jì)算,借助ECharts數(shù)據(jù)可視化工具,對(duì)分析結(jié)果進(jìn)行展示,實(shí)現(xiàn)對(duì)各科技管理業(yè)務(wù)系統(tǒng)數(shù)據(jù)的融合分析。
參考文獻(xiàn):
[1]劉曉晨, 王卓昊. 基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺(tái)研究[J]. 情報(bào)學(xué)報(bào), 2021(9): 953-961.
[2]李國杰, 程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域—大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 中國科學(xué)院院刊,2012,27(6):647-657.
[3]嚴(yán)霄鳳, 張德馨. 大數(shù)據(jù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(4): 168-172.
[4] FRANKEL F,REID R. Big data: Distilling meaning from data[J]. Nature, 2008, 455(7209): 30-30.
[5]徐俊剛,裴瑩.數(shù)據(jù)ETL研究綜述[J]. 計(jì)算機(jī)科學(xué), 2011, 38(4): 15-20.
[6]MAURICIO A,HERNáNDEZ, STOLFO S J. Real-world data is dirty: data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1998, 2(1):9-37.
[7]LITTLE R J A,RUBIN D B. The analysis of social science data with missing values[J]. Sociological Methods amp; Research, 1989, 18(2-3): 292-326.
[8]YU J. General C-means clustering model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1197-1211.
[9]何健偉. 基于Hadoop的數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué), 2015.
[10]李建江,崔健,王聃,等. MapReduce并行編程模型研究綜述[J]. 電子學(xué)報(bào), 2011, 39(11): 2635-2642.