◆胡振宇 夏琪琦 王佳楠 郭蓓蓓 安慧
基于大數(shù)據(jù)的信息管理模式研究
◆胡振宇 夏琪琦 王佳楠 郭蓓蓓 安慧
(河南財(cái)政金融學(xué)院 河南 450046)
隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)已被廣泛應(yīng)用于各個(gè)行業(yè)和各個(gè)領(lǐng)域。本文首先分析大數(shù)據(jù)的發(fā)展歷程、定義概念和性質(zhì)特征,接著在此基礎(chǔ)上提出基于大數(shù)據(jù)的信息管理模式,最后介紹其運(yùn)行流程,供相關(guān)讀者參考。
大數(shù)據(jù);信息管理;模式
全球已從工業(yè)經(jīng)濟(jì)時(shí)代邁入數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)已成為不可缺少的關(guān)鍵性和基礎(chǔ)性的生產(chǎn)要素,并與勞動(dòng)、資本、土地、知識(shí)、技術(shù)等構(gòu)成新經(jīng)濟(jì)范式。在黨的十九屆四中全會(huì)中,第一次正式將數(shù)據(jù)明確為能獲取報(bào)酬且能產(chǎn)生價(jià)值的新型生產(chǎn)要素[1]。重視和利用數(shù)據(jù)的價(jià)值,已成為世界各國(guó)和社會(huì)各界的共識(shí)[2]。在20世紀(jì)末,大數(shù)據(jù)開(kāi)始在中國(guó)興起,其起初只在IT互聯(lián)網(wǎng)行業(yè)應(yīng)用,此后,大數(shù)據(jù)已逐步向金融貿(mào)易、醫(yī)療衛(wèi)生、生產(chǎn)制造、政府治理等行業(yè)領(lǐng)域拓展運(yùn)用[3]。
中國(guó)政府高度重視大數(shù)據(jù)的培育和發(fā)展,本研究按時(shí)間順序匯總羅列中國(guó)部分大數(shù)據(jù)政策(表1)。最新的國(guó)家政策是在2020年12月,中央網(wǎng)信辦、國(guó)家發(fā)展和改革委員會(huì)和工業(yè)和信息化部等部門(mén)聯(lián)合發(fā)布了《關(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見(jiàn)》,其提出要加快建立全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系。
表1 中國(guó)部分大數(shù)據(jù)政策
發(fā)布時(shí)間文件名稱(chēng)發(fā)文機(jī)關(guān) 2016年12月《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》工業(yè)和信息化部 2018年4月《科學(xué)數(shù)據(jù)管理辦法》國(guó)務(wù)院辦公廳 2018年8月《推動(dòng)企業(yè)上云實(shí)施指南(2018—2020年)》工業(yè)和信息化部 2020年12月《關(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見(jiàn)》中央網(wǎng)信辦、國(guó)家發(fā)展和改革委員會(huì)、工業(yè)和信息化部等
學(xué)術(shù)界和業(yè)界一直在探討大數(shù)據(jù)(Big Data)的定義,但對(duì)大數(shù)據(jù)的概念還未形成完全統(tǒng)一的界定。起初對(duì)大數(shù)據(jù)的概念是從數(shù)據(jù)量大的角度界定,但隨著大數(shù)據(jù)應(yīng)用場(chǎng)景不斷增多、大數(shù)據(jù)處理技術(shù)不斷發(fā)展,大數(shù)據(jù)的概念已發(fā)展為數(shù)據(jù)量和技術(shù)等在內(nèi)的綜合性概念。工業(yè)和信息化部電信研究院曾在《大數(shù)據(jù)白皮書(shū)(2014年)》對(duì)大數(shù)據(jù)的概念進(jìn)行定義,其認(rèn)為大數(shù)據(jù)是具有體量大、結(jié)構(gòu)異樣、時(shí)效強(qiáng)的數(shù)據(jù),且是新資源、新應(yīng)用和新工具的綜合體。在麥肯錫公司報(bào)告《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》中提到,大數(shù)據(jù)是數(shù)據(jù)量大小超出傳統(tǒng)信息技術(shù)軟件和數(shù)據(jù)庫(kù)管理工具在合理時(shí)間內(nèi)的獲取、存儲(chǔ)、分析和管理能力的數(shù)據(jù)集,需特定技術(shù)才能完成其收集和應(yīng)用??傊?,大數(shù)據(jù)是網(wǎng)絡(luò)與存儲(chǔ)、數(shù)據(jù)與算法、決策與管理相交融合的產(chǎn)物。作為互聯(lián)網(wǎng)時(shí)代的信息資產(chǎn),大數(shù)據(jù)在被計(jì)算機(jī)處理后,具有輔助決策、優(yōu)化流程等功能[4]。
大數(shù)據(jù)的特征也是學(xué)術(shù)界和業(yè)界探討的焦點(diǎn),其是大數(shù)據(jù)的外在表現(xiàn),可為理解大數(shù)據(jù)的概念提供一個(gè)形象且直觀(guān)的基礎(chǔ)。目前對(duì)大數(shù)據(jù)共同特征的界定相對(duì)穩(wěn)定,并將大數(shù)據(jù)的特征描述為多個(gè)V,如3V、4V、5V等。在2001年,Douglas Laney提出了大數(shù)據(jù)的3V特征,即大容量(Volume)、格式多樣化(Variety)、處理速度快(Velocity)。隨著大數(shù)據(jù)的發(fā)展,不斷有學(xué)者對(duì)大數(shù)據(jù)特征提出新的觀(guān)點(diǎn),但都是按照幾個(gè)“V”或新增幾個(gè)“C”的模式拓展。比如,在Laney所提出3V特征的基礎(chǔ)上新增真實(shí)性(Veracity)、有價(jià)值(Value)、可視化(Visualization)、虛擬化(Virtual)、易變化(Variability/Volatility)等特征。最終在5V的基礎(chǔ)上增加動(dòng)態(tài)性(Vitality)、有效性(Validity)、復(fù)雜性(Complexity),形成一個(gè)“7V+1C”的特征模式。
本研究提出的基于大數(shù)據(jù)信息管理模式的框架如圖1所示。其可實(shí)現(xiàn)全面高效的數(shù)據(jù)收集、存儲(chǔ)、挖掘和分析,并可以利用有價(jià)值的信息,并通過(guò)信息管理幫助進(jìn)行有效的決策。
首先提出用于大數(shù)據(jù)存儲(chǔ)、處理和分析的多維混合性的大數(shù)據(jù)架構(gòu),以作為基礎(chǔ)支持信息管理模式的創(chuàng)建。其具體是構(gòu)建計(jì)算機(jī)體系結(jié)構(gòu),即信息管理模式的總體架構(gòu)。通過(guò)查看具體行業(yè)或領(lǐng)域的文獻(xiàn)資料,以確定大數(shù)據(jù)架構(gòu)的核心和非核心組件,這些組件可以反映所創(chuàng)建的信息管理模式的獨(dú)特特征[5]。
圖1 基于大數(shù)據(jù)信息管理模式的框架
接著創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)和云計(jì)算平臺(tái),其以標(biāo)準(zhǔn)數(shù)據(jù)格式統(tǒng)一存儲(chǔ)從多來(lái)源收集且經(jīng)數(shù)據(jù)清洗和初步處理后的高度異構(gòu)的數(shù)據(jù)。這些海量數(shù)據(jù)通過(guò)并行可擴(kuò)展存儲(chǔ)的方式分別存儲(chǔ)在集成數(shù)據(jù)庫(kù)和云倉(cāng)庫(kù)平臺(tái)中。可采用關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)創(chuàng)建數(shù)據(jù)庫(kù),以有效存儲(chǔ)有明顯價(jià)值的信息??刹捎梅植际綌?shù)據(jù)庫(kù)技術(shù)來(lái)創(chuàng)建云倉(cāng)庫(kù),以有效存儲(chǔ)有潛在價(jià)值的信息。
下一步創(chuàng)建大數(shù)據(jù)處理模型來(lái)處理在數(shù)據(jù)庫(kù)和云倉(cāng)庫(kù)中獲取和存儲(chǔ)的數(shù)據(jù),以將質(zhì)量較差的數(shù)據(jù)處理成完整性、一致性、準(zhǔn)確性和時(shí)效性都滿(mǎn)足標(biāo)準(zhǔn)的高質(zhì)量數(shù)據(jù),從而為下一階段大數(shù)據(jù)分析做準(zhǔn)備。未經(jīng)處理的原始數(shù)據(jù)數(shù)量龐雜、形式異樣,故大數(shù)據(jù)處理本質(zhì)是將低質(zhì)量數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量數(shù)據(jù),并需要根據(jù)行業(yè)或領(lǐng)域權(quán)威專(zhuān)家的分析來(lái)提前確定數(shù)據(jù)質(zhì)量的評(píng)判標(biāo)準(zhǔn)。具體可采用結(jié)構(gòu)化數(shù)據(jù)缺失值替換、非結(jié)構(gòu)化數(shù)據(jù)術(shù)語(yǔ)提取等技術(shù)和Hadoop、MapReduce等工具,來(lái)建立模型進(jìn)行大數(shù)據(jù)處理。
接著建立大數(shù)據(jù)分析平臺(tái),通過(guò)分析不同屬性的海量數(shù)據(jù),以從大數(shù)據(jù)中提取隱含的、事先未知但可能有用的信息,挖掘大數(shù)據(jù)中蘊(yùn)含的價(jià)值。存儲(chǔ)在數(shù)據(jù)庫(kù)和云倉(cāng)庫(kù)中的數(shù)據(jù)是大數(shù)據(jù)分析的主要數(shù)據(jù)源。
基于大數(shù)據(jù)分析方法來(lái)構(gòu)建大數(shù)據(jù)分析平臺(tái)的頂層,這些大數(shù)據(jù)分析方法可概括為以下五類(lèi),如圖2所示。第一類(lèi)是描述性分析方法,其通過(guò)仔細(xì)檢查數(shù)據(jù),并以標(biāo)準(zhǔn)報(bào)告和特別報(bào)告的形式定義當(dāng)前狀態(tài),并涉及信息的總結(jié)和描述。第二類(lèi)是探究性分析方法,其是通過(guò)檢測(cè)數(shù)據(jù)來(lái)確定所要解決問(wèn)題的根本原因。第三類(lèi)是預(yù)測(cè)性分析方法,其和預(yù)測(cè)或統(tǒng)計(jì)建模相關(guān),基于監(jiān)督、非監(jiān)督和半監(jiān)督的學(xué)習(xí)模型來(lái)確定特定事件的未來(lái)可能性。第四類(lèi)是規(guī)定性分析方法,其是評(píng)估行動(dòng)或指令對(duì)所要實(shí)現(xiàn)的目標(biāo)、要求和約束的影響。第五類(lèi)是預(yù)防性分析方法,其旨在識(shí)別可能存在的風(fēng)險(xiǎn),并及時(shí)建議前瞻性的預(yù)防策略[6]。
圖2 大數(shù)據(jù)分析方法
基于大數(shù)據(jù)分析技術(shù)來(lái)構(gòu)建大數(shù)據(jù)分析平臺(tái)的中層。這些大數(shù)據(jù)分析技術(shù)包括分類(lèi)分析、聚類(lèi)分析、異常分析和特定群體分析等數(shù)據(jù)挖掘技術(shù),關(guān)聯(lián)分析、預(yù)測(cè)分析、統(tǒng)計(jì)分析、智能推薦等深度學(xué)習(xí)技術(shù),以及遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等機(jī)器學(xué)習(xí)技術(shù)。其也包括文本分析、社交網(wǎng)絡(luò)分析和情感分析等用于文本形式數(shù)據(jù)或社交媒體數(shù)據(jù)的分析技術(shù),和用于分析地理數(shù)據(jù)或Web數(shù)據(jù)的空間分析或點(diǎn)擊流分析技術(shù)等。此外,基于大數(shù)據(jù)分析工具來(lái)構(gòu)建大數(shù)據(jù)分析平臺(tái)的底層。這些大數(shù)據(jù)分析工具包括Teradata Warehouse Miner、Mahout OLAP和Pentaho等,其可具體執(zhí)行分析預(yù)測(cè)等。
圖3 基于大數(shù)據(jù)信息管理模式的運(yùn)行流程
本研究所提出的基于大數(shù)據(jù)信息管理模式的運(yùn)行流程具體如圖3所示。最后可通過(guò)評(píng)估數(shù)據(jù)挖掘和分析所得信息的準(zhǔn)確度和利用率來(lái)檢測(cè)基于大數(shù)據(jù)信息管理模式的有效性,從而對(duì)整體大數(shù)據(jù)架構(gòu)進(jìn)行完善。
[1]黃其松,邱龍?jiān)疲T媛媛.大數(shù)據(jù)驅(qū)動(dòng)的要素與結(jié)構(gòu):一個(gè)理論模型[J].電子政務(wù),2020(04):49-57.
[2]李曉華,王怡帆.數(shù)據(jù)價(jià)值鏈與價(jià)值創(chuàng)造機(jī)制研究[J].經(jīng)濟(jì)縱橫,2020(11):54-62+2.
[3]王建冬,童楠楠.數(shù)字經(jīng)濟(jì)背景下數(shù)據(jù)與其他生產(chǎn)要素的協(xié)同聯(lián)動(dòng)機(jī)制研究[J].電子政務(wù),2020(03):22-31.
[4]許憲春,王洋.大數(shù)據(jù)在企業(yè)生產(chǎn)經(jīng)營(yíng)中的應(yīng)用[J].改革,2021(01):18-35.
[5]易成岐,竇悅,陳東,等.全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系:總體框架與戰(zhàn)略?xún)r(jià)值[J].電子政務(wù),2021(06):2-10.
[6]王璟璇,竇悅,黃倩倩,等.全國(guó)一體化大數(shù)據(jù)中心引領(lǐng)下超大規(guī)模數(shù)據(jù)要素市場(chǎng)的體系架構(gòu)與推進(jìn)路徑[J].電子政務(wù),2021(06):20-28.
[7]李鑫,史天運(yùn),馬小寧,等.鐵路機(jī)務(wù)大數(shù)據(jù)應(yīng)用系統(tǒng)設(shè)計(jì)研究[J].鐵道運(yùn)輸與經(jīng)濟(jì),2021,43(02):88-95.
河南財(cái)政金融學(xué)院青年基金項(xiàng)目:基于IPv6超大地址空間網(wǎng)絡(luò)中轉(zhuǎn)發(fā)設(shè)備流表壓縮機(jī)制研究(編號(hào):HNCJQN-2021-024);鄭州市2021年度社會(huì)科學(xué)調(diào)研課題:鄭州現(xiàn)代化韌性城市建設(shè)研究
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年5期