文/羅新曼
如今,大數(shù)據(jù)技術(shù)在計算機信息系統(tǒng)中的應(yīng)用日趨成熟,且逐步演化為主流發(fā)展趨勢。應(yīng)用大數(shù)據(jù)技術(shù)可以通過計算機信息系統(tǒng)分析事物的演變進程,進而不斷提升知識層次。由此可知,全面探究大數(shù)據(jù)技術(shù)在計算機網(wǎng)絡(luò)信息管理中的實踐應(yīng)用具有實際意義。
大數(shù)據(jù)時代是指海量的數(shù)據(jù)信息逐步由單一化過渡到多元化的發(fā)展進程,數(shù)據(jù)信息更新速度持續(xù)加快,數(shù)據(jù)信息獲取渠道逐漸增加,且數(shù)據(jù)信息的成本不斷降低。大數(shù)據(jù)時代的基本特征就是數(shù)據(jù)信息的海量化與多樣化。近年來,大數(shù)據(jù)技術(shù)逐步被拓展應(yīng)用到各個行業(yè)領(lǐng)域,如企業(yè)管理、臨床醫(yī)療、教育培訓(xùn)等。但隨著大數(shù)據(jù)技術(shù)應(yīng)用范圍的擴大,計算機網(wǎng)絡(luò)的信息安全問題也成為社會各界關(guān)注的焦點。近年來,關(guān)于網(wǎng)絡(luò)犯罪的新聞報道屢見不鮮,這對社會治安構(gòu)成了極大的威脅。由此,構(gòu)建良好的網(wǎng)絡(luò)環(huán)境,保證數(shù)據(jù)信息安全性,也成為各相關(guān)部門致力探究的新課題。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握海量數(shù)據(jù)信息,而在于對數(shù)據(jù)信息的專業(yè)化處理。如果將大數(shù)據(jù)比作一類社會產(chǎn)業(yè),只有不斷提高數(shù)據(jù)信息的加工處理能力,才能充分挖掘數(shù)據(jù)信息的利用價值,提升增值空間,確保產(chǎn)業(yè)盈利。
大數(shù)據(jù)的核心技術(shù)涵蓋了數(shù)據(jù)收集、存取、基礎(chǔ)框架構(gòu)建、處理、統(tǒng)計分析、挖掘、模型預(yù)測與結(jié)果呈現(xiàn)這幾方面。各類核心技術(shù)優(yōu)勢特征各異,均發(fā)揮著重要作用。
在大數(shù)據(jù)的整個生命周期中,數(shù)據(jù)收集是首要環(huán)節(jié)。根據(jù)映射規(guī)約(MapReduce)對大規(guī)模數(shù)據(jù)集的并行運算可知,大數(shù)據(jù)的采集主要是通過管理系統(tǒng)、WEB信息系統(tǒng)、物理信息系統(tǒng)及科學(xué)實驗系統(tǒng)這四部分實現(xiàn)的。
根據(jù)大數(shù)據(jù)的類型,采用對應(yīng)的技術(shù)路線,主要包括如下三類:第一類,大規(guī)模大結(jié)構(gòu)化數(shù)據(jù);第二類,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);第三類,結(jié)構(gòu)化與非結(jié)構(gòu)化混合數(shù)據(jù)。
按照存儲途徑差異可劃分為云存儲和分布式文件存儲等類別。
針對不同數(shù)據(jù)集合的結(jié)構(gòu)形式,如文件、XML樹、關(guān)系表等,突出數(shù)據(jù)的異構(gòu)性。對于各類異構(gòu)的數(shù)據(jù)集而言,要實現(xiàn)集成處理與整合處理,將來自于不同數(shù)據(jù)集合的數(shù)據(jù)信息整合成一個新的數(shù)據(jù)集,為查詢與分析提供便利條件。
該技術(shù)包括假設(shè)檢驗、特征檢驗、關(guān)聯(lián)分析、卡方分析、距離分析、逐級回歸、曲線分析、因子分析、對照分析與獨立技術(shù)等內(nèi)容。
當(dāng)下,盡管現(xiàn)有的數(shù)據(jù)挖掘技術(shù)與機器學(xué)習(xí)技術(shù)已取得了良好的應(yīng)用成效,但仍需進一步完善,還需全面開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘與圖挖掘等新型數(shù)據(jù)挖掘技術(shù)。突破以用戶為基準(zhǔn)的數(shù)據(jù)連接模式,使大數(shù)據(jù)挖掘技術(shù)兼顧網(wǎng)絡(luò)行為分析、用戶興趣分析與主觀情感分析等內(nèi)容。
該技術(shù)包括構(gòu)建預(yù)測模型,仿真模擬。
該環(huán)節(jié)內(nèi)功能為形成標(biāo)簽云圖與關(guān)系圖。
云計算技術(shù)在計算機信息系統(tǒng)中作用的發(fā)揮,需要通過網(wǎng)絡(luò)計算模式及集中處理技術(shù)來實現(xiàn),通過兩者的有效配合,構(gòu)建數(shù)據(jù)模型,對數(shù)據(jù)信息進行集中處理,并將其遷移到云端內(nèi),進而大幅度降低計算機信息系統(tǒng)的信息處理成本?;谠朴嬎慵夹g(shù),技術(shù)服務(wù)軟件可以利用無線局域網(wǎng)自動產(chǎn)生相應(yīng)的移動數(shù)據(jù)網(wǎng)格,形成閉環(huán)式信息反饋處理模型。
在云計算技術(shù)應(yīng)用過程中,需要繪制標(biāo)準(zhǔn)的數(shù)據(jù)流圖G=(V,E)。并在此基礎(chǔ)上,通過合理計算公式的應(yīng)用,生成一系列的組合及遠(yuǎn)程傳輸數(shù)據(jù)的隱性通道。其中,模式中組的計算公式是:,隱性通道的公式是:。
此外,為輸出對應(yīng)數(shù)據(jù),還需要設(shè)置不同的出口節(jié)點。在C/S的架構(gòu)下,云計算數(shù)據(jù)流模型的傳輸控制范圍公式為:
在C/S架構(gòu)中的云計算數(shù)據(jù)流模型的傳輸控制范圍內(nèi),大數(shù)據(jù)處理時所使用的數(shù)據(jù)流圖,處理其關(guān)鍵部位時,也要采用向圖模式及相關(guān)公式完成運算和控制。公式如下:
公式中,Vp代表云計算模式中最重要的交叉通道承載物理節(jié)點集合;Ep代表云計算模式中最重要的交叉通道鏈路集合。SCAp代表的是不同組件中物理節(jié)點的不同數(shù)據(jù)單元數(shù)據(jù)數(shù)量。
云計算對數(shù)據(jù)資源的動態(tài)配置管理,需要構(gòu)建無向圖模式。云計算整體架構(gòu)的表達公式如下:
這種云計算的整體架構(gòu)所涉及的云計算技術(shù),可以整合多元化數(shù)據(jù)信息。根據(jù)模擬應(yīng)用實驗可知,將這種云計算方法應(yīng)用到計算機系統(tǒng)的數(shù)據(jù)處理環(huán)節(jié),可以進一步提升數(shù)據(jù)容載量,節(jié)省時間。由于這種云計算整體架構(gòu)可以將數(shù)據(jù)上傳至云端系統(tǒng),因此,可以大幅度提升計算機信息處理系統(tǒng)的運行效率,達到資源共享目的。通過云計算模型的應(yīng)用,一方面實現(xiàn)了多種信息數(shù)據(jù)的集中計算,另一方面也滿足了不同用戶的資源需求,增大了數(shù)據(jù)利用率。
在新時代背景下,商業(yè)環(huán)境越來越復(fù)雜,企業(yè)應(yīng)以多方面為切入點,一是加大信息數(shù)據(jù)的保護力度,做好信息數(shù)據(jù)的備份工作,拓展系統(tǒng)的容錯空間;二是構(gòu)建完善的容災(zāi)系統(tǒng),對數(shù)據(jù)信息實行擇優(yōu)篩選,并實現(xiàn)分類保護和存管,進而減少危險的發(fā)生,提升數(shù)據(jù)利用率。
當(dāng)下,絕大多數(shù)企業(yè)都對數(shù)據(jù)備份缺乏重視。據(jù)相關(guān)社會調(diào)查結(jié)果顯示,應(yīng)用數(shù)據(jù)備份系統(tǒng)的企業(yè)不足20%,而同時應(yīng)用數(shù)據(jù)備份系統(tǒng)容災(zāi)系統(tǒng)的企業(yè)不足5%。由此可知,企業(yè)對數(shù)據(jù)備份系統(tǒng)與容災(zāi)系統(tǒng)的應(yīng)用缺乏客觀認(rèn)知。為此,要在全國范圍內(nèi)推廣數(shù)據(jù)備份技術(shù),加強企業(yè)的信息保護。與此同時,要想確保企業(yè)信息的絕對安全,還需在數(shù)據(jù)定期備份的基礎(chǔ)上,全面掌控備份細(xì)節(jié)。一些企業(yè)認(rèn)為只要將數(shù)據(jù)拷貝到優(yōu)盤中就是進行數(shù)據(jù)備份,而這種錯誤的思想觀念也在很大程度上增加了企業(yè)信息資源的安全隱患。
在數(shù)據(jù)備份中,應(yīng)用最多的存儲介質(zhì)為移動硬盤、磁帶和U盤這三種。企業(yè)要結(jié)合實際需求,選擇對應(yīng)的數(shù)據(jù)存儲介質(zhì)。同時,盡量做到異地存放,在存放地點配置完善的計算機裝置與遠(yuǎn)程通訊裝置,以便在發(fā)生突發(fā)狀況時,快速啟動數(shù)據(jù)備份系統(tǒng),防止數(shù)據(jù)丟失。另外,還應(yīng)將數(shù)據(jù)備份系統(tǒng)與企業(yè)管理系統(tǒng)予以有效連接,提升損壞數(shù)據(jù)的恢復(fù)效率,保證企業(yè)相關(guān)工作的有序進行。再者,在數(shù)據(jù)備份中,除了將數(shù)據(jù)信息移動到移動硬盤內(nèi)外,還可通過遠(yuǎn)程技術(shù)的應(yīng)用將數(shù)據(jù)信息實施壓縮處理,制成光盤予以保存,且單獨管理,加強企業(yè)信息的安全性。
企業(yè)在發(fā)展中會構(gòu)建完善的信息數(shù)據(jù)庫系統(tǒng),其不僅起到信息存管的作用,也實現(xiàn)了信息數(shù)據(jù)的備份,不過在使用中,應(yīng)對數(shù)據(jù)庫內(nèi)的信息實行及時的更新和完善,確保在突發(fā)狀況發(fā)生時,工作人員可從數(shù)據(jù)庫內(nèi)及時調(diào)取已被損壞的信息數(shù)據(jù),恢復(fù)企業(yè)的運營,降低損失的形成。數(shù)據(jù)備份也可實現(xiàn)對數(shù)據(jù)庫的動態(tài)追蹤及文件的全面監(jiān)管,在備份機上動態(tài)更新監(jiān)控日志,并自主更新備份磁盤??偠灾髽I(yè)可以結(jié)合實際發(fā)展情況,制定完整的數(shù)據(jù)備份方案,以加強整個系統(tǒng)的可執(zhí)行性,充分發(fā)揮優(yōu)勢效能。
Hadoop系統(tǒng)具有拓展性強,投資成本低等優(yōu)勢特征,故而被廣泛應(yīng)用到各個行業(yè)領(lǐng)域,并取得了良好的應(yīng)用成效。對于Hadoop系統(tǒng)來說,無論是哪一類數(shù)據(jù)結(jié)構(gòu)類型,都可以存儲大量的數(shù)據(jù)信息,并且不會與數(shù)據(jù)倉庫系統(tǒng)出現(xiàn)任何排斥現(xiàn)象。
如鐵路貨運中,因其具有數(shù)據(jù)類型冗雜、資源整合難度大、投資成本高等問題,在實際管理中,可應(yīng)用Hadoop系統(tǒng)可以協(xié)調(diào)解決鐵路運輸信息傳導(dǎo)方面的問題,滿足實際需求。Hadoop系統(tǒng)和鐵路運輸數(shù)據(jù)倉庫的有機整合,可以形成完整的貨運大數(shù)據(jù)分析平臺。且通過Hadoop系統(tǒng)的應(yīng)用,可對信息數(shù)據(jù)實施分類存管和備份管理,簡化數(shù)據(jù)信息的整合流程,降低管理難度,提高時效性與準(zhǔn)確性。另外,Hadoop系統(tǒng)在信息數(shù)據(jù)的整合與集中管理中還具有特殊的透視功能,不僅能夠提高零部件的協(xié)調(diào)運作效率,也可以充分發(fā)揮優(yōu)勢效能,滿足數(shù)據(jù)資源處理與共享需求??v觀行業(yè)發(fā)展現(xiàn)狀,Hadoop系統(tǒng)的開發(fā)已逐步進入完善階段,各功能組件分工明確,并逐漸形成一整套功能完備的大數(shù)據(jù)信息分析平臺應(yīng)用系統(tǒng)。
綜上所述,伴隨時代的發(fā)展與科技的進步,大數(shù)據(jù)技術(shù)逐步拓展應(yīng)用到各個行業(yè)領(lǐng)域,其在網(wǎng)絡(luò)信息管理中優(yōu)勢突出,這有效增大了網(wǎng)絡(luò)安全系數(shù),進而推動了現(xiàn)代化信息產(chǎn)業(yè)的良好發(fā)展。