葛敏娜
摘要:該文主要簡(jiǎn)單分析了大數(shù)據(jù)背景下的計(jì)算機(jī)信息處理技術(shù),從大數(shù)據(jù)的定義入手,分析了大數(shù)據(jù)的產(chǎn)生對(duì)計(jì)算機(jī)信息處理技術(shù)帶來(lái)的挑戰(zhàn),在此基礎(chǔ)上,說(shuō)明了分布式存儲(chǔ)、數(shù)據(jù)挖掘、信息安全等大數(shù)據(jù)背景下的計(jì)算機(jī)處理技術(shù),并詳細(xì)介紹了數(shù)據(jù)挖掘的C4.5決策樹(shù)算法思想、k-means聚類(lèi)算法思想以及信息安全中的加密算法的基本機(jī)制。
關(guān)鍵詞:大數(shù)據(jù);分布式存儲(chǔ);數(shù)據(jù)挖掘;信息安全
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)01-0003-02
1概述
隨著科學(xué)技術(shù)的不斷快速發(fā)展以及國(guó)民經(jīng)濟(jì)的快速增長(zhǎng),基于互聯(lián)網(wǎng)絡(luò)的計(jì)算機(jī)應(yīng)用逐漸在社會(huì)的各個(gè)行業(yè)中得到廣泛應(yīng)用,我國(guó)社會(huì)正朝著數(shù)字化、網(wǎng)絡(luò)化、信息化的方向快速發(fā)展。由于計(jì)算機(jī)技術(shù)以及互聯(lián)網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,在互聯(lián)網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)非常大,可以說(shuō)人們?cè)谙硎苄畔r(shí)代為社會(huì)生活帶來(lái)無(wú)限便利和快捷的同時(shí),也逐步向數(shù)據(jù)時(shí)代步入,而海量數(shù)據(jù)的生成,對(duì)傳統(tǒng)的IT信息處理技術(shù)和計(jì)算機(jī)結(jié)構(gòu)框架來(lái)說(shuō),雖然沒(méi)有致命的威脅,但是人們時(shí)時(shí)刻刻都需要對(duì)海量的數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、傳輸、計(jì)算、搜索等任務(wù),這對(duì)于當(dāng)前互聯(lián)網(wǎng)絡(luò)和計(jì)算機(jī)系統(tǒng)快速響應(yīng)終端用戶的請(qǐng)求以提升服務(wù)質(zhì)量來(lái)說(shuō),也是非常巨大的挑戰(zhàn)。所以,對(duì)于當(dāng)前大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)技術(shù)的研究與分析,對(duì)于提升IT系統(tǒng)運(yùn)行效率,優(yōu)化企業(yè)生產(chǎn)效率來(lái)說(shuō),具有非常重要的現(xiàn)實(shí)意義。
2大數(shù)據(jù)時(shí)代的數(shù)據(jù)信息處理挑戰(zhàn)
大數(shù)據(jù)(Big Data)的定義需要從兩方面理解,第一是從數(shù)量方面,是指需要處理或存儲(chǔ)的對(duì)象的數(shù)據(jù)量非常之大,是傳統(tǒng)信息處理技術(shù)在適當(dāng)?shù)臅r(shí)間內(nèi)難以完成數(shù)據(jù)處理任務(wù)的;第二就是這些數(shù)據(jù)中包含了很多有用的信息,可以通過(guò)專門(mén)的將這些信息提取出來(lái)以指導(dǎo)和決策人們未來(lái)的行為。大數(shù)據(jù)是當(dāng)前互聯(lián)網(wǎng)絡(luò)和計(jì)算機(jī)信息系統(tǒng)的大量應(yīng)用的必然結(jié)果,而這樣的必然結(jié)果,并不意味著是一種累贅,如果取舍得當(dāng),反而是一種非常重要的資源和無(wú)形財(cái)富。所以,大數(shù)據(jù)的產(chǎn)生對(duì)于現(xiàn)代的社會(huì)是一種機(jī)遇,對(duì)于經(jīng)濟(jì)的促進(jìn)和發(fā)展也是良好的催化劑,如果一個(gè)企業(yè)能夠抓住對(duì)大數(shù)據(jù)信息處理技術(shù)的核心技能,那么必將在未來(lái)IT市場(chǎng)上占據(jù)一席之地。那么,大數(shù)據(jù)對(duì)數(shù)據(jù)信息處理帶來(lái)了哪些挑戰(zhàn)?
首先,大數(shù)據(jù)帶來(lái)了巨大的存儲(chǔ)壓力??梢砸院A縼?lái)稱謂的數(shù)據(jù)量,對(duì)于當(dāng)前的數(shù)據(jù)存儲(chǔ)技術(shù)是非常大的挑戰(zhàn),傳統(tǒng)的觀念或者數(shù)據(jù)管理系統(tǒng)對(duì)于大數(shù)據(jù)的存儲(chǔ)與管理已經(jīng)捉襟見(jiàn)肘,如何良好地將這些海量數(shù)據(jù)有序地存儲(chǔ),并且選用優(yōu)越的數(shù)據(jù)管理機(jī)制進(jìn)行數(shù)據(jù)壓縮、備份、管理等都是當(dāng)前大數(shù)據(jù)背景下所需要考慮的問(wèn)題。其次,數(shù)據(jù)查詢問(wèn)題。傳統(tǒng)的直接查詢的數(shù)據(jù)庫(kù)管理系統(tǒng)已經(jīng)很難應(yīng)對(duì)海量數(shù)據(jù)的查詢,一個(gè)存儲(chǔ)量在GB級(jí)別的數(shù)據(jù)表的遍歷查詢都需要十幾個(gè)小時(shí)來(lái)完成,所以如何快速地實(shí)現(xiàn)對(duì)大數(shù)據(jù)的查詢和提取也是當(dāng)前繼續(xù)解決的問(wèn)題。最后,數(shù)據(jù)安全問(wèn)題。互聯(lián)網(wǎng)絡(luò)中各種系統(tǒng)層出不窮,各式各樣的數(shù)據(jù)都需要相互傳輸,這些都為網(wǎng)絡(luò)惡意攻擊者提供了可乘之機(jī)。各種社會(huì)工程學(xué)攻擊、病毒、木馬、系統(tǒng)后門(mén)等惡意行為都時(shí)時(shí)刻刻威脅著大數(shù)據(jù)信息的安全,如何能夠保證大數(shù)據(jù)中有效信息不被泄露或惡意篡改,這也是當(dāng)前大數(shù)據(jù)時(shí)代亟須解決的問(wèn)題。
3 大數(shù)據(jù)背景下的計(jì)算機(jī)信息處理技術(shù)
大數(shù)據(jù)的發(fā)展推動(dòng)了計(jì)算機(jī)信息處理技術(shù)的快速發(fā)展,當(dāng)前計(jì)算機(jī)信息處理技術(shù)為了能夠滿足大數(shù)據(jù)量的數(shù)據(jù)信息處理需求而得到快速更新。
3.1 分布式存儲(chǔ)技術(shù)
分布式存儲(chǔ)技術(shù)是當(dāng)前專門(mén)應(yīng)對(duì)大數(shù)據(jù)存儲(chǔ)的問(wèn)題而發(fā)展起來(lái)的。由于大數(shù)據(jù)的海量數(shù)據(jù)使得傳統(tǒng)模式的單個(gè)數(shù)據(jù)庫(kù)很難存儲(chǔ),同時(shí)應(yīng)對(duì)管理以及備份等工作,分布式存儲(chǔ)技術(shù)打破了傳統(tǒng)的思維,利用網(wǎng)絡(luò)專線或者高速網(wǎng)絡(luò)將多個(gè)數(shù)據(jù)庫(kù)存儲(chǔ)服務(wù)器搭建在一起,形成一個(gè)總分形式的分布式存儲(chǔ)系統(tǒng),而上層的總與下層的分的特殊結(jié)構(gòu)之間則是通過(guò)數(shù)據(jù)之間的邏輯關(guān)系串聯(lián)起來(lái)。在結(jié)構(gòu)上看,分布式系統(tǒng)中同一個(gè)數(shù)據(jù)鏈中大數(shù)據(jù)可能隨機(jī)分配到不同的數(shù)據(jù)庫(kù)服務(wù)器中進(jìn)行存儲(chǔ),而由于數(shù)據(jù)庫(kù)存儲(chǔ)服務(wù)器彼此之間特殊的數(shù)據(jù)邏輯關(guān)系,看似分離的數(shù)據(jù)卻又在邏輯上得到統(tǒng)一。分布式存儲(chǔ)技術(shù),不僅解決了海量數(shù)據(jù)的存儲(chǔ)問(wèn)題,而且多個(gè)服務(wù)器的共同服務(wù)還提升了大數(shù)據(jù)的高通并發(fā)性,解決了數(shù)據(jù)串行處理反應(yīng)時(shí)間長(zhǎng)的問(wèn)題,大大提升數(shù)據(jù)處理性能。
3.2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是主要應(yīng)對(duì)大數(shù)據(jù)數(shù)據(jù)處理的而興起的、體現(xiàn)人工智能處理的計(jì)算機(jī)處理技術(shù)。數(shù)據(jù)挖掘技術(shù)多采用仿生學(xué)的手段,按照人類(lèi)思維的方式,將海量的大數(shù)據(jù)進(jìn)行處理,最終從海量數(shù)據(jù)中過(guò)濾出對(duì)企業(yè)生產(chǎn)或決策有用的信息,進(jìn)而指導(dǎo)人們的行為。數(shù)據(jù)挖掘的主要流程包括數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)分析與評(píng)估。首先對(duì)大數(shù)據(jù)的有效部分進(jìn)行選取,然后采用數(shù)據(jù)預(yù)處理的技術(shù)對(duì)數(shù)據(jù)中的無(wú)效數(shù)據(jù)、冗余數(shù)據(jù)、零數(shù)據(jù)等進(jìn)行清洗和刪除,然后采用數(shù)據(jù)挖掘的技術(shù)方法對(duì)有效數(shù)據(jù)進(jìn)行挖掘,最后將有用的數(shù)據(jù),通過(guò)專門(mén)的應(yīng)用系統(tǒng)進(jìn)行分析與展示。其中,數(shù)據(jù)挖掘技術(shù)是采用人工智能的思維方式而設(shè)計(jì)的數(shù)據(jù)處理技術(shù),主要包括決策樹(shù)、聚類(lèi)、神經(jīng)網(wǎng)絡(luò)等多種數(shù)據(jù)處理技術(shù),通過(guò)數(shù)據(jù)挖掘的處理,最終對(duì)清洗后的數(shù)據(jù)進(jìn)行有效地分類(lèi),最后通過(guò)專門(mén)的應(yīng)用系統(tǒng)對(duì)分類(lèi)的數(shù)據(jù)進(jìn)行分析、處理、展示,從而使用形象直觀的方式展示有價(jià)值的數(shù)據(jù)信息。
在整個(gè)數(shù)據(jù)挖掘過(guò)程中,真正體現(xiàn)人工智能數(shù)據(jù)挖掘分析的是數(shù)據(jù)挖掘環(huán)節(jié),數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理以及后期的數(shù)據(jù)分析與評(píng)估都是數(shù)據(jù)挖掘之前的準(zhǔn)備工作以及數(shù)據(jù)挖掘之后得到有用新的常規(guī)數(shù)據(jù)處理工作。數(shù)據(jù)挖掘技術(shù)包含了很多技術(shù)和算法,例如以二叉樹(shù)原理為模型的決策樹(shù)技術(shù)以及智能分類(lèi)的聚類(lèi)技術(shù),這些都是以數(shù)據(jù)分類(lèi)為核心的數(shù)據(jù)挖掘技術(shù)。決策樹(shù)是以二叉樹(shù)為基本模型,所有的數(shù)據(jù)都需要通過(guò)決策樹(shù)的根節(jié)點(diǎn),然后按照固定的算法分析,流向其子節(jié)點(diǎn),依次計(jì)算指導(dǎo)最終的子節(jié)點(diǎn)。
某個(gè)數(shù)據(jù)經(jīng)過(guò)該模型是,首先按照固定的算法進(jìn)行計(jì)算,分析出該數(shù)據(jù)與父節(jié)點(diǎn)的差異度,然后根據(jù)結(jié)果流向其子節(jié)點(diǎn)。例如,一個(gè)對(duì)電子產(chǎn)品非常喜愛(ài)的人,在經(jīng)過(guò)決策樹(shù)模型之后,其會(huì)流向“購(gòu)買(mǎi)”的子節(jié)點(diǎn)一類(lèi)中。在數(shù)據(jù)挖掘過(guò)程中,經(jīng)過(guò)選取和預(yù)處理的數(shù)據(jù),都要經(jīng)過(guò)決策樹(shù)模型進(jìn)行分類(lèi),最終落到其相關(guān)的區(qū)域中。決策樹(shù)的模型相對(duì)比較簡(jiǎn)單,關(guān)鍵環(huán)節(jié)就是如何判斷一個(gè)數(shù)據(jù)歸屬于哪一個(gè)節(jié)點(diǎn)。在決策樹(shù)的C4.5算法的具體實(shí)現(xiàn)中,在對(duì)數(shù)據(jù)分類(lèi)分析環(huán)節(jié)加入了信息增益比的概念,即待挖掘的數(shù)據(jù)通過(guò)計(jì)算信息增益比,比值比較高的進(jìn)入到相應(yīng)的節(jié)點(diǎn)中。簡(jiǎn)單地理解就是,源數(shù)據(jù)落入兩個(gè)子節(jié)點(diǎn)的概率計(jì)算,概率高的即進(jìn)入該分類(lèi)節(jié)點(diǎn)中的可能性就比較大。
聚類(lèi)技術(shù)則是另一種數(shù)據(jù)挖掘分類(lèi)技術(shù),與決策樹(shù)專門(mén)比值計(jì)算不同,聚類(lèi)算法是無(wú)目的分類(lèi)。即采用聚類(lèi)算法分析數(shù)據(jù)時(shí),只需要將其定義分為幾個(gè)簇群即可,并不用指定分成什么樣在簇群。在聚類(lèi)技術(shù)中,k-means算法是常見(jiàn)的一種算法,其核心思想就是通過(guò)指定的簇群個(gè)數(shù),將源數(shù)據(jù)的數(shù)據(jù)生成對(duì)應(yīng)個(gè)簇群中心,然后離該中心較近的即為該簇群數(shù)據(jù)。那么,在k-means算法的核心向就是如何生成簇群中心以及如何判斷源數(shù)據(jù)與該簇群中心的距離。K-means算法采用歐式距離作為源數(shù)據(jù)與簇群中心距離的計(jì)算公式,首先按照分類(lèi)個(gè)數(shù)任意選取對(duì)應(yīng)個(gè)數(shù)的數(shù)據(jù),然后將該數(shù)據(jù)作為每個(gè)簇群中心,然后將源數(shù)據(jù)與簇中心計(jì)算,在限定距離范圍內(nèi)的數(shù)據(jù)即可劃分到相應(yīng)簇群中直至結(jié)束。最后將每個(gè)簇群的數(shù)據(jù)計(jì)算其平均值,并且與原有簇群中心進(jìn)行比較,如果不符合要求,則將該平均值作為新的簇群中心,再次從頭循環(huán)分類(lèi)源數(shù)據(jù),直到簇群中心值與新的平均值比值符合一定的要求,即可結(jié)束算法處理過(guò)程。經(jīng)過(guò)k-means算法的聚類(lèi)過(guò)程,最理想的結(jié)果就是平均地得到了對(duì)應(yīng)個(gè)數(shù)的簇群,從而實(shí)現(xiàn)限定簇群個(gè)數(shù)的聚類(lèi)過(guò)程。
3.3 信息安全技術(shù)
信息安全技術(shù)是大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)保護(hù)的一道屏障,是保障大數(shù)據(jù)有效保密的處理技術(shù)。一般的信息安全技術(shù)包括數(shù)據(jù)加密、身份認(rèn)證技術(shù)、隧道技術(shù)的VPN網(wǎng)絡(luò)等。當(dāng)然,這些信息安全技術(shù)都是在一定程度上保障了數(shù)據(jù)信息的安全,并不能完全杜絕例如由于應(yīng)用系統(tǒng)的自身安全漏洞而引起的安全問(wèn)題。所以,在大數(shù)據(jù)時(shí)代下,首先要加強(qiáng)IT網(wǎng)絡(luò)自身安全體系框架的構(gòu)建,加強(qiáng)運(yùn)維部門(mén)或相關(guān)部門(mén)的監(jiān)控運(yùn)維力度,同時(shí)要加強(qiáng)IT網(wǎng)絡(luò)框架安全測(cè)試的理念,采購(gòu)良好的、穩(wěn)定的IT安全運(yùn)維方案,從而有效地保障大數(shù)據(jù)時(shí)代的數(shù)據(jù)信息的安全。
在信息安全技術(shù)中,數(shù)據(jù)加密算法是一直以來(lái)都在廣泛應(yīng)用的算法,不同的加密算法在不同的數(shù)據(jù)環(huán)節(jié)中有不同的應(yīng)用,例如在數(shù)據(jù)存儲(chǔ)時(shí),常用MD5算法對(duì)數(shù)據(jù)進(jìn)行加密存儲(chǔ),該算法常應(yīng)用于存儲(chǔ)數(shù)據(jù)驗(yàn)證型的加密存儲(chǔ),例如用戶密碼。MD5算法是一直不可逆的算法,即按照原始數(shù)據(jù)添加、數(shù)據(jù)分解、數(shù)據(jù)初始化以及處理的過(guò)程,將任意長(zhǎng)度的字符按照固定的MD5算法,經(jīng)過(guò)多次的循環(huán)計(jì)算,變成128位長(zhǎng)度的存儲(chǔ)數(shù)據(jù)。在身份認(rèn)證環(huán)節(jié),當(dāng)系統(tǒng)用戶輸入登陸憑證之后,系統(tǒng)的應(yīng)用會(huì)將該字符串進(jìn)行MD5加密處理,生成固定128字節(jié)的字符串進(jìn)行傳輸,并與數(shù)據(jù)庫(kù)中的存儲(chǔ)字符進(jìn)行對(duì)比,從而完成系統(tǒng)用戶身份驗(yàn)證。MD5算法只是單向加密,一般情況下,不可能通過(guò)逆算法得到原始數(shù)據(jù)。而惡意攻擊者則通過(guò)各種方法來(lái)破解講過(guò)MD5算法機(jī)密的哈希值,例如彩虹表對(duì)比、密碼嗅探等等。而在數(shù)據(jù)傳輸過(guò)程中,加密的數(shù)據(jù)是需要在接收端呈現(xiàn)出原始數(shù)據(jù)值的,那么就需要有解密算法對(duì)加密值進(jìn)行解密處理,不同的算法,加解密的計(jì)算過(guò)程不一樣,關(guān)鍵是在在加解密的密鑰處理上。之前,一般的加解密算法采用的是對(duì)稱密鑰,即加密算法和解密算法的加入密鑰是相同的,但是這樣在具體實(shí)現(xiàn)上也存在一定的安全風(fēng)險(xiǎn),對(duì)于密鑰的管理工作卻成了困擾系統(tǒng)設(shè)計(jì)人員的核心問(wèn)題?,F(xiàn)在的不對(duì)稱密鑰的加密算法,通過(guò)公鑰和私鑰的密鑰管理機(jī)制,極大地提升了數(shù)據(jù)加密的信息安全程度,為當(dāng)前大數(shù)據(jù)時(shí)代信息數(shù)據(jù)的安全保密性帶來(lái)了極大的保障。
4 總結(jié)
大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)主要是針對(duì)海量數(shù)據(jù)存儲(chǔ)、管理、備份、處理、提取以及有效保障數(shù)據(jù)安全、有效、保密的數(shù)據(jù)處理技術(shù),只有信息處理技術(shù)順應(yīng)時(shí)代發(fā)展的需要,才能使人們?cè)诖髷?shù)據(jù)時(shí)代享受更高質(zhì)量的服務(wù)。
參考文獻(xiàn):
[1] 張?jiān)蕢眩瑒㈥h. 大數(shù)據(jù)時(shí)代信息安全的機(jī)遇與挑戰(zhàn):以公開(kāi)信息情報(bào)為例[J]. 國(guó)防科技, 2013(02).
[2] 趙英偉,郭凱. 淺談信息處理技術(shù)的發(fā)展[J]. 信息通信, 2014(12).