李海燕
摘 要:首先簡要闡述了大數(shù)據(jù)與計(jì)算機(jī)信息處理技術(shù),然后在此基礎(chǔ)上論述了大數(shù)據(jù)環(huán)境下計(jì)算機(jī)信息處理技術(shù)面臨的挑戰(zhàn)及其應(yīng)用實(shí)踐,希望能對數(shù)據(jù)信息加工處理效率的提升有所幫助。
關(guān)鍵詞:大數(shù)據(jù);計(jì)算機(jī);數(shù)據(jù)存儲;數(shù)據(jù)挖掘
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A DOI:10.15913/j.cnki.kjycx.2016.01.156
1 大數(shù)據(jù)與計(jì)算機(jī)信息處理技術(shù)概述
1.1 大數(shù)據(jù)
大數(shù)據(jù)在業(yè)內(nèi)又被稱為“巨量數(shù)據(jù)集合”,具體是指在可承受的時間范圍內(nèi)無法借助常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)具有如下特征:①容量大,均為PB級以上;②種類多,數(shù)據(jù)類型多種多樣;③速度快,獲取數(shù)據(jù)的速度非常快;④真實(shí),數(shù)據(jù)本身的質(zhì)量較高;⑤復(fù)雜性,數(shù)據(jù)來源的渠道較多。
1.2 計(jì)算機(jī)信息處理技術(shù)
計(jì)算機(jī)信息處理技術(shù)是一項(xiàng)綜合性技術(shù),具體包括通信、微電子、網(wǎng)絡(luò)等技術(shù)。計(jì)算機(jī)的信息處理過程非常復(fù)雜,所以該技術(shù)成為了數(shù)據(jù)獲取、傳輸、分析和處理的綜合體。大體上,可將該技術(shù)分為檢索技術(shù)、信息系統(tǒng)技術(shù)、通信網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)這幾種。它可以整合數(shù)據(jù)資料,然后存儲有效信息。
2 計(jì)算機(jī)信息處理技術(shù)面臨的挑戰(zhàn)
在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)信息處理技術(shù)的發(fā)展面臨著嚴(yán)峻挑戰(zhàn),具體表現(xiàn)在以下幾個方面:①巨量的數(shù)據(jù)信息要求具備足夠的儲存空間以及高效率的壓縮技術(shù)和數(shù)據(jù)傳輸技術(shù)。②數(shù)據(jù)挖掘要滿足全面性和可信度高的要求,然后要對數(shù)據(jù)進(jìn)行分類,以便于信息檢索,并要求數(shù)據(jù)處理結(jié)果可視化。③數(shù)據(jù)流的增多導(dǎo)致網(wǎng)絡(luò)黑客越來越多,對用戶信息的安全構(gòu)成了威脅,所以必須重視對信息安全防護(hù)技術(shù)的研發(fā)。同時,為了保證大數(shù)據(jù)的安全,要求計(jì)算機(jī)信息處理技術(shù)能夠在處理信息的同時,實(shí)現(xiàn)對網(wǎng)絡(luò)環(huán)境的跟蹤監(jiān)控,有效防范網(wǎng)絡(luò)黑客的惡意攻擊。④在大數(shù)據(jù)環(huán)境下,必須提高計(jì)算機(jī)對海量數(shù)據(jù)的處理能力,并要求網(wǎng)絡(luò)運(yùn)營商提升硬件設(shè)備的性能和網(wǎng)絡(luò)寬帶的傳輸速度。⑤有價值的數(shù)據(jù)信息往往隱藏在海量信息中,為了快速提取這部分信息,就必須提高計(jì)算機(jī)的信息處理能力。⑥大數(shù)據(jù)的容量大、結(jié)構(gòu)復(fù)雜,所以必須優(yōu)化、創(chuàng)新計(jì)算機(jī)網(wǎng)絡(luò)結(jié)構(gòu),加快計(jì)算機(jī)與網(wǎng)絡(luò)融合的速度,以保證數(shù)據(jù)的高效存儲和傳輸。⑦大數(shù)據(jù)時代的發(fā)展需要一大批高素質(zhì)的計(jì)算機(jī)專業(yè)人才。
3 計(jì)算機(jī)信息處理技術(shù)的應(yīng)用實(shí)踐
在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)信息處理技術(shù)的應(yīng)用具體體現(xiàn)在如下幾個方面。
3.1 深網(wǎng)數(shù)據(jù)感知與數(shù)據(jù)獲取
這里所指的“深網(wǎng)”(DEEP WEB)又被稱為“網(wǎng)絡(luò)深層空間”,最為突出的特點(diǎn)是數(shù)據(jù)信息的規(guī)模較大,且所有的信息均呈動態(tài)。它的訪問方式較為特殊,數(shù)據(jù)信息十分分散。通過對網(wǎng)絡(luò)深層空間數(shù)據(jù)的利用,可以實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)集成,從而高效地完成數(shù)據(jù)信息的抽取和整合。
3.2 分布式數(shù)據(jù)存儲
由Google公司研發(fā)的GFS(可擴(kuò)展的分布式系統(tǒng))技術(shù)是分布式數(shù)據(jù)處理的核心,其主要應(yīng)用的是列存儲的概念。這種存儲方式以列為單位,與傳統(tǒng)的行存儲相比,它在數(shù)據(jù)壓縮上更方便,并且循環(huán)速度較快。目前,較為流行的存儲技術(shù)為行列混合式儲存,它可以在較短的時間內(nèi)以較快的速度加載海量數(shù)據(jù)信息,大幅縮短了信息查詢時間,使磁盤空間得到了高效利用。在具體應(yīng)用該技術(shù)時,應(yīng)注意對數(shù)據(jù)分布的優(yōu)化,以提高數(shù)據(jù)的存儲效率和處理效率。
3.3 數(shù)據(jù)索引
Big Table(非關(guān)系型數(shù)據(jù)庫)是當(dāng)前比較主流的一種數(shù)據(jù)索引技術(shù),同樣是由Google公司研發(fā)的。聚簇和互補(bǔ)式索引是現(xiàn)階段研究的熱點(diǎn)課題,前者是指根據(jù)索引的先后順序?qū)θ康臄?shù)據(jù)進(jìn)行存儲;后者則是以多副本為數(shù)據(jù)索引列創(chuàng)出互為補(bǔ)充的索引表。在這兩種索引方式的基礎(chǔ)上,結(jié)合查詢結(jié)果估算方法,便可實(shí)現(xiàn)對最優(yōu)數(shù)據(jù)查詢的計(jì)劃。
3.4 基于信息內(nèi)容的數(shù)據(jù)挖掘
基于信息內(nèi)容的數(shù)據(jù)挖掘主要應(yīng)用了兩項(xiàng)關(guān)鍵技術(shù),分別是網(wǎng)絡(luò)搜索技術(shù)和實(shí)體關(guān)聯(lián)分析技術(shù)。目前,網(wǎng)絡(luò)信息搜索的熱點(diǎn)是排序?qū)W習(xí)算法。排序?qū)W習(xí)算法主要是針對大數(shù)據(jù)中半結(jié)構(gòu)化數(shù)據(jù)的社會媒體信息量提出的,包括逐點(diǎn)算法、逐對算法和逐列算法。在這一應(yīng)用領(lǐng)域中,關(guān)注的數(shù)據(jù)具有短文本的特點(diǎn)。在國內(nèi)的很多行業(yè)中,均存在數(shù)據(jù)量大、信息缺乏的現(xiàn)象,而應(yīng)用基于信息內(nèi)容的數(shù)據(jù)挖掘可以使這一問題得到有效解決,有利于推動行業(yè)的發(fā)展。
3.5 分類數(shù)據(jù)與聚類數(shù)據(jù)分析
分類數(shù)據(jù)的理論基礎(chǔ)是最大似然估計(jì)和其他可供選擇的估算方法,具體是指將數(shù)據(jù)點(diǎn)進(jìn)行歸類處理,在此基礎(chǔ)上確定出新的數(shù)據(jù)點(diǎn),然后在明確假設(shè)和客觀結(jié)構(gòu)后準(zhǔn)確預(yù)測客戶的行為。分類數(shù)據(jù)又被稱為“名義數(shù)據(jù)”,是社會科學(xué)研究的重要內(nèi)容,其數(shù)據(jù)信息具有單一性的特點(diǎn),即只能代表數(shù)據(jù)類別。依據(jù)每個類別的數(shù)量,分類數(shù)據(jù)能夠分析出不同類別數(shù)據(jù)之間的關(guān)系。
所謂“聚類數(shù)據(jù)分析”,是指將物理或抽象對象的集合分組為由類似的對象組成多個類的分析過程,主要目標(biāo)是在相似的基礎(chǔ)上對收集到的數(shù)據(jù)進(jìn)行分類。很多領(lǐng)域都需要應(yīng)用到聚類技術(shù),例如數(shù)學(xué)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)和計(jì)算機(jī)科學(xué)等。聚類數(shù)據(jù)分析能夠?qū)?shù)據(jù)進(jìn)行描述,衡量不同數(shù)據(jù)源之間的相似性,并將數(shù)據(jù)源分類到不同的簇中。
4 結(jié)束語
總而言之,在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)網(wǎng)絡(luò)朝著云計(jì)算網(wǎng)絡(luò)的方向發(fā)展已經(jīng)成為一個必然趨勢。由于現(xiàn)有的網(wǎng)絡(luò)架構(gòu)主要是以計(jì)算機(jī)硬件為基礎(chǔ),局限性相對較大,因此,要充分利用數(shù)據(jù)信息處理技術(shù),并通過重新定義網(wǎng)絡(luò)架構(gòu),使網(wǎng)絡(luò)中的數(shù)據(jù)信息與硬件分離,這樣計(jì)算機(jī)信息處理技術(shù)才能不再依靠硬件設(shè)備,而只要通過網(wǎng)絡(luò)就能實(shí)現(xiàn)連接,滿足大數(shù)據(jù)環(huán)境的要求。
參考文獻(xiàn)
[1]王東濱,智慧,余翔湛.網(wǎng)絡(luò)數(shù)據(jù)實(shí)時處理中的多線程內(nèi)存管理技術(shù)[J].網(wǎng)絡(luò)與信息安全技術(shù),2012(7):163-165.
[2]趙卓峰,馬強(qiáng),房俊.針對高速數(shù)據(jù)流的大規(guī)模數(shù)據(jù)實(shí)時處理方法[J].計(jì)算機(jī)學(xué)報(bào),2012(5):78-79.
[3]常明迪.網(wǎng)絡(luò)環(huán)境下的計(jì)算機(jī)信息處理與安全技術(shù)分析[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013(9):56-57.
〔編輯:王霞〕