• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)應(yīng)用技術(shù)淺析

    2014-04-29 00:00:00王士斌

    摘 要:隨著大數(shù)據(jù)概念的熱炒,大數(shù)據(jù)已經(jīng)與我們的生活密切相關(guān)了。但是對(duì)于大多數(shù)人來說,大數(shù)據(jù)僅僅是一個(gè)新名詞,并不了解大數(shù)據(jù)的概念以及應(yīng)用。大數(shù)據(jù)的概念目前尚無定論,大數(shù)據(jù)應(yīng)用技術(shù)還需要解決很多問題,相關(guān)的理論體系也急需建立,目前它的發(fā)展還面臨著很大的挑戰(zhàn)。

    關(guān)鍵詞:大數(shù)據(jù);應(yīng)用技術(shù);挑戰(zhàn)

    中圖分類號(hào):TP311.13

    關(guān)于數(shù)據(jù)方面的新名詞是層出不窮,云計(jì)算、物聯(lián)網(wǎng)的概念還沒有完全理解,大數(shù)據(jù)的概念又頻頻出現(xiàn)在媒體中,特別是今年“兩會(huì)”期間,在央視報(bào)道中,多次使用大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。大數(shù)據(jù)的概念從計(jì)算機(jī)業(yè)界也迅速傳播到各行各業(yè),與我們的日常生活也密切的聯(lián)系在一起。不但中國如此,2012年3月,奧巴馬宣布美國政府五大部門投資兩億美元啟動(dòng)“大數(shù)據(jù)研究與開發(fā)計(jì)劃”,【1】大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國的科研、教育與國家安全能力,美國政府以及把“大數(shù)據(jù)”技術(shù)上升到國家安全戰(zhàn)略的高度。其他國家也紛紛加大對(duì)大數(shù)據(jù)研究的資金投入,同時(shí),許多大公司企業(yè)也將此技術(shù)視作創(chuàng)新前沿。

    1 大數(shù)據(jù)概念與特征

    但是,到目前為止,業(yè)界關(guān)于大數(shù)據(jù)的概念尚未有統(tǒng)一的定義。最早將大數(shù)據(jù)應(yīng)用于IT環(huán)境的是著名的咨詢公司麥肯錫,它關(guān)于大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。另外,被引用較多得到大家認(rèn)可的還有維基百科的定義:大數(shù)據(jù)指數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)集合,現(xiàn)有的數(shù)據(jù)庫管理工具或傳統(tǒng)的數(shù)據(jù)處理應(yīng)用難以對(duì)其進(jìn)行處理。這些挑戰(zhàn)包括如捕獲、收集、存儲(chǔ)、搜索、共享、傳遞、分析與可視化等。【2】

    當(dāng)前,較為統(tǒng)一的認(rèn)識(shí)是大數(shù)據(jù)有四個(gè)基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價(jià)值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。【3】

    首先,數(shù)據(jù)量龐大是大數(shù)據(jù)的最主要的特征,大數(shù)據(jù)的數(shù)據(jù)規(guī)模是以PB、EB、ZB量級(jí)為存儲(chǔ)單位的,數(shù)據(jù)量非常龐大。同時(shí),此類數(shù)據(jù)還在不斷的加速產(chǎn)生,因此,傳統(tǒng)的數(shù)據(jù)庫管理技術(shù)無法在短時(shí)間內(nèi)完成對(duì)數(shù)據(jù)的處理。第二,數(shù)據(jù)種類多。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)的數(shù)據(jù)類型種類繁多,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)庫技術(shù)采取關(guān)系型數(shù)據(jù)庫較多,結(jié)構(gòu)單一,而大數(shù)據(jù)重點(diǎn)關(guān)注的是包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫技術(shù)不能適應(yīng)新的大數(shù)據(jù)的要求,傳統(tǒng)的數(shù)據(jù)處理方式也面臨著巨大的挑戰(zhàn)。第三,大數(shù)據(jù)的產(chǎn)生與存儲(chǔ)是動(dòng)態(tài)的,有的處理結(jié)果時(shí)效性要求很高,這就要求對(duì)數(shù)據(jù)能夠快速處理,數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別數(shù)據(jù)倉庫的主要因素。數(shù)據(jù)產(chǎn)生的速度以及快速變化形成的數(shù)據(jù)流,超越了傳統(tǒng)的信息系統(tǒng)的承載能力。最后,數(shù)據(jù)價(jià)值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。大數(shù)據(jù)分析是采用原始數(shù)據(jù)的分析,保留了數(shù)據(jù)的全貌,因此一個(gè)事件的全部數(shù)據(jù)都會(huì)被保存,產(chǎn)生的數(shù)據(jù)量激增,而有用的信息可能非常少,因此價(jià)值密度偏低。

    2 大數(shù)據(jù)可用性的面臨的技術(shù)與問題

    大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價(jià)值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強(qiáng)企業(yè)生產(chǎn)能力和競(jìng)爭(zhēng)能力的機(jī)會(huì),能夠給企業(yè)帶來巨大的潛在商業(yè)價(jià)值?!?】但不可否認(rèn)的是,大數(shù)據(jù)目前也面臨很多負(fù)面影響。低質(zhì)量低密度的數(shù)據(jù)也可能對(duì)決策造成致命性的錯(cuò)誤。如何把大數(shù)據(jù)從理論研究到企業(yè)應(yīng)用的轉(zhuǎn)變,還面臨很多問題與挑戰(zhàn)。

    (1)可用性理論體系的建立。大數(shù)據(jù)的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數(shù)據(jù)可用性、如何評(píng)估數(shù)據(jù)可用性、數(shù)據(jù)錯(cuò)誤自動(dòng)發(fā)現(xiàn)和修復(fù)依據(jù)什么理論、如何管理數(shù)據(jù)和數(shù)據(jù)融合、數(shù)據(jù)安全性采取何種策略和理論等一系列問題。因此,要建立完整可用性理論體系,構(gòu)建統(tǒng)一的模型,為大數(shù)據(jù)的進(jìn)一步應(yīng)用提供堅(jiān)實(shí)的理論基礎(chǔ)。

    (2)高質(zhì)量數(shù)據(jù)的獲取的能力。大數(shù)據(jù)技術(shù)最基礎(chǔ)的對(duì)象就是數(shù)據(jù),是一切應(yīng)用和分析決策的前提。因此,獲取高質(zhì)量數(shù)據(jù)是確保信息可用性的重要因素之一。隨著互聯(lián)網(wǎng)的數(shù)據(jù)不斷增大,物聯(lián)網(wǎng)的興起以及復(fù)雜物理信息系統(tǒng)的應(yīng)用,大數(shù)據(jù)的來源也多種多樣,數(shù)據(jù)模型千差萬別,質(zhì)量也參差不齊,這就為加工整合數(shù)據(jù)帶來非常大的困難。

    大數(shù)據(jù)是對(duì)事物最原始的全貌記錄,數(shù)據(jù)量規(guī)模很大,但是其中有用的信息非常少,因此,對(duì)于處理數(shù)據(jù)來說,數(shù)據(jù)并不是越多越好。如何提高數(shù)據(jù)中的有效數(shù)據(jù)是非常關(guān)鍵的。大量的數(shù)據(jù)中如果僅僅包含了少量的錯(cuò)誤數(shù)據(jù),對(duì)分析結(jié)果可能不會(huì)造成很大的影響。但是如果對(duì)錯(cuò)誤數(shù)據(jù)沒有有效控制的話,大量錯(cuò)誤數(shù)據(jù)的涌入很可能會(huì)得到完全錯(cuò)誤的結(jié)果。

    因此,獲取高質(zhì)量數(shù)據(jù)的能力是大數(shù)據(jù)能否進(jìn)行實(shí)用的關(guān)鍵因素,否則只會(huì)在浪費(fèi)人力物力后獲得完全無效甚至錯(cuò)誤的結(jié)果。但是目前還缺乏系統(tǒng)的研究,對(duì)于出現(xiàn)的問題還沒有很好的解決方案,在獲取數(shù)據(jù)方面的工作任重而道遠(yuǎn)。

    (3)數(shù)據(jù)分析與顯示。單純的大數(shù)據(jù)是沒有意義的,只有通過對(duì)大數(shù)據(jù)進(jìn)行分析,從中提取知識(shí),使之能夠轉(zhuǎn)化成有用的結(jié)果,才是大數(shù)據(jù)可用性的實(shí)質(zhì)。當(dāng)前,對(duì)非結(jié)構(gòu)化數(shù)據(jù)散亂無序的特征,仍然缺乏高效的分析處理手段。一方面是大數(shù)據(jù)以幾何速度增長(zhǎng)和更新,另一方面是難以從這么冗雜散亂的數(shù)據(jù)中進(jìn)行有效數(shù)據(jù)分析,大數(shù)據(jù)能否發(fā)展應(yīng)用完全取決于能否從數(shù)據(jù)中進(jìn)行有效分析。

    大數(shù)據(jù)分析主要針對(duì)非結(jié)構(gòu)化數(shù)據(jù),意味著不能保證輸入的數(shù)據(jù)是完整的、清洗過和沒有錯(cuò)誤的。這使它更有挑戰(zhàn)性,但同時(shí)提供了在數(shù)據(jù)中獲得更多洞察力的范圍。

    同時(shí),數(shù)據(jù)分析的結(jié)果是直接反饋給用戶的,因此要以可見或可讀的形式輸出。而大數(shù)據(jù)處理的主要對(duì)象是關(guān)系復(fù)雜而且種類繁多的非結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)的顯示方法通常難以直觀的表現(xiàn)大量的數(shù)據(jù)表、繁亂的關(guān)系圖的分析結(jié)果,還可能使用戶感到迷茫,甚至可能誤導(dǎo)用戶。因此還需要計(jì)算機(jī)圖形學(xué)技術(shù)引入到大數(shù)據(jù)分析顯示的應(yīng)用中來。

    (4)數(shù)據(jù)安全挑戰(zhàn)。從基礎(chǔ)技術(shù)角度看,數(shù)據(jù)的聚合會(huì)增加數(shù)據(jù)泄露的風(fēng)險(xiǎn)。首先,大數(shù)據(jù)的來源和承載方式的多樣性,為企業(yè)定位和保護(hù)機(jī)密信息帶來困難。安全機(jī)制的不完善,就會(huì)產(chǎn)生缺乏機(jī)密性和完整性的特質(zhì)。其次,大數(shù)據(jù)的關(guān)鍵在于數(shù)據(jù)分析和應(yīng)用,但是隨著分析技術(shù)的發(fā)展,勢(shì)必對(duì)用戶隱私產(chǎn)生極大威脅。在大數(shù)據(jù)時(shí)代,想要屏蔽外部數(shù)據(jù)商挖掘個(gè)人信息幾乎是不可能的,個(gè)人隱私問題堪憂。再次,黑客的隱藏攻擊也大數(shù)據(jù)面臨的一個(gè)重要威脅。大數(shù)據(jù)的低密度性為攻擊代碼的隱藏提供了更大的隱蔽場(chǎng)所,目前的檢測(cè)機(jī)制很難發(fā)現(xiàn)與阻止,因此,一旦受到攻擊產(chǎn)生的破壞性也更大。

    3 結(jié)束語

    隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的飛速發(fā)展,數(shù)據(jù)產(chǎn)生的規(guī)模和復(fù)雜度的增長(zhǎng)遠(yuǎn)遠(yuǎn)超出了符合摩爾定律增長(zhǎng)的機(jī)器處理和計(jì)算能力。為大數(shù)據(jù)的發(fā)展帶來了寶貴機(jī)遇,同時(shí)在對(duì)數(shù)據(jù)獲取、分析、存儲(chǔ)和安全等方面帶來了巨大挑戰(zhàn)。目前為止,關(guān)于大數(shù)據(jù)還存在泡沫言論,有觀點(diǎn)認(rèn)為大數(shù)據(jù)是媒體熱炒的后果,大數(shù)據(jù)是虛構(gòu)的,是一個(gè)“大謊言”,大數(shù)據(jù)在某種程度上不過是過去30-40年來對(duì)數(shù)據(jù)管理和數(shù)據(jù)處理挑戰(zhàn)的理解、認(rèn)識(shí)的新一輪說法。但是事物的興起都是在不斷的爭(zhēng)議中發(fā)展壯大的,大數(shù)據(jù)到底是真科學(xué)還是偽科學(xué),還需要不斷的研究,我們拭目以待。

    參考文獻(xiàn):

    [1]David Reinsel,John Gantz.The Digital Universe in 2020:Big Data,Bigger Digital Shadows,and Biggest Growth in the Far East,2012.

    [2]Wikipedia.Big Data[EB/OL].http://en. Wikipedia.org/wiki /Big data,2013.

    [3]馬建光,姜巍.大數(shù)據(jù)的概念?特征及其應(yīng)用[J].國防科技,2013(02):137-146.

    [4]MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity[R].McKinsey Global Institute,2011.

    作者簡(jiǎn)介:王士斌(1981-),男,碩士,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。

    作者單位:河南科技學(xué)院 外國語學(xué)院,河南新鄉(xiāng) 453003

    休宁县| 清河县| 平乐县| 临清市| 涿州市| 兴化市| 四子王旗| 萨迦县| 若羌县| 离岛区| 宜良县| 米林县| 常山县| 庆城县| 隆昌县| 新宁县| 外汇| 南汇区| 湄潭县| 门头沟区| 云和县| 舟山市| 卢龙县| 如东县| 景洪市| 同心县| 拉孜县| 光山县| 义乌市| 双桥区| 石门县| 开封县| 普洱| 内江市| 新沂市| 重庆市| 新龙县| 新野县| 大荔县| 嘉兴市| 内江市|