• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)發(fā)展趨勢

      2018-01-17 16:02:58李潔
      電子技術(shù)與軟件工程 2017年22期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)數(shù)據(jù)分析大數(shù)據(jù)

      本文先根據(jù)大數(shù)據(jù)的不同處理方式,介紹幾種不同形式大數(shù)據(jù)處理平臺以及他們各自對應(yīng)的幾個(gè)典型應(yīng)用,并指出了具有代表性的處理系統(tǒng)。之后對建立于這些系統(tǒng)框架上的大數(shù)據(jù)分析技術(shù)應(yīng)用作出場景分析,并對大數(shù)據(jù)行業(yè)發(fā)展存在的問題和機(jī)遇進(jìn)行了詳細(xì)的闡述。

      【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)分析 Hadoop 機(jī)器學(xué)習(xí)

      1 引言

      大數(shù)據(jù)在近幾年迅速成為最具有熱點(diǎn)的一個(gè)話題,科技、企業(yè)界乃至于各國政府都對其十分關(guān)注,大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn)已經(jīng)成為了各界的焦點(diǎn)。

      以宏觀的角度來看,大數(shù)據(jù)是物理世界、信息世界和人類世界的紐帶,物理世界通過網(wǎng)絡(luò)將反應(yīng)自身特性的數(shù)據(jù)反映到信息世界中,人類世界憑借界面的交互手段對自己的數(shù)據(jù)向信息世界進(jìn)行輸入和操作。大數(shù)據(jù)的特征可總結(jié)為5點(diǎn),即體量大、速度快、模態(tài)多、難辨識和價(jià)值大密度低五大特性,數(shù)據(jù)量的龐大并不是目前大數(shù)據(jù)的主要難點(diǎn),真正的挑戰(zhàn)在于數(shù)據(jù)類型的多樣性、不確定性以及對數(shù)據(jù)處理即時(shí)響應(yīng)的要求。

      出于應(yīng)對處理數(shù)據(jù)困難的探索,開源界推出了Hadoop,Spark等應(yīng)對不同應(yīng)用場景的大數(shù)據(jù)處理系統(tǒng),同時(shí)相應(yīng)的分析技術(shù)如:深度學(xué)習(xí)、可視化、知識計(jì)算等,這些大數(shù)據(jù)系統(tǒng)已經(jīng)逐漸得到廣泛的應(yīng)用。

      2 大數(shù)據(jù)處理系統(tǒng)

      2.1 批量式數(shù)據(jù)處理系統(tǒng)

      批量式數(shù)據(jù)有三個(gè)主要的特性:

      (1)數(shù)據(jù)量巨大,目前已經(jīng)達(dá)到PB級。

      (2)數(shù)據(jù)來源與具體應(yīng)用系統(tǒng),精度相對較高。

      (3)數(shù)據(jù)的價(jià)值密度相應(yīng)低下,如視頻數(shù)據(jù),在視頻播放的過程中,有價(jià)值的數(shù)據(jù)可能只有僅僅幾秒,而這也需要專用的算法對有價(jià)值的數(shù)據(jù)進(jìn)行提取,同時(shí)提取數(shù)據(jù)的行為將會消耗一定的時(shí)間,所以存在諸多限制,常常會造成處理結(jié)果不甚理想。

      綜合以上三點(diǎn)特性,批量式數(shù)據(jù)的處理需要相對比較成熟的技術(shù)和作業(yè)手段。

      批量式數(shù)據(jù)的應(yīng)用:

      (1)搜索引擎:互聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源,知名的搜索引擎如美國的Google,我國的百度等大型互聯(lián)網(wǎng)搜索引擎,通過與廣告相關(guān)數(shù)據(jù)的批量處理,來及時(shí)改變廣告投放的策略,根據(jù)分析用戶的喜好,更改廣告的分布以提高用戶的點(diǎn)擊量。

      (2)社交網(wǎng)絡(luò):目前的社交網(wǎng)絡(luò)和各大社交app每天都將產(chǎn)生巨大的數(shù)據(jù)量,新浪微博、微信等用戶眾多的社交網(wǎng)絡(luò)每時(shí)每刻都在產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖片、文本),針對這些數(shù)據(jù)進(jìn)行批量式處理,可以幫助分析方發(fā)現(xiàn)社交網(wǎng)絡(luò)中人際之間的潛在關(guān)系和他們的共同網(wǎng)絡(luò),根據(jù)這一共同特性進(jìn)行更新升級,可以進(jìn)一步提升用戶的使用體驗(yàn)。

      (3)電子商務(wù):在淘寶、京東、亞馬遜等電商網(wǎng)站上,產(chǎn)生大量的商品瀏覽記錄、購買記錄和評論記錄,批量處理這些數(shù)據(jù),商鋪可以針對用戶的熱度對商品進(jìn)行重新排布,app可以根據(jù)每個(gè)用戶的喜好為其進(jìn)行個(gè)性化推送,生產(chǎn)公司可以用處理結(jié)果對每個(gè)不同地區(qū)的市場方針進(jìn)行部署。

      (4)網(wǎng)絡(luò)安全:在金融服務(wù)和情報(bào)機(jī)構(gòu)中,可以通過對批量數(shù)據(jù)的處理來檢測客戶交易等操作是否存在異常,由此對潛在的欺詐行為進(jìn)行預(yù)防預(yù)警。

      代表性的處理系統(tǒng):

      2003年Google發(fā)布了GFS(Google File System),2004年發(fā)布MapReduce編程模型,掀起了大數(shù)據(jù)開發(fā)的高潮,在學(xué)術(shù)界和產(chǎn)業(yè)界產(chǎn)生了強(qiáng)烈反饋。作為MapReduce及GFS的開源版本,Nutch項(xiàng)目Hadoop在2006年發(fā)布了HDFS和MapReduce,MapReduce成為大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)處理模型。HDFS是分布式文件系統(tǒng),負(fù)責(zé)數(shù)據(jù)存儲,MapReduce是大數(shù)據(jù)編程模型,負(fù)責(zé)批量大數(shù)據(jù)運(yùn)算。Hadoop已經(jīng)形成了生態(tài)圈,其子項(xiàng)目有Hive,HBase,Pig等。如圖1所示。

      2.2 流式數(shù)據(jù)處理系統(tǒng)

      流式數(shù)據(jù)還有以下幾點(diǎn)共同特性:

      (1)流式數(shù)據(jù)的每個(gè)單元都帶有標(biāo)志時(shí)間的標(biāo)簽和相關(guān)屬性,所以處理流式數(shù)據(jù)通常是按照時(shí)間順序來進(jìn)行的。

      (2)流式數(shù)據(jù)可以由無結(jié)構(gòu)、半結(jié)構(gòu)、結(jié)構(gòu)化數(shù)據(jù)組成,故其處理流程復(fù)雜、數(shù)據(jù)純度不高。

      (3)流式數(shù)據(jù)具有活動性。

      典型應(yīng)用:

      (1)金融銀行業(yè):金融銀行行業(yè)的運(yùn)營數(shù)據(jù),具有短時(shí)效性,數(shù)據(jù)結(jié)構(gòu)也混雜,對這些流式數(shù)據(jù)進(jìn)行處理,可以幫助銀行發(fā)現(xiàn)其內(nèi)在特征,幫助銀行做出實(shí)時(shí)決策。

      (2)數(shù)據(jù)采集:隨著物聯(lián)網(wǎng)的興起,NBIoT的廣泛應(yīng)用,終端設(shè)備產(chǎn)生海量實(shí)時(shí)數(shù)據(jù)。當(dāng)前主要有傳感器數(shù)據(jù)采集、日志采集、Web操作日志采集,使用流式系統(tǒng)獲取實(shí)時(shí)數(shù)據(jù)信息,達(dá)到動態(tài)預(yù)警及通知功能。

      2.3 代表性的處理系統(tǒng)

      2.3.1 Storm系統(tǒng)

      Storm誕生于BackType公司,隨著BackType被Twitter收購,Storm轉(zhuǎn)為開源并在GitHub上公布。在2014年9月正式成為Apache旗下的頂級項(xiàng)目。

      Storm是實(shí)時(shí)的Hadoop,在實(shí)時(shí)數(shù)據(jù)處理領(lǐng)域扮演Hadoop之與批量數(shù)據(jù)處理領(lǐng)域的角色。Storm解決了Hadoop在處理實(shí)時(shí)數(shù)據(jù)面臨的瓶頸,采用分而治之理念的Hadoop在處理實(shí)時(shí)性要求高的場景顯得老態(tài)龍鐘。如圖2所示。

      Storm采用Master/Slave體系結(jié)構(gòu),與Hadoop主從架構(gòu)一樣,Nimbus是整個(gè)集群的控制節(jié)點(diǎn),負(fù)責(zé)指令的分發(fā)和系統(tǒng)的監(jiān)控。Supervisor是從節(jié)點(diǎn),負(fù)責(zé)具體任務(wù)執(zhí)行。

      2.3.2 Samza系統(tǒng)

      Linkedin開源了消息隊(duì)列Kafka,得到業(yè)界廣泛應(yīng)用,相當(dāng)部分流式數(shù)據(jù)處理系統(tǒng)都使用KafKa作為分布式消息處理模塊。Linkedin于2013年基于YARN和Kafka開發(fā)了一套流式處理框架—Samza。endprint

      Kafka(數(shù)據(jù)層)、YARN(執(zhí)行層)、Samza API(處理層)構(gòu)成了Samza系統(tǒng)的整體架構(gòu)。如圖3所示。

      Samza的主要特點(diǎn)是依賴YARN和Kafka。

      3 對大數(shù)據(jù)領(lǐng)域的思考及總結(jié)

      開源大數(shù)據(jù)解決方案日新月異,各有使用場景,總體來說總結(jié)出幾種發(fā)展趨勢:

      (1)平臺適應(yīng)多樣華,Hadoop成為大數(shù)據(jù)平臺事實(shí)上的標(biāo)準(zhǔn),適用于批處理數(shù)據(jù)分析應(yīng)用場景。利用內(nèi)存實(shí)現(xiàn)加速的Spark在實(shí)時(shí)性要求高的場景中有更好的適配性。在大數(shù)據(jù)平臺家族中,出現(xiàn)了Spark,TEZ,Drill,Storm,F(xiàn)lume,Scribe等新技術(shù),其并不是要取代Hadoop,而是要促進(jìn)大數(shù)據(jù)生態(tài)環(huán)境的完整化發(fā)展。

      (2)數(shù)據(jù)處理實(shí)時(shí)性:在物聯(lián)網(wǎng)、大數(shù)據(jù)蓬勃發(fā)展的基礎(chǔ)上,將海量數(shù)據(jù)(PB級別)處理時(shí)間縮短到幾秒級別的實(shí)時(shí)計(jì)算需求越發(fā)強(qiáng)烈。

      (3)專業(yè)化:專業(yè)化是提高效率的必經(jīng)之道,業(yè)界多通過定制化的軟硬一體解決方案實(shí)現(xiàn)低成本、高并發(fā)的解決方案。

      參考文獻(xiàn)

      [1]周寶曜,劉偉,范承工.大數(shù)據(jù)戰(zhàn)略·技術(shù)·實(shí)踐[M].電子工業(yè)出版社,2013:127-130.

      [2]Greenberg A,Hjalmtysson G,Maltz D A, et al.A clean slate 4D approach to network control and management[J]. ACMSIGCOMM Computer Communication Review,2005,35(05):41-54.

      [3]Taigman Y,Yang M,Ranzato M,Wolf L.Deepface: Closing the gap to human-level performance in face verification.In:Proc.Ofthe IEEE CVPR,2014.

      [4]Plaisant C,Carr D,Shneiderman B.Image-Browser taxonomy and guidelines for designers.IEEE Software,1995,12(02):21-32.

      [5]Feblowitz J.Analytics in oil and gas:The big deal about big data. In:Proc.of the SPE Digital Energy Conf,2013.

      [6]Hive.https://hive.apache.org/.

      [7]Pig.https://pig.apache.org/.

      [8]Hbase.https://hbase.apache.org/.

      [9]MongoDB.http://www.mongodb.org.

      作者簡介

      李潔(1979-),男,河南省桐柏縣人。大學(xué)本科學(xué)歷。高級工程師,研究領(lǐng)域?yàn)橥ㄐ啪W(wǎng)絡(luò)、信息安全、云計(jì)算。

      應(yīng)昌成(1996-),男,上海市人。本科在讀。研究領(lǐng)域?yàn)榇髷?shù)據(jù)分析、海洋技術(shù)。

      作者單位

      上??萍季W(wǎng)絡(luò)通信有限公司 上海市 200000

      上海大數(shù)據(jù)試驗(yàn)場工程技術(shù)研究中心 上海市 200000endprint

      猜你喜歡
      機(jī)器學(xué)習(xí)數(shù)據(jù)分析大數(shù)據(jù)
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
      淺析大數(shù)據(jù)時(shí)代背景下的市場營銷策略
      新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      淺析大數(shù)據(jù)時(shí)代對企業(yè)營銷模式的影響
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      明溪县| 久治县| 兴安盟| 凌海市| 邵阳市| 静宁县| 本溪| 报价| 和田县| 瓦房店市| 东阳市| 连州市| 裕民县| 宣威市| 祁东县| 大安市| 涞源县| 泾源县| 曲水县| 云林县| 呼和浩特市| 休宁县| 高邮市| 板桥市| 原平市| 交城县| 兰溪市| 科技| 云林县| 荆州市| 麻城市| 武汉市| 桐乡市| 梁河县| 林口县| 墨竹工卡县| 马关县| 沂水县| 托里县| 巴东县| 虎林市|