• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)系統(tǒng)和分析技術

    2018-02-28 11:19:18李蕭瑋
    電子技術與軟件工程 2018年21期
    關鍵詞:技術分析大數(shù)據(jù)

    李蕭瑋

    摘要

    本文以大數(shù)據(jù)時代為背景,對大數(shù)據(jù)處理系統(tǒng)與大數(shù)據(jù)分析技術的發(fā)展現(xiàn)狀進行了簡單的綜述,并梳理了大數(shù)據(jù)計算面臨的問題,通過翻閱大量文獻總結相應的解決方案。

    【關鍵詞】大數(shù)據(jù) 大數(shù)據(jù)處理系統(tǒng) 技術分析

    “大數(shù)據(jù)(Big Data)”一詞自2008年被提出至今,很多領域以及企業(yè)均在投入大量精力對它進行研究并有效利用。在這個信息爆炸的時代,數(shù)據(jù)已經滲透到各行各業(yè),對于如何有效發(fā)掘并使用大數(shù)據(jù)已成為誰會各界關注的焦點?;诖?,很有必要將大數(shù)據(jù)處理系統(tǒng)作為重點研究對象,并就當今計算系統(tǒng)面臨的挑戰(zhàn)提出相應的解決方案,為提升數(shù)據(jù)計算效率、增加處理系統(tǒng)有效性提供相應的參考與借鑒。

    1 大數(shù)據(jù)處理系統(tǒng)

    大數(shù)據(jù)處理系統(tǒng)根據(jù)大批數(shù)據(jù)分析適合的模式,制定相對應的策略后制定出科學的應對措施,以實現(xiàn)特定的業(yè)務目標。目前,靜態(tài)數(shù)據(jù)的批量處理、在線數(shù)據(jù)的實時處理和圖數(shù)據(jù)的綜合處理是人們對大數(shù)據(jù)處理的主要形式。不同的數(shù)據(jù)處理形式特征和代表性對應相當?shù)臄?shù)據(jù)處理系統(tǒng)。

    1.1 批量數(shù)擔處理系統(tǒng)

    批量數(shù)據(jù)處理系統(tǒng)比較適用于先儲存后計算,對于實時處理方面沒有過高要求,但需要較高的數(shù)據(jù)準確性和完整性。通過大量閱讀大量文章后可發(fā)現(xiàn),數(shù)據(jù)量龐大、儲存時間長、處理時耗長和數(shù)據(jù)角度高等是批量數(shù)據(jù)處理系統(tǒng)的特征,該處理系統(tǒng)普遍適用于相對成熟的大型企業(yè),且主要應用于社交網(wǎng)絡、電子商務、搜索引擎等領域。

    2003年,Google公司研發(fā)了GFS文件系統(tǒng),以及2004年研發(fā)了MapReduce變成模型,由于這兩款批量數(shù)據(jù)處理系統(tǒng)的特有魅力引起了各界的很大反響。2006年Nutch項目的Hadoop順應現(xiàn)代IT公司的一致需求實現(xiàn)了HDFS和MapReduce.Hadoop兩種典型的大數(shù)據(jù)批量處理架構,HDFS和由HDFS負責靜態(tài)數(shù)據(jù)的存儲,并通過MapReduce將計算邏輯分配到各數(shù)據(jù)節(jié)點進行數(shù)據(jù)計算和價值發(fā)現(xiàn)。

    1.2 流式數(shù)據(jù)處理系統(tǒng)

    2010年,Google公司針對批量數(shù)據(jù)處理系統(tǒng)的問題推出了Dremel,將數(shù)據(jù)處理方式向著實時性邁進了一步。Teitter推出的Storm系統(tǒng)就是典型的流式數(shù)據(jù)處理系統(tǒng),該套系統(tǒng)消息傳遞于處理響應速度很快,對數(shù)據(jù)進行連續(xù)計算、查詢后將結果以流量的方式發(fā)送給用戶,可確保消息的完整性。另外,Linkedin推出的Kafka的消息隊列為許多流式數(shù)據(jù)處理系統(tǒng)提供了信息處理模塊。2013年,Linkedin基于此研發(fā)了Samza流式數(shù)據(jù)處理框架。高容錯率、高可靠性和可擴展性等特點使得Samza數(shù)據(jù)處理系統(tǒng)受到廣泛關注。

    2 大數(shù)據(jù)分析技術

    大數(shù)據(jù)分析技術就是對收集到的大數(shù)據(jù)進行儲存、分析及可視化操作的技術。大數(shù)據(jù)的分析以深度學習和知識計算為基礎,以可視化作為數(shù)據(jù)分析結果呈現(xiàn)的關鍵技術。

    2.1 深度學習

    深度學習利用層次化對的構架學習出對象在不同層次上的表達,已達到有效的表達和學習圖像、聲音和文本數(shù)據(jù)等媒體。2009年,微軟研究院的Dahl在語音方面使用DNN深度神經網(wǎng)絡,使得語音處理成為深度學習的第一領域。2012年,Hinton等人使用CNN卷積神經網(wǎng)絡將圖像拾取的錯誤率從26%講到了15%。2013年,F(xiàn)acebook人工智能實驗室的Taigman等人利用神經網(wǎng)絡在人臉識別的技術上取得了很好的效果。

    2.2 知識計算

    知識計算是國內外學術界研究的一個熱點,從大數(shù)據(jù)中抽取出有價值的知識,構建成可支持查詢、分析和計算知識庫。在國外存在許多支持知識計算的基礎是構建知識庫。如EVi公司的TureKnowledge知識搜索平臺,美國Data.gov,Wolfrair的知識計算平臺,F(xiàn)acebook推出的搜索服務Graph Search等。在國內,具有代表性的知識平臺有中國科學院的陸汝鈴院士提出的知件(knowware),上海交通大學構建的中文知識圖譜平臺zhishi.me,百度推出了中文知識圖譜搜索,搜狗推出的知立方平臺,復旦大學GDM實驗室推出的中文知識圖譜展示平臺等。

    2.3 可視化

    2005年,提出了一種可通過交互可視界面分析、決策數(shù)據(jù)的科學方法,將可視化和數(shù)據(jù)處理相結合為用戶提供大規(guī)模數(shù)據(jù)解決的方案。2011年,俄羅斯工程師Ruslan Inikeev將幾百個國家十幾萬的數(shù)據(jù)整合聯(lián)系起來,建立了互聯(lián)網(wǎng)宇宙。2004年,Vigas提出的歷史流圖(History Flow),利用可視化文檔編輯記錄廣大用戶對公開文檔的修改,使得很容易看出每個人對這篇文檔的貢獻。2007年,Kaser提出的標簽云(Tag Cloud),根據(jù)其熱門程度標識字體的大小和顏色,通過頻率高低來標簽標識不同對象,方便用戶按照熱門程度來查找信息。

    3 大數(shù)據(jù)面臨的挑戰(zhàn)與應對之策

    3.1 數(shù)據(jù)的安全與隱私帶來的挑戰(zhàn)

    大數(shù)據(jù)應用的領域愈加廣泛,尤其在互聯(lián)網(wǎng)上的數(shù)據(jù)信息安全更值得注意。比如在網(wǎng)站中需輸入用戶密碼、身份證號、銀行卡號等用戶的個人信息,通過這些數(shù)據(jù)可以輕易挖掘出用戶的行為習慣和個人信息,如若運用不當遭到不法分子的竊取,將會帶來個人信息、財產等安全性問題。針對這一類問題,2006年,Dwork提出了一種差分隱私方法。2010年,Roy等提出了隱私保護系統(tǒng)Airavat.Lindell等提出了保護隱私的數(shù)據(jù)挖掘概念,防止數(shù)據(jù)處理過程中的隱私泄露。

    3.2 計算復雜性帶來的挑戰(zhàn)

    大數(shù)據(jù)具有結構多層次,存儲量巨大、速度快等特點,這些特點導致過去的機器在信息檢索及數(shù)據(jù)采集方面上不能夠有效地進行數(shù)據(jù)分析和計算。這就要求我們在進行大數(shù)據(jù)計算中,需對它的可行性、有效性進行評估,這是核心問題,也為大數(shù)據(jù)的研究工作帶來了挑戰(zhàn)。為了克服這種挑戰(zhàn),需根據(jù)大數(shù)據(jù)的特性,以數(shù)據(jù)為中心對計算模式進行改進,去除傳統(tǒng)計算理念的糟粕,通過對大數(shù)據(jù)理論的深入研究建立起更為規(guī)范化的推送式的數(shù)據(jù)模式,利用大量數(shù)據(jù)建立起牢固的計算理論基礎。

    4 結語

    綜上所述可以看出,在這個信息爆炸的時代,各行各業(yè)都在跟數(shù)據(jù)打交道,大數(shù)據(jù)時代己然來臨,充分了解并認知大數(shù)據(jù)有著非常重要的意義。通過大量閱讀國內外文獻,本文對近幾年來國內外大數(shù)據(jù)的處理系統(tǒng)及技術進行了較為全面的總結,并針對存在于大數(shù)據(jù)研究中的隱私安全性、計算復雜性等挑戰(zhàn)做出了相應的解決方案。

    參考文獻

    [1]程學旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術綜述[J].軟件學報,2014,09:1889-1908.

    [2]吳卉男.大數(shù)-M系統(tǒng)和分析技術綜述[J].信息記錄材料,2016,17(03):2-4.

    猜你喜歡
    技術分析大數(shù)據(jù)
    淺析《西游記之大圣歸來》動畫技術上的成功與不足
    電力變壓器高壓試驗技術分析
    第一屆全國青年運動會網(wǎng)球男子單打決賽技術統(tǒng)計分析
    體育時空(2016年9期)2016-11-10 21:36:43
    2014年世界羽毛球超級系列賽男雙決賽技術對比分析
    體育時空(2016年9期)2016-11-10 21:26:18
    基于大數(shù)據(jù)的智能數(shù)據(jù)分析技術
    建筑工程混凝土結構施工技術
    大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
    新聞世界(2016年10期)2016-10-11 20:13:53
    基于大數(shù)據(jù)背景下的智慧城市建設研究
    科技視界(2016年20期)2016-09-29 10:53:22
    數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
    中國記者(2016年6期)2016-08-26 12:36:20
    大余县| 蕉岭县| 永和县| 黔江区| 江陵县| 来安县| 丹江口市| 包头市| 光山县| 五峰| 嵩明县| 奇台县| 花莲市| 申扎县| 钦州市| 盘锦市| 阿拉善右旗| 汕尾市| 白银市| 台东县| 宁明县| 绿春县| 齐河县| 桃源县| 溆浦县| 台山市| 都江堰市| 滕州市| 延吉市| 会宁县| 东港市| 晴隆县| 宣城市| 韩城市| 海丰县| 囊谦县| 鄱阳县| 裕民县| 徐汇区| 梧州市| 普陀区|