王 晗
目前我們處在一個網(wǎng)絡爆炸的時代,各種信息化的發(fā)展導致我們的數(shù)據(jù)在急劇地增長。據(jù)統(tǒng)計,平均每秒有60萬用戶在使用百度,每天1000萬人在淘寶留下足跡。同時,旅游業(yè),醫(yī)學,生物學,金融,零售等各大小平臺的數(shù)據(jù)在不斷的產(chǎn)生,這些數(shù)據(jù)涉及到各行各業(yè)不同用戶的信息。隨著數(shù)據(jù)越來越多,傳統(tǒng)的信息安全技術(shù)已經(jīng)滿足不了現(xiàn)有的需求。目前,人們在互聯(lián)網(wǎng)上的足跡都掌握在互聯(lián)網(wǎng)商家當中,比如淘寶的瀏覽記錄,以往的購買記錄這些數(shù)據(jù)都在淘寶的應用平臺當中,淘寶官方通過數(shù)據(jù)的采集分析就可以精確的了解用戶的喜好,因此推薦系統(tǒng)應運而生。又比如用戶每日在百度的搜索記錄經(jīng)過一段時間的收集之后,同樣可以在這些數(shù)據(jù)當中分析出用戶的性格特征和檢索習慣。這些實際的例子都表明,即使是一些看起來不起眼的數(shù)據(jù),被大量記錄之后,再經(jīng)過分析,就會暴露出用戶的行為特征。因此,研究和分析大數(shù)據(jù)時代存在的安全威脅是非常必要的。
大數(shù)據(jù)是一種具有大量、高速、多樣、價值密度低等特點的巨量資料。它來源豐富,數(shù)據(jù)結(jié)構(gòu)復雜、數(shù)據(jù)量大,數(shù)據(jù)經(jīng)過采集后存儲到云端,之后經(jīng)過數(shù)據(jù)處理和分析,系統(tǒng)可以篩選出有用的信息。
目前大數(shù)據(jù)分析應用于醫(yī)學、旅游業(yè),金融,教育等各領(lǐng)域,數(shù)據(jù)分析可以幫助人們透過現(xiàn)象看本質(zhì),能更加準確地推測事物的未來發(fā)展趨勢,幫助人們規(guī)避風險。同時大數(shù)據(jù)系統(tǒng)可以對個人活動數(shù)據(jù)進行不斷累積,之后通過數(shù)據(jù)分析來掌握個性化特征,從而給用戶提供更加針對性的服務,讓用戶享受到更好更方便的服務,也使企業(yè)的收益得到提高。大數(shù)據(jù)分析還可以利用其自身數(shù)據(jù)來源豐富的特點,對獲取的信息進行識別,從而幫助人們?nèi)吻笳?、甄別真相,降低造假信息傳播所造成的危害。大數(shù)據(jù)中潛在的價值也吸引來了各大行業(yè)巨頭的投資,巨大的商機也應運而生,從而促使許多新公司、新技術(shù)的誕生。
由圖1所示可知,大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)主要包含五個步驟,分別是數(shù)據(jù)準備,存儲數(shù)據(jù),計算處理,數(shù)據(jù)分析和知識展現(xiàn)。
圖1 大數(shù)據(jù)系統(tǒng)架構(gòu)
(1)數(shù)據(jù)準備:大數(shù)據(jù)的數(shù)據(jù)來源非常多樣。我們在日常生活中瀏覽的記錄就會被各個平臺的數(shù)據(jù)采集工具爬取到,如hadoop的chukwa,facebook的scribe,這些數(shù)據(jù)爬取工具都是采用分布式的架構(gòu),對爬取的數(shù)據(jù)進行快速地上傳和存儲;而網(wǎng)絡上的數(shù)據(jù)采集主要是通過網(wǎng)絡爬蟲和系統(tǒng)平臺公共API的方法去獲取數(shù)據(jù)信息,然后將這些數(shù)據(jù)存儲到云端,分析的時候再進行統(tǒng)一的處理。
(2)存儲數(shù)據(jù):數(shù)據(jù)在經(jīng)過收集之后,要將數(shù)據(jù)存儲到數(shù)據(jù)庫或者云端,以支持后繼更深入的數(shù)據(jù)分析。目前我們通常用分布式的架構(gòu)來存儲大數(shù)據(jù),以此來減少用戶訪問的壓力。
(3)計算處理:計算處理主要分為批處理、交互分析、流處理。批處理是對數(shù)據(jù)進行存儲之后,再對數(shù)據(jù)進行成批處理,能有效提高系統(tǒng)資源的利用率。交互分析是指人向計算機輸入指令,計算機經(jīng)過處理后把輸出結(jié)果呈現(xiàn)給用戶,使用戶與系統(tǒng)能夠及時的進行人機交互。流處理是對源源不斷地到來的數(shù)據(jù)進行迅速、沒有延遲的處理,它對處理延遲容忍度較低(但容錯性較高)。
(4)數(shù)據(jù)分析:主要就是對存儲階段的數(shù)據(jù)進行分析,建立相應的模型,以備后續(xù)的數(shù)據(jù)挖掘。
(5)知識展現(xiàn):經(jīng)過分析后的數(shù)據(jù)通過數(shù)據(jù)可視性化展現(xiàn)出來,數(shù)據(jù)可視性將大數(shù)據(jù)集中的數(shù)據(jù)以折線圖等形式展示,使用戶能夠很直觀的看到數(shù)據(jù)變化的趨勢。
數(shù)據(jù)傳輸層存在著大量的網(wǎng)絡節(jié)點,網(wǎng)絡節(jié)點實質(zhì)就是互聯(lián)網(wǎng)中的路由器,路由器的主要功能就是根據(jù)數(shù)據(jù)的目的地址進行路由的選擇和轉(zhuǎn)發(fā)。由于數(shù)據(jù)在傳輸過程當中,信號的傳輸是在鏈路中進行的,對于用戶而言是不可視的。因此在數(shù)據(jù)傳輸過程當中存在著很多安全威脅,常見安全威脅有以下幾種:
(1)竊聽:在數(shù)據(jù)傳輸過程當中,攻擊者會通過抓包工具截取數(shù)據(jù),如果截取的數(shù)據(jù)是以明文的形式傳輸?shù)?,這樣攻擊者很容易得到用戶傳輸?shù)木唧w信息,因而造成用戶信息的泄漏。
(2)篡改:篡改主要是指數(shù)據(jù)傳輸過程當中,攻擊者截取中途傳輸?shù)臄?shù)據(jù),然后對其中的一些重要信息進行修改,再依照數(shù)據(jù)包中的目的地址將數(shù)據(jù)繼續(xù)傳送給接收者,攻擊者對數(shù)據(jù)進行篡改從而使數(shù)據(jù)的完整性遭到了嚴重的破壞。
(3)路由攻擊:路由攻擊就是攻擊者直接攻擊路由器,惡意篡改內(nèi)部路由表中的信息,發(fā)送的數(shù)據(jù)包經(jīng)過被攻擊的節(jié)點后,會根據(jù)錯誤的路由表信息進行路由選擇,這樣的話就會選擇錯誤的路徑,造成網(wǎng)絡帶寬的浪費。
黑客攻擊主要分為非破壞性攻擊和破壞性攻擊兩大類,非破壞性攻擊主要目的是為了擾亂系統(tǒng)的正常運行,而破壞性攻擊主要就是采用非法的手段竊取用戶的信息。下面是常見的黑客攻擊手段:
(1)后門程序:后門程序又稱特洛伊木馬,它一般潛伏在電腦中,繞過安全性檢測進行數(shù)據(jù)的采集,之后將獲取的數(shù)據(jù)發(fā)送給遠程的控制機器。
(2)拒絕服務:拒絕服務實質(zhì)就是信息炸彈,攻擊者對指定服務器發(fā)送超過其目標處理能力的大量數(shù)據(jù)包,從而導致目標服務器的緩沖隊列一直為滿的狀態(tài),從而導致網(wǎng)絡或者服務器系統(tǒng)不堪重負。對于用戶新來的請求,由于緩沖隊列一直為滿的情況,所以系統(tǒng)無法提供正常的網(wǎng)絡服務,最終會導致服務器癱瘓。
(3)網(wǎng)絡竊聽:網(wǎng)絡竊聽是指攻擊者監(jiān)視網(wǎng)絡狀況。黑客一般通過這種方式來獲取用戶口令,將截取到的口令用以登錄相應的系統(tǒng)從而獲取到用戶的隱私信息。
數(shù)據(jù)加密是對用戶傳輸?shù)臄?shù)據(jù)進行加密,這樣在數(shù)據(jù)傳輸?shù)倪^程當中,即使被惡意的攻擊者截取,攻擊者通過窮舉的方式在有效的時間內(nèi)也破解不了,因此能有效保障用戶的隱私不被泄漏。數(shù)據(jù)加密實質(zhì)就是在用戶發(fā)送數(shù)據(jù)到傳輸信道之前,將傳輸?shù)臄?shù)據(jù)通過加密算法使明文轉(zhuǎn)換成密文,接收者在接收到信息之后再通過事先約定的密鑰通過解密算法將密文轉(zhuǎn)化為明文。數(shù)據(jù)加密主要分為對稱加密和非對稱加密。對稱加密的加密算法和解密算法使用的是同一個密鑰,而非對稱加密中加密算法和解密算法使用的密鑰是不相同的,數(shù)據(jù)的接收者擁有私鑰,而將公鑰公開,任何人可以通過接收者釋放的公鑰對數(shù)據(jù)進行加密之后然后向接收者發(fā)送消息,接受者接收到數(shù)據(jù)之后可以通過自己的私鑰就可以將密文轉(zhuǎn)換成明文。
要解決大數(shù)據(jù)的安全存儲問題,就要建立,健全數(shù)據(jù)安全存儲體系,為了保護核心數(shù)據(jù)的安全,采用了隱式機制解決存儲問題,竊取者如果想要獲取用戶的個人信息,必須要知道所存儲的矩陣的每一個元素的信息,這給竊取信息者在技術(shù)操作上增加了很大的難度,對于保護用戶的隱私是非常有意義的。
隱式機制運用了代數(shù)密碼學中基于有限域中多項式解的原理,將數(shù)據(jù)隨機劃分為個部分—并把這個值看成是一元次多項式的根,將每一部分分別儲存在不同的云服務器中,此過程數(shù)據(jù)信息不被加密,我們稱此數(shù)據(jù)的處理方式為隱式機制。方案中,負責存儲數(shù)據(jù)的各個云服務器不會泄露任何信息,只有當所有的云服務器合謀時才能造成數(shù)據(jù)信息的泄露。
目前,隨著大數(shù)據(jù)的發(fā)展,網(wǎng)絡犯罪也越來越多,因此管理層必須要重視計算機網(wǎng)絡的安全使用,加強防范意識,相關(guān)部門必須要完善立法,加強網(wǎng)絡信息和個人隱私信息的保護力度,建立健全完善的法律法規(guī),全面提升網(wǎng)絡安全的監(jiān)管力度。除此之外,在這樣一個時代,用戶自身也要加強安全防范意識,避免人為因素造成自身隱私的泄露。
在大數(shù)據(jù)時代,一些攻擊者往往將一些惡意的病毒注入到相關(guān)的網(wǎng)頁當中,一旦點擊進去,病毒就會進行傳染,它們就像寄生者一樣,可以監(jiān)控計算機內(nèi)各個進程的運行狀況,對計算機系統(tǒng)進行破壞,對計算機內(nèi)存中的內(nèi)容進行刪除,造成用戶隱私的泄露。因此,一旦遇到這種問題,要立即使用殺毒軟件對計算機中的病毒進行清理,維護系統(tǒng)的安全。除此之外,用戶要定時的清理和更新最常用的軟件,使之保證最新的版本。
大數(shù)據(jù)時代的到來,加快了信息時代的高速發(fā)展,給我們帶來便利的同時,很多網(wǎng)絡安全問題也隨之而來,本文首先介紹了什么是大數(shù)據(jù)時代,以及大數(shù)據(jù)系統(tǒng)的基本架構(gòu),介紹了大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)的五個過程,隨后介紹了大數(shù)據(jù)時代我們面臨的常見的安全威脅,以及對于這些安全威脅我們應該采取的解決措施。目前,我國的大數(shù)據(jù)研究還處于初級階段,還有很多問題需要解決,所以需要我們共同努力,共同構(gòu)建大數(shù)據(jù)時代計算機安全建設體系。