司雨昌
?
網絡大數據的采集與處理方式研究
司雨昌
沈陽師范大學計算機與數學基礎教學部,遼寧 沈陽 110034
隨著互聯網的快速發(fā)展,網絡大數據包含著大量的數據,并且數據來源眾多,這對于數據的采集與處理提出了很高的需求,尤其是在大數據處理的可用性與高效性方面得需求較高。對此,在對網絡大數據得運用狀況進行介紹后,主要是對網絡大數據得采集與處理方式進行了研究,并對該領域進行了展望。
網絡大數據;采集;處理方式
在計算機與互聯網技術蓬勃發(fā)展的背景下,網絡大數據逐漸進入到人們的生活、工作以及學習領域當中,并且對于我們的日常生活有著較大的影響。但是,網絡大數據當前所面臨得問題也是較多的,尤其是在數據的采集與處理方面需要加大研究力度,提升網絡大數據的作用與價值,這也是本文研究的根本目標。
現階段,隨著網絡大數據領域的日益成熟,已經逐漸被運用到多個方面,其中最具有代表性的有互聯網信息領域與健康衛(wèi)生服務業(yè)。其一,網絡大數據在互聯網信息領域中已經得到了充分的領域,這對于微信、百度以及淘寶的發(fā)展都具有積極意義,在提升用戶體驗的同時,對于人們的生活提供了較大的便利;其二,健康衛(wèi)生服務業(yè)中網絡大數據已經得到廣泛的運用,尤其是基因治療、基因測序方面具有不可小視的作用。與此同時,在病例分析、醫(yī)學教學以及手術方面也可運用到網絡大數據,對于人類的健康、醫(yī)療領域的進步做出了較大的貢獻;其三,網絡大數據也被運用到安全領域,例如信息定位、詐騙預警以及汽車導航等方面都具有積極意義。
在研究與分析的過程中,本文主要對數據的采集與處理兩個方面進行研究,其根本原因是在網絡大數據領域中處于核心地位:
2.1 網絡大數據采集方法
一般來講,現階段網絡大數據常用的采集方法有系統日志采集方法、網絡數據采集方法以及其他數據采集方法等。
在系統日志采集方法中,絕大多數互聯網企業(yè)都擁有海量數據采集工具,這對于采集系統日志具有積極作用,當前較為常用的數據采集工具有Scribe、Flume等,這些系統日志采集工具的共同點是擁有分布式架構,同時其日志數據的采集速度能夠達到MB/S。
在網絡數據采集的過程中,一般是指借助于網絡公開API或網絡爬蟲得方式,對網站中得數據進行獲取。意味著網絡數據采集是在網頁中將非結構化數據進行提取,并將得到的數據采用結構化的方式進行存儲。針對于采集數據的類型,主要包含音頻、視頻、圖片等等。與此同時,還可通過DFI、DPI等技術來采集網絡流量。
此外,還包含部分其他數據采集方法。例如保密性要求較高的科研數據、企業(yè)的生產經營數據等,則需要采用與研究機構或企業(yè)合作的方式,運用特定系統接口的方式來對數據進行采集。
2.2 網絡大數據的處理技術
通過對網絡大數據處理技術研究與剖析后,得知核心技術為兩點:其一,是查詢請求與歷史查詢匹配方法;其二,為預結果集更新、轉入結果集方法。
2.2.1 查詢請求與歷史查詢匹配方法
在網絡大數據處理的過程中,數據預處理處于核心地位,其中包含數據源與時間等,可將其理解為基于時間單位的粒度式數據處理結果,這對于企業(yè)在統計與分析數據過程中反應速度的提升具有積極意義。而在查詢請求與歷史查詢匹配方法當中,是基于數據源與時間而匹配的,關于匹配算法具體如下:
輸入:查詢請求Requst={Ts,Ds},歷史查詢集;
輸出:預處理結果集合Result;
算法思想:在執(zhí)行算法的過程中,主要包含六步:
第一步:尋找到與查詢請求數據源相同的數據庫集合T;
第二步:對集合T中歷史查詢記錄相同或者處理時間相同記錄進行查找,并將查找出的記錄設定為D={D=Ds or Ds ∈ D};
第三步:假如D不在Ds得范圍內,那么則跳轉結果集R來對算法匹配;
第四步:當D=Ds時,能夠得到預處理結果,具體為Result={r1,u1|r1∈R,u1∈U},并結束;
第五步:當Ds∈D時則重復第四步;
第六步:當D=Ds-D時,則重復第三步。
2.2.2 預結果集更新、轉入結果集方法
在網絡大數據處理過程中,在數據的預處理階段共包含兩個核心方面:其一,是客觀存在的并且不再變更的數據與處理,其中具有代表性的是幾年前的銷售數據,在保存后不會出現變動情況,因此將其保存在結果集中即可;其二,是可能存在變更的數據,例如近期的銷售數據,這些數據可能存在著變更,因此可將此類數據以最小時間單位的方式放在預結果集當中。與此同時,在一定情況下可將其轉變?yōu)椴豢勺兏臄祿?,然后再對數據進行處理。舉例來說,在預統計淘寶當月的銷售數據得過程中,由于在銷售的過程中可能存在貨源不足、買家退貨等情況,因此當月的銷售數據會出現變動,因此在對銷售數據預處理的過程中,會將其保存到預結構集中。而經過一個季度后該月銷售數據則不會出現變動,意味著處理結果不會出現變動,因此可將其保存到結果集當中,這對于降低部分不必要的數據處理具有積極意義,同時在數據的準確性方面也具有很好的體現,這對于提升網絡大數據處理效率與質量的提升是非常重要的。
雖然網絡大數據在發(fā)展的過程中存在著部分待解決的問題,但是隨著對該領域研究的逐漸深入,已經能夠對部分問題解決。針對于網絡大數據得采集與處理方式來說,將多樣化、低成本以及大規(guī)模作為研究目標。在互聯網技術與計算機技術不斷發(fā)展的進程中,相信開發(fā)人員會加大對該領域的研發(fā)力度,并且會對我們的生活、工作產生較大的影響。
[1]金剛,徐志躍,周強.基于FPGA的多功能數據采集模塊設計[J].微計算機信息,2012(8):55.
[2]茹麗娟.一種應用于智能電網的多路數據采集系統設計[J].科技情報開發(fā)與經濟,2012(13):46.
[3]陳丹.我國電子信息技術存在的問題及發(fā)展趨勢探討[J].赤峰學院學報(科學教育版),2011(4):32.
Research on data acquisition and processing of large network data
Si Yuchang
Department of computer and mathematics Shenyang Normal University,Liaoning Shenyang 110034
With the rapid development of Internet,network data contains a large amount of data,and data from numerous sources,which is a very high demand for data acquisition and processing,especially the high demand in the availability and efficiency of data processing.In this paper,after the introduction of the application of the network big data,the paper mainly studies the data acquisition and processing methods of the network,and makes a prospect of the field.
network big data;collection;processing method
G232.1
A
1009-6434(2016)12-0121-02
司雨昌(1978—),男,漢族,遼寧省沈陽市,學歷本科,研究方向為計算機軟件。