• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    云計算架構下互聯(lián)網大數據采集模型設計

    2019-05-23 10:44:40楊玉
    電腦知識與技術 2019年5期
    關鍵詞:數據采集云計算互聯(lián)網

    楊玉

    摘要:隨著中國社會經濟的快速發(fā)展,信息技術、計算機技術等先進技術逐漸地發(fā)展起來,互聯(lián)網當中的大數據也就越來越多。為了能夠準確地采集到海量數據當中的正確數據信息,提出了云計算架構下互聯(lián)網大數據采集模型設計,通過爬蟲程序抓取原始數據信息,在通過模擬信號轉換和數據過濾存儲方式最終實現(xiàn)數據模型的采集。通過實驗驗證該采集模型能夠采集到準確度更高的數據信息。

    關鍵詞:云計算;互聯(lián)網;數據采集

    中圖分類號:G642 文獻標識碼:A 文章編號:1009-3044(2019)05-0019-02

    中國自改革開放以來在互聯(lián)網行業(yè)上投入了大量的時間和精力,使得互聯(lián)網能夠飛速的向前發(fā)展,并研發(fā)出了許多附屬產品,現(xiàn)如今中國的互聯(lián)網行業(yè)已經形成了一定的規(guī)模,人們也迎來了互聯(lián)網時代。近些年來,中國的互聯(lián)網事業(yè)依舊沒有停下前進的腳步,對于互聯(lián)網的應用也逐漸走向了多元化,互聯(lián)網在潛移默化當中改變著人們的學習、工作甚至是生活的方式,進而影響力整個中國社會的進程[1]。隨著互聯(lián)網技術和行業(yè)的發(fā)展,逐漸實現(xiàn)了資源的共享,也就產生了云計算方式和大數據的概念。云計算是基于互聯(lián)網的相關服務的增加、使用和交互模式,通常涉及通過互聯(lián)網來提供動態(tài)易擴展且經常是虛擬化的資源,人們可以在可配置的計算資源共享池快速的獲取所需要的資源信息。而大數據也是互聯(lián)網發(fā)展下的另一個產物,它主要是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。在這樣的大環(huán)境下,人們豐富了獲取數據信息的渠道,這種信息獲取需要一定的技術支持,其中最重要的就是數據采集,通過對所需的信息數據進行采集方可進行下一步的處理和操作。

    1爬蟲程序抓取原始數據

    在云計算架構下,互聯(lián)網當中存在著海量的大數據,需要在海量數據當中抓取有用的數據,進行處理最終實現(xiàn)數據的采集。利用爬蟲程序可以在多線程的網絡數據傳輸過程當中實現(xiàn)實時數據抓取。網絡爬蟲程序一般情況下會駐留在服務器上,通過給定的URL利用網絡傳輸和讀取協(xié)議的相應文檔,通過文檔中包含的未訪問過的URL作為新的起點進行漫游,當沒有搜索到滿足條件的新的URL時為止,通過這種程序查找方式為搜索引擎站點的數據庫服務器追加和更新數據提供原始的數據信息[2]。然而傳統(tǒng)的爬蟲程進行數據抓取的工作過程包括:請求任務、執(zhí)行任務和數據上傳3個功能模塊,為了可以安全穩(wěn)定的進行有效信息的抓取在數據采集模型當中設計加入了模擬登錄功能,通過構建目標數據所在頁面的URL實現(xiàn)信息的定向獲取。在互聯(lián)網當中的數據幾乎每時每刻都在進行著傳輸和交互,所以爬蟲程序所要搜索和采集的數據不僅僅是處于靜態(tài)的數據信息,還有正在傳輸的動態(tài)數據,且在獲取動態(tài)傳輸數據時不能影響數據的正常運輸。爬蟲程序模擬登錄到互聯(lián)網當中,任務請求模塊箱服務器終端提交數據請求獲取任務[3]。通過對HTTPClient的HttpGet 方法對互聯(lián)網當中的信息頁面發(fā)出請求,獲取任務對應的taskhash。爬蟲信息接收到任務后開始執(zhí)行,通過 SQL 語句查詢次級任務表,并將抓取的數據結果組合成執(zhí)行文件,并以json 字符串的形式講數據上傳到用戶端,接著用戶端就可以將抓取到的原始數據信息進行下一步數據處理。

    2模擬信號轉換

    獲取到的原始數據信息一般情況下無法供用戶直接使用,需要對數據進行一系列的處理,方能夠在用戶端當中進行應用[4]。通常來講原始數據信息都是以電信號的方式輸入的,電信號信息需要轉換成模擬數據信號的信息,最后再轉換成為數字信號這樣也就實現(xiàn)了數據的轉換功能,數據轉換的原理如圖1所示。

    從圖中可以看出該數據采集模型當中采集模型首先對原始數據進行篩選、統(tǒng)計等初步操作,再將輸入的模擬信號傳輸進用戶端口后,用戶端直接進行模擬信號的調整并實現(xiàn)A/D的轉換。將模擬信號轉換成為計算機可以識別的數字信號之后對于互聯(lián)網當中的大數據還需要進行三次轉換過程分別為:數值二次計算,一對多標簽轉換及數據時戳處理。其中數值二次計算的目的是將數據轉換成為該區(qū)域內的標準數據,需要對數據信息進行折算,調整數據當中存在的偏差,對基準值進行修整等轉換工作,提升數據的準確性[5]。數值的一對多轉換是為了處理單一源測點對應多個目標測點的情況,通過轉換,保證了數據采集的完整性。

    3過濾存儲實現(xiàn)數據采集

    在互聯(lián)網大數據當中,數據的類型多種多樣,有文本數據、圖像數據、音頻數據、視頻數據等等,為了能夠提高數據的提取效率,在采集的過程當中就需要將不同的數據進行過濾并分類存儲。數據過濾的目的不僅僅是將不同類型的數據進行分包,也能夠實現(xiàn)排重、剔除無用信息的作用。首先要將轉換完成的數據輸入到過濾器當中,設定不同的闕值,不同的闕值過濾出的數據類型不同,正常的數據由固定的浮動范圍,一些不在范圍當中的數據被判定為錯誤數據需要被剔除,保證采集到的數據都是正確的[6]。將不同闕值區(qū)域的數據分別輸出,即可以得出分類采集的結果。而數據的排重處理就是排除掉與主題相重復項的過程,借助一種高效的海量文本排重Simhash 算法,計算兩個數據信息的相似度來排除重復項。將最終過濾處理完成的數據進行分類存儲,即可得到最終可以直接使用、具有安全保障的采集數據。

    4實驗分析

    將上述數據采集模型在某網絡數據采集處理分析系統(tǒng)中試運行.得出采集結果如表1所示。

    表1 采集試運行數據獲取結果表

    利用試運行獲取的數據結果,可以計算出兩種采集方法的準確率,傳統(tǒng)方法的準確率大概為26%,而數據采集模型數據采集的準確率為61%。由此可見,研究設計出的數據采集模型在實際操作當中具有一定的可行性。

    4結束語

    云計算在中國算是一次偉大的歷史變革,是計算機領域的一場革命。在云計算環(huán)境下,數據采集分析模型的建立,實現(xiàn)了對數據的處理與分析,節(jié)省了復雜的運行過程,提供給用戶更加簡單、快捷的接口,為用戶提供有用的、正確的數據信息。

    參考文獻:

    [1] 張玉明, 張遠遠. 基于大數據的小微企業(yè)統(tǒng)計信息采集策略[J]. 統(tǒng)計與決策, 2017,26(14):178-181.

    [2] 宋遠方, 馮紹雯, 宋立豐. 互聯(lián)網平臺大數據收集的瓶頸與區(qū)塊鏈理念下的新發(fā)展路徑探索[J]. 管理現(xiàn)代化, 2018,46(3):236-240..

    [3] 胡代弟, 董素鴿. 遠程實驗信息數據采集方法研究仿真[J]. 計算機仿真, 2017, 34(4):186-189.

    [4] 馮冬青, 朱行武. 6LoWPAN智慧城市數據采集系統(tǒng)的設計與實現(xiàn)[J]. 計算機工程, 2017, 43(11):286-291.

    [5] 俸皓, 羅蕾, 王勇,等. 無線傳感網中基于時變多旅行商和遺傳算法的多目標數據采集策略[J]. 通信學報, 2017,38(3):112-123.

    [6] 聯(lián)合智能優(yōu)化和分簇CS的WSNs稀疏數據采集[J]. 計算機工程與應用, 2017, 53(24):263-270.

    【通聯(lián)編輯:光文玲】

    猜你喜歡
    數據采集云計算互聯(lián)網
    鐵路客流時空分布研究綜述
    基于廣播模式的數據實時采集與處理系統(tǒng)
    軟件工程(2016年8期)2016-10-25 15:54:18
    通用Web表單數據采集系統(tǒng)的設計與實現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:52:53
    基于云計算的移動學習平臺的設計
    基于開源系統(tǒng)的綜合業(yè)務數據采集系統(tǒng)的開發(fā)研究
    從“數據新聞”看當前互聯(lián)網新聞信息傳播生態(tài)
    今傳媒(2016年9期)2016-10-15 22:06:04
    互聯(lián)網背景下大學生創(chuàng)新創(chuàng)業(yè)訓練項目的實施
    考試周刊(2016年79期)2016-10-13 23:23:28
    實驗云:理論教學與實驗教學深度融合的助推器
    大學教育(2016年9期)2016-10-09 08:54:03
    云計算中的存儲虛擬化技術應用
    科技視界(2016年20期)2016-09-29 13:34:06
    以高品質對農節(jié)目助力打贏脫貧攻堅戰(zhàn)
    中國記者(2016年6期)2016-08-26 12:52:41
    玛多县| 屏东市| 五大连池市| 岑溪市| 聂荣县| 辽阳市| 寿宁县| 合水县| 遂川县| 桦甸市| 兴安县| 定南县| 大庆市| 容城县| 汉沽区| 台前县| 贵州省| 北京市| 文安县| 陇南市| 略阳县| 永年县| 林州市| 阜宁县| 福鼎市| 原平市| 荣成市| 玉环县| 阜城县| 莫力| 额济纳旗| 大兴区| 迭部县| 时尚| 巴中市| 呼伦贝尔市| 茶陵县| 荆州市| 景德镇市| 宁明县| 商南县|