• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)環(huán)境下的大數(shù)據(jù)采集和處理

    2021-03-07 01:27:42黃陵
    關(guān)鍵詞:布隆過濾器結(jié)構(gòu)化

    ◆黃陵

    (中國(guó)人民解放軍某部 陜西 710000)

    通過系統(tǒng)數(shù)據(jù)采集與處理的數(shù)據(jù)稱之為大數(shù)據(jù),大數(shù)據(jù)同時(shí)也是網(wǎng)絡(luò)中最常見的數(shù)據(jù)。在高速化運(yùn)轉(zhuǎn)的大數(shù)據(jù)時(shí)代中,傳統(tǒng)的數(shù)據(jù)采集以及處理的方式效率較低,因此就要對(duì)處理與采集技術(shù)進(jìn)行升級(jí)優(yōu)化,創(chuàng)造出適應(yīng)大數(shù)據(jù)高速發(fā)展的處理技術(shù)[1]。對(duì)大數(shù)據(jù)進(jìn)行科學(xué)高效的采集與處理,是未來網(wǎng)絡(luò)環(huán)境下科技發(fā)展的方向。好的處理方法能提高人們社會(huì)發(fā)展,加強(qiáng)對(duì)國(guó)家安全以及人們的生活水平的提升,同時(shí)促進(jìn)國(guó)家經(jīng)濟(jì)的發(fā)展。目前針對(duì)大數(shù)據(jù)的采集與處理的要求較高,數(shù)據(jù)采集處理方式還存在著相應(yīng)的問題,導(dǎo)致大數(shù)據(jù)的信息不能及時(shí)進(jìn)行采集并處理分析。本文將在網(wǎng)絡(luò)環(huán)境中對(duì)大數(shù)據(jù)的發(fā)展進(jìn)行分析,整理出大數(shù)據(jù)的特點(diǎn),并根據(jù)大數(shù)據(jù)的特點(diǎn)對(duì)大數(shù)據(jù)的資源進(jìn)行采集與處理,基于相關(guān)文獻(xiàn),提出對(duì)大數(shù)據(jù)信息處理的創(chuàng)新問題,督促相關(guān)技術(shù)人員采取有效的措施對(duì)大數(shù)據(jù)的信息進(jìn)行采集處理,加快大數(shù)據(jù)技術(shù)的發(fā)展。

    1 網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)的發(fā)展

    大數(shù)據(jù)目前具有三大優(yōu)勢(shì):信息量大;處理速度快;數(shù)據(jù)類型多。我國(guó)互聯(lián)網(wǎng)的發(fā)展較晚,大數(shù)據(jù)的應(yīng)用以及發(fā)展還處于一個(gè)初級(jí)階段,但是大數(shù)據(jù)的作用以及應(yīng)用價(jià)值被我國(guó)高度重視,在未來的發(fā)展過程中,我國(guó)也會(huì)更加重視大數(shù)據(jù)的發(fā)展,可以加快我國(guó)的社會(huì)發(fā)展以及經(jīng)濟(jì)發(fā)展,目前大數(shù)據(jù)的發(fā)展在我國(guó)占據(jù)重要地位[2]。

    在2020 年,互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)調(diào)查發(fā)現(xiàn)全球的數(shù)據(jù)存儲(chǔ)值已經(jīng)達(dá)到44ZB(十萬(wàn)億億字節(jié)),預(yù)計(jì)在2030 年將會(huì)達(dá)到2500ZB。近幾年我國(guó)對(duì)大數(shù)據(jù)的采集以及處理方面的技術(shù)也有了明顯的進(jìn)步,大數(shù)據(jù)的技術(shù)體系還并不完善,使得我國(guó)的大數(shù)據(jù)技術(shù)還處在萌芽階段。我國(guó)的大數(shù)據(jù)技術(shù)體系在未來的發(fā)展趨勢(shì)還是屬于漸進(jìn)式發(fā)展,目前的處理能力的提升遠(yuǎn)遠(yuǎn)不能達(dá)到數(shù)據(jù)的增長(zhǎng)體系,因此大數(shù)據(jù)信息不能被完全利用的現(xiàn)狀還會(huì)存在較長(zhǎng)時(shí)期。

    大數(shù)據(jù)未來的發(fā)展趨勢(shì)將分為以下幾種:數(shù)據(jù)的資源化,主要是個(gè)行業(yè)根據(jù)對(duì)大數(shù)據(jù)的分析制定相關(guān)的計(jì)劃,從而提升行業(yè)經(jīng)濟(jì)效益,搶占市場(chǎng)先機(jī);大數(shù)據(jù)與云計(jì)算的融合,云技術(shù)是大數(shù)據(jù)研究的基礎(chǔ)設(shè)備,同時(shí)大數(shù)據(jù)的發(fā)展也離不開云計(jì)算,同時(shí)物聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)也會(huì)成為大數(shù)據(jù)的發(fā)展趨勢(shì),為大數(shù)據(jù)的發(fā)展發(fā)揮出其影響力;大數(shù)據(jù)發(fā)展中數(shù)據(jù)科學(xué)與數(shù)據(jù)聯(lián)盟的成立,由于我國(guó)對(duì)大數(shù)據(jù)技術(shù)發(fā)展的重視,各大高校已經(jīng)開展數(shù)據(jù)科學(xué)的課程,其被越來越多的人認(rèn)知,同時(shí)加強(qiáng)大數(shù)據(jù)專業(yè)人才的培養(yǎng),建立大數(shù)據(jù)共享平臺(tái),各領(lǐng)域間信息共享,成為未來產(chǎn)業(yè)發(fā)展的重要因素。

    2 網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)的結(jié)構(gòu)及特點(diǎn)

    2.1 大數(shù)據(jù)的結(jié)構(gòu)

    在高速發(fā)展的社會(huì)中,信息流通較快,同時(shí)科學(xué)技術(shù)也在不斷發(fā)展,互聯(lián)網(wǎng)使得人們的生活交流越來越方便,更好的拉近了人們之間的距離。大數(shù)據(jù)是時(shí)代發(fā)展的必要產(chǎn)物,大數(shù)據(jù)目前包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。

    結(jié)構(gòu)化數(shù)據(jù)主要就是指數(shù)據(jù)庫(kù),是由二維表結(jié)構(gòu)來進(jìn)行表達(dá)的數(shù)據(jù),通過一定的關(guān)系型數(shù)據(jù)進(jìn)行存儲(chǔ)與管理,結(jié)構(gòu)化數(shù)據(jù)主要就是有著一定模式的數(shù)據(jù),這些模式就稱之為結(jié)構(gòu)化,是有著一定的數(shù)據(jù)格式以及長(zhǎng)度的規(guī)范,需要嚴(yán)格進(jìn)行遵守的規(guī)范。

    半結(jié)構(gòu)化數(shù)據(jù)是指有一定的模式,不是普通文本的類型,半結(jié)構(gòu)化數(shù)據(jù)相對(duì)于結(jié)構(gòu)化數(shù)據(jù)有一定的靈活性,半結(jié)構(gòu)化數(shù)據(jù)主要適用于多個(gè)數(shù)據(jù)庫(kù)中不同模式的數(shù)據(jù)進(jìn)行采集處理。半結(jié)構(gòu)化數(shù)據(jù)被應(yīng)用的原因就是因?yàn)槠潇`活性,能夠?qū)追N不同結(jié)構(gòu)的數(shù)據(jù)庫(kù)進(jìn)行整理,并且可以隨時(shí)在其中一個(gè)數(shù)據(jù)庫(kù)中進(jìn)行更改,這種半結(jié)構(gòu)化數(shù)據(jù)在處理中較為麻煩,但是為用戶查詢提供了便捷。

    非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)數(shù)據(jù)是完全對(duì)立的兩種模式,非結(jié)構(gòu)化數(shù)據(jù)是不用通過二維表進(jìn)行表達(dá)的數(shù)據(jù),主要是包含各類的文檔報(bào)表以及圖片視頻等信息,更多的是運(yùn)用于文章的檢索以及對(duì)多媒體信息進(jìn)行處理,根據(jù)IDC 的調(diào)查發(fā)現(xiàn)在各領(lǐng)域中數(shù)據(jù)每年都在不斷增長(zhǎng)[3]。同時(shí)非結(jié)構(gòu)化數(shù)據(jù)也占據(jù)著互聯(lián)網(wǎng)數(shù)據(jù)的絕大比例,我國(guó)在推進(jìn)“互聯(lián)網(wǎng)+”的發(fā)展方式,使得非結(jié)構(gòu)化的數(shù)據(jù)也越來越多,因此對(duì)非結(jié)構(gòu)化的數(shù)據(jù)的處理技術(shù)是目前重視的項(xiàng)目之一。

    對(duì)大數(shù)據(jù)的認(rèn)知應(yīng)從理論、技術(shù)以及實(shí)踐層次進(jìn)行分析,非結(jié)構(gòu)化數(shù)據(jù)是我國(guó)主要的數(shù)據(jù)模式,在云計(jì)算技術(shù)的配合下,使得這些非結(jié)構(gòu)化的數(shù)據(jù)也已經(jīng)開始被利用,各領(lǐng)域間也在不斷的創(chuàng)新,加快了大數(shù)據(jù)發(fā)展的價(jià)值。

    2.2 大數(shù)據(jù)的特點(diǎn)

    大數(shù)據(jù)包含著世界各地隨時(shí)產(chǎn)生的數(shù)據(jù),因?yàn)榘蛐裕沟矛F(xiàn)在大數(shù)據(jù)具有四個(gè)特點(diǎn):大量性、多樣性、高速性以及價(jià)值性。在信息時(shí)代快速發(fā)展的情況下,數(shù)據(jù)的增長(zhǎng)速度也逐漸加快,移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)以及各種社交網(wǎng)絡(luò)中的數(shù)據(jù)都是大數(shù)據(jù)的主要來源,這就導(dǎo)致數(shù)據(jù)越來越多,數(shù)據(jù)就具備了大量性特點(diǎn)。大數(shù)據(jù)形式的多樣性,是因?yàn)楦黝I(lǐng)域中都會(huì)產(chǎn)生大量數(shù)據(jù),廣泛的數(shù)據(jù)來源使得大數(shù)據(jù)出現(xiàn)多樣性?;ヂ?lián)網(wǎng)的快速發(fā)展,使得傳輸系統(tǒng)越來越快,使得大數(shù)據(jù)的產(chǎn)生也越來越快,現(xiàn)在人們生活離不開互聯(lián)網(wǎng)的運(yùn)用,因此造就了大數(shù)據(jù)的高速性。同時(shí)大數(shù)據(jù)的核心特征就是其價(jià)值性,大數(shù)據(jù)已經(jīng)運(yùn)用到各行各業(yè),在各行各業(yè)也有了一定的成就,推進(jìn)了社會(huì)的發(fā)展。

    3 網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)的采集

    大數(shù)據(jù)中的類型是極為復(fù)雜的,互聯(lián)網(wǎng)在人們生活中廣泛運(yùn)用,使得數(shù)據(jù)的產(chǎn)生途徑越來越多,大數(shù)據(jù)的多樣化以及高速性的特點(diǎn)也導(dǎo)致數(shù)據(jù)在采集過程中的復(fù)雜程度。數(shù)據(jù)在采集過程中的整體框架主要分為六個(gè)板塊:鏈接抽取、網(wǎng)站頁(yè)面、鏈接過濾、內(nèi)容抽取、爬蟲URL(資源定位系統(tǒng))隊(duì)列以及數(shù)據(jù)。其中鏈接抽取的功能是將網(wǎng)頁(yè)所存在的鏈接的網(wǎng)址進(jìn)行抽?。痪W(wǎng)站頁(yè)面的功能是需要對(duì)網(wǎng)頁(yè)中的內(nèi)容進(jìn)行獲??;鏈接過濾的功能是針對(duì)網(wǎng)頁(yè)鏈接進(jìn)行判斷此網(wǎng)頁(yè)是否被獲?。粌?nèi)容抽取的功能是從其中的網(wǎng)站頁(yè)面中對(duì)內(nèi)容進(jìn)行部分的選擇,根據(jù)網(wǎng)頁(yè)中的屬性,有針對(duì)性進(jìn)行提取其中內(nèi)容;爬蟲URL 隊(duì)列功能主要是通過爬蟲提供出所要進(jìn)行獲取信息的網(wǎng)站進(jìn)行數(shù)據(jù)網(wǎng)站進(jìn)行資源定位;數(shù)據(jù)中的功能是將抓取過的網(wǎng)站數(shù)據(jù)中的資源定位系統(tǒng)與爬蟲抓取過的內(nèi)容。

    在大數(shù)據(jù)盛行的時(shí)代下,數(shù)據(jù)的采集工作技術(shù)已經(jīng)在各領(lǐng)域中所應(yīng)用,數(shù)據(jù)采集可以稱之為數(shù)據(jù)獲取,主要是將外部的數(shù)據(jù)與內(nèi)部的數(shù)據(jù)系統(tǒng)進(jìn)行連接,將所有數(shù)據(jù)導(dǎo)入到內(nèi)部系統(tǒng),攝像頭與麥克風(fēng)都可稱之為是數(shù)據(jù)的采集工具[4]。數(shù)據(jù)的采集工作中鏈接過濾技術(shù)是最為關(guān)鍵的,其主要就是判斷此網(wǎng)頁(yè)是否已被獲取,防止二次獲取,同時(shí)數(shù)據(jù)采集中使用的布隆過濾器還是存在著很大的優(yōu)勢(shì)。

    目前我國(guó)的數(shù)據(jù)采集技術(shù)的關(guān)鍵是布隆過濾器,鏈接過濾技術(shù)主要是將抓取過的鏈接進(jìn)行篩選。布隆過濾器的運(yùn)行原理是一個(gè)二進(jìn)制向量與隨機(jī)的映射函數(shù)所組成,主要是用其來檢索一個(gè)元素是否存在與一個(gè)集合中。雖然布隆過濾器在運(yùn)用過程中有一定的誤算率以及刪除困難等問題,但是與其他數(shù)據(jù)結(jié)構(gòu)相比,布隆過濾器在空間以及時(shí)間中還是存在著一定的優(yōu)勢(shì)。首先布隆過濾器在使用過程中,在存儲(chǔ)空間以及插入或查詢的時(shí)間都是常數(shù),使得其簡(jiǎn)潔程度達(dá)到最大值。同時(shí)布隆過濾器在運(yùn)行時(shí),在相互關(guān)系中有利于硬件能夠并行運(yùn)行,是因?yàn)樯⒘械暮瘮?shù)中沒有相應(yīng)的連接關(guān)系。布隆過濾器不對(duì)元素進(jìn)行儲(chǔ)存,使得布隆過濾器有著較強(qiáng)的保密性,保密性是其最大的優(yōu)勢(shì)。

    4 網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)的處理

    大數(shù)據(jù)的產(chǎn)生越發(fā)迅速,使其數(shù)據(jù)越顯得雜亂無章,若要將大數(shù)據(jù)當(dāng)做資源利用,那就需要對(duì)其進(jìn)行處理,針對(duì)海量的數(shù)據(jù)信息,其中數(shù)據(jù)的處理與分析工作就顯得尤為重要,是提取信息價(jià)值的重要因素。各行業(yè)中的數(shù)據(jù)類型是不同的,其中針對(duì)靜態(tài)數(shù)據(jù)的處理方式主要是通過批處理的方式,針對(duì)動(dòng)態(tài)的實(shí)施數(shù)據(jù)去選用交互式處理的方法。批處理主要是將靜態(tài)的數(shù)據(jù)進(jìn)行分類后,對(duì)數(shù)據(jù)進(jìn)行分析,將數(shù)據(jù)傳輸?shù)侥苡行Ю玫娜蝿?wù)區(qū)進(jìn)行處理,靜態(tài)處理方式是通過先存儲(chǔ)后計(jì)算的方式對(duì)數(shù)據(jù)進(jìn)行分類,形成有效的處理方式[5]。交互式處理方式在實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)中有著良好靈活性,同時(shí)其操作更便捷,因此這種處理方式可以直接進(jìn)行運(yùn)用。交互式的處理方法有著更大的優(yōu)勢(shì),是目前大數(shù)據(jù)處理中的主要處理方式,能更好對(duì)數(shù)據(jù)處理進(jìn)行分析得出相應(yīng)的結(jié)論。

    隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)的運(yùn)用也越來越廣泛,其中移動(dòng)互聯(lián)網(wǎng)以及電子設(shè)備在人們生活中的普及,也加快了數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)的多樣化的發(fā)展使得對(duì)數(shù)據(jù)的處理需更加重視。電子設(shè)備的普及,使得圖像以及影音等數(shù)據(jù)信息越來越多,數(shù)據(jù)的種類越來越復(fù)雜,在大數(shù)據(jù)融合的特點(diǎn)中,使得數(shù)據(jù)信息的規(guī)模在不斷擴(kuò)大,這對(duì)數(shù)據(jù)的采集以及處理問題都帶來了巨大的挑戰(zhàn)。在大數(shù)據(jù)的海量性、高速性以及多樣性的發(fā)展過程中,使得大數(shù)據(jù)處理技術(shù)也應(yīng)不斷發(fā)展,追求更多行之有效的處理方法。因此應(yīng)加快對(duì)大數(shù)據(jù)處理的效率,對(duì)數(shù)據(jù)處理進(jìn)行研究,創(chuàng)新出更好的數(shù)據(jù)處理的方式,對(duì)信息進(jìn)行合理的分類,使得其在對(duì)數(shù)據(jù)信息的價(jià)值凸顯出來。

    網(wǎng)絡(luò)環(huán)境的不斷發(fā)展,對(duì)大數(shù)據(jù)的要求也越來越重視,本文也對(duì)大數(shù)據(jù)的發(fā)展進(jìn)行了簡(jiǎn)要闡述,并對(duì)網(wǎng)絡(luò)環(huán)境中的大數(shù)據(jù)的采集與處理進(jìn)行了分析,數(shù)據(jù)信息現(xiàn)在對(duì)各領(lǐng)域中都存在著重要作用,因此要加快對(duì)數(shù)據(jù)的采集技術(shù)以及數(shù)據(jù)的處理技術(shù)進(jìn)行創(chuàng)新,提高大數(shù)據(jù)對(duì)社會(huì)中的適用性,促進(jìn)國(guó)家的社會(huì)發(fā)展以及經(jīng)濟(jì)發(fā)展。

    猜你喜歡
    布隆過濾器結(jié)構(gòu)化
    基于布隆過濾器的零知識(shí)集成員證明效率提升
    軟件工程(2024年7期)2024-12-31 00:00:00
    促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
    結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
    支持過濾器的REST模型研究與實(shí)現(xiàn)
    聲音過濾器
    基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
    基于LOGO!的空氣過濾器自潔控制系統(tǒng)
    HVM膜過濾器管板改造總結(jié)
    基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
    栾城县| 田阳县| 罗源县| 始兴县| 垣曲县| 浙江省| 麻城市| 于田县| 湖南省| 晴隆县| 康马县| 西安市| 东兴市| 五常市| 崇义县| 凌云县| 额尔古纳市| 化州市| 新化县| 平江县| 临沂市| 文成县| 屏南县| 淄博市| 钦州市| 平定县| 麦盖提县| 疏附县| 延川县| 桐梓县| 民权县| 辽阳县| 延安市| 巴彦县| 固始县| 满城县| 甘泉县| 塘沽区| 惠水县| 长乐市| 武威市|