• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    關(guān)于對(duì)互聯(lián)網(wǎng)視頻網(wǎng)站使用爬蟲(chóng)技術(shù)獲取數(shù)據(jù)的研究

    2017-03-29 18:31:28羅天
    中國(guó)科技縱橫 2017年3期

    羅天

    摘 要:隨著社會(huì)的發(fā)展,科學(xué)技術(shù)的不斷提升,促進(jìn)了計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,逐漸的被應(yīng)用到了人們的生活與工作當(dāng)中。在互聯(lián)網(wǎng)視頻網(wǎng)站對(duì)數(shù)據(jù)進(jìn)行獲取時(shí),就應(yīng)用了爬蟲(chóng)技術(shù)。為了使爬蟲(chóng)技術(shù)更好的在互聯(lián)網(wǎng)視頻網(wǎng)站中進(jìn)行應(yīng)用,本文就對(duì)互聯(lián)網(wǎng)視頻網(wǎng)站使用爬蟲(chóng)技術(shù)獲取數(shù)據(jù)進(jìn)行了研究,使人們更好的利用互聯(lián)網(wǎng)視頻網(wǎng)站觀看視頻。

    關(guān)鍵詞:互聯(lián)網(wǎng)視頻網(wǎng)站;爬蟲(chóng)技術(shù);獲取數(shù)據(jù)

    中圖分類(lèi)號(hào):TN915.08 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2017)03-0030-01

    在當(dāng)前階段中,隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷完善,各個(gè)領(lǐng)域當(dāng)中的數(shù)據(jù)在不斷增加,從而使當(dāng)前社會(huì)進(jìn)入到大數(shù)據(jù)時(shí)代,這些數(shù)據(jù)可以為各個(gè)領(lǐng)域的發(fā)展提供良好的幫助。這種情況下,為了使互聯(lián)互聯(lián)網(wǎng)視頻網(wǎng)站更好的為人們提供視頻,就要更好的對(duì)這些數(shù)據(jù)進(jìn)行獲取。因此,加強(qiáng)對(duì)互聯(lián)網(wǎng)視頻網(wǎng)站使用爬蟲(chóng)技術(shù)獲取數(shù)據(jù)的研究具有重要意義,促進(jìn)我國(guó)互聯(lián)網(wǎng)視頻網(wǎng)站更好的發(fā)展。

    1 互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)獲取的特點(diǎn)

    1.1 一般特點(diǎn)

    隨著社會(huì)的發(fā)展,科學(xué)技術(shù)的不斷進(jìn)步,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)得到了飛速的提升,從而出現(xiàn)了大量的數(shù)據(jù),其中就包括了互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù),在這些數(shù)據(jù)當(dāng)中,就會(huì)體現(xiàn)出很多的特點(diǎn),主要有以下幾個(gè)方面:(1)數(shù)據(jù)體量巨大。在人們的生活當(dāng)中,利用網(wǎng)絡(luò)觀看視頻是主要的娛樂(lè)方式之一,因此,在觀看的過(guò)程中,就會(huì)出現(xiàn)很多的網(wǎng)絡(luò)信息,如用戶的個(gè)人信息,用戶對(duì)節(jié)目觀看的信息,節(jié)目自身具有的信息等等,從而使其具有了數(shù)據(jù)體量巨大的特點(diǎn);(2)數(shù)據(jù)類(lèi)型繁多。在對(duì)視頻網(wǎng)站進(jìn)行應(yīng)用時(shí)可以發(fā)現(xiàn),在其中包含了很多形式的內(nèi)容,如圖片、視頻、文字等,因此,就說(shuō)明視頻網(wǎng)站產(chǎn)生的數(shù)據(jù)出現(xiàn)了類(lèi)型繁多的特點(diǎn);(3)價(jià)值密度低。在視頻網(wǎng)站運(yùn)行的過(guò)程中,是連續(xù)不斷的產(chǎn)生數(shù)據(jù)的,而在這些數(shù)據(jù)當(dāng)中,包括了各個(gè)種類(lèi)的信息,而在這些信息當(dāng)中,有些信息存在的價(jià)值往往不是很高,不會(huì)影響到視頻網(wǎng)站的發(fā)展;(4)處理速度快。這一特點(diǎn)就體現(xiàn)在人們對(duì)視頻觀賞時(shí),能夠立刻的產(chǎn)生數(shù)據(jù),據(jù)相關(guān)部門(mén)統(tǒng)計(jì),互聯(lián)網(wǎng)視頻網(wǎng)站每秒產(chǎn)生的數(shù)據(jù)是以PB為單位的[1]。

    1.2 獲取網(wǎng)頁(yè)信息

    在互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)當(dāng)中,除了具有上述的一般特點(diǎn)之外,還具有獲取網(wǎng)頁(yè)信息的特點(diǎn)。在對(duì)視頻網(wǎng)站開(kāi)發(fā)的過(guò)程中,可以利用很多技術(shù)來(lái)完成,如英文超級(jí)文本預(yù)處理語(yǔ)言技術(shù)、面向?qū)ο蟪绦蛟O(shè)計(jì)語(yǔ)言技術(shù)等,雖然這些技術(shù)的方式具有一定差異,但是在對(duì)數(shù)據(jù)進(jìn)行傳輸時(shí),使用的原理相差不是很大,都是利用相應(yīng)的HTTP協(xié)議,將數(shù)據(jù)傳遞到用戶當(dāng)中。并且,由于互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)具有上述的一般特點(diǎn),因此,在其對(duì)數(shù)據(jù)進(jìn)行獲取時(shí),還可以獲取一些網(wǎng)頁(yè)當(dāng)中的信息,通過(guò)對(duì)網(wǎng)頁(yè)中的信息進(jìn)行應(yīng)用,從而為視頻網(wǎng)站更好的運(yùn)行提供了幫助[2]。

    2 互聯(lián)網(wǎng)視頻網(wǎng)站獲取數(shù)據(jù)時(shí)爬蟲(chóng)技術(shù)的應(yīng)用

    2.1 網(wǎng)絡(luò)爬蟲(chóng)的算法分析

    在應(yīng)用爬蟲(chóng)技術(shù)對(duì)互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)進(jìn)行獲取時(shí),是利用相應(yīng)的算法來(lái)完成的,而在當(dāng)前的算法當(dāng)中,主要有以下三種:第一種是深度優(yōu)先搜索算法,該算法是爬蟲(chóng)技術(shù)當(dāng)中最基礎(chǔ)的算法,同時(shí)也是出現(xiàn)最早的一種算法,其目標(biāo)是要到達(dá)結(jié)構(gòu)的最外結(jié)點(diǎn),即在搜索時(shí)不能將具有鏈接的HTML文件檢索出來(lái)。該算法運(yùn)行當(dāng)中,首先沿著一條鏈接進(jìn)行檢索,直到邊緣節(jié)點(diǎn)為止,將該條連接中的所有數(shù)據(jù)搜索出來(lái),然后在對(duì)另一條鏈接進(jìn)行搜索,從而使視頻網(wǎng)站獲得了相應(yīng)的數(shù)據(jù)。使用該種算法獲取數(shù)據(jù)時(shí),能夠準(zhǔn)確的檢索出整個(gè)文件中的數(shù)據(jù),但是由于網(wǎng)絡(luò)的復(fù)雜性,在對(duì)數(shù)據(jù)搜索時(shí),常常會(huì)導(dǎo)致該算法中斷,不能對(duì)其他鏈接進(jìn)行檢索;第二種為寬度優(yōu)先算法,就是在視頻網(wǎng)站信息獲取的過(guò)程中,根據(jù)網(wǎng)站的結(jié)構(gòu)不同,沿著寬度的方面,一層一層的進(jìn)行搜索[3]。

    2.2 算法改進(jìn)

    由于上訴的基本算法都存在一定的缺陷,對(duì)互聯(lián)網(wǎng)視頻網(wǎng)站的數(shù)據(jù)獲取帶來(lái)了一定的影響,其中最好優(yōu)先搜索算法的缺陷較小,只是存在查全率不高的問(wèn)題,因此,就要對(duì)該算法進(jìn)行改進(jìn)。在利用改進(jìn)算法進(jìn)行檢索時(shí),在對(duì)一個(gè)文件查找完成后,就算該文件與本次查找關(guān)系不大,但是也不會(huì)對(duì)其進(jìn)行忽略,而是將其儲(chǔ)存到相應(yīng)的位置,對(duì)其進(jìn)行深入的分析,分析出每個(gè)信息中是否會(huì)存在視頻網(wǎng)站有用的信息,如果不存在這一類(lèi)信息,才可以繼續(xù)對(duì)其他文件進(jìn)行檢索,然后利用該種算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行檢索,從而改善了查全率不高的問(wèn)題,使互聯(lián)網(wǎng)視頻網(wǎng)站數(shù)據(jù)獲取的效果更高[4]。

    3 結(jié)語(yǔ)

    綜上所述,在當(dāng)前的互聯(lián)網(wǎng)當(dāng)中,大數(shù)據(jù)為其發(fā)展提供了重要的幫助,但是,由于大數(shù)據(jù)具有的開(kāi)放性、共享性等特點(diǎn),在使用的過(guò)程中還會(huì)存在一定的風(fēng)險(xiǎn),因此,在利用爬蟲(chóng)技術(shù)對(duì)互聯(lián)網(wǎng)視頻網(wǎng)站的數(shù)據(jù)進(jìn)行獲取時(shí),要加強(qiáng)對(duì)數(shù)據(jù)風(fēng)險(xiǎn)的防范,能夠保證網(wǎng)站的安全性、可靠性。

    參考文獻(xiàn)

    [1]孔濤,曹丙章,邱荷花.基于MapReduce的視頻爬蟲(chóng)系統(tǒng)研究[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,09(05):129-132.

    [2]鄧炳光,郭慧蘭,張治中.移動(dòng)互聯(lián)網(wǎng)用戶行為分析系統(tǒng)中聚焦爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,11(03):359-365.

    [3]饒軍,華申峰,吳曉璐.關(guān)于互聯(lián)網(wǎng)視聽(tīng)節(jié)目監(jiān)測(cè)中網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用研究[J].江西通信科技,2015,02(03):34-36.

    [4]劉名.視頻聚合網(wǎng)站內(nèi)嵌鏈接行為現(xiàn)有法律規(guī)制的不足與改進(jìn)以新制度經(jīng)濟(jì)學(xué)視角為路徑[J].電子知識(shí)產(chǎn)權(quán),2015,04(10):15-21.

    镇平县| 新绛县| 北京市| 昌宁县| 锦屏县| 舟山市| 嵩明县| 常宁市| 女性| 马鞍山市| 澄迈县| 应用必备| 凤凰县| 蛟河市| 宁远县| 金昌市| 白山市| 彭州市| 射洪县| 吉木乃县| 宜都市| 绿春县| 布尔津县| 漳州市| 西平县| 大方县| 屯留县| 丹巴县| 沁水县| 蕉岭县| 凤翔县| 博野县| 淅川县| 化德县| 会同县| 定陶县| 双鸭山市| 江阴市| 禄劝| 金川县| 寿宁县|