• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)主題采集技術(shù)研究

    2014-04-14 08:52:38田雪筠
    圖書(shū)與情報(bào) 2014年5期
    關(guān)鍵詞:爬蟲(chóng)情報(bào)網(wǎng)頁(yè)

    田雪筠

    (1.中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館 北京 100190)

    (2.中國(guó)科學(xué)院大學(xué) 北京 100049)

    ·交流與探索·

    網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)主題采集技術(shù)研究

    田雪筠

    (1.中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館 北京 100190)

    (2.中國(guó)科學(xué)院大學(xué) 北京 100049)

    文章設(shè)計(jì)與實(shí)現(xiàn)了一種網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)的主題采集系統(tǒng)。該系統(tǒng)在進(jìn)行主題預(yù)測(cè)時(shí)采用的基于改進(jìn)的樸素貝葉斯算法提高了主題判斷準(zhǔn)確率,在進(jìn)行鏈接預(yù)測(cè)時(shí)采用的基于規(guī)則與錨文本主題相似度結(jié)合的算法,避免了URL錨文本較短和噪聲的問(wèn)題。與寬度優(yōu)先的采集技術(shù)相比,通過(guò)實(shí)驗(yàn)驗(yàn)證該方法具有明顯的優(yōu)越性。

    競(jìng)爭(zhēng)情報(bào)主題爬蟲(chóng)鏈接過(guò)濾主題過(guò)濾

    1 引言

    網(wǎng)絡(luò)信息資源日益成為企業(yè)和政府部門(mén)的最重要的競(jìng)爭(zhēng)情報(bào)來(lái)源,如何有效地、快速地從海量的網(wǎng)絡(luò)信息資源中獲取有價(jià)值的情報(bào),是一個(gè)嚴(yán)重的問(wèn)題。當(dāng)前,很多企業(yè)和政府部門(mén)已經(jīng)采用了競(jìng)爭(zhēng)情報(bào)采集系統(tǒng),所使用的情報(bào)采集技術(shù)主要有基于搜索引擎的情報(bào)采集、基于網(wǎng)絡(luò)爬蟲(chóng)的情報(bào)采集和基于主題的情報(bào)采集。基于搜索引擎的情報(bào)采集通過(guò)關(guān)鍵詞硬匹配方法借助搜索引擎獲取情報(bào)資源,實(shí)現(xiàn)雖然簡(jiǎn)單,但情報(bào)采集準(zhǔn)確率不高;基于網(wǎng)絡(luò)爬蟲(chóng)的情報(bào)采集較為適合在行業(yè)網(wǎng)站、專(zhuān)題網(wǎng)站、已知競(jìng)爭(zhēng)對(duì)手網(wǎng)站等范圍內(nèi)情報(bào)采集,準(zhǔn)確率較高,但同時(shí)也會(huì)漏掉很多分散的情報(bào)信息以及未知的相關(guān)網(wǎng)站,采集召回率較差;基于主題的情報(bào)采集通過(guò)事先確定的主題模型,只采集與特定主題相關(guān)的網(wǎng)頁(yè),能夠在全網(wǎng)獲取所需的信息頁(yè)面,采集準(zhǔn)確率和召回率均較高,該方式也是目前網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集的主流技術(shù),本文也針對(duì)該方式提出了一種基于鏈接和內(nèi)容預(yù)測(cè)的主題采集技術(shù)。

    鏈接預(yù)測(cè)和正文內(nèi)容預(yù)測(cè)是主題爬蟲(chóng)技術(shù)的核心部分,對(duì)應(yīng)地也面臨著兩個(gè)主要問(wèn)題:(1)在進(jìn)行URL主題預(yù)測(cè)時(shí),可用的信息非常少,一般URL的錨文本平均長(zhǎng)度只有3~4個(gè)單詞,如果使用URL的上下文,又必然會(huì)引入噪聲數(shù)據(jù);(2)在進(jìn)行正文內(nèi)容預(yù)測(cè)時(shí),多采用基于關(guān)鍵詞的向量空間模型方法,準(zhǔn)確率不高。

    本文針對(duì)這兩個(gè)問(wèn)題,提出了一種新的基于主題爬蟲(chóng)的競(jìng)爭(zhēng)情報(bào)采集方法。在進(jìn)行鏈接預(yù)測(cè)時(shí),采用基于規(guī)則與錨文本主題相似度結(jié)合的算法,避免了URL錨文本較短和噪聲的問(wèn)題;在進(jìn)行主題預(yù)測(cè)時(shí),采用基于改進(jìn)的樸素貝葉斯分類(lèi)算法,可以有效提高主題判斷準(zhǔn)確率。

    2 相關(guān)工作

    主題爬蟲(chóng)最早是由Chakrabarti等人于1999年提出的,其后的幾年對(duì)主題爬蟲(chóng)的研究進(jìn)入了空前繁榮的時(shí)期,目前已成為面向領(lǐng)域的開(kāi)源信息分析和搜索引擎的信息采集的核心技術(shù)。學(xué)術(shù)界對(duì)于主題爬蟲(chóng)的研究主要集中在兩個(gè)熱點(diǎn):一是主題的表示方法,即用戶如何表示自己所需的主題;二是頁(yè)面的采集策略,即如何高效的采集高質(zhì)量的頁(yè)面。第一個(gè)問(wèn)題的研究主要采用文本分類(lèi)、知識(shí)表示等技術(shù),在此不再贅述;第二個(gè)問(wèn)題的研究本質(zhì)是主題相關(guān)度的判別,目前主要有基于內(nèi)容評(píng)價(jià)的爬行策略、基于鏈接關(guān)系的爬行策略和基于分類(lèi)器的爬行策略等。

    基于內(nèi)容評(píng)價(jià)的主題爬蟲(chóng)算法利用網(wǎng)頁(yè)內(nèi)容、URL、錨文本等網(wǎng)頁(yè)文本信息來(lái)評(píng)價(jià)鏈接的等級(jí),從而決定其爬行策略。這類(lèi)的搜索算法主要有Best first search方法、Fish search方法和Shark search方法等。這類(lèi)爬蟲(chóng)容易產(chǎn)生主題漂移。

    基于鏈接關(guān)系的主題爬蟲(chóng)算法通過(guò)分析Web的鏈接關(guān)系,利用頁(yè)面間的鏈接關(guān)系預(yù)測(cè)待爬行URL,代表性算法有PageRank或其改進(jìn)和HITS或其改進(jìn)。由于算法的復(fù)雜性,這類(lèi)爬蟲(chóng)的計(jì)算量較大,且網(wǎng)頁(yè)中也包含很多無(wú)關(guān)連接,容易爬取到很多無(wú)關(guān)頁(yè)面。

    基于分類(lèi)器的主題爬蟲(chóng)算法從分類(lèi)的角度來(lái)描述采集主題,判斷待采URL的主題相關(guān)度。從主題相關(guān)度判別的力度上大致有兩類(lèi)網(wǎng)頁(yè)鏈接預(yù)測(cè)方法,一種是通過(guò)鏈接的錨文本的內(nèi)容與主題的相關(guān)度對(duì)鏈接進(jìn)行預(yù)測(cè);另一種是以鏈接所在網(wǎng)頁(yè)的全部?jī)?nèi)容與主題的相關(guān)度對(duì)鏈接進(jìn)行預(yù)測(cè)。這兩種方法都有不足之處,基于鏈接錨文本的鏈接預(yù)測(cè)會(huì)導(dǎo)致一些與主題相關(guān)的網(wǎng)頁(yè)鏈接被識(shí)別為主題無(wú)關(guān)的鏈接,而基于網(wǎng)頁(yè)全部?jī)?nèi)容的鏈接預(yù)測(cè)則會(huì)導(dǎo)致大量的與主題無(wú)關(guān)的鏈接被下載。

    從各類(lèi)主題爬蟲(chóng)算法采用的主題相關(guān)性特征上主要有:網(wǎng)頁(yè)內(nèi)容特征、URL錨文本特征、頁(yè)面分塊特征、URL鏈接關(guān)系?;趦?nèi)容評(píng)價(jià)的主題爬蟲(chóng)算法僅采用了網(wǎng)頁(yè)內(nèi)容特征,忽視了URL鏈接關(guān)系;基于鏈接關(guān)系的主題爬蟲(chóng)算法僅采用了鏈接關(guān)系特征,忽視了網(wǎng)頁(yè)內(nèi)容特征和錨文本特征。此外,在鏈接預(yù)測(cè)時(shí),由于錨文本長(zhǎng)度一般都很短,僅用單鏈接的錨文本特征會(huì)產(chǎn)生較大的錯(cuò)誤率。本文綜合考慮網(wǎng)頁(yè)和URL的特征:在網(wǎng)頁(yè)內(nèi)容主題預(yù)測(cè)上,首先進(jìn)行網(wǎng)頁(yè)類(lèi)型進(jìn)行分類(lèi),然后對(duì)主題型頁(yè)面進(jìn)行內(nèi)容分類(lèi);在鏈接預(yù)測(cè)上,首先對(duì)與主題相關(guān)的網(wǎng)頁(yè)進(jìn)行頁(yè)面分塊,利用頁(yè)面規(guī)則進(jìn)行第一次過(guò)濾,然后利用分塊錨文本的相似度進(jìn)行第二次過(guò)濾。

    3 基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型

    3.1 體系架構(gòu)

    基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型如圖1所示:

    (1)URL管理器:URL管理器的作用是保證一臺(tái)采集主機(jī)上同時(shí)只有一個(gè)線程采集同一Web站點(diǎn),從而實(shí)現(xiàn)了對(duì)網(wǎng)站的“禮貌”采集。

    (2)采集器:通過(guò)Http協(xié)議、ftp協(xié)議等采集URL鏈接所指向的頁(yè)面。

    (3)網(wǎng)頁(yè)類(lèi)型分析器:負(fù)責(zé)判斷已采網(wǎng)頁(yè)的類(lèi)型,Web頁(yè)面分為鏈接型(或目錄型)頁(yè)面和主題型頁(yè)面。針對(duì)鏈接型頁(yè)面,需要提取相關(guān)鏈接和指向鏈接型頁(yè)面的鏈接;針對(duì)主題型頁(yè)面,需要進(jìn)一步判斷頁(yè)面的主題相關(guān)性以及提取相關(guān)鏈接。

    (4)頁(yè)面分析器:利用HTML Tag標(biāo)簽特征、視覺(jué)特征和文本內(nèi)容特征,對(duì)頁(yè)面進(jìn)行分塊,使得同一分塊內(nèi)的內(nèi)容是語(yǔ)義相關(guān)的。

    (5)頁(yè)面過(guò)濾器:對(duì)分塊后的正文進(jìn)行主題預(yù)測(cè),去除與采集主題無(wú)關(guān)的頁(yè)面。

    (6)URL解析器:對(duì)分塊后的鏈接進(jìn)行鏈接提取、標(biāo)準(zhǔn)化,并提取錨文本。

    (7)URL過(guò)濾器:對(duì)從頁(yè)面解析出的鏈接進(jìn)行預(yù)測(cè),去除與采集主題無(wú)關(guān)的鏈接,以避免采集過(guò)程出現(xiàn)“主題漂移”問(wèn)題。

    (8)主題分類(lèi)模型:存儲(chǔ)競(jìng)爭(zhēng)情報(bào)主題的特征模型,需要事先提供一定數(shù)量的主題樣本,采用Na?ve Bayes分類(lèi)器訓(xùn)練獲得。

    (9)URL庫(kù):存儲(chǔ)初始URL種子以及爬行過(guò)程中提取的相關(guān)鏈接,由URL管理器負(fù)責(zé)維護(hù)。其中,初始URL種子由用戶指定。

    3.2 采集策略

    本系統(tǒng)中的采集策略如圖2所示:

    (1)離線訓(xùn)練頁(yè)面過(guò)濾器。事先收集競(jìng)爭(zhēng)情報(bào)主題的訓(xùn)練樣例(一般為幾百篇),進(jìn)行訓(xùn)練;

    (2)指定初始URL種子,注入U(xiǎn)RL庫(kù)中;

    (3)采集器從URL管理器中獲取待爬行的URL,連接對(duì)應(yīng)URL下載該網(wǎng)頁(yè),并將該URL放入已采隊(duì)列。從該步驟開(kāi)始,系統(tǒng)進(jìn)入在線爬行階段,在線爬行階段將循環(huán)執(zhí)行步驟3-7,一般爬蟲(chóng)是永不停止的,在實(shí)際中可根據(jù)需要設(shè)置一定的停止條件;

    (4)網(wǎng)頁(yè)類(lèi)型分析器對(duì)新采網(wǎng)頁(yè)進(jìn)行類(lèi)型識(shí)別,如果為主題型頁(yè)面轉(zhuǎn)步驟5,如果為鏈接型頁(yè)面則轉(zhuǎn)步驟6;

    (5)頁(yè)面過(guò)濾器對(duì)主題性網(wǎng)頁(yè)進(jìn)行頁(yè)面分析、分類(lèi),計(jì)算與主題的相關(guān)度,如果相關(guān)度小于事先設(shè)定的閾值,則丟棄該頁(yè)面;反之則進(jìn)入步驟6;

    (6)對(duì)網(wǎng)頁(yè)中的URL及對(duì)應(yīng)的錨文本進(jìn)行提取,如果是尚未訪問(wèn)過(guò)的URL,則進(jìn)入步驟7;反之則丟棄該URL;

    (7)URL過(guò)濾器對(duì)提取的URL進(jìn)行相關(guān)度計(jì)算,若與主題相關(guān)或者該URL指向的是鏈接型頁(yè)面,則存入U(xiǎn)RL庫(kù);反之則丟棄該URL。

    圖1 體系架構(gòu)

    4 主題相關(guān)性判斷算法

    主題相關(guān)性判斷是最重要的部分,負(fù)責(zé)判斷頁(yè)面內(nèi)容和頁(yè)面鏈接的相關(guān)度,決定著主題采集的準(zhǔn)確率和競(jìng)爭(zhēng)情報(bào)的可用度。

    4.1 網(wǎng)頁(yè)類(lèi)型分析器

    網(wǎng)頁(yè)分為主題型頁(yè)面和鏈接型頁(yè)面:主題型頁(yè)面是指具有一個(gè)或多個(gè)主題的頁(yè)面,描述了某些有意義的事件,如新聞頁(yè)面;鏈接型網(wǎng)頁(yè),也叫目錄型網(wǎng)頁(yè),本身沒(méi)有實(shí)際意義,但包含了指向其他網(wǎng)頁(yè)的鏈接,如網(wǎng)站首頁(yè)就是典型的鏈接型網(wǎng)頁(yè)。

    這兩類(lèi)頁(yè)面的主題相關(guān)性判斷方式是不同的:(1)對(duì)于主題型頁(yè)面,一般認(rèn)為主題相關(guān)的頁(yè)面會(huì)包含與主題相關(guān)的鏈接,而與主題不相關(guān)的頁(yè)面不會(huì)包含與主題相關(guān)的鏈接。因此,需要對(duì)主題型頁(yè)面進(jìn)行正文抽取和頁(yè)面過(guò)濾,如果與主題相關(guān)則進(jìn)一步抽取相關(guān)鏈接,否則就可以直接丟棄該頁(yè)面。(2)對(duì)于鏈接型頁(yè)面,本身沒(méi)有正文,只需找到頁(yè)面中的主題相關(guān)鏈接。除此之外,還需抽取該頁(yè)面包含的一些指向鏈接型頁(yè)面的URL,這些URL一般是主題型頁(yè)面的入口,可以直接當(dāng)作相關(guān)鏈接。

    鏈接型頁(yè)面和主題型頁(yè)面的特點(diǎn)很鮮明,如表1所示。因此,本文采用標(biāo)點(diǎn)符號(hào)(如句號(hào)、逗號(hào)等)個(gè)數(shù)、URL的長(zhǎng)度、文件名、鏈接數(shù)與文字?jǐn)?shù)比等作為判別特征,并設(shè)置相應(yīng)的閾值判斷頁(yè)面類(lèi)型。

    4.2 頁(yè)面主題預(yù)測(cè)

    圖2 競(jìng)爭(zhēng)情報(bào)采集策略

    本系統(tǒng)采用一種改進(jìn)的樸素貝葉斯算法對(duì)采集的頁(yè)面內(nèi)容進(jìn)行主題預(yù)測(cè)。

    在樸素貝葉斯分類(lèi)算法中,文本向量的主題相關(guān)性公式為:

    表1 兩種類(lèi)型頁(yè)面的特點(diǎn)

    其中,{Topic}是系統(tǒng)所需采集的主題集合,F(xiàn)是待預(yù)測(cè)網(wǎng)頁(yè)D的特征集合,Pr(f|Topic)使用主題樣本集合中第j個(gè)主題Topic類(lèi)內(nèi)特征fi出現(xiàn)的樣本數(shù)與Topic類(lèi)內(nèi)的樣本總數(shù)之比來(lái)估計(jì),Pr(Topic)由Topic類(lèi)的樣本頻數(shù)得到,而Pr(f|D)則使用D中特征f出現(xiàn)的次數(shù)和D中總詞頻數(shù)的比值來(lái)計(jì)算。

    可見(jiàn),D中f與D的相關(guān)性僅體現(xiàn)在詞頻上,但對(duì)于一些相近類(lèi)別,如在“足球”和“籃球”兩類(lèi)中可能會(huì)有很多相似的特征,且某些特征在這兩類(lèi)中出現(xiàn)的概率也較為均衡,特征對(duì)類(lèi)別的區(qū)分度較差。為此,x本文特征將作為加權(quán)用來(lái)增強(qiáng)特征詞在不同類(lèi)別中的區(qū)分度,x特征可以體現(xiàn)f對(duì)Topic貢獻(xiàn)的大小,同時(shí)可以體現(xiàn)該特征與其他特征對(duì)Topic的分類(lèi)貢獻(xiàn)。為此,將特征作為加權(quán)因子引入進(jìn)分類(lèi)公式中,得到:

    x(f,Topic)是特征f與第j個(gè)主題Topic類(lèi)的x統(tǒng)計(jì)值。

    預(yù)先設(shè)定閾值T,如果H(D)小于T,則認(rèn)為該網(wǎng)頁(yè)與采集主題列表無(wú)關(guān),系統(tǒng)將其過(guò)濾掉。

    為了確保主題判斷的正確性,對(duì)其進(jìn)行了測(cè)試。首先在新浪、搜狐網(wǎng)站的二級(jí)欄目下采集網(wǎng)頁(yè),經(jīng)過(guò)人工篩選后,最終確定了10個(gè)類(lèi)別作為訓(xùn)練集和測(cè)試集。其中,每個(gè)類(lèi)別的訓(xùn)練集包含800篇網(wǎng)頁(yè),各類(lèi)別的測(cè)試集包含500個(gè)網(wǎng)頁(yè)。測(cè)試結(jié)果如表2所示。

    4.3 鏈接預(yù)測(cè)

    相比于頁(yè)面的主題預(yù)測(cè),鏈接預(yù)測(cè)非常困難。原因是可用的判斷特征非常少,目前主要使用的特征有:URL之間的關(guān)系(如父子關(guān)系、兄弟關(guān)系等);錨文本以及錨文本周?chē)奈谋?;URL所在頁(yè)面的分塊特征。因?yàn)閁RL之間的關(guān)系需要存儲(chǔ)大量的相關(guān)信息,且噪聲現(xiàn)象比較嚴(yán)重。本文采用后兩種特征,設(shè)計(jì)了基于頁(yè)面規(guī)則與錨文本主題相似度結(jié)合的算法。對(duì)與主題相關(guān)的網(wǎng)頁(yè)進(jìn)行頁(yè)面分塊,首先利用頁(yè)面規(guī)則進(jìn)行第一次過(guò)濾,然后利用錨文本相似度進(jìn)行第二次過(guò)濾,最后抽取出相關(guān)鏈接。

    4.3.1 頁(yè)面分塊規(guī)則過(guò)濾

    據(jù)文獻(xiàn)[12]研究發(fā)現(xiàn),頁(yè)面中的主題相關(guān)鏈接通常具有以下特點(diǎn):

    圖3 URL過(guò)濾過(guò)程

    表2 分類(lèi)測(cè)試結(jié)果

    (1)相關(guān)鏈接經(jīng)常是成塊出現(xiàn)的,包含多條鏈接;(2)網(wǎng)頁(yè)作者希望瀏覽者能夠繼續(xù)點(diǎn)擊相關(guān)鏈接,因此相關(guān)鏈接中的錨文本長(zhǎng)度一般比較長(zhǎng)(20~30Byte);而無(wú)關(guān)鏈接的錨文本長(zhǎng)度一般較短(4~10Byte);

    (3)相關(guān)鏈接的地址一般是站內(nèi)地址,而主題無(wú)關(guān)的鏈接地址通常為站外地址;

    (4)相關(guān)鏈接的錨文本與網(wǎng)頁(yè)征文的標(biāo)題一般有相同的有實(shí)際意義的詞。

    因此,基于以上特征,制定了以下規(guī)則用來(lái)過(guò)濾無(wú)關(guān)鏈接:

    (1)如果鏈接錨文本的平均長(zhǎng)度小于10,則該鏈接塊為無(wú)關(guān)鏈接塊;

    (2)如果鏈接塊中的鏈接錨文本與正文標(biāo)題含有相同詞(必須是實(shí)詞)的平均個(gè)數(shù)小于設(shè)定的閾值時(shí),該鏈接塊為無(wú)關(guān)鏈接塊;

    (3)如果鏈接塊中的站內(nèi)地址與站外地址之比小于設(shè)定的閾值時(shí),該鏈接塊為無(wú)關(guān)鏈接塊。

    從4.2節(jié)的網(wǎng)頁(yè)語(yǔ)料庫(kù)中各選100篇,共1000篇作為測(cè)試數(shù)據(jù),用上述規(guī)則對(duì)這1000篇網(wǎng)頁(yè)進(jìn)行相關(guān)鏈接抽取。采用準(zhǔn)確率和召回率進(jìn)行評(píng)價(jià),其中準(zhǔn)確率是過(guò)濾無(wú)關(guān)鏈接正確的數(shù)目與所有過(guò)濾出的無(wú)關(guān)鏈接數(shù)目之比,召回率是過(guò)濾無(wú)關(guān)鏈接正確的數(shù)目與頁(yè)面中包含的無(wú)關(guān)鏈接數(shù)目之比。因?yàn)楦?jìng)爭(zhēng)情報(bào)系統(tǒng)希望能夠獲取盡可能多的情報(bào)信息,因此過(guò)濾的主要目標(biāo)是在保證過(guò)濾準(zhǔn)確率的情況下,盡量提升過(guò)濾召回率,最終統(tǒng)計(jì)分析得出當(dāng)閾值為0.6時(shí)效果最好。測(cè)試結(jié)果如表3所示。

    表3 規(guī)則過(guò)濾測(cè)試結(jié)果

    從表3可看出,經(jīng)過(guò)第一層過(guò)濾,可過(guò)濾掉50.8%的無(wú)關(guān)鏈接,同時(shí)能夠保證99.4%的過(guò)濾準(zhǔn)確率。

    4.3.2 錨文本主題相似度過(guò)濾

    經(jīng)過(guò)頁(yè)面分塊規(guī)則過(guò)濾后的鏈接塊,仍有49.2%的無(wú)關(guān)鏈接,需要經(jīng)過(guò)錨文本主題相似度進(jìn)行第二層過(guò)濾。因?yàn)閱蝹€(gè)鏈接的錨文本長(zhǎng)度都很短,在統(tǒng)計(jì)意義上價(jià)值不大。而一般處在同一分塊內(nèi)的鏈接在語(yǔ)義上是比較接近的,因此本文將整個(gè)鏈接塊中錨文本集合在一起,使用4.2節(jié)的頁(yè)面過(guò)濾器進(jìn)行過(guò)濾。如果鏈接塊與主題的相似度小于某個(gè)閾值時(shí),則認(rèn)為鏈接塊中的所有鏈接均為無(wú)關(guān)鏈接,從而進(jìn)行過(guò)濾。

    5 系統(tǒng)實(shí)驗(yàn)結(jié)果分析

    軟硬件環(huán)境:Windows 7系統(tǒng),CPU:Intel Core i5 2.8GHZ,內(nèi)存2G,硬盤(pán)容量為500GB,系統(tǒng)開(kāi)發(fā)環(huán)境為Myeclipse,開(kāi)發(fā)語(yǔ)言為Java,數(shù)據(jù)庫(kù)采用Mysql。采用收獲率作為評(píng)價(jià)指標(biāo)。其中,收獲率是指與主題相關(guān)的已爬取網(wǎng)頁(yè)數(shù)與已爬取的網(wǎng)頁(yè)總數(shù)之比,當(dāng)收獲率較高時(shí),說(shuō)明主題爬蟲(chóng)的過(guò)濾性能較好,能夠有效過(guò)濾與主題無(wú)關(guān)的網(wǎng)頁(yè)。

    為了實(shí)現(xiàn)主題的情報(bào)采集技術(shù)的實(shí)驗(yàn),我們選取中國(guó)食品安全網(wǎng)(http://foodsafety.ce.cn/)、新浪網(wǎng)(http:// www.sina.com.cn)、搜狐(http://www.sohu.com)、網(wǎng)易(http://www.163.com)為種子URL,以“食品安全”為主題,每采集一定數(shù)量的網(wǎng)頁(yè),就統(tǒng)計(jì)一次收獲率,從而掌握收獲率與采集網(wǎng)頁(yè)數(shù)的關(guān)系。

    在4.2節(jié)的頁(yè)面主題預(yù)測(cè)公式中,TH為預(yù)設(shè)的閾值用來(lái)確定頁(yè)面是否為無(wú)關(guān)頁(yè)面。為了確定最佳的閾值,對(duì)TH取0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09和0.1,在不同的取值下利用本文的算法采集5000個(gè)網(wǎng)頁(yè),網(wǎng)頁(yè)收獲率如圖3所示。

    圖3 不同閾值下的收獲率

    從圖3可以看出,在TH為0.06時(shí),該算法的主題收獲率最高。在后續(xù)實(shí)驗(yàn)中,TH取值為0.06。

    為了對(duì)比本系統(tǒng)的性能,與傳統(tǒng)的網(wǎng)絡(luò)采集(寬度優(yōu)先算法)、基于內(nèi)容評(píng)價(jià)的主題爬蟲(chóng)算法(Best first search算法)、基于鏈接關(guān)系的主題爬蟲(chóng)算法(PageRank算法)、標(biāo)準(zhǔn)關(guān)鍵詞算法進(jìn)行了實(shí)驗(yàn)比較,圖4為收獲率對(duì)比。

    圖4表明,在采集初始,各種算法的網(wǎng)頁(yè)收獲率都較高,但隨著采集網(wǎng)頁(yè)數(shù)量的增多,寬度優(yōu)先、標(biāo)準(zhǔn)關(guān)鍵詞、PageRank、Best First Search算法的收獲率下降較快,其中,寬度優(yōu)先的收獲率最低,因?yàn)閷挾葍?yōu)先未對(duì)主題進(jìn)行處理;標(biāo)準(zhǔn)關(guān)鍵詞算法只考慮了關(guān)鍵詞的匹配,在主題的匹配度上較為有限,收獲率也較低;PageRank算法在采集初期效果不好,因?yàn)镻ageRank需要積累一定量的網(wǎng)頁(yè)才會(huì)有效,在采集后期的效果較好;Best First Search算法比標(biāo)準(zhǔn)關(guān)鍵詞考慮的文字內(nèi)容更多,效果也比標(biāo)準(zhǔn)關(guān)鍵詞算法好。本文算法綜合利用了網(wǎng)頁(yè)內(nèi)容特征、URL錨文本特征和頁(yè)面分塊特征,通過(guò)鏈接預(yù)測(cè)和網(wǎng)頁(yè)內(nèi)容預(yù)測(cè)雙重過(guò)濾,能夠保證采集頁(yè)面與主題的相關(guān)度,因此收獲率較高。但本文算法的收獲率在后期也有一定下降,從采集日志中分析采集到的不相關(guān)頁(yè)面,主要是由于在鏈接預(yù)測(cè)中的有些不相關(guān)鏈接會(huì)被錯(cuò)判成主題相關(guān)鏈接,產(chǎn)生錯(cuò)誤的主要原因是為了能夠采集到更多的頁(yè)面,鏈接與主題相關(guān)度的閾值設(shè)置的較低,導(dǎo)致會(huì)下載較多的無(wú)關(guān)頁(yè)面。

    此外,對(duì)各方法的時(shí)間也進(jìn)行了比較,如圖5所示。

    圖4 網(wǎng)頁(yè)收獲率對(duì)比圖

    圖5 時(shí)間對(duì)比圖

    圖5表明,本文的爬蟲(chóng)消耗的系統(tǒng)時(shí)間最多,其原因是頁(yè)面需要經(jīng)過(guò)鏈接過(guò)濾和頁(yè)面過(guò)濾,但是與其他算法相比,本文的爬蟲(chóng)過(guò)濾的無(wú)關(guān)頁(yè)面數(shù)更多,采集了更多主題相關(guān)的頁(yè)面,因此綜合來(lái)看還是可行的。

    6 結(jié)語(yǔ)

    本文介紹了一種基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型,詳細(xì)闡述了其體系結(jié)構(gòu)、采集策略和關(guān)鍵技術(shù)。該系統(tǒng)相比于基于網(wǎng)絡(luò)爬蟲(chóng)的情報(bào)采集,縮小了情報(bào)采集的范圍,能夠有效減少采集頁(yè)面的數(shù)量,提高了采集的頁(yè)面利用效率。鏈接預(yù)測(cè)和主題預(yù)測(cè)是本系統(tǒng)的核心技術(shù),采用了基于規(guī)則與錨文本主題相似度結(jié)合的算法進(jìn)行鏈接預(yù)測(cè),避免了URL錨文本較短以及擴(kuò)展錨文本帶來(lái)的噪聲問(wèn)題。采用基于改進(jìn)的樸素貝葉斯算法進(jìn)行主題預(yù)測(cè),實(shí)驗(yàn)驗(yàn)證了其準(zhǔn)確率。

    [1]吳金紅,張玉峰,王翠波.基于本體的競(jìng)爭(zhēng)情報(bào)采集模型研究[J].情報(bào)理論與實(shí)踐,2007,30(5):577-580.

    [2]張玉峰,朱瑩.基于Web文本挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)獲取方法研究[J].情報(bào)理論與實(shí)踐,2006,29(5):563-566.

    [3]馬靜,倪輝峰.基于模式匹配抽取技術(shù)的網(wǎng)上產(chǎn)品情報(bào)獲?。跩].情報(bào)理論與實(shí)踐,2007,30(2):228-231.

    [4]陳黎,李志蜀,琚生根,等.基于SVM預(yù)測(cè)的金融主題爬蟲(chóng)[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,47(3):493-497.

    [5]王輝,左萬(wàn)利,王暉昱,等.基于質(zhì)心向量的增量式主題爬行[J].計(jì)算機(jī)研究與發(fā)展,2009,46(2):217-224.

    [6]Soumen Chakrabarti,Martin van den Berg,Byron Dom. Focused crawling:a new approach to topic-specific Web resourcediscovery[J].ComputerNetworks,1999,1623-1640.

    [7]Junghoo Cho,Hector Garcia-Molina,Lawrence Page.Efficient Crawling Through URL Ordering[J].Computer Networks and ISDN Systems,1998,30(1-7):161-172.

    [8]Luo Lin-bo,Chen Qi,Wu Qing-xiu.Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm[J].Computer Technology and Development,2010,20(11):76-79.

    [9]劉朋,林泓,高德威.基于內(nèi)容和鏈接分析的主題爬蟲(chóng)策略[J].計(jì)算機(jī)與數(shù)字工程,2009,37(1):22-24.

    [10]張長(zhǎng)利.面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D].長(zhǎng)春:吉林大學(xué),2011.

    [11]李衛(wèi),劉建毅,何華燦,等.基于主題的智能Web信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2006,(2):163-166

    [12]苗苗.基于頁(yè)面分塊的網(wǎng)頁(yè)內(nèi)容提取的研究與實(shí)現(xiàn)[D].武漢:武漢理工大學(xué),2010.

    Focused Crawler Based Network Competitive Intelligence Acquisition

    This paper designs and implements the network competitive intelligence acquisition system based on focused craw ler.The W ebpage's topic is predicted by an improved Nave Bayes algorithm,which can improve the accuracy rate. The URL's topic is predicted by the rule and anchor text sim ilarity combined algorithm,which can avoid the problems of URL anchor text short and noise.Compared w ith the breadth-first acquisition techniques,experimental results show that the method has obvious advantages.

    competitive intelligence;focused craw ler;URL filtering;topic filtering

    G250.2

    :A

    :1003-6938(2014)05-0132-06

    田雪筠(1981-),女,中國(guó)科學(xué)院大學(xué)、中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心博士研究生。

    2014-05-20;責(zé)任編輯:魏志鵬

    猜你喜歡
    爬蟲(chóng)情報(bào)網(wǎng)頁(yè)
    利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
    情報(bào)
    情報(bào)
    情報(bào)
    基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
    基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    中文字幕人妻丝袜制服| 又黄又粗又硬又大视频| 女人被躁到高潮嗷嗷叫费观| 人妻一区二区av| 欧美精品人与动牲交sv欧美| 在线观看三级黄色| 欧美乱码精品一区二区三区| 精品亚洲成a人片在线观看| 久久鲁丝午夜福利片| 最新的欧美精品一区二区| 一级片'在线观看视频| 天天躁日日躁夜夜躁夜夜| 中文字幕制服av| 免费在线观看完整版高清| 久久免费观看电影| www.精华液| 欧美国产精品va在线观看不卡| 极品少妇高潮喷水抽搐| 国产精品一区二区在线观看99| 男人操女人黄网站| 啦啦啦视频在线资源免费观看| 精品国产超薄肉色丝袜足j| 精品人妻在线不人妻| 精品免费久久久久久久清纯 | 精品第一国产精品| 亚洲av综合色区一区| 欧美老熟妇乱子伦牲交| 又大又爽又粗| 午夜免费鲁丝| 国产欧美日韩一区二区三区在线| 极品少妇高潮喷水抽搐| 精品酒店卫生间| 电影成人av| 高清av免费在线| 免费日韩欧美在线观看| 久热这里只有精品99| 亚洲七黄色美女视频| 日韩大片免费观看网站| 亚洲国产精品成人久久小说| 日韩精品免费视频一区二区三区| 1024视频免费在线观看| 91老司机精品| 亚洲精品国产av蜜桃| 啦啦啦 在线观看视频| 在线观看免费日韩欧美大片| 久久青草综合色| 婷婷色av中文字幕| 久久久国产精品麻豆| 日韩伦理黄色片| av在线播放精品| 婷婷成人精品国产| av有码第一页| 中文字幕色久视频| 97人妻天天添夜夜摸| 精品一品国产午夜福利视频| 男女免费视频国产| 午夜久久久在线观看| 久久久久精品性色| 国产伦理片在线播放av一区| 91aial.com中文字幕在线观看| 欧美日韩视频高清一区二区三区二| 国产精品国产三级国产专区5o| 另类亚洲欧美激情| 中文欧美无线码| 成人18禁高潮啪啪吃奶动态图| 精品少妇一区二区三区视频日本电影 | 蜜桃国产av成人99| 久久久国产精品麻豆| 久久久精品国产亚洲av高清涩受| 色婷婷久久久亚洲欧美| 宅男免费午夜| 久久精品久久久久久噜噜老黄| 最近中文字幕高清免费大全6| 悠悠久久av| 亚洲在久久综合| 亚洲美女黄色视频免费看| 国产日韩一区二区三区精品不卡| 中文字幕亚洲精品专区| 最近中文字幕2019免费版| 免费不卡黄色视频| 国产免费一区二区三区四区乱码| 男女无遮挡免费网站观看| 中文字幕人妻丝袜制服| 男女高潮啪啪啪动态图| 女的被弄到高潮叫床怎么办| 国产男女超爽视频在线观看| 欧美日韩亚洲国产一区二区在线观看 | 日韩一卡2卡3卡4卡2021年| 午夜日韩欧美国产| 涩涩av久久男人的天堂| 电影成人av| 久久午夜综合久久蜜桃| 久久久久久久大尺度免费视频| 久久精品国产亚洲av涩爱| 中文欧美无线码| 久久97久久精品| 国产爽快片一区二区三区| 大香蕉久久网| 爱豆传媒免费全集在线观看| 午夜激情av网站| 久热这里只有精品99| 亚洲人成电影观看| 久久 成人 亚洲| 18禁观看日本| 精品国产一区二区三区久久久樱花| 免费不卡黄色视频| 黄色视频在线播放观看不卡| 国产探花极品一区二区| 国产熟女午夜一区二区三区| 一本久久精品| 另类亚洲欧美激情| 99精品久久久久人妻精品| 男男h啪啪无遮挡| 中文字幕亚洲精品专区| 亚洲七黄色美女视频| 欧美国产精品一级二级三级| 妹子高潮喷水视频| 黑丝袜美女国产一区| 成人国产av品久久久| videosex国产| av网站在线播放免费| 国产黄色视频一区二区在线观看| a级片在线免费高清观看视频| 国产 一区精品| 综合色丁香网| 久久久国产欧美日韩av| 一级片免费观看大全| 两个人看的免费小视频| 日韩制服丝袜自拍偷拍| 男女免费视频国产| 看免费av毛片| 国产亚洲精品第一综合不卡| 日韩人妻精品一区2区三区| 青春草亚洲视频在线观看| 激情视频va一区二区三区| 久久久久精品人妻al黑| 99热网站在线观看| 老司机在亚洲福利影院| 亚洲精品美女久久av网站| 亚洲国产av影院在线观看| 在现免费观看毛片| 国产成人一区二区在线| 视频区图区小说| 国产在视频线精品| 欧美黑人精品巨大| 18在线观看网站| 免费观看性生交大片5| 国产深夜福利视频在线观看| 天天躁夜夜躁狠狠久久av| 成人漫画全彩无遮挡| 老汉色∧v一级毛片| 伦理电影大哥的女人| 精品久久蜜臀av无| 热re99久久精品国产66热6| 精品酒店卫生间| 一本色道久久久久久精品综合| 老司机在亚洲福利影院| 伦理电影大哥的女人| 国产一区亚洲一区在线观看| 激情视频va一区二区三区| 国产一区二区激情短视频 | 免费在线观看黄色视频的| 99久久99久久久精品蜜桃| 国产精品麻豆人妻色哟哟久久| 亚洲精品aⅴ在线观看| 黑人欧美特级aaaaaa片| 国产亚洲精品第一综合不卡| 青草久久国产| 色婷婷久久久亚洲欧美| 女人久久www免费人成看片| 一级毛片 在线播放| 午夜激情av网站| 亚洲精品美女久久久久99蜜臀 | 亚洲综合精品二区| 18禁国产床啪视频网站| 女人精品久久久久毛片| 国产亚洲一区二区精品| 肉色欧美久久久久久久蜜桃| 欧美日韩视频高清一区二区三区二| 久久人人97超碰香蕉20202| 亚洲七黄色美女视频| 青春草亚洲视频在线观看| 18禁观看日本| 欧美日韩成人在线一区二区| 一本久久精品| 十八禁网站网址无遮挡| 国产精品三级大全| 中文字幕制服av| 51午夜福利影视在线观看| 亚洲av电影在线观看一区二区三区| 亚洲精品av麻豆狂野| videos熟女内射| 美女大奶头黄色视频| 人人澡人人妻人| 黑人巨大精品欧美一区二区蜜桃| 国产精品久久久久久人妻精品电影 | 97在线人人人人妻| 亚洲人成电影观看| 不卡av一区二区三区| 亚洲国产精品999| 精品一区二区免费观看| 欧美日韩av久久| 中文字幕人妻丝袜一区二区 | 亚洲视频免费观看视频| 亚洲欧美成人综合另类久久久| 日韩免费高清中文字幕av| 精品人妻在线不人妻| 午夜av观看不卡| 咕卡用的链子| 久久久欧美国产精品| av福利片在线| 女性被躁到高潮视频| 尾随美女入室| 熟女少妇亚洲综合色aaa.| 免费看av在线观看网站| 国产成人精品无人区| 中国国产av一级| 亚洲精品国产av蜜桃| 亚洲欧美一区二区三区黑人| 一二三四中文在线观看免费高清| 国产又色又爽无遮挡免| 久久久久国产一级毛片高清牌| 少妇人妻精品综合一区二区| 大香蕉久久网| 国产片内射在线| 久久久久久人人人人人| 母亲3免费完整高清在线观看| 啦啦啦在线免费观看视频4| 在线观看一区二区三区激情| 亚洲一卡2卡3卡4卡5卡精品中文| 老司机在亚洲福利影院| 精品国产露脸久久av麻豆| 丰满乱子伦码专区| 日日啪夜夜爽| 亚洲美女黄色视频免费看| 婷婷色综合www| 宅男免费午夜| 男女边吃奶边做爰视频| 日韩制服丝袜自拍偷拍| 青草久久国产| 下体分泌物呈黄色| 午夜福利在线免费观看网站| 久久久久久久久免费视频了| 一区二区日韩欧美中文字幕| 亚洲av成人精品一二三区| 在线 av 中文字幕| 亚洲中文av在线| 啦啦啦在线观看免费高清www| 日韩免费高清中文字幕av| 国产乱人偷精品视频| 水蜜桃什么品种好| 黑人猛操日本美女一级片| 久久综合国产亚洲精品| 中文字幕精品免费在线观看视频| 丝袜脚勾引网站| 王馨瑶露胸无遮挡在线观看| 不卡av一区二区三区| 亚洲av成人不卡在线观看播放网 | av免费观看日本| 青春草亚洲视频在线观看| 在线 av 中文字幕| 丁香六月天网| 日韩,欧美,国产一区二区三区| 亚洲七黄色美女视频| av片东京热男人的天堂| 亚洲自偷自拍图片 自拍| 亚洲av在线观看美女高潮| 岛国毛片在线播放| 婷婷色综合大香蕉| 看免费av毛片| 老汉色∧v一级毛片| 亚洲国产日韩一区二区| 男人操女人黄网站| av国产精品久久久久影院| 两性夫妻黄色片| 桃花免费在线播放| 啦啦啦在线免费观看视频4| 欧美日韩精品网址| 亚洲av男天堂| av在线播放精品| 亚洲欧美中文字幕日韩二区| 日韩欧美一区视频在线观看| 亚洲精品aⅴ在线观看| 亚洲国产精品一区三区| 如何舔出高潮| 久久女婷五月综合色啪小说| 欧美人与性动交α欧美精品济南到| 一级毛片电影观看| 青春草国产在线视频| 岛国毛片在线播放| 亚洲av成人精品一二三区| 啦啦啦在线免费观看视频4| 亚洲成人一二三区av| 亚洲精品美女久久av网站| 波多野结衣一区麻豆| 精品卡一卡二卡四卡免费| 亚洲婷婷狠狠爱综合网| 女的被弄到高潮叫床怎么办| 国产欧美亚洲国产| av在线观看视频网站免费| bbb黄色大片| 性高湖久久久久久久久免费观看| 免费观看av网站的网址| 亚洲成国产人片在线观看| 欧美国产精品va在线观看不卡| 亚洲欧美色中文字幕在线| 欧美在线一区亚洲| 成人影院久久| 国产乱来视频区| 精品视频人人做人人爽| 日韩一本色道免费dvd| 亚洲精品国产色婷婷电影| 精品少妇一区二区三区视频日本电影 | 考比视频在线观看| 免费在线观看黄色视频的| 久久久久国产精品人妻一区二区| 成年美女黄网站色视频大全免费| 精品久久久精品久久久| 午夜福利免费观看在线| 综合色丁香网| 80岁老熟妇乱子伦牲交| 色吧在线观看| 久久人人97超碰香蕉20202| 又大又爽又粗| 水蜜桃什么品种好| 天天操日日干夜夜撸| 亚洲自偷自拍图片 自拍| 大香蕉久久网| 国产99久久九九免费精品| 赤兔流量卡办理| 亚洲免费av在线视频| 欧美成人精品欧美一级黄| 天天躁夜夜躁狠狠久久av| 一级毛片我不卡| 国产成人精品福利久久| 91老司机精品| 欧美黄色片欧美黄色片| 国产精品 欧美亚洲| 波多野结衣av一区二区av| 日本一区二区免费在线视频| 婷婷色av中文字幕| 国产精品偷伦视频观看了| 国产精品免费视频内射| 男女下面插进去视频免费观看| 国产免费一区二区三区四区乱码| av有码第一页| xxxhd国产人妻xxx| 不卡视频在线观看欧美| 亚洲国产精品一区三区| 免费在线观看完整版高清| av一本久久久久| 美女午夜性视频免费| 最新在线观看一区二区三区 | 国产乱人偷精品视频| 成年人免费黄色播放视频| 视频在线观看一区二区三区| 精品人妻熟女毛片av久久网站| 日韩一本色道免费dvd| svipshipincom国产片| 黄色毛片三级朝国网站| 97人妻天天添夜夜摸| 青春草视频在线免费观看| 亚洲av日韩在线播放| 成人三级做爰电影| 黄网站色视频无遮挡免费观看| 亚洲成人国产一区在线观看 | 久久天堂一区二区三区四区| 亚洲精品aⅴ在线观看| 多毛熟女@视频| 悠悠久久av| 深夜精品福利| 国产极品天堂在线| 丰满迷人的少妇在线观看| 欧美亚洲日本最大视频资源| 亚洲欧美色中文字幕在线| 久久久国产精品麻豆| 中国三级夫妇交换| 最近2019中文字幕mv第一页| 人妻一区二区av| 久久性视频一级片| 一区二区三区四区激情视频| 无遮挡黄片免费观看| 人人妻人人澡人人看| 高清不卡的av网站| 伊人久久国产一区二区| 交换朋友夫妻互换小说| 精品一区在线观看国产| 纯流量卡能插随身wifi吗| 亚洲人成77777在线视频| 大码成人一级视频| 欧美日韩精品网址| 日韩,欧美,国产一区二区三区| 街头女战士在线观看网站| 日本欧美国产在线视频| 免费观看人在逋| 亚洲欧美一区二区三区久久| 精品国产一区二区三区久久久樱花| 毛片一级片免费看久久久久| 最近中文字幕2019免费版| 亚洲成人手机| 黑丝袜美女国产一区| 嫩草影院入口| 欧美日韩综合久久久久久| av卡一久久| 看十八女毛片水多多多| 国产99久久九九免费精品| 精品少妇黑人巨大在线播放| 午夜免费鲁丝| 精品一区二区三卡| 在线观看免费午夜福利视频| 欧美日韩亚洲高清精品| 免费人妻精品一区二区三区视频| 精品国产国语对白av| 亚洲国产日韩一区二区| 91精品国产国语对白视频| 久久鲁丝午夜福利片| 亚洲精品久久午夜乱码| 大香蕉久久网| 一二三四中文在线观看免费高清| 99精国产麻豆久久婷婷| 国产精品嫩草影院av在线观看| 亚洲精品aⅴ在线观看| 久久精品亚洲熟妇少妇任你| 久久久亚洲精品成人影院| 亚洲欧美中文字幕日韩二区| 日韩一本色道免费dvd| 一二三四在线观看免费中文在| 日韩av不卡免费在线播放| 最近的中文字幕免费完整| 精品福利永久在线观看| 午夜激情av网站| 最新的欧美精品一区二区| 精品国产超薄肉色丝袜足j| 欧美日韩一级在线毛片| 韩国精品一区二区三区| 18禁裸乳无遮挡动漫免费视频| 天天躁狠狠躁夜夜躁狠狠躁| 国产精品三级大全| 国产毛片在线视频| 少妇猛男粗大的猛烈进出视频| 国产精品av久久久久免费| 老司机深夜福利视频在线观看 | 国产又色又爽无遮挡免| 精品第一国产精品| 大香蕉久久网| 丰满少妇做爰视频| 亚洲av日韩在线播放| a级毛片黄视频| 天天躁夜夜躁狠狠久久av| 在线免费观看不下载黄p国产| 亚洲精品自拍成人| 老司机靠b影院| 精品国产一区二区久久| 精品亚洲乱码少妇综合久久| 色综合欧美亚洲国产小说| 精品一品国产午夜福利视频| 9色porny在线观看| 欧美日本中文国产一区发布| 校园人妻丝袜中文字幕| 男女无遮挡免费网站观看| 国产精品三级大全| 熟女av电影| 久久99热这里只频精品6学生| 久久久久精品人妻al黑| 亚洲成人手机| 欧美xxⅹ黑人| 国产精品免费视频内射| 国产精品偷伦视频观看了| 婷婷色av中文字幕| 亚洲伊人久久精品综合| 精品国产一区二区三区四区第35| 亚洲av电影在线观看一区二区三区| 久久久久精品人妻al黑| 午夜福利视频精品| 你懂的网址亚洲精品在线观看| 亚洲精品日本国产第一区| 永久免费av网站大全| 水蜜桃什么品种好| av在线观看视频网站免费| 中文字幕亚洲精品专区| 七月丁香在线播放| 一区福利在线观看| 黄色怎么调成土黄色| 国产成人精品在线电影| 日本欧美国产在线视频| 超色免费av| 熟妇人妻不卡中文字幕| 午夜激情久久久久久久| 国产毛片在线视频| av国产久精品久网站免费入址| 国产女主播在线喷水免费视频网站| 亚洲欧美激情在线| 一区二区av电影网| 男女无遮挡免费网站观看| 成人漫画全彩无遮挡| 成人免费观看视频高清| 亚洲欧美中文字幕日韩二区| 男人操女人黄网站| 一级爰片在线观看| 久久久精品94久久精品| 九草在线视频观看| 国产精品熟女久久久久浪| 一级,二级,三级黄色视频| 黄色 视频免费看| 最新在线观看一区二区三区 | 亚洲中文av在线| 亚洲四区av| 欧美亚洲 丝袜 人妻 在线| 18禁观看日本| 欧美中文综合在线视频| 国产探花极品一区二区| 热99国产精品久久久久久7| 视频在线观看一区二区三区| 国产爽快片一区二区三区| 久久久久国产一级毛片高清牌| 人妻一区二区av| 好男人视频免费观看在线| 纵有疾风起免费观看全集完整版| 18禁动态无遮挡网站| 国产一区亚洲一区在线观看| kizo精华| 咕卡用的链子| 亚洲av国产av综合av卡| 熟妇人妻不卡中文字幕| 男女边吃奶边做爰视频| 美女高潮到喷水免费观看| 亚洲一区中文字幕在线| 男人操女人黄网站| 国产一区有黄有色的免费视频| 欧美久久黑人一区二区| 大陆偷拍与自拍| 国产精品免费视频内射| bbb黄色大片| 男女无遮挡免费网站观看| 一区二区三区四区激情视频| 亚洲av日韩在线播放| 超碰97精品在线观看| 成年女人毛片免费观看观看9 | 亚洲成人av在线免费| 水蜜桃什么品种好| 亚洲国产av新网站| 午夜福利乱码中文字幕| 国产1区2区3区精品| 国产女主播在线喷水免费视频网站| 亚洲精品国产区一区二| 色综合欧美亚洲国产小说| 91精品三级在线观看| 亚洲自偷自拍图片 自拍| 在线观看免费日韩欧美大片| 女人高潮潮喷娇喘18禁视频| 久久综合国产亚洲精品| av.在线天堂| 国产精品嫩草影院av在线观看| 交换朋友夫妻互换小说| 亚洲欧美一区二区三区国产| 久久久精品区二区三区| av.在线天堂| netflix在线观看网站| 成人免费观看视频高清| 日本猛色少妇xxxxx猛交久久| tube8黄色片| 99热网站在线观看| 热re99久久精品国产66热6| 午夜日本视频在线| 老司机影院成人| 国产福利在线免费观看视频| 亚洲国产最新在线播放| 成人亚洲欧美一区二区av| 亚洲综合精品二区| 五月开心婷婷网| 欧美日韩国产mv在线观看视频| 香蕉丝袜av| 久久精品国产综合久久久| 成人亚洲欧美一区二区av| 亚洲国产欧美网| 亚洲成色77777| 最近手机中文字幕大全| 国产伦人伦偷精品视频| 色播在线永久视频| 久久久国产精品麻豆| 无限看片的www在线观看| 国产有黄有色有爽视频| 老司机深夜福利视频在线观看 | 亚洲婷婷狠狠爱综合网| 欧美xxⅹ黑人| 老司机在亚洲福利影院| 汤姆久久久久久久影院中文字幕| 一区二区三区激情视频| 成人黄色视频免费在线看| 自线自在国产av| 成人国语在线视频| 男人添女人高潮全过程视频| 欧美少妇被猛烈插入视频| 亚洲第一青青草原| 少妇猛男粗大的猛烈进出视频| 成人亚洲欧美一区二区av| 在现免费观看毛片| 亚洲激情五月婷婷啪啪| 亚洲精品在线美女| 久久久久精品久久久久真实原创| 人人妻,人人澡人人爽秒播 | 两性夫妻黄色片| 熟妇人妻不卡中文字幕| 少妇的丰满在线观看| 成年动漫av网址| 国产片内射在线| 最近中文字幕2019免费版| 激情视频va一区二区三区| 免费久久久久久久精品成人欧美视频| 久久久国产精品麻豆| 亚洲欧美激情在线| 欧美日韩亚洲国产一区二区在线观看 | 精品国产一区二区三区四区第35| 国产免费视频播放在线视频| 婷婷色麻豆天堂久久|