• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    FPC: 大規(guī)模網(wǎng)頁(yè)的快速增量聚類

    2016-05-04 03:10:52俞曉明程學(xué)旗
    中文信息學(xué)報(bào) 2016年2期
    關(guān)鍵詞:哈希網(wǎng)頁(yè)指紋

    余 鈞,郭 巖,張 凱,劉 林,劉 悅,俞曉明,程學(xué)旗

    (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100190; 3. 中國(guó)信息安全評(píng)測(cè)中心,北京 100085)

    FPC: 大規(guī)模網(wǎng)頁(yè)的快速增量聚類

    余 鈞1,2,郭 巖1,張 凱1,劉 林3,劉 悅1,俞曉明1,程學(xué)旗1

    (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100190; 3. 中國(guó)信息安全評(píng)測(cè)中心,北京 100085)

    面向結(jié)構(gòu)相似的網(wǎng)頁(yè)聚類是網(wǎng)絡(luò)數(shù)據(jù)挖掘的一項(xiàng)重要技術(shù)。傳統(tǒng)的網(wǎng)頁(yè)聚類沒有給出網(wǎng)頁(yè)簇中心的表示方式,在計(jì)算點(diǎn)簇間和簇簇間相似度時(shí)需要計(jì)算多個(gè)點(diǎn)對(duì)的相似度,這種聚類算法一般比使用簇中心的聚類算法慢,難以滿足大規(guī)模快速增量聚類的需求。針對(duì)此問題,該文提出一種快速增量網(wǎng)頁(yè)聚類方法FPC(Fast Page Clustering)。在該方法中,先提出一種新的計(jì)算網(wǎng)頁(yè)相似度的方法,其計(jì)算速度是簡(jiǎn)單樹匹配算法的500倍;給出一種網(wǎng)頁(yè)簇中心的表示方式,在此基礎(chǔ)上使用Kmeans算法的一個(gè)變種MKmeans(Merge-Kmeans)進(jìn)行聚類,在聚類算法層面上提高效率;使用局部敏感哈希技術(shù),從數(shù)量龐大的網(wǎng)頁(yè)類集中快速找出最相似的類,在增量合并層面上提高效率。

    DOM樹分層向量;網(wǎng)頁(yè)簇中心;局部敏感哈希;快速增量聚類

    1 引言

    Web抽取是網(wǎng)絡(luò)數(shù)據(jù)挖掘中的重要應(yīng)用。針對(duì)海量網(wǎng)頁(yè)的抽取,可以把結(jié)構(gòu)相似的網(wǎng)頁(yè)自動(dòng)聚成一類,對(duì)聚類后的網(wǎng)頁(yè)簇歸納出高效精確的抽取規(guī)則,從而提高抽取的準(zhǔn)確率。傳統(tǒng)的面向結(jié)構(gòu)的網(wǎng)頁(yè)聚類算法中,通常沒有給出網(wǎng)頁(yè)簇中心的表示方式。它們一般使用代表點(diǎn)的聚類算法,在計(jì)算點(diǎn)簇間距離和簇簇間距離時(shí)需要計(jì)算多個(gè)點(diǎn)對(duì)的距離,難以應(yīng)用到大規(guī)模網(wǎng)頁(yè)增量聚類中。

    為了解決面向結(jié)構(gòu)的大規(guī)模網(wǎng)頁(yè)聚類問題,本文提出一種快速網(wǎng)頁(yè)增量聚類方法FPC(Fast Page Clustering)。在該方法中,先提出DOM樹分層向量,用多個(gè)DOM樹分層向量的中心來(lái)近似反映多棵DOM樹的中心。在此基礎(chǔ)上,采用基于向量、集合相似度的方式來(lái)計(jì)算兩個(gè)網(wǎng)頁(yè)的相似度,其計(jì)算效率比傳統(tǒng)的樹編輯距離高;給出一種網(wǎng)頁(yè)簇中心的表示方式,進(jìn)而提出使用Kmeans算法的一個(gè)變種MKmeans(Merge-Kmeans),實(shí)現(xiàn)網(wǎng)頁(yè)的快速聚類;使用局部敏感哈希技術(shù),從數(shù)量龐大的網(wǎng)頁(yè)類集合中可以快速找出和給定類最相似的類,從而實(shí)現(xiàn)快速增量聚類。實(shí)驗(yàn)表明:(1)選用的網(wǎng)頁(yè)特征確實(shí)有效合理,網(wǎng)頁(yè)簇中心確實(shí)可以代表網(wǎng)頁(yè)簇的一些公共結(jié)構(gòu)中心,在網(wǎng)頁(yè)聚類中很有效;(2)相似的網(wǎng)頁(yè)類,使用局部敏感哈希技術(shù)計(jì)算得到的指紋也相似,可以用于快速查找近似最相似類;(3)FPC的速度遠(yuǎn)高于傳統(tǒng)的網(wǎng)頁(yè)聚類方法,且其準(zhǔn)確率和回收率都非常高。

    本文余下章節(jié)安排如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)介紹快速網(wǎng)頁(yè)增量聚類方法FPC;第四節(jié)是實(shí)驗(yàn)結(jié)果和分析;第五節(jié)是對(duì)本文的總結(jié)并討論下一步的研究方向。

    2 相關(guān)工作

    計(jì)算兩個(gè)網(wǎng)頁(yè)的相似度有很多辦法。文獻(xiàn)[1]使用DOM樹編輯距離來(lái)表示兩個(gè)網(wǎng)頁(yè)的相似度,這種方法計(jì)算代價(jià)較高。文獻(xiàn)[2]使用局部標(biāo)簽樹匹配的方法來(lái)進(jìn)行聚類,將DOM 樹的每一層節(jié)點(diǎn)的HTML標(biāo)簽連接成串,計(jì)算對(duì)應(yīng)層字符串的編輯距離的加權(quán)和作為兩個(gè)網(wǎng)頁(yè)的距離,這種方法要求每層節(jié)點(diǎn)個(gè)數(shù)相差不大,對(duì)記錄型網(wǎng)頁(yè)效果不太好。文獻(xiàn)[3]使用鏈路壓縮樹來(lái)定義網(wǎng)頁(yè)的相似度,這種方法對(duì)高層節(jié)點(diǎn)很敏感。文獻(xiàn)[4]使用自頂向下的樹編輯距離來(lái)計(jì)算網(wǎng)頁(yè)的相似度,這種方法對(duì)高層節(jié)點(diǎn)也很敏感,高層節(jié)點(diǎn)不匹配,則相似度非常小。

    傳統(tǒng)的網(wǎng)頁(yè)聚類使用點(diǎn)代表的聚類方法,這些算法的執(zhí)行效率較低,難以應(yīng)用到大規(guī)模網(wǎng)頁(yè)增量聚類中。文獻(xiàn)[5]用的是自底向上的CURE算法,兩個(gè)簇間的距離由這兩個(gè)簇中距離最近的數(shù)據(jù)點(diǎn)的距離來(lái)確定。文獻(xiàn)[6]用的是類CURE算法,兩個(gè)簇間的距離由來(lái)自兩簇的所有點(diǎn)對(duì)的距離的平均值來(lái)確定。

    局部敏感哈希技術(shù)(Locality Sensitive Hash)主要用來(lái)解決高維空間中點(diǎn)的近似最近鄰搜索問題。LSH將原始空間中的點(diǎn)嵌入到漢明(Hamming)空間中,原始空間中的度量變成Hamming空間中的度量。文獻(xiàn)[7]使用局部哈希技術(shù)將一個(gè)網(wǎng)頁(yè)映射到一個(gè)64位的二進(jìn)制指紋上,通過(guò)查找相似的指紋可以快速檢測(cè)出內(nèi)容近似的網(wǎng)頁(yè)。

    3 快速增量聚類方法FPC

    本文的FPC方法使用基于向量、集合的相似度來(lái)計(jì)算兩個(gè)網(wǎng)頁(yè)的相似度,比傳統(tǒng)的基于樹編輯距離和鏈路方法快得多;給出一種網(wǎng)頁(yè)簇結(jié)構(gòu)中心的表示方式,在這個(gè)基礎(chǔ)上提出使用一種類似Kmeans的算法MKmeans(Merge Kmeans)實(shí)現(xiàn)網(wǎng)頁(yè)的快速聚類;并使用局部敏感哈希技術(shù)從大規(guī)模的網(wǎng)頁(yè)簇中快速找出近似最相似簇,實(shí)現(xiàn)快速增量聚類。

    3.1 網(wǎng)頁(yè)特征

    網(wǎng)頁(yè)是一種半結(jié)構(gòu)化數(shù)據(jù),同模板生成的網(wǎng)頁(yè),在結(jié)構(gòu)上較相似,在內(nèi)容上也相似,如廣告鏈接、導(dǎo)航欄和版權(quán)信息等可能也會(huì)相似。FPC從網(wǎng)頁(yè)中提取若干結(jié)構(gòu)特征和內(nèi)容特征,用來(lái)表示一個(gè)網(wǎng)頁(yè)。

    3.1.1 DOM樹分層向量

    DOM樹是一個(gè)重要的網(wǎng)頁(yè)結(jié)構(gòu)特征,但是計(jì)算DOM樹的編輯距離的代價(jià)太高。在HTML標(biāo)記語(yǔ)言中,大部分標(biāo)簽是不能隨意插入和刪除的,標(biāo)簽的嵌套關(guān)系相對(duì)比較固定,同模板網(wǎng)頁(yè),語(yǔ)義相同的節(jié)點(diǎn)鏈路一般也會(huì)相同。

    基于這個(gè)事實(shí),給出下面的假設(shè):

    (1) 兩個(gè)同模板網(wǎng)頁(yè),它們匹配上的節(jié)點(diǎn)大多處在樹中同一層位置上;

    (2) 在一個(gè)網(wǎng)頁(yè)內(nèi),相同語(yǔ)義的迭代型節(jié)點(diǎn)(如帖子根節(jié)點(diǎn))一般處在同一層位置上;

    (3) 相同語(yǔ)義的迭代型節(jié)點(diǎn),它們子樹中每一層的節(jié)點(diǎn)分布相似,于是對(duì)同模板的網(wǎng)頁(yè),它們?cè)诘訕渖蠘?biāo)簽的頻率分布也相似。

    由這些假設(shè)可以推出,同模板網(wǎng)頁(yè),它們?cè)诿繉拥臉?biāo)簽分布向量也會(huì)相似。本文為此引入DOM樹分層向量,該向量組是一個(gè)有序向量組,它的第i個(gè)向量表示樹的第i層節(jié)點(diǎn)按標(biāo)簽名的頻率分布。

    定義1 DOM樹分層向量,如式(1)所示。

    (1)

    圖1的兩個(gè)網(wǎng)頁(yè)中,網(wǎng)頁(yè)1的DOM樹分層向量是: (html: 1), (head: 0.5,body: 0.5), (meta: 0.5,div: 0.25,a: 0.25) (p: 1)。網(wǎng)頁(yè)2的DOM樹分層向量是:(html:1), (head: 0.5,body: 0.5), (meta: 0.4,div: 0.4,a: 0.2)。

    圖1 樣例頁(yè)面

    多個(gè)DOM樹分層向量的中心也是一個(gè)分層向量,它的第i個(gè)向量是所有這些分層向量的第i個(gè)向量的中心。對(duì)DOM樹,很難找出多棵DOM樹的中心骨干。但對(duì)于多個(gè)DOM樹分層向量,可以快速地計(jì)算出它們的中心。

    定義2 DOM樹分層向量的中心,如式(2)所示。

    (2)

    結(jié)構(gòu)相似的網(wǎng)頁(yè),其DOM樹分層向量相似,且它們的中心也和它們相似。對(duì)多個(gè)網(wǎng)頁(yè)的中心向量,在相似層,它和各網(wǎng)頁(yè)對(duì)應(yīng)層向量的平均相似度較大;在不相似層,它和各網(wǎng)頁(yè)對(duì)應(yīng)層向量的平均相似度會(huì)較小。設(shè)置閾值,當(dāng)中心的某層向量到各網(wǎng)頁(yè)層的平均相似度較小時(shí),則從中心去掉該層的向量,這樣得到的中心分層向量將會(huì)保存這些網(wǎng)頁(yè)中相似層部分,不相似層將會(huì)去掉。

    如圖1,網(wǎng)頁(yè)1和網(wǎng)頁(yè)2較相似,它們的DOM樹分層向量的中心是:(html: 1), (head: 0.5,body: 0.5), (meta: 0.45,div: 0.325,a: 0.225) (p: 0.5)。

    3.1.2 其他特征

    同模板網(wǎng)頁(yè)有一些屬性值比較特殊的標(biāo)簽,如Discuz論壇軟件生成的帖子頁(yè)面中,會(huì)經(jīng)常出現(xiàn)這種標(biāo)簽。本文用標(biāo)簽-屬性特征來(lái)保存具有特定屬性的標(biāo)簽的標(biāo)識(shí)串,標(biāo)識(shí)串的格式是“標(biāo)簽名+屬性名+屬性值”。

    FPC選取部分內(nèi)容作為網(wǎng)頁(yè)的特征。這些內(nèi)容特征包括:鏈接地址、CSS文件名、JS文件名、JS中出現(xiàn)的函數(shù)名、錨文本、短文本、圖片名。

    這些特征都是集合型的,每個(gè)特征包含多個(gè)字符串。多個(gè)網(wǎng)頁(yè),它們對(duì)應(yīng)特征會(huì)有若干共同元素,這些共同元素是這些網(wǎng)頁(yè)的公共固定部分??梢杂眉现行膩?lái)表示多個(gè)網(wǎng)頁(yè)的集合型特征的公共固定部分。

    定義3 多個(gè)集合的中心

    多個(gè)集合的中心是一個(gè)集合,該中心集合中的元素是在這些集合中出現(xiàn)比例超過(guò)某個(gè)閾值的元素。

    3.2 網(wǎng)頁(yè)表示和網(wǎng)頁(yè)簇中心表示

    FPC選取九個(gè)網(wǎng)頁(yè)特征,在這些基礎(chǔ)上給出網(wǎng)頁(yè)和網(wǎng)頁(yè)簇的中心的表示方式,并給出相似度的計(jì)算方法。

    3.2.1 網(wǎng)頁(yè)表示

    我們使用DOM樹分層向量,以及3.1.2節(jié)中的八個(gè)特征來(lái)表示一個(gè)網(wǎng)頁(yè)。從網(wǎng)頁(yè)中計(jì)算出DOM樹分層向量,找出標(biāo)簽-屬性值、鏈接地址等內(nèi)容特征,可以將網(wǎng)頁(yè)映射到一個(gè)特征向量上。

    定義 4 網(wǎng)頁(yè)表示為式(3)。

    (3)

    其中,fi是網(wǎng)頁(yè)的第i個(gè)特征,除了DOM樹分層向量外,其他特征都是集合型的。

    3.2.2 網(wǎng)頁(yè)簇中心表示

    許多聚類算法要求給出簇中心的表示方法。FPC將網(wǎng)頁(yè)簇中心定義為一個(gè)隱藏網(wǎng)頁(yè),它包含網(wǎng)頁(yè)的九個(gè)特征,其所反映的是簇中網(wǎng)頁(yè)的公共固定部分。它的各個(gè)特征是簇中所有網(wǎng)頁(yè)相應(yīng)特征的中心。

    定義5 網(wǎng)頁(yè)簇中心,如式(4)所示。

    (4)

    其中P1,…,Pn表示n個(gè)網(wǎng)頁(yè),fi,Pk是網(wǎng)頁(yè)P(yáng)k的第i個(gè)特征,i=1,..9,k=1,…,n。對(duì)DOM分層向量,按定義2的方式給出其中心,對(duì)其余八個(gè)集合型特征,按定義3的方式給出其中心。網(wǎng)頁(yè)簇中心可以很好地反映簇中網(wǎng)頁(yè)的共同穩(wěn)定部分。如果簇中網(wǎng)頁(yè)相似,則簇中心和它們也相似。

    3.2.3 相似度計(jì)算

    網(wǎng)頁(yè)與網(wǎng)頁(yè)、網(wǎng)頁(yè)與網(wǎng)頁(yè)簇的相似度,是各個(gè)特征相似度的加權(quán)和,計(jì)算公式如式(5)所示。

    (5)

    其中S1,S2是網(wǎng)頁(yè)或網(wǎng)頁(yè)簇中心,weightfi是特征fi的權(quán)重,Simfi是特征fi的相似度。

    對(duì)兩個(gè)DOM樹分層向量,它們的相似度是各對(duì)應(yīng)層向量的余弦相似度之和除以兩者向量層數(shù)和的一半,計(jì)算公式如式(6)所示。

    (6)

    對(duì)集合型的特征,相似度計(jì)算采用不同的計(jì)算方式。

    1. 兩個(gè)網(wǎng)頁(yè),或者兩個(gè)簇中心,它們的集合型特征的相似度使用Jaccard相似性度量,平滑后的公式為式(7)。

    (7)

    其中S1,S2都是網(wǎng)頁(yè)或者都是簇中心的集合型特征,α是FPC中MKmeans算法合并簇的相似度閾值。

    2. 網(wǎng)頁(yè)和簇中心,它們的集合型特征的相似度稍有不同,平滑后的公式為式(8)。

    (8)

    其中S是網(wǎng)頁(yè)的集合型特征,T是簇中心的集合型特征。

    3.3 增量聚類

    FPC使用Leader-Follower策略進(jìn)行網(wǎng)頁(yè)增量聚類,即將網(wǎng)頁(yè)分批聚類,對(duì)每批聚類后的類,從已有類集中查找最相似的類,如果它們的相似度大于給定閾值,則將它們合并在一起,否則將該類作為新類并添加到類集中。

    3.3.1 單批網(wǎng)頁(yè)聚類算法MKmeans

    Kmeans算法需要提前指定類別個(gè)數(shù),但是網(wǎng)頁(yè)類別的個(gè)數(shù)通常難以提前確定。為此,F(xiàn)PC提出使用一種類似Kmeans的算法MKmeans(Merge-Kmeans),該算法不需要提前指定K值,聚類結(jié)果中類個(gè)數(shù)是由合并類的閾值間接決定。通過(guò)修改類合并閾值,可以使得聚類后每類網(wǎng)頁(yè)的類內(nèi)平均相似度都較高。MKmeans算法如下。

    算法1 聚類算法MKmeans(Merge-Kmeans)

    輸入:網(wǎng)頁(yè)集合S,初始類相異閾值d,類合并閾值α,類內(nèi)平均相似度變化閾值e,最大迭代次數(shù)T

    輸出:網(wǎng)頁(yè)類

    1. 初始類中心:對(duì)S中的網(wǎng)頁(yè),逐個(gè)計(jì)算其與已有類中心的相似度,如果最大相似度小于閾值d,則該網(wǎng)頁(yè)成為一個(gè)新的類中心;

    2. 歸入最近類:將S中的網(wǎng)頁(yè)逐個(gè)歸入最相近的類;

    3. 更新類中心:計(jì)算每個(gè)類中心,它是類中所有網(wǎng)頁(yè)的中心;

    4. 合并相似類:計(jì)算各對(duì)類的相似度,不斷合并最相似的類,直到所有類之間的相似度都小于閾值α;

    5. 迭代步驟2,3,4,直到迭代次數(shù)超過(guò)T或類內(nèi)平均相似度的變化已經(jīng)小于閾值e。

    3.3.2 增量合并

    在增量聚類的過(guò)程中,如果類集中類的個(gè)數(shù)太多,則從中查找最相似類的時(shí)間開銷將很大。FPC使用局部敏感哈希技術(shù)計(jì)算出類的指紋信息,用其來(lái)篩選出小部分備選類,再?gòu)膫溥x類中找最相似類。FPC對(duì)一個(gè)網(wǎng)頁(yè)類,可以計(jì)算得到一個(gè)指紋組,一個(gè)指紋組包含32個(gè)16位的二進(jìn)制指紋。計(jì)算指紋組算法如下。

    算法2 計(jì)算指紋組算法FingerPrints

    輸入: 一個(gè)網(wǎng)頁(yè)類C,四個(gè)哈希函數(shù)Hi,i=1,2,3,4

    輸出:指紋組(32個(gè)16位的二進(jìn)制指紋)

    1. 對(duì)哈希函數(shù)Hi(i=1,2,3,4),依次

    1.1使用一個(gè)128位的二進(jìn)制數(shù)X,將其清零;

    1.2對(duì)網(wǎng)頁(yè)類C的中心的標(biāo)簽-屬性特征中的每個(gè)元素,分別用Hi計(jì)算其哈希結(jié)果hashvalue,將X的第hashvalue%128位置1;

    1.3將X切分成八個(gè)16位的二進(jìn)制數(shù),得到八個(gè)指紋;

    2. 每個(gè)哈希函數(shù)得到八個(gè)指紋,四個(gè)哈希函數(shù)共得到32個(gè)指紋,返回指紋組。

    指紋組中的指紋是有序的,兩個(gè)指紋組相似度等于兩組對(duì)應(yīng)序號(hào)且相等的指紋的個(gè)數(shù)除以指紋組長(zhǎng)度32。計(jì)算公式如式(9)所示。

    (9)

    其中,F(xiàn)1,i是指紋組FS1的第i個(gè)指紋,F(xiàn)2,i是指紋組FS2的第i個(gè)指紋,

    相似的網(wǎng)頁(yè)類,它們的指紋組很可能也相似,利用指紋組,可以快速地找出近似最相似的類,從而實(shí)現(xiàn)快速增量聚類。FPC在增量聚類的過(guò)程中,保存已有類集中每個(gè)類的中心及其指紋組信息,同時(shí)保存32個(gè)指紋的倒排索引表,索引內(nèi)容是類的標(biāo)識(shí)。子類合并算法如下。

    算法 3 子類合并到類集中算法 Merge-Cluster

    輸入:子類C,類庫(kù)(S,F, IDX),S是已有類集,F(xiàn)是類的指紋組表,IDX=(index1,…,index32)是32個(gè)指紋索引表,指紋相似閾值β

    輸出:合并C后的類庫(kù)(S,F, IDX)

    1. 計(jì)算C的指紋信息F1,…,F32;

    2. 分別從index1,…,index32中找到F1,…,F32對(duì)應(yīng)的索引列l(wèi)1,…,l32;

    3. 在索引列l(wèi)1,…,l32中找出出現(xiàn)次數(shù)超過(guò)32*β的類,記這些類為備選類;

    4. 從備選類中找出和子類C最近的類,如果相似度大于給定閾值,則將子類C和最相似的類進(jìn)行合并;否則,子類C成為一個(gè)新的類,添其加到類集中。

    5. 更新發(fā)生變化的類的指紋組表F和索引表IDX。

    4 實(shí)驗(yàn)與分析

    4.1 聚類實(shí)驗(yàn)

    本實(shí)驗(yàn)是為了評(píng)測(cè)FPC中聚類方法的效果。對(duì)比實(shí)驗(yàn)使用STM計(jì)算相似度,用文獻(xiàn)[6]中用于網(wǎng)頁(yè)聚類的類CURE算法進(jìn)行聚類,該類CURE算法用兩個(gè)類之間所有的點(diǎn)對(duì)的平均相似度作為兩個(gè)類的相似度,不斷合并最相似的類,直到所有的類的相似度小于給定閾值。本文將該對(duì)比實(shí)驗(yàn)方法稱為STM+CURE。

    4.1.1 實(shí)驗(yàn)數(shù)據(jù)

    數(shù)據(jù)集1:采集15個(gè)新聞網(wǎng)站,每個(gè)網(wǎng)站采集20個(gè)網(wǎng)頁(yè),共300個(gè)網(wǎng)頁(yè)。我們認(rèn)為,由相同軟件生成的網(wǎng)頁(yè)屬于同一模板,于是將這300個(gè)網(wǎng)頁(yè)分為15個(gè)模板類。

    數(shù)據(jù)集2:采集100個(gè)論壇網(wǎng)站,每個(gè)網(wǎng)站采集10個(gè)網(wǎng)頁(yè),共1 000個(gè)網(wǎng)頁(yè),分為23個(gè)模板類。

    4.1.2 評(píng)價(jià)指標(biāo)

    我們使用以下三種指標(biāo)進(jìn)行評(píng)價(jià):

    1. 準(zhǔn)確率 Precision, 回收率Recall, F值。

    2. 時(shí)間開銷,評(píng)測(cè)兩者的效率。

    4.1.3 結(jié)果分析

    考慮到對(duì)比實(shí)驗(yàn)中的類CURE算法時(shí)間復(fù)雜度較高,我們?cè)趯?shí)現(xiàn)類CURE算法時(shí),做了很多優(yōu)化。實(shí)驗(yàn)結(jié)果如表1所示。

    表1 聚類測(cè)試結(jié)果

    注:APS-Time(Average Page Similarity Time):計(jì)算兩個(gè)網(wǎng)頁(yè)相似度的平均時(shí)間開銷。

    另外,在數(shù)據(jù)集2上,前者的回收率比后者高出62.5%。這是因?yàn)镾TM算法太過(guò)敏感,在計(jì)算樹的相似度時(shí),如果兩棵子樹的根節(jié)點(diǎn)不一樣,則認(rèn)為這兩棵子樹的匹配數(shù)為0,于是若兩棵子樹高層節(jié)點(diǎn)偏差稍大,則可能導(dǎo)致計(jì)算得到的相似度很小,從而使得同類網(wǎng)頁(yè)被錯(cuò)誤分開。而FPC是把各層的相似度類加起來(lái),高層結(jié)點(diǎn)差異不影響計(jì)算低層的相似度。因此,F(xiàn)PC算法健壯性更好,適用范圍更廣,回收率也更高。

    同時(shí),F(xiàn)PC的準(zhǔn)確率也很高。這表明FPC中所選用的網(wǎng)頁(yè)特征確實(shí)很有效,網(wǎng)頁(yè)簇中心能很好地反應(yīng)多個(gè)網(wǎng)頁(yè)的一些公共固定部分,將其用在簇中心代表的聚類算法中很有效。

    4.2 指紋實(shí)驗(yàn)

    本實(shí)驗(yàn)是為了驗(yàn)證兩方面內(nèi)容:(1)指紋相似,則類也較相似;(2)利用指紋可以有效篩選出類集中一小部分備選類,最相似的類落在備選集中的概率會(huì)很大。

    4.2.1 實(shí)驗(yàn)數(shù)據(jù)

    數(shù)據(jù)集3:采集1160個(gè)網(wǎng)站網(wǎng)頁(yè),每個(gè)網(wǎng)站采集5個(gè)網(wǎng)頁(yè),共5 800個(gè)網(wǎng)頁(yè)。聚成302個(gè)類,記為類集3。

    數(shù)據(jù)集4:采集855個(gè)網(wǎng)站網(wǎng)頁(yè),每個(gè)網(wǎng)站采集5個(gè)網(wǎng)頁(yè),共4 275個(gè)網(wǎng)頁(yè)。聚成149個(gè)類,記為類集4。

    數(shù)據(jù)集4所選的網(wǎng)站絕大部分是來(lái)自數(shù)據(jù)集3中所選的網(wǎng)站,但這兩個(gè)數(shù)據(jù)集所用網(wǎng)頁(yè)完全不一樣。因此,類集3和類集4間雖然有許多類是相似的,但它們不會(huì)完全一樣(這里指類中心的特征不會(huì)完全相同)。

    4.2.2 結(jié)果分析

    計(jì)算類集3和類集4之間所有類對(duì)的類相似度和指紋相似度,得到指紋相似度—類相似度曲線,如圖2所示。

    對(duì)類集4中的每一個(gè)類,計(jì)算其指紋,從類集3中篩選出和其指紋相似度超過(guò)閾值β的備選類,檢測(cè)和其最相似的類是否落在備選類集中。表2給出不同指紋相似閾值β下的備選集大小,同時(shí)還給出最相似的類落在其中的概率。

    圖2 指紋相似度-類相似度曲線

    表2 備選集測(cè)試結(jié)果

    注:備選集大小是指,備選集在整個(gè)類集3中所占的比例。

    從圖2可以看出,指紋相似度和類相似度存在一種很好的正相關(guān)關(guān)系,兩個(gè)類的指紋越相似,則這兩個(gè)類也越可能相似。從表2可以看出,利用指紋可以篩選出一個(gè)很小的備選類集,而最相似類落在備選集中的概率會(huì)非常大。例如,當(dāng)指紋相似閾值取0.05時(shí),就可以篩選出一個(gè)6.9%大小的備選集,而最相似類落在該備選集中的概率是90.6%。

    因此,在增量合并類的過(guò)程中,可以篩選出一小部分備選集,最相似的類落在備選集中的概率很大,即使最相似類沒有落在備選集中,從備選集中仍然可以找出和其很相似的類。例如,從圖2中可以看出,當(dāng)指紋相似閾值取0.45時(shí),備選集中的類和需合并的子類的平均相似度達(dá)到0.3。因此,利用局部敏感哈希,確實(shí)可以從很小的備選集中近似找到最相似的類,從而大大提高FPC在增量合并類的效率。

    5 結(jié)論

    本文先提出DOM樹分層向量概念,給出一種新的計(jì)算網(wǎng)頁(yè)相似度的方法,其速度是簡(jiǎn)單樹匹配算法的500倍,并且適用范圍更廣。本文還提出一種網(wǎng)頁(yè)簇中心的表示方式。在這些基礎(chǔ)上用類Kmeans算法MKmeans實(shí)現(xiàn)網(wǎng)頁(yè)的快速聚類,其正確率回收率都很高,這表明所選的網(wǎng)頁(yè)特征和網(wǎng)頁(yè)簇中心表示方式確實(shí)非常有效。最后,本文使用局部敏感哈希技術(shù),可以在龐大的網(wǎng)頁(yè)類集中快速找出近似最相似的類,從而提高增量合并中查找相似類的效率。

    本文在使用公式(1)計(jì)算網(wǎng)頁(yè)相似度時(shí),各個(gè)特征權(quán)重是預(yù)先設(shè)定的,在接下來(lái)的工作中準(zhǔn)備通過(guò)一些機(jī)器學(xué)習(xí)方法訓(xùn)練出更好的參數(shù)。另外,網(wǎng)頁(yè)簇中心除了用在聚類上,還可以用在分類上。如何使用網(wǎng)頁(yè)簇中心以用于分類當(dāng)中,這是一個(gè)有待繼續(xù)研究的問題。

    [1] Reis D C,Golgher P B, Silva A S, et al. Automatic Web news extraction using tree edit distance[C]//Proceedings of the 13th International Conference on World Wide Web. New York: ACM.

    [2] 李 睿, 曾俊瑀, 周四望. 基于局部標(biāo)簽樹匹配的改進(jìn)網(wǎng)頁(yè)聚類算法[J]. 計(jì)算機(jī)應(yīng)用, 2010,30(3):818-820.

    [3] 宋明秋, 張瑞雪. 基于鏈路壓縮樹的網(wǎng)頁(yè)相似度研究[J]. 情報(bào)學(xué)報(bào), 2012,31(1):40-46.

    [4] 何昕,謝志鵬. 基于簡(jiǎn)單樹匹配算法的Web頁(yè)面結(jié)構(gòu)相似性度量[J]. 計(jì)算機(jī)研究與發(fā)展, 2007,44(23):1-6.

    [5] 邱韜奮,楊天奇,曾洪波. 基于網(wǎng)頁(yè)聚類的Web 信息自動(dòng)抽取[J]. 微型機(jī)與應(yīng)用, 2011,31(4):71-74.

    [6] 賴春波. Web信息自動(dòng)抽取技術(shù)研究[D]. 浙江:浙江大學(xué), 2008.

    [7] Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting near-duplicates for web crawling[C]//Proceedings of the 16th International Conference on World Wide Web, Banff, Alberta, Canada, 2007: 141-150.

    FPC: Fast Incremental Clustering for Large Scale Web Pages

    YU Jun1,2, GUO Yan1,ZHANG Kai1, LIU Lin3, LIU Yue1, YU Xiaoming1, CHENG Xueqi1

    (1. CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China;3. China Information Technology Security Evaluation Center, Beijing 100085, China)

    Structure-oriented web page clustering is one of the most important technique in web data mining. Previous traditional methods haven’t given a formal definition of the web page cluster center and have to calculate several point-wise similarities for the purpose of getting the similarity between a point and a cluster or the similarity between two clusters. The efficiency of these methods is much slower than the clustering algorithms using cluster center, especially they can’t satisfy the need of large scale clustering in fast incremental web pages clustering. To solve these issues, this paper proposes a fast incremental clustering method FPC (Fast Page Clustering). In our method, a new approach is given to calculat the similarity between two web pages which is 500 times faster than the Simple Tree Matching algorithm; then a formal representation of web page cluster center is described and a Kmeans-like MKmeans(Merge-Kmeans) clustering algorithm for fast clustering is applied; Moreover, we use local sensitive hashing technique to quickly find the most similar cluster in a large scale cluster set and improve the efficiency in terms of the incremental clustering.

    DOM tree layered vectors; web page cluster center; local sensitive hashing; fast incremental clustering

    余鈞(1988—),碩士,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息處理。E?mail:yu.jun.reach@gmail.com郭巖(1974—),博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息處理。E?mail:guoy@ict.a(chǎn)c.cn張凱(1976—),碩士,助理研究員,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)數(shù)據(jù)采集。E?mail:zk@ict.a(chǎn)c.cn

    1003-0077(2016)02-0182-07

    2013-08-25 定稿日期: 2014-06-01

    國(guó)家973計(jì)劃(2012CB316303,2013CB329602);國(guó)家863計(jì)劃(2014AA015204);國(guó)家自然科學(xué)基金(61232010,61425016,61572473,61572467)

    TP391

    A

    猜你喜歡
    哈希網(wǎng)頁(yè)指紋
    像偵探一樣提取指紋
    為什么每個(gè)人的指紋都不一樣
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    基于自適應(yīng)稀疏變換的指紋圖像壓縮
    基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    可疑的指紋
    基于維度分解的哈希多維快速流分類算法
    10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
    高清日韩中文字幕在线| 国产精品爽爽va在线观看网站| 亚洲,一卡二卡三卡| 亚洲欧美日韩另类电影网站 | 国产精品一区www在线观看| 免费黄网站久久成人精品| 亚洲性久久影院| 制服丝袜香蕉在线| 成人国产av品久久久| 精品一区二区三卡| 熟女电影av网| 免费播放大片免费观看视频在线观看| 大又大粗又爽又黄少妇毛片口| 久久久久久久久久久免费av| 黄片wwwwww| 久久综合国产亚洲精品| 少妇人妻精品综合一区二区| 成人美女网站在线观看视频| 精品国产一区二区三区久久久樱花 | 女的被弄到高潮叫床怎么办| 日韩,欧美,国产一区二区三区| 一区二区三区精品91| 色哟哟·www| 大片免费播放器 马上看| 三级国产精品片| 小蜜桃在线观看免费完整版高清| 精品人妻偷拍中文字幕| 国产成人福利小说| 99久久精品国产国产毛片| 久久99热6这里只有精品| www.色视频.com| av国产免费在线观看| 日韩人妻高清精品专区| 国产伦精品一区二区三区视频9| 丰满人妻一区二区三区视频av| 久久ye,这里只有精品| 欧美日韩视频高清一区二区三区二| 亚洲色图综合在线观看| 97热精品久久久久久| 热re99久久精品国产66热6| 国产精品久久久久久久久免| 老师上课跳d突然被开到最大视频| 欧美97在线视频| 亚洲无线观看免费| 伊人久久国产一区二区| 大又大粗又爽又黄少妇毛片口| 在线a可以看的网站| 久久99精品国语久久久| 啦啦啦在线观看免费高清www| 毛片一级片免费看久久久久| 超碰97精品在线观看| 亚洲精品一区蜜桃| 国产在线男女| 亚洲经典国产精华液单| 99视频精品全部免费 在线| 白带黄色成豆腐渣| 精品国产一区二区三区久久久樱花 | av专区在线播放| 久久久精品免费免费高清| 日韩一区二区视频免费看| 五月开心婷婷网| 天天躁夜夜躁狠狠久久av| 成人国产麻豆网| 亚洲欧洲日产国产| 国精品久久久久久国模美| 日韩免费高清中文字幕av| 最近2019中文字幕mv第一页| 丝袜喷水一区| 亚洲经典国产精华液单| 亚洲熟女精品中文字幕| 国产av不卡久久| 国产国拍精品亚洲av在线观看| 久久久久久久午夜电影| 性插视频无遮挡在线免费观看| 久久精品夜色国产| 18禁动态无遮挡网站| 欧美潮喷喷水| 在线精品无人区一区二区三 | 国产高潮美女av| 亚洲欧美成人综合另类久久久| 欧美国产精品一级二级三级 | 国产乱人视频| 国产精品久久久久久精品电影| 一级毛片电影观看| 国产精品久久久久久av不卡| av女优亚洲男人天堂| 精品人妻一区二区三区麻豆| 亚洲在久久综合| 久久这里有精品视频免费| 免费大片黄手机在线观看| 亚洲成人av在线免费| 成年女人看的毛片在线观看| 黄片无遮挡物在线观看| 久久久成人免费电影| 久久久精品94久久精品| 欧美性猛交╳xxx乱大交人| 最后的刺客免费高清国语| 狂野欧美激情性bbbbbb| 蜜桃亚洲精品一区二区三区| 精品人妻一区二区三区麻豆| 色5月婷婷丁香| av天堂中文字幕网| 欧美xxⅹ黑人| 自拍偷自拍亚洲精品老妇| 中文精品一卡2卡3卡4更新| 国产黄a三级三级三级人| 一本色道久久久久久精品综合| 一区二区三区免费毛片| 最后的刺客免费高清国语| 女人被狂操c到高潮| 中文字幕人妻熟人妻熟丝袜美| 熟女av电影| 成人高潮视频无遮挡免费网站| 大陆偷拍与自拍| 永久网站在线| 亚洲精品成人久久久久久| 亚洲欧美成人综合另类久久久| 丰满乱子伦码专区| 少妇猛男粗大的猛烈进出视频 | 丰满少妇做爰视频| 99热6这里只有精品| 亚洲久久久久久中文字幕| 黄色欧美视频在线观看| 欧美高清成人免费视频www| 美女内射精品一级片tv| 韩国高清视频一区二区三区| 国产伦精品一区二区三区四那| 一个人看的www免费观看视频| 日产精品乱码卡一卡2卡三| 国国产精品蜜臀av免费| 精品人妻熟女av久视频| 97在线人人人人妻| 色综合色国产| 国产一区二区三区av在线| 久久久久久久午夜电影| 少妇猛男粗大的猛烈进出视频 | 国内精品美女久久久久久| 精品久久久久久电影网| 一区二区三区四区激情视频| 极品教师在线视频| 在线播放无遮挡| 天天躁夜夜躁狠狠久久av| 亚洲自偷自拍三级| 99久国产av精品国产电影| 新久久久久国产一级毛片| av福利片在线观看| 亚洲成人精品中文字幕电影| 午夜日本视频在线| 男女下面进入的视频免费午夜| 五月玫瑰六月丁香| 亚洲欧美日韩卡通动漫| 国产精品一区www在线观看| 国产 一区 欧美 日韩| 亚洲国产日韩一区二区| av在线蜜桃| 成人国产麻豆网| 视频中文字幕在线观看| 在线免费十八禁| videos熟女内射| 亚洲无线观看免费| 国产午夜精品久久久久久一区二区三区| 亚洲欧美日韩卡通动漫| 亚洲三级黄色毛片| 欧美日韩视频精品一区| 日本一二三区视频观看| 亚洲,欧美,日韩| 免费av毛片视频| 人妻少妇偷人精品九色| 精品少妇黑人巨大在线播放| 99久久精品热视频| 狂野欧美激情性bbbbbb| 亚洲av二区三区四区| 国产男人的电影天堂91| 18禁动态无遮挡网站| 日本-黄色视频高清免费观看| 搡老乐熟女国产| 狠狠精品人妻久久久久久综合| 一级毛片黄色毛片免费观看视频| 青春草亚洲视频在线观看| 99热这里只有精品一区| 久久久亚洲精品成人影院| 啦啦啦中文免费视频观看日本| 国产大屁股一区二区在线视频| 国产永久视频网站| 少妇猛男粗大的猛烈进出视频 | 一级毛片久久久久久久久女| 免费黄频网站在线观看国产| 国产一区二区三区av在线| 最近手机中文字幕大全| 午夜免费男女啪啪视频观看| 亚洲国产精品专区欧美| 人妻系列 视频| 老司机影院毛片| 丰满乱子伦码专区| 精品人妻一区二区三区麻豆| 久久99精品国语久久久| 我要看日韩黄色一级片| 国产69精品久久久久777片| 岛国毛片在线播放| 亚洲成人中文字幕在线播放| 亚洲最大成人手机在线| 久久精品国产亚洲av涩爱| 亚洲精品乱久久久久久| 男人狂女人下面高潮的视频| 国产免费福利视频在线观看| 视频中文字幕在线观看| 欧美97在线视频| av免费观看日本| 久久久色成人| 久久久久久久久久久免费av| 久久影院123| 亚洲国产精品国产精品| 国产精品国产三级专区第一集| 美女内射精品一级片tv| 日日摸夜夜添夜夜添av毛片| 爱豆传媒免费全集在线观看| 极品教师在线视频| 中文字幕av成人在线电影| 欧美成人a在线观看| 波多野结衣巨乳人妻| 少妇人妻 视频| 精品人妻熟女av久视频| 国产老妇女一区| 久久影院123| 在线观看人妻少妇| 黄片wwwwww| 亚洲成人久久爱视频| 天天一区二区日本电影三级| 亚洲欧洲日产国产| 最近最新中文字幕大全电影3| 亚洲成人精品中文字幕电影| 乱系列少妇在线播放| 色综合色国产| 久久影院123| 国产高清三级在线| 99热国产这里只有精品6| 久久久久精品性色| 国产老妇女一区| 青青草视频在线视频观看| 国产色爽女视频免费观看| 亚洲成人精品中文字幕电影| 国产美女午夜福利| 美女脱内裤让男人舔精品视频| 听说在线观看完整版免费高清| av在线老鸭窝| 国内揄拍国产精品人妻在线| 久久人人爽人人片av| 免费观看在线日韩| 毛片一级片免费看久久久久| 内射极品少妇av片p| 啦啦啦在线观看免费高清www| 中文字幕亚洲精品专区| 国产精品国产三级专区第一集| 男插女下体视频免费在线播放| 亚洲,欧美,日韩| 九色成人免费人妻av| 久久精品国产亚洲av天美| 日产精品乱码卡一卡2卡三| 99久久精品国产国产毛片| 国产欧美亚洲国产| 偷拍熟女少妇极品色| 国产免费又黄又爽又色| 美女国产视频在线观看| 久久久久久九九精品二区国产| 国产高清有码在线观看视频| 日韩在线高清观看一区二区三区| 亚洲内射少妇av| 亚洲国产精品国产精品| 精品国产乱码久久久久久小说| 亚洲精品成人av观看孕妇| 日本免费在线观看一区| 毛片一级片免费看久久久久| 国产毛片在线视频| av一本久久久久| 国产一区有黄有色的免费视频| 欧美日韩精品成人综合77777| 狂野欧美白嫩少妇大欣赏| 欧美区成人在线视频| 亚洲精品久久午夜乱码| 亚洲精品一二三| 在线观看三级黄色| 尤物成人国产欧美一区二区三区| 精品久久久久久久久亚洲| 最近的中文字幕免费完整| 欧美区成人在线视频| 啦啦啦中文免费视频观看日本| 国产精品国产av在线观看| 亚洲自偷自拍三级| 国产大屁股一区二区在线视频| 3wmmmm亚洲av在线观看| 日本黄色片子视频| 亚洲精品日韩在线中文字幕| 麻豆成人午夜福利视频| 国内精品美女久久久久久| 亚洲精品影视一区二区三区av| 99re6热这里在线精品视频| 成人特级av手机在线观看| 亚洲在线观看片| 搡女人真爽免费视频火全软件| 亚洲精品成人av观看孕妇| 成人毛片60女人毛片免费| videossex国产| 成人高潮视频无遮挡免费网站| 久久久精品欧美日韩精品| 亚洲在线观看片| 国产精品久久久久久精品电影| 欧美日韩亚洲高清精品| av免费观看日本| a级毛色黄片| 国内少妇人妻偷人精品xxx网站| 午夜福利视频1000在线观看| 色网站视频免费| 69av精品久久久久久| 中文资源天堂在线| 久久ye,这里只有精品| 成人一区二区视频在线观看| 亚洲自偷自拍三级| 在线观看一区二区三区激情| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 精品人妻偷拍中文字幕| 国产 精品1| 国产成人精品久久久久久| 一区二区三区乱码不卡18| 大香蕉久久网| 一区二区三区四区激情视频| 国产欧美亚洲国产| 国产高清有码在线观看视频| 免费大片黄手机在线观看| 少妇裸体淫交视频免费看高清| 赤兔流量卡办理| 午夜激情久久久久久久| 黄色欧美视频在线观看| 亚洲精品色激情综合| 亚洲av在线观看美女高潮| 26uuu在线亚洲综合色| 性色av一级| 2022亚洲国产成人精品| 人妻系列 视频| 亚洲精品亚洲一区二区| 国产黄色视频一区二区在线观看| 国产爱豆传媒在线观看| 国产黄色视频一区二区在线观看| 亚洲一区二区三区欧美精品 | 3wmmmm亚洲av在线观看| 狠狠精品人妻久久久久久综合| 亚洲成人中文字幕在线播放| 午夜精品国产一区二区电影 | 一级黄片播放器| 亚洲激情五月婷婷啪啪| 国产乱来视频区| 亚洲精品亚洲一区二区| 三级国产精品片| 午夜福利在线在线| 青春草国产在线视频| 婷婷色麻豆天堂久久| 国产精品一区www在线观看| 午夜福利网站1000一区二区三区| 国产片特级美女逼逼视频| 亚洲欧美精品自产自拍| 一本一本综合久久| 中文天堂在线官网| 亚洲精品第二区| 亚洲精品自拍成人| 国产视频内射| 成人黄色视频免费在线看| 干丝袜人妻中文字幕| 国产精品成人在线| 免费看日本二区| 亚洲自拍偷在线| 国产69精品久久久久777片| 国产精品福利在线免费观看| 欧美3d第一页| 亚洲成人中文字幕在线播放| 亚洲不卡免费看| 亚洲av成人精品一二三区| 亚洲不卡免费看| 精品久久久久久电影网| 真实男女啪啪啪动态图| 国产一区亚洲一区在线观看| 国产色爽女视频免费观看| 爱豆传媒免费全集在线观看| 成人一区二区视频在线观看| 国产亚洲最大av| 午夜视频国产福利| 国产精品精品国产色婷婷| 日韩成人伦理影院| 色视频在线一区二区三区| 亚洲在久久综合| 久久6这里有精品| 国产探花极品一区二区| 天天躁日日操中文字幕| 九九在线视频观看精品| 五月天丁香电影| 男的添女的下面高潮视频| 亚洲欧美一区二区三区国产| 亚洲欧美精品专区久久| 国产欧美日韩一区二区三区在线 | 国产淫语在线视频| 日韩强制内射视频| 国产成人一区二区在线| av在线播放精品| 岛国毛片在线播放| 最后的刺客免费高清国语| 欧美日韩一区二区视频在线观看视频在线 | 国产乱人偷精品视频| 亚洲国产av新网站| 男女那种视频在线观看| 一级a做视频免费观看| 可以在线观看毛片的网站| 男女国产视频网站| 高清视频免费观看一区二区| 女人十人毛片免费观看3o分钟| 少妇高潮的动态图| 插阴视频在线观看视频| av网站免费在线观看视频| 在线免费观看不下载黄p国产| 亚洲av国产av综合av卡| 女人被狂操c到高潮| 黄片wwwwww| 伊人久久国产一区二区| 啦啦啦在线观看免费高清www| a级一级毛片免费在线观看| 亚洲精品国产成人久久av| 国产伦在线观看视频一区| 国产精品精品国产色婷婷| 亚洲最大成人中文| 欧美日韩视频高清一区二区三区二| 久久鲁丝午夜福利片| 午夜免费鲁丝| 免费av不卡在线播放| 99久久精品国产国产毛片| 久久久久久九九精品二区国产| 97精品久久久久久久久久精品| 亚洲欧美精品专区久久| 日本三级黄在线观看| 18禁裸乳无遮挡动漫免费视频 | 校园人妻丝袜中文字幕| .国产精品久久| 国产亚洲精品久久久com| 午夜福利高清视频| 国产精品伦人一区二区| 亚洲国产av新网站| 亚洲真实伦在线观看| 蜜桃亚洲精品一区二区三区| 日日撸夜夜添| 久久久精品免费免费高清| 国产精品女同一区二区软件| 亚洲色图av天堂| 国产亚洲av嫩草精品影院| 国产永久视频网站| 成人二区视频| 亚洲国产精品专区欧美| av专区在线播放| 欧美一区二区亚洲| 免费大片黄手机在线观看| 丰满少妇做爰视频| 在线观看av片永久免费下载| 美女视频免费永久观看网站| 99久久中文字幕三级久久日本| 联通29元200g的流量卡| 视频中文字幕在线观看| 国产老妇女一区| 丝袜脚勾引网站| 免费高清在线观看视频在线观看| 亚洲国产成人一精品久久久| 爱豆传媒免费全集在线观看| kizo精华| 亚洲国产精品成人综合色| 日本免费在线观看一区| 99热6这里只有精品| 3wmmmm亚洲av在线观看| 成人美女网站在线观看视频| 美女xxoo啪啪120秒动态图| 看十八女毛片水多多多| 在线免费十八禁| 街头女战士在线观看网站| 亚洲图色成人| 亚洲欧洲日产国产| 看免费成人av毛片| 春色校园在线视频观看| 亚洲一区二区三区欧美精品 | 欧美精品国产亚洲| 欧美+日韩+精品| 亚洲精品影视一区二区三区av| 国产精品一区二区性色av| 99热这里只有是精品在线观看| 少妇人妻 视频| 中文字幕久久专区| 国产综合精华液| 欧美最新免费一区二区三区| 高清欧美精品videossex| 婷婷色麻豆天堂久久| 免费黄网站久久成人精品| 中文精品一卡2卡3卡4更新| 亚洲无线观看免费| 国语对白做爰xxxⅹ性视频网站| 交换朋友夫妻互换小说| 特大巨黑吊av在线直播| 亚州av有码| 国产精品人妻久久久久久| 女人十人毛片免费观看3o分钟| 亚洲欧美精品自产自拍| 亚洲成人一二三区av| 99久久中文字幕三级久久日本| 国产精品国产av在线观看| 国产成人免费无遮挡视频| 麻豆久久精品国产亚洲av| 成人二区视频| 国产欧美另类精品又又久久亚洲欧美| 91狼人影院| 性色avwww在线观看| 亚洲av中文av极速乱| 欧美成人午夜免费资源| 久久久久久久午夜电影| h日本视频在线播放| 精品一区二区三区视频在线| 婷婷色综合大香蕉| 精品视频人人做人人爽| 91在线精品国自产拍蜜月| av.在线天堂| 麻豆乱淫一区二区| 久久久成人免费电影| 国产午夜精品一二区理论片| 美女内射精品一级片tv| 亚洲av中文av极速乱| 99久久人妻综合| 成人特级av手机在线观看| h日本视频在线播放| 国产美女午夜福利| 一区二区av电影网| 久久这里有精品视频免费| 69av精品久久久久久| 男的添女的下面高潮视频| 国产欧美日韩一区二区三区在线 | 国产中年淑女户外野战色| 久久久久国产网址| 国产一区二区三区av在线| 亚洲精品第二区| 神马国产精品三级电影在线观看| 热99国产精品久久久久久7| 国产午夜福利久久久久久| 国产精品嫩草影院av在线观看| 大话2 男鬼变身卡| 亚洲国产色片| 日韩av不卡免费在线播放| 麻豆乱淫一区二区| av播播在线观看一区| 国产一级毛片在线| 国内揄拍国产精品人妻在线| 高清在线视频一区二区三区| 国产欧美另类精品又又久久亚洲欧美| 成年女人在线观看亚洲视频 | 18禁动态无遮挡网站| 国产精品av视频在线免费观看| 最近最新中文字幕大全电影3| 中文精品一卡2卡3卡4更新| a级一级毛片免费在线观看| 18禁在线播放成人免费| 免费大片黄手机在线观看| 97热精品久久久久久| 午夜福利在线观看免费完整高清在| 久久久久网色| 汤姆久久久久久久影院中文字幕| 蜜桃亚洲精品一区二区三区| 亚洲国产av新网站| 国产成人a区在线观看| 国产亚洲午夜精品一区二区久久 | 最近手机中文字幕大全| 亚洲熟女精品中文字幕| 成人欧美大片| 欧美日韩国产mv在线观看视频 | 一区二区三区四区激情视频| 国内少妇人妻偷人精品xxx网站| 99久久人妻综合| 一级二级三级毛片免费看| 免费观看av网站的网址| 欧美成人精品欧美一级黄| 少妇的逼好多水| 欧美最新免费一区二区三区| 久久精品久久久久久久性| 大码成人一级视频| 成人高潮视频无遮挡免费网站| 国产黄色视频一区二区在线观看| 亚洲av.av天堂| 伦精品一区二区三区| 在线免费十八禁| 亚洲伊人久久精品综合| 久久久久久久久久成人| 简卡轻食公司| 亚洲av男天堂| 特级一级黄色大片| 国产精品一区www在线观看| 亚洲综合色惰| 国产探花极品一区二区| 熟女人妻精品中文字幕| 免费电影在线观看免费观看| 看免费成人av毛片| 一级黄片播放器| 五月玫瑰六月丁香| 国产黄片美女视频| 热re99久久精品国产66热6| 国产男女内射视频| 99视频精品全部免费 在线| 国产精品久久久久久精品古装| 国产av不卡久久| 色网站视频免费| 如何舔出高潮| 欧美少妇被猛烈插入视频| 色网站视频免费| 日韩 亚洲 欧美在线| 国产 一区精品| 乱码一卡2卡4卡精品| 97在线视频观看| 看免费成人av毛片| 一本一本综合久久|