• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    MTruths:Web信息多真值發(fā)現(xiàn)方法

    2016-12-22 04:19:47馬如霞孟小峰史英杰
    計(jì)算機(jī)研究與發(fā)展 2016年12期
    關(guān)鍵詞:查全率查準(zhǔn)率真值

    馬如霞 孟小峰 王 璐 史英杰

    1(中國(guó)人民大學(xué)信息學(xué)院 北京 100872)2(首都師范大學(xué)教育技術(shù)系 北京 100048)3(北京服裝學(xué)院信息工程學(xué)院 北京 100029)(maruxia@126.com)

    ?

    MTruths:Web信息多真值發(fā)現(xiàn)方法

    馬如霞1,2孟小峰1王 璐1史英杰3

    1(中國(guó)人民大學(xué)信息學(xué)院 北京 100872)2(首都師范大學(xué)教育技術(shù)系 北京 100048)3(北京服裝學(xué)院信息工程學(xué)院 北京 100029)(maruxia@126.com)

    Web已成為一個(gè)浩瀚的信息海洋,其信息分散在不同的數(shù)據(jù)源中.不同數(shù)據(jù)源常常為同一對(duì)象實(shí)體提供沖突的屬性值.如何從這些沖突屬性值中找到真值被稱為真值發(fā)現(xiàn)問題.根據(jù)屬性值數(shù)量可將對(duì)象屬性分為單值屬性和多值屬性,現(xiàn)有的多數(shù)真值發(fā)現(xiàn)算法對(duì)單值屬性的真值發(fā)現(xiàn)比較有效.針對(duì)多值屬性的真值發(fā)現(xiàn)問題,提出了一個(gè)多真值發(fā)現(xiàn)方法MTruths,該方法將多真值發(fā)現(xiàn)問題轉(zhuǎn)化為一個(gè)最優(yōu)化問題,其目標(biāo)是:各對(duì)象的真值與各數(shù)據(jù)源提供的觀察值之間的相似性加權(quán)和達(dá)到最大.對(duì)象真值求解過(guò)程中,提出2種方法求真值列表的最優(yōu)解:基于枚舉的方法和貪心算法.與已有方法不同的是MTruths可以直接得到對(duì)象的多個(gè)真值.最后,通過(guò)圖書和電影2個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,MTruths的2種實(shí)現(xiàn)方法的準(zhǔn)確性以及貪心算法的效率優(yōu)于現(xiàn)有真值發(fā)現(xiàn)方法.

    真值發(fā)現(xiàn);數(shù)據(jù)沖突;單值屬性;多值屬性;數(shù)據(jù)源質(zhì)量

    互聯(lián)網(wǎng)信息量正以驚人的速度急劇增長(zhǎng),儼然成為一個(gè)巨大的信息庫(kù).Web已經(jīng)滲透到人們?nèi)粘Ia(chǎn)、生活的方方面面,逐漸成為人們獲取信息的重要來(lái)源.人們?cè)谙硎軄?lái)自Web豐富信息的同時(shí),也受到信息質(zhì)量問題的困擾,大量錯(cuò)誤、過(guò)時(shí)、不完整、虛假信息充斥于網(wǎng)絡(luò).其中,信息沖突問題尤為突出,不同數(shù)據(jù)源為相同對(duì)象同一屬性提供沖突的值.例如,不同圖書網(wǎng)站為同一本書提供了不同的作者信息,如表1所示;各航空網(wǎng)站為同一航班提供不同的登機(jī)時(shí)間、在線零售商為同一商品提供了不一致的產(chǎn)品規(guī)格說(shuō)明等.這些沖突信息可能由于輸入錯(cuò)誤、信息過(guò)期、語(yǔ)義理解不一致、抽取程序錯(cuò)誤等各種原因造成,給用戶帶來(lái)誤導(dǎo)甚至造成巨大損失.如何從不同數(shù)據(jù)源提供的沖突信息中找到正確信息是提高Web信息質(zhì)量亟待解決的問題,該問題也被稱為真值發(fā)現(xiàn)問題[1].

    真值發(fā)現(xiàn)問題已有一系列研究工作.其最簡(jiǎn)單直觀的方法是采用投票的方法,當(dāng)獲得的票數(shù)占總票數(shù)比例達(dá)到某個(gè)閾值時(shí)認(rèn)為該屬性值為真.由于數(shù)據(jù)源質(zhì)量存在差異,因此在投票時(shí)需要考慮數(shù)據(jù)源的質(zhì)量因素,可將數(shù)據(jù)源質(zhì)量作為先驗(yàn)知識(shí),采用加權(quán)投票的方法得到真值.但當(dāng)大多數(shù)數(shù)據(jù)源都發(fā)生錯(cuò)誤時(shí),投票方法很難得到正確的結(jié)果.并且在實(shí)際中,往往沒有數(shù)據(jù)源質(zhì)量的先驗(yàn)知識(shí),為此文獻(xiàn)[1-5]采用無(wú)監(jiān)督的方法迭代地計(jì)算各屬性值可信性以及數(shù)據(jù)源質(zhì)量.為了簡(jiǎn)化問題很多方法提出“對(duì)象屬性真值唯一性”假設(shè),并且最終選擇可信性分值最大或者為真概率最大的屬性值作為真值,此類方法適用于單值屬性的真值求解問題.然而,實(shí)際生活中的多值屬性比比皆是,如一本圖書可以有多個(gè)作者、一部電影可以有多個(gè)主演、一個(gè)人可以有多個(gè)電話號(hào)碼等.針對(duì)這些多值屬性,不但要確保所找到真值的正確性,而且要盡可能找到所有真值,我們稱該問題為多真值發(fā)現(xiàn)問題.與投票方法類似,解決此問題最直觀的方法是設(shè)置閾值:選擇TopN個(gè)可信性分值的屬性值作為真值,或者選擇為真概率大于K的屬性值作為真值.但是,閾值K的選擇是一個(gè)挑戰(zhàn)性的問題,其直接影響算法的查準(zhǔn)率和查全率,例如:屬性值為真概率的閾值選擇越大查準(zhǔn)率越高,但查全率隨之降低.

    本文目標(biāo)是解決多值屬性的真值發(fā)現(xiàn)問題,主要貢獻(xiàn)有3點(diǎn):

    1) 將多真值發(fā)現(xiàn)問題轉(zhuǎn)化為一個(gè)最優(yōu)化問題.根據(jù)2個(gè)觀察:對(duì)象的真值情況應(yīng)該盡可能與各數(shù)據(jù)源提供的觀察值接近;數(shù)據(jù)源的質(zhì)量評(píng)估至關(guān)重要,其影響了真值發(fā)現(xiàn)的準(zhǔn)確率,數(shù)據(jù)源的質(zhì)量越高則其提供的對(duì)象屬性值列表與真值列表越相似.該優(yōu)化問題的目標(biāo)函數(shù)是:各對(duì)象的真值取值與數(shù)據(jù)源提供的該對(duì)象觀察值之間相似度權(quán)重之和達(dá)到最大,其中權(quán)重是數(shù)據(jù)源質(zhì)量.通過(guò)該方法直接得到對(duì)象的真值列表,避免通過(guò)閾值的設(shè)置選擇對(duì)象真值.

    2) 真值計(jì)算過(guò)程中,我們首先提出了一個(gè)枚舉的方法求最優(yōu)解,但該方法的時(shí)間復(fù)雜度為對(duì)象可能值集大小的指數(shù)量級(jí).為了提高算法的執(zhí)行效率,我們提出了一個(gè)貪心算法求近似解,將時(shí)間復(fù)雜度從可能值集長(zhǎng)度的指數(shù)量級(jí)降到線性量級(jí).

    3) 通過(guò)2個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明:在準(zhǔn)確性方面,基于枚舉的方法和貪心算法均優(yōu)于現(xiàn)有真值發(fā)現(xiàn)算法;在效率方面,貪心算法優(yōu)于現(xiàn)有的真值發(fā)現(xiàn)方法.

    1 相關(guān)工作

    Yin等人[1]首次提出真值發(fā)現(xiàn)問題,并提出一種迭代機(jī)制聯(lián)合推導(dǎo)數(shù)據(jù)源質(zhì)量和對(duì)象真值.該方法基于啟發(fā)式:高質(zhì)量數(shù)據(jù)源提供的對(duì)象值更可能為真,提供越多真值的數(shù)據(jù)源其質(zhì)量越高.后續(xù)一系列相關(guān)研究工作都是在此工作基礎(chǔ)之上考慮不同場(chǎng)景、不同影響因素、不同的對(duì)象真值和數(shù)據(jù)源可信性計(jì)算方法對(duì)基本算法進(jìn)行了各種擴(kuò)展:1)考慮數(shù)據(jù)源之間相互依賴關(guān)系提高真值發(fā)現(xiàn)的準(zhǔn)確率,如拷貝關(guān)系[2-3,6- 7]、隱含分組結(jié)構(gòu)關(guān)系[4]和關(guān)聯(lián)關(guān)系[8];2)考慮對(duì)象難易程度對(duì)真值發(fā)現(xiàn)的影響[5],通過(guò)估計(jì)每個(gè)對(duì)象真值判斷的難易程度,避免數(shù)據(jù)源從相對(duì)容易的事實(shí)那里獲得過(guò)高的可信性分值;3)真值發(fā)現(xiàn)的在線處理[9-10],解決很多真值發(fā)現(xiàn)方法由于其時(shí)間和空間復(fù)雜度只適合一次計(jì)算的問題;4)考慮屬性值之間相互關(guān)系,如屬性值之間的相似性[1-2]等;5)考慮數(shù)據(jù)源不同的質(zhì)量評(píng)估方法[3,5,8],一個(gè)好的數(shù)據(jù)源質(zhì)量模型是解決真值發(fā)現(xiàn)的關(guān)鍵.

    上述真值發(fā)現(xiàn)方法中,文獻(xiàn)[1-6,9-10]的真值計(jì)算模型均基于單真值假設(shè),部分計(jì)算模型不適用于對(duì)象的多真值計(jì)算.另外由于這些算法只是返回各屬性值的可信性分值,如何根據(jù)可信性分值選擇多個(gè)真值仍是一個(gè)挑戰(zhàn).而本文提出的多真值發(fā)現(xiàn)算法,可以直接返回對(duì)象的真值列表.

    文獻(xiàn)[8,11]可以處理多真值發(fā)現(xiàn)問題.文獻(xiàn)[11]將數(shù)據(jù)源質(zhì)量和對(duì)象屬性值正確性作為隱含變量構(gòu)建一個(gè)概率圖模型(LTM)自動(dòng)推導(dǎo)對(duì)象屬性值可信性和數(shù)據(jù)源質(zhì)量,它是第1個(gè)可以處理多值屬性真值發(fā)現(xiàn)的方法.LTM方法假設(shè)數(shù)據(jù)源的準(zhǔn)確率和召回率服從Beta分布,據(jù)此推導(dǎo)屬性值為真的概率. 如果真實(shí)數(shù)據(jù)集不滿足假設(shè)的分布,則LTM算法的效率則受到很大影響.與LTM方法不同,本文將多真值問題轉(zhuǎn)化為最優(yōu)化問題,因此對(duì)真實(shí)數(shù)據(jù)集的分布沒有限制.文獻(xiàn)[8]基于貝葉斯方法對(duì)數(shù)據(jù)源之間的關(guān)系進(jìn)行建模,從而提高真值發(fā)現(xiàn)算法的準(zhǔn)確率,該模型中考慮了多真值發(fā)現(xiàn)問題.與本文方法不同的是:該方法采用監(jiān)督學(xué)習(xí)的方法,通過(guò)訓(xùn)練數(shù)據(jù)直接計(jì)算數(shù)據(jù)源的質(zhì)量,進(jìn)而推導(dǎo)屬性值為真的概率;而本文采用無(wú)監(jiān)督的迭代機(jī)制聯(lián)合推導(dǎo)數(shù)據(jù)源質(zhì)量和對(duì)象真值列表.另外,文獻(xiàn)[8, 11]均返回屬性值為真的概率,因此選擇真值列表時(shí)同樣需要確定選擇概率值大于閾值K的屬性值為真值,而本文提出的方法可直接返回對(duì)象真值列表避免閾值的選擇問題.

    2 問題定義

    下面我們首先介紹問題相關(guān)定義.

    定義1. 多值屬性.表示對(duì)象在某一特定屬性上可以有多個(gè)值.

    例1. 如表1所示,圖書作者屬性就是一個(gè)多值屬性.一本書可以同時(shí)有多個(gè)作者.每個(gè)數(shù)據(jù)源可以為同一對(duì)象的某個(gè)屬性提供多個(gè)屬性值.例如Barnes & Noble數(shù)據(jù)源為Rapid Contextual Design圖書提供了3個(gè)作者.

    定義2. 對(duì)象可能值集.所有數(shù)據(jù)源為該對(duì)象提供屬性值的集合,即各數(shù)據(jù)源為該對(duì)象提供的屬性值集合的并集.

    例2. 如表1所示,Rapid Contextual Design的可能值集是所有數(shù)據(jù)源為其提供的作者集合{Karen Holtzblatt, Jessamyn Wendell, Shelley Wood,Jessamyn Burns Wendell,Wood}.

    定義3. 對(duì)象值向量.該向量為二值向量,描述了給定數(shù)據(jù)源提供的對(duì)象觀察值在對(duì)象可能值集上的分布情況.

    對(duì)象值向量的獲得方法是:向量長(zhǎng)度為該對(duì)象可能值集的長(zhǎng)度,如果數(shù)據(jù)源提供了對(duì)象可能值集上的第i個(gè)對(duì)象值,則其對(duì)象值向量的第i個(gè)元素設(shè)置為1,否則設(shè)置為0.

    例3. 如表1所示,根據(jù)例1中得到的對(duì)象可能值集,數(shù)據(jù)源Barnes & Noble的對(duì)象值向量為(1,1,1,0,0).

    定義4. 數(shù)據(jù)源質(zhì)量.表示數(shù)據(jù)源提供對(duì)象值的準(zhǔn)確性.這里我們采用數(shù)據(jù)源提供的對(duì)象值與對(duì)象真值之間總體的相似性來(lái)衡量,即如果數(shù)據(jù)源提供的對(duì)象值情況越接近于對(duì)象真值則其質(zhì)量越高.

    定義5. 多真值發(fā)現(xiàn)問題.從多個(gè)數(shù)據(jù)源提供的沖突數(shù)據(jù)中找到對(duì)象多值屬性的真值列表.

    3 MTruths:多真值發(fā)現(xiàn)方法

    我們的目標(biāo)是找到最可能正確的對(duì)象屬性值集合{Truthi|1≤i≤N},得到的結(jié)果應(yīng)該盡可能與沖突集中數(shù)據(jù)源提供的對(duì)象值情況相似.但是不同的數(shù)據(jù)源其質(zhì)量不同,高質(zhì)量數(shù)據(jù)源提供的對(duì)象值與真值的相似度越高,而低質(zhì)量的數(shù)據(jù)源其相似度越低.考慮到實(shí)際應(yīng)用中數(shù)據(jù)源的質(zhì)量一般沒有先驗(yàn)知識(shí)提供,因此本文采用無(wú)監(jiān)督的迭代方法計(jì)算,每次迭代過(guò)程分2步進(jìn)行:1)通過(guò)上次迭代獲得的數(shù)據(jù)源質(zhì)量計(jì)算真值情況;2)通過(guò)本次迭代獲得的真值情況計(jì)算數(shù)據(jù)源的質(zhì)量.接下來(lái)我們首先介紹數(shù)據(jù)源質(zhì)量的評(píng)估方法,然后介紹多真值發(fā)現(xiàn)方法.本節(jié)中所使用的所有變量如表2所示:

    Table 2 Variables of MTruths

    3.1 數(shù)據(jù)源質(zhì)量評(píng)估

    數(shù)據(jù)源質(zhì)量越高則其提供的對(duì)象觀察值與對(duì)象真值越相似,反之其質(zhì)量越低則兩者相似性越低.因此,本文通過(guò)數(shù)據(jù)源提供的對(duì)象觀察值與對(duì)象真值之間的相似性來(lái)度量數(shù)據(jù)源質(zhì)量.

    針對(duì)多值屬性,每個(gè)對(duì)象可能有多個(gè)真值,并且每個(gè)數(shù)據(jù)源可以為每個(gè)對(duì)象提供多個(gè)值,因此本文采用二值向量表示對(duì)象的取值情況.令向量Ai,j表示數(shù)據(jù)源si為對(duì)象oj提供的值向量.向量Ai,j的長(zhǎng)度為對(duì)象oj可能值集V*,j的長(zhǎng)度Lj.向量Ai,j中第l個(gè)元素的取值為

    (1)

    為了計(jì)算數(shù)據(jù)源提供的對(duì)象觀察值與真值之間的相似性,首先需要定義不同值向量之間相似性計(jì)算公式.我們計(jì)算值向量之間相似性時(shí),不但考慮數(shù)據(jù)源對(duì)象值肯定的相似,還考慮其對(duì)象值否定的相似性.信息檢索中常采用向量?jī)?nèi)積的方法計(jì)算2個(gè)文檔向量相似性,但由于其只考慮對(duì)象值肯定的相似性,而忽略了否定相似性.例如2個(gè)向量(1,0,0,1,0)和(1,0,1,1,0)內(nèi)積結(jié)果為2,表示有2個(gè)同為1的元素,但是未考慮同為0的元素相似性.本文提出2種向量相似性計(jì)算方法考慮了屬性值否定相似性因素.方法1可采用向量余弦相似性度量2向量之間相似性:

    (2)

    第2種相似性計(jì)算方法為

    (3)

    其中,向量Di,j描述Ai,j與A*,j中對(duì)應(yīng)元素是否相同,計(jì)算方法為

    (4)

    計(jì)算數(shù)據(jù)源質(zhì)量我們使用數(shù)據(jù)源提供的所有對(duì)象的值與其真值之間的相似性度量:

    (5)

    對(duì)Qi進(jìn)行標(biāo)準(zhǔn)化處理為

    (6)

    通過(guò)上述方法評(píng)估數(shù)據(jù)源質(zhì)量.接下來(lái),根據(jù)取得的數(shù)據(jù)源質(zhì)量信息進(jìn)一步計(jì)算對(duì)象的真值集合.

    3.2 多真值發(fā)現(xiàn)

    對(duì)象的真值選取結(jié)果應(yīng)該最大程度地接近沖突數(shù)據(jù)集D提供的對(duì)象取值情況,即得到的真值向量與沖突數(shù)據(jù)集提供的值向量相似度達(dá)到最大,其目標(biāo)函數(shù)為

    (7)

    由于迭代過(guò)程中計(jì)算對(duì)象真值時(shí)數(shù)據(jù)源質(zhì)量已經(jīng)確定,且本文提出的2個(gè)相似性函數(shù)均為凸函數(shù),所以目標(biāo)函數(shù)是凸函數(shù)的線性組合,故該目標(biāo)函數(shù)也為凸函數(shù),定能找到一個(gè)最優(yōu)解使得目標(biāo)函數(shù)取最大值.

    下面我們提出2種求最優(yōu)解的方法:枚舉法、貪心算法.

    1) 枚舉法

    算法1. 基于枚舉的方法(Enum_M).

    輸入: 所有數(shù)據(jù)源為對(duì)象oj提供的值集V*,j、各數(shù)據(jù)源質(zhì)量{Qi|1≤i≤M};

    輸出: 對(duì)象oj真值向量A*,j.

    ① forx=1 to 2Lj-1

    ② 將B設(shè)置為長(zhǎng)度是Lj的零向量;

    ③i=1;

    ④ whilex!=0 do

    ⑤B[i++]=x%2;

    ⑥x=x2;

    ⑦ end while

    ⑧ fori=1 toM

    ⑨t(yī)emp+=Qi×sim(Ai,j,B);

    ⑩ end for

    2) 貪心算法

    鑒于枚舉方法時(shí)間復(fù)雜性過(guò)高,當(dāng)對(duì)象可能值集太大時(shí),其算法執(zhí)行效率低.為了減少需要比較的值向量數(shù)目,本文設(shè)計(jì)了一個(gè)對(duì)象真值選擇策略:以對(duì)象值為真的可能性高低先將對(duì)象進(jìn)行排序,優(yōu)先選擇正確可能性高的對(duì)象值作為真值.

    對(duì)象值為真的可能性通過(guò)各數(shù)據(jù)源加權(quán)投票的方法度量:

    (8)

    根據(jù)式(8)生成對(duì)象oj各值為真的可能性向量Wj.

    算法2. 多真值發(fā)現(xiàn)的貪心算法(Greedy_M).

    輸入: 所有數(shù)據(jù)源為對(duì)象oj提供的值集V*,j、各數(shù)據(jù)源質(zhì)量信息{Qi|1≤i≤M};

    輸出: 對(duì)象oj的真值向量A*,j.

    ① 初始化temp_max=0,A*,j以及B為零向量;

    ② fori=1 toLj

    ③ 根據(jù)式(8)計(jì)算對(duì)象oj第i個(gè)值為真的概率wj,i;

    ④ end for

    ⑤i=1;

    ⑥ do

    ⑦l=SelectTop(Wj,i);

    ⑧change=false,temp=0,B[l]=1;

    ⑨ fork=1 toM

    ⑩temp+=Qk×sim(Ak,j,B);

    3.3 算法流程框架

    到目前為止,我們已經(jīng)討論了數(shù)據(jù)源質(zhì)量評(píng)估以及多真值計(jì)算方法.正如第3節(jié)所述,整個(gè)計(jì)算過(guò)程是數(shù)據(jù)源質(zhì)量評(píng)估和多真值發(fā)現(xiàn)的一個(gè)迭代過(guò)程.我們下面給出MTruths算法的總流程.

    算法3. 多真值發(fā)現(xiàn)算法總框架(MTruths).

    輸入: 沖突集D、數(shù)據(jù)源集合S、對(duì)象集合O;

    輸出: 對(duì)象真值集{Truthi|1≤i≤N};

    ② do

    ③n=n+1;

    ④ forj=1 toN

    ⑥ end for

    ⑦ fori=1 toM

    ⑨ end for

    ⑩ until(滿足收斂條件)

    令迭代次數(shù)為K次,則采用枚舉方法的迭代算法MTruths_Enum的時(shí)間復(fù)雜度為O(KNM2Lj),采用貪心算法的迭代算法MTruths_Greedy的時(shí)間復(fù)雜度為O(KNMLj).

    4 實(shí) 驗(yàn)

    在2個(gè)真實(shí)數(shù)據(jù)集上,將本文提出的方法與現(xiàn)有真值發(fā)現(xiàn)方法從查準(zhǔn)率、查全率、收斂速度、運(yùn)行時(shí)間等方面進(jìn)行對(duì)比.

    4.1 實(shí)驗(yàn)設(shè)計(jì)

    4.1.1 對(duì)比算法

    實(shí)驗(yàn)對(duì)比于5個(gè)算法:

    1) Voting-K.采用投票機(jī)制計(jì)算真值.在所有為該對(duì)象提供屬性值的數(shù)據(jù)源中,如果百分比超過(guò)K的數(shù)據(jù)源提供了該屬性值,則該屬性值為一個(gè)真值.

    2) TruthFinder-K. TruthFinder[1]方法在計(jì)算屬性值為真的概率時(shí)假設(shè)每個(gè)對(duì)象只有唯一真值,最終選取為真概率最高的屬性值作為真值.為了選擇多個(gè)真值,本文選擇概率值大于K的所有屬性值作為真值.

    3) LTM-K. LTM算法[11]對(duì)數(shù)據(jù)源的2類錯(cuò)誤(錯(cuò)誤肯定和錯(cuò)誤否定)進(jìn)行建模,提出一個(gè)概率圖模型來(lái)自動(dòng)推導(dǎo)屬性值為真的概率.LTM-K取屬性值為真概率大于K的屬性值作為真值.該算法的參數(shù)設(shè)置采用文獻(xiàn)建議的默認(rèn)參數(shù).

    4) MTruths_Enum.本文提出的一種MTruths算法,其中對(duì)象真值發(fā)現(xiàn)時(shí)采用枚舉方法判斷真值列表.

    5) MTruths_Greedy.在真值列表發(fā)現(xiàn)步驟中為了提高算法效率提出的貪心算法.

    4.1.2 數(shù)據(jù)集

    本文實(shí)驗(yàn)使用2個(gè)真實(shí)數(shù)據(jù)集:圖書數(shù)據(jù)集,包含多個(gè)圖書銷售網(wǎng)站提供的圖書作者信息;電影數(shù)據(jù)集,其包含來(lái)自多個(gè)電影視頻網(wǎng)站的電影導(dǎo)演信息.

    1) 圖書數(shù)據(jù)集

    第1個(gè)真實(shí)數(shù)據(jù)集采用文獻(xiàn)[2]使用的數(shù)據(jù)集.該數(shù)據(jù)集爬取了圖書網(wǎng)站abebooks.com的圖書信息,包括書名、ISBN、作者列表和數(shù)據(jù)源(圖書銷售網(wǎng)站).我們對(duì)原始數(shù)據(jù)集進(jìn)行了去重處理,并對(duì)來(lái)自不同數(shù)據(jù)源的作者列表中的分隔符進(jìn)行了統(tǒng)一以便對(duì)作者列表進(jìn)行分割.經(jīng)過(guò)處理后的數(shù)據(jù)集包含1 265本圖書、894個(gè)數(shù)據(jù)源、5 741個(gè)不同的作者名、119 579條沖突記錄.據(jù)統(tǒng)計(jì),大量數(shù)據(jù)源僅提供很少的圖書信息,平均每個(gè)數(shù)據(jù)源提供28本圖書.圖書的作者可能值集大小分布情況如圖1所示,大部分圖書的作者可能值集大小區(qū)間為[1,7],平均可能值集大小為4.5.隨機(jī)選擇100本圖書對(duì)作者進(jìn)行手工標(biāo)注,將其作為標(biāo)準(zhǔn)集.

    Fig. 1 Distribution of the number of attribute values for objects.圖1 對(duì)象可能值集大小分布

    2) 電影數(shù)據(jù)集

    電影的導(dǎo)演屬性是一個(gè)多值屬性,一部電影可以有多個(gè)導(dǎo)演.我們根據(jù)新浪娛樂的互動(dòng)資料庫(kù)中電影列表列出的電影,從11個(gè)視頻和影評(píng)網(wǎng)站搜索這些電影的導(dǎo)演信息,采用電影名稱和電影上映年代區(qū)分同名問題.針對(duì)一部電影有多個(gè)名稱問題,根據(jù)網(wǎng)站提供的電影別名和年代信息判斷是否為同一部電影.通過(guò)上述方法獲得的數(shù)據(jù)集中包含:12 407部電影實(shí)體、24 567個(gè)不同的導(dǎo)演名以及包含來(lái)自11個(gè)數(shù)據(jù)源的114 006條沖突記錄.平均每個(gè)數(shù)據(jù)源提供4 980個(gè)電影信息.電影導(dǎo)演屬性可能值集大小的分布情況如圖1所示,大部分電影的導(dǎo)演可能值集大小區(qū)間為[1, 5],可能值集最大為25.為了評(píng)估真值發(fā)現(xiàn)方法的質(zhì)量,我們隨機(jī)選擇了100部電影對(duì)其導(dǎo)演信息進(jìn)行手工標(biāo)注,對(duì)于進(jìn)口電影導(dǎo)演同時(shí)提供中英文名2種形式,將其作為標(biāo)準(zhǔn)集.

    4.1.3 度量指標(biāo)

    4.1.4 實(shí)驗(yàn)環(huán)境

    本節(jié)所有實(shí)驗(yàn)硬件環(huán)境為:Intel?CoreTM2Quad2.67GHz處理器、4GB內(nèi)存、Windows7操作系統(tǒng).本文所有算法包括對(duì)比算法均使用Python語(yǔ)言實(shí)現(xiàn),軟件開發(fā)環(huán)境為Python2.7,數(shù)據(jù)庫(kù)系統(tǒng)采用mysql5.6.17.

    4.2 真值發(fā)現(xiàn)方法的準(zhǔn)確性評(píng)估

    原始Voting、TruthFinder和LTM算法只能返回每個(gè)屬性值為真的可能性,并不能返回對(duì)象的真值列表,需要為它們?cè)O(shè)定一個(gè)閾值K,當(dāng)概率大于K時(shí)判定該屬性值為真.實(shí)驗(yàn)中,我們討論了K分別為25%,50%,75%時(shí)真值發(fā)現(xiàn)方法的準(zhǔn)確性差異.我們?cè)趫D書數(shù)據(jù)集和電影數(shù)據(jù)集上分別比較了Voting-K,TruthFinder-K,LTM-K,MTruths_Enum,MTruths_Greey的查準(zhǔn)率、查全率和F-score,結(jié)果如圖2和圖3所示:

    Fig. 2 Precision, recall and F-score for the book data set.圖2 圖書數(shù)據(jù)集算法結(jié)果的查準(zhǔn)率、查全率和F-Score

    Fig. 3 Precision, recall and F-score for the movie data set.圖3 電影數(shù)據(jù)集算法結(jié)果的查準(zhǔn)率、查全率和F-Score

    總之,MTruths算法的F-score優(yōu)于其他算法.在圖書數(shù)據(jù)集上,MTruths算法的查準(zhǔn)率較Truth-Finder和LTM算法高出17%;Voting-50%和Voting-75%的算法查準(zhǔn)率雖然稍高于MTruths,但其查全率卻顯著低于MTruths.在電影數(shù)據(jù)集中,MTruths算法同樣獲得了較好的F-score.針對(duì)多值屬性問題,MTruths算法既考慮了查準(zhǔn)率也兼顧到查全率,因此在2個(gè)數(shù)據(jù)集中MTruths算法的查準(zhǔn)率和查全率比較均衡.而其他算法由于受到閾值或者單真值假設(shè)的影響,其算法的查準(zhǔn)率和查全率差異較大.MTruths_Enum和MTruths_Greedy相比,前者的查準(zhǔn)率、查全率和F-score均略高于后者,但總體差距很小.

    Voting算法根據(jù)提供屬性值的數(shù)據(jù)源比例判斷真值,比例越高的屬性值則越可能為真,因此隨著閾值K的增加其查準(zhǔn)率逐漸增高,而查全率顯著降低.在2個(gè)數(shù)據(jù)集上,Voting算法當(dāng)K=75%時(shí)雖然有很高的查準(zhǔn)率,但查全率均低于35%,因此很難為對(duì)象找出完整的真值列表.

    TruthFinder方法的查全率低于文獻(xiàn)[11]的實(shí)驗(yàn)結(jié)果,其原因是度量查全率的標(biāo)準(zhǔn)不同.本文僅當(dāng)作者名與標(biāo)準(zhǔn)集中的姓名完全相同則認(rèn)為正確,而文獻(xiàn)[11]考慮了姓名的部分正確問題,因此本文對(duì)正確性的評(píng)判標(biāo)準(zhǔn)更為嚴(yán)格.TruthFinder方法假設(shè)了真值唯一,可以將最可能為真的屬性值與其他屬性值區(qū)分開來(lái),但對(duì)需要找到多個(gè)真值時(shí),則需要通過(guò)閾值的設(shè)定完成.在電影數(shù)據(jù)集中,隨著閾值K的變化,TruthFinder方法的查準(zhǔn)率和查全率發(fā)生了顯著變化.

    LTM算法考慮了多真值問題,在圖書數(shù)據(jù)集上算法準(zhǔn)確性僅次于MTruths.但由于該算法假設(shè)了數(shù)據(jù)的服從某種概率分布,針對(duì)不同的數(shù)據(jù)集需要調(diào)整參數(shù),因此算法的準(zhǔn)確性將受到數(shù)據(jù)的分布以及參數(shù)的影響.在電影數(shù)據(jù)集上,由于標(biāo)準(zhǔn)集同時(shí)提供了導(dǎo)演的中文名和英文名,但大多數(shù)數(shù)據(jù)源僅提供其中一種,雖然其他算法的查全率也有所降低但不顯著,但LTM算法的查全率顯著降低,從而影響了其算法的準(zhǔn)確性.

    總之,MTruths算法在準(zhǔn)確性方面總體優(yōu)于其他算法,且不受閾值影響.MTruths_Enum算法準(zhǔn)確性略優(yōu)于MTruths_Greedy.

    4.3 真值發(fā)現(xiàn)方法效率評(píng)估

    由于閾值K對(duì)算法Voting-K,TruthFinder-K,LTM-K的影響僅僅體現(xiàn)在算法查準(zhǔn)率、查全率和F-score的計(jì)算上,對(duì)算法執(zhí)行時(shí)間影響很小.因此在對(duì)比算法時(shí)間時(shí),我們僅列出K=50%的執(zhí)行時(shí)間,如表3所示.Voting算法最為高效,其次是MTruths_Greedy.由于MTruths_Enum算法是枚舉算法,圖書數(shù)據(jù)集上算法運(yùn)行時(shí)間達(dá)到70.4 min.但是,MTruths_Enum算法的F-Score在所有算法中也是最高的,為了獲得更好的結(jié)果在離線的環(huán)境下這樣的時(shí)長(zhǎng)也是可以接受的.TruthFinder-50%方法在2個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間差異很大,主要是因?yàn)檫\(yùn)行時(shí)間不僅與數(shù)據(jù)量有關(guān)還與收斂速度相關(guān),在圖書數(shù)據(jù)集上TruthFinder-50%方法迭代了40次收斂,而在電影數(shù)據(jù)集上其迭代7次收斂,故電影數(shù)據(jù)集上的運(yùn)行時(shí)間遠(yuǎn)遠(yuǎn)少于圖書數(shù)據(jù)集.

    Table 3 Comparison of Runtime on Two Data Sets

    圖4顯示了MTruths的枚舉算法和貪心算法在電影數(shù)據(jù)集上的收斂速度.本文算法在迭代過(guò)程的收斂條件是:采用2次迭代得到的數(shù)據(jù)源質(zhì)量向量余弦相似性來(lái)衡量2次迭代結(jié)果的變化情況,相似性越大則變化越小,當(dāng)變化達(dá)到一定閾值則迭代停止.從圖3可以看出2個(gè)算法都可以快速收斂.經(jīng)過(guò)多次實(shí)驗(yàn),我們的算法在5次迭代后即可滿足收斂條件.

    Fig. 4 Convergence rate of iterations on movie data set.圖4 電影數(shù)據(jù)集上迭代的收斂速度

    Fig. 5 Time with increasing the size of possible values sets of objects selected.圖5 算法執(zhí)行時(shí)間隨對(duì)象可能值集大小變化情況

    對(duì)比MTruths_Enum和MTruths_Greedy算法執(zhí)行時(shí)間隨對(duì)象可能值集大小變化的情況.如圖5所示,在2個(gè)數(shù)據(jù)集上分別選擇對(duì)象可能值集分別小于等于3,6,9,12,15,18,21,24的對(duì)象集合.算法MTruths_Enum的執(zhí)行時(shí)間隨對(duì)象可能值集大小呈指數(shù)級(jí)增長(zhǎng).MTruths_Greedy時(shí)間復(fù)雜度是對(duì)象可能值集大小的線性量級(jí),因此其效率遠(yuǎn)遠(yuǎn)高于MTruths_Enum算法,但該算法的查全率、查準(zhǔn)率和F-score略低于MTruths_Enum.因此,在實(shí)際應(yīng)用中,當(dāng)數(shù)據(jù)集的對(duì)象可能值集較大時(shí),可以選擇貪心算法.

    5 結(jié) 論

    Web中存在大量沖突信息,如何從沖突信息中找到正確信息是數(shù)據(jù)集成領(lǐng)域研究的一個(gè)重要問題.同時(shí),多值屬性普遍存在,很多對(duì)象的屬性存在多個(gè)真值.然而,已有真值發(fā)現(xiàn)方法多數(shù)針對(duì)單值屬性.針對(duì)多真值發(fā)現(xiàn)問題,本文提出一個(gè)MTruths方法將該問題轉(zhuǎn)化成一個(gè)最優(yōu)化問題.根據(jù)觀察,對(duì)象真值應(yīng)盡可能與沖突集提供的觀察值相似.因此,所求的對(duì)象真值應(yīng)該使其與各數(shù)據(jù)源提供的屬性值相似度加權(quán)和達(dá)到最大.另外,計(jì)算真值過(guò)程中,我們考慮了數(shù)據(jù)源質(zhì)量對(duì)真值發(fā)現(xiàn)的影響.通過(guò)迭代的方法,聯(lián)合推導(dǎo)數(shù)據(jù)源質(zhì)量和對(duì)象真值.本文分別提出枚舉方法和貪心算法求真值集的最優(yōu)解.通過(guò)2個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,這2種方法在準(zhǔn)確性方面均優(yōu)于已有真值發(fā)現(xiàn)方法,貪心算法在效率方面優(yōu)于已有真值發(fā)現(xiàn)方法.

    [1]Yin Xiaoxin, Han J, Yu P S.Truth discovery with multiple conflicting information providers on the Web[J]. IEEE Trans on Knowledge and Data Engineering, 2008, 20(6): 796-808

    [2]Dong X L, Berti-Equille L, Srivastava D. Integrating conflicting data: The role of source dependence [J]. Proceedings of the VLDB Endowment, 2009, 2(1): 550-561

    [3]Dong X L, Berti-Equille L, Srivastava D. Truth discovery and copying detection in a dynamic world [J]. Proceedings of the VLDB Endowment, 2009, 2(1): 562-573

    [4]Qi Guojun, Aggarwal C C, Han J, et al. Mining collective intelligence in diverse groups[C] //Proc of the 22nd Int Conf on World Wide Web. New York: ACM, 2013: 1041-1052

    [5]Galland A, Abiteboul S, Marian A, et al. Corroborating information from disagreeing views [C] //Proc of the 3rd ACM Int Conf on Web Search and Data Mining. New York: ACM, 2010: 131-140

    [6]Blanco L, Crescenzi V, Merialdo P, et al. Probabilistic models to reconcile complex data from inaccurate data sources[C] //Proc of the 22nd Int Conf on Advanced Information Systems Engineering. Berlin: Springer, 2010: 83-97

    [7]Li Xian, Dong X L, Kenneth L, et al. Scaling up copy detection[C] //Proc of the 31st Int Conf on Data Engineering. Piscataway, NJ: IEEE, 2015: 89-100

    [8]Pochampally R, Sarma A D, Dong X L, et al. Fusing data with correlations[C] //Proc of the 2014 Int Conf on Management of Data. New York: ACM, 2014: 433-444

    [9]Liu Xuan, Dong X L, Ooi B C, et al. Online data fusion[J]. Proceedings of the VLDB Endowment, 2011, 4(11): 932-943

    [10]Zhao Zhou, Cheng J, Ng W. Truth discovery in data streams: A single-pass probabilistic approach[C] //Proc of the 23rd ACM Int Conf on Information and Knowledge Management. New York: ACM, 2014: 1589-1598

    [11]Zhao Bo, Rubinstein B I P, Gemmell J, et al. A Bayesian approach to discovering truth from conflicting sources for data integration[J]. Proceedings of the VLDB Endowment, 2012, 5(6): 550-561

    Ma Ruxia, born in 1977. PhD candidate at Renmin University of China. Student member of China Computer Federation. Lecturer in Capital Normal University. Her main research interests include Web data management, the credibility of Web information etc.

    Meng Xiaofeng, born in 1964. Professor and PhD supervisor at Renmin University of China. Executive member of China Computer Federation. His main research interests include cloud data management, Web data management, flash-based databases, privacy protection etc.

    Wang Lu, born in 1986. PhD candidate at Renmin University of China. Her main research interests include spatial database and location privacy management (luwang@ruc.edu.cn).

    Shi Yingjie, born in 1983. PhD. Her main research interests include Web data management, cloud data management, online aggregation techniques over big data.

    MTruths:An Approach of Multiple Truths Finding from Web Information

    Ma Ruxia1,2, Meng Xiaofeng1, Wang Lu1, and Shi Yingjie3

    1(School of Information, Renmin University of China, Beijing 100872)2(DepartmentofEducationTechnology,CapitalNormalUniversity,Beijing100048)3(SchoolofInformationEngineering,BeijingInstituteofFashionTechnology,Beijing100029)

    Web has been a massive information repository on which information is scattered in different data sources. It is common that different data sources provide conflicting information for the same entity. It is called the truth finding problem that how to find the truths from conflicting information. According to the number of attribute values, object attributes can be divided into two categories: single-valued attributes and multiple-valued attributes. Most of existing truth finding work is designed for truth finding on single-valued attributes. In this paper, a method called MTruths is proposed to resolve truth finding problem for multiple-valued attributes. We model the problem using an optimization problem. The objective is to maximize the total weight similarity between the truths and observations provided by data sources. In truth finding process, two methods are proposed to find the optimal solution: an enumeration algorithm and a greedy algorithm. Experiments on two real data sets show that the correctness of our approache and the efficiency of the greedy algorithm outperform the existing state-of-the-art techniques.

    truth finding; data conflicting; single-valued attributes; multi-valued attributes; quality of data sources

    2015-06-30;

    2015-10-13

    國(guó)家自然科學(xué)基金項(xiàng)目(61379050,91224008,61502279);國(guó)家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2013AA013204);高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金項(xiàng)目(20130004130001);中國(guó)人民大學(xué)科學(xué)研究基金項(xiàng)目(11XNL010) This work was supported by the National Natural Science Foundation of China (61379050,91224008,61502279), the National High Technology Research and Development Program of China (863 Program) (2013AA013204), the Specialized Research Fund for the Doctoral Program of Higher Education of China (20130004130001), and the Research Funds of Renmin University of China (11XNL010).

    孟小峰(xfmeng@ruc.edu.cn)

    TP311

    猜你喜歡
    查全率查準(zhǔn)率真值
    海量圖書館檔案信息的快速檢索方法
    基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)設(shè)計(jì)
    基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
    大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
    10kV組合互感器誤差偏真值原因分析
    電子制作(2017年1期)2017-05-17 03:54:35
    基于深度特征分析的雙線性圖像相似度匹配算法
    真值限定的語(yǔ)言真值直覺模糊推理
    基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
    中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
    寫真法、寫假法探析
    老司机深夜福利视频在线观看| 亚洲精品粉嫩美女一区| 两性夫妻黄色片| 成人18禁在线播放| 国产成+人综合+亚洲专区| 日韩欧美 国产精品| 国产私拍福利视频在线观看| 色精品久久人妻99蜜桃| 久久草成人影院| 亚洲午夜理论影院| 伊人久久大香线蕉亚洲五| www.999成人在线观看| 久久精品成人免费网站| 级片在线观看| 国产精品免费视频内射| 草草在线视频免费看| 18禁美女被吸乳视频| xxxwww97欧美| av电影中文网址| 亚洲国产欧美日韩在线播放| 天堂动漫精品| 欧美成狂野欧美在线观看| 在线av久久热| 国产成+人综合+亚洲专区| 亚洲真实伦在线观看| 久久久久久国产a免费观看| 99久久无色码亚洲精品果冻| 精品日产1卡2卡| 久久精品亚洲精品国产色婷小说| 久久久国产欧美日韩av| 国产伦人伦偷精品视频| 欧美黄色淫秽网站| 欧美 亚洲 国产 日韩一| 99国产极品粉嫩在线观看| 国产黄a三级三级三级人| 亚洲色图 男人天堂 中文字幕| 午夜久久久在线观看| 亚洲最大成人中文| 精品国产一区二区三区四区第35| av有码第一页| 欧美zozozo另类| 日日干狠狠操夜夜爽| 国内精品久久久久精免费| 亚洲一区中文字幕在线| 日日摸夜夜添夜夜添小说| 激情在线观看视频在线高清| 国产精品影院久久| 婷婷六月久久综合丁香| 女生性感内裤真人,穿戴方法视频| 精品国产乱码久久久久久男人| 免费看十八禁软件| 午夜老司机福利片| 美女扒开内裤让男人捅视频| 国产99久久九九免费精品| 又紧又爽又黄一区二区| 18禁观看日本| 国产成人系列免费观看| 亚洲av成人av| 国产三级黄色录像| 在线观看日韩欧美| 国产亚洲精品综合一区在线观看 | 精品不卡国产一区二区三区| 国产一卡二卡三卡精品| 91国产中文字幕| 欧美大码av| 久久香蕉精品热| 丰满的人妻完整版| 两性夫妻黄色片| 看免费av毛片| 国产精品影院久久| 最近最新中文字幕大全免费视频| 欧美另类亚洲清纯唯美| 国产精品亚洲一级av第二区| 日韩欧美三级三区| 亚洲人成电影免费在线| 看黄色毛片网站| 韩国精品一区二区三区| 国产精品精品国产色婷婷| 99久久精品国产亚洲精品| 美国免费a级毛片| 村上凉子中文字幕在线| 欧美在线一区亚洲| 中文在线观看免费www的网站 | 1024香蕉在线观看| 在线观看日韩欧美| 又黄又粗又硬又大视频| 亚洲片人在线观看| 黄片大片在线免费观看| 一级毛片高清免费大全| 亚洲国产毛片av蜜桃av| 久久久久久久精品吃奶| 制服人妻中文乱码| ponron亚洲| 欧美日韩中文字幕国产精品一区二区三区| 亚洲一区高清亚洲精品| 亚洲色图av天堂| 国产蜜桃级精品一区二区三区| 在线观看午夜福利视频| 精品国内亚洲2022精品成人| 午夜福利在线在线| 成人午夜高清在线视频 | 久久久久久久久久黄片| 别揉我奶头~嗯~啊~动态视频| 国产精品野战在线观看| 亚洲欧美日韩无卡精品| 麻豆av在线久日| xxx96com| 男人舔奶头视频| 欧美性猛交╳xxx乱大交人| 亚洲成a人片在线一区二区| 搞女人的毛片| 亚洲,欧美精品.| 成人手机av| 夜夜躁狠狠躁天天躁| 欧美日韩黄片免| 免费高清视频大片| 黄色片一级片一级黄色片| 久久精品亚洲精品国产色婷小说| 久久精品国产亚洲av香蕉五月| 久久精品91无色码中文字幕| 午夜久久久久精精品| 欧美日韩黄片免| 哪里可以看免费的av片| 免费在线观看成人毛片| 中文资源天堂在线| avwww免费| 欧美成人一区二区免费高清观看 | 色av中文字幕| 久久久久久免费高清国产稀缺| 欧美激情极品国产一区二区三区| 婷婷丁香在线五月| 日本成人三级电影网站| 久久久久久国产a免费观看| 在线av久久热| 亚洲熟女毛片儿| 亚洲精品粉嫩美女一区| 校园春色视频在线观看| 久久婷婷成人综合色麻豆| 久久久国产精品麻豆| 国产精品亚洲av一区麻豆| 色老头精品视频在线观看| 国产精品久久久人人做人人爽| 91国产中文字幕| 午夜日韩欧美国产| 国产免费av片在线观看野外av| 91国产中文字幕| 热re99久久国产66热| 久久国产乱子伦精品免费另类| 大型av网站在线播放| 午夜久久久久精精品| ponron亚洲| 午夜亚洲福利在线播放| xxx96com| 一级a爱片免费观看的视频| 久久天躁狠狠躁夜夜2o2o| 国产成人av激情在线播放| 韩国精品一区二区三区| 亚洲黑人精品在线| 麻豆一二三区av精品| 变态另类丝袜制服| 久久草成人影院| 中文亚洲av片在线观看爽| 成人免费观看视频高清| 国产亚洲欧美精品永久| 黄网站色视频无遮挡免费观看| 女性生殖器流出的白浆| √禁漫天堂资源中文www| 国产精品98久久久久久宅男小说| 国产三级黄色录像| 成人18禁在线播放| 日本五十路高清| 国产成人精品无人区| 久久人妻av系列| www.自偷自拍.com| 这个男人来自地球电影免费观看| 国产激情偷乱视频一区二区| 亚洲精品久久成人aⅴ小说| 成年人黄色毛片网站| 怎么达到女性高潮| 午夜福利欧美成人| 操出白浆在线播放| 欧美精品亚洲一区二区| 午夜福利免费观看在线| 精品久久久久久久久久久久久 | 俺也久久电影网| 免费一级毛片在线播放高清视频| 久久99热这里只有精品18| 国产欧美日韩一区二区精品| 国产熟女xx| 久久精品夜夜夜夜夜久久蜜豆 | 亚洲一区高清亚洲精品| 成人特级黄色片久久久久久久| 国产三级黄色录像| 中文字幕最新亚洲高清| 久久国产乱子伦精品免费另类| 嫁个100分男人电影在线观看| 男男h啪啪无遮挡| 中文字幕人成人乱码亚洲影| 操出白浆在线播放| 麻豆成人av在线观看| videosex国产| 级片在线观看| 18禁黄网站禁片免费观看直播| 一区二区三区精品91| 国产亚洲精品综合一区在线观看 | 91国产中文字幕| 国产伦一二天堂av在线观看| 欧美午夜高清在线| 成年女人毛片免费观看观看9| 夜夜看夜夜爽夜夜摸| 国产一区二区三区在线臀色熟女| 丰满人妻熟妇乱又伦精品不卡| 日韩精品青青久久久久久| 最近最新免费中文字幕在线| 一本大道久久a久久精品| 国产精品,欧美在线| 97超级碰碰碰精品色视频在线观看| 亚洲五月色婷婷综合| 淫秽高清视频在线观看| 夜夜躁狠狠躁天天躁| 国产一区在线观看成人免费| 三级毛片av免费| av免费在线观看网站| 国产一区二区在线av高清观看| 精品日产1卡2卡| 国内少妇人妻偷人精品xxx网站 | 午夜亚洲福利在线播放| 日日爽夜夜爽网站| 久热这里只有精品99| 很黄的视频免费| 国产精品亚洲一级av第二区| 99国产精品一区二区蜜桃av| 一级毛片精品| 欧美激情 高清一区二区三区| 两人在一起打扑克的视频| 国产亚洲精品久久久久久毛片| 黑丝袜美女国产一区| 一本精品99久久精品77| 午夜福利18| 两性夫妻黄色片| 欧美日韩瑟瑟在线播放| 亚洲性夜色夜夜综合| 亚洲在线自拍视频| www日本黄色视频网| 久99久视频精品免费| 国产精品免费视频内射| 亚洲av熟女| 国产精品野战在线观看| 日本精品一区二区三区蜜桃| 国产精品 欧美亚洲| 亚洲精品在线观看二区| 午夜精品久久久久久毛片777| 亚洲色图av天堂| 国产精品自产拍在线观看55亚洲| 50天的宝宝边吃奶边哭怎么回事| 巨乳人妻的诱惑在线观看| 午夜精品久久久久久毛片777| 国产精品98久久久久久宅男小说| 亚洲欧美一区二区三区黑人| 精品高清国产在线一区| 黄色视频不卡| 夜夜躁狠狠躁天天躁| 久久亚洲精品不卡| 老司机福利观看| 国产精品影院久久| 一进一出抽搐动态| 成人av一区二区三区在线看| 日韩高清综合在线| 免费无遮挡裸体视频| 免费高清在线观看日韩| 我的亚洲天堂| 18禁国产床啪视频网站| 伦理电影免费视频| 午夜a级毛片| 两人在一起打扑克的视频| 亚洲国产欧美日韩在线播放| 国产色视频综合| 国产精品98久久久久久宅男小说| 欧美在线一区亚洲| 色婷婷久久久亚洲欧美| 精品免费久久久久久久清纯| 成人精品一区二区免费| 久久久久久国产a免费观看| 九色国产91popny在线| 男人舔女人下体高潮全视频| 少妇的丰满在线观看| 韩国精品一区二区三区| 一进一出抽搐动态| 男人舔女人的私密视频| 操出白浆在线播放| 国产爱豆传媒在线观看 | 亚洲人成网站高清观看| 18禁国产床啪视频网站| 一本精品99久久精品77| 91麻豆精品激情在线观看国产| 久久久久国产一级毛片高清牌| 亚洲 国产 在线| 午夜精品在线福利| 亚洲 欧美 日韩 在线 免费| 免费看十八禁软件| 女同久久另类99精品国产91| 中亚洲国语对白在线视频| 超碰成人久久| а√天堂www在线а√下载| 一级毛片精品| 亚洲中文av在线| 久久人妻av系列| 黄色女人牲交| 国产片内射在线| av在线播放免费不卡| 非洲黑人性xxxx精品又粗又长| 999久久久精品免费观看国产| 男女视频在线观看网站免费 | av在线播放免费不卡| 欧美黄色淫秽网站| 神马国产精品三级电影在线观看 | 亚洲av片天天在线观看| 淫秽高清视频在线观看| 黑人操中国人逼视频| 国产精品九九99| 久久久久久久久免费视频了| 波多野结衣高清作品| 级片在线观看| 在线永久观看黄色视频| 欧美国产日韩亚洲一区| 日韩欧美一区视频在线观看| 亚洲国产中文字幕在线视频| 男女下面进入的视频免费午夜 | 日韩欧美 国产精品| 亚洲五月婷婷丁香| 亚洲精品一卡2卡三卡4卡5卡| 男女床上黄色一级片免费看| 亚洲国产中文字幕在线视频| 久久婷婷人人爽人人干人人爱| 日韩大码丰满熟妇| 看片在线看免费视频| 亚洲精品美女久久av网站| 国产成人av激情在线播放| 国产精品免费一区二区三区在线| 欧美大码av| 亚洲激情在线av| 精品久久久久久久久久久久久 | 首页视频小说图片口味搜索| 色在线成人网| 99久久综合精品五月天人人| 国产真人三级小视频在线观看| 桃色一区二区三区在线观看| 亚洲专区中文字幕在线| 国产成人一区二区三区免费视频网站| 伊人久久大香线蕉亚洲五| 亚洲人成电影免费在线| 好男人电影高清在线观看| 在线观看免费午夜福利视频| 国产高清视频在线播放一区| 日韩有码中文字幕| 伊人久久大香线蕉亚洲五| 亚洲成人久久爱视频| 欧美一区二区精品小视频在线| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲 国产 在线| 18禁黄网站禁片午夜丰满| 成人av一区二区三区在线看| 三级毛片av免费| 好男人电影高清在线观看| bbb黄色大片| 自线自在国产av| 三级毛片av免费| 波多野结衣高清无吗| 女警被强在线播放| 免费看a级黄色片| 亚洲成人久久爱视频| 亚洲专区中文字幕在线| 亚洲成a人片在线一区二区| 最好的美女福利视频网| 国产成人欧美在线观看| 精华霜和精华液先用哪个| 色综合欧美亚洲国产小说| 一a级毛片在线观看| 亚洲avbb在线观看| 91麻豆精品激情在线观看国产| 一本精品99久久精品77| 亚洲精品美女久久久久99蜜臀| 国产99久久九九免费精品| 国产一区二区在线av高清观看| 黄色毛片三级朝国网站| or卡值多少钱| 久久精品亚洲精品国产色婷小说| cao死你这个sao货| 久热爱精品视频在线9| www.www免费av| 黑人巨大精品欧美一区二区mp4| 麻豆av在线久日| 亚洲熟女毛片儿| 欧美成狂野欧美在线观看| 老司机靠b影院| 日韩有码中文字幕| 久久人人精品亚洲av| 国产97色在线日韩免费| 在线观看一区二区三区| 成人18禁高潮啪啪吃奶动态图| 岛国视频午夜一区免费看| 免费观看精品视频网站| 久久久精品欧美日韩精品| 9191精品国产免费久久| 国产高清有码在线观看视频 | 久久久久久九九精品二区国产 | 91在线观看av| 亚洲av熟女| 一二三四在线观看免费中文在| 麻豆av在线久日| 成人特级黄色片久久久久久久| 后天国语完整版免费观看| 12—13女人毛片做爰片一| 别揉我奶头~嗯~啊~动态视频| 嫩草影视91久久| aaaaa片日本免费| 国产精品久久久av美女十八| www.熟女人妻精品国产| 男女床上黄色一级片免费看| 国产成人精品久久二区二区免费| 日本免费a在线| 欧美日韩瑟瑟在线播放| 国产成人影院久久av| 亚洲中文字幕日韩| 日本一区二区免费在线视频| 国产男靠女视频免费网站| 久久久国产成人精品二区| 日韩精品免费视频一区二区三区| 天堂影院成人在线观看| 亚洲精品粉嫩美女一区| 一本大道久久a久久精品| 色播亚洲综合网| 久热爱精品视频在线9| 两性夫妻黄色片| 好男人电影高清在线观看| 最新在线观看一区二区三区| 男人舔女人下体高潮全视频| 男女那种视频在线观看| 女性生殖器流出的白浆| 亚洲最大成人中文| 高清毛片免费观看视频网站| 国产一级毛片七仙女欲春2 | 18禁黄网站禁片免费观看直播| svipshipincom国产片| 亚洲,欧美精品.| 国产激情偷乱视频一区二区| 一夜夜www| 欧美精品亚洲一区二区| 久久香蕉激情| 男女午夜视频在线观看| 亚洲国产精品久久男人天堂| АⅤ资源中文在线天堂| 熟妇人妻久久中文字幕3abv| 色精品久久人妻99蜜桃| 欧美一区二区精品小视频在线| 两人在一起打扑克的视频| 一区福利在线观看| 中文字幕久久专区| 香蕉丝袜av| 婷婷精品国产亚洲av| 亚洲色图 男人天堂 中文字幕| 久久欧美精品欧美久久欧美| 成熟少妇高潮喷水视频| 亚洲,欧美精品.| 精品久久久久久久人妻蜜臀av| 叶爱在线成人免费视频播放| 亚洲天堂国产精品一区在线| 亚洲精品美女久久久久99蜜臀| 国产亚洲精品综合一区在线观看 | 亚洲av电影不卡..在线观看| 99精品欧美一区二区三区四区| 黄色毛片三级朝国网站| 久久精品国产亚洲av高清一级| 在线观看免费视频日本深夜| 三级毛片av免费| 国产一区在线观看成人免费| 国产成人av激情在线播放| or卡值多少钱| av免费在线观看网站| 99在线视频只有这里精品首页| 午夜影院日韩av| 欧美中文综合在线视频| 天堂动漫精品| 中文字幕精品免费在线观看视频| 国产成人影院久久av| 伊人久久大香线蕉亚洲五| 91麻豆av在线| 美女高潮喷水抽搐中文字幕| 国产亚洲精品一区二区www| 亚洲五月天丁香| 久久久久久人人人人人| 精品久久蜜臀av无| 欧美激情 高清一区二区三区| 热re99久久国产66热| 69av精品久久久久久| 色哟哟哟哟哟哟| x7x7x7水蜜桃| 久久亚洲精品不卡| 国产1区2区3区精品| 成人午夜高清在线视频 | 久久久国产成人精品二区| 亚洲激情在线av| 人人妻人人看人人澡| 色播亚洲综合网| 日韩欧美 国产精品| 亚洲第一欧美日韩一区二区三区| 国产精品免费一区二区三区在线| 亚洲国产日韩欧美精品在线观看 | 久久欧美精品欧美久久欧美| 国产精品 欧美亚洲| 美女高潮到喷水免费观看| 久久久久国产精品人妻aⅴ院| 香蕉国产在线看| 男女午夜视频在线观看| 久久人妻av系列| av在线天堂中文字幕| 黑人巨大精品欧美一区二区mp4| 国产成人av教育| 一区二区日韩欧美中文字幕| 亚洲精品av麻豆狂野| 久久久久久久精品吃奶| 老熟妇仑乱视频hdxx| 国产v大片淫在线免费观看| 深夜精品福利| 免费看美女性在线毛片视频| 久久香蕉精品热| 欧美色欧美亚洲另类二区| 欧美午夜高清在线| 久久久久免费精品人妻一区二区 | 看免费成人av毛片| 最近在线观看免费完整版| 国产真实伦视频高清在线观看| 乱码一卡2卡4卡精品| 国产精品精品国产色婷婷| 波野结衣二区三区在线| 韩国av在线不卡| 久久久久久伊人网av| 国产精品不卡视频一区二区| 中国美女看黄片| 亚洲精品在线观看二区| 国产又黄又爽又无遮挡在线| 我要搜黄色片| 人妻夜夜爽99麻豆av| 色av中文字幕| 国产成人福利小说| h日本视频在线播放| 午夜激情福利司机影院| 久久99热这里只有精品18| 国产亚洲精品综合一区在线观看| 性色avwww在线观看| 午夜影院日韩av| 亚洲图色成人| 久久久久久久午夜电影| 亚洲经典国产精华液单| aaaaa片日本免费| 国产精品国产三级国产av玫瑰| 国产精品亚洲美女久久久| 亚洲四区av| 成人三级黄色视频| 联通29元200g的流量卡| 日日干狠狠操夜夜爽| 人妻夜夜爽99麻豆av| 亚洲人成网站在线播| 亚洲精品国产成人久久av| 欧美区成人在线视频| 日本撒尿小便嘘嘘汇集6| 久久久久久久久久黄片| 亚洲最大成人中文| 国产成人aa在线观看| 搡女人真爽免费视频火全软件 | 亚洲18禁久久av| 国产毛片a区久久久久| 狂野欧美白嫩少妇大欣赏| 丰满的人妻完整版| 亚洲国产日韩欧美精品在线观看| 久久九九热精品免费| 日韩精品青青久久久久久| 国产aⅴ精品一区二区三区波| 日韩强制内射视频| 成年女人看的毛片在线观看| 亚洲欧美精品综合久久99| 亚洲熟妇熟女久久| 成人高潮视频无遮挡免费网站| 国产成人aa在线观看| 91麻豆精品激情在线观看国产| 欧美绝顶高潮抽搐喷水| 国产精品美女特级片免费视频播放器| www.色视频.com| 搞女人的毛片| 可以在线观看的亚洲视频| 男人舔女人下体高潮全视频| 欧美高清成人免费视频www| 日韩欧美精品免费久久| 亚洲自拍偷在线| 黄色欧美视频在线观看| 卡戴珊不雅视频在线播放| 亚洲精品亚洲一区二区| 日本一本二区三区精品| 色播亚洲综合网| 日韩一本色道免费dvd| 久久久久久久久久久丰满| 女生性感内裤真人,穿戴方法视频| 成人亚洲欧美一区二区av| 成年女人毛片免费观看观看9| 特大巨黑吊av在线直播| 波多野结衣高清作品| 波野结衣二区三区在线| 又爽又黄无遮挡网站| 亚洲内射少妇av| 九九在线视频观看精品| 成人二区视频| 欧美性猛交黑人性爽| 亚洲中文字幕日韩| 精品99又大又爽又粗少妇毛片| 99九九线精品视频在线观看视频|