• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT的多源知識(shí)庫索引對(duì)齊算法

    2021-05-28 09:16:16季一木劉艷蘭劉尚東許正陽劉凱航湯淑寧
    關(guān)鍵詞:百科知識(shí)庫實(shí)體

    季一木,劉艷蘭,劉尚東,許正陽,胡 林,劉凱航,湯淑寧,劉 強(qiáng),肖 婉

    (1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210023 2.南京郵電大學(xué) 高性能計(jì)算與大數(shù)據(jù)處理研究所,江蘇 南京 210023 3.國家高性能計(jì)算中心南京分中心,江蘇 南京 210023 4.江蘇省高性能計(jì)算與智能處理工程研究中心,江蘇 南京 210023 5.南京郵電大學(xué) 教育科學(xué)與技術(shù)學(xué)院,江蘇 南京 210023)

    近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,涌現(xiàn)出了維基百科、頭條百科、百度百科等大量優(yōu)秀的知識(shí)資源與知識(shí)社區(qū)。與此同時(shí),互聯(lián)網(wǎng)正面臨從文檔連接的萬維網(wǎng)向數(shù)據(jù)連接的語義網(wǎng)演變的技術(shù)變革時(shí)期。為了實(shí)現(xiàn)這一技術(shù)變革,需要利用網(wǎng)絡(luò)數(shù)字化信息資源構(gòu)建高品質(zhì)、大規(guī)模的知識(shí)庫。目前,工業(yè)界與學(xué)業(yè)界的已有研究,已經(jīng)創(chuàng)建了 Yago[1]、Freebase[2]、DBpedia[3]、百度知心、搜狗知立方等以實(shí)體和實(shí)體關(guān)系為主導(dǎo)的大規(guī)模知識(shí)庫。知識(shí)庫在知識(shí)圖譜、智能語義問答和知識(shí)融合等自然語言處理領(lǐng)域有著重要意義[4]。但是,僅僅使用單個(gè)知識(shí)資源或者知識(shí)社區(qū),存在實(shí)體覆蓋面低、實(shí)體信息缺失等問題;而不同知識(shí)資源和知識(shí)社區(qū)之間資源描述結(jié)構(gòu)存在較大差異,阻礙了數(shù)據(jù)的共享、集成與復(fù)用。因此,對(duì)現(xiàn)有的多源異構(gòu)知識(shí)庫進(jìn)行融合能夠推動(dòng)語義網(wǎng)技術(shù)的發(fā)展。作為融合后知識(shí)一致性保障的關(guān)鍵,有效的實(shí)體對(duì)齊技術(shù)值得深入研究。

    實(shí)體[5](Entity)是指客觀存在并且可以進(jìn)行區(qū)別的事物,包括具體的人、事、物、抽象的概念或關(guān)系等。實(shí)體對(duì)齊[6](Entity Alignment) 也稱為實(shí)體匹配(Entity Matching)或?qū)嶓w解析(Entity Resolution),是判斷相同或不同數(shù)據(jù)集中的兩個(gè)實(shí)體是否指向真實(shí)世界同一對(duì)象的過程。百科知識(shí)庫對(duì)齊研究存在的難點(diǎn)在于:首先是計(jì)算復(fù)雜度過高,百科知識(shí)庫擁有大量的實(shí)體,例如百度百科擁有1 600萬個(gè)實(shí)體,頭條百科擁有1 800萬個(gè)實(shí)體,如果采用普通遍歷的方法,需要對(duì)1 600萬?1 800萬個(gè)實(shí)體進(jìn)行匹配,從中篩選出對(duì)齊實(shí)體對(duì),計(jì)算復(fù)雜度過高。其次是不同的百科知識(shí)庫之間存在異構(gòu)性,既存在內(nèi)容上的異構(gòu)也存在描述體系上的異構(gòu)。在描述體系上,不同知識(shí)庫的描述體系差異較大。在內(nèi)容上,存在兩種不同的異構(gòu)現(xiàn)象,(1)同名不同義,對(duì)于同一個(gè)實(shí)體指稱在不同的知識(shí)庫中擁有的實(shí)體是不同的。例如,在百度百科知識(shí)庫中擁有28個(gè)實(shí)體指稱為“王菲”的詞條,在頭條百科中擁有26個(gè)實(shí)體指稱為“王菲”的詞條,但是兩個(gè)百科知識(shí)庫中實(shí)體指稱相同的這些詞條,只有部分是存在對(duì)齊關(guān)系的。(2)同義不同名,對(duì)于指向真實(shí)世界的同一個(gè)實(shí)體,在不同的知識(shí)庫中有著不同的實(shí)體指稱。例如,對(duì)于泛指屬于“蜚蠊目”的昆蟲這個(gè)實(shí)體,在百度百科中擁有的實(shí)體指稱為“蟑螂”,在頭條百科中擁有的實(shí)體指稱為“蜚蠊”,這兩個(gè)實(shí)體指稱完全不同的詞條卻指向同一個(gè)實(shí)體。針對(duì)描述體系異構(gòu)性已有大量的研究工作[1,7-9],因此,本文的研究重點(diǎn)在于內(nèi)容上的異構(gòu),即如何尋找多源異構(gòu)知識(shí)庫中實(shí)體指稱的對(duì)齊映射關(guān)系。實(shí)體對(duì)齊常用的方法是利用相似性函數(shù)對(duì)實(shí)體的屬性信息進(jìn)行計(jì)算,進(jìn)而判定兩個(gè)不同數(shù)據(jù)源的實(shí)體是否對(duì)齊,對(duì)于體系結(jié)構(gòu)較為完整、類和實(shí)體信息豐富的知識(shí)庫有著較好的效果。但是,百科知識(shí)庫是由網(wǎng)絡(luò)大眾共同編輯,存在質(zhì)量參差不齊、部分實(shí)體屬性匱乏、不同百科庫相同屬性不一致等問題,有研究表明,百科數(shù)據(jù)屬性標(biāo)簽的覆蓋率較低[5],在這種情況下,想要直接利用屬性信息對(duì)實(shí)體指稱進(jìn)行對(duì)齊有一定難度。因此,本文提出一種基于BERT的多源知識(shí)庫索引算法,有效利用百科知識(shí)庫中實(shí)體半結(jié)構(gòu)化信息和非結(jié)構(gòu)化的上下文,利用編輯距離和BERT預(yù)訓(xùn)練語言模型[10]實(shí)現(xiàn)不同知識(shí)庫間屬性名的映射,利用BERT預(yù)訓(xùn)練語言模型獲取實(shí)體非結(jié)構(gòu)化文本的特征向量,進(jìn)行知識(shí)庫實(shí)體對(duì)齊工作,對(duì)具有半結(jié)構(gòu)化信息和非結(jié)構(gòu)化描述信息的實(shí)體具有良好的準(zhǔn)確度和通用性。在此基礎(chǔ)上,針對(duì)實(shí)體指稱與實(shí)體上下文的關(guān)鍵詞提出兩種索引構(gòu)建方式,通過這些索引,有效提高了實(shí)體對(duì)齊的效率和召回率。經(jīng)過實(shí)驗(yàn)表明,本文所提方法能夠有效提高多源異構(gòu)知識(shí)庫間實(shí)體對(duì)齊的性能。

    綜上所述,本文的主要貢獻(xiàn)如下:

    (1)本文利用百科實(shí)體半結(jié)構(gòu)化信息和非結(jié)構(gòu)化文本信息,提出一種基于BERT的實(shí)體對(duì)齊方法,能夠有效解決多源異構(gòu)百科知識(shí)庫的實(shí)體對(duì)齊問題。

    (2)本文提出了基于實(shí)體指稱和實(shí)體文本關(guān)鍵詞的兩種索引結(jié)構(gòu),在提高實(shí)體對(duì)齊效率的同時(shí),不僅提升了實(shí)體的準(zhǔn)確率還保證了實(shí)體的召回率。

    (3)本文構(gòu)造了中文百科知識(shí)庫實(shí)體對(duì)齊標(biāo)準(zhǔn)測試集,對(duì)測試集中可以對(duì)齊的實(shí)體進(jìn)行了人工校驗(yàn)與標(biāo)注,針對(duì)本文算法以及同類實(shí)體對(duì)齊算法進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明,本文方法能夠有效完成實(shí)體對(duì)齊工作。

    1 相關(guān)工作

    當(dāng)前,知識(shí)庫實(shí)體對(duì)齊工作的技術(shù)研究主要從實(shí)體對(duì)齊算法、特征匹配計(jì)算、分區(qū)索引構(gòu)建3個(gè)方面進(jìn)行[6]。三者的關(guān)系主要是根據(jù)不同知識(shí)庫的特點(diǎn)在實(shí)體對(duì)齊算法中融入分區(qū)索引技術(shù)降低計(jì)算復(fù)雜度、使用合適的文本相似性函數(shù)或者結(jié)構(gòu)相似性函數(shù)對(duì)候選匹配對(duì)進(jìn)行匹配計(jì)算。

    實(shí)體對(duì)齊算法主要分為成對(duì)實(shí)體對(duì)齊算法和集體實(shí)體對(duì)齊算法,成對(duì)實(shí)體對(duì)齊算法根據(jù)實(shí)體對(duì)特征的相似度獲取評(píng)分來判斷是否匹配,其最早出現(xiàn)在 Newcombe 等[11]和 Felleigi等[12]提出的實(shí)體對(duì)齊分類方法的傳統(tǒng)概率模型中,通過統(tǒng)計(jì)屬性的概率分布給屬性賦予權(quán)重,然后根據(jù)相似性函數(shù)計(jì)算不同屬性的相似度,獲取加權(quán)后的總相似度來判定實(shí)體是否對(duì)齊。而后出現(xiàn)的各種基于機(jī)器學(xué)習(xí)的實(shí)體對(duì)齊算法也屬于成對(duì)實(shí)體對(duì)齊。根據(jù)數(shù)據(jù)集是否包含標(biāo)注數(shù)據(jù),基于機(jī)器學(xué)習(xí)的實(shí)體對(duì)齊方法分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。基于監(jiān)督學(xué)習(xí)的實(shí)體對(duì)齊方法一般使用決策樹、支持向量機(jī)和集成學(xué)習(xí)等技術(shù),通過比較屬性向量來完成實(shí)體對(duì)齊任務(wù)[13-16]。萬靜等[17]在對(duì)關(guān)聯(lián)數(shù)據(jù)中實(shí)體的屬性提取語義特征與統(tǒng)計(jì)特征并進(jìn)行建模后,使用基于VS?Adaboost的有監(jiān)督分類器優(yōu)化算法實(shí)現(xiàn)實(shí)體對(duì)齊工作,可以發(fā)現(xiàn)隱含信息,提高對(duì)齊準(zhǔn)確率,并降低對(duì)齊工作的復(fù)雜度。無監(jiān)督學(xué)習(xí)一般在缺乏訓(xùn)練數(shù)據(jù)的情況下使用,主要是利用實(shí)體的相似向量將實(shí)體進(jìn)行聚類,張偉莉等[18]就是利用實(shí)體的名稱、屬性、文本、時(shí)間、數(shù)值等信息提取多維特征,通過兩個(gè)獨(dú)立視圖對(duì)多位特征進(jìn)行協(xié)同訓(xùn)練,從未標(biāo)注數(shù)據(jù)中獲取準(zhǔn)確的決策標(biāo)準(zhǔn)。

    集體實(shí)體對(duì)齊中有部分工作是通過將實(shí)體間的關(guān)系看作是屬性的一種,從而進(jìn)行實(shí)體匹配計(jì)算[19],被稱作局部集體實(shí)體對(duì)齊。 沈秉文等[20]則是將實(shí)體關(guān)系與實(shí)體屬性統(tǒng)一看作一類信息,在進(jìn)行手動(dòng)對(duì)齊后根據(jù)關(guān)系或?qū)傩赃M(jìn)行聚類,在同一聚類中構(gòu)建索引結(jié)構(gòu),最后進(jìn)行索引過濾獲取對(duì)齊實(shí)體。該算法在極大提升實(shí)體對(duì)齊速度和效率的基礎(chǔ)上還保留了較高準(zhǔn)確性,但是需要人工干預(yù),缺乏一定擴(kuò)展性。

    全局集體實(shí)體對(duì)齊方法,Bhattacharya等[21]提出的層次聚類算法能夠迭代地獲取匹配實(shí)體,是一種典型基于相似性傳播的集體對(duì)齊算法。Lacoste等[22]對(duì)其進(jìn)行改進(jìn),通過實(shí)體對(duì)屬性和關(guān)聯(lián)實(shí)體信息構(gòu)造全局函數(shù),對(duì)其進(jìn)行最優(yōu)化求解,從而得到了可用于大規(guī)模知識(shí)庫實(shí)體對(duì)齊算法SiGMa。該算法具有良好的準(zhǔn)確性和擴(kuò)展性,但需要少量人工參與。近年來,大量研究[23-25]不斷嘗試?yán)没谥R(shí)表示的圖嵌入模型來完成實(shí)體對(duì)齊工作,該類方法主要是利用不同的知識(shí)表示模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練來獲取實(shí)體和關(guān)系在圖模型中的向量表示,從而實(shí)現(xiàn)實(shí)體間的語義相似度計(jì)算來進(jìn)行實(shí)體對(duì)齊。

    特征匹配技術(shù)分為基于文本相似性和基于結(jié)構(gòu)相似性兩大類。前者通常使用Jaccard相似性函數(shù)[26]、余弦相似性函數(shù)[27]、基于 q?gram 的相似性函數(shù)[27]和基于編輯距離的相似性函數(shù)[28],這些函數(shù)通常適用于短語或句子的計(jì)算且難以表示文字的深層語義信息,目前更加流行的是基于TF/IDF的文本相似度計(jì)算[5]、基于LDA主題模型的相似度計(jì)算[29]和基于 Bert模型的語義相似度計(jì)算[10]。

    許多數(shù)據(jù)庫的分區(qū)技術(shù)[30]可以用于知識(shí)庫的對(duì)齊過程,主要的分區(qū)技術(shù):(1)基本分區(qū)索引,根據(jù)定義選取實(shí)體屬性作為鍵值構(gòu)建索引,使得實(shí)體相似度計(jì)算只在具有相同索引鍵值的實(shí)體中進(jìn)行;(2) Hash 索引[31],通過定義一個(gè)關(guān)于實(shí)體一項(xiàng)或者多項(xiàng)屬性的Hash函數(shù)[12],關(guān)于實(shí)體對(duì)齊的算法只在具有相同Hash的實(shí)體中進(jìn)行;(3)Canopy聚類索引[32],首先根據(jù)實(shí)體屬性詞的集合構(gòu)造鍵來創(chuàng)建倒排表,然后根據(jù)算法迭代地產(chǎn)生互相重疊的聚類,使得實(shí)體對(duì)齊算法在聚類中進(jìn)行。以上分區(qū)索引技術(shù)都需要依賴實(shí)體的屬性信息。

    2 基于BERT的多源知識(shí)庫索引對(duì)齊算法

    2.1 實(shí)體對(duì)齊框架

    本文的主要工作是對(duì)百度百科和頭條百科兩個(gè)異構(gòu)百科知識(shí)庫中的實(shí)體進(jìn)行對(duì)齊。本文的實(shí)體對(duì)齊框架主要分為4個(gè)部分,數(shù)據(jù)的獲取與預(yù)處理、構(gòu)建索引、獲取候選集和篩選對(duì)齊實(shí)體。主要流程如圖1所示。

    圖1 實(shí)體對(duì)齊框架

    (1)數(shù)據(jù)的獲取與預(yù)處理。在進(jìn)行實(shí)體對(duì)齊前,需要對(duì)獲取的百科詞條進(jìn)行預(yù)處理。首先,對(duì)詞條的描述性文本進(jìn)行分詞與去除停用詞,得到每個(gè)詞條對(duì)應(yīng)的詞向量。

    (2)構(gòu)建索引。將頭條百科知識(shí)庫作為已知知識(shí)庫,先利用已知知識(shí)庫實(shí)體的實(shí)體指稱以及實(shí)體屬性信息中別名、中文名、昵稱等屬性信息構(gòu)建指稱索引;然后利用預(yù)處理獲取的詞向量,建立關(guān)鍵詞索引。詳細(xì)描述見2.2節(jié)。

    (3)獲取候選集。將百度百科知識(shí)庫作為待融合知識(shí)庫,遍歷百度百科的知識(shí)庫,對(duì)每個(gè)實(shí)體進(jìn)行對(duì)齊并掛載到已有知識(shí)庫。對(duì)待對(duì)齊的實(shí)體,根據(jù)實(shí)體的指稱和別名等屬性信息,在指稱索引中進(jìn)行搜索,得到一個(gè)候選id集合;然后根據(jù)實(shí)體關(guān)鍵詞在關(guān)鍵詞索引中進(jìn)行搜索,得到另一個(gè)候選id集合;最后獲取兩個(gè)集合的交集作為最終候選集。詳細(xì)描述見2.3節(jié)。

    (4)篩選對(duì)齊實(shí)體。根據(jù)步驟(3)獲取的id集合,需要從知識(shí)庫中獲取所有候選實(shí)體。先使用編輯距離與BERT模型計(jì)算實(shí)體間屬性相似度,然后借助BERT預(yù)訓(xùn)練語言模型提取實(shí)體文本的向量表示,并使用余弦聚類計(jì)算實(shí)體的相似度,最后加上各自的權(quán)重得到實(shí)體相似度。篩選出相似度最高的作為可對(duì)齊實(shí)體,并設(shè)置一個(gè)相似度最低值,當(dāng)可對(duì)齊實(shí)體的相似度低于該值,認(rèn)為在知識(shí)庫中沒有可對(duì)齊實(shí)體。詳細(xì)描述見2.5節(jié)。

    2.2 構(gòu)建知識(shí)庫索引

    鑒于需匹配的兩個(gè)知識(shí)庫規(guī)模大,實(shí)體數(shù)量多,如何有效解決匹配效率問題是一大挑戰(zhàn)。分區(qū)索引技術(shù)被廣泛地應(yīng)用于實(shí)體對(duì)齊過程中,可以說分區(qū)索引技術(shù)是當(dāng)今大規(guī)模知識(shí)庫匹配的關(guān)鍵技術(shù)[6]。通常,分區(qū)索引技術(shù)的關(guān)注點(diǎn)在知識(shí)庫中實(shí)體的屬性上,通過構(gòu)建關(guān)于實(shí)體的一個(gè)或者幾個(gè)屬性的函數(shù),根據(jù)函數(shù)值對(duì)知識(shí)庫的實(shí)體進(jìn)行區(qū)塊劃分。這樣的分區(qū)索引技術(shù)往往對(duì)屬性以及屬性值有著較高的要求。首先,需要兩個(gè)不同知識(shí)庫的屬性名具有良好的映射關(guān)系;其次,作為索引構(gòu)建的屬性的值如果缺失或者錯(cuò)誤會(huì)導(dǎo)致實(shí)體的錯(cuò)誤分類;最后,還需要屬性值的均勻分布。然而,兩大網(wǎng)絡(luò)百科知識(shí)庫中的屬性體系具有較大的異構(gòu)性并且存在屬性值缺失的問題。例如,對(duì)于同一實(shí)體,在百度百科中屬性名為“中文名”的屬性在頭條百科中屬性名為“名稱”或者“中文名”,在百度百科中屬性名為“色彩”的屬性在頭條百科中屬性名為“畫面顏色”。針對(duì)屬性體系異構(gòu)的問題,在目前的研究中[5,19-20],基本都是通過人工比對(duì)校驗(yàn)編輯屬性映射規(guī)則,需要大量的人工干預(yù)。綜上可知,基于屬性值的分區(qū)索引技術(shù)并不能良好地適用于大規(guī)模中文網(wǎng)絡(luò)百科知識(shí)庫的實(shí)體對(duì)齊工作。本文針對(duì)實(shí)體的指稱項(xiàng)和非結(jié)構(gòu)化文本信息提出了兩種索引構(gòu)建方式。

    2.2.1 基于實(shí)體指稱的索引構(gòu)建

    通過對(duì)知識(shí)庫數(shù)據(jù)的簡單分析,可以發(fā)現(xiàn)所有可匹配的實(shí)體集合要么與待對(duì)齊實(shí)體的實(shí)體指稱在字面上應(yīng)該相似,即同名實(shí)體;要么實(shí)體指稱不相似但是指向同一實(shí)體,即同義實(shí)體。王雪鵬等[5]在利用網(wǎng)絡(luò)語義標(biāo)簽對(duì)中文百科知識(shí)庫進(jìn)行實(shí)體對(duì)齊時(shí),以實(shí)體名相同作為依據(jù)選擇可匹配實(shí)體集合時(shí),忽略了同義不同名的實(shí)體對(duì),導(dǎo)致召回率不高。

    在網(wǎng)絡(luò)百科知識(shí)庫的屬性體系中,存在大量屬性的屬性值可以作為實(shí)體的指稱項(xiàng),例如,中文名、外文名、簡稱、別稱、別名、軟件名稱等,這些屬性的特點(diǎn)是以“名”或者“稱”結(jié)尾或一個(gè)屬性的屬性值中可以包含多個(gè)指稱項(xiàng),例如,實(shí)體“蟑螂”的屬性“別名”的值為“小強(qiáng),黃婆娘,偷油婆”,包含有3個(gè)指稱項(xiàng)。大多數(shù)實(shí)體都有一到多個(gè)該類屬性。因此,本文在直接按名查找的基礎(chǔ)上合理利用屬性信息隱含的實(shí)體指稱項(xiàng),構(gòu)建實(shí)體指稱索引,擴(kuò)展可匹配實(shí)體集合。首先,對(duì)中文網(wǎng)絡(luò)百科知識(shí)庫中的實(shí)體進(jìn)行形式化描述

    式中,E(Entry)代表實(shí)體,N(Name)代表實(shí)體的詞條名稱,ID代表知識(shí)庫中實(shí)體的id,W(Words)代表實(shí)體的非結(jié)構(gòu)化文本信息,C(Category)代表實(shí)體的類別信息,一個(gè)實(shí)體可以擁有多個(gè)類別,PT(Property Tuple)代表實(shí)體的屬性三元組,一個(gè)實(shí)體可以擁有多個(gè)屬性三元組。式(4)表示屬性三元組由實(shí)體詞條名稱(s)、屬性名(p)和屬性值(o)構(gòu)成。

    然后對(duì)實(shí)體指稱索引構(gòu)建的流程進(jìn)行描述,如圖2所示,遍歷知識(shí)庫中的所有實(shí)體,針對(duì)每一個(gè)實(shí)體,首先獲取實(shí)體的詞條名稱(N);然后遍歷實(shí)體的屬性三元組,當(dāng)屬性名符合前文描述的特征時(shí),獲取屬性值中的一到多個(gè)實(shí)體指稱(O);最后,以獲取到的詞條名稱和實(shí)體指稱作為 key、實(shí)體 ID作為value,掛載到索引庫中。

    圖2 實(shí)體指稱索引構(gòu)建過程

    2.2.2 基于關(guān)鍵詞的索引構(gòu)建

    本節(jié)利用實(shí)體文本信息構(gòu)建倒排索引,并進(jìn)行前綴過濾,篩選出候選實(shí)體,加快知識(shí)庫實(shí)體對(duì)齊速度。

    本文實(shí)體文本匹配形式化定義:經(jīng)過前期預(yù)處理,每個(gè)實(shí)體的文本信息用一個(gè)詞向量來表示。假如有兩個(gè)實(shí)體的文本詞向量r與s,則通過余弦值來計(jì)算文本的相似度

    對(duì)于一個(gè)閾值threshold,認(rèn)為當(dāng)

    兩個(gè)實(shí)體的文本是相似的,兩個(gè)實(shí)體對(duì)齊的概率較大。

    描述利用文本信息構(gòu)建索引的主要思路:將詞向量按照TF?IDF(w)權(quán)重值進(jìn)行遞減順序排序,然后根據(jù)詞向量前綴長度(k)取詞向量前k個(gè)詞對(duì)實(shí)體進(jìn)行索引掛載,首先需要獲取詞向量的前綴長度,計(jì)算公式的推導(dǎo)如下。

    假設(shè)實(shí)體文本信息可以用矩陣Ar與Aq分別表示

    式中,wri代表第i個(gè)關(guān)鍵詞,xri代表詞對(duì)應(yīng)的TF?IDF值。

    設(shè)兩個(gè)實(shí)體所有關(guān)鍵詞的集合為wu,則

    實(shí)體r與q可以用n+t維的向量表示為

    根據(jù)向量余弦值的空間含義易知,兩個(gè)向量同維度的值越接近,向量間的相似度越高。因此,當(dāng)r與q中k+1至n維的值較為接近時(shí),使得兩個(gè)實(shí)體向量的相似度剛好達(dá)到threshold,即

    若r的向量已知,當(dāng)yn=xrn,…,yk+1=xrk+1, 式(12)中k可以取最大值,即前綴長度最大為k。在前k個(gè)關(guān)鍵詞中,s至少要有一個(gè)關(guān)鍵詞對(duì)應(yīng)的向量值不為0,兩個(gè)實(shí)體的文本相似度才可能達(dá)到閾值threshold。 即

    接下來對(duì)k的求解進(jìn)行推導(dǎo)。

    令: yn= xrn,yn-1= xrn-1,…,yk+1= xrk+1

    代入式(14)可以得到

    由式(12)和(13)可以得到式(16)和(17)

    此時(shí),任意 yi≠0,i∈ [1,k], 都可以使得兩個(gè)詞向量滿足條件(14)。

    若已知 threshold,由式(16)和式(17),可以求得k的值,進(jìn)而獲取r的前綴長度為k。

    算法流程描述如圖3所示。

    圖3 關(guān)鍵詞索引構(gòu)建算法流程圖

    首先,針對(duì)兩個(gè)百科知識(shí)庫中的實(shí)體,將除了ID以外的所有文本信息作為語料,對(duì)其進(jìn)行分詞和去除無用詞的處理,獲取每一個(gè)實(shí)體的詞向量表示:[w1,w2,…,wn]。

    然后,計(jì)算統(tǒng)計(jì)兩個(gè)百科庫中所有單詞的逆文本頻率指數(shù)和詞向量中每個(gè)單詞的相對(duì)詞頻,由此獲取詞向量中每個(gè)單詞的權(quán)重值,并將詞向量按照權(quán)重值遞減的順序排列。

    最后,遍歷頭條百科中的所有實(shí)體,根據(jù)式(16)和式(17)計(jì)算得到對(duì)應(yīng)詞向量的前綴長度k,以詞向量的前k個(gè)詞分別為索引鍵,對(duì)實(shí)體的id進(jìn)行掛載。

    2.3 候選集的獲取

    在2.2節(jié)中,通過構(gòu)建索引對(duì)頭條百科的所有實(shí)體的ID進(jìn)行了掛載。對(duì)于來自百度百科的待對(duì)齊實(shí)體 E=(ID,N,PT,W,C),先根據(jù)實(shí)體的詞條名稱N,以及實(shí)體屬性PT中可以獲取到的一個(gè)或多個(gè)指稱項(xiàng),分別在實(shí)體指稱索引庫中進(jìn)行搜索得到ID集合,獲取這些ID集合的非重復(fù)并集,記作set1。然后,根據(jù)ID在百度百科詞向量庫中獲取該實(shí)體的詞向量,根據(jù)式(16)與式(17)計(jì)算詞向量前綴長度k,在實(shí)體關(guān)鍵詞索引庫中對(duì)詞向量的前k個(gè)單詞分別進(jìn)行搜索得到ID集合,對(duì)這些ID集合取并集,記作set2。最后,獲取 set1與 set2的交集 set,set內(nèi)的所有ID對(duì)應(yīng)的實(shí)體就是待對(duì)齊實(shí)體E的最終匹配候選集。

    2.4 BERT語義相似度計(jì)算

    2.4.1 BERT預(yù)訓(xùn)練語言模型

    BERT是由Devlin等人于2018年提出的一種預(yù)訓(xùn)練語言模型。該模型在OpenAI GPT和ELMo兩種預(yù)訓(xùn)練語言模型的基礎(chǔ)上進(jìn)行了吸收與改進(jìn),BERT在沿用OpenAI GPT以Transformer為編碼器的模型結(jié)構(gòu)基礎(chǔ)上,借鑒了ELMo的雙向LSRTM編碼單元,將GPT的單向語言模型改造為雙向語言模型,由此可以在每一層中聯(lián)合前后兩個(gè)方向的上下文信息進(jìn)行訓(xùn)練,以獲取更強(qiáng)的信息捕捉能力。作為預(yù)訓(xùn)練語言模型,BERT需要預(yù)先通過使用海量的文本語料數(shù)據(jù)(例如百科數(shù)據(jù)庫)來進(jìn)行自監(jiān)督學(xué)習(xí),用來為單詞獲取一個(gè)優(yōu)秀的特征表示。在此基礎(chǔ)上,只需要在為BERT添加一個(gè)合適的輸出層,對(duì)模型進(jìn)行微調(diào)就可以完成問答、命名實(shí)體識(shí)別、預(yù)測句子相似性等下游的 NLP(Natural Language Processing)任務(wù)。

    如圖4所示,BERT是一個(gè)多層雙向Transformer結(jié)構(gòu)的訓(xùn)練模型。在模型中,Ei為輸入句子中單詞的編碼表示,是3個(gè)詞嵌入特征的和,3個(gè)詞嵌入特征是:單詞嵌入(Token Embedding)、位置嵌入(Position Embedding) 和段嵌入 (Segment Embedding)。Trm為 Transformer結(jié)構(gòu),由于 BERT是以獲取更好的單詞特征表示為目標(biāo),內(nèi)部只是采用Transformer作為編碼結(jié)構(gòu)。Ti是已經(jīng)訓(xùn)練好的單詞Ei對(duì)應(yīng)的詞向量。

    圖4 BERT網(wǎng)絡(luò)結(jié)構(gòu)圖

    在BERT中,原始輸入是兩個(gè)句子,兩個(gè)句子間使用[SEP]符號(hào)進(jìn)行分隔。在兩個(gè)句子的開頭還有一個(gè)[CLS]符號(hào),表示該特征的數(shù)據(jù)用于分類任務(wù)。輸入表示部分由單詞嵌入、位置嵌入和段嵌入3個(gè)特征之和表示。單詞嵌入是由句子經(jīng)過Word Piece處理后得到的詞表示;位置嵌入是學(xué)習(xí)得到的單詞位置信息的向量表示,將單詞位置關(guān)系引入模型,可以解決BERT中注意力機(jī)制帶來的順序信息丟失問題;段嵌入是用于表明單詞屬于哪個(gè)句子。

    2.4.2 基于BERT的語義相似度計(jì)算

    目前,可以考慮兩種方式利用BERT模型計(jì)算兩個(gè)句子間的語義相似度。一種方式是將句子間語義相似度的計(jì)算看作是二分類問題,通過訓(xùn)練好的優(yōu)化模型來獲取句子對(duì)相似度為0或者為1的概率。該方法存在兩個(gè)問題,首先,通過微調(diào)訓(xùn)練優(yōu)化模型需要有標(biāo)記好的樣本數(shù)據(jù),但是“不相似句子”的樣本難以學(xué)習(xí),并且需要較多樣本數(shù)據(jù)。其次,使用二分類獲取特征,輸出主要集中在兩個(gè)向量附近,容易導(dǎo)致相似句子對(duì)間的區(qū)分度不高。因此本文將采用第二方式,利用BERT模型來獲取句子的向量表示,然后通過計(jì)算兩個(gè)句子向量表示的余弦值來獲取句子間的相似度。目前,谷歌已經(jīng)為多種語言提供了BERT預(yù)訓(xùn)練語言模型,本文將采用的是哈爾濱工業(yè)大學(xué)訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的針對(duì)漢語的BERT預(yù)訓(xùn)練語言模型,該模型使用中文維基百科數(shù)據(jù)進(jìn)行訓(xùn)練,并在谷歌發(fā)布的BERT模型上有所升級(jí),在中文NLP任務(wù)中效果更佳。

    對(duì)于句子L與S,通過BERT分別獲取其向量表示AS=[S1,S2,…,Sn],AL=[L1,L2,…,Ln],句子L與S間的相似度計(jì)算公式為

    2.5 實(shí)體相似度計(jì)算

    在前面已經(jīng)將百科知識(shí)庫A和百科知識(shí)庫B中的實(shí)體進(jìn)行了索引掛載,當(dāng)需要將知識(shí)庫B與知識(shí)庫A進(jìn)行融合時(shí),遍歷知識(shí)庫B中所有實(shí)體,依次找到知識(shí)庫A中可對(duì)齊的實(shí)體。例如,對(duì)于知識(shí)庫B中的實(shí)體Eb,首先根據(jù)2.3節(jié)的方法獲得知識(shí)庫A中可能與之對(duì)齊的候選實(shí)體集合EA={Ea1,Ea2,…,Ean}

    然后一次計(jì)算Eb與EA中所有實(shí)體的相似度。實(shí)體相似度的計(jì)算主要包括屬性相似度計(jì)算和非結(jié)構(gòu)化文本相似度計(jì)算。在計(jì)算過程中將共同使用基于編輯距離相似度計(jì)算和基于BERT的語義相似度計(jì)算。

    2.5.1 屬性相似度計(jì)算

    屬性信息是百科知識(shí)庫中的半結(jié)構(gòu)化文本信息,展示了百科實(shí)體重要的個(gè)性化特征。例如對(duì)于同名的人物實(shí)體,不同的出生地或者職業(yè)都可以很大程度地區(qū)分兩個(gè)實(shí)體。由于不同知識(shí)庫之間的數(shù)據(jù)異構(gòu)性,對(duì)于相同屬性的表述不同,使得如何對(duì)兩個(gè)實(shí)體之間的屬性進(jìn)行對(duì)齊并計(jì)算屬性值的相似度并不容易。本文將通過編輯距離和BERT預(yù)訓(xùn)練語言模型找到可以匹配的屬性名,然后通過BERT預(yù)訓(xùn)練語言模型計(jì)算屬性值的相似度,最后加上屬性的權(quán)重得到兩個(gè)實(shí)體間的屬性相似度,主要流程如圖5所示。

    圖5 實(shí)體屬性相似度計(jì)算流程圖

    關(guān)于屬性名的匹配,由于不同知識(shí)庫之間的描述體系存在差異,屬性間存在異構(gòu)性,難以完全通過屬性名是否相同來判斷兩個(gè)實(shí)體的屬性值描述的是同一屬性。目前研究中都是通過預(yù)先對(duì)兩個(gè)不同知識(shí)庫的實(shí)體數(shù)據(jù)進(jìn)行屬性統(tǒng)計(jì),經(jīng)過人工比對(duì)編訂屬性映射規(guī)則。該方法有一定的作用,但是對(duì)于信息不斷擴(kuò)充、屬性個(gè)數(shù)不斷增長的知識(shí)庫來說,或者對(duì)于知識(shí)融合過程中出現(xiàn)新增數(shù)據(jù)源需求的任務(wù)來說,該方法需要不斷地進(jìn)行人工干預(yù),具有一定的局限性。

    如圖5所示,對(duì)于實(shí)體E1的屬性attr1,首先在E2的屬性集合 attrs查詢同名屬性 attr2;未找到則使用編輯距離計(jì)算屬性名相似度,找到attrs中與attr1的相似度最高且大于 edit?threshold的屬性attr2;否則,使用 BERT模型計(jì)算屬性相似度,找到相似度最高且大于bert?threshold的屬性attr2;未找到則說明E2中沒有與 attr1匹配的屬性。使用BERT模型計(jì)算兩個(gè)屬性值的語義相似度,記為Sim1。同理,對(duì)于E1中的屬性attr2,…,attrn,找到與之匹配的屬性并計(jì)算相似度 Sim2,…,Simn,加上屬性對(duì)應(yīng)權(quán)重并歸一化得到實(shí)體屬性相似度SimAttr。

    同一個(gè)知識(shí)庫中不同屬性對(duì)于實(shí)體具有不同的區(qū)分度,例如,若實(shí)體E的屬性“中文名”為“蚩尤”,而在知識(shí)庫中只有一個(gè)實(shí)體的屬性“中文名”為“蚩尤”,該屬性就具有很好的區(qū)分度。但是如果在知識(shí)庫中有很多實(shí)體的屬性“出生地”是“江蘇”,該屬性就具有較弱的區(qū)分度。由此,可以獲取該屬性的局部權(quán)重為

    三元組的含義見式(4),如果有10個(gè)人的出生地是江蘇,那么W(出生地,江蘇)=0.1。每個(gè)屬性與其任意一個(gè)屬性值都有一個(gè)局部權(quán)重,則該屬性的總權(quán)重為局部權(quán)重的調(diào)和平均數(shù):

    2.5.2 非結(jié)構(gòu)化文本相似度計(jì)算

    在百科知識(shí)庫中每個(gè)實(shí)體都有一段簡短的非結(jié)構(gòu)化文本信息來對(duì)實(shí)體進(jìn)行簡要的總結(jié)和描述,通過BERT特征提取的方法來獲取短文本的向量表示,Des=[w1,w2,…,wn],然后計(jì)算文本向量的夾角余弦值作為相似度。

    其中,Des1為實(shí)體E1的文本向量表示,Des2為實(shí)體E2的文本向量表示,SimDes(Des1,Des2)為兩個(gè)實(shí)體間文本相似度。

    2.5.3 實(shí)體相似度計(jì)算

    綜合實(shí)體的半結(jié)構(gòu)化屬性信息、非結(jié)構(gòu)化文本信息,可以通過式(23)計(jì)算兩個(gè)實(shí)體間的相似度。式中,w1表示實(shí)體屬性相似度的權(quán)重,w2表示實(shí)體文本相似度的權(quán)重,權(quán)重的最佳值將通過多組實(shí)驗(yàn)獲取。

    在知識(shí)庫A中實(shí)體E1與知識(shí)庫B中對(duì)應(yīng)的候選實(shí)體集合EB中所有實(shí)體計(jì)算完實(shí)體對(duì)相似度后,得到相似度最大且大于指定閾值的實(shí)體對(duì)(E1,E2),將作為E1的對(duì)齊結(jié)果輸出。

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)集

    為了驗(yàn)證算法的有效性,本文選擇使用百度百科和頭條百科兩個(gè)質(zhì)量較高的百科知識(shí)庫作為數(shù)據(jù)來源。根據(jù)項(xiàng)目需求(面向教育領(lǐng)域資源的融合),本文設(shè)定了化學(xué)、計(jì)算機(jī)、生物、文學(xué)4個(gè)學(xué)科以及人物一共5個(gè)類別,并通過網(wǎng)絡(luò)爬蟲技術(shù)從頭條百科中分別獲取了與5個(gè)分類相關(guān)的200個(gè)詞條作為待對(duì)齊實(shí)體,然后根據(jù)每個(gè)詞條的詞條名以及從詞條屬性中捕獲的別稱、別名等同義詞獲取一個(gè)觸發(fā)詞集合,從百度百科中爬取所有與觸發(fā)詞集合中同名的實(shí)體,并且通過人工篩查,標(biāo)注了百度百科數(shù)據(jù)集中能夠與頭條百科數(shù)據(jù)集對(duì)齊的實(shí)體,統(tǒng)計(jì)了可對(duì)齊實(shí)體對(duì)數(shù)量。實(shí)驗(yàn)所用數(shù)據(jù)統(tǒng)計(jì)見表1。

    表1 實(shí)體對(duì)齊數(shù)量統(tǒng)計(jì)

    3.2 評(píng)價(jià)標(biāo)準(zhǔn)

    傳統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)主要從精度(Precision,P),召回率(Recall,R)和總和指標(biāo)F 值(F?measure,F(xiàn))3 項(xiàng)來進(jìn)行評(píng)價(jià)。由于本算法還設(shè)計(jì)了索引算法來提高實(shí)體對(duì)齊效率,因此,將在評(píng)價(jià)標(biāo)準(zhǔn)中加入縮減率(Reduction Ration,RR),用來評(píng)價(jià)候選匹配對(duì)的篩選能力。借鑒二分類中正類(Positive)和負(fù)類(Negative)的概念,以 TP(True Positive)表示能夠被算法正確匹配的實(shí)體對(duì)個(gè)數(shù),F(xiàn)P(False Positive)表示被算法錯(cuò)誤匹配的實(shí)體對(duì)個(gè)數(shù),TP(True Negative)表示未被算法匹配的不存在可對(duì)齊實(shí)體對(duì)的個(gè)數(shù),F(xiàn)N(False Negative)表示未被算法匹配的存在可對(duì)齊實(shí)體對(duì)的個(gè)數(shù)。

    (1) 精度

    也稱為查準(zhǔn)率,表示算法獲取到的準(zhǔn)確對(duì)齊的數(shù)量和算法獲取的所有對(duì)齊實(shí)體數(shù)量的比值,可以衡量對(duì)齊算法正確匹配實(shí)體對(duì)的能力。

    (2) 召回率

    也稱為查全率,表示算法獲取到的準(zhǔn)確對(duì)齊的數(shù)量和可對(duì)齊實(shí)體對(duì)數(shù)量的比值,可以衡量對(duì)齊算法發(fā)現(xiàn)正確對(duì)齊實(shí)體對(duì)的能力。

    (3)綜合指標(biāo)F值

    F?measure,也稱為 f?score,是查準(zhǔn)率與查全率的調(diào)和均值,用來綜合考慮兩者的一個(gè)評(píng)價(jià)指標(biāo)。

    (4) 縮減率

    式中,Ncandicates表示算法篩選出來的候選對(duì)的數(shù)量,Nall表示全部待匹配實(shí)體對(duì)的數(shù)量??s減率可以用來衡量算法減少實(shí)體對(duì)匹配計(jì)算量的能力。

    (5)候選對(duì)完整性

    式中,Nright表示算法篩選出來的候選對(duì)中可匹配實(shí)體對(duì)的數(shù)量,Nall_right表示數(shù)據(jù)集合中所有可匹配實(shí)體對(duì)的數(shù)量。候選對(duì)完整性可以用來衡量算法產(chǎn)生的候選對(duì)的質(zhì)量,該指標(biāo)值過低會(huì)導(dǎo)致正確的匹配對(duì)被篩除,從而影響算法整體的召回率。

    3.3 參數(shù)設(shè)置

    本文算法需要設(shè)置的參數(shù)總共有5個(gè),第一個(gè)參數(shù)是 entity_threshold,是在最后用于判定兩個(gè)實(shí)體對(duì)是否對(duì)齊的實(shí)體相似度閾值,當(dāng)本文算法獲取的匹配實(shí)體對(duì)的相似度低于該值時(shí),會(huì)被排除在結(jié)果集外;第二個(gè)參數(shù)是index_threshold,是在構(gòu)建關(guān)鍵詞索引時(shí)需要設(shè)置的閾值,本文算法需要根據(jù)該值確定關(guān)鍵詞掛載數(shù)量,具體原理見2.2.2節(jié);第三個(gè)參數(shù)是Wattr,是計(jì)算實(shí)體相似度時(shí)用到的屬性相似度的權(quán)重,與之相伴的是實(shí)體描述性文本相似度的權(quán)重Wdesc,兩者之和為1;第四個(gè)參數(shù)是edit_threshold,在利用編輯距離進(jìn)行屬性名匹配時(shí)設(shè)置的最小閾值;第五個(gè)參數(shù)是bert_threshold,是使用編輯距離獲取匹配屬性名失效后,利用BERT語義相似度進(jìn)行補(bǔ)救時(shí)設(shè)置的最小相似度的閾值。

    由于實(shí)驗(yàn)一共有5組不同學(xué)科領(lǐng)域的數(shù)據(jù)集合,在以化學(xué)學(xué)科數(shù)據(jù)集合為例,展示參數(shù)篩選過程,其他學(xué)科數(shù)據(jù)集合的最終參數(shù)將以表格的形式給出。在選取參數(shù)之前將給每個(gè)參數(shù)賦予一個(gè)初始值,參數(shù)entity_threshold的初始值設(shè)為0.9,參數(shù) index_threshold的初始值設(shè)為0.6,參數(shù)Wattr的初始值設(shè)為0.4,參數(shù)edit_threshold的初始值設(shè)為 0.96,參數(shù) bert_threshold的初始值設(shè)為0.96,后面參數(shù)值的選取將在改組初始值的基礎(chǔ)上進(jìn)行調(diào)整。

    3.3.1 參數(shù) entity_threshold 選取

    為了獲取entity_threshold的最佳取值,首先在[0,1]區(qū)間內(nèi)以0.1為步長對(duì)參數(shù)進(jìn)行取值實(shí)驗(yàn),初步獲取最佳值0.8及其變化范圍[0.7,0.9],然后在該范圍內(nèi)進(jìn)行參數(shù)調(diào)整實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。

    表2 參數(shù)entity_threshold選取實(shí)驗(yàn)結(jié)果 %

    分析表2中的數(shù)據(jù),參數(shù)值在[0,0.7]區(qū)間范圍內(nèi)時(shí),P、R、F維持不變,從 0.7開始,隨著 entity_threshold值的不斷增加,準(zhǔn)確率P不斷上升,召回率不斷下降,綜合指標(biāo)則是先上升后下降的趨勢。在參數(shù)取值為最大值1時(shí),準(zhǔn)確率達(dá)到最高100%,而召回率降至1.05%。在 entity_threshold的取值為0.85時(shí),P為96.17%,R為91.19%,F(xiàn)得到最高值93.62%。由數(shù)據(jù)變化趨勢不難發(fā)現(xiàn),實(shí)體對(duì)相似度閾值越大,對(duì)匹配實(shí)體對(duì)的篩選越嚴(yán)格,只有實(shí)體間的相似度達(dá)到指定閾值才能被認(rèn)定為可匹配,因此造成準(zhǔn)確率的上升和召回率的下降。

    3.3.2 參數(shù) index_threshold 選取

    參數(shù)index_threshold是在構(gòu)建關(guān)鍵詞索引時(shí)需要設(shè)置的閾值,本文算法需要根據(jù)該值確定關(guān)鍵詞掛載數(shù)量。若該值過低,會(huì)導(dǎo)致關(guān)鍵詞掛載數(shù)量較多,難以有效剔除無用的獲選實(shí)體對(duì),因此對(duì)該參數(shù)的取值將從0.51開始。先以0.1為步長初步確定取值范圍,然后進(jìn)行微調(diào)確定最佳值。在3.3.1節(jié)實(shí)驗(yàn)的基礎(chǔ)上將entity_threshold從初始值0.9改為0.85,實(shí)驗(yàn)結(jié)果見表3。

    表3 參數(shù)index_threshold選取實(shí)驗(yàn)結(jié)果 %

    分析表3中的數(shù)據(jù),參數(shù)值在[0.51,0.9]區(qū)間范圍內(nèi)時(shí),P、R的值在0.52~0.59之間以及0.65處有局部的反復(fù),由于隨著參數(shù)值的增加,實(shí)體關(guān)鍵詞掛載數(shù)量減少,候選實(shí)體對(duì)的篩選力度加大,實(shí)體對(duì)齊的精度P在上升,而召回率R在下降。綜合指標(biāo)F則是先增后減,在參數(shù)值為0.55~0.58時(shí)取最大值94.18%,對(duì)應(yīng)的P為96.22%,R為92.23%。

    3.3.3 參數(shù)Wattr選取

    參數(shù)Wattr是計(jì)算實(shí)體相似度時(shí)用到的屬性相似度的權(quán)重,與之相伴的是實(shí)體描述性文本相似度的權(quán)重Wdesc,兩者之和為1。在3.3.2節(jié)實(shí)驗(yàn)的基礎(chǔ)上將index_threshold從初始值0.6改為0.56,實(shí)驗(yàn)結(jié)果見表4。

    分析表4中的數(shù)據(jù),當(dāng)參數(shù)值為0時(shí),表示實(shí)體相似度完全依賴于實(shí)體文本相似度,而當(dāng)參數(shù)值為1.0時(shí),表示實(shí)體相似度由實(shí)體屬性決定,在這兩種情況下,算法依然有較好表現(xiàn),前者的效果更佳。當(dāng)參數(shù)取值為0.5時(shí),P、R、F同時(shí)達(dá)到最佳值,分別為96.22%、92.23%和94.18%。

    3.3.4 edit_threshold 與 bert_threshold 選取

    參數(shù) edit_threshold與 bert_threshold主要是在計(jì)算屬性名相似度時(shí)設(shè)置的閾值,用于篩除錯(cuò)誤的匹配屬性名。選取參數(shù)的方法與3.3.1節(jié)類似,在3.3.3節(jié)實(shí)驗(yàn)的基礎(chǔ)上將Wattr從初始值0.4改為0.5。

    這兩個(gè)參數(shù)確定得到的實(shí)驗(yàn)結(jié)果變化較為簡單,edit_threshold 的取值以 0.8 為界限,[0,0.79]區(qū)間內(nèi)R、P、F的值分別為 96.09%、89.12%和92.47%;[0.80,1.00]區(qū)間范圍內(nèi)R、P、F的值分別為96.22%、92.23%和 94.18%,因此可給 edit_threshold取值0.92。在此基礎(chǔ)上選取Bert_threshold值,bert_threshold 的取值以 0.90 為界限,[0,0.89]內(nèi)R、P、F的值分別為97.17%、89.12%和92.97%;[0.90,1.00]區(qū)間范圍內(nèi)R、P、F的值分別為96.22%、92.23%和94.18%,因此可給 edit_threshold取值0.95。

    3.3.5 參數(shù)設(shè)置小結(jié)

    在3.3.1至3.3.4節(jié)中以化學(xué)學(xué)科領(lǐng)域數(shù)據(jù)集展示了參數(shù)選取的過程,其他4類學(xué)科數(shù)據(jù)集實(shí)驗(yàn)參數(shù)的選取過程相同,獲得的最佳參數(shù)與實(shí)驗(yàn)結(jié)果見表5。

    表5 5組數(shù)據(jù)集參數(shù)選取結(jié)果

    3.4 實(shí)驗(yàn)結(jié)果

    為驗(yàn)證算法有效性,本文還采用了基于LDA主題模型的實(shí)體對(duì)齊算法針對(duì)5組數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn)。除此之外,還將5組數(shù)據(jù)作為一個(gè)大的數(shù)據(jù)集合與王雪鵬等[5]的工作進(jìn)行性能對(duì)比。

    (1)如表6所示,本算法在5組數(shù)據(jù)的各項(xiàng)性能表現(xiàn)都明顯優(yōu)于基于LDA的實(shí)體對(duì)齊算法?;谥黝}模型的百科知識(shí)庫實(shí)體對(duì)齊算法主要是利用LDA主題模型對(duì)百科實(shí)體的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行建模,進(jìn)而獲取實(shí)體的特征向量表示,最后通過使用余弦計(jì)算實(shí)體相似度來完成實(shí)體對(duì)齊任務(wù)。在該算法中存在兩個(gè)問題,其一,只使用了百科實(shí)體的非結(jié)構(gòu)化文本信息,而沒有利用百科實(shí)體的屬性信息;其二,單純使用LDA,未能較好地達(dá)到相似度計(jì)算效果。因此,其算法準(zhǔn)確率、召回率及綜合評(píng)價(jià)指標(biāo)F的值相對(duì)于本文算法較低。

    表6 本算法與LDA算法比較 %

    (2)在第二組對(duì)比實(shí)驗(yàn)中,根據(jù)之前的大量實(shí)驗(yàn)結(jié)果數(shù)據(jù),綜合考慮選擇一組參數(shù)值,entity_threshold取值為0.85,index_threshold取值為 0.53,edit_threshold 取值為 0.90,bert_threshold 取值為0.87,Wattr取值為0.5。并將5組數(shù)據(jù)集合為一組進(jìn)行綜合測試后與王雪鵬等人的算法進(jìn)行比較。如表7所示,相對(duì)于王雪鵬等人的算法,本文算法的準(zhǔn)確率略低,但召回率上有極大的提高,綜合指標(biāo)F的值也高出不少。但是,本文算法的準(zhǔn)確率未能勝出,主要原因在于王雪鵬等人使用人工構(gòu)建的方式設(shè)計(jì)不同知識(shí)庫之間屬性的映射規(guī)則,不會(huì)出現(xiàn)屬性映射錯(cuò)誤的問題。本文算法為了避免人工介入,提高算法的擴(kuò)展性與適配性,采用基于語義相似度計(jì)算的方式自動(dòng)獲取不同知識(shí)庫之間的屬性映射,無法做到人工構(gòu)建的無差錯(cuò),因此可能出現(xiàn)少數(shù)錯(cuò)誤的屬性映射。

    表7 算法比較 %

    在王雪鵬等人的算法中,相對(duì)于本文算法有兩點(diǎn)優(yōu)勢:其一,充分利用百科實(shí)體的網(wǎng)絡(luò)語義標(biāo)簽,不僅用到了百科實(shí)體的屬性信息、非結(jié)構(gòu)化文本信息,還有效利用了類別標(biāo)簽來完成實(shí)體對(duì)齊任務(wù);其二,使用人工對(duì)比校驗(yàn),對(duì)兩個(gè)不同百科知識(shí)庫的屬性名進(jìn)行了映射規(guī)則的編輯,可信度極高。因此,其算法的準(zhǔn)確率要高于本文算法。但是其算法也存在三點(diǎn)劣勢:其一,簡單地利用實(shí)體的詞條名來獲取獲選實(shí)體集合,容易丟失同義不同名的實(shí)體對(duì),是導(dǎo)致其召回率過低的重要原因之一;其二,對(duì)非結(jié)構(gòu)化文本信息簡單采用TF?IDF提取關(guān)鍵詞構(gòu)建詞向量方式,語義相似度計(jì)算的精度不足,因此該算法在已有優(yōu)勢的基礎(chǔ)上未能與本文算法在準(zhǔn)確度上拉開太大差距;其三,使用人工進(jìn)行屬性名映射,面對(duì)百科知識(shí)庫實(shí)體信息的不斷擴(kuò)充,缺乏自主擴(kuò)展性。

    (3) 本文使用縮減率(Reduction Radio,RR)評(píng)價(jià)索引減少計(jì)算實(shí)體對(duì)匹配數(shù)量的性能,使用候選對(duì)完整性(Paris Completeness,PC)評(píng)價(jià)索引得到的候選集的質(zhì)量,具體定義與作用見3.2節(jié)。通過表8可以看出,候選集的完整性高達(dá)98.52%,可以有效保證質(zhì)量。縮減率也達(dá)到99.94%,可以幫助篩除大量無效實(shí)體對(duì)計(jì)算,提高計(jì)算效率。

    表8 算法的縮減率與完整性 %

    4 結(jié)束語

    近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,涌現(xiàn)出了維基百科、頭條百科、百度百科等大量優(yōu)秀的知識(shí)資源與知識(shí)社區(qū)。這些數(shù)字教育資源為人們的學(xué)習(xí)和生活提供了極大的便利,但是單一的知識(shí)來源覆蓋率低,無法充分滿足用戶的需求,不同知識(shí)庫之間存在較強(qiáng)的異構(gòu)型,難以快速有效地集成與共享。因此,多源知識(shí)庫的實(shí)體對(duì)齊作為知識(shí)庫融合的關(guān)鍵技術(shù),具有重要意義。

    本文提出的基于BERT的多源知識(shí)庫索引對(duì)齊算法,經(jīng)過驗(yàn)證能夠較好地解決多源知識(shí)庫實(shí)體對(duì)齊問題。本算法在縮減率達(dá)到99.71%~99.81%的情況下,針對(duì)5組不同學(xué)科領(lǐng)域的百科實(shí)體均能達(dá)到較好效果,在準(zhǔn)確率能夠達(dá)到91%~96.22%的同時(shí)能夠達(dá)到92.23%~97.33%的召回率,可以實(shí)際應(yīng)用于多源知識(shí)庫的實(shí)體對(duì)齊工作。同時(shí),本文算法的索引結(jié)構(gòu)在縮減率高達(dá)99.94%的同時(shí)保證了98.52%的完整性,能夠有效提高實(shí)體對(duì)齊效率。在以后的工作中,可以考慮將實(shí)體的分類標(biāo)簽作為新的實(shí)體特征來進(jìn)行對(duì)齊工作,并在算法中加入實(shí)體間的結(jié)構(gòu)相似度來提高實(shí)體對(duì)齊準(zhǔn)確率,并通過實(shí)體關(guān)系的挖掘更多匹配實(shí)體,從而提高算法召回率。

    猜你喜歡
    百科知識(shí)庫實(shí)體
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    樂樂“畫”百科
    基于TRIZ與知識(shí)庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    百科小知識(shí)
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識(shí)庫關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    探索百科
    18禁国产床啪视频网站| 亚洲精品一卡2卡三卡4卡5卡| 国产区一区二久久| 日本wwww免费看| 一进一出抽搐动态| 久久九九热精品免费| 国产精品偷伦视频观看了| 老鸭窝网址在线观看| 露出奶头的视频| 欧美日韩亚洲综合一区二区三区_| 俄罗斯特黄特色一大片| 国产亚洲欧美在线一区二区| 久久久水蜜桃国产精品网| www.999成人在线观看| 久久精品国产亚洲av香蕉五月| 欧美午夜高清在线| 欧美av亚洲av综合av国产av| 波多野结衣av一区二区av| 亚洲专区中文字幕在线| 午夜精品国产一区二区电影| 色哟哟哟哟哟哟| 少妇粗大呻吟视频| 婷婷精品国产亚洲av在线| 搡老岳熟女国产| 日韩精品免费视频一区二区三区| 国产又色又爽无遮挡免费看| 日韩 欧美 亚洲 中文字幕| 亚洲成人精品中文字幕电影 | 老汉色av国产亚洲站长工具| 亚洲精品国产精品久久久不卡| 女生性感内裤真人,穿戴方法视频| 亚洲狠狠婷婷综合久久图片| 国产有黄有色有爽视频| 极品教师在线免费播放| 国产成人精品无人区| 亚洲五月天丁香| 久久久久久久精品吃奶| 在线观看午夜福利视频| 91国产中文字幕| 一级作爱视频免费观看| 久久午夜亚洲精品久久| 少妇被粗大的猛进出69影院| 亚洲第一av免费看| 国产真人三级小视频在线观看| 日韩欧美一区视频在线观看| 人人妻人人爽人人添夜夜欢视频| 欧美黑人精品巨大| 在线观看一区二区三区| 在线永久观看黄色视频| 他把我摸到了高潮在线观看| 深夜精品福利| 亚洲av日韩精品久久久久久密| 免费观看人在逋| 精品福利永久在线观看| 日日干狠狠操夜夜爽| 免费人成视频x8x8入口观看| 一区二区三区精品91| 一区在线观看完整版| 国产麻豆69| 欧美成人免费av一区二区三区| 成人18禁在线播放| 91大片在线观看| 精品国产乱子伦一区二区三区| 成人精品一区二区免费| 又黄又爽又免费观看的视频| 日本黄色视频三级网站网址| 女人高潮潮喷娇喘18禁视频| 亚洲精品久久成人aⅴ小说| 欧美老熟妇乱子伦牲交| 啦啦啦 在线观看视频| 国产一区二区三区在线臀色熟女 | 亚洲欧洲精品一区二区精品久久久| 91老司机精品| 在线观看舔阴道视频| 欧美成人午夜精品| 好男人电影高清在线观看| 天天影视国产精品| 黄片小视频在线播放| 久久香蕉国产精品| 中文字幕另类日韩欧美亚洲嫩草| 在线看a的网站| 满18在线观看网站| 欧美成狂野欧美在线观看| 精品一区二区三区四区五区乱码| 性欧美人与动物交配| 高清在线国产一区| 日韩大尺度精品在线看网址 | 欧美乱色亚洲激情| 午夜两性在线视频| 悠悠久久av| 亚洲国产精品999在线| 80岁老熟妇乱子伦牲交| 久久久久久久午夜电影 | 色婷婷久久久亚洲欧美| 国产视频一区二区在线看| 国产高清视频在线播放一区| 在线视频色国产色| 国产91精品成人一区二区三区| 日韩三级视频一区二区三区| 亚洲av第一区精品v没综合| 男人的好看免费观看在线视频 | 真人做人爱边吃奶动态| 女性被躁到高潮视频| 亚洲 欧美 日韩 在线 免费| 久久欧美精品欧美久久欧美| 欧美日本亚洲视频在线播放| 欧美老熟妇乱子伦牲交| 99精国产麻豆久久婷婷| 视频在线观看一区二区三区| 在线观看日韩欧美| 国产精品 欧美亚洲| 精品高清国产在线一区| 亚洲一区中文字幕在线| 丝袜在线中文字幕| 日本免费一区二区三区高清不卡 | 黄网站色视频无遮挡免费观看| 成人国产一区最新在线观看| avwww免费| 欧美日本中文国产一区发布| 精品免费久久久久久久清纯| 99精品久久久久人妻精品| 色尼玛亚洲综合影院| 亚洲自偷自拍图片 自拍| 黄色 视频免费看| 国产主播在线观看一区二区| 欧美日本中文国产一区发布| 一级片免费观看大全| 日本wwww免费看| 级片在线观看| 久久久久久久久中文| 手机成人av网站| 天堂俺去俺来也www色官网| 久久欧美精品欧美久久欧美| 啦啦啦免费观看视频1| 亚洲熟妇中文字幕五十中出 | 国产熟女xx| 色婷婷久久久亚洲欧美| 久久久久久免费高清国产稀缺| 亚洲成人精品中文字幕电影 | 亚洲人成电影免费在线| 午夜成年电影在线免费观看| 一本综合久久免费| 动漫黄色视频在线观看| 老汉色∧v一级毛片| 亚洲精品成人av观看孕妇| 老司机靠b影院| 亚洲精品久久成人aⅴ小说| 99精国产麻豆久久婷婷| 精品国产乱码久久久久久男人| 电影成人av| 女人精品久久久久毛片| 50天的宝宝边吃奶边哭怎么回事| 欧美不卡视频在线免费观看 | 在线永久观看黄色视频| 精品国产乱码久久久久久男人| tocl精华| 成人18禁在线播放| 国产精品久久久久成人av| 国产精品综合久久久久久久免费 | 成人特级黄色片久久久久久久| 国产成人系列免费观看| 国产亚洲欧美在线一区二区| 男人的好看免费观看在线视频 | 精品卡一卡二卡四卡免费| 国产精品免费视频内射| 99久久久亚洲精品蜜臀av| 女人高潮潮喷娇喘18禁视频| 美女高潮喷水抽搐中文字幕| 黑丝袜美女国产一区| 麻豆国产av国片精品| 国内久久婷婷六月综合欲色啪| 看黄色毛片网站| 精品国产超薄肉色丝袜足j| avwww免费| 国内毛片毛片毛片毛片毛片| 国产熟女午夜一区二区三区| 亚洲欧洲精品一区二区精品久久久| 久久精品亚洲精品国产色婷小说| 水蜜桃什么品种好| 涩涩av久久男人的天堂| 欧美黑人欧美精品刺激| 少妇裸体淫交视频免费看高清 | 亚洲av第一区精品v没综合| 国产国语露脸激情在线看| 午夜成年电影在线免费观看| 女人爽到高潮嗷嗷叫在线视频| 欧美亚洲日本最大视频资源| 80岁老熟妇乱子伦牲交| 亚洲精品中文字幕一二三四区| 美女 人体艺术 gogo| 国产在线精品亚洲第一网站| 水蜜桃什么品种好| 亚洲成人免费av在线播放| 久久香蕉国产精品| 久久久久九九精品影院| 法律面前人人平等表现在哪些方面| 不卡av一区二区三区| 亚洲 国产 在线| 他把我摸到了高潮在线观看| 免费人成视频x8x8入口观看| 久久精品国产99精品国产亚洲性色 | 亚洲国产欧美日韩在线播放| 精品人妻1区二区| 国产一区二区三区综合在线观看| 高清毛片免费观看视频网站 | 又紧又爽又黄一区二区| 村上凉子中文字幕在线| 久久久国产精品麻豆| 一区在线观看完整版| 91大片在线观看| 老司机在亚洲福利影院| 在线视频色国产色| 日韩欧美免费精品| 国产成人av教育| 一级毛片精品| 999精品在线视频| 亚洲第一青青草原| 色精品久久人妻99蜜桃| 老司机福利观看| 中文字幕精品免费在线观看视频| 国产精品影院久久| 日韩三级视频一区二区三区| tocl精华| 国产日韩一区二区三区精品不卡| 亚洲精品一卡2卡三卡4卡5卡| 国产精品久久久人人做人人爽| 欧美在线一区亚洲| 中文字幕色久视频| av电影中文网址| 亚洲国产欧美日韩在线播放| 老汉色av国产亚洲站长工具| 如日韩欧美国产精品一区二区三区| xxx96com| 在线观看免费视频日本深夜| 一区福利在线观看| 成人亚洲精品一区在线观看| 欧美人与性动交α欧美精品济南到| 夜夜躁狠狠躁天天躁| 午夜两性在线视频| 国产精品国产av在线观看| 色精品久久人妻99蜜桃| 精品久久久久久成人av| 欧美国产精品va在线观看不卡| 亚洲国产毛片av蜜桃av| 国产精品爽爽va在线观看网站 | 国产亚洲精品久久久久久毛片| 国产精品香港三级国产av潘金莲| 亚洲av熟女| 成熟少妇高潮喷水视频| 美国免费a级毛片| 日韩精品青青久久久久久| 女生性感内裤真人,穿戴方法视频| av福利片在线| 久久精品亚洲熟妇少妇任你| 999久久久国产精品视频| 老汉色av国产亚洲站长工具| 三级毛片av免费| 亚洲色图综合在线观看| 一二三四在线观看免费中文在| 日韩精品青青久久久久久| 黄色视频,在线免费观看| 日本撒尿小便嘘嘘汇集6| 亚洲午夜理论影院| 最好的美女福利视频网| 亚洲九九香蕉| 中文字幕色久视频| 亚洲国产精品合色在线| 久久国产精品男人的天堂亚洲| 一夜夜www| 欧美中文综合在线视频| 又紧又爽又黄一区二区| 国产精品久久久人人做人人爽| 黄片大片在线免费观看| 成人18禁高潮啪啪吃奶动态图| 亚洲一区二区三区色噜噜 | a在线观看视频网站| 欧美久久黑人一区二区| 国产视频一区二区在线看| 久久中文看片网| 日韩大码丰满熟妇| 在线播放国产精品三级| 在线观看免费视频日本深夜| 搡老岳熟女国产| cao死你这个sao货| 搡老乐熟女国产| 久热爱精品视频在线9| 精品人妻在线不人妻| 日韩高清综合在线| 怎么达到女性高潮| 亚洲一区二区三区色噜噜 | 午夜精品在线福利| 日日爽夜夜爽网站| 欧美+亚洲+日韩+国产| 久久人妻福利社区极品人妻图片| 性欧美人与动物交配| 亚洲午夜精品一区,二区,三区| 日本 av在线| 久久精品成人免费网站| xxxhd国产人妻xxx| 91字幕亚洲| 性色av乱码一区二区三区2| 国产激情久久老熟女| 又黄又爽又免费观看的视频| 日本 av在线| 久久久久九九精品影院| av国产精品久久久久影院| 亚洲av成人不卡在线观看播放网| 久久人妻熟女aⅴ| 多毛熟女@视频| 999精品在线视频| 亚洲av成人av| 欧美黄色淫秽网站| 久久精品亚洲精品国产色婷小说| 男女午夜视频在线观看| 18禁美女被吸乳视频| 波多野结衣一区麻豆| 美女福利国产在线| 久久人人精品亚洲av| 中文字幕人妻丝袜制服| 精品午夜福利视频在线观看一区| 精品福利观看| 欧美黑人精品巨大| 久久午夜亚洲精品久久| 韩国av一区二区三区四区| 日韩精品免费视频一区二区三区| 国产成人影院久久av| 男男h啪啪无遮挡| 一a级毛片在线观看| 中亚洲国语对白在线视频| 人人澡人人妻人| 新久久久久国产一级毛片| 日韩av在线大香蕉| 国产人伦9x9x在线观看| 麻豆久久精品国产亚洲av | 精品国内亚洲2022精品成人| 乱人伦中国视频| 亚洲欧美一区二区三区黑人| www.熟女人妻精品国产| 12—13女人毛片做爰片一| 午夜福利在线免费观看网站| 性欧美人与动物交配| 精品福利观看| 19禁男女啪啪无遮挡网站| 欧美丝袜亚洲另类 | 亚洲国产精品一区二区三区在线| 在线观看免费午夜福利视频| 精品高清国产在线一区| 亚洲国产看品久久| 99在线视频只有这里精品首页| 黑人操中国人逼视频| 欧美黑人精品巨大| 美女 人体艺术 gogo| 水蜜桃什么品种好| 久久香蕉国产精品| 99久久综合精品五月天人人| 久久久久国产精品人妻aⅴ院| 久久精品aⅴ一区二区三区四区| 麻豆国产av国片精品| 日韩精品中文字幕看吧| 日本黄色日本黄色录像| 可以免费在线观看a视频的电影网站| 999久久久精品免费观看国产| 操出白浆在线播放| 日本wwww免费看| a级毛片黄视频| 亚洲成av片中文字幕在线观看| 国产单亲对白刺激| 国产无遮挡羞羞视频在线观看| 一个人免费在线观看的高清视频| 亚洲免费av在线视频| 侵犯人妻中文字幕一二三四区| 亚洲av日韩精品久久久久久密| 成人18禁在线播放| 亚洲精品在线观看二区| 中文字幕人妻丝袜制服| 日韩欧美在线二视频| 少妇粗大呻吟视频| 亚洲性夜色夜夜综合| 午夜成年电影在线免费观看| 亚洲精品中文字幕在线视频| 国产精品自产拍在线观看55亚洲| 午夜成年电影在线免费观看| 波多野结衣一区麻豆| 在线观看免费高清a一片| 涩涩av久久男人的天堂| 夜夜爽天天搞| 日日夜夜操网爽| 两个人免费观看高清视频| 欧美日韩乱码在线| 美女扒开内裤让男人捅视频| 久久影院123| 成人三级黄色视频| 免费人成视频x8x8入口观看| 一级毛片精品| 男女做爰动态图高潮gif福利片 | 嫩草影院精品99| 久久午夜综合久久蜜桃| 精品久久久久久,| 后天国语完整版免费观看| 久久精品亚洲熟妇少妇任你| 免费高清视频大片| 中出人妻视频一区二区| 国产精品综合久久久久久久免费 | 琪琪午夜伦伦电影理论片6080| 成熟少妇高潮喷水视频| 999精品在线视频| 最近最新免费中文字幕在线| 亚洲欧美一区二区三区久久| 宅男免费午夜| 久久草成人影院| 嫩草影视91久久| www.www免费av| 日韩国内少妇激情av| 免费av毛片视频| 国产区一区二久久| 欧美亚洲日本最大视频资源| 一级片免费观看大全| 亚洲午夜理论影院| 国产精品二区激情视频| 国产成人欧美在线观看| 亚洲一区中文字幕在线| 国产av精品麻豆| 制服人妻中文乱码| 搡老岳熟女国产| tocl精华| 水蜜桃什么品种好| 18禁美女被吸乳视频| 国产1区2区3区精品| 在线永久观看黄色视频| 两人在一起打扑克的视频| 超碰97精品在线观看| 男女下面插进去视频免费观看| 真人做人爱边吃奶动态| 亚洲片人在线观看| 69精品国产乱码久久久| 国产精品99久久99久久久不卡| 天天添夜夜摸| 久久青草综合色| 亚洲精品久久成人aⅴ小说| 性少妇av在线| 欧美日韩黄片免| 国产精品日韩av在线免费观看 | 人人澡人人妻人| 丰满的人妻完整版| 欧美一级毛片孕妇| 91字幕亚洲| 精品熟女少妇八av免费久了| 精品少妇一区二区三区视频日本电影| 免费观看人在逋| 麻豆一二三区av精品| 男女做爰动态图高潮gif福利片 | 老鸭窝网址在线观看| 久久精品亚洲精品国产色婷小说| 久久久国产欧美日韩av| 亚洲人成电影观看| 亚洲va日本ⅴa欧美va伊人久久| 成人亚洲精品一区在线观看| 91老司机精品| 一进一出好大好爽视频| 人妻久久中文字幕网| 国产野战对白在线观看| 无人区码免费观看不卡| 国产精品综合久久久久久久免费 | 欧美日韩中文字幕国产精品一区二区三区 | 国产精品国产av在线观看| 校园春色视频在线观看| 人人妻,人人澡人人爽秒播| 99香蕉大伊视频| 亚洲成人免费电影在线观看| 性色av乱码一区二区三区2| 午夜91福利影院| 欧美日韩中文字幕国产精品一区二区三区 | 久久人妻福利社区极品人妻图片| 一级毛片高清免费大全| 长腿黑丝高跟| 我的亚洲天堂| 午夜福利,免费看| 久久伊人香网站| 巨乳人妻的诱惑在线观看| 性欧美人与动物交配| 亚洲伊人色综图| 欧美乱妇无乱码| 亚洲精品中文字幕在线视频| 久久久久九九精品影院| 亚洲欧美日韩另类电影网站| 久久亚洲真实| 9热在线视频观看99| 男女之事视频高清在线观看| 精品国产国语对白av| 欧美日韩中文字幕国产精品一区二区三区 | 国产精品自产拍在线观看55亚洲| 久久 成人 亚洲| 天堂√8在线中文| 最近最新中文字幕大全电影3 | 日本撒尿小便嘘嘘汇集6| 久久人人97超碰香蕉20202| 成人黄色视频免费在线看| 不卡一级毛片| 后天国语完整版免费观看| 久久精品91蜜桃| 大香蕉久久成人网| 久久精品91蜜桃| 国产精华一区二区三区| 亚洲专区国产一区二区| 亚洲五月天丁香| 97人妻天天添夜夜摸| 午夜福利在线免费观看网站| 久久久国产一区二区| 国产精品1区2区在线观看.| av中文乱码字幕在线| 精品一区二区三卡| 99国产精品免费福利视频| 久久久久国内视频| 一边摸一边抽搐一进一小说| 99香蕉大伊视频| 国产黄色免费在线视频| 一区二区三区国产精品乱码| 亚洲熟妇熟女久久| 国产成人av激情在线播放| 99热只有精品国产| av天堂久久9| 欧美黑人欧美精品刺激| 免费在线观看日本一区| 亚洲精品美女久久av网站| 91大片在线观看| 午夜福利,免费看| 看免费av毛片| 亚洲中文av在线| 99久久99久久久精品蜜桃| 久久中文字幕人妻熟女| 日韩免费高清中文字幕av| av在线天堂中文字幕 | 天天躁夜夜躁狠狠躁躁| 午夜老司机福利片| 精品电影一区二区在线| 欧美人与性动交α欧美精品济南到| 久久婷婷成人综合色麻豆| 99精品久久久久人妻精品| 成人国产一区最新在线观看| 热99re8久久精品国产| 日本免费一区二区三区高清不卡 | 国产精品国产av在线观看| 国产成人欧美在线观看| 一级a爱片免费观看的视频| 一进一出抽搐动态| 神马国产精品三级电影在线观看 | 一级毛片精品| 国产免费现黄频在线看| 黑人操中国人逼视频| 久久中文字幕一级| 日韩国内少妇激情av| 国产成人精品久久二区二区91| 欧美不卡视频在线免费观看 | 成年女人毛片免费观看观看9| 啦啦啦免费观看视频1| 免费久久久久久久精品成人欧美视频| 国产一区在线观看成人免费| 午夜久久久在线观看| 亚洲激情在线av| xxxhd国产人妻xxx| 成人免费观看视频高清| 精品卡一卡二卡四卡免费| 久久人妻福利社区极品人妻图片| 欧美性长视频在线观看| 大型av网站在线播放| 国产精品1区2区在线观看.| 在线观看午夜福利视频| 国产无遮挡羞羞视频在线观看| 国产极品粉嫩免费观看在线| av天堂在线播放| 精品久久蜜臀av无| 国产真人三级小视频在线观看| svipshipincom国产片| 亚洲成人国产一区在线观看| 亚洲情色 制服丝袜| 国产精品九九99| 99久久99久久久精品蜜桃| 性色av乱码一区二区三区2| 水蜜桃什么品种好| 国产精品成人在线| 天天躁夜夜躁狠狠躁躁| e午夜精品久久久久久久| 啦啦啦免费观看视频1| 伦理电影免费视频| 99在线人妻在线中文字幕| 黑人操中国人逼视频| 国产成人精品久久二区二区91| 国产精品免费视频内射| 国产av又大| 伊人久久大香线蕉亚洲五| 精品久久蜜臀av无| 日韩欧美一区视频在线观看| 国产在线精品亚洲第一网站| 色综合站精品国产| 日韩国内少妇激情av| 中国美女看黄片| 身体一侧抽搐| 性少妇av在线| 在线观看一区二区三区| 丰满迷人的少妇在线观看| 日韩三级视频一区二区三区| 久久精品亚洲精品国产色婷小说| 国产精品久久久久久人妻精品电影| 久热爱精品视频在线9| 国产av又大| 亚洲伊人色综图| 高清av免费在线| 久久中文看片网| 美女福利国产在线| 国产成人精品久久二区二区91| 国产亚洲精品久久久久久毛片| 99精品久久久久人妻精品| 久久国产乱子伦精品免费另类| 国产片内射在线| 国产欧美日韩精品亚洲av|