• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    DBpedia Spotlight上的命名實(shí)體識(shí)別優(yōu)化*

    2017-07-31 20:56:06付宇新馮志勇
    計(jì)算機(jī)與生活 2017年7期
    關(guān)鍵詞:消歧維基百科命名

    付宇新,王 鑫+,馮志勇,徐 強(qiáng)

    1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300354

    2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300354

    3.天津大學(xué) 軟件學(xué)院,天津 300354

    DBpedia Spotlight上的命名實(shí)體識(shí)別優(yōu)化*

    付宇新1,2,王 鑫1,2+,馮志勇2,3,徐 強(qiáng)1,2

    1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300354

    2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300354

    3.天津大學(xué) 軟件學(xué)院,天津 300354

    +Corresponding autho author:r:E-mail:wangx@tju.edu.cn

    FU Yuxin,WANG Xin,FENG Zhiyong,et al.Nam ed entity recognition optim ization on DBpedia Spotlight.Journalof Frontiersof Com puter Science and Technology,2017,11(7):1044-1055.

    命名實(shí)體識(shí)別任務(wù)能夠搭建知識(shí)庫(kù)與自然語(yǔ)言之間的橋梁,為關(guān)鍵字提取、機(jī)器翻譯、主題檢測(cè)與跟蹤等研究工作提供支撐。通過(guò)對(duì)目前命名實(shí)體識(shí)別領(lǐng)域的相關(guān)研究進(jìn)行分析,提出了一套通用的命名實(shí)體識(shí)別優(yōu)化方案。首先,設(shè)計(jì)并實(shí)現(xiàn)了利用候選集的增量式擴(kuò)展方法,降低了對(duì)訓(xùn)練集的依賴(lài)性;其次,通過(guò)點(diǎn)互信息率對(duì)實(shí)體上下文進(jìn)行特征選擇,大幅度降低了上下文空間,同時(shí)提高了標(biāo)注性能;最后,提出了基于主題向量的二次消歧方法,進(jìn)一步增強(qiáng)了標(biāo)注準(zhǔn)確率。通過(guò)在廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight上進(jìn)行多種比較實(shí)驗(yàn),驗(yàn)證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。

    命名實(shí)體識(shí)別;鏈接數(shù)據(jù);DBpedia Spotlight

    1 引言

    作為信息提取領(lǐng)域的任務(wù)之一,命名實(shí)體識(shí)別能夠在給定的文本中識(shí)別出所有實(shí)體的命名性指稱(chēng),并鏈接到其在知識(shí)庫(kù)中的參照,從而搭建起知識(shí)庫(kù)與自然語(yǔ)言文本之間的橋梁。隨著維基百科的發(fā)展以及包括DBpedia[1]、YAGO[2]等知識(shí)庫(kù)的發(fā)布,使用命名實(shí)體識(shí)別豐富文本背后的語(yǔ)義并為應(yīng)用提供智能服務(wù)變得越來(lái)越重要,因此如何提高命名實(shí)體識(shí)別的性能成為許多研究工作的焦點(diǎn)。

    命名實(shí)體識(shí)別宏觀(guān)上包括3個(gè)步驟:第一步是命名性指稱(chēng)識(shí)別,即盡可能地識(shí)別出文本中可能出現(xiàn)的命名性指稱(chēng);第二步是候選集生成,即對(duì)于每個(gè)命名性指稱(chēng),構(gòu)成一個(gè)由知識(shí)庫(kù)中可能與之對(duì)應(yīng)實(shí)體組成的候選集;最后一步是候選集消歧,即在每個(gè)命名性指稱(chēng)對(duì)應(yīng)的候選集中確定唯一的實(shí)體匹配。

    本文提出了一套命名實(shí)體識(shí)別優(yōu)化方案,能夠適用于目前大部分的命名實(shí)體識(shí)別系統(tǒng),并從三方面改善命名實(shí)體識(shí)別的性能。

    本文的主要貢獻(xiàn)如下:

    (1)提出了使用候選集對(duì)一個(gè)命名實(shí)體識(shí)別系統(tǒng)進(jìn)行增量式擴(kuò)展的方法,降低了對(duì)訓(xùn)練數(shù)據(jù)集的依賴(lài),提高了靈活性。

    (2)通過(guò)考慮上下文單詞與實(shí)體的相關(guān)性,提出了點(diǎn)互信息率的概念,并使用其作為閾值對(duì)每個(gè)實(shí)體的上下文進(jìn)行特征選擇,大幅度降低了上下文空間,同時(shí)提高了系統(tǒng)的標(biāo)注性能。

    (3)使用維基百科文章之間的鏈接為實(shí)體和文本構(gòu)建主題向量代替M ilne-W itten語(yǔ)義關(guān)聯(lián)度,并基于主題向量提出了二次消歧算法,進(jìn)一步提高了系統(tǒng)標(biāo)注的準(zhǔn)確率。

    (4)通過(guò)將優(yōu)化方案實(shí)現(xiàn)在目前廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight上,并在多個(gè)測(cè)試數(shù)據(jù)集上設(shè)計(jì)完善的實(shí)驗(yàn),驗(yàn)證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。

    本文組織結(jié)構(gòu)如下:第2章介紹相關(guān)研究工作;第3章給出命名實(shí)體識(shí)別優(yōu)化方案的三方面內(nèi)容;第4章介紹基于命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight的優(yōu)化方案實(shí)現(xiàn);第5章詳細(xì)描述對(duì)比實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果;第6章對(duì)全文進(jìn)行總結(jié)。

    2 相關(guān)研究工作

    由于命名實(shí)體形式多變并且語(yǔ)言環(huán)境復(fù)雜,正確地對(duì)候選集進(jìn)行消歧尤為重要。例如,實(shí)體China可以在文本中通過(guò)命名性指稱(chēng)“China”或“PRC”等來(lái)指代,而命名性指稱(chēng)“Apple”也可能指代的是水果或蘋(píng)果公司。

    Cucerzan[3]最先提出了基于詞袋的方法,利用維基百科的標(biāo)注數(shù)據(jù)構(gòu)造實(shí)體的上下文向量和類(lèi)別向量,并將文本中的表現(xiàn)形式標(biāo)注到與之相似度最高的實(shí)體上。Medelyan等人[4]考慮到文本應(yīng)該具有一個(gè)中心主題,因此選擇候選集中與文本之間的語(yǔ)義關(guān)聯(lián)度最高的實(shí)體作為消歧結(jié)果。M ilne和Witten[5]在利用語(yǔ)義關(guān)聯(lián)度的同時(shí),考慮了實(shí)體的流行度和上下文質(zhì)量,并結(jié)合樸素貝葉斯、C4.5決策樹(shù)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法對(duì)候選集進(jìn)行消歧。Olieman[6]、Lipczak[7]等人的工作選取了更多的特征,使消歧的效果得到了進(jìn)一步的提高。Kulkarni等人[8]的工作結(jié)合了上下文向量的余弦相似度和實(shí)體之間的語(yǔ)義相似度,將標(biāo)注問(wèn)題規(guī)約到了線(xiàn)性?xún)?yōu)化問(wèn)題,通過(guò)選擇一個(gè)最優(yōu)的標(biāo)注結(jié)果,使得最終文本得到的實(shí)體之間局部相似度和全局相似度之和最大。Han等人[9]提出了基于圖的候選集消歧算法,利用所有表現(xiàn)形式和候選集構(gòu)造“指示圖”,并為圖上的每個(gè)點(diǎn)賦予一個(gè)初始得分,利用隨機(jī)游走算法,最終選擇穩(wěn)定后的最高得分實(shí)體。Hoffart[10]和Usbeck[11]等人也同樣使用基于圖的候選集消歧方法,并將不同的圖構(gòu)建算法和圖消歧算法作為研究的重點(diǎn)。

    已有的工作仍然具有以下幾點(diǎn)問(wèn)題:(1)命名實(shí)體識(shí)別系統(tǒng)普遍使用維基百科知識(shí)庫(kù)中的人工標(biāo)注結(jié)果作為支持?jǐn)?shù)據(jù),因此維基百科中沒(méi)有出現(xiàn)過(guò)的標(biāo)注也不可能出現(xiàn)在系統(tǒng)的標(biāo)注結(jié)果中;(2)實(shí)體上下文是候選集消歧的最重要的特征,而所有命名實(shí)體識(shí)別系統(tǒng)僅僅選擇去除其中的停用詞,而忽略了一些“類(lèi)停用詞”帶來(lái)的噪音;(3)主題一致性同樣是一個(gè)重要的用于候選集消歧的特征,而一部分命名實(shí)體識(shí)別系統(tǒng)受限于本身的核心消歧算法,缺少高效的手段來(lái)與主題一致性相融合。圍繞這些問(wèn)題,本文提出了一套命名實(shí)體識(shí)別優(yōu)化方案,可以有效地提高命名實(shí)體識(shí)別系統(tǒng)的性能。

    3 命名實(shí)體識(shí)別優(yōu)化方案

    下面主要介紹命名實(shí)體識(shí)別優(yōu)化方案的三部分:基于候選集的增量擴(kuò)展方法,基于點(diǎn)互信息率的特征選擇以及基于主題向量的二次消歧。

    3.1 基于候選集的增量擴(kuò)展方法

    原有的包括DBpedia Spotlight在內(nèi)的命名實(shí)體識(shí)別系統(tǒng)中,例如TagMe(http://acube.di.unipi.it/tagme)、AIDA(http://www.mpi-inf.mpg.de/yago-naga/aida)、Wikipedia M iner(http://w ikipedia-miner.cms.waikato.ac.nz)等普遍都需要使用基于維基百科數(shù)據(jù)得到的字典和候選集來(lái)識(shí)別文本中的命名性指稱(chēng)以及實(shí)體候選集。這樣做的問(wèn)題是,如果維基百科中并不存在正確的實(shí)體與命名性指稱(chēng)的匹配,那么在給定文本中該命名性指稱(chēng)也永遠(yuǎn)不會(huì)得到正確的標(biāo)注。例如命名性指稱(chēng)“Justin”在維基百科中僅僅被標(biāo)記為實(shí)體Justin Bieber,則對(duì)于輸入文本中出現(xiàn)的命名性指稱(chēng)“Justin”,將永遠(yuǎn)不會(huì)被標(biāo)記為其他實(shí)體,即便正確的結(jié)果希望將該命名性指稱(chēng)標(biāo)記到實(shí)體Justin Timberlake。

    通過(guò)人工構(gòu)建這些命名性指稱(chēng)和實(shí)體之間的對(duì)應(yīng)關(guān)系作為候選集,可以直接對(duì)命名性指稱(chēng)模型和候選集模型進(jìn)行擴(kuò)展?;诶绽蛊交琜12]的思想,對(duì)于這些新的實(shí)體與命名性指稱(chēng)對(duì)應(yīng)關(guān)系,如果它并沒(méi)有在訓(xùn)練集中出現(xiàn)過(guò),不是認(rèn)為它不可能作為標(biāo)注出現(xiàn),而是給予它一個(gè)最低的概率,即認(rèn)為它的被標(biāo)記次數(shù)為1次。對(duì)于模型中未出現(xiàn)的命名性指稱(chēng),需要設(shè)定一個(gè)初始的被標(biāo)記概率,本文選擇使用命名性指稱(chēng)和實(shí)體的聯(lián)合被標(biāo)記概率(式(1))來(lái)對(duì)新命名性指稱(chēng)的被標(biāo)記概率(式(2))進(jìn)行估計(jì)。

    其中,count(NIL,s)代表命名性指稱(chēng)s并未被標(biāo)記的次數(shù);S(e)是實(shí)體e所有已知的命名性指稱(chēng)集合。

    3.2 基于點(diǎn)互信息率的特征選擇

    特征選擇能夠通過(guò)減少有效的詞匯空間來(lái)提高分類(lèi)器訓(xùn)練和應(yīng)用的效率,同時(shí)也能夠去除噪音特征,從而提高分類(lèi)的精度。對(duì)于命名實(shí)體識(shí)別任務(wù)來(lái)說(shuō),候選集消歧的問(wèn)題也可以抽象成為一個(gè)分類(lèi)問(wèn)題,因此合理地使用特征選擇能夠改善命名實(shí)體識(shí)別問(wèn)題。

    在候選集消歧的過(guò)程中能夠利用的最重要特征是每個(gè)實(shí)體周?chē)纳舷挛摹K忻麑?shí)體識(shí)別系統(tǒng)都需要離線(xiàn)的處理過(guò)程,目的是將維基百科中出現(xiàn)在實(shí)體周?chē)膯卧~過(guò)濾掉停用詞后作為實(shí)體的上下文。這些上下文中的單詞有很多和實(shí)體的出現(xiàn)只是偶然的關(guān)系,換句話(huà)說(shuō),這些單詞對(duì)于實(shí)體而言和停用詞的作用是近似的。通過(guò)將這些相對(duì)實(shí)體的類(lèi)停用詞過(guò)濾掉,不僅可以減小實(shí)體上下文模型的占用空間,提高系統(tǒng)的性能;同時(shí)可以有效地避免這些類(lèi)停用詞給消歧帶來(lái)的噪音,優(yōu)化系統(tǒng)的標(biāo)注效果。

    信息論中,點(diǎn)互信息量[13](pointw isemutual information,PM I)能夠有效地度量?jī)蓚€(gè)事件同時(shí)發(fā)生的關(guān)聯(lián)程度。Islam等人[14-15]使用點(diǎn)互信息量來(lái)計(jì)算兩個(gè)單詞或文本之間的相似性。因此,結(jié)合DBpedia Spotlight的命名實(shí)體識(shí)別過(guò)程,本文定義一個(gè)實(shí)體e與該實(shí)體上下文中的某個(gè)單詞t之間的點(diǎn)互信息量為:

    其中,N為訓(xùn)練集中單詞的總數(shù);count(e,t)代表實(shí)體e和單詞t在維基百科中同一個(gè)上下文環(huán)境下出現(xiàn)的次數(shù);count(e)和count(t)分別表示實(shí)體e和單詞t在維基百科中出現(xiàn)的總次數(shù)。通過(guò)上式可以計(jì)算得到單詞t和實(shí)體e之間的點(diǎn)互信息量,從而衡量?jī)烧叩年P(guān)聯(lián)程度。兩者之間的點(diǎn)互信息量值越大,說(shuō)明這個(gè)單詞的出現(xiàn)和實(shí)體的出現(xiàn)之間的關(guān)聯(lián)性越大,反之,說(shuō)明這個(gè)單詞的出現(xiàn)和實(shí)體的出現(xiàn)接近于偶然,兩者的聯(lián)系比較小,可以把單詞作為停用詞處理。

    對(duì)于點(diǎn)互信息量樸素的使用方法是將所有與實(shí)體之間的點(diǎn)互信息量低于一定閾值的單詞從其上下文模型中剔除掉,避免這些單詞在消歧時(shí)帶來(lái)的噪音。然而實(shí)際證明這樣的策略并不是最優(yōu)的,原因是模型中每個(gè)實(shí)體所具有的信息量各不相同,與其上下文中的單詞之間點(diǎn)互信息量能夠達(dá)到的最大值也各不相同,因此將所有實(shí)體的上下文單詞使用相同的閾值進(jìn)行過(guò)濾是不合理的。通過(guò)考慮以上因素,本文提出了點(diǎn)互信息率的概念(式(4)),即單詞t和實(shí)體e之間的點(diǎn)互信息量與實(shí)體e所具有的信息量的比值。

    其中,H(e)是實(shí)體e具有的信息量,通過(guò)式(5)計(jì)算。

    3.3 基于主題向量的二次消岐

    通常一段文本都具有一個(gè)主題,文本內(nèi)部的實(shí)體之間具有緊密的聯(lián)系,Medelyan[4]和Ferragina[16]等人都將主題一致性作為候選集消歧的主要依據(jù),可以一定程度上提高命名實(shí)體識(shí)別的性能。而部分命名實(shí)體識(shí)別系統(tǒng)從截然不同的思路入手來(lái)解決候選集消歧問(wèn)題,缺少一些高效的手段將主題一致性整合到消歧過(guò)程中。

    3.3.1 主題向量的構(gòu)造

    基于維基百科文章的M ilne-Witten語(yǔ)義關(guān)聯(lián)度[17]被廣泛應(yīng)用在命名實(shí)體識(shí)別領(lǐng)域。M ilne-Witten語(yǔ)義關(guān)聯(lián)度借鑒了谷歌距離,充分考慮了維基百科文章之間的超鏈接構(gòu)成的圖結(jié)構(gòu),而不是使用分類(lèi)的層次結(jié)構(gòu)和文本內(nèi)容。給定一篇文章,計(jì)算任意實(shí)體與文章的主題一致性需要分別計(jì)算該實(shí)體與其他所有文章中實(shí)體的M ilne-Witten語(yǔ)義關(guān)聯(lián)度并求和,對(duì)于較長(zhǎng)文章或?qū)嶓w出現(xiàn)密集的文章具有較低的效率。通過(guò)借鑒M ilne-Witten語(yǔ)義關(guān)聯(lián)度的方法,本節(jié)提出了使用實(shí)體所出現(xiàn)的維基百科文章集合來(lái)表示實(shí)體主題和文章主題的方法。

    令W={w1,w2,…,wM}為維基百科中所有文章的集合。給出一個(gè)實(shí)體e,通過(guò)統(tǒng)計(jì)所有包含它的維基百科中的文章,可以得到該實(shí)體主題的01向量表示。

    其中,維基百科中的每篇文章對(duì)應(yīng)topic(e)向量中的一位,由該實(shí)體是否在該文章中出現(xiàn)決定該位是0還是1。

    同樣,給出一個(gè)文章D,可以通過(guò)對(duì)文章中出現(xiàn)的所有實(shí)體主題向量求和得到文章對(duì)應(yīng)的主題向量。

    3.3.2 基于主題向量的二次消岐

    對(duì)于任意一個(gè)命名實(shí)體識(shí)別系統(tǒng),最終候選集消歧的結(jié)果是對(duì)每個(gè)命名性指稱(chēng)給予唯一的實(shí)體匹配。如果一個(gè)候選集中的兩個(gè)實(shí)體消歧的得分比較接近,那么直接選擇得分更高的實(shí)體很容易出現(xiàn)錯(cuò)誤。利用上節(jié)提到的主題向量,可以對(duì)這部分容易發(fā)生錯(cuò)誤的標(biāo)注結(jié)果進(jìn)行二次消歧。

    給定一篇文章和候選集實(shí)體,利用上節(jié)的方法構(gòu)造文章的主題向量和每個(gè)實(shí)體的主題向量。對(duì)于每個(gè)實(shí)體,計(jì)算其主題向量和文章主題向量的余弦相似度作為兩者的主題相似度,并選擇主題相似度最高的實(shí)體作為最終標(biāo)注的實(shí)體。

    為了得到文章的主題向量,需要獲得文章中出現(xiàn)的所有實(shí)體。然而要想得到文章中出現(xiàn)的所有實(shí)體,又需要首先獲得文章的標(biāo)注結(jié)果,這就使得兩者出現(xiàn)了循環(huán)依賴(lài)的關(guān)系。對(duì)于這個(gè)問(wèn)題,本文采取的解決辦法是利用一次消歧結(jié)果來(lái)近似得到文章中出現(xiàn)的實(shí)體。

    本文認(rèn)為在一次消歧后滿(mǎn)足以下兩個(gè)條件的候選實(shí)體可以作為正確的標(biāo)注結(jié)果,不參與二次消歧,并利用這些實(shí)體構(gòu)建文章的近似主題向量。

    (1)該實(shí)體在候選集中擁有最高的消歧得分,且不低于一定閾值(取決于具體的系統(tǒng))。

    (2)候選集中沒(méi)有其他實(shí)體的支持度(即維基百科中的出現(xiàn)次數(shù))大于該實(shí)體。

    在得到文章的主題向量之后,通過(guò)計(jì)算剩下的候選實(shí)體和文章主題之間的主題相似度,將主題相似度最高的實(shí)體作為最終的消歧結(jié)果。

    4 基于DBpedia Spotlight的優(yōu)化方案實(shí)現(xiàn)

    本文用于實(shí)驗(yàn)的命名實(shí)體識(shí)別系統(tǒng)是DBpedia Spotlight基于統(tǒng)計(jì)的版本[18],也是目前使用最廣泛的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)之一。本章主要對(duì)系統(tǒng)原理進(jìn)行簡(jiǎn)單介紹,并闡述優(yōu)化方案的實(shí)現(xiàn)。

    4.1 開(kāi)源系統(tǒng)DBpediaSpotlight

    DBpedia Spotlight可以識(shí)別文本中的命名性指稱(chēng),并與DBpedia知識(shí)庫(kù)中的對(duì)應(yīng)實(shí)體關(guān)聯(lián)起來(lái),從而豐富文本的信息。系統(tǒng)所需要的統(tǒng)計(jì)模型包括實(shí)體、命名性指稱(chēng)、候選集、單詞和上下文五部分,是通過(guò)對(duì)維基百科的dump解析得到的,并序列化到硬盤(pán)。維基百科文章中包含了大量超鏈接形式的高質(zhì)量人工標(biāo)注,其中鏈接指向的文章就是標(biāo)注的實(shí)體,鏈接處的文本是實(shí)體在文本中的命名性指稱(chēng),鏈接處周?chē)奈谋緞t作為實(shí)體出現(xiàn)的上下文。

    DBpedia Spotlight的命名實(shí)體識(shí)別過(guò)程也包括命名性指稱(chēng)識(shí)別、候選集生成和候選集消歧3個(gè)步驟。

    (1)命名性指稱(chēng)識(shí)別

    DBpedia Spotlight通過(guò)利用維基百科中出現(xiàn)的所有命名性指稱(chēng),構(gòu)建有限自動(dòng)機(jī)字典,然后使用有限自動(dòng)機(jī)算法識(shí)別出文本中所有可能出現(xiàn)的命名性指稱(chēng)。系統(tǒng)還會(huì)計(jì)算出維基百科中每個(gè)命名性指稱(chēng)s的被標(biāo)記概率 P(annotation|s)(式(9)),來(lái)刻畫(huà)一個(gè)命名性指稱(chēng)的重要程度,用于在線(xiàn)標(biāo)注處理時(shí)對(duì)命名性指稱(chēng)的選擇,從而將低于一定閾值的命名性指稱(chēng)舍棄。

    (2)候選集生成

    利用候選集模型中保存的統(tǒng)計(jì)信息,系統(tǒng)對(duì)于識(shí)別出的每個(gè)命名性指稱(chēng),構(gòu)造該命名性指稱(chēng)可能對(duì)應(yīng)的實(shí)體集合作為候選集。

    (3)候選集消歧

    DBpedia Spotlight系統(tǒng)的消歧過(guò)程基于生成概率模型[19]。對(duì)于給定的標(biāo)記m(命名性指稱(chēng)是s,上下文是c),它被標(biāo)記為實(shí)體e的概率為:

    式中,P(e)、P(s|e)、P(c|e)分別對(duì)應(yīng)實(shí)體 e出現(xiàn)的概率、實(shí)體e出現(xiàn)時(shí)命名性指稱(chēng)為s的概率、實(shí)體e出現(xiàn)時(shí)上下文為c的概率,在維基百科數(shù)據(jù)集上使用極大似然估計(jì)得到(式(11))。PLM(t)是在訓(xùn)練集中所有單詞上估計(jì)得到的用于平滑的一元語(yǔ)言生成語(yǔ)言模型。

    對(duì)于候選集中的每個(gè)實(shí)體,系統(tǒng)計(jì)算得到了命名性指稱(chēng)被標(biāo)記為該實(shí)體的概率,對(duì)該概率進(jìn)行標(biāo)準(zhǔn)化,從而得到一個(gè)介于0到1.0之間的消歧得分。最終系統(tǒng)將實(shí)體按照消歧得分進(jìn)行排序,并且將得分最高的實(shí)體作為最終標(biāo)記結(jié)果。對(duì)于當(dāng)前上下文,系統(tǒng)還將生成一個(gè)NIL實(shí)體,用來(lái)表示命名性指稱(chēng)不屬于任何一個(gè)候選實(shí)體時(shí)的標(biāo)記結(jié)果。通過(guò)計(jì)算得到NIL實(shí)體的消歧得分(式(12)),所有低于該NIL實(shí)體得分的結(jié)果將被移除。

    4.2 基于候選集的增量擴(kuò)展實(shí)現(xiàn)

    DBpedia Spotlight系統(tǒng)的統(tǒng)計(jì)模型是離線(xiàn)過(guò)程中序列化到硬盤(pán)的,基于候選集的增量擴(kuò)展需要對(duì)其命名性指稱(chēng)模型、候選集模型進(jìn)行處理。因此,最終利用候選集擴(kuò)展DBpedia Spotlight模型的步驟如下所示。

    步驟1將DBpedia Spotlight的統(tǒng)計(jì)模型反序列化導(dǎo)入內(nèi)存。

    步驟2對(duì)于輸入候選集中每一對(duì)實(shí)體和命名性指稱(chēng)的匹配關(guān)系(e,s),如果e在實(shí)體模型中不存在,則跳過(guò)這條關(guān)系,否則獲得e對(duì)應(yīng)的e_id。

    步驟3如果s在命名性指稱(chēng)模型中不存在,則使用式(2)估計(jì)被標(biāo)記概率,并將s加入系統(tǒng)原有的命名性指稱(chēng)模型中,設(shè)置初始標(biāo)記次數(shù)為1。

    步驟4從擴(kuò)展后的命名性指稱(chēng)模型中獲得s對(duì)應(yīng)的s_id,并使用(s_id,e_id)對(duì)候選集模型進(jìn)行擴(kuò)展,并將出現(xiàn)次數(shù)設(shè)為1。

    步驟5將擴(kuò)展后的統(tǒng)計(jì)模型重新序列化到硬盤(pán)。

    人工構(gòu)建這樣的高質(zhì)量候選集是很困難的,需要大量繁瑣的工作。因此,為了驗(yàn)證使用候選集對(duì)系統(tǒng)模型進(jìn)行擴(kuò)展的方法,本節(jié)選擇通過(guò)使用規(guī)則生成一些相對(duì)質(zhì)量較低的匹配關(guān)系來(lái)近似地評(píng)價(jià)。本文通過(guò)選擇3個(gè)基本的規(guī)則(表1),生成了一系列實(shí)體與命名性指稱(chēng)的對(duì)應(yīng)關(guān)系,從而擴(kuò)展已有的候選集來(lái)驗(yàn)證候選集擴(kuò)展方法。

    Table1 Generative rulesof named references表1 命名性指稱(chēng)的生成規(guī)則

    4.3 基于點(diǎn)互信息率的特征選擇實(shí)現(xiàn)

    對(duì)于DBpedia Spotlight系統(tǒng)來(lái)說(shuō),候選集消歧過(guò)程所使用到的上下文信息保存在上下文模型中,包括訓(xùn)練集中出現(xiàn)在每個(gè)實(shí)體周?chē)膯卧~以及對(duì)應(yīng)的出現(xiàn)次數(shù)。通過(guò)實(shí)驗(yàn)調(diào)優(yōu)選擇一定閾值,對(duì)系統(tǒng)上下文模型進(jìn)行遍歷。對(duì)每個(gè)實(shí)體的上下文中單詞,使用離線(xiàn)處理得到的維基百科統(tǒng)計(jì)信息計(jì)算兩者之間的點(diǎn)互信息率,從而將低于閾值的單詞過(guò)濾掉,完成對(duì)上下文模型的特征選擇,步驟如下。

    步驟1將系統(tǒng)上下文模型反序列化到內(nèi)存,并對(duì)其進(jìn)行遍歷。

    步驟2對(duì)于每個(gè)實(shí)體e對(duì)應(yīng)的上下文單詞集合中的單詞token,從維基百科的統(tǒng)計(jì)信息中獲得e的出現(xiàn)次數(shù)、token的出現(xiàn)次數(shù)以及維基百科單詞的總數(shù)。

    步驟3使用式(10)計(jì)算得到e和token之間的點(diǎn)互信息率pmi_rate。

    步驟4如果pmi_rate小于預(yù)先設(shè)定的閾值,則將token從e的上下文空間中移除。

    步驟5重新將特征選擇后的上下文模型序列化到硬盤(pán)。

    為了驗(yàn)證對(duì)于上下文模型使用點(diǎn)互信息率進(jìn)行特征選擇的效果,本文同樣實(shí)現(xiàn)了利用互信息以及χ2統(tǒng)計(jì)量?jī)蓚€(gè)主流的特征,并將特征選擇之后的模型在多個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行標(biāo)注,證明了點(diǎn)互信息率要優(yōu)于以上兩種方法。

    4.4 基于主題向量的二次消岐實(shí)現(xiàn)

    DBpedia Spotlight的消歧過(guò)程中,僅僅利用一元語(yǔ)言模型計(jì)算候選集中每個(gè)實(shí)體的生成概率,并將生成概率最高的實(shí)體作為標(biāo)注結(jié)果,這其中并沒(méi)有考慮到實(shí)體與實(shí)體之間的語(yǔ)義關(guān)聯(lián)度,或者說(shuō)實(shí)體和整個(gè)文本主題之間的關(guān)聯(lián)度。

    原有的DBpedia Spotlight系統(tǒng)消歧之后得到的是文章中所有可能的命名性指稱(chēng)以及對(duì)應(yīng)的所有候選實(shí)體集。候選實(shí)體集中的每個(gè)實(shí)體都計(jì)算得到了一個(gè)消歧得分,最后得分最高的實(shí)體將會(huì)被保留并作為最終的標(biāo)注結(jié)果,即便最高的得分可能非常低。因此,本文對(duì)第一次消歧得到的錯(cuò)誤可能性較高的命名性指稱(chēng)進(jìn)行基于主題向量的二次消歧,從而提高標(biāo)注的準(zhǔn)確率。

    本文在DBpedia Spotlight上實(shí)現(xiàn)的二次消歧算法表述如下所示。

    算法基于主題向量的二次消歧

    輸入:一次消歧結(jié)果TmpResult,維基百科鏈接數(shù)據(jù)Links

    輸出:二次消歧結(jié)果FinalResult

    1.initFinalResult={};//定義FinalResult為保存最終消歧結(jié)果的集合

    2.for(sf,entities)←TmpResultdo

    3.(top_entity,top_score)=getTop(entities);

    4.iftop_score>0.9 then

    5.top_support=getSupport(top_entity);//得到消歧得分最高實(shí)體的支持度

    6.for(entity,score)←entitiesdo

    7. if getSupport(entity)>top_supportthen

    8. Break;

    9. end if

    10.add calculateTopic(top_entity)totextTopic;//計(jì)算文章的主題向量textTopic

    11.add(sf,top_entity)toFinalResult,remove(sf,entities)inTmpResult;

    12.end for

    13.end if

    14.end for

    15.for(sf,entities)←TmpResultdo

    16.(top_entity,top_score)=getTop(entities);

    17.topSim=calculateSim(calculateTopic(top_entity),textTopic);//計(jì)算實(shí)體和文章之間的主題相似度topSim

    18.for(entity,score)←entitiesdo

    19.entitySim←calculateSim(calculateTopic(entity),textTopic);

    20.ifentitySim>topSimthen

    21.topSim=entitySim;

    22.top_entity=entity;

    23.end if

    24.end for

    //得到候選集中與文章主題相似度最高的實(shí)體

    25.add(sf,top_entity)toFinalResult;

    26.end for

    其中維基百科鏈接數(shù)據(jù)(Links)中保存著每一個(gè)DBpedia實(shí)體所出現(xiàn)的維基百科文章的集合,是通過(guò)對(duì)維基百科文章數(shù)據(jù)離線(xiàn)處理解析得到的。由于算法只需要對(duì)一次消歧的結(jié)果進(jìn)行線(xiàn)性遍歷,顯然其時(shí)間復(fù)雜度是O(N),其中N是文章中識(shí)別出所有候選集實(shí)體的數(shù)目。

    5 實(shí)驗(yàn)

    下面通過(guò)實(shí)驗(yàn)方法評(píng)價(jià)本文命名實(shí)體識(shí)別優(yōu)化方案,全部實(shí)驗(yàn)在Intel?Xeon?CPU E5620@2.40GHz的PC機(jī)上運(yùn)行,內(nèi)存為64 GB,并配置4 TB硬盤(pán)。5.1節(jié)介紹實(shí)驗(yàn)使用的測(cè)試框架、數(shù)據(jù)集以及評(píng)測(cè)標(biāo)準(zhǔn);5.2節(jié)給出本文方案的實(shí)驗(yàn)結(jié)果以及與包括DBpedia Spotlight在內(nèi)的多個(gè)開(kāi)源命名實(shí)體識(shí)別系統(tǒng)的對(duì)比和分析。

    5.1 測(cè)試框架、數(shù)據(jù)集與評(píng)測(cè)標(biāo)準(zhǔn)

    目前已知的標(biāo)準(zhǔn)測(cè)試平臺(tái)BAT-Framework[20]是由Cornolti等人在2013年提出的,它可以公平地針對(duì)一個(gè)命名實(shí)體識(shí)別系統(tǒng)進(jìn)行評(píng)估。該框架基于一系列命名實(shí)體識(shí)別的任務(wù),提出了一套包括上文介紹的所有參數(shù)在內(nèi)的用于評(píng)估命名實(shí)體識(shí)別系統(tǒng)性能的方法,并且容易進(jìn)行配置來(lái)全面地評(píng)測(cè)一個(gè)系統(tǒng)的性能。另外,系統(tǒng)覆蓋了多個(gè)公開(kāi)的測(cè)試數(shù)據(jù)集,并且可以很容易地使用新的測(cè)試數(shù)據(jù)集、命名實(shí)體識(shí)別系統(tǒng)以及評(píng)測(cè)方法進(jìn)行擴(kuò)展。

    在本文的實(shí)驗(yàn)中,使用了最常用的弱匹配方法對(duì)系統(tǒng)的性能進(jìn)行評(píng)估,即只需要兩個(gè)命名性指稱(chēng)之間有交集并且兩個(gè)實(shí)體在重定向后具有一致性就認(rèn)為是正確的匹配。本文主要使用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(precision)、召回率(recall)以及F值(F-measure)。

    其中,tp(true positive),即系統(tǒng)標(biāo)注結(jié)果中正確的數(shù)目;fp(false positive),即系統(tǒng)標(biāo)注結(jié)果中錯(cuò)誤的數(shù)目;fn(false negative),即標(biāo)準(zhǔn)標(biāo)注結(jié)果中沒(méi)有被系統(tǒng)標(biāo)注出來(lái)的數(shù)目。

    為了實(shí)驗(yàn)的公平性,本文所有實(shí)驗(yàn)中的參數(shù)在未提及的情況下都使用默認(rèn)值。同時(shí),本文選取兩個(gè)具有代表性的數(shù)據(jù)集AIDA/CoNLL和MSNBC作為實(shí)驗(yàn)的測(cè)試數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的介紹如表2所示。

    Table 2 Benchmark datasetsused in experiments表2 實(shí)驗(yàn)使用的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集

    5.2 Ontology層結(jié)果分析

    本節(jié)主要圍繞本文三方面的優(yōu)化在3個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行綜合全面的實(shí)驗(yàn)。5.2.1節(jié)主要介紹使用候選集擴(kuò)展方法相關(guān)的實(shí)驗(yàn)結(jié)果和分析。5.2.2節(jié)主要介紹基于點(diǎn)互信息率的特征選擇相關(guān)的實(shí)驗(yàn)結(jié)果和分析。5.2.3節(jié)主要介紹基于主題向量的二次消歧相關(guān)的實(shí)驗(yàn)結(jié)果和分析。最后將對(duì)三方面優(yōu)化整合后的系統(tǒng)進(jìn)行實(shí)驗(yàn)和分析,并與多個(gè)開(kāi)源的命名實(shí)體識(shí)別系統(tǒng)進(jìn)行比較。

    5.2.1 模型擴(kuò)展框架

    本文通過(guò)第3章總結(jié)的3個(gè)簡(jiǎn)單的規(guī)則,利用DBpedia知識(shí)庫(kù)中的5 235 952個(gè)實(shí)體生成了541 607個(gè)實(shí)體-命名性指稱(chēng)的匹配。將生成的匹配關(guān)系利用候選集擴(kuò)展的方法融入到原有系統(tǒng)的統(tǒng)計(jì)模型中,用DBpedia Spotlight-α來(lái)指代擴(kuò)展模型后的系統(tǒng)。

    為了驗(yàn)證DBpediaSpotlight-α的性能,本文在AIDA/CoNLL和MSNBC數(shù)據(jù)集上分別運(yùn)行了原系統(tǒng)和DBpedia Spotlight-α,得到的實(shí)驗(yàn)結(jié)果如表3所示。

    從實(shí)驗(yàn)結(jié)果可以看出,通過(guò)利用規(guī)則產(chǎn)生候選集,并將這個(gè)集合融入到原有的候選集中,可以一定程度增加在測(cè)試數(shù)據(jù)集上識(shí)別正確實(shí)體的數(shù)目,從而提高系統(tǒng)的召回率。同時(shí),由于增加了大量的質(zhì)量不高的實(shí)體命名性指稱(chēng)對(duì)應(yīng)關(guān)系,也會(huì)增加許多標(biāo)注錯(cuò)誤的情況,從而導(dǎo)致識(shí)別的準(zhǔn)確率有所下降。DBpedia Spotlight-α所增加的標(biāo)注正確的數(shù)目要遠(yuǎn)小于候選集中新增的匹配關(guān)系數(shù)目,是因?yàn)槭褂靡?guī)則產(chǎn)生的關(guān)系,如果在訓(xùn)練集中沒(méi)有出現(xiàn),通常實(shí)際應(yīng)用時(shí)出現(xiàn)的情況也比較少。因此,如果使用一些人工或機(jī)器的手段,獲取大量實(shí)體與命名性指稱(chēng)高質(zhì)量的對(duì)應(yīng)關(guān)系集合,利用本節(jié)的方法融入到字典中,將可以得到更好的結(jié)果。另外,盡管系統(tǒng)增加了一些標(biāo)記錯(cuò)誤的結(jié)果,但是本文提到的二次消歧方法可以有效地增加準(zhǔn)確率,減少標(biāo)記錯(cuò)誤的情況,兩者的結(jié)合可以得到更好的結(jié)果。

    5.2.2 基于點(diǎn)互信息率的特征選擇

    本小節(jié)主要介紹基于點(diǎn)互信息率的特征選擇方面的實(shí)驗(yàn),其中包括對(duì)用于過(guò)濾的閾值參數(shù)的選擇調(diào)優(yōu)。本小節(jié)的系統(tǒng)用DBpedia Spotlight-β指代。

    為了找到一個(gè)最優(yōu)的用于過(guò)濾的閾值參數(shù),本文將閾值從0開(kāi)始逐步提高,同時(shí)觀(guān)察特征選擇后的上下文模型空間的變化,以及系統(tǒng)在測(cè)試數(shù)據(jù)集上的標(biāo)注性能變化。圖1和圖2、圖3分別對(duì)應(yīng)隨著閾值參數(shù)的變化,上下文模型的空間占用的變化以及系統(tǒng)在兩個(gè)測(cè)試數(shù)據(jù)集上的標(biāo)注結(jié)果的變化。

    通過(guò)觀(guān)察圖1可以發(fā)現(xiàn),系統(tǒng)上下文模型中平均每個(gè)實(shí)體對(duì)應(yīng)的單詞數(shù)目隨著閾值的提高下降得非常迅速,在閾值設(shè)為0.4的時(shí)候已經(jīng)達(dá)到了原有模型大小的1/4,這說(shuō)明了絕大部分的單詞與實(shí)體同時(shí)出現(xiàn)都是具有偶然性的。而從圖2和圖3中可以看出,盡管模型空間隨著閾值的提高成倍地下降,但是系統(tǒng)的消歧效果并沒(méi)有受到太大的影響。在最初閾值從0提高到0.3的過(guò)程中,系統(tǒng)在兩個(gè)測(cè)試數(shù)據(jù)集上的F值和原系統(tǒng)相比略微下降,從0.3開(kāi)始系統(tǒng)的標(biāo)注結(jié)果反而開(kāi)始得到提高,直到閾值為0.4到0.5之間時(shí)達(dá)到頂峰,其性能也超過(guò)了原系統(tǒng)。最后從0.5再繼續(xù)提高閾值,系統(tǒng)的標(biāo)注效果又開(kāi)始逐漸下降。

    Table3 Experimental results1表3 實(shí)驗(yàn)結(jié)果1

    Fig.1 Threshold parameter and contextmodelspace圖1 閾值參數(shù)與上下文模型空間

    Fig.2 Threshold parameterandF-measureon AIDA/CoNLL dataset圖2 閾值參數(shù)在測(cè)試數(shù)據(jù)集AIDA/CoNLL上的F值

    Fig.3 Threshold parameterandF-measureon MSNBC dataset圖3 閾值參數(shù)在測(cè)試數(shù)據(jù)集MSNBC上的F值

    因此,最終本文采用能夠在兩個(gè)測(cè)試數(shù)據(jù)集上得到較好結(jié)果的閾值0.45,此時(shí)原有的上下文模型空間從平均每個(gè)實(shí)體具有66個(gè)上下文單詞減少到了只有17個(gè)上下文單詞。表4是將閾值參數(shù)設(shè)置為0.45時(shí)得到的上下文模型整合到系統(tǒng)后,在AIDA/CoNLL和MSNBC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

    通過(guò)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),新的模型在大大削減了空間的情況下,并沒(méi)有影響到標(biāo)注的性能,而且可以在準(zhǔn)確率和召回率上都有略微的提升。

    5.2.3 基于主題向量的二次消岐

    本小節(jié)主要介紹基于主題向量的二次消歧相關(guān)的實(shí)驗(yàn)。將融入二次消歧算法的系統(tǒng)用DBpedia Spotlight-θ指代,表5是DBpedia Spotlight-θ在兩個(gè)測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的實(shí)驗(yàn)結(jié)果。

    從實(shí)驗(yàn)結(jié)果中可以看出,通過(guò)對(duì)原有系統(tǒng)中標(biāo)注錯(cuò)誤可能性較大的命名性指稱(chēng)進(jìn)行二次消歧,可以有效地降低系統(tǒng)中標(biāo)注錯(cuò)誤實(shí)體的數(shù)量,從而提高標(biāo)注的準(zhǔn)確率和F值。

    Table 4 Experimental results2表4 實(shí)驗(yàn)結(jié)果2

    Table5 Experimental results3表5 實(shí)驗(yàn)結(jié)果3

    Table6 Experimental results4表6 實(shí)驗(yàn)結(jié)果4

    5.2.4 整合后系統(tǒng)

    本小節(jié)將上述的三部分整合到了一起,整合后的系統(tǒng)用DBpedia Spotlight*指代。通過(guò)在測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上運(yùn)行實(shí)驗(yàn),得到的實(shí)驗(yàn)結(jié)果如表6所示。

    從實(shí)驗(yàn)結(jié)果可以看出,通過(guò)將三方面工作結(jié)合到一起,DBpedia Spotlight*能夠得到比每個(gè)單一部分更好的標(biāo)注效果。這說(shuō)明三方面工作對(duì)于系統(tǒng)而言都有著自己獨(dú)立的優(yōu)點(diǎn),將三方面結(jié)合起來(lái)可以讓系統(tǒng)更加完善。另外,對(duì)比表6可以看出,在數(shù)據(jù)集MSNBC上的結(jié)果要比數(shù)據(jù)集AIDA/CoNLL上提升得更加明顯,主要是因?yàn)閿?shù)據(jù)集MSNBC的特點(diǎn)是只有非常重要的實(shí)體才會(huì)被標(biāo)記,所以標(biāo)注結(jié)果集中的實(shí)體之間的聯(lián)系也更加緊密,文本內(nèi)部的主題一致性更加突出,更適用于本文提出的二次消歧算法。而AIDA/CoNLL數(shù)據(jù)集會(huì)過(guò)多地標(biāo)注一些不重要的實(shí)體,為主題向量的構(gòu)建帶來(lái)了噪音。

    5.2.5 與其他開(kāi)源系統(tǒng)的比較

    本文還與其他4個(gè)廣泛使用的命名實(shí)體識(shí)別系統(tǒng)進(jìn)行了比較,包括AIDA、IllinoisWikifier、TagMe2以及WikipediaM iner。同時(shí),為了與其他系統(tǒng)公平地比較性能,本文將DBpedia Spotlight的一些參數(shù)通過(guò)調(diào)整,取能夠使得標(biāo)注結(jié)果達(dá)到最優(yōu)的值。表7是DBpedia Spotlight*在兩個(gè)測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的運(yùn)行結(jié)果同包括原系統(tǒng)在內(nèi)的5個(gè)開(kāi)源系統(tǒng)的比較。

    通過(guò)與其他著名的開(kāi)源系統(tǒng)在AIDA/CoNLL數(shù)據(jù)集和MSNBC數(shù)據(jù)集上進(jìn)行對(duì)比的結(jié)果可以看出,DBpedia Spotlight系統(tǒng)本身已經(jīng)能夠具有目前接近最好的標(biāo)注性能,而本文提出的優(yōu)化框架可以進(jìn)一步提高原系統(tǒng)的性能,從而超過(guò)了其他開(kāi)源的命名實(shí)體識(shí)別系統(tǒng)。

    Table7 Resultsof comparison experimentsbetween DBpedia Spotlight*and open-source systems表7 DBpedia Spotlight*與開(kāi)源系統(tǒng)對(duì)比實(shí)驗(yàn)結(jié)果

    需要指出的是,在5.2.4小節(jié)中實(shí)驗(yàn)對(duì)比DBpedia Spotlight*與DBpedia Spotlight原系統(tǒng)時(shí),使用的閾值參數(shù)為0.4,也是DBpedia Spotlight默認(rèn)的參數(shù)。而本小節(jié)的實(shí)驗(yàn)是DBpedia Spotlight*和其他幾個(gè)開(kāi)源系統(tǒng)之間的對(duì)比,鑒于每個(gè)系統(tǒng)都有各自的配置參數(shù),用來(lái)調(diào)節(jié)標(biāo)注的準(zhǔn)確率和召回率,為了公平起見(jiàn),將每個(gè)系統(tǒng)都取其能夠達(dá)到最好標(biāo)注效果(也就是F值最大)的參數(shù),因此表7中DBpedia Spotlight*的實(shí)驗(yàn)數(shù)據(jù)與表6中的數(shù)據(jù)不同。

    6 總結(jié)

    由于知識(shí)庫(kù)中實(shí)體在文本中存在形式的多樣性,提高命名實(shí)體識(shí)別的綜合性能一直是一個(gè)挑戰(zhàn)性問(wèn)題。本文通過(guò)對(duì)現(xiàn)有的命名實(shí)體識(shí)別方法進(jìn)行研究與分析,提出了一套通用的命名實(shí)體識(shí)別優(yōu)化框架。通過(guò)設(shè)計(jì)并實(shí)現(xiàn)使用候選集對(duì)系統(tǒng)模型進(jìn)行擴(kuò)展的方法,降低了對(duì)訓(xùn)練集的依賴(lài),增加了靈活性;同時(shí),提出了點(diǎn)互信息率的概念,通過(guò)使用點(diǎn)互信息率對(duì)上下文模型進(jìn)行特征選擇,將上下文空間降低為原有的1/4,并且能夠提高標(biāo)注的準(zhǔn)確率和召回率。本文還提出了利用主題向量代替M ilne-W itten語(yǔ)義關(guān)聯(lián)度對(duì)錯(cuò)誤可能性較高的標(biāo)注結(jié)果進(jìn)行二次消歧,提高了標(biāo)注的準(zhǔn)確率。通過(guò)在目前廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight中實(shí)現(xiàn)所提優(yōu)化方案,并在兩個(gè)標(biāo)準(zhǔn)的測(cè)試集上設(shè)計(jì)完善的實(shí)驗(yàn)方案,驗(yàn)證了本文優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。

    [1]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia—a crystallization point for theWeb of data[J].Web Semantics:Science,Services and Agents on theWorld WideWeb,2009,7(3):154-165.

    [2]Hoffart J,Suchanek FM,Berberich K,et al.YAGO2:exploring and querying world know ledge in time,space,context,andmany languages[C]//Proceedings of the 20th International Conference onWorld WideWeb,Hyderabad,India,Mar28-Apr1,2011.New York:ACM,2011:229-232.

    [3]Cucerzan S.Large-scale named entity disambiguation based on Wikipedia data[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Czech Republic,Jun 28-30,2007.Stroudsburg,USA:ACL,2011:708-716.

    [4]Medelyan O,W itten IH,M ilne D.Topic indexing w ith Wikipedia[C]//Proceedingsof the 2008AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo A lto,USA:AAAI,2008:19-24.

    [5]M ilne D,Witten IH.Learning to link w ith Wikipedia[C]//Proceedings of the 17th ACM Conference on Information and Know ledge Management,Napa Valley,USA,Oct 26-30,2008.New York:ACM,2008:509-518.

    [6]Olieman A,Azarbonyad H,DehghaniM,etal.Entity linking by focusing DBpedia candidate entities[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul 11,2014.New York:ACM,2014:13-24.

    [7]Lipczak M,KoushkestaniA,M ilios E.Tulip:lightweight entity recognition and disambiguation using Wikipediabased topic centroids[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul11,2014.New York:ACM,2014:31-36.

    [8]Kulkarni S,Singh A,Ramakrishnan G,etal.Collective annotation of Wikipedia entities in Web text[C]//Proceedings of the 15th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Paris,Jun 28-Jul 1,2009.New York:ACM,2009:457-466.

    [9]Han Xianpei,Sun Le,Zhao Jun.Collective entity linking in Web text:a graph-based method[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,Jul 24-28,2011.New York:ACM,2011:765-774.

    [10]Hoffart J,Yosef M A,Bordino I,et al.Robust disambiguation of named entities in text[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg,USA:ACL,2011:782-792.

    [11]Usbeck R,Ngomo A C N,R?der M,etal.AGDISTIS—agnostic disambiguation of named entities using linked open data[C]//Proceedings of the 21st European Conference on Artificial Intelligence,Prague,Czech Republic,Aug 18-22,2014.Amsterdam:IOSPress,2014:1113-1114.

    [12]Chen S F,Goodman J.An empirical study of smoothing techniques for language modeling[C]//Proceedings of the 34th Annual Meeting on Association for Computational Linguistics,Santa Cruz,USA,Jun 24-27,1996.Stroudsburg,USA:ACL,1996:310-318.

    [13]Church KW,Hanks P.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.

    [14]Islam A,Inkpen D.Second order co-occurrence PM I for determ ining the semantic sim ilarity of words[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation,Genoa,Italy,May 24-26,2006.Paris:ELRA,2006:1033-1038.

    [15]Islam A,Inkpen D.Semantic similarity of short texts[J].Re-cent Advances in Natural Language Processing,2009,309:227-236.

    [16]Ferragina P,Scaiella U.TagMe:on-the-fly annotation of short text fragments(by w ikipedia entities)[C]//Proceedings of the 19th ACM International Conference on Information and Know ledge Management,Toronto,Canada,Oct 26-30,2010.New York:ACM,2010:1625-1628.

    [17]Witten I,M ilne D.An effective,low-costmeasureof semantic relatedness obtained from Wikipedia links[C]//Proceedings of the 2008 AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo Alto,USA:AAAI,2008:25-30.

    [18]Han Xianpei,Sun Le.A generative entity-mention model for linking entitiesw ith know ledge base[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technolgies,Portland,USA,Jun 19-24,2011.Stroudsburg,USA:ACL,2011:945-954.

    [19]Daiber J,Jakob M,Hokamp C,et al.Improving efficiency and accuracy in multilingual entity extraction[C]//Proceedings of the 9th International Conference on Semantic Systems,Graz,Austria,Sep 4-6,2013.New York:ACM,2013:121-124.

    [20]Cornolti M,Ferragina P,Ciaram ita M.A framework for benchmarking entity-annotation systems[C]//Proceedings of the 22nd International Conference on World Wide Web,Rio de Janeiro,Brazil,May 13-17,2013.New York:ACM,2013:249-260.

    FU Yuxinwasborn in 1991.He isan M.S.candidate at Tianjin University.His research interests include named entity recognition and keyword search.

    付宇新(1991—),男,吉林通化人,天津大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)槊麑?shí)體識(shí)別,關(guān)鍵字搜索。

    王鑫(1981—),男,天津人,2009年于南開(kāi)大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)副教授,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)檎Z(yǔ)義數(shù)據(jù)管理,圖數(shù)據(jù)庫(kù),大規(guī)模知識(shí)處理。

    FENG Zhiyong was born in 1965.He received the Ph.D.degree from Tianjin University in 1996.Now he isa professor and Ph.D.supervisor at Tianjin University,and the seniormember of CCF.His research interests include know ledge engineering,services computing and security software engineering.

    馮志勇(1965—),男,內(nèi)蒙古呼和浩特人,1996年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)橹R(shí)工程,服務(wù)計(jì)算,安全軟件工程。

    XU Qiangwasborn in 1993.She isan M.S.candidate at Tianjin University.Her research interests include semantic Web and graph databases.

    徐強(qiáng)(1993—),女,山西臨汾人,天津大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)檎Z(yǔ)義網(wǎng),圖數(shù)據(jù)庫(kù)。

    Named Entity Recognition Optim ization on DBpedia Spotlight*

    FU Yuxin1,2,WANG Xin1,2+,FENG Zhiyong2,3,XUQiang1,2
    1.Schoolof Computer Science and Technology,Tianjin University,Tianjin 300354,China
    2.Tianjin Key Laboratory of Cognitive Computing and Application,Tianjin 300354,China
    3.Schoolof Computer Software,Tianjin University,Tianjin 300354,China

    The task of named entity recognition can bridge the gap between know ledge bases and nature languages,and support the research work in keyword extraction,machine translation,topic detection and tracking,etc.Based on the analysisof current research in the field of named entity recognition,this paper proposesa general-purpose optimization scheme for named entity recognition.Firstly,this paper designs and implements an incremental extending method,by using a candidate set,which can reduce the dependency on the training set.Secondly,by leveraging the conceptof pointw isemutual information ratio,thispapereffectivelymakes feature selection on the contextsof entities,whichmay reduce the contextspace significantly andmeanwhile improve the performance of annotation results.Finally,this paper presents the secondary disambiguationmethod based on topic vectors,which can further enhance the precision of annotation.This paper conductsextensive comparison experiments on thew idely-used open-source named entity recognition system DBpedia Spotlight.Ithas been verified that the proposed optim ization scheme out-performs the state-of-the-artmethods.

    named entity recognition;linked data;DBpedia Spotlight

    was born in 1981.He

    the Ph.D.degree from NankaiUniversity in 2009.Now he isan associate professor at Tianjin University,and the seniormember of CCF.His research interests include semantic data management,graph databasesand large-scale know ledge processing.

    A

    :TP391

    *The National Natural Science Foundation of China under GrantNos.61572353,61373035(國(guó)家自然科學(xué)基金);the National High Technology Research and DevelopmentProgram of China underGrantNo.2013AA013204(國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)).

    Received 2016-06,Accepted 2016-08.

    CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-08-15,http://www.cnki.net/kcms/detail/11.5602.TP.20160815.1659.004.htm l

    猜你喜歡
    消歧維基百科命名
    維基百科影響司法
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    維基百科青年
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    為一條河命名——在白河源
    APP
    IBM的監(jiān)視
    意林(2014年2期)2014-02-11 11:09:17
    又粗又硬又长又爽又黄的视频| 91成人精品电影| 亚洲少妇的诱惑av| 男女午夜视频在线观看| 精品人妻在线不人妻| 免费少妇av软件| 精品一品国产午夜福利视频| 国产女主播在线喷水免费视频网站| 一区二区av电影网| 国产av国产精品国产| 久久久久国产精品人妻一区二区| 成人午夜精彩视频在线观看| 交换朋友夫妻互换小说| 国产成人欧美在线观看 | 国产av国产精品国产| 亚洲精品成人av观看孕妇| 亚洲欧美色中文字幕在线| 国产成人午夜福利电影在线观看| 美女大奶头黄色视频| 日韩大片免费观看网站| 搡老乐熟女国产| 久久久久网色| 午夜福利乱码中文字幕| 男的添女的下面高潮视频| 成人国产av品久久久| kizo精华| 亚洲精品,欧美精品| 午夜久久久在线观看| 亚洲综合精品二区| 97人妻天天添夜夜摸| 天天影视国产精品| 天天操日日干夜夜撸| e午夜精品久久久久久久| 啦啦啦视频在线资源免费观看| 黄网站色视频无遮挡免费观看| 日韩电影二区| 亚洲激情五月婷婷啪啪| 亚洲国产精品一区三区| 婷婷成人精品国产| 九草在线视频观看| 国产精品秋霞免费鲁丝片| 天美传媒精品一区二区| 亚洲综合精品二区| 国产免费又黄又爽又色| 伊人亚洲综合成人网| 免费不卡黄色视频| 午夜日韩欧美国产| 国产亚洲av片在线观看秒播厂| 日韩一区二区视频免费看| 熟女av电影| 成人亚洲欧美一区二区av| 欧美日韩视频精品一区| 男女国产视频网站| 国产无遮挡羞羞视频在线观看| 欧美激情 高清一区二区三区| 日韩av不卡免费在线播放| av又黄又爽大尺度在线免费看| 丰满少妇做爰视频| 十八禁高潮呻吟视频| 大香蕉久久网| 七月丁香在线播放| 午夜福利影视在线免费观看| 久久国产精品男人的天堂亚洲| 精品国产乱码久久久久久男人| 精品久久久久久电影网| 我要看黄色一级片免费的| 人人妻,人人澡人人爽秒播 | 国产成人一区二区在线| 伊人亚洲综合成人网| 中文精品一卡2卡3卡4更新| 99九九在线精品视频| 欧美国产精品va在线观看不卡| 亚洲国产欧美日韩在线播放| 一个人免费看片子| 国产精品.久久久| 如日韩欧美国产精品一区二区三区| 中文字幕最新亚洲高清| 飞空精品影院首页| 波野结衣二区三区在线| 中文字幕色久视频| 水蜜桃什么品种好| 午夜福利,免费看| 亚洲精品久久久久久婷婷小说| 成人影院久久| 欧美日韩亚洲高清精品| 在线天堂最新版资源| 99热网站在线观看| 国产片特级美女逼逼视频| 巨乳人妻的诱惑在线观看| 男女之事视频高清在线观看 | www.熟女人妻精品国产| 老汉色∧v一级毛片| 欧美黑人欧美精品刺激| 国产极品粉嫩免费观看在线| 美国免费a级毛片| 新久久久久国产一级毛片| 久久国产精品大桥未久av| 亚洲欧洲国产日韩| 欧美 亚洲 国产 日韩一| 久久久国产欧美日韩av| 美女大奶头黄色视频| 激情五月婷婷亚洲| 欧美日韩亚洲高清精品| 欧美日韩一区二区视频在线观看视频在线| 爱豆传媒免费全集在线观看| 亚洲欧美一区二区三区国产| 精品少妇黑人巨大在线播放| 亚洲国产av新网站| 女性被躁到高潮视频| 精品国产一区二区三区四区第35| 超色免费av| 亚洲av电影在线观看一区二区三区| 秋霞在线观看毛片| 亚洲精品美女久久av网站| 在线观看免费午夜福利视频| 亚洲自偷自拍图片 自拍| 欧美精品高潮呻吟av久久| 叶爱在线成人免费视频播放| 亚洲国产中文字幕在线视频| 在线观看www视频免费| 精品少妇黑人巨大在线播放| 桃花免费在线播放| 亚洲欧美日韩另类电影网站| a级片在线免费高清观看视频| 久久性视频一级片| 大片免费播放器 马上看| 人人妻,人人澡人人爽秒播 | 91aial.com中文字幕在线观看| 色视频在线一区二区三区| 在线免费观看不下载黄p国产| 亚洲视频免费观看视频| 69精品国产乱码久久久| 中文字幕精品免费在线观看视频| h视频一区二区三区| 色精品久久人妻99蜜桃| 亚洲,一卡二卡三卡| 国产爽快片一区二区三区| 女性生殖器流出的白浆| 777米奇影视久久| 亚洲欧美中文字幕日韩二区| 中文字幕人妻丝袜一区二区 | 日本91视频免费播放| 男女之事视频高清在线观看 | 亚洲精品久久午夜乱码| 波多野结衣av一区二区av| 色网站视频免费| 国产极品粉嫩免费观看在线| av女优亚洲男人天堂| 午夜免费观看性视频| 国产精品 国内视频| av天堂久久9| 999精品在线视频| 亚洲中文av在线| 99久久精品国产亚洲精品| 又黄又粗又硬又大视频| 亚洲精华国产精华液的使用体验| 91aial.com中文字幕在线观看| 少妇猛男粗大的猛烈进出视频| 伊人久久国产一区二区| 色精品久久人妻99蜜桃| 丝袜美足系列| 秋霞伦理黄片| 69精品国产乱码久久久| 美女国产高潮福利片在线看| 日韩,欧美,国产一区二区三区| 亚洲美女视频黄频| 水蜜桃什么品种好| 90打野战视频偷拍视频| 汤姆久久久久久久影院中文字幕| 好男人视频免费观看在线| 在线观看一区二区三区激情| 亚洲色图 男人天堂 中文字幕| 午夜福利视频精品| 精品一品国产午夜福利视频| 一区二区av电影网| 少妇 在线观看| 黄色视频不卡| 国产激情久久老熟女| 建设人人有责人人尽责人人享有的| 99国产精品免费福利视频| 亚洲欧洲国产日韩| 丰满少妇做爰视频| 国产深夜福利视频在线观看| 又大又爽又粗| 夜夜骑夜夜射夜夜干| 国产精品香港三级国产av潘金莲 | www.精华液| 中文字幕精品免费在线观看视频| 无限看片的www在线观看| av又黄又爽大尺度在线免费看| 校园人妻丝袜中文字幕| 欧美精品亚洲一区二区| 亚洲成人国产一区在线观看 | 亚洲天堂av无毛| 卡戴珊不雅视频在线播放| 欧美日韩亚洲高清精品| 老司机影院毛片| 日韩中文字幕视频在线看片| 色婷婷久久久亚洲欧美| tube8黄色片| av.在线天堂| 久久这里只有精品19| 9色porny在线观看| 99久久综合免费| 另类精品久久| 欧美老熟妇乱子伦牲交| 天堂中文最新版在线下载| 午夜老司机福利片| 国产免费现黄频在线看| 亚洲av中文av极速乱| 国产成人欧美在线观看 | 成人黄色视频免费在线看| 亚洲国产欧美网| 少妇被粗大的猛进出69影院| 在线观看免费午夜福利视频| 一边摸一边抽搐一进一出视频| 亚洲精品美女久久久久99蜜臀 | 夜夜骑夜夜射夜夜干| 1024香蕉在线观看| 久久久国产一区二区| 黄色 视频免费看| 免费观看av网站的网址| 国产成人免费无遮挡视频| 男女午夜视频在线观看| 亚洲熟女精品中文字幕| 欧美精品亚洲一区二区| 免费女性裸体啪啪无遮挡网站| 精品第一国产精品| 亚洲国产毛片av蜜桃av| 亚洲欧美成人综合另类久久久| 美女国产高潮福利片在线看| 日韩,欧美,国产一区二区三区| 啦啦啦在线观看免费高清www| 热re99久久精品国产66热6| 欧美激情高清一区二区三区 | 亚洲欧美成人精品一区二区| 久久久精品国产亚洲av高清涩受| 蜜桃国产av成人99| 日韩av不卡免费在线播放| 丝袜美足系列| 亚洲国产日韩一区二区| 免费久久久久久久精品成人欧美视频| 日日啪夜夜爽| 国产熟女午夜一区二区三区| 久久人人爽人人片av| 免费高清在线观看日韩| 一区二区三区四区激情视频| 国产不卡av网站在线观看| 精品一区二区免费观看| 美女视频免费永久观看网站| 十八禁人妻一区二区| 免费观看性生交大片5| 日韩 欧美 亚洲 中文字幕| 婷婷色综合大香蕉| 国产日韩欧美视频二区| 中文字幕人妻丝袜制服| 丝袜美足系列| www.av在线官网国产| 欧美另类一区| 巨乳人妻的诱惑在线观看| 99香蕉大伊视频| 国产黄色视频一区二区在线观看| 啦啦啦 在线观看视频| 婷婷色综合大香蕉| 99国产综合亚洲精品| 日韩一本色道免费dvd| av又黄又爽大尺度在线免费看| 亚洲 欧美一区二区三区| 国产精品久久久久久精品古装| 国产精品二区激情视频| 日本色播在线视频| 国产av国产精品国产| 亚洲av在线观看美女高潮| 你懂的网址亚洲精品在线观看| 大码成人一级视频| 亚洲国产精品成人久久小说| 久久精品aⅴ一区二区三区四区| 亚洲精品视频女| 两个人看的免费小视频| 国产精品蜜桃在线观看| 女人久久www免费人成看片| www.熟女人妻精品国产| 精品一品国产午夜福利视频| 十分钟在线观看高清视频www| 如何舔出高潮| 婷婷色麻豆天堂久久| 亚洲自偷自拍图片 自拍| 黄色一级大片看看| 黄色怎么调成土黄色| 久久精品aⅴ一区二区三区四区| 操美女的视频在线观看| 久久精品国产a三级三级三级| 久久性视频一级片| 亚洲三区欧美一区| 最新的欧美精品一区二区| 热99国产精品久久久久久7| 九草在线视频观看| 免费观看性生交大片5| 亚洲视频免费观看视频| av一本久久久久| 免费黄频网站在线观看国产| 女人精品久久久久毛片| 伊人久久大香线蕉亚洲五| 两性夫妻黄色片| 狂野欧美激情性bbbbbb| 人成视频在线观看免费观看| 欧美 亚洲 国产 日韩一| 久久久久久久久久久免费av| 黄片播放在线免费| 亚洲,欧美精品.| 午夜久久久在线观看| 一个人免费看片子| 成人国语在线视频| videos熟女内射| 日本一区二区免费在线视频| 老司机靠b影院| 亚洲av中文av极速乱| 在线 av 中文字幕| 国产伦人伦偷精品视频| 最近手机中文字幕大全| 久久久久久久久久久免费av| 午夜福利视频精品| 黄片小视频在线播放| 人人妻人人澡人人看| 一区二区三区乱码不卡18| 久久狼人影院| 久久久久久久久久久久大奶| 久久久国产一区二区| 久久人人爽人人片av| 亚洲精品一二三| 欧美日韩一级在线毛片| 一本大道久久a久久精品| 在线观看免费视频网站a站| 欧美日韩视频精品一区| av电影中文网址| 亚洲精华国产精华液的使用体验| 看非洲黑人一级黄片| 国产精品久久久久成人av| 日韩制服丝袜自拍偷拍| 欧美激情高清一区二区三区 | 日韩 亚洲 欧美在线| 精品少妇黑人巨大在线播放| 国产成人免费观看mmmm| 狂野欧美激情性bbbbbb| 国产在线免费精品| 狂野欧美激情性xxxx| 青春草国产在线视频| 亚洲av电影在线进入| 国产激情久久老熟女| 18禁动态无遮挡网站| 免费女性裸体啪啪无遮挡网站| 亚洲av电影在线观看一区二区三区| 老熟女久久久| 天天躁夜夜躁狠狠久久av| 久久青草综合色| 美女中出高潮动态图| 亚洲美女黄色视频免费看| 欧美日韩一级在线毛片| 自拍欧美九色日韩亚洲蝌蚪91| 久久精品久久久久久久性| 你懂的网址亚洲精品在线观看| 女人高潮潮喷娇喘18禁视频| av.在线天堂| 国产日韩一区二区三区精品不卡| 熟妇人妻不卡中文字幕| 国产精品 国内视频| 高清不卡的av网站| 午夜福利乱码中文字幕| 久久久久精品久久久久真实原创| 9热在线视频观看99| 九草在线视频观看| 日本猛色少妇xxxxx猛交久久| 999久久久国产精品视频| 纵有疾风起免费观看全集完整版| 亚洲 欧美一区二区三区| 精品视频人人做人人爽| 操出白浆在线播放| 欧美日韩av久久| 久久精品人人爽人人爽视色| √禁漫天堂资源中文www| 久久久久久人妻| bbb黄色大片| 在线亚洲精品国产二区图片欧美| 国产极品粉嫩免费观看在线| 蜜桃国产av成人99| 午夜福利网站1000一区二区三区| 又大又爽又粗| 一本—道久久a久久精品蜜桃钙片| 中文乱码字字幕精品一区二区三区| 午夜免费男女啪啪视频观看| 国产一区二区在线观看av| 97精品久久久久久久久久精品| 久久精品人人爽人人爽视色| 精品一区在线观看国产| videos熟女内射| 欧美精品一区二区免费开放| 中文字幕精品免费在线观看视频| 不卡视频在线观看欧美| 国产精品免费大片| 国产深夜福利视频在线观看| 亚洲av国产av综合av卡| 美国免费a级毛片| 老汉色av国产亚洲站长工具| 亚洲精品国产一区二区精华液| 午夜精品国产一区二区电影| 国产精品 国内视频| 精品久久久精品久久久| 国产免费福利视频在线观看| 一二三四在线观看免费中文在| 婷婷色麻豆天堂久久| 韩国高清视频一区二区三区| 欧美人与性动交α欧美精品济南到| 18禁动态无遮挡网站| 亚洲欧美成人综合另类久久久| 亚洲av在线观看美女高潮| e午夜精品久久久久久久| 免费黄频网站在线观看国产| 亚洲国产欧美在线一区| 国产午夜精品一二区理论片| 国产精品女同一区二区软件| 看免费成人av毛片| 99久久99久久久精品蜜桃| 丝袜美腿诱惑在线| 夜夜骑夜夜射夜夜干| 亚洲一码二码三码区别大吗| 亚洲欧美精品综合一区二区三区| 欧美精品一区二区免费开放| 日韩制服丝袜自拍偷拍| 日韩中文字幕视频在线看片| 国产精品久久久人人做人人爽| 久久久久精品国产欧美久久久 | 精品第一国产精品| 黄色一级大片看看| 国产在视频线精品| 永久免费av网站大全| 午夜激情av网站| 最新的欧美精品一区二区| 国产精品久久久久久精品古装| 久久精品久久久久久噜噜老黄| 国产在线一区二区三区精| 日韩大片免费观看网站| 曰老女人黄片| 人成视频在线观看免费观看| 丰满饥渴人妻一区二区三| 国产熟女午夜一区二区三区| av在线app专区| 可以免费在线观看a视频的电影网站 | 一级,二级,三级黄色视频| 一边摸一边做爽爽视频免费| 日本午夜av视频| 国产深夜福利视频在线观看| 亚洲综合色网址| 免费看不卡的av| 黄色怎么调成土黄色| 国产免费现黄频在线看| 欧美国产精品va在线观看不卡| 天天躁夜夜躁狠狠久久av| 热re99久久精品国产66热6| 国产欧美日韩综合在线一区二区| 天天躁狠狠躁夜夜躁狠狠躁| 国产精品三级大全| 亚洲成av片中文字幕在线观看| 午夜福利视频精品| 大话2 男鬼变身卡| 韩国高清视频一区二区三区| 国产麻豆69| tube8黄色片| svipshipincom国产片| 亚洲,欧美,日韩| 日日摸夜夜添夜夜爱| 大陆偷拍与自拍| 亚洲欧美中文字幕日韩二区| 国产 一区精品| 女的被弄到高潮叫床怎么办| av片东京热男人的天堂| 午夜福利一区二区在线看| 国产精品女同一区二区软件| 久久国产精品大桥未久av| 男人爽女人下面视频在线观看| 免费高清在线观看视频在线观看| 亚洲美女搞黄在线观看| 777米奇影视久久| 国产一卡二卡三卡精品 | 亚洲欧美成人精品一区二区| 男男h啪啪无遮挡| 亚洲欧美精品自产自拍| 国产精品国产三级国产专区5o| 别揉我奶头~嗯~啊~动态视频 | 欧美成人精品欧美一级黄| 操美女的视频在线观看| av视频免费观看在线观看| 我的亚洲天堂| 国产精品av久久久久免费| 九色亚洲精品在线播放| 一区在线观看完整版| 久久久国产欧美日韩av| 搡老乐熟女国产| 日韩熟女老妇一区二区性免费视频| av不卡在线播放| 1024视频免费在线观看| 熟妇人妻不卡中文字幕| 日韩av免费高清视频| 欧美黄色片欧美黄色片| 日韩欧美精品免费久久| 这个男人来自地球电影免费观看 | 午夜激情久久久久久久| 人妻一区二区av| 午夜91福利影院| 欧美精品一区二区大全| 超碰97精品在线观看| 一级毛片 在线播放| 另类亚洲欧美激情| 一二三四中文在线观看免费高清| 国产免费福利视频在线观看| 亚洲av综合色区一区| 日韩大片免费观看网站| 免费在线观看完整版高清| 王馨瑶露胸无遮挡在线观看| 天天躁夜夜躁狠狠久久av| 纯流量卡能插随身wifi吗| 爱豆传媒免费全集在线观看| 深夜精品福利| 一区二区三区乱码不卡18| 久久久亚洲精品成人影院| 纯流量卡能插随身wifi吗| 最新在线观看一区二区三区 | 不卡av一区二区三区| 水蜜桃什么品种好| 亚洲av中文av极速乱| 97精品久久久久久久久久精品| 国产女主播在线喷水免费视频网站| 少妇猛男粗大的猛烈进出视频| 国产高清不卡午夜福利| 午夜福利视频精品| 国产在线视频一区二区| 青青草视频在线视频观看| 亚洲av在线观看美女高潮| av线在线观看网站| 欧美少妇被猛烈插入视频| 精品国产一区二区三区久久久樱花| 一边摸一边抽搐一进一出视频| 精品国产一区二区三区久久久樱花| av国产久精品久网站免费入址| 久久久久精品久久久久真实原创| 国产av一区二区精品久久| 女性被躁到高潮视频| 久久影院123| 男人操女人黄网站| 大陆偷拍与自拍| 91国产中文字幕| 青春草亚洲视频在线观看| 亚洲成人一二三区av| 午夜福利视频在线观看免费| 大片免费播放器 马上看| 啦啦啦在线观看免费高清www| 最近中文字幕2019免费版| 男人添女人高潮全过程视频| 亚洲欧美精品综合一区二区三区| 午夜久久久在线观看| 免费少妇av软件| 考比视频在线观看| 男女免费视频国产| 精品一区二区免费观看| 国产视频首页在线观看| 一边摸一边抽搐一进一出视频| 在线亚洲精品国产二区图片欧美| 亚洲国产看品久久| 男女之事视频高清在线观看 | 久久 成人 亚洲| 日韩 亚洲 欧美在线| 搡老岳熟女国产| 女人久久www免费人成看片| 一区在线观看完整版| 日本爱情动作片www.在线观看| 亚洲精品在线美女| 精品人妻熟女毛片av久久网站| 母亲3免费完整高清在线观看| www.精华液| 国产精品免费视频内射| 久久狼人影院| 久久久久久久久久久久大奶| 国产男人的电影天堂91| 色婷婷久久久亚洲欧美| avwww免费| 亚洲av中文av极速乱| av天堂久久9| 韩国高清视频一区二区三区| 18禁国产床啪视频网站| 又大又爽又粗| 国产人伦9x9x在线观看| 少妇人妻精品综合一区二区| 人妻 亚洲 视频| 久久天躁狠狠躁夜夜2o2o | 国产成人午夜福利电影在线观看| 亚洲精品视频女| 欧美国产精品一级二级三级| 青春草国产在线视频| 老司机影院毛片| 亚洲国产中文字幕在线视频| 在线免费观看不下载黄p国产| 久热这里只有精品99| 在线观看免费日韩欧美大片| 国产av国产精品国产| 欧美av亚洲av综合av国产av | 菩萨蛮人人尽说江南好唐韦庄| 欧美乱码精品一区二区三区| h视频一区二区三区| 国产精品无大码| 9191精品国产免费久久| 国产淫语在线视频| 久久精品亚洲av国产电影网| 一二三四中文在线观看免费高清| videos熟女内射| 日韩一本色道免费dvd| 午夜免费鲁丝|