• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法

    2016-06-02 08:12:56汪沛線巖團(tuán)郭劍毅文永華陳瑋王紅斌
    智能系統(tǒng)學(xué)報(bào) 2016年3期
    關(guān)鍵詞:消歧維基百科知識(shí)庫(kù)

    汪沛,線巖團(tuán),2,郭劍毅,2,文永華,2,陳瑋,2,王紅斌,2

    (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

    ?

    一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法

    汪沛1,線巖團(tuán)1,2,郭劍毅1,2,文永華1,2,陳瑋1,2,王紅斌1,2

    (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

    摘要:針對(duì)特定領(lǐng)域提出了一種結(jié)合詞向量和圖模型的方法來(lái)實(shí)現(xiàn)實(shí)體消歧。以旅游領(lǐng)域?yàn)槔紫冗x取維基百科離線數(shù)據(jù)庫(kù)中的旅游分類下的頁(yè)面內(nèi)容構(gòu)建領(lǐng)域知識(shí)庫(kù),然后用知識(shí)庫(kù)中的文本和從各大旅游網(wǎng)站爬取到的旅游文本,通過(guò)詞向量計(jì)算工具Word2Vec構(gòu)建詞向量模型,結(jié)合人工標(biāo)注的實(shí)體關(guān)系圖譜,采用一種基于圖的隨機(jī)游走算法輔助計(jì)算相似度,使其能夠較準(zhǔn)確地計(jì)算旅游領(lǐng)域詞與詞之間的相似度。最后,提取待消歧實(shí)體的背景文本的若干關(guān)鍵詞和知識(shí)庫(kù)中候選實(shí)體文本的若干關(guān)鍵詞,利用訓(xùn)練好的詞向量模型結(jié)合圖模型分別進(jìn)行交叉相似度計(jì)算,把相似度均值最高的候選實(shí)體作為最終的目標(biāo)實(shí)體。實(shí)驗(yàn)結(jié)果表明,這種新的相似度計(jì)算方法能夠有效獲取實(shí)體指稱項(xiàng)與目標(biāo)實(shí)體之間的相似度,從而能夠較為準(zhǔn)確地實(shí)現(xiàn)特定領(lǐng)域的實(shí)體消歧。

    關(guān)鍵詞:實(shí)體消歧;實(shí)體鏈接;Word2Vec;圖模型;隨機(jī)游走;維基百科 在提取模塊中,分別利用TextRank 算法提取出待消歧的實(shí)體指稱所在的背景文本的若干關(guān)鍵詞和候選實(shí)體對(duì)應(yīng)的知識(shí)庫(kù)描述文本的若干關(guān)鍵詞,這里提取的兩組關(guān)鍵詞用于后面的相似度計(jì)算。 提取模塊分為兩個(gè)步驟:候選實(shí)體獲取和關(guān)鍵詞提取。候選實(shí)體獲取實(shí)質(zhì)上就是羅列出所有可能是待消歧的實(shí)體指稱項(xiàng)的目標(biāo)實(shí)體,由于中文語(yǔ)義的多樣性,一個(gè)詞通常有多種表達(dá)方式,同樣一個(gè)實(shí)體也可能有多種形式,例如,在維基百科的重定向頁(yè)面中,“驢友”與“背包客”指的是同一個(gè)實(shí)體,“蟲(chóng)草”與“冬蟲(chóng)夏草”指的也是同一實(shí)體。針對(duì)這種情況,利用維基百科離線數(shù)據(jù)庫(kù)提供的3個(gè)SQL文件即可得到所有重定向的同義詞,并且能得到他們對(duì)應(yīng)的頁(yè)面信息和鏈接信息。 提取即在確定候選實(shí)體后,從待消歧實(shí)體所在文本中抽取n個(gè)關(guān)鍵詞,然后再?gòu)乃泻蜻x實(shí)體在知識(shí)庫(kù)中對(duì)應(yīng)的文本中分別抽取n個(gè)關(guān)鍵詞。這樣做是因?yàn)楸疚闹邢嗨贫扔?jì)算的前提是假設(shè)待消歧背景文本與知識(shí)庫(kù)中對(duì)應(yīng)文本的主題一致,在這個(gè)前提下,本文消歧任務(wù)實(shí)質(zhì)已經(jīng)轉(zhuǎn)變?yōu)橛?jì)算待消歧實(shí)體指稱所在背景文本與知識(shí)庫(kù)中候選實(shí)體對(duì)應(yīng)文本之間的相似度。分別抽取兩個(gè)文本各n個(gè)關(guān)鍵詞,這里采用TextRank算法抽取權(quán)重最高的n個(gè)關(guān)鍵詞,具體計(jì)算方法參照本文1.2節(jié)。根據(jù)詞與詞之間在規(guī)定窗口大小內(nèi)相互進(jìn)行“投票”計(jì)算出每個(gè)詞在文檔中的權(quán)重,在使用TextRank算法計(jì)算圖中點(diǎn)的權(quán)重時(shí),需要給圖中的點(diǎn)指定任意的初值并遞歸計(jì)算直到某個(gè)詞語(yǔ)分?jǐn)?shù)收斂,收斂后每個(gè)點(diǎn)都獲得一個(gè)分?jǐn)?shù),代表該點(diǎn)在圖中的重要性,也就是該詞語(yǔ)在文檔中的重要性。表1為利用該算法確定的待消歧實(shí)體文本和對(duì)應(yīng)的3個(gè)候選實(shí)體文本中的關(guān)鍵詞,待消歧實(shí)體和候選實(shí)體1指的是香格里拉(景點(diǎn)名),候選實(shí)體2指的是香格里拉(酒店名),候選實(shí)體3指的是香格里拉(城市名)。

    實(shí)體鏈接是知識(shí)庫(kù)構(gòu)建的關(guān)鍵技術(shù)之一,其目的是將文本中已經(jīng)獲取到的命名實(shí)體鏈接到已有的知識(shí)庫(kù)中,實(shí)體消岐是實(shí)體鏈接的關(guān)鍵任務(wù)。由于海量數(shù)據(jù)中存在的實(shí)體指稱通??梢詫?duì)應(yīng)到多個(gè)命名實(shí)體概念,這無(wú)疑對(duì)實(shí)體消歧造成了很大的障礙。實(shí)體消歧的任務(wù)就是將這些存在歧義的實(shí)體指稱在眾多的候選實(shí)體中匹配出對(duì)應(yīng)的目標(biāo)實(shí)體。目前實(shí)體消歧任務(wù)分為兩種類型:實(shí)體聚類消歧和實(shí)體鏈接消歧[1],實(shí)體聚類消歧就是利用聚類算法來(lái)對(duì)實(shí)體進(jìn)行消歧,而實(shí)體鏈接消歧則是借助外部知識(shí)庫(kù),將待消歧命名實(shí)體指稱鏈接到外部知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體來(lái)進(jìn)行消歧。本文選擇用后者來(lái)實(shí)現(xiàn)特定領(lǐng)域的實(shí)體消歧。

    實(shí)體消歧的本質(zhì)是計(jì)算實(shí)體指稱項(xiàng)和候選實(shí)體的相似度,選擇相似度最大的候選實(shí)體作為鏈接的目標(biāo)實(shí)體[2]。針對(duì)英文實(shí)體消岐,Bunescu和Pasca[3]提出了一種基于余弦相似度排序的方法來(lái)實(shí)現(xiàn)實(shí)體消歧。Bagga和Gideon[4-5]等將實(shí)體指稱項(xiàng)的上下文與候選實(shí)體的上下文分別表示成BOW(Bag of words)向量形式,利用向量空間模型實(shí)現(xiàn)了人名的消歧。韓先培等[6]提出一種基于圖的實(shí)體消歧方法,將指稱項(xiàng)與實(shí)體通過(guò)帶權(quán)的無(wú)向圖連接起來(lái),從而將指稱項(xiàng)與實(shí)體、實(shí)體與實(shí)體間的語(yǔ)義關(guān)聯(lián)通過(guò)圖的形式表征出來(lái)。上述工作主要是對(duì)英文的實(shí)體消歧,相比較而言,針對(duì)中文的實(shí)體消歧工作遠(yuǎn)遠(yuǎn)落后于英文。在中文的實(shí)體消歧領(lǐng)域,王建勇等[7]利用一種基于圖的GHOST算法,結(jié)合AP聚類算法進(jìn)行相似度計(jì)算,在人名消歧方面取得了較好的實(shí)驗(yàn)結(jié)果。懷寶興等[8]提出了一種基于概率主題模型的命名實(shí)體鏈接方法,在通用領(lǐng)域,通過(guò)構(gòu)建歧義詞表,用LDA基于語(yǔ)義層面對(duì)文檔建模和實(shí)體消岐;寧博等[9]針對(duì)中文命名實(shí)體消歧問(wèn)題提出了一種基于異構(gòu)知識(shí)庫(kù)的層次聚類方法,將維基百科和百度百科結(jié)合起來(lái)作為多源知識(shí)庫(kù),并利用Hadoop平臺(tái)進(jìn)行層次聚類,從而實(shí)現(xiàn)實(shí)體消歧。另外,朱敏等[10]提出了一種實(shí)體聚類消歧與百度百科詞頻的同類實(shí)體消歧相結(jié)合的消歧方法,通過(guò)構(gòu)建同義詞表、優(yōu)化知識(shí)庫(kù)、改進(jìn)拼音距離編輯算法等方式實(shí)現(xiàn)對(duì)中文微博的實(shí)體消歧。

    同樣在旅游領(lǐng)域也存在著大量的實(shí)體同名現(xiàn)象,在維基百科中“金花”一詞有11個(gè)同名實(shí)體,“香格里拉”一詞有12個(gè)同名實(shí)體,這無(wú)疑對(duì)消歧工作產(chǎn)生很大影響,例如,給定兩個(gè)句子:

    1)2014年,香格里拉縣共接待國(guó)內(nèi)外游客1 080.22萬(wàn)人次。

    2)在結(jié)束了一天的旅程后我們選擇了在香格里拉酒店入住。

    在上面的例子中,很明顯第一句中的“香格里拉”指的是某旅游勝地,第二句指的是某著名酒店品牌,但是如何讓計(jì)算機(jī)也能將實(shí)體指稱項(xiàng)準(zhǔn)確鏈接到知識(shí)庫(kù)中具有特定概念的實(shí)體仍然是自然語(yǔ)言處理領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。

    傳統(tǒng)的消歧模型難以有效利用能反映領(lǐng)域特有屬性的實(shí)體詞特征。因此,本文針對(duì)旅游領(lǐng)域?qū)嶓w間的關(guān)系較為復(fù)雜的特征,提出了一種結(jié)合詞向量和圖模型的消歧方法,通過(guò)提取實(shí)體指稱項(xiàng)背景文本的若干關(guān)鍵詞和候選實(shí)體文本的若干關(guān)鍵詞,利用訓(xùn)練好的模型對(duì)這些關(guān)鍵詞分別進(jìn)行交叉相似度計(jì)算,把相似度均值最高的候選實(shí)體作為最終的目標(biāo)實(shí)體。

    1相關(guān)理論

    1.1詞向量

    在自然語(yǔ)言處理中,要將自然語(yǔ)言理解的問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問(wèn)題,就需將自然語(yǔ)言的符號(hào)數(shù)學(xué)化,其中最直觀和常用的方法是 One-hot 表示法。這種方法將每個(gè)詞表示為一個(gè)很長(zhǎng)的向量,其維數(shù)是詞匯表大小,其中絕大多數(shù)元素為 0,只有一個(gè)維度的值為 1,這個(gè)維度就代表當(dāng)前的詞。

    在自然語(yǔ)言處理中,常將One-hot 表示采用稀疏的方式進(jìn)行存儲(chǔ),即為每個(gè)詞分配一個(gè)數(shù)字 ID。該方法因其簡(jiǎn)單易用,廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù)中,如N-gram 模型中就采用這種詞向量表示法。 但這種表述方法也存在一定問(wèn)題:其表示的任意兩個(gè)詞之間是孤立的,無(wú)法表示這兩個(gè)詞之間的依賴關(guān)系,從詞向量上看不出兩個(gè)詞是否相關(guān);采用稀疏表示法,在處理某些任務(wù),如構(gòu)建 N-gram 模型時(shí),會(huì)引起維數(shù)災(zāi)難問(wèn)題。

    而在機(jī)器學(xué)習(xí)領(lǐng)域,一般采用分布式表示(distributed representation) 的方法表示詞向量,這種表示法最早由 Hinton[11]提出,通常稱為 Word Representation。這種方法將詞用一種低維實(shí)數(shù)向量表示,優(yōu)點(diǎn)在于相似的詞在距離上更接近,能體現(xiàn)出不同詞之間的相關(guān)性,從而反映詞之間的依賴關(guān)系。同時(shí),較低的維度也使特征向量在應(yīng)用時(shí)有一個(gè)可接受的復(fù)雜度。 因此,新近提出的許多語(yǔ)言模型,如潛在語(yǔ)義分析(latent semantic analysis, LSA)模型、潛在狄利克雷分布 ( latent dirichlet allocation,LDA)模型以及目前流行的神經(jīng)網(wǎng)絡(luò)模型等,都采用這種方法表示詞向量[12-13]。

    本文利用旅游領(lǐng)域的豐富語(yǔ)料對(duì)詞向量模型進(jìn)行訓(xùn)練,從而將抽取的關(guān)鍵詞進(jìn)行向量化表示,用這若干個(gè)關(guān)鍵詞向量來(lái)表征一篇文檔,通過(guò)計(jì)算關(guān)鍵詞向量間的余弦相似度得出它們之間的關(guān)聯(lián)程度,進(jìn)而得出文檔之間的相似度。

    1.2TextRank算法

    同一文檔中的大多數(shù)詞語(yǔ)都是為表達(dá)同一主題服務(wù)的,它們之間具有一定的語(yǔ)義關(guān)系。和詞語(yǔ)W有語(yǔ)義關(guān)系的詞語(yǔ)越多,詞語(yǔ)W越可能是表達(dá)文檔主題的重要詞語(yǔ),同時(shí)和詞語(yǔ)W有語(yǔ)義關(guān)系的詞語(yǔ)的重要性也會(huì)影響詞語(yǔ)W的重要性。根據(jù)這兩個(gè)特性,本節(jié)引入基于圖的排序算法用于抽取多文檔關(guān)鍵詞?;趫D的排序算法是決定圖中點(diǎn)重要性的一種方法,它根據(jù)全局信息(圖的結(jié)構(gòu))而不是局部信息來(lái)對(duì)節(jié)點(diǎn)排序。其基本理論是“投票”,當(dāng)圖中一個(gè)點(diǎn)A和另一個(gè)點(diǎn)B之間有連線時(shí),那么點(diǎn)A就給點(diǎn)B投票,點(diǎn)B獲得的投票越多,點(diǎn)B就越重要;更進(jìn)一步,投票點(diǎn)A的重要性決定了其投票的重要性,因此,點(diǎn)B的分?jǐn)?shù)由其獲得的投票和給B投票的點(diǎn)的分?jǐn)?shù)共同決定。

    Mihalcea[14]將在自然語(yǔ)言處理領(lǐng)域中應(yīng)用的基于圖的排序算法稱為TextRank,一般TextRank模型可以表示為一個(gè)加權(quán)的有向圖。TextRank的思想來(lái)源于Google的PageRank算法,通過(guò)把文本分割成若干組成單元并建立圖模型,利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序,僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞抽取。本文采用該算法將文檔表示為無(wú)向圖G(V,E),由點(diǎn)集合V和邊集合E組成,E是V×V的子集,圖中兩點(diǎn)i,j之間邊的權(quán)重為Wj。對(duì)于一個(gè)給定的點(diǎn)Vi,In(Vi)為指向該點(diǎn)的點(diǎn)集合,Out(Vi)為點(diǎn)Vi指向的點(diǎn)集合,點(diǎn)Vi的分?jǐn)?shù)定義為式(2):

    (2)

    式中:d為阻尼因數(shù),取值范圍為0~1,代表從圖中某一特定點(diǎn)指向其他任意點(diǎn)的概率。通過(guò)這種算法我們可以獲得每個(gè)詞語(yǔ)在文檔中的分?jǐn)?shù),從而可以根據(jù)分?jǐn)?shù)大小來(lái)進(jìn)行關(guān)鍵詞的排序。

    本文利用該算法抽取文檔中的關(guān)鍵詞,分別用抽取的關(guān)鍵詞來(lái)表征待消歧實(shí)體指稱項(xiàng)所在文本和目標(biāo)實(shí)體所在文本。

    1.3隨機(jī)游走算法

    隨機(jī)游走模型是在1905年Karl Pearson[15]首次提出的一種數(shù)學(xué)統(tǒng)計(jì)模型,它是一連串的軌跡組成的,其中每一次都是隨機(jī)的。它能用來(lái)表示不規(guī)則的變動(dòng)形式,如同一個(gè)人酒后亂步,所形成的隨機(jī)過(guò)程記錄[16]。它的基本思想是,從一個(gè)或一系列頂點(diǎn)開(kāi)始遍歷一張圖,在任意一個(gè)頂點(diǎn),遍歷者將以概率1-α游走到這個(gè)頂點(diǎn)的鄰居頂點(diǎn),以概率α隨機(jī)跳躍到圖中的任何一個(gè)頂點(diǎn),稱α跳轉(zhuǎn)發(fā)生概率,每次游走后得出一個(gè)概率分布,該概率分布刻畫(huà)了圖中每一個(gè)頂點(diǎn)被訪問(wèn)到的概率,用這個(gè)概率分布作為下一次游走的輸入并反復(fù)迭代這一過(guò)程,當(dāng)滿足一定前提條件時(shí),這個(gè)概率分布會(huì)趨于收斂,收斂后,即可以得到一個(gè)穩(wěn)定的概率分布。近年來(lái),隨機(jī)游走算法逐漸開(kāi)始吸引機(jī)器學(xué)習(xí)研究者的目光,并開(kāi)始被應(yīng)用于半監(jiān)督學(xué)習(xí)[17-18]、聚類分析[19-21]、圖像分割[22]和圖的匹配[23]等問(wèn)題上。與隨機(jī)游走相關(guān)的擴(kuò)散核也被應(yīng)用于[24-28]基于核的學(xué)習(xí)等方面。

    由于實(shí)體間的關(guān)系錯(cuò)綜復(fù)雜,可以將這種關(guān)系抽象為一種圖模型,本文在這種圖模型上運(yùn)用隨機(jī)游走算法可以將實(shí)體間的關(guān)聯(lián)程度準(zhǔn)確地表征出來(lái)。

    2領(lǐng)域?qū)嶓w消歧

    2.1系統(tǒng)流程

    本文提出的方法由4個(gè)模塊構(gòu)成分別為關(guān)鍵詞提取模塊、詞向量模塊、圖模型模塊和空實(shí)體判斷模塊。

    在詞向量模塊中,抽取維基百科離線數(shù)據(jù)中旅游分類下的頁(yè)面信息構(gòu)建領(lǐng)域知識(shí)庫(kù),由于維基百科中包含大量的結(jié)構(gòu)化信息,取該知識(shí)庫(kù)的摘要信息作為語(yǔ)料對(duì)詞向量模型進(jìn)行訓(xùn)練,這時(shí),領(lǐng)域?qū)嶓w都能通過(guò)該模型表征為一個(gè)向量,從而實(shí)現(xiàn)關(guān)鍵詞之間的相似度計(jì)算。

    在圖模型模塊中,人工構(gòu)建一個(gè)領(lǐng)域?qū)嶓w關(guān)系圖譜,通過(guò)在該圖譜上的隨機(jī)游走算法實(shí)現(xiàn)關(guān)鍵詞之間相似度的計(jì)算。

    在空實(shí)體判斷模塊中,從待消歧實(shí)體指稱所在的文本中抽取若干關(guān)鍵詞和從候選實(shí)體所在文本中抽取的關(guān)鍵詞分別用本文提出的圖模型與詞向量方法相結(jié)合進(jìn)行交叉相似度計(jì)算取平均值,選擇其中最大的相似度平均值,因?yàn)橛?jì)算結(jié)果所對(duì)應(yīng)的目標(biāo)實(shí)體未必在我們的知識(shí)庫(kù)中存在,這時(shí)通過(guò)比對(duì)該平均值與通過(guò)大量實(shí)驗(yàn)確定的空實(shí)體閾值λ的大小,如果大于該閾值λ,則該實(shí)體為目標(biāo)實(shí)體,如果小于λ,則認(rèn)為該實(shí)體指稱在知識(shí)庫(kù)中沒(méi)有與之對(duì)應(yīng)的目標(biāo)實(shí)體,即空實(shí)體。

    圖1 系統(tǒng)總體框架Fig.1 Overall framework of system

    2.2關(guān)鍵詞提取

    2.3詞向量的訓(xùn)練和應(yīng)用

    Word2Vec是Google 在2013年推出并開(kāi)源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過(guò)訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。Word2Vec輸出的詞向量可以被用來(lái)做很多NLP相關(guān)的工作,比如聚類、找同義詞、詞性分析等。如果換個(gè)思路,把詞當(dāng)做特征,那么Word2Vec就可以把特征映射到K維向量空間,可以為文本數(shù)據(jù)尋求更加深層次的特征表示,本文將K值選定為200維。

    本文主要利用該工具來(lái)實(shí)現(xiàn)指稱項(xiàng)與目標(biāo)實(shí)體間的相似度計(jì)算,為了提高實(shí)驗(yàn)在旅游領(lǐng)域的準(zhǔn)確率,在選取訓(xùn)練語(yǔ)料時(shí)有針對(duì)性地選取旅游領(lǐng)域文本,這樣就最大程度避免其他領(lǐng)域文本對(duì)詞向量模型的精準(zhǔn)度產(chǎn)生影響,本文一方面采用維基百科的旅游分類下的文本來(lái)作為訓(xùn)練詞向量模型的語(yǔ)料,同時(shí)還加入了在各大旅游網(wǎng)站爬取的新聞?wù)Z料。訓(xùn)練完成后的模型能夠比較準(zhǔn)確地計(jì)算兩個(gè)旅游領(lǐng)域詞匯的相似度,效果比較理想。如表2所示為利用該工具計(jì)算出的背景文本中關(guān)鍵詞“香格里拉”與知識(shí)庫(kù)中目標(biāo)實(shí)體文本的7個(gè)關(guān)鍵詞之間的相似度,從圖中可以發(fā)現(xiàn)其與“景點(diǎn)”、“旅游”等詞語(yǔ)的相似度要明顯高于“民族”、“比重”,這與現(xiàn)實(shí)世界中它們之間的語(yǔ)義關(guān)聯(lián)程度相一致。通過(guò)詞向量計(jì)算處理,進(jìn)一步加強(qiáng)了實(shí)體詞的領(lǐng)域相關(guān)性,有助于后續(xù)環(huán)節(jié)的相似度計(jì)算。

    表2 用詞向量計(jì)算出的關(guān)鍵詞之間相似度

    2.4圖模型的構(gòu)建和應(yīng)用

    維基百科是目前世界上最大的在線百科全書(shū),其內(nèi)容每天都會(huì)由世界各地的志愿者進(jìn)行編輯和更新,有著很好的時(shí)效性,另外,維基百科的頁(yè)面包含有類別信息、重定向信息、外部鏈接信息等,這些信息無(wú)形中為實(shí)體之間建立了語(yǔ)義上的關(guān)聯(lián),所以本文選擇維基百科作為實(shí)體消歧的知識(shí)庫(kù)。由于本文是針對(duì)特定領(lǐng)域,本文抽取“旅游”分類信息下的所有頁(yè)面作為最終的知識(shí)庫(kù)來(lái)源,這樣我們?cè)诤艽蟪潭壬蠈?shí)現(xiàn)了消歧,例如,“香格里拉(科幻小說(shuō))”和“香格里拉(電視劇)”就自然不在知識(shí)庫(kù)中,也就在一定程度上縮小了候選實(shí)體的范圍。在此基礎(chǔ)上,我們搭建了一個(gè)領(lǐng)域?qū)嶓w關(guān)系標(biāo)注平臺(tái),利用圖數(shù)據(jù)庫(kù)Neo4j存儲(chǔ)數(shù)據(jù),這種圖數(shù)據(jù)庫(kù)與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比能夠更準(zhǔn)確有效地表示各個(gè)數(shù)據(jù)項(xiàng)之間的復(fù)雜關(guān)系,將從維基百科中抽取到的領(lǐng)域?qū)嶓w導(dǎo)入該平臺(tái)的圖數(shù)據(jù)庫(kù),通過(guò)人工標(biāo)注的方式構(gòu)建了一個(gè)實(shí)體與實(shí)體之間的關(guān)系圖譜,目的是通過(guò)利用在該圖譜上的隨機(jī)游走算法輔助計(jì)算關(guān)鍵詞之間的相似度,目前該平臺(tái)已經(jīng)擁有13 956個(gè)實(shí)體,8 127對(duì)關(guān)系。圖2是部分實(shí)體及其之間的關(guān)系。

    圖2 部分實(shí)體關(guān)系圖譜Fig.2 Part of the entity relationship mapping

    為了提高關(guān)鍵詞之間相似度計(jì)算的準(zhǔn)確率,我們?cè)谠~向量的基礎(chǔ)上加入了利用圖模型計(jì)算的相似度來(lái)綜合衡量關(guān)鍵詞之間的相似度,下面將重點(diǎn)介紹一種用來(lái)計(jì)算相似度的基于圖的隨機(jī)游走算法。

    由于目前我們已經(jīng)人工手動(dòng)搭建了一個(gè)領(lǐng)域?qū)嶓w關(guān)系庫(kù),圖2所示的就是一個(gè)典型的云南旅游領(lǐng)域相關(guān)實(shí)體的部分關(guān)系圖譜,從圖中我們認(rèn)為“大理古城”與“大理市”之間的相似度要高于“乳扇”與“大理市”之間的相似度,因?yàn)榍皟烧咧g是“位于”的關(guān)系直接相連,而后兩者之間是通過(guò)“大理古城”這個(gè)中間實(shí)體相聯(lián)系起來(lái)的,所以相比較而言,“乳扇”與“大理市”之間的聯(lián)系就要弱得多,同樣,“特產(chǎn)”與“大理古城”之間的相似度要比“旅游景點(diǎn)”與“大理古城”之間的相似度要弱得多,因?yàn)楹笳咧g的路徑更多,這些都與現(xiàn)實(shí)中實(shí)體之間的聯(lián)系密切程度相一致,而基于圖的隨機(jī)游走算法能將這種實(shí)體之間的聯(lián)系定量地表示出來(lái)。

    (a)從起始點(diǎn)出發(fā)

    (b)到達(dá)第2個(gè)頂點(diǎn)后選擇下一個(gè)目標(biāo)

    (c)到達(dá)第3個(gè)頂點(diǎn)后有兩個(gè)選擇

    (d)依概率到達(dá)下一個(gè)目標(biāo)圖3 隨機(jī)游走原理圖Fig.3 Schematic diagram of random walk

    如圖3所示我們從節(jié)點(diǎn)“大理古城”出發(fā),在3個(gè)結(jié)點(diǎn)組成的圖上隨機(jī)游走,邊上數(shù)字是轉(zhuǎn)移概率,圖3(a)~(d)分別顯示4種時(shí)刻的狀態(tài)。圖3(a)中“大理古城”和“古城”之間只有一個(gè)單向的關(guān)系,箭頭的方向表示關(guān)系的方向,所以“大理古城”到“古城”之間的關(guān)系在矩陣中表示為1,圖3(c)中“景點(diǎn)”和其他兩個(gè)實(shí)體間均有一個(gè)單向的關(guān)系,所以“景點(diǎn)”和另外兩個(gè)實(shí)體之間的關(guān)系在矩陣中都表示為1/2。由于實(shí)體間的關(guān)系錯(cuò)綜復(fù)雜,可以將這種關(guān)系抽象為一種圖模型,本文在這種圖模型上運(yùn)用隨機(jī)游走算法可以將實(shí)體間的關(guān)聯(lián)程度準(zhǔn)確地表征出來(lái)。

    具體算法流程如下:

    1)給定初始化矩陣A,并令B=A;

    2)根據(jù)圖中實(shí)體間的轉(zhuǎn)移概率,生成矩陣M;

    3)計(jì)算C=α·M·B+(1-α)A;

    4)令B=C;

    5)重復(fù)步驟3)、4),直到C達(dá)到穩(wěn)定狀態(tài)或者迭代次數(shù)超過(guò)某個(gè)閾值。

    12次迭代后矩陣C達(dá)到穩(wěn)定狀態(tài),概率分布為

    所以在經(jīng)過(guò)多次迭代運(yùn)算后,這種基于圖的概率分布會(huì)趨向于一個(gè)穩(wěn)定值,從C矩陣我們可以看出結(jié)點(diǎn)1與結(jié)點(diǎn)2、結(jié)點(diǎn)4、結(jié)點(diǎn)5的相似度較大,分別為0.167 8、0.110 7、0.105 4,對(duì)應(yīng)著圖2中“大理古城”與“乳扇”、“古城”、“大理市”的相似度,而結(jié)點(diǎn)1與結(jié)點(diǎn)3的相似度最小,只有0.005 2,這與圖2中展示的實(shí)際情況也比較相符,如此一來(lái),我們就將這種圖上的結(jié)點(diǎn)間的相似度實(shí)現(xiàn)了量化,并且實(shí)際效果與現(xiàn)實(shí)情況較為一致,可見(jiàn)該算法在輔助計(jì)算相似度時(shí)的實(shí)用價(jià)值。

    2.5相似度計(jì)算

    2.2節(jié)中已經(jīng)確定出權(quán)重最高的n個(gè)關(guān)鍵詞,在此基礎(chǔ)上分別用這n個(gè)關(guān)鍵詞來(lái)作為文本的特征模型:

    式中:vq為帶消歧實(shí)體指稱所在背景文本的特征模型,ve為知識(shí)庫(kù)中候選實(shí)體對(duì)應(yīng)文本的特征模型,w為利用TextRank算法得出的文本關(guān)鍵詞,詞與詞之間的相似度用向量間的余弦值表示,具體計(jì)算如式(3)所示:

    (3)

    式中加號(hào)的前半部分是利用詞向量求關(guān)鍵詞之間的相似度,后半部分是利用基于圖的隨機(jī)游走算法計(jì)算的關(guān)鍵詞之間的相似度,其中wq為背景文本中關(guān)鍵詞的詞向量,we為候選實(shí)體對(duì)應(yīng)文本關(guān)鍵詞的詞向量,通過(guò)參數(shù)α來(lái)決定這兩種相似度計(jì)算方法的權(quán)重,這樣我們就能得到背景文本與候選實(shí)體文本關(guān)鍵詞兩兩進(jìn)行計(jì)算后的相似度,一共能得到n2個(gè)Sim(q,e),然后対它們求均值,用這個(gè)均值來(lái)表示兩篇文檔的相似度,具體公式如式(4)所示:

    (4)

    最后利用上面計(jì)算的背景文本與候選實(shí)體文本的相似度,來(lái)對(duì)候選實(shí)體進(jìn)行消歧,相似度最大的即為目標(biāo)實(shí)體。

    2.6空實(shí)體判斷

    由于知識(shí)庫(kù)不可能做到非常全面,實(shí)際消歧過(guò)程中往往會(huì)出現(xiàn)空鏈接的現(xiàn)象,即待消歧的實(shí)體指稱項(xiàng)在知識(shí)庫(kù)中并沒(méi)有與之對(duì)應(yīng)的目標(biāo)實(shí)體。這種情況有兩種可能:1)在獲取候選實(shí)體階段通過(guò)直接匹配和同義詞匹配兩種方式都沒(méi)有匹配到與之對(duì)應(yīng)的候選實(shí)體;2)在獲取候選實(shí)體階段匹配到至少一個(gè)候選實(shí)體,但是實(shí)際上這個(gè)候選實(shí)體并不是語(yǔ)義相關(guān)的。

    第1種下情況將其直接返回NIL。第2種情況下通過(guò)設(shè)定一個(gè)閾值λ,如果最終的相似度小于λ,則認(rèn)為實(shí)體指稱項(xiàng)與候選實(shí)體語(yǔ)義上不相關(guān),同樣返回NIL。

    3實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

    本文利用維基百科的離線數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)詞向量模型的訓(xùn)練,并在一個(gè)小型測(cè)試集上進(jìn)行測(cè)試。本文通過(guò)兩個(gè)實(shí)驗(yàn)對(duì)所提出的方法進(jìn)行了驗(yàn)證,實(shí)驗(yàn)一通過(guò)對(duì)關(guān)鍵詞在不同個(gè)數(shù)下的對(duì)比試驗(yàn),確定出消歧準(zhǔn)確率在關(guān)鍵詞個(gè)數(shù)為多少時(shí)達(dá)到最高;在實(shí)驗(yàn)二中加入了對(duì)空實(shí)體的判斷,通過(guò)對(duì)空實(shí)體閾值λ的不斷調(diào)優(yōu)得出在不同關(guān)鍵詞個(gè)數(shù)下準(zhǔn)確率是否有所提升,提升的程度如何以及最終的消歧準(zhǔn)確率對(duì)比。

    實(shí)驗(yàn)步驟如下:

    1)利用旅游領(lǐng)域的百科語(yǔ)料對(duì)詞向量空間模型進(jìn)行訓(xùn)練;

    2)利用2.2中的方法在待消歧實(shí)體指稱所在的文本中抽取n個(gè)關(guān)鍵詞;

    3)用同樣的方法在所有候選實(shí)體所在文本中分別抽取n個(gè)關(guān)鍵詞;

    4)利用2.3和2.4中包含有豐富語(yǔ)義信息的模型將上面兩步中的n個(gè)關(guān)鍵詞分別進(jìn)行交叉相似度計(jì)算,并且取平均值;

    5)選取其中相似度平均值最大的作為最終目標(biāo)實(shí)體。

    3.1語(yǔ)料的獲取和模型的訓(xùn)練

    由于本文需要利用Word2Vec工具對(duì)詞向量空間模型進(jìn)行訓(xùn)練,所以采用了維基百科2014年12月的中文離線數(shù)據(jù)庫(kù),并提取其中的旅游分類下的頁(yè)面信息,共計(jì)71 208條。將這些語(yǔ)料經(jīng)過(guò)預(yù)處理,提取頁(yè)面中的摘要信息,形成一篇篇的文本。接著編制爬取程序從國(guó)內(nèi)幾個(gè)著名的旅游網(wǎng)站爬取了相關(guān)的文本,與維基文本結(jié)合,共計(jì)75 016篇。作為本次試驗(yàn)的訓(xùn)練語(yǔ)料。經(jīng)過(guò)訓(xùn)練得到一個(gè)131M的實(shí)驗(yàn)?zāi)P臀募ectors.bin。

    利用基于圖的隨機(jī)游走算法計(jì)算相似度時(shí),圖模型的構(gòu)建是至關(guān)重要的一個(gè)環(huán)節(jié),我們將上一個(gè)環(huán)節(jié)中得到的領(lǐng)域?qū)嶓w語(yǔ)料通過(guò)人工標(biāo)注的方式構(gòu)建了一個(gè)領(lǐng)域?qū)嶓w關(guān)系圖譜,通過(guò)在這張領(lǐng)域?qū)嶓w關(guān)系網(wǎng)絡(luò)上的隨機(jī)游走算法來(lái)輔助計(jì)算關(guān)鍵詞之間的相似度。

    3.2測(cè)試集的選取

    實(shí)驗(yàn)所用來(lái)測(cè)試的是一個(gè)小規(guī)模的測(cè)試集,本文從某旅游網(wǎng)站上爬取了596篇旅游攻略作為測(cè)試文本,通過(guò)觀察發(fā)現(xiàn)并不是每一篇文本中都包含有存在歧義的實(shí)體指稱,所以通過(guò)人工選取符合消歧條件的文本共計(jì)135篇,從每一篇文本中人工標(biāo)記出存在歧義的旅游領(lǐng)域?qū)嶓w指稱,并將其指向的知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體標(biāo)注出來(lái)用于對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證。

    3.3實(shí)驗(yàn)結(jié)果與分析

    實(shí)驗(yàn)1本文就兩種相似度計(jì)算方法的權(quán)重值α的確定采用了一種自動(dòng)調(diào)優(yōu)的方法,我們的問(wèn)題可以簡(jiǎn)化為C=α·A+(1-α)·B,要使實(shí)驗(yàn)效果相對(duì)較好就是要使關(guān)鍵詞之間的相似度值差異較大,即使C的方差達(dá)到最大值,這時(shí)問(wèn)題又可以簡(jiǎn)化為求使得C方差最大時(shí)α的值。先給定α一個(gè)初始值0.5 ,由于基于圖的方法在本文中只是起到輔助作用,所以將α每次增加0.05,記錄取每個(gè)不同α值的情況下C的方差值,實(shí)驗(yàn)結(jié)果如圖4所示。

    圖4 不同α值時(shí)對(duì)應(yīng)的樣本方差Fig.4 The sample variance of different α values

    根據(jù)實(shí)驗(yàn)結(jié)果可以得出,當(dāng)α的值取0.7時(shí),相似度樣本的方差達(dá)到最大值0.366 6,說(shuō)明此時(shí)關(guān)鍵詞之間的相似度分布最為稀疏,相似度值差異最大。

    實(shí)驗(yàn)2本文就關(guān)鍵詞個(gè)數(shù)n的確定做了6組實(shí)驗(yàn),分別測(cè)試n在取5、6、7、8、9、10時(shí)對(duì)消歧準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如圖5所示。

    圖5 不同關(guān)鍵詞個(gè)數(shù)時(shí)系統(tǒng)準(zhǔn)確率Fig.5 Accuracy of different number of keywords

    根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),針對(duì)本文的測(cè)試集和知識(shí)庫(kù),將關(guān)鍵詞個(gè)數(shù)n定為7的時(shí)候準(zhǔn)確率達(dá)到最大值90.08%。但是考慮到該知識(shí)庫(kù)其實(shí)并不完備,并非所有的實(shí)體指稱項(xiàng)在知識(shí)庫(kù)中都有相應(yīng)的目標(biāo)實(shí)體與之對(duì)應(yīng),即所有的候選實(shí)體可能并不是目標(biāo)實(shí)體,而判斷空實(shí)體時(shí)只考慮了在知識(shí)庫(kù)中是否存在,不存在則返回NIL,如果存在,本文的方法是取相似度均值最大的候選實(shí)體,這就不可避免地增加了系統(tǒng)的誤差。

    實(shí)驗(yàn)3針對(duì)以上這種空實(shí)體,本文通過(guò)大量的實(shí)驗(yàn),針對(duì)不同的關(guān)鍵詞個(gè)數(shù)分別對(duì)其空實(shí)體閾值 λ 進(jìn)行調(diào)優(yōu),最終結(jié)果如表3所示。

    表3 調(diào)優(yōu)后的空實(shí)體閾值λ

    在加入空實(shí)體閾值λ后,系統(tǒng)準(zhǔn)確率在關(guān)鍵詞個(gè)數(shù)為5、6、7、8時(shí)都有不同程度的提高,在9、10時(shí)反而出現(xiàn)下降的趨勢(shì)。經(jīng)過(guò)分析發(fā)現(xiàn),準(zhǔn)確率的提升程度隨著關(guān)鍵詞的增多而下降,這是因?yàn)殛P(guān)鍵詞的權(quán)重是逐漸遞減的,個(gè)數(shù)的增加會(huì)使相似度均值發(fā)生不同程度的下降,這會(huì)對(duì)空實(shí)體閾值λ的確定造成一定影響,在判斷空實(shí)體的時(shí)候容易將相似度均值較低的目標(biāo)實(shí)體判斷為空實(shí)體,這就反而降低了系統(tǒng)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖6所示。

    圖6 加入空實(shí)體閾值后的結(jié)果比較Fig.6 Comparison with the result after adding an empty entity threshold

    實(shí)驗(yàn)結(jié)果表明,在關(guān)鍵詞個(gè)數(shù)取7,并且加入空實(shí)體閾值判斷后,系統(tǒng)達(dá)到了最大的準(zhǔn)確率92.27%,這說(shuō)明本文提出的方法能夠在中文旅游領(lǐng)域?qū)崿F(xiàn)較為理想的消歧結(jié)果,在與現(xiàn)有的主流消歧方法的對(duì)比中,優(yōu)勢(shì)較為明顯。

    表4與主流消歧方法的比較

    Table 4Comparison with other mainstream method of disambiguation

    方法名準(zhǔn)確率Wikify0.60Cucerzan0.71M&W0.83CSAW0.87本文方法0.92

    4結(jié)束語(yǔ)

    本文針對(duì)特定領(lǐng)域消歧的特點(diǎn),提出了一種結(jié)合詞向量與圖模型計(jì)算的方法,實(shí)現(xiàn)了特定領(lǐng)域?qū)嶓w消歧。試驗(yàn)結(jié)果表明,相比已有的消歧方法,本文提出的方法能在特定領(lǐng)域?qū)嶓w消歧上取得較為理想的結(jié)果。下一步的工作在關(guān)鍵詞個(gè)數(shù)的選擇方面將考慮根據(jù)詞的權(quán)重動(dòng)態(tài)來(lái)選擇;另外對(duì)于空實(shí)體的判斷方法還有待改進(jìn)。本文實(shí)驗(yàn)結(jié)果也將應(yīng)用到其他特定領(lǐng)域?qū)嶒?yàn)驗(yàn)證。

    參考文獻(xiàn):

    [1]趙軍. 命名實(shí)體識(shí)別、排歧和跨語(yǔ)言關(guān)聯(lián)[J]. 中文信息學(xué)報(bào), 2009, 23(2): 3-17.

    ZHAO Jun. A survey on named entity recognition, disambiguation and cross-lingual coreference resolution[J]. Journal of Chinese information processing, 2009, 23(2): 3-17.

    [2]趙軍, 劉康, 周光有, 等. 開(kāi)放式文本信息抽取[J]. 中文信息學(xué)報(bào), 2011, 25(6): 98-110.

    ZHAO Jun, LIU Kang, ZHOU Guangyou, et al. Open information extraction[J]. Journal of Chinese information processing, 2011, 25(6): 98-110.

    [3]BUNESCU R C, PASCA M. Using encyclopedic knowledge for named entity disambiguation[C]//Proceedings of the 11st conference of the european chapter of the association for computational linguistics. Trento, Italy, 2006: 9-16.

    [4]BAGGA A, BALDWIN B. Entity-based cross-document coreferencing using the vector space model[C]//Proceedings of the 17th international conference on computational linguistics-volume 1. association for computational linguistics. Montreal, Canada, 1998: 79-85.

    [5]MANN G S, YAROWSKY D. Unsupervised personal name disambiguation[C]//Proceedings of the 7th conference on natural language learning at HLT-NAACL 2003-volume 4. Sapporo, Japan, 2003: 33-40.

    [6]HAN Xianpei, SUN Le. A generative entity-mention model for linking entities with knowledge base[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Stroudsburg, PA, USA, 2011: 945-954.

    [7]FAN Xiaoming, WANG Jianyong, PU Xu, et al. On graph-based name disambiguation[J]. Journal of data and information quality (JDIQ), 2011, 2(2): 10.

    [8]懷寶興, 寶騰飛, 祝恒書(shū), 等. 一種基于概率主題模型的命名實(shí)體鏈接方法[J]. 軟件學(xué)報(bào), 2014, 25(9): 2076-2087.

    HUAI Baoxing, BAO Tengfei, ZHU Hengshu, et al. Topic modeling approach to named entity linking[J]. Journal of software, 2014, 25(9): 2076-2087.

    [9]寧博, 張菲菲. 基于異構(gòu)知識(shí)庫(kù)的命名實(shí)體消歧[J]. 西安郵電大學(xué)學(xué)報(bào), 2014, 19(4): 70-76.

    NING Bo, ZHANG Feifei. Named entity disambiguation based on heterogeneous knowledge base[J]. Journal of Xi’an university of posts and telecommunications, 2014, 19(4): 70-76.

    [10]朱敏, 賈真, 左玲, 等. 中文微博實(shí)體鏈接研究[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 50(1): 73-78.

    ZHU Min, JIA Zhen, ZUO Ling, et al. Research on entity linking of chinese micro blog[J]. Acta scientiarum naturalium universitatis pekinensis, 2014, 50(1): 73-78.

    [11]HINTON G E. Learning distributed representations of concepts[C]//Proceedings of the 8th annual conference of the cognitive science society. Amherst, USA, 1986: 1-12.

    [12]張劍, 屈丹, 李真. 基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J]. 模式識(shí)別與人工智能, 2015, 28(4): 299-305.

    ZHANG Jian, QU Dan, LI Zhen. Recurrent neural network language model based on word vector features[J]. Pattern recognition and artificial intelligence, 2015, 28(4): 299-305.

    [13]MIKOLOV T, CHEN Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations. Scottsdale, Arizona, 2013: 1388-1429.

    [14]MIHALCEA R, TARAU P. TextRank: bringing order into texts[C]//Proceedings of EMNLP-04and the 2004 Conference on Empirical Methods in Natural Language Processing. Spain, 2004: 404-411.

    [15]PEARSON K. The problem of the random walk[J]. Nature, 1905, 72(1865): 294.

    [16]鄭偉, 王朝坤, 劉璋, 等. 一種基于隨機(jī)游走模型的多標(biāo)簽分類算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(8): 1418-1426.

    ZHENG Wei, WANG Chaokun, LIU Zhang, et al. A multi-label classification algorithm based on random walk model[J]. Chinese journal of computers, 2010, 33(8): 1418-1426.

    [17]SZUMMER M, JAAKKOLA T. Partially labeled classification with Markov random walks[C]//Advances in neural information processing systems (NIPS). Cambridge, 2002, 14: 945-952.

    [18]ZHOU Dengyong. Learning from labeled and unlabeled data on a directed graph[C]//Proceedings of the 22nd international conference on machine learning. New York, USA, 2005: 1036-1043.

    [19]TISHBY N, SLONIM N. Data clustering by Markovian relaxation and the information bottleneck method[C]//Proceedings of Neural Information Processing Systems. Vancouver, Canadian, 2000: 640-646.

    [20]HAREL D, KOREN Y. On clustering using random walks[M]//HARIHARAN R, VINAY V, MUKUND M. Foundations of software technology and theoretical computer science. Berlin Heidelberg: Springer, 2001: 18-41.

    [21]LUXBURG U V. A tutorial on spectral clustering[J]. Statistics and computing, 2007, 17(4): 395-416.

    [22]GRADY L. Random walks for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(11): 1768-1783.

    [23]GORI M, MAGGINI M, SARTI L. Exact and approximate graph matching using random walks.[J]. IEEE transactions on Pattern analysis and machine intelligence, 2005, 27(7): 1100-1111.

    [24]KONDOR R I, LAFFERTY J. Diffusion kernels on graphs and other discrete structures[C]//Proceedings of the 19th international conference on machine learning. Sydney, Australia, 2002: 315-322.

    [25]BELKIN M, NIYOGI P. Laplacian eigenmaps for dimensionality reduction and data representation[R]. Chicago,

    USA: University of Chicago, 2002.

    [26]LAFFERTY J, LEBANON G. Information diffusion kernels[C]//Advances in neural information processing systems. Cambridge, 2002: 375-382.

    [27]SMOLA A J, KONDOR R. Kernels and regularization on graphs[M]//Learning theory and kernel machines. Berlin Heidelberg: Springer, 2003: 144-158.

    [28]HU Jian, WANG Gang, LOCHOVSKY F, et al. Understanding user's query intent with Wikipedia[C]//Proceedings of the 18th International Conference on World Wide Web. Beijing, China, 2009: 471-480.

    汪沛,男,1990年生,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、信息抽取。

    線巖團(tuán),男,1981年生,博士研究生,主研方向?yàn)樽匀徽Z(yǔ)言處理、信息抽取、機(jī)器翻譯、機(jī)器學(xué)習(xí)。

    郭劍毅,女,1964年生,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、信息抽取、機(jī)器學(xué)習(xí)。

    中文引用格式:汪沛,線巖團(tuán),郭劍毅,等.一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(3): 366-375.

    英文引用格式:WANG Pei, XIAN Yantuan, GUO Jianyi, et al. A novel method using word vector and graphical models for entity disambiguation in specific topic domains[J]. CAAI transactions on intelligent systems, 2016, 11(3): 366-375.

    A novel method using word vector and graphical models for entity disambiguation in specific topic domains

    WANG Pei1, XIAN Yantuan1,2, GUO Jianyi1,2, WEN Yonghua1,2, CHEN Wei1,2, WANG Hongbin1,2

    (1.School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China; 2. Key Laboratory of Intelligent Information Processing, Kunming University of Science and Technology, Kunming 650500, China)

    Abstract:In this paper, a novel method based on word vector and graph models is proposed to deal with entity disambiguation in specific topic domains. Take the tourism topic domain as an example. The method firstly chooses the web-pages of the tourism category in a Wikipedia offline database to build a knowledge base; then, the tool Word2Vec is used to build a word vector model with the texts in the knowledge base and texts taken from several tourism websites. Combined with a manual annotation graph, a random walk algorithm based on the graph is used to compute similarity to accurately calculate the similarity between words within the tourism domain. Next, the method extracts several keywords from the background text of the entity to be disambiguated and compares them with the keyword text in the knowledge base that describes the candidate entities. Finally, the method uses the trained Word2Vec model and graphical model to calculate the similarity between the keywords of name mention and the keywords of candidate entities. The method then chooses the candidate entities which have the maximum average similarity to the target entity. Experimental results show that this new method can effectively capture the similarity between name mention and a target entity; thus, it can accurately achieve entity disambiguation of a topic-specific domain.

    Keywords:entity disambiguation; entity linking; Word2Vec; Wikipedia; graphical model; random walking

    作者簡(jiǎn)介:

    中圖分類號(hào):TP393

    文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1673-4785(2016)03-0366-09

    通信作者:郭劍毅.E-mail:gjade86@hotmail.com.

    基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61262041,61472168,61462054,61562052);云南省自然科學(xué)基金重點(diǎn)項(xiàng)目(2013FA030).

    收稿日期:2016-03-19.網(wǎng)絡(luò)出版日期:2016-05-13.

    DOI:10.11992/tis.201603048

    網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0958.036.html

    猜你喜歡
    消歧維基百科知識(shí)庫(kù)
    維基百科影響司法
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    維基百科青年
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
    APP
    IBM的監(jiān)視
    意林(2014年2期)2014-02-11 11:09:17
    在线精品无人区一区二区三| 国精品久久久久久国模美| 电影成人av| 天天影视国产精品| 下体分泌物呈黄色| 午夜久久久在线观看| 超色免费av| www.999成人在线观看| 老汉色∧v一级毛片| 女人爽到高潮嗷嗷叫在线视频| 国产区一区二久久| 一本一本久久a久久精品综合妖精| 午夜免费成人在线视频| 老熟妇仑乱视频hdxx| 国产精品久久久久成人av| 91精品伊人久久大香线蕉| 欧美另类亚洲清纯唯美| 波多野结衣av一区二区av| 动漫黄色视频在线观看| 9191精品国产免费久久| av超薄肉色丝袜交足视频| 亚洲,欧美精品.| 国产精品影院久久| 国产精品1区2区在线观看. | 亚洲精品自拍成人| 久久av网站| 黑人巨大精品欧美一区二区蜜桃| 50天的宝宝边吃奶边哭怎么回事| 女人精品久久久久毛片| 久久精品aⅴ一区二区三区四区| 久久精品人人爽人人爽视色| 亚洲av美国av| 国产精品二区激情视频| 老司机影院毛片| 老鸭窝网址在线观看| 久久精品成人免费网站| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美日韩中文字幕国产精品一区二区三区 | 香蕉国产在线看| 国产av精品麻豆| 国产又色又爽无遮挡免| 在线亚洲精品国产二区图片欧美| 高清欧美精品videossex| 欧美少妇被猛烈插入视频| 青草久久国产| 免费观看人在逋| 欧美老熟妇乱子伦牲交| 人人妻,人人澡人人爽秒播| 男人爽女人下面视频在线观看| 色视频在线一区二区三区| 爱豆传媒免费全集在线观看| 中文欧美无线码| 亚洲九九香蕉| 国产一卡二卡三卡精品| 99国产精品免费福利视频| 久久久久久久大尺度免费视频| 精品国产乱子伦一区二区三区 | 精品国产超薄肉色丝袜足j| 亚洲欧美精品综合一区二区三区| 久久久久网色| 亚洲午夜精品一区,二区,三区| 丰满人妻熟妇乱又伦精品不卡| 久久久久国内视频| 天天添夜夜摸| 国产一区二区三区在线臀色熟女 | 亚洲精品第二区| 一本综合久久免费| 成人18禁高潮啪啪吃奶动态图| 久久精品久久久久久噜噜老黄| 制服诱惑二区| 亚洲精华国产精华精| 国产亚洲欧美在线一区二区| 日韩电影二区| 欧美亚洲日本最大视频资源| 97精品久久久久久久久久精品| 老司机亚洲免费影院| 看免费av毛片| 精品高清国产在线一区| 极品人妻少妇av视频| 十八禁人妻一区二区| 国产伦人伦偷精品视频| 成年人免费黄色播放视频| 免费少妇av软件| 欧美+亚洲+日韩+国产| 国产精品一二三区在线看| 色婷婷久久久亚洲欧美| 91精品伊人久久大香线蕉| 国产日韩一区二区三区精品不卡| 国产成人欧美在线观看 | 欧美国产精品va在线观看不卡| 一级毛片女人18水好多| 男女高潮啪啪啪动态图| 18禁裸乳无遮挡动漫免费视频| 欧美激情 高清一区二区三区| 日韩欧美国产一区二区入口| 中文字幕制服av| 人妻人人澡人人爽人人| 一区二区三区四区激情视频| 中国国产av一级| 丰满迷人的少妇在线观看| 国产成人av激情在线播放| 国产成人av激情在线播放| 啦啦啦中文免费视频观看日本| 国产精品亚洲av一区麻豆| 欧美日韩福利视频一区二区| 如日韩欧美国产精品一区二区三区| 中文字幕制服av| 精品亚洲成a人片在线观看| 天天躁狠狠躁夜夜躁狠狠躁| videos熟女内射| 日韩制服丝袜自拍偷拍| 亚洲精品成人av观看孕妇| 欧美国产精品va在线观看不卡| 色播在线永久视频| 精品少妇久久久久久888优播| svipshipincom国产片| 国产精品亚洲av一区麻豆| 免费在线观看黄色视频的| 青草久久国产| 亚洲av国产av综合av卡| 男女免费视频国产| 欧美日韩亚洲综合一区二区三区_| 精品少妇黑人巨大在线播放| 两个人免费观看高清视频| 啦啦啦免费观看视频1| 日本五十路高清| 午夜精品国产一区二区电影| 不卡一级毛片| 建设人人有责人人尽责人人享有的| a 毛片基地| 在线 av 中文字幕| 欧美 亚洲 国产 日韩一| 国产成人精品久久二区二区免费| 亚洲精品久久午夜乱码| 国产精品一区二区在线不卡| 亚洲avbb在线观看| 狂野欧美激情性xxxx| 国产精品欧美亚洲77777| 亚洲国产中文字幕在线视频| 中文字幕色久视频| 老司机福利观看| 国产高清videossex| 免费av中文字幕在线| 成人18禁高潮啪啪吃奶动态图| 精品国产国语对白av| 亚洲欧美清纯卡通| 亚洲成人手机| 啦啦啦视频在线资源免费观看| 中文字幕精品免费在线观看视频| 丝袜在线中文字幕| 久热这里只有精品99| 欧美xxⅹ黑人| 久久久精品国产亚洲av高清涩受| 99久久精品国产亚洲精品| 一级片'在线观看视频| 777米奇影视久久| 国产成人欧美在线观看 | 水蜜桃什么品种好| 亚洲国产精品成人久久小说| 久久久久国产精品人妻一区二区| 老司机靠b影院| 亚洲中文字幕日韩| 韩国高清视频一区二区三区| 亚洲全国av大片| 少妇粗大呻吟视频| av线在线观看网站| 国产在线观看jvid| 亚洲国产精品999| 日本精品一区二区三区蜜桃| 日韩欧美一区二区三区在线观看 | 十八禁网站免费在线| 久久精品国产亚洲av香蕉五月 | 极品人妻少妇av视频| 欧美另类一区| 一级黄色大片毛片| 亚洲欧美激情在线| 久久久久久免费高清国产稀缺| 国产精品一二三区在线看| 国产精品一二三区在线看| 韩国高清视频一区二区三区| 在线观看www视频免费| 久久久精品区二区三区| 美女视频免费永久观看网站| 动漫黄色视频在线观看| 国产成人欧美| 蜜桃国产av成人99| 欧美大码av| 中国国产av一级| 色视频在线一区二区三区| av国产精品久久久久影院| 日日爽夜夜爽网站| 高清av免费在线| 国产成人一区二区三区免费视频网站| 日韩有码中文字幕| 欧美国产精品一级二级三级| 精品国产国语对白av| 精品久久久精品久久久| 秋霞在线观看毛片| 美女国产高潮福利片在线看| 国产精品一二三区在线看| 国产主播在线观看一区二区| av视频免费观看在线观看| 亚洲成av片中文字幕在线观看| 捣出白浆h1v1| 国产成人精品无人区| 免费观看a级毛片全部| 国产欧美日韩一区二区三 | 欧美老熟妇乱子伦牲交| 亚洲视频免费观看视频| 欧美午夜高清在线| 亚洲人成77777在线视频| 高清黄色对白视频在线免费看| 国产一区二区三区av在线| 69av精品久久久久久 | 女性生殖器流出的白浆| 国产成人精品无人区| 日韩大码丰满熟妇| 成人国产av品久久久| 啦啦啦 在线观看视频| 国产男女超爽视频在线观看| 亚洲欧美精品自产自拍| 中国美女看黄片| 成人黄色视频免费在线看| 老司机午夜十八禁免费视频| 大码成人一级视频| 多毛熟女@视频| 一级毛片女人18水好多| 人妻人人澡人人爽人人| 黄色视频在线播放观看不卡| 超碰97精品在线观看| 韩国精品一区二区三区| 国产又爽黄色视频| 亚洲成人国产一区在线观看| 亚洲av日韩精品久久久久久密| 精品免费久久久久久久清纯 | 亚洲av片天天在线观看| 国产精品国产三级国产专区5o| 国产精品1区2区在线观看. | 老熟妇仑乱视频hdxx| 国产成人系列免费观看| 91精品三级在线观看| 久久人妻福利社区极品人妻图片| av网站免费在线观看视频| 亚洲一卡2卡3卡4卡5卡精品中文| 色婷婷av一区二区三区视频| 亚洲国产精品一区三区| 久久久久网色| 丰满饥渴人妻一区二区三| 亚洲五月色婷婷综合| 精品人妻1区二区| 一区福利在线观看| 90打野战视频偷拍视频| 啪啪无遮挡十八禁网站| bbb黄色大片| 中文字幕最新亚洲高清| 中文字幕精品免费在线观看视频| 亚洲成人免费电影在线观看| 国产成人系列免费观看| 在线精品无人区一区二区三| 久久免费观看电影| 桃花免费在线播放| 日日夜夜操网爽| 亚洲精品第二区| 国产成人系列免费观看| 在线永久观看黄色视频| 大香蕉久久网| 国产福利在线免费观看视频| 麻豆国产av国片精品| 自拍欧美九色日韩亚洲蝌蚪91| 精品国产乱子伦一区二区三区 | 99国产精品一区二区三区| 国产精品1区2区在线观看. | www.999成人在线观看| 肉色欧美久久久久久久蜜桃| 亚洲美女黄色视频免费看| 少妇的丰满在线观看| 丰满迷人的少妇在线观看| 一本大道久久a久久精品| 黄网站色视频无遮挡免费观看| 精品亚洲成国产av| 深夜精品福利| 51午夜福利影视在线观看| 免费观看a级毛片全部| www.熟女人妻精品国产| 亚洲欧美一区二区三区久久| 日韩中文字幕欧美一区二区| 丝袜喷水一区| 91精品三级在线观看| 国产伦人伦偷精品视频| 国产成人影院久久av| 欧美另类亚洲清纯唯美| 久久精品国产综合久久久| 动漫黄色视频在线观看| 国产欧美日韩一区二区三 | 热99re8久久精品国产| 青春草亚洲视频在线观看| 久久国产精品影院| 久久精品aⅴ一区二区三区四区| 久久久水蜜桃国产精品网| 一区二区三区精品91| 正在播放国产对白刺激| 又紧又爽又黄一区二区| 午夜福利一区二区在线看| 最近中文字幕2019免费版| 中文欧美无线码| 免费av中文字幕在线| 两性午夜刺激爽爽歪歪视频在线观看 | 日韩一区二区三区影片| 精品视频人人做人人爽| 永久免费av网站大全| 久久久久久亚洲精品国产蜜桃av| 国产免费一区二区三区四区乱码| 国产高清视频在线播放一区 | 老司机福利观看| 国产免费视频播放在线视频| 亚洲专区国产一区二区| 男女午夜视频在线观看| 啦啦啦 在线观看视频| 亚洲av国产av综合av卡| 国产精品亚洲av一区麻豆| 91九色精品人成在线观看| 一级黄色大片毛片| 波多野结衣av一区二区av| 美女高潮到喷水免费观看| 精品国产乱码久久久久久小说| 精品少妇久久久久久888优播| 超碰97精品在线观看| 热99久久久久精品小说推荐| 男女边摸边吃奶| 国产亚洲午夜精品一区二区久久| 两性午夜刺激爽爽歪歪视频在线观看 | 老司机影院毛片| 麻豆av在线久日| 少妇的丰满在线观看| 免费在线观看视频国产中文字幕亚洲 | 午夜免费成人在线视频| 黑丝袜美女国产一区| 日本vs欧美在线观看视频| 91老司机精品| 欧美日韩亚洲高清精品| 考比视频在线观看| 欧美精品一区二区大全| 欧美中文综合在线视频| 超碰成人久久| 亚洲第一av免费看| 久热这里只有精品99| 中国美女看黄片| 国产高清国产精品国产三级| 国产精品久久久久久精品电影小说| 新久久久久国产一级毛片| 国产免费现黄频在线看| 别揉我奶头~嗯~啊~动态视频 | 天天躁狠狠躁夜夜躁狠狠躁| 亚洲九九香蕉| 国产97色在线日韩免费| 精品高清国产在线一区| 人人妻,人人澡人人爽秒播| 国产精品av久久久久免费| 各种免费的搞黄视频| 在线十欧美十亚洲十日本专区| 免费少妇av软件| 嫁个100分男人电影在线观看| 国产精品一区二区免费欧美 | 午夜福利在线免费观看网站| 亚洲国产av新网站| 高清欧美精品videossex| 国产精品香港三级国产av潘金莲| 久久免费观看电影| 成人三级做爰电影| 亚洲自偷自拍图片 自拍| 久久久国产欧美日韩av| 国产av精品麻豆| 亚洲avbb在线观看| 一级黄色大片毛片| 91麻豆精品激情在线观看国产 | 最近最新中文字幕大全免费视频| 精品欧美一区二区三区在线| 日韩欧美一区二区三区在线观看 | 菩萨蛮人人尽说江南好唐韦庄| 一级毛片精品| www.自偷自拍.com| 一个人免费在线观看的高清视频 | 91老司机精品| 热re99久久精品国产66热6| 亚洲,欧美精品.| 国产黄频视频在线观看| 久久久久久久久免费视频了| 啦啦啦啦在线视频资源| 美女高潮喷水抽搐中文字幕| 国产精品成人在线| 黄色怎么调成土黄色| 悠悠久久av| 啦啦啦 在线观看视频| 99久久国产精品久久久| 王馨瑶露胸无遮挡在线观看| 十八禁高潮呻吟视频| 欧美激情高清一区二区三区| 亚洲第一欧美日韩一区二区三区 | 又大又爽又粗| 婷婷丁香在线五月| 一边摸一边做爽爽视频免费| 亚洲精品美女久久av网站| 国产成人免费观看mmmm| 欧美日韩精品网址| 国产精品一区二区在线观看99| 免费久久久久久久精品成人欧美视频| 天天躁夜夜躁狠狠躁躁| 一级,二级,三级黄色视频| 精品少妇内射三级| 美女午夜性视频免费| 亚洲美女黄色视频免费看| av不卡在线播放| 国产又爽黄色视频| 亚洲天堂av无毛| 亚洲欧美一区二区三区久久| 精品一品国产午夜福利视频| 最近最新免费中文字幕在线| 国产99久久九九免费精品| 亚洲少妇的诱惑av| 中文字幕另类日韩欧美亚洲嫩草| 自拍欧美九色日韩亚洲蝌蚪91| 侵犯人妻中文字幕一二三四区| 久久久水蜜桃国产精品网| 精品久久久久久电影网| 又紧又爽又黄一区二区| 91成年电影在线观看| 成年女人毛片免费观看观看9 | www.自偷自拍.com| 亚洲av日韩在线播放| 亚洲国产精品一区三区| 日本五十路高清| 99国产精品一区二区蜜桃av | 久久毛片免费看一区二区三区| 99香蕉大伊视频| 国产精品熟女久久久久浪| 另类亚洲欧美激情| 免费观看a级毛片全部| 午夜91福利影院| 日韩视频在线欧美| 久久久久国内视频| 精品国产乱子伦一区二区三区 | 成年人黄色毛片网站| 亚洲中文日韩欧美视频| 国产精品久久久av美女十八| 日本五十路高清| 久久精品国产a三级三级三级| av网站免费在线观看视频| 精品少妇久久久久久888优播| 国产野战对白在线观看| 久久久久久久久久久久大奶| av在线播放精品| 啦啦啦免费观看视频1| 大香蕉久久成人网| 一本大道久久a久久精品| 男女午夜视频在线观看| 十八禁人妻一区二区| 精品卡一卡二卡四卡免费| 精品人妻在线不人妻| 国产黄色免费在线视频| 精品高清国产在线一区| 美女午夜性视频免费| 午夜精品久久久久久毛片777| 91九色精品人成在线观看| 国产免费av片在线观看野外av| 别揉我奶头~嗯~啊~动态视频 | 国产免费av片在线观看野外av| 三级毛片av免费| 午夜激情av网站| 国产精品.久久久| 欧美另类亚洲清纯唯美| 亚洲国产欧美日韩在线播放| 香蕉丝袜av| 搡老乐熟女国产| 午夜免费成人在线视频| 色精品久久人妻99蜜桃| 男男h啪啪无遮挡| 一区二区日韩欧美中文字幕| 如日韩欧美国产精品一区二区三区| 丰满少妇做爰视频| 国产欧美日韩一区二区三 | 丰满迷人的少妇在线观看| 精品人妻1区二区| 亚洲精品自拍成人| 99国产精品99久久久久| 日韩欧美一区视频在线观看| 国产av又大| www日本在线高清视频| 亚洲久久久国产精品| 成年女人毛片免费观看观看9 | 在线观看免费视频网站a站| 国产伦人伦偷精品视频| 色视频在线一区二区三区| 欧美在线黄色| 热99re8久久精品国产| 亚洲精品成人av观看孕妇| 日韩欧美免费精品| 久久 成人 亚洲| 人妻一区二区av| 热99re8久久精品国产| 欧美性长视频在线观看| 深夜精品福利| 欧美另类亚洲清纯唯美| 极品少妇高潮喷水抽搐| 欧美成狂野欧美在线观看| 97人妻天天添夜夜摸| 老司机影院毛片| 91大片在线观看| 一个人免费看片子| 青草久久国产| 老熟妇乱子伦视频在线观看 | 一区二区三区精品91| 岛国在线观看网站| 美女高潮到喷水免费观看| 制服人妻中文乱码| 亚洲国产看品久久| 国产麻豆69| 亚洲精品第二区| 亚洲精品中文字幕一二三四区 | 国产片内射在线| 91成人精品电影| 麻豆国产av国片精品| 一二三四在线观看免费中文在| 欧美日韩亚洲综合一区二区三区_| 看免费av毛片| 精品乱码久久久久久99久播| 欧美另类亚洲清纯唯美| av在线app专区| 国产一区二区三区av在线| 国产精品一区二区精品视频观看| 国产免费福利视频在线观看| 亚洲va日本ⅴa欧美va伊人久久 | 99国产综合亚洲精品| xxxhd国产人妻xxx| 国产欧美日韩一区二区三 | 男男h啪啪无遮挡| 美女高潮喷水抽搐中文字幕| 亚洲avbb在线观看| 精品亚洲成国产av| 女警被强在线播放| 亚洲精品在线美女| 男女边摸边吃奶| 精品国产乱子伦一区二区三区 | 女警被强在线播放| 精品国产超薄肉色丝袜足j| 欧美在线一区亚洲| 午夜福利影视在线免费观看| 岛国毛片在线播放| 黑人欧美特级aaaaaa片| 久久久精品免费免费高清| 18禁裸乳无遮挡动漫免费视频| 午夜视频精品福利| 又大又爽又粗| 丝袜脚勾引网站| 国产亚洲精品久久久久5区| 91精品伊人久久大香线蕉| 高清视频免费观看一区二区| 一级毛片电影观看| 国产xxxxx性猛交| 亚洲成国产人片在线观看| 久久精品国产a三级三级三级| 波多野结衣一区麻豆| 蜜桃国产av成人99| 一区二区三区精品91| 热re99久久精品国产66热6| 久久久久久久久久久久大奶| 99国产精品一区二区三区| 亚洲欧美精品自产自拍| 久久国产亚洲av麻豆专区| 亚洲精品一二三| 国产精品 欧美亚洲| 亚洲国产毛片av蜜桃av| 亚洲熟女精品中文字幕| 啦啦啦啦在线视频资源| 亚洲精品久久久久久婷婷小说| 国产精品99久久99久久久不卡| 国产成人精品无人区| 美国免费a级毛片| 老司机影院毛片| 国产在视频线精品| 天天添夜夜摸| 黑人操中国人逼视频| 天天添夜夜摸| 黑人操中国人逼视频| av有码第一页| av在线播放精品| 欧美黑人欧美精品刺激| 黑人猛操日本美女一级片| 国产精品久久久人人做人人爽| 男女高潮啪啪啪动态图| 欧美午夜高清在线| 久久综合国产亚洲精品| 亚洲成av片中文字幕在线观看| 久久热在线av| 亚洲国产日韩一区二区| 久久综合国产亚洲精品| www.999成人在线观看| 50天的宝宝边吃奶边哭怎么回事| 一本一本久久a久久精品综合妖精| 久久综合国产亚洲精品| 亚洲精品美女久久久久99蜜臀| 人人妻人人添人人爽欧美一区卜| 亚洲男人天堂网一区| 黄片播放在线免费| 深夜精品福利| av国产精品久久久久影院| www.av在线官网国产| 亚洲精品av麻豆狂野| 女人久久www免费人成看片| 亚洲国产欧美网| 丝袜美腿诱惑在线| 老司机亚洲免费影院| 亚洲黑人精品在线| 亚洲精品第二区| 两性夫妻黄色片| 纯流量卡能插随身wifi吗|