王巍巍 王志剛 潘亮銘 劉陽 張江濤
?
雙語影視知識(shí)圖譜的構(gòu)建研究
王巍巍 王志剛?潘亮銘 劉陽 張江濤
清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系知識(shí)工程實(shí)驗(yàn)室, 北京 100084; ?通信作者, E-mail: wangzigo@gmail.com
提出一種雙語影視知識(shí)圖譜(BMKG)的構(gòu)建流程。通過半自動(dòng)化的方法構(gòu)建了雙語影視本體(BMO), 將各個(gè)影視數(shù)據(jù)源對(duì)齊到BMO, 以保持異構(gòu)數(shù)據(jù)源的語義描述一致性。在知識(shí)鏈接方面, 在充分挖掘和利用領(lǐng)域特征的基礎(chǔ)上, 采用基于Word2Vec和TFIDF兩種向量模型的實(shí)體相似度計(jì)算方法, 使相似度特征增加一倍, 大大提升了模型的鏈接效果。在實(shí)體匹配方面, 提出基于相似度傳播算法的實(shí)體匹配算法, 并利用影視數(shù)據(jù)源之間的內(nèi)在聯(lián)系, 克服了跨語言實(shí)體之間計(jì)算相似度的語言障礙。實(shí)驗(yàn)結(jié)果表明, 當(dāng)閾值取到0.75以上時(shí), 實(shí)體匹配的準(zhǔn)確率都能達(dá)到90%左右。此外, 還建立了影視知識(shí)圖譜共享平臺(tái), 并提供開放性的數(shù)據(jù)訪問和查詢接口。
影視本體; 雙語; 知識(shí)圖譜
隨著互聯(lián)網(wǎng)和智能設(shè)備的普及, 影視已經(jīng)成為人們娛樂生活中不可或缺的一部分, 而互聯(lián)網(wǎng)是人們最重要的影視信息來源之一。人們可以很方便地在優(yōu)酷土豆、愛奇藝等視頻網(wǎng)站上觀影, 也可以在豆瓣電影、IMDB和百度百科等網(wǎng)站上獲取影視以及評(píng)論信息。然而, 有些用戶對(duì)影視信息有更深層次的需求, 比如制片公司、廣告商等往往期望了解影視作品在人員、受眾、時(shí)間、地域、收視率等不同維度上的統(tǒng)計(jì)信息。目前, 大部分影視挖掘算法和相關(guān)系統(tǒng)的分析效果通常依賴于背景知識(shí)庫的質(zhì)量, 因此工業(yè)界和研究領(lǐng)域均對(duì)高質(zhì)量影視知識(shí)庫有著非常迫切的需求。
國際上, 影視本體構(gòu)建工作進(jìn)展很快, 開放數(shù)據(jù)云(linked open data, LOD)上已經(jīng)出現(xiàn)一批如LinkedMdb、Freebase等著名知識(shí)庫, 但大多以英文知識(shí)為主。目前, 國內(nèi)雖然已經(jīng)出現(xiàn)比較優(yōu)秀的中文影視網(wǎng)站, 但在影視本體知識(shí)庫的構(gòu)建方面相對(duì)落后。相對(duì)于英文影視知識(shí)而言, 能夠公開獲取的中文影視數(shù)據(jù)源中, 影視知識(shí)的結(jié)構(gòu)化較差, 且描述信息較少, 缺乏一個(gè)統(tǒng)一的語義描述標(biāo)準(zhǔn)。所以, 融合優(yōu)質(zhì)的中英文影視數(shù)據(jù)源, 構(gòu)建統(tǒng)一接口、統(tǒng)一語義的雙語影視本體知識(shí)庫, 將會(huì)為國內(nèi)的影視信息的挖掘和利用提供重要的基礎(chǔ)支撐, 同時(shí), 對(duì)擴(kuò)大中文影視知識(shí)在國際上的影響力具有重要的意義。
總體來說, 雙語影視知識(shí)庫的構(gòu)建工作會(huì)面臨以下幾個(gè)方面的挑戰(zhàn)。
1)雙語影視本體構(gòu)建。當(dāng)前沒有成熟可用的多語言影視本體, 因此, 需要根據(jù)實(shí)際需求, 考慮中英文知識(shí)平衡性, 重新進(jìn)行構(gòu)建。
2)語義信息抽取。從不同的數(shù)據(jù)源中抽取結(jié)構(gòu)化影視知識(shí), 需要進(jìn)行數(shù)據(jù)過濾、去噪、清洗、結(jié)構(gòu)化、語義對(duì)齊等一系列復(fù)雜的預(yù)處理過程。
3)對(duì)象型屬性實(shí)體鏈接。需要解決關(guān)鍵問題: 一是命名實(shí)體識(shí)別, 即如何從屬性短文本中, 特別是中文文本中進(jìn)行實(shí)體邊界的識(shí)別; 二是領(lǐng)域相似度定義問題, 即如何利用影視領(lǐng)域知識(shí), 構(gòu)建具有足夠區(qū)分度的實(shí)體相似度計(jì)算公式。
4)大規(guī)模實(shí)體匹配以及跨語言實(shí)體匹配。需要解決大規(guī)模實(shí)體匹配的計(jì)算可行性問題以及跨語言匹配時(shí), 克服實(shí)體相似度計(jì)算中的語言障礙。
基于以上分析, 我們提出一種雙語影視本體知識(shí)庫的構(gòu)建流程, 并對(duì)關(guān)鍵技術(shù)進(jìn)行研究, 其中包括半自動(dòng)化的影視本體構(gòu)建、對(duì)象型屬性實(shí)體鏈接和基于相似度傳播的實(shí)體匹配。為了實(shí)現(xiàn)知識(shí)共享和可視化, 本文中還構(gòu)建了雙語影視知識(shí)圖譜(Bilingual Movie Knowledge Graph, BMKG)應(yīng)用平臺(tái), 并開放數(shù)據(jù)訪問和查詢接口。
BMKG集成并融合了豆瓣電影、百度百科、LinkedMdb和DBpedia等多個(gè)中英文影視數(shù)據(jù)源, 包含七十多萬個(gè)影視實(shí)體, 一千多萬條三元組數(shù)據(jù), 并建立了60萬條到多個(gè)開放數(shù)據(jù)源的外部鏈接。
表1給出知識(shí)庫的綜合統(tǒng)計(jì)數(shù)據(jù)。
表1 綜合統(tǒng)計(jì)
1 相關(guān)工作
自20個(gè)世紀(jì)90年代起, 語義網(wǎng)相關(guān)技術(shù)開始蓬勃發(fā)展, 本體技術(shù)成為研究熱點(diǎn), 以Dbpedia和WordNet[1]等為代表的一批優(yōu)秀的本體知識(shí)庫開始涌現(xiàn), 標(biāo)志著語義網(wǎng)技術(shù)走向成熟, 進(jìn)入到實(shí)際應(yīng)用階段。然而, 由于本體知識(shí)庫的構(gòu)建工作是一項(xiàng)非常復(fù)雜、費(fèi)時(shí)費(fèi)力的系統(tǒng)性工程, 進(jìn)展相對(duì)緩慢, 已經(jīng)成為本體技術(shù)發(fā)展的瓶頸之一, 因此研究和構(gòu)建各種本體知識(shí)庫成為當(dāng)務(wù)之急。
國際上, 以 DBpedia為核心的LOD開放數(shù)據(jù)云中本體知識(shí)庫大多以英文知識(shí)為主, 尤其是影視領(lǐng)域方面, 英文知識(shí)庫的研究工作一直處于領(lǐng)先地位。Hassanzadeh等[2]在2009年發(fā)布影視本體知識(shí)庫LinkedMdb, 該知識(shí)庫是以影視知識(shí)為中心的鏈接型知識(shí)本體。2010年, 蘇黎世大學(xué)的Bouza等在LOD中公布構(gòu)建的影視本體MO①, 為大多數(shù)的影視數(shù)據(jù)生產(chǎn)者提供了一個(gè)一致的語義規(guī)范。大規(guī)模知識(shí)圖譜Freebase也含有豐富的影視知識(shí), 并建立了一套非常優(yōu)秀的影視概念體系。
我國的本體構(gòu)建技術(shù)研究還處于起步階段。在領(lǐng)域本體構(gòu)建方面, 雖然已經(jīng)有了一些成果, 如中文語言本體知識(shí)庫HowNet②、醫(yī)療領(lǐng)域本體知識(shí)庫[3]和多民族語言本體知識(shí)庫[4], 但總體來說, 涉及的領(lǐng)域較少, 在規(guī)模和質(zhì)量上遠(yuǎn)不能滿足現(xiàn)實(shí)應(yīng)用的需求。尤其在有廣泛應(yīng)用前景的影視領(lǐng)域方面, 國內(nèi)還沒出現(xiàn)高質(zhì)量的知識(shí)庫。
本體知識(shí)庫大多都采用半自動(dòng)化方法構(gòu)建而成, 構(gòu)建的復(fù)雜程度與所用數(shù)據(jù)源的質(zhì)量和規(guī)模有關(guān)。例如, DBpedia是從維基百科網(wǎng)頁數(shù)據(jù)中抽取多語言的數(shù)據(jù)[5], 主要側(cè)重于知識(shí)的結(jié)構(gòu)化, 在進(jìn)行大規(guī)模半結(jié)構(gòu)化數(shù)據(jù)處理過程中, 需要引入大量的人工操作, 構(gòu)建過程十分繁瑣復(fù)雜。LinkedMdb的知識(shí)規(guī)模小, 操作對(duì)象數(shù)據(jù)源基本上都是優(yōu)質(zhì)的RDF數(shù)據(jù)源, 并且主要側(cè)重于建立異構(gòu)數(shù)據(jù)源之間的知識(shí)鏈接, 構(gòu)建過程相對(duì)簡(jiǎn)單。
BMKG涉及兩種語言的數(shù)據(jù)源, 中文選用半結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)源, 英文選用優(yōu)質(zhì)的RDF數(shù)據(jù)源。因此, 可以借鑒上述兩種知識(shí)庫的構(gòu)建方法, 分別構(gòu)建中英文影視知識(shí)庫。
在構(gòu)建知識(shí)庫的過程中, 為了實(shí)現(xiàn)知識(shí)融合, 需要對(duì)各個(gè)異構(gòu)的知識(shí)庫進(jìn)行大規(guī)模的實(shí)體匹配。隨著實(shí)體匹配方面的國際性競(jìng)賽(OAEI)不斷舉行, 涌現(xiàn)出越來越多的實(shí)體匹配算法。PARIS[6], SIGMA[7]和RiMOM[8]是比較有代表性的算法, 都采用基于圖的相似度傳播(Similarity Flooding[9])思想, 能夠充分利用數(shù)據(jù)的結(jié)構(gòu)化進(jìn)行實(shí)體匹配。在跨語言實(shí)體匹配方面, 基于通用算法, 克服了實(shí)體相似度計(jì)算中的語言障礙。文獻(xiàn)[10]通過中文維基頁面, 建立英文維基與百度百科之間聯(lián)系, 并提出基于因子圖的知識(shí)鏈接方法, 取得非常好的效果。
2 雙語影視知識(shí)圖譜的構(gòu)建流程
BMKG構(gòu)建的基本流程包括5個(gè)步驟, 如圖1所示。
1)本體構(gòu)建: 通過復(fù)用現(xiàn)有的知識(shí)本體, 半自動(dòng)化構(gòu)建雙語影視本體。
2)語義信息抽取: 從數(shù)據(jù)源中抽取結(jié)構(gòu)化影視知識(shí), 并在語義上對(duì)齊到雙語影視本體。
3)對(duì)象型屬性實(shí)體鏈接: 針對(duì)知識(shí)庫中對(duì)象型屬性值, 進(jìn)行命名實(shí)體識(shí)別和實(shí)體鏈接工作。
4)實(shí)體匹配: 在異構(gòu)數(shù)據(jù)源之間進(jìn)行實(shí)體匹配, 實(shí)現(xiàn)不同數(shù)據(jù)源的知識(shí)融合。
5)雙語知識(shí)圖譜共享平臺(tái): 雙語影視知識(shí)庫的可視化應(yīng)用平臺(tái), 實(shí)現(xiàn)數(shù)據(jù)可視化和查詢功能。
2.1 數(shù)據(jù)源
BMKG選擇數(shù)據(jù)源的標(biāo)準(zhǔn): 影視數(shù)據(jù)源的規(guī)模和質(zhì)量、數(shù)據(jù)的獲取難度、數(shù)據(jù)源是否保持更新。因此, 我們主要從如下數(shù)據(jù)源抽取影視知識(shí):
1)豆瓣電影是當(dāng)前最著名的中文影視評(píng)論網(wǎng)站之一, 提供最新的影視介紹以及評(píng)論信息, 并且提供開放性的數(shù)據(jù)訪問接口。其數(shù)據(jù)具有結(jié)構(gòu)化、鏈接豐富、語義一致性好的優(yōu)點(diǎn)。目前我們獲取了127406個(gè)影視作品, 70534個(gè)影視人, 但信息內(nèi)容相對(duì)簡(jiǎn)單, 同時(shí)也缺乏豐富的影視屬性描述。
2)百度百科是當(dāng)前最大的中文百科全書。近幾年來, 百度百科數(shù)據(jù), 尤其是在影視信息方面, 無論規(guī)模還是質(zhì)量都有顯著的改進(jìn), 影視信息較為豐富, 可以作為豆瓣影視數(shù)據(jù)的有效補(bǔ)充。我們抽取了69861個(gè)影視實(shí)例, 42012個(gè)影視人。然而, 由于是基于人工編輯的半結(jié)構(gòu)化文本, 且不同時(shí)期編輯的網(wǎng)頁數(shù)據(jù)質(zhì)量差異很大, 所以給語義信息抽取工作帶來一定的挑戰(zhàn)。
3)LinkedMdb是一個(gè)開放性、高質(zhì)量的英文影視知識(shí)庫, 它從IMDB, Freebase, DBpedia等數(shù)據(jù)源抽取知識(shí), 包含85620部影視作品、107768位影視人、6148121個(gè)三元組、162199個(gè)內(nèi)部鏈接以及541810個(gè)外部網(wǎng)頁鏈接。遺憾的是, 該知識(shí)庫自2010年2月后不再更新。
4)DBpedia (Wikipedia) Movies是結(jié)構(gòu)化的維基百科RDF數(shù)據(jù), 包括10多萬部影視作品、10多萬影視人以及大量鏈接信息, 其數(shù)據(jù)質(zhì)量類似百度百科, 是LinkedMdb的有效補(bǔ)充。
5)Freebase是共享的全球性知識(shí)圖譜, Film/TV等影視類數(shù)據(jù)是其重要的組成部分。截至2015年5月, 有超過40萬的影視作品以及數(shù)百萬影視相關(guān)實(shí)體信息。與其他知識(shí)庫相比, Freebase提供了更詳細(xì)的影視數(shù)據(jù), 其概念和屬性也頗為豐富。但是, 2014年之后, Freebase不再提供完整的RDF數(shù)據(jù)集下載。
2.2 雙語影視本體構(gòu)建
本體構(gòu)建是對(duì)概念本身以及概念與概念之間關(guān)系進(jìn)行形式化描述, 一般包含本體需求分析、考察可復(fù)用本體、建立領(lǐng)域核心概念、建立概念分類層次、定義類和創(chuàng)建屬性以及本體評(píng)價(jià)和進(jìn)化6個(gè)步驟[11]。針對(duì)不同的領(lǐng)域和不同實(shí)際需求, 本體構(gòu)建方法也有所不同。我們研究了當(dāng)前多語言影視領(lǐng)域本體實(shí)際情況, 給出雙語影視本體的構(gòu)建思路。
2.2.1 復(fù)用已有本體, 建立概念結(jié)構(gòu)體系
當(dāng)前已有許多成熟的影視本體, 如國際上比較權(quán)威的MO和Freebase Film。MO采用以影視作品為中心的平行概念結(jié)構(gòu), 主要定義了作品、人物、體裁和地區(qū)等概念, 其中以體裁和地區(qū)最為詳細(xì), 具有3~4層的分類層次, 但概念的涵蓋面較小, 語義粒度較大。Freebase Film的概念描述體系較為復(fù)雜, 涵蓋影視信息的各個(gè)方面, 涉及概念非常多, 語義粒度也較細(xì), 但我們實(shí)際上很難獲取到如此詳盡的影視信息。
在概念層次結(jié)構(gòu)上, 上述本體都是以影視作品和影視人為核心的扁平化概念層次結(jié)構(gòu)。我們復(fù)用這種概念體系結(jié)構(gòu), 但在概念粒度的選取上, 采用契合本地?cái)?shù)據(jù)源的最小粒度方案。以“公司”為例, 根據(jù)Freebase Film的分類可以進(jìn)一步分為制片公司、發(fā)行公司兩個(gè)類, 但實(shí)際上所采用的數(shù)據(jù)源中僅百度百科有部分“公司”相關(guān)數(shù)據(jù), 且信息量較少, 無法支持更細(xì)粒度的概念分類, 因此放棄使用這兩個(gè)子分類。當(dāng)然, 如果數(shù)據(jù)能夠有效支持上述兩個(gè)分類, 我們會(huì)盡量在更細(xì)的概念粒度上進(jìn)行描述。
在核心詞匯的選取上, 我們盡量使用標(biāo)準(zhǔn)影視詞匯集: 英文詞匯方面, 主要從上述本體中進(jìn)行抽取; 中文詞匯方面, 我們根據(jù)考查詞匯在當(dāng)前大型影視網(wǎng)站的流行度, 選取流行度最高的詞匯集。最后手工對(duì)齊中英文的影視詞匯, 構(gòu)建雙語核心影視詞匯集。
2.2.2 建立多元影視屬性描述結(jié)構(gòu)
在影視數(shù)據(jù)中, 一些屬性有多元信息的描述需求, 比如演員表屬性要分別描述演員名、演員id及角色等多種信息, 通常的三元組無法同時(shí)進(jìn)行描述, 因此本文引入中間節(jié)點(diǎn)(匿名節(jié)點(diǎn))來承接這些多元信息。
有些屬性描述是一個(gè)列表, 但有時(shí)節(jié)點(diǎn)在列表中的順序被認(rèn)為是重要的, 如演員表通常有多個(gè)演員, 但主演應(yīng)該排在更前面的位置, 因此本文引入有序節(jié)點(diǎn)。它是匿名節(jié)點(diǎn)的一種, 區(qū)別是添加了一個(gè)額外的屬性來標(biāo)記節(jié)點(diǎn)的順序。表2是用有序列表來描述演員表屬性的示例。
表2 匿名節(jié)點(diǎn)實(shí)例
說明: bmkg_blanknode:10是匿名節(jié)點(diǎn)id, 描述的是影片“中國合伙人”中的主演黃曉明的信息, 加粗的一行表明其排在演員表的第1位。
根據(jù)觀察, 絕大部分影視數(shù)據(jù)(例如演員屬性)的內(nèi)容文本的編輯順序基本上表現(xiàn)了實(shí)體的重要性, 因此本文節(jié)點(diǎn)的順序主要依據(jù)字符串或表格中實(shí)體出現(xiàn)的先后順序進(jìn)行確定。
現(xiàn)階段的雙語影視本體, 共建立了23個(gè)概念和91個(gè)屬性, 由于篇幅原因, 本研究所構(gòu)建的雙語影視本體將在影視共享網(wǎng)站平臺(tái)①上給出。
2.3 影視結(jié)構(gòu)化知識(shí)抽取
影視結(jié)構(gòu)化知識(shí)抽取是從各異構(gòu)數(shù)據(jù)源抽取影視知識(shí), 并對(duì)各種格式的數(shù)據(jù)進(jìn)行分析, 統(tǒng)一語義、統(tǒng)一結(jié)構(gòu)的過程, 大致包括如下5個(gè)模塊。
1)網(wǎng)頁解析。該模塊主要是網(wǎng)頁模式的分析以及網(wǎng)頁中表格信息的抽取。其中, 采用基于樹編輯距離的自適應(yīng)學(xué)習(xí)方法[12], 可以有效提升表格抽取的效率, 有效抽取大部分模式的表格數(shù)據(jù)。
2)影視信息抽取。主要任務(wù)是從百科類數(shù)據(jù)源中篩選出影視信息。影視詞匯的詞頻和共現(xiàn)率都很高, 基于關(guān)鍵字過濾的方法能有效地抽取大部分影視數(shù)據(jù)。此外, 利用文獻(xiàn)[13]提出的基于智能結(jié)構(gòu)化感知的實(shí)體抽取技術(shù), 能夠充分感知數(shù)據(jù)中結(jié)構(gòu)化知識(shí), 進(jìn)一步地迭代抽取所需類別實(shí)體。
3)屬性對(duì)齊。該過程的主要任務(wù)是統(tǒng)一異構(gòu)數(shù)源中屬性描述詞匯。雙語影視本體的概念和屬性很少, 對(duì)屬性進(jìn)行頻度統(tǒng)計(jì), 發(fā)現(xiàn)屬性描述信息是一個(gè)長尾分布, 常用的屬性名非常少, 因此, 可以花費(fèi)非常小的代價(jià), 人為構(gòu)建同義詞映射表實(shí)現(xiàn)屬性對(duì)齊, 確保不同數(shù)據(jù)源語義對(duì)齊方面的正確性。
4)屬性值處理。對(duì)屬性值中的長文本進(jìn)行初始分割, 主要任務(wù)是識(shí)別文本中的詞匯語義邊界(如標(biāo)點(diǎn)符號(hào)、空格、超鏈接、不同語言單詞的交界等), 將文本分割為更小粒度的文本塊, 以減少后續(xù)命名實(shí)體識(shí)別的難度。
5)實(shí)體類別識(shí)別。公開的影視數(shù)據(jù)集依賴于群體編輯, 存在多種不同的概念層次結(jié)構(gòu), 且概念語義粒度不一致, 上下位關(guān)系紊亂, 甚至?xí)a(chǎn)生歧義。該步驟的目的是通過基于文本規(guī)則的方法, 初步確定實(shí)體類別, 例如, 百科頁面中“劉德華”可以通過職業(yè)屬性判斷他屬于演員、制片人等類別。在后續(xù)大規(guī)模實(shí)體匹配基礎(chǔ)上, 通過知識(shí)互補(bǔ)以及相應(yīng)的推理機(jī)制, 進(jìn)一步完善實(shí)體的類別信息。
經(jīng)過上述5個(gè)步驟后, 源數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化JSON格式數(shù)據(jù)。
2.4 對(duì)象型屬性實(shí)體鏈接
對(duì)象型屬性即取值范圍, 指定類型實(shí)體的屬性。如演員表屬性, 其值是演員實(shí)體列表。命名實(shí)體通常指人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識(shí)的實(shí)體。對(duì)象型屬性實(shí)體鏈接工作的任務(wù)是將對(duì)象型屬性值中未標(biāo)注的命名實(shí)體識(shí)別出來, 并建立其到相應(yīng)實(shí)體的知識(shí)鏈接。
2.4.1 屬性值命名實(shí)體識(shí)別
命名實(shí)體識(shí)別過程通常包括兩部分: 確定實(shí)體類別實(shí)和體邊界識(shí)別。對(duì)于前者, 根據(jù)屬性取值范圍已經(jīng)基本上確定了實(shí)體類別。對(duì)于后者, 英文的命名實(shí)體之間幾乎都有明顯的標(biāo)識(shí), 比較容易識(shí)別, 因此本研究主要針對(duì)中文命名實(shí)體邊界的識(shí)別。
結(jié)構(gòu)化好的數(shù)據(jù)源(如豆瓣), 其對(duì)象型屬性值中命名實(shí)體已經(jīng)基本上標(biāo)注出來。半結(jié)構(gòu)化數(shù)據(jù)源(如百度百科), 許多命名實(shí)體并沒有進(jìn)行標(biāo)注, 屬性值大多以文本形式存在, 主要有3種情況: 1)含有超鏈接信息的文本, 即文本中將實(shí)體信息以超鏈接形式出現(xiàn); 2)有明顯語義標(biāo)記的文本, 命名實(shí)體之間用一致的標(biāo)點(diǎn)符號(hào)分隔, 且沒有歧義; 3)沒有明顯語義邊界的長文本, 命名實(shí)體之間沒有分隔符, 或使用如空格、“-”等有歧義的分隔符。對(duì)于前兩種情況, 在語義信息抽取的屬性值處理過程已經(jīng)處理過, 因此我們主要對(duì)第3種情形進(jìn)行處理。
我們選用ansj②作為中文分詞工具。ansj是基于條件隨機(jī)場(chǎng)和Google語義模型的開源工具, 在分詞正確率以及分詞速率方面有非常好的表現(xiàn)。中文分詞工具通常也帶有命名實(shí)體識(shí)別功能, 但一般僅能識(shí)別人名、地名、機(jī)構(gòu)名等通用類別的實(shí)體, 且對(duì)合成詞的識(shí)別效果不好。我們通過詞典來改進(jìn)命名實(shí)體識(shí)別的效果。一方面, 結(jié)合我們收集和整理的大規(guī)模通用細(xì)胞詞庫, 能夠大大提高分詞的正確率, 并增大分詞的粒度。另一方面, 在分詞序列的基礎(chǔ)上, 利用影視領(lǐng)域詞表進(jìn)行最大詞塊匹配, 能夠充分識(shí)別已登錄的合成詞, 提升命名實(shí)體識(shí)別的效果。
2.4.2 實(shí)體鏈接
實(shí)體鏈接的核心是計(jì)算命名實(shí)體和候選實(shí)體的相似度。選擇相似度最大的候選實(shí)體作為鏈接的目標(biāo)實(shí)體[14], 選擇合適的文本語義特征來計(jì)算實(shí)體相似度是實(shí)體鏈接的關(guān)鍵性問題。文獻(xiàn)[15]是在維基百科數(shù)據(jù)集上的知識(shí)鏈接補(bǔ)全工作, 采用文檔中豐富的出入鏈信息作為基本元素來計(jì)算文檔相似度, 在此基礎(chǔ)上, 通過加權(quán)的7個(gè)文本語義特征來計(jì)算實(shí)體的語義相似度。
本文借鑒上述加權(quán)思想, 并根據(jù)實(shí)際情況做一些改進(jìn): 一是百度百科的鏈接質(zhì)量不高, 基于出入鏈的文檔相似度計(jì)算方法不再適合, 需要重新定義; 二是考慮到影視領(lǐng)域特征, 重新提煉文本特征計(jì)算實(shí)體相似度。
定義1 文檔相似度。我們采用基于向量空間文檔相似度的計(jì)算方法, 將文檔表示為兩種向量形式: 一種是TF-IDF向量, 標(biāo)記為t;另一種是Word2Vec向量, 標(biāo)記為w。w是通過整個(gè)百度百科語料庫學(xué)習(xí)得出Word2Vec[16]詞向量, 然后計(jì)算文檔中詞向量的平均值而得到。給定百度百科中兩個(gè)實(shí)體文檔, 根據(jù)不同的文檔向量表示方式, 文檔相似度定義如下:
其中,t(),t(),w(),w()分別為實(shí)體和的TF-IDF和Word2Vec向量。
定義2 語義相似度。假設(shè)是一個(gè)實(shí)體集合, 實(shí)體與之間的語義相似度定義為
定義3 實(shí)體相似度。文檔對(duì)應(yīng)的實(shí)體記為, 詞匯全集記為text,是屬性中某一命名實(shí)體,的屬性名領(lǐng)域詞集記為attr_name(), 屬性值領(lǐng)域詞集為attr_value(), 影視領(lǐng)域詞匯全集為domain, 相應(yīng)的向量分別記為attr_name(),attr_value()和domain, 正文和屬性框的出鏈實(shí)體集合分別為article和infobox, 頁面入鏈集合為all,是的候選實(shí)體。如表3所示, 定義7個(gè)特征相似度, 有兩種文檔向量形式, 計(jì)算可得到14個(gè)特征相似度。實(shí)體相似度定義如下:
其中, 特征權(quán)重值可以通過logistic線性回歸模型進(jìn)行學(xué)習(xí)。采用十折校驗(yàn)法進(jìn)行評(píng)測(cè), 當(dāng)僅用TF-IDF向量計(jì)算7個(gè)特征時(shí), 模型正確率為82.1%, 僅用Word2Vec向量時(shí)為78.2%, 使用全部特征時(shí), 正確率提高到88.2%。
表3 特征相似度
通過建立相似度閾值、關(guān)鍵詞過濾、時(shí)間過濾等規(guī)則, 對(duì)模型結(jié)果進(jìn)行修正, 進(jìn)一步提高結(jié)果的正確性。采用基于隨機(jī)采樣的人工評(píng)測(cè)法進(jìn)行估算, 鏈接的平均正確率在95%以上。
2.5 大規(guī)模實(shí)體匹配
為了實(shí)現(xiàn)不同語言異構(gòu)影視數(shù)據(jù)源的知識(shí)復(fù)用和融合, 我們結(jié)合影視領(lǐng)域的實(shí)際情況, 研究基于SF的實(shí)體匹配算法, 在中英文數(shù)據(jù)源之間進(jìn)行大規(guī)模實(shí)體匹配工作。
2.5.1 基于Similarity Flooding的實(shí)體匹配算法
近年來出現(xiàn)的比較優(yōu)秀的大規(guī)模實(shí)體匹配算法大都借鑒了SF算法[9]的核心思想, 并且在各自的應(yīng)用場(chǎng)景中取得不錯(cuò)的效果。如圖2所示, SF算法以兩個(gè)圖作為輸入, 輸出對(duì)應(yīng)結(jié)點(diǎn)的映射。SF算法的主要思想是將兩個(gè)元素相似性的部分傳播給其在圖中各自的鄰居, 這種傳播方式類似于IP廣播。
文獻(xiàn)[9]中, SF是在小規(guī)模的異構(gòu)本體schema數(shù)據(jù)集上實(shí)現(xiàn)的。根據(jù)相似度傳播圖的構(gòu)建方法, 圖規(guī)模會(huì)隨節(jié)點(diǎn)數(shù)量呈幾何倍數(shù)增長。從表4的統(tǒng)計(jì)數(shù)據(jù)可以看出, 影視作品和影視人之和皆在10萬以上, 按照原有算法, 相似度傳播圖將達(dá)到100億的規(guī)模, 計(jì)算量非??捎^, 所以必須減小圖的規(guī)模, 算法才具有可行性。
表4 實(shí)體統(tǒng)計(jì)表
在實(shí)際構(gòu)圖過程中, 預(yù)先對(duì)實(shí)體對(duì)進(jìn)行剪枝, 具體步驟: 1)排除不同類別的實(shí)體對(duì); 2)排除不同上映年份的影視作品實(shí)體對(duì)和不同出生年份的影視人物實(shí)體對(duì); 3)計(jì)算候選實(shí)體對(duì)的相似度, 剔除相似度低于一定閾值的實(shí)體對(duì)。剪枝之后, 相似度傳播圖中的節(jié)點(diǎn)數(shù)量下降到300萬左右, 大大減少了算法的計(jì)算量。
除選擇合適的匹配框架外, 如何提煉數(shù)據(jù)中合適的內(nèi)容特征和結(jié)構(gòu)特征來計(jì)算實(shí)體之間的相似度, 使相似度能夠具有足夠大的區(qū)分度, 也是實(shí)體匹配任務(wù)的關(guān)鍵性問題。
2.5.2 實(shí)體相似度
實(shí)體的相似度主要考慮兩個(gè)問題: 實(shí)體主題詞相似度(代表實(shí)體的標(biāo)題信息)和屬性相似度(代表實(shí)體的結(jié)構(gòu)化信息)。
1)實(shí)體主題詞相似度。
實(shí)體的主題詞, 又稱為實(shí)體標(biāo)題詞、標(biāo)簽詞, 是表達(dá)實(shí)體的核心詞匯。除標(biāo)題詞外, 影視實(shí)體通常還有一些別名, 例如, 影片“中國合伙人”的主題詞和別名如表5所示。
表5 影片主題詞示例
歸并實(shí)體別名、同義詞匯構(gòu)成主題詞集, 以詞集之間的相似度代替標(biāo)題詞相似度, 能夠顯著提高實(shí)體匹配的召回率。主題詞相似度定義如下:
2)屬性相似度。
不同類別屬性的相似度公式也不一樣, 通常有以下幾種情況。
① 二值型:
②字符串型:
③數(shù)值型:
④列表型: 如演員表、代表作品等屬性, 其屬性值通常是由多個(gè)實(shí)體組成的列表, 相似度定義為
3)實(shí)體相似度。
綜上所述, 我們定義實(shí)體相似度為
2.5.3 跨語言實(shí)體匹配
對(duì)于相同語言的知識(shí)庫(如豆瓣和百度百科), 可以直接采用基于SF的匹配算法。對(duì)于跨語言實(shí)體匹配而言, 關(guān)鍵在于建立不同語言實(shí)體之間的聯(lián)系, 克服相似度計(jì)算的語言障礙。文獻(xiàn)[10]以中文維基為橋梁, 基于維基百科頁面中的多語言等價(jià)鏈接信息以及頁面出入鏈信息計(jì)算相似度, 繞過了不同語言文本之間相似度的計(jì)算。
與文獻(xiàn)[10]相同, 通過影視數(shù)據(jù)源中普遍存在的IMDB鏈接, 可以得到大量的等價(jià)實(shí)體。IMDB鏈接具有全球唯一性, 具有相同IMDB鏈接的實(shí)體是等價(jià)的, 統(tǒng)計(jì)數(shù)據(jù)如表6所示。不同之處在于, 我們所匹配的知識(shí)庫是異構(gòu)的, 頁面的內(nèi)部鏈接不具有共指性, 不能采用基于頁面出入鏈的方法來計(jì)算相似度。但是, 豆瓣和百度百科提供了大量的英文別名信息, 如表7所示。雙語詞對(duì)的平均覆蓋率在60%以上, 基于這些信息構(gòu)建大規(guī)模雙語映射詞典, 可以將部分命名實(shí)體映射為統(tǒng)一語言的文本。
表6 IMDB鏈接統(tǒng)計(jì)
表7 雙語詞對(duì)統(tǒng)計(jì)表
事實(shí)上, 在影視領(lǐng)域中, 由于知識(shí)結(jié)構(gòu)簡(jiǎn)單一致、信息量豐富。要判斷兩個(gè)實(shí)體是否相似, 只需要使用實(shí)例的一部分信息即可。如判斷兩部電影是否相似, 只要匹配影片名、年份、演員、導(dǎo)演、編劇、制片人等信息中的3~4個(gè), 其正確率都在95%以上。鑒于這種領(lǐng)域特點(diǎn), 即便只有六成多命名實(shí)體對(duì)覆蓋率, 基于部分文本相似度計(jì)算公式也有非常大的區(qū)分度。另外, 我們還從其他(如Wikipedia, Freebase等)知識(shí)庫中抽取更多的雙語詞對(duì)來提升映射詞典的覆蓋率, 盡量避免由詞典覆蓋率不足帶來的相似度矩陣稀疏性問題。利用這種部分映射的方法, 解決了跨語言實(shí)體相似度計(jì)算問題后, 其他步驟與同語言實(shí)體匹配相同。
我們?cè)谏鲜?個(gè)知識(shí)庫之間進(jìn)行實(shí)體匹配, 首先是同種語言數(shù)據(jù)源的實(shí)體匹配, 然后根據(jù)匹配的實(shí)體進(jìn)行數(shù)據(jù)源合并, 最后將合并后的中英文數(shù)據(jù)源進(jìn)行實(shí)體匹配。考慮實(shí)際數(shù)據(jù)情況, 實(shí)驗(yàn)僅對(duì)知識(shí)庫中主要實(shí)體進(jìn)行匹配, 統(tǒng)計(jì)數(shù)據(jù)如表4所示。
在以上4個(gè)異構(gòu)數(shù)據(jù)源之間, 我們進(jìn)行3次不同的實(shí)體匹配: 1)百度百科與豆瓣電影之間的中文實(shí)體匹配; 2)LinkedMdb和DBpedia之間的英文實(shí)體匹配; 3)在前面兩步基礎(chǔ)上, 合并中英文數(shù)據(jù)集之間的跨語言實(shí)體匹配。
為了分析SF傳播算法的性能, 分別使用傳播前后的實(shí)體相似度作為標(biāo)準(zhǔn), 考察不同閾值下的實(shí)體匹配結(jié)果。由于數(shù)據(jù)規(guī)模較大, 且難以確定標(biāo)準(zhǔn)的數(shù)據(jù)集, 所以采用隨機(jī)抽樣的人工評(píng)估方法。匹配結(jié)果如表8所示。
表8 實(shí)體匹配結(jié)果
從表8可以發(fā)現(xiàn)以下幾點(diǎn)。
1)閾值對(duì)結(jié)果的正確率和正確匹配的數(shù)量影響很大。當(dāng)閾值為0.9時(shí), 正確率很好, 但是匹配數(shù)很少; 當(dāng)閾值取0.6時(shí), 匹配數(shù)量大幅增加, 而正確率卻下降很快。
2)使用SF傳播算法后, 匹配的正確率有了顯著的提升。這是因?yàn)閭鞑ニ惴軌蛴行У亟档湾e(cuò)誤匹配實(shí)例的相似度。例如, 電影實(shí)體銀行與The Champion間的相似度高達(dá)0.8255, 這是因?yàn)槎呔鶠樽縿e林于1915年導(dǎo)演的電影, 進(jìn)行3次SF算法迭代后, 相似度降低到0.6564。
3)SF傳播算法的召回率有所降低。由于相似度傳播圖的稀疏性(即節(jié)點(diǎn)的平均入度較小, 導(dǎo)致部分節(jié)點(diǎn)的相似度無法得到充分傳播), 會(huì)降低部分正確匹配實(shí)體對(duì)的相似度, 使召回率有所降低。
另外, 隨著迭代次數(shù)的增多, 引入錯(cuò)誤的影響會(huì)隨著相似度的傳播而不斷放大。因此, 選擇合適的迭代次數(shù), 對(duì)結(jié)果影響也比較大。
3 雙語影視知識(shí)圖譜共享平臺(tái)
知識(shí)圖譜是利用信息可視化技術(shù)構(gòu)建的一種知識(shí)之間的關(guān)系網(wǎng)絡(luò)圖。我們建立了知識(shí)圖譜共享平臺(tái), 目的是為了在概念、屬性、實(shí)例等多個(gè)維度對(duì)BMKG進(jìn)行展示, 并將實(shí)體之間的相互鏈接關(guān)系以可視化的形式表現(xiàn)出來。網(wǎng)站基于Apache開源框架進(jìn)行開發(fā), 并采用Virtuoso作為數(shù)據(jù)庫服務(wù)器, 主要提供三方面的功能: 1)雙語影視本體的基本信息, 提供知識(shí)Schema和知識(shí)庫的統(tǒng)計(jì)信息; 2)數(shù)據(jù)查詢接口, 包括SPARQL終端查詢接口、分類索引查詢接口以及復(fù)合查詢接口; 3)知識(shí)網(wǎng)絡(luò)的可視化, 將實(shí)體之間鏈接關(guān)系以可視化的方式展現(xiàn)出來。
4 結(jié)論
本文提出一種融合多個(gè)異構(gòu)數(shù)據(jù)源的雙語影視知識(shí)圖譜的構(gòu)建流程, 并對(duì)整個(gè)過程中所遇到主要問題和挑戰(zhàn)以及解決方法加以描述, 旨在構(gòu)建語義一致、結(jié)構(gòu)一致的中英文雙語影視本體知識(shí)庫。
首先, 我們構(gòu)建了雙語影視本體BMO, 為中英文影視知識(shí)的提供一個(gè)規(guī)范性的描述框架, 并通過5個(gè)影視結(jié)構(gòu)化抽取過程, 統(tǒng)一了各個(gè)數(shù)據(jù)源語義描述。在實(shí)體鏈接問題上, 我們總結(jié)了多種屬性相似度的計(jì)算方法, 并基于兩種不同向量模型來表示文檔向量, 使實(shí)體的相似度特征增加一倍, 顯著提升了實(shí)體鏈接的效果。在大規(guī)模實(shí)體匹配方面, 我們利用簡(jiǎn)單的相似度傳播模型進(jìn)行大規(guī)模的實(shí)體匹配, 實(shí)驗(yàn)結(jié)果表明, 對(duì)于結(jié)構(gòu)化較好的影視知識(shí), 使用傳統(tǒng)的相似度傳播算法模型, 能夠取得非常好的效果。另外, 我們利用數(shù)據(jù)源中存在的影視中英文別名關(guān)系, 構(gòu)建不同語言同義詞之間的映射對(duì), 克服了計(jì)算實(shí)體之間相似度上的語言障礙, 實(shí)現(xiàn)了跨語言實(shí)體匹配。當(dāng)然, 由于所采用數(shù)據(jù)源的限制, BMKG能夠建立的影視知識(shí)屬性和概念還比較少, 影視知識(shí)的描述也不夠豐富, 這在一定程度上影響了實(shí)體鏈接和實(shí)體匹配的效果。大規(guī)模實(shí)體鏈接和實(shí)體匹配技術(shù)都是非常具有挑戰(zhàn)性的工作, 如何充分利用知識(shí)庫中的知識(shí), 改進(jìn)模型的效果, 是未來需要研究的課題。
事實(shí)上, 構(gòu)建本體知識(shí)庫是一項(xiàng)長期性的、系統(tǒng)性的復(fù)雜工作, 需要不斷改進(jìn)和完善。BMKG有待改進(jìn)的地方還很多, 比如尋求質(zhì)量更好的中英文影視知識(shí)源來擴(kuò)展知識(shí)庫; 建立更多種類的鏈接關(guān)系(例如人物的合作者關(guān)系、影視系列關(guān)系等), 解決不同數(shù)據(jù)源之間知識(shí)沖突; 建立知識(shí)庫的自動(dòng)更新機(jī)制; 增加影視評(píng)論知識(shí)等等。本體知識(shí)庫的構(gòu)建沒有一個(gè)通用的構(gòu)建流程, 本文提出的方法對(duì)需要融合多個(gè)數(shù)據(jù)源的領(lǐng)域本體知識(shí)庫的構(gòu)建以及在限定領(lǐng)域中進(jìn)行大規(guī)模實(shí)體鏈接和實(shí)體匹配具有一定借鑒意義。
總體來說, BMKG是融合了4個(gè)異構(gòu)優(yōu)質(zhì)的影視數(shù)據(jù)源的高質(zhì)量RDF影視本體知識(shí)庫, 填補(bǔ)了國內(nèi)在中文影視本體知識(shí)庫方面的空白。該知識(shí)庫為影視信息的挖掘和利用提供重要的語料基礎(chǔ), 同時(shí), 對(duì)擴(kuò)大中文影視信息的國際化影響也具有重要意義。
[1]Miller G A. WordNet: a lexical database for English. Communications of the ACM, 1995, 38(11): 39–41
[2]Hassanzadeh O, Consens M. Linked movie data base // Proceedings of the 2nd Workshop on Linked Data on the Web (LDOW2009). Madrid, 2009: 1–5
[3]宣騰. 區(qū)域醫(yī)療本體知識(shí)庫構(gòu)建及其語義應(yīng)用[D]. 成都: 電子科技大學(xué), 2013
[4]趙小兵, 邱莉榕, 趙鐵軍, 等. 多民族語言本體知識(shí)庫構(gòu)建技術(shù). 中文信息學(xué)報(bào), 2011, 25(4): 71–74
[5]Lehmann J, Robert I, Max J, et al. Dbpedia—a large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web Journal, 2014, 5: 1–29
[6]Suchanek, Fabian M, Serge A, et al. Paris: probabilistic alignment of relations, instances, and schema. Proceedings of the VLDB Endowment, 2011, 5(3): 157–168
[7]Lacoste J S, Palla K, Davies A, et al. Sigma: simple greedy matching for aligning large knowledge bases // Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Chicago, 2013: 572–580
[8]Li Juanzi, Jie Tang, Yi Li, et al. Rimom: a dynamic multistrategy ontology alignment framework. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(8): 1218–1232
[9]Melnik S, Hector G M, Erhard R. Similarity flooding: a versatile graph matching algorithm and its application to schema matching // Proceedings of 18th International Conference on Data Engineering. San Jose, 2002: 117–128
[10]Wang Zhichun, Li Juanzi, Wang Zhigang, et al. Cross-lingual knowledge linking across wiki knowledge bases // Proceeding of the 21st International Confe-rence on World Wide Web. New York, 2012: 459–468
[11]張文秀, 朱慶華. 領(lǐng)域本體的構(gòu)建方法研究. 圖書與情報(bào), 2011(1): 16–20
[12]劉穎. 基于Web結(jié)構(gòu)的表格信息抽取研究[D]. 合肥: 合肥工業(yè)大學(xué), 2012
[13]曾道建, 來斯惟, 張?jiān)? 等. 面向非結(jié)構(gòu)化文本的開放式實(shí)體屬性抽取. 江西師范大學(xué)學(xué)報(bào): 自然科學(xué)版, 2013, 37(3): 279–283
[14]趙軍, 劉康, 周光有, 等. 開放式文本信息抽取. 中文信息學(xué)報(bào), 2011, 25(6): 98–110
[15]Xu Mengling, Wang Zhichun, Bie Rongfang, et al. Discovering missing semantic relations between entities in Wikipedia // The Semantic Web—ISWC 2013. Berlin, 2013: 673–686
[16]Mikolov T, Kai C, Greg C, et al. Efficient estimation of word representations in vector space [J/OL]. (2013-09-07)[2015–05-04]. http://arxiv.org/pdf/1301. 3781.pdf
Research on the Construction of Bilingual Movie Knowledge Graph
WANG Weiwei,WANG Zhigang?,PAN Liangming, LIU Yang, ZHANG Jiangtao
Knowledge Engineering Group, Department of Computer Science and Technology, Tsinghua University, Beijing 100084; ?Corresponding author, E-mail: wangzigo@gmail.com
This paper proposes a method to construct Bilingual Movie Knowledge Graph (BMKG). The authors first builds Bilingual Movie Ontology (BMO) through a semi-automatic way, and aligns each data source with it in order to ensure semantic consistency of heterogeneous data sources. For entity linking, the proposed method makes best use of the field characteristics and calculate entity similarity based on both Word2Vec and TFIDF models, which greatly improve entity linking. For entity matching, a similarity flooding based algorithm is proposed, which utilizes the intrinsic links between the movie data sources, addressing the problem of similarity computation between cross-lingual entities. The experiment results show that the entity matching precision is over 90% when the threshold is above 0.75. In addition, a movie knowledge graph sharing platform is also built to provide open data access and query interface.
movie ontology; bilingual; knowledge graph
10.13209/j.0479-8023.2016.022
TP391
2015-06-06;
2015-08-17; 網(wǎng)絡(luò)出版日期: 2015-09-29
國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(2014CB340504)、國家自然科學(xué)基金委員會(huì)與法國國家科研署雙邊合作協(xié)議(61261130588)、清華大學(xué)自主科研項(xiàng)目(20131089256)、國家科技支撐計(jì)劃(2014BAK04B00)和THU-NUS下一代搜索聯(lián)合研究中心項(xiàng)目資助
①http://www.movieontology.org/
② http://www.keenage.com/
① http://166.111.68.66:10080/KegMovieKB/KegMovie_Index.html
② https://github.com/ansjsun/ansj_seg/