李 陽,高大啟
(華東理工大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200237)
知識(shí)圖譜中實(shí)體相似度計(jì)算研究
李 陽,高大啟
(華東理工大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200237)
實(shí)體相似度的計(jì)算有諸多應(yīng)用,例如,電商平臺(tái)的相似商品推薦,醫(yī)療療效分析中的相似病人組等。在知識(shí)圖譜的實(shí)體相似度計(jì)算中,給出了每個(gè)實(shí)體的屬性值,并對(duì)部分實(shí)體進(jìn)行相似度的標(biāo)注,要求能得到其他實(shí)體之間的相似度。該文把該問題歸結(jié)為監(jiān)督學(xué)習(xí)問題,提出一種通用的實(shí)體相似度計(jì)算方法,通過清洗噪聲數(shù)據(jù),對(duì)數(shù)值、列表以及文本等不同數(shù)據(jù)類型進(jìn)行預(yù)處理,使用SVM,Logistic回歸等分類模型、Random Forest等集成學(xué)習(xí)模型以及排序?qū)W習(xí)模型進(jìn)行建模,得到了較好的結(jié)果。
實(shí)體相似度;監(jiān)督學(xué)習(xí);分類模型;集成學(xué)習(xí)
知識(shí)圖譜(knowledge graph)是目前非常熱門的研究領(lǐng)域。它本質(zhì)上是一種語義網(wǎng)絡(luò),其結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體/概念之間的各種語義關(guān)系。對(duì)于一個(gè)包含眾多實(shí)體的知識(shí)庫,我們除了關(guān)注實(shí)體本身的信息外,還需要關(guān)注實(shí)體與實(shí)體之間的關(guān)聯(lián)信息。其中面臨的一個(gè)問題就是:給定兩個(gè)實(shí)體,如何判斷它們之間是否相似,以及相似的程度有多高。
實(shí)體間的相似是指實(shí)體之間在深層語義上的相似,而非只關(guān)注表層信息的傳統(tǒng)相似度。例如,“劉德華”和“張學(xué)友”都是香港歌手,他們之間有很多共同屬性;相對(duì)的,“劉德華”和“馬德華”雖然在名字上很相似,但他們之間卻沒有太多屬性共性,所以 “張學(xué)友”比“馬德華”對(duì)于“劉德華”來說更相似。同樣的,“相宜本草”和“佰草集”都是化妝品品牌,所以它們之間的相似度就要比“相宜本草”和“薰衣草”要高。
判斷實(shí)體之間相似度需要首先理解實(shí)體的語義信息,傳統(tǒng)的字符相似度方法不可行。在數(shù)據(jù)已經(jīng)結(jié)構(gòu)化存儲(chǔ)的知識(shí)庫中,實(shí)體的屬性可以作為相似度判斷的主要依據(jù)。然而,實(shí)體的屬性多種多樣,如何判斷何為重要屬性和如何計(jì)算屬性上的相似度成為了解決問題的關(guān)鍵。
百度知識(shí)圖譜競(jìng)賽提供了實(shí)體數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。實(shí)體數(shù)據(jù)給出了實(shí)體所包含的所有屬性,訓(xùn)練數(shù)據(jù)給出了部分實(shí)體對(duì)的相似度打分。其中實(shí)體屬性有多種不同的數(shù)據(jù)類型。我們提出了一種通用的實(shí)體相似度計(jì)算方法,計(jì)算各個(gè)對(duì)應(yīng)屬性之間的相似度作為特征,使用SVM、Logistic 回歸等分類模型、RandomForest等集成學(xué)習(xí)模型以及排序?qū)W習(xí)模型進(jìn)行建模,使用監(jiān)督學(xué)習(xí)的方法。對(duì)比不同方法的效果之后,又引入了一種文檔主題生成模型(LDA)對(duì)文本型屬性特征進(jìn)行優(yōu)化,最終得到了較好的結(jié)果。
本文的主要貢獻(xiàn)為:
1) 提出了一種用于計(jì)算知識(shí)圖譜中實(shí)體相似度的通用方法,可以處理實(shí)體的各種類型的屬性值,包括數(shù)值型、列表型和文本型;
2) 在文本型數(shù)據(jù)的相似度計(jì)算中使用了語義模型,增加實(shí)體在語義上的相似度;
3) 在實(shí)體的相似度計(jì)算中,使用集成學(xué)習(xí)的方法,提高分類的正確率。
目前,國內(nèi)外在知識(shí)圖譜中對(duì)實(shí)體相似度的計(jì)算有很多研究,主要分為兩個(gè)方向:一個(gè)是相似實(shí)體推薦;另一個(gè)是知識(shí)推理[1]。
相似實(shí)體推薦在諸多領(lǐng)域有著廣泛應(yīng)用。在電商和搜索引擎中,推薦系統(tǒng)(Recommender System)扮演著舉足輕重的角色,它能向用戶推薦有用的對(duì)象[2],基于用戶相似度構(gòu)建用戶群體可以使推薦結(jié)果應(yīng)用于群體中的所有用戶,基于對(duì)象相似度構(gòu)建對(duì)象群體可以使推薦結(jié)果包含多個(gè)同類對(duì)象供用戶挑選。在醫(yī)療領(lǐng)域中,2012年,IBM的Jimeng Sun等人提出了一種有監(jiān)督的學(xué)習(xí)方法,使用基于廣義馬氏距離的復(fù)合距離集成方法來評(píng)估病人之間的相似度[3],病人數(shù)據(jù)使用關(guān)鍵的臨床指標(biāo)來表示。這樣,醫(yī)生的診斷可以利用相似病人之間的信息來輔助決策。但是樣本數(shù)據(jù)都是單一的數(shù)值類型,而在知識(shí)圖譜中的實(shí)體數(shù)據(jù)中,實(shí)體的屬性類型多樣,有數(shù)值型、列表型以及文本型等。而文本型數(shù)據(jù)的相似度計(jì)算是目前研究的重點(diǎn)。
對(duì)于計(jì)算文本相似度的方法,目前主要分為兩個(gè)方向。一種是基于統(tǒng)計(jì)的方法,另一種是基于語義分析的方法[4]。
基于統(tǒng)計(jì)方法的相似度計(jì)算通常采用向量空間模型[4](vector space model,VSM)進(jìn)行文本表示,將文本表示為特征詞集合,將這些特征詞作為最基本的元素,然后統(tǒng)計(jì)文本中這些特征詞的詞頻得到特征詞,通過計(jì)算在特征詞向量空間上的相似度來代表文本的相似度。使用VSM模型,關(guān)鍵是計(jì)算詞的權(quán)重,通常使用TFIDF[4]向量來計(jì)算。VSM模型使用特征詞在文本的統(tǒng)計(jì)特性,能有效地對(duì)文本進(jìn)行表示。但是它并沒有考慮文本中的語義信息,而且產(chǎn)生的特征向量維度較高,并具有很高的稀疏性,影響了計(jì)算的效能。
由于VSM的局限性就產(chǎn)生了一種基于語義的分析方法。語義分析是指從詞語間的語義關(guān)系,考慮詞語的相似性,即近義詞等。Sussna M通過分析詞義網(wǎng)中的節(jié)點(diǎn)密度、深度和鏈接關(guān)系提出了一種基于詞義網(wǎng)邊的詞語相似度計(jì)算方法[5]。還有基于語義詞典WordNet的方法[6-9],WordNet中使用同義詞集合作為基礎(chǔ)構(gòu)建單位。在一個(gè)同義詞集合中的詞所代表的意思是相近的,有些情況下這些詞之間可以相互交換。另外,還有一種文檔主題生成模型,LDA模型[10],它能挖掘文本中深層的語義信息,雖然也是基于統(tǒng)計(jì)的方法,但卻能有效的降低維度,提高效率。
最近關(guān)于實(shí)體相似度的研究中,李榮等[11]提出一種綜合的概念相似度計(jì)算方法,在計(jì)算概念相似度時(shí),不僅考慮概念本身的語義,而且考慮概念的屬性和上下文結(jié)構(gòu),進(jìn)行本體映射。劉杰[12]提出一種通過對(duì)特征語義進(jìn)行分析,定義不同實(shí)體特征相似度的計(jì)算模型和權(quán)值計(jì)算模型,實(shí)現(xiàn)特征權(quán)值的自動(dòng)計(jì)算,用于處理本體映射問題。薛詠等[13]使用一種混合式的相似度算法計(jì)算實(shí)體相似度,將結(jié)構(gòu)語義與元素級(jí)相似度相結(jié)合。但是上述三種方法都是解決異構(gòu)本體語義一致性與本體復(fù)用問題,將多個(gè)指向現(xiàn)實(shí)世界的實(shí)體映射在一起。而本文的任務(wù)是計(jì)算不同實(shí)體之間的相似程度,而且目前并沒有相關(guān)的完整的計(jì)算方法,所以本文結(jié)合語義模型,提出了一種用于計(jì)算知識(shí)圖譜中實(shí)體相似度的通用方法。
本文解決的問題是在實(shí)體集合E={e1,e2,…,en}中,對(duì)于分類C,類標(biāo)簽為[0,1,2,3,4],給定實(shí)體相似度種子集合S={
由于集合S和D中的每個(gè)實(shí)體對(duì)都同屬一個(gè)type(總共有六種type:Movie,MusicRecording,ShowSeries,SoftwareApplication,TVSeries,VideoGame),并且S中沒有相似度為0的實(shí)體對(duì),所以我們做出以下假設(shè):
假設(shè)1 不同類別(type)的實(shí)體對(duì)相似度為0。
相似度為0代表實(shí)體之間很不相似。對(duì)于不同類別的實(shí)體,其屬性的維度不同,共同的屬性也很少,而且在實(shí)際應(yīng)用中計(jì)算不同類別實(shí)體的相似度也沒有意義,所以我們假設(shè)不同類別的實(shí)體之間相似度為0。
假設(shè)2 實(shí)體與自身的相似度為4。
假設(shè)3 兩個(gè)實(shí)體的相似度滿足對(duì)稱性,即實(shí)體1和實(shí)體2的相似度等于實(shí)體2和實(shí)體1的相似度。
根據(jù)以上假設(shè),我們可以把問題簡(jiǎn)化為:在同type的實(shí)體集合E′={e1,e2,…,en}中,對(duì)于分類C,類標(biāo)簽為[1,2,3,4],給定實(shí)體相似度種子集合S={
本文算法的整體框架如圖1所示。下面針對(duì)算法的各個(gè)步驟進(jìn)行詳細(xì)解釋。
圖1 算法整體框架圖
3.1 數(shù)據(jù)預(yù)處理
通過對(duì)訓(xùn)練數(shù)據(jù)的觀察,我們發(fā)現(xiàn)了一些噪聲數(shù)據(jù)。在訓(xùn)練集中存在這樣的實(shí)體對(duì):實(shí)體 A和B的相似度為c,但是B和A的相似度卻不是c,不符合我們的假設(shè)3;實(shí)體A與它自身之間的相似度不是4,不符合我們的假設(shè)2;兩個(gè)實(shí)體A和B同屬一個(gè)系列,應(yīng)當(dāng)很相似,然而它們之間的相似度卻不高,比如奪寶奇兵3和奪寶奇兵4的相似度是1,愛情手冊(cè)2和愛情手冊(cè)3的相似度卻是2,不符合實(shí)際情況。這些噪聲數(shù)據(jù)的存在會(huì)影響分類器的效果。圖2為噪聲數(shù)據(jù)的數(shù)量和分布情況。通過統(tǒng)計(jì)我們發(fā)現(xiàn)噪聲數(shù)據(jù)數(shù)量不多,共占訓(xùn)練集樣本總數(shù)的0.9%,為了提高模型的精度,將這些噪聲數(shù)據(jù)剔除。
圖2 噪聲數(shù)據(jù)分布
另外,對(duì)于列表型的實(shí)體屬性存在表達(dá)不統(tǒng)一的情況。例如,“inLanguage”屬性,有些實(shí)體屬性值為漢語普通話、普通話、簡(jiǎn)體中文、國語、漢語、普通話國語、中文等,它們都表示同一種語言,但是說法完全不相同,這種不一致性將會(huì)影響對(duì)二者相似度的評(píng)判。為了后續(xù)的處理,我們對(duì)數(shù)據(jù)進(jìn)行歸一化。將上述的這些表達(dá)方式都改成漢語,還有其它的類似改動(dòng)。
3.2 特征生成
實(shí)體屬性值的數(shù)據(jù)類型有三種:數(shù)值型、列表型、文本型。對(duì)于不同類型的數(shù)據(jù)使用不同的相似度計(jì)算方法來度量它們之間的相似性,如式(1)所示。
(1)
對(duì)于數(shù)值類型的屬性值d,我們使用式(1)來計(jì)算兩個(gè)實(shí)體在該屬性上的相似度。通過該式可以看出,D的值域?yàn)閇0,1],而且di和dj之間相差的越大,D值就越大,表示它們之間的相似度越小。
列表型的屬性表示其值是某集合中的一個(gè)或多個(gè)元素,比如電影實(shí)體的演員屬性,其值是全體演員集合中的多個(gè)元素。列表型的數(shù)據(jù)可以作為集合進(jìn)行處理。對(duì)于列表型的屬性值,我們使用兩種指標(biāo)來衡量它們的相似性。一種是計(jì)算交集的個(gè)數(shù),交集個(gè)數(shù)越大表示它們之間越相似;另外一種是Jaccard相似度,計(jì)算公式如式(2)所示。
(2)
對(duì)于兩個(gè)集合A和B,Jaccard相似度的值域是[0,1],值 越大表示它們之間的相似性越高。
對(duì)于文本型的屬性,其值是一段文字信息。文本型的數(shù)據(jù)中包含很多潛在的語料信息,對(duì)它們的很好利用將會(huì)在很大程度上反映兩個(gè)實(shí)體之間的相似性。
我們首先使用了基于向量空間模型的TF-IDF方法。TF-IDF是一種統(tǒng)計(jì)方法,用來評(píng)估一個(gè)字詞對(duì)于一個(gè)文檔的重要程度。TF-IDF是詞頻(TF)*逆文檔頻率(IDF)。所以這里需要統(tǒng)計(jì)單位是詞。先使用中文分詞工具對(duì)文本數(shù)據(jù)進(jìn)行分詞后,計(jì)算得到每個(gè)文本數(shù)據(jù)的TF-IDF向量。得到向量之后,使用余弦相似度來衡量它們之間的相似性。那么對(duì)于A,B兩個(gè)n維的TF-IDF向量,它們之間的余弦相似度可通過式(3)計(jì)算。
(3)
通過式(3)可以看出余弦相似度值域?yàn)閇0,1],而且值越大相似性也越高。
圖3 LDA主題預(yù)測(cè)結(jié)果
TF-IDF通過統(tǒng)計(jì)的方法來用向量表示文本文檔,它作用的對(duì)象是文檔中的詞。如果文檔太長(zhǎng),將導(dǎo)致TF-IDF向量維度特別高,不利于計(jì)算。而且,在文本中通常會(huì)包含一些潛在的重要信息,如文檔的主題,表示主題的詞不一定在文檔中出現(xiàn),但是它能反映文本的一個(gè)重要特性。所以我們引入了LDA(Latent Dirichlet Allocation)模型,它能有效的降低維度。它是一種文檔主題生成模型,包含詞、主題和文檔三層結(jié)構(gòu)。每一個(gè)文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。
對(duì)于有描述(description)屬性的每一個(gè)類別實(shí)體集合構(gòu)造一個(gè)訓(xùn)練語料,即不同的類別有不同的語料,并且產(chǎn)生不同的主題。這也合乎實(shí)際,例如,Movie類別,它包含一些子類別:動(dòng)作、科幻、恐怖、愛情等;而SoftwareApplication包含:辦公、娛樂、影音等。對(duì)每一個(gè)類別,得到屬于該類別的所有實(shí)體的description屬性值,進(jìn)行分詞然后通過LDA模型得到每一個(gè)語料屬于n個(gè)主題的概率分布,即一個(gè)n維的向量。
得到n維的LDA主題模型向量之后,就可以計(jì)算兩個(gè)實(shí)體之間在description屬性上基于LDA模型的相似性。對(duì)于LDA向量我們使用兩種計(jì)算相似度的方法來衡量它們之間的相似性:余弦相似度和Hellinger距離。在概率論和統(tǒng)計(jì)理論中,Hellinger距離被用來度量?jī)蓚€(gè)概率分布的相似度。對(duì)于兩個(gè)離散度概率分布P=(p1,p2,…,pn)和 Q= (q1,q2,…,qn),它們的Hellinger距離可以定義為式(4)。
(4)
式(4)可以被看作是兩個(gè)離散概率分布平方根向量的歐式距離,計(jì)算出來的值越小表示兩個(gè)分布越相似。
3.3 模型選擇
特征生成之后,需要選擇分類模型。因?yàn)橛杏?xùn)練數(shù)據(jù),所以可以使用傳統(tǒng)的分類方法,有SVM、Logistic regression、LDA( Linear Discriminant Analysis,與之前提到的LDA主題模型是不相同的),以及集成學(xué)習(xí)[14]分類方法:RandomForest,AdaBoost,GradientBoosting,Bagging。引入集成學(xué)習(xí)是因?yàn)閱我环诸惼鞯姆诸愋Ч皇呛芾硐?。而集成學(xué)習(xí)可以利用單個(gè)分類器分類效果一般的特點(diǎn),將多個(gè)分類器的分類結(jié)果綜合,從而得到一個(gè)更好的結(jié)果。
集成學(xué)習(xí)包含兩種主要的分類思想:Bagging和Boosting。Bagging的基本思路就是從樣本集合中隨機(jī)生成它的n個(gè)大小相同的子集,然后使用一種分類算法來用這n個(gè)子集來訓(xùn)練n個(gè)分類器,當(dāng)對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),用這n個(gè)分類器來進(jìn)行投票,票數(shù)最多的那個(gè)類將會(huì)作為這個(gè)集成分類器的最終分類結(jié)果。而Boosting的方法就稍微有些復(fù)雜,它也同樣是產(chǎn)生多個(gè)分類器,但是后一個(gè)分類器依賴于前一個(gè)。即前一個(gè)被分錯(cuò)的樣本的權(quán)值會(huì)增加,使得下一個(gè)分類器盡量不要將其分錯(cuò)。這樣就產(chǎn)生了一個(gè)連續(xù)的分類器,而且每一個(gè)分類器都會(huì)得到一個(gè)權(quán)值,當(dāng)進(jìn)行預(yù)測(cè)時(shí),將所有的分類器預(yù)測(cè)結(jié)果乘以相應(yīng)權(quán)值,這樣就得到了最后的預(yù)測(cè)結(jié)果。在前面提到的集成學(xué)習(xí)算法中,RandomForest,AdaBoost,GradientBoosting就屬于Boosting分類方法。
對(duì)于不同的類別,訓(xùn)練不同的分類器,最終得到該類別下分類效果最好的分類器,然后對(duì)測(cè)試集進(jìn)行相應(yīng)的預(yù)測(cè)。選擇分類效果比較好的分類器需要對(duì)訓(xùn)練集進(jìn)行交叉驗(yàn)證,然后從這七個(gè)分類器中選擇。對(duì)分類器的選擇取決于評(píng)價(jià)函數(shù),不同的評(píng)價(jià)函數(shù)將會(huì)選擇出不同的分類器。在這個(gè)問題中,我們使用的評(píng)價(jià)指標(biāo)是式(5)。
(5)
其中Sci表示預(yù)測(cè)的相似度,Smi表示實(shí)際的相似度。D值越小,表示分類的性能越好。另外我們還使用了正確率來作為輔助的評(píng)價(jià)指標(biāo)。當(dāng)模型選擇完成后,使用訓(xùn)練全集來訓(xùn)練該分類器,之后進(jìn)行預(yù)測(cè)。
3.4 算法總結(jié)
我們的問題是給出測(cè)試集中實(shí)體對(duì)的相似度。算法主要分為兩大模塊:特征生成和分類器訓(xùn)練。首先,得到原始的實(shí)體數(shù)據(jù),預(yù)處理后生成特征,通過對(duì)數(shù)值型、列表型以及文本型數(shù)據(jù)的分別處理,得到了多種衡量相似度的指標(biāo)作為特征;然后,使用種子實(shí)體對(duì)訓(xùn)練分類器,進(jìn)而完成對(duì)測(cè)試數(shù)據(jù)的分類。
本文使用的實(shí)體相似度計(jì)算的數(shù)據(jù)由百度知識(shí)圖譜競(jìng)賽提供,所有的實(shí)體共有六種類別。不同類別的實(shí)體,屬性會(huì)有不同,所以特征維度也會(huì)有差異。但是同類別下實(shí)體的特征維度是相同的,所以我們需要對(duì)不同類別的實(shí)體集合,分別訓(xùn)練不同的分類器進(jìn)行分類。
實(shí)體的類別屬性共有六種取值:Movie,MusicRecording,ShowSeries,SoftwareApplication,TVSeries,VideoGame。相同類別下的實(shí)體它們的屬性列表是相同的,不同類別下的實(shí)體屬性列表是不同的,各類別的屬性如表1所示。在每一個(gè)實(shí)體的屬性中,都有id,name和url。
表1 原數(shù)據(jù)描述
續(xù)表
在選擇模型的過程中,需要使用交叉驗(yàn)證來得出每個(gè)分類器在訓(xùn)練集上的分類結(jié)果,然后比較各個(gè)分類器的性能。圖4就是六個(gè)類別在各個(gè)分類器上的分類結(jié)果,它們都是在訓(xùn)練集上采用五重交叉驗(yàn)證得出的結(jié)果。圖中的loss代表D值,橫坐標(biāo)表示使用的分類算法,從左到右依次是SVM、Logistic regression、RandomForest、AdaBoost、GradientBoosting、Bagging、LDA,縱坐標(biāo)表示它們的loss值和正確率,其中正確率以百分比為單位。對(duì)于集成學(xué)習(xí)方法,它們內(nèi)部使用的弱分類器都是決策樹。從圖中不難看出,單一分類器的分類效果比較差,所以我們才引入了集成學(xué)習(xí)的分類方法,它將多個(gè)弱分類器結(jié)合在一起,使用不同的決策規(guī)則,如投票或者是平均的方法,來集成各個(gè)分類器的分類結(jié)果,從而提高分類的效果。但是使用集成學(xué)習(xí)之后發(fā)現(xiàn)分類效果提高的并不明顯,但是總的來說要比單一的分類器好。
圖4 訓(xùn)練集上的分類結(jié)果
在訓(xùn)練集上得出結(jié)果之后,選擇分類效果最好的分類器來進(jìn)行最后的訓(xùn)練,完成預(yù)測(cè)。通過圖4我們選出了每一個(gè)類別下分類最好的分類器,結(jié)果如表2所示,這里選擇依據(jù)的評(píng)價(jià)函數(shù)是D值,因?yàn)樽罱K對(duì)測(cè)試集的預(yù)測(cè)進(jìn)行評(píng)價(jià)的函數(shù)是D值。模型選擇完成之后,需要在訓(xùn)練全集上使用最優(yōu)的分類器來進(jìn)行訓(xùn)練預(yù)測(cè)。最后在測(cè)試集上的分類結(jié)果如表3所示。
表2 各type下的最優(yōu)分類器
從表3中可以看出,使用表2中的分類器序列來對(duì)六個(gè)類別進(jìn)行訓(xùn)練,即最優(yōu)分類器,然后對(duì)相應(yīng)的測(cè)試集進(jìn)行預(yù)測(cè),結(jié)果是最好的,而且明顯要優(yōu)于對(duì)所有類別使用同一種分類算法的方案。而且對(duì)于單一分類器,它們最終的分類結(jié)果比集成學(xué)習(xí)的分類算法差。所以引入集成學(xué)習(xí)來處理這個(gè)問題是正確的選擇。
表3 不同的集成方法的實(shí)驗(yàn)結(jié)果
續(xù)表
在知識(shí)圖譜中的實(shí)體相似度計(jì)算中,本文提出了一種通用的基于語義的實(shí)體相似度計(jì)算方法。利用實(shí)體各種類型的屬性值之間的相似度構(gòu)建特征,采用集成學(xué)習(xí)的方法,不斷地優(yōu)化分類效果,最終我們得到的相似度計(jì)算結(jié)果在百度知識(shí)圖譜競(jìng)賽中獲得了第一名。但是我們預(yù)測(cè)出來的結(jié)果正確率卻在40%左右。正確率低的原因是特征值之間的區(qū)分度不大,所以后續(xù)的工作中需要挖掘出具有區(qū)分意義的語義特征,提高文本相似度的計(jì)算正確率。
[1] Y Chen,J Yang,D Xu,et al.Inference analysis and adaptive training for belief rule based systems[J].Expert Systems with Applications,2011,38(9):12845-12860.
[2] Ricci F,Shapira B.Recommender systems handbook[M].Springer,2011.
[3] Sun J,Wang F,Hu J,et al.Supervised patient similarity measure of heterogeneous patientrecords[J].ACM SIGKDD Explorations Newsletter,2012,14(1):16-24.
[4] 華秀麗,朱巧明,李培峰.語義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(3):833-836.
[5] Salton G,Mcgill M J.Introduction to modern information retrieval[M].New York:McGraw-Hill,1983.
[6] Sussna M.Word sense disambiguation for free-text indexing using a massive semantic network[C]//Proceedings of the 2nd International Conference on Information and Knowledge Management(CIKM’93),Washington DC,US,1993:67-74.
[7] Bouras C,Tsogkas V.A clustering technique for news articles using WordNet[J].Knowledge-Based Systems,2012,36(6):115-128.
[8] Abdalgader K,Skabar A.Unsupervised similarity-based word sense disambiguation using context vectors and sentential word importance[J].ACM Trans.on Speech and Language Processing,2012,9(1):1-21.
[9] Martinez S,Sanchez D,Valls A.Semantic adaptive microaggregation of categorical micro data[J].Computer Security,2012,31(5):653-672.
[10] Huang HB,Liu Z Z,Zhang W M,et al.Research on calculating semantic similarity based on HOM[J].Systems Engineering and Electronics,2009,31(7):1750-1754.
[11] 李榮,楊冬,劉磊.基于本體的概念相似度計(jì)算方法研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(S3):312-317.
[12] 劉杰.一種基于自動(dòng)特征權(quán)值的實(shí)體相似度計(jì)算方法[J].重慶科技學(xué)院學(xué)報(bào):自然科學(xué)版,2014,16(3):157-160.
[13] 薛詠,馮博琴,武艷芳.ABox推理計(jì)算實(shí)體相似度[J].西安交通大學(xué)學(xué)報(bào),2015,49(09):70-76.
[14] Hang Li.Learning to Rank for Information Retrieval and Natural LanguageProcessing[M].Morgan & Claypool,2011.
Research on Entities Similarity Calculation in Knowledge Graph
LI Yang,GAO Daqi
(Department of Computer Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)
Entities similarity is useful in many areas,such as recommendation system in E-commerce platforms,and patients grouping in healthcare,etc.In our task of calculating the entity similarity in a given knowledge graph,the attributes of every entity is provided,and a sample of entity pairs are provided with their similarity score.Therefore,we treat this task as a supervised learning problem,testing SVM,Logistic Regression,Random Forest,and Learning to rank models.
entity similarity; supervised learning; classification model; ensemble learning
李陽(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:marine1ly@163.com高大啟(1957—),教授,主要研究領(lǐng)域?yàn)槟J郊?jí)別與機(jī)器智能。E-mail:gaodaqi@ecasu.edu.cn
1003-0077(2017)01-0140-07
2016-09-20 定稿日期:2016-10-25
心血管疾病與腫瘤疾病中西醫(yī)臨床大數(shù)據(jù)處理分析與應(yīng)用研究(2015AA020107)
TP391
A