郭晨亮 林欣 殷玥
摘要:作者名稱(chēng)消歧是構(gòu)建學(xué)術(shù)知識(shí)圖譜的重要步驟.由于數(shù)據(jù)缺失、人名重名、人名縮寫(xiě)導(dǎo)致論文重名現(xiàn)象普遍存在,針對(duì)無(wú)法充分利用信息和冷啟動(dòng)問(wèn)題,提出了基于異構(gòu)網(wǎng)絡(luò)的無(wú)監(jiān)督作者名稱(chēng)消歧方法,自動(dòng)學(xué)習(xí)同作者論文特征.用詞形還原預(yù)處理作者、機(jī)構(gòu)、標(biāo)題、關(guān)鍵詞的字符,用word2vec和TF-IDF(Term Frequency-Inverse Document Frequency)方法學(xué)習(xí)文本特征嵌入表示,用元路徑隨機(jī)游走和word2vec方法學(xué)習(xí)結(jié)構(gòu)特征嵌入表示,融合文本、結(jié)構(gòu)特征相似度后用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類(lèi)算法、合并孤立論文方法完成消歧.最終根據(jù)實(shí)驗(yàn)結(jié)果,模型在冷啟動(dòng)無(wú)監(jiān)督作者名稱(chēng)消歧的小數(shù)據(jù)集和工程應(yīng)用中優(yōu)于現(xiàn)有模型,表明了模型有效且可以實(shí)際應(yīng)用.
關(guān)鍵詞:作者消歧;學(xué)術(shù)知識(shí)圖譜;異構(gòu)網(wǎng)絡(luò);元路徑隨機(jī)游走
中圖分類(lèi)號(hào):TP182文獻(xiàn)標(biāo)志碼:ADOI:10.3969/j.issn.l000-5641.2021.06.015
Unsupervised author name disambiguation based on heterogeneous networks
GUO Chenliang1,LIN Xin1,YIN Yue2
(1. School of Computer Science and Technology,East China Normal University,Shanghai 200062,China;2. Shanghai Technology Development Co.,Ltd.,Shanghai 200031. China)
Abstract:Author name disambiguation is an important step in constructing an academic knowledge graph. The issue of ambiguous names is widely prevalent in academic literature due to the presence of missing data,ambiguous names,or abbreviations. This paper proposes an unsupervised author name disambiguation method,based on heterogenous networks,with the goal of addressing the problems associated with inadequate information utilization and cold-start;the proposed method automatically learns the features of papers with the ambiguous authors' name. As a starting point,the method preprocesses strings of authors,organizations,titles,and keywords by lemmatization. The algorithm then learns the embedded representation of text features by the word2vec and TF-IDF methods and learns the embedded representation of structural features using the meta-path random walk and word2vec methods. After merging features by similarity of structure and text,disambiguation is done by a DBSCAN clustering algorithm and merging isolated papers. Experimental results show that the proposed model significantly outperforms existing models in a small dataset and in engineering applications for cold-start unsupervised author name disambiguation. The data indicates that the model is effective and can be implemented in real-world applications.
Keywords:author disambiguation;academic knowledge graph;heterogeneous network;meta-path random walk
0引言
近年來(lái),隨著網(wǎng)絡(luò)數(shù)據(jù)的不斷積累與發(fā)展,電子形式的學(xué)術(shù)論文數(shù)據(jù)也越來(lái)越多,學(xué)術(shù)資源的共享使研究人員越來(lái)越依賴(lài)公共學(xué)術(shù)資源.為了更好地進(jìn)行學(xué)術(shù)知識(shí)圖譜的構(gòu)建和使用學(xué)術(shù)知識(shí)圖譜對(duì)論文數(shù)據(jù)進(jìn)行查詢(xún),學(xué)術(shù)論文的作者名稱(chēng)消歧任務(wù)具有重要的意義,關(guān)系到信息檢索的準(zhǔn)確性.學(xué)術(shù)知識(shí)圖譜是由論文、作者、機(jī)構(gòu)等信息構(gòu)成的知識(shí)圖譜,作者消歧是構(gòu)建學(xué)術(shù)知識(shí)圖譜的重要步驟. 近年來(lái),已經(jīng)有許多相關(guān)學(xué)者對(duì)作者消歧領(lǐng)域進(jìn)行研究,但這個(gè)問(wèn)題目前仍然沒(méi)有得到較好的解決.
由于長(zhǎng)期以來(lái)論文相關(guān)信息的缺失、論文作者名字常用縮寫(xiě)、現(xiàn)實(shí)生活中的重名現(xiàn)象,導(dǎo)致論文作者名字與作者本人難以對(duì)應(yīng),可能出現(xiàn)兩種問(wèn)題:(1)同一個(gè)作者在不同的論文中用了不同的名字形式,有的是縮寫(xiě),有的是全稱(chēng);(2)由于重名或姓名縮寫(xiě)可能有相同的名字形式,無(wú)法判斷作者是否為同一個(gè)人.已經(jīng)有一些方法對(duì)監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的不同情況,使用相似度規(guī)則進(jìn)行匹配、使用概率模型進(jìn)行分類(lèi)、使用網(wǎng)絡(luò)表示學(xué)習(xí)聚類(lèi)等方法嘗試解決這個(gè)問(wèn)題.大多數(shù)消歧方法的主要過(guò)程是,首先對(duì)具有相同名稱(chēng)作者的一組論文學(xué)習(xí)它們的特征表示,然后根據(jù)不同文章的特征進(jìn)行聚類(lèi)來(lái)獲得哪些文章屬于同一作者的消歧結(jié)果.
目前對(duì)于冷啟動(dòng)作者消歧問(wèn)題,存在的主要挑戰(zhàn)是:(1)由于標(biāo)記數(shù)據(jù)需要大量的成本,如何在監(jiān)督數(shù)據(jù)不足甚至無(wú)監(jiān)督的情況下獲得較好的作者消歧結(jié)果.(2)在獲取論文的特征表示時(shí),有些論文存在相關(guān)信息的缺失現(xiàn)象,如何對(duì)這些缺失數(shù)據(jù)進(jìn)行合理的處理.⑶如何綜合利用論文的作者、機(jī)構(gòu)、年份、標(biāo)題、摘要、內(nèi)容、來(lái)源、關(guān)鍵詞等相關(guān)信息較好地學(xué)習(xí)文本特征表示.⑷如何學(xué)習(xí)論文、作者異構(gòu)關(guān)系網(wǎng)絡(luò)中的結(jié)構(gòu)信息并與文本特征較好地結(jié)合,從而使聚類(lèi)效果更好.
本文根據(jù)作者名稱(chēng)消歧任務(wù)的特點(diǎn),提出了一種基于異構(gòu)網(wǎng)絡(luò)特征學(xué)習(xí)的無(wú)監(jiān)督作者名稱(chēng)消歧方法.我們首先對(duì)作者與機(jī)構(gòu)名稱(chēng)、標(biāo)題與關(guān)鍵詞的字符形式進(jìn)行詞形還原等標(biāo)準(zhǔn)化處理,然后用基于元路徑隨機(jī)游走[1-2]的異質(zhì)網(wǎng)絡(luò)嵌入方法學(xué)習(xí)論文的結(jié)構(gòu)特征,用word2vec詞向量、TF-IDF(Term Frequency-Inverse Document Frequency)[3]、詞向量隨機(jī)打亂方法加權(quán)學(xué)習(xí)論文的文本語(yǔ)義特征,融合論文的結(jié)構(gòu)特征和文本特征相似度,在融合相似度時(shí)用最優(yōu)權(quán)重搜索方法,然后用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類(lèi)方法,制訂相似度規(guī)則合并孤立點(diǎn)得到消歧的結(jié)果.最后在AMiner數(shù)據(jù)集[4]、SCI論文數(shù)據(jù)構(gòu)建的一個(gè)小數(shù)據(jù)集上進(jìn)行測(cè)試,證明我們的方法可以獲得較好的消歧效果,并應(yīng)用到項(xiàng)目中對(duì)1800萬(wàn)篇SCI和600萬(wàn)篇Elsevier論文數(shù)據(jù)進(jìn)行消歧,取得了較好的效果.
本文的主要貢獻(xiàn)總結(jié)如下:
(1)提出了一種基于異構(gòu)網(wǎng)絡(luò)特征學(xué)習(xí)的無(wú)監(jiān)督作者名稱(chēng)消歧的方法,分別學(xué)習(xí)論文的結(jié)構(gòu)特征、文本特征并融合,根據(jù)不同特征的相似度完成聚類(lèi).
(2)在以前方法基礎(chǔ)上進(jìn)行改進(jìn),對(duì)作者與機(jī)構(gòu)名稱(chēng)、標(biāo)題與關(guān)鍵詞的字符形式使用詞形還原等預(yù)處理方法,使用TF-IDF[3]、詞向量隨機(jī)打亂的方法表示論文文本特征,使用最優(yōu)權(quán)重搜索方法融合結(jié)構(gòu)、文本特征的相似度.
(3)使用AMiner數(shù)據(jù)集[4]、SCI論文數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試并應(yīng)用,統(tǒng)計(jì)了數(shù)據(jù)集中的數(shù)據(jù)分布與缺失,與其他現(xiàn)有方法進(jìn)行對(duì)比證明了本文所提出方法的較好效果,對(duì)比刪除模型部分的效果證明了模型結(jié)構(gòu)設(shè)計(jì)的有效性,對(duì)比了一些模型參數(shù)在不同取值情況下的實(shí)驗(yàn)效果尋找最優(yōu)取值.
本文的剩余部分結(jié)構(gòu)如下:第1章介紹作者消歧的相關(guān)研究;第2章介紹作者消歧問(wèn)題的形式化定義;第3章介紹本文所提出的基于異構(gòu)網(wǎng)絡(luò)的無(wú)監(jiān)督作者名稱(chēng)消歧方法;第4章介紹實(shí)驗(yàn)所用到的數(shù)據(jù)和分析實(shí)驗(yàn)效果;第5章總結(jié)并展望未來(lái)的研究方向.
1相關(guān)工作
在這部分介紹作者消歧的相關(guān)研究.目前,作者消歧方法可以分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)通常需要借助來(lái)自網(wǎng)絡(luò)的外部知識(shí)或已有的標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練,無(wú)監(jiān)督學(xué)習(xí)大多數(shù)依靠自然語(yǔ)言處理中的詞向量、網(wǎng)絡(luò)表示學(xué)習(xí)等方法學(xué)習(xí)特征.此外,還有一些方法主要研究如何合理確定聚類(lèi)類(lèi)別數(shù)量、如何更新消歧結(jié)果、如何使人類(lèi)參與迭代更新模型和主動(dòng)學(xué)習(xí)方法.
監(jiān)督學(xué)習(xí)的作者消歧方法需要一組已經(jīng)標(biāo)記的數(shù)據(jù)集,用于訓(xùn)練模型學(xué)習(xí)消歧任務(wù)的聚類(lèi)方法,標(biāo)記數(shù)據(jù)可以通過(guò)人工標(biāo)記也可以來(lái)自網(wǎng)絡(luò)中.文獻(xiàn)[5]中用數(shù)據(jù)訓(xùn)練每個(gè)作者姓名的分類(lèi)模型,用生成模型的樸素貝葉斯和判別模型的支持向量機(jī)兩種方法預(yù)測(cè)論文屬于哪個(gè)作者.文獻(xiàn)[6]中提出了急切的EAND、延遲的LAND和自適應(yīng)的SLAND三種關(guān)聯(lián)作者名稱(chēng)的消歧方法,用訓(xùn)練數(shù)據(jù)中的論文特征結(jié)合概率策略和規(guī)則識(shí)別作者身份.文獻(xiàn)[7]中提出了兩階段的聚類(lèi)方法,通過(guò)多次聚類(lèi)更好地學(xué)習(xí)論文特征.文獻(xiàn)[8]中用維基百科的資源構(gòu)造網(wǎng)絡(luò),對(duì)特征信息用HAC層次聚類(lèi)消歧.這類(lèi)方法雖然效果較好,但需要大量獲取監(jiān)督數(shù)據(jù)成本高且無(wú)法擴(kuò)展到更多的數(shù)據(jù)量,具有局限性.
無(wú)監(jiān)督學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)論文的特征表示,然后對(duì)來(lái)自同一作者名稱(chēng)的論文進(jìn)行聚類(lèi).文獻(xiàn)[9]用馬爾可夫隨機(jī)框架建立概率模型,用隱藏變量表示一組同名作者論文對(duì)應(yīng)的真實(shí)作者,提出了一種動(dòng)態(tài)估計(jì)聚類(lèi)種類(lèi)數(shù)的方法,可以在同名作者數(shù)據(jù)量差別較大時(shí)避免設(shè)置參數(shù)的誤差.文獻(xiàn)[10]中構(gòu)建了作者單步與兩步合作、作者一論文、論文相似性關(guān)系網(wǎng)絡(luò),通過(guò)建立概率模型制訂規(guī)則合并網(wǎng)絡(luò)結(jié)點(diǎn)聚類(lèi).GHOST方法[11]提出了構(gòu)建圖結(jié)構(gòu)、選擇有效路徑、計(jì)算相似度、聚類(lèi)、用戶反饋的消歧方法,并獲得了較好的準(zhǔn)確率,較好地分析了關(guān)系網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu).文獻(xiàn)[12]和[13]用網(wǎng)絡(luò)表示學(xué)習(xí)方法消歧,文獻(xiàn)[12]首先結(jié)合合作關(guān)系等信息構(gòu)建作者間社交網(wǎng)絡(luò),然后通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)獲取作者間相似性對(duì)論文的同名作者進(jìn)行聚類(lèi),文獻(xiàn)[13]在論文異構(gòu)網(wǎng)絡(luò)中用隨機(jī)游走學(xué)習(xí)特征,但這些方法只考慮了論文間的結(jié)構(gòu)信息而較少考慮文本.文獻(xiàn)[14]提出了一種概率模型構(gòu)建作者-作者、作者-論文、論文-論文的多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)共同學(xué)習(xí)同名作者論文的特征,但這種方法為了保護(hù)隱私?jīng)]有充分利用論文的文本特征.文獻(xiàn)[15]用手動(dòng)提取特征和學(xué)習(xí)文本向量結(jié)合的方式進(jìn)行消歧,利用負(fù)樣本感知全局特征.Diting方法[16]根據(jù)標(biāo)題、機(jī)構(gòu)等信息建立多個(gè)異構(gòu)網(wǎng)絡(luò)用正負(fù)樣本學(xué)習(xí)論文特征,用無(wú)監(jiān)督或結(jié)合網(wǎng)絡(luò)信息的半監(jiān)督完成聚類(lèi).在OAG比賽第一名方法中,分別學(xué)習(xí)了論文的關(guān)系和語(yǔ)義表征并進(jìn)行融合聚類(lèi).文獻(xiàn)[17]和[18]中用對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行消歧,文獻(xiàn)[17]用對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)的特征,文獻(xiàn)[18]用對(duì)抗網(wǎng)絡(luò)判斷兩篇論文是否屬于同一作者.
文獻(xiàn)[19]用GCN學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)特征,并提出了加入新論文增量更新消歧結(jié)果的方法.文獻(xiàn)[20]中用主動(dòng)學(xué)習(xí)消歧的方法,對(duì)已完成的消歧結(jié)果制訂策略抽取一組數(shù)據(jù)向用戶進(jìn)行詢(xún)問(wèn),通過(guò)交互方式學(xué)習(xí)更多有效信息改善結(jié)果.文獻(xiàn)[4]結(jié)合了結(jié)構(gòu)特征和文本特征的表示學(xué)習(xí),用監(jiān)督數(shù)據(jù)學(xué)習(xí)自動(dòng)獲取聚類(lèi)種類(lèi),并允許人工加入限制條件不斷優(yōu)化聚類(lèi)結(jié)果,用兩篇論文是否屬于同一作者、某篇論文是否屬于某個(gè)作者進(jìn)行標(biāo)記.對(duì)文獻(xiàn)[4]有用的細(xì)節(jié)進(jìn)行改進(jìn),得到了效果較好的無(wú)監(jiān)督作者名稱(chēng)消歧結(jié)果.
一些詞義消歧[21]的方法與作者名稱(chēng)消歧問(wèn)題相似,都是為了識(shí)別不同位置多個(gè)名稱(chēng)的出現(xiàn)是否對(duì)應(yīng)現(xiàn)實(shí)生活中的同一個(gè)實(shí)體,但區(qū)別是詞義消歧有上下文語(yǔ)義信息而作者名稱(chēng)只有相關(guān)的論文信息.對(duì)于學(xué)術(shù)知識(shí)圖譜,知識(shí)圖譜間的實(shí)體對(duì)齊任務(wù)[22]也是尋找圖譜中表示相同實(shí)體的不同結(jié)點(diǎn),但區(qū)別是實(shí)體對(duì)齊用于兩個(gè)知識(shí)圖譜之間而作者名稱(chēng)消歧用于一個(gè)知識(shí)圖譜內(nèi)部.
2問(wèn)題定義
作者消歧任務(wù)可以定義為已知一組論文數(shù)據(jù)T,每篇論文有對(duì)應(yīng)的作者、機(jī)構(gòu)、來(lái)源、發(fā)表時(shí)間、題目、摘要、關(guān)鍵詞信息,其中機(jī)構(gòu)為作者所在的機(jī)構(gòu),來(lái)源為論文發(fā)表的期刊會(huì)議.由于每篇論文中有多個(gè)不同的作者,可以將具有同名作者的一組論文提取出來(lái),對(duì)于某個(gè)作者名稱(chēng)a,可以得到對(duì)應(yīng)的一組論文,這組論文由多個(gè)名字為a的作者創(chuàng)作,需要對(duì)這n篇論文進(jìn)行聚類(lèi),把它們分割成c個(gè)不相交的集合,,…,,滿足,i,j=1,2,…,c且i≠j,,每個(gè)集合對(duì)應(yīng)一個(gè)現(xiàn)實(shí)生活中的作者,分別對(duì)應(yīng)到c個(gè)作者.作者消歧模型需要確定同名作者數(shù)量。的取值和論文與真實(shí)作者的對(duì)應(yīng)關(guān)系.
例如,表1是作者名稱(chēng)為L(zhǎng)IANG Hongbin的5篇論文的信息,對(duì)這組論文進(jìn)行消歧的結(jié)果為3個(gè)不同的作者的論文集合,分別為{P,P},{P},{P,P}.觀察數(shù)據(jù)可以發(fā)現(xiàn)屬于同一作者的論文通常具有較多的相同合著者和相似的機(jī)構(gòu)名稱(chēng),并具有相似的文本內(nèi)容,如P與P中都包含了作者LI Xia,P與P、P與P都含有接近的機(jī)構(gòu)名稱(chēng)與關(guān)鍵詞.但屬于不同作者的論文有時(shí)會(huì)有同名的合著者或機(jī)構(gòu)名稱(chēng)有相似性,如P,P都包含作者PENG Daiyuan,P,P,P的機(jī)構(gòu)名稱(chēng)中都包含engineering.
本文主要針對(duì)無(wú)監(jiān)督的情況進(jìn)行研究,在沒(méi)有額外已知數(shù)據(jù)的情況下,作者消歧任務(wù)主要依靠論文的文本信息、論文與作者間的關(guān)系計(jì)算完成.對(duì)于一篇論文的相關(guān)信息,由于作者名稱(chēng)、機(jī)構(gòu)名稱(chēng)基本不包含語(yǔ)義信息,我們將這些內(nèi)容看作論文的結(jié)構(gòu)信息處理,將其他信息作為論文的語(yǔ)義信息處理.我們分別學(xué)習(xí)了論文的結(jié)構(gòu)和文本的特征表示,根據(jù)論文與作者的關(guān)系構(gòu)建論文、作者、機(jī)構(gòu)的異構(gòu)關(guān)系網(wǎng)絡(luò)學(xué)習(xí)論文的結(jié)構(gòu)特征表示,通過(guò)論文自身的語(yǔ)義信息學(xué)習(xí)論文的文本特征表示,融合兩種特征的相似度完成聚類(lèi).
3模型結(jié)構(gòu)
本章介紹用于解決無(wú)監(jiān)督情況下作者名稱(chēng)消歧問(wèn)題的一種模型,詳細(xì)介紹模型每部分的結(jié)構(gòu)和特點(diǎn),模型結(jié)構(gòu)如圖1所示.圖1中左側(cè)為包含標(biāo)題、作者、摘要、機(jī)構(gòu)、出版機(jī)構(gòu)、關(guān)鍵詞信息的同名作者論文集,首先,用詞形還原、分詞、去停詞的方法分別對(duì)作者名稱(chēng)、機(jī)構(gòu)名稱(chēng)、標(biāo)題、關(guān)鍵詞進(jìn)行規(guī)范化和預(yù)處理,定義了兩個(gè)作者名稱(chēng)字符串的比較規(guī)則,用于減少錯(cuò)誤字符的干擾.然后,分別學(xué)習(xí)論文的結(jié)構(gòu)特征向量、文本特征向量表示,用異構(gòu)網(wǎng)絡(luò)上的元路徑隨機(jī)游走方法獲得論文的結(jié)構(gòu)特征向量表示,用所有文本數(shù)據(jù)word2vec訓(xùn)練詞向量、詞向量隨機(jī)打亂、統(tǒng)計(jì)詞頻計(jì)算TF-IDF同加權(quán)求和詞向量的方法,以此獲得論文的文本特征向量表示.最后,分別計(jì)算結(jié)構(gòu)、文本特征的相似度并融合相似度,用DBSCAN方法對(duì)論文進(jìn)行初步聚類(lèi),對(duì)信息缺失無(wú)法學(xué)習(xí)文本特征、關(guān)聯(lián)較弱無(wú)法學(xué)習(xí)結(jié)構(gòu)特征聚類(lèi)后是孤立點(diǎn)的論文與初步聚類(lèi)的結(jié)果繼續(xù)計(jì)算相似度合并,得到最終消歧聚類(lèi)的結(jié)果,完成論文作者名稱(chēng)的消歧任務(wù).
下面分別描述模型中5個(gè)步驟的具體實(shí)現(xiàn)方法,包括:作者名稱(chēng)、機(jī)構(gòu)名稱(chēng)、標(biāo)題與關(guān)鍵詞預(yù)處理,異構(gòu)網(wǎng)絡(luò)上的結(jié)構(gòu)特征學(xué)習(xí),論文相關(guān)信息的文本特征學(xué)習(xí),融合特征表示,聚類(lèi)消歧.
3.1作者名稱(chēng)、機(jī)構(gòu)名稱(chēng)、標(biāo)題與關(guān)鍵詞預(yù)處理
由于從論文數(shù)據(jù)中提取到的作者名稱(chēng)字符串格式不規(guī)范,需要預(yù)先對(duì)作者名稱(chēng)進(jìn)行處理,改為規(guī)范的格式.如果作者名稱(chēng)為中文,首先將中文轉(zhuǎn)換成對(duì)應(yīng)的拼音.對(duì)于每個(gè)作者名稱(chēng),需要將字母全部轉(zhuǎn)換成小寫(xiě),去除其中的特殊符號(hào),將其中連續(xù)的多個(gè)空格替換為一個(gè)空格,最后得到作者名稱(chēng)的標(biāo)準(zhǔn)形式.當(dāng)比較兩個(gè)不同的作者名稱(chēng)時(shí),若“a,b,c,d,e”表示單詞,將名稱(chēng)為“a b”和“b a”的兩個(gè)作者、名稱(chēng)為“c d e”和“e c d”的兩個(gè)作者視為同名作者,例如“aldstadt joseph”和“joseph aldstadt”可以視為同一個(gè)名稱(chēng).通過(guò)上述的預(yù)處理過(guò)程,可以減少作者名稱(chēng)中不同的特殊符號(hào)、空格、語(yǔ)序的影響,從而更準(zhǔn)確地識(shí)別相同的作者名稱(chēng).
在異構(gòu)關(guān)系網(wǎng)絡(luò)G(V,E)中用到了機(jī)構(gòu)中的單詞,對(duì)機(jī)構(gòu)分詞時(shí)需要首先將非字母字符替換為空格,大寫(xiě)字母全部變成小寫(xiě)字母,然后按空格分詞,對(duì)比892個(gè)單詞的停詞庫(kù)去除機(jī)構(gòu)名稱(chēng)中的停詞,去掉名稱(chēng)中長(zhǎng)度小于3的詞,對(duì)剩余單詞的形式進(jìn)行詞形還原,保留詞形還原前后的所有單詞作為機(jī)構(gòu)的分詞結(jié)果.在詞形還原時(shí)使用nltk先進(jìn)行詞形標(biāo)注,然后對(duì)其中的名詞、動(dòng)詞、形容詞等按類(lèi)別分別進(jìn)行詞形還原.上述詞形還原的方法也被應(yīng)用到標(biāo)題、關(guān)鍵詞的預(yù)處理中.
例如,作者名稱(chēng)為“Aldstadt,Joseph.”時(shí),將其修正為“aldstadt joseph”,當(dāng)遇到名稱(chēng)為“Joseph,Aldstadt”的作者時(shí),由于反轉(zhuǎn)單詞順序后相同可以匹配為同一個(gè)名稱(chēng),修正為“joseph aldstadt”,對(duì)于機(jī)構(gòu)名稱(chēng)“State Key Lab. of Struct. Chemistry”,經(jīng)過(guò)上述處理后得到機(jī)構(gòu)的分詞結(jié)果“key、lab、struct chemistry”;對(duì)于標(biāo)題名稱(chēng)“Determining message delivery delay of controller area networks”,詞形還原將“determining”改為“determine”,將“networks”改為“network”.
3.2異構(gòu)網(wǎng)絡(luò)上的結(jié)構(gòu)特征學(xué)習(xí)
為了在異構(gòu)網(wǎng)絡(luò)上學(xué)習(xí)論文點(diǎn)的結(jié)構(gòu)特征表示,用基于元路徑的隨機(jī)游走算法[1-2]進(jìn)行特征表示的學(xué)習(xí).首先定義論文的異構(gòu)網(wǎng)絡(luò),然后用基于元路徑的隨機(jī)游走方法首先在異構(gòu)網(wǎng)絡(luò)中采集多條按元路徑規(guī)則隨機(jī)游走得到的路徑,這些路徑轉(zhuǎn)換為多個(gè)由論文點(diǎn)組成的序列,將每個(gè)論文點(diǎn)看作一個(gè)單詞,用這些序列作為訓(xùn)練word2vec的方法的輸入,得到每個(gè)論文點(diǎn)對(duì)應(yīng)的結(jié)構(gòu)特征詞向量,重復(fù)這個(gè)過(guò)程多次,并把每次獲得的特征向量計(jì)算平均值,得到最終的論文結(jié)構(gòu)特征表示.
根據(jù)論文的作者、機(jī)構(gòu),這些結(jié)構(gòu)信息可以構(gòu)建與作者a有關(guān)的論文、作者、機(jī)構(gòu)間的異構(gòu)關(guān)系網(wǎng)絡(luò)G(V,E).網(wǎng)絡(luò)中的點(diǎn)集合V=T∪A∪W,其中T={t,t,…,t}表示與作者a有關(guān)的所有論文,A表示與論文集合T相關(guān)的所有作者的集合,P表示與論文集合T相關(guān)的所有機(jī)構(gòu)的集合,W表示P中機(jī)構(gòu)名稱(chēng)包含的所有單詞集合.因此,每篇論文、每個(gè)作者、每個(gè)機(jī)構(gòu)中的單詞分別對(duì)應(yīng)一個(gè)點(diǎn).網(wǎng)絡(luò)中的邊的集合,其中論文與作者關(guān)系集合,表示論文與機(jī)構(gòu)單詞關(guān)系集合,若作者a∈A創(chuàng)作了論文t∈T,將對(duì)應(yīng)的兩個(gè)點(diǎn)連接邊;若論文t的機(jī)構(gòu)是p∈P,且p的名稱(chēng)包含單詞w∈W,將對(duì)應(yīng)的兩個(gè)點(diǎn)連接邊.
例如,圖2是表1中5篇論文形成的異構(gòu)網(wǎng)絡(luò)圖,其中圓形表示論文,三角形表示作者,正方形表示機(jī)構(gòu)分詞,論文與作者、機(jī)構(gòu)包含的詞連接,圖中只畫(huà)出了連接多個(gè)論文點(diǎn)的作者和機(jī)構(gòu)詞.如P的機(jī)構(gòu)名稱(chēng)分詞中包含college、mechanical、engineering,所以與對(duì)應(yīng)的3個(gè)機(jī)構(gòu)詞連接;P,P都包含作者LI Xia,所以都與LI Xia連接.
具體來(lái)說(shuō),為了充分學(xué)習(xí)每個(gè)論文點(diǎn)的向量表示,在隨機(jī)游走采集元路徑時(shí),以每個(gè)論文點(diǎn)作為起點(diǎn)采集b條“論文-作者-論文-機(jī)構(gòu)單詞-論文”重復(fù)r次的隨機(jī)游走路徑,首先選擇某個(gè)論文點(diǎn)t∈T作為起點(diǎn),隨機(jī)選擇一個(gè)與t連接到作者點(diǎn)a∈A的邊,再隨機(jī)選擇一個(gè)與a連接到論文點(diǎn)t∈T的邊且i≠k,若找不到滿足條件的邊(a,t)或(a,t),就跳過(guò)這一步驟的隨機(jī)游走過(guò)程,否則將已經(jīng)走過(guò)的a,t點(diǎn)加入這條路徑中;然后隨機(jī)選擇一個(gè)與t連接到機(jī)構(gòu)單詞點(diǎn)w∈W的邊,再隨機(jī)選擇一個(gè)與w連接到論文點(diǎn)tT的邊且k≠m,若找不到滿足條件的邊(w,t)或(w,t),就跳過(guò)這一步驟的隨機(jī)游走過(guò)程,否則將已經(jīng)走過(guò)的w,t點(diǎn)加入這條路徑中.
重復(fù)上述過(guò)程r次就完成了對(duì)一條路徑的隨機(jī)游走采集,并且路徑中只保留其中論文點(diǎn)組成的序列,不保留路徑起點(diǎn)的論文點(diǎn)t.用這個(gè)方法采集論文t為起點(diǎn)的b條隨機(jī)游走路徑,最終將以每個(gè)論文點(diǎn)為起點(diǎn)的n組路徑作為word2vec的訓(xùn)練輸入,并且設(shè)置最小詞頻為1,詞向量維數(shù)為d,訓(xùn)練得到每個(gè)論文點(diǎn)的特征向量表示.若某個(gè)論文點(diǎn)沒(méi)有出現(xiàn)在隨機(jī)游走的路徑中,用word2vec方法無(wú)法得到這個(gè)點(diǎn)的特征向量表示,將這個(gè)點(diǎn)的特征向量設(shè)為零向量.
為了讓每個(gè)論文點(diǎn)有更大概率出現(xiàn)在隨機(jī)游走產(chǎn)生的序列中,從而得到論文點(diǎn)更準(zhǔn)確的結(jié)構(gòu)特征表示,用bagging的方法,重復(fù)s次采集隨機(jī)游走元路徑和word2vec訓(xùn)練詞向量的過(guò)程,得到s組論文點(diǎn)的結(jié)構(gòu)特征向量表示,計(jì)算平均值得到最終的每篇論文t結(jié)構(gòu)特征向量表示.
如果考慮這個(gè)關(guān)于作者a的異構(gòu)網(wǎng)絡(luò)中兩篇論文間的關(guān)系,可以發(fā)現(xiàn)包含路徑“論文-作者-論文”形成的CoAuthor關(guān)系和路徑“論文-機(jī)構(gòu)-論文”形成的CoOrg關(guān)系.如果在集合T中的兩篇論文t,t(i,j=1,2,…,n且i≠j)間具有CoAuthor共同作者關(guān)系,連接點(diǎn)t,t的“論文-作者-論文”的路徑數(shù)量就對(duì)應(yīng)了論文t,t間的共同作者數(shù)量;如果兩篇論文t,t間具有共同機(jī)構(gòu)CoOrg關(guān)系,連接點(diǎn)的“論文-機(jī)構(gòu)-論文”數(shù)量就對(duì)應(yīng)了論文t,t間的機(jī)構(gòu)名稱(chēng)中共同單詞的數(shù)量,也就是機(jī)構(gòu)的相似度.
根據(jù)隨機(jī)游走的方法,從論文t經(jīng)過(guò)作者點(diǎn)游走到論文t的概率與兩篇論文間的共同作者數(shù)量成正比,若論文t與其他論文間的共同作者太少就有可能在這一步驟中查找路徑失敗而跳過(guò).從論文t經(jīng)過(guò)機(jī)構(gòu)單詞點(diǎn)游走到論文t的概率與兩篇論文機(jī)構(gòu)間的共同單詞數(shù)量成正比,與機(jī)構(gòu)間相似度相關(guān),若論文t與其他論文機(jī)構(gòu)的相似度太低就有可能在這一步驟中查找路徑失敗而跳過(guò).因此,隨機(jī)游走得到的路徑可以較好地將論文間關(guān)于作者、機(jī)構(gòu)而產(chǎn)生的聯(lián)系強(qiáng)度轉(zhuǎn)換為隨機(jī)游走路徑中詞的相鄰概率,使word2vec方法較好地學(xué)習(xí)論文的結(jié)構(gòu)特征表示.而將機(jī)構(gòu)名稱(chēng)拆分為詞并進(jìn)行詞形還原的方法,可以將機(jī)構(gòu)名稱(chēng)中包含的少量語(yǔ)義信息轉(zhuǎn)換為結(jié)構(gòu)信息進(jìn)行學(xué)習(xí),同時(shí)考慮到了同一機(jī)構(gòu)文本相似的不同表達(dá)方式.
3.3論文相關(guān)信息的文本特征學(xué)習(xí)
為了在異構(gòu)網(wǎng)絡(luò)上學(xué)習(xí)論文點(diǎn)的文本特征表示,首先用論文的標(biāo)題、來(lái)源、摘要、年份、機(jī)構(gòu)word2vec訓(xùn)練詞向量,然后計(jì)算每個(gè)單詞的逆文檔頻率值IDF(Inverse Document Frequency)[3],最終用IDF值加權(quán)平均論文信息中所有詞向量得到論文的語(yǔ)義特征表示.
具體來(lái)說(shuō),對(duì)于一篇論文t∈T(i=1,2,…,n),將論文的標(biāo)題、來(lái)源、摘要、年份、機(jī)構(gòu)、關(guān)鍵詞的字符串按空格分隔拼接,去除其中的特殊符號(hào)、非數(shù)字字母的字符,將字母轉(zhuǎn)換為小寫(xiě),分詞后去除21種含義較少的停詞,將得到的一組詞隨機(jī)打亂順序,得到論文t相關(guān)的一個(gè)單詞可重復(fù)的長(zhǎng)度為z個(gè)單詞的語(yǔ)句u={w,w,…,w},這個(gè)語(yǔ)句表示了論文的文本信息.將T中n篇論文的文本信息組成的一組語(yǔ)句U ={u,u,…,u}作為訓(xùn)練詞向量word2vec的輸入,詞向量維數(shù)為d,得到每個(gè)文本單詞的向量表示.
逆文檔頻率IDF用來(lái)評(píng)估一個(gè)單詞在一組語(yǔ)料中的重要程度,包含一個(gè)詞的文檔數(shù)越多,這個(gè)詞的IDF值就越低;詞頻TF值表示某個(gè)詞在一個(gè)文檔中的出現(xiàn)頻率,一個(gè)詞在一個(gè)文檔中出現(xiàn)次數(shù)越多,這個(gè)詞就越重要;詞x在文檔y中的TF-IDF值[3]o是通過(guò)將詞的TF值q與IDF值u相乘來(lái)表示詞的重要程度.若共有N篇文檔,包含詞x的文檔數(shù)為N,在文檔y中共有M個(gè)詞,其中有M個(gè)詞為x,計(jì)算公式為
將每篇論文對(duì)應(yīng)的一組文本看作一個(gè)文檔,統(tǒng)計(jì)詞頻計(jì)算每個(gè)單詞的IDF值,然后對(duì)每篇論文對(duì)應(yīng)的一組單詞的向量表示按IDF值加權(quán)求和,若單詞w的IDF值為u,TF-IDF值為o,詞向量為u,論文t的文本特征計(jì)算為
若論文t的文本信息u包含的單詞集合為,單詞在u中重復(fù)c次,,論文的文本特征也可以表示為詞集合的詞向量按TF-IDF的加權(quán)平均為
用TF-IDF對(duì)論文文本詞向量加權(quán)求和可以對(duì)詞的重要性進(jìn)行準(zhǔn)確評(píng)估,從而得到更精確的論文文本特征向量表示.對(duì)沒(méi)有相關(guān)文本信息的論文,將它的文本特征向量設(shè)為零向量.
3.4融合特征表示
為了融合論文結(jié)構(gòu)、文本兩種特征的向量表示,首先將結(jié)構(gòu)、文本特征為零向量的論文加入孤立點(diǎn)集合G,對(duì)剩下的論文分別用兩種特征向量計(jì)算任意兩篇論文間的余弦相似度,得到論文間的結(jié)構(gòu)相似度矩陣M和文本相似度矩陣M,令I(lǐng)為單位矩陣然后將兩個(gè)相似度矩陣加權(quán)求和M=(M+eM)/(I+eI)得到融合后的相似度矩陣,融合的權(quán)重比例e用最優(yōu)權(quán)重搜索的方法尋找.
在最優(yōu)權(quán)重搜索的方法中,為獲得最優(yōu)的e,通過(guò)在已知正確結(jié)果的消歧測(cè)試數(shù)據(jù)集上等間距嘗試0.5到5之間的多個(gè)權(quán)重e取值的實(shí)驗(yàn)效果,并對(duì)每次取值進(jìn)行多次實(shí)驗(yàn)取均值得到結(jié)果,并在準(zhǔn)確率較高的取值附近縮小間距繼續(xù)實(shí)驗(yàn),最終選擇所有實(shí)驗(yàn)中準(zhǔn)確率最高的e值作為模型的比例,部分實(shí)驗(yàn)結(jié)果在第4章中.
3.5聚類(lèi)消歧
使用DBSCAN算法采用融合得到的論文間相似度矩陣對(duì)不在集合G內(nèi)的論文進(jìn)行聚類(lèi),將聚類(lèi)中的孤立點(diǎn)和集合G內(nèi)的孤立點(diǎn)通過(guò)比較相似度加入已有聚類(lèi)或生成新的聚類(lèi),最終完成對(duì)與作者a相關(guān)所有論文的聚類(lèi).
DBSCAN是一種基于密度的聚類(lèi)方法,使用掃描半徑R和最小選取個(gè)數(shù)I作為參數(shù),每次將掃描半徑內(nèi)最小包含點(diǎn)數(shù)較大的點(diǎn)合并,可以將緊密相連的任意形狀的一些點(diǎn)聚類(lèi)為一組,并且可以自動(dòng)選擇聚類(lèi)數(shù)量而不需要參數(shù)指定,可以在無(wú)監(jiān)督的情況下完成自動(dòng)聚類(lèi).
為了計(jì)算孤立點(diǎn)與任意論文的相似度,定義論文t,t間相似度的計(jì)算方式為
f(t,t)=df(A,A)+df(P,P)+df(S,S)+df(L,L),
其中,d,d,d,d是可調(diào)整的超參數(shù),A,A分別為兩篇論文的作者集合,P,P分別為兩篇論文的機(jī)構(gòu)單詞集合,S,S分別為兩篇論文的來(lái)源單詞集合,L,L分別為兩篇論文的標(biāo)題、關(guān)鍵詞的單詞集合,函數(shù)f(X,Y)表示集合X,Y的交集大小,函數(shù)f(X,Y)集合X,Y的交集大小除以并集大小.其中,對(duì)論文來(lái)源單詞的分詞進(jìn)行與機(jī)構(gòu)分詞同樣的詞形還原處理,保留詞形還原前后的所有單詞.
首先,設(shè)置閾值F,對(duì)于每篇論文t∈G,查找與t相似度最高的論文,即f(t,t)≤f,k=1,2,…,n.若論文,查找與論文相似度最高的論文且j?{j,j,…,j},重復(fù)直到.若相似度,將論文t合并到所在的聚類(lèi),否則將論文t留在G中,完成第一輪聚類(lèi)合并.
然后,對(duì)于G中剩余的論文,若任意兩篇論文t,t∈G的相似度f(wàn)(t,t)≥F,將它們合并為同一個(gè)聚類(lèi),使用并查集算法完成這個(gè)過(guò)程,完成第二輪聚類(lèi)合并,得到最終的論文聚類(lèi)結(jié)果.
4實(shí)驗(yàn)結(jié)果
4.1數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
在學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)特征時(shí),設(shè)置元路徑重復(fù)次數(shù)r=25,設(shè)b為隨機(jī)游走路徑采集數(shù)量,d為詞向量維數(shù),每篇論文作為起點(diǎn)采集b=10條路徑,使用隨機(jī)游走路徑訓(xùn)練詞向量時(shí)使用d=100維詞向量,設(shè)置窗口大小為10,使用CBOW方法,最小詞頻為1,設(shè)置負(fù)采樣數(shù)為25;在學(xué)習(xí)論文的文本特征時(shí),訓(xùn)練詞向量時(shí)使用d=100維詞向量,設(shè)置窗口大小為5,最小詞頻為2,負(fù)采樣數(shù)為5,使用CBOW方法;在特征融合時(shí),使用效果最好的權(quán)重e=3.0;在聚類(lèi)消歧時(shí),設(shè)置DBSCAN的參數(shù)R=0.2,I=1,設(shè)置參數(shù)d=3/2,d=1,d=1,d=1/3,閾值F=1.5.
使用AMiner[4]的數(shù)據(jù)集、SCI論文數(shù)據(jù)構(gòu)建的一個(gè)小數(shù)據(jù)集上進(jìn)行測(cè)試.AMiner的數(shù)據(jù)集中包含600個(gè)同名作者的203078篇論文,每篇論文包含標(biāo)題、摘要、作者及其所在機(jī)構(gòu)、年份、來(lái)源、關(guān)鍵詞,并將數(shù)據(jù)分成了500個(gè)作者名的訓(xùn)練集和100個(gè)作者名的測(cè)試集,由于我們是無(wú)監(jiān)督訓(xùn)練的方法,將所有數(shù)據(jù)直接用于測(cè)試,并使用包含100個(gè)作者名的測(cè)試集與其他方法進(jìn)行對(duì)比.SCI論文數(shù)據(jù)構(gòu)建的測(cè)試數(shù)據(jù)集包含10個(gè)同名作者的184篇論文,每篇論文包含標(biāo)題、摘要、作者、機(jī)構(gòu)、年份、來(lái)源、關(guān)鍵詞.為了將兩個(gè)數(shù)據(jù)集轉(zhuǎn)換為同一格式,將AMiner數(shù)據(jù)集中的待消歧作者的機(jī)構(gòu)信息作為機(jī)構(gòu),將所有作者的機(jī)構(gòu)信息加入文本信息用于學(xué)習(xí)文本特征.數(shù)據(jù)集的數(shù)量統(tǒng)計(jì)在表2中,包含了數(shù)據(jù)集的作者、論文數(shù)量以及信息缺失情況,沒(méi)有提及的來(lái)源、出版時(shí)間等信息沒(méi)有缺失,部分作者對(duì)應(yīng)的論文數(shù)量在表3中.
從表2中可以發(fā)現(xiàn)論文的相關(guān)信息都存在部分缺失,主要是在機(jī)構(gòu)、摘要、關(guān)鍵詞的缺失,并且關(guān)鍵詞缺失比較嚴(yán)重,摘要、機(jī)構(gòu)的數(shù)據(jù)相對(duì)完整,在AMiner數(shù)據(jù)集中機(jī)構(gòu)、摘要基本完整,關(guān)鍵詞有24%的論文數(shù)據(jù)缺失;在SCI數(shù)據(jù)集中機(jī)構(gòu)、摘要、關(guān)鍵詞的缺失分別為5%、25%、43%,SCI數(shù)據(jù)缺失比例相對(duì)更高.從表3中可以發(fā)現(xiàn)每個(gè)作者的論文數(shù)量為5到20篇.
為了評(píng)價(jià)實(shí)驗(yàn)結(jié)果,采用與AMiner方法[4]中相同的成對(duì)F值評(píng)價(jià)方式,對(duì)于一個(gè)作者名稱(chēng)的消歧結(jié)果,比較任意兩篇論文對(duì)是否屬于同一作者的分類(lèi)結(jié)果,屬于同一類(lèi)且分類(lèi)為同一類(lèi)的論文對(duì)數(shù)量。v稱(chēng)為真陽(yáng)性,屬于同一類(lèi)且分類(lèi)為不同類(lèi)的論文對(duì)數(shù)量v稱(chēng)為假陰性,屬于不同類(lèi)且分類(lèi)為同一類(lèi)的論文對(duì)數(shù)量v稱(chēng)為假陽(yáng)性,計(jì)算召回率值v、精確率值v、F值的公式為
對(duì)于多個(gè)作者名稱(chēng)的平均F值,首先計(jì)算每個(gè)作者名稱(chēng)數(shù)據(jù)的召回率v、精確率v的平均值,然后使用F值的公式計(jì)算平均的F值,這種計(jì)算方法可以給每個(gè)作者名稱(chēng)均勻的權(quán)重并合理計(jì)算實(shí)驗(yàn)的平均效果.
4.2實(shí)驗(yàn)結(jié)果
在測(cè)試時(shí),用有監(jiān)督的AMiner[4]和無(wú)監(jiān)督的概率模型[14]、GHOST[11]、OAG比賽第一名4種方法在AMiner數(shù)據(jù)集上進(jìn)行對(duì)比測(cè)試,測(cè)試結(jié)果在表4中,使用我們的方法在SCI數(shù)據(jù)集上進(jìn)行消歧,并人工標(biāo)記少量數(shù)據(jù)進(jìn)行評(píng)價(jià).AMiner數(shù)據(jù)集上實(shí)驗(yàn)對(duì)比的結(jié)果在表4中,SCI數(shù)據(jù)集上的測(cè)試結(jié)果在表5中.對(duì)比實(shí)驗(yàn)效果可以發(fā)現(xiàn),我們的方法比其他4種對(duì)比的方法總體效果更好,并且AMiner方法[4]使用了500個(gè)作者名稱(chēng)的訓(xùn)練數(shù)據(jù),而從表4的本文方法100個(gè)均值的F值可以看出,我們的方法在無(wú)監(jiān)督的情況下達(dá)到了更好的效果.
為了驗(yàn)證模型每個(gè)部分的效果,我們刪除了一些模型中的部分進(jìn)行對(duì)比,包括只用結(jié)構(gòu)特征計(jì)算相似度、只用文本特征計(jì)算相似度、去除詞形還原等單詞預(yù)處理、去除TF-IDF加權(quán)、去除文本特征詞向量訓(xùn)練的隨機(jī)打亂、去除關(guān)鍵詞或來(lái)源或摘要信息,結(jié)果在表6中.
對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),去除模型中任意部分準(zhǔn)確率都會(huì)下降.只用結(jié)構(gòu)特征的效果比只用文本特征的效果更好,但明顯比同時(shí)使用的效果更差,在作者消歧問(wèn)題中結(jié)構(gòu)信息比文本信息具有更加重要的作用,但需要兩者同時(shí)考慮才能獲得較好的效果.對(duì)文本特征訓(xùn)練時(shí)進(jìn)行詞向量打亂分詞順序很重要,對(duì)比表6 AMiner測(cè)試集上原始模型和去除詞向量隨機(jī)打亂的F值發(fā)現(xiàn)產(chǎn)生了4.77%的F值提升,可能是因?yàn)楹?jiǎn)單拼接論文的標(biāo)題、機(jī)構(gòu)等文本信息由于文本較短不能很好地學(xué)習(xí)詞義,而打亂單詞順序可以在單詞之間、論文的不同信息之間產(chǎn)生更多關(guān)聯(lián).單獨(dú)去除來(lái)源、關(guān)鍵詞、摘要信息對(duì)實(shí)驗(yàn)結(jié)果的影響都不明顯,所以論文某個(gè)單一信息的使用方式對(duì)聚類(lèi)效果影響不大,OAG比賽第一名方法沒(méi)有在訓(xùn)練詞向量時(shí)隨機(jī)打亂單詞順序但準(zhǔn)確率高,可能是由于沒(méi)有使用關(guān)鍵詞用于聚類(lèi)相似度、沒(méi)有使用摘要用于文本特征表示,雖然沒(méi)有更好地學(xué)到文本信息,但也減少了多余信息的干擾.因此實(shí)驗(yàn)效果的提升是模型多個(gè)部分共同作用的綜合效果,與融合論文相關(guān)信息的方式有關(guān). 只用文本特征的召回率v明顯大于精確率v,而其他大多數(shù)方法都是召回率v小于精確率v,因此利用文本信息更容易完全找出屬于同一作者的論文對(duì),但更容易將不同作者的論文合并為同一作者而出錯(cuò).
為了探索模型參數(shù)的最佳取值,我們對(duì)融合特征使用的權(quán)值e、聚類(lèi)孤立點(diǎn)集合的相似度閾值F、隨機(jī)游走路徑采集數(shù)量b、詞向量維數(shù)d、隨機(jī)游走路徑長(zhǎng)度r不同取值的情況進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果在表7—9和圖3中.
為了尋找準(zhǔn)確率最高的融合特征使用的權(quán)值e,對(duì)e取值范圍為[0.5,5]的情況進(jìn)行測(cè)試,可以發(fā)現(xiàn)e的值過(guò)高或過(guò)低都會(huì)使準(zhǔn)確率下降,當(dāng)e取值為1.3和3.0附近時(shí)準(zhǔn)確率較高,而當(dāng)e=3.0時(shí)得到效果最好,因此文本特征和結(jié)構(gòu)特征有相似的重要性,在融合結(jié)構(gòu)特征和文本特征時(shí),文本特征相似度數(shù)值的權(quán)重應(yīng)該比結(jié)構(gòu)相似度數(shù)值的權(quán)重更高.為了研究聚類(lèi)孤立點(diǎn)集合的相似度閾值F對(duì)實(shí)驗(yàn)結(jié)果的影響,測(cè)試了F取值為[0.5,2.5]的實(shí)驗(yàn)效果,F(xiàn)取值過(guò)高或過(guò)低都會(huì)使聚類(lèi)不準(zhǔn)確而使F值降低,當(dāng)F=1.5時(shí)獲得較好效果.為了研究元路徑隨機(jī)游走以每篇論文為起點(diǎn)的路徑采集數(shù)量b的值對(duì)結(jié)果的影響,測(cè)試了b取值為[5,25]的效果,若b取值過(guò)低則采樣數(shù)量太少而不足以學(xué)到圖中的特征,若b取值過(guò)高則學(xué)到了過(guò)多的噪聲信息而影響結(jié)構(gòu)特征學(xué)習(xí),當(dāng)b=10時(shí)獲得較好效果.為了研究詞向量維數(shù)d的影響,對(duì)d=10,20,50,100,200的取值分別進(jìn)行測(cè)試,可以看出詞向量維數(shù)過(guò)少不足以表示論文特征而使準(zhǔn)確率嚴(yán)重下降,詞向量維數(shù)過(guò)多會(huì)導(dǎo)致參數(shù)過(guò)多使模型準(zhǔn)確率逐漸下降.為了研究隨機(jī)游走路徑長(zhǎng)度r的影響,對(duì)r=10,25,35,50,100的取值分別進(jìn)行測(cè)試,可以看出路徑長(zhǎng)度太短不能生成足夠長(zhǎng)的路徑而難以表達(dá)結(jié)構(gòu)信息使準(zhǔn)確率嚴(yán)重下降,路徑長(zhǎng)度太長(zhǎng)會(huì)引入過(guò)多噪聲使準(zhǔn)確率逐漸下降.
綜合上述分析可以得到以下結(jié)論:論文的結(jié)構(gòu)特征相比文本特征更重要,但融合時(shí)文本特征相似度所占比例應(yīng)該相對(duì)更高,訓(xùn)練文本特征詞向量隨機(jī)打亂單詞順序很重要,作者與機(jī)構(gòu)單詞預(yù)處理、關(guān)鍵詞、摘要等信息的使用方式會(huì)綜合影響模型準(zhǔn)確率,模型中的閾值、詞向量維數(shù)和隨機(jī)游走的采樣數(shù)與路徑長(zhǎng)度過(guò)高和過(guò)低都會(huì)導(dǎo)致準(zhǔn)確率下降.
5總結(jié)
本文提出了一種基于異構(gòu)網(wǎng)絡(luò)的無(wú)監(jiān)督作者名稱(chēng)消歧方法,用于解決消歧時(shí)的冷啟動(dòng)問(wèn)題.首先對(duì)論文作者、機(jī)構(gòu)、來(lái)源等信息進(jìn)行分詞、詞形還原等預(yù)處理,分別使用論文相關(guān)信息學(xué)習(xí)論文的文本特征表示、使用異構(gòu)關(guān)系網(wǎng)絡(luò)學(xué)習(xí)論文的結(jié)構(gòu)特征表示,然后分別計(jì)算文本和結(jié)構(gòu)相似度并進(jìn)行融合聚類(lèi).在計(jì)算文本特征表示時(shí)用TF-IDF[3]、word2vec、詞向量隨機(jī)打亂的方法,在計(jì)算結(jié)構(gòu)特征表示時(shí)用元路徑隨機(jī)游走[1-2]和word2vec的方法,加權(quán)融合特征表示后用DBSCAN聚類(lèi)并合并孤立點(diǎn),最終完成消歧任務(wù).在AMiner數(shù)據(jù)集[4]和SCI數(shù)據(jù)中驗(yàn)證了模型的有效性,分析了模型每部分的有效性和模型參數(shù)取值的合理性,獲得了較好的消歧結(jié)果.
[參考文獻(xiàn)]
[1]DONG Y,CHAWLA N V,SWAMI A. metapath2vec:Scalable representation learning for heterogeneous networks [C]// Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017:135-144.
[2]PEROZZI B,ALRFOU R,SKIENA S. Deepwalk:Online learning of social representations [C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014:701-710.
[3]ROBERTSON S. Understanding inverse document frequency:On theoretical arguments for IDF [J]. Journal of Documentation,2004,60(5):503-520.
[4]ZHANG Y,ZHANG F,YAO P,et al. Name disambiguation in AMiner:Clustering,maintenance,and human in the loop [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2018:1002-1011.
[5]HAN H,GILES L,ZHA H,et al. Two supervised learning approaches for name disambiguation in author citations [C]// Proceedings of the 2004 Joint ACM/IEEE Conference on Digital Libraries. IEEE,2004:296-305.
[6]VELOSO A,F(xiàn)ERREIRA A A,GONCALVES M A,et al. Cost-effective on-demand associative author name disambiguation [J]. Information Processing and Management,2012. 48(4):680-697.
[7]YOSHIDA M,IKEDA M,ONO S,et al. Person name disambiguation by bootstrapping [C]// Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2010:10-17.
[8]HAN X,ZHAO J. Named entity disambiguation by leveraging wikipedia semantic knowledge [C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management. 2009:215-224.
[9]TANG J,ZHANG J,ZHANG D,et al. A unified framework for name disambiguation [C]// Proceedings of the 17th International Conference on World Wide Web. 2008:1205-1206.
[10]DENG C,DENG H,LI C. A scholar disambiguation method based on heterogeneous relation-fusion and attribute enhancement [J]. IEEE Access,2020,8:28375-28384.
[11]FAN X,WANG J,PU X,et al. On graph-based name disambiguation [J]. Journal of Data and Information Quality,2011,2(2):1-23.
[12]MALIN B. Unsupervised name disambiguation via social network similarity [C]// Proceedings of the Workshop on Link Analysis,Counterterrorism and Security. 2005:93-102.
[13]ZHANG W,YAN Z,ZHENG Y. Author name disambiguation using graph node embedding method [C]// Proceedings of the 2019 IEEE 23rd International Conference on Computer Supported Cooperative Work in Design (CSCWD). IEEE,2019:410-415.
[14]ZHANG B,HASAN M A. Name disambiguation in anonymized graphs using network embedding [C]// Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 2017:1239-1248.
[15]KIM K,ROHATGI S,GILES C L. Hybrid dee pairwise classification for author name disambiguation [C]// Proceedings of the 2019 ACM on Conference on Information and Knowledge Management. 2019:2369-2372.
[16]PENG L,SHEN S,XU J,et al. Diting:An author disambiguation method based on network representation learning [J]. IEEE Access,2019,7:135539-135555.
[17]PENG L,SHEN S,LI D,et al. Author disambiguation through adversarial network representation learning [C]// International Joint Conference on Neural Networks. 2019:paper N-19712.
[18]WANG H,WANG R,WEN C,et al. Author name disambiguation on heterogeneous information network with adversarial representation learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. 2020:238-245.
[19]QIAO Z,DU Y,F(xiàn)U Y,et al. Unsupervised author disambiguation using heterogeneous graph convolutional network embedding [C]// Proceedings of the 2019 IEEE International Conference on Big Data. IEEE,2019:910-919.
[20]WANG X,TANG J,CHENG H,et al. ADANA:Active name disambiguation [C]// 2011 11th IEEE International Conference on Data Mining. IEEE,2011:794-803.
[21]NG V. Machine learning for entity coreference resolution:A retrospective look at two decades of research [C]// Proceedings of the AAAI Conference on Artificial Intelligence. 2017:4877-4884.
[22]TANG X,ZHANG J,CHEN B,et al. BERT-INT:A BERT-based interaction model for knowledge graph alignment [C]// Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. 2020:3174-3180.
(責(zé)任編輯:陳麗貞)