張新征 雷鵬飛 李玉坤 車(chē)向東
(1.天津市普迅電力信息技術(shù)有限公司 天津 300384)(2.天津理工大學(xué)計(jì)算機(jī)與通信工程學(xué)院 天津 300384)
面向論文檢索的同名作者區(qū)分方法
張新征1雷鵬飛2李玉坤2車(chē)向東2
(1.天津市普迅電力信息技術(shù)有限公司 天津 300384)(2.天津理工大學(xué)計(jì)算機(jī)與通信工程學(xué)院 天津 300384)
作者同名問(wèn)題為論文檢索帶來(lái)了困難。論文研究了論文檢索中的作者同名問(wèn)題,提出了一種面向文獻(xiàn)檢索的同名作者區(qū)分框架,并在此框架基礎(chǔ)上提出了基于作者的單位、合作者、論文發(fā)表期刊信息對(duì)同名作者進(jìn)行區(qū)分的方法。實(shí)驗(yàn)結(jié)果證明了論文所提出的方法的有效性。
同名作者; 文獻(xiàn)檢索; 區(qū)分
Class Number TP391
隨著互聯(lián)網(wǎng)的發(fā)展,很多數(shù)字學(xué)術(shù)圖書(shū)館隨之產(chǎn)生,如DBLP,CitSeer,PubMed,ACM DL,IEEE DL,知網(wǎng)、萬(wàn)方等。這些數(shù)字學(xué)術(shù)圖書(shū)館為文獻(xiàn)檢索帶來(lái)了便利,并且為研究者提供了研究科學(xué)家合作網(wǎng)絡(luò)的充足的數(shù)據(jù)集。但是如何對(duì)于大量文獻(xiàn)的集合進(jìn)行有效的檢索依然是一個(gè)挑戰(zhàn)性的問(wèn)題。Lee et al.[1]認(rèn)為主要挑戰(zhàn)來(lái)自于數(shù)據(jù)輸入的錯(cuò)誤,包括檢索詞格式輸入的錯(cuò)誤以及輸入標(biāo)準(zhǔn)的缺失,作者的同名問(wèn)題以及出版地點(diǎn)縮寫(xiě)的問(wèn)題等。在這些問(wèn)題中作者同名問(wèn)題因其固有的難度,已經(jīng)引起數(shù)字圖書(shū)館研究者的極大關(guān)注。
在現(xiàn)實(shí)世界中會(huì)有這樣的情形。當(dāng)用戶(hù)希望通過(guò)輸入一個(gè)作者的名稱(chēng)從計(jì)算機(jī)文獻(xiàn)數(shù)據(jù)庫(kù)DBLP中找到需要的文章時(shí),常常會(huì)得到大量的同名作者的文章,用戶(hù)需要花費(fèi)更多時(shí)間從中找出特定的一個(gè)作者的文章。比如,用戶(hù)在DBLP中輸入作者名稱(chēng)“Dong Xin”。其返回的結(jié)果中包含Xin Dong、Xin Luna Dong、Dong Xin、Tian-Xin Dong、Jing-Xin Dong等作者名字。此時(shí)用戶(hù)面臨兩個(gè)問(wèn)題: 1) 按照從實(shí)際生活中獲取的信息,“Xin Dong”和”Xin Luna Dong”這兩個(gè)名字對(duì)應(yīng)的是現(xiàn)實(shí)世界中的同一個(gè)人,然而卻被列為兩個(gè)條目; 2) 當(dāng)選擇“Dong Xin”時(shí),所有作者為“Dong Xin”的文章會(huì)返回,但其對(duì)應(yīng)的可能是現(xiàn)實(shí)世界中不同的人。前者可以稱(chēng)為“異名同人”,后者可以稱(chēng)為“同名異人”。
實(shí)際上,重名問(wèn)題早已有之,研究者們也在這個(gè)問(wèn)題上花費(fèi)了大量的時(shí)間,嘗試了多種方法。Lizhu Zhou et al.提出了一種稱(chēng)為GHOST的解決問(wèn)題的框架[2]。Tang Jie et al.使用了一種統(tǒng)一的概率模型來(lái)形式化該問(wèn)題[3]。
Wu Jiang et al.提出了一種遞歸加強(qiáng)的重名區(qū)分方法結(jié)合了合作者和所在單位的信息并特別關(guān)注了合作信息和作者所在單位的變動(dòng)問(wèn)題[4]。Yang Xia et al.提出了一種面向中文的同名區(qū)分方法(PND)[5]。Stasa Milojevic使用模擬的書(shū)目數(shù)據(jù)集對(duì)重名區(qū)分方法的準(zhǔn)確性得出切實(shí)的估計(jì)[6]。Ferreira et al.提出了兩步區(qū)分法:SAND(Self-training Associative Name Disambiguation)[7]。Yoshida提出了使用自學(xué)習(xí)的兩階段聚簇算法來(lái)改善低召回率問(wèn)題并且實(shí)現(xiàn)了一個(gè)用于對(duì)Web檢索結(jié)果進(jìn)行重名區(qū)分的系統(tǒng)[8]。Byung-Won On et al.提出了可擴(kuò)展的圖分割算法[9]。Pei Li et al.針對(duì)該問(wèn)題提出了考慮記錄的時(shí)間順序并作出全局決策的聚簇算法[10]。
盡管已經(jīng)存在一些關(guān)于作者重名區(qū)分的工作。然而由于問(wèn)題的復(fù)雜性,同名問(wèn)題依然沒(méi)有得到很好的解決?;诖?本文提出了一個(gè)輕量級(jí)的在線(xiàn)方法,來(lái)解決在文獻(xiàn)檢索中的作者同名區(qū)分問(wèn)題。
本文主要貢獻(xiàn)如下: 1) 提出了面向文獻(xiàn)檢索的同名區(qū)分框架。 2) 提出了三個(gè)層次的解決同名區(qū)分的方法。
2.1 同名作者問(wèn)題定義
確定作者身份包含兩個(gè)層面的意義:多人同名和一人多名。很多人同名的現(xiàn)象在現(xiàn)實(shí)生活中是很普遍的。在一些拉丁語(yǔ)系的國(guó)家,使用首字母和縮寫(xiě)也經(jīng)常見(jiàn)到。在中國(guó),同名也是很常見(jiàn)的問(wèn)題。當(dāng)用戶(hù)輸入特定的作者名字來(lái)檢索文獻(xiàn)時(shí),會(huì)返回很多的文章,盡管這些文章對(duì)應(yīng)的是現(xiàn)實(shí)世界中不同的人
分析發(fā)現(xiàn)有時(shí)一個(gè)人也會(huì)對(duì)應(yīng)幾個(gè)不同的名字。例如,“Xin Dong“,”X.Dong”和“Xin Luna Dong”對(duì)應(yīng)的是同一個(gè)人。出現(xiàn)這個(gè)問(wèn)題的原因主要分為兩個(gè)方面: 1) 拉丁國(guó)家的名字在簡(jiǎn)寫(xiě)時(shí)經(jīng)常省略首中間名字; 2) 同一個(gè)名字會(huì)存在多種不同的表示方式。因此分類(lèi)方法必須考慮作者名字不同的表示方式。
本文所要解決的問(wèn)題是:對(duì)于一個(gè)論文集,當(dāng)用戶(hù)輸入作者名稱(chēng)N時(shí),將會(huì)返回所有作者中包含此名字N的文章,本文所要解決的問(wèn)題就是對(duì)返回的文章進(jìn)行劃分,使每一個(gè)劃分中的作者名字N對(duì)應(yīng)現(xiàn)實(shí)世界中的同一個(gè)人。除此之外,不同的作者名稱(chēng)可能對(duì)應(yīng)的是現(xiàn)實(shí)世界中的同一個(gè)人。所以這些文章也應(yīng)該被分在同一個(gè)子集中。
圖1通過(guò)一個(gè)示例對(duì)本文研究的問(wèn)題進(jìn)行了說(shuō)明。假設(shè)用查找作者為“Xin Dong”的文章,系統(tǒng)返回的文章有4篇{Paper1,Paper2,Paper3, Paper4},其中Paper1對(duì)應(yīng)的作者為“Dong Xin”;Paper2和Paper3對(duì)應(yīng)的作者為“Xin Dong”;Paper4對(duì)應(yīng)的作者名字為“Xin Luna Dong”。而現(xiàn)實(shí)世界的情況是:這四篇論文中的作者對(duì)應(yīng)現(xiàn)實(shí)世界中不同的3個(gè)人,如圖1所示。本文的目的是找到一種方法將輸入作者名字后檢索得到的文章分為若干類(lèi),使每一類(lèi)中的文章對(duì)應(yīng)現(xiàn)實(shí)世界中的同一個(gè)人。
圖1 研究問(wèn)題描述示例
2.2 初步解決思路
此問(wèn)題可以形式化表示如下:令N為用戶(hù)輸入的作者名稱(chēng),S為作者中包含N的論文集合。并且S表示為一個(gè)集合{Pi|1
根據(jù)人們的日常經(jīng)驗(yàn)可以得出如下結(jié)論: 1) 不同文章的同名作者對(duì)應(yīng)同一單位,那么其可能是同一個(gè)人; 2) 有相同合作者的同名作者很可能是同一個(gè)人; 3) 在相同的期刊或者會(huì)議上發(fā)表文章的文章的同名作者很可能是同一個(gè)人。基于以上結(jié)論,本文提出根據(jù)單一屬性來(lái)對(duì)重名作者進(jìn)行區(qū)分的初步方法。
首先是根據(jù)論文合作者來(lái)進(jìn)行分類(lèi)。令N為用戶(hù)輸入的作者名,假定P1和P2為用戶(hù)輸入N時(shí)的檢索結(jié)果,如果兩篇文章中N的合作者存在交集,則這兩篇文章的作者就被認(rèn)定為同一個(gè)人。
此處,將每一個(gè)作者的名字作為一個(gè)標(biāo)志,使用Jaccard距離來(lái)計(jì)算論文合作者的相似度。P1,P2為兩篇文章,P1.Au.Na代表文章P1的作者集,P1.Au.Na-{N}代表文章P1中名字為N的合作者,同樣,P2.Au.Na-{N}代表文章P2中名字為N的作者的合作者。則Jaccard距離可以根據(jù)以下公式計(jì)算:
如果Jac>0,則認(rèn)為這兩篇文章對(duì)應(yīng)的同名作者對(duì)應(yīng)的是現(xiàn)實(shí)中的同一個(gè)人。
第二種初步方法是基于作者的單位,如果兩個(gè)同名作者的工作單位相同,則這兩個(gè)同名作者被當(dāng)做同一個(gè)人。其所著文章被分為同一類(lèi)。
第三種初步方法是基于論文所發(fā)表的期刊或者會(huì)議,如果兩篇文章發(fā)表在同一個(gè)期刊或者會(huì)議上,在某種程度上,這將意味著兩篇文章有著相似的研究方向,因此他們很可能是同一個(gè)人。
由于問(wèn)題的復(fù)雜性,上述初步方法的分類(lèi)效果并不太好。例如,如果某一作者更換單位,則其可能會(huì)被分到不同類(lèi)中。另外現(xiàn)實(shí)中不同的同名作者和相同的人合作過(guò),這些不同的同名作者會(huì)被錯(cuò)誤地分在同一類(lèi)中。
針對(duì)在第2節(jié)提出的基于單屬性的初步方法的不足,本文提出了更為有效的解決方法。這種方法分為三個(gè)步驟:首先,產(chǎn)生文章的初始集合;其次,根據(jù)作者所在單位將文章分為不同的子集;最后,根據(jù)論文合作者和文章所發(fā)表的期刊或會(huì)議對(duì)第二步產(chǎn)生的子集進(jìn)行聚類(lèi)。
3.1 初始文章集合的產(chǎn)生
為了使檢索結(jié)果更加完整,首先需要找出與所輸入的作者名字相對(duì)應(yīng)的所有的名字。獲得同名作者初始集的方法為:當(dāng)用戶(hù)輸入一個(gè)名字N時(shí),首先獲得一個(gè)N可能的其他表示形式所組成的候選集。以DBLP中的論文為例,作者的名字經(jīng)常是保持固定的,所以大多數(shù)情況下作者名字的形式是規(guī)范的。但是在一些文章中,作者有中間名字,但是也有很多文章的作者沒(méi)有中間名字。
本文提出了如下方法來(lái)根據(jù)用戶(hù)的輸入來(lái)產(chǎn)生可能的同名作者集。令“X(Y)Z”為用戶(hù)輸入的作者名,其中Y為可省略的內(nèi)容,所以可能的同名作者集為:{“XZ”,“ZX“,”Z*X”,”X*Z”},此處“*”指作者的中間名字可能是任意字符串。如果未省略“Y”,可能的同名作者集為{“XYZ”,“XZ”,“ZX”}。例如,如果用戶(hù)輸入的作者名為“Xin Luna Dong”,可以得到可能的同名作者集:{“Xin Luna Dong”,“Xin Dong”,“Dong Xin”}。如果用戶(hù)輸入的作者名為“Xin Dong”,則可能的同名作者集為:{"Xin Dong","Dong Xin","Xin*Dong"}。
基于可能的同名作者集,能夠得到文章初始集。方法如下:對(duì)于任意文章Pi,如果Pi的一位作者包含于可能的同名作者集,則Pi將會(huì)被加入初始集?;诔跏技?本文提出了一種為返回的文章集合基于名字進(jìn)行分類(lèi)的算法,算法分為兩步: 1) 使用嚴(yán)格的規(guī)則將文章集合分為若干子集,保證每一個(gè)子集對(duì)應(yīng)的是同一個(gè)作者; 2) 根據(jù)下文提到的多種規(guī)則將子集合并,得到最終分類(lèi)結(jié)果。
3.2 基于作者所在單位進(jìn)行分類(lèi)
首先是根據(jù)論文合作者來(lái)進(jìn)行分類(lèi)。令N為用戶(hù)輸入的作者名,假定P1和P2為用戶(hù)輸入N時(shí)的檢索結(jié)果,如果兩篇文章中N的合作者存在交集,則這兩篇文章的作者就被認(rèn)定為同一個(gè)人。這種方法的目的是將返回的初始文章集合分為若干子集{Si},每一個(gè)Si代表一個(gè)文章的集合,在這個(gè)集合中,同名作者極有可能代表的是現(xiàn)實(shí)世界中的同一個(gè)人。依據(jù)生活經(jīng)驗(yàn),可以知道同一單位中存在同名的人的概率是很低的,據(jù)此可以根據(jù)作者所在單位產(chǎn)生同名作者集。
由于DBLP中并不包含文章作者的所在單位,因此最大的挑戰(zhàn)是如何獲得作者的單位信息。本文提出了一種方法來(lái)找到并抽取DBLP中文章作者的工作單位并實(shí)現(xiàn)了系統(tǒng)iSearchPapers。對(duì)于如何獲取作者工作單位信息的工作,因與本文并無(wú)太大關(guān)系,因此不作過(guò)多介紹?;诖丝梢缘玫轿恼翽1、P2所對(duì)應(yīng)的作者的單位信息并進(jìn)行比較,如果二者相同則認(rèn)為P1、P2對(duì)應(yīng)作者為現(xiàn)實(shí)世界中同一個(gè)人。
分析發(fā)現(xiàn):作者的工作單位可能有不同的書(shū)寫(xiě)格式。同一個(gè)單位可能有不同的表示方式,可能會(huì)有縮寫(xiě)或者省略的情況。例如"University of Washington"可以表示為:"Univ. Washington"或者“WU”,“Google”可以表示為“Google Inc.”,因此如果僅僅通過(guò)字符串匹配來(lái)確定作者的工作單位是否相同,可能出現(xiàn)錯(cuò)誤。為此,本文在對(duì)作者所在單位的名稱(chēng)的確定過(guò)程中,通過(guò)提取單位名稱(chēng)字符串中的代表詞來(lái)代表該單位,以此來(lái)對(duì)作者工作單位進(jìn)行標(biāo)識(shí),在此過(guò)程中借鑒了TF-IDF的思想。首先,對(duì)于一個(gè)特定的作者名字。該作者所對(duì)應(yīng)的所有單位名稱(chēng)字符串使用IKAnalyzer分詞器進(jìn)行分詞,去除停用詞,得到分詞詞庫(kù),進(jìn)而統(tǒng)計(jì)每個(gè)詞的出現(xiàn)頻率。對(duì)于每一個(gè)工作單位字符串,對(duì)其選擇代表詞的主要思想是:對(duì)于分詞結(jié)果中的每一個(gè)詞在分詞詞庫(kù)中進(jìn)行查找,找出該工作單位所對(duì)應(yīng)的每一個(gè)詞在詞庫(kù)中的詞頻,詞頻較小的詞語(yǔ)被選為代表詞。將具有代表性的詞挑選出來(lái)后,在對(duì)作者的工作單位進(jìn)行比較時(shí)使用代表詞來(lái)代替工作單位的詳細(xì)信息,據(jù)此可以根據(jù)工作單位將初始文章集合分為不同的子集,如算法1所示。
算法1 分類(lèi)方法
輸入:所要研究的作者名稱(chēng)A
輸出:A所對(duì)應(yīng)文章的分類(lèi)結(jié)果S
1.根據(jù)A得到A的可能同名作者集A′
2.對(duì)于A′中所有名稱(chēng)獲得同名作者文章初始集P,P中文章數(shù)目N,P中元素表示為Pj
3.獲取P中所有元素Au.Af屬性的代表詞集合W,W元素個(gè)數(shù)T,W中元素表示為Wj
4.定義i=1,j=1
5.Forifrom 1 toT
6. Forjfrom 1 toN
7. 選出Pj.Au.Af的代表詞Wj
8. If(Wi=Wj)
9. 將Pj插入集合Si中
10. end if
11. end for
12.end for
3.3 基于合作者和論文發(fā)表情況的聚簇
利用算法1所得的子集包含如下特性: 1) 同一個(gè)子集的同名作者極有可能代表現(xiàn)實(shí)世界中的同一個(gè)人。 2) 由于作者可能更換單位,不同子集中的同名作者有可能代表現(xiàn)實(shí)世界的同一人,因此需要將算法1的結(jié)果子集中的文章進(jìn)行合并。
基于第2節(jié)的發(fā)現(xiàn),可以對(duì)算法1進(jìn)一步改進(jìn)。在聚簇方法中考慮了兩種屬性:論文合作者和論文發(fā)表信息。用論文發(fā)表的會(huì)議或者期刊來(lái)近似表示論文作者的研究領(lǐng)域。算法2顯示了聚簇算法的主要過(guò)程。輸入為所有子集,目的是得到最終的聚簇結(jié)果,聚簇過(guò)程中,對(duì)聚簇結(jié)果中的每一個(gè)子集Ri,將其與初始集合S中的子集Si進(jìn)行比較,如果二者中元素的合作者或論文發(fā)表情況存在重疊,則將Si中的對(duì)應(yīng)元素插入Ri中,否則將Si作為一個(gè)獨(dú)立的類(lèi)插入R中。使用貪心算法來(lái)將對(duì)應(yīng)現(xiàn)實(shí)世界中同一個(gè)人的作者的文章進(jìn)行合并。
算法2 聚簇方法
輸入:所有的子集的集合S,S中子集的個(gè)數(shù)m
輸出:聚簇后的子集集合R
1.定義i=1,j=0表示R集合動(dòng)態(tài)增長(zhǎng)
2.對(duì)于S中的每一個(gè)子集Si,Si中任一元素為s,Ri中任一元素為r
3. While(S≠φ,j=j+1)
4. forifrom 1 tom
5. forkfrom 1 toj-1
6. If ((Si.s.Au.Co∩Rk.r.Au.Co≠φorSi.s.Jc∩Rj.r.Jc)≠φ)
7.Rk=Rk∪Si
8. end if
9. 如果Si和所有Rj到Rj-1都不能合并,則Rj=Si
10. end for
11. end for
12. end while
4.1 實(shí)驗(yàn)數(shù)據(jù)集
本文使用眾所周知的計(jì)算機(jī)領(lǐng)域文獻(xiàn)集合DBLP所收錄的ACM出版的學(xué)術(shù)論文來(lái)作為實(shí)驗(yàn)數(shù)據(jù)集。由于本文的方法是基于作者的單位信息。然而,DBLP并沒(méi)有包含作者的單位信息,所以作者開(kāi)發(fā)了原型系統(tǒng)來(lái)從原始數(shù)據(jù)中集成同名作者的單位信息。例如,如果一篇文章發(fā)表在ACM,就從ACM的網(wǎng)站中抽取論文作者單位信息,并作為一篇文章的一個(gè)屬性存入數(shù)據(jù)庫(kù)。由于DBLP中有大量的作者,從中選取了一部分樣本來(lái)進(jìn)行實(shí)驗(yàn)。表1顯示了選取的作者,包括作者姓名、文章數(shù)量、發(fā)表日期和文章所在數(shù)據(jù)源。
表1 實(shí)驗(yàn)中選取的同名作者
在實(shí)驗(yàn)中通過(guò)手工的方法獲得實(shí)驗(yàn)的基準(zhǔn)數(shù)據(jù),作為實(shí)驗(yàn)結(jié)果的對(duì)比。過(guò)程如下:對(duì)于表1中的每一個(gè)作者,通過(guò)輸入作者名來(lái)找出所有的文章。通過(guò)手工的方法對(duì)文章進(jìn)行分類(lèi)。從作者個(gè)人主頁(yè),多個(gè)文獻(xiàn)集合如:Google scholar, ACM digital library, IEEE digital library等來(lái)查找作者信息,并對(duì)同名作者進(jìn)行區(qū)分,獲得基準(zhǔn)數(shù)據(jù)。本文使用Recall,Precision,F-Measure來(lái)評(píng)估所提出方法的有效性。
2) 刪除矩陣的第i行以及第j列,對(duì)剩余的(m-1)(n-1)重新組成矩陣,選擇矩陣中的最大值并得到更多分類(lèi)對(duì)應(yīng)關(guān)系;
3) 繼續(xù)第1)、2)步直到從矩陣中所得到的對(duì)應(yīng)關(guān)系總數(shù)為min(m,n),由于m,n可能不相等,當(dāng)C或C′中元素?cái)?shù)目較小者中所有元素均參與運(yùn)算,算法結(jié)束。
得到對(duì)應(yīng)關(guān)系后對(duì)本文所提出的方法的有效性進(jìn)行評(píng)估,本文使用Recall,Precision和F-measure來(lái)進(jìn)行評(píng)估,計(jì)算方法如下:
Precision=TP/(TP+FP)
(2)
Recall=TP/(TP+FN)
(3)
F-measure=2*Precision/(Precision+Recall)
(4)
式中,TP代表被正確分類(lèi)的文章的數(shù)目,FP表示文章數(shù),FN表示漏報(bào)文章數(shù)。
4.2 實(shí)驗(yàn)結(jié)果
本文用人工的方法將樣本中的名字和結(jié)果進(jìn)行分類(lèi)并作為基準(zhǔn)。另外,根據(jù)基準(zhǔn)數(shù)據(jù)對(duì)本文所提出的分類(lèi)方法的分類(lèi)結(jié)果進(jìn)行了評(píng)估。使用Recall和Precision來(lái)對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)估。
首先,計(jì)算對(duì)應(yīng)于同名作者的分類(lèi)結(jié)果的Recall和Precision。最終的Recall和Precision為樣本中所有作者的論文分類(lèi)的的Recall和Precision的平均值。圖2顯示了最終的實(shí)驗(yàn)結(jié)果。
從實(shí)驗(yàn)結(jié)果可以看出本文所提出的方法的Recall,Precision和F-Measure均為0.9以上。通過(guò)將本算法的分類(lèi)結(jié)果與手工分類(lèi)結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)樣本中的某些名字的手工分類(lèi)結(jié)果與通過(guò)算法進(jìn)行分類(lèi)的結(jié)果存在不同。表明所提出的分類(lèi)方法還存在一些不足。另外由于判斷同名作者是現(xiàn)實(shí)世界中的同一個(gè)人的標(biāo)準(zhǔn)是同名作者是否有相同的合作者。然而不能排除合作者中也有同名不同人的現(xiàn)象。
圖2 同名作者區(qū)分的實(shí)驗(yàn)結(jié)果
4.3 實(shí)驗(yàn)結(jié)果分析
通過(guò)分析沒(méi)有被正確分類(lèi)的文章,發(fā)現(xiàn)有兩類(lèi)錯(cuò)誤。 1) 文章被錯(cuò)誤地分類(lèi)了; 2) 某一類(lèi)中的文章不完整。
對(duì)于第一個(gè)問(wèn)題,分析發(fā)現(xiàn)出在第一次對(duì)子類(lèi)合并的時(shí)候,根據(jù)本文提出的方法,如果兩類(lèi)文章有相同的文章發(fā)表期刊屬性,應(yīng)該將二者合并,所以當(dāng)兩個(gè)同名作者在同一個(gè)期刊上發(fā)表文章時(shí)兩篇文章應(yīng)該歸為同一個(gè)類(lèi)中,盡管這兩個(gè)作者不是同一個(gè)人。
第二個(gè)問(wèn)題是同名作者的文章被分為很多類(lèi),如果同名作者更換了單位、合作者或者發(fā)表文章的期刊或會(huì)議,那么他/她的信息更換前后所寫(xiě)的文章可能不會(huì)有交集。
此外,實(shí)驗(yàn)發(fā)現(xiàn),不同的作者的同名區(qū)分結(jié)果也有一些差別,因此本文所提出的方法依然有一些不足,我們將在以后對(duì)其進(jìn)行完善。
本文提出了針對(duì)文獻(xiàn)檢索的作者同名區(qū)分框架。首先根據(jù)用戶(hù)的輸入產(chǎn)生一組可能的作者名字集合;其次根據(jù)作者名字集合在系統(tǒng)中返回文章集合;最后對(duì)文章集合進(jìn)行分類(lèi),并在分類(lèi)結(jié)果的基礎(chǔ)上使用合作者和論文出處對(duì)分類(lèi)結(jié)果進(jìn)行聚類(lèi),得到最終文章分類(lèi)結(jié)果。上述只是初步工作,在以后的工作中,會(huì)對(duì)文中所提出的方法進(jìn)行改進(jìn),進(jìn)一步提高其有效性。
[1] Dongwon Lee, Jaewoo Kang, Prasenjit Mitra, et al. On. Are your citations clean?[J]. Comm. ACM,2007,50(12):33-38.
[2] Xiaoming Fan, Jianyong Wang, Xu Pu, et al. On Graph-Based Name Disambiguation[J]. Journal of Data and Information Quality(JDIQ),2011,2(2):1-23.
[3] Jie Tang, Alvis Cheuk M. Fong, Bo Wang, et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library[J]. IEEE Trans. Knowl. Data Eng(TKDE),2012,24(6):975-987.
[4] Jiang Wu, Xiu-Hao Ding. Author name disambiguation in scientific collaboration and mobility cases[J]. Scientometrics,2013,96(3):683-697.
[5] Xia Yang, Peng Jin, Wei Xiang. Exploring Word Similarity to Improve Chinese Personal Name Disambiguation[C]//Web Intelligence/IAT Workshops,2011:197-200.
[6] Stasa Milojevic: Accuracy of simple, initials-based methods for author name disambiguation[J]. J. Informetrics (JOI),2013,7(4):767-773.
[7] Anderson A. Ferreira, Adriano Veloso, Marcos André Gon?alves, et al. Laender: Effective self-training author name disambiguation in scholarly digital libraries[C]//JCDL’10,2010:39-48.
[8] Minoru Yoshida, Masaki Ikeda, Shingo Ono, et al. Person name disambiguation by bootstrapping[C]//SIGIR’10,2010:10-17.
[9] Byung-Won On, Ingyu Lee, Dongwon Lee. Scalable clustering methods for the name disambiguation problem[J]. Knowl. Inf. Syst.(KAIS),2012,31(1):129-151.
[10] Pei Li, Haidong Wang, Christina Tziviskou, et al. Chronos: Facilitating History Discovery by Linking Temporal Records[J]. 2012,PVLDB 5(12):2006-2009.
A Method of Same Name Author Distinguishment towards Paper Retrieval
ZHANG Xinzheng1LEI Pengfei2LI Yukun2CHE Xiangdong2
(1. Tianjin Richsoft Electric Power Information Technology Co., Ltd, Tianjin 300384) (2. School of Computer and Communication Engineering, Tianjin University of Technology, Tianjin 300384)
The problem that different authors share the same name brings difficulties for paper retrieval. This paper studies this problem and puts forward a framework towards same name disambiguation in paper retrieval. On the basis of this, the paper also proposes a method based on author’s unit, collaborators and paper periodical information.The experimental results shows the effectiveness of the proposed method in this paper.
authors with same name, paper retrieval, distinguish
2016年8月11日,
2016年9月25日
國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):61170027);天津市應(yīng)用基礎(chǔ)與前沿技術(shù)研究計(jì)劃(編號(hào):15JCYBJC46500)資助。
張新征,男,工程師,研究方向:信息化技術(shù)及管理。雷鵬飛,男,碩士,研究方向:信息集成與信息檢索。李玉坤,男,博士,研究方向:數(shù)據(jù)集成、數(shù)據(jù)庫(kù)與信息檢索。車(chē)向東,男,碩士,研究方向:信息集成與信息檢索。
TP391
10.3969/j.issn.1672-9722.2017.02.005