左昌麒 梅洋 房俊 梁英
摘要:針對(duì)專家推薦場(chǎng)景下中文機(jī)構(gòu)名稱存在語(yǔ)義異構(gòu)的問(wèn)題,提出搜索引擎與規(guī)則相結(jié)合的中文實(shí)體名稱消歧方法,首先利用搜索引擎的映射能力解決異構(gòu)問(wèn)題,然后通過(guò)編輯距離糾正實(shí)體機(jī)構(gòu)名稱,最后使用后綴、縮寫(xiě)等規(guī)則對(duì)實(shí)體進(jìn)行消歧。該方法在12108份包含同名機(jī)構(gòu)實(shí)體的真實(shí)數(shù)據(jù)集上測(cè)試具有良好的性能表現(xiàn),機(jī)構(gòu)數(shù)量降低12%,實(shí)驗(yàn)結(jié)果表明所提方法有效。
關(guān)鍵詞:實(shí)體消歧;搜索引擎;基于規(guī)則;專家推薦
中圖分類號(hào):TP391.1? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)01-0247-03
Abstract: Aiming at the problem of semantic heterogeneity of Chinese institution names in expert recommendation scenarios, a Chinese entity name disambiguation method based on search engines and rules is proposed. First, the mapping capabilities of search engines are used to solve the heterogeneous problem, and then the entity institution name is corrected by editing distance. And finally use suffix, abbreviation and other rules to disambiguate entities.? The method has a good performance when tested on 12108 real data sets containing institutional entities with same names, and the number of institutions is reduced by 12%. The experimental results show that the proposed method is effective.
Keyword: Entity Disambiguation;Search Engine;Rule Based;Expert recommendations
1 引言
當(dāng)前,科技項(xiàng)目評(píng)審一般依賴于專家推薦系統(tǒng)從專家?guī)熘谐槿<摇?shí)體消歧[1]技術(shù)在上述專家推薦場(chǎng)景下能夠解決語(yǔ)義異構(gòu)問(wèn)題。目前國(guó)內(nèi)的中文人名存在大量的重名現(xiàn)象,導(dǎo)致難以定位某些用戶;對(duì)于機(jī)構(gòu)來(lái)說(shuō),機(jī)構(gòu)名稱存在隨著時(shí)間變遷的情況,在使用時(shí)同樣存在簡(jiǎn)稱和簡(jiǎn)寫(xiě)的情況。這些情況造成了數(shù)據(jù)可用性大大降低,故需要通過(guò)實(shí)體消歧辨別不同個(gè)體,為上層算法提供數(shù)據(jù)支持。
中文機(jī)構(gòu)名稱在評(píng)審過(guò)程中一直扮演著重要地位,一般要求評(píng)審專家和項(xiàng)目申請(qǐng)人不能處于同一單位。目前針對(duì)機(jī)構(gòu)名稱的研究主要集中在從大規(guī)模文本中識(shí)別機(jī)構(gòu)。通過(guò)專家?guī)旌蜕暾?qǐng)系統(tǒng)的限制,已經(jīng)使機(jī)構(gòu)名稱相對(duì)規(guī)范,但同一機(jī)構(gòu)不同稱呼的情況仍然大量出現(xiàn)。圖1展示了機(jī)構(gòu)“中國(guó)科學(xué)院計(jì)算技術(shù)研究所”被記錄為“中科院計(jì)算所”,二者實(shí)際上是對(duì)同一機(jī)構(gòu)的稱呼,但因?yàn)閼T用簡(jiǎn)稱造成機(jī)構(gòu)名稱沒(méi)有正確統(tǒng)一化。這在專家推薦的過(guò)程中有可能造成專家回避時(shí)判斷錯(cuò)誤,從而存在專家參與同一機(jī)構(gòu)的申請(qǐng)人項(xiàng)目的評(píng)審的風(fēng)險(xiǎn)。
針對(duì)中文實(shí)體消歧方法,有眾多學(xué)者開(kāi)展了多樣的研究。楊欣欣等[2]提出了一種基于查詢擴(kuò)展的實(shí)體消歧方法,借助互聯(lián)網(wǎng)引擎構(gòu)建查詢規(guī)則并選取前k條結(jié)果用于豐富實(shí)體特征,從而提高了消歧效果。針對(duì)不同實(shí)體與其他信息關(guān)聯(lián)的差異性,譚詠梅等[3]提出了一種結(jié)合實(shí)體鏈接和實(shí)體聚類的消歧方法,彌補(bǔ)了傳統(tǒng)單一使用實(shí)體聚類或?qū)嶓w鏈接方法存在的缺陷。隨著向量化和圖技術(shù)的不斷發(fā)展,有學(xué)者在這方面進(jìn)行了研究。馬曉軍等[4]針對(duì)Skip-Gram不能處理多詞同義的問(wèn)題,采用詞向量的方法在背景知識(shí)庫(kù)中獲取不同詞向量進(jìn)行鑒別。汪沛等[5]提出一種結(jié)合詞向量和圖模型的消歧方法,針對(duì)旅游領(lǐng)域構(gòu)建知識(shí)庫(kù),結(jié)合知識(shí)圖譜和向量化,提升了消歧的效果。上述方法由于領(lǐng)域特點(diǎn),不能夠直接應(yīng)用于評(píng)審專家推薦系統(tǒng),當(dāng)前也出現(xiàn)了一些基于機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)體消歧的研究,但評(píng)審專家推薦系統(tǒng)缺乏標(biāo)注數(shù)據(jù),相關(guān)技術(shù)難以開(kāi)展實(shí)際應(yīng)用。
針對(duì)上述中文實(shí)體名稱消歧問(wèn)題,本文采用了搜索引擎與規(guī)則相結(jié)合的方法,首先通過(guò)百度搜索引擎進(jìn)行消歧,再使用基于編輯距離的機(jī)構(gòu)名稱糾正,最后基于后綴、縮寫(xiě)等規(guī)則進(jìn)行名稱統(tǒng)一,最終得到消歧后的機(jī)構(gòu)名稱。
2 實(shí)體名稱消岐方法
實(shí)體消歧是數(shù)據(jù)融合過(guò)程中的重要環(huán)節(jié),是整個(gè)專家推薦過(guò)程中的重要步驟。本節(jié)主要討論中文機(jī)構(gòu)名稱消歧方法,并基于此方法輔助同名專家的判斷,為后續(xù)專家畫(huà)像構(gòu)建和專家推薦奠定了基礎(chǔ)。
2.1 算法流程
為了解決上述問(wèn)題,本文提出了一種基于搜索引擎與規(guī)則的實(shí)體名稱消歧方法,其流程圖如圖2所示。原始機(jī)構(gòu)名稱經(jīng)過(guò)搜索引擎消歧后,部分機(jī)構(gòu)名稱不存在于搜索引擎中,需要使用基于編輯距離的機(jī)構(gòu)名稱糾正。此時(shí)的結(jié)果需要進(jìn)一步根據(jù)后綴、縮寫(xiě)等規(guī)則進(jìn)行名稱統(tǒng)一,得到消歧后的機(jī)構(gòu)名稱。
具體消岐方法為:對(duì)于每個(gè)機(jī)構(gòu),經(jīng)過(guò)搜索引擎和編輯距離處理后,再由規(guī)則統(tǒng)一規(guī)范化,得到消歧后的機(jī)構(gòu)名稱,綜合所有待消歧機(jī)構(gòu)名稱進(jìn)行處理,得到消歧后機(jī)構(gòu)名稱集合。
2.2 消岐方法
搜索引擎里對(duì)于部分機(jī)構(gòu)別名做了映射處理,在查詢別名時(shí)能夠自動(dòng)跳轉(zhuǎn)至規(guī)范名稱百科頁(yè)面,實(shí)現(xiàn)機(jī)構(gòu)名稱的統(tǒng)一化。本文選取百度百科1的查詢接口,通過(guò)將原始機(jī)構(gòu)名稱作為參數(shù),使用Python模擬瀏覽器訪問(wèn)接口,得到糾正后的機(jī)構(gòu)名稱。在此場(chǎng)景下,機(jī)構(gòu)名稱主要分為3類:
正規(guī)機(jī)構(gòu)名稱:該類名稱已收錄于百度百科中;
別名機(jī)構(gòu)名稱:該機(jī)構(gòu)名稱為收錄于百度百科中其他機(jī)構(gòu)的別名或者簡(jiǎn)寫(xiě),例如“中國(guó)科學(xué)院計(jì)算所”屬于“中國(guó)科學(xué)院計(jì)算技術(shù)研究所”的別名;
未登錄機(jī)構(gòu)名稱:該機(jī)構(gòu)名稱未收錄于百度百科中。
對(duì)于未登錄機(jī)構(gòu)名稱,搜索引擎不能將該類型消歧。本文采取基于編輯距離的機(jī)構(gòu)名稱修正方法。編輯距離(Edit Distance),又稱Levenshtein距離,是指兩個(gè)字符串之間,由一個(gè)轉(zhuǎn)化成另一個(gè)所需的最少編輯操作次數(shù)。編輯操作支持插入、刪除、修改三種操作。編輯距離常用語(yǔ)拼寫(xiě)錯(cuò)誤糾正場(chǎng)景下,針對(duì)已輸入錯(cuò)誤文本智能識(shí)別并提示糾正后的文本。本文選取編輯距離為1或2的機(jī)構(gòu)名稱進(jìn)行修正,如表1所示。
通過(guò)搜索引擎和編輯距離的糾正后的機(jī)構(gòu)后,其數(shù)據(jù)可用性仍然有待提高,需要通過(guò)規(guī)則的方式進(jìn)一步統(tǒng)一中文機(jī)構(gòu)名稱。本文主要考慮后綴和數(shù)字類型機(jī)構(gòu)名稱的統(tǒng)一,對(duì)多個(gè)代表統(tǒng)一機(jī)構(gòu)的名稱進(jìn)行消歧,給出示例如表2所示。
機(jī)構(gòu)名稱經(jīng)過(guò)規(guī)則規(guī)范化之后,機(jī)構(gòu)名稱不規(guī)范情況得到解決,為后續(xù)專家回避任務(wù)提供了可靠的數(shù)據(jù)支持,同時(shí)也為專家畫(huà)像等其他潛在任務(wù)提供了可用性更高的數(shù)據(jù)。
消歧后的機(jī)構(gòu)名稱能夠用于專家判別。由于中文人名的特點(diǎn),存在大量重名的現(xiàn)象。專家或?qū)W者具備所屬機(jī)構(gòu)信息,通過(guò)對(duì)機(jī)構(gòu)名稱的消歧,能夠?qū)⒃緦儆谕粰C(jī)構(gòu)的專家或?qū)W者判別出來(lái)。對(duì)于兩位專家學(xué)者處于同一機(jī)構(gòu)并且同名的情況,本文采取研究興趣相似度判別法,即如果專家學(xué)者的興趣差距較大,即認(rèn)為是不同的專家學(xué)者實(shí)體。
3 實(shí)驗(yàn)及效果分析
本文針對(duì)2016到2018年的評(píng)審數(shù)據(jù)中的中文機(jī)構(gòu)名稱,以及專家?guī)熘械闹形臋C(jī)構(gòu)名稱開(kāi)展實(shí)驗(yàn)。使用基于搜索引擎和規(guī)則的機(jī)構(gòu)名稱消歧方法,基于搜索引擎消歧后,減少機(jī)構(gòu)1391個(gè);基于編輯距離和規(guī)則消歧后,減少機(jī)構(gòu)74個(gè)。不同階段獨(dú)立機(jī)構(gòu)數(shù)量對(duì)比如圖3所示。
從圖3中可以看出,本文所采用的中文機(jī)構(gòu)名稱消歧方法有效改善了中文機(jī)構(gòu)同機(jī)構(gòu)不同稱呼的情況,為后續(xù)算法和策略奠定了基礎(chǔ)。
機(jī)構(gòu)名稱是判斷學(xué)者所屬機(jī)構(gòu)的重要手段,也是一定程度上解決學(xué)者重名的重要方法。由于項(xiàng)目申請(qǐng)數(shù)據(jù)中包含申請(qǐng)人姓名和所在機(jī)構(gòu),在對(duì)機(jī)構(gòu)名稱消歧前后,使用學(xué)者姓名和機(jī)構(gòu)名稱驗(yàn)證,統(tǒng)計(jì)結(jié)果如圖4所示。
從圖表中可以看出,使用學(xué)者姓名和所在機(jī)構(gòu)識(shí)別專家后,獨(dú)立姓名+機(jī)構(gòu)數(shù)量明顯增多,說(shuō)明通過(guò)機(jī)構(gòu)名稱能助判斷學(xué)者重名情況,對(duì)學(xué)者識(shí)別有一定的積極作用。
4結(jié)束語(yǔ)
針對(duì)專家推薦場(chǎng)景下的機(jī)構(gòu)名稱消歧問(wèn)題,提出了一種基于搜索引擎與規(guī)則的中文實(shí)體名稱消歧方法,詳細(xì)介紹了方法的實(shí)施過(guò)程,通過(guò)實(shí)驗(yàn)驗(yàn)證了方法的有效性。未來(lái)可考慮利用機(jī)器學(xué)習(xí)算法自動(dòng)識(shí)別映射規(guī)則,規(guī)避方法中的規(guī)則依賴人工設(shè)置的方式。
致謝:本文得到北京高等學(xué)校高水平人才交叉培養(yǎng)“實(shí)培計(jì)劃”2019年度項(xiàng)目“學(xué)術(shù)大數(shù)據(jù)分析挖掘技術(shù)”的資助,特此感謝。
注釋:
1.? https://baike.baidu.com/item/
參考文獻(xiàn):
[1] Borah P P, Talukdar G, Baruah A. Approaches for word sense disambiguation–A survey[J]. International Journal of Recent Technology and Engineering, 2014, 3(1): 35-38.
[2] 楊欣欣, 李培峰, 朱巧明. 基于查詢擴(kuò)展的人名消歧[J].計(jì)算機(jī)應(yīng)用, 2012, 32(9): 2488-2490.
[3] 譚詠梅,楊雪.結(jié)合實(shí)體鏈接與實(shí)體聚類的命名實(shí)體消歧[J].北京郵電大學(xué)學(xué)報(bào),2014(5):36-40.
[4] 馬曉軍,郭劍毅,王紅斌,等.融合詞向量和主題模型的領(lǐng)域?qū)嶓w消歧[J].模式識(shí)別與人工智能,2017,30(12):1130-1137.
[5] 汪沛,線巖團(tuán),郭劍毅,等.一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J].智能系統(tǒng)學(xué)報(bào),2016,11(3):366-375.
【通聯(lián)編輯:梁書(shū)】