郝嘉樹?。▏覉D書館 北京 100081)
?
個人名稱規(guī)范維護新方法探析
郝嘉樹(國家圖書館 北京 100081)
[摘 要]我國采用自上而下、人工操作和封閉的模式影響名稱規(guī)范的維護能力、效率及規(guī)范控制效果?;谥呓换サ淖砸?guī)范、自動人名消歧和開放關聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護方法,借鑒了文獻數(shù)據(jù)庫系統(tǒng)中的著者唯一標識、機器學習領域的自動身份辨識和有效信息源獲取,可改變我國個人名稱規(guī)范數(shù)量少、覆蓋范圍受限和數(shù)據(jù)質量不高的現(xiàn)狀,解決當前名稱規(guī)范模式維護能力差、效率低下和無法與外界互操作等問題,真正發(fā)揮出名稱規(guī)范控制應有的功能及效果。
[關鍵詞]個人名稱規(guī)范維護 自規(guī)范 自動人名消歧 開放關聯(lián)數(shù)據(jù) MARC格式
名稱規(guī)范的重要功能及近幾年越來越傾向于以人為中心的資源組織,使得個人名稱規(guī)范數(shù)據(jù)維護成為圖書館信息組織的重要內容。目前,國內對我國名稱規(guī)范維護工作問題的探討大多集中于從完善編目格式和規(guī)則的角度提升規(guī)范數(shù)據(jù)質量,從多機構聯(lián)合構建角度解決數(shù)據(jù)的共享和重用[1-2]。然而,數(shù)據(jù)質量的提升如果沒有信息源的有效獲取模式,完善格式和規(guī)則只能成為空殼,并且國內多機構聯(lián)合共建仍為自上而下的維護模式,并沒有從根本上提高維護的效率,規(guī)范控制能力仍跟不上資源增長的速度。
筆者認為,當前我國個人名稱規(guī)范維護工作的突出問題有:一是面對海量數(shù)據(jù)資源采用自上而下、由領域內少數(shù)權威機構維護的模式,使得個人名稱規(guī)范數(shù)據(jù)質量、規(guī)模和范圍受到影響與限制,規(guī)范控制能力跟不上資源增長的速度;二是面對大量數(shù)據(jù)和難以獲取有效信息的事實,完全由編目員承擔個人名稱規(guī)范維護工作,出現(xiàn)較多影響規(guī)范控制效果的不完整和白板數(shù)據(jù)①,這種人工維護的方式耗費人力、財力而又效率偏低;三是網(wǎng)絡中發(fā)布了大量與人相關的資源和規(guī)范數(shù)據(jù),我國名稱規(guī)范數(shù)據(jù)封閉在圖書館環(huán)境內無法與已開放數(shù)據(jù)關聯(lián),阻礙發(fā)現(xiàn)、整合已有資源以擴大本地個人名稱規(guī)范規(guī)模和補充完善自身數(shù)據(jù),另外,數(shù)字化環(huán)境充斥的今日,期刊數(shù)據(jù)庫、網(wǎng)絡資源等對人名消歧和辨識有強烈的需求,然而封閉在圖書館內的規(guī)范數(shù)據(jù)卻無法提供給外界使用。
針對以上問題,本文借鑒文獻數(shù)據(jù)庫系統(tǒng)中的著者唯一標識、機器學習領域的自動身份辨識和有效信息源獲取,提出基于著者交互的自規(guī)范、自動人名消歧和開放關聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護方法,并分別對這些方法進行介紹,指出它們可解決的名稱規(guī)范問題,并給出如何實現(xiàn)維護的具體方案或做法。
2.1 自規(guī)范模式及相關應用
因為著者更了解自身的相關信息和著作,所以采用自下而上、由著者主導的聯(lián)合共建模式,是提升個人名稱規(guī)范數(shù)據(jù)質量、規(guī)模和范圍的途徑與方法。本文將無需外界指令而由著者自發(fā)和協(xié)同地實現(xiàn)個人信息生成和完善,以及不同人辨識的過程稱為自規(guī)范。自規(guī)范是一種自下而上、去中心化的由著者主導的聯(lián)合共建模式,由著者協(xié)同地維護個人名稱規(guī)范數(shù)據(jù)。
著者交互的自規(guī)范可解決自上而下維護模式的問題,具體表現(xiàn)在:一是廣泛的著者參與能消除自上而下維護的局限,擴大個人名稱規(guī)范數(shù)據(jù)的規(guī)模和范圍;二是著者熟悉自身情況,能準確辨識規(guī)范庫中的個人身份,區(qū)分同名著者,發(fā)現(xiàn)由更名、別名構建的重復記錄;三是添加和修改生卒年、研究領域、相關作品、所在機構等信息,可完善名稱規(guī)范數(shù)據(jù),提高個人名稱規(guī)范數(shù)據(jù)質量。
自規(guī)范應用出現(xiàn)在文獻數(shù)據(jù)庫系統(tǒng),這些系統(tǒng)大都由著者填寫自身及相關學術信息并進行注冊,系統(tǒng)會為每個著者分配一個唯一標識符(Identifier),如Research ID[3]、Scopus Author ID[4]和arXiv Author ID[5]等。該做法可有效消除姓名拼寫方式混淆和重名問題,但只局限在某一范圍或系統(tǒng)內,整體上還是削弱了著者標識符辨識度,同時系統(tǒng)間的分割導致了同一著者多次注冊、多入口操作和有多個標識符。針對以上情況,近幾年出現(xiàn)了ORCID(Open Researcher and Contributor Identifier,開放研究者與貢獻者身份),目的是解決各系統(tǒng)間著者姓名混淆和識別問題。ORCID在兼容性和互操作方面進行嘗試,建立與各系統(tǒng)著者標識符的關聯(lián),并將著者相關信息和科研情況聚合起來;同時不受學科、機構和地理的限制,免費向全球學術界開放并提供服務[6],這種擴大數(shù)據(jù)和服務范圍的做法真正起到了不同著者唯一身份辨識的作用。
2.2 基于自規(guī)范的個人名稱規(guī)范維護
個人名稱規(guī)范維護可借鑒自規(guī)范相關應用,以搭建網(wǎng)絡平臺為渠道,通過著者辨識、修改、合并和新增等參與形式達到維護個人名稱規(guī)范數(shù)據(jù)的目的。構建自規(guī)范平臺要重點實現(xiàn)以下3方面:
(1)在數(shù)據(jù)維護方面,著者新增或修改的信息項包括別名、更名、出生年月、所在機構、發(fā)表文獻情況、研究興趣、教育程度、工作單位和開展項目等,平臺構建者需將其與規(guī)范數(shù)據(jù)MARC格式建立映射,用以自動完善個人名稱規(guī)范數(shù)據(jù)附加成分、單純參照等相關字段,并能將著者在平臺新建的數(shù)據(jù)批量轉化為圖書館規(guī)范記錄,從而大幅提高個人名稱規(guī)范數(shù)據(jù)的維護效率。
(2)在系統(tǒng)設計方面,通過技術手段和友好性設計降低著者參與的復雜度。平臺構建者需規(guī)避專業(yè)的MARC格式,設計新增、修改、合并模板并內嵌到系統(tǒng)內,通過著者參與挖掘頭腦里有關人的事實信息來新建、修改和補充個人記錄。除此之外,以易于理解的形式和語言幫助著作開展相關操作,同名規(guī)范數(shù)據(jù)的展示要利于其辨識,盡量采取客觀形式完成信息項的填寫。
(3)在參與度方面,要增強著者粘性。只維護數(shù)據(jù)難以提高著者的參與興趣,平臺構建者應設計相關功能來增強著者參與的驅動力,如開發(fā)個人科研管理模塊以自動導入和生成科研成果,幫助著者發(fā)現(xiàn)開展相似項目的合著者等;同時與出版界、科研機構、學術界等開展合作,他們對科研產(chǎn)出者有準確識別和名稱消歧的需要,通過這些切合點帶動更多的科研產(chǎn)出者參與到自規(guī)范中,從而擴大個人名稱規(guī)范維護和控制的范圍和能力。
我國存在大量未能顯著區(qū)分的同名個人名稱規(guī)范數(shù)據(jù),該類數(shù)據(jù)在維護和書目掛接時需要人工逐條分析、比對和辨別,嚴重影響編目員的工作效率,成為個人名稱規(guī)范維護和控制中的突出問題。自動人名消歧可彌補人工維護的不足,利用相關方法和技術自動區(qū)分重名著者和聚合著者別名作品,從而實現(xiàn)個人名稱規(guī)范維護及控制。另外,受圖書館傳統(tǒng)維護模式與方法的影響,我國名稱規(guī)范控制工作局限于專著領域,而數(shù)字圖書館、網(wǎng)絡資源和期刊數(shù)據(jù)庫等對名稱規(guī)范控制有強烈的訴求,自動人名消歧非常適用于網(wǎng)絡和數(shù)字環(huán)境,有快速區(qū)分海量數(shù)據(jù)著者及其作品的能力,更好地適應不斷擴大的數(shù)字化趨勢。
3.1 基于著作文體的辨識
文體學是用統(tǒng)計學中定量方法來分析著者寫作風格的一種學科。著者都具有自己特定的寫作習慣和風格,這種無意識和根深蒂固的寫作習慣和風格會在所寫的著作中通過各種特征表現(xiàn)出來。因此,計算機可以通過統(tǒng)計特征來分析著者寫作風格,從而能快速區(qū)分同名著者作品、聚合同人異名作品。
首先,著者文體識別需要提取出能代表著者文體風格的識別特征(Identification Attributes),并根據(jù)這些特征評估作品之間文體風格的相似程度。能有效區(qū)分著者文體的識別指標可歸類為4個方面(見表1)[7-8]。其中,詞匯和句法特征中詞、標點符號和功能詞等的使用情況可以體現(xiàn)著者的寫作特點和風格;結構特征反映著者如何組織整個篇章結構,不同著者對整體文本的呈現(xiàn)有不同偏好;內容特征體現(xiàn)著者感興趣的主題類別。
表1 文體風格識別指標
其次,著者文體識別需設計各識別指標的統(tǒng)計方法或公式。詞匯特征中,基于字的特征中各平均數(shù)指標分別用總數(shù)字個數(shù)、總字母個數(shù)、總空格數(shù)、每個特殊字符數(shù)除以總字數(shù)得出,而平均每句字數(shù)用總字數(shù)除以句子數(shù)得到;基于詞的特征提取要進行中文分詞,可利用已有成熟的分詞軟件,平均詞長用總字數(shù)除以總詞數(shù),平均每句中的字數(shù)和詞數(shù)分別用總字數(shù)和總詞數(shù)除以句子數(shù)獲??;句法特征中,通過統(tǒng)計標點符號、功能詞和詞性的使用頻率來判斷著者的寫作風格;結構特征中平均每段的句、詞、字數(shù)分別用總句數(shù)、詞數(shù)和字數(shù)除以段落數(shù)獲得;內容特征主要抽取能表達主題的關鍵詞,可通過TF-IDF、詞頻、互信息等方法提取。
3.2 基于著作外部特征的辨識
基于著作外部特征的辨識是利用著者的合著者、題名、研究方向、關鍵詞、出版物名稱及類型、著者機構、引文和分類號等作為特征,使用機器學習中的相似度計算、自動分類及自動聚類等方法,將重名著者中同一人的作品聚合在一起,而將不同人的作品分開的過程,可利用該方法自動區(qū)分重名著者和聚合同人別名著者的作品,達到個人名稱規(guī)范維護及控制的目的。
(1)算法介紹
基于著作外部特征的辨識包括著者分組法和著者分配法。著者分組法通過相似度函數(shù)計算文獻屬性的相似度值從而將同一著者的作品集合到一起,其中值越高代表文獻之間的相似度越高,表明為同一著者所著的可能性就越大。計算相似度包含兩種算法:預定義相似度函數(shù)是在算法中植入預先定義的函數(shù)或公式,如余弦相似函數(shù)、TFIDF、Levenshtein距離和Jaccard公式等[9];基于學習的相似度函數(shù)需要訓練數(shù)據(jù)集②來標注各個文獻是否屬于同一著者,然后在此基礎上生成精確的相似度函數(shù)來區(qū)分同名作品[10-11]。
著者分配法構建著者模型,將作品分配給不同的著者,包括分類和聚類兩類方法。分類法需要準備訓練數(shù)據(jù)集,即用相關特征與正確著者關聯(lián)以幫助訓練生成消歧函數(shù),之后用該函數(shù)對作品集合選擇分類算法進行分配[12-13];聚類方法通過構建著者的數(shù)學模型,直接選擇相應的聚類算法,如劃分法、層次法、基于密度的方法和基于網(wǎng)格的方法等將作品分配給所屬的著者[14-15]。
(2)算法選用
著者分組法針對只有一個同名著者而有多個作品的情況,通過計算作品之間的相似度聚合同一著者的作品;著者分配法適合有多個同名著者且有多個作品的情況,區(qū)分同名異人的作品,聚合同人異名的作品。
著者分組法包含的兩種方法各有優(yōu)劣,在區(qū)分同名著者作品時,要根據(jù)自身數(shù)據(jù)情況選擇合適的算法?;趯W習的相似度函數(shù)對不同數(shù)據(jù)集都有好的區(qū)分結果,但是需要大量的例子和充足的特征,構建費時費力;預定義函數(shù)不需要訓練數(shù)據(jù)集,但是面對不同的集合需要調整新的函數(shù)來適應。對于已有訓練數(shù)據(jù)集基礎、易構建的情況,可考慮采用基于學習的相似度函數(shù)方法,否則可采用高效的預定義函數(shù),嵌入較多的預定義函數(shù)以增強對數(shù)據(jù)的適應性。
著者分配法中,分類方法有較高的準確度,但需人工構建訓練數(shù)據(jù)集,面對海量數(shù)據(jù)進行人工標注的工作量巨大,限制了該方法在自動人名消歧中的應用。聚類方法不需要訓練數(shù)據(jù)集,適用性較高,是當前自動人名消歧的主流方法,但預先設定聚類個數(shù)、判斷數(shù)據(jù)分布特征等做法影響準確性,因此EM算法和Gibbs抽樣可彌補一般聚類算法的不足。
4.1 去除MARC格式
MARC格式是制約當前圖書館資源開放利用的最大障礙。隨著技術的發(fā)展和信息環(huán)境的改變,讀者利用圖書館資源的對象和方式發(fā)生巨大變化,MARC格式的種種局限在網(wǎng)絡時代越來越成為絆腳石:一方面在技術上,圖書館的MARC記錄雖然可以通過互聯(lián)網(wǎng)查詢,但是ISO2709格式依然作為其交換格式,除了按照C/S時代研發(fā)的Z39.50標準開放的API接口之外,基本沒有其他互操作方式;另一方面在領域上,網(wǎng)絡上充斥的錯誤、冗余和虛假信息需要規(guī)范控制,而MARC因其領域上的封閉性已無法滿足這種需求。MARC格式的數(shù)據(jù)被牢牢“圈養(yǎng)”在各個圖書館的OPAC范圍內,缺乏方便生成一個國家或地區(qū)的聯(lián)合數(shù)據(jù)的技術和能力,更不用說開放給整個社會使用[16]。
名稱規(guī)范發(fā)布為開放關聯(lián)數(shù)據(jù),是采用RDF格式將封閉在圖書館由MARC格式表示的名稱規(guī)范數(shù)據(jù)開放到Web上,通過定義能用于識別名稱規(guī)范的詞匯集以實現(xiàn)唯一標識,并借助這些詞匯建立相關名稱標識的自動語義鏈接,實現(xiàn)與其他系統(tǒng)數(shù)據(jù)的互操作以及無縫訪問和獲取多來源、異構資源,具體表現(xiàn)在:
(1)我國名稱規(guī)范控制工作局限于專著領域,名稱規(guī)范通過獲取來源于期刊數(shù)據(jù)庫、網(wǎng)絡和他國信息源的開放關聯(lián)數(shù)據(jù),能夠擴展本地名稱規(guī)范數(shù)據(jù)種類、范圍和規(guī)模[17]。
(2)完善和提升本地數(shù)據(jù)質量。本地規(guī)范記錄可通過URI(Uniform Resource Identifier,統(tǒng)一資源標識符)和詞匯集的關聯(lián)自動發(fā)現(xiàn)和整合開放數(shù)據(jù)集合中特定人的相關信息,可用來完善自身附加成分、單純參照和信息附注,提高個人名稱規(guī)范數(shù)據(jù)質量。除此之外, skos:related等詞匯挖掘與該規(guī)范記錄相關的人和機構等從而幫助構建個人名稱規(guī)范數(shù)據(jù)的相關參照。
(3)圖書館高質量的規(guī)范數(shù)據(jù)在語義網(wǎng)環(huán)境下開放,可以被外部檢索使用,能夠促進對分布異構式網(wǎng)絡發(fā)揮規(guī)范控制作用。
4.2 基于開放關聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護
基于開放關聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護涉及到管理策略和具體實現(xiàn)。機構首先要制定相關管理策略,包括開放哪些數(shù)據(jù),在技術和人力方面的支持、準備和管理等。在實施初期可以分階段逐步推進,在實現(xiàn)規(guī)范數(shù)據(jù)自身開放的基礎上,逐漸實現(xiàn)與其他資源的互操作。
實現(xiàn)基于開放關聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護的措施具體有以下3方面:
(1)用URI標識規(guī)范記錄
URI形式穩(wěn)定,和規(guī)范記錄是固定關系,因此無論何種環(huán)境都可用URI來表示該規(guī)范記錄,避免由名稱表示人名帶來的種種歧義[18]。用戶通過HTTP URI訪問來實現(xiàn)對數(shù)據(jù)的參引(Dereference,即查找和獲?。?。
(2)個人名稱規(guī)范數(shù)據(jù)的語義描述
名稱規(guī)范數(shù)據(jù)的語義描述就是將名稱規(guī)范數(shù)據(jù)MARC格式轉換為RDF表達形式,即通過“主體-謂詞-客體”三元組(Triple)描述著者規(guī)范中各項內容[19]。
建立個人名稱規(guī)范數(shù)據(jù)MARC格式字段及子字段對應的RDF詞匯映射表,方便計算機自動批量實現(xiàn)名稱規(guī)范數(shù)據(jù)的語義化描述。為保證共享和重用,數(shù)據(jù)在轉化過程中要盡量利用已標準化和成熟的詞匯集描述,避免自造新詞匯,并根據(jù)中文人名的特點,采用SKOS(Simple Knowledge Organization System,簡單知識組織系統(tǒng))[20]、Schema. org[21]和FOAF(Friend of a Friend,朋友的朋友)[22]已有詞匯組合定義中文人名規(guī)范數(shù)據(jù)的語義描述詞匯集,如表2所示。
表2 RDF詞匯與名稱規(guī)范MARC格式映射表
(3)與其他數(shù)據(jù)集建立關聯(lián)
建立與其他外部數(shù)據(jù)集的廣泛關聯(lián),便于本地數(shù)據(jù)在不同數(shù)據(jù)集跳轉,幫助本地數(shù)據(jù)發(fā)現(xiàn)、重用已有資源來擴大本地規(guī)范規(guī)模和完善自身數(shù)據(jù)。目前可選擇關聯(lián)的與人相關的開放數(shù)據(jù)有:VIAF(Virtual International Authority File,虛擬國際規(guī)范文檔)和NACO(Name Authority Cooperative Program,名稱規(guī)范合作項目)都聯(lián)合了多國的名稱規(guī)范數(shù)據(jù);BIO本體描述關于人的傳記類信息,包括出生日期、職業(yè)、事件、地點等信息;Wikipedia可定位關于人的百科文章;FOAF對人及其所關聯(lián)的社會網(wǎng)絡進行描述;Organization本體描述機構,包括成員、角色和活動等信息[23]。
關聯(lián)其他數(shù)據(jù)源雖然可通過匹配算法實現(xiàn),仍需要人工修正,因此并不是要關聯(lián)任何來源數(shù)據(jù),而是根據(jù)一定的標準來選擇:一是該資源被廣泛參考引用,二是該資源信息豐富,可用來完善本地數(shù)據(jù)。
我國名稱規(guī)范維護中的突出問題希望能引起相關機構的關注及重視,采用相關方法和措施幫助改善我國名稱規(guī)范維護能力和效率較低下、數(shù)據(jù)質量不高的現(xiàn)狀,真正發(fā)揮出名稱規(guī)范控制應有的功能及效果。
注 釋:
①白板數(shù)據(jù)為只有著者姓名而無其他信息的數(shù)據(jù)。
②訓練數(shù)據(jù)集屬于機器學習中語料庫的范疇,通過其可獲得相關參數(shù)以提高準確性。
參考文獻 :
[1]曹玉強.國家圖書館中文名稱規(guī)范的探討[J].圖書館建設,2007 (3):46-48.
[2]謝琴芳. CALIS中文名稱規(guī)范數(shù)據(jù)庫建設方案及其實施進展[J].新世紀圖書館, 2005(1):3-6.
[3]Research ID[EB/OL]. [2015-08-27]. http://www.researchid.com/.
[4]Scopus Author Identifier [EB/OL]. [2015-08-27]. http://help. scopus.com/Content/h_autsrch_intro.htm.
[5]Author Identifiers[EB/OL]. [2015-08-27]. http://arxiv.org/help/ author_identifiers.
[6]What is ORCID[EB/OL]. [2015-09-18]. http://orcid.org/content/ initiative.
[7]呂英杰, 范 靜, 劉景方. 基于文體學的中文UGC作者身份識別研究[J]. 現(xiàn)代圖書情報技術, 2013,29(9):48-53.
[8]Baayen H, Halteren H V, Neijt A, et al. An Experiment in Authorship Attribution[C]// In Proceedings of the 6th International Conference on Statistical Analysis of Textual Data. Saint Malo:LED, 2002:29-37.
[9]Soler M. Separating the Articles of Authors with the Same Name[J]. Scientometrics, 2007,72(2):281-290.
[10]Torvik V I, Smalheiser N R. Author Name Disambiguation in MEDLINE[J]. ACM TKDD, 2009,3(3):1-29.
[11]Ferreira A A, Goncalves M A. Laender A H F. A Brief Survey of Automatic Methods for Author Name Disambiguation[J]. SIGMOD Record, 2012,41(2):15-26.
[12]郭 舒. 文獻數(shù)據(jù)庫中作者名自動化消歧方法應用研究[J]. 情報雜志, 2013,32(9):132-137.
[13]Han Hui, Zha Hongyuan, Giles C L. Name Disambiguation in Author Citations Using a K-Way Spectral Clustering Method [C]// In Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2005:334-343.
[14]任景華. 利用優(yōu)化的DBSCAN算法進行文獻著者人名消歧[J].圖書館理論與實踐, 2014(12):62-68.
[15]Tang Jie, Fong A C M, Wang Bo, et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library[J]. Knowledge and Data Engineering, 2012,24(6):975-987.
[16]劉 煒.書目數(shù)據(jù)新格式BIBFRAME及其應用[J]. 大學圖書館學報, 2014(1):5-13.
[17]Ilik V. Cataloger & Makeover: Creating Non-MARC Name Authorities[J]. Cataloging & Classification Quarterly, 2015(53): 382-398.
[18]Report for PCC Task Group on the Creation and Function of Name Authorities in a Non-MARC Environment[EB/OL]. [2015-09-27]. http://www.loc.gov/aba/pcc/rda/RDA%20Task% 2 0grou ps%2 0 and%2 0char ges/R epor t P CC T Gon NameAuthInA_NonMARC_Environ_FinalReport.pdf.
[19]Schreiber G, Raimond Y. PDF 1.1 Primer[EB/OL]. [2015-06-07]. http://www.w3.org/TR/rdf11-primer/.
[20]Simple Knowledge Organization System Reference [EB/OL]. [2015-09-18]. http://www.w3.org/TR/2009/REC-skosreference-20090818/.
[21]Person[EB/OL]. [2015-09-18]. http://schema.org.cn/Person.
[22]Dan B, Libby M. FOAF Vocabulary Specification 0.99[EB/OL]. [2015-09-18]. http://xmlns.com/foaf/spec/.
[23]賈君枝. 開放書目數(shù)據(jù)的實現(xiàn)與發(fā)展[J]. 晉學圖刊, 2015(1): 1-4.
Study on the New Methods of Personal Name Authority Maintenance
[Key words]Personal name authority maintenance; Self-authority; Automatic author name disambiguation; Open linked data; Non-MARC
[Abstract]Top-down, artificial and closed maintenance mode in our country have seriously affected the name authority maintenance's ability and efficiency, and also affected the effect of authority control. Personal name authority maintenance methods of self-authority based on author interaction, automatic author name disambiguation and open linked data draw the lessons from the contributor identifier in the document database system, automatic authorship identification of machine learning domain and effective information source acquisition, change the status of less quantity, limited coverage and low quality of data in China, resolve the problems of name authority maintenance mode, such as poor maintenance capacity, low efficiency and unable to operate with the outside world, which developing function and effect of the name authority control.
[中圖分類號]G254
[文獻標識碼]A
[作者簡介]
郝嘉樹 女,1983年生,現(xiàn)工作于國家圖書館,館員,已發(fā)表論文5篇,參與編寫著作5部。
[ 收稿日期:2015-10-13 ]