姜 贏,張 婧,朱玲萱
(北京師范大學(xué) 珠海分校,廣東 珠海519087)
基于本體的家譜知識圖譜模型及檢索系統(tǒng)
姜 贏,張 婧,朱玲萱
(北京師范大學(xué) 珠海分校,廣東 珠海519087)
基于更好地提供家譜知識管理與信息檢索服務(wù)的目的,提出了建立基于本體的家譜知識圖譜模型的方法。采了本體技術(shù)解決了家譜管理模型中宗族人物關(guān)系知識建模問題。利用了本體分子技術(shù)解決了家譜中動態(tài)知識和多粒度知識問題。通過基于Java EE框架B/S模式的家譜檢索系統(tǒng)的開發(fā)與實驗,實現(xiàn)了關(guān)于家譜檢索的5大功能,對于我國家譜館藏知識的挖掘與利用有積極意義,也為本體在復(fù)雜領(lǐng)域知識圖譜的綜合運用提供了新思路。
家譜;本體;本體分子;知識圖譜
家譜是指以記載某一家族血緣世系為核心內(nèi)容的,用以維系家族世次順序的文獻載籍,具有重要的歷史資料價值。數(shù)量可觀的家譜,不僅對家庭制度、婚姻制度、人口與替等研究有著不可替代的資料價值,即對歷史學(xué)、民俗學(xué)、社會學(xué)、經(jīng)濟學(xué)、教育學(xué)等都能提供許多重要資料。如稱雄一世的徽商研究,其中不少有價值的資料主要是從皖南徽商家譜中尋得的[1]。家譜也為尋家族根認同提供重要資料。隨著改革開放的進一步發(fā)展,海內(nèi)外游子過去夢想的尋根謁祖,早已成為現(xiàn)實。特別是香港回、澳門回歸祖國之后,洗雪了百年民族恥辱,海外華人揚眉吐氣,“一國兩制”更增強了海內(nèi)外中華民族子孫的向心力,于是訪故里、訪故舊、訪祖國,掀起了更大的尋根認同熱。浩如煙海的家譜資料則為尋根認同提供了保證。家譜對進行愛國主義教育、開展尋根認同、促時臺灣回歸祖國統(tǒng)一大業(yè),有其他資料不能取代的重要作用。
研究建立家譜知識圖譜模型的主要目的是支持家譜信息的查詢,方便人們追根溯源,以發(fā)掘家譜的歷史文化價值。家譜知識圖譜系統(tǒng)的工作內(nèi)容是通過對現(xiàn)有的家譜信息進行有效的收集、分析,在現(xiàn)有的技術(shù)基礎(chǔ)上,描述家譜知識,建立宗族人物關(guān)系網(wǎng)絡(luò),并使用可視化的方式展示家族動態(tài)變化的過程,以方便人們了解其家族的繁衍過程以及姓氏來源。
隨著信息技術(shù)的普及化,家譜的電子化成為現(xiàn)實,而且電子家譜查詢系統(tǒng)在人們的生活中也有了一定的應(yīng)用[14]。國內(nèi)外影響比較廣泛的電子家譜系統(tǒng)有:1)尋根網(wǎng)[2]:尋根網(wǎng)以家譜為紐帶介紹了全國近五百多個姓氏的源流及歷史人物、歷史典故、分布范圍,家譜收藏研究等多方面的內(nèi)容。尋根網(wǎng)立足從基本地情、人情出發(fā),充分運用現(xiàn)存的家譜和當(dāng)今的人口資料,追溯、探討各姓氏的發(fā)端、由來,以及遷徙的狀況、路線、當(dāng)前的聚居點,同時收集、列舉有關(guān)該姓氏中比較突出的人物及他們所做出的歷史功跡。尋根網(wǎng)有一個尋根檢索欄目。該欄目提供譜資料、百家姓、字輩派語、歷史圖片、歷代年號、新老地名、地方志等家譜信息的查詢。該查詢通過關(guān)鍵詞匹配實現(xiàn),以文本的形式返回查詢結(jié)果。2)中國家譜網(wǎng)[3]:中國家譜網(wǎng)介紹了與家譜相關(guān)的新聞、家譜總目、姓氏文化、譜文化等家譜 知識,幫助人們追本溯源。中國家譜網(wǎng)的檢索欄目可以通過姓氏、分布地、堂號、名人等關(guān)鍵字的匹配進行尋根問祖方面的信息查詢,姓氏拼音、中文姓氏等關(guān)鍵詞的匹配檢索百家姓信息,另外也支持其他關(guān)鍵詞的匹配來檢索古今地名、歷史名人、歷代年號等內(nèi)容的查詢。3)PhpGedView[4]:PhpGedView系統(tǒng)以直觀的圖表展現(xiàn)家譜信息,具有不同語言的版本。其用來傳達信息的圖表主要有一下幾種:家譜結(jié)構(gòu)樹,以樹形圖的形式展現(xiàn)家譜的世系圖,每個人物對應(yīng)的節(jié)點包含有人物圖像、出生日期和死亡日期等信息,并且包含鏈接到人物詳細信息的超鏈接。關(guān)系圖,通過輸入兩個人物的名字,展現(xiàn)這兩個人物的相關(guān)關(guān)系。家系圖,可以檢索人物的父母、兄弟、子女、祖父母的信息。對應(yīng)于每種關(guān)系,以一個樹形圖的形式展示出來。該系統(tǒng)用圖表的形式展現(xiàn)信息,內(nèi)容直觀,但是依然是基于關(guān)鍵字的檢索。
綜上所述,一般的電子家譜主要基于關(guān)鍵詞匹配進行查找,查詢結(jié)果往往是原始的家譜文獻或簡單的家譜結(jié)構(gòu)樹,很少做進一步的智能化處理,不能進行深入的語義挖掘。這些問題正好是本體論及其相關(guān)技術(shù)能夠解決的問題[13]。文中提出基于本體的家譜知識圖譜模型研究,將本體的引進對于解決家譜問題的作用主要體現(xiàn)在3個方面:1)本體描述家譜概念。本體可以很好的描述家譜中的概念,讓家譜信息成為機器可理解的知識,為進一步的推理做好準(zhǔn)備。2)本體分子[5]理論和技術(shù)解決家譜中的動態(tài)知識和多粒度知識問題。3)本體推理實現(xiàn)家譜隱性知識的挖掘。本體推理利用推理公理和推理規(guī)則的使用,根據(jù)現(xiàn)有的本體模型中的三元組得出額外的本體三元組,實現(xiàn)了隱性知識的挖掘。
2.1 宗族人物關(guān)系知識描述問題
作為家譜中最重要的內(nèi)容,“世系表”就是說明一個家族成員,如:父子、兄弟間的相互關(guān)系,寫清楚祖先后代每一個家族成員名字的圖表[15]。它有4種基本的記述格式:歐式、蘇式、寶塔式和牒記式[6]。這四種世系表形式都各有特色,這是一般族譜中比較常見的世系表,但也有其它的變化,在記述家族世系表時,可根據(jù)掌握材料的多少、家族成員的多少等靈活采用。筆者在分析其他家譜系統(tǒng)世系表基礎(chǔ)之上,總結(jié)與提煉家譜知識中共性特征,提供最大限度兼容性以滿足各種類型家譜中個性特征的管理要求,提出了基于本體的家譜世系表知識建模框架。世系表結(jié)構(gòu)可以抽象為一個本體層次模型的樹模型。如圖1中的世系表為樹形結(jié)構(gòu),節(jié)點以性別區(qū)別顏色,男性為淺色背景,女性為深色背景。
圖1 世系表樹形結(jié)構(gòu)圖
在家譜知識圖譜中,宗族人物之間的關(guān)系描述是最重要而又最復(fù)雜的。如 “父母與子女”、“祖父母”、“曾祖父母”、“兄弟姐妹”、“妯娌關(guān)系”、“連襟關(guān)系”、“叔侄關(guān)系”、“姨甥關(guān)系”等等。筆者以本體RDF/OWL語言[7]作為家譜人物關(guān)系描述語言,能夠通過統(tǒng)一的模式表達豐富的人物關(guān)系。人物用本體實例來描述(圖中的節(jié)點),人物之間的關(guān)系用屬性來描述(圖中的邊)。圖中鼠標(biāo)焦點所描述的是“宋慶齡”是“孔令杰”的“阿姨”,也就是一種“姨甥關(guān)系”。通過這種描述方式,可以建立復(fù)雜的家族人物關(guān)系網(wǎng)絡(luò)。
但是如果人物之間關(guān)系過于復(fù)雜,家譜橫跨的歷史時期過于漫長,那么家族人物之間關(guān)系的建立會變得非常費時費力。筆者采取本體推理技術(shù)能夠很好的解決這個問題。本體推理的思路是:只建立家族人物之間最直接的關(guān)系,而對于間接關(guān)系通過制定推理規(guī)則自動生成人物關(guān)系[7]?!八螒c齡”和“孔令杰”的“阿姨”關(guān)系并不需要在數(shù)據(jù)庫中建立,而是通過制定“姨甥關(guān)系”推理規(guī)則自動生成的?!八螒c齡”之所以是“孔令杰”的“阿姨”,原因是以下3條規(guī)則:1)“宋靄齡”是“宋慶齡”的“姐妹”;2)“宋靄齡”是“孔令杰”的“母親”;3)“宋慶齡”是“女性”。 本體通過RDF/OWL語言描述顯性知識(宗族人物直接關(guān)系),通過規(guī)則推理挖掘隱性知識 (宗族人物間接關(guān)系),能夠較好的解決家譜宗族人物關(guān)系問題。
2.2 家譜多粒度知識管理問題
知識管理的粒度指的是知識組織和檢索過程中的基本知識單元的范圍的大小以及描述程度的粗細。在知識粒度劃分方面,家譜知識管理面臨者兩難的局面:一方面以家族人物為知識單元,顯得粒度太細;另一方面,如果以整個家譜作為知識單元,又顯得粒度太粗而且缺乏知識揭示、演化、管理與利用的靈活性。因而,目前迫切需要一種粒度適中的知識單元作為知識管理的基礎(chǔ)。
解決家譜多粒度知識管理問題將采取本體分子技術(shù):同時采用兩種粒度的本體分子,建立兩者之間的關(guān)聯(lián)。如圖2所示,按照“人”作為粒度劃分本體分子,則關(guān)于這個人的家傳、藝文著錄、家譜圖像、所對應(yīng)的家譜可以作為靜態(tài)信息,即為本體分子的 “核子”,婚配情況等動態(tài)信息則作為“離子”;按照“家譜”作為粒度劃分本體分子,則將這個家族的姓氏源流、堂號、家訓(xùn)看成本體分子的“核子”,可能包含的動態(tài)信息則看成本體分子的“離子”。在“人”和“家譜”這兩種知識粒度的基礎(chǔ)之上,可以根據(jù)需要創(chuàng)建新的知識粒度,如“張三的兄弟關(guān)系”、“李四的婚姻關(guān)系”等等。
圖2 基于本體分子的家譜多粒度知識示意圖
2.3 家譜動態(tài)知識演化問題
動態(tài)知識的特點在于,隨時間或情境的延續(xù)或變化,用于揭示知識內(nèi)涵的特征屬性的狀態(tài)以及這些特征屬性之間的關(guān)系都會隨之演化。家譜中存在的動態(tài)知識主要有以下幾種[8]:1)家族的姓氏的起源。比如說諸這個姓,是五代十國的時候,后周有個貴族叫諸葛十朋,趙匡胤發(fā)動陳橋兵變建立宋朝后,又不愿別人打聽到他,諸葛十朋就改姓名諸十朋,隱居在會稽山中,他的后代于是改姓單姓諸,成為諸姓的一個來源。2)家族的姓氏的變化??偟恼f來原因有:避禍改姓、避諱改姓古代帝王的名字不準(zhǔn)別人使用、同一姓因異體字寫法不同,以及少數(shù)民族漢化以將原來的部落改為漢姓。3)家譜中人物的婚姻配偶關(guān)系、人物仕途歷程等等都是隨時間和情境的變化動態(tài)演變的。
解決動態(tài)知識問題也采取本體分子技術(shù)[9]。本體分子按照一定粒度劃分知識語義片段,如人物本體分子和家譜本體分子,主要包括“核子”和“離子”兩個部分。“核子”是本體分子中靜態(tài)不變的知識,如家譜人物本體分子中關(guān)于人物的 “性別”、“出生時間”等等?!半x子”是本體分子中可以動態(tài)變化的知識,如家譜人物本體分子中人物的“姓名”、“婚配關(guān)系”、“仕途歷程”等等。
對于家譜中家族本身,它的“家族姓氏”可能由于各種原因不斷變化,但是家族還是那個家族。比如春秋戰(zhàn)國時期,陪趙太子赴秦的藺相如,因太子途中得急癥而亡被處極刑,割頭挖心,藺氏的家族因此受其株連,為逃避這場災(zāi)難,藺字去頭,挖心(“佳”),改姓為門;清朝由于文字獄,個別姓氏如“查”成了忌諱,于是家譜改成了“香”,隨后,文字獄的平反,姓氏又改了回來?!凹易逍帐稀钡倪@種變化不能說是家族本身的變化,它的核還是沒有變。對于本體分子的控制,最重要的是要抓住本體分子的核子。不管本體分子如何動態(tài)變化,它的核是不會變化的。
由于本體分子中還存在著“離子”在不斷演變,本體分子的形態(tài)可以隨之改變,比如一個人的仕途歷程盛衰表現(xiàn)為各個時期人的經(jīng)歷與境遇的不同變化。針對這些動態(tài)變化的知識,可以建立各種家譜本體分子演化的模型。
3.1 系統(tǒng)總體架構(gòu)
模型系統(tǒng)的整體設(shè)計采用B/S模式,是采用Java EE框架的系統(tǒng)體系結(jié)構(gòu)實現(xiàn)的??蛻舳耸褂脼g覽器訪問服務(wù)器提供的Web接口或Web頁面;服務(wù)器端采用多層體系架構(gòu)設(shè)計,包括:基于Web服務(wù)器的表現(xiàn)層、基于應(yīng)用服務(wù)器的中間層、基于數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)存儲層等,系統(tǒng)的整體結(jié)構(gòu)如圖3所示。視圖表現(xiàn)層為用戶通過瀏覽器訪問信息檢索系統(tǒng)提供了一個基于Web的接口,該層所采用的主要技術(shù)包括客戶端的Prefuse[10]技術(shù),以及服務(wù)器端的JSP、Servlet技術(shù)。應(yīng)用服務(wù)器中間層采用中間件技術(shù),由JavaBean技術(shù)實現(xiàn),運行在應(yīng)用服務(wù)器中。本體查詢組件和本體構(gòu)建組件是整個系統(tǒng)的核心部件,使用了Jena[11]的API來實現(xiàn)。數(shù)據(jù)存儲層是家譜本體庫和家譜本體分子庫,采用AllegroGraph[12]系統(tǒng)實現(xiàn)數(shù)據(jù)存儲,是整個系統(tǒng)的基石。
圖3 系統(tǒng)結(jié)構(gòu)圖
3.2 系統(tǒng)功能
如圖4所示,家譜查詢系統(tǒng)主要包括:家譜檢索,人物檢索,字輩排行,追根溯源,家族名人,家族遷徙,家族輝煌等功能。字輩排行,追根溯源,家族名人和家族輝煌,家族遷徙是該系統(tǒng)的特色欄目,通過這些欄目的使用,用戶可以獲得非常良好的體驗,更加方便快捷地獲取他想獲取的信息。
系統(tǒng)主要功能包括:
1)家譜檢索:家譜檢索欄目主要實現(xiàn)檢索一個家族的基本信息,如姓氏源流,堂號家訓(xùn),世系圖,家傳,家譜圖像,家族關(guān)系等。在世系圖中,用戶輸入姓氏“奇渥溫”,年代“1167-1292”,并指定為“精確查詢”后,點擊“搜索”按鈕,圖6的下半部分的結(jié)果顯示展現(xiàn)出了奇渥溫家族1167年到1292年的世系圖。其中,加了框框的表示的是有官位,框框里面是橙色表示這個人曾經(jīng)是帝王。最上層的“鐵木真”出生于1167年,最下層的“真金”死于1292年。
2)人物檢索:人物檢索欄目用于檢索人物以及人物之間的關(guān)系。下面再分個人查詢和兩人關(guān)系查詢這兩種功能。兩人關(guān)系又可以具體定位到婚姻,兄弟姐妹,平輩,祖孫等關(guān)系。在這里我們使用具名圖來表示不同粒度知識的檢索及動態(tài)知識的表示。
3)字輩排行:字輩排行欄目提供對一個家族中某一字輩的人物及其附近幾代的人物進行檢索的功能。例如,用戶輸入姓氏“歐陽”,字輩“子”,選擇“精確查詢”后點擊“搜索”按鈕,可檢索出“歐陽”家族中,與“子”字輩上下相鄰3個字輩的宗族人物排行。
圖4 基于本體的家譜知識圖譜檢索系界面
4)追根溯源:追根溯源欄目是我們的一個特色欄目。用戶可以借助于此系統(tǒng),追根溯源,查詢自己所在的家族以及該家族的遷徙信息。我們可以簡單地輸入自己或自己的長輩的姓名、字輩信息,有選擇地輸入所在的地域信息,實現(xiàn)或精確或模糊的查詢。
5)家族名人:提供對某個家族的著名人士的查詢。輸入家族姓氏即可查詢到這個家族中的所有名人,點擊名人可查看其詳細信息。也可限制某一時期的名人查詢。例如,用戶輸入姓氏“李”、起始年代沒有明確限制,表示查詢李家有記載的所有家譜,選擇“精確查詢”后點擊“搜索”按鈕,結(jié)果即會顯示在頁面下半部分。系統(tǒng)給出了李家從唐朝開始所有的名人志士的列表,點擊人名后可查看此人物的詳細信息。
制定家譜知識管理標(biāo)準(zhǔn),建立家譜知識圖譜模型,開發(fā)家譜知識檢索系統(tǒng),解決家譜管理模型中靜態(tài)知識的描述問題與動態(tài)知識的演化問題,它對于我國家譜館藏知識的挖掘與利用有積極意義。文中提出采取基于本體的知識圖譜技術(shù)路線,綜合應(yīng)用本體推理、本體分子和本體演化等技術(shù),具有較強的可行性。
[1]徐彬.論明清徽州家譜編修與徽商的互動[J].學(xué)術(shù)研究,2011(6):107-111.
[2]尋根網(wǎng).[EB/OL][2018-06-02].http://xungen.so/.
[3]中國家譜網(wǎng).[EB/OL][2018-06-01].http://www.chinajiapu.com/view/index.asp.
[4]PhpGedView.[EB/OL][2018-05-21].http://www.phpgedview.net/.
[5]董慧,陳文樵,羅憶,等.數(shù)字檔案本體分子論及其應(yīng)用研究[J].中國檔案,2010(3):57-60.
[6]丁紅.浙江家譜版本特征分析 [J].圖書館理論與實踐, 2006(1):104-107.
[7]董慧,余傳明,徐國虎,等.基于本體的數(shù)字圖書館檢索模型研究 (Ⅳ)——歷史領(lǐng)域知識推理機制[J].情報學(xué)報, 2006(6):666-678.
[8]周遠成,夏群芳.漢族姓氏演變源流述略[J].湖南城市學(xué)院學(xué)報, 2005(1):75-80.
[9]董慧,王菲,姜贏,等.基于數(shù)字圖書館的本體應(yīng)用環(huán)境研究.中國圖書館學(xué)報[J],2009(5):52-58.
[10]肖明,栗文超,夏秋菊 .基于Prefuse和層次聚類的信息檢索主題知識圖譜研究[J].現(xiàn)代圖書情報技術(shù), 2012,V28(4):35-40.
[11]Apache Jena.(2010-12-11)[2011-12-23].http://jena.apache.org/.
[12]袁瑩.基于AllegroGraph的空間數(shù)據(jù)語義查詢研究[J].廈門理工學(xué)院學(xué)報, 2011(4):50-54.
[13]夏翠娟,劉煒,陳濤,等.家譜關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺的開發(fā)實踐[J].中國圖書館學(xué)報,2016(3):27-38.
[14]陳智兵.家譜檔案及其管理工作探析[J].蘭臺世界,2015(S5):95-97.
[15]陳國軍,張庭玉.二叉樹電子家譜設(shè)計[J].信息與電腦(理論版),2015(4):88,94.
Ontology based knowledge graph model of genealogical record and retrieval system
JIANG Ying,ZHANG Jing, ZHU Ling-xuan
(Beijing Normal University, Zhuhai 519087, China)
In order to provide better service of genealogical record knowledge management and information retrieval,it presents a method of creating ontology based knowledge graph model of genealogical record.It uses ontology technology to solve the problems of person relations in a family tree.Ontology molecule technology is adopted to resolve the problems of dynamic and multi-granularity of knowledge in genealogical record.A genealogical record retrieval system is developed and experimented based on Java EE framework and B/S model,with 5 major system functions.It puts forwards a new method of comprehensively applying ontology to knowledge graph in the complex domain,which is of great significance of knowledge mining and utilizing of genealogical record in store in China.
genealogical record; ontology; ontology molecule; knowledge graph
TN99
A
1674-6236(2017)12-0161-05
2016-08-22稿件編號:201608159
文化部科技創(chuàng)新項目(201505);廣東省科技計劃項目(2014A080804001)
姜 贏(1981—),男,湖北武漢人,博士,副教授。研究方向:自然語言處理,語義分析。