姚天泓 陳艷梅 劉 革 魯 超
(東北大學(xué)圖書館,遼寧 沈陽 110819)
當(dāng)前,科學(xué)研究數(shù)據(jù)總量的迅速增長已經(jīng)給各學(xué)科領(lǐng)域的學(xué)者、研究者帶來了巨大挑戰(zhàn),文獻(xiàn)資源數(shù)據(jù)的海量聚集已經(jīng)超出了人類傳統(tǒng)閱讀和知識處理能力的范疇,面臨著如何有效、合理、科學(xué)地處理、辨識、分析和利用大數(shù)據(jù)集合的問題。隨著計(jì)算機(jī)技術(shù)的發(fā)展和更多學(xué)科領(lǐng)域的交融,人文科學(xué)和社會科學(xué)研究領(lǐng)域出現(xiàn)了更多借助計(jì)算機(jī)數(shù)字信息技術(shù)進(jìn)行輔助研究的現(xiàn)象,更多的傳統(tǒng)信息資源轉(zhuǎn)換成數(shù)字化、數(shù)據(jù)化、文本化知識形態(tài),“從根本上改變了人文知識的獲取、標(biāo)注、比較、取樣、闡釋與表現(xiàn)形式”[1],形成一種大數(shù)據(jù)時(shí)代的人文社會科學(xué)的數(shù)字人文研究方法。數(shù)字人文表現(xiàn)為圍繞人文社會科學(xué)領(lǐng)域開展的特定知識對象的數(shù)字化存儲和應(yīng)用,以及由此衍生出的相關(guān)數(shù)據(jù)資源的組織、加工、挖掘和應(yīng)用研究,數(shù)字人文使計(jì)算機(jī)數(shù)字化技術(shù)和網(wǎng)絡(luò)技術(shù)成為促進(jìn)人文社會科學(xué)研究領(lǐng)域創(chuàng)新、傳播的新推手。
張學(xué)良是中國近代史和東北大學(xué)校史等相關(guān)史學(xué)研究中重要的歷史人物,與張學(xué)良個(gè)人直接相關(guān)的原始資料從1901 年至2001 年跨越時(shí)間長達(dá)百年,百年間所涉及的史料資源內(nèi)容豐富且資料類型(體例)多樣、文本多語言化、載體形態(tài)繁多,既是文化遺產(chǎn)保護(hù)的對象,也是史學(xué)研究的基礎(chǔ)性文獻(xiàn)資源。1996年張學(xué)良將其個(gè)人檔案資料悉數(shù)交給哥倫比亞大學(xué)的善本與手稿圖書館(Rare Book and Manuscript Library)保存,這批資料被定名為“張學(xué)良、趙一荻文件與口述資料”(The Peter H. L. Chang and Edith Chao Chang Papers and Oral History Collection),哥倫比亞大學(xué)還專門開辟了“毅荻書齋”加以保管[2]。2002 年哥倫比亞大學(xué)圖書館又將其整理為55 卷3 萬余片縮微膠片,公布于眾[3]。2011—2013年,東北大學(xué)圖書館對館藏的這批縮微膠片重新整理編排和分類,將膠片內(nèi)容轉(zhuǎn)化為可編輯的文本數(shù)據(jù)形式,經(jīng)內(nèi)容校對、著錄標(biāo)引和數(shù)據(jù)內(nèi)容數(shù)字化,以這批張學(xué)良個(gè)人史料資源為核心數(shù)據(jù)基礎(chǔ)擴(kuò)展資料收錄范圍,構(gòu)建成“張學(xué)良文獻(xiàn)庫”,提供查詢和瀏覽服務(wù)。該數(shù)據(jù)庫對于史學(xué)研究者來說,使原始文獻(xiàn)資源得以數(shù)字化,提供了史料文獻(xiàn)的計(jì)算機(jī)網(wǎng)絡(luò)化數(shù)字形態(tài)文獻(xiàn)資源檢索瀏覽服務(wù)。
大數(shù)據(jù)環(huán)境下,數(shù)字人文提倡將數(shù)據(jù)分析處理能力融合并延伸到人文社會科學(xué)研究者的研究過程中,滲透到研究者的研究思維當(dāng)中。筆者擬在東北大學(xué)張學(xué)良史料資源數(shù)字化工作基礎(chǔ)上,借助數(shù)字人文研究理念和方法,基于CIDOC-CRM(International Committee for Documentation- Conceptual Reference Model)概念框架模型,從數(shù)據(jù)描述規(guī)范、語義標(biāo)注等角度進(jìn)行史料數(shù)據(jù)資源的語義化知識組織研究。
對于人文社會科學(xué)研究者來說,在便捷地根據(jù)自己的需求來檢索數(shù)字化文獻(xiàn)的同時(shí),更需要理解信息的語詞概念關(guān)系和邏輯關(guān)系,從而將檢索到的片段、碎片化信息關(guān)聯(lián)起來,進(jìn)而形成完整的信息圖像。與其他人文社科領(lǐng)域相比較,歷史文獻(xiàn)存量龐大,歷史文獻(xiàn)數(shù)據(jù)庫發(fā)展成數(shù)字化(digitalization)、數(shù)據(jù)化(datalization)、文本挖掘(text mining)3種形態(tài)。數(shù)字化是將文獻(xiàn)從物理形態(tài)轉(zhuǎn)化為電子形態(tài),數(shù)據(jù)化是將文獻(xiàn)資源轉(zhuǎn)化為可量化分析的數(shù)據(jù),編制元數(shù)據(jù)是主要方法[4]?;诒倔w的元數(shù)據(jù)既是可為人所利用、分析的信息資源的語義描述,也是被計(jì)算機(jī)識別的文獻(xiàn)語義標(biāo)注。元數(shù)據(jù)所涉及到的概念框架、詞表和本體所面向的是資源內(nèi)容本身的語義化描述和知識組織構(gòu)建。
當(dāng)前,國內(nèi)外面向數(shù)字資源描述的相對成熟的各種元數(shù)據(jù)概念模型、本體模型、元數(shù)據(jù)標(biāo)準(zhǔn)很多,但尚沒有一個(gè)統(tǒng)一的規(guī)范或標(biāo)準(zhǔn)能夠涵蓋不同領(lǐng)域的多種要求。在這些較為成熟的框架標(biāo)準(zhǔn)中,CIDOC-CRM 概念參考模型、DC元數(shù)據(jù)標(biāo)準(zhǔn)和FOAF資源描述框架詞表等元數(shù)據(jù)管理規(guī)范,較多地被應(yīng)用于文化數(shù)字資源的保護(hù)、管理、利用和開發(fā)階段,在資源存儲、資源檢索、資源聚合、資源關(guān)聯(lián)與共享方面發(fā)揮了較大作用。
CIDOC-CRM 是國際文獻(xiàn)工作委員會的概念參考模型,旨在通過提供可映射到任何文化遺產(chǎn)信息的公共的且可擴(kuò)展的語義框架,實(shí)現(xiàn)對文化遺產(chǎn)資源信息的共享和理解,為文化遺產(chǎn)信息資源提供其所涉及的隱性概念、顯性概念及其關(guān)系的語義定義和結(jié)構(gòu)形式化描述[5]。根據(jù)CIDOC,可將CRM的目標(biāo)定位于實(shí)現(xiàn)各種異構(gòu)文化遺產(chǎn)信息資源之間的信息交換與集成共享,使CRM 成為不同信息系統(tǒng)間交流使用的共用語言。2006 年CIDOC-CRM被國際標(biāo)準(zhǔn)化組織采納為國際標(biāo)準(zhǔn),標(biāo)準(zhǔn)號為ISO21127:2006,它的最新版是6.21(October 2015,Published Version)[6]。這個(gè)版本定義了94個(gè)類(Class)、168個(gè)屬性(Property),類(Class)也被稱為實(shí)體(Entity)。CRM 模型以“E+數(shù)字”作為序號標(biāo)識類別(實(shí)體),其中處于最上層的實(shí)體為“E1 CRM Entity”(CRM實(shí)體);以“P+數(shù)字”作為序號標(biāo)識屬性。實(shí)體是根據(jù)CRM 對術(shù)語進(jìn)行定義,類別(Class)是擁有一個(gè)或者多個(gè)共同特點(diǎn)的一組項(xiàng)目,根據(jù)所具有的特點(diǎn)可以分辨所屬類別的項(xiàng)目,是某種具備可區(qū)別性并獨(dú)立存在的事物;屬性用于定義類與類之間的特定關(guān)系,體現(xiàn)了實(shí)體的內(nèi)涵特征,并通過文字描述的范圍注釋的方式傳達(dá)出來,屬性是實(shí)體間發(fā)生語義描述關(guān)系的鏈接紐帶。
DC 是成熟的描述數(shù)字文獻(xiàn)的通用元數(shù)據(jù)標(biāo)準(zhǔn)框架,包含了DCMI 術(shù)語和應(yīng)用綱要。DC 核心元素集有15 個(gè)[7]:名稱(title)、創(chuàng)建者(creator)、主題(subject)、描述(description)、出版者(publisher)、其他責(zé)任者(contributor)、日期(date)、類型(type)、格式(format)、標(biāo)識符(identifier)、語種(language)、來源(source)、關(guān)聯(lián)(relation)、時(shí)空范圍(coverage)、權(quán)限(rights),可以區(qū)分為資源內(nèi)容描述、知識產(chǎn)權(quán)描述和外部特征屬性描述3個(gè)部分。
FOAF 是一種遵循W3C 體系標(biāo)準(zhǔn)的資源描述框架(RDF)詞表,用于描述人、人群、人的活動的特定屬性及人與人、人與物間的社會網(wǎng)絡(luò)關(guān)系。FOAF 應(yīng)用于Web2.0 社交網(wǎng)絡(luò)中,能針對個(gè)人、用戶的身份屬性信息進(jìn)行精確化、規(guī)范化描述和語義標(biāo)識。以FOAF詞表為基礎(chǔ),可以對史料資源中存在的大量個(gè)人屬性特征及其與他人或?qū)ο箝g的關(guān)系完成歷史文獻(xiàn)概念框架的語義標(biāo)注。
上述3個(gè)應(yīng)用成熟的、針對數(shù)字資源進(jìn)行語義描述的元數(shù)據(jù)集中,DC 元素集主要用于描述網(wǎng)絡(luò)信息資源,與其他元數(shù)據(jù)之間互操作性強(qiáng),適用于對資源的控制和管理進(jìn)行規(guī)范,DC 元素的語義依賴于被描述資源的類型,對于不同的資源類型來說,其元素屬性有不同的語義表述[9]。CIDOCCRM 本體是面向?qū)ο蟮恼Z義模型(object-oriented semantic model),主要目的在于落實(shí)各類異構(gòu)文化信息源的集成、交換共享與關(guān)聯(lián),CRM圍繞與資源對象相關(guān)的歷史事實(shí)、人物、時(shí)間、地點(diǎn)等信息,將與事件相關(guān)的人、物質(zhì)、非物質(zhì)等相關(guān)知識實(shí)體在時(shí)空維度中按照屬性關(guān)系連接起來。與CIDOCCRM 相比,DC 定義的概念和屬性較為精簡,層次結(jié)構(gòu)簡單。在元數(shù)據(jù)語義關(guān)系層面,DC 所有涉及到的屬性和類都使用URI進(jìn)行表述,URI使網(wǎng)絡(luò)資源標(biāo)識體系得以規(guī)范,體現(xiàn)一種對虛擬空間的標(biāo)識和事物定位方式,適于進(jìn)行資源管理和資源控制;CIDOC-CRM以概念間的關(guān)系和屬性描述作為實(shí)體對象的語義描述手段。CIDOC-CRM 作為一種概念框架是專為文化對象信息而設(shè)計(jì)的一種本體詞表,是一種以事件為中心的本體構(gòu)建方法,在描述與歷史事件、歷史時(shí)空、歷史地理信息、政治、文化等背景相關(guān)的資源信息方面,對資源對象的發(fā)生、發(fā)展、演變等動態(tài)信息的描述,與DC 相比較,CIDOC-CRM 更適合用于歷史資源的語義描述。FOAF區(qū)別于DC、CIDOC-CRM 的最大特性是其在對于人的社會網(wǎng)絡(luò)關(guān)系屬性的描述,能夠促進(jìn)資源數(shù)據(jù)集的數(shù)據(jù)關(guān)聯(lián)。
張學(xué)良史料資源的數(shù)字人文數(shù)據(jù)框架是以歷史時(shí)空對象為研究目標(biāo)而構(gòu)建的,與張學(xué)良相關(guān)的歷史文獻(xiàn)資源所涉及的內(nèi)容豐富多樣,所涉及的歷史人物、歷史事件復(fù)雜且時(shí)間跨度長??紤]資源的學(xué)科領(lǐng)域特征、文獻(xiàn)關(guān)聯(lián)性、資源的時(shí)空特征等因素,綜合借鑒和復(fù)用現(xiàn)有成熟元數(shù)據(jù)標(biāo)準(zhǔn)元素,用以構(gòu)建張學(xué)良史料文獻(xiàn)的數(shù)字化資源的數(shù)據(jù)本體屬性規(guī)范標(biāo)準(zhǔn):即以CIDOC-CRM概念參考模型[8]為基礎(chǔ),結(jié)合并參考復(fù)用了DC[10]、FOAF[11]等標(biāo)準(zhǔn)框架的相關(guān)核心術(shù)語屬性。
如表1所示,構(gòu)建的數(shù)據(jù)標(biāo)準(zhǔn)從資源內(nèi)容描述和知識產(chǎn)權(quán)描述兩個(gè)角度對張學(xué)良史料資源進(jìn)行揭示。資源內(nèi)容描述部分基于CRM術(shù)語詞表中的9 個(gè)類別(Class),復(fù)用 FOAF 框架詞表 FOAF:Agent 屬性用以描述與資源對象相關(guān)的個(gè)體人物、人物集合(機(jī)構(gòu)或組織),復(fù)用DC 元素集中DC:Type 和DC:Relation 共兩項(xiàng)元素標(biāo)準(zhǔn)描述資源對象的特征類型和資源相關(guān)信息,共計(jì)由13 個(gè)核心屬性組成,用以描述資源對象所具有的基本性質(zhì)和內(nèi)容特征。知識產(chǎn)權(quán)描述部分從既便于揭示資源的知識產(chǎn)權(quán)信息,又便于對資源對象進(jìn)行管理和著錄的角度考慮,共設(shè)置6 個(gè)核心屬性,復(fù)用了DC元素集5項(xiàng)、CRM術(shù)語1個(gè)類別。
人物(Agent)屬性。人是時(shí)空中動作的發(fā)出者、事件出現(xiàn)的產(chǎn)生者,因而成為人文社會環(huán)境的主體和歷史研究領(lǐng)域的核心。在對史料資源進(jìn)行描述標(biāo)引和數(shù)據(jù)管理中,人(Agent)是元數(shù)據(jù)規(guī)范模型中的核心屬性。歷史時(shí)空下的動作發(fā)出者不只是個(gè)體的人物,也包含以群體人出現(xiàn)的機(jī)構(gòu)、組織、團(tuán)體等集合體。在進(jìn)行元數(shù)據(jù)規(guī)范時(shí),復(fù)用了FOAF:Agent,使該屬性既能描述個(gè)人,也擴(kuò)展到各類人群體。人物(Agent)核心屬性繼承了FOAF:Agent的規(guī)范特性,包含人的性別、出生時(shí)間、愛好習(xí)慣、年齡、生活狀態(tài)、社會關(guān)系等信息屬性,并將對人的事實(shí)信息描述標(biāo)識,以參照和關(guān)聯(lián)的形式與其相關(guān)的人物(或群體)聯(lián)系起來,從而將分散的史料數(shù)據(jù)資源協(xié)同形成知識網(wǎng)絡(luò)、人際關(guān)系網(wǎng)絡(luò),完成資源的聚合和數(shù)據(jù)語義參照。在張學(xué)良史料資源中涉及了中國近代史上眾多歷史人物、團(tuán)體、組織,例如蔣介石、宋美齡、陳布雷、宋子文、孔祥熙、陳誠、陳果夫、陳立夫、戴笠、端納、莫德惠、伊雅閣、楊虎城、閻寶航、邵力子、張治中、張群、張大千等國民黨官員和張學(xué)良的私交好友;中國共產(chǎn)黨、陜北紅軍、國民黨、東北軍、西北軍、軍統(tǒng)、西安綏靖公署、東北大學(xué)等政黨、組織和團(tuán)體。
表1 張學(xué)良史料資源本體核心屬性規(guī)范[7,12]
類型(Type)屬性。史料資源的類型可以按照現(xiàn)有分類體系進(jìn)行區(qū)分和定義,也可以編制受控類型詞表來定義與資源特征相符合的劃分標(biāo)準(zhǔn)。從目前整理情況看,張學(xué)良史料資源類型包含有來往信函、日記、自傳、手札、讀書筆記、影輯、報(bào)紙剪報(bào)、宗教資料、證件、證書、字畫、體檢單等生活檔案資料等約計(jì)30余種,資源種類較為繁復(fù)、多樣化。對于張學(xué)良史料資源內(nèi)容的語義揭示,需要考慮對資源內(nèi)容的語義范疇、功能、種屬、聚類層次等方面問題,選擇復(fù)用DC:Type 作為史料資源的類型(Type)屬性規(guī)范,既考慮到類型屬性值可以靈活采用定制受控詞表(或采用既有敘詞詞表),又能通過URI 提供特定資源的訪問機(jī)制,起到豐富和關(guān)聯(lián)數(shù)據(jù)的目的。
事件(Event)屬性。歷史事件是歷史人物在特定時(shí)空條件下發(fā)生的以及由此衍生的持續(xù)的行為和現(xiàn)象。史料資源中圍繞張學(xué)良及其相關(guān)人物、人的集合體發(fā)生的事件,既有與中國近代史相關(guān)的歷史大事件,如“西安事變”“國共合作”“抗日戰(zhàn)爭”等,也有張學(xué)良的心路變化歷程、友人交往、宗教信仰、個(gè)人愛好、生活瑣事等事件。正是這些大小事件構(gòu)成了歷史史實(shí),是歷史學(xué)科研究的語料源泉。
時(shí)間(Time)屬性。該屬性復(fù)用了CRM:Time-Span類(時(shí)間范圍類),用以定義抽象的時(shí)間范圍,具有時(shí)間的起點(diǎn)、終點(diǎn)和持續(xù)演變的范圍。時(shí)間(Time)屬性是事件(Event)屬性存在的必要條件,兩者息息相關(guān),所描述語義內(nèi)涵是相輔相成的。由于史料數(shù)據(jù)資源本身的特性,時(shí)間(Time)屬性描述的時(shí)間常常會是持續(xù)的時(shí)間范圍、某個(gè)時(shí)期。例如,張學(xué)良史料資源的所呈現(xiàn)出數(shù)據(jù)生命周期和歷史發(fā)展的時(shí)間線是吻合的,資源中圍繞人物實(shí)體(Agent Entity)張學(xué)良展現(xiàn)出的時(shí)間跨度、時(shí)間演變、時(shí)間起點(diǎn)和終點(diǎn)屬性正是中國近現(xiàn)代歷史發(fā)展時(shí)期和歷史轉(zhuǎn)折的重大節(jié)點(diǎn):第一次直奉戰(zhàn)爭(1922年4月28日至5月5日)、第二次直奉戰(zhàn)爭(1924年9月至10月)、皇姑屯事件(1928年6月4日)、東北執(zhí)政(1928年7月)、東北易幟(1928年12 月)、中原軍閥大戰(zhàn)(1930 年5 月至10 月)、九一八事變(1931年9月18日)、東北徹底淪喪(1931年—1945年)、西安事變(1936年12月12日)、國共第二次合作(1937年—1946年)、抗日戰(zhàn)爭(1931年9月18日—1945年8月15日)、囚禁生活(1938年-1990年)、恢復(fù)自由(1990年—2001年)[13-14]。
空間(Place)屬性。即資源中人物對象行為發(fā)生時(shí)所存在的位置空間。例如歷史事件發(fā)生的地理空間或歷史人物行為發(fā)生時(shí)的參照物坐標(biāo)等。歷史研究既注重時(shí)間信息研究,也注重人物的地理空間信息研究,兩者對于歷史學(xué)科來說不可或缺。歷史時(shí)空信息的結(jié)合使歷史事件(Event)通過時(shí)間軸的方式呈現(xiàn)出來,將事件的發(fā)生落實(shí)到現(xiàn)實(shí)空間存在,從而完成歷史追蹤。張學(xué)良史料資源中張學(xué)良在西安事變后被幽禁,幽禁地在各個(gè)歷史時(shí)期、歷史階段都各不相同,其空間移動軌跡與歷史事件的發(fā)生、歷史人物的傾向、歷史時(shí)期的變化都息息相關(guān),張學(xué)良的幽禁地在其54 年的幽禁期中大約有15個(gè),不同歷史時(shí)期各不相同:南京宋子文寓所、溪口蔣宋別墅文昌閣、溪口雪竇山、貴州省修文縣陽明洞、貴陽市麒麟洞、貴州息烽縣陽郎壩、遵義桐梓縣天門洞小西湖、重慶歌樂山戴公館、臺灣井上溫泉、臺灣高雄市西子灣、臺灣臺北市北投居所等地,每個(gè)幽禁地與不同歷史時(shí)期(Time)屬性都能發(fā)生語義關(guān)聯(lián),從而語義推理出張學(xué)良的處境和相關(guān)歷史事件。
在知識產(chǎn)權(quán)描述層面復(fù)用了DC: Identifier、DC: Creator、DC: Date、DC: Format、DC: Right5 種本體術(shù)語,用以描述資源對象的標(biāo)識符、資源創(chuàng)建者、資源形成日期、資源的物理格式、資源相關(guān)版權(quán)聲明。復(fù)用CRM: Curation Activity 用以描述資源對象的典藏管理相關(guān)指示信息。DC 與CRM 兩者對史料資源的特征揭示和屬性描述各有側(cè)重,DC 元素的語義依賴于被描述資源的類型,復(fù)用的DC 五種核心元素能較全面地描述和揭示資源的外部特征,從而實(shí)現(xiàn)對資源對象外部特征的記錄和長期保存,便于用戶的檢索和利用。
張學(xué)良史料數(shù)據(jù)資源所含內(nèi)容豐富、資源類型多樣,在“張學(xué)良、趙一荻文件與口述資料(The Peter H. L. Chang and Edith Chao Chang Papers and Oral History Collection)”數(shù)據(jù)化整理出的信件資源中,大約有150 余人與張學(xué)良保持書信往來,信件往來時(shí)間從1937年開始。從這些往來信件內(nèi)容中可以反映出抗日戰(zhàn)爭時(shí)期的政治生態(tài)關(guān)系、國民黨政府高官的人際交往和對當(dāng)時(shí)局勢的思想傾向與變化,以及張學(xué)良本人的幽禁生活和心路歷程。
以張學(xué)良來往信件資源為例,選取三封信件:蔣介石來信、邵力子來信、致信宋子文,根據(jù)前文所確定的資源核心屬性規(guī)范標(biāo)準(zhǔn),對所含知識內(nèi)容的數(shù)據(jù)文本做語義本體屬性標(biāo)注,形成如表2、表3、表4所示的語義數(shù)據(jù)表(表中所列圖片來源于東北大學(xué)圖書館館藏“The Peter H. L. Chang and Edith Chao Chang Papers and Oral History Collection”縮微膠片)。
遵循CIDOC-CRM 關(guān)于類與類之間的關(guān)系定義和本文所建立的核心屬性規(guī)范,結(jié)合史料資源的學(xué)科和資源特征做歷史人物、事件關(guān)系語義推理,揭示知識本體的語義關(guān)系所表征的知識組織聯(lián)系,如圖1所示。
表2 信件類資源本體屬性語義標(biāo)注——蔣介石致信張學(xué)良
表3 信件類資源本體屬性語義標(biāo)注——邵力子致信張學(xué)良
續(xù)表
表4 信件類資源本體屬性語義標(biāo)注——張學(xué)良致信宋子文
續(xù)表
圖1 知識本體語義關(guān)系
例如:針對本體對象張學(xué)良(Agent)可以通過關(guān)聯(lián)的兩個(gè)Subject 對象:蔣介石致信、邵力子致信,得到與張學(xué)良(Agent)相關(guān)的歷史事件(Event):西安事變、陜甘軍事善后、張學(xué)良復(fù)權(quán)案和解決管禁案、國民黨五屆三中全會。在Subject對象:致信宋子文中出現(xiàn)一個(gè)語義關(guān)聯(lián)對象(relation):戴笠,在蔣介石致信(Subject)中也同時(shí)出現(xiàn)一個(gè)Agent 對象:戴笠,說明“戴笠”與張學(xué)良(Agent)的語義相關(guān)性較大,歷史事實(shí)是軍統(tǒng)戴笠負(fù)責(zé)執(zhí)行對張學(xué)良的囚禁。邵力子致信(Subject)中語義關(guān)聯(lián)Event 中宋子文(Agent)伴送張學(xué)良(Agent)的夫人于鳳至(Agent)到雪竇山(Place),張學(xué)良(Agent)因借錢款(Event)事情致信宋子文(Subject),兩 個(gè) Subject 中 都 關(guān) 聯(lián) 到 宋 子 文(Agent),表明張學(xué)良(Agent)與宋子文(Agent)有個(gè)人交往,通過兩個(gè)Event屬性能夠推知兩人私交密切。
通過對張學(xué)良史料資源數(shù)據(jù)中知識實(shí)體(本體)屬性和值內(nèi)容的定義,建立知識內(nèi)容間的語義關(guān)聯(lián),達(dá)到了使史料資源總的人物關(guān)系、時(shí)間關(guān)系形式化、結(jié)構(gòu)化的目的。用本體語義關(guān)系構(gòu)建復(fù)雜的歷史人物、歷史事件關(guān)系,能使研究者獲得特定歷史人物在特定歷史時(shí)期、歷史事件下的錯(cuò)綜復(fù)雜人際關(guān)系脈絡(luò),以及人物行為發(fā)生的原因和內(nèi)在聯(lián)系。通過語義推理流程,可以從已知的事實(shí)推導(dǎo)和挖掘出隱含的知識,借助數(shù)據(jù)關(guān)聯(lián)和共享機(jī)制實(shí)現(xiàn)數(shù)據(jù)更新、重用和共享。
參照CIDOC-CRM 模型構(gòu)建了數(shù)據(jù)資源的語義本體規(guī)范,通過實(shí)例演示了資源內(nèi)容的語義揭示和組織,以期為構(gòu)建張學(xué)良史料資源語義檢索、本體數(shù)據(jù)的存儲管理和內(nèi)容挖掘,實(shí)現(xiàn)在異構(gòu)數(shù)據(jù)之間的數(shù)據(jù)關(guān)聯(lián)與共享、語義聚合做有益嘗試。通過研究可以看出,數(shù)字人文技術(shù)和理念給史料資源的保護(hù)、整理、管理和應(yīng)用帶來了有益助力,以語義化形式對知識元進(jìn)行組織和關(guān)聯(lián),更契合了人們對數(shù)據(jù)資源的理解方法和認(rèn)知。