■譚碧云,王秀梅
(1.惠州市排水管理中心,廣東 惠州 516000;2.廣東藥科大學(xué),廣東 廣州 510006)
數(shù)字檔案項(xiàng)目已在臺(tái)灣國家自然科學(xué)博物館(NMNS)建立。該項(xiàng)目旨在設(shè)計(jì)各種自然科學(xué)領(lǐng)域,如動(dòng)物學(xué)、植物學(xué)、地質(zhì)學(xué)和人類學(xué)。盡管可以使用查詢或通過元數(shù)據(jù)模式或超鏈接手動(dòng)表示內(nèi)容,但這項(xiàng)研究認(rèn)為,數(shù)字檔案是提供“知識(shí)”的一個(gè)有前途的模型。當(dāng)前NMNS 的可用性只關(guān)注于提供明確的靜態(tài)信息。因此,當(dāng)前的系統(tǒng)不足以支持高級知識(shí)工程,例如,知識(shí)推理過程。
數(shù)字博物館應(yīng)用信息技術(shù)建立在線服務(wù),用戶無需親自到場即可訪問。我們還要考慮當(dāng)前信息系統(tǒng)面臨的一些挑戰(zhàn),以使公眾能夠重復(fù)使用和共享知識(shí)。本體是一種用于知識(shí)管理的方法,用于創(chuàng)建定義良好的知識(shí)庫。本體需要以系統(tǒng)的、細(xì)粒度的方式構(gòu)建,因?yàn)楝F(xiàn)實(shí)世界的認(rèn)知和本體的概念結(jié)構(gòu)之間存在很大的差距,需要發(fā)展構(gòu)建。因此,本研究具有以下目標(biāo):設(shè)計(jì)一種有效識(shí)別本體概念結(jié)構(gòu)的方法以及設(shè)計(jì)使用基于邏輯的語言輔助知識(shí)推理的方法。為了實(shí)現(xiàn)這些目標(biāo),本研究檢查了現(xiàn)有的提取方法,調(diào)查了相應(yīng)的工具,并進(jìn)行了必要的修改。本研究采用形式概念分析(FCA)來識(shí)別概念并確定其層次關(guān)系,簡化描述在本體中的應(yīng)用。此外,開發(fā)人員不需要太多的設(shè)計(jì)時(shí)間或數(shù)學(xué)技能應(yīng)用DL模型。
為了建立本體概念框架并發(fā)現(xiàn)概念之間的層次結(jié)構(gòu),本研究采用形式概念分析(FCA)方法。FCA 最初是一種基于詞匯和層次問題的數(shù)據(jù)分析方法,將元素分類為形式對象和形式屬性。正式對象和屬性的集合,以及它們之間的關(guān)系,形成了一個(gè)“正式上下文”。當(dāng)對象和屬性中的關(guān)系不能增加時(shí),這對關(guān)系是封閉的,并進(jìn)一步稱為“形式概念”。概念格包括形式上下文的概念集合和概念之間的層次關(guān)系。
折線圖直觀地表示FCA 形式上下文。圖1 中的線圖由節(jié)點(diǎn)、線和所有對象的標(biāo)簽(在節(jié)點(diǎn)下方表示)以及給定上下文的屬性(在節(jié)點(diǎn)上方表示)組成。折線圖描述了形式概念之間的依賴關(guān)系。形式概念可以定義為{(對象集),(屬性集)}。例如,形式概念{(G),(Herb)}被附加到{(天南星科),(草本,種子,喬木)}和{(槭樹科),(草本,蕨類)}節(jié)點(diǎn)之上的節(jié)點(diǎn)。在其超級節(jié)點(diǎn)之下的每個(gè)節(jié)點(diǎn)都表示一個(gè)“超級- 子”關(guān)系,即“is-a”層次概念集群。因此,F(xiàn)CA是一種確定概念之間穩(wěn)定依賴關(guān)系的有用技術(shù)。
圖1 FCA 分析的維管植物的一個(gè)例子
文獻(xiàn)的本體構(gòu)建早已被用來表達(dá)人類對信息的共同理解。Gruber 將本體定義為“概念化的規(guī)范”。概念化是一種抽象的、簡化的世界視圖。也就是說,文獻(xiàn)的本體構(gòu)建是對概念、屬性和關(guān)系的正式描述,這些概念、屬性與關(guān)系涉及建立對現(xiàn)實(shí)世界事件認(rèn)知的共同理解。知識(shí)庫社區(qū)通過定義一組術(shù)語、話語和公理,采用文獻(xiàn)的本體構(gòu)建方法。因此,本體對于定義用于表示共享知識(shí)的通用詞匯表是有價(jià)值的。廣泛的共識(shí)是,采用基于文獻(xiàn)的本體構(gòu)建的系統(tǒng)的開發(fā)人員必須專注于特定的領(lǐng)域問題,并提供對單個(gè)概念的共同理解。然而,從現(xiàn)實(shí)世界中獲得認(rèn)知,從而設(shè)計(jì)本體概念方面存在挑戰(zhàn)。
XML 技術(shù)最近被引入各種應(yīng)用領(lǐng)域的數(shù)據(jù)交換和系統(tǒng)開發(fā)中。本體研究使用XML 為本體開發(fā)語言構(gòu)建和模式庫。此外,已經(jīng)開發(fā)了許多基于XML 的本體編輯工具。兩種本體語言DAML+OIL 和OWL 描述如下。
DARPA 代理標(biāo)記語言(DAML)。自2000 年以來,DAML(DARPA 代理標(biāo)記語言)被開發(fā)為XML 和RDF的擴(kuò)展。最近發(fā)布的DAML 加本體交換語言(OIL)為構(gòu)建本體和標(biāo)記信息提供了一組豐富的構(gòu)造,使其機(jī)器可讀和可理解。
本體Web 語言(OWL)。OWL 是W3C 開發(fā)的最新的基于XML 的本體語言。OWL 繼承了DAML+OIL 的大部分特性,現(xiàn)在已成為正式標(biāo)準(zhǔn)。根據(jù)OWL 規(guī)范,該標(biāo)準(zhǔn)有三種表達(dá)能力越來越強(qiáng)的子語言,適用于不同級別的可用性:OWL Lite 設(shè)計(jì)用于分類層次結(jié)構(gòu)和直接的約束特征;OWL-DL支持在保持計(jì)算完整性和可判定性的同時(shí)希望獲得最大表現(xiàn)力的用戶;OWL-Full 對于具有最大表現(xiàn)力但沒有計(jì)算保證的推理系統(tǒng)具有有用的計(jì)算財(cái)產(chǎn)。
知識(shí)推理是根據(jù)已有的知識(shí)的過程,通過已有的知識(shí)三元組構(gòu)建實(shí)體之間的關(guān)聯(lián),對傳遞關(guān)系、對立關(guān)系等諸多有價(jià)值的實(shí)體關(guān)系進(jìn)行推理,是檔案文獻(xiàn)本體的核心應(yīng)用之一,也是檔案文獻(xiàn)本體構(gòu)建的價(jià)值之一。
知識(shí)推理表示特定格式的信息系統(tǒng)的專業(yè)知識(shí)。描述邏輯(DL)是一個(gè)可描述的片段,由類、財(cái)產(chǎn)和表示屬性或類關(guān)系的邏輯符號組成。DL 已被包括OIL 和OWL在內(nèi)的各種本體開發(fā)方法廣泛用作表示格式。為了提高推理能力,本研究使用OWL-DL 作為知識(shí)推理。描述邏輯推理器可以計(jì)算所有命名概念的包容層次結(jié)構(gòu)。概念被分類為已定義或原始類。默認(rèn)情況下,每個(gè)描述都是原始的,即至少有一組必要的條件。相反,如果類具有描述和充分條件,則定義該類。基元類和已定義類之間的區(qū)別在于,已定義類可以同樣雙向。在表達(dá)式C≡D 中,如果一個(gè)實(shí)例是概念D 的成員,那么它必須滿足概念C的成員?;愔械膶?shí)例不是同樣雙向的。以下DL 模型旨在幫助開發(fā)人員定義正確的邏輯表達(dá)式。
為了定義概念的詳細(xì)語義,DL 為精確描述應(yīng)用了屬性限制,例如,量詞、基數(shù)和賦值。
在定義檔案文獻(xiàn)的本體構(gòu)建概念時(shí),上述模型有助于解決大多數(shù)情況。然而,一些例外情況,如不相交和不相關(guān),需要進(jìn)一步的支持補(bǔ)充。不相關(guān)的概念是不屬于彼此的概念,因此彼此沖突。賦予相關(guān)概念或個(gè)體雙向關(guān)系。例如,如果ChasValueD表示DL表達(dá)式,其中C 和D表示兩個(gè)類,則DL表達(dá)式需要由DisValueC給出。
為保護(hù)和傳播中國檔案文獻(xiàn),中國于1995 年成立了“世界記憶工程中國國家委員會(huì)”,并于2000 年創(chuàng)建了“中國檔案文獻(xiàn)記憶工程”項(xiàng)目。以國家檔案局形成《中國檔案文獻(xiàn)名錄》為依托,迄今共142(組)檔案文獻(xiàn),并于2022 年3 月1 日開展第五批“中國檔案文獻(xiàn)”申報(bào)工作。中國檔案文獻(xiàn)具有記錄、證據(jù)、信息的工具價(jià)值,實(shí)施檔案文獻(xiàn)影響力提升工程,為中國國際傳播能力建設(shè)助力,為“構(gòu)筑世界記憶”拓展深層次內(nèi)涵價(jià)值。故本研究以此為實(shí)踐案例。
1.資料搜集。與檔案相關(guān)的報(bào)刊和官方檔案網(wǎng)站,都有大量權(quán)威可靠的檔案文獻(xiàn)傳承知識(shí),是很好的資料來源。為構(gòu)建《中國檔案文獻(xiàn)名錄》本體模型,用于對名錄中的文獻(xiàn)的相關(guān)實(shí)體進(jìn)行提取,主要從兩個(gè)源頭進(jìn)行數(shù)據(jù)采集:一是利用八爪魚工具,對中國、中國檔案全國檔案網(wǎng)站、省、市檔案文獻(xiàn)遺產(chǎn)事跡記述文字資料進(jìn)行采集;二是利用OCR 技術(shù),采集世界記憶中國官方網(wǎng)站圖片資料,獲取中國檔案文獻(xiàn)文本資料。選取“式樣雷圖檔”文獻(xiàn)遺存為典型案例,建構(gòu)“清代式樣雷圖檔”這一體例。收集CNKI“風(fēng)格雷圖檔”高相關(guān)期刊論文,檢索有效論文76 篇,不包括建筑工程等類別。資料收集時(shí)間為2021 年10 月15 日,獲取檔案文獻(xiàn)文本凈資料1 份。
2.資料儲(chǔ)存。最終獲得檔案文獻(xiàn)文本資料《中國檔案文獻(xiàn)名錄》142 篇,檔案文獻(xiàn)事跡記述文本64 篇,相關(guān)期刊論文39 篇?!吨袊鴻n案文獻(xiàn)名錄》資料包括輯次、名稱、形成年代、數(shù)量、保存者、地址、郵編、申報(bào)人、文獻(xiàn)內(nèi)容、解說詞等9 個(gè)字段,以CSV 格式存放。檔案文獻(xiàn)事跡記述文本內(nèi)容主要包括,以機(jī)器學(xué)習(xí)可讀取的UTF-8 編碼TXT 形式存儲(chǔ)的形成的時(shí)間、地點(diǎn)、人物、事件以及社會(huì)自然環(huán)境等內(nèi)容。此外,挖掘提取的資料也要補(bǔ)正,主要人物的職務(wù)、機(jī)構(gòu)、事件、職務(wù)、著述等信息,尤其要注意補(bǔ)充。
3.資料預(yù)處理。所收集的資料異構(gòu)資料分析易受雜音影響,故資料清洗、去停用詞、中文分詞等預(yù)處理步驟應(yīng)包含在資料分析前:(1)資料清洗:對初始資料資料清洗,刪除與檔案文獻(xiàn)傳承無關(guān)的詞組或語句。(2)去停用詞:以停用詞庫集合表36 為基礎(chǔ),降維文本集的特點(diǎn)向量。(3)中文分詞:常用詞典由于檔案文獻(xiàn)域內(nèi)詞語的特殊性,對所需的專業(yè)名詞難以識(shí)別,需要對域內(nèi)詞典進(jìn)行重構(gòu)。從已收集處理的資料中篩選出“檔案文獻(xiàn)名錄”中的文獻(xiàn)內(nèi)容和評介文本資料共142 項(xiàng),再通過ROSTCM社會(huì)化網(wǎng)絡(luò)分析軟件篩選高頻詞、增補(bǔ)近似詞等方法,整理成《檔案文獻(xiàn)領(lǐng)域辭典》。
經(jīng)過對上述資料的清理、遣詞斷句、漢語分詞等預(yù)處理操作,最終形成檔案文獻(xiàn)的完整語料庫。數(shù)據(jù)的實(shí)體提取和基于語料庫的本體構(gòu)建。
1.分析核心概念對象
以“檔案文獻(xiàn)名錄”的概念對象及其相互關(guān)系,按照領(lǐng)域本體對抽取的核心實(shí)體進(jìn)行分類、劃分等級。而特定日期、物品種類、事件等類別則受限于命名實(shí)體辨識(shí)、關(guān)鍵詞提取等技術(shù),主要依賴于手工抽取。按頻次降序排列地理位置、責(zé)任者、民族、時(shí)期、語言等。增加和補(bǔ)充檔案文獻(xiàn)領(lǐng)域的核心概念對象是一個(gè)不斷豐富和擴(kuò)展的過程,在此后的工作中,作者將繼續(xù)收集檔案文獻(xiàn)資料,完善補(bǔ)充檔案文獻(xiàn)中的概念名詞的類別和描述,并對我國檔案文獻(xiàn)名錄項(xiàng)目內(nèi)容的本體概念圖,在相關(guān)文獻(xiàn)專家的指導(dǎo)下進(jìn)行整理。
2.構(gòu)建應(yīng)用本體
利用Protege 5.5.0 本體開發(fā)工具,在分析中國檔案文獻(xiàn)名錄中檔案文獻(xiàn)的核心概念間的基礎(chǔ)上,構(gòu)建各概念的層級結(jié)構(gòu)和關(guān)聯(lián)關(guān)系,從而完成檔案文獻(xiàn)本體的構(gòu)建過程。某一中國檔案文獻(xiàn)項(xiàng)目的創(chuàng)建實(shí)例,是根據(jù)本體定義的核心類和對象和數(shù)據(jù)屬性等框架,精選而成的檔案文獻(xiàn)概念本體網(wǎng)絡(luò)(見圖2)。
圖2 檔案文獻(xiàn)本體模型部分內(nèi)容
《清代式樣雷圖檔》是清代雷氏家族參與設(shè)計(jì)繪制的故宮、頤和園、清東陵、清西陵等工程的圖樣和文字檔案資料的建筑歷史資料?!吨袊鴻n案文獻(xiàn)名錄本體模型展示與說明》選擇《清代式樣雷圖檔》作為研究案例。本體構(gòu)建“清代風(fēng)格雷圖檔”語義組織概念模型,鏈接案例實(shí)體與本體之間的關(guān)系,實(shí)現(xiàn)對“清代風(fēng)格雷圖檔”項(xiàng)目中實(shí)體、語義的內(nèi)在邏輯結(jié)構(gòu)及其實(shí)體以實(shí)體、屬性、關(guān)系等三元組的形式進(jìn)行描述。在已建立的類目下增加相應(yīng)的例題,共有198 個(gè)屬性。
《清代樣式雷圖檔》應(yīng)用本體概念圖的形象化,圖譜中的結(jié)點(diǎn)是遺存本體的概念,結(jié)點(diǎn)間的有向線段是實(shí)體間的語義關(guān)系。該家八代、樣式該圖檔相關(guān)人物共同構(gòu)成有向的社會(huì)網(wǎng)絡(luò)圖,群體之間形成縱橫交錯(cuò)的關(guān)系網(wǎng)絡(luò),具體表現(xiàn)為師徒、父子、配偶等諸多關(guān)系,以及參與保護(hù)、任職等由保護(hù)文獻(xiàn)形成的關(guān)系。就具體事例而言,本體可檢索到的文獻(xiàn)項(xiàng)目名稱為《清代樣式雷圖檔》,有雷發(fā)達(dá)、雷金玉、雷聲徵等均為該遺產(chǎn)的主要人物姓名,而雷家璽正是秘密將圖檔運(yùn)回家中并加以保存的父親雷景修,因此保存了大量式樣該圖檔。
本體推理的主要應(yīng)用:對于本體的建立者,推理的主要應(yīng)用是對建立的本體進(jìn)行一致性檢驗(yàn)。對于本體的使用者,推理的主要應(yīng)用是獲得本體中的知識(shí)和運(yùn)用本體中的知識(shí)解決問題。
1.傳遞關(guān)系
對于關(guān)系R 和任意實(shí)體X、Y、Z,如果存在三元組(X、R、Y)和(Y、R、Z),并由此推理得到(X、R、Z),則關(guān)系傳遞關(guān)系。檔案文獻(xiàn)本體建設(shè)中,檔案文獻(xiàn)項(xiàng)目“包含”責(zé)任者條目,同時(shí)責(zé)任者條目“包含”主要人物,且通過經(jīng)驗(yàn)可以判斷,檔案文獻(xiàn)中應(yīng)當(dāng)“包含”主要人物(見圖4),那么“包含”關(guān)系為傳遞關(guān)系。在對檔案文獻(xiàn)遺產(chǎn)本體實(shí)例化時(shí),僅構(gòu)建了檔案文獻(xiàn)項(xiàng)目與責(zé)任者條目、責(zé)任者條目與主要人物間的關(guān)聯(lián),通過人為方式篩選其包含的主要人物并添加其關(guān)系較為耗費(fèi)人力,且容易遺漏,因此可以由檔案文獻(xiàn)本體推理進(jìn)行完善。
圖4 傳遞關(guān)系包含知識(shí)推理
在進(jìn)行知識(shí)推理之前,只能通過作為中間節(jié)點(diǎn)的詞條進(jìn)行檢索,且重復(fù)結(jié)果較多,查詢效率較低,所以通過語義web 規(guī)則語言(swrl),定義推理規(guī)則sso:consistof(?X、?y_^so:consistof(?Y、?Z)->SSO:Consistof(?X、?z,進(jìn)行知識(shí)知識(shí)推理后再次檢索,本體實(shí)例關(guān)系的完善、語義表達(dá)與知識(shí)檢索能力的加強(qiáng)等,都是通過知識(shí)推理追根溯源、不斷發(fā)現(xiàn)新的隱含關(guān)系、構(gòu)建更為完善的檔案文獻(xiàn)知識(shí)體系、助力檔案文獻(xiàn)傳承與保護(hù)的有效途徑。
2.對稱關(guān)系
對關(guān)系R 和任意實(shí)體X、Y,如果存在三元組(X、R、Y),并由此推理出(Y、R、X),則關(guān)系對稱關(guān)系。檔案文獻(xiàn)中常有多種字的異形之間是對稱關(guān)系,即A 的異形為B,則B 的異形為A。但現(xiàn)有的例題關(guān)系和錄入方式難以做到全面的知識(shí)關(guān)聯(lián),所以凡是相關(guān)的異形,如果通過某一刊物或典籍檢索到主語為錄入的,都可以通過它查到;反過來說,檢索到的是“異形”的其他的異形就很難找到了。但該例中能全面檢索到的概率只有1/12,知識(shí)檢索的查全率較低,完善檔案文獻(xiàn)本體急需知識(shí)推理。通過SWRL 定義推理規(guī)則"SSO:SAMEWord (?X、?y)->sso:SameWord(?Y,是嗎?x,實(shí)現(xiàn)關(guān)系推理的“異形”。推理而來,方向相反,實(shí)現(xiàn)了對稱關(guān)系推理,完善了檔案文獻(xiàn)本體,提高了其知識(shí)檢索時(shí)的查全率。
3.互反關(guān)系
對于關(guān)系R1、R2 與任意實(shí)體X、Y,如果存在(X、R1、Y),并由此推理得到(Y、R2、X),反之,則關(guān)系R1 與R2 是相互對立的關(guān)系相似,但更為普遍,大多數(shù)關(guān)系反向關(guān)系,通過對互反關(guān)系的定義、推理,有效提高了檔案文獻(xiàn)本體語義檢索的查全率和查準(zhǔn)率,同時(shí)也提高了檔案文獻(xiàn)本體語義檢索。
傳統(tǒng)方法可能只提供系統(tǒng)集成,而不是在知識(shí)層中推斷其內(nèi)容。也就是說,知識(shí)共享不僅涉及系統(tǒng)連接,還涉及知識(shí)推理機(jī)制的參與??梢缘贸鲆韵屡c開發(fā)技術(shù)相關(guān)的經(jīng)驗(yàn)結(jié)論。第一,形式概念分析(FCA)可以作為一種知識(shí)獲取方法,從專業(yè)知識(shí)中獲取概念和屬性。第二,OWL-DL 可以用作知識(shí)推理語言,提供形式化邏輯表達(dá)式來描述知識(shí)概念。因此,本研究表明文獻(xiàn)的本體構(gòu)建技術(shù)具有良好的知識(shí)構(gòu)建潛力,應(yīng)開展未來研究,以構(gòu)建相關(guān)文獻(xiàn)的本體構(gòu)建,并與其他文獻(xiàn)的本體構(gòu)建知識(shí)庫進(jìn)一步合作。
太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào)2023年11期