沈孫樂 馬昭儀 何捷
關鍵詞:本體;建筑遺產;知識組織;知識圖譜;信息管理
建筑遺產屬于文化遺產,是人類文化傳承的一種物質載體[1]。為了更好地對建筑遺產進行闡釋與展示,整個保護和管理過程所涉及的信息需要被全面地記錄并存檔[2]。這一需求需要面向許多目的與技術方法都有著很大區(qū)別的活動,產生涉及歷史、現狀、干預、監(jiān)測等諸多方面的復雜遺產信息[3][4]。記錄這些信息可以幫助理解建筑遺產的文化、藝術和科學價值,也可以協助建筑遺產保護工作更加順利地開展。而這些復雜的信息內容分屬多個高度專業(yè)化的學科領域,涉及歷史、建筑實體、結構、營造工藝、材料化學等[5]。但由于不同的學科具有不同的研究方法與知識組織體系,建筑遺產保護相關信息往往呈現出多源異構的特性,數據來源與信息種類豐富。這就要求在信息管理層面提供“互操作性”Interoperability),以便這些信息能夠被不同的機構間共享與使用。而遺產領域目前常用的傳統信息管理手段,大都難以滿足理解與交換異質化的建筑遺產信息這一需求[6]。
對于異質化的建筑遺產信息來說,信息的關聯和解釋是保護過程的關鍵。如果無法充分挖掘信息關聯的潛力,數據可能會被分散和孤立[7],不利于全面地對建筑遺產進行闡釋。信息與信息間隱含的關聯組成了“語義”(Semantic),眾多帶有語義的信息邏輯表示并融合形成的“語義網絡”(Semantic Network)常用于表示知識。而基于語義網絡的“本體”(Ontology)技術,可以通過建構完善的知識模型實現對建筑遺產數據的組織管理[8]。同時,本體建構的數據集可以方便地通過“關聯數據”(Linked Data)[9]發(fā)布作為互聯網資源,進一步促進遺產信息之間的共享。
一、傳統建筑遺產信息管理手段的局限
傳統的建筑遺產信息管理方式有兩種,一種是基于“主題詞表”(Thesaurus)的文件目錄式結構管理,一種是基于“關系模型”(RelationalModel)的表結構管理。受控詞表以特定結構排列學科詞匯來顯示出詞匯之間的關系,以此控制詞匯。通過這種標準化的受控詞表,文件目錄式管理的數據可以在一定范圍內實現數據共享,但不利于不同工作背景下產生的數據信息進行對接,即無法有效提供互操作性。同時由于缺少對信息間的語義關聯,文件目錄式管理只能完成對信息的存儲,缺少靈活高效的檢索手段。如果使用者沒有對文檔結構與存儲內容有充分的了解,就無法快速、準確地獲取所需要的信息,易造成信息孤島[10]。關系模型則是通過二維表的形式來標識實體與實體間聯系的一種信息模型,基于此模型的關系數據庫可以被用來組織建筑遺產保護數據,并表達一些語義關聯。但使用關系數據庫不利于建筑遺產信息的靈活利用與長期管理。一方面由于建筑遺產數據內容之間存在豐富、多元的關系,對應的關系模型將極為繁多復雜,常常會因為過于豐富而使得用戶無法快速定位有效信息[11];另一方面的原因是關系模型的建模本身是封閉的,很難提供與其他遺產保護工作進行數據對接與共享的互操作性,也無法應對建筑遺產保護領域潛在知識的拓展可能[12]。
近年來,融合以上兩種方式、同時加強幾何信息管理能力的空間信息管理技術逐步受到重視,建筑信息模型(BIM)與地理信息系統(GIS)常被用于組織管理建筑遺產保護數據[13]。建筑遺產保護過程會涉及到大量的空間、構造信息,傳統的二維圖紙表格無法對其進行有效反映[14],但它們又與建筑遺產的大部分其他信息緊密關聯。所以建筑遺產領域可以使用以空間幾何單元為核心的空間信息管理系統進行數據管理。BIM和GIS通過制定格式標準實現了共享特定類型數據的目標并提供了一定的互操作性,但無法從根本上解決遺產信息關聯的問題——BIM、GIS系統無法表達非幾何的復雜信息,如建筑物的歷史與改變過程[15][16]。此外其利用信息的方式也很有限,例如BIM中的查詢只能依賴關鍵字或是術語索引,無法進行靈活的語義化查詢[17]。
根據對現有信息組織管理方式的分析可知,提供異構數據間的互操作性、實現不同工作背景下數據的標準化共享與建立信息間的語義關聯是建筑遺產數據管理的主要需求。目前現有的管理方式都無法完全滿足這些需求(見表1),重要的原因是這些管理方式都缺乏對復雜信息的知識組織的深度考慮。目前建筑遺產保護領域的知識組織并不被重視,國內現有的遺產信息管理系統雖然也產生知識模型,但其僅僅是存檔記錄工作的副產物?,F行系統對知識模型缺乏系統性的開發(fā),造成了其對知識的覆蓋不夠全面以及缺乏對信息的關聯組織能力的問題。
二、知識組織與本體技術
建筑遺產保護信息的組織管理需要在完善的領域知識組織的基礎上開展。無論是數據庫、信息管理系統還是知識庫,都會明確或隱含地依托于某些知識模型[18]。實際上,領域信息的集成管理過程就是進行領域知識組織的過程[19]——即經過加工整理、編排索引,原本雜亂無序的信息被組織為有序的知識,以便為后來的利用者進行信息傳遞[20]。知識組織技術可以在遺產信息管理的各個階段發(fā)揮作用。在數據錄入階段可以指導非結構化數據到結構化數據的轉譯、提取。在調查記錄存儲為數據集后,知識組織所基于的信息模型可以幫助使用者進行高效的查詢。其信息模型也可以為數據共享服務提供標準化框架,便于不同數據集之間的對接。
常用于數據資源關聯索引的知識組織方法可以分別基于“元數據”(Metadata)、“受控詞表”(Controlled Vocabulary)、“敘詞表”(Thesaurus)或者本體進行實現。其中元數據是對數據的標準化描述,針對每個資源記錄特定的通用核心屬性。元數據在簡化的信息集合內盡可能標準化地描述所索引的資源,從而提高不同系統間信息交換的能力[21]。但元數據只能扁平化地對資源屬性進行記錄,缺少語義層次結構、無法描述記錄間復雜的關系[22]。受控詞表和敘詞表可以利用有關領域知識的分類結構與同義詞關系將信息資源結構化,但它們只是對分類模式的拓展而缺乏對關系的建模,無法提供大規(guī)模數據集成的能力[23]。
相比于其他知識組織方法,本體更關注信息間的關聯,其通過分類層級和概念間關系提供兩種語義關聯,而不局限于受控詞表中的層級分類組織。本體最早是一個哲學概念,關心的是客觀現實的抽象本質。后來它被引入人工智能領域,是一種有效表現概念層次結構和語義的模型[24]。本體在建構時整理領域內的知識,總結抽象出領域內公認的概念及其之間的關系與約束,以此提供對該領域知識的共同理解[25]。本體結構模型由五類元素組成,包括“類”(Classes)、“關系”(Relations)、“函數”(Functions)、“公理”(Axioms)、和“實例”(Instances)[26]。其中,類指代的是各種領域概念,關系與函數是概念間所存在的聯系,公理規(guī)定的是概念之間的約束,實例則對應的是隸屬于一個或多個概念或關系的現實中的具體對象。
本體的表示方法使得它易于拓展且具備推理的能力。本體和語義網絡都可以通過帶標識的有向圖來表示[27],且都具備語義表達與推理的能力。因此本體也可以通過基于語義網絡的語言進行表示,如資源描述框架RDF(Resource DescriptionFramework)。但區(qū)別于語義網絡,本體會通過上文提到的五種元素嚴格地刻畫所描述的對象,因此基于本體組織的數據更便于實現標準化。同時,基于有向圖對本體進行表示使得本體可以靈活地進行修改,有助于保持信息系統的開放性以便于對信息進行維護、拓展[28]。除此之外,本體支持對概念間規(guī)則的表達[29],可以利用“ 函數” 與“ 公理”在知識層面上豐富領域概念模型。
因為具備上述特性,本體技術能夠有效地支持對建筑遺產保護信息的組織管理,可以滿足多元異構的建筑遺產保護信息統一表示存儲的需求,同時在數據、信息、語義三個層面完成對領域知識的整合[30]。目前許多領域已經將本體用于通用知識模型的構建[31],提供語義化關聯以解決信息管理和異構系統互操作的問題。
三、建筑遺產相關本體構建及其應用
對建筑遺產保護信息進行組織是為了便于以各種形式對其進行利用,本體方法作為一種知識組織手段,其自身的關聯能力可以為信息的存儲提供良好的結構基礎,進而可以支持建筑遺產領域多源異構信息的管理。在更大規(guī)模上,由于本體具有嚴格的概念結構,保證了建筑遺產保護信息共享時的準確性。此外本體所提供的語義關聯則可以進一步支持對于隱含知識的挖掘。針對上述的存儲管理、信息共享、知識挖掘三種應用方式,已經有一些初步的應用實踐。
(一)建筑遺產保護信息存儲管理的增強
針對建筑遺產信息的存儲和管理需求,本體方法主要為多源異構的信息提供互操作性。建筑遺產保護過程中需要存儲的信息內容種類繁多,包括文獻檔案等背景資料、各類的現狀調查數據、保護過程中的干預與監(jiān)測信息以及用于支持保護的多學科的專業(yè)內容。本體可以為建筑遺產保護信息提供完善的概念框架與關系結構,使得在記錄管理時不同學科可以進行統一的數據組織,而在多源資源整合時則可以利用統一的規(guī)則實現多源數據的映射關聯。
建筑實體的空間關系是建筑遺產領域的重要信息,有許多本體對其進行詳細表達以關聯其他遺產概念。目前空間相關的信息主要通過歷史建筑信息模型HBIM(Historic Building InformationModel)進行管理。但HBIM無法管理復雜非幾何信息,因此需要在HBIM的基礎上連接本體進行數據整合以增強表達能力。典型的應用方式是將記錄空間信息的IFC數據轉換為關聯形式的RDF數據,然后連接以本體組織的非幾何數據內容。DavideSimeone等人通過編寫C#程序作為BIM數據與本體系統之間的語義橋,交換兩個系統之間的信息,豐富了BIM系統的知識表達[32](圖1)。RamonaQuattrinia等人使用建筑信息模型軟件Revit中的Keynote Manager插件連接本體,實現了BIM數據與歷史文獻、監(jiān)測干預和結構信息的關聯[33-34]。通過這類方式,跨領域的工作溝通將更加方便——使用HBIM系統、關注空間關系的工程師可以便捷地獲取歷史、材料等數據,歷史研究者也能通過本體連接的HBIM系統了解空間構件信息。
另一種方式不以建筑實體之間的空間關聯作為組織的核心。通常會針對一些特定的保護應用需求如特定構件的歷史、建筑殘損、保護過程等,利用本體將所有信息組織到統一系統中進行管理、展示。Mattia Previtali等人針對建筑遺產中的拱結構的相關知識,使用以保護過程事件為線索的基礎本體關聯詳細的HBIM構件本體與拱構件知識本體,實現所有數據的整合[35]。RiccardoCacciotti等人針對建筑遺產殘損狀況記錄、表達的需求,梳理了殘損病害的觸發(fā)事件、機制、代理與損害之間的關系,以本體的形式表達了建筑物殘損知識結構,為殘損診斷提供了有效技術支持[36][37]。MartaAcierno等人針對建筑遺產的保護全過程建立了由“建筑物”“生命周期”“調查過程”“行動者”四部分組成的建筑遺產保護活動本體,用于表達建筑物在歷史上的變化以及后續(xù)的保護過程中的復雜性[38]。相較于側重空間實體信息的本體應用,圍繞本體組織綜合遺產信息系統的方式更有利于遺產信息的全面認知與展示,兩者結合可以形成更綜合以及更大規(guī)模的遺產信息系統。
(二)建筑遺產保護知識的傳播共享
針對建筑遺產保護信息共享與重用,本體可以提供的是標準化與共享的能力。遺產保護信息共享的困難主要在于不同的工作背景下記錄的信息具有各異的組織方式,難以重復利用。因此建筑遺產保護過程需要建立系統的調查評估體系,標準化地記錄留存數據,才能與國際遺產工作接軌[39]。本體可以提供對特定領域知識的共同理解,給出通用概念與關系的明確定義[40],適合于幫助術語繁多且缺少統一規(guī)范的建筑遺產保護領域實現信息的標準化與共享。
為了實現遺產數據的共享,目前文化遺產領域已經建立了一個通用本體——“CIDOC概念參考模型”(CIDOC Conceptual ReferenceModel,以下簡稱CIDOC CRM)。它在2006年被指定為ISO標準。CIDOC CRM通過提供通用的、可擴展的語義框架以達成對文化遺產信息的共同理解,得以使用共同的語言進行信息交流與信息系統構建[41]。它提出了一種以事件為核心構建本體的方式,可以對文化遺產信息進行全面、規(guī)范的表示[42]。目前有名為CRMba的拓展通過復用CIDOC CRM實現了建筑遺產保護信息的共享[43],并可以初步地表達建成的遺產信息。它通過對原有概念Physical Feature(E24)與Physical Man-Made Thing(S20)的細化建立特定領域的本體架構(圖2)。但CRMba本體主要針對建筑遺產的考古發(fā)掘過程,并不能全面地記錄保護過程的各類信息。鄭吟梅等人通過復用CIDOC CRM建立了描述古建筑構件信息、工匠信息、殘損保護信息的本體以整合所要存儲管理的遺產信息[44]。復用CIDOC CRM本體模型的系統可以方便地與其他同樣基于CIDOC CRM的系統對接并實現數據共享,但建筑遺產學科的特殊性使得嚴格復用的難度較大,很多本體在建構時只進行了借鑒而非完全嚴格按照標準進行拓展。
(三)建筑遺產數據的挖掘利用
對建筑遺產保護數據進行挖掘利用時,本體可以提供規(guī)則表達與知識推理的能力。當前建筑遺產保護工作較為注重文物建筑形態(tài)的保護性恢復,較少涉及建筑背后信息的挖掘與表達[45]。由于有著完善的語義結構,本體可以進行一定的推理,這有助于揭示一些隱含的規(guī)律性信息。此外,古建筑相關的規(guī)則信息在傳統的信息系統中往往難以有效地存儲管理。但本體由于其良好的建模組織,可以支持規(guī)則的表達與存儲,增加信息的可利用性[46]。利用額外的規(guī)則表達工具(如SWRL語言)進一步表達更為豐富的規(guī)則,形成更完善的知識庫。這使得許多原本依賴于領域專家的經驗性工作有了計算機輔助的可能。
建筑遺產數據挖掘的應用案例有語義檢索、自動建模和可視化、建筑殘損案例推理等。針對建筑遺產保護信息的語義檢索需求,徐月潔基于本體建立建筑遺產保護領域知識庫,利用Jena進行查詢推理實現了建筑遺產相關文化信息的語義檢索[47]。在古建自動建模方面,劉勇等人使用一個建筑遺產本體關聯存儲建筑的幾何構件與風格知識,以此實現語義層面的中國南方民居半自動建模[48][49];白衛(wèi)靜等人則利用Jess建立古建筑構件的尺寸、位置、搭建信息的本體知識庫,實現了搭建順序與構件位置的自動推理,用于生成古建筑的搭建過程模擬的動畫[50]。為了進行建筑損傷自動化評估,陳偉通過定義古建筑本體、工藝本體與殘損本體,通過概念間的語義聯系為具體的損傷處理案例的表達提供了基礎[51](圖3)。隨后其使用SWRL(Semantic WebRule Language)表達原本以文檔形式存儲的殘損處理案例,并以規(guī)則的形式嵌入建筑遺產本體,在需要利用時基于具體情況,以SPARQL編寫檢索語句檢索本體知識庫找出匹配的修復案例,為保護決策提供支持[52]。
(四)目前建筑遺產本體應用的不足
目前基于本體的知識組織方法針對建筑遺產保護數據的整合、共享和語義關聯有了一定的實踐成果,但是沒有本體可以全面地覆蓋所有的遺產領域并滿足應用需求。大部分針對數據整合需求建立的本體都只能在特定領域知識的范圍內實現數據組織,如果需要在多源信息系統間提供互操作性仍需要依賴文化遺產通用本體CIDOC概念參考模型的輔助。針對共享的本體往往專業(yè)性不足,使用它們進行組織管理只能實現泛化的關聯并非專業(yè)化的共享。針對知識挖掘使用的本體往往代表的是個體的認識而非團體的共識,無法支持大范圍的異構數據集成與共享。
四、結論
本體理論自1990年代初提出以來,在國外就引起了眾多科研人員的關注。相比于元數據、受控詞表等知識組織的方式,本體有著更完善的組織結構并支持推理挖掘,因此被應用于各領域的信息管理中。目前本體在國外的文化遺產領域已經得到了廣泛的應用,已經有成熟的通用本體,但細分到建筑遺產保護領域,本體相關研究則相對欠缺。本文對本體技術在建筑遺產保護領域中的能夠發(fā)揮的作用進行了分析,說明了本體可以提供異構數據間的互操作性、實現數據的標準化記錄共享、提供信息間的語義關聯以支持知識挖掘,總結了相應的應用方式。雖然截至目前仍然缺少一個通用的建筑遺產保護本體以滿足建筑遺產保護信息管理的所有需求,但這并非說明現有本體建構的不成功,只是鑒于各個領域的專業(yè)性以及未來拓展的可能性,想要立刻建立全面的建筑遺產本體的可能較小。
總的來說,本體能提供更為高效的建筑遺產信息整合方案,它對于知識的形式化表示也使得對遺產數據的知識挖掘成為可能。由于具有很好的開放性,本體可以一直更新以應對更多的信息管理需求,這也是使用本體進行知識組織的目的之一。如何利用通用的本體表達豐富的建筑遺產知識,并添加更多的規(guī)則支持以實現更大規(guī)模上知識融合與挖掘,是未來應用研究的重點。如果能夠將數據的整合、共享與語義關聯綜合在統一的框架內,將更有助于建筑遺產復雜信息的闡釋與展示。
在當前數字時代的背景下,使用信息管理相關技術支持建筑遺產保護工作的需求不斷提高,新興技術的快速發(fā)展使得學者提出的科學問題也不斷深化。本體作為一種高效的知識組織方式,首先能夠幫助建筑遺產保護工作實現數字化、集成化,促進跨學科、機構、地域的資源優(yōu)化重組,支持建筑遺產的科學研究、公共教育和國際交流;其次,本體可以提升信息處理的智能化水平,為建筑遺產研究提供新方法與驅動力,從而更好地發(fā)掘建筑遺產的知識與價值,幫助遺產進行闡釋與展示。