陳金菊 歐石燕 林澤斐
(1.南京大學信息管理學院 江蘇南京 210023)
知識組織是按照知識的內(nèi)在邏輯, 對知識進行整理、加工、引導、揭示、控制等一系列序化的操作過程。 早期的知識組織方法主要是分類、元數(shù)據(jù)描述和主題標引等,通常采用DC、MARC、XML 等非語義化格式對信息資源外部特征進行描述和揭示, 這些格式計算機可讀但不可理解, 因而無法為人類提供深層次的知識服務,具有很大的局限性。語義網(wǎng)和關聯(lián)數(shù)據(jù)技術的提出使得信息資源的組織和服務開始朝著語義化的方向發(fā)展。 采用語義網(wǎng)技術可以實現(xiàn)對信息資源的語義描述和語義組織, 并在此基礎上提供語義檢索、語義集成、語義共享等語義服務,有效地解決了傳統(tǒng)知識組織與服務方式缺少語義化的問題。
國內(nèi)信息資源語義組織的研究以理論研究和應用研究層面的探討為主,實踐較少,且規(guī)模較小。 上海圖書館開放數(shù)據(jù)平臺是國內(nèi)語義組織與服務的典型實踐, 該平臺以關聯(lián)數(shù)據(jù)的方式發(fā)布其數(shù)字人文項目基礎知識庫(人、地、時)、文獻知識庫(家譜、古籍、手稿)和本體詞表等。該平臺的研究對象以人文學科信息資源為主,自然科學涉及很少,此外該平臺提供的語義服務不夠全面,只提供語義瀏覽和檢索服務,但是缺少語義集成、可視化等多樣化知識服務。翟姍姍采用語義網(wǎng)和關聯(lián)數(shù)據(jù)技術開發(fā)了一個基于關聯(lián)數(shù)據(jù)的非物質文化遺產(chǎn)資源聚合與服務平臺,對楚劇這一非物質文化遺產(chǎn)資源進行語義描述、標注和聚合研究,并提供語義服務;歐石燕采用語義網(wǎng)和關聯(lián)數(shù)據(jù)技術提出了語義數(shù)字圖書館資源描述框架,對圖書館信息資源進行整合,實現(xiàn)了面向關聯(lián)數(shù)據(jù)的自動問答。此外,還有以檔案信息、多媒體資源、社會輿情信息等信息資 源為 研究對象的語義組織和服務研究??傮w而言,這些研究的研究對象為單一類型信息資源, 關注的語義服務類型也相對單一, 對其他類型信息資源的語義組織和服務不具有廣泛的適用性。
目前,涉及多個領域、提供多樣化語義服務的大型信息資源語義組織實踐項目國內(nèi)仍較少, 而國外部分研究和服務機構已經(jīng)積極開展了此類實踐,如歐洲數(shù)字圖書館項目Europeana,采用語義網(wǎng)技術對文化遺產(chǎn)資源進行整合, 并提供統(tǒng)一的網(wǎng)絡訪問平臺;美國國家人文研究基金和德國科學基金共同支持的“關聯(lián)人文項目”(Linked Humanities),開發(fā)了關聯(lián)數(shù)據(jù)組織與發(fā)布平臺; 歐洲數(shù)字手稿項目DM2E(Digital Manuscripts to Europeana),采用關聯(lián)數(shù)據(jù)技術對歷史資源進行整合和利用;芬蘭語義計算研究小組SeCo(Semantic Computing Research Group)創(chuàng)建了語義組織與語義服務項目平臺,采用本體和關聯(lián)數(shù)據(jù)等語義技術對跨領域、 多類型的信息資源進行語義組織, 并在此基礎上提供多樣化的語義服務。 在這些語義組織與服務實踐中,以SeCo 開展的實踐項目成效最為顯著,其特點和優(yōu)勢主要表現(xiàn)在:(1)該項目兼具研究廣度和研究深度。SeCo 研究團隊自2002 年至今, 針對不同領域的特點,已開發(fā)的28 個項目涉及人文學科和自然科學的多個研究領域,信息資源種類豐富,研究范圍廣泛。同時, 這些項目開展的語義組織不僅包括外部表層元數(shù)據(jù),還深入到內(nèi)容語義層面,展開深層次語義描述;(2)該項目堅持理論與應用研究相結合。 SeCo研究團隊不僅關注語義組織的相關理論研究, 根據(jù)各類信息資源的特點進行語義建模, 還基于語義化描述和組織的數(shù)據(jù)提供多樣化語義服務。由此可見,SeCo 在資源語義組織和語義服務方面取得了良好的進展, 已使其成為語義組織和語義服務的代表性實踐項目。本文通過梳理SeCo 研究團隊開發(fā)的語義組織和語義服務項目的主要內(nèi)容, 從資源類型與標注深度、語義模型、語義數(shù)據(jù)構建與集成、語義服務這四個方面剖析其研究和實踐現(xiàn)狀,總結項目特點。
芬蘭赫爾辛基大學(University of Helsinki)和阿爾托大學(Aalto University)發(fā)起的SeCo 開發(fā)了許多語義組織與語義服務項目。目前,該項目組位于芬蘭赫爾辛基大學藝術學院數(shù)字人文中心 (HELDIGHelsinki Centre for Digital Humanities, University of Helsinki, Faculty of Arts) 和阿爾托大學理工學院計算機科學系(Aalto University, School of Science, Department of Computer Science),項目組成員主要也來自這兩所大學。 SeCo 的目標是對各領域的信息資源進行語義化組織和描述, 并在此基礎上提供語義化服務,實現(xiàn)資源的互操作。 除了相關研究論文和出版物,該項目還創(chuàng)建了原型應用程序,用于展示語義技術的可能性應用,譬如為終端用戶提供語義門戶,以及用于創(chuàng)建語義應用程序的本體和工具。
SeCo 開發(fā)的語義組織與語義服務項目的應用領域非常廣泛,包括數(shù)字人文、健康、學習、政府、商業(yè)和生物等領域,且跨學科特征顯著。 SeCo 早期開發(fā)的項目主要關注圖書館領域, 涉及的內(nèi)容主要是語義標注和語義檢索等。 自關聯(lián)數(shù)據(jù)出現(xiàn)后,SeCo創(chuàng)建的項目涉及的領域范圍變廣, 不僅包括人文社科領域(如歷史、傳記、法律、文化遺產(chǎn)等),個別項目還涉及自然科學領域(如醫(yī)學、健康等),但目前SeCo的主要研究仍以人文學科為主。 從研究內(nèi)容來看,SeCo 研究團隊在早期, 即2006 年關聯(lián)數(shù)據(jù)提出之前, 主要關注如何采用元數(shù)據(jù)和本體進行信息資源的語義標注。 從2006 年開始,該項目開始關注關聯(lián)數(shù)據(jù)的應用,基于關聯(lián)數(shù)據(jù)開展各種應用服務,如語義門戶、可視化、應用程序等。
SeCo 研究團隊自2002 年至今共開發(fā)了28 個項目,各項目周期從一年到九年不等。這些項目大致可以分為四類:(1)以信息資源語義標注與組織為主要目的的項目;(2) 以提供語義服務為主要目的的項目;(3)以提供語義基礎設施為主要目的的項目,包括語義模型構建和語義工具開發(fā)等。 目前已開發(fā)的語義工具包括語義搜索引擎、語義標注編輯器、語義信息抽取工具、語義門戶創(chuàng)建工具等;(4)其他項目,以語義計算居多, 如探索語義計算在移動5G 網(wǎng)絡管理中的應用等。 前三類項目大致共有17 個(見表1),本文主要針對這些項目進行探討。
SeCo 開發(fā)的語義組織與語義服務項目涉及范圍廣,因而其所研究的資源類型、資源內(nèi)容、標注內(nèi)容和標注深度也呈現(xiàn)多樣化的特征。 SeCo 開發(fā)的項目創(chuàng)建了許多相應的應用,本文選取目前仍然提供服務的應用, 特別是包含大量語義數(shù)據(jù)的語義門戶作為調研對象,按照應用開發(fā)的大致時間先后順序,對各項目的應用涉及的資源類型和內(nèi)容, 以及標注內(nèi)容和深度進行歸納總結(見表2),并分析其特點。(1)從資源類型上看, 語義組織的研究對象已不再局限于傳統(tǒng)的書目信息,而是擴展到非書目信息,如文物、雕塑、照片、視頻、音頻、廣告和地圖等多模態(tài)信息資源。語義組織的資源類型逐步由單一向多類型過渡,種類日益豐富;(2)從資源內(nèi)容上看,主要可以歸納為兩種:一種是研究對象僅涉及單一主題內(nèi)容,如商業(yè)、歷史和傳記;另一種是研究對象涉及多主題內(nèi)容,如文化遺產(chǎn),但前者更具有領域針對性,目前大多數(shù)項目研究的資源內(nèi)容以前者為主;(3) 從標注內(nèi)容和深度上看,SeCo 開發(fā)的早期項目的語義標注內(nèi)容主要停留在淺層外部特征,如關鍵詞、創(chuàng)建者和發(fā)布者等,沒有深入到資源內(nèi)容層面。 近幾年,SeCo 的語義組織開始出現(xiàn)向內(nèi)容層面(如實體和關系)深入的趨勢,標注內(nèi)容以人、事、物、地、時等要素為主,標注深度逐步從淺層粗粒度標注向深層細粒度標注過渡。
表1 SeCo 開展的語義組織與語義服務項目概況[12]
表2 SeCo 項目涉及的資源類型與標注深度
SeCo 開發(fā)的語義組織項目的數(shù)據(jù)來源多樣,數(shù)據(jù)格式難以統(tǒng)一,給數(shù)據(jù)資源的互操作帶來了困難。因此,需要采用統(tǒng)一的標準和模型解決這一問題。目前,SeCo 創(chuàng)建的應用主要涉及數(shù)字文化、數(shù)字健康、在線學習、電子政府、數(shù)字生物等領域,下面對這些領域中仍提供服務的應用涉及的主要語義模型(見表3)進行總結和分析。 可以看出,SeCo 開發(fā)的應用中采用的語義模型主要包括元數(shù)據(jù)方案和本體。SeCo 側重于采用目前較通用、 成熟的語義模型,并基于對現(xiàn)有本體的復用和擴展, 構建了一系列適用于不同領域的領域本體。
SeCo 采用了一些目前較通用、成熟的模型進行語義組織實踐:(1)在文化領域,由于SeCo 的文化遺產(chǎn)項目龐大, 因此文化遺產(chǎn)領域的通用頂層本體CIDOC CRM 概念參考模型得到了廣泛的應用。該模型是國際文獻工作委員會開發(fā)的一個概念參考模型,提供了一個描述文化遺產(chǎn)的通用框架,致力于實現(xiàn)文化遺產(chǎn)信息的語義共享和互操作, 充分發(fā)揮文化遺產(chǎn)的價值。 目前,CIDOC CRM 已成為ISO 標準, 使其得到了更為廣泛地應用。 Bio CRM 則是對CIDOC CRM 模型進行擴展得到的模型。該模型用于表示傳記信息,將傳記看成是事件,每個事件包含參與者、地點、時間和事件類型,同時引入角色信息,用于表示參與者在事件中扮演的角色信息。 為了規(guī)范本體中類和屬性的取值,還采用了一些受控詞表,如藝術與圖像分類系統(tǒng)ICONCLASS、 聯(lián)盟藝術家名單ULAN、 藝術與建筑敘詞表AAT 和地理信息詞表WGS84 等;(2)在健康領域,主要采用了都柏林核心元數(shù)據(jù)元素集(DC)和DCMI Terms,前者是描述跨領域信息資源國際標準, 包含15 個核心元數(shù)據(jù),后者則是在前者的基礎上擴展了一些其他元素和元素修飾,兩者可以對健康信息的創(chuàng)建者、發(fā)布者、主題等進行描述。采用的詞表主要包括DCMI 類型詞表(DCMI Type)和兩個醫(yī)學健康領域的詞表,即國際醫(yī)學主題詞表MeSH 和歐洲多語種健康促進詞表HPMULTI;(3)在教育領域,主要采用了學習對象元數(shù)據(jù)(LOM),是IEEE 的學習技術標準委員會(LTSC)制定的一個描述教育資源的元數(shù)據(jù)標準, 其目的是為了支持學習對象重用、發(fā)現(xiàn)和互操作。LOM 包含九大類不同的教育資源類, 采用該元數(shù)據(jù)可以對教育資源的關鍵詞、格式、結構等信息進行描述。
表3 SeCo 項目語義組織中涉及的主要語義模型
除了上述通用本體模型外,SeCo 還根據(jù)自身需要自建了一些語義模型進行不同領域的語義組織實踐。 不同領域的本體由不同領域的專家合作并以分布式方式開發(fā), 同時被映射在一起形成一個包含所有領域的大型國家本體家族KOKO。 KOKO 包含一個通用頂層本體YSO 和14 個基于YSO 構建的領域本體(如音樂、健康、商業(yè)、文學等)。YSO 是由芬蘭國家圖書館維護的芬蘭通用敘詞表YSA 轉換而來,采用SKOS 表示, 包括30465 個通用概念, 提供芬蘭語、英語和瑞典語三個版本。除了KOKO 本體家族外,SeCo 還開發(fā)了人物本體 (Actor)、 地點本體(Place)、時間本體(Time)、事件本體(Event)和生物本體(Biological),在其項目中都得到了廣泛的使用。除了上述常用的本體外, 還有一些使用頻率相對較低的本體和詞表, 本體主要包括名勝古跡地點本體POIO、 世界鳥類本體AVIO、 芬蘭健康元數(shù)據(jù)模型(HealthFinland Metadata Schema)、 地 名 注 冊 模 型(PNR)、名稱檔案模型(NA)、表示地球上的區(qū)域和地點的本體Location、館藏本體Collection、基于描述文化內(nèi)容的敘詞表構建的Artifact、Material 和Situation本體等, 詞表主要包括學科類別詞表School Subject Ontology、主題詞表Theme Ontology、表示不同媒體類型的詞表Medium Ontology、表示人物類別的觀眾詞表Audience Ontology、 描述數(shù)據(jù)集的詞表voiD(Vocabulary of Interlinked Datasets)等。
SeCo 的語義數(shù)據(jù)構建主要是實現(xiàn)將非語義化格式的數(shù)據(jù)(如結構化數(shù)據(jù)庫表和非結構化文本數(shù)據(jù))轉換為語義化格式的數(shù)據(jù),SeCo 通常采用語義映射或創(chuàng)建語義轉換器的方式完成語義數(shù)據(jù)構建。 譬如,MuseumFinland 項目的不同博物館的館藏數(shù)據(jù)以數(shù)據(jù)庫表的方式存儲,SeCo 采用XML Schema 將這些數(shù)據(jù)庫表轉換為XML 數(shù)據(jù), 再采用RDF Schema將XML 數(shù)據(jù)轉換為RDF 數(shù)據(jù),然后將這些數(shù)據(jù)映射在一起,集中存儲到一個全局數(shù)據(jù)庫中。
SeCo 的語義集成實踐大致可分為兩類:語義關聯(lián)和語義數(shù)據(jù)集中管理。 前者分為內(nèi)容語義關聯(lián)和外部語義關聯(lián),后者旨在對語義數(shù)據(jù)進行集中管理,提供統(tǒng)一瀏覽和檢索。 在內(nèi)容語義關聯(lián)方面,SeCo創(chuàng)建的項目提供了一些語義信息抽取和語義標注工具,如Poka 和SAHA 等。 Poka 提供了一個自動標注框架,為本體概念的自動化抽取提供了基礎。 SAHA 是一個語義內(nèi)容創(chuàng)建工具,用于支持基于瀏覽器的語義標注。 在外部語義關聯(lián)方面,通過RDF 鏈接將不同數(shù)據(jù)源的數(shù)據(jù)鏈接在一起。如SeCo 開發(fā)的Hipla 項目通過分布式SPARQL 查詢對不同來源的芬蘭古代歷史地理信息進行集成,實現(xiàn)古地圖和現(xiàn)代地圖的映射。在語義數(shù)據(jù)集中管理方面,SeCo 主要通過構建語義集成平臺的方式,實現(xiàn)對語義數(shù)據(jù)和語義模型的集中管理。 SeCo 首先開發(fā)了一個網(wǎng)站對其開發(fā)的所有項目、語義模型和語義數(shù)據(jù)集進行集中訪問和共享,但該網(wǎng)站內(nèi)容繁雜,需要用戶自行逐級瀏覽,不支持檢索,不利于用戶快速獲取所需語義信息。此外,SeCo 還開發(fā)了一些專門的語義集成管理數(shù)據(jù)庫和平臺,如ONKI 和LDF。ONKI 是一個本體集成管理數(shù)據(jù)庫,用于對其開發(fā)的本體進行集中管理,使其更易于維護、發(fā)現(xiàn)和使用。 LDF.fi是SeCo 創(chuàng)建的一個關聯(lián)數(shù)據(jù)平臺, 該平臺對相關的語義數(shù)據(jù)集、研究數(shù)據(jù)和元數(shù)據(jù)模型等進行集成管理,為網(wǎng)絡上的結構化數(shù)據(jù)的發(fā)布者和消費者提供服務。
SeCo 旨在以機器能夠理解的方式表示數(shù)據(jù)和知識,并基于此創(chuàng)建智能應用,為人類提供更加智能的知識服務。 SeCo 為用戶提供免費開源的資源共享平臺,使得資源的獲取不受時空的限制,極大地提高了資源的利用率。 本文從SeCo 的主要應用領域著手,對其提供的服務類型進行探索。通過對當前仍然提供服務的SeCo 項目進行調研, 發(fā)現(xiàn)SeCo 主要通過語義門戶和移動應用兩種服務模式為用戶提供語義服務,前者通過信息資源的集成、整合、分類和再組織,為用戶提供一個一攬子用戶服務界面,是當前主要的語義服務模式;后者則是以APP 為代表的移動應用服務,使用更加便捷,但目前此類應用較少。這兩種語義服務模式提供的語義服務類型主要包括以下幾種:
(1)多視角訪問。 SeCo 的項目開發(fā)的一些語義系統(tǒng), 在用戶進行訪問時, 可為其提供多個訪問視角,用戶可根據(jù)自身的信息需求,選擇合適的訪問視角。 如CultureSampo 是一個將文化遺產(chǎn)資源進行語義組織,并提供語義服務的語義門戶。該門戶支持從地圖搜索與瀏覽、關系搜索、搜索與組織、集合、芬蘭歷史、技能與文化敘事、傳記、語義Kalevala(芬蘭國家史詩)、Karelia(芬蘭的一個地區(qū))等九個視角進行訪問;WarSampo 是一個將芬蘭二戰(zhàn)歷史數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù),并提供語義服務的語義門戶。該門戶在其主頁和菜單欄,按照資源類型提供從事件、人物、軍隊、地點、照片、傷亡者、雜志文章、戰(zhàn)爭墓地等八個視角對資源進行瀏覽和檢索(見圖1)。
(2)支持多語言。 SeCo 雖然是一個針對芬蘭的語義組織與語義服務項目, 但是為了方便全球更多的用戶利用其資源,SeCo 的許多系統(tǒng)都支持多語言訪問,常見的語言包括芬蘭語、瑞典語和英語,用戶可以選擇其熟悉的語言界面, 進行語義瀏覽和檢索等操作,極大地增強了用戶友好性。如BookSampo 是一個將芬蘭公共圖書館包含的芬蘭小說文獻元數(shù)據(jù)進行語義化,并提供語義服務的語義門戶。該門戶在其右上角提供芬蘭語、 瑞典語和英語三種語言供用戶選擇;WarSampo 語義門戶則在其左上角提供了芬蘭語和英語兩種語言, 用戶可方便地切換用戶界面語言進行系統(tǒng)訪問。
(3)語義瀏覽與語義檢索。 SeCo 允許用戶瀏覽其發(fā)布的關聯(lián)數(shù)據(jù),并對這些關聯(lián)數(shù)據(jù)進行檢索。由于RDF 查詢語言SPARQL 對于檢索能力的要求較高, 主要面向掌握SPARQL 的專業(yè)檢索人員, 因此SeCo 的大多數(shù)項目都為用戶提供基于自然語言的關鍵詞檢索, 或者提供標準查詢模板的方式引導用戶構建檢索策略, 使得普通用戶可以在不掌握SPARQL 查詢語言的情況下,也能進行語義檢索。 如CultureSampo 的“檢索與組織”界面提供了一個查詢模板“TELL ME ABOUT <Resource Type>W(wǎng)HICH <Condation1><Condation2>…”, 幫助用戶構建檢索式;WarSampo 的Places 界面提供了對芬蘭二戰(zhàn)戰(zhàn)區(qū)覆蓋的地點檢索,以芬蘭首都赫爾辛基(Helsinki)為例進行地點檢索得到的檢索結果(見圖2)。
圖1 WarSampo 提供的八個訪問視角和多語言服務
(4)知識發(fā)現(xiàn)。 知識發(fā)現(xiàn)是采用某種序化方式(如表、地圖和時間序列等)對檢索結果及其相關資源進行再組織, 為用戶提供了新的視角來發(fā)現(xiàn)信息資源中隱含的新知識。如通過CultureSampo 的“檢索與組織” 界面提供的查詢模板檢索得到的結果可以以列表、地圖、時間軸三種形式呈現(xiàn),幫助用戶發(fā)現(xiàn)事物隨時間演變的規(guī)律、 空間分布規(guī)律等知識;WarSampo 的Places 界面在地圖上展示相關地點,并提供與該地點相關事件、 文章和照片的鏈接。本文以芬蘭首都赫爾辛基(Helsinki)進行地點檢索得到相關戰(zhàn)爭文章,這些文章按照時間順序進行排列,可以發(fā)現(xiàn)與該戰(zhàn)爭地相關的文章數(shù)量隨時間變化的規(guī)律。
(5)可視化分析??梢暬夹g有助于幫助用戶更好地理解信息資源包含的語義信息, 發(fā)現(xiàn)其中隱含的規(guī)律。 SeCo 為用戶提供多種可視化方式,借助地圖、時間軸、網(wǎng)狀關系圖、柱狀圖、餅圖等方式實現(xiàn)時空語義信息、社會關系和統(tǒng)計信息的可視化。 如Culture-Sampo 提供人物和機構間多種社會關系(如教學關系和親屬關系等)的可視化服務;以WarSampo 的戰(zhàn)爭墓地訪問視角提供的英雄公墓中死亡者的年齡統(tǒng)計為例,可以發(fā)現(xiàn)該公墓中的死亡者年齡范圍在15 歲到39 歲,其中22 歲的死亡者最多。 此外,還可以通過地圖對死亡地點進行可視化, 借助餅圖對死亡人員的軍銜等級進行可視化統(tǒng)計等。
SeCo 創(chuàng)建的語義組織與語義服務項目發(fā)展較成熟,且具有綜合性、跨領域的特征,在信息資源語義整合、應用與服務方面取得了重要進展,其在語義組織和語義服務方面的成功實踐可以為我國相關研究與實踐提供一定的啟示和借鑒。
圖2 WarSampo 的地點訪問視角提供的語義檢索和知識發(fā)現(xiàn)服務
圖3 WarSampo 的戰(zhàn)爭墓地訪問視角提供的某英雄公墓中死亡者的年齡統(tǒng)計
(1)語義組織的對象從書目向非書目信息資源擴展。在資源類型方面,隨著數(shù)字技術和信息技術的迅猛發(fā)展,信息資源的類型日益增多,語義組織的對象也開始變得豐富多樣。 以往以書目信息資源為中心的語義組織已無法完全滿足需求, 目前語義組織的資源類型已出現(xiàn)從傳統(tǒng)的書目信息擴展到非書目信息的趨勢,因此應多關注對文物、雕塑、照片、視頻、音頻、廣告和地圖等多模態(tài)非書目信息資源的研究。目前, 國內(nèi)對非書信息資源的關注度仍不夠高。 今后, 國內(nèi)語義組織的研究對象的選擇應多關注非書目信息資源。
(2)語義標注的深度從外部特征向內(nèi)容語義深入。 在標注深度方面,早期的語義標注的粒度較粗,主要關注資源的外部特征, 缺少對內(nèi)容層面的語義挖掘。當前語義標注逐步深入到內(nèi)容層面,標注粒度變細,呈現(xiàn)從外部元數(shù)據(jù)向內(nèi)容語義深入的趨勢,有助于更加充分地發(fā)掘資源的有用語義信息, 提高資源的利用率。目前,國內(nèi)對語義組織的研究深度尚顯不足。今后,國內(nèi)語義組織的研究視角的選擇應多關注深度內(nèi)容語義標注。
(3)信息資源的覆蓋范圍從單一領域向多領域擴展。在研究領域方面,SeCo 研究團隊至今已開發(fā)了28 個項目,這些項目涉及人文學科和自然科學的諸多研究領域,研究范圍廣泛。其中,以人文社科居多,如歷史戰(zhàn)爭、人物傳記、圖書、旅游、法律等領域;自然科學領域相對較少,如健康醫(yī)學領域等。 目前,國內(nèi)相關研究和實踐仍以人文社科為主, 自然科學甚少,且總體而言,人文社科領域的實踐數(shù)量較之國外相對較少。今后,國內(nèi)語義組織的研究領域的選取可以采取橫縱結合的方式,在縱向上,進一步深入探索人文社科可能的研究領域, 在橫向上向自然科學相關領域擴展。
(4)語義服務從文本向圖像可視化發(fā)展??梢暬夹g可以更加生動、形象地展示語義信息,使用戶的理解更加深刻, 同時還可以挖掘其中隱含的規(guī)律。SeCo 為用戶提供多種可視化方式,借助地圖、時間軸、網(wǎng)狀關系圖、柱狀圖、餅圖等方式可以實現(xiàn)時空語義信息、社會關系和統(tǒng)計信息的可視化。 目前,國內(nèi)相關研究和實踐仍以平面化服務方式(頁面瀏覽或逐級瀏覽)為主,內(nèi)容多以文字方式呈現(xiàn),很少提供可視化服務。今后,國內(nèi)應嘗試提供多種圖像可視化語義服務,使研究更加立體、易懂。
(5)語義服務從單一向多樣化發(fā)展。語義技術最大的優(yōu)勢在于機器可讀可理解,在此基礎上為人類智能地處理信息,提供智能化知識服務。 SeCo 創(chuàng)建的語義服務模式主要包括語義門戶和移動應用, 這兩種模式符合當前互聯(lián)網(wǎng)時代的用戶需求。 SeCo 提供的語義服務類型主要包括: 多視角訪問、 支持多語言、語義瀏覽和語義檢索、知識發(fā)現(xiàn)、可視化分析等。其中,支持多語言為其它服務提供了重要的基礎,特別是國際通用的英語,有助于提高用戶友好性。語義服務類型和服務視角應具有多樣性, 以滿足不同類型用戶的多樣化需求。目前,國內(nèi)提供的語義服務以網(wǎng)站為主,移動應用甚少。此外,國內(nèi)提供的語義服務方式較少,鮮有支持多語言、可視化分析、知識發(fā)現(xiàn)等語義服務。 未來,國內(nèi)語義服務應朝多樣化方向發(fā)展。
SeCo 項目實踐作為當今國際上語義組織與語義服務的一個典型實踐, 展現(xiàn)了語義組織與語義服務的新思路和新方法, 對我國語義組織與語義服務實踐具有重要的借鑒意義。 本文從資源類型與標注深度、語義模型、語義數(shù)據(jù)構建與集成、語義服務四個方面對SeCo 開發(fā)的項目進行了梳理和分析,重點對SeCo 語義組織與語義服務的特點進行總結,精煉了其對我國開展相關實踐的幾點重要啟示。目前,我國仍缺乏大型語義組織與語義服務實踐項目, 在這一研究領域仍有較大的可研究和探索空間, 希望本文的探討可以為國內(nèi)開展相關實踐提供一些參考。