桑琰云
(煙臺大學(xué)圖書館,山東 煙臺 264005)
不論是基于分類目錄的搜索引擎檢索技術(shù),還是基于含有指定目標(biāo)的全文搜索引擎技術(shù),都存在查準(zhǔn)率、查全率偏低的問題,也就是檢索利用的有效率偏低。再加上用戶檢索用詞的自由化,不同系統(tǒng)數(shù)據(jù)庫標(biāo)引語言的兼容,一詞多義或者多詞同義,還有分詞的歧義與錯誤,常常會導(dǎo)致自然語言與規(guī)范語言的差異。上個世紀(jì)80年代在SIGIR會議論文中,[1]就出現(xiàn)了對語義信息檢索的討論。隨著語義網(wǎng)信息和語義信息處理發(fā)展水平的不斷提升,語義網(wǎng)信息檢索的關(guān)注度才有所提升,但還是相對薄弱。2003年開始,國家的973計劃開始將語義的相關(guān)基礎(chǔ)研究、技術(shù)研究、模型研究、方法研究作為重點支持對象。筆者通過維普資訊數(shù)據(jù)庫平臺發(fā)現(xiàn),從2005年開始,相關(guān)語義的文章才開始出現(xiàn),以“語義信息”為題名或者關(guān)鍵詞的文章有20余篇,但是如果細化至“語義網(wǎng)信息”、“語義網(wǎng)檢索”、“語義網(wǎng)信息檢索”,涉及的文章一般只有四五篇,因此筆者旨在語義信息研究的基礎(chǔ)上,以多層次為切入點,探索多層次語義網(wǎng)信息檢索的相關(guān)理論。
語義的核心是共享,[2]是自由,它的存在將實現(xiàn)從字符檢索到概念檢索的過渡。語義網(wǎng)(Semantic Web)是一個通用的語義框架,不僅將文檔對象、數(shù)據(jù)共享和集成,更是將世界對象資源及資源之間多而雜的關(guān)聯(lián)關(guān)系通過機器可閱讀和理解的信息利用語義、語法和邏輯規(guī)則集合在一起組成的網(wǎng)絡(luò)。在語義網(wǎng)中定義和鏈接的數(shù)據(jù)都能被各種不同的應(yīng)用以更為有效的方式查詢、重用和集成。無論是簡單的描述語言還是復(fù)雜的描述性語言都是由某種語言作為載體,對知識進行客觀描述,讓機器能夠具有智能評估的作用,在一定程度上提高我們分析網(wǎng)絡(luò)信息語義的能力。有了語義網(wǎng)資源,計算機不需要人工的干預(yù)就可以對不同來源的這些語義網(wǎng)資源進行配置、聚合和解釋,“使用有限的科學(xué)術(shù)語進行提問和基本數(shù)據(jù)極端復(fù)雜性之間的差距將有可能縮小”。[3]
本體——表達的核心,“它給出了構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及結(jié)合術(shù)語和關(guān)系來定義詞匯的外延規(guī)則”。[4]其目標(biāo)是在語義正確的基礎(chǔ)上具有對語言的描述理解能力和完成推理的能力。計算機界的本體研究始于20世紀(jì)90年代初期的知識基礎(chǔ)社(knowledge base community)研究之后,各個學(xué)科都開始致力于本體的研究。借鑒不同領(lǐng)域的本體的不同內(nèi)涵,筆者認為語義網(wǎng)的本體是表示語義網(wǎng)中實體、類、屬性、角色、功能等特定詞匯及詞匯之間關(guān)系的具有“四化”特點(概念化、明確化、規(guī)范化、理解化)的集合。是語義網(wǎng)檢索的核心部分,是語義共享的基礎(chǔ)。劉康[5]根據(jù)不同的分類體系對本體有不用的分類,無論哪種分類的本體,其特定詞匯的概念和面向?qū)ο笾性~匯的概念有著本質(zhì)的區(qū)別。萬維網(wǎng)上的DAML本體庫、Schema Web、Protege本體庫等都是目前語義網(wǎng)資源的主要來源。[6]在這里需要提及的是元數(shù)據(jù)。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它為數(shù)字化信息集合提供規(guī)范、普遍的描述方法和檢索工具。元數(shù)據(jù)本身可以看成是本體的一種形式,或者是“元”元數(shù)據(jù),或者是簡單的本體。前者注重的是資源分類體系和資源本身的信息描述,后者注重的則是表達資源語義邏輯的知識體系,因此,對一個系統(tǒng)中實體進行分析并提取屬性的過程即為元數(shù)據(jù)的創(chuàng)建過程,在此基礎(chǔ)上再加之異構(gòu)分析、關(guān)聯(lián)分析等就可以創(chuàng)建本體了。元數(shù)據(jù)解決了資源的語義描述問題,而本體解決了資源集合的相互關(guān)系問題。[7]語法和語義、微觀和宏觀,兩者的滲透和結(jié)合就能夠完成在元數(shù)據(jù)框架下的語義檢索。
筆者認為該類資源是從資源描述的角度看,是構(gòu)建在本體中描述文檔類和屬性的資源。該類資源用RDF的二元數(shù)據(jù)模型作為基礎(chǔ)模型,用RDFSchema作為描述詞匯表,模型中用于描述本體文檔資源的都可以被看成是“節(jié)點”。但由于RDF的不全面性,RDFS作為其擴展更具完善性。
表征各類對象的實例數(shù)據(jù)。語義網(wǎng)支持互操作和集成不同來源的數(shù)據(jù),[3]尤其是關(guān)聯(lián)數(shù)據(jù)。此要求比較普遍。大多數(shù)的檢索者還是想從本體的知識庫中搜集到特定類目的實例信息。與傳統(tǒng)資源不同的是,該類型的語義網(wǎng)資源是基于結(jié)構(gòu)化查詢與處理的。
表征文檔與數(shù)據(jù)之間的語義關(guān)系數(shù)據(jù)。目前興起的語義關(guān)聯(lián)檢索的研究已有涉入。知識組織的技術(shù)方法除了可以組織隱含在知識資源中的知識結(jié)構(gòu)之外,還要使其中的語義元素能夠被計算機所交互。目前來看,我們現(xiàn)在的傳統(tǒng)檢索方式出于弱語義的知識表征階段,它相對于自然語言而言承載著一定的語義,但還是有所差距。語義關(guān)聯(lián)資源不僅局限于有直接關(guān)聯(lián)的主題之間,還包含對非直接關(guān)聯(lián)的主題之間的語義間接關(guān)聯(lián)。
實例數(shù)據(jù)資源和語義關(guān)聯(lián)資源單純用RDF(S)已經(jīng)不能夠完全表達語義,這就需要另外的本體語言O(shè)WL和DAML+OI來完成。[8]
根據(jù)朱成兵的語義網(wǎng)體系結(jié)構(gòu)的劃分,再結(jié)合筆者上述對語義網(wǎng)資源的特質(zhì)描述,可以得出語義網(wǎng)的機構(gòu)有一定的層次。零加工和初次加工或者多次加工的原始信息、元數(shù)據(jù)或模式信息,信息的層次越高,信息越抽象,越需要機器自動化處理,因此,語義網(wǎng)至關(guān)重要的是要建立出語義網(wǎng)的信息層次結(jié)構(gòu)。
筆者把這層等同于傳統(tǒng)信息檢索的知識數(shù)據(jù)庫層,當(dāng)然這層的基礎(chǔ)還是離不開Unicode及其表征網(wǎng)絡(luò)社會關(guān)系的URI,[9]用于負責(zé)處理信息資源的編碼和信息資源的標(biāo)識。有了這個編碼和標(biāo)識基礎(chǔ)就能為知識結(jié)構(gòu)層打造基礎(chǔ)。之后,通過使用標(biāo)準(zhǔn)XML把不用維度、不同指標(biāo)的信息數(shù)據(jù)納入到自身的“命名空間”[8]內(nèi)。該層從語法上表述信息的結(jié)構(gòu)和內(nèi)容,比如一詞多式、一詞多義、習(xí)慣用語等,也可以理解為普通的語言層次,不能表達機器可以理解的形式化的語義,缺乏靈活性。
該層對應(yīng)著語義分類內(nèi)容的知識數(shù)據(jù)庫。也是這個語義網(wǎng)的整體架構(gòu),包括主題設(shè)計、子主題設(shè)計、事實表、維度表等的設(shè)計。[9]從知識數(shù)據(jù)庫的定義內(nèi)涵我們可以引申出該層所包含的3個方面,即語義倉庫結(jié)構(gòu)設(shè)計、語義倉庫管理、語義倉庫應(yīng)用。該層次對應(yīng)的是一種解決方案,能夠解決分散異構(gòu)數(shù)據(jù)的綜合、集成。該層的建立需要在傳統(tǒng)知識庫的基礎(chǔ)上以數(shù)據(jù)挖掘、模糊數(shù)學(xué)[8]和OLAP技術(shù)為新的方法,利用一定的語言規(guī)范(如RDF)進行主題詞的編碼、同義詞的編碼、詞語變化的編碼、語言線索的編碼等。這樣不僅可以多方面地集成數(shù)據(jù)源,而且可以消除“數(shù)據(jù)監(jiān)獄”的問題達到數(shù)據(jù)的統(tǒng)一性,真正使數(shù)據(jù)具有“多維集”的特征,并被機器所理解。該層可以是視圖,可以是物化視圖,當(dāng)然也可以是文檔。實現(xiàn)淺層概括層或者原始數(shù)據(jù)到深層數(shù)據(jù)層的信息轉(zhuǎn)換。
2.2.1 主題品質(zhì)層
該層及其之后的程度層都是在深層概括層之下的細化層次,嚴格意義講是分層結(jié)構(gòu)。在概括層的基礎(chǔ)上進行ETL設(shè)計,表達每一個語義的特征層次結(jié)構(gòu),每層由個體、特性、動作等語義結(jié)構(gòu)有序地組織而成。例如對于問題:“2011年工資水平”,“高”與“低“即為該品質(zhì)層所要解決的語義問題。而對于高的人數(shù)所占的比例則可以認為是程度層所解決的語義問題。
2.2.2 主題程度層
該層是與上層處于同一層次的層,即為深層概括層之下的細化層次。表征的是語義的程度,比如工資高的人數(shù)所占的比例。比如一個本體對象的顏色、紋理、形狀、運動矢量等等都是該層所反映的。
該層次包含了邏輯層、證明層和信任層。[9]邏輯層用于描述推理規(guī)則,是對用戶需求進行分析、定位、驗證的基礎(chǔ)。證明層是用于提供的驗證機制,可以證明所提供給用戶的信息源、數(shù)據(jù)源和結(jié)論都是正確的、可靠的。信任層通過“證明”交換和數(shù)字簽名(Digital Signature)技術(shù),可以建立信任關(guān)系,保證語義網(wǎng)的可靠性以及用戶和代理之間的信任性。
根據(jù)咨詢用戶的查詢請求進行匹配、提煉,通過與語義倉庫中的相關(guān)知識域相鏈接,最終得到咨詢用戶相匹配的咨詢結(jié)果。筆者認為除此之外,該層還應(yīng)該包括以往咨詢用戶之間的互動,或者包含用戶相關(guān)的意群互動,這樣當(dāng)用戶想知道更多咨詢答案的來龍去脈就很簡單了。
這些層次結(jié)構(gòu)通過從低到高的逐層拓展形成了一個功能、內(nèi)容逐漸增強的檢索體系(詳見圖1)。
語義檢索是指借助于本體和查詢條件進行語義推理得到查詢結(jié)果并輸出到客戶端的過程。該過程通過本體構(gòu)建、復(fù)用、確立等級體系、語義映射關(guān)系、[10]數(shù)據(jù)攝取、信息互操作、可視化等一系列步驟才能實現(xiàn)語義網(wǎng)信息檢索。
圖1 多層次語義網(wǎng)的層次結(jié)構(gòu)
根據(jù)數(shù)據(jù)庫中一定的標(biāo)準(zhǔn)進行主題劃分,可以根據(jù)數(shù)據(jù)庫所屬的咨詢檢索范疇或者學(xué)科屬性或者咨詢需求等完成主題劃分,之后根據(jù)主題來進行事實表的設(shè)計和維度表屬性的設(shè)計,當(dāng)然這步必須與主題的劃分一一對應(yīng)又緊密相連。之后根據(jù)不同種類進行主題分割或交叉。然后通過ETL技術(shù)對已分類的數(shù)據(jù)進行獲取、過濾、清洗、轉(zhuǎn)換、裝載、校驗,[9]傳統(tǒng)的信息檢索止于此,也就是上文提到的知識結(jié)構(gòu)層。而語義信息網(wǎng)則需要在此層數(shù)據(jù)的基礎(chǔ)上進一步加深表示。這就需要元數(shù)據(jù)的設(shè)計,從而實現(xiàn)以上數(shù)據(jù)的本體表示。這也是實現(xiàn)檢索的關(guān)鍵環(huán)節(jié),即進入語義倉庫層。這一步包含了對知識結(jié)構(gòu)層內(nèi)知識概念的同義詞、上位詞、下位詞、屬性等的關(guān)系的語義擴展,包括確立概念的等級體系、概念之間的語義映射關(guān)系及語義關(guān)系的推理原則等。[10]語義細化得出主題特征層和主題程度層,根據(jù)具體領(lǐng)域的應(yīng)用并參照應(yīng)用的擴展性來建立新命名空間的新本體,完成了索引模塊。對已建立好的索引模塊中的本體信息資源所在的本體進行語義推理,針對用戶的查詢請求對本體的各種文件進行查詢匹配,最后將匹配的結(jié)果排序輸出。[11]該過程與圖1中層次結(jié)構(gòu)圖是相呼應(yīng)的。
單從用戶的端口看,用戶輸入咨詢信息后,首先進入到關(guān)鍵詞提取程序,進入關(guān)鍵詞的術(shù)語開始進行術(shù)語形式匹配,從而得到相應(yīng)的本體信息,例如類、實例、屬性等,[12]這樣就將知識數(shù)據(jù)庫中的概念與關(guān)鍵詞查詢中的術(shù)語聯(lián)系了起來。在用戶輸入查詢請求后,轉(zhuǎn)換為語義網(wǎng)表示的信息,從而得到本體信息進行語義查詢,最終進入檢索模塊。
最后筆者認為在索引模塊和檢索模塊還有一個語義的擴展,就構(gòu)成了上文提到的接口互動層。
圖2 多層次語義網(wǎng)檢索模式
語義網(wǎng)的信息檢索離不開資源的收集、索引的建立、語義的集成和用戶的檢索,其中索引的建立和語義的集成又是重中之重。當(dāng)然,這一系列的檢索流程中有些還有待進一步研究。比如本體的集成、本體的評價、語義化、查詢消歧、[1]單一語義映像、多層語義互聯(lián)、語義空間統(tǒng)一[13]等等都是難點。
基于多層次的語義信息檢索與傳統(tǒng)的網(wǎng)絡(luò)文獻檢索相比才可謂真正的信息檢索,其檢索平臺作為一個基于資源和以用戶為中心聚合資源的服務(wù)系統(tǒng),都有其自身主題的抽象或者概括,即語義框架。多層次的語義網(wǎng)信息檢索在基于前提條件和效果匹配的前提下考慮了輸入輸出參數(shù)的匹配,很好地滿足了用戶的非功能性要求。它更能表達和處理信息的語義內(nèi)容,提供的不僅僅是相關(guān)文檔的鏈接,傳統(tǒng)遍歷、信息組合的過程已經(jīng)通過語義信息檢索的方式表現(xiàn)出來。
[1] 黃敏.語義檢索研究綜述[J].圖書情報工作,2008(6):63-66.
[2] 湯怡潔,周子健.語義Web環(huán)境下語義推理的研究與實現(xiàn)[J].圖書館雜志,2011(3):69-75.
[3] The eScience Revolution:Rensselaer Researchers to Create Semantic Web Platforms for Massive Scientific Collaboration.[2009-10-01].http://www.eurekalert.org/pub_releases/2009-10/rpi-ter100109.php.
[4]Neches R,F(xiàn)ikes R E,Gruber T R,et al.Enabling technology for knowledge sharing[J].AI Magazine,1991(3):36-56.
[5] 劉康,黃奇.語義網(wǎng)中的重量級本體的設(shè)計[J].圖書情報工作,2006(6):42-45.
[6] 王雨英.基于本體的信息檢索研究[D].中國海洋大學(xué),2006.
[7] 花開明,陳家訓(xùn),楊洪山.基于本體與元數(shù)據(jù)的語義檢索[J].計算機工程,2007(24).
[8] 杜文華.語義網(wǎng)描述語言比較研究[J].情報雜志,2004(9):40-42.
[9] 章志龍.基于語義網(wǎng)的博客搜索系統(tǒng)研究[D].武漢理工大學(xué),2009.
[10] 王知津,王麗娜,胡玲玲.智能檢索環(huán)境下的索引編制[J].圖書館雜志,2011(1):16-19.
[11] 李桂華,汪學(xué)明.語義信息檢索框架設(shè)計及其算法研究[J].計算機技術(shù)與發(fā)展,2010(8):41-44.
[12] 袁杰,等.基于本體的領(lǐng)域Web搜索模型與架構(gòu)[J].計算機時代,2008(5):22-25.
[13] 席彩麗,李瑩.面向數(shù)字圖書館的分面語義架構(gòu)研究[J].現(xiàn)代情報,2010(12):15-17.