劉紀平,栗 斌,2,石麗紅,王振峰,陶坤旺
1.中國測繪科學研究院政府GIS研究中心,北京100830;2.武漢大學資源與環(huán)境學院,湖北武漢430079;3.溫州醫(yī)學院環(huán)境與公共衛(wèi)生學院,浙江溫州325035
據(jù)統(tǒng)計,重大突發(fā)事件中,97%與空間位置直接或間接相關[1]。對這些事件檢索時,傳統(tǒng)地理信息檢索方法遵循以關鍵詞詞形匹配方式實現(xiàn)地理信息檢索,忽略關鍵詞的語義信息,導致檢索系統(tǒng)難以正確理解用戶查詢需求。不同類型地理信息難以按地理空間事件組織,無法為用戶主動提供與事件處理相關的地理信息,信息獲取過程繁瑣,檢索效率低,個性化支持能力弱,查準率不高。因此,研究地理信息的自動檢索技術,從海量地理信息數(shù)據(jù)庫中智能提取與地理空間事件相關的信息,變被動檢索為按事件主動服務[1],不僅是當前地理信息服務的前沿和熱點,更可廣泛應用于政府應急管理、地理信息搜索服務等多個領域。
為克服傳統(tǒng)地理信息檢索方法由于關鍵詞詞形匹配帶來的缺陷,引入本體的概念,即“本體是共享概念模型的明確的形式化規(guī)范說明”[2]。由于本體可以對知識的概念和相互間的關系進行較為精確的定義,具有良好的概念層次結構和對邏輯推理的支持,能在不同的建模方法、范式、語言和軟件之間進行翻譯和映射,以實現(xiàn)不同系統(tǒng)之間的互操作和繼承[1,3]。因此,在信息檢索特別是基于知識的智能檢索中可以充分發(fā)揮其優(yōu)勢,有效提高檢索效率[4]。
本體在地理信息領域的延伸和應用形成地理空間事件本體,它是地理本體的一種類型,是把與地理空間事件相關的知識、信息和數(shù)據(jù)抽象成若干個具有共識的地理對象,并按照一定的邏輯關系組成體系,同時進行概念化處理和明確的定義,以形式化的方式進行表達,最終服務于地理信息智能檢索。這里,地理空間事件指發(fā)生在地表空間的各種自然和社會現(xiàn)象,由時間、位置和事件現(xiàn)象等部分組成。地理空間事件本體以地理空間事件相關信息組織為核心[1],基于本體的檢索既可以有效地解決傳統(tǒng)檢索方式中處理地理空間事件空間位置時的不明確性,又可以實現(xiàn)地理空間事件相關信息的自動組織以及針對不同用戶的個性化服務。
目前,本體用于智能信息檢索的前沿研究主要包括:
(1)Ontobroker[5]:用來處理HTML、XML和RDF格式的信息源和語義描述的系統(tǒng),提供信息檢索、查詢和維護支持服務。核心是用形式化本體描述背景知識,并明確化Web文檔的語義,以便綜合利用本體論的表達能力和推理機制。
(2)OntoSeek[5]:基于內(nèi)容從在線黃頁和產(chǎn)品目錄中進行檢索的系統(tǒng)。把本體用作有語義信息的領域詞匯表,將本體驅動的內(nèi)容匹配機制與一個表示形式化的系統(tǒng)相結合,試圖將本體論和大詞典庫相互集成,以便提供一個可以用領域內(nèi)任意詞匯進行交互式語義查詢的系統(tǒng)[6]。
本文區(qū)別于傳統(tǒng)的地理信息檢索僅利用關鍵詞進行匹配和查詢的機制,以地理空間事件(任務)為紐帶,通過研究地理空間事件相關本體的創(chuàng)建方法,利用本體構建領域概念模型,對與地理空間事件相關的語義、空間等信息進行關聯(lián)分析和推理,從語義層次理解用戶需求[7],按照特定地理空間事件特征,組織查詢?nèi)蝿眨瑒?chuàng)建事件驅動的智能化地理信息檢索方法,實現(xiàn)用戶僅需要了解事件發(fā)生的基本信息(如名稱、地點、類型等)就可以從海量地理信息庫中智能提取與事件相關的信息,并提供檢索的個性化支持,簡化檢索過程,最終提高檢索效率。
本體驅動的地理空間事件相關信息檢索成功的前提是要構建一個地理空間事件本體,該本體包含地理空間事件的基本概念及概念間語義關系的明確定義。
面向用戶檢索,地理空間事件本體可以劃分為地理對象本體、自然災害本體及基于用戶個性化需求的用戶本體等子類型,不同本體間的邏輯關系如下圖1所示。
圖1 本體間邏輯關系圖Fig.1 Logic diagram among ontologies
其中,地理對象本體和自然災害本體構成地理空間事件本體的主要部分,描述地理空間事件相關信息。前者用于描述地理空間事件的位置、空間關系、時間等信息[1];后者用于說明地理空間事件的名稱、類型、屬性、組織方式等信息[5]。這兩種本體可以相互引用。用戶本體則面對終端用戶建模,包括用戶喜好、檢索方式、興趣、級別、業(yè)務等屬性,以便檢索出感興趣的信息,過濾掉不相關的信息,體現(xiàn)用戶個性化需求。
(1)地理對象本體由六元組構成,即地理概念、關系、函數(shù)、屬性、公理、實例等,用于表示地理空間領域中的各種不同地理對象或實體,這些具有相同屬性的地理實體的集合被表示為“地理概念”或“類”,一個本體概念(類)由一系列性質和行為相同的地理對象組成。本體的概念構成層次結構,后者來源于地理領域已有的概念分類體系,本體的概念由屬性描述[8]。關系指地理領域中不同的概念之間某種性質的聯(lián)系,包括語義、空間關系。函數(shù)是一類特殊的關系。屬性與類相對應,包括對象屬性、數(shù)據(jù)屬性。確定概念的屬性和識別領域概念的過程是相互交叉的,通常都是在識別概念的同時,確定其屬性及與其他概念的關系。公理指地理學領域中公認的規(guī)律、知識及施加于概念之上的一些規(guī)則或約束條件,以便推理,并保證本體的一致性和完整性[1-2]。實例是指地理對象本體中概念或類的具體例子,也稱為個體。
(2)災害事件本體的構成與地理對象本體類似,但在結構上比后者要簡化,由四元組構成,即災害概念、關系、屬性、實例等。兩個概念之間通常存在一定的關系。
(3)構建用戶本體的目的是用于實現(xiàn)個性化信息內(nèi)容定制[1,5]。通過對用戶使用習慣、知識背景的處理及對用戶查詢計劃、意圖、興趣方向的推理和預測,完成信息過濾,提取用戶需要的信息。以電子政務用戶為例,其結構為一個四元組,表示為O=〈C,Ac,R,I〉,其中C表示概念的集合;Ac表示多個屬性集合組成的集合;R代表關系,表示用戶領域中各用戶概念之間的關系;I表示實例。
當前國內(nèi)外對地理本體的研究主要有:美國國家地理信息和分析中心對地理信息的認知類型和地理目標的本體特征的研究[9];美國西北大學對地理尺度和不確定性本體論的研究;希臘雅典國家技術大學開展“地理本體研究組ONTOGEO”項目研究[5];中科院計算所在重點項目“國家知識基礎設施”中對知識的形式化本體理論研究;武漢大學對地理本體的構建及其在異構系統(tǒng)的信息共享中的應用進行的研究。以上這些研究提出相應的本體構建方法,但基本是傳統(tǒng)的方式,在信息檢索時對地理空間事件的空間位置和個性化處理較弱。
構建本體的方法是將確定的領域知識轉換成本體模型。領域知識既可直接來自領域專家,也可來自領域資料或具體數(shù)據(jù)庫模型[10]。但由于領域知識與本體模型之間存在極大差異,完成這個轉換過程仍需要許多額外的工作。一般,本體構建需要經(jīng)過以下幾個步驟:① 從領域知識中提取關鍵領域概念、關系及公理;② 利用提取的關鍵領域概念、關系及公理創(chuàng)建領域概念模型;③ 根據(jù)領域概念模型編輯本體模型;④ 根據(jù)領域知識更新的需要重復上述步驟以更新本體模型。其中,從領域知識中提取領域概念、關系、公理的過程最難以實施。因為領域知識是開放性的,在沒有明確的任務之前,無法確定哪些概念、關系和公理需要提?。?,5]。
鑒于從領域知識直接構建本體的缺點,本文參考現(xiàn)有本體構建方法,提出以任務為中心的本體構建方法(圖2),通過任務來約束本體構建的整個過程,此處的任務是指構建本體的目的。任務中待處理的數(shù)據(jù)本身是要構建本體的概念模型具體化的一部分,因此任務參與本體構建的整個過程。以任務為中心的本體構建方法仍從領域知識構建地理空間事件本體,但將本體所應用的數(shù)據(jù)庫作為約束[11],通過數(shù)據(jù)庫內(nèi)容確定地理空間事件本體的領域界限。此時本體中的主要內(nèi)容來自數(shù)據(jù)庫,而數(shù)據(jù)庫中存在的數(shù)據(jù)是固定的,即數(shù)據(jù)庫所表示的語義信息存在領域界限[12]。所以,將數(shù)據(jù)庫模型轉換成本體模型基本無需考慮領域界限問題。這種方法的優(yōu)點是在從領域知識構建本體的過程中可以快速確定本體的領域界限。此外,在確定領域界限進行地理空間事件相關信息檢索時無需檢索多個數(shù)據(jù)庫。試驗所用的數(shù)據(jù)庫是一個整合了空間數(shù)據(jù)、屬性數(shù)據(jù)和專題數(shù)據(jù)于一體的數(shù)據(jù)庫,相關數(shù)據(jù)表建立了映射關系,可以保障信息檢索的完備性。
圖2 以任務為中心的本體構建方法Fig.2 Ontology construction method centered by the task
本體信息檢索一般有兩種用戶輸入方式:一是在用戶輸入查詢語句前讓用戶從已建本體中選擇合適的概念作為查詢關鍵詞,再利用這些關鍵詞進行檢索;二是用戶輸入查詢語句后對其進行自動概念匹配,以查找其在本體中對應的概念,再利用此概念作為條件實施查詢[5]。這兩種方法都存在缺點,結合這兩種方法,在用戶輸入查詢條件后首先對其進行自動匹配,以獲得與條件相似的本體概念;再將這些概念作為概念匹配的候選項供用戶選擇。由于縮小了匹配概念的范圍,用戶更容易選擇滿足其查詢意圖的概念,將其作為最終的語義查詢條件?;诘乩砜臻g事件本體的檢索流程如下:
(1)用戶輸入查詢關鍵詞后,將其與本體中概念進行匹配以確定關鍵詞的語義信息。這里概念為本體中的類和實例。匹配結果有三種情況,即精確匹配、無結果、相似匹配。無論哪種情況,都必須由用戶最終確定匹配結果。
(2)一旦用戶選擇了確切的本體概念,則這些概念作為最終查詢條件與目標本體進行匹配。
(3)如果不存在符合條件的本體信息,則需要對查詢條件進行擴展。擴展的結果可能是通過本體推理獲得的相等概念或上位概念等。擴展查詢可能需要重復進行,直到獲取本體信息或無法擴展為止。
(4)獲取本體中資源信息后,根據(jù)數(shù)據(jù)庫與本體的映射情況或用戶查詢要求,可以提取相應的空間或專題數(shù)據(jù)。
(5)將最終查詢結果顯示給用戶。
本體概念匹配是為了將用戶輸入條件轉換成本體中已定義的標準概念,使得查詢條件具有語義信息[1,5]。在此基礎上系統(tǒng)才能執(zhí)行準確的語義信息查詢。概念匹配的原理如下:假設用戶輸入關鍵詞為K,在本體中定義的概念集合為CO={Ci|i∈N};函數(shù)M(x)為某個詞匯x所表達的語義信息;對于Ci(i∈N),如果M(K)?M(Ci),那么概念Ci與關鍵詞K匹配;對于與關鍵詞K匹配的概念集合CM={Ck|k∈N}(CM?CO),如果存在min(M(C))(C∈CM),那么概念C為關鍵詞K的最終匹配。
在概念匹配中,難以確定的是某個關鍵詞所表達的語義信息,即函數(shù)M(x)。但無論采取哪種方法,仍需要由人來做最終評價[5]。因此,采取以用戶為中心的概念匹配方式。當用戶輸入關鍵詞后,首先以詞形匹配方式從本體概念中提取相關概念供用戶選擇;用戶查看相應概念的描述信息后決定哪個概念最符合其輸入關鍵詞所表達的語義信息,從而完成概念匹配過程。
在此模式下,不再使用已構建的本體概念對目標信息進行語義標注[13],而是將目標信息創(chuàng)建為本體實例,也稱實例檢索。當用戶使用關鍵詞檢索信息時,先用本體中相應的概念替換輸入條件,再通過替換后形成的概念條件與使用本體概念標注過的目標信息進行匹配,即可完成語義層次的信息匹配。其中,使用本體概念替換輸入條件即為檢索系統(tǒng)理解用戶輸入語義信息的過程,將目標信息創(chuàng)建成本體實例則為檢索系統(tǒng)理解目標信息的語義信息的過程,如圖3所示。
圖3 本體信息檢索方法Fig.3 Retrieval method of ontology information
相對本體常規(guī)檢索,本體擴展檢索(推理)可認為是對前者的擴展,即按照推理規(guī)則對查詢條件進行擴展,以獲得隱含信息。該功能常應用于本體的語義查詢、一致性檢查、概念自動分類等方面。這些應用的一個共同特點是需要利用本體推理捕獲隱含信息,即在部分已知信息的前提下得出其所隱含的部分信息。本體的推理功能視其所描述的領域知識而定,如果本體中描述了空間關系及規(guī)則,那么就可以實施空間推理;否則,無法進行空間推理[5,14]。
在擴展查詢方式下,主要是對概念在某個或多個關系上進行擴展,以得到其擴展概念。再以由該概念和擴展概念形成的概念集合代替該概念作為檢索條件進行檢索。最終得到的即為擴展查詢的結果,即推理結果。原理如下:
假設,用戶輸入關鍵詞對應的本體概念集合C={Ci|i∈N}作為檢索條件,關系Rm(m∈N)是概念Ci與其他概念之間的某種關系,則條件概念Ci的檢索結果為Q(Ci)={X|Rm(X,Ci)或Rm(Ci,X),i∈N,j∈N};假設,關系Rk(k∈N)是概念Ci與其他概念之間的某種可擴展關系,概念Ci沿關系Rk擴展后得到的擴展概念為Cik,則概念Ci的擴展查詢結果為QE(Ci)=(∪Q(Cik)),其中i∈N,k∈N,檢索條件C經(jīng)過擴展后得到檢索結果為QE(C)=(∩QE(Ci)),其中i∈N。
信息檢索中最常用的概念關系有三種:概念間的層次關系,具體與一般的關系,整體與部分的關系[3,5]。這三種關系可以覆蓋信息檢索中的大部分情況,目前本體查詢擴展主要也是考慮這三種關系。而在特定的地理信息檢索領域,空間關系則成為一種需要考慮的主要關系[15]。
在上文檢索方法指引下,進行相應的試驗,主要面向政府應急管理部門,為其提供自然災害事件相關信息的檢索工具。以地震災害為例,當用戶檢索災害事件信息(主要以時間、地點和事件類型為檢索條件)時,可以自動提取其關心的信息,并進行個性化展示。本文分別通過常規(guī)本體信息檢索和擴展(推理)信息檢索兩種方式列舉實例說明并進行對比分析。
用戶輸入查詢關鍵詞后,即可執(zhí)行檢索操作,獲得檢索結果。圖4表示對新疆烏什縣發(fā)生的地震信息進行檢索獲得的結果,用戶可查看與檢索條目相關的所有信息。圖5顯示與該地震相關的烏什地區(qū)經(jīng)濟統(tǒng)計信息。
圖4 發(fā)生在烏什地區(qū)的地震事件信息檢索結果Fig.4 Retrieval result of earthquake event happened in Wushi zone
圖5 與烏什地震相關的地區(qū)人口經(jīng)濟統(tǒng)計信息Fig.5 Statistical information of population and economy correlative to Wushi earthquake
由于地理空間事件本體中存在的地震事件概念與用戶查詢意圖完全相同,因此可以直接得到以上查詢結果。而當本體中的地震事件概念與用戶的查詢意圖不完全相同時,通過常規(guī)檢索方式則有可能得不到任何結果。例如,用戶輸入“自然災害”作關鍵詞檢索時,得不到相應的結果。出現(xiàn)這種情況的主要原因在于構建本體實例時只對其及其直接所屬類之間的關系進行了聲明,卻未直接聲明其與該類的所有父類之間的關系。而類的層次關系恰恰隱含了這些實例同屬于其所有父類的這一事實。即“地震”實例同樣是“自然災害”的實例。因此,當用戶查詢自然災害事件時,地震事件應該符合其查詢要求。
為解決上述問題,可采用擴展(推理)檢索方式,獲得符合要求的隱含信息[16]。當用戶選擇“推理”檢索方式后,首先調(diào)用本體推理方法對本體模型實施一次全局推理,以明確聲明子類實例與該類所有父類之間的關系,此時可完全解決上述第一個問題。當用戶再次檢索發(fā)生在烏什的自然災害事件信息,可得到如圖6所示結果,即可以得到烏什縣發(fā)生的地震信息,因為地震屬于自然災害,而且對地點條件按照空間關系屬性進行擴展。此外,在推理檢索方式下,對用戶輸入“烏什”地點條件后,按空間關系“包括”進行擴展,可得到發(fā)生在整個阿克蘇地區(qū)內(nèi)的所有地震事件信息,以及與烏什縣鄰接的所有縣的自然災害事件信息,如圖7所示。通過推理引擎,還可以提取所有與地震相關的人口經(jīng)濟數(shù)據(jù),生成一系列專題信息供用戶瀏覽。
圖6 推理檢索方式下可檢索到發(fā)生在烏什地區(qū)的自然災害事件信息Fig.6 Retrieval result of disaster event happened in Wushi zone in a rational manner
圖7 推理檢索方式下可檢索到發(fā)生在新疆區(qū)域內(nèi)的所有地震事件信息Fig.7 All the retrieval result of earthquake event happened in Xinjiang zone in a rational manner
鑒于地理信息的海量容量和復雜特征,通過使用本文描述的地理信息檢索方法,從海量地理信息數(shù)據(jù)庫中智能提取與地理空間事件相關的信息,支持個性化的地理信息服務,變被動檢索為按事件主動服務[1],可以有效提高政府部門辦公自動化和輔助決策效率。
與傳統(tǒng)的檢索方法相比,本文提供的地理信息檢索方法具有以下優(yōu)點:
(1)有效減少用戶操作次數(shù),可以使用戶的檢索效率提高2倍以上。
(2)地理空間事件相關信息的查全率、查準率達80%以上。
(3)地理空間事件關聯(lián)信息類型全面,支持矢量、影像、視頻、文本、圖片等信息的處理與可視化。
由于地理對象存在復雜的拓撲關系、方位關系、層次關系等,地理信息檢索中常包含多種空間關系[2]。當同時需要對多個空間關系實施查詢擴展時,問題將會變得比較復雜,利用本體檢索技術為突發(fā)自然災害、社會事件等輔助決策服務提供檢索功能還需要向深層次發(fā)展。
[1] LI B,LIU J P,SHI L H.Research on Geo-ontology Construction Based on Spatial Affairs[C]∥Proceedings of International Conference on Earth Observation Data Processing and Analysis.Wuhan:SPIE,2008:1-7.
[2] SUN Min.Geographical Information Ontology[J].Geography and Geographical Information Science,2004,20(3):6-11.(孫敏.地理信息本體論[J].地理與地理信息科學,2004,20(3):6-11.)
[3] HUANG Maojun.Study on Key Issues and Application of Geo-ontology[M].Anhui:China Science and Technology University Press,2006:83-109.(黃茂軍.地理本體的關鍵問題和應用研究[M].安徽:中國科學技術大學出版社,2006:83-109.)
[4] ABDELMOTY A I,SMART P D,JONES C B,et al.A Critical Evaluation of Ontology Languages for Geographic Information Retrieval on the Internet[J].Journal of Visual Languages and Computing,2005,16(4):331-358.
[5] WANG Zhenfeng.Geographical Event Retrieval Based on Ontology[D].Wuhan:Wuhan University,2009.(王振峰.基于本體的地理事件信息檢索[D].武漢:武漢大學,2009.)
[6] MAEDCHE A,STAAB S.Ontology Learning for the Semantic Web[J].IEEE Intelligent Systems,Special Issue on Semantic Web,2001,16(2):72-79.
[7] LI Lin.Fundamental Geographical Information Semantic Analysis Based on Formal Ontology[J].Acta Geodaetica et Cartographica Sinica,2005,37(2):230-235.(李霖.基于形式本體的基礎地理信息語義分析[J].測繪學報,2005,37(2):230-235.)
[8] AN Yang.Geo-ontology Construction and Compare in GIS[J].Geomatics and Information Science of Wuhan University,2006,31(12):1108-1111.(安楊.GIS中地理本體的建立與比較[J].武漢大學學報:信息科學版,2006,31(12):1108-1111.)
[9] JONES C B,PURVES R S.Geographical Information Retrieval[J].International Journal of Geographical Information Science,2008,22(3):219-228.
[10] WEIKHM G.The Web in 2010:Challenges and Opportunities for Database Research.[M].Heidelberg:Springer-Verlag,2001:1-23.
[11] TRINKUNAS J,VASILECAS O.Building Ontologies from Relational Databases Using Reverse[C]∥Proceedings of the 2007International Conference on Computer Systems and Technologies.Bulgaria:IEEE,2007: 14-15.
[12] ?ELENG M,LACKLAVIK M,BALOGH Z,et al.RDB2Onto:Approach for Creating Semantic Metadata from Relational Database Data[C]∥Proceedings of the Ninth International Conference on Informatics.Bratislava:IEEE,2007:113-116.
[13] KIRYAKOV A,POPOV B,OGNYANOFF D,et al.Semantic Annotation,Indexing,and Retrieval[C]∥Proceedings of Web Semantics Science:Services and Agents on the World Wide Web.Florida:Springer,2004:49-79.
[14] MIRON A D,GENSEL J,VILLANOVA M O,et al.Towards the Geo-spatial Querying of the Semantic Web with ONTOAST[C]∥Proceedings of Web and Wireless Geographical Information Systems.Berlin:Springer,2007:121-136.
[15] W3C.OWL 2Web Ontology Language[EB/OL].[2009- 10-27].http:∥www.w3.org/TR/owl2-primer.
[16] LI B,LIU J P,SHI L H,et al.A Method of Constructing Geo-object ontology in Disaster System for Prevention and Decrease[C]∥Proceedings of International Symposium on Spatial Analysis,Spatial-temporal Data Modeling and Data Mining.Wuhan:SPIE,2009:1-9.