洪 燁,康 明 娟,李 仁 杰,2*,傅 學 慶,2
(1.河北師范大學資源與環(huán)境科學學院,河北 石家莊050024;2.河北省環(huán)境演變與生態(tài)建設實驗室,河北 石家莊050024)
旅游地理本體模型設計與張家界實例研究
洪 燁1,康 明 娟1,李 仁 杰1,2*,傅 學 慶1,2
(1.河北師范大學資源與環(huán)境科學學院,河北 石家莊050024;2.河北省環(huán)境演變與生態(tài)建設實驗室,河北 石家莊050024)
互聯網中的海量旅游信息對于信息時代的旅游地理學研究具有重要意義,但新型旅游信息存在的多源、異構、非標準化、語義缺失或模糊等問題,成為旅游地理學研究的障礙。該文利用本體論知識,結合已有地理和旅游本體,提取傳統(tǒng)旅游地理學科知識中的核心概念,整合互聯網大數據時代的旅游地理相關新概念,考慮旅游地理相關的專題內涵、空間尺度和空間關系等特點,對旅游地理知識進行抽象表達,以“地理位置”、“旅游空間”、“旅游資源”、“旅游參與者”、“旅游行為”及“幾何要素”為核心概念,通過定義旅游地理本體中類、屬性及層次關系構建了能被共享、重用和適于計算機理解的旅游地理本體模型,以張家界旅游地為例進行實例填充,并進一步約束實例間屬性關系。張家界旅游文本信息的語義標注實證研究表明,利用旅游地理本體挖掘與解讀海量旅游信息具有可行性。該文為基于旅游地理本體的文本挖掘提供了理論和方法參考。
旅游地理本體;本體模型;旅游文本;張家界
以攜程網、途牛網、去哪兒網、微博和博客等為代表的新型社交媒體為旅游業(yè)發(fā)展提供了機遇[1],旅游者通過社交媒體網站發(fā)布的旅游文本與照片等媒體內容,也為旅游研究提供了海量數據[2,3]。旅游文本內含和附帶的時空信息已經引起旅游地理學者的關注。然而,這些數據在有效使用之前還存在以下問題:多源、異構、非標準化造成知識分類和集成困難;旅游信息的時空語義隱藏于內容描述和組織結構中,造成語義分析困難。有效解決這兩個困難,成為社交媒體中的旅游信息應用于旅游地理學的關鍵。
隨著本體技術的成熟,本體在信息集成和知識發(fā)現方面具有的重要作用日益顯現。在旅游本體研究方面,基于旅游本體的語義Web技術可以有效整合互聯網異構信息,用于個性化推介和旅行規(guī)劃[4];基于旅游本體的文本信息抽取研究經常采用旅游文本語料[5,6]或制定本體匹配規(guī)則[7],反映了本體在旅游信息挖掘中的潛在優(yōu)勢,而信息抽取則成為本體實例化和應用的重要環(huán)節(jié)。在地理本體研究方面,涉及地理本體建模與推理[8]、地理本體的集成和融合[9]、本體驅動的地理信息抽取[10]、地理知識與服務發(fā)現[11]等。隨著本體技術的成熟,基于地理本體的大數據挖掘成為新熱點,例如基于本體的遙感大數據挖掘[12,13],利用地理協(xié)作本體的專家知識和VGI集成等均受到學者關注[14],充分證明了本體技術在互聯網時代信息時空語義挖掘的可行性和高效性。
旅游地理學以旅游者、旅游資源、旅游事件等相關要素為研究對象,特別關注多時空尺度下的旅游格局、過程與驅動機制研究,對學科本體描述的要素時空屬性有特殊需求。當前,旅游本體集成主要服務于旅游電子商務信息分類和個性化推介,缺少要素時空屬性及其相互間空間關系的表達;各類地理本體雖然關注地理知識分類與空間關系等概念,但缺少旅游專題語義內涵。在大數據時代背景下,旅游地理研究對特定旅游地理本體的需求已非常明確。本文通過繼承發(fā)展已有的旅游與地理本體,構建了旅游地理本體表達模型,并以旅游文本為數據源,開展本體實例填充和應用實驗,為旅游地理研究在大數據時代面臨的數據應用障礙提供解決方法。
本體是共享概念模型的、明確的形式化規(guī)范說明[15-17],以標準化、明確的方式描述概念內涵及層次結構,進而實現領域內的語義信息共享和互操作。為使計算機更好地理解和處理本體,需要將本體進行形式化處理。OWL語言(Web Ontology Language)是W3C推薦的本體描述語言,基礎理論為描述邏輯思想,具有很強的知識表達能力。
本體包含類、屬性及實例三要素,本文采用OWL DL作為旅游地理本體描述語言,以下對三要素形式化表達進行說明。
(1)OWL中將owl:Class表示為類信息,Class能夠通過rdfs:subClassOf定義出一個特定的類層次。
表明“旅游空間”是一個類信息,rdfs:subClassOf表示類之間的繼承關系,“景區(qū)”是“旅游空間”的子類。
(2)OWL本體中存在兩種屬性:一種是對象屬性,用owl:ObjectProperty表示類與類之間的關系;另一種為數據類型屬性,用owl:DataTypeProperty表示類到基礎數據類型(XML datatype)之間的關系。rdfs:subPropertyOf可以聲明屬性層次關系。
表明“景區(qū)包含游覽線”是“包含”對象屬性的子屬性,“景區(qū)包含游覽線”的定義域為“景區(qū)”,值域為“游覽線”。
(3)實例是類的一個具體的個體或對象,<游覽線rdf:ID="十里畫廊"/>表明“十里畫廊”是“游覽線”類的一個實例。
2.1 構建方法
目前,建立本體方法大多采用手工方式并且種類繁多,每種方法有各自的原則、標準和定義,比較流行的本體建模方法主要有骨架法、企業(yè)建模法和七步法[18]等。本文采用Stanford大學開發(fā)的七步法構建旅游地理本體,該方法較為成熟,包含領域概念分析、本體構建以及實例添加等方面。根據旅游地理本體的領域知識內涵和對時空尺度與空間關系的要求,在七步法指導下,旅游地理本體模型構建流程如下(圖1):1)確定構建本體的相關領域范圍,本文將對旅游、地理領域知識建立本體;2)旅游地理本體構建的宗旨是實現領域內的知識共享,因此,需要考慮現有旅游、地理本體是否可以重復使用;3)列出旅游、地理領域內重要術語,對其邏輯結構進行梳理并進行規(guī)范化描述,避免旅游地理本體構建出現概念及屬性重復或數據冗余等問題;4)定義旅游地理本體中類及類之間的層次關系,創(chuàng)建類的框架體系有自頂向下、自下而上及混合方式,本文對旅游地理本體構建采用自頂向下的方式創(chuàng)建本體類的層次關系;5)定義旅游地理本體中屬性及屬性之間的層次關系,旅游地理本體領域中的各個概念、對象及實例等都不是各自獨立的,而是相互聯系,因此,需要定義屬性約束關系,從而約束類及實例間的關系;6)定義旅游地理本體中屬性的特征與限制約束,例如,為某個屬性設置定義域與值域,屬性旅游地包含景區(qū),定義域為旅游地,值域則是景區(qū);7)添加旅游地理本體實例,為旅游地理本體模型中的各個類創(chuàng)建實例,并對實例添加屬性約束。
圖1 七步法構建流程Fig.1 The construction process of seven steps
2.2 旅游地理概念分析
旅游地理本體是將旅游和地理的知識、信息及數據抽象成一個具有共識的對象,并按照其層次關系組成的知識體系,旅游地理本體模型的抽象表達必須依賴于對旅游地理相關概念系統(tǒng)分析的基礎上。旅游是建立在一定社會經濟基礎上的社會經濟活動,是集吃、住、行、游、購、娛六大要素于一體的綜合性產業(yè),涉及地理空間、旅游資源和旅游參與者等眾多要素,受自然因素和人文因素的雙重影響。一次旅游活動既是一種經濟行為,同時也是一種地理現象。旅游地理學研究旅游活動、地理環(huán)境和社會經濟發(fā)展之間的關系,特別關注旅游者、旅游資源、旅游事件等相關要素在多時空尺度下的格局、過程與驅動機制研究。
旅游活動產生的大量旅游文本、照片、視頻、評論和旅行軌跡等信息是現代旅游地理學研究的重要數據源,能夠承載旅游活動的多種特征:地理位置、旅游空間、旅游資源、旅游參與者和旅游行為等。根據本體形式化表達的基本要求及旅游地理學的核心內涵,旅游地理本體涉及的核心概念及層次關系應主要從以下五方面進行凝練。1)地理位置。任何一次旅游活動都具有地理位置信息,它記錄了旅游者的出發(fā)地、目的地等;另外,地理位置也是旅游空間、旅游資源和旅游服務機構的載體。地理位置包括行政區(qū)劃與非行政區(qū)劃(指土地和海澤等信息)。2)旅游空間。是指涉及旅游活動依托的表現為點、線、面等地理形態(tài)的空間信息,包括旅游地、旅游路線、景區(qū)、游覽線和景點等,是旅游資源的載體。如果以實體對象的形狀來劃分,旅游地、景區(qū)為面要素,旅游路線與游覽線為線要素,景點為點要素。3)旅游資源。它是旅游地吸引旅游者的重要因素,可以是具有物質形態(tài)的自然實體,也可以是非物質的社會文化要素;旅游資源分布在一定的地理空間之上,其中包括風景名勝、遺址遺跡、建筑設施、旅游商品、民俗風情或人文藝術等。4)旅游參與者。是指直接或間接參與旅游活動的人或機構組織,影響著旅游地的發(fā)展和建設,包括旅游者、導游、社區(qū)參與和服務機構等信息。5)旅游行為。它通過旅游者的需要和動機產生,是在一定地域上產生的一種旅行和游玩的過程,反映旅游者的旅游動機,按動機分類,其內容包括觀光旅游行為、體育旅游行為、修養(yǎng)旅游行為、政治旅游行為、文化旅游行為、社會旅游行為等。旅游行為的產生介于特定的旅游空間尺度范圍,根據涉及空間的大小,空間行為可劃分為大、中、小3個尺度[19]。
2.3 旅游地理本體模型
根據本體概念及形式化表達的基本要求和旅游地理概念的系統(tǒng)解析,以Protégé軟件作為本體編輯和可視化工具。旅游地理本體模型可以描述如下:
(1)類及層次關系描述。旅游地理本體類及層次關系的設計采用自頂向下法。依據旅游地理研究需要,在概念分析基礎上綜合考慮旅游要素,建立“地理位置”、“旅游空間”、“旅游資源”、“旅游參與者”、“旅游行為”及“幾何要素”六大概念類,體現旅游者在旅游地域上的各種行為活動,反映人地關系。在六大概念基礎上,逐步細分建立各概念類的子類,使粒度精確到每一具體要素,最終完成旅游地理本體概念層設計(圖2)。
圖2 旅游地理本體(部分)類及層次關系Fig.2 Tourism geography ontology (partial) class and hierarchy diagram
(2)屬性及層次關系描述。僅有類及層次關系的描述還不能保證旅游地理本體的完整性,需要添加屬性對其進一步完善。旅游地理本體屬性信息見表1。以對象屬性為例,游覽線與景點是包含關系,景區(qū)與景區(qū)管理機構是管理與被管理的關系;以數據類型屬性為例,住宿機構自身的屬性包括地址、星級和電話等,地址均為文字描述,例如城市名、區(qū)名和街道號等信息。屬性層次關系表現為“包含”,屬性包括“旅游地包含景區(qū)”、“景區(qū)包含游覽線”、“游覽線包含景點”等。
表1 旅游地理本體屬性(部分對象、數據類型屬性為例)Table 1 Tourism geography ontology property (part of object property, data type property)
(3)添加實例。旅游地理本體模型中對類和屬性的定義,為旅游地理本體搭建了框架,要形成完整的旅游地理本體知識庫,還要進行實例填充。
3.1 張家界實例填充
以張家界為例,通過整理張家界旅游官網、張家界旅游服務大全等資料和旅游文本數據庫獲得旅游地理本體實例信息,通過手工方式進行實例填充。張家界實例填充結果(部分)如圖3所示,圖3a為 “旅游空間”部分實例填充及屬性約束結果,張家界實例通過屬性關系進行約束,以“包含”對象屬性為例,通過“包含”對象屬性的子屬性“旅游地包含景區(qū)”,定義“張家界”旅游地包含“森林公園”、“天子山”、“天門山”、“楊家寨”和“索溪峪”等景區(qū);通過“景區(qū)包含游覽線”定義“索溪峪”景區(qū)包含“百丈峽”、“寶峰湖”、“鷂子寨”和“十里畫廊”等游覽線;通過“游覽線包含景點”定義“十里畫廊”游覽線包含“水繞四門”、“雄獅回頭”、“古梓翠傘”、“九天銀練”、“錦鼠觀天”等景點。圖3b為“旅游資源”部分實例填充結果;圖3c為“旅游參與者”部分實例填充結果。
3.2 張家界實例語義標注
語義標注是本體實例化和應用的重要環(huán)節(jié)。旅游文本信息挖掘通常采用分詞工具[20]和建立地名字典[21]等方法,忽略了旅游地理學對要素空間尺度和空間關系的應用需求。本文在張家界旅游地理本體約束下,對旅游文本進行語義標注,解析旅游文本中的語義關系(圖4),通過對旅游文本中“旅游地”、“游覽線”、“景區(qū)”、“景點”及“特種旅游交通”的實例信息進行分類標注(圖4a),解讀文本中各實例要素之間的語義關系(圖4b)。
圖3 張家界實例信息(部分)Fig.3 Part of Zhangjiajie instance information
圖4 旅游文本語義標注及關系展示Fig.4 Tourism text semantic annotation and relationship
在繼承已有旅游、地理本體基礎上,整合互聯網大數據時代與旅游地理相關的新概念,探索利用本體表達多時空尺度旅游信息的有效途徑,以“地理位置”、“旅游空間”、“旅游資源”、“旅游參與者”、“旅游行為”及“幾何要素”等為核心概念,采用本體建模語言構建了旅游地理本體模型。該模型考慮了旅游地理相關的專題內涵、空間尺度、空間關系等要素特點及應用價值,實現了對旅游地理本體語義的旅游和地理概念的完整描述。以張家界旅游地為例,在已有旅游和地理本體基礎上,綜合旅游官方網站、旅游實地調查和互聯網旅游文本數據源,構建了包括275個類、71條屬性和752個本體實例的張家界旅游地理本體模型。研究表明,旅游地理本體模型具有適用性及實例化的可行性。通過旅游地理本體中“旅游空間”的子集標注旅游文本,標注內容包括“旅游地”、“景區(qū)”、“游覽線”、“景點”、“旅游參與者”及“特種旅游交通”的實例信息。測試表明,基于旅游地理本體可以進一步解讀旅游文本中的語義關系,為基于旅游文本開展空間結構、特征與演化研究提供了基礎。
本文的重點在于利用本體論思想,融合旅游與地理本體構建旅游地理本體模型,因此,張家界旅游文本的語義標注只是簡單的測試性應用。旅游地理本體模型的構建將為旅游地理學提供以下三方面的潛在應用支持。首先,解析旅游文本中的空間關系節(jié)點,確定旅游者的出發(fā)地、目的地及旅游線路的動態(tài)組織關系;通過線路組織、旅游行為、旅游交通連接等關系,對游客流、物質流和信息流等流動性空間特征進行研究。第二,以旅游地理本體中“旅游行為”為基礎,并結合旅游文本中的形容詞描述的情感特征,對旅游環(huán)境、旅游意象、地方感知度與滿意度等人地關系特征進行深入研究?;诼糜蔚乩肀倔w,可以挖掘旅游信息中表征的旅游熱度分布、行程規(guī)劃模式、線路組織關系,發(fā)現潛在的旅游空間結構、旅游地演化過程等。第三,探索旅游地理本體的智能維護與存儲方式,實現旅游地理本體在跨學科與各領域中的信息集成與共享,基于旅游地理本體知識庫可以實現互聯網旅游文本的半自動化數據清洗,提高海量旅游文本的清洗效率,從海量旅游文本中快速提取旅游地理相關研究所需數據;另外,基于旅游地理本體知識庫的旅游文本語義標注,可以有效解讀文本中存在的時空語義內涵,為旅游地理信息的深度挖掘和知識發(fā)現提供基礎。
[1] SPARKS B A,PERKINS H E,BUCKLEY R.Online travel reviews as persuasive communication:The effects of content type,source,and certification logos on consumer behavior[J].Tourism Management,2013,39:1-9.
[2] 王琨,郭風華,李仁杰,等.基于Tripadvisor的中國旅游地國際關注度及空間格局[J].地理科學進展,2014,33(11):1462-1473.
[3] 王守成,郭風華,傅學慶,等.基于自發(fā)地理信息的旅游地景觀關注度研究——以九寨溝為例[J].旅游學刊,2013,29(2):84-92.
[4] MORENO A,VALLS A,ISERN D,et al.Sigture-destination:Ontology-based personalized recommendation of tourism and leisure activities[J].Engineering Applications of Artificial Intelligence,2013,26(1):633-651.
[5] VICIENT C,S NCHEZ D,MORENO A.An automatic approach for ontology-based feature extraction from heterogeneous textual resources[J].Engineering Applications of Artificial Intelligence,2013,26(3):1092-1106.
[6] FARIA C,SERRA I,GIRARDI R.A domain-independent process for automatic ontology population from text[J].Science of Computer Programming,2014,95:26-43.
[7] 陳立娜,張紅,馬莉,等.基于本體的旅游信息抽取[J].計算機應用與軟件,2010,27(4):146-148.
[8] 李霖,朱海紅,王紅,等.基于形式本體的基礎地理信息語義分析——以陸地水系要素類為例[J].測繪學報,2008(2):230-235.
[9] 王敬貴,杜云艷,蘇奮振,等.基于地理本體的空間數據集成方法及其實現[J].地理研究,2009,3(3):696-704.
[10] JONES C B,PURVES R S.Geographical Information Retrieval[M].Encyclopedia of Database Systems Springer US,2009.1227-1231.
[11] 張立朝,潘貞,王青山,等.本體驅動的地理信息服務發(fā)現模型研究[J].武漢大學學報(信息科學版),2009,6(6):641-645.
[12] OLIVA-SANTOS R,MACI-P REZ F,GAREA-LLANO E.Ontology-based topological representation of remote-sensing images[J].International Journal of Remote Sensing,2014,35(1):16-28.
[13] FORESTIER G,WEMMERT C,PUISSANT A.Coastal image interpretation using background knowledge and semantics[J].Computers & Geosciences,2013,54:88-96.
[14] RICKER B A,JOHNSON P A,SIEBER R E.Tourism and environmental change in Barbados:Gathering citizen perspectives with volunteered geographic information (VGI)[J].Journal of Sustainable Tourism,2013,21(2):212-228.
[15] GRUBER T R.Toward principles for the design of ontologies used for knowledge sharing?[J].International Journal of Human-Computer Studies,1995,43(5):907-928.
[16]USCHOLD M,GRUNINGER M.Ontologies:Principles,methods and applications[J].The Knowledge Engineering Review,1996,11(2):93-136.
[17] STUDER R,BENJAMINS V R,FENSEL D.Knowledge engineering:Principles and methods[J].Data & Knowledge Engineering,1998,25(1):161-197.
[18] 徐安建,王海濤,尉伯虎,等.地理本體構建方法研究[J].測繪與空間地理信息,2013(7):38-40.
[19] 保繼剛,楚義芳.旅游地理學[M].北京:高等教育出版社,2012.
[20] 李照航,傅學慶,郭風華,等.旅游地文本中的細粒度地名可視化方法[J].測繪科學,2015,40(1):58-62.
[21] 張雪英,朱少楠,徐希濤.基于Neogeography的中文地名詞典維護和服務機制[J].測繪通報,2012(1):56-59.
Tourism Geography Ontology Model Design and Research of the Zhangjiajie Instance
HONG Ye1,KANG Ming-juan1,LI Ren-jie1,2,FU Xue-qing1,2
(1.CollegeofResourcesandEnvironmentScience,HebeiNormalUniversity,Shijiazhuang050024; 2.HebeiKeyLaboratoryofEnvironmentalChangeandEcologicalConstruction,Shijiazhuang050024,China)
A large amount of tourism information online is of great significance for the study of tourism geography in the information era.However,the problems of multi-source,heterogeneous,non-standardized,semantic missing of new tourism information,are becoming the barrier to the study of tourism geography.By using ontology knowledge and integrating new concepts related to tourism geography in the era of Internet big data,considering the special connotation,space-time scale,spatial relationships of tourism geography,the paper made some abstract expressions of tourism geography knowledge which contain geographic location,tourism space,tourism resources,tourism participants,tourism behavior,geometric elements and constructed the tourism geography ontology model which can be shared,reused,and is suitable for computer understanding.The attribute information is acquired by arranging spatial relations related concepts.Take Zhangjiajie tourist place for example,the paper filled instances for tourism geography.The results have shown that:using tourism geographic ontology mark tourism texts is feasible,which will lay a foundation for further tourism text semantic analysis,and provide the theory and method for further study on tourism geography ontology.
tourism geography ontology;ontology model;tourism text;Zhangjiajie
2016-01-22;
2016-04-19
國家自然科學基金項目(41171105、41471127);河北省杰出青年科學基金培育項目(D2015205208);河北省科學院高層次人才資助項目(2016022577-11)
洪燁(1989-),女,碩士研究生,主要從事旅游地理信息挖掘研究。*通訊作者E-mail:lrjgis@mail.hebtu.edu.cn
10.3969/j.issn.1672-0504.2016.03.017
F592
A
1672-0504(2016)03-0095-05