劉鳳臣,程 歆,葛銀華,駱建偉,劉廣睿
(南京工業(yè)大學(xué)測繪科學(xué)與技術(shù)學(xué)院,江蘇 南京 211816)
地理數(shù)據(jù)是指與地球參考空間(二維或三維)位置有關(guān)、表達(dá)地理客觀世界中各種實(shí)體和過程狀態(tài)屬性的數(shù)據(jù)[1]。地理科學(xué)數(shù)據(jù)是地理科研人員開展研究的基礎(chǔ)。隨著3S技術(shù)的發(fā)展,人類對地球和太空的觀測能力空前強(qiáng)大,產(chǎn)生了大量的地理數(shù)據(jù)。然而,傳統(tǒng)的基于關(guān)鍵詞匹配的檢索方式,無法滿足人們對檢索結(jié)果的需要,因?yàn)榈乩頂?shù)據(jù)間隱含的關(guān)聯(lián)信息未被有效利用。例如,以空間關(guān)鍵詞“江蘇”為檢索對象,只能檢索到包含字符“江蘇”的數(shù)據(jù),卻不能檢索出和“江蘇”有隸屬關(guān)系的“南京”的相關(guān)數(shù)據(jù)??蒲腥藛T面臨這樣一種困境,雖處于“信息的海洋”,卻常面臨“信息泛濫、知識匱乏”的困境[2]。如何將更相關(guān)的科學(xué)數(shù)據(jù)記錄排在檢索結(jié)果的前面,減少用戶瀏覽數(shù)據(jù)的數(shù)量,幫助其快速找到需要的信息,是一項(xiàng)很有意義且富有挑戰(zhàn)性的工作。
近年來,關(guān)聯(lián)數(shù)據(jù)的出現(xiàn),被認(rèn)為是解決數(shù)據(jù)共享的最佳實(shí)踐。關(guān)聯(lián)數(shù)據(jù)的概念是由互聯(lián)網(wǎng)創(chuàng)始人Tim Berners-Lee提出的,他認(rèn)為利用關(guān)聯(lián)數(shù)據(jù)技術(shù)可以將原本隱含而不明確的語義關(guān)系進(jìn)行明確關(guān)聯(lián)和表達(dá),構(gòu)建起計(jì)算機(jī)能理解的語義數(shù)據(jù),從而形成數(shù)據(jù)之網(wǎng)。
關(guān)聯(lián)數(shù)據(jù)一經(jīng)提出,迅速得到語義網(wǎng)研究社區(qū)、圖書館、研究機(jī)構(gòu)、政府和企業(yè)等方面的廣泛關(guān)注和積極響應(yīng),針對關(guān)聯(lián)數(shù)據(jù)的構(gòu)建及其應(yīng)用展開大量的研究與實(shí)踐。在2008年,瑞典國家圖書館把國家級的聯(lián)合書目目錄發(fā)布成關(guān)聯(lián)數(shù)據(jù),供人們使用;沈志宏等研究人員以科技文獻(xiàn)、科學(xué)數(shù)據(jù)的發(fā)布為例,開展了關(guān)聯(lián)數(shù)據(jù)發(fā)布流程與關(guān)鍵問題研究[3]。關(guān)聯(lián)數(shù)據(jù)在地理數(shù)據(jù)方面的研究比較少,也取得了一定的進(jìn)展[4-6]:比較有代表性的是,英國的國家制圖機(jī)構(gòu)將多種地理空間數(shù)據(jù)發(fā)布成關(guān)聯(lián)數(shù)據(jù);Linked GeoData把從OpenStreetMap項(xiàng)目收集到的數(shù)據(jù)布成RDF的形式,并與其他知識庫在LOD云上實(shí)現(xiàn)共聯(lián)。
由以上研究可知,國內(nèi)關(guān)聯(lián)數(shù)據(jù)的研究剛剛起步,而且主要集中于圖書館領(lǐng)域[7],在地學(xué)領(lǐng)域的研究較少。另外,在已構(gòu)建的關(guān)聯(lián)網(wǎng)絡(luò)中,關(guān)聯(lián)的層次太淺,無法挖掘更深層次的數(shù)據(jù)。針對這一問題,本文通過分析地學(xué)數(shù)據(jù)的特點(diǎn),提出了地理科學(xué)數(shù)據(jù)語義關(guān)聯(lián)模型。另外,以寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心和長三角科學(xué)數(shù)據(jù)中心為樣本數(shù)據(jù),依據(jù)該模型,發(fā)布成關(guān)聯(lián)數(shù)據(jù),并進(jìn)行查詢測試。
關(guān)聯(lián)模型本質(zhì)上是地理數(shù)據(jù)與數(shù)據(jù)之間通過元數(shù)據(jù)的描述信息來建立關(guān)聯(lián),是地理空間元數(shù)據(jù)關(guān)聯(lián)的一種實(shí)現(xiàn)方式[8]。分析當(dāng)前地學(xué)數(shù)據(jù)關(guān)聯(lián)模型發(fā)現(xiàn),關(guān)聯(lián)模型只考慮地理數(shù)據(jù)在時(shí)間、空間、內(nèi)容上的本質(zhì)關(guān)聯(lián),卻忽略了來源、用途等方面的必要關(guān)聯(lián),而這些關(guān)聯(lián)的存在對整個(gè)關(guān)聯(lián)體系有重要意義。我們提出了地理科學(xué)數(shù)據(jù)語義關(guān)聯(lián)模型(圖1),該模型分為空間類、時(shí)間類、內(nèi)容類、形態(tài)類、來源類和用途類,并對各類的特點(diǎn)作出分析,提出各類的構(gòu)建方案。
圖1 地理科學(xué)數(shù)據(jù)語義關(guān)聯(lián)模型
空間是地理數(shù)據(jù)的基本維度,空間特征是地理數(shù)據(jù)的本質(zhì)特征??臻g特征不僅包括空間實(shí)體的形狀、大小、空間形態(tài)等幾何特性,還包括用來描述空間實(shí)體之間聯(lián)系的空間關(guān)系[9],通過傳統(tǒng)的方法無法識別出數(shù)據(jù)之間潛在的空間關(guān)系,這成為制約地理數(shù)據(jù)共享的一個(gè)瓶頸。
本體是對共享的概念模型的形式化說明[10],能夠?qū)Φ乩頂?shù)據(jù)涉及到的空間特征進(jìn)行語義關(guān)系的明確表達(dá),而且具備強(qiáng)大的語義推理能力。本文通過構(gòu)建空間本體來實(shí)現(xiàn)地理科學(xué)數(shù)據(jù)在空間層面上的語義關(guān)聯(lián)。參照CLINGA本體,分析常見的語義應(yīng)用,提出了空間本體框架如圖2所示。
圖2 地理科學(xué)數(shù)據(jù)空間本體總體框架圖
概念方面,以人類活動是否占主導(dǎo)地位為依據(jù)劃分成自然地理空間概念和人文地理空間概念。關(guān)系分兩種,語義關(guān)系和空間關(guān)系。空間關(guān)系用來描述地理空間實(shí)例之間存在的與空間特性有關(guān)的關(guān)系,這些關(guān)系是數(shù)據(jù)查詢和推理的基礎(chǔ)[11]。在具體的構(gòu)建方法上,考慮到本體工程的復(fù)雜性,采用半自動化的方式進(jìn)行。概念、屬性、關(guān)系和規(guī)則通過手動構(gòu)建,而實(shí)例可以通過程序自動讀入。
時(shí)間是指地理事件在現(xiàn)實(shí)中發(fā)生或存在的時(shí)間,時(shí)間特征是地學(xué)數(shù)據(jù)的本質(zhì)特征[12]。通過構(gòu)建時(shí)間本體,能夠更有效地表達(dá)時(shí)間關(guān)聯(lián)信息。但是,時(shí)間存在多尺度性、凹凸性、波動性等特征,構(gòu)建地理科學(xué)時(shí)間本體將會是一個(gè)非常復(fù)雜的過程。
本文提出一種簡潔、有效的構(gòu)建方法,即給時(shí)間添加屬性和描述信息,分別表示時(shí)間的類別、時(shí)間軸和時(shí)間區(qū)間。分析地理科學(xué)數(shù)據(jù)的時(shí)間特征,發(fā)現(xiàn)有以下特點(diǎn):包括時(shí)間點(diǎn)和時(shí)間段兩類數(shù)據(jù);時(shí)間段的跨度很大。根據(jù)這些特性,把時(shí)間根據(jù)時(shí)間周期劃分為瞬時(shí)、短期、中期和長期。瞬時(shí)代表一個(gè)時(shí)間點(diǎn),而時(shí)間段的劃分比較復(fù)雜,沒有一個(gè)成熟的標(biāo)準(zhǔn)。本文以“寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心”和“長三角科學(xué)數(shù)據(jù)中心”為樣本,從上到下對時(shí)間區(qū)間進(jìn)行排序,根據(jù)統(tǒng)計(jì)學(xué)規(guī)律,選取一個(gè)有效的閥值來衡量時(shí)間周期,把時(shí)間段分為短期、中期和長期。時(shí)間的另外兩個(gè)重要的描述是時(shí)間軸和時(shí)間區(qū)間。時(shí)間軸用來描述數(shù)據(jù)發(fā)生時(shí)間節(jié)點(diǎn),比如“2008-2014”,它的時(shí)間軸屬性是“2011”(取平均);時(shí)間區(qū)間用來描述數(shù)據(jù)持續(xù)的時(shí)間,上例的時(shí)間區(qū)間是“6”(相減)。
內(nèi)容特性用來描述地理科學(xué)數(shù)據(jù)的內(nèi)容相關(guān)信息,是地理科學(xué)數(shù)據(jù)的本質(zhì)特性。內(nèi)容的表現(xiàn)形式有多種,從寒旱區(qū)科學(xué)數(shù)據(jù)中心了解到,有主題、類別、學(xué)科,除此之外,數(shù)據(jù)的標(biāo)題和摘要中也包含和內(nèi)容相關(guān)的信息,這能夠通過算法自動抽取。
本文借鑒知識發(fā)現(xiàn)領(lǐng)域的思想,提出了一種構(gòu)建方案:從樣本數(shù)據(jù)中獲取內(nèi)容之間的相關(guān)性。以主題為例,在樣本庫中,每個(gè)數(shù)據(jù)有多個(gè)主題,而每個(gè)主題又對應(yīng)多條數(shù)據(jù),每條數(shù)據(jù)又對應(yīng)多個(gè)主題,形成了一個(gè)網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)由地理數(shù)據(jù)和主題組成,統(tǒng)計(jì)出網(wǎng)絡(luò)中涉及到的所有主題及出現(xiàn)的次數(shù),主題出現(xiàn)的次數(shù)越高,認(rèn)為與初始設(shè)定的主題越相關(guān)。
地理科學(xué)數(shù)據(jù)的形態(tài)特征是數(shù)據(jù)內(nèi)在結(jié)構(gòu)特征和外在形狀特征的描述,包含了數(shù)據(jù)基準(zhǔn)、格式、類型、比例尺等內(nèi)容[13],是地理空間數(shù)據(jù)的重要特征。形態(tài)特征中包含的主要概念是數(shù)據(jù)基準(zhǔn)、數(shù)據(jù)格式、比例尺,構(gòu)建形態(tài)本體是一種高效的構(gòu)建形態(tài)關(guān)聯(lián)的方法。
用途特性用于描述數(shù)據(jù)的使用狀況,是數(shù)據(jù)的必要特征。在地理科學(xué)數(shù)據(jù)基于用途的檢索中,用途關(guān)聯(lián)模型就顯得尤為重要。地理科學(xué)數(shù)據(jù)用途信息往往通過文本形式描述,需要挖掘出結(jié)構(gòu)化的數(shù)據(jù)。運(yùn)用自然語言處理方法,抽取用途關(guān)鍵詞,并把它作為用途關(guān)聯(lián)的通道。
數(shù)據(jù)來源特征用來描述和數(shù)據(jù)有關(guān)的人和項(xiàng)目。數(shù)據(jù)來源是地理空間元數(shù)據(jù)的必要特征,是衡量數(shù)據(jù)質(zhì)量的重要指標(biāo),也是構(gòu)建關(guān)聯(lián)數(shù)據(jù)時(shí)描述模型的必要屬性[14]。數(shù)據(jù)來源層主要包括四種類型的關(guān)聯(lián):數(shù)據(jù)和人之間、數(shù)據(jù)和項(xiàng)目之間,人和機(jī)構(gòu)之間,項(xiàng)目和項(xiàng)目之間。人、項(xiàng)目和機(jī)構(gòu)形成一個(gè)關(guān)聯(lián)網(wǎng)絡(luò)(圖3)。
為了提高關(guān)聯(lián)的強(qiáng)度,項(xiàng)目和項(xiàng)目之間也可以構(gòu)建關(guān)聯(lián)。把項(xiàng)目分為國家自然科學(xué)基金項(xiàng)目、國家科技基礎(chǔ)性工作專項(xiàng)、國家高技術(shù)發(fā)展計(jì)劃課題等。如果兩個(gè)數(shù)據(jù)的項(xiàng)目信息屬于同一類,則認(rèn)為兩個(gè)數(shù)據(jù)具有一定的相關(guān)性。
圖3 地理科學(xué)數(shù)據(jù)來源類關(guān)聯(lián)模型
上一節(jié)提出了地理科學(xué)數(shù)據(jù)關(guān)聯(lián)模型,本節(jié),依據(jù)該模型,實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)的組織和發(fā)布。首先從寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心和長三角科學(xué)數(shù)據(jù)中心獲取元數(shù)據(jù),抽取地理科學(xué)數(shù)據(jù)在時(shí)間、空間、內(nèi)容、來源、用途和形態(tài)方面的元數(shù)據(jù)信息;其次,設(shè)計(jì)數(shù)據(jù)庫,把數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫;最后,使用Jena平臺組織發(fā)布關(guān)聯(lián)數(shù)據(jù)并進(jìn)行查詢實(shí)驗(yàn)。
國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺旨在為全球變化創(chuàng)新研究和區(qū)域可持續(xù)發(fā)展提供數(shù)據(jù)服務(wù)[15]。由于該平臺的數(shù)據(jù)內(nèi)容復(fù)雜,來源多樣,導(dǎo)致數(shù)據(jù)存在較為復(fù)雜的語義異構(gòu)現(xiàn)象。在入庫之前,要對數(shù)據(jù)進(jìn)行預(yù)處理。
數(shù)據(jù)預(yù)處理階段要解決的主要問題是實(shí)體匹配。實(shí)體匹配要解決的是相同實(shí)體的不同表達(dá)問題,可以借助實(shí)體的屬性進(jìn)行判斷。本文首先用Python對數(shù)據(jù)進(jìn)行清洗,去除字符串中空格換行符等冗余的符號。其次,使用SQL語句根據(jù)屬性特征進(jìn)行實(shí)體匹配。
數(shù)據(jù)庫是數(shù)據(jù)的載體,預(yù)處理之后的數(shù)據(jù)要導(dǎo)入數(shù)據(jù)庫。選擇當(dāng)前流行的關(guān)系型數(shù)據(jù)庫MYSQL作為存儲地理科學(xué)的倉庫。構(gòu)建一個(gè)良好結(jié)構(gòu)的中間數(shù)據(jù)庫可以提高組成關(guān)聯(lián)數(shù)據(jù)的效率。把表結(jié)構(gòu)分為主表,附表和關(guān)系表。主表中主要存儲形態(tài)特征,比如數(shù)據(jù)大小、格式,還有數(shù)據(jù)最基本的要素,如標(biāo)題、摘要、來源、數(shù)據(jù)鏈接等。附表用來存儲用于關(guān)聯(lián)的數(shù)據(jù)項(xiàng),比如“主題”、“類別”、“學(xué)科”等,而主表和附表之間的關(guān)聯(lián)通過關(guān)系表建立。
圖4是主題類型的關(guān)聯(lián)設(shè)計(jì),每條地理科學(xué)數(shù)據(jù)有多個(gè)主題,而不同數(shù)據(jù)間可能主題相同,把所有的主題數(shù)據(jù)提取出來,構(gòu)建一個(gè)單獨(dú)的表,并通過關(guān)系表“r_theme”實(shí)現(xiàn)與主表的關(guān)聯(lián)。
圖4 數(shù)據(jù)庫設(shè)計(jì)示例
存儲在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有組織成關(guān)聯(lián)數(shù)據(jù)才能建立數(shù)據(jù)之間的語義關(guān)聯(lián)。Jena是最常用的用于構(gòu)建語義網(wǎng)的應(yīng)用程序包,它是由惠普實(shí)驗(yàn)室開發(fā)的一個(gè)免費(fèi)的、開源的語義網(wǎng)應(yīng)用程序。Jena組織關(guān)聯(lián)數(shù)據(jù)的流程有三個(gè):創(chuàng)建資源;創(chuàng)建屬性;向資源中添加屬性。圖5是生成的RDF文件的部分。
圖5 RDF文件片段
本體能夠?qū)Φ乩韺ο笠约皩ο笾g的語義關(guān)系進(jìn)行明確的表達(dá),從而使空間數(shù)據(jù)之間的關(guān)聯(lián)更密切。Protégé是目前使用最廣泛的本體編輯器。本文根據(jù)上文提出的空間本體框架,做了試探性的實(shí)驗(yàn)。針對行政區(qū)劃這一部分,從概念、關(guān)系、屬性、規(guī)則和實(shí)例五個(gè)方面構(gòu)建,并寫程序自動構(gòu)建實(shí)例,最終完成行政區(qū)劃本體的構(gòu)建。圖6表現(xiàn)了一個(gè)實(shí)例的層次結(jié)構(gòu),從圖中可以看出:“nanjing”是概念“地級市”的一個(gè)實(shí)例,是“jiangsu”的一部分;“nanjing”和“jinling”是等同關(guān)系;實(shí)例“nanjing”在屬性方面的特征等。
圖6 行政區(qū)劃本體實(shí)例
查詢是用戶獲取信息的最直接手段,構(gòu)建關(guān)聯(lián)模型的目的是提高查詢效率。本文構(gòu)建了一個(gè)簡單的查詢,該查詢能夠獲取到一個(gè)特定機(jī)構(gòu)產(chǎn)生的所有地理科學(xué)數(shù)據(jù)(圖7)。地理科學(xué)數(shù)據(jù)和科研機(jī)構(gòu)并沒有直接的關(guān)聯(lián),但通過其他空間實(shí)體建立了間接關(guān)聯(lián)。實(shí)驗(yàn)表明,把關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用在地學(xué)領(lǐng)域,能夠挖掘地理科學(xué)數(shù)據(jù)間潛在的語義關(guān)系。
圖7 基于地理科學(xué)數(shù)據(jù)語義關(guān)聯(lián)模型搜索結(jié)果展示
地理科學(xué)數(shù)據(jù)關(guān)聯(lián)模型是基于關(guān)聯(lián)數(shù)據(jù)技術(shù)及其在地理科學(xué)學(xué)數(shù)據(jù)中的應(yīng)用,為解決互聯(lián)網(wǎng)大數(shù)據(jù)背景下海量、多源、異構(gòu)的地理科學(xué)數(shù)據(jù)發(fā)現(xiàn)、共享等問題提出的元數(shù)據(jù)與元數(shù)據(jù)之間直接進(jìn)行語義關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)。本文綜合考慮地理科學(xué)數(shù)據(jù)在時(shí)間、空間、內(nèi)容方面的本質(zhì)特征[16]和形態(tài)、來源、用途方面的必要特征,構(gòu)建了地理科學(xué)數(shù)據(jù)語義關(guān)聯(lián)模型,該模型囊括了地理科學(xué)領(lǐng)域的主要方面。該模型使得地理科學(xué)數(shù)據(jù)在關(guān)聯(lián)的廣度和深度上有較大提高,為其他領(lǐng)域關(guān)聯(lián)模型的構(gòu)建提供重要參考。
本文還探討了地理科學(xué)數(shù)據(jù)各關(guān)聯(lián)層的構(gòu)建方法,并實(shí)驗(yàn)了部分關(guān)聯(lián)層的構(gòu)建。雖然沒能實(shí)現(xiàn)所有關(guān)聯(lián)層的構(gòu)建,但是構(gòu)建各關(guān)聯(lián)層的主要技術(shù)都涉及到,結(jié)果證明,本文提出的各關(guān)聯(lián)層構(gòu)建方法具有實(shí)用性、新穎性等特點(diǎn)。但為了能夠?qū)崿F(xiàn)高效檢索和智能推薦,還必須建立關(guān)聯(lián)指標(biāo)體系,這將成為下一步工作的重點(diǎn)。
參考文獻(xiàn)(References):
[1]李軍,周成虎.地學(xué)數(shù)據(jù)特征分析[J].地理科學(xué),1999.2:63-67
[2]劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報(bào),2011.29(2):5-12
[3]沈志宏,劉筱敏,郭學(xué)兵等.關(guān)聯(lián)數(shù)據(jù)發(fā)布流程與關(guān)鍵問題研究——以科技文獻(xiàn)、科學(xué)數(shù)據(jù)發(fā)布為例[J].中國圖書館學(xué)報(bào),2013.39(2):53-62
[4]Longle P,Goodchild M,Maguire D et al.Geographic Information Systems and Science[M].NewYork:Wiley,2001.
[5]Diederik T,Ann C,Therese S.Publishing metadata of geospatial indicators as Linked Open Data:A policyoriented approach[C/OL].https://agile-online.org/Conference_Paper/cds}agile_2014/agi le2014_135.pdf
[6]YingjieH,JanowiczK,McKenzieGet al.A linked-Data-driven and semantically-enabled journal portal for scientometrics[C/OL]//http://geog.ucsb.edu/~hu/papers/SEJP.pdf
[7]王杰峰.關(guān)聯(lián)數(shù)據(jù)在圖書館館藏?cái)?shù)字資源整合中的應(yīng)用研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2017.29(6):40-43
[8]趙紅偉,諸云強(qiáng),侯志偉等.地理空間元數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建[J].地理科學(xué),2016.36(8):1180-1189
[9]王東旭,諸云強(qiáng),潘鵬等.地理數(shù)據(jù)空間本體構(gòu)建及其在數(shù)據(jù)檢索中的應(yīng)用[J].地球信息科學(xué)學(xué)報(bào),2016.18(4):443-452
[10]StuderR,BenjaminsVR,FenselD.Knowledge engineering:principles and methods[J].Data&Knowledge Engineering,1998.25(1):161-197
[11]杜世宏,秦其明,王橋.空間關(guān)系及其應(yīng)用[J].地學(xué)前緣,2006.3:69-80
[12]侯志偉,諸云強(qiáng),高星等.時(shí)間本體及其在地學(xué)數(shù)據(jù)檢索中的應(yīng)用[J].地球信息科學(xué)學(xué)報(bào),2015.17(4):379-390
[13]孫凱,諸云強(qiáng),潘鵬等.形態(tài)本體及其在地理空間數(shù)據(jù)發(fā)現(xiàn)中的應(yīng)用研究[J].地球信息科學(xué)學(xué)報(bào),2016.18(8):1011-1021
[14]Heath T,Bizer C.Linked data:evolving the web into a global data space[J].Synthesis lectures on the Semantic Web:Theory and Technology,2011.1(1):1-36
[15]諸云強(qiáng),宋佳,馮敏等.地球系統(tǒng)科學(xué)數(shù)據(jù)共享軟件研究與發(fā)展[J].中國科技資源導(dǎo)刊,2012.6:11-16
[16]趙紅偉,諸云強(qiáng),楊宏偉等.地理空間數(shù)據(jù)本質(zhì)特征語義相關(guān)度計(jì)算模型[J].地理研究,2016.35(1):58-70