袁遠(yuǎn)明,吳產(chǎn)樂,3,艾浩軍
(1.武漢大學(xué)計(jì)算機(jī)學(xué)院 武漢 430072;2.國家多媒體軟件工程技術(shù)研究中心 武漢430072;3.武漢東湖學(xué)院 武漢430212)
影響公眾及公共事務(wù)等多方面的政府?dāng)?shù)據(jù)不斷增加,為滿足民眾對政府職能與義務(wù)的知情需求、促進(jìn)政府公共數(shù)據(jù)潛在價(jià)值的應(yīng)用開發(fā)、增強(qiáng)政府不同部門間的數(shù)據(jù)互操作,開展開放政府?dāng)?shù)據(jù)的研究與應(yīng)用對構(gòu)建服務(wù)型政府有十分重大的意義。
然而,傳統(tǒng)政府?dāng)?shù)據(jù)中缺乏語義互操作的格式化數(shù)據(jù)(xls、csv)以及不具備語義關(guān)聯(lián)的非格式化數(shù)據(jù)(txt、doc、ppt、pdf、html)大量存在,異構(gòu)的政府?dāng)?shù)據(jù)間的互操作難以實(shí)現(xiàn)。
改變當(dāng)前政府?dāng)?shù)據(jù)的發(fā)布標(biāo)準(zhǔn)將是解決問題的重要手段?;ヂ?lián)網(wǎng)和語義網(wǎng)等新技術(shù)的發(fā)展,已使各國政府意識(shí)到基于開放標(biāo)準(zhǔn)進(jìn)行政府?dāng)?shù)據(jù)發(fā)布的重要性,應(yīng)更多地考慮數(shù)據(jù)之間的關(guān)聯(lián)和復(fù)用,同時(shí)使得機(jī)器能夠理解并發(fā)現(xiàn)更多的相關(guān)數(shù)據(jù)。
關(guān)聯(lián)數(shù)據(jù)采用資源描述框架 (resource description framework,RDF)數(shù)據(jù)模型,利用統(tǒng)一資源標(biāo)識(shí)符(uniform resource identifier,URI)命名數(shù)據(jù)實(shí)體,通過 HTTP 瀏覽并獲取這些數(shù)據(jù),通過“鏈接”揭示數(shù)據(jù)的關(guān)聯(lián)關(guān)系以及能被計(jì)算機(jī)理解的語境信息。關(guān)聯(lián)數(shù)據(jù)也稱RDF數(shù)據(jù),RDF是用于描述Web資源的標(biāo)記語言,是由“主體(subject)—謂詞(predicate)—客體(object)”3 部分(即三元組)組成的資源描述通用模型。關(guān)聯(lián)政府?dāng)?shù)據(jù)的發(fā)布不要求使用者將數(shù)據(jù)拷入原數(shù)據(jù)集,只需創(chuàng)建不同數(shù)據(jù)源間的數(shù)據(jù)鏈接即可發(fā)現(xiàn)相關(guān)信息,以滿足政府?dāng)?shù)據(jù)發(fā)布的需求[1]。
開放數(shù)據(jù)尚無統(tǒng)一定義,來自維基百科的理解為:開放數(shù)據(jù)將資料開放給任何人使用,不論是出版還是做其他的運(yùn)用,不受著作權(quán)、專利權(quán)以及其他管理機(jī)制的限制[2]。所有的定義最終均以實(shí)現(xiàn)信息的開放與獲取、共享與重用為目標(biāo)。
開放政府?dāng)?shù)據(jù)作為以建立更加開放、透明、高效政府為目標(biāo)的開放政府運(yùn)動(dòng)的重要部分,是政府與市民間的重要交流通道,其最直接的優(yōu)勢是讓政府更加透明,市民能訪問不透明的原始政府?dāng)?shù)據(jù)。
關(guān)聯(lián)開放政府?dāng)?shù)據(jù)(linked open government data,LOGD)是一項(xiàng)很有前景、能更加高效訪問開放政府?dāng)?shù)據(jù)的技術(shù),也是關(guān)聯(lián)數(shù)據(jù)技術(shù)在開放政府?dāng)?shù)據(jù)方面的重要實(shí)踐應(yīng)用。
關(guān)聯(lián)數(shù)據(jù)社區(qū)[3]提出了一系列在網(wǎng)絡(luò)上合作發(fā)布與互聯(lián)結(jié)構(gòu)化數(shù)據(jù)的最佳原則[4]:使用URI作為事物的名稱,允許用戶使用HTTP URI查找這些名稱;當(dāng)查找一個(gè)URI時(shí),以RDF提供有用的信息,包含與其他URI的RDF鏈接,以便發(fā)現(xiàn)更多的相關(guān)信息。數(shù)據(jù)提供者遵循上述原則發(fā)布數(shù)據(jù),將原始數(shù)據(jù)加入關(guān)聯(lián)政府?dāng)?shù)據(jù)集合,并被各種程序加以利用。
關(guān)聯(lián)政府?dāng)?shù)據(jù)的優(yōu)勢體現(xiàn)在如下3個(gè)方面[5]。
·開放:能以開放的形式被各種應(yīng)用獲取并使用。
·組合化:關(guān)聯(lián)數(shù)據(jù)之間或與其他關(guān)聯(lián)數(shù)據(jù)間可以混搭,如城市醫(yī)療健康方面的政府?dāng)?shù)據(jù)與該市的人口、環(huán)境等方面的數(shù)據(jù)聯(lián)合起來,用于評估政府醫(yī)療投入的效率。
·可拓展性強(qiáng):互聯(lián)方式的改變不會(huì)影響數(shù)據(jù)本身。
依據(jù)以上發(fā)布原則及要求,歸納分析關(guān)聯(lián)數(shù)據(jù)的整體技術(shù)體系,該體系可分為關(guān)聯(lián)數(shù)據(jù)的表達(dá)、創(chuàng)建與發(fā)布、互聯(lián)、瀏覽與檢索4個(gè)層次,如圖1所示。
LOGD表達(dá)的是具體的政府?dāng)?shù)據(jù)內(nèi)容,數(shù)據(jù)表達(dá)采用RDF數(shù)據(jù)模型,用URI予以標(biāo)識(shí),能通過HTTP調(diào)用,如http://www.w3.org/people/EM/contact#me,這個(gè)URI可用來指代Eric Miller的人名信息,對應(yīng)的關(guān)聯(lián)數(shù)據(jù)的RDF三 元 組 表 達(dá) 為{‘http://www.w3.org/People/EM/contact#me’,‘Full Name’,‘Eric Miller’}。HTTP URI是抽象的概念,需要采用內(nèi)容協(xié)商[6]實(shí)現(xiàn)URI到具體數(shù)據(jù)記錄的映射,從而獲取如RDF/XML文本數(shù)據(jù)、HTML網(wǎng)頁等具體的內(nèi)容。
LOGD創(chuàng)建是實(shí)現(xiàn)LOGD的關(guān)鍵環(huán)節(jié),采取3.1節(jié)的表達(dá)方式描述對象的內(nèi)部結(jié)構(gòu)及其內(nèi)含語義,其關(guān)聯(lián)深度取決于內(nèi)容對象本身和所屬元數(shù)據(jù)格式的豐富程度,創(chuàng)建過程是基于元數(shù)據(jù)格式將元數(shù)據(jù)轉(zhuǎn)換成RDF數(shù)據(jù)。
政府?dāng)?shù)據(jù)大多以關(guān)系型數(shù)據(jù)庫 (relational databases,RDB)形式進(jìn)行存儲(chǔ),需要考慮如何將RDB數(shù)據(jù)轉(zhuǎn)換成RDF數(shù)據(jù)。RDB的模式是二維表,而RDF三元組是用二元關(guān)系表達(dá)主客體間的關(guān)系,兩者雖有不同但都是基于現(xiàn)實(shí)世界而構(gòu)建,具備建立映射的條件。RDB和RDF數(shù)據(jù)的具體映射方式見表1。
表1 RDB數(shù)據(jù)到RDF數(shù)據(jù)的映射
使用轉(zhuǎn)換工具將RDB數(shù)據(jù)轉(zhuǎn)換成RDF數(shù)據(jù),當(dāng)前流行的轉(zhuǎn)換工具有 D2RQ Platform/D2R Server[7,8]、Open Link Virtuoso’s RDF Views[9]、Triplify[10]。Linked MDB、DrugBank 等很多數(shù)據(jù)集都采用D2RQ Platform進(jìn)行數(shù)據(jù)發(fā)布。
LOGD的互聯(lián)層建立了同一數(shù)據(jù)集中內(nèi)容對象間的關(guān)聯(lián)關(guān)系,與其他數(shù)據(jù)集的互聯(lián)是其主要工作,也是整個(gè)LOGD體系的關(guān)鍵環(huán)節(jié)。
關(guān)聯(lián)數(shù)據(jù)的互聯(lián)技術(shù)是近年來的研究熱點(diǎn),在消費(fèi)關(guān)聯(lián)數(shù)據(jù)專題研討會(huì)(COLD)發(fā)布的研究熱點(diǎn)中,關(guān)聯(lián)數(shù)據(jù)的互聯(lián)算法居于首位?;净ヂ?lián)方法主要有共同鍵匹配、字符串匹配、子圖匹配3類,關(guān)聯(lián)架構(gòu)主要有Silk[11]、LinQuer[12]。其中,Silk是基于規(guī)則的互聯(lián)框架,是根據(jù)兩個(gè)數(shù)據(jù)集中數(shù)據(jù)的屬性相似度計(jì)算它們之間的互聯(lián)關(guān)系;LinQuer是一種從語義上發(fā)現(xiàn)關(guān)系數(shù)據(jù)集間的關(guān)聯(lián),從而生成SQL查詢的架構(gòu),包含LinQuer語言、Web接口、一個(gè)能將LinQL查詢轉(zhuǎn)換成SQL查詢的API、一個(gè)能更容易用LinQL查詢編寫的接口。由于LinQuer采用模塊化和通用化進(jìn)行構(gòu)建,使得LinQuer能容易地使用用戶定義關(guān)聯(lián)發(fā)現(xiàn)算法進(jìn)行充實(shí)和豐富。
建立互聯(lián)后的LOGD需要瀏覽器瀏覽數(shù)據(jù),并依據(jù)RDF鏈接實(shí)現(xiàn)數(shù)據(jù)間的導(dǎo)航,當(dāng)前較常見的關(guān)聯(lián)數(shù)據(jù)瀏覽器 包 括 Tabulator RDF Browser、Disco Hyperdata Browser、OpenLink RDF Browser、Object Viewer、Marbles RDF Browser等,均運(yùn)行在服務(wù)器端。
關(guān)聯(lián)數(shù)據(jù)瀏覽器有別于傳統(tǒng)瀏覽器,它運(yùn)行在服務(wù)器端,為用戶提供基于Web瀏覽器的界面;還有些RDF瀏覽器(如LongwellMSpaceFacet)因無法在不同數(shù)據(jù)源之間瀏覽,不能稱為關(guān)聯(lián)數(shù)據(jù)瀏覽器。搜索引擎技術(shù)用于檢索所需的數(shù)據(jù),常見的關(guān)聯(lián)數(shù)據(jù)搜索引擎包括Falcons、Sindice、Watson、Semantic Web Search Engine、Swoogle等。
兩者的有效結(jié)合,能以更智慧的方式提供瀏覽服務(wù),Marbles就是較好地融合兩種技術(shù)的關(guān)聯(lián)數(shù)據(jù)瀏覽器。
開放數(shù)據(jù)在信息組織與信息發(fā)現(xiàn)中的應(yīng)用相當(dāng)廣泛。在政府公共信息服務(wù)領(lǐng)域中,美國最先開展關(guān)聯(lián)數(shù)據(jù)的實(shí)踐應(yīng)用,基于關(guān)聯(lián)數(shù)據(jù)標(biāo)準(zhǔn)建立了data.gov政府?dāng)?shù)據(jù)門戶網(wǎng)站。英國(data.gc.uk)、加拿大(data.gc.ca)、澳大利亞(data.gov.au)、新西蘭(www.data.govt.nz)等國家相繼建立起本國的政府?dāng)?shù)據(jù)網(wǎng)站。與此同時(shí),相關(guān)研究機(jī)構(gòu)也紛紛成立,世界首個(gè)開放數(shù)據(jù)研究所于2012年5月在英國成立,目標(biāo)旨在幫助公共部門更有效地使用政府?dāng)?shù)據(jù),更好地發(fā)掘開放數(shù)據(jù)的商業(yè)價(jià)值。
2009年5月,全球第一個(gè)國家政府層面的數(shù)據(jù)門戶網(wǎng)站(data.gov)正式上線,數(shù)十萬項(xiàng)政府專用的數(shù)據(jù)被白宮開放到互聯(lián)網(wǎng),是政府各部門數(shù)據(jù)得以互操作的重大實(shí)踐成果。
data.gov是一個(gè)數(shù)據(jù)可自由獲取、公眾與政府機(jī)構(gòu)互動(dòng)、API開放的網(wǎng)絡(luò)信息共享平臺(tái)。數(shù)據(jù)采集方式為分工協(xié)作、多點(diǎn)聚合,數(shù)據(jù)集來源有兩類:一類以聯(lián)邦政府所轄的能源安全、財(cái)政、司法、教育等部門發(fā)布的數(shù)據(jù)集為縱向數(shù)據(jù)鏈;另一類以美國各市州為橫向數(shù)據(jù)鏈。data.gov以都柏林核心元數(shù)據(jù)集為標(biāo)準(zhǔn),采用目錄分類方式組織政府?dāng)?shù)據(jù),提供類目、機(jī)構(gòu)、關(guān)鍵詞等搜索途徑。其以一套完整的元數(shù)據(jù)分類體系集中管理數(shù)據(jù)資源,按照 “Raw Data Catalog”、“Tools Data Catalog”、“Geo Data Catalog”3 類將資源編制為一級目錄,并在每個(gè)一級分類檢索模塊中,為所有數(shù)據(jù)資源建立了兩個(gè)獨(dú)立的二級分類體系,一個(gè)是以數(shù)據(jù)所屬的社會(huì)領(lǐng)域角度為出發(fā)點(diǎn),另一個(gè)是以數(shù)據(jù)的來源機(jī)構(gòu)為出發(fā)點(diǎn),以提高檢索效率。
政府各部門專門設(shè)有信息主管,負(fù)責(zé)數(shù)據(jù)的審核、提交與發(fā)布、與data.gov的溝通等工作,定期在data.gov發(fā)布可供公眾自由獲取的高價(jià)值數(shù)據(jù)集。最早有11個(gè)機(jī)構(gòu)提供了76項(xiàng)數(shù)據(jù)集,之后數(shù)據(jù)集不斷攀升,見表2。
表2 data.gov數(shù)據(jù)集的發(fā)展情況
繼美國政府?dāng)?shù)據(jù)網(wǎng)站data.gov后,英國政府開放數(shù)據(jù)門戶網(wǎng)站data.gov.uk于2010年1月正式投入使用,旨在建立政府?dāng)?shù)據(jù)間的關(guān)聯(lián),便于公眾獲取政府?dāng)?shù)據(jù)。
data.gov.uk已從上線之初的2 500多個(gè)政府?dāng)?shù)據(jù)集發(fā)展到超過8 607個(gè),涉及人口與健康、交通與環(huán)保、教育與商務(wù)等領(lǐng)域[13]。該網(wǎng)站由“萬維網(wǎng)之父”TimBerners-Lee等人創(chuàng)立,在數(shù)據(jù)組織方面使用RDF、URI、SPARQL查詢語言、關(guān)聯(lián)數(shù)據(jù)API等高效的國際標(biāo)準(zhǔn)和新技術(shù),保證與關(guān)聯(lián)數(shù)據(jù)原則及協(xié)議的一致性,較好地實(shí)現(xiàn)數(shù)據(jù)的有效性及互聯(lián)。
英國各屆政府重視更多地發(fā)布政府?dāng)?shù)據(jù),新一屆政府提出了“數(shù)據(jù)權(quán)”的新概念,指明數(shù)據(jù)權(quán)是信息社會(huì)一項(xiàng)基本的公民權(quán)利,承諾深入推進(jìn)以使之制度化。
data.gov.uk的建立,使得政府?dāng)?shù)據(jù)更加透明化、政府信息更加關(guān)聯(lián)化,對政府與社會(huì)關(guān)系的轉(zhuǎn)變有重大意義。
當(dāng)今,智慧城市已成為全球城市發(fā)展的新熱點(diǎn),在全球智慧風(fēng)潮和國家政策的鼓勵(lì)下,北京、上海、武漢等紛紛加入“智慧城市”建設(shè)的行列。智慧政務(wù)作為智慧城市的首要建設(shè)項(xiàng)目,是進(jìn)一步加快推進(jìn)服務(wù)型政府建設(shè)的重大舉措。智慧政務(wù)的目的就是要增強(qiáng)政府信息的透明化水平,提升政府?dāng)?shù)據(jù)的重用效率,實(shí)現(xiàn)政府?dāng)?shù)據(jù)的透明、開放、共享以及政府智慧化決策與管理。
4.3.1 部門數(shù)據(jù)集之間的互聯(lián)提升政府?dāng)?shù)據(jù)的利用效率
提升政府?dāng)?shù)據(jù)的利用效率,需要在開放政府?dāng)?shù)據(jù)的同時(shí),實(shí)現(xiàn)政府各個(gè)部門數(shù)據(jù)集之間的互聯(lián)。通過數(shù)據(jù)集間的互聯(lián)挖掘潛在價(jià)值信息,實(shí)現(xiàn)數(shù)據(jù)交互重用,并最終實(shí)現(xiàn)城市智慧化決策與管理。
(1)城市可持續(xù)發(fā)展水平智慧評估
如經(jīng)濟(jì)部門、環(huán)保部門、衛(wèi)生部門,都在各自網(wǎng)站上公布了自己的業(yè)務(wù)數(shù)據(jù)集,若3個(gè)網(wǎng)站的數(shù)據(jù)集內(nèi)部及外部都實(shí)現(xiàn)了關(guān)聯(lián),分析人員可將這3個(gè)網(wǎng)站背后的GDP數(shù)據(jù)、污染數(shù)據(jù)和人們的健康指數(shù)聯(lián)接糅合起來形成新的應(yīng)用,通過應(yīng)用挖掘潛在信息,評估城市的可持續(xù)發(fā)展水平。
(2)政府醫(yī)療投入效率評估
如城市衛(wèi)生部門的醫(yī)療健康方面的政府?dāng)?shù)據(jù),可以和城市人口統(tǒng)計(jì)部門的人口數(shù)據(jù)、環(huán)保部門的環(huán)境數(shù)據(jù)等聯(lián)合起來,從而對政府醫(yī)療投入的效率進(jìn)行評估。
(3)部門間數(shù)據(jù)的高效共享
城市行政服務(wù)中心作為提供城市電子政務(wù)服務(wù)的重要載體,是連通各部門數(shù)據(jù)信息的重要樞紐。而連通各部門數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)間的共享重用,需要建立以各部門數(shù)據(jù)集為基礎(chǔ)的統(tǒng)一數(shù)據(jù)交互模型,該模型可采用RDF架構(gòu)、URI資源標(biāo)識(shí)方式、關(guān)聯(lián)數(shù)據(jù)等高效的國際標(biāo)準(zhǔn)和新技術(shù)來構(gòu)建。以市民辦理房產(chǎn)交易為例:行政服務(wù)中心的房地產(chǎn)管理處窗口工作人員可以通過共享民政部門的個(gè)人婚姻信息、公安部門的戶籍信息審查相關(guān)資格信息,市民不需要在多個(gè)部門收集資格材料就可以快速進(jìn)行房產(chǎn)交易。通過數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)部門數(shù)據(jù)的高效共享,明顯提升行政服務(wù)能力。
4.3.2 智慧城市LOGD組織和應(yīng)用
在建設(shè)智慧城市及服務(wù)型政府的指引下,基于關(guān)聯(lián)數(shù)據(jù)技術(shù)建立國家及城市的LOGD網(wǎng)站十分必要。當(dāng)前政府體制內(nèi)不同部門之間的利益難以協(xié)調(diào),難以實(shí)現(xiàn)數(shù)據(jù)的整合以及公民對政府的監(jiān)督和問責(zé)??梢詤⒖紘忾_放數(shù)據(jù)的建設(shè)經(jīng)驗(yàn),建立國家信息化推進(jìn)辦公室,統(tǒng)一指導(dǎo)國家開放政府?dāng)?shù)據(jù)的研究與應(yīng)用工作,加大開放數(shù)據(jù)關(guān)聯(lián)技術(shù)研究,按照關(guān)聯(lián)數(shù)據(jù)的內(nèi)容組織框架及原則,建立國家開放政府?dāng)?shù)據(jù)網(wǎng)站。并對開放政府?dāng)?shù)據(jù)進(jìn)行立法,保證開放政府?dāng)?shù)據(jù)的有效使用。更重要的是,在運(yùn)用關(guān)聯(lián)數(shù)據(jù)技術(shù)處理國家開放政府?dāng)?shù)據(jù)的同時(shí),應(yīng)考慮到具體的國情和中文信息處理方面的問題,只有與現(xiàn)實(shí)情況相結(jié)合,才能做好政府關(guān)聯(lián)開放數(shù)據(jù)的工作。
基于關(guān)聯(lián)數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布政府公共數(shù)據(jù),讓機(jī)器更好地理解和處理這些數(shù)據(jù),充分重用和挖掘政府公共數(shù)據(jù)潛在的價(jià)值,以簡化行政服務(wù)流程,提升行政服務(wù)水平。開放政府?dāng)?shù)據(jù)作為開放數(shù)據(jù)的重要應(yīng)用領(lǐng)域,關(guān)聯(lián)開放政府?dāng)?shù)據(jù)將更好地推動(dòng)開放數(shù)據(jù)在其他行業(yè)的發(fā)展。我國在借鑒英美政府實(shí)踐經(jīng)驗(yàn)的基礎(chǔ)上,建立了我國的開放數(shù)據(jù)許可環(huán)境,并健全了相關(guān)法規(guī)。
筆者在描述關(guān)聯(lián)開放政府?dāng)?shù)據(jù)相關(guān)概念的基礎(chǔ)上,分析了關(guān)聯(lián)開放政府?dāng)?shù)據(jù)4層結(jié)構(gòu)的技術(shù)體系,總結(jié)了國外典型開放政府?dāng)?shù)據(jù)的應(yīng)用實(shí)踐,重點(diǎn)討論了關(guān)聯(lián)政府?dāng)?shù)據(jù)在我國智慧城市建設(shè)中的應(yīng)用與挑戰(zhàn)。面對我國政府尚無開放數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)技術(shù)尚未得到有效應(yīng)用的現(xiàn)狀,建立我國關(guān)聯(lián)開放政府?dāng)?shù)據(jù)的網(wǎng)站,實(shí)現(xiàn)政府?dāng)?shù)據(jù)的關(guān)聯(lián)化將是一個(gè)長期的過程,有許多工作要去做。
1 Linking open data,2012
2 Open data.http://en.wikipedia.org/wiki/Open_data,2012
3 Christian Bizer,Tom Heath,Tim Berners-Lee.Linked data—the story so far.International Journals of Semantic Web Information System,2009,5(3):1~22
4 Tim Berners-Lee.Linked data.W3C Design Issues,2006
5 Qian Guofu.Government data online release based on linked data.Library and Information Service,2012(5)
6 Best practice recipes for publishing RDF vocabularies.http://www.w3.org/TR/swbp-vocab-pub/,2012
7 D2R server.http://d2rq.org/d2r-server,2012
8 D2R platform.http://d2rq.org/,2012
9 Open-link software.http://virtuo-so.openlinksw.com,2012
10 Triplify.org:overview.http://triplify.org/,2012
11 Volz J,Bizer C,Gaedke M,et al.Silk-A link discovery framework for the web of data.Proceedings of LDOW 2009,Madrid,Spain,2009
12 Oktie Hassanzadeh.Linkage Query Writer,PVLDB,2009
13 Datasets.http://data.gov.uk,2012