裴大容
摘要:通過對現(xiàn)有大數(shù)據(jù)服務(wù)研究現(xiàn)狀的分析,分析大數(shù)據(jù)服務(wù)研究目前所存在的問題,并針對目前大數(shù)據(jù)服務(wù)對數(shù)據(jù)特征表達不足,所導(dǎo)致的數(shù)據(jù)服務(wù)發(fā)現(xiàn)和組合困難的問題,提出了基于OWL-S的大數(shù)據(jù)服務(wù)模型,通過利用OWL-S中的服務(wù)操作、服務(wù)類型和數(shù)據(jù)源等屬性,實現(xiàn)大數(shù)據(jù)服務(wù)的可視化、分析和檢索等服務(wù)的構(gòu)建和動態(tài)組合,使得大數(shù)據(jù)服務(wù)在屬性和操作方面的描述更加完備,具有較強的語義理解和自動服務(wù)組合能力。
關(guān)鍵詞:大數(shù)據(jù)服務(wù);Web服務(wù);語義Web技術(shù)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)30-7014-03
大數(shù)據(jù)服務(wù)(Big Data-as-a-Service,BDaaS)是可獨立部署,具有明確契約和獨立功能的功能單元[1]。而大數(shù)據(jù)服務(wù)模型大數(shù)據(jù)服務(wù)的理論基礎(chǔ)和實現(xiàn)規(guī)范,在傳統(tǒng)的數(shù)據(jù)密集型Web服務(wù)中,采用WDSL對Web服務(wù)進行描述。但是這種描述方式只是描述了服務(wù)接口規(guī)范,缺乏對非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)質(zhì)量、模型、隱私等特征的描述,因此傳統(tǒng)的數(shù)據(jù)服務(wù)描述方法不適用于大數(shù)據(jù)服務(wù)的描述。
1 大數(shù)據(jù)服務(wù)模型研究現(xiàn)狀
目前針對大數(shù)據(jù)服務(wù)模型的研究,還存在如下的問題:
1) 目前的對大數(shù)據(jù)服務(wù)模型的研究,仍然沿用傳統(tǒng)的Web服務(wù)模型,無法提供對非結(jié)構(gòu)化數(shù)據(jù)的支持,不適用于大數(shù)據(jù)服務(wù)中對多種服務(wù)類型、多種數(shù)據(jù)源的支持[2]。
2) 對數(shù)據(jù)服務(wù)操作、數(shù)據(jù)源等特征的表達不足,導(dǎo)致使用傳統(tǒng)的數(shù)據(jù)描述方式阻礙了服務(wù)的組合和發(fā)現(xiàn)。
2 大數(shù)據(jù)服務(wù)模型設(shè)計思路
針對目前對待大數(shù)據(jù)進行描述的Web服務(wù)模型所存在的不支持非結(jié)構(gòu)化數(shù)據(jù)和特征表達不足的問題,大數(shù)據(jù)服務(wù)模型的設(shè)計必須要滿足如下三個方面的條件:
1) 同時支持結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)模型、服務(wù)模型。
2) 能夠?qū)?shù)據(jù)各個方面的特征屬性進行形式化的定義,和完善的描述。
3) 支持可視化型數(shù)據(jù)服務(wù)和分析型數(shù)據(jù)服務(wù)的構(gòu)建。
針對大數(shù)據(jù)服務(wù)模型設(shè)計所需要滿足的要求,在進行大數(shù)據(jù)服務(wù)模型設(shè)計時,通過如下的方法來滿足大數(shù)據(jù)服務(wù)模型的需求。
1) 采用非結(jié)構(gòu)數(shù)據(jù)模型GDM將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,然后對GDM中的屬性進行描述,從而將用戶對數(shù)據(jù)服務(wù)的檢索、可視化請求和分析都轉(zhuǎn)換為對非結(jié)構(gòu)化數(shù)據(jù)屬性的操作。
2) 韓晶(2013)已經(jīng)對數(shù)據(jù)服務(wù)應(yīng)該包含的屬性進行了全面分析[3],考慮到數(shù)據(jù)服務(wù)應(yīng)該盡可能的體現(xiàn)數(shù)據(jù)特征,為此在文獻三研究的基礎(chǔ)上,增加數(shù)據(jù)隱私和數(shù)據(jù)質(zhì)量部分的屬性。并且設(shè)計大數(shù)據(jù)服務(wù)模型的相關(guān)操作函數(shù),滿足用戶對輸出結(jié)果進行篩選的需求。
3) 增加可視化型、分析型邏輯描述,從而支持用戶對大數(shù)據(jù)服務(wù)的這兩大數(shù)據(jù)服務(wù)需求。
3 大數(shù)據(jù)服務(wù)模型的具體設(shè)計
目前對數(shù)據(jù)服務(wù)進行描述的方法主要包括REST API和WSDL方法等,這些數(shù)據(jù)服務(wù)描述方法都由于缺乏相應(yīng)的語義信息,導(dǎo)致數(shù)據(jù)服務(wù)在自動服務(wù)組合方面存在一定的不足。
OWL-S(Ontology Language for Web Service)通過一組語言標記對Web服務(wù)進行描述,是基于語義Web技術(shù)和Web服務(wù)的結(jié)合體,從而使得數(shù)據(jù)服務(wù)能夠更好的被計算機所理解,有利于數(shù)據(jù)的分析,從而支持Web服務(wù)的發(fā)現(xiàn)、調(diào)用和組合。除此之外,OWL-S還支持自定義類實現(xiàn)對OWL-S的擴展。為此,使用OWL-S設(shè)計大數(shù)據(jù)服務(wù),可以使得大數(shù)據(jù)服務(wù)模型具備語義和數(shù)據(jù)特征雙重優(yōu)勢。
由于大數(shù)據(jù)服務(wù)的基礎(chǔ)數(shù)據(jù)源復(fù)雜,各數(shù)據(jù)源模式各異。為此,為了實現(xiàn)數(shù)據(jù)服務(wù)的匹配和組合,即必須要采用一種合適的方式來對數(shù)據(jù)服務(wù)進行統(tǒng)一表示,語義Web技術(shù)通過RDF將大數(shù)據(jù)服務(wù)的各個數(shù)據(jù)源的數(shù)據(jù)模型映射到一個全局共享語義本體上,從而方便用戶對數(shù)據(jù)語義的理解,從而實現(xiàn)基于OWL-S的大數(shù)據(jù)服務(wù)建模。
在建立數(shù)據(jù)源與共享本體之間的映射之后,就可以在此基礎(chǔ)上進行基于OWL-S大數(shù)據(jù)服務(wù)的建設(shè)。OWL-S使用OWL語義對Web服務(wù)本體進行定義,并且將其中每個具體的Web服務(wù)當成是Web服務(wù)本體的一個實例來對數(shù)據(jù)進行描述。
每一個大數(shù)據(jù)服務(wù)模型都需要用一個Service來對模型進行描述[4],在基于OWL-S的大數(shù)據(jù)模型中,使用由ServiceGrounding、ServiceModel和ServiceProfile三個屬性子類構(gòu)成的Service來對數(shù)據(jù)模型進行描述。其中,ServiceGrounding主要包含服務(wù)端口號、消息格式和服務(wù)訪問協(xié)議等內(nèi)容,描述用戶怎樣獲取大數(shù)據(jù)服務(wù);ServiceModel主要對大數(shù)據(jù)服務(wù)內(nèi)部流程進行描述;ServiceProfile主要包含服務(wù)的QoS信息、服務(wù)所屬分類信息、服務(wù)功能和服務(wù)提供者信息等內(nèi)容。
如圖1所示,基于OWL-S的大數(shù)據(jù)服務(wù)模型通過對服務(wù)組合、服務(wù)操作和服務(wù)屬性三個方面的描述來體現(xiàn)大數(shù)據(jù)服務(wù)的擴展,其中使用OWL-S的ServiceModel實現(xiàn)大數(shù)據(jù)服務(wù)模型的擴展,通過ServiceProfile來實現(xiàn)大數(shù)據(jù)服務(wù)模型中服務(wù)操作和服務(wù)屬性的擴展。
1) 數(shù)據(jù)源基本屬性描述
在ServcieProfile中添加Profile的BasicAttrs子類對數(shù)據(jù)源的數(shù)據(jù)隱私、質(zhì)量等基本屬性進行描述,添加DataQuality子類對數(shù)據(jù)源的清洗程度、精確性等數(shù)據(jù)質(zhì)量相關(guān)內(nèi)容進行描述。DataSource屬性的描述如下所示:
2) 服務(wù)類型屬性描述
服務(wù)類型屬性描述ServiceContent是Profile的子類,服務(wù)類型剛屬性主要包括serviceType和serviceItems等數(shù)據(jù)類型屬性,ServiceContent屬性的描述如下:
3) 服務(wù)操作描述
在OWL-S的大數(shù)據(jù)模型中,將數(shù)據(jù)源的操作也作為數(shù)據(jù)源的一個屬性進行描述,例如,在Process子類中的inCondition對createTime操作進行描述如下:
4) 服務(wù)組合描述
數(shù)據(jù)源的服務(wù)組合也通過屬性來進行描述,例如大數(shù)據(jù)的“順序組合”服務(wù)在基于OWL-S的大數(shù)據(jù)模型中的描述如下:
4 結(jié)束語
本文所研究的基于OWL-S的大數(shù)據(jù)服務(wù)模型增加了服務(wù)操作、服務(wù)質(zhì)量、數(shù)據(jù)源等屬性,從而使得數(shù)據(jù)服務(wù)的屬性和操作描述更加完備;同時,使得大數(shù)據(jù)服務(wù)繼承了語義Web的語義理解能力和自動服務(wù)組合能力,從而將服務(wù)組合運算融入大數(shù)據(jù)服務(wù)中。
參考文獻:
[1] Chen M,Song M,Han J,et al.Survey on data quality[C]//Information and Communication Technologies (WICT), 2012 World Congress on. IEEE, 2012:1009-1013.
[2] 徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J].計算機學(xué)報,2001,24(4).
[3] 韓晶,鄂海紅,宋美娜,等.基于主體行為的非結(jié)構(gòu)化數(shù)據(jù)模型[J].計算機工程與設(shè)計,2013(3):904-908.
[4] 石嘉,張岳,裴云霞,等.基于Web對象流行度的PPM預(yù)測模型[J].小型微型計算機系統(tǒng),2006,7(27):1378-1383.endprint
摘要:通過對現(xiàn)有大數(shù)據(jù)服務(wù)研究現(xiàn)狀的分析,分析大數(shù)據(jù)服務(wù)研究目前所存在的問題,并針對目前大數(shù)據(jù)服務(wù)對數(shù)據(jù)特征表達不足,所導(dǎo)致的數(shù)據(jù)服務(wù)發(fā)現(xiàn)和組合困難的問題,提出了基于OWL-S的大數(shù)據(jù)服務(wù)模型,通過利用OWL-S中的服務(wù)操作、服務(wù)類型和數(shù)據(jù)源等屬性,實現(xiàn)大數(shù)據(jù)服務(wù)的可視化、分析和檢索等服務(wù)的構(gòu)建和動態(tài)組合,使得大數(shù)據(jù)服務(wù)在屬性和操作方面的描述更加完備,具有較強的語義理解和自動服務(wù)組合能力。
關(guān)鍵詞:大數(shù)據(jù)服務(wù);Web服務(wù);語義Web技術(shù)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)30-7014-03
大數(shù)據(jù)服務(wù)(Big Data-as-a-Service,BDaaS)是可獨立部署,具有明確契約和獨立功能的功能單元[1]。而大數(shù)據(jù)服務(wù)模型大數(shù)據(jù)服務(wù)的理論基礎(chǔ)和實現(xiàn)規(guī)范,在傳統(tǒng)的數(shù)據(jù)密集型Web服務(wù)中,采用WDSL對Web服務(wù)進行描述。但是這種描述方式只是描述了服務(wù)接口規(guī)范,缺乏對非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)質(zhì)量、模型、隱私等特征的描述,因此傳統(tǒng)的數(shù)據(jù)服務(wù)描述方法不適用于大數(shù)據(jù)服務(wù)的描述。
1 大數(shù)據(jù)服務(wù)模型研究現(xiàn)狀
目前針對大數(shù)據(jù)服務(wù)模型的研究,還存在如下的問題:
1) 目前的對大數(shù)據(jù)服務(wù)模型的研究,仍然沿用傳統(tǒng)的Web服務(wù)模型,無法提供對非結(jié)構(gòu)化數(shù)據(jù)的支持,不適用于大數(shù)據(jù)服務(wù)中對多種服務(wù)類型、多種數(shù)據(jù)源的支持[2]。
2) 對數(shù)據(jù)服務(wù)操作、數(shù)據(jù)源等特征的表達不足,導(dǎo)致使用傳統(tǒng)的數(shù)據(jù)描述方式阻礙了服務(wù)的組合和發(fā)現(xiàn)。
2 大數(shù)據(jù)服務(wù)模型設(shè)計思路
針對目前對待大數(shù)據(jù)進行描述的Web服務(wù)模型所存在的不支持非結(jié)構(gòu)化數(shù)據(jù)和特征表達不足的問題,大數(shù)據(jù)服務(wù)模型的設(shè)計必須要滿足如下三個方面的條件:
1) 同時支持結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)模型、服務(wù)模型。
2) 能夠?qū)?shù)據(jù)各個方面的特征屬性進行形式化的定義,和完善的描述。
3) 支持可視化型數(shù)據(jù)服務(wù)和分析型數(shù)據(jù)服務(wù)的構(gòu)建。
針對大數(shù)據(jù)服務(wù)模型設(shè)計所需要滿足的要求,在進行大數(shù)據(jù)服務(wù)模型設(shè)計時,通過如下的方法來滿足大數(shù)據(jù)服務(wù)模型的需求。
1) 采用非結(jié)構(gòu)數(shù)據(jù)模型GDM將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,然后對GDM中的屬性進行描述,從而將用戶對數(shù)據(jù)服務(wù)的檢索、可視化請求和分析都轉(zhuǎn)換為對非結(jié)構(gòu)化數(shù)據(jù)屬性的操作。
2) 韓晶(2013)已經(jīng)對數(shù)據(jù)服務(wù)應(yīng)該包含的屬性進行了全面分析[3],考慮到數(shù)據(jù)服務(wù)應(yīng)該盡可能的體現(xiàn)數(shù)據(jù)特征,為此在文獻三研究的基礎(chǔ)上,增加數(shù)據(jù)隱私和數(shù)據(jù)質(zhì)量部分的屬性。并且設(shè)計大數(shù)據(jù)服務(wù)模型的相關(guān)操作函數(shù),滿足用戶對輸出結(jié)果進行篩選的需求。
3) 增加可視化型、分析型邏輯描述,從而支持用戶對大數(shù)據(jù)服務(wù)的這兩大數(shù)據(jù)服務(wù)需求。
3 大數(shù)據(jù)服務(wù)模型的具體設(shè)計
目前對數(shù)據(jù)服務(wù)進行描述的方法主要包括REST API和WSDL方法等,這些數(shù)據(jù)服務(wù)描述方法都由于缺乏相應(yīng)的語義信息,導(dǎo)致數(shù)據(jù)服務(wù)在自動服務(wù)組合方面存在一定的不足。
OWL-S(Ontology Language for Web Service)通過一組語言標記對Web服務(wù)進行描述,是基于語義Web技術(shù)和Web服務(wù)的結(jié)合體,從而使得數(shù)據(jù)服務(wù)能夠更好的被計算機所理解,有利于數(shù)據(jù)的分析,從而支持Web服務(wù)的發(fā)現(xiàn)、調(diào)用和組合。除此之外,OWL-S還支持自定義類實現(xiàn)對OWL-S的擴展。為此,使用OWL-S設(shè)計大數(shù)據(jù)服務(wù),可以使得大數(shù)據(jù)服務(wù)模型具備語義和數(shù)據(jù)特征雙重優(yōu)勢。
由于大數(shù)據(jù)服務(wù)的基礎(chǔ)數(shù)據(jù)源復(fù)雜,各數(shù)據(jù)源模式各異。為此,為了實現(xiàn)數(shù)據(jù)服務(wù)的匹配和組合,即必須要采用一種合適的方式來對數(shù)據(jù)服務(wù)進行統(tǒng)一表示,語義Web技術(shù)通過RDF將大數(shù)據(jù)服務(wù)的各個數(shù)據(jù)源的數(shù)據(jù)模型映射到一個全局共享語義本體上,從而方便用戶對數(shù)據(jù)語義的理解,從而實現(xiàn)基于OWL-S的大數(shù)據(jù)服務(wù)建模。
在建立數(shù)據(jù)源與共享本體之間的映射之后,就可以在此基礎(chǔ)上進行基于OWL-S大數(shù)據(jù)服務(wù)的建設(shè)。OWL-S使用OWL語義對Web服務(wù)本體進行定義,并且將其中每個具體的Web服務(wù)當成是Web服務(wù)本體的一個實例來對數(shù)據(jù)進行描述。
每一個大數(shù)據(jù)服務(wù)模型都需要用一個Service來對模型進行描述[4],在基于OWL-S的大數(shù)據(jù)模型中,使用由ServiceGrounding、ServiceModel和ServiceProfile三個屬性子類構(gòu)成的Service來對數(shù)據(jù)模型進行描述。其中,ServiceGrounding主要包含服務(wù)端口號、消息格式和服務(wù)訪問協(xié)議等內(nèi)容,描述用戶怎樣獲取大數(shù)據(jù)服務(wù);ServiceModel主要對大數(shù)據(jù)服務(wù)內(nèi)部流程進行描述;ServiceProfile主要包含服務(wù)的QoS信息、服務(wù)所屬分類信息、服務(wù)功能和服務(wù)提供者信息等內(nèi)容。
如圖1所示,基于OWL-S的大數(shù)據(jù)服務(wù)模型通過對服務(wù)組合、服務(wù)操作和服務(wù)屬性三個方面的描述來體現(xiàn)大數(shù)據(jù)服務(wù)的擴展,其中使用OWL-S的ServiceModel實現(xiàn)大數(shù)據(jù)服務(wù)模型的擴展,通過ServiceProfile來實現(xiàn)大數(shù)據(jù)服務(wù)模型中服務(wù)操作和服務(wù)屬性的擴展。
1) 數(shù)據(jù)源基本屬性描述
在ServcieProfile中添加Profile的BasicAttrs子類對數(shù)據(jù)源的數(shù)據(jù)隱私、質(zhì)量等基本屬性進行描述,添加DataQuality子類對數(shù)據(jù)源的清洗程度、精確性等數(shù)據(jù)質(zhì)量相關(guān)內(nèi)容進行描述。DataSource屬性的描述如下所示:
2) 服務(wù)類型屬性描述
服務(wù)類型屬性描述ServiceContent是Profile的子類,服務(wù)類型剛屬性主要包括serviceType和serviceItems等數(shù)據(jù)類型屬性,ServiceContent屬性的描述如下:
3) 服務(wù)操作描述
在OWL-S的大數(shù)據(jù)模型中,將數(shù)據(jù)源的操作也作為數(shù)據(jù)源的一個屬性進行描述,例如,在Process子類中的inCondition對createTime操作進行描述如下:
4) 服務(wù)組合描述
數(shù)據(jù)源的服務(wù)組合也通過屬性來進行描述,例如大數(shù)據(jù)的“順序組合”服務(wù)在基于OWL-S的大數(shù)據(jù)模型中的描述如下:
4 結(jié)束語
本文所研究的基于OWL-S的大數(shù)據(jù)服務(wù)模型增加了服務(wù)操作、服務(wù)質(zhì)量、數(shù)據(jù)源等屬性,從而使得數(shù)據(jù)服務(wù)的屬性和操作描述更加完備;同時,使得大數(shù)據(jù)服務(wù)繼承了語義Web的語義理解能力和自動服務(wù)組合能力,從而將服務(wù)組合運算融入大數(shù)據(jù)服務(wù)中。
參考文獻:
[1] Chen M,Song M,Han J,et al.Survey on data quality[C]//Information and Communication Technologies (WICT), 2012 World Congress on. IEEE, 2012:1009-1013.
[2] 徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J].計算機學(xué)報,2001,24(4).
[3] 韓晶,鄂海紅,宋美娜,等.基于主體行為的非結(jié)構(gòu)化數(shù)據(jù)模型[J].計算機工程與設(shè)計,2013(3):904-908.
[4] 石嘉,張岳,裴云霞,等.基于Web對象流行度的PPM預(yù)測模型[J].小型微型計算機系統(tǒng),2006,7(27):1378-1383.endprint
摘要:通過對現(xiàn)有大數(shù)據(jù)服務(wù)研究現(xiàn)狀的分析,分析大數(shù)據(jù)服務(wù)研究目前所存在的問題,并針對目前大數(shù)據(jù)服務(wù)對數(shù)據(jù)特征表達不足,所導(dǎo)致的數(shù)據(jù)服務(wù)發(fā)現(xiàn)和組合困難的問題,提出了基于OWL-S的大數(shù)據(jù)服務(wù)模型,通過利用OWL-S中的服務(wù)操作、服務(wù)類型和數(shù)據(jù)源等屬性,實現(xiàn)大數(shù)據(jù)服務(wù)的可視化、分析和檢索等服務(wù)的構(gòu)建和動態(tài)組合,使得大數(shù)據(jù)服務(wù)在屬性和操作方面的描述更加完備,具有較強的語義理解和自動服務(wù)組合能力。
關(guān)鍵詞:大數(shù)據(jù)服務(wù);Web服務(wù);語義Web技術(shù)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)30-7014-03
大數(shù)據(jù)服務(wù)(Big Data-as-a-Service,BDaaS)是可獨立部署,具有明確契約和獨立功能的功能單元[1]。而大數(shù)據(jù)服務(wù)模型大數(shù)據(jù)服務(wù)的理論基礎(chǔ)和實現(xiàn)規(guī)范,在傳統(tǒng)的數(shù)據(jù)密集型Web服務(wù)中,采用WDSL對Web服務(wù)進行描述。但是這種描述方式只是描述了服務(wù)接口規(guī)范,缺乏對非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)質(zhì)量、模型、隱私等特征的描述,因此傳統(tǒng)的數(shù)據(jù)服務(wù)描述方法不適用于大數(shù)據(jù)服務(wù)的描述。
1 大數(shù)據(jù)服務(wù)模型研究現(xiàn)狀
目前針對大數(shù)據(jù)服務(wù)模型的研究,還存在如下的問題:
1) 目前的對大數(shù)據(jù)服務(wù)模型的研究,仍然沿用傳統(tǒng)的Web服務(wù)模型,無法提供對非結(jié)構(gòu)化數(shù)據(jù)的支持,不適用于大數(shù)據(jù)服務(wù)中對多種服務(wù)類型、多種數(shù)據(jù)源的支持[2]。
2) 對數(shù)據(jù)服務(wù)操作、數(shù)據(jù)源等特征的表達不足,導(dǎo)致使用傳統(tǒng)的數(shù)據(jù)描述方式阻礙了服務(wù)的組合和發(fā)現(xiàn)。
2 大數(shù)據(jù)服務(wù)模型設(shè)計思路
針對目前對待大數(shù)據(jù)進行描述的Web服務(wù)模型所存在的不支持非結(jié)構(gòu)化數(shù)據(jù)和特征表達不足的問題,大數(shù)據(jù)服務(wù)模型的設(shè)計必須要滿足如下三個方面的條件:
1) 同時支持結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)模型、服務(wù)模型。
2) 能夠?qū)?shù)據(jù)各個方面的特征屬性進行形式化的定義,和完善的描述。
3) 支持可視化型數(shù)據(jù)服務(wù)和分析型數(shù)據(jù)服務(wù)的構(gòu)建。
針對大數(shù)據(jù)服務(wù)模型設(shè)計所需要滿足的要求,在進行大數(shù)據(jù)服務(wù)模型設(shè)計時,通過如下的方法來滿足大數(shù)據(jù)服務(wù)模型的需求。
1) 采用非結(jié)構(gòu)數(shù)據(jù)模型GDM將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,然后對GDM中的屬性進行描述,從而將用戶對數(shù)據(jù)服務(wù)的檢索、可視化請求和分析都轉(zhuǎn)換為對非結(jié)構(gòu)化數(shù)據(jù)屬性的操作。
2) 韓晶(2013)已經(jīng)對數(shù)據(jù)服務(wù)應(yīng)該包含的屬性進行了全面分析[3],考慮到數(shù)據(jù)服務(wù)應(yīng)該盡可能的體現(xiàn)數(shù)據(jù)特征,為此在文獻三研究的基礎(chǔ)上,增加數(shù)據(jù)隱私和數(shù)據(jù)質(zhì)量部分的屬性。并且設(shè)計大數(shù)據(jù)服務(wù)模型的相關(guān)操作函數(shù),滿足用戶對輸出結(jié)果進行篩選的需求。
3) 增加可視化型、分析型邏輯描述,從而支持用戶對大數(shù)據(jù)服務(wù)的這兩大數(shù)據(jù)服務(wù)需求。
3 大數(shù)據(jù)服務(wù)模型的具體設(shè)計
目前對數(shù)據(jù)服務(wù)進行描述的方法主要包括REST API和WSDL方法等,這些數(shù)據(jù)服務(wù)描述方法都由于缺乏相應(yīng)的語義信息,導(dǎo)致數(shù)據(jù)服務(wù)在自動服務(wù)組合方面存在一定的不足。
OWL-S(Ontology Language for Web Service)通過一組語言標記對Web服務(wù)進行描述,是基于語義Web技術(shù)和Web服務(wù)的結(jié)合體,從而使得數(shù)據(jù)服務(wù)能夠更好的被計算機所理解,有利于數(shù)據(jù)的分析,從而支持Web服務(wù)的發(fā)現(xiàn)、調(diào)用和組合。除此之外,OWL-S還支持自定義類實現(xiàn)對OWL-S的擴展。為此,使用OWL-S設(shè)計大數(shù)據(jù)服務(wù),可以使得大數(shù)據(jù)服務(wù)模型具備語義和數(shù)據(jù)特征雙重優(yōu)勢。
由于大數(shù)據(jù)服務(wù)的基礎(chǔ)數(shù)據(jù)源復(fù)雜,各數(shù)據(jù)源模式各異。為此,為了實現(xiàn)數(shù)據(jù)服務(wù)的匹配和組合,即必須要采用一種合適的方式來對數(shù)據(jù)服務(wù)進行統(tǒng)一表示,語義Web技術(shù)通過RDF將大數(shù)據(jù)服務(wù)的各個數(shù)據(jù)源的數(shù)據(jù)模型映射到一個全局共享語義本體上,從而方便用戶對數(shù)據(jù)語義的理解,從而實現(xiàn)基于OWL-S的大數(shù)據(jù)服務(wù)建模。
在建立數(shù)據(jù)源與共享本體之間的映射之后,就可以在此基礎(chǔ)上進行基于OWL-S大數(shù)據(jù)服務(wù)的建設(shè)。OWL-S使用OWL語義對Web服務(wù)本體進行定義,并且將其中每個具體的Web服務(wù)當成是Web服務(wù)本體的一個實例來對數(shù)據(jù)進行描述。
每一個大數(shù)據(jù)服務(wù)模型都需要用一個Service來對模型進行描述[4],在基于OWL-S的大數(shù)據(jù)模型中,使用由ServiceGrounding、ServiceModel和ServiceProfile三個屬性子類構(gòu)成的Service來對數(shù)據(jù)模型進行描述。其中,ServiceGrounding主要包含服務(wù)端口號、消息格式和服務(wù)訪問協(xié)議等內(nèi)容,描述用戶怎樣獲取大數(shù)據(jù)服務(wù);ServiceModel主要對大數(shù)據(jù)服務(wù)內(nèi)部流程進行描述;ServiceProfile主要包含服務(wù)的QoS信息、服務(wù)所屬分類信息、服務(wù)功能和服務(wù)提供者信息等內(nèi)容。
如圖1所示,基于OWL-S的大數(shù)據(jù)服務(wù)模型通過對服務(wù)組合、服務(wù)操作和服務(wù)屬性三個方面的描述來體現(xiàn)大數(shù)據(jù)服務(wù)的擴展,其中使用OWL-S的ServiceModel實現(xiàn)大數(shù)據(jù)服務(wù)模型的擴展,通過ServiceProfile來實現(xiàn)大數(shù)據(jù)服務(wù)模型中服務(wù)操作和服務(wù)屬性的擴展。
1) 數(shù)據(jù)源基本屬性描述
在ServcieProfile中添加Profile的BasicAttrs子類對數(shù)據(jù)源的數(shù)據(jù)隱私、質(zhì)量等基本屬性進行描述,添加DataQuality子類對數(shù)據(jù)源的清洗程度、精確性等數(shù)據(jù)質(zhì)量相關(guān)內(nèi)容進行描述。DataSource屬性的描述如下所示:
2) 服務(wù)類型屬性描述
服務(wù)類型屬性描述ServiceContent是Profile的子類,服務(wù)類型剛屬性主要包括serviceType和serviceItems等數(shù)據(jù)類型屬性,ServiceContent屬性的描述如下:
3) 服務(wù)操作描述
在OWL-S的大數(shù)據(jù)模型中,將數(shù)據(jù)源的操作也作為數(shù)據(jù)源的一個屬性進行描述,例如,在Process子類中的inCondition對createTime操作進行描述如下:
4) 服務(wù)組合描述
數(shù)據(jù)源的服務(wù)組合也通過屬性來進行描述,例如大數(shù)據(jù)的“順序組合”服務(wù)在基于OWL-S的大數(shù)據(jù)模型中的描述如下:
4 結(jié)束語
本文所研究的基于OWL-S的大數(shù)據(jù)服務(wù)模型增加了服務(wù)操作、服務(wù)質(zhì)量、數(shù)據(jù)源等屬性,從而使得數(shù)據(jù)服務(wù)的屬性和操作描述更加完備;同時,使得大數(shù)據(jù)服務(wù)繼承了語義Web的語義理解能力和自動服務(wù)組合能力,從而將服務(wù)組合運算融入大數(shù)據(jù)服務(wù)中。
參考文獻:
[1] Chen M,Song M,Han J,et al.Survey on data quality[C]//Information and Communication Technologies (WICT), 2012 World Congress on. IEEE, 2012:1009-1013.
[2] 徐寶文,張衛(wèi)豐.數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究[J].計算機學(xué)報,2001,24(4).
[3] 韓晶,鄂海紅,宋美娜,等.基于主體行為的非結(jié)構(gòu)化數(shù)據(jù)模型[J].計算機工程與設(shè)計,2013(3):904-908.
[4] 石嘉,張岳,裴云霞,等.基于Web對象流行度的PPM預(yù)測模型[J].小型微型計算機系統(tǒng),2006,7(27):1378-1383.endprint