沈夏添 呂麗華
摘要:隨著云計算技術(shù)的飛速發(fā)展,海量信息分散存儲在“云存儲”結(jié)構(gòu)中,由于數(shù)據(jù)源異構(gòu),在對其進行信息檢索時易出現(xiàn)數(shù)據(jù)丟失或迷路現(xiàn)象。本文通過對異構(gòu)數(shù)據(jù)進行分析,構(gòu)建了一種云計算環(huán)境下的異構(gòu)數(shù)據(jù)集成模型,共包括五個功能模塊:云結(jié)構(gòu)下的數(shù)據(jù)采集與分析接口、數(shù)據(jù)組織任務(wù)調(diào)度引擎、異構(gòu)數(shù)據(jù)集成接口、云存儲和資源管理和安全管理模塊。本文還介紹了異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索定位的常用技術(shù),如并行檢索技術(shù)、服務(wù)器集群檢索技術(shù)、網(wǎng)頁的深層挖掘技術(shù)和檢索數(shù)據(jù)庫共享技術(shù)。
關(guān)鍵詞:異構(gòu)數(shù)據(jù);信息檢索定位;搜索引擎;云計算
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)08-0210-02
1引言
云計算是近年來提出的一種計算模型,到目前為止,業(yè)界對云計算還沒有統(tǒng)一的定義,常見的定義主要包括以下幾種:
(1)維基百科的定義:云計算以服務(wù)的形式提供給用戶IT相關(guān)的能力,允許用戶在不了解服務(wù)所需的技術(shù)、無需知識背景和設(shè)備操作能力的基礎(chǔ)上,通過互聯(lián)網(wǎng)獲取所需的服務(wù)。
(2)中國云計算網(wǎng)的定義:云計算是分布式計算、并行計算和網(wǎng)格計算的發(fā)展,換句話說,云計算是這些科學概念的商業(yè)化實現(xiàn)。
(3)文獻通過綜合分析,提出如下定義:云是一個資源池,包含了大量可用的虛擬資源,如硬件、I/O服務(wù)、開發(fā)平臺等。這些虛擬資源可根據(jù)不同的負載進行動態(tài)重新配置,以達到更高的資源利用率。
根據(jù)以上定義,云計算技術(shù)的基本特征可以歸納如下:
(1)云計算系統(tǒng)提供服務(wù):服務(wù)機制對用戶是透明的,用戶不需要了解云計算的具體機制,就可以獲得所需的服務(wù)。
(2)通過冗余方式實現(xiàn)可靠性:云計算系統(tǒng)通過數(shù)據(jù)冗余和分布式存儲方式確保數(shù)據(jù)的可靠性,而不需要特定的硬件組件的支持。
(3)高可用性:云計算可以提供高質(zhì)量的服務(wù),具有集成的海量存儲和高性能的計算能力。云計算系統(tǒng)能夠在不影響系統(tǒng)運行的情況下,自動檢測故障節(jié)點并將其刪除。
(4)高層次編程模型:云計算系統(tǒng)提供高層次的編程模型,用戶僅通過簡單的學習即可編寫云計算程序,并在“云”系統(tǒng)上運行,以滿足他們的需求,目前的云計算系統(tǒng)主要使用Map-Reduce模型。
(5)價格低廉:由大量商用計算機組成集群的成本遠低于性能相同的超級計算機的成本。
(6)服務(wù)多樣性:用戶可以根據(jù)自己需求選擇不同級別的服務(wù),為其支付不同的費用。
2云計算對信息檢索的影響
傳統(tǒng)的搜索引擎存在著存儲容量不足、計算能力有限、硬盤損壞或老化、服務(wù)器昂貴、維護成本高、故障檢測速度慢等問題,“云計算”的出現(xiàn)改變了互聯(lián)網(wǎng)的服務(wù)模式,也給信息檢索技術(shù)帶來了巨大的變化。云計算平臺將單個服務(wù)器連接成一個“云”,每個服務(wù)器成為云中的一個節(jié)點,從而形成了檢索成本低、檢索速度快、信息資源利用率高的信息檢索系統(tǒng)。
云計算技術(shù)對信息檢索的影響主要表現(xiàn)在檢索模式和存儲模式兩個方面:
2.1檢索模式的改變
傳統(tǒng)的信息檢索主要采用集中式串行檢索模式,檢索系統(tǒng)覆蓋范圍有限,檢索效率較低,且一旦在某些環(huán)節(jié)出現(xiàn)差錯就會影響整個檢索過程和結(jié)果。云計算技術(shù)應(yīng)用了分布式并行計算模式,連接了地理分散、完成特定功能的子系統(tǒng),系統(tǒng)中的每個節(jié)點都可以是并行計算機。信息檢索由多臺服務(wù)器并行執(zhí)行,大大提高了運算速度,可以處理海量數(shù)據(jù)。
2.2存儲模式的改變
云計算應(yīng)用“云存儲”模式,收集網(wǎng)絡(luò)中的存儲設(shè)備并通過應(yīng)用軟件協(xié)同工作,提供了數(shù)據(jù)存儲和業(yè)務(wù)訪問功能。云存儲由存儲層、管理層、應(yīng)用接口層和訪問層構(gòu)成,將以往孤立的存儲方式轉(zhuǎn)變?yōu)榧泄芾怼R郧暗臄?shù)據(jù)主要存儲在信息提供者的服務(wù)器上,而云存儲提供商則向集中數(shù)據(jù)中心的用戶提供數(shù)據(jù)存儲服務(wù),用戶可以通過終端軟件訪問存儲數(shù)據(jù)。由于數(shù)據(jù)源異構(gòu),在對其進行信息檢索時易出現(xiàn)數(shù)據(jù)丟失或迷路現(xiàn)象。針對這一問題,本文構(gòu)建了云計算環(huán)境下異構(gòu)數(shù)據(jù)集成模型,提出了異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索常用技術(shù)。
3云計算環(huán)境下的異構(gòu)數(shù)據(jù)集模型
本文提出的異構(gòu)數(shù)據(jù)集成模型可以智能地集成各種關(guān)系型和非關(guān)系型異構(gòu)數(shù)據(jù),滿足海量數(shù)據(jù)并發(fā)性高、工作量大、速度快等查詢要求。該系統(tǒng)模型共包括五個功能模塊,邏輯框架如圖1所示。
3.1云結(jié)構(gòu)下的數(shù)據(jù)采集與分析接口
云結(jié)構(gòu)下的數(shù)據(jù)采集和分析接口是該模型統(tǒng)一的內(nèi)部調(diào)用接口,實現(xiàn)用戶查詢請求分析和結(jié)果顯示。對于分布式數(shù)據(jù)庫、傳統(tǒng)的關(guān)系數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫系統(tǒng),該模型支持統(tǒng)一定制查詢請求以滿足不同類型的數(shù)據(jù)查詢需求。用戶可以通過自定義shell接口和標準SQL接口提交用戶數(shù)據(jù)來訪問并分析請求。通過統(tǒng)一接口調(diào)用請求描述、解釋命令、重寫查詢請求、調(diào)用下層異構(gòu)數(shù)據(jù)集成接口,最后返回用戶所需的數(shù)據(jù)并得到分析結(jié)果。這一模塊的關(guān)鍵技術(shù)是云計算環(huán)境下的自定義數(shù)據(jù)采集與分析命令解釋模塊。
3.2數(shù)據(jù)組織任務(wù)調(diào)度引擎
該模塊實現(xiàn)上層數(shù)據(jù)獲取與用戶查詢?nèi)蝿?wù)相關(guān)的邏輯操作,分為查詢?nèi)蝿?wù)管理和查詢用戶管理兩個模塊,該引擎調(diào)用下層異構(gòu)數(shù)據(jù)集成接口,對子任務(wù)集進行數(shù)據(jù)查詢和處理,通過數(shù)據(jù)采集、分析控制用戶管理模塊、分析任務(wù)管理模塊監(jiān)控用戶的運行和狀態(tài)管理模塊。
3.3異構(gòu)數(shù)據(jù)集成接口
該模塊用于異構(gòu)數(shù)據(jù)集成,是整個模型的核心,它將上層分布式數(shù)據(jù)采集和分析執(zhí)行引擎的原子操作(包括數(shù)據(jù)源、操作和訪問數(shù)據(jù))執(zhí)行到存儲引擎服務(wù)接口,并整合各種異構(gòu)數(shù)據(jù)語義映射到異構(gòu)數(shù)據(jù),將結(jié)果返回上層。該模塊的關(guān)鍵技術(shù)是異構(gòu)數(shù)據(jù)的語義映射集成、異構(gòu)數(shù)據(jù)格式的集成和異構(gòu)數(shù)據(jù)的結(jié)果集成。
3.4云存儲和資源管理
該模塊是整個模型的基礎(chǔ),為云計算環(huán)境下的數(shù)據(jù)和資源管理技術(shù)提供靈活的數(shù)據(jù)存儲、管理和系統(tǒng)資源配置技術(shù),具有高并發(fā)性、高工作負載、海量數(shù)據(jù)存儲和查詢功能。它為分布式數(shù)據(jù)庫、傳統(tǒng)的關(guān)系數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫系統(tǒng)提供了統(tǒng)一的服務(wù)管理和數(shù)據(jù)訪問功能,實現(xiàn)對其他層的調(diào)用。這模塊的關(guān)鍵技術(shù)是云計算的元數(shù)據(jù)和服務(wù)管理技術(shù)。
3.5安全管理模塊
這一模塊確保系統(tǒng)的安全服務(wù),實現(xiàn)授權(quán)管理、用戶認證和日志管理等功能。
4基于異構(gòu)數(shù)據(jù)資源的統(tǒng)一檢索常用技術(shù)
異構(gòu)數(shù)據(jù)資源通過整合數(shù)據(jù)庫通用過程提供用戶檢索結(jié)果,降低檢索時間,提高檢索精度。常用的統(tǒng)一檢索定位技術(shù)包括:
4.1并行檢索技術(shù)
并行檢索應(yīng)考慮多用戶檢索和用戶同時檢索幾個數(shù)據(jù)庫的場景,一般應(yīng)用多線程技術(shù):
(1)對于多用戶檢索場景,根據(jù)請求的任務(wù)分配機制,將每個用戶的檢索任務(wù)分配給一個線程,該任務(wù)分配機制需考慮服務(wù)器的負載平衡,控制線程數(shù)量。
(2)對于用戶檢索多個數(shù)據(jù)庫場景,根據(jù)檢索數(shù)據(jù)庫分配機制,為用戶每次檢索請求創(chuàng)建一個數(shù)據(jù)庫檢索線程,提高檢索速度。
4.2服務(wù)器集群檢索技術(shù)
由于網(wǎng)絡(luò)帶寬所限,某些用戶訪問Web的檢索請求可能失敗,會給服務(wù)器帶來很大壓力。因此,應(yīng)用多服務(wù)器共享服務(wù)器的壓力,可提高檢索并發(fā)性。在服務(wù)器集群檢索技術(shù)的設(shè)計中需要考慮兩點:
(1)檢索服務(wù)器的分布:檢索服務(wù)器可以分布在任何連接到互聯(lián)網(wǎng)的服務(wù)器上,并公布配置參數(shù)和數(shù)據(jù)庫配置文件??紤]到數(shù)據(jù)統(tǒng)一性和維護方便性,所有檢索服務(wù)器的臨時數(shù)據(jù)庫最終指向同一數(shù)據(jù)庫服務(wù)器。
(2)提交Web服務(wù)器的用戶檢索請求:系統(tǒng)中有很多服務(wù)器,為了更好地利用系統(tǒng)資源,Web將檢索請求提交給占用最少的服務(wù)器,以實現(xiàn)工作負載平衡。
基于這些考慮設(shè)計的服務(wù)器集群檢索技術(shù)能夠極大地提高系統(tǒng)穩(wěn)定性,特別是隨著檢索服務(wù)器的增加,并發(fā)性大大增加,服務(wù)器集群檢索優(yōu)勢更為顯著。
4.3網(wǎng)頁的深層挖掘技術(shù)
網(wǎng)頁的深層挖掘技術(shù)是從海量數(shù)據(jù)中挖掘隱藏的規(guī)則內(nèi)容,解決數(shù)據(jù)應(yīng)用中的質(zhì)量問題。異構(gòu)數(shù)據(jù)資源統(tǒng)一檢索系統(tǒng)是從不同的Web服務(wù)器獲取相應(yīng)的數(shù)據(jù),主要通過模擬操作實現(xiàn)日志檢索和數(shù)據(jù)提取。該系統(tǒng)主要通過微軟IE內(nèi)核庫文件實現(xiàn),包括WebBrowser對象、MSHTML對象和配置文件。
4.4檢索數(shù)據(jù)庫共享技術(shù)
資源共享可以最大限度地減少管理員的重復性和難度。一方面,由于不同的組織可能具有相同的資源,在定義數(shù)據(jù)庫模板之后,其他用戶可以使用此模板添加相同的數(shù)據(jù)庫,這樣管理員只需導人一個SDA文件,不需要太多的重復工作。另一方面,數(shù)據(jù)庫配置的配置是專業(yè)的,系統(tǒng)管理員很難配置數(shù)據(jù)庫。因此簡化管理員的工作成為一項緊迫的任務(wù)。一般來說,配置手動定義一個數(shù)據(jù)庫,生成為SDA文件URS管理平臺,發(fā)布在公共網(wǎng)站上下載或直接發(fā)送給用戶,讓用戶添加數(shù)據(jù)操作更加準確、簡單。
5結(jié)論
本文討論了云計算環(huán)境下的信息檢索定位技術(shù),具有許多明顯的優(yōu)點:
(1)成本低:基于云計算的信息檢索將數(shù)據(jù)管理任務(wù)分配給特定的數(shù)據(jù)管理中心,減少了硬件和軟件的輸入,從而降低了成本。
(2)可用資源多:不同的檢索提供者將其數(shù)據(jù)源放入統(tǒng)一的云數(shù)據(jù)中心,通過協(xié)作和資源共享,使可用資源成倍增加。
(3)檢索速度快:云計算應(yīng)用分布并行技術(shù),解決了CPU速度受限問題,顯著提高了信息檢索速度。
然而,該技術(shù)在云安全、知識產(chǎn)權(quán)、用戶認證和可靠性等關(guān)鍵問題上還存在一些亟待解決的問題。