摘 要 伴隨著云端數(shù)據(jù)日益膨脹,想要從大量的數(shù)據(jù)當(dāng)中快速尋找想要的數(shù)據(jù)是非常困難的,這也成為了當(dāng)前亟待解決的重要課題。目前,數(shù)據(jù)檢索技術(shù)已經(jīng)阻礙了云計算進一步的發(fā)展。本文系統(tǒng)闡述了云計算的概念以及大數(shù)據(jù)存儲特征,介紹了Web信息收集與檢索,并從檢索請求分析以及匹配檢索請求兩個方面研究了檢索的過程。
【關(guān)鍵詞】云計算 大數(shù)據(jù) 檢索技術(shù)
在當(dāng)前信息技術(shù)快速發(fā)展的時期,云計算已經(jīng)成為了政界、學(xué)術(shù)界、互聯(lián)網(wǎng)企業(yè)等關(guān)注的焦點。云計算主要是利用互聯(lián)網(wǎng)平臺,通過大量的計算與存儲資源將互聯(lián)網(wǎng)有機連接在一起,從而形成虛擬IT資源池,根據(jù)用戶需求提供相應(yīng)的服務(wù)。在IT產(chǎn)業(yè)界當(dāng)中,云計算被看做是網(wǎng)絡(luò)時代又出現(xiàn)的一個新的產(chǎn)業(yè)增長點,具備較高的市場發(fā)展前景。云計算理念與當(dāng)前低碳經(jīng)濟以及綠色計算趨勢相吻合,并且具有發(fā)展為未來網(wǎng)絡(luò)神經(jīng)系統(tǒng)的潛力。云計算已經(jīng)在信息領(lǐng)域引領(lǐng)了空前的工業(yè)革命,帶動了傳統(tǒng)電信行業(yè)、互聯(lián)網(wǎng)行業(yè)乃至社會產(chǎn)業(yè)的重要變革。
1 云計算下大數(shù)據(jù)信息檢索技術(shù)概述
1.1 云計算定義
云計算有著很多種不同的定義,其中被普遍接受的一種是由NIST在2011年提出的,它認為云計算是一類利用網(wǎng)絡(luò),利用便捷方式從包括服務(wù)器、網(wǎng)絡(luò)、應(yīng)用、存儲以及服務(wù)在內(nèi)的共享計算機資源池中獲得服務(wù)的業(yè)務(wù)形式,云計算業(yè)務(wù)資源在簡潔的交互以及管理過程中得以快速的釋放與部署。
1.2 大數(shù)據(jù)存儲特征
云計算的產(chǎn)生催生了大數(shù)據(jù)。大數(shù)據(jù)主要是指大量的結(jié)構(gòu)化以及半結(jié)構(gòu)化數(shù)據(jù)。其具備面積大、多樣化、價值密度低、快速處理能力等四方面特征。這些特征表明了針對大數(shù)據(jù)所采取的檢索方式不能等同于傳統(tǒng)方式。
假如使用傳統(tǒng)關(guān)系數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)的保存,那么不僅耗費時間同時也耗費金錢,實現(xiàn)起來比較困難。超過一半以上的大數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),他們是通過文件的方式進行儲存的?,F(xiàn)在,大數(shù)據(jù)主要存儲在集群文件系統(tǒng)當(dāng)中。該系統(tǒng)的核心在于:一個大數(shù)據(jù)文件被分成了很多部分。塊數(shù)據(jù)主要儲存在塊服務(wù)器當(dāng)中,每一個塊都會存在相應(yīng)的元數(shù)據(jù),而元數(shù)據(jù)則保存在主服務(wù)器當(dāng)中。元數(shù)據(jù)的保存類型包括了文件與塊命名空間、每個塊數(shù)據(jù)備份位置、塊的映射文件。其中,命名空間的元數(shù)據(jù)主要被用作維護文件系統(tǒng)命名空間,在命名空間當(dāng)中就能夠查到相應(yīng)的文件以及目錄路徑,該路徑會對應(yīng)想要查詢的內(nèi)容。此外,還有一種元數(shù)據(jù)主要記錄文件位置,通過查詢相應(yīng)的信息,就能夠獲取數(shù)據(jù)位置偏移量。因為某些文本信息因為是非直接描述的,所以經(jīng)常出現(xiàn)誤用的情況,這也是很多企業(yè)比如谷歌非常重視元數(shù)據(jù)準(zhǔn)確描述的原因所在。
2 Web信息收集和檢索
信息價值密度與總量呈現(xiàn)出反比的關(guān)系,在數(shù)以億計的信息當(dāng)中,可以滿足用戶需要的通常只有區(qū)區(qū)幾頁。云計算本身的計算能力較強,能夠充分使用云數(shù)據(jù)獲取最終的處理結(jié)果。如何保證云計算能夠從大量的數(shù)據(jù)當(dāng)中獲得客戶想要的信息是現(xiàn)在急切需要解決的重要問題。從信息檢索層面看,百度以及谷歌等公司依然處在領(lǐng)先地位。
信息檢索過程中會對各個服務(wù)器進行分析,并排序數(shù)據(jù)信息,相似度相對較高的服務(wù)器通常會在前列,與此同時,對于服務(wù)器當(dāng)中所存儲的數(shù)據(jù)展開全面的分布式檢索,最終檢索結(jié)果會保存在Index Repository當(dāng)中,而網(wǎng)頁通常保存在搜索引擎當(dāng)中,用戶一旦提出了搜索請求,通常都會在Index Repository當(dāng)中完成信息檢索工作的,并按照PageRank方法對倒序索引展開計算工作,這些內(nèi)容最終都被放在了索引存儲器中。與此同時,頁面標(biāo)題以及所涉及的數(shù)據(jù)信息會被放在相對應(yīng)的索引內(nèi)容下,方便使用廣度優(yōu)先的方法對其展開搜索,相應(yīng)的,網(wǎng)頁的內(nèi)容則會被置于另一個索引當(dāng)中,方便使用深度優(yōu)先的方法展開搜索工作。
盡管用戶所查的相關(guān)信息都會在搜索引擎緩存區(qū)當(dāng)中存放,但是用戶在查詢相關(guān)信息的時候依然會出現(xiàn)延遲的情況,為了提升搜索的效率,需要構(gòu)建一個存放關(guān)鍵詞的詞庫,便于使用者展開搜索工作。
3 檢索過程
數(shù)據(jù)的檢索首先由用戶提出查詢請求,并且把關(guān)鍵詞提交給檢索代理,檢索代理將檢索的關(guān)鍵詞傳送到索引存儲器當(dāng)中,將檢索的結(jié)果按照相關(guān)度重新進行排序,然后傳送到用戶的檢索界面,并呈現(xiàn)到用戶的面前,從而顯著提升檢索速度以及能力。
3.1 檢索請求分析
檢索用戶在搜索引擎上輸入關(guān)鍵字,并且提交檢索請求,慢慢的發(fā)現(xiàn)與之相匹配的網(wǎng)頁內(nèi)容,搜索引擎會詳細分析這次搜索請求,并且對搜索請求展開細致的分析,并作出分詞處理。中文分詞通常采用基于字符串匹配、理解分詞方法以及統(tǒng)計分詞方法。
3.2 匹配檢索請求
當(dāng)用戶提出請求以后,搜索引擎會展開系統(tǒng)分析,匹配出與之符合的URL,其數(shù)量較大,只有采用搜索引擎遵循YRL匹配程度對其排序,才可以有序呈現(xiàn)出最終的結(jié)果。系統(tǒng)對文檔內(nèi)容全面分析以后所獲得的信息、網(wǎng)頁當(dāng)中的PageRank值,最終都會和鏈接文件當(dāng)中與網(wǎng)頁內(nèi)容相關(guān)的信息聯(lián)系在一起,此時其檢索結(jié)果也會相應(yīng)的確定,從而可以客觀的在網(wǎng)頁當(dāng)中顯示出來,能夠最大限度確保所有結(jié)果與用戶希望查詢的結(jié)果一致。
4 檢索技術(shù)發(fā)展趨勢
利用云計算實現(xiàn)大數(shù)據(jù)檢索技術(shù),不僅能夠保護用戶的隱私,同時還因為技術(shù)具有計算量小、快捷方便,所以其本身有著極高的應(yīng)用前景。與此同時,這項技術(shù)巧妙的使用了信息認證碼,所以即便是存在不同文件重疊的情況,只要選擇出了合適的關(guān)鍵句組合以及關(guān)鍵詞,那么計算出來的MAC值也會存在差異性,這就更加表明該技術(shù)具有較高的精確度。可是這項技術(shù)也存在一些缺陷,假如在重復(fù)率相對較高的文件當(dāng)中選擇的關(guān)鍵詞以及關(guān)鍵字相同,那么就無法保證最終檢測出的數(shù)據(jù)信息是用戶想要的。所以在確保技術(shù)高效、簡潔的同時,還需要努力提升檢索技術(shù)的精確度,這是未來亟待解決的重要課題。
參考文獻
[1]劉月.探究云計算下大數(shù)據(jù)的信息檢索技術(shù)應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2015(07):95-95.
[2]黃曉清.基于云計算分析大數(shù)據(jù)信息檢索技術(shù)[J].科學(xué)中國人,2016(11).
[3]吳謀碩.基于云計算的Web信息收集與檢索過程分析[J].信息與電腦(理論版),2016(15):34-35.
作者簡介
萬冬娥(1971-),女,山東省棗莊市人?,F(xiàn)為棗莊職業(yè)學(xué)院副教授。研究方向為計算機、云計算。
作者單位
棗莊職業(yè)學(xué)院 山東省棗莊市 277800