劉少均
摘要:現(xiàn)階段,數(shù)據(jù)存儲功能上的大幅度提升也是得益于云計(jì)算的飛速發(fā)展。在此市場背景下,研究云計(jì)算基礎(chǔ)上的WEB數(shù)據(jù)挖掘技術(shù)是有非常深遠(yuǎn)意義的,在對云計(jì)算的使用特點(diǎn)分析后,再結(jié)合WEB數(shù)據(jù)挖掘技術(shù)進(jìn)行進(jìn)一步分析。
關(guān)鍵詞:云計(jì)算;WEB數(shù)據(jù);關(guān)鍵技術(shù)分析
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)01-0092-02
互聯(lián)網(wǎng)產(chǎn)業(yè)所具有革命性,是由于它創(chuàng)新了時代格局、改變了生活習(xí)慣,在隨著用戶不斷增加、需求不斷更新的情況下,他的數(shù)據(jù)信息越來越豐富。WEB技術(shù)就是指從海量的信息中提取出符合需求的信息。
1 云計(jì)算
1.1 云計(jì)算的概念
云計(jì)算是一種在互聯(lián)網(wǎng)的基礎(chǔ)上進(jìn)行創(chuàng)新的新的計(jì)算方式,主要是以互聯(lián)網(wǎng)上異構(gòu)和自治的服務(wù)方式來滿足用戶按需即取的計(jì)算要求。因?yàn)榛ヂ?lián)網(wǎng)上的資源正是所需的資源,若是用一個類似云的圖案來表示互聯(lián)網(wǎng)的話,就可以生動形象的比喻為云,同時“云”也生動的概括了底層抽象的基礎(chǔ)設(shè)施。
1.2 云計(jì)算的特點(diǎn)
(1)分布式。分布式是云計(jì)算最本質(zhì)的特點(diǎn)。這個特點(diǎn)一是體現(xiàn)在在地理位置的分布上對用戶以及服務(wù)的提供者是不同的,二是體現(xiàn)在在不同的計(jì)算機(jī)上或者同一計(jì)算機(jī)的不同地理位置上分布著服務(wù)提供者提供服務(wù)的能力。
(2)虛擬化。虛擬化是云計(jì)算的特點(diǎn)中最重要的。虛擬化這一技術(shù)特點(diǎn)的使用使得更能更好的結(jié)合硬件產(chǎn)品和軟件產(chǎn)品。虛化性為這一特點(diǎn)為其他云計(jì)算的特點(diǎn)提供了保障。
(3)高可靠性。數(shù)據(jù)的存儲以及對數(shù)據(jù)的處理都是由云計(jì)算中的應(yīng)用程序在許多的計(jì)算節(jié)點(diǎn)中進(jìn)行的。所以即使是某個節(jié)點(diǎn)發(fā)生故障,也不會影響數(shù)據(jù)的存儲和對數(shù)據(jù)的處理,換句話說這加強(qiáng)了系統(tǒng)的可靠性。
2 WEB數(shù)據(jù)挖掘
2.1 WEB數(shù)據(jù)挖掘的概念
WEB數(shù)據(jù)挖掘就是指融合WEB、數(shù)據(jù)挖掘、計(jì)算機(jī)存在的技術(shù)和方法。在三者進(jìn)行結(jié)合后,能夠?qū)⑵渚C合性淋漓盡致的表現(xiàn)出來。WEB數(shù)據(jù)挖掘技術(shù)是由多種技術(shù)共同作用運(yùn)行的而不是靠某一單一技術(shù)進(jìn)行運(yùn)行。
2.2 WEB數(shù)據(jù)的特點(diǎn)
(1)異構(gòu)數(shù)據(jù)庫環(huán)境。在WEB中,每個站點(diǎn)都相當(dāng)于一個數(shù)據(jù)源,都可以產(chǎn)生一定的數(shù)據(jù),并且這些數(shù)據(jù)都具有異構(gòu)性,同時在組織以及信息方面都存在差異性,這就組成了數(shù)據(jù)庫的異構(gòu)環(huán)境。
(2)分布式特點(diǎn):WEB是以互聯(lián)網(wǎng)作為基礎(chǔ),這就使得在世界上的任意WEB服務(wù)器上都可以顯示其網(wǎng)頁,這體現(xiàn)了其分布式的特點(diǎn)。
(3)動態(tài)性:由于WEB 每個站點(diǎn)具有很強(qiáng)的動態(tài)性,這就加快了每個站點(diǎn)在進(jìn)行鏈接信息、訪問記錄信息等信息的更新的頻率。
2.3 WEB數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘主要分為結(jié)構(gòu)挖掘、使用挖掘和內(nèi)容挖掘這三大類。在下文中將對結(jié)構(gòu)挖掘以及使用挖掘進(jìn)行詳細(xì)介紹。
(1)結(jié)構(gòu)挖掘。WEB結(jié)構(gòu)挖掘就是從WEB結(jié)構(gòu)中挖掘有用信息的過程,WEB結(jié)構(gòu)主要包括組織結(jié)構(gòu)、文檔結(jié)構(gòu)和 WEB鏈接關(guān)系結(jié)構(gòu)等,具體來說,在研究WEB時,同時也要針對頁面結(jié)構(gòu)以及WEB鏈接關(guān)系結(jié)構(gòu)進(jìn)行研究,找出隱含在兩者中的關(guān)系模式,這就可以完成對鏈接甚至鏈接頁面的分類,從中甄選出所需的頁面,這就是WEB數(shù)據(jù)的結(jié)構(gòu)挖掘。
(2)使用挖掘。WEB使用挖掘就是針對用戶進(jìn)行訪問時的模式進(jìn)行挖掘的過程,其依賴于數(shù)據(jù)挖掘技術(shù),能夠有效提升網(wǎng)絡(luò)信息服務(wù)質(zhì)量,對于改進(jìn)WEB服務(wù)器性能也有著重要的作用。
3 云計(jì)算背景下的web數(shù)據(jù)挖掘技術(shù)分析
3.1 云計(jì)算背景下的web數(shù)據(jù)的收集和處理
分析用戶以及WEB的訪問數(shù)據(jù)是進(jìn)行收集數(shù)據(jù)和處理數(shù)據(jù)的主要內(nèi)容。在云計(jì)算的基礎(chǔ)上,盡量完善對數(shù)據(jù)的網(wǎng)絡(luò)分析、篩選、整合,使數(shù)據(jù)更具有效性和針對性,與此同時,將WEB中的數(shù)據(jù)轉(zhuǎn)成xml形式的文件,使其以分布式文件的形式存在。
3.2 基于云計(jì)算的Web數(shù)據(jù)挖掘算法
基于云計(jì)算的Web數(shù)據(jù)挖掘算法步驟如下:
第一步,根據(jù)數(shù)據(jù)挖掘服務(wù)請求來對置信度闕值進(jìn)行確定,一般這種服務(wù)請求由Web瀏覽器提出的。
第二步,客戶端向主控節(jié)點(diǎn)發(fā)出的任務(wù),數(shù)據(jù)存儲的節(jié)點(diǎn)就會向主控節(jié)點(diǎn)申請數(shù)據(jù)并返回有服務(wù)節(jié)點(diǎn)處理過后的數(shù)據(jù)。
第三步,主控節(jié)點(diǎn)的數(shù)據(jù)將發(fā)給算法的存儲節(jié)點(diǎn),算法節(jié)點(diǎn)會根據(jù)所存儲的大量算法,篩選出最佳的挖掘算法,并將這些算法應(yīng)用到每個服務(wù)節(jié)點(diǎn)。
第四步,每個服務(wù)節(jié)點(diǎn)都會有針對性地對各個數(shù)據(jù)進(jìn)行篩選,從而將數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行系統(tǒng)的分類和規(guī)整,用 Apriori算法,得出不同數(shù)據(jù)庫的一部分頻集。
第五步,將服務(wù)節(jié)點(diǎn)處理的這些結(jié)果反饋主控節(jié)點(diǎn)上,得出整個數(shù)據(jù)庫全局的頻集。在將這些發(fā)送到每個服務(wù)節(jié)點(diǎn)之上就可以得到更加準(zhǔn)確的局部頻集。以此類推,再將服務(wù)節(jié)點(diǎn)處理的結(jié)果反饋到主控節(jié)點(diǎn)上,得到更加精準(zhǔn)的全局的頻集。
4 結(jié)語
WEB數(shù)據(jù)挖掘指的是從WEB數(shù)據(jù)以及其他獲得的網(wǎng)絡(luò)數(shù)據(jù)中選出所需的有效的、針對性的數(shù)據(jù)信息。它通過用戶的興趣和習(xí)慣來篩選出數(shù)據(jù)信息以滿足用戶的需求?;谠朴?jì)算的WEB數(shù)據(jù)挖掘能夠在網(wǎng)絡(luò)的平臺上進(jìn)行統(tǒng)一的調(diào)整或管理,還可以充分占用云計(jì)算的儲存空間?;谠朴?jì)算下的WEB數(shù)據(jù)挖掘關(guān)鍵技術(shù)不僅提高了數(shù)據(jù)挖掘的技術(shù)性,還提高了對網(wǎng)絡(luò)數(shù)據(jù)的利用率。基于云計(jì)算的WEB數(shù)據(jù)挖掘關(guān)鍵技術(shù)的提高對我國互聯(lián)網(wǎng)的發(fā)展具有重要的促進(jìn)意義。
參考文獻(xiàn)
[1]任爭,董莉麗,史澤,等.數(shù)據(jù)挖掘技術(shù)及其在過程監(jiān)控中的應(yīng)用[J].黑龍江科技信息,2016(9).
[2]黃佳倩,何明昌,盛麗芬,等.基于云計(jì)算的移動學(xué)習(xí)平臺[J].2015(3):40-43.