韓紅宇,朱麗秋
(1.東莞職業(yè)技術(shù)學(xué)院管理科學(xué)系,廣東東莞523808;2.廣東亞視演藝職業(yè)學(xué)院經(jīng)濟(jì)管理系,廣東東莞523710)
海量數(shù)據(jù)干擾下Web數(shù)據(jù)挖掘技術(shù)分析
韓紅宇1,朱麗秋2
(1.東莞職業(yè)技術(shù)學(xué)院管理科學(xué)系,廣東東莞523808;2.廣東亞視演藝職業(yè)學(xué)院經(jīng)濟(jì)管理系,廣東東莞523710)
隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)與每個(gè)人的生活息息相關(guān),并且隨著網(wǎng)絡(luò)在生產(chǎn)生活中的應(yīng)用范圍增加,網(wǎng)絡(luò)終端存儲(chǔ)的信息量就越來(lái)越大,為了更好地利用這些信息數(shù)據(jù),就必須能有效地在海量信息的干擾下找到自己需要的信息。該文根據(jù)目前的Web信息特點(diǎn),探究在海量數(shù)據(jù)干擾下的Web數(shù)據(jù)挖掘技術(shù),希望有助于網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的研究,提高信息的利用率,讓其更好的使用現(xiàn)代發(fā)展的需求。
海量數(shù)據(jù)干擾;Web數(shù)據(jù);挖掘
近年來(lái),網(wǎng)絡(luò)信息技術(shù)得到快速發(fā)展,生產(chǎn)生活也隨著網(wǎng)絡(luò)信息技術(shù)的普及變得高效和信息化,隨之而來(lái)的就是人們對(duì)于自身的網(wǎng)絡(luò)信息安全的顧慮。特別是現(xiàn)在人們?cè)诰W(wǎng)上越來(lái)越多的暴露自己的個(gè)人信息,在現(xiàn)在看來(lái)一些軟件或者公司表明他們保護(hù)消費(fèi)者的權(quán)益和信息安全,但是我們知道自己的信息都是以數(shù)據(jù)的形式在Web上傳播,難免會(huì)有泄露,因此為了提高網(wǎng)絡(luò)信息安全,就必須提高Web的安全防護(hù)能力,其中很重要的就是有效挖掘危險(xiǎn)Web數(shù)據(jù)。Web數(shù)據(jù)挖掘是在傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)上發(fā)展而來(lái)的,根據(jù)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)信息量大、結(jié)構(gòu)復(fù)雜的特點(diǎn),Web數(shù)據(jù)挖掘技術(shù)也有了改進(jìn),目前進(jìn)行Web數(shù)據(jù)挖掘的技術(shù)有很多,如路徑分析、關(guān)聯(lián)規(guī)則和序列模式等等,下文會(huì)進(jìn)行詳細(xì)論述。隨著互聯(lián)網(wǎng)技術(shù)的深化發(fā)展,越來(lái)越多的電子商務(wù)公司出現(xiàn),這些公司甚至海量的網(wǎng)絡(luò)數(shù)據(jù)信息蘊(yùn)含著巨大的上級(jí)和利益,所以他們快速研究和發(fā)展Web數(shù)據(jù)挖掘技術(shù),通過(guò)對(duì)網(wǎng)絡(luò)數(shù)據(jù)信息的挖掘,尋找客戶信息數(shù)據(jù),并依靠分析得到想要的客戶信息,也就為他們創(chuàng)造了豐富的商機(jī)和巨大的利益。現(xiàn)在的Web數(shù)據(jù)挖掘技術(shù)應(yīng)用越來(lái)越廣泛,它在未來(lái)的發(fā)展前景和趨勢(shì)都令人期待。
1.1 Web數(shù)據(jù)挖掘的概念
要說(shuō)Web數(shù)據(jù)挖掘就得先說(shuō)傳統(tǒng)的數(shù)據(jù)挖掘,傳統(tǒng)數(shù)據(jù)挖掘本意就是在大量的、隨機(jī)的、復(fù)雜的實(shí)際數(shù)據(jù)中,根據(jù)某種目的尋找人們想要知道的有用信息的過(guò)程和技術(shù)。當(dāng)然在現(xiàn)代發(fā)展中,隨著數(shù)據(jù)挖掘的商業(yè)化運(yùn)作,它的含義也發(fā)生了一定的改變,在商業(yè)背景下,數(shù)據(jù)挖掘是在龐大的商業(yè)數(shù)據(jù)信息中,分析商家想要得到的客戶信息數(shù)據(jù)或者是競(jìng)爭(zhēng)對(duì)手的商業(yè)信息數(shù)據(jù),為公司的商業(yè)戰(zhàn)略決策提供一定參考。而Web數(shù)據(jù)挖掘就是講數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web中,由于網(wǎng)絡(luò)世界的信息量以及復(fù)雜程度都是不可估計(jì)的,并且在這樣雜亂的信息中挖掘有價(jià)值的數(shù)據(jù)是非常困難的。所以現(xiàn)代化的Web數(shù)據(jù)挖掘技術(shù)也與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)不同,它針對(duì)網(wǎng)絡(luò)信息數(shù)據(jù)庫(kù)的特點(diǎn),在信息過(guò)濾技術(shù)的幫助下,完成信息數(shù)據(jù)的發(fā)掘、處理和保存工作。目前的Web數(shù)據(jù)挖掘有以下幾種[1]:
(1)Web數(shù)據(jù)的結(jié)構(gòu)挖掘。網(wǎng)絡(luò)信息技術(shù)有著嚴(yán)密的邏輯關(guān)系,同樣看似混亂的數(shù)據(jù)信息其實(shí)也是有著一定的結(jié)構(gòu)邏輯,Web數(shù)據(jù)的結(jié)構(gòu)挖掘就是要對(duì)已經(jīng)有的數(shù)據(jù)信息進(jìn)行分析,挖掘數(shù)據(jù)之間的結(jié)構(gòu)關(guān)系,然后通過(guò)一定的計(jì)算算法實(shí)現(xiàn)網(wǎng)頁(yè)價(jià)值計(jì)算,評(píng)估網(wǎng)頁(yè)系統(tǒng)的商業(yè)價(jià)值。在充斥著海量數(shù)據(jù)的Web中,有著各種各樣的超鏈接結(jié)構(gòu),隨時(shí)都能將客戶帶到另一個(gè)界面,特別是現(xiàn)在隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,很多文檔中的引用或者是生僻的概念用于都能添加超鏈接,從這些結(jié)構(gòu)中能隱藏很多數(shù)據(jù)信息資源,目前的Web數(shù)據(jù)的結(jié)構(gòu)挖掘技術(shù)大都是使用一定的結(jié)構(gòu)算法,對(duì)網(wǎng)頁(yè)的超鏈接進(jìn)行檢測(cè)和保護(hù)。
(2)Web數(shù)據(jù)的內(nèi)容挖掘?,F(xiàn)在人們需要獲取什么信息都首先通過(guò)瀏覽器檢索,目前網(wǎng)絡(luò)上已有的數(shù)據(jù)信息基本能滿足人們的需求,這也得益于這些瀏覽器強(qiáng)大的Web數(shù)據(jù)的內(nèi)容挖掘能力。內(nèi)容挖掘工作主要就是收集有用的信息資源,進(jìn)行分類(lèi)和整理,并且給不同的數(shù)據(jù)信息加上“標(biāo)簽”,便于客戶的檢索操作,當(dāng)然除了直接能通過(guò)瀏覽器檢索到的數(shù)據(jù)資源之外,還有很多的加密數(shù)據(jù)文件,需要采用特殊的Web數(shù)據(jù)的內(nèi)容挖掘技術(shù)。
(3)Web數(shù)據(jù)的使用挖掘。隨著網(wǎng)絡(luò)信息技術(shù)的快速普及,人們?cè)谌粘I钪性L問(wèn)網(wǎng)頁(yè)的次數(shù)和時(shí)間也有增加的趨勢(shì),那么Web數(shù)據(jù)的使用挖掘就是在網(wǎng)頁(yè)的相關(guān)站點(diǎn)和常規(guī)日志文件中挖掘有用的客戶訪問(wèn)信息,從而幫助網(wǎng)站進(jìn)行針對(duì)性的客戶涉及,提高客戶體驗(yàn)和商家經(jīng)濟(jì)效益。其中要著重關(guān)注網(wǎng)站的日志文件,因?yàn)榭蛻粼谑褂眠^(guò)程中,會(huì)自主的跟網(wǎng)站進(jìn)行交流,而交流的信息數(shù)據(jù)會(huì)自動(dòng)保存到日志文件中,所以通過(guò)對(duì)日志文件的Web數(shù)據(jù)進(jìn)行使用挖掘,能有效地掌握客戶信息以及動(dòng)態(tài)發(fā)展需求,促進(jìn)網(wǎng)站的設(shè)計(jì)優(yōu)化更新,提高工作效率。
1.2 Web數(shù)據(jù)挖掘的特點(diǎn)
Web數(shù)據(jù)挖掘的對(duì)象是海量的網(wǎng)絡(luò)信息數(shù)據(jù),首先我們?cè)谶M(jìn)行Web數(shù)據(jù)挖掘之前就需要對(duì)大量的網(wǎng)絡(luò)信息進(jìn)行初步的篩選,要根據(jù)本次的Web數(shù)據(jù)挖掘目的選擇合適的方法和模型,后期還需要對(duì)Web數(shù)據(jù)挖掘的信息進(jìn)行整合提煉,信息的更正和補(bǔ)充,然后對(duì)信息進(jìn)行分析和總結(jié),得出結(jié)論。其次,因?yàn)閃eb數(shù)據(jù)挖掘是針對(duì)的網(wǎng)絡(luò)信息數(shù)據(jù),面臨著較高的安全風(fēng)險(xiǎn),所以在進(jìn)行Web數(shù)據(jù)挖掘的時(shí)候還應(yīng)該做好安全防護(hù)工作,降低信息污染和病毒入侵的可能,確保Web數(shù)據(jù)挖掘工作順利進(jìn)行。最后就是Web數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)問(wèn)題,這就要根據(jù)選擇的挖掘模型而進(jìn)行相應(yīng)的改變,因?yàn)閿?shù)據(jù)信息的復(fù)雜以及各式都會(huì)影響最后的數(shù)據(jù)存儲(chǔ)工作,所以對(duì)于數(shù)據(jù)的管理和存儲(chǔ)工作需要專人負(fù)責(zé),做好數(shù)據(jù)的檢測(cè)和保護(hù)工作,便于在Web數(shù)據(jù)挖掘工作結(jié)束之后能得到完整的數(shù)據(jù)信息,提高實(shí)際工作效益[2]。
2.1 確定Web數(shù)據(jù)挖掘目的
首先要明確進(jìn)行此次Web數(shù)據(jù)挖掘的目的,根據(jù)主要目的確定Web數(shù)據(jù)挖掘的范圍,選擇合適的網(wǎng)絡(luò)數(shù)據(jù)信息并且對(duì)此次Web數(shù)據(jù)挖掘的價(jià)值和質(zhì)量進(jìn)行評(píng)估,方便后續(xù)工作的進(jìn)行。
2.2 建立Web數(shù)據(jù)挖掘庫(kù)
進(jìn)行Web數(shù)據(jù)挖掘首先需要根據(jù)本次目的確定信息數(shù)據(jù)范圍,然后建立完整的樹(shù)立體系,形成數(shù)據(jù)挖掘庫(kù)。在數(shù)據(jù)挖掘庫(kù)中根據(jù)關(guān)鍵詞或者相關(guān)的信息資料進(jìn)行Web數(shù)據(jù)挖掘,這樣不僅能提高檢索效率,而且準(zhǔn)確性高。建立數(shù)據(jù)挖掘庫(kù)的一般過(guò)程是,首先通過(guò)Web網(wǎng)絡(luò)大數(shù)據(jù)體系生成相關(guān)的數(shù)據(jù)報(bào)告,將各種信息進(jìn)行整合分類(lèi)。其次,將相同類(lèi)型不同數(shù)據(jù)源的數(shù)據(jù)合并到一個(gè)數(shù)據(jù)庫(kù)中,將垃圾數(shù)據(jù)及時(shí)清理。隨后,安排專人對(duì)數(shù)據(jù)進(jìn)行備份和存儲(chǔ),并且定期對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢查和整理,清除安全隱患,確保信息數(shù)據(jù)庫(kù)的完整[3]。當(dāng)然在實(shí)際應(yīng)用中也要及時(shí)的更新數(shù)據(jù)庫(kù)的設(shè)備,才能更好地滿足發(fā)展需求。
2.3 清理Web數(shù)據(jù)挖掘庫(kù)
Web數(shù)據(jù)挖掘庫(kù)是建立在海量信息的基礎(chǔ)上,是將各種復(fù)雜的信息都收錄其中,所以在進(jìn)行數(shù)據(jù)挖掘工作之前,需要對(duì)Web數(shù)據(jù)挖掘庫(kù)進(jìn)行清理分析,因?yàn)榫W(wǎng)絡(luò)數(shù)據(jù)存在錯(cuò)誤和混亂是很正常的,特別是當(dāng)信息量巨大的時(shí)候就更為廣泛,因此要有運(yùn)算速度快的分析處理設(shè)備,加快信息的整理工作,并且加強(qiáng)每次數(shù)據(jù)庫(kù)更新的管理工作,保證數(shù)據(jù)的完整性和安全性。
2.4 分析Web數(shù)據(jù)挖掘庫(kù)
在進(jìn)行Web數(shù)據(jù)挖掘之前還需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢測(cè),通過(guò)對(duì)檢索變量、檢所記錄等各項(xiàng)指標(biāo)進(jìn)行測(cè)試,確保數(shù)據(jù)庫(kù)的挖掘模型能正常運(yùn)作,保障數(shù)據(jù)挖掘的質(zhì)量和效率。
2.5 創(chuàng)立Web數(shù)據(jù)挖掘模型
我們需要根據(jù)不同的Web數(shù)據(jù)挖掘目的建立合適的數(shù)據(jù)挖掘模型,才能在海量信息干擾下高效正確地進(jìn)行數(shù)據(jù)挖掘,并且對(duì)需要的數(shù)據(jù)進(jìn)行完整的保存,這就需要我們使用最先進(jìn)的Web數(shù)據(jù)挖掘技術(shù),創(chuàng)建科學(xué)的數(shù)據(jù)挖掘模型[4]。
3.1 路徑分析
路徑分析是目前最常用的一種Web數(shù)據(jù)挖掘技術(shù)。隨著現(xiàn)在的互聯(lián)網(wǎng)技術(shù)快速發(fā)展,電子商務(wù)也快速興起,為了更好的營(yíng)銷(xiāo),就必須了解客戶需求和喜好,所以路徑分析對(duì)于電商而言是必不可少的一種Web數(shù)據(jù)挖掘手段,通過(guò)對(duì)消費(fèi)者的Web訪問(wèn)路徑的分析,可以清晰的分析出消費(fèi)者最常訪問(wèn)的網(wǎng)址或者是最留意的商品信息,通過(guò)Web數(shù)據(jù)挖掘出客戶的頻繁訪問(wèn)路徑,然后根據(jù)需求制定推銷(xiāo)計(jì)劃,能更好地迎合消費(fèi)者的需求,提高效益。當(dāng)然服務(wù)型機(jī)構(gòu)也能更好的根據(jù)路徑分析,為客戶提供高質(zhì)量的服務(wù)。
3.2 連接規(guī)則
事物之間都是普遍聯(lián)系的,網(wǎng)絡(luò)世界更是因?yàn)樗奶摂M性被使用者喜歡,但是在網(wǎng)絡(luò)信息數(shù)據(jù)之間其實(shí)也是存在著千絲萬(wàn)縷的聯(lián)系。在Web數(shù)據(jù)挖掘技術(shù)中也常用到關(guān)聯(lián)規(guī)則,通過(guò)分析數(shù)據(jù)之間的相互關(guān)聯(lián),得到事物內(nèi)部之間的隱藏的關(guān)系。因此通過(guò)Web數(shù)據(jù)挖掘的關(guān)聯(lián)模型,利用客戶的訪問(wèn)記錄中的訪問(wèn)界面或者文件,或者是通過(guò)客戶瀏覽的網(wǎng)頁(yè)中頻繁出現(xiàn)的關(guān)聯(lián)網(wǎng)頁(yè),分析其中的關(guān)聯(lián),然后對(duì)客戶進(jìn)行捆綁銷(xiāo)售,并且能為客戶設(shè)計(jì)鏈接性的訪問(wèn)界面,提高其訪問(wèn)量,這樣不僅能讓客戶使用更為方便,還能提高銷(xiāo)售的精確度[2]。
3.3 順序模式
Web數(shù)據(jù)挖掘都是依靠一定的線索進(jìn)行工作的,在設(shè)計(jì)Web數(shù)據(jù)挖掘模型時(shí)也要根據(jù)目的和數(shù)據(jù)類(lèi)型進(jìn)行設(shè)計(jì)。目前大多是按照時(shí)間順序進(jìn)行數(shù)Web數(shù)據(jù)挖掘,也就是序列模式,通過(guò)時(shí)間線索對(duì)數(shù)據(jù)進(jìn)行分析,探究這些事件之間的因果關(guān)系。這種模式對(duì)于電商的客戶需求預(yù)測(cè)以及營(yíng)銷(xiāo)戰(zhàn)略安排有重要的意義??梢愿鶕?jù)Web數(shù)據(jù)挖掘的分析結(jié)果,對(duì)客戶進(jìn)行提前的廣告服務(wù),可以有效地提高訪問(wèn)量和銷(xiāo)售量。
3.4 分類(lèi)和聚類(lèi)分析
如果Web數(shù)據(jù)挖掘的內(nèi)容分支較多并且內(nèi)容較為復(fù)雜,那么這個(gè)時(shí)候就需要用到分類(lèi)分析方法,將數(shù)據(jù)信息按照一定的區(qū)別進(jìn)行分類(lèi),一般采用樹(shù)狀模型或者是神經(jīng)網(wǎng)絡(luò)模型,對(duì)挖掘的數(shù)據(jù)分類(lèi),然后逐個(gè)部分進(jìn)行分析,這樣能較為清晰的得出數(shù)據(jù)分析結(jié)果。聚類(lèi)分析是一種不同于分類(lèi)分析的技術(shù),這是通過(guò)對(duì)將有相同信息訪問(wèn)規(guī)律的客戶聚集在一起進(jìn)行數(shù)據(jù)分析,通過(guò)Web數(shù)據(jù)挖掘,找到有共同特征的客戶,然后針對(duì)性的進(jìn)行分析,對(duì)于電商而言能有效的了解各類(lèi)商品的消費(fèi)人群和消費(fèi)水平,能進(jìn)行針對(duì)性的銷(xiāo)售[4]。
3.5 數(shù)理統(tǒng)計(jì)分析
對(duì)于數(shù)理統(tǒng)計(jì)相信大家都不會(huì)陌生,這是一種常見(jiàn)的數(shù)據(jù)分析方法,在很多領(lǐng)域都有應(yīng)用,Web數(shù)據(jù)挖掘也常用到統(tǒng)計(jì)分析方法。這種方法不僅操作簡(jiǎn)單,而且對(duì)于海量數(shù)據(jù)的干擾下的Web數(shù)據(jù)挖掘環(huán)境,采用多維統(tǒng)計(jì)分析技術(shù)也是非常適合。如同時(shí)將客戶的訪問(wèn)時(shí)間數(shù)據(jù)、訪問(wèn)次數(shù)數(shù)據(jù)以及訪問(wèn)內(nèi)容數(shù)據(jù)等一起進(jìn)行統(tǒng)計(jì)分析,能較為科學(xué)的得到客戶的訪問(wèn)規(guī)律以及習(xí)慣,有助于提高Web數(shù)據(jù)挖掘的準(zhǔn)確性和權(quán)威性。
在網(wǎng)絡(luò)世界可以說(shuō)是屬于信息爆炸,海量數(shù)據(jù)給Web數(shù)據(jù)挖掘工作帶來(lái)了很大的干擾,但是隨著電子商務(wù)的快速發(fā)展,對(duì)于Web數(shù)據(jù)挖掘技術(shù)的需求日益增加,為了能在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì),就必須有打贏信息戰(zhàn),誰(shuí)先掌握了更多的客戶數(shù)據(jù)信息,誰(shuí)就會(huì)在戰(zhàn)略制定上領(lǐng)先一步。因此,Web數(shù)據(jù)挖掘技術(shù)對(duì)于現(xiàn)代化的企業(yè)發(fā)展有非常重要的影響,擁有先進(jìn)的Web數(shù)據(jù)挖掘技術(shù)就擁有了更加有力的發(fā)展先機(jī)。希望本文對(duì)于在海量數(shù)據(jù)干擾下的Web數(shù)據(jù)挖掘技術(shù)分析能給企業(yè)提供借鑒,有助于其在未來(lái)更好的發(fā)展。
[1]王曙霞,熊曾剛.海量數(shù)據(jù)干擾下的危險(xiǎn)Web數(shù)據(jù)挖掘技術(shù)研究[J].微電子,2016(2):87-91.
[2]韋侃.Web數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2014(9):128-129.
[3]王瑛.WEB數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[J].時(shí)代金融,2013(35): 425-426.
[4]馬保國(guó),侯存軍,王文豐,錢(qián)方正.Web數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].計(jì)算機(jī)工程,2006(6):20-22.
TP311
A
1009-3044(2017)19-0228-02
2017-06-06
遼寧省高等學(xué)??蒲许?xiàng)目計(jì)劃(2009A325);東莞職業(yè)技術(shù)學(xué)院院級(jí)基金(2015c19)
韓紅宇(1973—),男,東莞職業(yè)技術(shù)學(xué)院管理科學(xué)系副教授。