昌吉學院計算機工程系 仇 崗
烏魯木齊八一中學義教部 楊 琴
Web數(shù)據(jù)挖掘技術(shù)的探討與應(yīng)用
昌吉學院計算機工程系 仇 崗
烏魯木齊八一中學義教部 楊 琴
隨著Web技術(shù)的不斷發(fā)展和成熟,Internet的普及和廣泛應(yīng)用,現(xiàn)在的互聯(lián)網(wǎng)越來越人性化、智能化。數(shù)據(jù)挖掘技術(shù)已經(jīng)從基于數(shù)據(jù)庫的應(yīng)用擴展到基于網(wǎng)絡(luò)的應(yīng)用。Web數(shù)據(jù)挖掘技術(shù)就可以對互聯(lián)網(wǎng)中大量數(shù)據(jù)進行收集、整理和分析。
Web數(shù)據(jù)挖掘;關(guān)聯(lián);聚類;模型
隨著Web技術(shù)的不斷發(fā)展和成熟,Internet的普及和廣泛應(yīng)用,現(xiàn)在的互聯(lián)網(wǎng)越來越人性化、智能化。數(shù)據(jù)挖掘技術(shù)已經(jīng)從基于數(shù)據(jù)庫的應(yīng)用擴展到基于網(wǎng)絡(luò)的應(yīng)用。比如在論壇中心,我們需要經(jīng)過有效的數(shù)據(jù)抽取技術(shù)將論壇中的有用信息提取出來,再對這些數(shù)據(jù)進行挖掘。Web數(shù)據(jù)挖掘技術(shù)可以對網(wǎng)絡(luò)中大量網(wǎng)頁內(nèi)容進行收集、處理、總結(jié)和分析等操作。下面將對Web數(shù)據(jù)挖掘技術(shù)做簡單的研究和探討,并在此基礎(chǔ)上介紹Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿論中的應(yīng)用。
Web數(shù)據(jù)挖掘是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,它就是從大量的、無結(jié)構(gòu)化的、復雜的網(wǎng)絡(luò)數(shù)據(jù)中提取出有潛在應(yīng)用價值數(shù)據(jù)的過程。Web數(shù)據(jù)挖掘是構(gòu)建在傳統(tǒng)的數(shù)據(jù)挖掘基礎(chǔ)上的,主要是處理網(wǎng)頁中一些非結(jié)構(gòu)化的數(shù)據(jù)、復雜的、無序的數(shù)據(jù),根據(jù)Web數(shù)據(jù)挖掘研究的對象不同,可以分為基于網(wǎng)頁內(nèi)容的數(shù)據(jù)挖掘、基于用戶使用習慣的數(shù)據(jù)挖掘和基于網(wǎng)頁結(jié)構(gòu)的數(shù)據(jù)挖掘三類。
2.1 Web數(shù)據(jù)挖掘的主要技術(shù)
Web數(shù)據(jù)挖掘的主要技術(shù)大致可以分為三類,分別是統(tǒng)計學分析、人工智能和數(shù)據(jù)庫技術(shù)等,這三類具體包括類神經(jīng)網(wǎng)絡(luò)分析、統(tǒng)計學分析、關(guān)聯(lián)規(guī)則分析、分類與預測、聚類分析和決策樹分析法等。類神經(jīng)網(wǎng)絡(luò)分析是模仿人體神經(jīng)系統(tǒng)運作的一種人工智能分析方法;統(tǒng)計學分析方法包括概率論、序列統(tǒng)計分析和回歸分析等。統(tǒng)計學分析方法是利用數(shù)學方法對Web數(shù)據(jù)挖掘過程進行數(shù)學建模,通過函數(shù)關(guān)系標書數(shù)據(jù)之間的相互聯(lián)系,從而做出相應(yīng)的數(shù)據(jù)預測和處理;關(guān)聯(lián)規(guī)則分析是在數(shù)據(jù)庫中找出我們還未被發(fā)現(xiàn)的關(guān)聯(lián)數(shù)據(jù)項;聚類分析是將目標內(nèi)容項進行分類,從而形成多個類的過程;決策樹分析法是已經(jīng)定義好的條件生成二叉樹結(jié)構(gòu)的判定工具,根據(jù)不同的選擇路徑判定相關(guān)問題的結(jié)論。
2.2 Web數(shù)據(jù)挖掘的功能
Web數(shù)據(jù)挖掘主要功能包括預測功能、聚類功能、關(guān)聯(lián)功能、分類功能和異常檢測功能等。預測功能是通過調(diào)用數(shù)據(jù)庫中已有數(shù)據(jù),利用線性回歸和非線性回歸算法進行建模,從而預測目標的發(fā)展趨勢和走勢;聚類功能是將相似度較高的內(nèi)容聚集成一個類,根據(jù)不同用戶需求提供相應(yīng)的信息;關(guān)聯(lián)功能是用來找出不同數(shù)據(jù)項之間的隱藏聯(lián)系,如家電和裝潢材料之間的聯(lián)系等;分類功能是基于一般用戶的屬性特征將用戶進行分組,如地理位置、購買能力、性別、興趣愛好等;異常檢測功能是檢測期望值與實際值之間的巨大偏差,如支付金額與實際余額的分析。
2.3 Web數(shù)據(jù)挖掘的處理過程
Web數(shù)據(jù)挖掘的具體處理過程分為確定目標、收集數(shù)據(jù)、處理數(shù)據(jù)、Web數(shù)據(jù)挖掘、結(jié)果分析和知識部署等六個步驟。
2.3.1 發(fā)現(xiàn)資源
在網(wǎng)頁中在收集信息,如從目標文檔、電子郵件、論壇、新聞信息等Web頁面中收集信息。
2.3.2 收集數(shù)據(jù)
發(fā)現(xiàn)資源后,根據(jù)目標找到解決該業(yè)務(wù)的數(shù)據(jù)源,然后對數(shù)據(jù)源的進行甄別,該數(shù)據(jù)是屬于內(nèi)部數(shù)據(jù)還是屬于外部待整理數(shù)據(jù)。
2.3.3 處理數(shù)據(jù)
數(shù)據(jù)處理是根據(jù)Web數(shù)據(jù)抽取算法和規(guī)則對收集到的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換,即對數(shù)據(jù)進行篩選和整理工作,從而提高數(shù)據(jù)質(zhì)量。
2.3.4 Web數(shù)據(jù)挖掘
選擇合適的數(shù)據(jù)挖掘算法,對準備好的數(shù)據(jù)進行挖掘。
2.3.5 結(jié)果分析
對Web數(shù)據(jù)挖掘所的結(jié)果進行整理和分析。
2.3.6 知識部署
經(jīng)過對收集內(nèi)容進行數(shù)據(jù)分析后,提出相應(yīng)的建議,并將結(jié)果部署到實際應(yīng)用中,實現(xiàn)知識應(yīng)用。
2.4 Web數(shù)據(jù)挖掘的關(guān)鍵問題
Web數(shù)據(jù)挖掘技術(shù)是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)中的應(yīng)用,但是Web數(shù)據(jù)挖掘技術(shù)面向的數(shù)據(jù)會更龐大的,并且分布廣泛,文檔格式不規(guī)則。針對這些海量數(shù)據(jù),要快速、準確的獲取我們想要的信息,就需要開發(fā)相關(guān)的Web數(shù)據(jù)挖掘技術(shù)以及對數(shù)據(jù)的預處理技術(shù)。
2.5 Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情分析研究中的應(yīng)用
2.5.1 網(wǎng)絡(luò)輿情定義
網(wǎng)絡(luò)輿情是由于社會各類事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)絡(luò)傳播的對于時間的所有認知、態(tài)度、情感和行為的傾向集合。
2.5.2 Web數(shù)據(jù)挖掘應(yīng)用于網(wǎng)絡(luò)輿情的具體應(yīng)用
Web數(shù)據(jù)挖掘具有關(guān)聯(lián)分析、時序模式、分類、聚類、預測和偏差分析等特點。面對網(wǎng)絡(luò)中大量的相似數(shù)據(jù),它可以進行針對性的挖掘,準確把握互聯(lián)網(wǎng)的輿情動態(tài),對互聯(lián)網(wǎng)中熱點、焦點信息做出快速反應(yīng),能把握處理危情事件的最佳時機,從而提高網(wǎng)絡(luò)的監(jiān)管能力和處理突發(fā)事件的能力。
(1)關(guān)聯(lián)分析
Web數(shù)據(jù)挖掘中最關(guān)鍵的技術(shù)之一就是發(fā)現(xiàn)同一事物中某些屬性或者類別同時出現(xiàn)的規(guī)律。通過這一事物內(nèi)在的隱藏特點,建立相互之間的聯(lián)系,多數(shù)管理規(guī)則的挖掘算法都能夠無遺漏的發(fā)現(xiàn)隱藏在所要挖掘數(shù)據(jù)中的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則可以用可信度、支持度、期望可信度、作用度四個參數(shù)進行描述。數(shù)據(jù)關(guān)聯(lián)是通過對數(shù)據(jù)庫相關(guān)字段的數(shù)據(jù)進行分析整理,總結(jié)發(fā)現(xiàn)相關(guān)的一類知識。如“SAS病毒傳播”和“網(wǎng)絡(luò)日志”之間的關(guān)聯(lián),通過從網(wǎng)絡(luò)日志的網(wǎng)頁中挖掘出和SAS相關(guān)的信息,然后存到數(shù)據(jù)倉庫中,利用關(guān)聯(lián)分析技術(shù)獲得SAS在各省、市、自治區(qū)傳染概率,從而建立病毒的防御和預警機制。
(2)聚類分析
聚類分析是將不同的數(shù)據(jù)按照某一標準或條件整理分成不同的類,發(fā)現(xiàn)數(shù)據(jù)屬性之間的相互關(guān)系,是數(shù)據(jù)挖掘算法中的一個預處理步驟。聚類分析在生物學、醫(yī)學、商業(yè)上應(yīng)用都很廣泛,如在生物學上可以輔助研究動植物的分類,也可以將動物的相似基因進行分類。
(3)分類
分類是找出一個類別的內(nèi)涵描述,使該類與其他數(shù)據(jù)獨立區(qū)別,通過類的內(nèi)涵描述來構(gòu)造模型。在網(wǎng)絡(luò)輿情研究中,我們可以通過對復雜的互聯(lián)網(wǎng)信息進行初步篩選,對不同的輿情信息進行分類,如民生問題、突發(fā)事件、經(jīng)濟危機等。
(4)預測
預測是通過對歷史數(shù)據(jù)的研究,建立數(shù)據(jù)模型,從而對未來可能發(fā)生一些事件進行預測,得出將來可能出現(xiàn)的結(jié)果。如美國蘭德公司曾經(jīng)就科學的突破、人口的增長、自動化技術(shù)、航天技術(shù)、戰(zhàn)爭的可能、新武器系統(tǒng)6個問題共49個事件進行了長達50年的預測。
(5)時序模式
時序模式是指通過對數(shù)據(jù)庫存儲的事件進行按時間排序,并且分析出相似事件重復發(fā)生概率較高的模式。時序模式可以與預測配合使用應(yīng)用于網(wǎng)絡(luò)輿情的監(jiān)控和預警。如通過網(wǎng)絡(luò)輿情監(jiān)控和預警可以在部分“恐怖襲擊”事件發(fā)生前通過大量的網(wǎng)絡(luò)信息收集、整理、分析,有針對的選取數(shù)據(jù)并對數(shù)據(jù)進行規(guī)律預測和排序,就能對部分“恐怖襲擊”發(fā)生起到的預防和控制的積極作用。
(6)偏差分析
偏差分析是從網(wǎng)絡(luò)中獲取數(shù)據(jù)與數(shù)據(jù)庫中的標準數(shù)據(jù)進行對比,找出它們之間的差異,從而發(fā)現(xiàn)異常情況。如2008年“3.14事件”中,西方媒體登載同一張照片,而在新聞描述中存在明顯偏差,偏差分析就是對一些虛假信息、不良信息進行對比分析、及時批駁、糾正偏差,讓造假和誹謗不攻自破。
互聯(lián)網(wǎng)已成為信息發(fā)布和知識獲取的主要工具,它內(nèi)容涉及非常廣泛。現(xiàn)代社會需要我們要對大量的信息進行實時的、多方位、多層次的進行分析和整理。這使得我們要不斷的建立新的數(shù)據(jù)模型、體系結(jié)構(gòu)和算法,需要我們要充分發(fā)揮Web數(shù)據(jù)挖掘技術(shù)優(yōu)勢,為社會做更多貢獻。
仇崗(1979-),畢業(yè)于石河子大學計算機科學與技術(shù)專業(yè),2009年畢業(yè)于電子科技大學,研究方向計算機應(yīng)用技術(shù),碩士研究生,現(xiàn)就職于昌吉學院。
楊琴(1984-),2009年畢業(yè)于新疆師范大學,本科,現(xiàn)就職于烏魯木齊八一中學。
項目名稱:Web信息抽取與數(shù)據(jù)挖掘技術(shù)及其在網(wǎng)絡(luò)輿情監(jiān)測中的應(yīng)用研究,項目編號:2012YJQT03。