王曉靜 陳玉英
摘要:在網(wǎng)絡(luò)信息系統(tǒng)中,隨著信息量的不斷增大,傳統(tǒng)的信息可視化技術(shù)難以有效表達(dá)大量網(wǎng)絡(luò)數(shù)據(jù)的內(nèi)在規(guī)律,為此,將數(shù)據(jù)挖掘技術(shù)引入到網(wǎng)絡(luò)信息可視化的研究中,構(gòu)建了基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息可視化模型。該模型利用網(wǎng)絡(luò)信息的特點(diǎn),以網(wǎng)絡(luò)信息為研究對(duì)象,利用數(shù)據(jù)挖掘技術(shù),在不影響網(wǎng)絡(luò)信息可視化效果的前提下,有效地發(fā)現(xiàn)網(wǎng)絡(luò)中隱含的知識(shí),從而為更好地服務(wù)于用戶提供支持。本文提出了一種基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息可視化模型,為網(wǎng)絡(luò)信息可視化技術(shù)的研究提供了新的思路,同時(shí)也為數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息系統(tǒng)中的應(yīng)用提供了支持。
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡(luò)信息;可視化模型
引言
隨著信息化時(shí)代的到來(lái),網(wǎng)絡(luò)信息系統(tǒng)已經(jīng)成為人類獲取知識(shí)和知識(shí)共享的重要工具。在網(wǎng)絡(luò)信息系統(tǒng)中,人們可以方便地獲取各類信息,并可以對(duì)信息進(jìn)行查詢、分類、統(tǒng)計(jì)和分析。但是,由于網(wǎng)絡(luò)數(shù)據(jù)具有動(dòng)態(tài)變化性、半結(jié)構(gòu)化和不完全性的特點(diǎn),如何有效地提取并展示這些數(shù)據(jù)的內(nèi)在規(guī)律,成為亟待解決的問(wèn)題。因此,如何將計(jì)算機(jī)中的大量數(shù)據(jù)轉(zhuǎn)化為用戶容易理解和接受的形式,便于用戶瀏覽和查詢,是目前網(wǎng)絡(luò)信息系統(tǒng)中的研究重點(diǎn)。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,它為解決以上問(wèn)題提供了新的思路。
1. 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(data mining,DM)是從大量數(shù)據(jù)中提取隱藏的有價(jià)值信息的過(guò)程,是對(duì)數(shù)據(jù)進(jìn)行分析的過(guò)程。數(shù)據(jù)挖掘可以理解為從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí),挖掘過(guò)程可以分為四個(gè)步驟:數(shù)據(jù)準(zhǔn)備、特征提取、模式發(fā)現(xiàn)、知識(shí)發(fā)現(xiàn)。
(1)數(shù)據(jù)準(zhǔn)備:對(duì)要處理和分析的數(shù)據(jù)進(jìn)行預(yù)處理,使之一定程度上適合于數(shù)據(jù)挖掘。
(2)特征提?。簩?duì)原始數(shù)據(jù)進(jìn)行變換和轉(zhuǎn)換,去除其中的噪聲,如對(duì)缺失值進(jìn)行填充、異常值處理等。
(3)模式發(fā)現(xiàn):對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行分析,從不同角度挖掘出隱含在其中有意義的信息和知識(shí)。
(4)知識(shí)發(fā)現(xiàn):通過(guò)對(duì)挖掘出來(lái)的信息和知識(shí)進(jìn)行評(píng)價(jià)、檢驗(yàn),以決定是否將其應(yīng)用到?jīng)Q策支持系統(tǒng)中。
數(shù)據(jù)挖掘技術(shù)在企業(yè)信息化建設(shè)中發(fā)揮著越來(lái)越重要的作用,已經(jīng)成為企業(yè)信息化建設(shè)中的重要技術(shù)之一,能夠幫助企業(yè)從海量數(shù)據(jù)中提取隱藏在其中的有價(jià)值的信息和知識(shí),從而為企業(yè)作出正確決策提供參考和依據(jù)[1]。
由于網(wǎng)絡(luò)數(shù)據(jù)的多樣性、復(fù)雜性和多變性,對(duì)網(wǎng)絡(luò)信息的處理和挖掘工作具有一定的難度。如何對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行有效的處理和分析,使其為企業(yè)的決策服務(wù),是目前企業(yè)信息化建設(shè)中的熱點(diǎn)問(wèn)題之一,而網(wǎng)絡(luò)信息的可視化能夠在一定程度上幫助用戶理解和分析網(wǎng)絡(luò)信息,因此具有很強(qiáng)的應(yīng)用價(jià)值。
2. 網(wǎng)絡(luò)信息及其特點(diǎn)
網(wǎng)絡(luò)信息是指在一定時(shí)間、地點(diǎn)、用戶及信息載體的條件下,存在于互聯(lián)網(wǎng)上的各種形式的信息。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已成為人們獲取信息的主要來(lái)源,并成為信息處理和共享的重要場(chǎng)所,在人們獲取和傳遞信息的過(guò)程中發(fā)揮著越來(lái)越重要的作用。目前,人們不僅要從網(wǎng)絡(luò)上獲得大量的信息資源,而且要根據(jù)自己的需求選擇合適的信息源。
在網(wǎng)絡(luò)環(huán)境下,人們對(duì)于網(wǎng)絡(luò)信息資源的要求不僅是獲得現(xiàn)有的知識(shí),而且希望對(duì)未知知識(shí)進(jìn)行預(yù)測(cè)、發(fā)現(xiàn)、探索和決策。因此,如何從大量數(shù)據(jù)中提取出有用的知識(shí)或模式,以幫助用戶更好地理解數(shù)據(jù)中的內(nèi)在規(guī)律并指導(dǎo)決策,成為當(dāng)前研究工作的重點(diǎn)之一[2]。目前,網(wǎng)絡(luò)數(shù)據(jù)具有以下幾個(gè)方面特點(diǎn)。
2.1 網(wǎng)絡(luò)數(shù)據(jù)的多樣性、復(fù)雜性和多變性
網(wǎng)絡(luò)數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)上的各種信息資源,包括文字、圖片、音頻、視頻和數(shù)據(jù)庫(kù)等,其來(lái)源和形式多樣。由于不同的網(wǎng)絡(luò)用戶所關(guān)注的信息領(lǐng)域不同,其獲取信息的手段也不一樣,因此網(wǎng)絡(luò)數(shù)據(jù)具有多樣性。同時(shí),由于互聯(lián)網(wǎng)是一個(gè)開放性的虛擬環(huán)境,所以在互聯(lián)網(wǎng)上產(chǎn)生的數(shù)據(jù)不僅包括網(wǎng)頁(yè)和網(wǎng)頁(yè)之間的鏈接數(shù)據(jù),還包括網(wǎng)絡(luò)上的各種媒體資源。因此,網(wǎng)絡(luò)數(shù)據(jù)具有復(fù)雜性。由于互聯(lián)網(wǎng)上信息資源的發(fā)布與獲取是無(wú)中心化的,網(wǎng)絡(luò)上每天都會(huì)產(chǎn)生大量數(shù)據(jù),而這些數(shù)據(jù)在不同時(shí)間和不同地點(diǎn)所呈現(xiàn)出來(lái)的特征也不一樣。
2.2 網(wǎng)絡(luò)數(shù)據(jù)具有開放性和自治性
由于網(wǎng)絡(luò)世界中存在著許多具有獨(dú)立地位的信息資源,各資源之間往往難以直接聯(lián)系,而且不同資源間還存在著許多不對(duì)稱性,因此,用戶往往需要通過(guò)一定的途徑來(lái)獲取所需信息。而網(wǎng)絡(luò)數(shù)據(jù)正是這些資源之一,因此具有很強(qiáng)的開放性。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的信息資源種類越來(lái)越多,數(shù)量也越來(lái)越大,用戶可以根據(jù)自己的需要從網(wǎng)絡(luò)中獲取所需的信息資源。同時(shí),由于網(wǎng)絡(luò)具有很強(qiáng)的自治性,用戶可以根據(jù)自己的需求自主地選擇所需要的信息,從而使用戶在獲取信息時(shí)能夠獲得更大的自主性。此外,由于網(wǎng)絡(luò)數(shù)據(jù)來(lái)源眾多、內(nèi)容繁雜,因此,對(duì)于用戶來(lái)說(shuō),如何選擇合適的信息源獲取所需信息是一個(gè)非常復(fù)雜和困難的問(wèn)題。在這方面,已有多種技術(shù)來(lái)幫助用戶選擇合適的信息源,如搜索引擎、Web結(jié)構(gòu)化查詢語(yǔ)言以及各種個(gè)性化服務(wù)等。
2.3 網(wǎng)絡(luò)數(shù)據(jù)具有很強(qiáng)的動(dòng)態(tài)性
網(wǎng)絡(luò)中每天都會(huì)產(chǎn)生大量的信息,這些信息不是靜止不變的,而是不斷更新、不斷變化的。如果不能及時(shí)對(duì)這些信息進(jìn)行處理,用戶就難以真正地了解網(wǎng)絡(luò)數(shù)據(jù)。因此,用戶要想獲得信息就必須對(duì)其進(jìn)行跟蹤、管理和維護(hù),否則這些信息就會(huì)被遺忘或者遺棄,從而影響用戶的使用效果。由于網(wǎng)絡(luò)中的資源分布極不均衡,即使是同一臺(tái)計(jì)算機(jī)也有可能訪問(wèn)不同的資源,這就給用戶提供了很大的選擇余地。由于不同來(lái)源的網(wǎng)絡(luò)數(shù)據(jù)往往具有不同的格式、結(jié)構(gòu)和內(nèi)容,而且用戶所處的環(huán)境和所要訪問(wèn)的網(wǎng)絡(luò)資源也不盡相同,往往會(huì)給用戶帶來(lái)很大的困難。因此,如何解決這些問(wèn)題就成為用戶使用網(wǎng)絡(luò)資源的關(guān)鍵。為了提高網(wǎng)絡(luò)數(shù)據(jù)的利用率,除了對(duì)數(shù)據(jù)進(jìn)行必要的加工外,還需要對(duì)數(shù)據(jù)進(jìn)行分類、過(guò)濾和主題跟蹤,以避免無(wú)效信息和冗余信息的出現(xiàn),從而提高網(wǎng)絡(luò)數(shù)據(jù)的利用率。
3. 網(wǎng)絡(luò)信息可視化研究
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息越來(lái)越豐富。為了方便用戶使用,需要對(duì)網(wǎng)絡(luò)信息進(jìn)行組織與管理。利用網(wǎng)絡(luò)信息可視化技術(shù),將龐大的網(wǎng)絡(luò)信息以直觀、易理解的形式表達(dá)出來(lái),使用戶能夠迅速了解其中蘊(yùn)含的信息。網(wǎng)絡(luò)信息可視化包括網(wǎng)絡(luò)信息的可視化建模、可視化數(shù)據(jù)的處理與可視化結(jié)果的輸出。首先是對(duì)網(wǎng)絡(luò)信息進(jìn)行分析,對(duì)其進(jìn)行抽象、提取、描述等處理,將其轉(zhuǎn)化為可視化的對(duì)象,即網(wǎng)絡(luò)信息可視化建模;其次進(jìn)行可視化數(shù)據(jù)處理,即提取其中的隱含知識(shí);最后是將得到的可視化結(jié)果輸出,如網(wǎng)絡(luò)地圖、網(wǎng)絡(luò)拓?fù)鋱D等。
網(wǎng)絡(luò)信息的可視化,本質(zhì)上是一種數(shù)據(jù)處理技術(shù),利用該技術(shù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理,得到可視化的信息。網(wǎng)絡(luò)信息的可視化不僅可以直觀地表現(xiàn)出網(wǎng)絡(luò)信息的內(nèi)容,而且可以根據(jù)用戶需求,將復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)以圖形、圖像等直觀形式展現(xiàn)出來(lái)。因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于網(wǎng)絡(luò)信息的可視化處理,可以有效地提高可視化結(jié)果的質(zhì)量與效率。
4. 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息可視化研究
在網(wǎng)絡(luò)環(huán)境下,由于網(wǎng)絡(luò)信息具有海量性、多樣性、復(fù)雜性和動(dòng)態(tài)性等特點(diǎn),致使傳統(tǒng)的信息管理方法無(wú)法有效地對(duì)其進(jìn)行管理和分析,尤其是進(jìn)行有效的可視化管理。而數(shù)據(jù)挖掘技術(shù)可以從大量的網(wǎng)絡(luò)信息資源中挖掘出有用的知識(shí)和模式,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的有效分析,有利于用戶通過(guò)可視化界面獲取有關(guān)知識(shí)或進(jìn)行決策分析。本文采用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘算法對(duì)網(wǎng)絡(luò)信息資源進(jìn)行挖掘,并采用可視化方法對(duì)挖掘出的結(jié)果進(jìn)行分析和展示,以便用戶更好地理解和使用網(wǎng)絡(luò)信息資源[3]。
5. 網(wǎng)絡(luò)信息可視化分析模型的設(shè)計(jì)與實(shí)現(xiàn)
本文從網(wǎng)絡(luò)信息資源的特點(diǎn)出發(fā),以可視化分析為基礎(chǔ),針對(duì)網(wǎng)絡(luò)信息資源中存在的大量重復(fù)、無(wú)序、模糊等問(wèn)題,利用數(shù)據(jù)挖掘技術(shù)從大量網(wǎng)絡(luò)信息資源中挖掘出有用的知識(shí)和模式,并根據(jù)用戶的需要進(jìn)行網(wǎng)絡(luò)信息可視化分析。
網(wǎng)絡(luò)信息可視化模型以網(wǎng)絡(luò)信息資源為數(shù)據(jù)源,以網(wǎng)絡(luò)信息資源可視化分析為目標(biāo),構(gòu)建一個(gè)多層次、多角度的可視化模型。模型由數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)應(yīng)用層和可視化實(shí)現(xiàn)四個(gè)部分組成。該模型的工作流程如圖1所示。
5.1 數(shù)據(jù)采集層
數(shù)據(jù)采集層的主要功能是從網(wǎng)絡(luò)中采集到需要的數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。網(wǎng)絡(luò)信息資源是指由計(jì)算機(jī)技術(shù)、通信技術(shù)和信息處理技術(shù)等組成的一個(gè)龐大的網(wǎng)絡(luò)環(huán)境,其主要表現(xiàn)形式是各種形式的信息資源,如文字、圖片、視頻等。對(duì)于這些不同類型的信息資源,需要根據(jù)不同的采集目的、采集方式和數(shù)據(jù)特征等選擇不同的采集手段。數(shù)據(jù)采集層通常使用以下兩種方式來(lái)實(shí)現(xiàn)數(shù)據(jù)采集:一是人工采集,即由相關(guān)人員對(duì)網(wǎng)絡(luò)信息資源進(jìn)行人工抽取,并將抽取到的數(shù)據(jù)存入數(shù)據(jù)庫(kù)中。這種方式比較簡(jiǎn)單,但人工抽取時(shí)不能保證所抽取到的所有數(shù)據(jù)都是完整的,而且在處理過(guò)程中會(huì)出現(xiàn)一些錯(cuò)誤和疏漏,另外,人工抽取出來(lái)的數(shù)據(jù)通常不具備可挖掘性。二是自動(dòng)化采集,即利用網(wǎng)絡(luò)信息資源庫(kù)中已經(jīng)存在的信息資源來(lái)代替人工從網(wǎng)絡(luò)中提取數(shù)據(jù)。
5.2 數(shù)據(jù)處理層
數(shù)據(jù)處理層是基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息資源可視化分析模型的核心部分,接收數(shù)據(jù)采集層傳來(lái)的數(shù)據(jù),對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理。在該模型中,預(yù)處理過(guò)程主要是對(duì)網(wǎng)絡(luò)信息資源進(jìn)行分類、過(guò)濾和去噪處理,以提高網(wǎng)絡(luò)信息資源的質(zhì)量,并為數(shù)據(jù)應(yīng)用層提供了基礎(chǔ)。
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)源,首先需要對(duì)其進(jìn)行清洗,包括數(shù)據(jù)的分割、格式化和去噪等操作。分割是指將原始數(shù)據(jù)根據(jù)一定規(guī)則進(jìn)行切割處理,使其符合一定的格式;格式化是指對(duì)數(shù)據(jù)源進(jìn)行相應(yīng)的格式化處理;去噪則是利用一定技術(shù)方法去除原始數(shù)據(jù)中不需要的信息。其次,需要將其轉(zhuǎn)換為結(jié)構(gòu)化格式,然后再進(jìn)行進(jìn)一步處理。在該模型中采用了SQL Server作為數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng)。在轉(zhuǎn)換過(guò)程中采用了SQL語(yǔ)言來(lái)編寫程序,實(shí)現(xiàn)數(shù)據(jù)庫(kù)與Web服務(wù)器之間的通信。
5.3 數(shù)據(jù)應(yīng)用層
在網(wǎng)絡(luò)信息資源可視化分析模型的數(shù)據(jù)應(yīng)用層,主要實(shí)現(xiàn)用戶通過(guò)Web瀏覽器獲取網(wǎng)絡(luò)信息資源可視化分析結(jié)果的功能。Web瀏覽器是一個(gè)面向?qū)ο蟮某绦颍哂辛己玫慕换バ院涂芍赜眯?。在Web瀏覽器中,用戶只需要輸入簡(jiǎn)單的HTML代碼就可以獲得一個(gè)可視化分析結(jié)果,而且可以方便地對(duì)數(shù)據(jù)進(jìn)行刪除、復(fù)制和粘貼等操作。在Web服務(wù)器端,采用Java語(yǔ)言進(jìn)行開發(fā),采用PHP作為開發(fā)語(yǔ)言。首先,根據(jù)Web瀏覽器中所提供的數(shù)據(jù)訪問(wèn)接口對(duì)數(shù)據(jù)采集層中的數(shù)據(jù)進(jìn)行解析;其次,將解析后的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,并在數(shù)據(jù)庫(kù)中為該數(shù)據(jù)建立一個(gè)索引;最后,對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行解析和處理,并將處理后的結(jié)果以HTML頁(yè)面的形式返回給用戶。通過(guò)Web瀏覽器可以方便地獲取網(wǎng)絡(luò)信息資源可視化分析結(jié)果,并以圖形化界面展示給用戶,從而提高用戶使用網(wǎng)絡(luò)信息資源分析工具的效率。
5.4 可視化實(shí)現(xiàn)
該模型以可視化分析為目的,將數(shù)據(jù)處理層獲取到的數(shù)據(jù)和應(yīng)用層生成的結(jié)果,以圖形化界面進(jìn)行展示,為用戶提供一個(gè)直觀、全面的展示工具。通過(guò)將數(shù)據(jù)挖掘算法得到的結(jié)果以圖形化界面進(jìn)行展示,可以使用戶更清楚地了解數(shù)據(jù)挖掘算法的作用和挖掘結(jié)果對(duì)網(wǎng)絡(luò)信息資源的影響,使用戶對(duì)網(wǎng)絡(luò)信息資源有更深刻和全面的理解。例如,對(duì)于用戶關(guān)心的某一主題,如經(jīng)濟(jì)類、管理類、社會(huì)類等,可以通過(guò)相應(yīng)的圖表對(duì)其進(jìn)行可視化展示。這些圖表包括不同層次和不同角度的可視化形式。比如在經(jīng)濟(jì)類專題圖中,可以通過(guò)折線圖展示某一年份我國(guó)GDP增長(zhǎng)率與當(dāng)年全國(guó)GDP增長(zhǎng)率的差值;在管理類專題圖中,可以通過(guò)柱狀圖展示某一省份GDP增長(zhǎng)率與當(dāng)年該省份GDP增長(zhǎng)率的差值;在社會(huì)類專題圖中,可以通過(guò)折線圖展示某一年份我國(guó)就業(yè)率與當(dāng)年該行業(yè)就業(yè)率之間的差值等。通過(guò)不同形式和角度進(jìn)行可視化展示,不僅能更好地傳達(dá)信息,還能讓用戶更清楚地了解數(shù)據(jù)間的關(guān)系。
結(jié)語(yǔ)
本文分析了數(shù)據(jù)挖掘技術(shù)、網(wǎng)絡(luò)信息可視化技術(shù)以及網(wǎng)絡(luò)信息可視化模型設(shè)計(jì)方法,在此基礎(chǔ)上,對(duì)基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息可視化模型進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn)。該模型利用數(shù)據(jù)挖掘技術(shù)從大量網(wǎng)絡(luò)信息資源中挖掘出有用的知識(shí)和模式,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的有效分析,有利于用戶通過(guò)可視化界面獲取有關(guān)知識(shí)或進(jìn)行決策分析。由于該模型還存在一些不足之處,如對(duì)數(shù)據(jù)挖掘的有效性判斷等問(wèn)題,因此還需要進(jìn)一步完善和改進(jìn)。
參考文獻(xiàn):
[1]楊紅艷.基于數(shù)據(jù)挖掘的能源互聯(lián)網(wǎng)數(shù)據(jù)安全風(fēng)險(xiǎn)檢測(cè)方法[J].信息技術(shù)與信息化,2023(7):145-148.
[2]翟海華,周圣鎧,湯答,等.我國(guó)互聯(lián)網(wǎng)診療管理現(xiàn)狀與啟示[J].中國(guó)動(dòng)物檢疫,2023,40(10):43-46.
[3]劉澤霖.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息安全技術(shù)研究[J].信息與電腦(理論版), 2023,35(12):210-212.
作者簡(jiǎn)介:王曉靜,碩士研究生,副教授,研究方向:網(wǎng)絡(luò)安全和信息化建設(shè);陳玉英,碩士研究生,工程師,研究方向:文化和旅游行業(yè)信息化建設(shè)。
基金項(xiàng)目:呼和浩特市科技計(jì)劃項(xiàng)目(重大科技專項(xiàng))——數(shù)據(jù)中臺(tái)及數(shù)字信息服務(wù)平臺(tái)的研發(fā)與應(yīng)用——基于人工智能技術(shù)的海量時(shí)序數(shù)據(jù)中臺(tái)研究與應(yīng)用開發(fā)(編號(hào):2022-高重-2)。