任仲晟
(福建師范大學(xué)數(shù)學(xué)與信息學(xué)院,福建福州 350007)
隨著時間的推移,國內(nèi)的社會經(jīng)濟和科學(xué)技術(shù)都實現(xiàn)了快速的發(fā)展和推進,其中最具代表性的就是計算機應(yīng)用技術(shù)發(fā)展水平的提升,但與此同時,這也使得各行各業(yè)在實際的發(fā)展過程中產(chǎn)生了大量的數(shù)據(jù)和信息,也就是所謂的“數(shù)據(jù)爆炸”現(xiàn)象。當(dāng)代社會發(fā)展過程中,如何將各行各業(yè)的海量數(shù)據(jù)進行儲存和分析,并且使其轉(zhuǎn)換成為信息和技術(shù),是目前主要需要解決的問題,由此數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,并且開始在各行各業(yè)進行運用,包含生物醫(yī)學(xué)、零售、醫(yī)學(xué)信息系統(tǒng)、移動通信等行業(yè),并且隨著基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)的應(yīng)用,還取得了很好的作用和效果。
20世紀(jì)90年代,數(shù)據(jù)倉庫的概念第一次出現(xiàn),具體定義為:數(shù)據(jù)倉庫就是面向主題的、集成的、與時間相關(guān)的、穩(wěn)定的數(shù)據(jù)集合。數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)庫具有比較大的不同,其能夠服務(wù)于高層的決策,數(shù)據(jù)倉庫不僅可以采集、組織、儲存大量的信息員的數(shù)據(jù)[1],還可以針對這些歷史數(shù)據(jù)進行加工和變化,由此得到相關(guān)的信息和數(shù)據(jù)就可以用于進行決策的分析,這可以使得決策者所作出的決策更具有科學(xué)合理性。另外,數(shù)據(jù)倉庫還是一種面向主題的數(shù)據(jù)庫,簡單來說,就是可以按照一定的主題進行數(shù)據(jù)的組織,并且按照決策和分析的具體需求進行數(shù)據(jù)信息的處理。并且數(shù)據(jù)倉庫還是一種包含歷史數(shù)據(jù)和信息的數(shù)據(jù)庫,這也代表著,數(shù)據(jù)倉庫不僅能夠用于進行檢索,還能夠?qū)φ麄€組織的運行狀態(tài)和未來的發(fā)展趨勢進行分析處理,數(shù)據(jù)倉庫的基本架構(gòu)中,數(shù)據(jù)源既可以是特定的數(shù)據(jù)文件[2],也可以是其他的數(shù)據(jù)源,可以為一系列的普通、傳統(tǒng)業(yè)務(wù)數(shù)據(jù)庫進行服務(wù)。
數(shù)據(jù)的采集和處理,顧名思義就是針對需要的數(shù)據(jù)進行采集,從各個數(shù)據(jù)源中抽取相關(guān)的數(shù)據(jù),后續(xù)經(jīng)過轉(zhuǎn)換、集成操作之后,載入到數(shù)據(jù)倉庫當(dāng)中。
數(shù)據(jù)倉庫樹要儲存兩種類型的數(shù)據(jù),一類是元數(shù)據(jù),這是數(shù)據(jù)倉庫的基本構(gòu)成單元,可以進行數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)倉庫所產(chǎn)生的變化。另一類數(shù)據(jù)就是實視圖,可以為決策制定人員進行服務(wù),進而使得做出來的決策變得更加科學(xué)合理和有效。
數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)庫之間存在很大的差別,其已經(jīng)脫離了軟件產(chǎn)品的范疇,能夠提供一種綜合性的解決方案,其中功能強大的分析工具可以針對數(shù)據(jù)進行深度處理。在對數(shù)據(jù)倉庫進行運用的過程中,必須要注重數(shù)據(jù)的一致性、完整性和準(zhǔn)確性,這樣才能提供高水平的數(shù)據(jù)和服務(wù)[3],因此在對數(shù)據(jù)倉庫進行運用的過程中需要注意到,為了使得數(shù)據(jù)倉庫質(zhì)量方面的問題得到有效的解決,可以在元數(shù)據(jù)庫中融入質(zhì)量維度的質(zhì)量模型,實現(xiàn)系統(tǒng)化的測量,提高數(shù)據(jù)質(zhì)量,這也是數(shù)據(jù)倉庫最為重要的一個發(fā)展方向。
之所以進行數(shù)據(jù)倉庫的構(gòu)建,其最重要的一個目標(biāo)就是從海量的數(shù)據(jù)和信息當(dāng)中抽取相關(guān)的規(guī)律性的數(shù)據(jù)和知識,對相關(guān)的決策和管理活動進行服務(wù)和支持。但是在數(shù)據(jù)倉庫當(dāng)中,各類的數(shù)據(jù)的分散性非常強,想要實現(xiàn)以上最重要的目標(biāo),就需要相應(yīng)的工具,從海量的、分散性的數(shù)據(jù)中提取具有價值的信息和數(shù)據(jù),由此,基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)應(yīng)運而生?;跀?shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)首次在第十一屆國際人工智能學(xué)術(shù)會議上被提出,這是一種跨學(xué)科、跨領(lǐng)域的產(chǎn)物,既包含數(shù)據(jù)庫技術(shù)和人工智能技術(shù),還包含數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析等學(xué)科[4],這也注定了,基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)可以在很多領(lǐng)域內(nèi)進行運用,具有良好的應(yīng)用前景,包含規(guī)則推理、人工神經(jīng)網(wǎng)絡(luò)和決策樹等。數(shù)據(jù)挖掘技術(shù)是目前人工智能領(lǐng)域和數(shù)據(jù)倉庫領(lǐng)域內(nèi)研究的重點、熱點問題,同時這也是一種決策支持過程,減少決策的風(fēng)險,其中知識發(fā)現(xiàn)過程主要具有以下三個階段,分別是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和結(jié)果的表達和解釋,數(shù)據(jù)挖掘技術(shù)可以實現(xiàn)用戶與知識庫之間的交互。數(shù)據(jù)倉庫具有明顯的面向主題、數(shù)據(jù)集成和與時間相關(guān)的特點,而數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)倉庫最終目標(biāo)得以實現(xiàn)的有力工具[5]。
數(shù)據(jù)挖掘工具需要依據(jù)具體的目標(biāo)需求,從數(shù)據(jù)倉庫當(dāng)中選取相對應(yīng)的數(shù)據(jù)集合,在這一過程中還需要對其進行兩方面的檢查,其一是數(shù)據(jù)一致性的檢查,其二是數(shù)據(jù)完整性的檢查,這是基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)實現(xiàn)其價值和作用的必要前提之一。
知識庫主要可以在數(shù)據(jù)挖掘和知識評價方面進行運用,利用知識庫中提供的相關(guān)數(shù)據(jù)和知識,可以指導(dǎo)數(shù)據(jù)挖掘過程中的一系列操作,還可以對挖掘得到的結(jié)果數(shù)據(jù)的興趣度進行評價,需要注意到,這些數(shù)據(jù)結(jié)果既可以是概念,也可以是相關(guān)的規(guī)則或者是模式。
這里所指的“挖掘”,其涵蓋的內(nèi)容是比較多的,需要針對數(shù)據(jù)倉庫當(dāng)中提取到的相關(guān)數(shù)據(jù)和信息進行一系列的分析和處理,包含數(shù)據(jù)的聚類、估值、分類、預(yù)測、關(guān)聯(lián)和描述等;其中聚類,就是將相似的數(shù)據(jù)實現(xiàn)聚類,主要目的在于描述數(shù)據(jù)的共同特征;估值就是對未知連續(xù)變量的輸出進行處理;分類,顧名思義,主要是針對離散變量的輸出進行描述,包含有線性回歸分類、決策樹分類、神經(jīng)網(wǎng)絡(luò)分類等;預(yù)測,依據(jù)估值或者是分類得到的模型,在未來位置變量的評估過程中進行運用;關(guān)聯(lián),挖掘數(shù)據(jù)或者是特征之間的內(nèi)在聯(lián)系。
描述,主要對數(shù)據(jù)挖掘的具體結(jié)果進行表述。
以興趣度作為具體的衡量標(biāo)準(zhǔn),對數(shù)據(jù)倉庫的最終目標(biāo)具有價值的知識進行查找和選擇。
從本質(zhì)角度上來說,基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)其實就是針對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多層次、多角度的加工和處理過程,以此方式使得相關(guān)的數(shù)據(jù)和信息實現(xiàn)決策價值。通過對數(shù)據(jù)倉庫中大量歷史數(shù)據(jù)的更高層次的抽象,不僅能夠反映出數(shù)據(jù)之間的內(nèi)在聯(lián)系和特性,在這一過程中還可以獲得用于決策和分析的有用信息和知識。
基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù),可以在數(shù)據(jù)倉庫的基礎(chǔ)之上實現(xiàn)深層次的數(shù)據(jù)分析進程,其不僅能夠進行數(shù)據(jù)的分析,同時還能夠揭示大量數(shù)據(jù)內(nèi)在的、潛在的數(shù)據(jù)和信息,進而為用戶提供良好的決策支撐。自從基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)出現(xiàn)之后,很多大型公司、事業(yè)單位都開始構(gòu)建屬于自身的數(shù)據(jù)倉庫,并且依據(jù)自身實際發(fā)展過程中產(chǎn)生的歷史數(shù)據(jù)分析工作,得到了很多的實用性信息和數(shù)據(jù)[6],對企業(yè)、事業(yè)單位發(fā)展過程中的決策給予了強大的決策支持,使得企業(yè)或者是事業(yè)單位在發(fā)展過程中避免了很多風(fēng)險因素,這一方面可以使得企業(yè)或者是事業(yè)單位的發(fā)展得到保障,另一方面可以降低企業(yè)蒙受的損失,對于企業(yè)和事業(yè)單位的良性發(fā)展非常重要。
就目前來看,實際的基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)過程主要包含以下幾個步驟和環(huán)節(jié):(1)了解行業(yè)所處的背景,熟悉相對應(yīng)的基本數(shù)據(jù)情況;(2)確定數(shù)據(jù)挖掘的具體目標(biāo);(3)選取數(shù)據(jù)倉庫中對應(yīng)的數(shù)據(jù)集合或者是數(shù)據(jù)源;(4)選取合適的數(shù)據(jù)挖掘技術(shù)算法;(5)進行現(xiàn)實的數(shù)據(jù)挖掘;(6)所取得的具體知識結(jié)果進行評價和輸出。
就目前來看,基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域主要具有以下幾個方面,包含市場分析、生產(chǎn)過程優(yōu)化、股票分析、風(fēng)險分析等。譬如,針對企業(yè)中的人力資源管理的具體目標(biāo)需求,構(gòu)建自身的人力資源數(shù)據(jù)倉庫,依據(jù)選擇樹類分類器,完成數(shù)據(jù)挖掘,從而實現(xiàn)單位或者是企業(yè)的人力資源管理優(yōu)化。需要注意到,在基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,數(shù)據(jù)挖掘是系統(tǒng)的核心,對于數(shù)據(jù)倉庫的歷史數(shù)據(jù)決策價值會產(chǎn)生直接的影響,因此需要給予其高度的重視[7]。除此之外,基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)還可以在通信技術(shù)方面進行應(yīng)用,可以幫助不同的運營商進行業(yè)務(wù)工作的運作,包含利用多維分析電信數(shù)據(jù),可以不斷提升數(shù)據(jù)資源的利用效率,從而更加深入地了解用戶行為,進而推進不同的電信業(yè)務(wù)的推廣和應(yīng)用,從而便可以實現(xiàn)經(jīng)濟利益的最大化,從宏觀角度上來說,基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)的現(xiàn)實應(yīng)用對于國內(nèi)企業(yè)和國民經(jīng)濟的發(fā)展都是非常重要的。
綜上所述,就是目前為止針對基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)的相關(guān)研究和分析了,從文中闡述內(nèi)容中不難看出,目前國內(nèi)處于一個重要的大數(shù)據(jù)時代,對于基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)的需求具有比較大的提升,因此后續(xù)發(fā)展過程中需要重視基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用,為科學(xué)決策提供相對應(yīng)的支持,后續(xù)還需要針對基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)進行深入的研究和開發(fā),不斷提升這項技術(shù)的水平。