王泓正
摘 要:在互聯(lián)網(wǎng)高速發(fā)展的今天,產(chǎn)生的數(shù)據(jù)量也與日俱增,伴隨大數(shù)據(jù)而來的是數(shù)據(jù)處理問題。數(shù)據(jù)挖掘旨在通過對數(shù)據(jù)的研究,通過一系列算法來充分挖掘隱藏信息,使數(shù)據(jù)的價值最大化。目前,數(shù)據(jù)挖掘在商業(yè)領(lǐng)域已經(jīng)得到廣泛應(yīng)用。機器學(xué)習(xí),是數(shù)據(jù)挖掘最為核心,也是應(yīng)用最為廣泛的數(shù)據(jù)處理方法。本文通過研究機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用,總結(jié)目前在數(shù)據(jù)挖掘領(lǐng)域較為活躍的幾種機器學(xué)習(xí)算法,并對未來的發(fā)展趨勢以及可能出現(xiàn)的問題進行了展望。
關(guān)鍵詞:數(shù)據(jù)挖掘;機器學(xué)習(xí);大數(shù)據(jù)
中圖分類號:TP311 文獻標志碼:A
0 前言
隨著Web2.0時代的到來,互聯(lián)網(wǎng)數(shù)據(jù)量激增,衍生了各種數(shù)據(jù)相關(guān)的方向,其中數(shù)據(jù)挖掘是數(shù)據(jù)處理方向的新生學(xué)科。通過對數(shù)據(jù)隱藏信息的研究,挖掘大量數(shù)據(jù)背后的潛在價值,這些已經(jīng)在商業(yè)應(yīng)用中占有了相當(dāng)重要的位置。傳統(tǒng)的數(shù)據(jù)挖掘中多應(yīng)用統(tǒng)計學(xué)方法,但是在大數(shù)據(jù)量面前,單純地使用傳統(tǒng)統(tǒng)計學(xué)方法略顯不足。機器學(xué)習(xí)算法是一種能夠從數(shù)據(jù)中學(xué)習(xí)的算法。它產(chǎn)生于20世紀,那時互聯(lián)網(wǎng)還不夠發(fā)達,導(dǎo)致網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)量還很有限,另一方面,硬件限制了數(shù)據(jù)的收集存儲。如今,這些限制都已被大大削弱,機器學(xué)習(xí)作為一門以數(shù)據(jù)驅(qū)動的學(xué)科,成為數(shù)據(jù)挖掘中最為重要的方法。
本文注重機器學(xué)習(xí)在數(shù)據(jù)挖掘中算法的應(yīng)用部分,首先介紹數(shù)據(jù)挖掘的基本需求及過程,然后對常用在數(shù)據(jù)挖掘中的機器學(xué)習(xí)算法進行分類、研究、總結(jié),最后在對比和綜述的基礎(chǔ)上,提出了未來的發(fā)展可能面臨的問題以及潛在的研究方向。
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘作為一門全新的研究領(lǐng)域,代替了傳統(tǒng)的數(shù)據(jù)分析,以新興的方法和理論挖掘數(shù)據(jù)的潛在價值。數(shù)據(jù)挖掘主要是經(jīng)由以下幾個步驟來處理數(shù)據(jù)。(1)選取或構(gòu)造數(shù)據(jù)集,為了方便后續(xù)的處理,關(guān)于數(shù)據(jù)集的格式、內(nèi)容等的界定條件需要慎重選取。(2)數(shù)據(jù)預(yù)處理工作。這一步是為了統(tǒng)一數(shù)據(jù)集內(nèi)部數(shù)據(jù)的格式和內(nèi)容,具體包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)離散化等,其中特征工程是數(shù)據(jù)處理中最為重要的部分。(3)數(shù)據(jù)建模和特征篩選階段。綜合考慮需求和模型等因素,通過模型的反饋,在調(diào)整參數(shù)的同時,對比選取相對最優(yōu)特征集。這個階段的具體任務(wù)根據(jù)選取的模型不同而形式各異。(4)形成結(jié)論。模型在實際測試數(shù)據(jù)中表現(xiàn)出的泛化能力,往往能定向的反饋出有價值的信息,此時需要數(shù)據(jù)工程師根據(jù)結(jié)果分析并得出結(jié)論,甚至可能會重新開始一輪挖掘過程的迭代。
2 機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用
機器學(xué)習(xí)是人工智能的一個重要分支,其自動化獲取的特性,幫助人們在紛繁復(fù)雜的數(shù)據(jù)中高效的提煉出潛在的價值。本文根據(jù)經(jīng)典的機器學(xué)習(xí)分類,從監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)兩個方面,來介紹幾大典型的機器學(xué)習(xí)算法。
2.1 監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是指能夠?qū)θ我饨o定的輸入,能給出相應(yīng)的輸出模型的統(tǒng)稱。監(jiān)督學(xué)習(xí)是極其重要的統(tǒng)計學(xué)習(xí)分支,也是統(tǒng)計學(xué)習(xí)中內(nèi)容最豐富,應(yīng)用最廣泛的部分。
(1)樸素貝葉斯分類器
樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設(shè)的一種分類方法。
貝葉斯定理,是關(guān)于條件和邊緣概率分布的轉(zhuǎn)換公式。在模型中用來將先驗概率計算轉(zhuǎn)化為后驗條件概率,也因此貝葉斯模型被稱為生成模型,即模型的目的在于求得定義在輸入和輸出空間上的聯(lián)合概率分布,進而得到極大化的后驗概率。貝葉斯模型的數(shù)學(xué)表達式如下:
其中P(Xi)和P(A|Xi)由先驗分布直接計算得出。實際上同,P(A|Xi)中的估計參數(shù)是指數(shù)級別的,假設(shè)Xi可能取值有Si個,Y可能取值有K個,那么參數(shù)個數(shù)為。想要同時估計出如此巨量的參數(shù),幾乎是不可能的,而且很難保證參數(shù)的全局最優(yōu)性甚至很難保證局部最優(yōu),如此一來,參數(shù)的估計和預(yù)期效果不成正比。樸素貝葉斯法對上述出現(xiàn)的問題給出了一個較強的假設(shè):用于分類的特征在類確定的條件下都是條件獨立的。這個條件獨立性大大簡化了參數(shù)的數(shù)量和估計的計算量,但有時會犧牲一定的分類準確率。
在上述兩個理論的基礎(chǔ)上,樸素貝葉斯的算法過程如下。對于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨立假設(shè)學(xué)習(xí)輸入和輸出的聯(lián)合概率分布,然后基于此模型對于給定的輸入X,利用貝葉斯定理求出后驗概率最大的輸出Y。
(2)決策樹
決策樹模型是一種描述對實例進行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點和有向邊組成。其中,內(nèi)部節(jié)點表示劃分特征,葉結(jié)點表示一個類。
決策樹的學(xué)習(xí)過程中,最為核心的步驟是特征選擇。對于給定的損失函數(shù),在決策樹的假設(shè)空間中選出一個最優(yōu)化模型是個NP完全問題,所以現(xiàn)實中決策樹學(xué)習(xí)算法通常采用啟發(fā)式。即每次遞歸的選擇一個最優(yōu)屬性,由此分割數(shù)據(jù),構(gòu)建子樹。這里的最優(yōu)屬性選擇就是特征選擇過程,通常采用比較信息增益的策略。信息增益是指信息熵的差或信息熵之比,信息熵是從某一個特定的角度描述數(shù)據(jù)混亂程度的量。信息熵的計算公式如下:
其中H(X)代表樣本集合X的信息熵,Ai代表屬性A中第i個取值的先驗概率。由上述理論的基礎(chǔ),給出決策樹算法的過程。針對每個樣本集合,依次按每個屬性取值劃分集合,取使信息熵減少最多或增益比最大的屬性來劃分下一級葉節(jié)點。在每個集合中迭代以上步驟,直至子集合的熵為0或到達某一閾值,分類結(jié)束。決策樹聚類算法尤其適合多樣本情況下的離散屬性值數(shù)據(jù)處理,但在屬性分類較多的樣本集中,需要追加剪枝的算法來優(yōu)化模型。
(3)提升方法
提升方法基于這樣一種思想:對于一個復(fù)雜任務(wù)來說,將多個專家的判斷進行適當(dāng)?shù)木C合所得出的判斷,要比其中任何一個專家單獨的判斷好。這里的專家即指如上所述的決策樹等弱分類器。具體來說,算法有這樣兩個關(guān)鍵的步驟。
其一是樣本權(quán)值調(diào)整。初始為每個樣本設(shè)置相等的初值,在一次弱分類器學(xué)習(xí)之后,將分類錯誤的樣本點權(quán)值增大。算法認為,分類錯誤的數(shù)據(jù)是因為樣本本身并沒有被分類器完全學(xué)習(xí),所以需要增加權(quán)重來引起分類器的重視,進而向著正確的分類結(jié)果靠近。這就是樣本權(quán)值調(diào)整。第二個是弱分類器權(quán)值的調(diào)整。算法整體是對多個弱分類器的加權(quán),在每一次弱分類器執(zhí)行完畢之后,算法除了調(diào)整樣本權(quán)重以外,還通過交叉驗證的方法對當(dāng)前的弱分類器進行測試,以其損失函數(shù)和已有的弱分類器之間損失函數(shù)的大小差距來調(diào)整權(quán)值。通過上述兩個關(guān)鍵步驟的理論介紹,給出提升方法的步驟。對于給定的數(shù)據(jù)集,確定樣本權(quán)重和初始弱分類器權(quán)重,然后通過弱分類器的一次分類,調(diào)整樣本權(quán)值和分類器權(quán)重,完成一次迭代。算法迭代至給定的輪次或損失函數(shù)降低至目標水平時結(jié)束。
提升方法結(jié)合了傳統(tǒng)的弱分類器,通過一系列結(jié)合方法將數(shù)據(jù)和分類器的誤差降到最小。與強化思想的不同結(jié)合最大化了模型的決策能力,且都表現(xiàn)出了優(yōu)異的性能,在各種競賽和商業(yè)方面有著廣泛的應(yīng)用。
2.2 無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)是指算法學(xué)習(xí)的環(huán)境為缺失標簽的數(shù)據(jù)集。從概率學(xué)的角度來說,數(shù)據(jù)缺乏足夠的先驗知識,因此難以利用標注來擬合輸入和輸出之間的聯(lián)合概率模型。
最為常用的監(jiān)督學(xué)習(xí)方法為K-Means算法。這是一種利用樣本點在特征空間中的距離分布進行多次迭代實現(xiàn)自動標注樣本類別的算法。算法中涉及距離公式的使用:(公式),其中j為1時稱為曼哈頓距離,j為2時稱為歐幾里得距離。以二維空間為例,歐式距離即兩點之間的直線距離,而曼哈頓距離為兩點之間在與坐標軸垂直方向上的距離之和。通常根據(jù)數(shù)據(jù)集的特點由數(shù)據(jù)工程師選擇合適的計算公式,必要時j可以取3或以上的值。由上述理論基礎(chǔ),給出K-Means的算法計算過程。對于給定的數(shù)據(jù)集,確定距離計算公式和初值K。首先根據(jù)樣本的特征空間隨機給定K個初值坐標分別作為類中心點,計算樣本點到每個類中心店的距離,針對每個樣本點,按照其與類中心點的距離排序,將其劃分至距離最近的類中心點所屬類中,取每個類中所有坐標的均值作為新的類中心點坐標。至此完成一次迭代,算法重復(fù)迭代至每個類中的樣本點不再發(fā)生變化時結(jié)束。
在實際應(yīng)用中,無監(jiān)督學(xué)習(xí)從數(shù)據(jù)的某一角度試圖去概括數(shù)據(jù)整體特征。所以對于單一的聚類算法來說,無論從數(shù)據(jù)的特征維度還是樣本數(shù)量維度都很難直接給出定性的結(jié)論,僅為數(shù)據(jù)分析提供一定的參考意義。
結(jié)語
本文從機器學(xué)習(xí)在數(shù)據(jù)挖掘中的算法分類、機器學(xué)習(xí)的優(yōu)勢分類等方面探討了機器學(xué)習(xí)在數(shù)據(jù)挖掘中點典型應(yīng)用。但是目前由于傳統(tǒng)機器學(xué)習(xí)本身建立在模型本身的函數(shù)假設(shè)之上,效果存在瓶頸。神經(jīng)網(wǎng)絡(luò)作為機器學(xué)習(xí)算法的一種,又稱為深度學(xué)習(xí),在計算資源和數(shù)據(jù)量的支撐下,通常能比傳統(tǒng)機器學(xué)習(xí)算法表現(xiàn)出更加優(yōu)異的效果,目前廣泛應(yīng)用于自然語言數(shù)據(jù)處理和圖像數(shù)據(jù)處理中。但是對電腦性能的要求和消耗更加巨大,不過相信隨著芯片集成度以摩爾定律的幾何速度增長的,電腦性能也會進一步提升,深度學(xué)習(xí)會打破這個限制,結(jié)合數(shù)據(jù)挖掘和各個其他方面的應(yīng)用,更好的應(yīng)用于實踐。
參考文獻
[1]張紹成,孫時光,曲洋,等.大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究[J].遼寧大學(xué)學(xué)報(自然科學(xué)版),2017,44(1):15-17.
[2]黃林軍,張勇,郭冰榕.機器學(xué)習(xí)技術(shù)在數(shù)據(jù)挖掘中的商業(yè)應(yīng)用[J].邏輯學(xué)研究,2005,25(6):145-148.
[3]陳小燕.機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015(20):11-14.
[4]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[5]李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[6]楊善林.機器學(xué)習(xí)與智能決策支持系統(tǒng)[M].北京:科學(xué)出版社,2004.
[7]李慶中,苑春法,黃錦輝.基于小規(guī)模標注語料的機器學(xué)習(xí)方法研究[J].計算機應(yīng)用,2004,24(2):56-58.
作者家庭住址:山東省濟寧市任城區(qū)李營街道匯翠園B區(qū)。