李 揚(yáng) 謝邦昌 彭茜茜
[摘要]現(xiàn)今的統(tǒng)計(jì)學(xué)習(xí)雖然已經(jīng)有了重大的發(fā)展,但是若想把事情完全交給機(jī)器完成卻不能得到理想結(jié)果,仍需要加入大量的人類智慧。現(xiàn)代統(tǒng)計(jì)學(xué)習(xí)理論是研究利用經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的一般理論,屬于計(jì)算機(jī)科學(xué)、模式識(shí)別和應(yīng)用統(tǒng)計(jì)學(xué)相交叉與結(jié)合的范疇。在科學(xué)技術(shù)飛速發(fā)展的今天,統(tǒng)計(jì)學(xué)習(xí)理論廣泛吸收和融合相關(guān)學(xué)科的新理論,不斷開發(fā)應(yīng)用新技術(shù)和新方法,深化和豐富了統(tǒng)計(jì)學(xué)傳統(tǒng)領(lǐng)域的理論與方法,并拓展了新的領(lǐng)域。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)習(xí) 試驗(yàn) 方法
中圖分類號(hào):C812文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-5954(2009)07-058-03
一、引言
統(tǒng)計(jì)的發(fā)展可以通過其所解決的問題展現(xiàn):解決的問題不斷從簡單到復(fù)雜,從具體到抽象,這就要求其具有更強(qiáng)的計(jì)算能力,不斷的從狹義到廣義演變。傳統(tǒng)統(tǒng)計(jì)主要來源于具體的實(shí)驗(yàn),依賴于經(jīng)典的參數(shù)估計(jì)方法,而現(xiàn)代統(tǒng)計(jì)學(xué)習(xí)理論是研究利用經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的一種一般理論,屬于計(jì)算機(jī)科學(xué)、模式識(shí)別和應(yīng)用統(tǒng)計(jì)學(xué)相交叉與結(jié)合的范疇。由于較系統(tǒng)地考慮了有限樣本的情況,統(tǒng)計(jì)學(xué)習(xí)理論與傳統(tǒng)統(tǒng)計(jì)學(xué)理論相比有更好的實(shí)用性。統(tǒng)計(jì)學(xué)習(xí)(Statistics learning)的起源是一系列著名的實(shí)驗(yàn)(如Turing Test等),隨著信息技術(shù)的不斷發(fā)展與信息量不斷增大的進(jìn)程,統(tǒng)計(jì)學(xué)習(xí)(Statistical Learning)理論也在逐步完善以適應(yīng)新的需求。
現(xiàn)今的統(tǒng)計(jì)學(xué)習(xí)雖然已經(jīng)有了重大的發(fā)展,但是若想把事情完全交給機(jī)器完成卻不能得到理想結(jié)果,仍需要加入大量的人類智慧,例如:尋找事物特征、參數(shù)選取等等。不過類神經(jīng)網(wǎng)絡(luò)、SVM等技術(shù)的革新幫助解決了很多現(xiàn)實(shí)中復(fù)雜的問題,可以應(yīng)用在諸多模式識(shí)別和回歸估計(jì)問題中,并已經(jīng)在很多實(shí)際問題中取得了很好的應(yīng)用成果。隨著統(tǒng)計(jì)學(xué)習(xí)發(fā)展,我們對(duì)統(tǒng)計(jì)有越來越高的期望,期望其可以發(fā)揮人類智慧的作用,計(jì)算能力再進(jìn)一步提高,解決更加復(fù)雜的現(xiàn)實(shí)問題。
二、統(tǒng)計(jì)學(xué)習(xí)的過去和現(xiàn)在
Alan Turing于1950年提出了一個(gè)著名的實(shí)驗(yàn)——圖靈測試(“Turing Test”):將一個(gè)具有智慧的機(jī)器和一個(gè)人類,放在一個(gè)布幕里面。人分別與機(jī)器和人類交談,如果分不出哪一個(gè)是機(jī)器,哪一個(gè)是人類的話,那么機(jī)器就具有了人工智能。由此揭開了人工智能(Artificial Intellegence)研究的序幕。在研究中,AI被劃分成Weak AI和Strong AI。Weak AI并不是功能較弱,而是指某個(gè)系統(tǒng)只要能表現(xiàn)出人類的智力就好,不管底層系統(tǒng)是否真的有人類的智力。Strong AI則是希望建構(gòu)出來的系統(tǒng)即使不是用細(xì)胞做的,他的架構(gòu)也卻是和人類相當(dāng),真的具有人類智慧。Weak AI可以由機(jī)器學(xué)習(xí)(Machine Learning)來代表。只要給定問題的范圍,訓(xùn)練的資料(training data),就可以由數(shù)據(jù)中選擇特征(Feature selection),然后建構(gòu)數(shù)據(jù)的模型(Model selection),最后把這個(gè)模型當(dāng)成學(xué)習(xí)的成果,拿來做預(yù)測(Prediction)。
迄今為止,關(guān)于機(jī)器學(xué)習(xí)還沒有一種被共同接受的理論框架,其實(shí)現(xiàn)方法大致可以分為三種 :第一種是經(jīng)典的(參數(shù))統(tǒng)計(jì)估計(jì)方法。包括模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等在內(nèi);第二種方法是經(jīng)驗(yàn)非線性方法,如人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN);第三種方法是統(tǒng)計(jì)學(xué)習(xí)理論( Statistical Learning Theory或 SLT)。
(一)經(jīng)典的(參數(shù))統(tǒng)計(jì)估計(jì)方法
經(jīng)典的(參數(shù))統(tǒng)計(jì)估計(jì)方法包括模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等在內(nèi),現(xiàn)有機(jī)器學(xué)習(xí)方法共同的重要理論基礎(chǔ)之一是統(tǒng)計(jì)學(xué)。參數(shù)方法正是基于傳統(tǒng)統(tǒng)計(jì)學(xué),在這種方法中,參數(shù)的相關(guān)形式是已知的,訓(xùn)練樣本用來估計(jì)參數(shù)的值。
但是隨著電腦解決問題的廣泛應(yīng)用,研究人員試圖研究復(fù)雜問題時(shí),發(fā)現(xiàn)了參數(shù)體系的缺點(diǎn)。
(1)大規(guī)模多變量問題導(dǎo)致了“維數(shù)災(zāi)難”現(xiàn)象的發(fā)生。研究人員觀察到,增大可考慮因子的數(shù)量就需要成指數(shù)的增加計(jì)算量。因此,在含有幾十個(gè)甚至是幾百個(gè)變量的實(shí)際多維問題中定義一個(gè)相當(dāng)小的函數(shù)集,也是一種不切實(shí)際的想法。
(2)透過實(shí)際數(shù)據(jù)分析,實(shí)際問題的統(tǒng)計(jì)成分并不能僅用經(jīng)典的統(tǒng)計(jì)分布函數(shù)來描述。實(shí)際分布經(jīng)常是有差別的,為了建構(gòu)有效的算法,我們必須考慮這種差別。
(3)即使是最簡單的密度估計(jì)問題,最大似然方法也不見得是最好的。
總之,這種方法有很大的局限性。首先,它需要已知樣本分布形式,這需要花費(fèi)很大代價(jià),還有,傳統(tǒng)統(tǒng)計(jì)學(xué)研究的是樣本數(shù)目趨于無窮大時(shí)的漸近理論,現(xiàn)有學(xué)習(xí)方法也多是基于此假設(shè)。但在實(shí)際問題中,樣本數(shù)往往是有限的,因此一些理論上很優(yōu)秀的學(xué)習(xí)方法實(shí)際中表現(xiàn)卻可能不盡如人意。
(二)經(jīng)驗(yàn)非線性方法
經(jīng)驗(yàn)非線性方法,如人工神經(jīng)網(wǎng)絡(luò)(ANN)。這種方法利用已知樣本建立非線性模型,克服了傳統(tǒng)參數(shù)估計(jì)方法的困難。但是,這種方法缺乏一種統(tǒng)一的數(shù)學(xué)理論。
以人工神經(jīng)網(wǎng)絡(luò)為例進(jìn)行簡單的介紹。人工神經(jīng)網(wǎng)絡(luò)(ANN),一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)和自適應(yīng)的能力,可以通過預(yù)先提供的一批相互對(duì)應(yīng)的輸入——輸出數(shù)據(jù),分析掌握兩者之間潛在的規(guī)律,最終根據(jù)這些規(guī)律,用新的輸入數(shù)據(jù)來推算輸出結(jié)果,這種學(xué)習(xí)分析的過程被稱為“訓(xùn)練”。人工神經(jīng)網(wǎng)絡(luò)具有非線性、非局限性、非常定性和非凸性的特點(diǎn),它是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術(shù)完全不同的機(jī)理,克服了傳統(tǒng)的基于邏輯符號(hào)的人工智能在處理直覺、非結(jié)構(gòu)化信息方面的缺陷,具有自適應(yīng)、自組織和實(shí)時(shí)學(xué)習(xí)的特點(diǎn)。但是,由于在長期發(fā)展過程中,由于人工神經(jīng)網(wǎng)絡(luò)在理論上缺乏實(shí)質(zhì)性進(jìn)展,所以新的方法,統(tǒng)計(jì)學(xué)習(xí)理論開始受到越來越廣泛的重視。
(三)統(tǒng)計(jì)學(xué)習(xí)理論
統(tǒng)計(jì)學(xué)習(xí)理論( Statistical Learning Theory或 SLT)是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論,是傳統(tǒng)統(tǒng)計(jì)學(xué)的重要發(fā)展和補(bǔ)充,為研究有限樣本情況下機(jī)器學(xué)習(xí)的理論和方法提供了理論框架,其核心思想是通過控制學(xué)習(xí)機(jī)器的容量實(shí)現(xiàn)對(duì)推廣能力的控制。該理論針對(duì)小樣本統(tǒng)計(jì)問題建立了一套新的理論體系,在這種體系下的統(tǒng)計(jì)推理規(guī)則不僅考慮了對(duì)漸近性能的要求,而且追求在現(xiàn)有有限信息的條件下得到最優(yōu)結(jié)果。V.Vapnik等人從六、七十年代開始致力于統(tǒng)計(jì)學(xué)習(xí)理論方面的研究,到九十年代中期,隨著其理論的不斷發(fā)展和成熟,其受到了越來越廣泛的重視。
在提到統(tǒng)計(jì)學(xué)習(xí)理論時(shí)不得不說的一個(gè)核心概念是VC維。它是描述函數(shù)集或?qū)W習(xí)機(jī)器的復(fù)雜性或者說是學(xué)習(xí)能力(Capacity of the machine)的一個(gè)重要指標(biāo),在此概念基礎(chǔ)上發(fā)展出了一系列關(guān)于統(tǒng)計(jì)學(xué)習(xí)的一致性(Consistency)、收斂速度、推廣性能(Generalization Performance)等的重要結(jié)論。
在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上,一種新的通用學(xué)習(xí)方法應(yīng)運(yùn)而生,支持向量機(jī)(Support Vector Machine 或SVM)。支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(Generalization Ability)。支持向量機(jī)方法有以下的幾個(gè)主要優(yōu)點(diǎn)有:
(1)它是專門針對(duì)有限樣本情況的,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無窮大時(shí)的最優(yōu)值。
(2)算法最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點(diǎn),解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題。
(3)算法將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維的特征空間(Feature Space),在高維空間中構(gòu)造線性判別函數(shù)來實(shí)現(xiàn)原空間中的非線性判別函數(shù),特殊性質(zhì)能保證機(jī)器有較好的推廣能力,同時(shí)它巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無關(guān)。
在SVM 方法中,只要定義不同的內(nèi)積函數(shù),就可以實(shí)現(xiàn)多項(xiàng)式逼近、貝葉斯分類器、徑向基函數(shù)(Radial Basic Function 或RBF)方法、多層感知器網(wǎng)絡(luò)等許多現(xiàn)有學(xué)習(xí)算法。目前,SVM算法在模式識(shí)別、回歸估計(jì)、概率密度函數(shù)估計(jì)等方面都有應(yīng)用。例如,在模式識(shí)別方面,對(duì)于手寫數(shù)字識(shí)別、語音識(shí)別、人臉圖像識(shí)別、文章分類等問題,SVM 算法在精度上已經(jīng)超過傳統(tǒng)的學(xué)習(xí)算法或與之不相上下。
由于 SVM方法較好的理論基礎(chǔ)和它在一些領(lǐng)域的應(yīng)用中表現(xiàn)出來的優(yōu)秀的推廣性能,近年來許多關(guān)于 SVM方法的研究,包括算法本身的改進(jìn)和算法的實(shí)際應(yīng)用,都陸續(xù)提出。盡管SVM算法的性能在許多實(shí)際問題的應(yīng)用中得到了驗(yàn)證,但是該算法在計(jì)算上存在著一些問題,包括訓(xùn)練算法速度慢、算法復(fù)雜而難以實(shí)現(xiàn)以及檢測階段運(yùn)算量大等等。
傳統(tǒng)的利用標(biāo)準(zhǔn)二次型優(yōu)化技術(shù)解決對(duì)偶問題的方法可能是訓(xùn)練算法慢的主要原因。首先,SVM方法需要計(jì)算和存儲(chǔ)核函數(shù)矩陣,當(dāng)樣本點(diǎn)數(shù)目較大時(shí),需要很大的內(nèi)存,例如,當(dāng)樣本點(diǎn)數(shù)目超過 4000時(shí),存儲(chǔ)核函數(shù)矩陣需要多達(dá)128兆內(nèi)存;其次,SVM在二次型尋優(yōu)過程中要進(jìn)行大量的矩陣運(yùn)算,多數(shù)情況下,尋優(yōu)算法是占用算法時(shí)間的主要部分。
SVM方法的訓(xùn)練運(yùn)算速度是限制它的應(yīng)用的主要方面,近年來人們針對(duì)方法本身的特點(diǎn)提出了許多算法來解決對(duì)偶尋優(yōu)問題。大多數(shù)算法的一個(gè)共同的思想就是循環(huán)反復(fù)運(yùn)算:將原問題分解成為若干子問題,按照某種反復(fù)運(yùn)算策略,通過反復(fù)求解子問題,最終使結(jié)果收斂到原問題的最優(yōu)解。根據(jù)子問題的劃分和反復(fù)運(yùn)算策略的不同,又可以大致分為兩類。
第一類是所謂的“塊算法”(Chunking algorithm)?!皦K算法”基于這樣一個(gè)事實(shí),即去掉 Lagrange乘子等于零的訓(xùn)練樣本不會(huì)影響原問題的解。對(duì)于給定的訓(xùn)練樣本集,如果其中的支持向量是已知的,尋優(yōu)算法就可以排除非支持向量,只需對(duì)支持向量計(jì)算權(quán)值(即 Lagrange乘子)即可。
當(dāng)支持向量的數(shù)目遠(yuǎn)遠(yuǎn)小于訓(xùn)練樣本數(shù)目時(shí),“塊算法”顯然能夠大大提高運(yùn)算速度。然而,如果支持向量的數(shù)目本身就比較多,隨著算法反復(fù)運(yùn)算次數(shù)的增多,工作樣本集也會(huì)越來越大,算法依舊會(huì)變得十分復(fù)雜。因此第二類方法把問題分解成為固定樣本數(shù)的子問題:工作樣本集的大小固定在算法速度可以容忍的限度內(nèi),反復(fù)運(yùn)算過程中只是將剩余樣本中部分“情況最糟的樣本”與工作樣本集中的樣本進(jìn)行等量交換,即使支持向量的個(gè)數(shù)超過工作樣本集的大小,也不改變工作樣本集的規(guī)模,而只對(duì)支持向量中的一部分進(jìn)行優(yōu)化。
毫無疑問,固定工作樣本集的算法解決了占用內(nèi)存的問題,而且限制了子問題規(guī)模的無限增大;但是,從這個(gè)意義上來說,固定工作樣本集的算法把解標(biāo)準(zhǔn)二次型的尋優(yōu)問題的時(shí)間轉(zhuǎn)嫁到循環(huán)反復(fù)運(yùn)算上了,它的反復(fù)運(yùn)算次數(shù)一般會(huì)比“塊算法”多。尤其是 SMO,如果沒有一個(gè)好的啟發(fā)式反復(fù)運(yùn)算策略,該算法就是一種盲目爬山法。
基于此,我們提出一種算法思想,希望能夠綜合兩類算法的特點(diǎn)。我們?nèi)耘f從最終目標(biāo)中抽取子問題,借用某種反復(fù)運(yùn)算策略使算法收斂。關(guān)鍵的,我們希望一方面子問題規(guī)模不會(huì)太小,以免反復(fù)運(yùn)算次數(shù)太多,另一方面能借鑒 SMO的思想,利用二次問題的特點(diǎn),找到子問題的解析解法,或者是近似解,從而不必對(duì)每一個(gè)子問題都調(diào)用尋優(yōu)算法。
此外,由于 SVM方法的性能與實(shí)現(xiàn)的上的巨大差異,我們在求解子問題時(shí)不一定要得到精確解(解的精確度可以由反復(fù)運(yùn)算來保證),甚至還可以考慮對(duì)最終目標(biāo)求取近似解。這樣,盡管結(jié)果的性能會(huì)受到影響,但是如果能夠大幅度提高運(yùn)算速度,它仍不失為一種好方法。
三、統(tǒng)計(jì)學(xué)習(xí)的將來
統(tǒng)計(jì)學(xué)習(xí)在現(xiàn)當(dāng)代社會(huì)已經(jīng)有了飛速發(fā)展,但其還不能完全滿足人類的需求。在其進(jìn)一步的發(fā)展過程中,仍需要在機(jī)器學(xué)習(xí)問題、語言意識(shí)的學(xué)習(xí)、人機(jī)界面等方面進(jìn)行改進(jìn)。在完成一項(xiàng)任務(wù)時(shí),人類總是希望機(jī)器能夠自主獨(dú)立的完成,自己介入的越少越好。這就需要加強(qiáng)機(jī)器的文字意識(shí),而不是將所有的信息轉(zhuǎn)化成數(shù)字之后機(jī)器才能識(shí)別。如果人類比較高層次的認(rèn)知活動(dòng),如語言產(chǎn)生意義、尋找類似物品和抽象化的能力,其背后的神經(jīng)機(jī)制若能夠被發(fā)現(xiàn),那么我們也可以了解大腦思想的表達(dá)方式,人腦和計(jì)算機(jī)之間可以互相轉(zhuǎn)換數(shù)據(jù),這時(shí)候人腦的能力和計(jì)算機(jī)的計(jì)算能力,就可以互補(bǔ),讓我們計(jì)算帕斯卡爾三角形速度更快而沒有負(fù)擔(dān)。計(jì)算機(jī)也可以運(yùn)用人類抽象化的能力,更正確地尋找“類似”的東西,并且是以更快的速度達(dá)成抽象化才能解決的問題。
四、結(jié)語
傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)為統(tǒng)計(jì)學(xué)習(xí)的發(fā)展提供了堅(jiān)實(shí)的理論基礎(chǔ),現(xiàn)代統(tǒng)計(jì)理論無論是在假設(shè)還是方法上都有了很大的突破和進(jìn)展。在科學(xué)技術(shù)飛速發(fā)展的今天,統(tǒng)計(jì)學(xué)習(xí)理論廣泛吸收和融合相關(guān)學(xué)科的新理論,不斷開發(fā)應(yīng)用新技術(shù)和新方法,深化和豐富了統(tǒng)計(jì)學(xué)傳統(tǒng)領(lǐng)域的理論與方法,并拓展了新的領(lǐng)域。相信,統(tǒng)計(jì)學(xué)習(xí)必將會(huì)應(yīng)用于越來越廣泛的領(lǐng)域,解決迫在眉睫的問題,提供更大的便利。
■ 名詞解釋
[1] 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型,主要依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。
[2] 支持向量機(jī)
支持向量機(jī)是數(shù)據(jù)挖掘中的一個(gè)新方法,能非常成功地處理回歸問題(時(shí)間序列分析)和模式識(shí)別(分類問題、判別分析)等諸多問題,并可推廣于預(yù)測和綜合評(píng)價(jià)等領(lǐng)域。
[3] 特征空間
特征空間是相同特征值的特征向量的集合。
[4] 徑向基函數(shù)網(wǎng)絡(luò)
徑向基函數(shù)網(wǎng)絡(luò)是一種向前反饋網(wǎng)絡(luò),可以處理不規(guī)則分布的高維數(shù)據(jù)。
[5]多層感知器網(wǎng)絡(luò)
多層感知器網(wǎng)絡(luò)是具有多個(gè)中間層的網(wǎng)絡(luò)系統(tǒng)。
■ 參考文獻(xiàn)
[1] Berry Michael J. A., Linoff Gordon S. “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management” John Wiley & Sons, Inc., 1997
[2] Guape, F.H.; Owrang, M.M. “Database Mining Discovering New Knowledge and Cooperative Advantage” Information Systems Management, 1995,12, pp.26-31
[3] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, “The KDD Process for Extracting Useful Knowledge from Volumes of Data” Communications of the ACM, 1996, Vol 39., No.11, pp.27-34
[4] Chung, H. Michael; Gray, Paul; Guest Editors “Special Section: Data Mining” Journal of Management Information Systems, 1999, Vol. 16, pp.11-16
[5] 謝邦昌、李揚(yáng),數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)狀及未來發(fā)展,統(tǒng)計(jì)與信息論壇,2008(5):94-96