• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      線性回歸方法在數(shù)據(jù)挖掘中的應用和改進

      2012-01-07 09:15:04邵鴻翔
      統(tǒng)計與決策 2012年14期
      關鍵詞:斷點回歸方程線性

      邵鴻翔

      (洛陽理工學院 工程實訓中心,河南 洛陽 471023)

      0 引言

      線性回歸是一種古老類型的技術統(tǒng)計,是重要的也是最有用的挖掘工具之一。線性回歸能夠使挖掘者找到數(shù)據(jù)中最有價值和最深入的發(fā)現(xiàn),同時,也很容易解釋在被發(fā)現(xiàn)的關系上發(fā)生了什么。

      本質上,線性回歸是一種探索式、驗證性的方式,尋找穿過狀態(tài)空間的單獨一條直線以便使這條直線盡可能地靠近空間中的所有點。當狀態(tài)空間多于二維時,它不是恰好一條直線。在三維空間中,它是一個面,在多維空間中,它將是二維空間中直線的高緯度模擬。

      圖1 典型的二維線性回歸

      以二維的狀態(tài)空間為例,只要數(shù)據(jù)很好地聚合至少大致接近于一條直線(如圖1所示),就可以對數(shù)據(jù)集合進行解釋和預測。因為直線被調整得離所有的點盡可能近,當通過一個已知變量進行預測時,其預測值在狀態(tài)空間中應當在直線附近。所以,直線上的點所返回的變量值是一個合理值的近似估計值。

      1 傳統(tǒng)線性回歸模型

      1.1 一元線性回歸模型

      在線性回歸中,最簡單的模型就是一元線性回歸。我們對于x取定一組不完全相同的值x1,x2,…,xn,設Y1,Y2,…,Yn分別是在x1,x2,…,xn處對Y的獨立觀察結果,稱(x1,Y1),(x2,Y2),…,(xn,Yn)是一個樣本,對應的樣本值記為(x1,y1),(x2,y2),…,(xn,yn)。其總體模型可以表示為:

      其中,εi是“噪聲”變量,是均值為0,標準差為σ的正態(tài)分布隨機變量。設b0和b1是對β0和β1的估計,由統(tǒng)計學知識不難得出,在xi處對Y的回歸估計為:

      殘差(誤差)為:

      根據(jù)最小二乘法可知,最好的回歸直線是選擇b0和b1使得總的誤差(殘差平方和SSR)最?。?/p>

      由極值原理可解得:

      1.2 可轉化為線性回歸的曲線回歸模型

      在實際中,常會遇到更為復雜的回歸問題,而不僅僅是簡單的一元線性回歸,但在某些情況下,可以通過適當?shù)淖兞哭D換,將其化為一元線性回歸來處理。

      以下是幾種常見的可轉化為一元線性回歸的模型(其中α,β,σ2是與x無關的未知參數(shù)):

      將原式兩邊取對數(shù)得:

      令 lnY=Y′,lnα=a,β=b,x=x′,lnε=ε′,可轉化為一元線性模型:

      (2)Y=αxβ?ε,lnε~N(0,σ2)

      將原式兩邊取對數(shù)得:

      令lnY=Y′,lnα=a,β=b,lnx=x′,lnε=ε′,可轉化為一元線性模型:

      (3)Y=α+βh(x)+ε,ε~N(0,σ2),h(x)是x的已知函數(shù)

      令α=a,β=b,h(x)=x′,可轉化為一元線性模型:

      1.3 多元線性回歸模型

      與一元線性回歸模型類似,假設自變量為x1,x2,…,xp(p>1),對應的樣本值記為 (x11,x21,…,xp1,y1),(x12,x22,…,xp2,y2),…,(x1n,x2n,…,xpn,yn)。則多元線性回歸模型可表示為:

      設b0,b1,…,bp是對β0,β1,…,βp的估計,則在xi處對Y的回歸估計為:

      根據(jù)最小二乘法和極值原理可得:

      式(13)稱為正規(guī)方程組,為了求解的方便,可將式寫成矩陣的形式,為此,引入矩陣:

      于是式(13)可以寫成:

      其中,XT為X的轉置矩陣。假設(XTX)-1存在,可得:

      即可得回歸方程:

      2 線性回歸在數(shù)據(jù)挖掘中的應用

      由于線性回歸是一種常用的統(tǒng)計技術,并且被普遍的適用于許多領域,因此提供線性回歸功能的工具有很多。專業(yè)的統(tǒng)計軟件SPSS和SAS,數(shù)學軟件MATLAB,數(shù)據(jù)庫軟件SQL Server 2008,辦公軟件Excel,都可以用來進行線性回歸的分析。在此,只介紹比較有代表性的Excel和MATLAB。

      2.1 使用Excel進行線性回歸

      Excel是微軟辦公套裝軟件的一個重要的組成部分,它可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策操作,廣泛地應用于管理、統(tǒng)計財經、金融等眾多領域。利用Excel進行線性回歸的優(yōu)點是,方便、快捷、直觀,挖掘者不需具有編程能力。但是,Excel畢竟不是專業(yè)的統(tǒng)計工具,其提供的回歸功能僅局限于二維的狀態(tài)空間,且回歸的結果不夠精確。

      例1表1中的數(shù)據(jù)為研究某一化學反應過程中,溫度x(℃)對產品得率Y(%)的影響,測得數(shù)據(jù)如下:

      表1 溫度與產品得率關系表

      圖2是利用Excel的散點圖功能,將表1中的數(shù)據(jù)顯示為散點圖,設置“趨勢線預測/回歸分析類型為線性”,即得出回歸方程及相關系數(shù)R的平方(R2越趨近于1表明所得回歸方程越能準確的描述狀態(tài)空間)。

      圖2 溫度與產品得率散點圖

      在Excel中,除了簡單的一元線性回歸模型外,還提供了一些其他的一元回歸模型(如指數(shù)、對數(shù)、多項式、冪、移動平均等)。

      例2表2是1957年美國舊轎車價格的調查資料,今以x表示轎車的使用年數(shù),Y表示相應的平均價格。

      表2 轎車使用年數(shù)與平均價格關系表

      觀測散點圖,可知回歸曲線大致呈指數(shù)形式,因此使用Excel中的指數(shù)回歸模型求回歸方程(如圖3)。

      圖3 轎車使用年數(shù)與平均價格散點圖

      Excel中所提供的預測/回歸模型僅限于二維空間,但是通過使用一些插件可以進行多元線性回歸估計,如StatCalc插件。

      例3這里用改編自Chaterjee,Hadi和Price在大金融機構中評價管理人員的表現(xiàn)的例子來例示多元線性回歸的過程。

      表3所示的數(shù)據(jù)源自一個大金融機構的某個部門的一項對辦公室工作人員調查的例子。因變量是對在該機構的管理者領導一個部門的效率的衡量,所有的因變量和自變量都是由25個雇員按照管理者工作的不同方面進行從1到5的分級。作為結果,對于每個變量的最小值為25,最大值為125。這些分級是對在30個部門,每個部門25個雇員的調查問題的回答。分析目的是探索用調查問卷方式預測部門的效率的可行性,從而避免了直接衡量效率的努力。變量是對調查問題的回答,并描述如下:Y,管理的效率衡量;X1,處理雇員的抱怨;X2,不允許有特權;X3,學習新事物的機會;X4,根據(jù)表現(xiàn)提拔;X5,對差的表現(xiàn)過于挑剔;X6,推進更好的工作的進度。

      表3 管理效率衡量分析表

      使用StatCalc此插件計算得出的具體結果如圖10:

      圖4 StaCalc的分析結果

      2.2 使用MATLAB進行線性回歸

      圖5是對例1進行線性回歸所編寫的代碼。從運行結果可以看出,求出的回歸方程為y=-2.7394+0.4830x,與Excel所得回歸方程基本一致。圖6則是此段代碼運行生成的源數(shù)據(jù)的散點圖及回歸曲線。

      圖5 對例1線性回歸的MATLAB代碼

      圖6 MATLAB所得例1的散點圖及回歸曲線

      圖7,是對例2進行回歸所編寫的代碼。這里,先將y取對數(shù),求得lny與x的線性回歸方程后,再還原為y與x的指數(shù)回歸方程。從運行結果可以看出,求出的曲線回歸方程為y=3514.3e-0.2977x,相關系數(shù)R的平方為0.9979,比Excel所得回歸方程更為精確。圖8則是此段代碼運行生成的源數(shù)據(jù)的散點圖及回歸曲線。

      圖7 對例2線性回歸的MATLAB代碼

      圖8 MATLAB所得例2的散點圖及回歸曲線

      圖9,是使用MATALAB對例3中的數(shù)據(jù)進行多元線性回歸的代碼及結果。從運行結果可以看出,所得結果比圖4更加精確。

      圖9 對例3線性回歸的MATLAB代碼

      3 線性回歸算法的改進

      3.1 分段線性回歸

      圖10,是一狀態(tài)空間的散點圖。從該關系圖可以看出,若使用傳統(tǒng)的線性回歸方法,使用一條連線將使得模型表示數(shù)據(jù)的效果較差。但是,如果使用兩條或多條連線,則模型可以更精確地逼近數(shù)據(jù)。此時,回歸方程是一種分段函數(shù)的形式。分段的線性回歸模型包含2個要素——斷點和回歸方程,兩條連線的相交點是斷點,狀態(tài)空間被斷點分割為一個個小的子空間,再依次對每個子空間進行線性回歸。以下是分段線性回歸算法(DLA,Divide Linear Regression)的概要:

      圖10 分段線性回歸

      在此算法中,Examples是按自變量正序整理過的狀態(tài)空間。由上述算法概要不難看出,分段線性回歸算法比普通的線性回歸算法可以更精確的描述狀態(tài)空間,而對斷點的尋找則成為了該算法的關鍵所在,斷點的定義越準確,則該算法對狀態(tài)空間的描述越準確。一種簡單的方法就是尋找局部極值點,因為局部極值點必定為斷點。對于極值點的尋找,則可以采用爬山算法來實現(xiàn)。

      3.2 孤立點

      線性回歸本質上可以避免特化過渡,而與特化程度相關的最主要的問題是孤立點的出現(xiàn)。孤立點,是指數(shù)據(jù)點距離回歸平面很遠,并且在取值范圍的極值附近的點,對結果的影響不均衡。舉個例子,有這樣一組數(shù)列:1,2,3,4,5,6,7,8,9,1000。該數(shù)列的取值范圍是從1到1000,然而該數(shù)列中的數(shù)據(jù)集中在其中1%的范圍內。數(shù)列中的1000很顯然是一個孤立點,因為它孤立于數(shù)列中所有的其他值,但并不能說它是誤差或錯誤數(shù)據(jù),它甚至可能是完全正確的數(shù)據(jù)。比如保險索賠,大部分都金額較小,而小部分金額巨大。如果把孤立點一起列入線性回歸的狀態(tài)空間里,則肯定會影響最終回歸的結果。

      對于孤立點的處理,可以考慮兩種方法。一種方法可以稱之為鄰域查找法(NC,Neighborhood-Check),它是通過鄰域的方法來定義孤立點,當一個數(shù)據(jù)點在某個半徑的范圍內沒有其他的數(shù)據(jù)點存在時,可以認為其為孤立點。這種方法,直觀、簡單,但是開銷會很大,而且只能找出孤立點,而不能對其進行處理。

      另一種方法可以稱之為等頻率分箱法(ESB,Equivalent Sub-Boxes),它是將狀態(tài)空間在觀測值的取值范圍內進行等頻率的分割成若干箱。以上文中的數(shù)列為例,假設將其分為100箱,則可分割為1~10、11~20、…、991~1000,100個等范圍的狀態(tài)空間,那么只有第一個箱子有9個數(shù)據(jù)、最后一個箱子有1個數(shù)據(jù),其他箱子都是空的。這時再進行線性回歸,只需要面對一組包含9個值的狀態(tài)空間,和一個孤立點。但是,此數(shù)列若為7、8、9、10、11、12、13、14、15、1000,那么會有3個箱子有數(shù)據(jù),且1~10和11~20的箱子中的數(shù)據(jù)線性相關度是很高的。因此,為了避免上述情況的出現(xiàn),在分箱之后還應再將線性相關的箱進行合并。以下是該算法的概要:

      在此算法中,Examples為狀態(tài)空間,k為需要進行分箱的個數(shù),num是判定箱中的數(shù)據(jù)是否為孤立點的依據(jù)。

      4 小結

      線性回歸只是發(fā)現(xiàn)線性關系,其對于數(shù)據(jù)的異常變動(比如孤立點)很敏感,盡管也有算法的健壯版本可用,但總體說來它們對于波動不太敏感。線性回歸問題對于輸入變量的共線問題消化不良,不能處理缺失數(shù)據(jù)。此外,線性回歸只是產生解釋,對于數(shù)據(jù)集結構的很小變化可能高度敏感,而對于增量式的交互作用的敏感性卻很強。

      雖然,線性回歸有許多局限性,但是不可否認的是,線性回歸快速并且容易,并且一旦得到對于結果的解釋,會產生許多有用的信息。盡管大多數(shù)真實世界環(huán)境有明顯的非線性本質,但一個挖掘者在業(yè)務數(shù)據(jù)中所遇到的大多數(shù)關系最后是線性的、部分線性的、半線性的,或者是可線性化的。因此,在數(shù)據(jù)挖掘領域,線性回歸始終占有著重要地位。

      [1]DORIAN PYLE.業(yè)務建模與數(shù)據(jù)挖掘[M].楊冬青,馬秀莉,唐世渭,譯.北京:機械工業(yè)出版社,2005.

      [2]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2005.

      [3]BERNARD W.TAYLOR III.數(shù)據(jù)、模型與決策[M].侯文華,譯.北京:機械工業(yè)出版社,2008.

      [4]華德宏,劉 剛,蘭家隆.一種改進的一元線性回歸算法[J].現(xiàn)代電子技術,2006,7:63-68.

      [5]PART-ENANDER,E.,Sjoberg,A..MATLAB 5手冊[M].王艷清等譯.北京:機械工業(yè)出版社,2000.

      猜你喜歡
      斷點回歸方程線性
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      采用直線回歸方程預測桑癭蚊防治適期
      線性回歸方程的求解與應用
      線性回歸方程要點導學
      一類無限可能問題的解法
      走進回歸分析,讓回歸方程不再是你高考的絆腳石
      二階線性微分方程的解法
      主導電回路發(fā)生斷點故障判斷方法探討
      TKScope仿真調試Cortex-M3內核的高級手段
      具有θ型C-Z核的多線性奇異積分的有界性
      东山县| 友谊县| 抚顺县| 崇信县| 深圳市| 广安市| 兴隆县| 义马市| 玉溪市| 尼勒克县| 昌邑市| 册亨县| 师宗县| 宕昌县| 成安县| 布拖县| 平罗县| 云梦县| 宜城市| 平阴县| 乐平市| 洛浦县| 抚州市| 格尔木市| 英超| 南京市| 广东省| 淳安县| 米易县| 东乡县| 六盘水市| 偃师市| 得荣县| 彰化市| 磐石市| 马山县| 永寿县| 衡阳市| 绥中县| 高阳县| 绵竹市|