• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多元統(tǒng)計方法是否需要對變量進行加權(quán)
      ——以判別分析和聚類分析為例

      2021-03-03 02:35:12李子寧
      內(nèi)蒙古統(tǒng)計 2021年6期
      關(guān)鍵詞:判別函數(shù)鳶尾花歐氏

      ○ 文/ 李子寧

      文章以判別分析和聚類分析為例,在理論上證明了對變量加權(quán)是否會對結(jié)果產(chǎn)生影響,并進行了實證分析。研究結(jié)果表明,是否對變量加權(quán)不影響判別分析結(jié)果,但影響聚類分析結(jié)果。這一結(jié)論可進一步拓展,即凡是以馬氏距離為基礎的方法不需要對變量進行加權(quán),而以歐氏距離為基礎的方法如果對變量進行加權(quán)可以提高分析結(jié)果的準確度。

      機器學習是一門新興的交叉學科,它既包括一些傳統(tǒng)的多元統(tǒng)計方法,如聚類分析、判別分析、邏輯回歸、因子分析等,也包括一些人工智能方法,如K近鄰法、決策樹、人工神經(jīng)網(wǎng)絡、支持向量機等。在這些方法中,也許K近鄰法是最簡單的方法,它的基本思想是以K個最近鄰居在因變量取值的平均數(shù)作為新樣品的預測值。它又派生出基于變量重要性的加權(quán)K近鄰和基于觀測重要性的加權(quán)K近鄰。由于其它統(tǒng)計方法都不涉及鄰居,因此基于觀測重要性的加權(quán)方法不具有外推性。那么基于變量重要性的加權(quán)方法是否具有外推性呢?或者說,我們常用的判別分析、聚類分析等需不需要對變量進行加權(quán)呢?文章將對此問題進行理論和實證分析。

      一、基于變量重要性加權(quán)的基本原理:以K近鄰法為例

      (一)變量重要性的確定方法

      變量的重要性可以從三個方面進行考察,一是從變量本身考察,二是從解釋變量與被預測變量的相關(guān)性角度考察,三是從預測誤差角度考察[1]。

      從變量自身來考察,變異程度最大的變量重要性更強,如果一個變量是常數(shù),沒有什么變異,則這個變量對預測是沒有意義的。對數(shù)值型變量來說,衡量變異性的常用指標是方差、標準差和變異系數(shù),由于方差和標準差受計量單位的影響,在衡量變量重要性時并不適用,通常采用變異系數(shù),即變異系數(shù)越大的變量越重要。對于類別變量,如果各個類別值的取值比例相當,則這個變量越重要;如果某個類別的取值比例越大,則這個變量越不重要。以二分類變量為例,如果兩個類別的取值比例均為0.5,此時這個類別變量的方差取最大值0.25;而如果一個類別所占比例為0.9,另一個類別所占比例為0.1,此時這個類別變量的方差僅為0.09。

      從解釋變量與被預測變量的相關(guān)性角度來考察,又可以分成三種情況。第一種情況是解釋變量與被預測變量均為類別變量。衡量類別變量間相關(guān)與否的統(tǒng)計量為卡方統(tǒng)計量,卡方統(tǒng)計量越大,類別變量間的相關(guān)程度就越大,因此卡方越大的變量或p值越小的變量越重要。第二種情況是解釋變量與被解釋變量均為連續(xù)變量。連續(xù)變量相關(guān)與否的統(tǒng)計量為相關(guān)系數(shù),相關(guān)系數(shù)越大,變量間的相關(guān)性越強;當然前提是相關(guān)系數(shù)必須是顯著的,這可以通過t統(tǒng)計量進行檢驗。第三種情況是解釋變量和被預測變量分屬不同類別,具體包括兩類:解釋變量是類別變量,被預測變量是連續(xù)變量;解釋變量是連續(xù)變量,被預測變量是類別變量。無論是兩種情況中的哪一種,均采用方差分析的方法,即計算F統(tǒng)計量,F(xiàn)統(tǒng)計量越大,表明變量之間相關(guān)性越強。

      從預測誤差角度來考察,通常與建模策略有關(guān)。建模策略有兩種,一是 “從一般到具體”建模策略,二是 “從具體到一般”建模策略。若采用“從一般到具體”建模策略,首先將全部變量加入模型,然后分別去掉一個解釋變量,建立K個K-1元模型,在這K個K-1元模型中,哪個模型的預測誤差最大,說明該模型所不包含的那個變量重要性越大。若采用“從具體到一般”建模策略,則可直接比較K個一元模型,哪個模型的擬合程度越好(即誤差越?。凑f明哪個變量的重要性越大。一般認為,“從一般到具體”建模策略更好,因為“從具體到一般”建模策略可能會造成遺漏變量問題。

      (二)變量權(quán)重的確定方法

      根據(jù)變量重要性的確定方法,令第i個解釋變量的權(quán)重為wi,它是解釋變量重要性的函數(shù),可定義為:

      其中FIi為解釋變量重要性,從機器學習角度又被稱為特征重要性,它以輸入變量對預測誤差的影響定義。假定有K個輸入變量,x1,x2,…,xk,剔除第i個變量,計算輸入變量為x1,x2,…,xi-1,xi+1,…,xk下,K近鄰法的錯判概率,記作ei。若第i個變量對預測有重要作用,剔除該變量后的預測誤差將比較大。因此第i個變量的重要性定義為因此不論從哪個角度來考察,變量越重要,在計算距離時其權(quán)重越大。

      由于K近鄰法采用歐氏距離測度近鄰觀測,則加權(quán)的歐氏距離為:

      (三)使用K近鄰法進行預測

      對于二分類預測問題,如果有超過半數(shù)的近鄰類別值為1,則預測值為1類,否則預測值為0類。對于多分類預測問題,預測值為眾數(shù)。對于回歸預測問題,預測值是K個近鄰在被預測變量上的平均值。

      二、判別分析是否需要對變量進行加權(quán)

      判別分析是指在已知研究對象分成若干組的情況下,判斷新的樣品應歸屬的組別。在判別分析中,最直觀的判別方法就是距離判別,即計算新樣品到各組的距離,新樣品距離哪組最近,就被判為哪一組。

      (一)兩組距離判別

      設組π1和π2的均值分別為μ1和μ2,協(xié)方差矩陣分別為∑1和∑2,x是一個新樣品,現(xiàn)判斷它來自哪一組。

      若不對變量進行加權(quán),計算x到兩個組的距離d2(x,π1)和d2(x,π2),并按如下的判別規(guī)則進行判斷[1]:

      1. ∑1=∑2=∑時的判別。若對變量進行加權(quán),設wi為第i個判別變量的權(quán)重,則加權(quán)后的判別向量為x*=wx,均值向量為wμ,方差協(xié)方差矩陣為w∑w′。

      經(jīng)過加權(quán)的平方馬氏距離為:

      由 于d(x*,π1)=d(x,π1) ,d(x*,π2)=d(x,π2)。所以在兩組距離判別且假定方差陣相等時,對變量加權(quán)并不影響判別分析的結(jié)果。

      因此在兩組距離判別且方差陣不相等時,對變量加權(quán)也不影響判別分析的結(jié)果。

      (二)多組距離判別

      設有k個組π1,π2,…,πk,它們的均值分別為μ1μ2,…,μk,協(xié)方差矩陣分別是∑1,∑2,…,∑k,x到總體πi的加權(quán)平方馬氏距離為:

      由于d2(x*,πi) =d2(x,πi) ,所以在多組距離判別下,對變量加權(quán)與否不影響判別結(jié)果。

      三、聚類分析是否需要對變量進行加權(quán)

      聚類分析是一種無監(jiān)督學習方法,沒有目標變量,因此聚類分析中一般不采用馬氏距離,而采用歐氏距離。但歐氏距離與各變量的量綱有關(guān),沒有考慮變量間的相關(guān)性,也沒有考慮各變量方差的不同[3]。因此對變量是否加權(quán)會影響聚類結(jié)果。

      當不對變量進行加權(quán)時,兩個樣品之間的平方歐氏距離為:

      當對變量進行加權(quán)時,兩個樣品之間的平方歐氏距離為:

      通常d2(x,y) ≠d(x*,y*),因此兩種情況下的聚類結(jié)果一般不會相同。

      因此,變量標準化之后的平方歐氏距離等價于標準化前的平方馬氏距離。所以在進行聚類分析時,如果選擇對變量進行標準化,是否對變量進行加權(quán)對聚類分析結(jié)果沒有影響。

      四、實證分析

      (一)對加權(quán)和不加權(quán)情況下判別分析的驗證

      文章以費希爾判別分析的經(jīng)典例子來驗證對變量加權(quán)與否的影響。費希爾于1936年發(fā)表的鳶尾花數(shù)據(jù)包括3種鳶尾花:剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花,每種各抽取一個容量為50的樣本,測量了花萼長、花萼寬、花瓣長、花瓣寬4個變量。

      無論采用何種判別方法,都可能會產(chǎn)生誤判。誤判比例的計算通常有四種方法,一是直接用樣本計算判別函數(shù),同時計算誤判比例,這種方法給出的誤判比例通常較低;二是旁置法,即拿出樣本的一部分(通常為70%)作為訓練樣本集構(gòu)造判別函數(shù),剩余的部分作為測試樣本集計算誤判比例;三是十折交叉驗證法,即將樣本分成十部分,每次取其中的九部分作為訓練樣本集構(gòu)造判別函數(shù),剩余的一部分作為測試樣本集計算誤判比例,十折交叉驗證要構(gòu)造十個判別函數(shù);四是刀切法,即每次拿出一個觀測作為測試樣本,其余的觀測作為訓練樣本集構(gòu)造判別函數(shù)。刀切法避免了樣本數(shù)據(jù)在構(gòu)造判別函數(shù)的同時又被用來對該判別函數(shù)進行評價,也幾乎避免了構(gòu)造判別函數(shù)時樣本信息的損失。

      文章采用第一種和第四種計算誤判比例的方法。其中表1為未對變量進行加權(quán)的距離判別結(jié)果,表2為按預測誤差加權(quán)的距離判別結(jié)果。

      表1 未對變量加權(quán)的距離判別結(jié)果

      表2 對變量加權(quán)的距離判別結(jié)果

      表1和表2中,無論直接采用判別函數(shù)驗證,還是采用刀切法驗證,是否對變量進行加權(quán)的結(jié)果完全相同。

      (二)對加權(quán)和不加權(quán)情況下聚類分析的驗證

      我們?nèi)匀皇褂觅M希爾的數(shù)據(jù),其中編號1-50屬剛毛鳶尾花,編號51-100屬變色鳶尾花,編號101-150屬弗吉尼亞鳶尾花。聚類變量為花萼長、花萼寬、花瓣長、花瓣寬4個變量,聚類方法采用組間連接法,聚類數(shù)目為3類。當未對變量進行加權(quán)時,編號1-50仍被分到第一組,編號51-100仍被分到第2組,但編 號100-150中只 有110、112、118、120、122、127、130、131、135、138、140、144被分到第三組,其余38個被錯分到了第二組。當對變量進行加權(quán)時,前50個觀測仍被分到第一組,編號51-99被分到第二組,但編號100被分到了第三組;編號101-150中只有14個被錯誤分到了第二組。因此對變量進行加權(quán)的聚類分析,其聚類效果好于不對變量進行加權(quán)的聚類分析。另外,在變量加權(quán)和不加權(quán)兩種情況下,如果在聚類分析時選擇對變量進行標準化,則結(jié)果完全相同。

      五、結(jié)論與拓展

      從理論和實證分析來看,凡是采用馬氏距離的方法,都不需要對變量進行加權(quán)。凡是采用歐氏距離的方法,如果不對變量進行標準化,則是否加權(quán)影響分析結(jié)果;若對變量進行標準化,歐氏距離等同于馬氏距離,是否加權(quán)對分析結(jié)果沒影響。

      這一結(jié)論可以進一步拓展。比如典型判別,其實質(zhì)是二階段判別,第一階段降維,第二階段采用降維后的主成分進行距離判別。因此典型判別本質(zhì)上仍是距離判別,由于距離判別采用馬氏距離,是否對變量進行加權(quán)并不影響典型判別的結(jié)果。對于K近鄰法,如果采用馬氏距離,則不需要對變量進行加權(quán),也就沒有所謂的基于變量加權(quán)的K近鄰法;但目前統(tǒng)計軟件都是基于歐氏距離或街區(qū)距離,且默認對變量進行標準化,此時對變量是否加權(quán)不影響結(jié)果;如果不對變量進行標準化,則基于變量加權(quán)的K近鄰法和普通的K近鄰法在分析結(jié)果上是有差異的。

      對于因子分析和主成分分析,其基本原理是對方差矩陣或相關(guān)矩陣進行分解。統(tǒng)計軟件一般默認基于相關(guān)矩陣進行分析[4],此時是否對變量進行加權(quán)不影響結(jié)果;但若基于協(xié)方差矩陣進行分析,是否對變量加權(quán)會影響分析結(jié)果。

      猜你喜歡
      判別函數(shù)鳶尾花歐氏
      鳶尾花觀察日記
      天天愛科學(2023年3期)2023-02-23 03:43:22
      鳶尾花
      游樂設施事故與危險量化判別函數(shù)的構(gòu)建
      鳶尾花開
      童話世界(2018年35期)2018-12-03 05:23:14
      探究上市公司財務預警的數(shù)學模型
      我有鳶尾花一樣的靈魂(外一首)
      散文詩(2017年18期)2018-01-31 02:43:33
      基于Fisher判別函數(shù)的酒店員工離職預警研究
      基于多維歐氏空間相似度的激光點云分割方法
      麗江“思奔記”(上)
      探索地理(2013年5期)2014-01-09 06:40:44
      基于判別函數(shù)算法的圖像分類器設計
      梅河口市| 长宁区| 湘乡市| 玛多县| 茂名市| 安图县| 晋州市| 镇宁| 隆尧县| 泽州县| 延吉市| 淮北市| 高安市| 济南市| 安丘市| 永清县| 汉沽区| 庆城县| 体育| 定结县| 垫江县| 定南县| 杭锦后旗| 甘德县| 凌海市| 江达县| 遂平县| 儋州市| 玉林市| 简阳市| 涟水县| 塘沽区| 霍邱县| 永昌县| 福鼎市| 台中市| 新蔡县| 铜陵市| 乳山市| 宿松县| 崇仁县|