• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      回歸建模的基礎與要領(Ⅲ)
      ——變量狀態(tài)與相互間關系

      2019-01-16 11:41:18胡良平
      四川精神衛(wèi)生 2018年6期
      關鍵詞:共線性因變量數(shù)量

      胡良平

      (1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)

      1 概 述

      回歸分析是研究因變量如何依賴自變量變化而變化的規(guī)律的重要統(tǒng)計分析方法之一,然而,回歸分析的基本要素涉及兩個方面,其一,變量狀態(tài)及相互間關系;其二,樣品(測定變量取值的對象)狀態(tài)及相互間關系。因篇幅所限,本文僅討論前述的“第一個要素”。

      2 變量狀態(tài)

      2.1 因變量狀態(tài)

      一般來說,可將因變量分為四種狀態(tài),即計量的、計數(shù)的、有序的(也被稱為等級的)和定性的;事實上,在實際應用中,還有一種狀態(tài),即“相異性”或“相似性”大小的度量,被稱為“非度量型數(shù)據(jù)”[1]。例如,度量100種汽車彼此兩兩之間的相似程度,可以定義一些“數(shù)字”來表示任何兩輛汽車之間的相似程度,但它們可能僅代表一種“相似程度”上的“順序關系”,并不代表“數(shù)量大小”上的“順序關系”;再比如:現(xiàn)有50種不同風味的菜肴,讓10位鑒賞家品嘗,每位鑒賞家給每種菜肴評一個分,這個“分”就被稱為“偏好得分”。各鑒賞家所評出的“偏好得分”之間是不可比的。顯然,“非度量型變量”不適合用作回歸分析中的“因變量”,但可用于“非度量型多維尺度分析”[1]或“結合分析”[2]之中。

      2.2 自變量狀態(tài)

      自變量狀態(tài)也有“計量的、計數(shù)的、有序的和定性的”四種,但從回歸模型構建與求解的“最初理論和方法”中可隱約體察到:統(tǒng)計學的先驅(qū)者們默認自變量都是“計量的”。不知從何時開始,統(tǒng)計學上接受了“定性的自變量”,并將“二值定性自變量”賦予兩個不等的數(shù)值(通常分別取0與1),而將具有k水平的多值名義變量改造成彼此有一定聯(lián)系的(k-1)個“啞變量”(因為它們都以同一個“水平”為基準)。嚴格地說,這(k-1)個啞變量應當同時進入或剔除回歸模型,因為每一個啞變量都只利用了全部數(shù)據(jù)集中一部分“樣品或觀測”。具體來說,就是基準水平組的樣品和其對比組的樣品。

      3 自變量間相互關系

      3.1 自變量間相互獨立

      經(jīng)典統(tǒng)計學的回歸分析要求:自變量間應相互獨立。然而,在解決實際問題時,存在兩方面的困難:第一,如何方便快捷地證明給定資料中的自變量間是相互獨立的;第二,若基于專業(yè)知識和/或統(tǒng)計學知識,得知某些自變量間并非相互獨立,如何合理處置?

      3.2 自變量間有線性關系

      3.2.1 自變量間有線性關系及共線性診斷

      如何發(fā)現(xiàn)自變量間存在線性關系呢?這在統(tǒng)計學上被稱為“共線性診斷”。很多通用統(tǒng)計軟件都有這方面的功能,例如:SAS軟件的REG過程中,可用“條件數(shù)和方差分量”和/或“方差膨脹因子或容許度”[2]來實現(xiàn)共線性診斷。

      3.2.2 如何消除共線性的影響

      一般來說,當自變量間存在多重共線性時,先通過自變量篩選,可以淘汰出一些自變量,再對保留在回歸模型中的全部自變量進行共線性診斷。若此時自變量間仍存在共線性,可采取以下兩種方法消除共線性的影響:其一,采用主成分回歸分析法,即先對全部自變量進行主成分分析,再以全部主成分變量(它們之間互相獨立)為“新自變量”,創(chuàng)建因變量Y依賴新自變量的回歸模型;其二,直接采用嶺回歸分析法構建多重線性回歸模型。采用前述兩種方法對同一個資料構建多重線性回歸模型,發(fā)現(xiàn)嶺回歸分析優(yōu)于主成分回歸分析。因為主成分回歸分析不能克服某些回歸系數(shù)的正負號違反專業(yè)知識的弊端,而嶺回歸分析很好地解決了這個問題[3-4]。

      3.2.3 自變量間有非線性關系

      到目前為止,在進行多重回歸分析時,建模者很少考慮“自變量間有非線性關系”的問題。由基本常識可知,既然自變量間有“共線性關系”,那就可能存在“共非線性關系”。只是從統(tǒng)計學角度來看這種情況非常難以駕馭,故迄今為止,似乎尚無現(xiàn)成的統(tǒng)計模型能處理此問題。這也足以說明統(tǒng)計學遠未達到盡善盡美的程度。

      4 自變量與因變量間的關系

      4.1 自變量與因變量間無任何數(shù)量關系

      在對資料進行回歸建模之前,人們賦予資料一個“隱含假定”:自變量與因變量間存在數(shù)量聯(lián)系。至于這種聯(lián)系的密切程度是很弱、少許、中等、較強還是很強,取決于不同的自變量及因變量在全部觀測對象上的取值或表現(xiàn),需要借助統(tǒng)計學上的假設檢驗來作出推斷。然而,在實際問題中,確有一些自變量與因變量間沒有任何關系,此時,經(jīng)過假設檢驗或許還能得出:這些自變量對預測因變量的值具有統(tǒng)計學意義!如何才能發(fā)現(xiàn)這種“無中生有”的錯誤結論?

      在SAS/STAT 9.3中有一個“試驗性過程”叫做“ADAPTIVEREG”,它的含義是“適應性回歸分析過程”。該過程的“初衷”是能根據(jù)自變量與因變量的“數(shù)量表現(xiàn)”,靈活且有針對性地度量出各自變量對因變量影響的“重要性”,從而發(fā)現(xiàn)那些與因變量無關的“自變量”。然而,令人失望的是:人為設定一些與因變量無關的自變量,采用前述提及的“ADAPTIVEREG”過程建模,仍然找出了幾個“重要的自變量”。SAS程序和計算結果如下:

      data artificial;

      drop i;

      arrayX{10};

      doi=1 to 400;

      doj=1 to 10;

      X{j}=ranuni(1);

      end;

      Y=40*exp(8*((x1-0.5)**2+(x2-0.5)**2))/

      (exp(8*((x1-0.2)**2+(x2-0.7)**2))+

      exp(8*((x1-0.7)**2+(x2-0.2)**2)))+rannor(1);

      output;

      end;

      run;

      proc corr data=artificial;

      vary;

      withx3-x10;

      run;

      proc adaptivereg data=artificial;

      modely=x3-x10;

      run;

      【SAS程序說明】

      在SAS數(shù)據(jù)步中,創(chuàng)建了10個自變量x1~x10,將它們放入一個數(shù)組“X{ }”中,它們的取值為服從均勻分布的“隨機數(shù)”;創(chuàng)建了一個因變量y,它是“x1”與“x2”的曲線函數(shù),其函數(shù)的表達式見下面的式(1):

      (1)

      共有400個觀測值,即樣本含量為400。也就是說,y僅與“x1”和“x2”有曲線關系,而與“x3~x10”無關。

      在第1個SAS過程步中,進行y與“x3~x10”之間的Pearson相關分析;在第2個SAS過程步中,由“model語句”可知,試圖創(chuàng)建y依賴“x3~x10”的多重線性回歸模型。

      【SAS主要輸出結果】

      Pearson相關系數(shù),N=400 Prob>|r| under H0: Rho=0xyx30.004030.9360x40.079570.1121x50.021070.6744x6-0.001010.9839x7-0.015010.7648x80.063330.2063x90.020170.6876x10-0.031560.5291

      “x3~x10”后面均有兩行計算結果,上行代表“Pearson相關系數(shù)”、下行代表“對應的P值”。以上結果表明,y與“x3~x10”中的任何一個之間的Pearson相關系數(shù)都很小,假設檢驗的結果均無統(tǒng)計學意義,也就是說,y與“x3~x10”之間的任何一個都是互相獨立的。

      變量重要性變量基數(shù)重要性(%)x36100.00x4260.87x7242.66x8116.58

      此結果表明:在8個與因變量無關的自變量中,找出了4個比較重要的自變量,其中,x3與x4對因變量y影響的重要性分別為100.00%與60.87%。顯然,這個結論是錯誤的!若采用SAS/STAT中的“REG過程”并分別借助逐步法、后退法和前進法“篩選自變量”,其SAS過程步程序如下:

      proc reg data=artificial;

      modely=x3-x10/selection=stepwise sle=0.9 sls=0.05;

      run;

      proc reg data=artificial;

      modely=x3-x10/selection=backward sls=0.05;

      run;

      proc reg data=artificial;

      modely=x3-x10/selection=forward sle=0.05;

      run;

      【SAS輸出結果】

      上面三個過程步運行的結果相同,均沒有一個自變量被保留在回歸模型中。這個結果反映了真實的情況。

      然而,當人為假定模型中不包含截距項(在前面三個過程步的“model語句”的“/”之后加上一個選項“NOINT”)時,三個過程步運行的結果相同,其最終結果如下:

      方差分析源自由度平方和均方F值Pr>F模型45985.050001496.26250127.41<0.0001誤差3964650.41446 11.74347未校正合計40010635變量參數(shù)估計值標準誤差II型SSF 值Pr>Fx42.402450.51390256.6570721.86<0.0001x51.779450.50770144.2604712.28 0.0005x81.845100.54490134.6513511.47 0.0008x91.335680.5214177.062896.56 0.0108

      據(jù)此,可寫出4重線性回歸模型如下:

      該4重線性回歸模型的“R2=0.5627”,模型的假設檢驗結果為:F=127.41、P<0.0001,說明此模型具有統(tǒng)計學意義。

      顯然,這個結果在統(tǒng)計學上是“相當好的”;然而,它確實嚴重違背了真實情況!

      由此可知:當研究者對所研究變量之間的“真實情況”一無所知時,必須依據(jù)“基本常識”和“專業(yè)知識”作出有一定依據(jù)的“假定”,運用統(tǒng)計學的各種技術方法構建多重回歸模型,再回到實踐中去檢驗回歸模型的實用價值。

      4.2 自變量與因變量間有間接數(shù)量關系

      在實際問題中,自變量與因變量間有間接數(shù)量關系的情形是最常見的。例如:若以正常成年人“心像面積”為因變量,以其“身高、體重、體重指數(shù)、胸圍”為自變量,則后者對前者的影響是“間接的”,而且具有一定的“數(shù)量關系”。再例如:若以正常成年人“身體健康指數(shù)(假定其存在)”為因變量,以其“血糖生化指標(如空腹血糖、餐后2小時血糖、空腹胰島素、餐后2小時胰島素、糖化血紅蛋白、胰島素抵抗指數(shù)、胰島素敏感指數(shù)等)”“血脂生化指標(甘油三脂、總膽固醇、低密度脂蛋白膽固醇、高密度脂蛋白膽固醇、載脂蛋白α、載脂蛋白β等)”“肝功能指標(門冬氨酸氨基轉移酶、谷丙冬氨酸氨基轉移酶、谷草/谷丙、γ-谷氨酰轉肽酶、血清總蛋白、白蛋白、球蛋白、白球比、總膽紅素、直接膽紅素、間接膽紅素等)”“腎功能指標(肌酐、尿素氮、尿酸等)”“炎癥因子指標(TNF-α、IL-6、C反應蛋白、MCP-1等)”“脂肪因子指標(瘦素、脂聯(lián)素、游離脂肪酸等)”“內(nèi)毒素”“腸泌肽指標(胰高血糖素樣肽-1和葡萄糖依賴性促胰島素多肽)”“代謝組學檢測指標(胰高血糖素樣肽-1、YY肽等)”“DNA甲基化檢測指標”和“各種基因檢測指標”為自變量,則后者對前者的影響是“間接的”,而且具有一定的“數(shù)量關系”。

      類似上面的例子,在人體身心、自然界、人與自然之間,只要找出“因變量”,就有大量的“自變量”與其有間接的數(shù)量關系。

      4.3 自變量與因變量間有直接數(shù)量關系

      在現(xiàn)實問題中,自變量與因變量間有直接數(shù)量關系的情況相對較少。一個最常見的例子如下:若以“藥物種類”“劑量大小”“作用時間”和“給藥途徑”等作為自變量,而以“生物體作出的反應”為“因變量”,則自變量與因變量間存在直接數(shù)量關系;再比如,在農(nóng)業(yè)試驗研究中,若以“作物品種”“耕種方式”“土壤成分”“灌溉方式”“降雨量多少”等作為“自變量”,以“作物產(chǎn)量或品質(zhì)”作為因變量,則自變量與因變量間也有直接數(shù)量關系。

      5 討論與小結

      在研究因變量是否依賴多個自變量變化而變化的規(guī)律時,統(tǒng)計學教科書上通常都“理直氣壯”地引導使用者直接構建“多重線性回歸模型”。由基本常識和專業(yè)知識可知,在實際問題中,可能某些自變量完全獨立于因變量,也可能某些自變量與因變量間存在著某種復雜的“曲線關系”,更多情況下,人們遺漏了很多“間接或直接”影響因變量的自變量(這正是很多試驗設計質(zhì)量不高的科研項目存在的“嚴重瑕疵”)。所以,人們最習慣使用的“多重線性回歸分析方法”,只是對變量間關系的一種“理想化、簡單化”處理方法,其結果“僅供參考”。

      比較穩(wěn)妥的做法是:第一,要力爭科研設計無懈可擊(至少要做到:對因變量可能有影響的自變量不會被遺漏);第二,有標準操作規(guī)程并按其實施科學研究;第三,有實時精準的質(zhì)量控制策略并得到嚴格落實;第四,有經(jīng)得起推敲且系統(tǒng)全面的“統(tǒng)計分析計劃”,單從“統(tǒng)計建?!狈矫鎭碚f,應先對資料進行“探索性分析”,以便對某些變量采取合適的變量變換、引入必要的“派生變量”[3-4]、采取多種可能的“統(tǒng)計模型”擬合資料,從構建的多個高質(zhì)量回歸模型中,優(yōu)中選優(yōu);然后,將足夠大樣本量的“測試數(shù)據(jù)集(未參與回歸建模計算)”帶入求得的“最優(yōu)”回歸模型,考察其“精準程度”。僅當“精準程度”達到專業(yè)要求時,才可以使用已構建的回歸模型去解決所研究的實際問題。

      猜你喜歡
      共線性因變量數(shù)量
      調(diào)整有限因變量混合模型在藥物經(jīng)濟學健康效用量表映射中的運用
      中國藥房(2022年7期)2022-04-14 00:34:30
      銀行不良貸款額影響因素分析
      科學與財富(2021年3期)2021-03-08 10:56:02
      文氏圖在計量統(tǒng)計類課程教學中的應用
      ——以多重共線性內(nèi)容為例
      適應性回歸分析(Ⅳ)
      ——與非適應性回歸分析的比較
      不完全多重共線性定義存在的問題及其修正建議
      統(tǒng)一數(shù)量再比較
      偏最小二乘回歸方法
      文理導航(2017年20期)2017-07-10 23:21:03
      頭發(fā)的數(shù)量
      我國博物館數(shù)量達4510家
      回歸分析中應正確使用r、R、R23種符號
      临海市| 浏阳市| 东丽区| 阿拉善右旗| 原平市| 蓝田县| 民勤县| 合水县| 永泰县| 乃东县| 五台县| 广州市| 泊头市| 鄱阳县| 广元市| 普兰县| 汉沽区| 瓮安县| 铁岭市| 全椒县| 上饶市| 仁化县| 花莲市| 朝阳市| 布拖县| 青海省| 高邑县| 定襄县| 西峡县| 莱芜市| 德化县| 蒙城县| 舞阳县| 靖安县| 阳泉市| 乐亭县| 湟中县| 恩平市| 龙泉市| 视频| 邻水|