• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      通過成對數(shù)據(jù)的統(tǒng)計分析發(fā)展學(xué)生的數(shù)據(jù)分析素養(yǎng)

      2022-07-13 06:46:46程???/span>章建躍
      數(shù)學(xué)通報 2022年3期
      關(guān)鍵詞:變量樣本方法

      程???章建躍

      (1.河北師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院 050024;2.人民教育出版社 課程教材研究所 100081)

      必修課程安排了樣本數(shù)據(jù)的直觀表示方法、樣本數(shù)據(jù)的統(tǒng)計特征(集中趨勢參數(shù)、離散程度參數(shù))的刻畫方法,并根據(jù)樣本數(shù)據(jù)的統(tǒng)計特征估計總體的相應(yīng)特征.這些方法屬于單變量統(tǒng)計問題,其核心思想是用樣本估計總體.接下來以樣本估計總體為核心思想,結(jié)合典型實例,利用成對樣本數(shù)據(jù)的統(tǒng)計相關(guān)性研究兩個變量之間的統(tǒng)計相關(guān)性,采用的方法是先直觀描述后定量刻畫,重點研究變量間的線性相關(guān)關(guān)系.例如,先借助成對數(shù)據(jù)散點圖,直觀觀察相關(guān)關(guān)系的類型、方向和強(qiáng)弱;再構(gòu)造相關(guān)系數(shù)定量刻畫線性相關(guān)關(guān)系的密切程度;最后建立一元線性回歸模型,進(jìn)行預(yù)測.為了回答一定范圍內(nèi)的兩種現(xiàn)象或性質(zhì)之間是否存在關(guān)聯(lián)性或相互影響的問題,我們先將它抽象為兩個分類變量的獨立性問題,利用2×2列聯(lián)表表示數(shù)據(jù),采用假設(shè)檢驗的方法進(jìn)行推斷.這些問題涵蓋了估計和假設(shè)檢驗兩種基本推斷方法,并蘊含著豐富的統(tǒng)計思想和方法.例如,刻畫數(shù)據(jù)特征的方法、最小二乘思想、小概率原理、頻率估計概率、假設(shè)檢驗基本原理等.本單元可以引導(dǎo)學(xué)生在解決問題的過程中,了解統(tǒng)計分析的一般方法,提高數(shù)據(jù)分析素養(yǎng).

      1 課程定位

      課程標(biāo)準(zhǔn)指出,本單元的學(xué)習(xí),可以幫助學(xué)生了解樣本相關(guān)系數(shù)的統(tǒng)計含義,了解一元線性回歸模型和2×2列聯(lián)表,運用這些方法解決簡單的實際問題.會利用統(tǒng)計軟件進(jìn)行數(shù)據(jù)分析.課程標(biāo)準(zhǔn)強(qiáng)調(diào)了如下幾點:

      第一,理解兩個隨機(jī)變量的相關(guān)性可以通過成對樣本數(shù)據(jù)進(jìn)行分析;

      第二,理解利用一元線性回歸模型可以研究變量之間的隨機(jī)關(guān)系,進(jìn)行預(yù)測;

      第三,理解利用2×2列聯(lián)表可以檢驗兩個隨機(jī)變量的獨立性.

      另外,課程標(biāo)準(zhǔn)特別強(qiáng)調(diào)要通過具體案例,引導(dǎo)學(xué)生參與數(shù)據(jù)分析的全過程,并使用相應(yīng)的統(tǒng)計軟件,這是與統(tǒng)計課程的特點緊密相關(guān)的,需要廣大一線教師給予特別關(guān)注.

      2 課程標(biāo)準(zhǔn)提出的內(nèi)容與要求

      1.成對數(shù)據(jù)的統(tǒng)計相關(guān)性

      (1)結(jié)合實例,了解樣本相關(guān)系數(shù)的統(tǒng)計含義,了解樣本相關(guān)系數(shù)與標(biāo)準(zhǔn)化數(shù)據(jù)向量夾角的關(guān)系.

      (2)結(jié)合實例,會通過相關(guān)系數(shù)比較多組成對數(shù)據(jù)的相關(guān)性.

      2.一元線性回歸模型

      (1)結(jié)合具體實例,了解一元線性回歸模型的含義,了解模型參數(shù)的統(tǒng)計意義,了解最小二乘原理,掌握一元線性回歸模型參數(shù)的最小二乘估計方法,會使用相關(guān)的統(tǒng)計軟件.

      (2)針對實際問題,會用一元線性回歸模型進(jìn)行預(yù)測.

      3.2×2列聯(lián)表

      (1)通過實例,理解2×2列聯(lián)表的統(tǒng)計意義.

      (2)通過實例,了解2×2列聯(lián)表獨立性檢驗及其應(yīng)用.

      從上述內(nèi)容和要求的框架可以發(fā)現(xiàn):

      第一,本單元的內(nèi)容結(jié)構(gòu)是:

      兩個數(shù)值變量用散點圖直觀是否具有統(tǒng)計相關(guān)性(定性)——用相關(guān)系數(shù)刻畫線性相關(guān)關(guān)系的密切程度(定量)——建立一元線性回歸模型進(jìn)行預(yù)測.

      兩個分類變量用2×2列聯(lián)表直觀判斷變量關(guān)聯(lián)性(定性)——構(gòu)建統(tǒng)計量χ2進(jìn)行獨立性檢驗(定量)——對變量間的關(guān)聯(lián)性進(jìn)行統(tǒng)計推斷.

      因此,先利用統(tǒng)計圖表作定性分析,再建立統(tǒng)計量進(jìn)行定量分析,在此基礎(chǔ)上進(jìn)行統(tǒng)計推斷,這是對數(shù)據(jù)進(jìn)行統(tǒng)計分析的“基本之道”.

      第二,課程標(biāo)準(zhǔn)強(qiáng)調(diào)通過實例展開成對數(shù)據(jù)的統(tǒng)計分析,說明本單元的教材、教學(xué)不能搞“紙上談兵”,要讓學(xué)生沉浸在統(tǒng)計分析的活動中,在親身實踐中掌握變量之間相關(guān)性、關(guān)聯(lián)性的統(tǒng)計分析方法,體驗其中的統(tǒng)計思想.

      第三,成對數(shù)據(jù)的相關(guān)性與一元回歸模型緊密聯(lián)系,都是研究兩個數(shù)值型變量間的相關(guān)關(guān)系.只有通過樣本系數(shù)判斷出兩個變量之間具有較強(qiáng)的線性關(guān)系時,建立一元回歸模型才有意義.

      第四,課程標(biāo)準(zhǔn)對相關(guān)統(tǒng)計軟件的使用提出專門要求,體現(xiàn)了統(tǒng)計課程的特點.實際上,統(tǒng)計軟件的學(xué)習(xí)是統(tǒng)計課程的一部分.

      3 本單元的認(rèn)知基礎(chǔ)分析

      本單元內(nèi)容的學(xué)習(xí)基礎(chǔ)主要來自以下幾方面:

      通過必修課程的學(xué)習(xí),學(xué)生已經(jīng)初步建立樣本估計總體的思想,從而為學(xué)生理解用樣本相關(guān)系數(shù)推斷變量間的相關(guān)性、估計回歸系數(shù)奠定了認(rèn)知基礎(chǔ).利用兩個事件的獨立性定義兩個變量的獨立性,根據(jù)頻率穩(wěn)定到概率的事實,利用頻率推斷兩個事件是否獨立,可以降低理解的難度.

      統(tǒng)計中刻畫數(shù)據(jù)特征(均值、方差)的一般方法,為構(gòu)造樣本相關(guān)系數(shù)、用偏差平方和最小估計回歸系數(shù)、構(gòu)造獨立性檢驗的統(tǒng)計量等提供了可資借鑒的思想方法.

      假設(shè)檢驗的基本原理是本單元的學(xué)習(xí)難點,可以引導(dǎo)學(xué)生類比反證法來理解.

      4 核心內(nèi)容的理解與教學(xué)思考

      下面從內(nèi)容本質(zhì)的分析入手討論這些內(nèi)容的育人價值以及教學(xué)中需要注意的問題.

      4.1 成對數(shù)據(jù)的統(tǒng)計相關(guān)性

      4.1.1 相關(guān)關(guān)系——變量間的不確定關(guān)系

      兩個變量之間的數(shù)量關(guān)系有兩種不同的類型:一種是我們非常熟悉的函數(shù)關(guān)系,另一種是相關(guān)關(guān)系.變量間的相關(guān)關(guān)系可作如下直觀描述:當(dāng)一個變量取一定的數(shù)值時,與之對應(yīng)的另一個變量的值雖然不完全確定,但它按某種規(guī)律在一定的范圍內(nèi)變化.變量間的這種關(guān)系稱為不確定性的相關(guān)關(guān)系.嚴(yán)格的數(shù)學(xué)刻畫是:

      設(shè)樣本空間Ω={ω},將Ω上的兩個隨機(jī)變量(X(ω),Y(ω))稱為隨機(jī)向量.在概率論中,可以根據(jù)(X(ω),Y(ω))的分布判斷X和Y是否獨立,如果不獨立,就具有某種相關(guān)性.在實際中,我們常常利用成對樣本觀測數(shù)據(jù)(xi(ωi),yi(ωi)),i=1,2,…,n推斷變量間的相關(guān)性.

      之所以將X和Y之間的關(guān)系稱為相關(guān)關(guān)系,是因為變量X可能是影響變量Y的主要因素,但不是唯一因素,還有其他種種因素,而這些因素我們又不能完全把握.

      研究函數(shù)關(guān)系,可以用數(shù)學(xué)分析的方法.例如,已知y和x之間具有線性關(guān)系,即y=a+bx,此時只要知道變量的兩組取值就可以確定函數(shù)表達(dá)式.研究相關(guān)關(guān)系則必須對變量進(jìn)行多次觀測,借助統(tǒng)計的相關(guān)思想和方法進(jìn)行解決.當(dāng)然,在解決的過程中,往往要利用函數(shù)的思想和方法,也就是用確定性的工具解決不確定性問題.

      4.1.2 散點圖—描述相關(guān)關(guān)系的直觀工具

      由于相關(guān)關(guān)系的不確定性,尋找變量X和Y之間的相關(guān)關(guān)系時,首先要對變量進(jìn)行觀測.設(shè)n次觀測值為(xi,yi),i=1,2,…,n.在直角坐標(biāo)系中,橫軸代表變量X,縱軸代表變量Y,將觀測數(shù)據(jù)用坐標(biāo)點的形式描繪出來,得到的圖形稱為散點圖.散點圖是研究相關(guān)關(guān)系的直觀工具,可以定性判斷相關(guān)的類型、方向和相關(guān)關(guān)系的強(qiáng)弱.

      如果散點大致分布在一條直線附近,又不完全在一條直線上,說明變量間具有線性相關(guān)關(guān)系;如果這些點大致分布在一條曲線附近,說明變量間具有非線性相關(guān)關(guān)系;如果這些點的分布幾乎沒有什么規(guī)則,說明兩個變量間沒有相關(guān)關(guān)系.對于線性相關(guān),如果散點從左下角到右上角沿直線分布,那么兩個變量正相關(guān);如果散點從左上角到右下角沿直線分布,兩個變量負(fù)相關(guān).散點在整體上和某一直線越接近,兩個變量間的線性相關(guān)關(guān)系越強(qiáng).

      4.1.3 相關(guān)分析與回歸分析的關(guān)系

      對變量間的相關(guān)關(guān)系,在定性分析的基礎(chǔ)上,需要進(jìn)行定量分析.定量分析有相關(guān)分析和回歸分析兩種方法.相關(guān)分析是用一個指標(biāo)(稱為相關(guān)系數(shù))來反映變量間相關(guān)關(guān)系的密切程度.回歸分析就是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學(xué)模型,來近似表達(dá)變量間的平均變化關(guān)系.相關(guān)分析和回歸分析具有共同的研究對象,在具體應(yīng)用時,需要互相補充.作相關(guān)分析需要依靠回歸分析表明變量相關(guān)的具體形式,而進(jìn)行回歸分析需要通過相關(guān)分析表明變量間的相關(guān)程度,只有變量間存在高度相關(guān)時,由回歸分析得到的變量間的具體形式才有意義.

      相關(guān)分析研究變量間的相關(guān)方向和相關(guān)程度,它不提供相互關(guān)系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況.相關(guān)分析不必確定哪個變量是自變量,哪個是因變量,所涉及的兩個變量可以都是隨機(jī)變量.回歸分析根據(jù)觀測數(shù)據(jù),確定一個數(shù)學(xué)方程式(回歸方程),根據(jù)這個方程式可以由已知量推測未知量,為估算和預(yù)測提供一個重要方法.回歸分析必須事先確定具有相關(guān)關(guān)系的變量中哪個為自變量,哪個為因變量.一般地說,自變量是普通變量(人為可以控制其取值),因變量是隨機(jī)變量.

      4.1.4 如何構(gòu)造樣本相關(guān)系數(shù)

      在定性刻畫的基礎(chǔ)上,需要構(gòu)造一個數(shù)值指標(biāo)(統(tǒng)計量)來刻畫成對數(shù)據(jù)相關(guān)性的強(qiáng)弱,進(jìn)而推斷兩個變量間相關(guān)關(guān)系的強(qiáng)弱,這是一個有一定難度的任務(wù),可以借鑒必修中構(gòu)造一組數(shù)據(jù)的方差的方法.具體構(gòu)造過程中,可以從直觀出發(fā),先構(gòu)造一個量,在研究其性質(zhì)的過程中進(jìn)行不斷修正,直到得到一個合適的統(tǒng)計量.

      例如:假設(shè)圖1是依據(jù)對變量x和y進(jìn)行觀測得到的觀測值(xi,yi),i=1,2,…,n所繪制的散點圖.

      圖1

      并畫散點圖(如圖2所示).可以發(fā)現(xiàn),散點大部分分布在第一象限和第三象限,平移后的成對數(shù)據(jù)多數(shù)為同號,所以散點的橫、縱坐標(biāo)之積多數(shù)為正.同理,如果變量x和y之間是線性負(fù)相關(guān),那么平移后的成對數(shù)據(jù)散點圖將大部分分布在第二象限和第四象限,平移后的成對數(shù)據(jù)多數(shù)為異號,所以散點的橫、縱坐標(biāo)之積多數(shù)為負(fù).這樣,平移后的成對數(shù)據(jù)橫縱坐標(biāo)之積的和的正負(fù)可以反映兩個變量是正相關(guān)還是負(fù)相關(guān).

      圖2

      為了消除樣本量n的影響,構(gòu)造

      顯然,Lxy符號為正時正相關(guān),Lxy符號為負(fù)時負(fù)相關(guān).

      但是Lxy受數(shù)據(jù)量綱的影響,為了消除量綱的影響,可以對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化.用

      為簡單起見,把上述“標(biāo)準(zhǔn)化”處理后的成對數(shù)據(jù)分別記為

      得到

      r是否能度量成對數(shù)據(jù)的相關(guān)關(guān)系的強(qiáng)弱呢?為此,我們進(jìn)一步研究一下r的幾何意義及相關(guān)性質(zhì).

      幾何解釋:

      第二分量構(gòu)成n維向量

      則有

      r=x′·y′=|x′||y′|cosθ=cosθ.

      所以,r等于向量x′,y′夾角的余弦.

      相關(guān)系數(shù)的性質(zhì):

      (1)|r|≤1;

      由此可以看到,相關(guān)系數(shù)刻畫了成對數(shù)據(jù)線性相關(guān)的密切程度.一般地,|r|越接近1,表明線性關(guān)系越密切(或越強(qiáng)).在回歸模型診斷中,通過平方和分解,構(gòu)造決定系數(shù)R2的過程中,可對r的意義有進(jìn)一步認(rèn)識.

      在統(tǒng)計中,我們用樣本相關(guān)系數(shù)估計兩個變量的相關(guān)系數(shù).由于樣本具有隨機(jī)性,由兩個變量的不同樣本數(shù)據(jù)得到的相關(guān)系數(shù)一般也不同.當(dāng)樣本量n較小時,樣本相關(guān)系數(shù)波動較大;但當(dāng)樣本量n較大時,樣本相關(guān)系數(shù)波動幅度較小,呈現(xiàn)出穩(wěn)定性規(guī)律,此時用于推斷兩個變量間線性關(guān)系強(qiáng)弱具有較高的可信度.

      需要注意的是:(1)相關(guān)系數(shù)只衡量變量間線性關(guān)系的密切程度,即使變量間具有確定的非線性函數(shù)關(guān)系,|r|也可能非常接近0.(2)當(dāng)n很小時,即使|r|非常接近1,也不表明變量間的線性關(guān)系強(qiáng).例如,無論x和y之間是何種關(guān)系,只要兩組數(shù)據(jù)對應(yīng)的點的連線與坐標(biāo)軸不平行,成對數(shù)據(jù)的相關(guān)系數(shù)|r|恒為1.

      相關(guān)系數(shù)是變量間線性關(guān)系密切程度的度量,刻畫了兩組成對數(shù)據(jù)的相似性,在現(xiàn)實中有許多應(yīng)用.例如,在教育測量中,測驗的統(tǒng)計指標(biāo)有難度、區(qū)分度、信度和效度.利用這些指標(biāo),可以對測驗分?jǐn)?shù)的可靠性、有效性、測驗?zāi)康倪_(dá)到的程度,以及根據(jù)測驗結(jié)果所獲得的信息做出科學(xué)性的決策等給出定量的回答.

      區(qū)分度是衡量試題對學(xué)生實際學(xué)習(xí)水平區(qū)別程度的指標(biāo),可用學(xué)生在某試題上的得分與測驗總分之間的相關(guān)系數(shù)r作為該題的區(qū)分度.

      信度是刻畫試卷可靠性程度的指標(biāo).測驗作為測量學(xué)生學(xué)習(xí)水平的工具,也存在一個測驗的成績是否穩(wěn)定、是否可靠的問題.試卷的信度就是指該試卷對同一組被試實施兩次或多次測試,所得結(jié)果的一致性程度.一致性程度越高,試卷的信度就越高.實際中可使用兩份等價的試卷,對同一組被試相繼實施兩次測驗,求兩次測驗成績的相關(guān)系數(shù),將這個值作為兩份試卷其中任何一份的信度系數(shù).

      效度是測量的準(zhǔn)確性和有效性指標(biāo),也就是測量的結(jié)果與所要達(dá)到的目標(biāo)之間相符合的程度,或者說測驗本身所能達(dá)到測驗?zāi)康牡某潭?由于測量目的不同,效度有不同的類型.具體分類為:內(nèi)容效度、校標(biāo)效度、結(jié)構(gòu)效度.其中校標(biāo)效度所表示的是該測驗成績與作為標(biāo)準(zhǔn)的另一個測驗(校標(biāo))的成績之間的相關(guān)程度.效度系數(shù)是兩次測驗成績之間的相關(guān)系數(shù).例如,高考模擬測驗以高考試卷作為校標(biāo),如果某模擬測驗成績與未來高考成績的相關(guān)系數(shù)接近于1,說明該模擬試卷的效度高.

      4.1.5 變量相關(guān)性的教學(xué)思考

      相關(guān)關(guān)系的概念是描述性的,不必追求形式上的嚴(yán)格.建議采用案例教學(xué)法,對比函數(shù)關(guān)系,重點突出相關(guān)關(guān)系的兩個本質(zhì)特征:關(guān)聯(lián)性和不確定性.關(guān)聯(lián)性是指當(dāng)一個變量變化時,伴隨另一個變量有一定的變化趨勢;不確定性是指當(dāng)一個變量取定值時,與之相關(guān)的變量的取值仍具有隨機(jī)性.因為有關(guān)聯(lián)性,才有研究的必要性,因為其不確定性,從少量的變量觀測值,很難估計誤差的大小,因此必須對變量作大量的觀測,但每個觀測值都有一定誤差,為了消除誤差的影響,揭示變量間的本質(zhì)聯(lián)系,就必須要用統(tǒng)計分析方法.

      判斷兩個變量間是否具有相關(guān)關(guān)系,一是憑經(jīng)驗及學(xué)科專業(yè)知識,二是借助散點圖.如可以引導(dǎo)學(xué)生對表1中的4個例子逐一分析其關(guān)聯(lián)性和不確定性,然后結(jié)合散點圖,進(jìn)一步判斷相關(guān)關(guān)系的類型和方向.

      表1

      例5(非線性相關(guān)和不相關(guān)的例子) 對0到18歲之間的未成年人來說,年齡和身高之間具有非線性的相關(guān)關(guān)系.對成年人來說,年齡和身高之間沒有相關(guān)關(guān)系.

      例6吸煙和患肺部疾病之間不具有因果關(guān)系,但具有相關(guān)關(guān)系.引入兩值變量X和Y:

      大量調(diào)查發(fā)現(xiàn)吸煙對患肺部疾病有一定的影響.但不吸煙者也可能患肺部疾病,吸煙者也可能不患肺部疾病,因此X和Y之間具有相關(guān)關(guān)系.

      適當(dāng)列舉非線性相關(guān)和不相關(guān)的例子,有助于對相關(guān)關(guān)系的全面了解,但我們研究的重點是線性相關(guān)關(guān)系,而且正相關(guān)或負(fù)相關(guān)只對線性相關(guān)有意義.

      在構(gòu)造樣本相關(guān)系數(shù)的教學(xué)中,首先要讓學(xué)生明確這里的任務(wù)是構(gòu)造一個統(tǒng)計量,用以刻畫成對數(shù)據(jù)間線性相關(guān)的強(qiáng)弱;要讓學(xué)生理解數(shù)據(jù)的平移不影響成對數(shù)據(jù)線性相關(guān)的強(qiáng)弱,但可以突出數(shù)據(jù)的特征;標(biāo)準(zhǔn)化可以消除數(shù)據(jù)量綱的影響.另外,通過幾何解釋及性質(zhì)的討論,可以使學(xué)生進(jìn)一步明確樣本相關(guān)系數(shù)的統(tǒng)計意義.

      4.2 一元線性回歸模型

      當(dāng)兩個變量之間具有線性相關(guān)關(guān)系時,根據(jù)成對樣本數(shù)據(jù)繪制的散點圖中的點大致分布在一條直線附近,可以利用觀測數(shù)據(jù)確定一個數(shù)學(xué)方程式(回歸方程),由這個方程式可以從已知量推測未知量,為估算和預(yù)測提供一個重要方法.

      4.2.1 數(shù)學(xué)模型

      假設(shè)因變量Y主要受自變量x的影響,它們之間的數(shù)量關(guān)系為Y=a+bx+e,其中x是非隨機(jī)變量,a,b是未知的常數(shù),e是隨機(jī)誤差項,它反映了未列入方程的其它各種因素對Y的影響.因此Y是隨機(jī)變量,它可以用由x的值完全確定的部分a+bx和隨機(jī)誤差e來解釋.假定隨機(jī)誤差e的均值為0,方差為σ2.

      將樣本觀測數(shù)據(jù)(xi,yi),i=1,2,…,n代入Y=a+bx+e中,得數(shù)據(jù)結(jié)構(gòu)模型:

      求解模型:求未知參數(shù)a,b的估計值,估計誤差方差σ2(高中不要求).

      4.2.2 最小二乘思想

      當(dāng)兩個變量之間存在相關(guān)關(guān)系時,由于其不確定性,如果只有很少幾組變量觀測值,很難估計誤差的大小.法國數(shù)學(xué)家勒讓德(Le Gendre,1752—1833)在根據(jù)測量數(shù)據(jù)預(yù)測彗星軌道的問題時,發(fā)現(xiàn)了有效利用全部測量數(shù)據(jù)的方法,即通過計算得出一組數(shù)值,在使數(shù)據(jù)組的偏差達(dá)到最小的意義下,這些數(shù)值是最優(yōu)的.勒讓德的方法得出的數(shù)值充分利用了所有數(shù)據(jù)信息,這個方法現(xiàn)在叫做最小二乘法.

      1809年,德國數(shù)學(xué)家高斯(Gauss,1777—1855年)在一篇論文中分析了如何充分利用一系列測量數(shù)據(jù)來預(yù)測天體軌道的問題,其中也敘述了最小二乘法.事實上,勒讓德第一個發(fā)表了最小二乘法思想,并影響了統(tǒng)計學(xué);高斯也使用了最小二乘法,并且考慮了最小二乘法的誤差分析問題,他還發(fā)現(xiàn)了最小二乘法理論中的重要結(jié)果,這個結(jié)果從統(tǒng)計學(xué)的角度回答了最小二乘法在縮小誤差上的優(yōu)勢,使得在勒讓德那里只是處理測量數(shù)據(jù)的代數(shù)方法逐漸滲透到統(tǒng)計數(shù)據(jù)分析的領(lǐng)域,最小二乘法對統(tǒng)計學(xué)就像微積分對于數(shù)學(xué)中的影響一樣深遠(yuǎn).高斯的巨大聲望使一些歷史學(xué)家把最小二乘法歸功于他.

      下面通過一個簡單問題,闡述最小二乘思想.

      4.2.3 回歸系數(shù)的最小二乘估計

      如何確定回歸直線方程,使得這條直線在整體上與數(shù)據(jù)點最接近?

      許多統(tǒng)計思想和方法都比較直觀,采用探究式教學(xué),學(xué)生可能提出各種不同的方法.為了防止漫無邊際的想法,教學(xué)中應(yīng)對確定回歸直線的方法提出一些基本要求.例如:盡可能利用全部數(shù)據(jù),體現(xiàn)整體偏差最小,便于數(shù)學(xué)計算,結(jié)果確定等等.

      以這些要求為基礎(chǔ),通過對一些可能的合理方法進(jìn)行逐步修正,最后把學(xué)生的思路引導(dǎo)到使用最小二乘法估計參數(shù),得出回歸直線方程.下面是一些可能想到的方法.

      方法1:逐漸移動直線,測量各點到直線的距離,使距離和最小.該方法體現(xiàn)了整體偏差最小的思想,缺點是難以實現(xiàn),而且測量的方法很難得到確定的結(jié)果.

      方法2:選擇兩點畫直線,使直線兩側(cè)的點的個數(shù)基本相同.這種方法沒有利用全部數(shù)據(jù)信息,其結(jié)果會因人而異.

      方法3:用多條直線的斜率和截距的平均值作為回歸直線的斜率和截距.這種方法既沒有利用全部數(shù)據(jù)信息,也沒有體現(xiàn)整體誤差最小的思想,結(jié)果也不確定.

      這種方法稱為最小二乘法,最小二乘法的優(yōu)點是:有效利用了全部測量數(shù)據(jù),使誤差平方和達(dá)到最小,防止了某一極端誤差對決定參數(shù)估計值取得支配性地位.用數(shù)理統(tǒng)計知識可以證明這樣的估計也是最佳的.

      上式右邊展開后是關(guān)于b的二次三項式,根據(jù)二次函數(shù)的性質(zhì)可以得到,當(dāng)

      時,Q(a,b)達(dá)到最小.

      4.2.4 一元線性回歸模型的診斷

      理論上,任意n組成對數(shù)據(jù),都可以按最小二乘法得到一個回歸方程.它能否較好地描述x和Y之間的關(guān)系呢?這個問題需要通過模型診斷進(jìn)行回答.

      我們?nèi)匀徊捎孟榷ㄐ院蠖康姆椒ㄟM(jìn)行模型診斷.

      可得

      考慮回歸平方和占總偏差平方和的比例,構(gòu)造統(tǒng)計量

      我們把R2稱為決定系數(shù)或回歸貢獻(xiàn)率, 它是線性相關(guān)系數(shù)的平方,其取值范圍是0≤R2≤1.特別的,當(dāng)R2=1時,殘差平方和等于0,所有數(shù)據(jù)點都在回歸直線上,此時x和Y之間具有確定的線性關(guān)系.R2的大小反映x與Y之間線性關(guān)系的密切程度,R2越接近1,x與Y之間線性關(guān)系越密切.

      4.2.5 利用數(shù)學(xué)軟件進(jìn)行回歸分析

      一元回歸分析要繪制散點圖、殘差圖及進(jìn)行復(fù)雜的數(shù)值計算,Excel、R-軟件、GeoGebra都有回歸分析的功能.而GeoGebra作為一個開源軟件,功能強(qiáng)大、操作簡便.下面通過實際問題說明如何用GeoGebra進(jìn)行回歸分析.

      例經(jīng)驗表明,對于同一樹種,一般樹的胸徑(樹的主干在地面以上1.3m處的直徑)越大,樹就越高.由于測量樹高比測量胸徑困難,因此研究人員希望由胸徑預(yù)測樹高.在研究樹高與胸徑之間的關(guān)系時,某林場收集了某種樹12組成對數(shù)據(jù),試根據(jù)數(shù)據(jù)建立樹高關(guān)于胸徑的經(jīng)驗回歸方程.

      打開GeoGebra,在菜單中選擇表格區(qū),在表格區(qū)A,B列輸入數(shù)據(jù),選中A,B列,然后選擇“雙變量回歸分析”.分別點選“散點圖”或者“殘差圖”顯示圖形,在回歸模型點選“線性”顯示回歸方程.點選Σx可顯示各種統(tǒng)計量的值.經(jīng)過上述操作,得出結(jié)果如圖3所示.

      圖3

      4.3 2×2列聯(lián)表與獨立性檢驗

      估計和假設(shè)檢驗是兩種基本的統(tǒng)計推斷方法.假設(shè)檢驗的基本原理類似于反證法.先對研究的總體提出某種假設(shè)H,根據(jù)樣本數(shù)據(jù)構(gòu)造一個統(tǒng)計量T,直觀上可根據(jù)統(tǒng)計量取值范圍做出拒絕或接受假設(shè)H的判斷.定量的方法是依據(jù)小概率原理(實際推斷原理),給定一個小概率α,在H成立的條件下,求得統(tǒng)計量T的分布,確定拒絕域D滿足P(T∈D)=α,一旦{T∈D}發(fā)生,則拒絕假設(shè)H.

      獨立性檢驗是非參數(shù)假設(shè)檢驗χ2-分布擬合檢驗的一個特例,所研究的問題是如何根據(jù)成對樣本數(shù)據(jù)判斷兩個2×2分類(屬性)變量是否獨立,可以用圖4概括檢驗的步驟:

      圖4

      學(xué)生已有的認(rèn)知基礎(chǔ)有:古典概率模型,條件概率,頻率穩(wěn)定到概率,兩個事件相互獨立的概念.解決問題的依據(jù)是小概率原理以及假設(shè)檢驗的基本原理.理解其中蘊含的思想方法是培養(yǎng)學(xué)生數(shù)據(jù)分析素養(yǎng)的重要途徑.

      4.3.1 問題的數(shù)學(xué)抽象

      在現(xiàn)實中有一類問題也屬于變量的相關(guān)性問題.例如,不同年級的學(xué)生的近視情況是否有明顯的差異?某學(xué)校男生和女生在體育鍛煉的經(jīng)常性是否有差異?吸煙與患肺部疾病是否有關(guān)?等等.對這類問題,需要給出一個統(tǒng)一的數(shù)學(xué)描述.

      例如,對于男生和女生體育鍛煉的經(jīng)常性是否有差異的問題,我們可以作如下數(shù)學(xué)描述:

      用Ω表示該校全體學(xué)生構(gòu)成的集合(總體),從總體中任意選擇一名學(xué)生,定義變量X和Y如下:

      X和Y是兩個只取2個值的分類變量.

      如果P(Y=1|X=0)≠P(Y=1|X=1),說明體育鍛煉的經(jīng)常性有性別差異;

      如果P(Y=1|X=0)=P(Y=1|X=1),說明體育鍛煉的經(jīng)常性沒有性別差異.

      容易證明P(Y=1|X=0)=P(Y=1|X=1)等價于P(X=0,Y=1)=P(X=0)P(Y=1),即事件{X=0}與{Y=1}相互獨立.根據(jù)兩個事件獨立的性質(zhì)得:{X=0}與{Y=0},{X=1}與{Y=0},{X=1}與{Y=1}都相互獨立.因此,對于2×2隨機(jī)變量,如果{X=1}與{Y=1}獨立,則稱變量X和Y相互獨立.

      這樣,我們研究的問題就抽象為判斷兩個變量X和Y是否獨立的問題.

      對于普查獲得的全部數(shù)據(jù),容易判斷變量X和Y是否獨立.如果是隨機(jī)抽樣獲得的樣本數(shù)據(jù),該如何進(jìn)行推斷呢?

      4.3.2 假設(shè)檢驗基本思想方法

      先分析一個簡單的問題,了解假設(shè)檢驗的基本思想與一般步驟.

      問題拋擲一枚六面體骰子,重復(fù)120次試驗,各點數(shù)出現(xiàn)的頻數(shù)如表2所示:

      表2

      能否認(rèn)為這個骰子質(zhì)地均勻?

      如果骰子質(zhì)地均勻,出現(xiàn)每個點數(shù)都是等可能的,理論上每個點數(shù)出現(xiàn)的頻數(shù)都是20,但由于隨機(jī)性,觀測頻數(shù)應(yīng)在20附近波動,根據(jù)頻率穩(wěn)定到概率的事實,當(dāng)重復(fù)試驗次數(shù)足夠大時,波動幅度不會太大.如果波動幅度太大,就難以用隨機(jī)性來解釋了,此時懷疑骰子的質(zhì)地不均勻.

      一般地,設(shè)隨機(jī)變量X的可能取值為x1,x2,…,xk,做n次重復(fù)試驗,出現(xiàn)的頻數(shù)分布為m1,m2,…,mk,m1+m2+…+mk=n.檢驗假設(shè)H0:P(X=xi)=pi,i=1,2,…,k.

      在H0成立的條件下,事件{X=xi}發(fā)生的期望頻數(shù)為npi(i=1,2,…,k),構(gòu)造統(tǒng)計量

      χ2是反映頻率與概率(或觀測頻數(shù)與期望頻數(shù))之間整體相對偏差大小的統(tǒng)計量.直觀上,當(dāng)χ2的值過大時,懷疑H0不真.χ2多大才算過大呢?需要給出一個定量的標(biāo)準(zhǔn).統(tǒng)計學(xué)家證明了當(dāng)H0成立時,χ2近似服從自由度為k-1的χ2分布,給定一個小概率α,確定臨界值χα,使得P(χ2≥χα)=α.依據(jù)小概率原理,當(dāng){χ2≥χα}發(fā)生時,懷疑H0不真,做出拒絕H0的判斷,當(dāng){χ2<χα}發(fā)生時,接受H0.

      在檢驗骰子質(zhì)地是否均勻的問題中,χ2統(tǒng)計量近似服從自由度為5的χ2分布(如圖5).給定α=0.05,利用GeoGebra軟件,得到

      圖5

      P{χ2≥11.07}=0.05,

      χ2=5.06<11.07,

      不拒絕H0,沒有理由認(rèn)為骰子質(zhì)地不均勻.

      如果120次重復(fù)試驗,觀測到各點數(shù)出現(xiàn)的頻數(shù)如表3:

      表3

      從上面的分析看到,假設(shè)檢驗的一般步驟為:

      建立假設(shè)→構(gòu)造統(tǒng)計量→確定檢驗規(guī)則→作出判斷并解釋.

      4.3.3 如何進(jìn)行獨立性檢驗

      (1)建立假設(shè)

      H0:2×2分類變量X和Y獨立.

      通過隨機(jī)抽樣得到X和Y的樣本數(shù)據(jù),用列聯(lián)表(表4)表示如下:

      表4

      (2)構(gòu)造檢驗的統(tǒng)計量

      同理可以求得事件{X=0,Y=1},{X=1,Y=0},{X=1,Y=1}的期望頻數(shù).

      假設(shè)H0成立,四個事件的觀測頻數(shù)與期望頻數(shù)如表5所示.

      表5

      對于2×2列聯(lián)表數(shù)據(jù),χ2的具體表達(dá)式為

      在零假設(shè)H0成立的條件下,觀測頻數(shù)與期望頻數(shù)整體應(yīng)比較接近,χ2的值不應(yīng)太大.

      (3)確定檢驗規(guī)則

      零假設(shè)H0成立的條件下,隨機(jī)變量χ2近似服從自由度為1的χ2分布.

      對于給定的小概率α,求得臨界值χα,使得P(χ2≥χα)=α.依據(jù)小概率原理,當(dāng)事件 {χ2≥χα}發(fā)生時,拒絕H0,認(rèn)為X和Y不獨立;否則不拒絕H0,認(rèn)為X和Y獨立.

      s×t獨立性檢驗,χ2近似服從自由度為 (t-1)(s-1) 的χ2分布.

      (4)推斷結(jié)論的解釋

      拒絕零假設(shè)H0可能犯錯誤,但犯錯誤的概率不超過α;不拒絕零假設(shè),也并不意味著X和Y一定獨立,只是對這組樣本數(shù)據(jù)沒有充分的理由拒絕零假設(shè);不拒絕H0時也可能犯錯誤,此時犯錯誤的概率β無法控制.一般α小時β就較大,α大時β就小.當(dāng)作出不拒絕的判斷時,可取較大的α值.

      5 幾點教學(xué)建議

      回歸分析是應(yīng)用非常廣泛的一種統(tǒng)計分析方法.所涉及到的建立統(tǒng)計模型思想、最小二乘思想、方差分析思想(構(gòu)造統(tǒng)計量,評價回歸擬合效果),在統(tǒng)計中占有重要地位.獨立性檢驗則是利用概率知識,綜合考慮樣本容量、顯著性水平(犯錯誤的概率)的一種定量統(tǒng)計分析方法.本單元內(nèi)容按“實際背景——抽象統(tǒng)計模型——構(gòu)造統(tǒng)計量進(jìn)行數(shù)據(jù)分析——得出結(jié)果并解釋”的路徑,采用從直觀描述到數(shù)學(xué)刻畫、先定性后定量的統(tǒng)計分析方法,引導(dǎo)學(xué)生在解決實際問題的過程中,體會統(tǒng)計思想、積累數(shù)學(xué)活動經(jīng)驗,發(fā)展數(shù)學(xué)建模、數(shù)據(jù)分析素養(yǎng).下面提出本單元教學(xué)的幾點建議.

      5.1 加強(qiáng)用樣本估計總體的思想

      用樣本估計總體是統(tǒng)計的基本思想,也是發(fā)展學(xué)生數(shù)據(jù)分析素養(yǎng)的主要載體.

      學(xué)生在初中學(xué)習(xí)了用統(tǒng)計圖表表示數(shù)據(jù)、用平均數(shù)和方差等數(shù)字特征刻畫數(shù)據(jù)的特征,雖然也涉及了樣本估計總體,但重點在于對數(shù)據(jù)本身的統(tǒng)計特征的描述和刻畫,對數(shù)據(jù)的隨機(jī)性考慮不多.高中的統(tǒng)計內(nèi)容開始強(qiáng)調(diào)數(shù)據(jù)的隨機(jī)性,要求通過隨機(jī)樣本數(shù)據(jù)對總體作出估計.估計的目標(biāo)是得到總體的有關(guān)結(jié)論,此時對樣本數(shù)據(jù)本身進(jìn)行刻畫不再是目標(biāo),而是達(dá)到目標(biāo)的一種手段或載體.因此,在高中的統(tǒng)計教學(xué)中,應(yīng)加強(qiáng)用樣本估計總體的思想.

      必修課程的統(tǒng)計主要是關(guān)于單變量總體的估計,例如通過樣本數(shù)據(jù)的均值、方差、百分位數(shù)估計總體相應(yīng)的數(shù)字特征.在選擇性必修統(tǒng)計中,我們?nèi)匀挥脴颖竟烙嬁傮w的基本思想展開研究,只是數(shù)據(jù)由一維變?yōu)槎S,總體由單變量變?yōu)殡p變量.在本章,通過樣本相關(guān)系數(shù)估計兩個變量的關(guān)系,通過一元線性回歸模型刻畫兩個變量的線性關(guān)系,通過χ2統(tǒng)計量檢驗兩個分類變量的獨立性,都是關(guān)于兩個變量這個總體的估計,教學(xué)中應(yīng)充分重視.

      5.2 準(zhǔn)確把握統(tǒng)計的學(xué)科邏輯

      我們知道,函數(shù)、代數(shù)、幾何、概率等內(nèi)容是從定義出發(fā),主要使用演繹推理的方法證明結(jié)論.演繹推理是從一般到特殊的推理,只要前提正確、推理形式正確,得到的結(jié)論必然正確,因此得出的結(jié)論具有確定性.而統(tǒng)計是從樣本數(shù)據(jù)出發(fā),根據(jù)樣本數(shù)據(jù)的結(jié)論推斷總體的結(jié)論,這是一個從部分到總體、特殊到一般的推理,在推理方法上屬于不完全歸納.不完全歸納的特點是前提正確并不意味著得到的結(jié)論正確,也就是說統(tǒng)計的推斷有可能犯錯誤,結(jié)論具有不確定性.由于出發(fā)點和推理方法的不同,統(tǒng)計與函數(shù)、代數(shù)等內(nèi)容在對結(jié)論的判斷標(biāo)準(zhǔn)上也不一樣,前者是好與壞,后者是對與錯.教學(xué)中要準(zhǔn)確把握統(tǒng)計學(xué)科的這些特點,只有從整體上準(zhǔn)確把握統(tǒng)計學(xué)科邏輯的特點,才能準(zhǔn)確理解統(tǒng)計的內(nèi)容和方法,才能更好地發(fā)揮統(tǒng)計的育人功能.

      5.3 注重統(tǒng)計概念和方法的產(chǎn)生和形成過程

      統(tǒng)計中每一個概念和方法的引入都有其必要性,之所以成為目前的形式也都有其合理性.教學(xué)中體現(xiàn)好這個過程,不但有利于明確學(xué)習(xí)的目標(biāo)和任務(wù),讓學(xué)生感受到知識的產(chǎn)生是自然的、合理的,還有利于在概念和方法的形成過程中讓學(xué)生體會統(tǒng)計的思想方法,積累數(shù)據(jù)分析的經(jīng)驗.

      我們知道,數(shù)據(jù)分析是一個透過數(shù)據(jù)探索客觀事物本質(zhì)和規(guī)律的過程,可以概括為:(1)面向?qū)嶋H背景,凝練統(tǒng)計問題;(2)明確問題目標(biāo),收集整理數(shù)據(jù);(3)合理構(gòu)建模型,優(yōu)化推斷結(jié)論;(4)回歸實際問題,形成決策知識.本單元的教學(xué)要特別注意落實這個過程,注重從統(tǒng)計的直觀到數(shù)學(xué)化表達(dá)的轉(zhuǎn)化,并讓學(xué)生參與其中.例如,對于估計一元線性回歸模型參數(shù)所用的最小二乘法,教學(xué)中可以啟發(fā)學(xué)生先從直覺出發(fā),尋找整體上與散點最接近的直線,然后逐步過渡到對“整體最近”的數(shù)學(xué)刻畫,再從實際意義、數(shù)學(xué)運算等角度考慮,在若干表達(dá)式中選擇“平方和最小”作為標(biāo)準(zhǔn).在此過程中,學(xué)生既可以體會從統(tǒng)計直觀到數(shù)學(xué)表達(dá)的轉(zhuǎn)化過程,從中理解統(tǒng)計方法;又可以體會針對同一個問題可以有不同標(biāo)準(zhǔn),由不同標(biāo)準(zhǔn)得出的不同結(jié)論都有一定的合理性,由此體會統(tǒng)計的特點和統(tǒng)計思想,積累數(shù)據(jù)分析的經(jīng)驗,培養(yǎng)數(shù)據(jù)分析、數(shù)學(xué)建模、邏輯推理、數(shù)學(xué)運算和數(shù)學(xué)抽象等素養(yǎng).

      5.4 強(qiáng)調(diào)使用統(tǒng)計軟件進(jìn)行數(shù)據(jù)分析

      課程標(biāo)準(zhǔn)在本單元“內(nèi)容要求”中明確提出“會利用統(tǒng)計軟件進(jìn)行數(shù)據(jù)分析”的要求.事實上,如果不用統(tǒng)計軟件,那么就無法完成本單元的教學(xué)任務(wù).因此,為了有效展開本單元的教學(xué)活動,應(yīng)該要求學(xué)生掌握幾種常用的統(tǒng)計軟件,明確要求學(xué)生在學(xué)習(xí)本單元內(nèi)容時使用統(tǒng)計軟件探索數(shù)據(jù)的規(guī)律.例如,利用統(tǒng)計軟件對一組樣本數(shù)據(jù)進(jìn)行排序等整理,計算出各種特征數(shù),畫各種統(tǒng)計圖等;又如,在用一元線性回歸模型刻畫兩個變量之間關(guān)系時,利用統(tǒng)計軟件畫散點圖、計算樣本相關(guān)系數(shù)、求經(jīng)驗回歸方程、畫殘差圖等.

      猜你喜歡
      變量樣本方法
      抓住不變量解題
      用樣本估計總體復(fù)習(xí)點撥
      也談分離變量
      推動醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計
      可能是方法不對
      用對方法才能瘦
      Coco薇(2016年2期)2016-03-22 02:42:52
      村企共贏的樣本
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      四大方法 教你不再“坐以待病”!
      Coco薇(2015年1期)2015-08-13 02:47:34
      新安县| 方城县| 光山县| 获嘉县| 集贤县| 常德市| 杭锦后旗| 宝山区| 渝中区| 巴林右旗| 蒲江县| 沙湾县| 永仁县| 黄大仙区| 屏东县| 克什克腾旗| 商丘市| 和田县| 台中市| 维西| 刚察县| 志丹县| 宝兴县| 永福县| 岚皋县| 道孚县| 德保县| 永寿县| 恩施市| 大新县| 雷波县| 许昌市| 罗田县| 盈江县| 买车| 德保县| 麻江县| 东方市| 龙井市| 台北县| 定襄县|