閆鵬魏+張永亮
摘 要:在水質(zhì)分析時,經(jīng)常會存在一些可疑值,對可疑數(shù)據(jù)處理常用方法有:拉依達(dá)法、Dixon法、Grubbs法。文章對這三種方法的計算方法,使用條件,方法優(yōu)點(diǎn)以及多個可疑值出現(xiàn)時的處理問題做出探討。
關(guān)鍵詞:可疑值;3s法;Dixon法;Grubbs法
在水質(zhì)分析時,異常值可能是因?yàn)楦鞣N隨機(jī)誤差的影響,也有可能因?yàn)槠渌蛩亍梢芍档奶幚恚赏ㄟ^一些方法進(jìn)行統(tǒng)計檢測。本文列出了三種方法,下面對這三種方法分別做出討論。
1 拉依達(dá)法
由于該方法是以3倍標(biāo)準(zhǔn)偏差作為判別標(biāo)準(zhǔn),所以亦稱3倍標(biāo)準(zhǔn)偏差法,簡稱3S法。
適用條件:當(dāng)測量數(shù)據(jù)較多時,且成正態(tài)分布時可選用此方法。
檢驗(yàn)方法:檢測公式|x-xd|>3S (1)
x:樣本平均數(shù)xd:可疑數(shù)據(jù)S:樣本標(biāo)準(zhǔn)偏差,若xd滿足(1)式,則為離群值,應(yīng)舍去。
取3S的理由:根據(jù)隨機(jī)變量的正態(tài)分布規(guī)律,在多次試驗(yàn)中,測量值落在xd-3S與xd+3S之間的概率為99.73%,出現(xiàn)在此范圍之外的概率僅為0.27%,也就是在近400次試驗(yàn)中才能遇到一次,這種事件為小概率事件,出現(xiàn)的可能性很小,幾乎是不可能。因而在實(shí)際試驗(yàn)中,一旦出現(xiàn),就認(rèn)為該測量數(shù)據(jù)是不可靠的,應(yīng)將其舍棄。
另外,當(dāng)測量值與平均值之差大于2倍標(biāo)準(zhǔn)偏差(即|x-xd|>2S)時,則該測量值應(yīng)保留,但需存疑。
方法優(yōu)點(diǎn):拉依達(dá)法簡單方便,不需查表,但要求較寬,當(dāng)試驗(yàn)檢測次數(shù)較多或要求不高時可以應(yīng)用,當(dāng)試驗(yàn)檢測次數(shù)較少時(如n<10)在一組測量值中即使混有異常值,也無法舍棄。
2 Dixon法
適用條件:用于一組測量值的一致性檢驗(yàn)和剔除離群值,本法中最小可疑值和最大可疑值進(jìn)行檢驗(yàn)的公式因樣本的容量(n)不同而異。
檢驗(yàn)方法:(1)將一組數(shù)據(jù)從小大大排列為X1,X2,X3,…,Xn,X1和Xn分別為最小和最大可疑值;(2)按下表1求Q值。(3)通過顯著性水平以及n值,查出Q值。若Q≤Q0.05,則可疑值為正常值;若Q0.05Q0.01,則可疑值為離群值。
方法優(yōu)點(diǎn):相對比較嚴(yán)密,對一組數(shù)據(jù)中只有一個可疑值存在時較為適用。
注意問題:用該方法剔除一個可疑值時,若剩余數(shù)據(jù)還有可疑值存在,經(jīng)過檢驗(yàn)又被剔除,則說明該方法對此組數(shù)據(jù)檢驗(yàn)存在誤差,不能再使用此方法,可使用Grubbs法。
表1 Dixon檢驗(yàn)法計算公式和臨界值Qn表樣本數(shù)n 統(tǒng)計計算公式 顯著性水平(α)
檢驗(yàn)最小異常值 檢驗(yàn)最大異常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用條件:用于多組測量值均值的一致性和剔除多組測量值中的離群均值,也可以用于檢驗(yàn)一組測量值的一致性和剔除一組測量值中的離群值。
檢測方法:對L組測量值,將每組n個測量值的均值記為x1 計算所有均值的總均值,標(biāo)準(zhǔn)偏差 若可疑值為最小值x1,則T=,若可疑值為最大值為x1,則T=。根據(jù)T值和L值對比臨界值表: 若T≤T0.05,為正常均值;若T0.05 表2 Grubbs檢驗(yàn)臨界值(Ta)表 L 顯著性水平α L 顯著性水平α L 顯著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法優(yōu)點(diǎn):較Dixon法更為嚴(yán)密,能對一組數(shù)據(jù)中多個可疑值進(jìn)行檢測,可進(jìn)行多次可疑數(shù)據(jù)的剔除,提高數(shù)據(jù)處理的準(zhǔn)確度。 注意問題:當(dāng)可疑數(shù)據(jù)有兩個或兩個以上時,且均勻分布在同一側(cè)(即為x1,x2或xL-1,xL) 此時在檢測時,要先檢測靠近的可疑值(即為x2或xL-1),然后通過計算T= 來檢驗(yàn)x2是否舍去,若x2離群,則x1必然離群,應(yīng)當(dāng)注意的是此時總均值=,不包括x2。同理檢驗(yàn)xL-1,即T=,此時=,然后對照T值表,檢驗(yàn)xL-1是否離群,若xL-1離群,則xL必然離群。當(dāng)可疑數(shù)據(jù)在總均值兩側(cè)時,要先檢驗(yàn)離均值遠(yuǎn)的可以數(shù)據(jù),若剔除了一個數(shù)據(jù),在檢驗(yàn)下一個時,此時總均值的求解為剩余L-1個均值的算術(shù)平均值。 通過這三種方法,我們可以在水質(zhì)分析數(shù)據(jù)處理過程中提高我們檢測結(jié)果的準(zhǔn)確度,從而相對客觀的反映水質(zhì)情況,為水質(zhì)鑒定,水污染防治提供可信資料。 參考文獻(xiàn) [1] 奚旦立,孫裕生,劉秀英.環(huán)境監(jiān)測[M].北京:高等教育出版社,2010. [2] 劉國華,呂曉柯,石晨,劉曉蕾,王鵬.初速數(shù)據(jù)判別方法研究[J].火炮發(fā)射與控制學(xué)報, 2013(3):01-0008-03. [3] 華東理工大學(xué)分析化學(xué)教研組,四川大學(xué)工科化學(xué)基礎(chǔ)課程教學(xué)基地編.分析化學(xué)[M].北京:高等教育出版社,2009,7. 作者簡介:閆鵬魏(1991- ),男,漢族,河南項城人,鄭州大學(xué)2011級給水排水工程本科生;張永亮(1991- ),男,漢族,河南長垣人,鄭州大學(xué)2011級給水排水工程本科生。
摘 要:在水質(zhì)分析時,經(jīng)常會存在一些可疑值,對可疑數(shù)據(jù)處理常用方法有:拉依達(dá)法、Dixon法、Grubbs法。文章對這三種方法的計算方法,使用條件,方法優(yōu)點(diǎn)以及多個可疑值出現(xiàn)時的處理問題做出探討。
關(guān)鍵詞:可疑值;3s法;Dixon法;Grubbs法
在水質(zhì)分析時,異常值可能是因?yàn)楦鞣N隨機(jī)誤差的影響,也有可能因?yàn)槠渌蛩?。對可疑值的處理,可通過一些方法進(jìn)行統(tǒng)計檢測。本文列出了三種方法,下面對這三種方法分別做出討論。
1 拉依達(dá)法
由于該方法是以3倍標(biāo)準(zhǔn)偏差作為判別標(biāo)準(zhǔn),所以亦稱3倍標(biāo)準(zhǔn)偏差法,簡稱3S法。
適用條件:當(dāng)測量數(shù)據(jù)較多時,且成正態(tài)分布時可選用此方法。
檢驗(yàn)方法:檢測公式|x-xd|>3S (1)
x:樣本平均數(shù)xd:可疑數(shù)據(jù)S:樣本標(biāo)準(zhǔn)偏差,若xd滿足(1)式,則為離群值,應(yīng)舍去。
取3S的理由:根據(jù)隨機(jī)變量的正態(tài)分布規(guī)律,在多次試驗(yàn)中,測量值落在xd-3S與xd+3S之間的概率為99.73%,出現(xiàn)在此范圍之外的概率僅為0.27%,也就是在近400次試驗(yàn)中才能遇到一次,這種事件為小概率事件,出現(xiàn)的可能性很小,幾乎是不可能。因而在實(shí)際試驗(yàn)中,一旦出現(xiàn),就認(rèn)為該測量數(shù)據(jù)是不可靠的,應(yīng)將其舍棄。
另外,當(dāng)測量值與平均值之差大于2倍標(biāo)準(zhǔn)偏差(即|x-xd|>2S)時,則該測量值應(yīng)保留,但需存疑。
方法優(yōu)點(diǎn):拉依達(dá)法簡單方便,不需查表,但要求較寬,當(dāng)試驗(yàn)檢測次數(shù)較多或要求不高時可以應(yīng)用,當(dāng)試驗(yàn)檢測次數(shù)較少時(如n<10)在一組測量值中即使混有異常值,也無法舍棄。
2 Dixon法
適用條件:用于一組測量值的一致性檢驗(yàn)和剔除離群值,本法中最小可疑值和最大可疑值進(jìn)行檢驗(yàn)的公式因樣本的容量(n)不同而異。
檢驗(yàn)方法:(1)將一組數(shù)據(jù)從小大大排列為X1,X2,X3,…,Xn,X1和Xn分別為最小和最大可疑值;(2)按下表1求Q值。(3)通過顯著性水平以及n值,查出Q值。若Q≤Q0.05,則可疑值為正常值;若Q0.05Q0.01,則可疑值為離群值。
方法優(yōu)點(diǎn):相對比較嚴(yán)密,對一組數(shù)據(jù)中只有一個可疑值存在時較為適用。
注意問題:用該方法剔除一個可疑值時,若剩余數(shù)據(jù)還有可疑值存在,經(jīng)過檢驗(yàn)又被剔除,則說明該方法對此組數(shù)據(jù)檢驗(yàn)存在誤差,不能再使用此方法,可使用Grubbs法。
表1 Dixon檢驗(yàn)法計算公式和臨界值Qn表樣本數(shù)n 統(tǒng)計計算公式 顯著性水平(α)
檢驗(yàn)最小異常值 檢驗(yàn)最大異常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用條件:用于多組測量值均值的一致性和剔除多組測量值中的離群均值,也可以用于檢驗(yàn)一組測量值的一致性和剔除一組測量值中的離群值。
檢測方法:對L組測量值,將每組n個測量值的均值記為x1 計算所有均值的總均值,標(biāo)準(zhǔn)偏差 若可疑值為最小值x1,則T=,若可疑值為最大值為x1,則T=。根據(jù)T值和L值對比臨界值表: 若T≤T0.05,為正常均值;若T0.05 表2 Grubbs檢驗(yàn)臨界值(Ta)表 L 顯著性水平α L 顯著性水平α L 顯著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法優(yōu)點(diǎn):較Dixon法更為嚴(yán)密,能對一組數(shù)據(jù)中多個可疑值進(jìn)行檢測,可進(jìn)行多次可疑數(shù)據(jù)的剔除,提高數(shù)據(jù)處理的準(zhǔn)確度。 注意問題:當(dāng)可疑數(shù)據(jù)有兩個或兩個以上時,且均勻分布在同一側(cè)(即為x1,x2或xL-1,xL) 此時在檢測時,要先檢測靠近的可疑值(即為x2或xL-1),然后通過計算T= 來檢驗(yàn)x2是否舍去,若x2離群,則x1必然離群,應(yīng)當(dāng)注意的是此時總均值=,不包括x2。同理檢驗(yàn)xL-1,即T=,此時=,然后對照T值表,檢驗(yàn)xL-1是否離群,若xL-1離群,則xL必然離群。當(dāng)可疑數(shù)據(jù)在總均值兩側(cè)時,要先檢驗(yàn)離均值遠(yuǎn)的可以數(shù)據(jù),若剔除了一個數(shù)據(jù),在檢驗(yàn)下一個時,此時總均值的求解為剩余L-1個均值的算術(shù)平均值。 通過這三種方法,我們可以在水質(zhì)分析數(shù)據(jù)處理過程中提高我們檢測結(jié)果的準(zhǔn)確度,從而相對客觀的反映水質(zhì)情況,為水質(zhì)鑒定,水污染防治提供可信資料。 參考文獻(xiàn) [1] 奚旦立,孫裕生,劉秀英.環(huán)境監(jiān)測[M].北京:高等教育出版社,2010. [2] 劉國華,呂曉柯,石晨,劉曉蕾,王鵬.初速數(shù)據(jù)判別方法研究[J].火炮發(fā)射與控制學(xué)報, 2013(3):01-0008-03. [3] 華東理工大學(xué)分析化學(xué)教研組,四川大學(xué)工科化學(xué)基礎(chǔ)課程教學(xué)基地編.分析化學(xué)[M].北京:高等教育出版社,2009,7. 作者簡介:閆鵬魏(1991- ),男,漢族,河南項城人,鄭州大學(xué)2011級給水排水工程本科生;張永亮(1991- ),男,漢族,河南長垣人,鄭州大學(xué)2011級給水排水工程本科生。
摘 要:在水質(zhì)分析時,經(jīng)常會存在一些可疑值,對可疑數(shù)據(jù)處理常用方法有:拉依達(dá)法、Dixon法、Grubbs法。文章對這三種方法的計算方法,使用條件,方法優(yōu)點(diǎn)以及多個可疑值出現(xiàn)時的處理問題做出探討。
關(guān)鍵詞:可疑值;3s法;Dixon法;Grubbs法
在水質(zhì)分析時,異常值可能是因?yàn)楦鞣N隨機(jī)誤差的影響,也有可能因?yàn)槠渌蛩?。對可疑值的處理,可通過一些方法進(jìn)行統(tǒng)計檢測。本文列出了三種方法,下面對這三種方法分別做出討論。
1 拉依達(dá)法
由于該方法是以3倍標(biāo)準(zhǔn)偏差作為判別標(biāo)準(zhǔn),所以亦稱3倍標(biāo)準(zhǔn)偏差法,簡稱3S法。
適用條件:當(dāng)測量數(shù)據(jù)較多時,且成正態(tài)分布時可選用此方法。
檢驗(yàn)方法:檢測公式|x-xd|>3S (1)
x:樣本平均數(shù)xd:可疑數(shù)據(jù)S:樣本標(biāo)準(zhǔn)偏差,若xd滿足(1)式,則為離群值,應(yīng)舍去。
取3S的理由:根據(jù)隨機(jī)變量的正態(tài)分布規(guī)律,在多次試驗(yàn)中,測量值落在xd-3S與xd+3S之間的概率為99.73%,出現(xiàn)在此范圍之外的概率僅為0.27%,也就是在近400次試驗(yàn)中才能遇到一次,這種事件為小概率事件,出現(xiàn)的可能性很小,幾乎是不可能。因而在實(shí)際試驗(yàn)中,一旦出現(xiàn),就認(rèn)為該測量數(shù)據(jù)是不可靠的,應(yīng)將其舍棄。
另外,當(dāng)測量值與平均值之差大于2倍標(biāo)準(zhǔn)偏差(即|x-xd|>2S)時,則該測量值應(yīng)保留,但需存疑。
方法優(yōu)點(diǎn):拉依達(dá)法簡單方便,不需查表,但要求較寬,當(dāng)試驗(yàn)檢測次數(shù)較多或要求不高時可以應(yīng)用,當(dāng)試驗(yàn)檢測次數(shù)較少時(如n<10)在一組測量值中即使混有異常值,也無法舍棄。
2 Dixon法
適用條件:用于一組測量值的一致性檢驗(yàn)和剔除離群值,本法中最小可疑值和最大可疑值進(jìn)行檢驗(yàn)的公式因樣本的容量(n)不同而異。
檢驗(yàn)方法:(1)將一組數(shù)據(jù)從小大大排列為X1,X2,X3,…,Xn,X1和Xn分別為最小和最大可疑值;(2)按下表1求Q值。(3)通過顯著性水平以及n值,查出Q值。若Q≤Q0.05,則可疑值為正常值;若Q0.05Q0.01,則可疑值為離群值。
方法優(yōu)點(diǎn):相對比較嚴(yán)密,對一組數(shù)據(jù)中只有一個可疑值存在時較為適用。
注意問題:用該方法剔除一個可疑值時,若剩余數(shù)據(jù)還有可疑值存在,經(jīng)過檢驗(yàn)又被剔除,則說明該方法對此組數(shù)據(jù)檢驗(yàn)存在誤差,不能再使用此方法,可使用Grubbs法。
表1 Dixon檢驗(yàn)法計算公式和臨界值Qn表樣本數(shù)n 統(tǒng)計計算公式 顯著性水平(α)
檢驗(yàn)最小異常值 檢驗(yàn)最大異常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用條件:用于多組測量值均值的一致性和剔除多組測量值中的離群均值,也可以用于檢驗(yàn)一組測量值的一致性和剔除一組測量值中的離群值。
檢測方法:對L組測量值,將每組n個測量值的均值記為x1 計算所有均值的總均值,標(biāo)準(zhǔn)偏差 若可疑值為最小值x1,則T=,若可疑值為最大值為x1,則T=。根據(jù)T值和L值對比臨界值表: 若T≤T0.05,為正常均值;若T0.05 表2 Grubbs檢驗(yàn)臨界值(Ta)表 L 顯著性水平α L 顯著性水平α L 顯著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法優(yōu)點(diǎn):較Dixon法更為嚴(yán)密,能對一組數(shù)據(jù)中多個可疑值進(jìn)行檢測,可進(jìn)行多次可疑數(shù)據(jù)的剔除,提高數(shù)據(jù)處理的準(zhǔn)確度。 注意問題:當(dāng)可疑數(shù)據(jù)有兩個或兩個以上時,且均勻分布在同一側(cè)(即為x1,x2或xL-1,xL) 此時在檢測時,要先檢測靠近的可疑值(即為x2或xL-1),然后通過計算T= 來檢驗(yàn)x2是否舍去,若x2離群,則x1必然離群,應(yīng)當(dāng)注意的是此時總均值=,不包括x2。同理檢驗(yàn)xL-1,即T=,此時=,然后對照T值表,檢驗(yàn)xL-1是否離群,若xL-1離群,則xL必然離群。當(dāng)可疑數(shù)據(jù)在總均值兩側(cè)時,要先檢驗(yàn)離均值遠(yuǎn)的可以數(shù)據(jù),若剔除了一個數(shù)據(jù),在檢驗(yàn)下一個時,此時總均值的求解為剩余L-1個均值的算術(shù)平均值。 通過這三種方法,我們可以在水質(zhì)分析數(shù)據(jù)處理過程中提高我們檢測結(jié)果的準(zhǔn)確度,從而相對客觀的反映水質(zhì)情況,為水質(zhì)鑒定,水污染防治提供可信資料。 參考文獻(xiàn) [1] 奚旦立,孫裕生,劉秀英.環(huán)境監(jiān)測[M].北京:高等教育出版社,2010. [2] 劉國華,呂曉柯,石晨,劉曉蕾,王鵬.初速數(shù)據(jù)判別方法研究[J].火炮發(fā)射與控制學(xué)報, 2013(3):01-0008-03. [3] 華東理工大學(xué)分析化學(xué)教研組,四川大學(xué)工科化學(xué)基礎(chǔ)課程教學(xué)基地編.分析化學(xué)[M].北京:高等教育出版社,2009,7. 作者簡介:閆鵬魏(1991- ),男,漢族,河南項城人,鄭州大學(xué)2011級給水排水工程本科生;張永亮(1991- ),男,漢族,河南長垣人,鄭州大學(xué)2011級給水排水工程本科生。