• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      簡(jiǎn)單子抽樣多元雙樣本檢驗(yàn)的改進(jìn)方法

      2015-01-15 05:57:08陳麗君朱永忠王方磊
      服裝學(xué)報(bào) 2015年5期
      關(guān)鍵詞:樣本容量正態(tài)分布效力

      陳麗君, 朱永忠 , 王方磊

      (河海大學(xué) 理學(xué)院,江蘇 南京211100)

      近年來,非平衡類問題成為一個(gè)新的研究領(lǐng)域并應(yīng)用于生物科學(xué)、金融、欺詐檢測(cè)和文本挖掘等領(lǐng)域。這些領(lǐng)域中的數(shù)據(jù)分布是不均衡的,如信用卡使用中的欺詐行為通常少于正常使用行為。非平衡的多元雙樣本檢驗(yàn)問題是非平衡數(shù)據(jù)研究的問題之一。隨著現(xiàn)代計(jì)算機(jī)的廣泛應(yīng)用,檢驗(yàn)方法的理論發(fā)展以及檢驗(yàn)方法在其他學(xué)科中應(yīng)用的增加,眾多學(xué)者對(duì)雙樣本檢驗(yàn)及其檢驗(yàn)效力進(jìn)行了大量研究。

      早在1969 年,Bickel[1]在經(jīng)典K-S 檢驗(yàn)的基礎(chǔ)上,利用混合樣本的經(jīng)驗(yàn)分布函數(shù),建立了一種自由分布的多元Smirnov 檢驗(yàn)。隨后Friedman[2]于1979 年利用混合樣本的最小生成樹(MST)將最大偏離檢驗(yàn)等雙樣本檢驗(yàn)由一元情形推廣到多元。1986 年Schilling[3]通過構(gòu)造一種基于k-最近鄰分類算法(KNN)的檢驗(yàn)統(tǒng)計(jì)量來解決多元雙樣本檢驗(yàn)問題,但是隨著兩樣本不平衡度的增加,該方法的檢驗(yàn)效力急劇減弱。2005 年Rosenbaum[4]提出一種基于觀測(cè)點(diǎn)最小距離非二分圖(MDP)的交叉匹配檢驗(yàn),該檢驗(yàn)用于低維的大容量樣本時(shí)表現(xiàn)出極高的檢驗(yàn)效力。同年Aslan[5]用觀測(cè)點(diǎn)在變量空間的距離作算術(shù)函數(shù),構(gòu)造了一種基于觀測(cè)點(diǎn)間能量的多元檢驗(yàn)統(tǒng)計(jì)量。后兩種檢驗(yàn)方法主要利用混合樣本點(diǎn)之間的緊密性這一性質(zhì),而只有當(dāng)兩個(gè)樣本的容量相當(dāng)時(shí),才能保證檢驗(yàn)結(jié)果的有效性。同時(shí),對(duì)這些檢驗(yàn)方法一致性和漸近性的研究十分依賴于兩樣本平衡這一假設(shè)條件。針對(duì)這一問題,2013年CHEN Hao[6]考慮到在多元情形中,來自不同分布的樣本點(diǎn)可能比來自同一分布的樣本點(diǎn)有更密切的聯(lián)系,從樣本內(nèi)部邊緣的角度提高了相似圖形檢驗(yàn)方法的檢驗(yàn)效力。而CHEN Lisa 等人[7]針對(duì)非平衡雙樣本檢驗(yàn)效力下降的問題改進(jìn)了Schilling的k 最近鄰檢驗(yàn),提出一種簡(jiǎn)單子抽樣的多元雙樣本檢驗(yàn)方法(簡(jiǎn)稱SSS-NN 檢驗(yàn))。SSS-NN 檢驗(yàn)方法首先對(duì)大樣本采用簡(jiǎn)單的隨機(jī)子抽樣,再進(jìn)行Schilling 檢驗(yàn)統(tǒng)計(jì)量的計(jì)算,但由于進(jìn)行隨機(jī)子抽樣時(shí)丟棄了大樣本的大部分?jǐn)?shù)據(jù),導(dǎo)致樣本信息丟失而產(chǎn)生檢驗(yàn)誤差。

      為此,文中研究基于SSS-NN 檢驗(yàn),從平衡樣本容量和充分保留樣本信息的角度出發(fā),采用集成子抽樣方法和加權(quán)調(diào)整方案,提高非平衡多元雙樣本檢驗(yàn)的檢驗(yàn)效力。

      1 基于KNN 算法的簡(jiǎn)單子抽樣多元雙樣本檢驗(yàn)

      KNN 算法(k-Nearest Neighbor)[8]是一種對(duì)局部性質(zhì)非常敏感的惰性學(xué)習(xí),在許多領(lǐng)域都有成功的應(yīng)用,而且產(chǎn)生了各種各樣的改進(jìn)算法。KNN 算法的基本思路是:搜索模式空間找出距離最接近未知樣本的k 個(gè)訓(xùn)練樣本,未知樣本被分配到k 個(gè)最近鄰樣本中占百分比最多的一類,其近鄰性可以采用歐幾里得距離、馬哈拉諾比斯距離和曼哈頓距離等。

      KNN 算法從混合樣本集中搜索與未知樣本最接近的k 個(gè)樣本,對(duì)每個(gè)由j 個(gè)屬性組成的樣本,基于KNN 算法的SSS-NN 檢驗(yàn)方法采用屬性權(quán)值為1的歐幾里得距離來度量樣本點(diǎn)之間的近鄰性:

      假設(shè)點(diǎn)x ∈A,樣本集A ?Rd,定義點(diǎn)x 在集合A{x}中的第k 個(gè)近鄰樣本點(diǎn)為NNk(x,A)。進(jìn)行SSS-NN 檢驗(yàn)時(shí),對(duì)于相互排斥的集合A1和A2,首先使用如下示性函數(shù)來判斷樣本點(diǎn)x 與其所在集合(A1∪A2){x}上的第k 個(gè)近鄰點(diǎn)是否來自同一樣本:

      假設(shè)Rd上的獨(dú)立隨機(jī)樣本X = {X1,X2,…,Xn},Y = {Y1,Y2,…,Y~n}分別服從未知分布F(x)和G(x),且F(x)與G(x)在Lebesgue 空間上絕對(duì)連續(xù)。為了分析樣本與總體之間的差異是否顯著,提出檢驗(yàn)的零假設(shè)為F(x)= G(x)。SSS-NN 檢驗(yàn)的統(tǒng)計(jì)量

      其中混合樣本

      SSS-NN 檢驗(yàn)的逐點(diǎn)統(tǒng)計(jì)量如式(4),其衡量的是樣本點(diǎn)Zi在集合X ∪Y 上的k 個(gè)最相鄰的樣本點(diǎn)中,與樣本點(diǎn)Zi屬于同一樣本的點(diǎn)所占百分比。

      由文獻(xiàn)[3]知,在H1下檢驗(yàn)統(tǒng)計(jì)量Sk,m是連續(xù)的,即

      其中兩樣本容量比q = ~n/n 為樣本非平衡度,f(x),g(x)是分布F(x),G(x)對(duì)應(yīng)的密度函數(shù)。然而,當(dāng)q 逐漸增大時(shí),~Δ(q)的一致性非常弱,即當(dāng)q →∞,~Δ(q)= o(1/q)。另外,若用以下效用系數(shù)ˉη(q)表示Sk,m的漸近性,則當(dāng)q →∞時(shí),ˉη(q)→0。因此當(dāng)樣本非平衡度趨于無窮時(shí),Sk,m的漸近能力趨于零,也就是說,當(dāng)樣本非平衡度趨于無窮時(shí),SSS-NN 方法的檢驗(yàn)效力趨于零。

      2 簡(jiǎn)單子抽樣多元雙樣本檢驗(yàn)的改進(jìn)方法

      2.1 集成子抽樣方法

      目前解決數(shù)據(jù)非均衡問題的方法大致分為兩類[9]:數(shù)據(jù)水平方法和算法水平方法。均衡樣本集可以考慮采用以下數(shù)據(jù)水平方法,一種是對(duì)大樣本進(jìn)行欠抽樣,隨機(jī)抽取一個(gè)樣本容量與小樣本容量相當(dāng)?shù)淖蛹?,另一種是對(duì)小樣本實(shí)例進(jìn)行過抽樣。使用欠抽樣方法和過抽樣方法均可以減小兩樣本的非平衡程度。但這兩種方法存在一些弊端,如欠抽樣常常會(huì)丟失一些有用的多數(shù)類實(shí)例信息,過抽樣則會(huì)增加許多重復(fù)的數(shù)據(jù),并且這些數(shù)據(jù)不是獨(dú)立同分布的,容易增大過分?jǐn)M合的可能性。

      近十余年來,集成方法[10]被廣泛應(yīng)用于回歸問題和分類問題中。集成方法的核心思想是:對(duì)于一系列適合用于處理原始數(shù)據(jù)的簡(jiǎn)單模型,通過特定的算法或操作把它們組合成一個(gè)預(yù)測(cè)穩(wěn)定性和準(zhǔn)確度更高的新模型。集成子抽樣方法貫徹這一思想,通過組合應(yīng)用在不同混合樣本的最近鄰計(jì)算過程,從數(shù)據(jù)水平層面減小樣本非平衡度,具體過程如下:對(duì)于每一個(gè)混合樣本點(diǎn)Zi(i = 1,…,m),若Zi∈X,則從大樣本Y 中隨機(jī)抽取一個(gè)容量為ns的子樣本Si;若Zi∈Y,則從樣本Y{Zi}中隨機(jī)抽取一個(gè)容量為ns-1 的子樣本Si,并將樣本點(diǎn)Zi放入集合Si中,最后得到m 個(gè)容量為n + ns的混合樣本X ∪Si。利用每一個(gè)混合樣本點(diǎn)和相應(yīng)的混合樣本進(jìn)行KNN 計(jì)算。

      與僅對(duì)大樣本進(jìn)行一次簡(jiǎn)單子抽樣的樣本均衡方法相比,集成子抽樣對(duì)混合樣本的每一個(gè)點(diǎn)獨(dú)立地從大樣本中進(jìn)行一次隨機(jī)子抽樣,充分保留了所有樣本點(diǎn)的實(shí)例信息,同時(shí)事先對(duì)樣本進(jìn)行約簡(jiǎn),能快速得出待判樣本點(diǎn)是否屬于同一樣本。進(jìn)行樣本動(dòng)態(tài)變化的KNN 計(jì)算,提高了逐點(diǎn)統(tǒng)計(jì)量的計(jì)算效率和準(zhǔn)確性。

      2.2 基于集成子抽樣的改進(jìn)SSS-NN 檢驗(yàn)

      當(dāng)兩個(gè)樣本非平衡度很大時(shí),即n ?~n 時(shí),隨著樣本非平衡度的增大,SSS-NN 檢驗(yàn)方法的檢驗(yàn)性能急劇減弱。這種現(xiàn)象同樣存在于游程檢驗(yàn)[11]和交叉檢驗(yàn)[12]中,都是由大樣本的主導(dǎo)性影響所引起的。簡(jiǎn)單地說,當(dāng)大樣本占混合樣本的大多數(shù)時(shí),無論在H0下還是在H1下,小樣本X 上的被加數(shù)

      較小,大樣本Y 上的被加數(shù)

      較大,增大了KNN 計(jì)算的誤判率,從而導(dǎo)致SSS-NN方法在檢驗(yàn)兩個(gè)未知分布的差異時(shí)性能減弱。第1節(jié)的式(5)、式(6)從理論上解釋了這一現(xiàn)象的本質(zhì)。

      文中提出集成子抽樣方法從數(shù)據(jù)層面均衡兩樣本容量,以改善樣本容量不平衡帶來的問題。進(jìn)行集成子抽樣時(shí),選擇隨機(jī)抽取容量為n 的子樣本,為的是使檢驗(yàn)的兩個(gè)樣本容量相當(dāng),從數(shù)據(jù)水平層面減小大樣本的主導(dǎo)性影響。另一方面,當(dāng)ns≠n時(shí),還要考慮不同樣本點(diǎn)共享同一近鄰點(diǎn)這一問題,此時(shí)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的漸近方差十分困難。從而明智的選擇是令ns= n。

      文中在SSS-NN 檢驗(yàn)的基礎(chǔ)上,將集成子抽樣與權(quán)重調(diào)整相結(jié)合提出改進(jìn)的SSS-NN 檢驗(yàn)——集成子抽樣多元雙樣本檢驗(yàn)(以下簡(jiǎn)稱MESS-NN 檢驗(yàn))。具體步驟如下:

      1)對(duì)問題提出檢驗(yàn)假設(shè),并預(yù)先選定顯著性水平。通常情況下取α = 0.01 或0.05。

      2)對(duì)待檢驗(yàn)的兩個(gè)樣本進(jìn)行集成子抽樣。

      3)進(jìn)行集成子抽樣后,采用基于歐幾里得距離的k-最近鄰算法進(jìn)行逐點(diǎn)統(tǒng)計(jì),即對(duì)每一個(gè)混合樣本點(diǎn)Zi,計(jì)算與其屬于同一樣本的近鄰樣本點(diǎn)數(shù)量在混合樣本X ∪Si中所占的比例:

      該步驟是對(duì)SSS-NN 檢驗(yàn)的逐點(diǎn)統(tǒng)計(jì)過程的一次改進(jìn),每一個(gè)混合樣本點(diǎn)進(jìn)行最近鄰計(jì)算的樣本空間都是不同的。

      4)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的樣本觀察值Tk,n。

      利用m 個(gè)逐點(diǎn)統(tǒng)計(jì)量構(gòu)造新的統(tǒng)計(jì)量時(shí),權(quán)值的選擇是一個(gè)很有意義的研究?jī)?nèi)容。由于進(jìn)行逐點(diǎn)統(tǒng)計(jì)的混合樣本點(diǎn)或者來自樣本X,或者來自樣本Y。上文提到過無論在零假設(shè)下還是備擇假設(shè)下,最近鄰計(jì)算的結(jié)果都受到大樣本的主導(dǎo)性影響,因此使用權(quán)重分別調(diào)整兩個(gè)待檢驗(yàn)樣本對(duì)檢驗(yàn)結(jié)果的影響,確切地說,在使用逐點(diǎn)統(tǒng)計(jì)量構(gòu)造檢驗(yàn)統(tǒng)計(jì)量時(shí),對(duì)屬于樣本的每一個(gè)混合樣本點(diǎn),通過賦予較小的權(quán)值調(diào)整相應(yīng)統(tǒng)計(jì)量的權(quán)重,從而減小大樣本的主導(dǎo)性對(duì)檢驗(yàn)統(tǒng)計(jì)量的影響。根據(jù)樣本非平衡度,選取點(diǎn)Zn+1,…,Zm的逐點(diǎn)統(tǒng)計(jì)量的權(quán)重為

      綜合上述集成子抽樣方法和權(quán)值調(diào)整方案,提出一種受樣本非平衡度影響較小的集成子抽樣多元雙樣本檢驗(yàn)統(tǒng)計(jì)量。于是,得到MESS-NN 檢驗(yàn)統(tǒng)計(jì)量如下:

      由于樣本集X 與樣本集Y 的檢驗(yàn)是非對(duì)稱的,因此要單獨(dú)考慮下列情形:(1)樣本集X 中的點(diǎn)互為近鄰,即

      (2)樣本集Y 中的點(diǎn)互為近鄰,即

      (3)樣本集X 中的點(diǎn)與樣本集Y 中的點(diǎn)有相同的近鄰,即

      在H0下,MESS-NN 檢驗(yàn)統(tǒng)計(jì)量的漸近零分布是以下正態(tài)分布:

      其中

      這里

      5)重復(fù)步驟2 ~4 N 次,并對(duì)N 次統(tǒng)計(jì)量的計(jì)算結(jié)果取平均值,一般來說,重復(fù)的次數(shù)越多,檢驗(yàn)結(jié)果越準(zhǔn)確。

      6)根據(jù)所提出的顯著水平,確定臨界值和拒絕域,并做出檢驗(yàn)決策。

      3 仿真實(shí)驗(yàn)與實(shí)證分析

      3.1 仿真實(shí)驗(yàn)

      在假設(shè)同一樣本數(shù)據(jù)服從以下6 組隨機(jī)選取的正態(tài)分布模型的前提下,用Monte-Carlo 方法分別生成1維和5 維的隨機(jī)樣本進(jìn)行仿真實(shí)驗(yàn),運(yùn)用SSS-NN 方法和MESS-NN 方法對(duì)隨機(jī)樣本進(jìn)行雙樣本檢驗(yàn),利用Matlab 軟件編程并繪制相應(yīng)的檢驗(yàn)效力圖。

      1)方差相同的正態(tài)分布。每一個(gè)模型隨機(jī)選取兩個(gè)樣本方差相同而樣本均值不同的正態(tài)分布。兩組分布的參數(shù)分別為

      模型1.1

      模型1.2

      2)均值相同的正態(tài)分布。每個(gè)模型的兩個(gè)分布都有相同的樣本均值向量μLd,不同的樣本協(xié)方差矩陣σ2Id,其中Ld為d 維單位向量,Id為d 階單位陣。分布的參數(shù)分別為

      模型2.1

      模型2.2

      3)方差、均值都不相同的正態(tài)分布。每個(gè)模型的兩個(gè)分布的樣本均值向量μLd和樣本協(xié)方差矩陣σ2Id均不同。分布的參數(shù)分別為

      模型3.1

      模型3.2

      使用SSS-NN 方法或MESS-NN 方法進(jìn)行400 次雙樣本檢驗(yàn),用拒絕H0的次數(shù)占檢驗(yàn)總次數(shù)的百分率來衡量檢驗(yàn)效力。在實(shí)驗(yàn)中分別選擇1 維和5 維的正態(tài)分布數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,對(duì)于每一個(gè)1 維或5維的正態(tài)分布模型,均從第1 個(gè)正態(tài)分布中隨機(jī)抽取一個(gè)容量為100 的小樣本,再?gòu)牡? 個(gè)正態(tài)分布中隨機(jī)抽取容量分別為100,400,1 600,6 400 的大樣本;在顯著性水平α = 0.05 下使用SSS-NN、MESS-NN 方法進(jìn)行檢驗(yàn),并做出檢驗(yàn)決策,最后計(jì)算檢驗(yàn)效力。以KNN 計(jì)算過程中k 的取值為橫坐標(biāo),以檢驗(yàn)效力為縱坐標(biāo),得到樣本非平衡度為q =1,4,16,64 時(shí)的檢驗(yàn)效力如圖1,2 所示。由于每個(gè)模型中的兩個(gè)正態(tài)分布均不相同,因此越是檢驗(yàn)效力強(qiáng)的檢驗(yàn)方法,越應(yīng)該以大概率拒絕H0。

      圖1(a)和圖2(a)分別展示SSS-NN、MESS-NN方法應(yīng)用于隨機(jī)模型1.1 的檢驗(yàn)效力,圖1(b)和圖2(b)是模型2.1 的檢驗(yàn)結(jié)果,圖1(c)和圖2(c)是模型3.1 的檢驗(yàn)結(jié)果等。觀察圖1(a)~1(f)可知,當(dāng)小樣本容量固定時(shí),隨著非平衡度q 的增大,SSS-NN 方法的檢驗(yàn)效力急劇減弱,在多元情形下,樣本比為16 或64 時(shí)檢驗(yàn)效力不高于20%,甚至無法檢驗(yàn)兩個(gè)樣本之間的差異,如圖1(b)、圖1(e)、圖(f)所示。相比之下,觀察圖2(a)~2(f)可知,MESS-NN 受比值q 的影響較小,樣本不平衡下檢驗(yàn)效力甚至高達(dá)80%,說明MESS-NN 方法在檢驗(yàn)非平衡的多元雙樣本問題時(shí)比SSS-NN 方法更優(yōu)越。

      3.2 實(shí)例分析

      收集、整理了淮河流域2007 年1 月至2011 年12月和白水河流域2010 年1 月至2011 年12 月的歷史測(cè)量數(shù)據(jù),對(duì)于個(gè)別缺測(cè)的氣象數(shù)據(jù),利用鄰近站點(diǎn)資料進(jìn)行相關(guān)插補(bǔ)。隨后分別使用SSS-NN 檢驗(yàn)和MESS-NN 檢驗(yàn)分析這兩個(gè)流域在逐日平均流量、逐日降水量、逐日水面蒸發(fā)量這3 個(gè)方面是否存在顯著差異。

      數(shù)據(jù)預(yù)處理首先采用算術(shù)平均法將流域內(nèi)的各站點(diǎn)降水轉(zhuǎn)換成面平均降水,其中原始數(shù)據(jù)有淮河流域的大坡嶺站、黃岡站等13 個(gè)氣象站點(diǎn),白水河有七鄰站、葉氏祠站等12 個(gè)氣象站點(diǎn)。處理得到的逐日降水量與對(duì)應(yīng)日期的逐日平均流量、逐日水面蒸發(fā)量構(gòu)成1 個(gè)三維向量,得到淮河流域1 825 個(gè)樣本點(diǎn),白水河流域730 個(gè)樣本點(diǎn),樣本容量比q =2.5。將SSS-NN 方法和MESS-NN 方法應(yīng)用于這兩個(gè)樣本,取顯著性水平α = 0.05,所得檢驗(yàn)效力比較結(jié)果如表1 所示。

      圖1 SSS-NN 方法在q = 1,4,16,64 時(shí)的檢驗(yàn)效力實(shí)驗(yàn)結(jié)果Fig.1 Simulation results comparing the power of the SSS-NN for q = 1,4,16,64

      圖2 MESS-NN 方法在q = 1,4,16,64 時(shí)的檢驗(yàn)效力實(shí)驗(yàn)結(jié)果Fig.2 Simulation results comparing the power of the MESS-NN for q = 1,4,16,64

      表1 原始SSS-NN 方法和改進(jìn)SSS-NN 方法的檢驗(yàn)效力結(jié)果比較Tab.1 Power value for comparing the original SSS-NN and the improved SSS-NN method

      由表1 可知z >zα/2,即統(tǒng)計(jì)量的值落在了拒絕域,因此拒絕H0,認(rèn)為這兩個(gè)樣本存在顯著差異。圖3(a)、圖3(b)分別是兩個(gè)流域樣本的平均水面蒸發(fā)量分布圖,特別地,圖3(b)相對(duì)于圖3(a)而言呈現(xiàn)“長(zhǎng)尾”狀,顯然淮河流域樣本和白水河流域樣本存在顯著差異。因此對(duì)于SSS-NN 檢驗(yàn)方法而言,MESS-NN 檢驗(yàn)方法能以更高的檢驗(yàn)效力體現(xiàn)出這兩個(gè)樣本的顯著差異。

      圖3 淮河流域、白水河流域平均水面蒸發(fā)量分布Fig.3 Histograms of Huaihe River and Baihe River in precipitation

      事實(shí)上由于河流的平均流量、降水量、水面蒸發(fā)量受地理位置、地形、氣候、植被、水利調(diào)控等因素的影響[13-15],所以該檢驗(yàn)結(jié)果符合實(shí)際情況,是合理的。

      4 結(jié) 語

      為了解決非平衡多元雙樣本的檢驗(yàn)問題,將集成子抽樣方法應(yīng)用于基于KNN 算法的簡(jiǎn)單子抽樣多元雙樣本檢驗(yàn)中,由于進(jìn)行集成子抽樣,極大地保留了樣本數(shù)據(jù)的信息,因此有效地達(dá)到了平衡樣本容量的目的。同時(shí)由于構(gòu)造檢驗(yàn)統(tǒng)計(jì)量時(shí)采用了加權(quán)運(yùn)算,減弱了大樣本對(duì)KNN 計(jì)算結(jié)果帶來的主導(dǎo)性影響,提高了檢驗(yàn)效力。最后,多次重復(fù)檢驗(yàn),減小了混合樣本隨機(jī)性帶來的影響,進(jìn)一步提高了檢驗(yàn)結(jié)果的準(zhǔn)確率。仿真實(shí)驗(yàn)表明,集成子抽樣多元雙樣本檢驗(yàn)有效地改善了簡(jiǎn)單子抽樣多元雙樣本檢驗(yàn)在檢驗(yàn)非平衡多元雙樣本時(shí)檢驗(yàn)效力下降的問題。

      改進(jìn)后的簡(jiǎn)單子抽樣多元雙樣本檢驗(yàn)還有很多局限,如KNN 算法的計(jì)算時(shí)間過長(zhǎng)。另外,對(duì)于兩個(gè)樣本容量都較小且樣本非平衡的情形,過少的觀測(cè)點(diǎn)導(dǎo)致MESS-NN 方法的檢驗(yàn)效果不理想,因此尋找適用于這種情形的檢驗(yàn)方法也是一個(gè)值得研究的方向。

      [1]Bickel P J. A distribution free version of the Smirnov two sample test in the p-variate case[J]. The Annals of Mathematical Statistics,1969,40(1):1-23.

      [2]Friedman J H,Rafsky L C. Multivariate generalizations of the wald wolfowitz and smirnov two-sample tests[J]. The Annals of Statistics,1979,7(4):697-717.

      [3]Schilling M F. Multivariate two-sample tests based on nearest neighbors[J]. Journal of the American Statistical Association,1986,81(395):799-806.

      [4]Rosenbaum P R.An exact distribution-free test comparing two multivariate distributions based on adjacency[J]. Journal of the Royal Statistical Society:Series B:Statistical Methodology,2005,67(4):515-530.

      [5]Aslan B,Zech G. New test for the multivariate two-sample problem based on the concept of minimum energy[J]. Journal of Statistical Computation and Simulation,2005,75(2):109-119.

      [6]CHEN H,F(xiàn)riedman J H. New graph-based two-sample tests for multivariate distributions[BE/OL].2013-07-15. http://arxiv.org/abs/1307.629.

      [7]CHEN L,DOU W W,QIAO Z.Ensemble subsampling for imbalanced multivariate two-sample tests[J].Journal of the American Statistical Association,2013,108(504):1308-1323.

      [8]王永吉,楊慧中.基于K-近鄰的支持向量機(jī)多模型建模[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,9(1):7-10.

      WANG Yongji,YANG Huizhong,Compositional support vector machine model based on improved k-kearest neighbor algorithm[J].Journal of Jiangnan University:Natural Science Edition,2010,9(1):7-10.(in Chinese)

      [9]孫曉燕,張化祥,計(jì)華.用于不均衡數(shù)據(jù)集分類的KNN 算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(28):143-145.

      SUN Xiaoyan,ZHANG Huaxiang,JI Hua. Improved KNN algorithm in classification of imbalanced data set[J]. Computer Engineering and Applications,2011,47(28):143-145.(in Chinese)

      [10]石靜,邱立坤,王菲,等.相似詞獲取的集成方法[C]//孫茂松,陳群秀. 中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011),北京:清華大學(xué)出版社,2011:277-283.

      [11]滕云龍,師奕兵.GPS 載波相位測(cè)量數(shù)據(jù)的時(shí)間序列分析建模研究[J].電子測(cè)量與儀器學(xué)報(bào),2009,29(9):18-22.

      TENG Yunlong,SHI Yibing.Study on modeling of time series analysis for GPS carrier phase measurement data[J]. Journal of Electronic Measurement and Instrument,2009,23(9):18-22.(in Chinese)

      [12]張毅,劉毅堅(jiān),羅元.一種基于參數(shù)優(yōu)化C-SVM 的腦電信號(hào)分類方法及應(yīng)用[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2014,26(1):131-136.

      ZHANG Yi,LIU Yijian,LUO Yuan. A parameter optimized C-SVM approach for EEG classification and its application[J].Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition,2014,26(1):131-136.(in Chinese)

      [13]王國(guó)慶,張建云,劉九夫,等.中國(guó)不同氣候區(qū)河川徑流對(duì)氣候變化的敏感性[J].水科學(xué)進(jìn)展,2011,22(3):307-314.

      WANG Guoqing,ZHANG Jianyun,LIU Jiutian,et al. The sensitivity of runoff to climate change in different climatic regions in China[J].Advances in Water Science,2011,22(3):307-314.(in Chinese)

      [14]袁飛.考慮植被影響的水文過程模擬研究[D].南京:河海大學(xué),2006.

      [15]曹宇峰,劉高峰,王慧敏.基于Mann-Kendall 方法的淮河流域降雨量趨勢(shì)特征研究[J].安徽師范大學(xué)學(xué)報(bào):自然科學(xué)版,2014,37(5):477-480.

      CAO Yufeng,LIU Gaofeng,WANG Huimin. Huaihe river basin rainfall trend characteristics research based on Mann-Kendall method[J].Journal of Anhui Normal University:Natural Science,2014,37(5):477-480.(in Chinese)

      猜你喜歡
      樣本容量正態(tài)分布效力
      債權(quán)讓與效力探究
      采用無核密度儀檢測(cè)壓實(shí)度的樣本容量確定方法
      保證合同中保證人違約責(zé)任條款的效力研究
      基于對(duì)數(shù)正態(tài)分布的出行時(shí)長(zhǎng)可靠性計(jì)算
      正態(tài)分布及其應(yīng)用
      論行政審批對(duì)合同效力的影響
      正態(tài)分布題型剖析
      χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
      論合意取得登記公示型動(dòng)產(chǎn)擔(dān)保時(shí)的登記效力
      廣義高斯分布參數(shù)估值與樣本容量關(guān)系
      吉安县| 平乐县| 东阳市| 桐梓县| 探索| 吐鲁番市| 哈巴河县| 友谊县| 通山县| 汉源县| 安塞县| 石家庄市| 洞头县| 仙桃市| 广东省| 江孜县| 中西区| 江北区| 达州市| 汨罗市| 黎川县| 阳信县| 沈丘县| 当涂县| 松原市| 文水县| 漾濞| 镇安县| 阳原县| 呼图壁县| 滕州市| 双江| 始兴县| 东平县| 中超| 新田县| 白朗县| 南华县| 新乡县| 谢通门县| 沂南县|