中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080) 周 倩 張晉昕
時(shí)間序列是按時(shí)間順序根據(jù)一定采樣間隔對(duì)客觀事物進(jìn)行動(dòng)態(tài)觀察得到的一組數(shù)據(jù),由于每次采樣存在隨機(jī)因素的作用,各次觀察指標(biāo)都是隨機(jī)的,因此時(shí)間序列被稱作隨機(jī)過程的一次樣本實(shí)現(xiàn)。周期成分常常是一個(gè)時(shí)間序列具有的特征,如生物醫(yī)學(xué)信號(hào)處理中的心電圖、腦電圖、醫(yī)院月度門診量等都具有一定的周期性。準(zhǔn)確地把握時(shí)間序列的周期特征對(duì)于揭示動(dòng)態(tài)數(shù)據(jù)蘊(yùn)含的客觀信息具有重要意義。一方面通過檢測(cè)序列所具有的真實(shí)周期,用于序列的信息特征分析;另一方面,一些研究不局限于發(fā)現(xiàn)序列的周期成分,而是進(jìn)一步利用具有周期特性的時(shí)間序列作為前提進(jìn)行預(yù)測(cè)與預(yù)報(bào)、檢測(cè)不規(guī)則波動(dòng)、發(fā)現(xiàn)序列異同、判斷移動(dòng)假日效應(yīng)等〔1〕。
時(shí)間序列通常由豐富的信息疊加而成,如序列按照時(shí)間變化的趨勢(shì)、序列的周期或者季節(jié)波動(dòng)、序列的隨機(jī)波動(dòng)等。具有明顯周期成分的時(shí)間序列也會(huì)在圖中顯示出周期性質(zhì)來,但時(shí)間序列的一些周期信息常常蘊(yùn)含于序列內(nèi)部,通過肉眼對(duì)時(shí)序圖的判讀不能發(fā)現(xiàn)它,需要通過特定的方法將這種周期信息提取出來。早在1929年統(tǒng)計(jì)學(xué)家Fisher就對(duì)時(shí)間序列周期性檢驗(yàn)方法進(jìn)行過研究〔2〕,他運(yùn)用傅立葉變換獲得時(shí)間序列周期圖并提出基于周期圖法的Fisher g統(tǒng)計(jì)量用于檢測(cè)周期圖峰值,并判斷序列是否存在周期成分,該方法被研究者廣泛引用〔3〕。但時(shí)間序列有不同特點(diǎn),如序列長(zhǎng)短不同、背景噪聲大小不同,這些都在一定程度上影響了Fisher方法的周期性檢驗(yàn)效果〔4〕;特別是針對(duì)取值為屬性、類別的時(shí)間序列(定性時(shí)間序列),F(xiàn)isher方法更是顯現(xiàn)出較弱的檢驗(yàn)?zāi)芰?。Stoffer等人〔5〕研究發(fā)現(xiàn)若將定性時(shí)間序列進(jìn)行定量化處理,不同的量化方式會(huì)影響周期圖的形式,從而對(duì)同一序列歸納出截然不同的周期特征。因此,有必要研究針對(duì)定性資料的時(shí)間序列周期性檢驗(yàn)的方法。本文將對(duì)時(shí)間序列周期性檢驗(yàn)方法進(jìn)行綜述。
定量資料周期性檢驗(yàn)方法以傅立葉變換后周期圖Fisher g統(tǒng)計(jì)量檢驗(yàn)為主,但是g統(tǒng)計(jì)量只能檢測(cè)出時(shí)間序列周期圖有統(tǒng)計(jì)學(xué)意義的最大峰值,Whittle將其推廣到檢驗(yàn)第二大峰值g2;Granger和Rosenblatt進(jìn)一步推廣到檢驗(yàn)第r大峰值gr,這樣就可以依次檢測(cè)出多個(gè)周期成分〔6〕。此外 Chin(1989)〔7〕、Liavas(1998)〔8〕等人也基于周期圖各自構(gòu)造了不同的統(tǒng)計(jì)量用于檢驗(yàn)時(shí)間序列的周期性。檢驗(yàn)統(tǒng)計(jì)量的重新構(gòu)造為應(yīng)用者提供了有力的周期圖峰值檢驗(yàn)工具,但是構(gòu)造的統(tǒng)計(jì)量需要推導(dǎo)其概率分布或者給出計(jì)算P值的方法,理論性強(qiáng),因此只在數(shù)理統(tǒng)計(jì)領(lǐng)域有所使用。
周期圖Ij在統(tǒng)計(jì)量的構(gòu)造中起著重要的作用。周期圖Ij是功率譜f(λ)估計(jì)的一種,并且是f(λ)的漸進(jìn)無偏估計(jì),不是一致估計(jì),即當(dāng)N→∞時(shí) E(I(λ)-f(λ))2不趨于0。改進(jìn)功率譜估計(jì)方法,利用譜窗周期圖估計(jì)、時(shí)窗周期圖估計(jì)、平均周期圖法等,是周期性檢驗(yàn)過程中采用較多的一系列改進(jìn)嘗試〔3〕。
近年來,小波分析在信號(hào)分析、圖像處理、語音識(shí)別等領(lǐng)域的廣泛應(yīng)用推動(dòng)了其數(shù)學(xué)理論的發(fā)展,小波函數(shù)的形式越來越豐富。小波分析基于小波函數(shù),它能夠探索周期的局部變化。Benedetto等(1998,2002)〔9〕用基于小波變換的算法來檢測(cè)心電圖、腦電圖周期成分。Broutin(2005)〔10〕對(duì)21個(gè)國(guó)家的百日咳數(shù)據(jù)進(jìn)行小波分析探討發(fā)病的周期特點(diǎn)。
小波分析與傅立葉分析適用范圍最大的不同在于前者對(duì)于分析非平穩(wěn)時(shí)間序列周期性有較好的效果?!?1〕傅立葉分析方法在處理復(fù)雜分布的時(shí)間序列時(shí)不適用,因?yàn)樗荒芸紤]序列周期行為的變化即序列的非平穩(wěn)性。小波分析對(duì)于識(shí)別隨著時(shí)間推移序列周期的局部變化比較適合,除了可以提取時(shí)間序列的周期信息外,還能夠提供周期成分隨時(shí)間變化的演變過程。如決定序列的周期成分是不是在某變異發(fā)生前后有變化。Yi等(2010)〔12〕、George 等(2010)〔13〕、Ruhua等(2010)〔14〕基于小波變換的方法進(jìn)行改進(jìn)提出新的分析方法以及算法來實(shí)現(xiàn)對(duì)不同特征時(shí)間序列周期成分的檢測(cè),大大推進(jìn)了非平穩(wěn)時(shí)間序列周期性檢驗(yàn)技術(shù)的發(fā)展。此外,當(dāng)序列長(zhǎng)度較短、噪聲不明確時(shí),F(xiàn)isher統(tǒng)計(jì)量的檢驗(yàn)效能較低,因此 Alan(2009)〔15〕、Ptitsyn(2006)〔16〕、Tominaga(2010)〔17〕等人討論了針對(duì)短序列的周期性檢測(cè)改進(jìn)方法,Miew(2006)〔18〕、Niemisto(2007)〔19〕等人提出了針對(duì)噪聲的周期性檢測(cè)改進(jìn)方法,這些方法在特定的序列如基因表達(dá)水平時(shí)間序列中的應(yīng)用取得了較好的效果。貝葉斯方法在定量時(shí)間序列周期性檢驗(yàn)中的應(yīng)用也在不斷發(fā)展〔20〕?,F(xiàn)代譜估計(jì)方法如最大熵譜估計(jì)法,為克服經(jīng)典譜估計(jì)檢驗(yàn)效能的不足,近年來也運(yùn)用到周期性檢測(cè)〔21〕。
定性時(shí)間序列又稱分類時(shí)間序列,是指觀測(cè)值的取值范圍為有限狀態(tài)空間的時(shí)間序列,其取值只能表示狀態(tài)或者類別。定性時(shí)間序列廣泛存在于各個(gè)領(lǐng)域,圖1是一個(gè)定性時(shí)間序列實(shí)例,該序列記錄了一個(gè)正常足月嬰兒的每分鐘睡眠狀態(tài),共128分鐘(睡眠狀態(tài)包括六類:①輕度睡眠-微量交替,②輕度睡眠-高壓,③中度睡眠,④活躍睡眠/REM-低壓,⑤活躍睡眠-混合型,⑥清醒)。將各個(gè)狀態(tài)賦值是為了描述的方便,每個(gè)狀態(tài)取值可以是任意的,如果在當(dāng)前賦值下進(jìn)行傅立葉分析則只能測(cè)得這一種情況下序列的周期性,當(dāng)賦值改變以后傅立葉周期圖也將隨之改變。此外,傅立葉變換將序列分解為不同正弦波之和,但從波形分解的角度看定性時(shí)間序列實(shí)際上是由不同于正弦波形的直方波型疊加而成,Stoffer等人〔22〕通過對(duì)圖1所示分類時(shí)間序列研究發(fā)現(xiàn),如果對(duì)其進(jìn)行傅立葉變換周期圖分析,只能發(fā)現(xiàn)一個(gè)長(zhǎng)度為45分鐘的周期,而該序列從實(shí)際意義的角度看還存在一個(gè)長(zhǎng)度為9分鐘的周期。這說明傅立葉分析對(duì)定性時(shí)間序列周期信息挖掘不充分,這將嚴(yán)重影響人們對(duì)定性時(shí)間序列結(jié)構(gòu)的認(rèn)識(shí)和以之為依據(jù)的后續(xù)研究。因此定性時(shí)間序列的周期性檢驗(yàn)不能直接運(yùn)用定量資料時(shí)間序列周期性檢驗(yàn)的辦法,需要尋找更適合的檢驗(yàn)方法,但可以借鑒用于定量時(shí)間序列周期性檢驗(yàn)方法的原理。
圖1 正常足月嬰兒睡眠狀態(tài)時(shí)間序列圖
定量資料的時(shí)間序列分析采用傅立葉變換轉(zhuǎn)為頻域正弦波的疊加,得到傅立葉周期圖。定性資料時(shí)間序列的頻域分析則最早由 Stoffer等人(1991,1998)〔5,23〕進(jìn)行系統(tǒng)研究,并提出譜封分析法用于檢測(cè)平穩(wěn)、定性時(shí)間序列的周期性。
將定性時(shí)間序列變換為與多元時(shí)間序列相聯(lián)系的數(shù)值序列,進(jìn)而應(yīng)用傅立葉分析進(jìn)行周期性檢驗(yàn)是該方法的出發(fā)點(diǎn)。由于對(duì)定性時(shí)間序列不同類別賦值不同會(huì)導(dǎo)致周期信息發(fā)生改變,該方法提出在各個(gè)頻率下探討所有賦值方式的功率譜,其最大功率所占全部功率的比例即譜封,如果超過給定界值,則認(rèn)為其對(duì)應(yīng)賦值下的序列存在此頻率的周期信息,于是基于所有可能賦值方法找到序列潛在的全部周期。由于該方法包羅了序列全部賦值情況下任何可能的標(biāo)準(zhǔn)功率譜,因此被命名為譜封分析法。盡管定性時(shí)間序列仍然是一維時(shí)間序列,但是譜封法首先不是對(duì)序列賦值而是對(duì)序列進(jìn)行指示向量變換,即將每個(gè)類別獨(dú)立成一個(gè)取值為0、1的時(shí)間序列,根據(jù)類別數(shù)最終將一個(gè)定性序列變換成類別數(shù)減1的多維0-1變量時(shí)間序列。然后運(yùn)用該多維序列的功率譜密度作為媒介求出每個(gè)頻率下的最優(yōu)賦值組合。該方法對(duì)基因堿基序列bnrf1ebv(EBV)數(shù)據(jù)進(jìn)行了檢驗(yàn),發(fā)現(xiàn)在長(zhǎng)度為4000的序列上有且只有一個(gè)3的周期,并給出了其對(duì)應(yīng)的賦值。根據(jù)譜封分析法思想,對(duì)原始序列進(jìn)行此賦值后進(jìn)行傅立葉分析即可發(fā)現(xiàn)這個(gè)周期,且進(jìn)行任何其他賦值將無法找到周期。
由于功率譜分析法要求定性時(shí)間序列是平穩(wěn)的,但是對(duì)于長(zhǎng)時(shí)間序列,特別是DNA序列,除了考察整個(gè)序列的周期性外,還需要檢測(cè)局部周期信息,這些周期信息可能會(huì)暗示序列潛在的結(jié)構(gòu)規(guī)律,功率譜分析則無法達(dá)到此目的。Wang(2002)〔24〕等人在此問題上提出解決非平穩(wěn)定性時(shí)間序列的周期性檢驗(yàn)方法。該方法運(yùn)用譜封法的思想并結(jié)合小波分析用于非平穩(wěn)序列周期性檢驗(yàn),產(chǎn)生功率譜圖(spectragram)和尺度譜圖(scalograms)用于檢測(cè)定性時(shí)間序列的周期。
功率譜分析是最常用于檢驗(yàn)定性時(shí)間序列周期性的有效方法。Berger(2003)〔25〕等人對(duì)三種功率譜分析方法進(jìn)行了比較,它們是DFT(離散傅立葉變換)、WDFT(反常離散傅立葉變換)和 WHT(沃爾什變換)。用DNA序列進(jìn)行分析發(fā)現(xiàn)由于WDFT允許頻率分辨率不斷增加,WDFT能夠觀察到DFT不能觀察到的周期行為,而對(duì)于已知周期T=2的行為的DNA序列用WHT有較好的表現(xiàn)。
由于沃爾什(Walsh)函數(shù)更符合定性資料時(shí)間序列的波形特征,因此沃爾什傅立葉變換周期圖檢驗(yàn)法有較多的應(yīng)用。沃爾什傅立葉變換利用沃爾什函數(shù)的特點(diǎn)(直方波且只取值1和-1)對(duì)進(jìn)行指示變量變換后的定性時(shí)間序列進(jìn)行譜分析,得到沃爾什傅立葉變換周期圖(Walsh-Fourier periodogram,WFP)。參考定量時(shí)間序列周期圖峰值檢驗(yàn)的Fisher統(tǒng)計(jì)量檢驗(yàn)法,McGee(1998,2007)〔26〕構(gòu)造出多個(gè)用于檢驗(yàn)沃爾什傅立葉周期圖峰值的統(tǒng)計(jì)量,包括檢驗(yàn)最大峰值及第k個(gè)峰值,來判斷序列對(duì)應(yīng)的周期是否為有統(tǒng)計(jì)學(xué)意義的周期。通過比較分析,證實(shí)各個(gè)統(tǒng)計(jì)量均有相近且不錯(cuò)的檢驗(yàn)效能。
時(shí)間序列周期性檢驗(yàn)一直以來都很受研究者重視,特別是對(duì)生物醫(yī)學(xué)信號(hào)處理中的心電圖、腦電圖序列,以及近年來研究的熱點(diǎn)DNA堿基序列,其周期性特征為病因診斷、發(fā)現(xiàn)異常提供了有力支持。Stoffer(1988)〔27〕等人收集了24名新生嬰兒的睡眠狀態(tài)定性時(shí)間序列(12名來自母親在孕期戒酒的嬰兒總體(非暴露組),12名來自母親在孕期適度飲酒的總體(暴露組))進(jìn)行沃爾什傅立葉變換,比較暴露組與非暴露組平均沃爾什變換周期圖,發(fā)現(xiàn)兩組在小周期處差異有統(tǒng)計(jì)學(xué)意義,在大周期處未檢出差異。暴露組與非暴露組睡眠周期的差異反映了嬰兒中樞神經(jīng)系統(tǒng)發(fā)育的不同;暴露組嬰兒睡眠狀態(tài)失調(diào)可能揭示多種神經(jīng)遞質(zhì)的改變,提示母親孕期飲酒可能影響嬰兒神經(jīng)系統(tǒng)發(fā)育。由于樣本量不夠大以及檢驗(yàn)方法發(fā)現(xiàn)差異的能力不足,因此無法做出因果推斷,需做進(jìn)一步研究。
DNA序列不是嚴(yán)格的時(shí)間序列,但是從廣義角度來看它具有定性時(shí)間序列的特點(diǎn),因此常借助定性時(shí)間序列分析的方法。對(duì)DNA序列的周期性研究,是為了揭示序列結(jié)構(gòu)和功能的特征,廣泛的研究發(fā)現(xiàn)DNA序列普遍存在3的周期〔28〕,但不同的序列各自也存在特定的周期特點(diǎn),并且對(duì)于非正常人某基因片段的周期性可能異于正常人,因此周期性檢驗(yàn)特別是周期圖可以為疾病診斷提供依據(jù)〔31〕。
時(shí)間序列周期性的挖掘在醫(yī)學(xué)領(lǐng)域有著廣泛的應(yīng)用價(jià)值,我國(guó)一直少有該方面的深入應(yīng)用研究,特別是對(duì)定性時(shí)間序列的研究有待加強(qiáng)。因此將該方法引入醫(yī)學(xué)研究并對(duì)方法進(jìn)行適當(dāng)改進(jìn)以適應(yīng)醫(yī)學(xué)時(shí)間序列的特點(diǎn),為疾病診斷、病因探討提供一種新的方法和思路是有價(jià)值的。
1.薛允蓮,張晉昕.時(shí)間序列分析中的移動(dòng)假日效應(yīng).中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(5):502-504.
2.Fisher RA.Tests of significance in harmonic analysis.Proceedings of the Royal Society of London.Series A,Containing Papers of a Mathematical and Physical Character,1929,125(796):54-59.
3.Ahdesmaki M,Lahdesmaki H,Yli-Harja O.Robust Fisher's Test for Periodicity Detection in Noisy Biological Time Series.Genomic Signal Processing and Statistics,2007.GENSIPS 2007.IEEE International Workshop on,2007,1-4.
4.Stoffer DS,Tyler DE,Mcdougall AJ.Spectral Analysis for Categorical Time Series:Scaling and the Spectral Envelope.Biometrika,1993,83(3):611-622.
5.Stoffer DS.Walsh-Fourier Analysis and Its Statistical Applications.Journal of the American Statistical Association,1991,86(414):461-479.
6.顧嵐.時(shí)間序列分析在經(jīng)濟(jì)中的應(yīng)用.北京:中國(guó)統(tǒng)計(jì)出版社,1994:306-309.
7.Artis M,Hoffmann M,Nachane D,et al.The detection of hidden periodicities:A comparison of alternative methods.Paper provided by European University Institute in its series Economics Working Papers with number ECO2004/10.
8.Liavas AP,Moustakides GV,Henning G,et al.A periodogram-based method for the detection of steady-state visually evoked potentials.Biomedical Engineering,IEEE Transactions on,1998,45(2):242-248.
9.Benedetto JJ,Pfander GE.Periodic Wavelet Transforms and Periodicity Detection.SIAM Journal on Applied Mathematics,2002,62(4):1329-1368.
10.Broutin H,Guegan J,Elguero E,et al.Large-Scale Comparative Analysis of Pertussis Population Dynamics:Periodicity,Synchrony,and Impact of Vaccination.Am.J.Epidemiol,2005,161(12):1159-1167.
11.Grenfell BT,Bjornstad ON,Kappey J.Travelling waves and spatial hierarchies in measles epidemics,2001,414(6865):716-723.
12.Yi H,F(xiàn)an QB.An algorithm for the determination of multi-period structure of time series.Information and Automation(ICIA),2010 IEEE International Conference on,2010,1684-1689.
13.George T,Thomas T.Discrete wavelet transform de-noising in eukaryotic gene splicing.BMC Bioinformatics,2010,11(Suppl 1):S50.
14.Cai RH,F(xiàn)an QB.Period analysis based on SVM and wavelet variance for time series.Intelligent Computing and Integrated Systems(ICISS),2010 International Conference on,2010,404-409.
15.Liew AWC,Law NF,Cao XQ,et al.Statistical power of Fisher test for the detection of short periodic gene expression profiles.Pattern Recognition,2009,42(4):549-556.
16.Ptitsyn A,Zvonic S,Gimble J.Permutation test for periodicity in short time series data.BMC Bioinformatics,2006,7(Suppl 2):S10.
17.Tominaga D.Periodicity detection method for small-sample time series datasets.Bioinform Biol Insights,2010,4:127-136.
18.Miew KC,Kong CL,Levy D,et al.Periodicity Identification of Microarray Time Series Data based on Spectral Analysis.Systems,Man and Cybernetics,2006.SMC.06.IEEE International Conference on,2006:1281-1285.
19.Niemisto A,Nykter M,Aho T,et al.Computational Methods for Estimation of Cell Cycle Phase Distributions of Yeast Cells.Journal on Bioinformatics and Systems Biology,2007,2007(1):46150.
20.羅同勇,周敦金,Sumi A,等.最大熵方法-功率譜密度分析法在時(shí)間序列資料研究中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(5):477-479.
21.Andersson C,Isaksson A,Gustafsson M.Bayesian detection of periodic mRNA time profiles without use of training examples.BMC Bioinformatics,2006,7(1):63.
22.Stoffer DS.Walsh-Fourier Analysis and Its Statistical Applications.Journal of the American Statistical Association,1991,86(414):461-479.
23.Stoffer DS,Tyler DE.Matching sequences:Cross-spectral analysis of categorical time series.Biometrika,1998,85(1):201-213.
24.Wang W,Johnson DH.Computing linear transforms of symbolic signals.IEEE Transactions on Signal Processing,2002,50(3):628-634.
25.Berger JA,Mitra SK,Astola J.Power spectrum analysis for DNA sequences.Signal Processing and Its Applications.Proceedings of Seventh International Symposium on,2003:29-32.
26.McGee M.Tests for Multiple Peaks in the Spectra of Categorical Time Series.Communications in Statistics-Theory and Methods,2007,36(16):2891-2900.
27.Stoffer DS,Scher MS,Richardson GA,et al.A Walsh-Fourier Analysis of the Effects of Moderate Maternal Alcohol Consumption on Neonatal Sleep-State Cycling.Journal of the American Statistical Association,1988,83(404):954-963.
28.Papaspiridis AA.Frequency-domain analysis for intron prediction.Information Technology and Applications in Biomedicine(ITAB),2010 10th IEEE International Conference,2010:1-4.
中國(guó)衛(wèi)生統(tǒng)計(jì)2013年3期