汪 洋,陳海燕,彭艷兵
(1.武漢郵電科學(xué)研究院 通信與信息系統(tǒng),湖北 武漢430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京210019)
模糊時(shí)間序列模型在論域定義上的研究
汪 洋1,2,陳海燕1,2,彭艷兵1,2
(1.武漢郵電科學(xué)研究院 通信與信息系統(tǒng),湖北 武漢430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京210019)
文中基于模糊時(shí)間序列模型,提出了如何定義論域的方法。預(yù)測人員在不斷地應(yīng)用模糊時(shí)間序列模型進(jìn)行預(yù)測的同時(shí),也對此模型進(jìn)行了不同方面的改進(jìn),但是大部分主要包括兩個(gè)方面:一是論域劃分,而是模糊關(guān)系表示。在論域劃分上面,現(xiàn)有的研究都是簡單的向上和向下取整的方法,沒有意識(shí)到論域區(qū)間的定義也會(huì)影響到預(yù)測的結(jié)果的原因,所以本文研究了新的定義論域區(qū)間的方法,本文新的方法中提出論域區(qū)間的定義和當(dāng)前類別的數(shù)據(jù)分布有關(guān),這樣充分考慮了樣本數(shù)據(jù)的分布情況,提高了論域間隔的準(zhǔn)確度和可解釋性。最后,本文應(yīng)用阿拉巴馬州大學(xué)的預(yù)測結(jié)果和最新的論域劃分方法進(jìn)行了比較,結(jié)果表明了此方法的有效性。
模糊時(shí)間序列;論域區(qū)間定義;數(shù)據(jù)分布;論域劃分
預(yù)測問題已經(jīng)是這個(gè)時(shí)代研究的重點(diǎn),做好市場調(diào)研,分析消費(fèi)者的習(xí)慣性行為,預(yù)測消費(fèi)者的消費(fèi)傾向從而進(jìn)行針對性的推銷使企業(yè)獲利。模糊時(shí)間序列模型應(yīng)用到各行各業(yè),包括股票預(yù)測[1-2]、溫度預(yù)測[3]、氣候預(yù)測[4]、環(huán)境污水預(yù)測[5]等,預(yù)測的模型有很多,經(jīng)典時(shí)間序列預(yù)測模型可以處理很多的預(yù)測問題,但是也有局限性,它依賴大量的歷史數(shù)據(jù),不能有效的預(yù)測歷史數(shù)據(jù)是語言值、不完整或是不確定的問題。1965年美國自動(dòng)化控制專家Zadeh教授提出了模糊理論和模糊邏輯的概念,并初步建立了處理帶有不確定的、模糊的語義問題的模型[6];1994年,Song、Chrisom運(yùn)用Zadeh教授的理論,建立針對模糊時(shí)間序列預(yù)測的模型[7-8],為模糊時(shí)間序列預(yù)測理論奠定了基礎(chǔ)。其預(yù)測框架由4個(gè)步驟組成:1)定義論域和進(jìn)行論域的模糊劃分;2)將歷史數(shù)據(jù)模糊化;3)建立模糊邏輯關(guān)系;4)去模糊化后預(yù)測。從預(yù)測步驟出發(fā),研究人員主要集中在如何劃分論域,如何建立模糊關(guān)系,如何去模糊化上面,卻忽視了論域定義的重要性。在提出聚類算法之前,學(xué)者們在定義整個(gè)論域的時(shí)候基本上采用的簡單的向上向下取整的方法。2008-2011年之間,研究此模型的課題組,提出了聚類算法[9-11],即首先將樣本數(shù)據(jù)進(jìn)行分類,然后再定義每類數(shù)據(jù)的論域。無論是將將樣本數(shù)據(jù)分類還是沒有將樣本數(shù)據(jù)分類,學(xué)者的都沒有意識(shí)到定義論域的重要性,只是將樣本數(shù)據(jù)的最小值向下取整,樣本數(shù)據(jù)的最大值向上取整。文中研究了定義論域的方法,不再是簡單的取整,而是利用分類后的數(shù)據(jù)的集中程度來定義論域。
1.1 模糊時(shí)間序列的定義
定義1.1[12](模糊集)設(shè)U為給定論域,將論域劃分為n個(gè)子區(qū)間,即U={u1,u2,…,un},則定義在論域U中的模糊集合A表示為:
其中,fAi(·)是模糊集合Ai的隸屬函數(shù),fAi(·):U→[0,1],uk是模糊集合Ai的一個(gè)因素。fAi(uk)是uz對模糊集合Ai的隸屬度,fAi(uk)∈[0,1],k=1,2,…,n。
定義1.2[13](模糊時(shí)間序列)對任一固定的t=(…,1,2,3,…),設(shè)Y(t)?R,即為實(shí)數(shù)域的子集,Y(t)上定義著一組模糊集 fi(t)(i=1,2…),且 F(t)={f1,f2(t),…},則我們稱F(t)為定義在Y(t)上的模糊時(shí)間序列。
定義1.3[13](模糊關(guān)系)假設(shè)定義R(t,t-1)為F(t-1)到F(t)的模糊關(guān)系,滿足F(t)=F(t-1)°R(t,t-1),則可以用模糊邏輯關(guān)系F(t-1)→F(t)表示,F(xiàn)(t-1),F(xiàn)(t)都是模糊集,“°”表示合成運(yùn)算,關(guān)系R定義在F(t)上的一階模糊關(guān)系。
定義1.4[13](左件、右件)假設(shè)F(t-1)=Ai,F(xiàn)(t)=Aj,則在兩個(gè)連續(xù)的觀測值F(t)和F(t-1)可以用一階模糊邏輯關(guān)系表示,記為Ai→Aj,稱Ai為模糊關(guān)系的左件,Aj為模糊關(guān)系的右件。
1.2 模糊時(shí)間序列模型建模和預(yù)測步驟
1)根據(jù)樣本數(shù)據(jù)和隸屬度函數(shù)定義論域并進(jìn)行區(qū)間的劃分;
2)根據(jù)樣本數(shù)據(jù)先后的觀測值模糊化;
3)建立模糊邏輯關(guān)系;
4)將觀測值模糊化并預(yù)測。
1.3 模型評估參數(shù)
使用相對誤差、平均誤差、均方誤差3個(gè)指標(biāo)對方法進(jìn)行評估。為預(yù)測值,yi為真實(shí)值,殘差為ei=。
1)相對誤差:記號(hào)為Δ,
2)平均誤差:記號(hào)為ME,
3)均方誤差:記號(hào)為MSE,
2.1 定于論域方法的闡述
在論域劃分上,研究學(xué)者的研究重點(diǎn)只是在如何劃分論域,而忽視了如何定義論域。1993年,Song和Chissom提出的模糊時(shí)間序列模型中,定義論域的方法就是整個(gè)樣本的最小值的向下取整和最大值的向上取整。2006年,Huarng[15]提出了基于比率的論域劃分方法,定義初始值的方法為:initial=a·b′×102,b′=b-1,其中a,b是0到9的任意數(shù)字,z可以是任意正整數(shù)、負(fù)整數(shù)或零,論域由初值開始,間隔通過比率進(jìn)行增長。到后來的模型研究中,基本上都是基于最原始的定義方法,即簡單的向下和向上取整的方法,所以本文研究論域定義的方法具有一定的實(shí)際意義。下面介紹本文定義論域的方法。
文中采用的預(yù)測模型是基于曲和陳的模型,采用的是多尺度論域劃分方法,與其他方法不同之處在于本文先計(jì)算每個(gè)類別的比率,再來定義論域。假設(shè)類別1通過多尺度比率算法計(jì)算的比率為ratio,則此類別的論域定義為:
其中,Dmin為類別1中樣本數(shù)據(jù)的最小值,Dmax為類別1中樣本數(shù)據(jù)的最大值。
2.2 新方法的驗(yàn)證-大學(xué)注冊人數(shù)的預(yù)測
模糊時(shí)間序列模型的研究學(xué)者們是基于阿拉巴馬州大學(xué)1971-1992年的注冊人數(shù)的進(jìn)行預(yù)測,本文也是采用此作為預(yù)測樣本,與前人的預(yù)測結(jié)果進(jìn)行比較,表1是阿拉巴馬州大學(xué)的實(shí)際注冊人數(shù)以及每年的變化值。
2.3 預(yù)測步驟
模型的預(yù)測步驟為:
1)論域區(qū)間定義;
2)劃分論域;
3)定義模糊集,樣本數(shù)據(jù)模糊化;
4)建立模糊邏輯關(guān)系和模糊邏輯關(guān)系組;
5)添加啟發(fā)式知識(shí),建立啟發(fā)式模糊邏輯關(guān)系組;
6)去模糊化并預(yù)測。
步驟1:論域區(qū)間定義。
步驟1.1:表1中記錄了阿拉巴馬州大學(xué)22年的注冊人數(shù),將這些數(shù)據(jù)從小到大排序,得到的樣本數(shù)據(jù)為:
步驟1.2:利用FCM算法將樣本數(shù)據(jù)分成X1,X2,X33類,分成的結(jié)果如下:
步驟1.3計(jì)算X1,X2,X33類數(shù)據(jù)的比率。利用公式(5):
分別計(jì)算X1,X2,X33類數(shù)據(jù)的相鄰數(shù)據(jù)的相對誤差,然后在計(jì)算平均誤差,結(jié)果為:
ratio1=0.0307,ratio2=0.0109,ratio3=0.0161.
步驟1.4定義論域區(qū)間。
X1,X2,X33類數(shù)據(jù)的最大值和最小值分別記為:.從分類的結(jié)果可以知道D1min=13055,D1max=13867,D2min=14696,D2max=16919,D3min= 18150,D3max=19377。
利用公式(6)和(7)確定3類數(shù)據(jù)的論域區(qū)間,
故X1的論域區(qū)間是:
X2的論域區(qū)間是
X3的論域區(qū)間是
將步驟1.3計(jì)算的ratio1,ratio2,ratio3代入上面的公式,得到:
X1的論域區(qū)間是[12855,14080];X2的論域區(qū)間是[14616,17011];X3的論域區(qū)間是[18004,19533]。
步驟2:劃分論域。按照曲和陳的多尺度方法進(jìn)行劃分論域。
X1的初始值為12855,記為xinitial=12855。
當(dāng)j≥1時(shí),xj=(1+ratio)j×xinitial,uj=[xj-1,xj],最后得到23個(gè)間隔:
u1=[12855,13250],u2=[13250,13657], …,u23= [19501,19533]
步驟3:定義模糊集,并將樣本數(shù)據(jù)模糊化。
根據(jù)步驟2中得到的23個(gè)間隔,使用三角隸屬函數(shù),定義23個(gè)模糊集如下所示:
步驟3.2:根據(jù)模糊化的規(guī)則,將樣本數(shù)據(jù)模糊化,表2是樣本數(shù)據(jù)模糊化的結(jié)果。
步驟4:根據(jù)定義1.3,模糊關(guān)系的定義,建立模糊邏輯關(guān)系和模糊邏輯關(guān)系組。
步驟5:引入啟發(fā)式知識(shí),建立啟發(fā)式模糊邏輯關(guān)系組。
步驟6:去模糊化并預(yù)測。按照平均值去模糊化的規(guī)則。
2.4 預(yù)測結(jié)果比較
1)相對誤差
圖1將本文提出的論域定義方法與曲和陳的方法進(jìn)行了比較,從相對誤差的對比圖可以看出,本文提出的方法的相對誤差小,在相對誤差比較大的地方,曲和陳的方法相對誤差更大。采用本文定義論域的方法,除了個(gè)別的誤差比較大之外,其它的相對誤差基本在0.00%~1.00%之間,說明本文提出的定義論域方法的有效性。
2)評估參數(shù)-均方誤差
利用公式(3)計(jì)算本文的預(yù)測的均方誤差,與曲和陳的方法進(jìn)行對比,表5為對比的結(jié)果。文中方法的均方誤差明顯低于曲和陳的方法。
表1 阿拉巴馬州大學(xué)1971-1992年的注冊人數(shù)
表2 數(shù)據(jù)模糊化結(jié)果
表3 模糊邏輯關(guān)系表
表4 模糊邏輯關(guān)系組
圖1 相對誤差比較圖
表5 均方誤差比較
文中針對模糊時(shí)間序列模型的預(yù)測步驟,基于前人的研究提出了定義論域的方法,此方法解決了前人對論域的重要性的忽視的問題,不再是簡單的向上向下取整,而是和數(shù)據(jù)分類后的分布情況有關(guān),本文中對此方法進(jìn)行了驗(yàn)證,并且和多尺度比率進(jìn)行了比較,無論在平均誤差還是在均方誤差上,本文提出定義論域的方法在預(yù)測的準(zhǔn)確度上明顯高于多尺度比率算法。
參考文獻(xiàn):
[1]藺玉佩,楊一文.基于模糊時(shí)間序列模型的股票市場預(yù)測[J].統(tǒng)計(jì)與決策,2010(8):34-37.
[2]邱望仁.模糊時(shí)間序列模型及其股指趨勢分析中的應(yīng)用研究[D].遼寧:大連理工大學(xué),2012.
[3]余文利,方建文,廖建平.一種新的基于模糊C均值算法的模糊時(shí)間序列確定性預(yù)測模型[J].計(jì)算機(jī)工程與科學(xué),2010,32(7):112-116.
[4]王永弟.模糊時(shí)間序列模型在短期氣候預(yù)測中的應(yīng)用[J].南京信息工程大學(xué)學(xué)報(bào),2012,4(4):316-320.
[5]倪明,肖辭源.模糊時(shí)間序列預(yù)測模型研究及其在污水處理上的應(yīng)用[D].南充:西南石油大學(xué),2012.
[6]Zadeh L A.Fuzzy sets[J].Information and Control,1965(8):338-353.
[7]Q.Song,B.SChrisom.Forecasting enrollments with fuzzy time series.Part I[J].Fuzzy Sets and System,1993,54(1):1-10.
[8]Q.Song,B.SChrisom.Forecasting enrollments with fuzzy time series.Part II[J].Fuzzy Sets and System, 1994,62(1):1-8.
[9]Cheng C H,Cheng G W,Wang J W.Multi-attribute fuzzy time series method based on fuzzy clustering [J].Expert Systems with Applications,2008,34(2):1235-1242.
[10]Li S T,Cheng Y C,Lin S Y.A FCM-based deterministic forecasting model for fuzzy time series[J]. Computers and Mathematics with Applications,2008,56:3052-3063.
[11]Li S T,Cheng Y C.An enhanced deterministic fuzzy time series forecasting model[J].Cybernetics and Systems,2009,40(3):211-235.
[12]楊綸標(biāo),高英儀,凌衛(wèi)新.模糊數(shù)學(xué)原理及應(yīng)用[M].廣州:華南理工大學(xué)出版社,2013.
[13]邱望仁,劉曉東.模糊時(shí)間序列模型研究綜述[J].模糊系統(tǒng)與數(shù)學(xué),2014,28(3):173-181.
[14]陳剛,曲宏巍.模糊時(shí)間序列模型相關(guān)理論的研究[D].遼寧:大連海事大學(xué),2012.
[15]Huarng K H.Ratio-based Lengths of Intervals to Improve Fuzzy Time Series forecasting[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2006,36(2):328-340.
A research on the definition of discourse of fuzzy time series models
WANG Yang1,2,CHEN Hai-yan1,2,PENG Yan-bing1,2
(1.Wuhan Research Institute of Posts and Telecommunications,Communication and Information System,Wuhan 430074,China;2.FiberHome Communication Technology Co.Ltd.,Nanjing Researchand Development Department,Nanjing 210019,China)
This paper puts forward how to define the discourse on fuzzy time series models.Although forecasters have applied the model and improved it at the same time,the most research included two aspects:one is the division of discourse,the other one is fuzzy logic relationship.On the definition of discourse,due to the existing research on the definition of discourse is only simply rounded up and down,unaware of the importance of the definition of discourse can also affect the result of prediction,so this thesis puts forward a new method about the definition of discourse.In this new method,the definition of discourse is related to the data distribution of current category.Because the distribution of the sample data is considered,so the accuracy of intervals is improved.Finally,in order to prove the effectiveness of the proposed method,this paper predicts the enrollment Alabama,and the result of experiments show that this method has good prediction effect.
fuzzy time series model;definition of discourse;data distribution;partition of discourse
TN911.1
:A
:1674-6236(2017)02-0009-05
2016-01-09稿件編號(hào):201601051
江蘇省科技支撐計(jì)劃項(xiàng)目(2015BAK20B05)
汪洋(1978—),男,江蘇南京人,碩士,工程師。研究方向:計(jì)算機(jī)網(wǎng)絡(luò)。