郭偉伊
摘要:隨著大數(shù)據(jù)時代的到來,科學(xué)合理的利用歷史數(shù)據(jù)成為獲取信息的便捷途徑之一。搜索指數(shù)記錄了數(shù)以億計的搜索關(guān)注與需求,為企業(yè)把握市場動態(tài)提供必要的數(shù)據(jù)基礎(chǔ)。據(jù)此,以O(shè)PPO手機在百度指數(shù)網(wǎng)站上的搜索指數(shù)為例,基于R-Studio軟件工具,并采用時間序列預(yù)測未來3個月OPPO手機的搜索指數(shù)。結(jié)果表明,預(yù)測值與實際值之間的誤差全部小于誤差閾值,該模型可以進(jìn)行有效預(yù)測。
關(guān)鍵詞:R語言;數(shù)據(jù)分析;搜索指數(shù);時間序列
中圖分類號:F27文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.16723198.2017.29.033
1文獻(xiàn)綜述
1.1基于時間序列分析的相關(guān)研究
應(yīng)用時間序列分析的目的就是給定一個已被觀測了的時間序列,預(yù)測該序列的未來值。常用的時間序列模型有平滑法、組合模型、AR模型、MA模型、ARMA模型、ARIMA模型等。基于這些時間序列模型,國內(nèi)研究者針對產(chǎn)品價格、天氣情況等目標(biāo)進(jìn)行了預(yù)測,研究模型也從單一模型轉(zhuǎn)向集成模型。李哲敏等設(shè)計了動態(tài)混沌神經(jīng)網(wǎng)絡(luò)時間序列預(yù)測模型,該模型在農(nóng)產(chǎn)品價格時間序列短期預(yù)測研究上將具有廣闊的應(yīng)用前景。黃建風(fēng),陸文聰基于小波-NAR神經(jīng)網(wǎng)絡(luò)技術(shù),結(jié)合悉尼日均氣溫和日降雨量數(shù)據(jù)進(jìn)行建模,該預(yù)測優(yōu)于其它模型。段青玲等提出了基于時間序列的水產(chǎn)品價格預(yù)測模型,該模型為水產(chǎn)品價格的預(yù)測提供依據(jù)。
其實,不管是單一模型,還是集成模型,只要依賴于真實的歷史數(shù)據(jù),在模型的選擇和構(gòu)建上都可以實現(xiàn)預(yù)測目標(biāo),只是精度上有所不同。同時,基于前人的研究發(fā)現(xiàn),利用R語言進(jìn)行統(tǒng)計分析的研究相對于SPSS、Minitab等統(tǒng)計軟件少之又少,而R語言具有功能強大的程序包,在數(shù)理統(tǒng)計、數(shù)據(jù)挖掘等方面都出類拔萃。
1.2基于搜索指數(shù)的相關(guān)研究
搜索指數(shù)反映了數(shù)以億計的搜索關(guān)注與需求,為研究市場交易行為、消費者行為等研究提供了必要的數(shù)據(jù)依據(jù)。張崇等證實了搜索數(shù)據(jù)與居民消費價格指數(shù)之間存在先行滯后關(guān)系和諧整關(guān)系。任樂,崔東佳實證了搜索數(shù)據(jù)與月旅游客流量之間存在協(xié)整關(guān)系。
近幾年,大部分研究者一般通過對搜索時輸入的關(guān)鍵詞的統(tǒng)計分析,從而建立預(yù)測模型,但預(yù)測的準(zhǔn)確度是否可靠有待斟酌。值得注意的是,研究者缺少對現(xiàn)成搜索指數(shù)的分析及利用。例如百度指數(shù)網(wǎng)站上存在大量不同行業(yè)、不同品牌的搜索指數(shù),其根據(jù)月、季、年為單位進(jìn)行了詳細(xì)展示,這些搜索指數(shù)具有真實性、科學(xué)性。因此,對現(xiàn)有數(shù)據(jù)的再次利用為未來的研究提供了方便。
2實證分析
基于以上對時間序列和搜索指數(shù)的相關(guān)研究分析,本文提出基于R語言,并利用時間序列分析中的ARIMA模型對OPPO手機在百度上的搜索指數(shù)進(jìn)行預(yù)測。
2.1數(shù)據(jù)來源及處理
本文所采用的搜索數(shù)據(jù)來源于百度指數(shù)網(wǎng)站,時間范圍為2014年1月至2017年4月。為了能夠更好的預(yù)測OPPO手機品牌在百度上的搜索指數(shù),將這些數(shù)據(jù)按月為單位記錄在Excel上,并把文件命名為OPPO.csv進(jìn)行保存。
本文采用R-Studio軟件進(jìn)行統(tǒng)計分析及預(yù)測。首先,將文件OPPO.csv在R-Studio中打開:
>data<-read.csv("./OPPO.csv",header=T)
根據(jù)這些歷史數(shù)據(jù),可以繪制出OPPO月度搜索指數(shù)時間序列圖:
>plot.ts(data,xlab="月份",ylab="搜索指數(shù)/千萬")
從圖中可以清晰地看出40個月中OPPO手機的月度搜索指數(shù),沒有明顯的周期和季節(jié)趨勢,但是整體處于逐漸上升的趨勢。
2.2時間序列檢驗分析
對于以上序列,將進(jìn)行純隨機性和平穩(wěn)性檢驗,并根據(jù)檢驗結(jié)果的不同選擇合適的分析方法。從圖1的時序圖可看出,OPPO手機搜索指數(shù)不具備周期性,并且有逐月遞增趨勢。因此,可以初步確認(rèn)為非平穩(wěn)序列。為進(jìn)一步判斷序列是否為非平穩(wěn)的,可以選擇自相關(guān)圖檢驗或單位根檢驗。
自相關(guān)圖檢驗。利用自相關(guān)圖進(jìn)行平穩(wěn)性檢驗的結(jié)果取決于自相關(guān)系衰減的速度,當(dāng)自相關(guān)系數(shù)比較快的衰減趨向于零,并在零附近隨機波動時,即為平穩(wěn)序列;當(dāng)自相關(guān)系數(shù)衰減速度比較慢時,即為非平穩(wěn)序列。
>acf(data)
從自相關(guān)檢驗結(jié)果看,自相關(guān)系數(shù)長期大于零,表明該序列為非平穩(wěn)序列。
單位根檢驗。若檢驗序列存在單位根表明為非平穩(wěn)序列,否則為平穩(wěn)序列。本文利用adf.test()函數(shù)對其進(jìn)行單位根檢驗,運用此函數(shù)需下載tseries包。
>library(tseries)
>adf.test(data)
從單位根檢驗結(jié)果看,p值為0.4517,大于0.05,因此也判斷其為非平穩(wěn)序列。
2.3ARIMA建模分析及預(yù)測
從以上分析中得出,OPPO手機搜索指數(shù)為非平穩(wěn)序列。對此序列進(jìn)行差分、檢驗、定階,就可建立ARIMA模型進(jìn)行預(yù)測。
非平穩(wěn)序列差分。若序列經(jīng)過一階差分后還未達(dá)到平穩(wěn),將再次進(jìn)行差分運算,以此類推,直到成為平穩(wěn)序列為止。R語言中使用diff()函數(shù)對時間序列進(jìn)行差分運算。
>diffData<-diff(data)
一階差分后再進(jìn)行單位根檢驗:
>plot.ts(diffData,xlab="月份",ylab="搜索指數(shù)殘差/千萬")
>adf.test(diffData)
一階差分后,時序圖在均值附近平穩(wěn)波動,單位根檢驗p值為0.04537,小于0.05,所以一階差分后序列表現(xiàn)為平穩(wěn)。
模型定階。從一階差分后的自相關(guān)圖可以看出,ACF沒有收斂趨勢,并顯示出拖尾性。所以考慮選用AR模型擬合一階差分后的序列,即對原始序列建立ARIMA(1,1,0)模型。endprint
>arima<-arima(diffData,order=c(1,1,0))
白噪聲檢驗。ARIMA模型是否符合白噪聲檢驗,采用Box.test()函數(shù)進(jìn)行檢驗。當(dāng)p值大于0.05時,表示通過白噪聲檢驗;否則未通過。
>Box.test(diffData,type="Ljung-Box")
從白噪聲檢驗結(jié)果中得到,p=0.2038,其值明顯大于0.05,所以通過白噪聲檢驗。
模型預(yù)測。R語言中可以利用forecast數(shù)據(jù)包對未來的序列值進(jìn)行預(yù)測,本文預(yù)測未來3個月OPPO手機的搜索指數(shù)。
>forecast(arima,h=3,level=c(99.5))
誤差分析。將預(yù)測值與實際值進(jìn)行誤差分析,結(jié)果顯示平均絕對誤差為0.81、均方根誤差為0.92、平均絕對百分誤差為0.19。本文根據(jù)實際情況,將誤差閾值設(shè)為1。結(jié)果表明,預(yù)測值與實際值之間的誤差全部小于誤差閾值。因此,可以采用此模型進(jìn)行預(yù)測。
3總結(jié)與展望
首先,本文綜述了基于時間序列分析和基于搜索指數(shù)的相關(guān)研究內(nèi)容;其次,對百度指數(shù)網(wǎng)站上現(xiàn)成的OPPO手機搜索指數(shù)進(jìn)行了分析,并預(yù)測了未來3個月的搜索指數(shù)。通過實證分析發(fā)現(xiàn),利用R-Studio軟件建立ARIMA模型可以實現(xiàn)預(yù)測,且預(yù)測值與實際值之間的誤差較小。對OPPO手機搜索指數(shù)進(jìn)行預(yù)測可以準(zhǔn)確了解市場動態(tài),指導(dǎo)企業(yè)進(jìn)行策劃營銷活動、宣傳、經(jīng)營管理等,為鞏固產(chǎn)品地位或進(jìn)一步深化市場做準(zhǔn)備。
同時,該預(yù)測方法也存在一定的缺點和不足,尤其是模型較單一,缺乏搜索指數(shù)與其他研究對象之間的內(nèi)在機理研究,例如搜索指數(shù)與銷售量、產(chǎn)品價格、宣傳力度等的相關(guān)性關(guān)系研究,這也是下一步研究的重點。
參考文獻(xiàn)
[1]李哲敏,許世衛(wèi),崔利國,張建華.基于動態(tài)混沌神經(jīng)網(wǎng)絡(luò)的預(yù)測研究——以馬鈴薯時間序列價格為例[J].系統(tǒng)工程理論與實踐,2015,(08):20832091.
[2]黃建風(fēng),陸文聰.基于小波-NAR神經(jīng)網(wǎng)絡(luò)的氣象要素時間序列預(yù)測與天氣指數(shù)彩虹期權(quán)估值[J].系統(tǒng)工程理論與實踐,2016,(05):11461155.
[3]段青玲,張磊,魏芳芳,肖曉琰,王亮.基于時間序列GA-SVR的水產(chǎn)品價格預(yù)測模型及驗證[J].農(nóng)業(yè)工程學(xué)報,2017,(01):308314.
[4]張崇,呂本富,彭賡,劉穎.網(wǎng)絡(luò)搜索數(shù)據(jù)與CPI的相關(guān)性研究[J].管理科學(xué)學(xué)報,2012,(07):50-59+70.
[5]任樂,崔東佳.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的國內(nèi)旅游客流量預(yù)測研究——以北京市國內(nèi)旅游客流量為例[J].經(jīng)濟(jì)問題探索,2014,(04):6773.endprint