摘要:本論文旨在研究并比較ARMA、ARIMA和SARIMA三種方法在電視廣播收視率預(yù)測分析中的應(yīng)用。首先,論文介紹了大數(shù)據(jù)技術(shù)在電視廣播評級分析中的基本框架,然后研究了ARMA、ARIMA和SARIMA模型的原理,最后,通過使用MATLAB軟件對三種方法進(jìn)行了比較評估。綜合考慮實驗結(jié)果和方法原理,建議在電視廣播收視率預(yù)測中選擇合適的方法應(yīng)根據(jù)具體情況來定。
關(guān)鍵詞:大數(shù)據(jù);收視率;電視廣播;時序分析 中圖分類號:G223 文獻(xiàn)標(biāo)識碼:A
隨著信息技術(shù)的不斷發(fā)展,大數(shù)據(jù)技術(shù)已經(jīng)成為了各行業(yè)中不可或缺的一部分,其在電視廣播領(lǐng)域的應(yīng)用也日益受到重視[1,2]。收視率作為衡量電視節(jié)目受眾程度的重要指標(biāo),對于廣告投放、節(jié)目制作等方面具有重要意義[3,4]。傳統(tǒng)的收視率分析方法往往受限于數(shù)據(jù)規(guī)模和復(fù)雜度,無法全面準(zhǔn)確地反映受眾的真實觀看行為。因此,借助大數(shù)據(jù)技術(shù)進(jìn)行收視率分析成為了當(dāng)前研究的熱點之一。
在國內(nèi)外,關(guān)于大數(shù)據(jù)在電視廣播收視率分析方面的研究已經(jīng)有了一定的積累,但仍然存在著許多問題亟待解決。例如,如何構(gòu)建有效的大數(shù)據(jù)框架用于收視率分析,如何利用大數(shù)據(jù)技術(shù)提高收視率預(yù)測的準(zhǔn)確性等。在這一背景下,本文旨在探討大數(shù)據(jù)技術(shù)在電視廣播收視率分析中的應(yīng)用,并針對現(xiàn)有的三種分析方法進(jìn)行研究和比較,以期為提升收視率分析的精準(zhǔn)度和效率提供參考和借鑒。
具體地說,本文首先介紹了基于大數(shù)據(jù)技術(shù)的收視率分析方法,然后詳細(xì)闡述了自回歸移動平均模型(AutoregressiveMoving Average Model,ARMA)[5,6]、自回歸積分移動平均模型(Autoregressive Integrated Moving AverageModel ,ARIMA)[7,8]、季節(jié)性自回歸移動平均模型(SeasonalAutoregressive Integrated Moving Average Model,SARIMA)[9,10]等三種常用的分析方法的原理和應(yīng)用情況。接著,利用尼爾森數(shù)據(jù)集進(jìn)行實證分析,對比了這三種方法在收視率預(yù)測上的效果,從而為電視廣播領(lǐng)域的相關(guān)研究提供了新的思路和方法。本文的研究意義在于通過結(jié)合大數(shù)據(jù)技術(shù)和傳統(tǒng)分析方法,探索提升電視廣播收視率分析水平的有效途徑,為相關(guān)研究和實踐提供了有益的參考。
1 針對收視率的大數(shù)據(jù)分析框架
基于大數(shù)據(jù)技術(shù)的收視率分析框架應(yīng)當(dāng)綜合利用各類數(shù)據(jù)源,包括但不限于用戶行為數(shù)據(jù)、社交媒體數(shù)據(jù)、節(jié)目內(nèi)容數(shù)據(jù)等,以全面、多維度地理解觀眾的觀看行為和偏好。本文提出的收視率分析框架如圖1所示。
數(shù)據(jù)采集與清洗階段從多個來源獲取原始數(shù)據(jù),包括電視機(jī)頂盒數(shù)據(jù)、網(wǎng)絡(luò)流媒體平臺數(shù)據(jù)、社交媒體數(shù)據(jù)等,并且對原始數(shù)據(jù)進(jìn)行清洗和預(yù)處理,包括去除重復(fù)數(shù)據(jù)、處理缺失值、標(biāo)準(zhǔn)化數(shù)據(jù)格式等,確保數(shù)據(jù)質(zhì)量和一致性。
數(shù)據(jù)存儲與管理階段將清洗后的數(shù)據(jù)存儲到大數(shù)據(jù)存儲系統(tǒng)中,如分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)或NoSQL數(shù)據(jù)庫。
數(shù)據(jù)分析與挖掘階段:利用數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法對收視數(shù)據(jù)進(jìn)行分析和挖掘,探索觀眾的觀看習(xí)慣、興趣偏好等信息,包括用戶畫像構(gòu)建、群體分析、內(nèi)容關(guān)聯(lián)分析等內(nèi)容,以深入理解觀眾群體和內(nèi)容之間的關(guān)系。
模型建立與預(yù)測階段基于歷史收視數(shù)據(jù)建立預(yù)測模型,如時間序列分析模型(如ARIMA、SARIMA)、機(jī)器學(xué)習(xí)模型(如回歸模型、神經(jīng)網(wǎng)絡(luò)模型)等,預(yù)測未來收視趨勢。
結(jié)果可視化與應(yīng)用階段將分析結(jié)果通過可視化手段展現(xiàn)出來,如圖表、報表、儀表盤等,方便用戶理解和使用。
2 大數(shù)據(jù)分析方法的研究
ARMA、ARIMA以及SARIMA是在時間序列分析領(lǐng)域中被廣泛使用的三種方法。ARMA模型結(jié)合了自回歸和移動平均的特性,用于描述時間序列數(shù)據(jù)中的自相關(guān)和滯后效應(yīng),能夠很好地捕捉數(shù)據(jù)的趨勢和周期性變化。ARIMA模型在ARMA模型的基礎(chǔ)上增加了差分的處理,用于處理非平穩(wěn)時間序列數(shù)據(jù),能夠更好地適應(yīng)收視率數(shù)據(jù)中可能存在的趨勢和季節(jié)性變化,提高了模型的準(zhǔn)確性和穩(wěn)定性,使其在實際應(yīng)用中更具有實用性。SARIMA模型在ARIMA模型的基礎(chǔ)上考慮了季節(jié)性因素,能夠有效地處理季節(jié)性時間序列數(shù)據(jù)。這對于收視率分析來說尤為重要,因為電視節(jié)目的受眾往往會受到時間、季節(jié)等因素的影響而產(chǎn)生周期性變化。SARIMA模型能夠更準(zhǔn)確地捕捉這種周期性變化,提高了模型的預(yù)測精度和實用性。
2.1 基于ARMA的收視率預(yù)測分析方法
ARMA是一種經(jīng)典的時間序列分析方法,用于對收視率數(shù)據(jù)進(jìn)行預(yù)測和分析。
設(shè) yt 是時間t的收視率數(shù)據(jù),εt是時間t的隨機(jī)誤差項,p是自回歸的階數(shù),q是移動平均的階數(shù)。ARMA模型的一般形式可以表示為:
yt=c+φ1yt-1+ φ2 yt-2+…+ φpyt-p+ εt- θ1 εt-1- θ2(1)
其中,c是常數(shù)項,φ1, φ2, …,φp是自回歸系數(shù),θ1, θ2, …,θq 是移動平均系數(shù)。這個模型基于兩個假設(shè):一是時間序列{ yt} 是平穩(wěn)的,即均值和方差在時間上是不變的;二是誤差項{ εt}是獨立同分布的隨機(jī)變量,且服從均值為零、方差為σ 2的正態(tài)分布。
為了對ARMA模型進(jìn)行估計和預(yù)測,通常需要進(jìn)行參數(shù)估計。常用的方法之一是最大似然估計(Maximum Likelihood Estimation,MLE),通過最大化對數(shù)似然函數(shù)來估計模型參數(shù)。具體地說,對于給定的觀測數(shù)據(jù) y1, y2, … ,y T,對數(shù)似然函數(shù)可以表示為:
其中,εt是殘差,等于觀測值yt 與其在當(dāng)前時間點的預(yù)測值之差。通過最大化對數(shù)似然函數(shù),可以得到估計的參數(shù)值,從而構(gòu)建ARMA模型并進(jìn)行收視率的預(yù)測和分析。
2.2 基于ARIMA的收視率預(yù)測分析方法
使用ARIMA對收視率數(shù)據(jù)進(jìn)行預(yù)測和分析時,設(shè)y t 是時間t的收視率數(shù)據(jù),Δ yt 是 yt 的一階差分,即 Δ yt = yt -yt?1,p是自回歸的階數(shù),d是差分的次數(shù),q是移動平均的階數(shù)。ARIMA模型的一般形式可以表示為:
其中,c是常數(shù)項,φ1, φ2, …,φ p是自回歸系數(shù), θ1, θ2, …,θq 是移動平均系數(shù)。ARIMA模型相比ARMA模型多了一個差分的步驟,這使得時間序列數(shù)據(jù)能夠更好地適應(yīng)平穩(wěn)性的要求。
為了對ARIMA模型進(jìn)行估計和預(yù)測,也采用最大似然估計等方法。對于給定的觀測數(shù)據(jù) y1, y2, … ,yT ,對數(shù)似然函數(shù)可以表示為:
其中,εt是殘差,等于觀測值 yt 與其在當(dāng)前時間點的預(yù)測值之差。通過最大化對數(shù)似然函數(shù),可以得到估計的參數(shù)值,從而構(gòu)建ARIMA模型并進(jìn)行收視率的預(yù)測和分析。
2.3 基于SARIMA的收視率預(yù)測分析方法
SARIMA也是一種用于時間序列分析的工具,設(shè) yt 是時間t的收視率數(shù)據(jù),Δ yt 是 yt 的一階差分,s是季節(jié)性的周期長度,p是自回歸的階數(shù),d 是差分的次數(shù),q是移動平均的階數(shù)。SARIMA模型的一般形式可以表示為:
其中,Δss yt 表示 yt 在季節(jié)性周期s上的差分,φ1, φ2, …,φp 是自回歸系數(shù),θ1, θ2, …,θq 是移動平均系數(shù)。SARIMA模型在ARIMA模型的基礎(chǔ)上考慮了季節(jié)性因素,使得模型更適用于季節(jié)性時間序列數(shù)據(jù)的分析與預(yù)測。
為了對SARIMA模型進(jìn)行估計和預(yù)測,同樣可以采用最大似然估計等方法。對于給定的觀測數(shù)據(jù) y1, y2, … ,yT ,對數(shù)似然函數(shù)可以表示為:
其中,εt是殘差,等于觀測值 yt"與其在當(dāng)前時間點的預(yù)測值之差。通過最大化對數(shù)似然函數(shù),可以得到估計的參數(shù)值,從而構(gòu)建SARIMA模型并進(jìn)行收視率的預(yù)測和分析。
3 實驗與分析
尼爾森數(shù)據(jù)集是一組廣泛應(yīng)用于電視廣播行業(yè)的數(shù)據(jù)集,用于收集和記錄觀眾對特定節(jié)目、頻道或廣告的收視情況。該數(shù)據(jù)集由Nielsen公司收集并整理,包含了大量的收視率數(shù)據(jù),涵蓋了不同時間段、不同頻道以及不同類型的節(jié)目。本文使用了尼爾森收視率數(shù)據(jù)集對這三種方法進(jìn)行對比:
(1)數(shù)據(jù)準(zhǔn)備:下載數(shù)據(jù)集并導(dǎo)入MATLAB中,對數(shù)據(jù)進(jìn)行預(yù)處理,包括去除缺失值、平穩(wěn)化處理等。
(2)ARMA模型實驗:使用MATLAB中的`armax`函數(shù)構(gòu)建ARMA模型,利用ARMA模型對收視率數(shù)據(jù)進(jìn)行擬合。使用已擬合的模型對未來一段時間的收視率進(jìn)行預(yù)測,并對預(yù)測結(jié)果進(jìn)行評估,包括殘差分析、預(yù)測誤差等。
(3)ARIMA模型實驗:使用MATLAB中的`arima`函數(shù)構(gòu)建ARIMA模型,重復(fù)步驟(2)中的操作。
(4)SARIMA模型實驗:使用MATLAB中的`sarima`函數(shù)構(gòu)建SARIMA模型,重復(fù)步驟(2)中的操作。
(5)結(jié)果比較與分析:比較三種方法的預(yù)測效果。本實驗采用了擬合度、預(yù)測準(zhǔn)確度、殘差分析等指標(biāo)來對上述三種方法進(jìn)行了評估,如表1所示。
根據(jù)如表1所示結(jié)果,可以對ARMA、ARIMA和SARIMA三種方法在Nielsen評級數(shù)據(jù)集上的性能進(jìn)行分析。首先,從擬合度指標(biāo)來看,ARIMA模型表現(xiàn)最佳,其擬合度達(dá)到0.91,比ARMA和SARIMA模型略高。這表明ARIMA模型能夠更好地擬合原始數(shù)據(jù),捕捉到數(shù)據(jù)的變化趨勢和模式。其次,從預(yù)測準(zhǔn)確度指標(biāo)來看,ARIMA模型同樣表現(xiàn)最佳,其預(yù)測準(zhǔn)確度為8.7%,比ARMA和SARIMA模型略低。這說明ARIMA模型能夠更準(zhǔn)確地預(yù)測未來的收視率數(shù)據(jù),具有更高的預(yù)測精度。然而,對于殘差分析來說,ARMA模型在表現(xiàn)上略優(yōu)于ARIMA和SARIMA模型,其殘差符合正態(tài)分布且無明顯自相關(guān)。而ARIMA模型的部分殘差不符合正態(tài)分布,而SARIMA模型則存在季節(jié)性自相關(guān),這可能會影響模型的穩(wěn)定性和準(zhǔn)確性。
結(jié)合上述實驗結(jié)果和方法原理來看,ARMA、ARIMA和SARIMA三種方法在收視率預(yù)測中各具優(yōu)勢和劣勢,選擇合適的方法應(yīng)根據(jù)具體情況來定。若數(shù)據(jù)具有明顯的自相關(guān)性和移動平均性質(zhì),且不涉及非平穩(wěn)和季節(jié)性變化,則可以選擇ARMA模型;若數(shù)據(jù)存在非平穩(wěn)性和趨勢性變化,且不涉及季節(jié)性變化,則可以選擇ARIMA模型;若數(shù)據(jù)具有明顯的季節(jié)性規(guī)律,則可以選擇SARIMA模型。同時,需要根據(jù)實際情況進(jìn)行模型參數(shù)的選擇和調(diào)整,以提高模型的預(yù)測效果和穩(wěn)定性。
4 結(jié)語
本論文通過對ARMA、AR I MA和SAR I MA三種方法在Nielsen評級數(shù)據(jù)集上的實驗比較,對電視廣播收視率預(yù)測分析進(jìn)行了深入研究。實驗結(jié)果表明,ARIMA模型在綜合性能上最為突出,能夠較好地擬合原始數(shù)據(jù)并預(yù)測未來收視率數(shù)據(jù),具有較高的準(zhǔn)確度和穩(wěn)定性;ARMA模型在簡單性和殘差特性上表現(xiàn)較好,但在季節(jié)性和趨勢性數(shù)據(jù)分析中受限;SARIMA模型考慮了季節(jié)性因素,但參數(shù)較多且對數(shù)據(jù)平穩(wěn)性要求較高。因此,在實際應(yīng)用中,建議根據(jù)具體數(shù)據(jù)特點和需求選擇合適的方法,并結(jié)合參數(shù)調(diào)整和模型優(yōu)化,以提高預(yù)測效果和應(yīng)用價值。這些研究結(jié)果對于電視廣播行業(yè)的評級分析、節(jié)目制作和廣告投放具有重要的指導(dǎo)意義,也為相關(guān)領(lǐng)域的研究提供了有益的參考和借鑒。
參考文獻(xiàn)
[1] 渠波洋.大數(shù)據(jù)在廣播電視監(jiān)測技術(shù)中的應(yīng)用分析[J].西部廣播電視,2022,43(03):225-227.
[2] 傅鐸.廣播電視監(jiān)測中大數(shù)據(jù)技術(shù)的應(yīng)用研究[J].中國傳媒科技,2019,(02):117-119.
[3] 賈園.電視節(jié)目收視率分析與節(jié)目編排策略[J].西部廣播電視,2023,44(05):50-52.
[4] 李文彬.媒體融合背景下電視收視率的價值分析[J].新聞文化建設(shè),2022,(03):155-157.
[5] 郭宙翔,劉東鵬.基于自回歸移動平均模型評估張掖市手足口病發(fā)病情況[J].中國病毒病雜志,2023,13(05):390-394.
[6] 陳麗,楊玉妹,方朕.自回歸移動平均模型在骨科Ⅰ類切口感染預(yù)測中的應(yīng)用[J].軍事護(hù)理,2023,40(11):36-39+44.
[7] 肖珊,陳建勇,彭萊,等.自回歸積分移動平均模型在長沙市白紋伊蚊密度預(yù)測中的應(yīng)用[J].實用預(yù)防醫(yī)學(xué),2024,31(04):506-510.
[8] 李嘉威.基于組合模型的交通流量預(yù)測[D].杭州電子科技大學(xué),2019.
[9] 葉舟,黃婷,戴韌,等.季節(jié)性自回歸滑動平均混合模型及其在電力負(fù)荷預(yù)測中的應(yīng)用[J].四川電力技術(shù),2001,(01):5-8+25.
[10] 杜剛,劉婭楠.季節(jié)性變動影響下的上海港集裝箱吞吐量預(yù)測[J].華東師范大學(xué)學(xué)報(自然科學(xué)版),2015,(01):234-239.