車睿佳
摘要:電視劇的熱度是衡量電視劇質(zhì)量水平的重要指標(biāo)之一,在一定程度上反映了一個(gè)國(guó)家的文化軟實(shí)力。在前人諸多研究基礎(chǔ)上,利用自回歸模型對(duì)收視率進(jìn)行了時(shí)間序列預(yù)測(cè),并對(duì)自回歸模型進(jìn)行了平滑濾波改進(jìn),實(shí)現(xiàn)了更好的預(yù)測(cè)性能。之后,對(duì)10個(gè)影響電視劇熱度的因素進(jìn)行了綜合分析,并利用主成分分析的方法降低維度,最終得到了綜合考慮各種因素的熱度指標(biāo)。利用新定義的熱度指標(biāo)對(duì)2017年電視劇進(jìn)行排序,發(fā)現(xiàn)該指標(biāo)與單一的收視率或播放量相比,確實(shí)更能反映出電視劇的綜合影響力。
關(guān)鍵詞:自回歸模型;主成分分析;播放量;收視率;電視劇熱度
中圖分類號(hào):F27文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2019.10.029
1前言
電視劇是社會(huì)文化和潮流的重要載體,其中優(yōu)秀的電視劇一直引領(lǐng)著時(shí)代的潮流趨勢(shì)。傳統(tǒng)的電視劇質(zhì)量衡量指標(biāo)以收視率為主,隨著“多屏播放”時(shí)代的到來(lái),播放量也漸漸成為衡量電視劇影響力的重要指標(biāo)。然而,無(wú)論是單純的收視率還是單純的播放量,都不足以客觀、全面地衡量一個(gè)電視劇的熱度。
針對(duì)這一問(wèn)題,國(guó)內(nèi)有很多專家學(xué)者已經(jīng)進(jìn)行過(guò)研究。毋世曉等人提出視頻的點(diǎn)擊量和搜索次數(shù)會(huì)隨著開(kāi)播時(shí)間的推移而呈逐漸下降的趨勢(shì),而邢亞彬等人在研究成果中指出收視率可能由于樣本等原因使收視率受到較大影響。周小普等人在《多屏發(fā)展背景下網(wǎng)絡(luò)收視度的影響因素研究——以熱播電視劇為例》中引入了“多屏指標(biāo)”來(lái)衡量上電視劇的熱度,為播放量和收視率的研究提供了非常大的參考價(jià)值。
在前人工作的基礎(chǔ)上,本文建立并優(yōu)化了自回歸模型,并進(jìn)行了平滑濾波優(yōu)化,對(duì)研究對(duì)象電視劇的收視率變化趨勢(shì)進(jìn)行了預(yù)測(cè);之后,創(chuàng)新性地對(duì)10個(gè)影響電視劇熱度的因素進(jìn)行了綜合分析,并利用主成分分析的方法降低維度、最終得到了綜合考慮各種因素的熱度指標(biāo)。
2數(shù)據(jù)來(lái)源與預(yù)處理
在所有的國(guó)產(chǎn)電視劇中,本文選取了具有代表性的電視劇樣本作為研究對(duì)象。電視劇的篩選標(biāo)準(zhǔn)主要有以下幾個(gè)方面:
(1)多屏播出:在至少一個(gè)電視衛(wèi)視和至少一個(gè)網(wǎng)絡(luò)視頻平臺(tái)上全集播出過(guò),具有“收視率”和“播放量”兩個(gè)物理指標(biāo)。
(2)近三年首播:互聯(lián)網(wǎng)環(huán)境比較類似,不會(huì)因?yàn)榫W(wǎng)絡(luò)環(huán)境發(fā)展的差異造成對(duì)結(jié)果的影響。例如《西游記》和《還珠格格》等經(jīng)典收視神劇不會(huì)在我們的考慮范圍內(nèi)。
(3)豆瓣評(píng)分高于6分,平均收視率高于1%:以這兩個(gè)指標(biāo)選定了電視劇的質(zhì)量標(biāo)準(zhǔn),以口碑好、影響力較大的電視劇為研究對(duì)象。
通過(guò)以上三個(gè)指標(biāo)的篩選,最終選定了11部電視劇作為本文的研究對(duì)象,它們分別是:《女醫(yī)·明妃傳》、《三生三世十里桃花》、《瑯琊榜》、《人民的名義》、《于成龍》、《歡樂(lè)頌1》、《歡樂(lè)頌2》、《守護(hù)麗人》、《好先生》和《克拉戀人》。
本文采集的數(shù)據(jù)都是從官方權(quán)威數(shù)據(jù)庫(kù)獲取到的,其中包含:
(1)收視率數(shù)據(jù):索福瑞媒介研究(CSM)公司公布的52典型城市收視率數(shù)據(jù),數(shù)據(jù)提供了研究對(duì)象電視劇在播期間每天收視率。
(2)電視劇信息:來(lái)源于百度百科數(shù)據(jù),包含了電視劇的類別、主演、首播時(shí)間、主要內(nèi)容等諸多電視劇相關(guān)信息。
(3)社交網(wǎng)絡(luò)數(shù)據(jù):來(lái)源于百度貼吧、微博、豆瓣和百度搜索指數(shù)等主流搜索及社交平臺(tái),數(shù)據(jù)具有更高的真實(shí)性和全面性。
3對(duì)收視率的時(shí)序預(yù)測(cè)和分析討論
本文首先對(duì)選取的電視劇研究對(duì)象建立了二階自回歸模型,研究每一集收視率與前面幾集的關(guān)系。該模型的建立基于如下基本假設(shè):
(1)收視率具有一定的穩(wěn)定性,觀眾口碑和關(guān)注程度是連續(xù)變化的,不會(huì)發(fā)生突變。
(2)不同年份的電視劇收視率統(tǒng)計(jì)方法是一致的,數(shù)據(jù)之間具有可比性。
對(duì)于口碑好、收視率高的研究對(duì)象,本文首先建立了二階自回歸模型。由于電視劇收視率是按播出天數(shù)統(tǒng)計(jì)的,所以在我們的模型中,描述的是某天收視率與前兩天收視率之間的關(guān)聯(lián)性。假設(shè)δt代表電視劇熱播期間第t 天的收視率,則AR(2)模型表達(dá)式為:
δt=a+bδt-1+cδt-2
以2017年現(xiàn)象級(jí)熱播劇《人民的名義》為研究樣本,利用電視劇熱播期前29天的收視率數(shù)據(jù)作為訓(xùn)練集、最后3天的數(shù)據(jù)作為測(cè)試集,使用excel的數(shù)據(jù)分析工具進(jìn)行擬合,得到擬合的結(jié)果為:
δt=0.252-0.021δt-1+0.996δt-2
該模型擬合優(yōu)度為0.8911。之后在測(cè)試集上測(cè)試該模型的預(yù)測(cè)性能,最后三天的真實(shí)收視率為[6.682,6.695,6.666],預(yù)測(cè)值為[6.233,6.452,6.551]。經(jīng)過(guò)計(jì)算,均方根誤差為0.179682942。通過(guò)訓(xùn)練集結(jié)果和測(cè)試集結(jié)果的分析,可以看出該模型具有不錯(cuò)的預(yù)測(cè)性能。
通過(guò)對(duì)數(shù)據(jù)進(jìn)一步研究發(fā)現(xiàn),大部分異常點(diǎn)(收視率明顯低于趨勢(shì)線的日期)均為當(dāng)日只播放一級(jí)電視劇的日期,故而這種異常的收視率是有一定成因的。為了進(jìn)一步優(yōu)化模型,降低部分收視率異常點(diǎn)波動(dòng)性對(duì)模型系數(shù)造成的影響,本文在自回歸的基礎(chǔ)上,加入了移動(dòng)平均的優(yōu)化,對(duì)曲線進(jìn)行平滑濾波,降低了異常值帶來(lái)的影響。即將原本的AR(2)自回歸模型優(yōu)化為自回歸滑動(dòng)平均模型。
經(jīng)過(guò)移動(dòng)平均的平滑處理后,收視率的整體增長(zhǎng)趨勢(shì)和原始數(shù)據(jù)保持一致,但異常點(diǎn)的影響大大降低。利用前29天的移動(dòng)平均收視率作為訓(xùn)練集,訓(xùn)練二階自回歸模型,表達(dá)式為 δt=a+bδt-1+cδt-2 。得到的訓(xùn)練集結(jié)果為:
δt=0.123-0.621δt-1+1.610δt-2
此時(shí)擬合優(yōu)度增長(zhǎng)至0.97,兩個(gè)擬合系數(shù)均通過(guò)了0.05顯著性水平檢測(cè)。測(cè)試集的真實(shí)值為 [6.202,6.5,6.681],預(yù)測(cè)值為[6.028,6.265,6.472]。經(jīng)過(guò)計(jì)算,相關(guān)系數(shù)達(dá)到0.994,均方根誤差位0.2363。由此通過(guò)對(duì)比可以看出,ARMA模型與AR模型相比,在保留數(shù)據(jù)增長(zhǎng)趨勢(shì)的同時(shí),弱化了異常點(diǎn)帶來(lái)的影響,得到了更好的擬合結(jié)果。
4利用主成分分析建立多因素自定義熱度模型
4.1確定熱度值影響指標(biāo)
在當(dāng)前“多屏播出”的時(shí)代,分集播放量、收官前后播放量和收視率都有各自的局限性并且無(wú)法反映一部劇集準(zhǔn)確的熱度,因而我們引出自定義的熱度計(jì)算方法。
具體來(lái)說(shuō),在我們的模型中主要考察以下幾個(gè)方面的因素變量:
(1)播放量、收視率:傳統(tǒng)的評(píng)價(jià)指標(biāo),衡量了觀眾觀看電視劇這一基本行為的數(shù)量。這一節(jié)中選用集平均播放量、收視率來(lái)作為每一部電視劇的收視評(píng)價(jià)指標(biāo)。
(2)豆瓣評(píng)論數(shù):包括短評(píng)數(shù)與劇評(píng)數(shù),評(píng)論越多代表更多觀眾觀看電視劇后進(jìn)行了對(duì)電視劇的進(jìn)一步反思。
(3)豆瓣評(píng)分、評(píng)分人數(shù):衡量了觀眾對(duì)電視劇的主觀評(píng)價(jià),評(píng)分人數(shù)代表電視劇受關(guān)注程度。
(4)開(kāi)播前、后一個(gè)月搜索指數(shù):衡量了觀眾對(duì)電視劇的關(guān)注度,開(kāi)播前的搜索指數(shù)受到電視劇的宣傳力度、演員名氣等影響;開(kāi)播后搜索指數(shù)受到電視劇內(nèi)容、熱議程度等影響。
(5)微博粉絲數(shù):包括男女主微博粉絲量及電視劇官微粉絲量,我們認(rèn)為演員的微博粉絲量衡量了演員的受關(guān)注程度,而受關(guān)注多的演員,即明星出演的電視劇會(huì)受到更多的觀眾關(guān)注。
(6)相關(guān)視頻數(shù):包括官方發(fā)布的預(yù)告片、新聞發(fā)布會(huì)視頻,但更多的是網(wǎng)友個(gè)人發(fā)布的花絮剪輯等,相關(guān)視頻越多,說(shuō)明電視劇更具社會(huì)影響力,也會(huì)吸引更多潛在觀眾。
(7)周邊月銷售指數(shù):電視劇創(chuàng)造的商業(yè)利潤(rùn),衡量了觀眾對(duì)電視劇及劇中人物的喜愛(ài)程度。月銷售指數(shù)計(jì)算方法如下:
月銷售指數(shù)=商品價(jià)格×該商品月銷量
選取各周邊商品月銷售指數(shù)的最高值代表該電視劇的周邊月銷售指數(shù)。
4.2利用主成分分析的方法建立模型
這里通過(guò)Matlab主成分分析函數(shù)princomp實(shí)現(xiàn)具體步驟,利用主成分分析的方法,依照以下步驟依次進(jìn)行計(jì)算分析:
(1)計(jì)算相關(guān)系數(shù)矩陣。
7個(gè)變量?jī)蓛捎?jì)算相關(guān)系數(shù),一共計(jì)算33次,形成 7×7 階的相關(guān)系數(shù)矩陣
Ar={aij|i∈1,7,j∈1,7}
矩陣中的每個(gè)變量代表兩個(gè)因素?cái)?shù)據(jù)的相關(guān)性。例如 aij 就表示第 i 個(gè)因素和第 j 個(gè)因素的相關(guān)性,相關(guān)性的計(jì)算方法為:
r(x,y)=Cov(x,y)Var[x]*Var[y]
相關(guān)性可以用excel的correl(x,y)函數(shù)計(jì)算。在本章節(jié)中,使用matlab編程求解。
(2)計(jì)算主成分的累計(jì)貢獻(xiàn)率。
經(jīng)過(guò)計(jì)算,前4個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到89375%,分別是38.34%、20.43%、16.43%和1434%,達(dá)到允許范圍內(nèi)。所以以4個(gè)主成分為反應(yīng)熱度水平的標(biāo)準(zhǔn)。
(3)計(jì)算主成分載荷。
通過(guò)計(jì)算結(jié)果反應(yīng),四個(gè)主成分的主要載荷的指標(biāo)為:
C1主成分在播放量和收視率兩個(gè)特征上具有較大載荷,說(shuō)明第一個(gè)主成分主要反應(yīng)的是電視劇在多屏上受關(guān)注的程度。
C2主成分在豆瓣評(píng)論人數(shù)、微博粉絲數(shù)等相關(guān)特征上有較大載荷,說(shuō)明該主成分主要反映的是電視劇在社交網(wǎng)絡(luò)上的影響力。
C3主成分在搜索指數(shù)和豆瓣評(píng)分上具有較大載荷,說(shuō)明該主成分主要反映出劇集口碑和觀眾的期待程度。
C4主成分在相關(guān)視頻和周邊月銷量指數(shù)兩個(gè)特征上具有較大載荷,說(shuō)明該主成分主要反映了該電視劇的周邊影響力。
(4)得到最終結(jié)果。
最終,該電視劇的整體影響力由四個(gè)主成分決定,權(quán)重系數(shù)由貢獻(xiàn)率確定,即
Index=0.3834C1+0.2043C2+0.1644C3+01435C4
而每一個(gè)主成分的表達(dá)式為:
C1=0.438x1+0.596x2-0.243x3+0.192x4+0.245x5+0.164x6-0.006x7
C2=-0.029x1+0.283x2+0.020x3-0.062x4+0.638x5+0.274x6-0.085x7
C3=0.132x1+0.156x2-0.043x3+0.492x4+0.145x5+0.464x6+0.506x7
C4=0.138x1+0.231x2+0.133x3-0.093x4+0.143x5+0.064x6-0.167x7
4.3利用多元熱度評(píng)價(jià)模型進(jìn)行熱度排序
由此我們可以給出2017年熱度值前十名的電視劇榜單,2017年1-7月電視劇的實(shí)際網(wǎng)絡(luò)總播放量與本文得出榜單對(duì)比如表1。
通過(guò)與2017年電視劇網(wǎng)絡(luò)總播放量排行榜的對(duì)比,從整體上看,本次自定義熱度值的效果較為理想,更能夠體現(xiàn)出一個(gè)電視劇的綜合影響力。
5結(jié)論
本文利用自回歸模型對(duì)收視率進(jìn)行了時(shí)間序列預(yù)測(cè),并對(duì)自回歸模型進(jìn)行了平滑濾波改進(jìn),實(shí)現(xiàn)了更好的預(yù)測(cè)性能。本文還對(duì)7個(gè)影響電視劇熱度的因素進(jìn)行了綜合分析,并利用主成分分析的方法降低維度、最終得到了綜合考慮各種因素的熱度指標(biāo)。
在后續(xù)的研究中,我們將繼續(xù)從以下幾個(gè)方面進(jìn)行完善:
(1)繼續(xù)完善模型,在掌握更多的數(shù)學(xué)方法和機(jī)器學(xué)習(xí)理論知識(shí)以后,可以嘗試應(yīng)用人工神經(jīng)網(wǎng)絡(luò)等非線性擬合方法來(lái)預(yù)測(cè)收視率和播放量的增長(zhǎng)趨勢(shì)。
(2)深入探究分析,對(duì)播放量和收視率的討論可以更加細(xì)致入微,在很多評(píng)價(jià)指標(biāo)上可以進(jìn)行量化分析、突破定性分析的局限性。
(3)全面考慮各種指標(biāo),在時(shí)間精力允許的情況下進(jìn)行一定的問(wèn)卷調(diào)查,通過(guò)周圍人的評(píng)價(jià)來(lái)檢驗(yàn)新的熱度指標(biāo)的接受程度。
參考文獻(xiàn)
[1]周小普,韓瑞娜,凌姝.多屏發(fā)展背景下網(wǎng)絡(luò)收視度的影響因素研究——以熱播電視劇為例[J].國(guó)際新聞界,2014,(12):114-129.
[2]侯衛(wèi)星,高建中.基于因子分析法的城市低碳經(jīng)濟(jì)實(shí)證評(píng)價(jià)——以太原市為例[J].企業(yè)經(jīng)濟(jì),2012,(06):15-19.
[3]張輝,王雯聰.基于多元統(tǒng)計(jì)分析方法研究電視劇收視特征及影響因素[J].現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào)),2011,(06):101-103+126.
[4]耿金花,高齊圣,張嗣瀛.基于層次分析法和因子分析的社區(qū)滿意度評(píng)價(jià)體系[J].系統(tǒng)管理學(xué)報(bào),2007,(06):673-677.
[5]何躍,蔡博馳.基于因子分析法的微博熱度評(píng)價(jià)模型[J].統(tǒng)計(jì)與決策,2016,(18):52-54.