張亞倫,許明月,邵星銘,吳 棣,劉 聰
(曲阜師范大學(xué)統(tǒng)計學(xué)院,山東 濟(jì)寧 273165)
網(wǎng)絡(luò)直播是一種新興的網(wǎng)絡(luò)社交方式,它吸取和延續(xù)了互聯(lián)網(wǎng)的優(yōu)勢,利用視訊方式進(jìn)行網(wǎng)上現(xiàn)場直播,其具有內(nèi)容豐富、交互性強(qiáng)、地域不受限制的特點。近年來的發(fā)展呈愈演愈烈之勢。據(jù)艾瑞咨詢統(tǒng)計,2019年中國在線直播用戶已突破4.9億人,可見市場潛力非凡而且受眾人群數(shù)目龐大。網(wǎng)絡(luò)直播何以有如此巨大的發(fā)展規(guī)模和潛力,有哪些影響因素促進(jìn)和加速了它的發(fā)展,本文就基于變量選擇的方法力圖對此問題做詳細(xì)的定量分析。
截至目前,國內(nèi)有關(guān)網(wǎng)絡(luò)直播的研究主要包含三個方面:(1)對網(wǎng)絡(luò)直播平臺的運行模型、運營狀況的研究(張永第等[1]),(2)對網(wǎng)絡(luò)直播的傳播學(xué)研究,主要涉及網(wǎng)絡(luò)直播的傳播者、傳播過程、接收者等(趙夢媛[2]),(3)對網(wǎng)絡(luò)直播平臺相關(guān)法律問題的研究(徐蒙,祝仁濤[3])。但從整體上看,研究多為宏觀層面,且僅涉及定性的研究方法,缺乏有力的數(shù)據(jù)支撐和必要而科學(xué)的定量分析。關(guān)于定量的分析,目前僅有《網(wǎng)絡(luò)直播發(fā)展因素研究及前景預(yù)測》一文,其中也缺乏基于不同變量選擇方法的對比分析,本文將對網(wǎng)絡(luò)直播發(fā)展因素的選擇進(jìn)行細(xì)致闡述。
本文基于不同的變量選擇方法探究影響網(wǎng)絡(luò)直播的顯著因素。曾津、周建軍[4]對高維數(shù)據(jù)變量選擇方法進(jìn)行了綜述,這些變量選擇的方法都是致力于解決針對數(shù)據(jù)特征滿足維數(shù)小于樣本數(shù)(p<n)的情況。王大榮、張忠占[5]對子集選擇法進(jìn)行了較為詳細(xì)的闡述。李根、鄒國華等[6]也對線性模型的變量選擇問題進(jìn)行了綜述。主要的變量選擇的方法包括兩類:(1)基于S/E(Selection & Estimation)方法的Cp統(tǒng)計量準(zhǔn)則(Mallows’s Cp,Cp準(zhǔn)則)、赤池信息準(zhǔn)則(Akaike Information Criterion,AIC準(zhǔn)則)、貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC準(zhǔn)則)等(2)基于懲罰函數(shù)的變量選擇方法的套索算法(Least Absolute Shrinkage and Selection Operator,LASSO)、自適應(yīng)套索(Adaptive Least Absolute Shrinkage and Selection Operator,ALASSO)算法等。我們希望通過不同方法的比較,找到適當(dāng)?shù)淖兞亢湍P蛯τ绊懢W(wǎng)絡(luò)直播的因素進(jìn)行擬合。
文章結(jié)構(gòu)安排如下:第1節(jié)對兩類變量選擇方法進(jìn)行綜述,并介紹其應(yīng)用條件和評判準(zhǔn)則;第2節(jié)我們在不同變量選擇方法下進(jìn)行數(shù)據(jù)分析,得出影響網(wǎng)絡(luò)直播火爆發(fā)展的顯著性因素,并建立模型進(jìn)行擬合;第3節(jié)進(jìn)行小結(jié),就影響網(wǎng)絡(luò)直播的因素進(jìn)行總結(jié),并給出相關(guān)建議。
在線性模型中,每一個變量的子集對應(yīng)一個模型,通過子集選擇法選出一個“最優(yōu)”子集擬合回歸模型,這里的“最優(yōu)”都是針對特定的準(zhǔn)則而言的。在子集選擇法中,一方面,基于預(yù)測誤差的評判標(biāo)準(zhǔn),產(chǎn)生了Cp準(zhǔn)則等;另一方面,基于信息論的準(zhǔn)則,產(chǎn)生了AIC及其一系列衍生準(zhǔn)則;另外,基于Bayes方法,有BIC準(zhǔn)則等。下文將針對這三個角度進(jìn)行闡述,并且提出變量評價的標(biāo)準(zhǔn)。
1.1.1 基于預(yù)測誤差的Cp準(zhǔn)則
在這一類中,目前廣泛使用的是由Mallows提出的Cp準(zhǔn)則[7]。選擇使得Cp達(dá)到最小的變量集合為最佳子集Cp準(zhǔn)則是評價最小二乘法為前提的線性回歸模型的優(yōu)良性。值得注意的是,Mallows的Cp準(zhǔn)則被證實與下文提到的AIC準(zhǔn)則是近乎等價[8]。表達(dá)式為:
1.1.2 基于信息論
來自日本的Akaike[9]提出了著名的AIC準(zhǔn)則(赤池信息準(zhǔn)則)。該準(zhǔn)則目前在變量選擇上廣泛通用。AIC準(zhǔn)則在R中的car包的regsubsets函數(shù)可以實現(xiàn)基于AIC的變量選擇。線性回歸模型中,習(xí)慣選用:
其中,k是參數(shù)的個數(shù)。
AIC準(zhǔn)則是由kullback-leibler信息量推倒而來。其中,第一項表示模型擬合的優(yōu)良性,其值越小,擬合越好,也就是模型包含的變量越多,就能擬合的更好。第二項表示對模型中所含變量個數(shù),也就是模型的復(fù)雜程度的一種懲罰。
1.1.3 基于Bayes方法
Schwarz提出了BIC準(zhǔn)則[10](貝葉斯信息準(zhǔn)則),BIC相較AIC增加了懲罰力度,從而在變量準(zhǔn)入上更為嚴(yán)苛。BIC方法研究成果較多,理論上使得BIC達(dá)到最小的變量子集為最優(yōu)的。在R中的leaps包中的regsubsets函數(shù),可以使這一選擇過程圖像化,其表達(dá)式為:
其中,k是參數(shù)的個數(shù),n為樣本量。
基于懲罰函數(shù)的變量選擇方法的原則是在最小二乘或者極大似然的函數(shù)基礎(chǔ)上,增加懲罰項。對新的函數(shù)求最值,直接將部分系數(shù)壓縮為零,一般形式是:
其中,R(β)表示損失函數(shù),其中常見的損失函數(shù)有:R(β)=||Y-Xβ||2、R(β)=|Y-Xβ|,常見的懲罰函數(shù)為:為調(diào)整參數(shù),懲罰函數(shù)的差異關(guān)系到解的差異,有以下五種情況(見表1)。
表1 懲罰項中m的不同情況
1.2.1 LASSO方法
Tibshirani基于非負(fù)絞刑(Nonnegative Garrote,NG)方法提出LASSO[11]。NG方法同時進(jìn)行S/E兩個步驟,并且能得到相合的參數(shù)估計。NG方法避免了通過傳統(tǒng)子集選擇法的“固定電阻”只產(chǎn)生一組固定的子集解。NG方法這種“滑動變阻器”,通過調(diào)整不同的“阻尼”λ,使得產(chǎn)生多組子集解,且λ越小,懲罰力度越大。NG方法適用于維數(shù)小于樣本數(shù)(p<n)的情況,但這種方法最大的劣勢是:NG過度依賴原始的最小二乘估計,如果樣本容量較少或者自變量之間存在嚴(yán)重的多重共線性,就會干擾后面估計的進(jìn)展。LASSO方法的參數(shù)估計是在下的最小二乘估計,λ為調(diào)整參數(shù),假設(shè)所有樣本都已經(jīng)中心標(biāo)準(zhǔn)化。則在約束條件
λ是調(diào)整參數(shù),λ0=Σ|βj|,決定對參數(shù)估計的壓縮程度,存在兩種常見情況(見表2)。
表2 λ參數(shù)的關(guān)系
LASSO是嶺回歸的一種改良,由于懲罰函數(shù)在零點處導(dǎo)數(shù)的奇異性,實現(xiàn)“重要變量輕壓縮,次要變量重壓縮”的壓縮模式,以保持參數(shù)估計的準(zhǔn)確。另外,類似于子集選擇法的預(yù)測誤差平方和(Prediction Error,PE)、預(yù)測誤差平方和(Prediction Errorof Square Sum,PRESS)和Cp準(zhǔn)則等,LASSO也能給出高精度的預(yù)測。
與子集選擇法不同,LASSO開辟了一個參數(shù)估計由離散到連續(xù),從無序到有序的過程。但是LASSO不具備Oracle性質(zhì)且不適用于維數(shù)大于樣本數(shù)(p>n)的研究。在處理此種類型的數(shù)據(jù)時只能選定n個變量,所以不適用于基因數(shù)據(jù)研究,這種數(shù)據(jù)往往樣本量較少,卻是超高維數(shù)據(jù)。而ALASSO方法可以改進(jìn)LASSO使其擁有Oracle性質(zhì),下文介紹ALASSO方法時,將介紹Oracle性質(zhì)。DS方法可以克服維數(shù)大于樣本數(shù)(p>n)的缺點[12]。由于本題不研究維數(shù)大于樣本數(shù)(p>n)的情況,有興趣的可以翻閱相關(guān)DS方法的文獻(xiàn)。
1.2.2 Adaptive LASSO方法
Zou提出的Adaptive LASSO[13]改進(jìn)的LASSO具有Oracle性質(zhì),且是一個凸優(yōu)化問題,Adaptive LASSO在R中也有相應(yīng)的msgps包,其中的msgps函數(shù)可以實現(xiàn)Adaptive LASSO的變量選擇過程。其懲罰項為(其中λ和θ為懲罰參數(shù)):
Adaptive LASSO使其懲罰函數(shù)所得估計具有Oracle性質(zhì),即同時滿足以下三條的優(yōu)良模型所具有的性質(zhì),但該條性質(zhì)是逐點意義的,不具有一致評估模型的功能,下面簡述該性質(zhì):(1)無偏性:參數(shù)估計為漸近無偏或無偏,(2)稀疏性:在該模型選擇方法下,一些次要的變量系數(shù)變?yōu)榱?,?)連續(xù)性:參數(shù)估計對于樣本數(shù)據(jù)是連續(xù)的。
1.2.3 LARS方法
最小角回歸(Least Angle Regression,LARS)[14]方法集合了逐步向前變量選擇法和逐段向前法的優(yōu)點,可以用來計算Lasso的估計。在R中有相應(yīng)的lars包,其中的lars函數(shù)可以實現(xiàn)其變量選擇的過程。以下簡述LARS方法的步驟:(1)令所有的變量系數(shù)為零;(2)找出與響應(yīng)變量的相關(guān)性最大的變量xi;(3)沿著xi取最大步長,直到另一個變量xj與當(dāng)前的殘差具有等量的相關(guān)性;(4)沿著兩個向量的等角線向前運動,直至第三個變量xk與當(dāng)前的殘差具有等量的相關(guān)性;(5)繼續(xù)沿著這三個變量的等角方向運動,以此類推。
本文將基于以上變量選擇的方法,在SPSS和R中對逐步回歸、AIC準(zhǔn)則、Cp準(zhǔn)則、BIC準(zhǔn)則、LARS算法和ALASSO方法進(jìn)行實現(xiàn),并得出相關(guān)結(jié)論。
本文選取了在各個領(lǐng)域都已經(jīng)得到廣泛使用的技術(shù)接受模型(Technology Acceptance Model,TAM)同時結(jié)合理性行為理論、計劃行為理論以及個人創(chuàng)新理論,引入主管規(guī)范、感知娛樂性、個人創(chuàng)新性和個體特征四個變量來提取影響網(wǎng)絡(luò)直播火爆發(fā)展的因素。本文借鑒之前學(xué)者在傳播學(xué)、心理學(xué)等方面對網(wǎng)絡(luò)直播影響因素的研究成果,與技術(shù)接受理論等相結(jié)合提取出可能影響我們網(wǎng)絡(luò)直播行業(yè)發(fā)揮職能的影響因素(見表3),為研究網(wǎng)絡(luò)直播發(fā)展影響因素,在此我們選取每天平均觀看直播的時間作為衡量網(wǎng)絡(luò)直播火爆狀況(因變量),學(xué)歷、好奇心等其他因素作為影響因素(自變量)(見表4)。
表3 基于網(wǎng)絡(luò)直播的技術(shù)接受模型
由數(shù)據(jù)分析知各影響因素之間存在一定程度的多重共線性,故此處采用逐步回歸方法進(jìn)行線性回歸模型的建立,運用SPSS分析得到如表5所示的結(jié)果(調(diào)整后的R2:0.07469,AIC=9.76)。
表5 多元線性回歸結(jié)果
由回歸分析結(jié)果表我們得到以下回歸方程:
通過對方程的分析可知:通過逐步回歸方法進(jìn)行變量選擇,得出網(wǎng)絡(luò)直播發(fā)展的主要影響因素為社會輿論潮流、學(xué)歷。為了了解基于逐步回歸這一種方法得到的變量在后續(xù)的方法中是否也同樣顯著,也為增加結(jié)論的說服力,由此我們另尋找其他統(tǒng)計方法進(jìn)行變量選擇,如下。
經(jīng)過R的運行,整個過程經(jīng)歷了四步變量篩選,每一步選擇變量的最終結(jié)果如表6所示。
表6 AIC準(zhǔn)則結(jié)果
通過逐步回歸法選出使AIC值最小的模型,共經(jīng)過了4步回歸(見表6)。
通過R的運行結(jié)果,可以看出初始模型為全變量模型,每一步回歸剔除一個變量,直到達(dá)到AIC最小值-138.58,所對應(yīng)的入選變量為:年齡、學(xué)歷、釋放壓力、與偶像互動、消磨時間、消費欲望、潮流和輿論、提高學(xué)習(xí)技能這8個變量,其中仍然包含學(xué)歷和社會輿論潮流。在R中的stepAIC函數(shù)可以這一變量選擇的過程。但由于基于AIC準(zhǔn)則的變量選擇,該模型本身易出現(xiàn)過擬合的現(xiàn)象。多出來的6個變量很有可能是過擬合的結(jié)果。
基于Cp準(zhǔn)則進(jìn)行R模擬,使得Cp值達(dá)到最小的模型為最優(yōu)模型,我們可以在圖1的左下方找到最優(yōu)變量為:x2、x10,得到的結(jié)果與2.1節(jié)中的逐步回歸的結(jié)果一致,即影響網(wǎng)絡(luò)直播火爆發(fā)展的因素有:學(xué)歷、社會輿論潮流。
圖1 Cp準(zhǔn)則下的變量選擇結(jié)果
通過R的模擬,理論上我們知道,同樣使得BIC達(dá)到最小的模型為最優(yōu)模型。從圖2中我們可以看出,隨著該圖由底部到頂部,模型的BIC值(縱坐標(biāo))逐漸減小,減到最小至-0.46。從橫向看,深色表示該變量入選,淺色為未入選變量,最終只剩下了x10。但最后幾步中得到的結(jié)果包含x2和x10,此時的BIC值很小,同樣可以判定模型擬合效果很好。由此可以近似判定,BIC準(zhǔn)則的結(jié)果與Cp準(zhǔn)則得到的結(jié)果高度一致,即影響網(wǎng)絡(luò)直播火爆發(fā)展的因素有:學(xué)歷、社會輿論潮流。這也與2.1中的逐步回歸的結(jié)論一致。
圖2 基于BIC準(zhǔn)則的變量選擇結(jié)果
下面將使用系數(shù)壓縮方法進(jìn)行變量選擇,變量選擇的路徑如圖3所示。首先使用LARS方法進(jìn)行變量選擇。圖3是LARS算法在R中的實現(xiàn),得到的顯著變量如表7所示。
圖3 基于LARS方法的變量選擇
表7 經(jīng)LARS方法選擇的變量與網(wǎng)絡(luò)直播觀看時長的回歸結(jié)果
由結(jié)果可知,使用LARS方法進(jìn)行變量選擇時效果比逐步回歸有所改善,R2為0.139,大于逐步回歸的R2值,Cp值為9.570 7。LARS方法進(jìn)行變量選擇得到影響直播火爆的顯著變量依次為潮流輿論、提高技能,學(xué)習(xí)提高技能、消磨時間、學(xué)歷、釋放壓力、好奇心、年齡。
注:在2.1和2.5兩種方法的R2都較低,伍德里奇在《計量經(jīng)濟(jì)學(xué)導(dǎo)論》中提到在社會科學(xué)中,回歸方程的R2過低是很正常的,一個顯著較低的R2并不意味著回歸方程沒有用。使用LARS方法進(jìn)行變量選擇為與目前業(yè)界從定性方面研究得出的結(jié)論相一致,為研究網(wǎng)絡(luò)直播發(fā)展影響因素提供了定量分析方法參考依據(jù)。
改進(jìn)的ALASSO具有Oracle的優(yōu)良性質(zhì),這樣通過ALASSO的R實現(xiàn),通過7步選擇,可以得到最終入選變量為x2和x10,其系數(shù)分別為:-0.128 78、-0.138 6,其參數(shù)路徑圖見圖4,模擬的過程以及相應(yīng)的AIC見表8。
圖4 Adaptive LASSO的變量選擇
表8 基于ALASSO的變量選擇過程
綜合以上上述方法,如表9所示,可以得到x2和x10是影響網(wǎng)絡(luò)直播火爆原因的最重要的變量,這在各個方法無一例外地均有體現(xiàn)。尤其是在逐步回歸、BIC準(zhǔn)則、Cp準(zhǔn)則、ALASSO的方法下,篩選變量最終只有x2和x10。在基于AIC準(zhǔn)則和LARS方法中,還有其他變量參與其中,但可以明確的是,通過AIC準(zhǔn)則下的AIC值(-138.58)大于ALASSO準(zhǔn)則的值(-142.38),這在某種程度上表明x2和x10這兩個變量確實是影響網(wǎng)絡(luò)直播火爆發(fā)展的關(guān)鍵因素。
表9 不同變量選擇方法的比較
由此,通過不止一種變量選擇方法的結(jié)果,充分說明學(xué)歷、社會輿論潮流是影響網(wǎng)絡(luò)直播火爆發(fā)展的關(guān)鍵要素。這也與目前業(yè)界的研究分析相一致并為其提供的科學(xué)的定量方法的證實。如今各大網(wǎng)絡(luò)直播平臺應(yīng)主要從關(guān)注低學(xué)歷人群需求,關(guān)注社會輿論和潮流入手做起,爭奪更大的網(wǎng)絡(luò)直播市場份額。ZENG Jin,ZHOU Jian-jun.Variable Selection for Highdimension Data Model:A Survey[J].Journal of Applied Statistics and Management,2017,36(04):678-692.