薛松+宋向東
[提要] 視頻消費(fèi)已經(jīng)是用戶日常生活?yuàn)蕵返囊环N普遍方式,市場上視頻網(wǎng)站較多,驅(qū)動(dòng)用戶選擇視頻網(wǎng)站的因素是什么,本文通過多元回歸的特征選擇方法分析驅(qū)動(dòng)用戶選擇視頻網(wǎng)站的因素,得到內(nèi)容方面是主要因素,其次是品牌和功能體驗(yàn),進(jìn)而根據(jù)具體指標(biāo)給出建議。
關(guān)鍵詞:視頻網(wǎng)站;多元回歸;特征選擇;罰函數(shù)
中圖分類號:F713.5 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2017年9月26日
一、研究背景
目前,在線視頻用戶總規(guī)模超過8個(gè)億,移動(dòng)互聯(lián)網(wǎng)用戶中有80%都是視頻用戶,可見視頻行業(yè)在網(wǎng)民中的滲透很高,目前視頻市場格局已經(jīng)形成三巨頭形式(愛奇藝、騰訊、優(yōu)酷),它們背靠BAT占據(jù)市場份額超過90%,但是各個(gè)視頻網(wǎng)絡(luò)之間并不是和平相處的,而是大力發(fā)展IP劇、自制內(nèi)容、獨(dú)播內(nèi)容等,吸引更多的用戶使用自己的產(chǎn)品。為了更加清楚地了解用戶選擇不同視頻網(wǎng)站看重的因素有哪些,我們從品牌、功能體驗(yàn)、內(nèi)容三個(gè)方面進(jìn)行了研究,并通過建模得到最終結(jié)果。
二、選擇視頻網(wǎng)站影響因素分析
(一)模型說明。對于線性回歸模型Yi=?茁0+?茁1x1i+…+?茁pxpi=?茁0+Xi'?茁+?著i(i=1,…,n),回歸系數(shù)?茁0和?茁的估計(jì)主要使用最小二乘估計(jì)(OLS),其原理是最小化模型的殘差平方和RSS=(Yi-?茁0-Xi'?茁)2。收縮罰的特征選擇方法則是在OLS估計(jì)的基礎(chǔ)上,進(jìn)一步對回歸系數(shù)的絕對值?茁j進(jìn)行壓縮,其目標(biāo)函數(shù)是最小化RSS+p?姿(?茁j),這里p?姿(?茁j)是對?茁j回歸系數(shù)的懲罰函數(shù),作用就是對?茁j進(jìn)行壓縮。若某個(gè)回歸系數(shù)?茁j被壓縮為0,對應(yīng)的自變量Xj就被剔除。這里?姿是控制懲罰函數(shù)強(qiáng)度的一個(gè)調(diào)整參數(shù),進(jìn)行特征選擇時(shí)需要選擇合適的?姿,實(shí)際應(yīng)用中一般通過交叉驗(yàn)證方法來選擇。
不同的懲罰函數(shù)對應(yīng)不同的特征選擇方法,例如單一罰函數(shù)的Ridge(即嶺回歸)、Lasso、MCP及復(fù)合罰函數(shù)的Elastic Net、Group Lasso、Group MCP、Composite MCP、Sparse Group Lasso等。
以Lasso為例,其目標(biāo)函數(shù)是最小化:
這里?姿就是調(diào)整參數(shù)。Lasso問題等價(jià)于如下帶約束的最優(yōu)化問題:
也即在OLS估計(jì)的基礎(chǔ)上,進(jìn)一步對的值加以限制。這里s與?姿一一對應(yīng),當(dāng)s較小時(shí),回歸系數(shù)相比于OLS估計(jì)就被壓縮。
值得注意的是,通常,合適的調(diào)整參數(shù)?姿的選擇是依靠交叉驗(yàn)證來進(jìn)行的。K折交叉驗(yàn)證即將原始樣本隨機(jī)分成K個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)子樣本作為訓(xùn)練集。交叉驗(yàn)證重復(fù)K次,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果(即預(yù)測誤差),選擇出最小的預(yù)測誤差所對應(yīng)的λ的估計(jì)結(jié)果。由于交叉驗(yàn)證的隨機(jī)性,可能會(huì)使得每次的估計(jì)結(jié)果略有差異。為減小差異,可適當(dāng)增加交叉驗(yàn)證的折數(shù),比如可以考慮從5折交叉驗(yàn)證變?yōu)?0折交叉驗(yàn)證。該模型具有以下優(yōu)勢:(1)利用“收縮罰”的方法,更加科學(xué)地選擇對研究指標(biāo)有顯著影響的變量,并對其進(jìn)行排序;(2)能夠較好地處理自變量之間的多重共線性;(3)可以科學(xué)處理變量之間存在分組關(guān)系的情況。
(二)數(shù)據(jù)準(zhǔn)備。將用戶對視頻客戶端的繼續(xù)使用意愿打分定義為被解釋變量即Y,將用戶對各個(gè)視頻客戶端的在品牌、內(nèi)容、功能體驗(yàn)三個(gè)方面各個(gè)語句的打分定義為解釋變量即X。由于一個(gè)樣本可能選到多個(gè)視頻客戶端,因此可能對多個(gè)視頻客戶端的推薦意愿打分和各個(gè)視頻客戶端在品牌、內(nèi)容、功能體驗(yàn)上各個(gè)語句打分,為了保證數(shù)據(jù)的完整性,我們將各個(gè)視頻客戶端的推薦意愿打分和在品牌、內(nèi)容、功能體驗(yàn)三方面的評價(jià)對應(yīng)整理,最后將所有品牌的數(shù)據(jù)累堆起來進(jìn)行分析。比如說有甲乙丙三人,分別選的客戶端數(shù)是2、1、3,那么最后整理的數(shù)據(jù)有6條。
對于視頻客戶端具體評價(jià)語句,多條語句可能表達(dá)的是同一個(gè)意思,這時(shí)候我們一般把用戶在這幾條語句上的評分取均值記為一個(gè)指標(biāo),相應(yīng)語句的打分就會(huì)刪除,將所有語句類似處理,最后得到要分析的數(shù)據(jù)整理結(jié)果。
(三)建模結(jié)果及說明。我們將整理好的數(shù)據(jù)代入模型,得到影響用戶繼續(xù)使用視頻客戶端的最主要指標(biāo)是內(nèi)容指標(biāo),其次是品牌和功能體驗(yàn)指標(biāo)。(圖1)
在實(shí)際生活中,用戶對某些指標(biāo)可能不是很關(guān)心,如果單純看驅(qū)動(dòng)系數(shù)大小可能會(huì)誤導(dǎo)企業(yè)的發(fā)力方向,因此我們結(jié)合用戶的需求來分析,將用戶對這些品牌、內(nèi)容、功能體驗(yàn)方面的直接需求程度與驅(qū)動(dòng)系數(shù)做二維圖,需求高驅(qū)動(dòng)系數(shù)大我們稱之為核心需求,需求低驅(qū)動(dòng)系數(shù)大的我們稱之為增值需求,需求高驅(qū)動(dòng)系數(shù)小的我們稱之為基礎(chǔ)需求,需求低驅(qū)動(dòng)系數(shù)小的我們不關(guān)心,保持監(jiān)控即可。
從上面結(jié)果可以看出:核心需求中主要集中在功能體驗(yàn)方面,具體體現(xiàn)在廣告少、界面、導(dǎo)視推薦和布局上,同時(shí)還有品牌方面值得信賴的,內(nèi)容方面持續(xù)有優(yōu)質(zhì)內(nèi)容;增值需求中有品牌指標(biāo)上的用戶口碑、個(gè)性喜好、親和/陪伴感,內(nèi)容指標(biāo)上的內(nèi)容覆蓋廣,功能體驗(yàn)方面的分享。
三、結(jié)論
2016年以來,各大視頻網(wǎng)站大力布局自制內(nèi)容、獨(dú)播內(nèi)容等,對用戶選擇視頻網(wǎng)站還有一定的驅(qū)動(dòng)作用,但是在2017年結(jié)果發(fā)現(xiàn)并沒有驅(qū)動(dòng)作用,這個(gè)可能是因?yàn)楦鞔笠曨l網(wǎng)站都在此上面大肆發(fā)力,想形成自己差異化內(nèi)容,結(jié)果消費(fèi)者選擇疲勞,所以在形成自己獨(dú)特的內(nèi)容差異化時(shí),滿足劇目數(shù)量的同時(shí)也要保證內(nèi)容的質(zhì)量,這樣才能吸引更多的用戶使用自己的產(chǎn)品。同時(shí),視頻劇目界面要做得美觀,重點(diǎn)突出。要根據(jù)用戶自己的喜好推送相關(guān)內(nèi)容,實(shí)現(xiàn)精準(zhǔn)的差異化戰(zhàn)略,視頻在高速消費(fèi)的同時(shí),如果可以增加一些人文情懷的附加屬性,會(huì)更加受到用戶的青睞。
主要參考文獻(xiàn):
[1]陳希孺.數(shù)理統(tǒng)計(jì)學(xué)教程[M].中國科學(xué)技術(shù)大學(xué)出版社,2009.
[2]王丹.我國視頻網(wǎng)站的傳播特征研究[J].中國出版,2017.1.
[3]戴禮蓉.網(wǎng)絡(luò)自制劇的價(jià)值鏈研究[D].安徽大學(xué),2017.
[4]柯鄧林.Lasso及其相關(guān)分析方法在多元線性回歸模型中的應(yīng)用[D].北京交通大學(xué),2011.endprint