姚凱譯
摘要:對B站的個體視頻綜合影響力與整體影響兩個方面提取熱點話題因素進(jìn)行聚類與耦合度分層計算,對熱點視頻進(jìn)行話題相關(guān)性分析與話題挖掘研究,通過不同維度的線性關(guān)聯(lián),可對實時熱點話題進(jìn)行簡單挖掘,或基于某一話題來計算整體熱度。對青年人的信息傳播與商業(yè)推廣具有指向作用。
關(guān)鍵詞:B站? 聚類? 耦合度分層? 相關(guān)性分析? 話題挖掘
前言
隨著國內(nèi)主流媒體的入住B站,傳統(tǒng)媒體與新興媒體混合發(fā)展,推動信息與話題的多樣性,使信息量更大,層次更多。但在B站如此海量數(shù)據(jù)提取相關(guān)有價值的熱點話題與用戶關(guān)注點并非易事。同樣從大量用戶基數(shù)找到其高認(rèn)同度的關(guān)注點與興趣點具有極大的商業(yè)價值,通過相關(guān)性可發(fā)現(xiàn)潛在用戶規(guī)模,進(jìn)行產(chǎn)品服務(wù)推廣。
1 數(shù)據(jù)選取
B站主流信息傳播為視頻創(chuàng)作,而計算機(jī)難以直接發(fā)現(xiàn)視頻中的相同共性。所以視頻信息采集點為視頻基本內(nèi)容,用戶互動率與潛在影響力,推導(dǎo)價值信息。選取視頻范圍應(yīng)為近期發(fā)布,或發(fā)布時間已久但依舊存在播放高增長率。
其視頻基本內(nèi)容,用戶互動率與潛在影響力分別定義為維度F1 F2 F3。
其中F2維度存在預(yù)期模型值,實時值,趨于穩(wěn)定值,F(xiàn)3存在基礎(chǔ)值與不確定性的附加值具有實時性變化。但具體F2的實時性質(zhì)如何進(jìn)行主導(dǎo)性定義?這時就需要引入時間軸這一維度T。可以說時間維度T可以定義視頻影響力何時趨于穩(wěn)定。
2 模型設(shè)計元素與原理組成
2.1視頻個體影響力
同一時間段收集的視頻信息,視頻的實時影響力與最終影響力會出現(xiàn)不同偏差。所以考慮傳播影響力時,要作出對未來影響力的綜合考量。
此時定義離發(fā)布時長為T,綜合影響力為M,ε為誤差。設(shè)時間維度存在T1 當(dāng)T 當(dāng)T1 當(dāng)T2 當(dāng)T3 2.2視頻標(biāo)簽與話題關(guān)聯(lián)匹配 如果個體視頻中維度F1的信息符合時下熱門話題,F(xiàn)2的最終取值也會相對應(yīng)提高,其產(chǎn)生的綜合影響力M也會相應(yīng)提高。判斷F1中的熱點是否對整個F2的產(chǎn)生具體影響時,可以追溯UP主往期投稿數(shù)據(jù),如果其新視頻影響力遠(yuǎn)高于往期視頻集的加權(quán)平均值,可認(rèn)為新視頻內(nèi)容中存在熱點話題與標(biāo)簽,但不可以排除樣本數(shù)據(jù)過少,或該視頻超水平發(fā)揮。 定向話題占比權(quán)重為hi(i=1,2,3...n),則該話題權(quán)重計算為 (A為相關(guān)系數(shù),這里根據(jù)研究結(jié)果取1.32;c為與話題相關(guān)標(biāo)簽詞;F1 數(shù)據(jù)取總標(biāo)簽數(shù))。當(dāng)數(shù)據(jù)大于1時,權(quán)重視為1;權(quán)重大于0.81,可認(rèn)為視頻與話題高相關(guān);權(quán)重小于0.31,話題相關(guān)性低,可進(jìn)行共性忽略(不參與話題整體計算)。 而話題關(guān)聯(lián)標(biāo)簽詞可進(jìn)行人工定義或機(jī)器進(jìn)行數(shù)據(jù)聚類判斷。前者多用于大量視頻中發(fā)現(xiàn)熱點話題,后者多通過標(biāo)簽發(fā)現(xiàn)共性話題。如圖: h1=1.32c1/F1=0.935(ci=5,F(xiàn)1=7)盡管有些標(biāo)簽并沒有出現(xiàn)在人工庫中,存在誤差,但依舊認(rèn)為視頻與話題高相關(guān)。 但如果單一通過標(biāo)簽關(guān)鍵詞來進(jìn)行匹配判斷就會引發(fā)其他問題:同源不同類視頻相互匹配,話題匹配雜化。如此時存在另一同類視頻: h2=1.32c2/F1=0.528(c2=4,F(xiàn)1=10),即使視頻的話題權(quán)重占比高,數(shù)據(jù)上表現(xiàn)高關(guān)聯(lián)性,但實際上是對同源話題中的共性元素匹配,這對某一話題的整體研究中會產(chǎn)生巨大誤差,結(jié)果不是研究者希望看到的。 所以在匹配標(biāo)簽關(guān)鍵詞時,建立高耦合度相關(guān)性判斷詞庫(多為特有)與中耦合關(guān)聯(lián)度詞庫(具有共性元素)。如先對標(biāo)簽詞進(jìn)行高耦合判斷匹配,如果相關(guān)性hi>0.31,再與中耦合詞庫匹配,將其相加得新相關(guān)度hi可用于整體話題熱點計算。否則因相關(guān)性低,不認(rèn)為存在關(guān)聯(lián),后續(xù)不進(jìn)行相關(guān)熱點計算。如建立詞庫如下: 此時h2 <0.31,該視頻不參與此定向話題的整體熱度計算?;隈詈戏謱悠ヅ渥畲蟮膬?yōu)勢是提高相關(guān)性匹配率與降低時間復(fù)雜度,實現(xiàn)更高效更精準(zhǔn)的話題匹配。 2.3詞庫聚類迭代與新建 單一人工定義話題關(guān)聯(lián)詞無疑工程量巨大,且人工詞庫時常存在缺失遺落,容易導(dǎo)致整體視頻話題影響力計算誤差偏大。簡單聚類算法可以更加高效對非詞庫詞是否具有關(guān)聯(lián)性產(chǎn)生判斷。 2.4話題整體熱度分析 整體話題分析計算不能只單一進(jìn)行各視頻個體影響力加權(quán)累加,而是要對頭部視頻進(jìn)行部分約束。每個視頻對不同話題存在不同關(guān)聯(lián)度,一個視頻可以與多個話題產(chǎn)生關(guān)聯(lián),參與多次熱度計算。在計算話題整體影響力時,更多對高個體影響力視頻進(jìn)行約束,避免統(tǒng)計的基尼效應(yīng)。 3 仿真試驗 通過以上設(shè)計對B站生活、科技、動漫區(qū)三區(qū),其排行榜前20名熱門視頻進(jìn)行不定向話熱門題挖掘,發(fā)現(xiàn)其生活區(qū)搞笑類,科技區(qū)時政類,動漫區(qū)配音類與抖音相關(guān)方面熱門話題重合率高達(dá)分別為74%,63.8%,58%。 同時在針對某類化妝產(chǎn)品進(jìn)行定向話題挖掘時,可以較為精準(zhǔn)的得出該類產(chǎn)品在各類化妝產(chǎn)品中的熱點排行榜與對其感興趣人群的大致規(guī)模。對商業(yè)產(chǎn)品推廣與產(chǎn)品人群定位有極大的幫助。 4 結(jié)束語 在整個B站話題熱點研究中,通過各方面數(shù)據(jù)的線性組合,對非線性研究對象進(jìn)行簡單分析。算法上簡單聚類算法高效完善詞庫降低與實際差值,而耦合分層使話題誤差減小。再對耦合度詞庫規(guī)劃越細(xì),相關(guān)關(guān)聯(lián)度閾值不斷調(diào)整后,可以從話題總影響力得出關(guān)注話題人群相關(guān)規(guī)模。同樣對生產(chǎn)高個體影響力的視頻博主進(jìn)行分析,創(chuàng)造出合適的合作商業(yè)視頻,也可以對產(chǎn)品推廣有不小的幫助。對信息傳播分析,市場挖掘起到指向性幫助。