賈慧瑾 陳潔
(西藏民族大學(xué)信息工程學(xué)院,陜西 咸陽 712082)
隨著社會信息量的激增,使用報紙、廣播、電視等傳統(tǒng)媒介已經(jīng)不能充分推動藏語文化的發(fā)展,而新媒體平臺的興起打破了這種僵局[1],極大拓寬了藏語言文化的傳播途徑[2]。例如,隨著藏語神曲《FLY》的發(fā)布以及受丁真等網(wǎng)絡(luò)紅人帶動的影響,網(wǎng)絡(luò)上掀起了一股學(xué)習(xí)藏語的風(fēng)潮,大量用戶發(fā)布、觀看并轉(zhuǎn)發(fā)相關(guān)藏語視頻。同時,由于藏語新媒體作品的高傳播率,很多粉絲慕名前往“理塘”等地旅游打卡,帶動了當(dāng)?shù)芈糜螛I(yè)和經(jīng)濟。因此,本文意圖通過收集發(fā)布在新媒體平臺的藏語作品的相關(guān)數(shù)據(jù),研究藏語視頻在各個分區(qū)的發(fā)布量和播放量占比以及發(fā)布熱度和播放熱度的發(fā)展趨勢,分析用戶對于不同類型視頻的喜好程度和發(fā)布傾向,為新媒體平臺的推薦機制提供思路,為相關(guān)自媒體工作者提供數(shù)據(jù)參考,有助于當(dāng)?shù)芈糜尉执_立更完善的推廣計劃,促進藏語文化的傳播。
通過對主流新媒體平臺藏語作品數(shù)據(jù)采集的數(shù)據(jù)量及采集難易程度的研究,本文確定以嗶哩嗶哩視頻網(wǎng)站(下文所述B 站為該平臺簡稱)作為研究數(shù)據(jù)來源具有以下優(yōu)勢:其一:用戶群體較廣,涉及多個年齡段、多個省市;其二:平臺對視頻的分類程度較高較細,涉及多個門類且視頻資源較多;其三:B 站的社區(qū)文化由萬千原創(chuàng)視頻圍繞組成[3];其四:外行人可能僅僅以為B 站最明顯的屬性是彈幕,但在網(wǎng)站用戶眼中早已把它的社交功能放在首位[3]。
根據(jù)研究發(fā)現(xiàn),嗶哩嗶哩的視頻排列方式分為綜合排序、最多點擊、最新發(fā)布、最多彈幕和最多收藏共5 種,根據(jù)檢索詞檢索后最多可以顯示1000 條視頻。綜合排序考慮了視頻的各類信息,而不單單只以某一特定的元素作為排列標(biāo)準(zhǔn),本文研究藏語作品需要考慮視頻的各種信息,以此分析用戶的行為特征,故根據(jù)研究需要本文將以綜合排序下的1000 條視頻作為研究對象,以“藏語”一詞為檢索詞進行分析,并對發(fā)布于2022年2月23日之前的作品數(shù)據(jù)進行具體分析。
本文使用Python 第三方庫requests 庫和lxml 庫爬取數(shù)據(jù)[4],再通過pandas 庫保存數(shù)據(jù)[5]。具體操作流程如圖1所示。
圖1 數(shù)據(jù)獲取流程圖
第一步,進入嗶哩嗶哩平臺官方網(wǎng)頁,獲取該網(wǎng)頁的動態(tài)URL,利用format()函數(shù)設(shè)置關(guān)鍵詞搜索和待爬取頁碼數(shù)。
第二步,通過網(wǎng)頁源代碼,分析網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)。
第三步,取得視頻的名稱、視頻分區(qū)、播放量、彈幕數(shù)量、上傳日期以及相應(yīng)的視頻作者的XPath路徑。遍歷爬取平臺相關(guān)視頻信息,直至將平臺顯示所有頁面的數(shù)據(jù)爬取完成。
第四步,利用pandas 對象DataFrame 實現(xiàn)數(shù)據(jù)表格化,并保存為CSV文件。
通過以上步驟獲得如表1所示的數(shù)據(jù)。表中各列的標(biāo)題region、title、view_num、danmu、upload_time、up_author、video_url 分別表示作品視頻分區(qū)、視頻名稱,視頻觀看量、彈幕數(shù)量、作品發(fā)布時間、視頻作者、視頻對應(yīng)URL。
表1 初步獲取的部分藏語視頻相關(guān)數(shù)據(jù)
通過對獲取的數(shù)據(jù)探索分析發(fā)現(xiàn)存在部分?jǐn)?shù)據(jù)單位不統(tǒng)一、獲取的視頻對應(yīng)URL 與研究內(nèi)容無關(guān)、視頻發(fā)布時間跨度較大等問題,會影響數(shù)據(jù)分析的效率,導(dǎo)致分析結(jié)果存在偏差,所以進行數(shù)據(jù)預(yù)處理操作就顯得至關(guān)重要[6]。
本文通過以下四個步驟實現(xiàn)數(shù)據(jù)預(yù)處理,具體流程如圖2所示。
圖2 數(shù)據(jù)預(yù)處理流程圖
第一步,使用pandas的read_csv()函數(shù)從CSV文件中讀取數(shù)據(jù)。
第二步,去除通過數(shù)據(jù)探索分析所發(fā)現(xiàn)的與目標(biāo)無關(guān)的數(shù)據(jù),例如,去除video_url列。
第三步,用drop_duplicates()方法對數(shù)據(jù)進行去重操作。
第四步,使用data.replace()函數(shù)替換danmu 和view_num中以萬為單位的數(shù)據(jù),統(tǒng)一數(shù)據(jù)單位。
經(jīng)過數(shù)據(jù)預(yù)處理操作后獲得的部分藏語視頻數(shù)據(jù)如表2 所示,實現(xiàn)了數(shù)據(jù)單位統(tǒng)一,為下文數(shù)據(jù)可視化提供了數(shù)據(jù)支撐,并刪除了一條相同的數(shù)據(jù),最后共計獲得了999 條數(shù)據(jù)作為本文的研究對象。
表2 數(shù)據(jù)預(yù)處理后部分藏語視頻相關(guān)數(shù)據(jù)
數(shù)據(jù)可視化可以更直觀的展示數(shù)據(jù),分析數(shù)據(jù)之間的內(nèi)在聯(lián)系[7]。本文通過pyecharts 柱狀圖Bar、餅圖Pie、折線圖Line 實現(xiàn)數(shù)據(jù)可視化,從四個方面對藏語主題視頻作品進行可視化分析:藏語主題視頻分區(qū)播放總量、藏語主題視頻分區(qū)發(fā)布數(shù)量所占比重、藏語主題視頻發(fā)布熱度與播放熱度走勢、藏語主題視頻播放數(shù)量TOP10。
圖3是嗶哩嗶哩“藏語”檢索詞下的視頻播放總量柱狀圖,從圖中可以看出存在三個斷層,據(jù)此本文將視頻類別分為三類:高播放量類別、中播放量類別、低播放量類別。第一類具體包含:音樂綜合、人文歷史、影視剪輯、音樂現(xiàn)場、日常;第二類包含搞笑、野生技能協(xié)會、摩托車、MV、其他、翻唱、手機游戲、綜藝、社科法律心理、校園學(xué)習(xí);第三類別包含:短片、綜合、明星綜合、影視雜談、原創(chuàng)音樂、運動文化、田園美食、手工等共計35種類別。
圖3 嗶哩嗶哩藏語主題視頻分區(qū)播放總量柱狀圖
可以看出日常類視頻播放總量明顯高于其它類別,據(jù)此推測用戶在觀看藏語主題作品時更傾向于日常類作品。經(jīng)過對日常類視頻的篩選發(fā)現(xiàn)在此類視頻中由作者那曲拉姆發(fā)布的視頻《牧民說“扎西德勒”該咋回?藏族姑娘的藏語小課堂,你聽懂幾句》占據(jù)62.3 萬播放量,位居藏語視頻播放量第一,另外由關(guān)注看熱點發(fā)布的《丁真如何看待自己走紅?丁真用藏語接受央視采訪【央視鏡頭下的丁真】》也具有17.6 萬播放量。這兩例視頻占據(jù)了日常類視頻總觀看量的絕大部分,提高了日常類視頻的播放總量。
通過分析表3 可以看出,在排名前列的日常類作品中,以丁真為標(biāo)題的作品占絕大多數(shù)且播放量均不低。另外,觀看量居于前列的視頻多發(fā)布于2020年,但發(fā)布量最多的卻為2021 年。通過分析發(fā)現(xiàn)丁真受大眾關(guān)注的時間為2020 年11 月,據(jù)此推測在此段時間以丁真為主題的視頻播放量較高,拉高了日常類視頻的播放總量。因此,本文推測日常類視頻遠超其它類視頻的原因與發(fā)布視頻的up 主、發(fā)布內(nèi)容涉及受人們關(guān)注的人物和事件以及發(fā)布時間有關(guān)。
表3 觀看量居于前列的日常類視頻作品信息
對藏語主題視頻各分區(qū)的發(fā)布情況進行詳細分析,制作了圖4 所示的嗶哩嗶哩藏語主題視頻分區(qū)發(fā)布數(shù)量百分比圖,圖中具體顯示了各類視頻的占比并用不同的顏色進行區(qū)分。
圖4 嗶哩嗶哩平臺藏語主題視頻分區(qū)發(fā)布數(shù)量百分比圖
根據(jù)圖4可以看出,日常類作品的發(fā)布數(shù)量最多,共計278 條,占據(jù)總量的27.83%,與視頻播放總量的最大值基本保持一致。摩托車類視頻僅發(fā)布了兩條視頻,與播放總量排名相差較大。通過分析發(fā)布僅一條視頻的類別可以看出,所有類別均位于第三類,除綜合類外播放量均低于2000。對比圖3 可以得出,視頻發(fā)布數(shù)量與播放總量之間存在三種情況:低發(fā)布量高播放量、高發(fā)布量低播放量、基本保持一致。
2.2.1 低發(fā)布量高播放量的藏語作品,以摩托車視頻《中波夫妻摩旅·會說六國語言的麗導(dǎo)在青海竟然被藏語難住了》為典型,該視頻播放量達到55000,而另外一條視頻播放量僅為30。雖然僅有兩條,但因其視頻播放量較大,影響了其屬類別播放總量。另外,在該視頻的686 條彈幕中出現(xiàn)較多的為剪輯手法、風(fēng)景優(yōu)美、高質(zhì)量視頻等。個人分析,該視頻能具有遠遠高于其他同類視頻的播放量,主要因其標(biāo)題足夠吸引觀眾,以及高質(zhì)量的攝像、剪輯手法,以及其視頻配樂和視頻內(nèi)容中的藏族文化等收獲了較多的關(guān)注,提高了摩托車類視頻的播放總量。
2.2.2 對高發(fā)布量低播放量視頻的情況分析,此處以繪畫類視頻為例,此類視頻發(fā)布共計19 條,平均每條視頻播放量在65點,播放量較低。由同一作者發(fā)布的達到18 條,該作者發(fā)布的視頻均以“竹筆手寫”或“藏語寫城市”為主題。個人分析,雖視頻播放量較低,但視頻作者對該類視頻喜好程度較高或視頻發(fā)布類型為主題類需要定期發(fā)布更新,故該類視頻發(fā)布數(shù)量較多。
2.2.3 對于播放總量和發(fā)布數(shù)量基本保持一致的這部分視頻,在篩選出的999 條視頻中占比最大。此處以第三類視頻為例,該類視頻播放總量較低,發(fā)布數(shù)量較少。個人分析,用戶對這些類別關(guān)注度低,受眾少,故導(dǎo)致多數(shù)作者不選擇發(fā)布該類別視頻。
圖5為嗶哩嗶哩藏語主題視頻發(fā)布熱度和播放熱度走勢圖,圖中用藍線表示視頻播放總量,紅線表示視頻發(fā)布數(shù)量。
圖5 嗶哩嗶哩平臺藏語主題視頻發(fā)布熱度和播放熱度走勢圖
圖5中藏語主題視頻發(fā)布熱度和播放熱度在多個時間段均有較高的峰值,分別是2016 年9 月中旬、2020 年11 月下旬、2021 年4 月下旬、2021 年7 月初、2022 年1 月下旬、2022 年2 月中旬。其中,2020 年11月下旬和2022 年1 月下旬的發(fā)布量與播放量均出現(xiàn)峰值,二者基本保持一致。2021年4月下旬和2022年2 月中旬均為發(fā)布數(shù)量出現(xiàn)峰值,而播放量則位于低位,二者差距顯著。通過對視頻數(shù)據(jù)進行分析發(fā)現(xiàn),2021 年4 月20 日和2021 年4 月28 日由同一作者發(fā)布了22 條校園學(xué)習(xí)類作品,平均播放量大致在400 左右且均為以藏語學(xué)習(xí)為主題,需要定期更新。2022 年2月同樣由1~3名作者發(fā)布了較多視頻但播放量普遍位于50以下,這也導(dǎo)致了此類視頻觀看量要遠低于其發(fā)布量。2016年9月中旬和2021年7月初出現(xiàn)了播放總量小高峰,通過數(shù)據(jù)分析發(fā)現(xiàn),高播放量視頻分別屬影視剪輯和音樂現(xiàn)場類,觀看量分別達到26.9 萬和22萬,極大拉高了同期的視頻數(shù)據(jù)且兩類視頻均與音樂有關(guān)。2021 年7 月29 日發(fā)布的音樂現(xiàn)場視頻達到3.7萬播放量,且同樣為藏語歌曲。據(jù)此推斷,嗶哩嗶哩用戶比較喜歡歌曲類藏語視頻。由此可見,在藏語推廣和藏文化傳承中,音樂形式的傳播不失為一個好方法。
根據(jù)表4,可以發(fā)現(xiàn)在999 條視頻作品中2022 年僅兩個月發(fā)布視頻就達到142 條,超過其它年限的月發(fā)布量,并且可以看出近年來藏語視頻發(fā)布數(shù)量增幅明顯,說明用戶對藏語視頻的興趣增強。
表4 嗶哩嗶哩藏語作品年發(fā)布數(shù)量表
總體而言,發(fā)布熱度與播放熱度的走勢基本一致,存在少部分時間段差異比較顯著,究其原因為部分視頻觀看量較大或個別作者同一時間段發(fā)布大量作品,拉高或者拉低了數(shù)據(jù)。
根據(jù)表5 所示的藏語主題視頻排名數(shù)據(jù),制作的視頻播放量Top10 柱狀圖如圖6 所示。其中排名第一的為《牧民說“扎西德勒”該咋回?藏族姑娘的藏語小課堂,你聽懂幾句》,遠超排名第二的《丁真藏語播報四川新聞沉穩(wěn)得體聲音蘇~~》、排名第三的視頻《藏語《紅河谷》寧靜唱祝酒歌+次仁拉索(好聽哭了)》和其它視頻。分析發(fā)現(xiàn)排名前列的視頻均位于第一類作品,與視頻各類播放總量基本保持一致。另外,在這些視頻中日常類作品具有3 條,以音樂為主題的占據(jù)5條,人文歷史、手機游戲、校園學(xué)習(xí)類各占據(jù)1條。據(jù)此分析,音樂等旋律類的作品更受用戶青睞,而且當(dāng)視頻中出現(xiàn)受大眾歡迎的人物時用戶會停留下來觀看視頻并發(fā)送彈幕參與到視頻討論中。
圖6 嗶哩嗶哩平臺藏語主題視頻播放數(shù)量排名前10柱狀圖
表5 嗶哩嗶哩藏語視頻播放量排名表
本文利用SPSS 對數(shù)據(jù)預(yù)處理后的藏語視頻彈幕數(shù)量、播放量、更新日期進行正態(tài)性檢驗,得到如表6所示的結(jié)果[8]。發(fā)現(xiàn)三者均出現(xiàn)的情況,均不服從正態(tài)分布,使用Pearson 相關(guān)系數(shù)不能正確展示兩個變量之間的關(guān)系,故本文利用Spearman 秩相關(guān)系數(shù)(也稱等級相關(guān)系數(shù))進行具體分析,并得到表7。
表6 藏語視頻彈幕數(shù)量、視頻播放量、更新日期正態(tài)分布檢驗結(jié)果
相關(guān)系數(shù)r的取值范圍為:-1≤r≤1。
0<|r|<1表示不同程度的相關(guān)性。
由表7可知視頻播放量、彈幕數(shù)量、更新日期之間具有不同程度的相關(guān)性。其中,播放量與彈幕數(shù)量(r=0.707,P<0.01)為顯著正相關(guān)關(guān)系,更新日期與播放量(r=-0.522,P<0.01)呈顯著負相關(guān)關(guān)系,更新日期與彈幕數(shù)量(r=-0.306,P<0.01)呈現(xiàn)低度負相關(guān)關(guān)系??梢苑治龅贸霾シ帕扛叩囊曨l彈幕數(shù)量較高,更新日期較早的視頻播放量和彈幕數(shù)量相對較高。
表7 藏語視頻播放量、彈幕數(shù)量、更新日期之間的相關(guān)性分析
根據(jù)上文所述,嗶哩嗶哩平臺在綜合排序下所顯示的早期視頻數(shù)量較少,而這些視頻之所以能在平臺的推薦機制下留存,與其播放量高、評論量多等因素息息相關(guān),隨著平臺的繼續(xù)推送,這些視頻的播放量、彈幕數(shù)量會在原先基礎(chǔ)上繼續(xù)增長,因此更新日期與兩者均呈現(xiàn)為顯著線性相關(guān)。播放量高的視頻,因其視頻特點,用戶在觀看過程中會參與到討論中;同樣的,彈幕數(shù)量較多的視頻用戶會因好奇、期待等心理繼續(xù)觀看視頻,因而二者呈現(xiàn)為顯著線性相關(guān)。
新媒體平臺的發(fā)展為藏語及藏文化的傳播拓寬了途徑。本文利用Python、SPSS 等工具對藏語作品播放數(shù)據(jù)進行收集、數(shù)據(jù)分析及可視化,通過分析播放量、發(fā)布量與類別之間關(guān)系,推測出作品的觀看熱度與視頻作者、視頻內(nèi)容涉及用戶關(guān)注的人或事件、作品發(fā)布的時間等有關(guān)。作品發(fā)布熱度與當(dāng)時發(fā)生的具體事件以及作品的主要形式等有關(guān)。
本文間接展示了視頻網(wǎng)站在少數(shù)民族文化傳播方面的作用和影響力,以期更好地繼承和發(fā)揚藏語等非物質(zhì)文化遺產(chǎn),為少數(shù)民族文化相關(guān)研究提供參考支持。