王汝夢(mèng) 張劭賢 殷笑語(yǔ) 徐天晟
摘要:為了避免視頻網(wǎng)站中視頻彈幕對(duì)于青少年的不良影響,筆者通過(guò)使用深度學(xué)習(xí)的文字分級(jí)算法來(lái)實(shí)現(xiàn)用戶彈幕的分層、分類、分級(jí),對(duì)用戶的彈幕進(jìn)行規(guī)范引導(dǎo),營(yíng)造良好的網(wǎng)絡(luò)語(yǔ)言生態(tài)環(huán)境。彈幕分級(jí)展示的算法需要實(shí)時(shí)更新,在數(shù)據(jù)方面需要實(shí)時(shí)擴(kuò)大機(jī)器學(xué)習(xí)訓(xùn)練的樣本,并且對(duì)語(yǔ)言文字的分?jǐn)?shù)歸類進(jìn)一步的細(xì)化和精確。在技術(shù)方面可以結(jié)合心理學(xué)、傳播學(xué)、統(tǒng)計(jì)學(xué)等學(xué)科的最新發(fā)展情況,讓彈幕的分級(jí)分類更加精準(zhǔn)。
關(guān)鍵詞:彈幕過(guò)濾;文本分類;彈幕分級(jí)
1緒論
“彈幕”是當(dāng)下最為流行的在線視頻實(shí)時(shí)互動(dòng)交流方式,評(píng)論內(nèi)容雖然轉(zhuǎn)瞬即逝,但再次觀看視頻時(shí)還可在對(duì)應(yīng)彈幕發(fā)出的節(jié)點(diǎn)看到該彈幕的內(nèi)容,彈幕文化是一種將屏幕傳播與文字傳播相結(jié)合的融合文化。用戶通過(guò)彈幕信息交流不僅可以與其他用戶進(jìn)行實(shí)時(shí)互動(dòng),使得觀看視頻的過(guò)程變得有趣,在交流中獲得歸屬感[2],還可以通過(guò)彈幕了解額外的劇情知識(shí),增強(qiáng)視頻內(nèi)容的可讀性和趣味性,但由于彈幕的無(wú)限制性,用戶可以隨意表達(dá)自己的觀點(diǎn),卻不用承擔(dān)任何后果,促使彈幕文字有呈現(xiàn)低俗化的傾向,也讓很多低俗語(yǔ)言在這種環(huán)境中進(jìn)化甚至是病毒式傳播。
李欣茹學(xué)者認(rèn)為,視頻彈幕的流行也存在一些隱患,尤其是一些血腥暴力或者黃色內(nèi)容,極易被青少年模仿,造成不良影響,因此視頻彈幕的交際環(huán)境必須加以引導(dǎo)和凈化 [1] 。鄭珺、尹文漢學(xué)者認(rèn)為,隨著網(wǎng)絡(luò)傳播匿名環(huán)境的推進(jìn)和演化,人們?cè)趶椖坏耐虏劭駳g呈現(xiàn)出了低俗色情、暴力攻擊等傾向,彈幕視頻的網(wǎng)絡(luò)表達(dá)存在失范現(xiàn)象。網(wǎng)絡(luò)表達(dá)的失范現(xiàn)象在一定程度上給其他觀看視頻的用戶造成了觀影心理的影響,對(duì)青少年用戶的健康成長(zhǎng)也非常不利[2] 。彈幕對(duì)青少年網(wǎng)絡(luò)社群產(chǎn)生影響有多方面原因,彈幕作為影響的載體與介質(zhì),依靠其媒介特征發(fā)揮作用;青少年自身獵奇、不成熟的特質(zhì)使得這種影響被放大。彈幕對(duì)青少年網(wǎng)絡(luò)社群的健康發(fā)展產(chǎn)生影響,如何消除影響的消極方面、增強(qiáng)影響的積極方面是亟待解決的問(wèn)題[3]。
基于先前學(xué)者的調(diào)查研究,以及本著保護(hù)青少年健康上網(wǎng)和構(gòu)建綠色和諧上網(wǎng)環(huán)境的目的,我們可以得出結(jié)論:視頻彈幕市場(chǎng)對(duì)彈幕分級(jí)算法是有需求的。
2 分級(jí)算法研究
本文主要論述了如下兩部分內(nèi)容。
首先,研究數(shù)據(jù)獲取,通過(guò)彈幕爬蟲收集數(shù)據(jù),針對(duì)當(dāng)下流量最大的中文彈幕視頻分享網(wǎng)站B站編寫彈幕爬蟲程序,爬取網(wǎng)站中已有彈幕進(jìn)行研究。這其中包括對(duì)B站彈幕文件爬蟲的編寫,對(duì)于爬取的彈幕,基于分類研究的基礎(chǔ)上進(jìn)行數(shù)據(jù)標(biāo)注,為之后深度學(xué)習(xí)算法的訓(xùn)練提供分類訓(xùn)練集。
其次,彈幕分級(jí)研究,根據(jù)前面所爬取的彈幕數(shù)據(jù),以及之前學(xué)者對(duì)于彈幕語(yǔ)言的研究,設(shè)置分類級(jí)別,對(duì)不同級(jí)別的用戶進(jìn)行彈幕分級(jí)的展示。在充分學(xué)習(xí)應(yīng)用軟件工程的開發(fā)方法以及編程語(yǔ)言、架構(gòu)、數(shù)據(jù)庫(kù)等知識(shí)能夠解決實(shí)際問(wèn)題的基礎(chǔ)上,根據(jù)用戶和管理者的需求,開發(fā)彈幕展示的分級(jí)算法。
2.1研究數(shù)據(jù)獲取
為了本次研究的需要,筆者在開發(fā)網(wǎng)站爬蟲時(shí)基本是針對(duì)某個(gè)網(wǎng)站中一類相同的文件里特定的公開內(nèi)容進(jìn)行爬取,與觀看時(shí)進(jìn)行實(shí)時(shí)摘錄無(wú)異,只是從技術(shù)上起到節(jié)省時(shí)間的效果。本項(xiàng)目所爬取彈幕的目標(biāo)為嗶哩嗶哩網(wǎng)站中的非直播的視頻文件,由于B站彈幕是存在單獨(dú)的XML文件中用于每次播放時(shí)的調(diào)用,所以可以爬取。
爬蟲程序所爬取的彈幕會(huì)存放在CSV文件中,表格中第一列是對(duì)每一個(gè)彈幕進(jìn)行的哈希編碼,第二列是每條彈幕的具體內(nèi)容,第三列score是記錄其分類的打分?jǐn)?shù)字,當(dāng)前剛爬取下來(lái)默認(rèn)值設(shè)置為“-1”,便于與日后人工或者算法給出的分?jǐn)?shù)進(jìn)行區(qū)分。如此設(shè)計(jì)以方便未來(lái)深度學(xué)習(xí)算法作為訓(xùn)練集樣本調(diào)用。詳見下圖。
2.2彈幕分級(jí)模型
筆者依據(jù)從B站中爬取的彈幕文件,對(duì)其中的語(yǔ)言文字結(jié)合先前學(xué)者的研究[1-3]進(jìn)行了簡(jiǎn)單的歸納總結(jié)。大概可分為文學(xué)用語(yǔ)的積極詞匯、日常用語(yǔ)的常見詞匯、專業(yè)用語(yǔ)、對(duì)于生活的諷刺用語(yǔ)和經(jīng)過(guò)加工躲避敏感詞匯的不良言論。筆者根據(jù)百分制的原則和對(duì)這些用語(yǔ)的分類,對(duì)爬取的彈幕文字進(jìn)行標(biāo)注,最后將數(shù)據(jù)用于機(jī)器學(xué)習(xí)算法的訓(xùn)練。
根據(jù)各個(gè)年齡階段我國(guó)法律對(duì)其責(zé)任義務(wù)的規(guī)定,將彈幕分級(jí)展示的用戶分為以下四個(gè)等級(jí):6-14歲屬于幼兒兒童,14-18歲屬于青少年,18歲及以上屬于成年人,其中如有注冊(cè)用戶所填年齡未滿6周歲系統(tǒng)將不予以注冊(cè)。還有一類是完全權(quán)限,是系統(tǒng)管理員以及應(yīng)該有相應(yīng)權(quán)限的監(jiān)督和管理人員,可以看到系統(tǒng)所有用戶的全部發(fā)表言論。用戶彈幕分級(jí)年齡如下圖2所示:
每個(gè)等級(jí)可看到的彈幕分級(jí)分?jǐn)?shù)為:
0至不滿14周歲屬于幼兒兒童,可看0-40分,讓處在義務(wù)教育階段的兒童看到包括文學(xué)用語(yǔ)和日常用語(yǔ)的彈幕,更多接觸健康社會(huì),理解語(yǔ)言正確使用。文學(xué)用語(yǔ)包括正確引導(dǎo)兒童成長(zhǎng)的馬列主義哲學(xué)詞匯,中國(guó)傳統(tǒng)文化精髓的成語(yǔ),日常用語(yǔ)包括生活用語(yǔ)甚至方言與科技以及帶有擬人比喻等修辭方法的短語(yǔ)。
14至不滿18周歲屬于青少年,可看0-60分,讓處在高級(jí)中等教育的青少年在上述基礎(chǔ)上加上動(dòng)漫與游戲相關(guān)彈幕,讓其有對(duì)想象世界的判斷能力上進(jìn)行交流,他們正在形成世界觀、人生觀、價(jià)值觀,雖然具備了基本判別是非能力,但仍然很容易被誤導(dǎo)。
年滿18周歲以后,世界公認(rèn)此時(shí)已經(jīng)是成年人,可看0-80分,可以發(fā)表對(duì)事物的看法和觀點(diǎn),但對(duì)成年人來(lái)說(shuō)黃賭毒依然是被禁止的,所以需將這一類話語(yǔ)對(duì)其進(jìn)行屏蔽。
還有一類是管理員以及監(jiān)督人員查看全部彈幕的權(quán)限,可看0-100分。
3 總結(jié)與展望
視頻彈幕分級(jí)算法通過(guò)對(duì)用戶年齡階段來(lái)劃分用戶所能看到的彈幕類型,以此來(lái)達(dá)到保護(hù)青少年健康綠色觀影和學(xué)到更多知識(shí)的目的。在開發(fā)的過(guò)程中以基礎(chǔ)功能作為底板,對(duì)用戶的發(fā)言過(guò)濾,不是隨意設(shè)立“禁言”關(guān)鍵字,而是通過(guò)真實(shí)的數(shù)據(jù)作為支撐來(lái)實(shí)現(xiàn)有效過(guò)濾,讓管理者只需要不斷的對(duì)新興詞匯進(jìn)行歸納總結(jié)評(píng)分。
日后的研究還可以對(duì)彈幕的情感、輿論的興起、定向引導(dǎo)等方面進(jìn)行深入進(jìn)行。分級(jí)彈幕電影系統(tǒng)也是在提醒網(wǎng)民和網(wǎng)絡(luò)的管理者要時(shí)刻保持網(wǎng)絡(luò)空間的綠色和諧,讓更多的人意識(shí)到做和諧社會(huì)的一份子的重要性,更多的關(guān)注青少年在互聯(lián)網(wǎng)時(shí)代的健康成長(zhǎng),同時(shí)我們也要在制度上為其保駕護(hù)航。
本研究報(bào)告系國(guó)家社會(huì)科學(xué)基金項(xiàng)目《數(shù)據(jù)賦能的智慧媒體對(duì)青少年行為模式變化影響的研究》(項(xiàng)目編號(hào):19BXW120)支持的階段性成果。
參考文獻(xiàn)
[1]李茹欣. 視頻彈幕的語(yǔ)言學(xué)研究[D].陜西師范大學(xué),2018.
[2]鄭珺,尹文漢.網(wǎng)絡(luò)傳播語(yǔ)境下彈幕視頻熱潮解析[J].遼東學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2020,22(05):69-72.
[3]陳家瑋.視頻彈幕基礎(chǔ)下的青少年網(wǎng)絡(luò)社群研究——以嗶哩嗶哩和斗魚直播為例[J].視聽,2020(10):134-136.