李慶真,唐 燾
(杭州電子科技大學(xué) 法學(xué)院,浙江 杭州 310018)
信息技術(shù)的快速發(fā)展和智能手機(jī)、平板電腦等移動(dòng)社交工具的快速普及,改變了人們交流和傳播信息的方式,極大地豐富了人們的數(shù)字生活。相關(guān)研究表明,個(gè)人每天使用手機(jī)的時(shí)間超過(guò)2.5小時(shí)[1],用戶平均每天在應(yīng)用程序之間切換101次,移動(dòng)社交媒體是最受歡迎的應(yīng)用程序之一。
然而,社交媒體用戶數(shù)量目前的增長(zhǎng)速度遠(yuǎn)低于之前,社交媒體使用率逐漸呈下降趨勢(shì)[2]。2019年,46個(gè)社交媒體市場(chǎng)中有22個(gè)市場(chǎng)的消費(fèi)者使用社交媒體的時(shí)間比2018年減少[3]。微信朋友圈的使用率從2017年12月的87.3%下降到2018年12月的83.4%[4]。新浪微博也不可避免地遇到了類似的問(wèn)題,2016年《微博用戶研究》顯示[5],參與調(diào)研的手機(jī)用戶中使用微博的占比71.7%,其中忠實(shí)用戶占比31.2%,新增用戶與流失用戶占比分別為11.6%與28.9%。越來(lái)越多的用戶采取措施以減少社交媒體的負(fù)面影響,如減少使用頻率或時(shí)長(zhǎng),關(guān)閉社交媒體APP的消息提醒,關(guān)閉朋友圈,卸載社交媒體APP等。這種用戶逐漸減少甚至放棄使用社交媒體的行為,被稱為“社交媒體倦怠”(Social Media Fatigue,SMF)[6]。此外,由于信息過(guò)載、隱私擔(dān)憂等問(wèn)題,社交媒體平臺(tái)上的不連續(xù)使用行為已經(jīng)成為一個(gè)主要問(wèn)題并引起了廣泛關(guān)注[7]。
結(jié)合社交媒體倦怠動(dòng)態(tài)性、長(zhǎng)期性和矛盾性的特征,本文采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)用戶長(zhǎng)期的實(shí)際行為數(shù)據(jù)進(jìn)行檢索。通過(guò)社交媒體使用日志進(jìn)行縱向研究,并采用主題模型和文本挖掘的研究方法,切實(shí)關(guān)注用戶行為、態(tài)度和情緒的時(shí)序變化和演化階段,并使用S-O-R理論模型對(duì)用戶倦怠因素進(jìn)行分析。本文的研究有助于豐富社交媒體倦怠的研究方法與研究成果,對(duì)了解和改善用戶消極行為有一定的借鑒意義。
Adam P在2004年首次提出了社交媒體倦怠的概念[8],引發(fā)了學(xué)術(shù)界對(duì)于社交媒體倦怠現(xiàn)象的探討與研究。社交媒體倦怠反映了社交媒體用戶的負(fù)面情緒,以及個(gè)人因感知的社會(huì)比較增加而避免使用或缺乏使用社交媒體動(dòng)機(jī)的程度[6];它是用戶在社交網(wǎng)絡(luò)活動(dòng)中負(fù)面情緒的一種表現(xiàn),典型情況包括疲倦和冷漠[6,9]。Bright等人從信息過(guò)載的角度定義了社交媒體倦怠,并將倦怠歸結(jié)為四個(gè)因素:社交媒體信心、社交媒體自我效能、隱私關(guān)注和社交媒體幫助[10]。Lee等人將社交網(wǎng)絡(luò)過(guò)載分為系統(tǒng)過(guò)載、信息過(guò)載以及溝通過(guò)載,對(duì)三種類型的過(guò)載會(huì)在何種程度上影響社交媒體倦怠進(jìn)行實(shí)證檢驗(yàn),并分析了導(dǎo)致這些過(guò)載的社交網(wǎng)絡(luò)特征[11]。謝名家認(rèn)為,當(dāng)用戶減少使用社交媒體的時(shí)間、降低使用頻率時(shí),意味著用戶對(duì)媒體軟件的熱情已經(jīng)消退并產(chǎn)生了疲憊與厭倦,負(fù)面情緒進(jìn)一步加強(qiáng)則會(huì)影響行為,造成用戶潛水甚至卸載退出使用[12]。劉魯川等人[13]運(yùn)用扎根理論對(duì)影響社交媒體倦怠的因素進(jìn)行構(gòu)建,認(rèn)為用戶產(chǎn)生的倦怠情緒是環(huán)境因素和個(gè)人因素綜合作用的結(jié)果,這種負(fù)面情緒進(jìn)一步導(dǎo)致用戶的不持續(xù)使用行為。
雖然目前學(xué)術(shù)界對(duì)社交媒體倦怠還沒(méi)有統(tǒng)一的、被普遍認(rèn)可的定義,但是結(jié)合以往的研究成果可以看出,社交媒體倦怠包含兩個(gè)層面的含義:首先,在心理層面上表現(xiàn)為情緒枯竭的內(nèi)在情緒體驗(yàn);其次,將不持續(xù)使用意愿外顯在行為層面,降低使用頻率,減少互動(dòng)行為,產(chǎn)生間歇性中輟、轉(zhuǎn)移軟件甚至長(zhǎng)期卸載永久退出社交媒體軟件的行為。
在互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)的產(chǎn)生是井噴式的,短短60秒,微博、臉書(shū)就會(huì)爆發(fā)超過(guò)10萬(wàn)的新數(shù)據(jù)、600萬(wàn)條瀏覽信息,而這些數(shù)據(jù)背后蘊(yùn)含著大規(guī)模的、潛在的重要意見(jiàn),因此需要對(duì)數(shù)據(jù)進(jìn)行價(jià)值“提純”。無(wú)監(jiān)督的主題建模成為文本挖掘中的重要任務(wù)之一,它利用聚類來(lái)查找數(shù)據(jù)中的潛在變量或隱藏結(jié)構(gòu),對(duì)非結(jié)構(gòu)化文本進(jìn)行文檔聚類、信息檢索和特征選擇。
2003年David Blei, Andrew Ng和 Michael I. Jordan提出了一個(gè)全貝葉斯的概率主題模型LDA(Latent Dirichlet Allocation),它可以用來(lái)識(shí)別離散數(shù)據(jù)集,有效地提取文本主題,并對(duì)文本評(píng)論數(shù)據(jù)進(jìn)行文本挖掘建模分析。LDA可以克服人工閱讀能力的障礙,利用計(jì)算機(jī)高效的數(shù)據(jù)處理能力對(duì)文本信息進(jìn)行處理,將復(fù)雜的文本信息拆分到“文檔-主題-詞匯”的概率中,從而對(duì)文檔進(jìn)行聚類。目前,LDA主題建模在各個(gè)領(lǐng)域的研究中均有涉獵:分析在線融資項(xiàng)目評(píng)論主題的演化過(guò)程[14];基于LDA對(duì)物流服務(wù)質(zhì)量的影響因素研究[15];基于LDA模型對(duì)國(guó)內(nèi)評(píng)論挖掘與情感分析領(lǐng)域的主題分析[16]。因此,本文通過(guò)該模型來(lái)識(shí)別微博使用者社交媒體倦怠的隱藏主題。
Mechrabian A和Russell在環(huán)境心理學(xué)的基礎(chǔ)上提出了S-O-R(Stimulus-Organism-Reaction)理論模型,指有機(jī)體(O)通過(guò)機(jī)體內(nèi)部一系列復(fù)雜的反應(yīng)對(duì)環(huán)境的刺激(S)做出反饋(R)[17]。該模型認(rèn)為主體被外界客體如環(huán)境刺激時(shí),其內(nèi)在狀態(tài)比如心理認(rèn)知、情緒等會(huì)受到影響,進(jìn)而導(dǎo)致主體產(chǎn)生內(nèi)在意愿或者外在行為反應(yīng)[18]。
在研究社交媒體倦怠因素及行為時(shí),根據(jù)SOR理論,將整個(gè)過(guò)程分為三個(gè)部分,一是發(fā)現(xiàn)刺激源(Stimulus),二是刺激對(duì)用戶作用后產(chǎn)生的倦怠情緒(Organism),三是由于倦怠情緒產(chǎn)生的遠(yuǎn)離行為結(jié)果(Reaction)。
研究框架如圖1所示,該框架展示了數(shù)據(jù)爬取后隱藏主題的提取過(guò)程,并結(jié)合理論模型進(jìn)行分析的步驟和過(guò)程。
圖1 研究框架
本文選擇微博平臺(tái)對(duì)用戶的社交媒體倦怠行為進(jìn)行研究有以下兩個(gè)原因。首先,微博兼具媒體與社交的功能,其使用門(mén)檻低,便捷性強(qiáng),內(nèi)容短小,可以隨時(shí)隨地地快速傳播。其次,社交媒體倦怠的情況同樣出現(xiàn)在微博用戶中,相比于微信的熟人社交,微博上的社交關(guān)系更多的是陌生人之間的弱關(guān)系,大多數(shù)用戶愿意把微博作為展示自我的平臺(tái)來(lái)分享動(dòng)態(tài)。
倦怠行為主要體現(xiàn)在兩個(gè)方面,在控制并回避社交媒體行為方面,設(shè)置關(guān)鍵詞為“屏蔽(關(guān)閉)朋友圈、關(guān)閉微博評(píng)論”;對(duì)于逃離、退出平臺(tái)行為,設(shè)置關(guān)鍵詞為“卸載(遠(yuǎn)離)微博、遠(yuǎn)離媒體”。使用python爬蟲(chóng)工具抓取包含有以上關(guān)鍵詞的相關(guān)微博,抓取的時(shí)間范圍為2021年1月—2021年7月,最終獲得16 586條微博數(shù)據(jù)。
在進(jìn)行數(shù)據(jù)分析之前我們需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要包括去重、分詞和數(shù)據(jù)清洗。在處理中文語(yǔ)料庫(kù)時(shí),由于缺乏參考詞匯,文本可能會(huì)被錯(cuò)誤地分割[19]。本文使用當(dāng)下最流行的中文分詞模塊“結(jié)巴(Jieba)”方法來(lái)對(duì)每個(gè)序列進(jìn)行切分,根據(jù)語(yǔ)料庫(kù)的特點(diǎn)擴(kuò)展了基本的停用詞列表,添加了表情符號(hào)(^^,:- D,> <,…)、不相關(guān)的詞($,#,@,…),來(lái)實(shí)現(xiàn)停用詞的去除。此外,對(duì)語(yǔ)言字符進(jìn)行轉(zhuǎn)換,并刪除標(biāo)點(diǎn)符號(hào)。本文通過(guò)python自編程序?qū)?shù)據(jù)進(jìn)行分詞,刪除標(biāo)點(diǎn)符號(hào)、數(shù)字、url,刪除重復(fù)微博,刪除停用詞等,以便更好地實(shí)現(xiàn)用戶倦怠的主題提取。數(shù)據(jù)預(yù)處理后剩余15 673條微博數(shù)據(jù)進(jìn)入LDA主題建模。
LDA主題建模需要首先確定狄利克雷分布的先驗(yàn)參數(shù)α和β,以及被試數(shù)即主題數(shù)K。根據(jù)既往研究[20],參數(shù)α和β的常見(jiàn)設(shè)置一般為0.1和0.01,在本研究中也遵循這樣的設(shè)置。在對(duì)文檔分類的過(guò)程中,主題數(shù)通常不是預(yù)知的,因此對(duì)于主題數(shù)K的確定是關(guān)鍵環(huán)節(jié),主題相似性和差異性在主題分類聚類的過(guò)程中是需要考慮的因素。本文使用余弦相似度來(lái)判斷主題間的相似程度,使用主題困惑度對(duì)主題模型的預(yù)測(cè)能力進(jìn)行測(cè)量,這是衡量預(yù)測(cè)能力的標(biāo)準(zhǔn)方法[21]。
1.主題相似性
余弦相似度(Cosine Similarity)是一種廣泛使用的度量方法,通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)評(píng)估它們的相似度,如公式(1)。將向量A和向量B根據(jù)坐標(biāo)值,繪制到向量空間中,求得它們的夾角θ,并得出夾角對(duì)應(yīng)的余弦值cosθ,此余弦值就可以用來(lái)表征這兩個(gè)向量的相似性。
(1)
2.主題困惑度
主題困惑度(Topic Perplexity)是用來(lái)衡量主題模型對(duì)樣本預(yù)測(cè)能力的準(zhǔn)確程度。當(dāng)困惑度越低時(shí),可以認(rèn)為主題聚類的效果越好。計(jì)算方法如公式(2)。
(2)
在上述公式中,分母Nd是數(shù)據(jù)集中所有單詞之和;p(w)指的是數(shù)據(jù)集中每個(gè)單詞出現(xiàn)的概率。
對(duì)LDA模型中提取的主題結(jié)果進(jìn)行分析。第一步是分類主題數(shù)K的確定,主要使用Python程序及其Gensim模塊來(lái)完成建模,研究結(jié)果在傳播學(xué)、社會(huì)學(xué)和心理學(xué)的角度上豐富了用戶產(chǎn)生倦怠的相關(guān)理論研究成果,提供新鮮的研究視角。
由于主題個(gè)數(shù)的確定往往沒(méi)有統(tǒng)一的方法,主題相似性和困惑度雖然具有一定的參考依據(jù),但是最終主題數(shù)的確定還需要根據(jù)實(shí)際的聚類結(jié)果進(jìn)行選定,因此,本文綜合使用主題相似性、主題困惑度以及主題聚類可視化的結(jié)果來(lái)選定合適的主題數(shù)。
余弦相似度表示主題間的距離,如果余弦相似度越高,表明主題間有較多的重疊,反之,余弦相似度越低,模型的分類效果就越好。建模發(fā)現(xiàn)隨著主題數(shù)目的增加,余弦相似度逐漸呈整體下降趨勢(shì),主題數(shù)K=8、19時(shí),主題相似性得分最低。困惑度是文檔歸屬性的不確定性,發(fā)現(xiàn)主題數(shù)K=8、26時(shí)困惑度處于最低值區(qū)域,但是,其后存在局部的反彈,這是由于隨著主題數(shù)目的增加,聚類程度逐漸降低,主題的可解釋性下降了。
根據(jù)主題相似性和主題困惑度可以得出主題數(shù)的范圍(K=8、19、26),主題可視化的結(jié)果發(fā)現(xiàn),K=19和26時(shí),主題間的重疊程度較高。根據(jù)全局主題視圖得到K=8時(shí)主題間的重疊程度較小,因此,綜合以上的結(jié)果,選定主題數(shù)為8。
通過(guò)LDA主題模型可以得到潛在的主題個(gè)數(shù)及其對(duì)應(yīng)的關(guān)鍵詞,本文對(duì)關(guān)鍵詞進(jìn)行整合提煉得到主題名稱來(lái)與主題id對(duì)應(yīng),得到了8個(gè)主題將其抽象為用戶產(chǎn)生社交媒體倦怠的解釋因素,將每個(gè)解釋因素進(jìn)一步細(xì)分,然后根據(jù)“主題”和“關(guān)鍵詞”的邏輯關(guān)系對(duì)詳細(xì)因素進(jìn)行說(shuō)明,如表1。
表1 主題分析
社交媒體平臺(tái)因素和個(gè)人因素歸屬于刺激性因素,其中社交媒體平臺(tái)因素包含了信息因素、社交壓力、媒體環(huán)境和功能服務(wù);個(gè)人因素包括用戶個(gè)人上進(jìn)意愿和個(gè)人敏感度。由此得到用戶倦怠的S-O-R模型,如下圖所示。
圖2 用戶倦怠SOR模型
對(duì)用戶表達(dá)卸載、遠(yuǎn)離意向的博文進(jìn)一步進(jìn)行詞云分析,更具體地探究用戶產(chǎn)生消極使用行為的原因,得出詞云圖如圖3所示,從詞云圖中可以看出,在媒體因素方面,“社交壓力”“工作原因”“信息過(guò)載”“是非之地”是一部分用戶產(chǎn)生倦怠并停止使用的原因;同時(shí)保持規(guī)律健康的生活,不斷提升自己也是部分用戶遠(yuǎn)離或卸載微博的原因。詞云分析與主題分析的結(jié)果相似,進(jìn)一步證實(shí)了主題歸納的合理性。微博平臺(tái)的環(huán)境、內(nèi)容以及用戶自身三個(gè)方面的消極因素使用戶產(chǎn)生負(fù)面情緒,如難過(guò)、煩躁、沉郁等,促使用戶產(chǎn)生倦怠行為。
圖3 用戶倦怠的博文詞云圖
社交媒體因素與個(gè)人因素是導(dǎo)致社交媒體使用倦怠的主要原因,其中社交媒體因素主要包括媒體的功能范圍、媒體環(huán)境、信息因素以及微博所帶來(lái)的社交壓力。在媒體功能方面,垃圾廣告推薦、微商的刷屏、屏蔽廣告的困難是用戶選擇遠(yuǎn)離并停止使用軟件的原因。在個(gè)人因素方面,個(gè)人敏感度較高的用戶更容易產(chǎn)生倦怠情緒,在微博上進(jìn)行發(fā)文宣泄,聲稱要離開(kāi)或卸載。但是,個(gè)人上進(jìn)意愿更有可能切實(shí)影響到用戶的消極使用行為,當(dāng)個(gè)人的上進(jìn)意愿較強(qiáng)時(shí),若社交媒體對(duì)他產(chǎn)生了侵?jǐn)_感,用戶會(huì)進(jìn)一步作出實(shí)際的行為,比如關(guān)閉或者卸載。許多用戶對(duì)社交媒體軟件采取控制行為或暫停使用的原因是認(rèn)為社交媒體軟件的使用對(duì)現(xiàn)實(shí)生活產(chǎn)生了干擾,比如,對(duì)于學(xué)生群體而言,他們需要充足的時(shí)間和精力來(lái)完成艱巨的學(xué)習(xí)任務(wù),因此,會(huì)主動(dòng)地遠(yuǎn)離甚至停止使用社交媒體軟件。因此,社交媒體平臺(tái)方需要關(guān)注用戶所受附加效應(yīng)的影響,相關(guān)部門(mén)對(duì)微博網(wǎng)絡(luò)環(huán)境的監(jiān)管需要加強(qiáng),并規(guī)范化。同時(shí),著眼于豐富平臺(tái)內(nèi)容以此對(duì)用戶進(jìn)行保留,避免消極用戶的情緒擴(kuò)張對(duì)媒體產(chǎn)生負(fù)面影響,建立平臺(tái)與用戶間的情感紐帶,來(lái)維持用戶黏性。