胡寶靈,李志濤,周 燕
(華南農(nóng)業(yè)大學,廣東 廣州 510642)
隨著互聯(lián)網(wǎng)自媒體的興盛和人們上網(wǎng)偏好的改變,微信公眾號逐漸成為重要的媒體平臺之一。公眾號若能夠抓住關(guān)注者的閱讀偏好,并生產(chǎn)閱讀偏好下用戶最可能喜聞樂見的內(nèi)容,將對其閱讀量的提升存在一定作用。因此,本文在文本數(shù)據(jù)挖掘的基礎(chǔ)上,分析可能影響文章閱讀量的特征,并對這些特征進行篩選,旨在確認影響媒體閱讀量的因素,實現(xiàn)文本數(shù)據(jù)挖掘技術(shù)的延伸、傳播學自媒體研究的拓展。
自媒體閱讀量受多種因素影響。在自媒體閱讀量的研究中,研究者們采用多種方法確認閱讀量的影響因素,如金星[1]通過分析案例闡述閱讀量對文章特征的影響;陳星蓉、龍興宇[2]結(jié)合人群喜好提取吸引讀者的文章特征,但它們?nèi)狈?shù)據(jù)支持。還有通過描述性數(shù)據(jù)分析來估計閱讀量影響因素的研究,如郭爐、劉春云[3]將公眾號文章的多種特征可視化,判斷是否影響閱讀量,但這種方法仍舊缺乏有效的有效性檢驗。鐘若曦、馬曉燕等[4]采用多因素Logistics 回歸分析閱讀量和點贊量的影響因素和程度,但數(shù)據(jù)因人為主觀因素而存在誤差。
本研究以一個微信公眾號為研究主體,通過爬蟲技術(shù)獲取該公眾號下的所有文章為研究樣本,然后估計閱讀量發(fā)展至穩(wěn)定所需的時間,裁去部分閱讀量仍未達到穩(wěn)定的樣本,隨后數(shù)據(jù)清洗,去除特殊文章和異常文章,并將文章的標題和文章轉(zhuǎn)換詞向量,再進行特征工程。通過最大概率法、主題概率模型以及相關(guān)數(shù)據(jù)操作技術(shù),對數(shù)據(jù)進行分詞處理,提取文章特征,并檢驗所提取特征與閱讀量之間的關(guān)系。
本文爬取微信公眾號“情感說說”2018 年11月14 日至2019 年5 月11 日的數(shù)據(jù),剔除流量一周增長率大于1%(文章發(fā)布兩周時的閱讀量文章發(fā)布一周時的閱讀量)、閱讀量在3 倍標準差范圍外的文章。經(jīng)過數(shù)據(jù)清洗后,選用226篇文章的標題、發(fā)布時間、內(nèi)容和閱讀量4 個變量作為研究數(shù)據(jù)。
陳星蓉、龍興宇[2]認為,文章標題對文章流量有著至關(guān)重要的影響,新穎的標題往往使文章具有較高的閱讀量。文章標題的特征很可能包涵對文章流量預(yù)測的重要信息,故本研究首先提取文章標題的特征。
4.1.1 標題漢字的個數(shù)
本文將文章標題的漢字個數(shù)與文章閱讀量通過散點圖的形式可視化,并生成通過最小二乘法擬合得到曲線及95%的預(yù)測區(qū)間,如圖1 所示??梢钥匆姡瑪?shù)據(jù)點主要集中在左側(cè)且偏上的位置,擬合曲線明顯向下傾斜。
圖1 漢字個數(shù)與文章閱讀量的散點圖及擬合曲線(95%)
通過R 軟件計算得到的一元線性回歸系數(shù)表(表1)可以發(fā)現(xiàn),標題的漢字個數(shù)在回歸模型中的t 檢驗顯著性水平小于0.05,說明漢字個數(shù)在流量預(yù)測模型中存在足夠的信息價值。
表1 漢字個數(shù)與文章閱讀量的回歸系數(shù)表
4.1.2 標題符號的個數(shù)
王干麗[5]在研究公眾號文章標題時發(fā)現(xiàn),標點符號可以增強文章的感染力。本研究將標點符號這一特征進行多種方式分類,發(fā)現(xiàn)將沒有標點符號以及有標點符號的標題劃為一類,剩余有兩個及以上標點符號的標題劃為一類,這種情況經(jīng)過方差分析F 檢驗后的顯著性水平最低。以符號情況為名建立新變量,并將第一類劃為0,第二類劃為1,共得到201 個0 和25 個1。
4.1.3 標題的詞頻
文章標題是讀者了解文章最快速的渠道,標題中的每一個詞都可能意味著是文章所涉及的主題或討論的話題,而讀者也往往可能因為文章的某一個詞而選擇閱讀文章。
本研究將以文章標題中出現(xiàn)的詞建立多個變量。在建立詞變量前,首先需要對文章的所有標題進行分詞處理。
經(jīng)過R 軟件jiebaR 中segment 函數(shù)的處理,文章標題將分為一個個詞。以標題“希望,對余生的希望”為例,經(jīng)過分詞處理后的輸出結(jié)果為“希望”“對”“余生”“的”“希望”。對226 個標題進行分詞處理,共收集到533 個詞,其中370 個詞僅出現(xiàn)1 詞,81 個詞出現(xiàn)2 詞,而出現(xiàn)次數(shù)最多的詞為“的”字出現(xiàn)77 次。本研究保留名詞、動詞、形容詞等實詞,副詞、介詞、連詞等虛詞刪去,獲得114 個詞,并以這114 個特征作為分類變量。
4.1.4 標題的情感
本文利用處理多分類問題的兩種拆分策略在鳶尾花數(shù)據(jù)集上進行對比研究,比較兩種拆分策略的優(yōu)劣性,為后續(xù)多分類問題的研究起到一定的指引作用。
由于研究對象屬于一個情感類公眾號,因此研究將標題的情感作為特征之一。
研究根據(jù)情感態(tài)度將標題分為積極、消極和中性3 類。運用專家打分法,同時建立特征標題情感,將積極、消極和中性分別賦值為1、-1 和0。經(jīng)過處理后共得到54 個積極標題、131 個消極標題和41 個中性標題。部分標題的劃分如表2 所示。
當讀者通過文章的各種特征判斷其為一篇“好文章”時,可能會分享它,利于文章傳播提高閱讀量。下面將應(yīng)用多種統(tǒng)計方法提取文章正文的特征,盡可能從數(shù)據(jù)中獲取有價值的信息。
4.2.1 正文主題
本文提取文章的字符數(shù)和發(fā)布時間。通過提取統(tǒng)計文章中所有詞的詞頻,可以自動查找主題。運用主題數(shù)K=3 的LDA 主題概率模型,將文本視作詞頻向量。從單詞的概率分析得知主題,而文本又是多個主題構(gòu)成的一個概率分布,從而得知正文的主題特征。
4.2.2 正文長度
文章長度可能隱含能影響閱讀量的有價值信息,故計算正文的字符數(shù)表示文章長度。正文長度的樣本均值為568.58,樣本標準差為107.01。將正文長度的密度分布函數(shù)可視化后發(fā)現(xiàn),整體近似正態(tài)分布,密度分布函數(shù)圖在正文長度800 左右小范圍起伏。
4.2.3 發(fā)布時間
研究的226 篇文章中,只有1 篇在19:30 發(fā)布,其余225 篇在21:04 至23:58 之間發(fā)布。以21:00 起的每分鐘為發(fā)布時間,則21:04分發(fā)布的文章為4分,23:58 發(fā)布則為178 分,19:30 發(fā)布的那篇文章直接作為21:00 處理,然后將整理后的時間可視化,發(fā)現(xiàn)閱讀量在10 000 以下的數(shù)據(jù)散點有輕微的波動起伏情況,說明夜間閱讀存在高峰與低谷。
類似的,微信用戶也可能因為工作等關(guān)系,在工作日與休息日上有不同的閱讀頻率。因此,將文章發(fā)布日期轉(zhuǎn)換為周一至周日,并對閱讀量在7 個水平上進行方差分析,得出方差分析表如表3 所示,箱型圖如圖2 所示。
表3 閱讀量的方差分析表
圖2 文章閱讀量以星期未分割的箱型
可以明顯看出,在周一發(fā)布的文章閱讀量集中且低于其他天,而周日發(fā)布的文章閱讀量相對分散。同時,在方差分析表中,經(jīng)過F 檢驗的p 值為0.584,在0.1 的顯著性水平下,可以認為閱讀量在不同的星期發(fā)布是有差異的。
在微信公眾號的訂閱號頁面,一些訂閱號群發(fā)的文章有分頭條與次條,如圖3 所示。
圖3 訂閱號群發(fā)預(yù)覽
通過瀏覽數(shù)據(jù)對比公眾號的群發(fā)內(nèi)容發(fā)現(xiàn),收集到的數(shù)據(jù)中,當天的第一條為頭條,其余為次條。以頭條為1、次條為0,經(jīng)過提取后得到125 篇頭條和101 篇次條。
經(jīng)過上述過程的特征提取,原始數(shù)據(jù)變成226行125 列的數(shù)據(jù)框。除去文章閱讀量,125 個特征分別是標題的漢字個數(shù)(連續(xù)變量)、標題的符號個數(shù)(二分類變量)、標題的情感(多分類變量)、正文的長度(連續(xù)變量)、文章發(fā)布時間(連續(xù)變量)、文章發(fā)布星期(有序變量或多分類變量)、頭條次條情況(二分類變量)、114 個標題的詞頻(二分類變量)、3 個正文的主題概率值(連續(xù)變量)和正文的主題類型。總的來說,可以分為連續(xù)變量、二分類變量和多分類變量3 種類型。
對3 種變量類型的特征進行有效性檢驗,對連續(xù)或有序變量特征與文章閱讀量進行相關(guān)性檢驗,確認特征是否對文章閱讀量有線性影響。檢驗結(jié)果(表4)顯示,標題的漢字個數(shù)對閱讀量有明顯線性相關(guān)性,且當發(fā)布星期作為有序變量時,可以看成其對閱讀量存在有線影響。
二分類變量特征將文章閱讀量在特征水平上分為兩組,若特征對閱讀量有影響,則應(yīng)當反映兩組間均值是有差異的,因此通過T 檢驗確認特征的有效性。
由于本文特征工程中創(chuàng)建的特征超百個,故僅抽取0.05 顯著性水平下表現(xiàn)顯著的特征作為結(jié)果展示(表5)。這些標題詞頻特征表示,文章的標題是否出現(xiàn)這些詞匯會顯著影響其閱讀量。
表4 相關(guān)性檢驗結(jié)果
表5 顯著特征的T 檢驗結(jié)果
而對于多分類變量,兩組各進行一次則流程繁瑣,且無法反映整體情況,因此采用方差分析的方差檢驗組間均值是否有差異。需要進行方差分析檢驗的特征分別是發(fā)布星期、標題的情感和主題類型,3 次方差結(jié)果如表6 所示。
表6 方差分析檢驗結(jié)果
研究發(fā)現(xiàn),影響文章閱讀量的因素有標題的漢字個數(shù)、標題的情感、正文的長度、正文所涉及的主題類型、發(fā)布的時間點和星期、是否頭條以及標題中是否會出現(xiàn)某些詞等。以上特征對該公眾號的創(chuàng)作指導顯然具有重要意義。