• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向文章流量預(yù)測的特征篩選與分析*

    2020-04-25 13:37:24胡寶靈李志濤
    通信技術(shù) 2020年4期
    關(guān)鍵詞:正文個數(shù)分類

    胡寶靈,李志濤,周 燕

    (華南農(nóng)業(yè)大學,廣東 廣州 510642)

    0 引 言

    隨著互聯(lián)網(wǎng)自媒體的興盛和人們上網(wǎng)偏好的改變,微信公眾號逐漸成為重要的媒體平臺之一。公眾號若能夠抓住關(guān)注者的閱讀偏好,并生產(chǎn)閱讀偏好下用戶最可能喜聞樂見的內(nèi)容,將對其閱讀量的提升存在一定作用。因此,本文在文本數(shù)據(jù)挖掘的基礎(chǔ)上,分析可能影響文章閱讀量的特征,并對這些特征進行篩選,旨在確認影響媒體閱讀量的因素,實現(xiàn)文本數(shù)據(jù)挖掘技術(shù)的延伸、傳播學自媒體研究的拓展。

    1 文獻綜述

    自媒體閱讀量受多種因素影響。在自媒體閱讀量的研究中,研究者們采用多種方法確認閱讀量的影響因素,如金星[1]通過分析案例闡述閱讀量對文章特征的影響;陳星蓉、龍興宇[2]結(jié)合人群喜好提取吸引讀者的文章特征,但它們?nèi)狈?shù)據(jù)支持。還有通過描述性數(shù)據(jù)分析來估計閱讀量影響因素的研究,如郭爐、劉春云[3]將公眾號文章的多種特征可視化,判斷是否影響閱讀量,但這種方法仍舊缺乏有效的有效性檢驗。鐘若曦、馬曉燕等[4]采用多因素Logistics 回歸分析閱讀量和點贊量的影響因素和程度,但數(shù)據(jù)因人為主觀因素而存在誤差。

    2 研究方法

    本研究以一個微信公眾號為研究主體,通過爬蟲技術(shù)獲取該公眾號下的所有文章為研究樣本,然后估計閱讀量發(fā)展至穩(wěn)定所需的時間,裁去部分閱讀量仍未達到穩(wěn)定的樣本,隨后數(shù)據(jù)清洗,去除特殊文章和異常文章,并將文章的標題和文章轉(zhuǎn)換詞向量,再進行特征工程。通過最大概率法、主題概率模型以及相關(guān)數(shù)據(jù)操作技術(shù),對數(shù)據(jù)進行分詞處理,提取文章特征,并檢驗所提取特征與閱讀量之間的關(guān)系。

    3 數(shù)據(jù)處理

    本文爬取微信公眾號“情感說說”2018 年11月14 日至2019 年5 月11 日的數(shù)據(jù),剔除流量一周增長率大于1%(文章發(fā)布兩周時的閱讀量文章發(fā)布一周時的閱讀量)、閱讀量在3 倍標準差范圍外的文章。經(jīng)過數(shù)據(jù)清洗后,選用226篇文章的標題、發(fā)布時間、內(nèi)容和閱讀量4 個變量作為研究數(shù)據(jù)。

    4 特征工程

    4.1 文章標題的特征

    陳星蓉、龍興宇[2]認為,文章標題對文章流量有著至關(guān)重要的影響,新穎的標題往往使文章具有較高的閱讀量。文章標題的特征很可能包涵對文章流量預(yù)測的重要信息,故本研究首先提取文章標題的特征。

    4.1.1 標題漢字的個數(shù)

    本文將文章標題的漢字個數(shù)與文章閱讀量通過散點圖的形式可視化,并生成通過最小二乘法擬合得到曲線及95%的預(yù)測區(qū)間,如圖1 所示??梢钥匆姡瑪?shù)據(jù)點主要集中在左側(cè)且偏上的位置,擬合曲線明顯向下傾斜。

    圖1 漢字個數(shù)與文章閱讀量的散點圖及擬合曲線(95%)

    通過R 軟件計算得到的一元線性回歸系數(shù)表(表1)可以發(fā)現(xiàn),標題的漢字個數(shù)在回歸模型中的t 檢驗顯著性水平小于0.05,說明漢字個數(shù)在流量預(yù)測模型中存在足夠的信息價值。

    表1 漢字個數(shù)與文章閱讀量的回歸系數(shù)表

    4.1.2 標題符號的個數(shù)

    王干麗[5]在研究公眾號文章標題時發(fā)現(xiàn),標點符號可以增強文章的感染力。本研究將標點符號這一特征進行多種方式分類,發(fā)現(xiàn)將沒有標點符號以及有標點符號的標題劃為一類,剩余有兩個及以上標點符號的標題劃為一類,這種情況經(jīng)過方差分析F 檢驗后的顯著性水平最低。以符號情況為名建立新變量,并將第一類劃為0,第二類劃為1,共得到201 個0 和25 個1。

    4.1.3 標題的詞頻

    文章標題是讀者了解文章最快速的渠道,標題中的每一個詞都可能意味著是文章所涉及的主題或討論的話題,而讀者也往往可能因為文章的某一個詞而選擇閱讀文章。

    本研究將以文章標題中出現(xiàn)的詞建立多個變量。在建立詞變量前,首先需要對文章的所有標題進行分詞處理。

    經(jīng)過R 軟件jiebaR 中segment 函數(shù)的處理,文章標題將分為一個個詞。以標題“希望,對余生的希望”為例,經(jīng)過分詞處理后的輸出結(jié)果為“希望”“對”“余生”“的”“希望”。對226 個標題進行分詞處理,共收集到533 個詞,其中370 個詞僅出現(xiàn)1 詞,81 個詞出現(xiàn)2 詞,而出現(xiàn)次數(shù)最多的詞為“的”字出現(xiàn)77 次。本研究保留名詞、動詞、形容詞等實詞,副詞、介詞、連詞等虛詞刪去,獲得114 個詞,并以這114 個特征作為分類變量。

    4.1.4 標題的情感

    本文利用處理多分類問題的兩種拆分策略在鳶尾花數(shù)據(jù)集上進行對比研究,比較兩種拆分策略的優(yōu)劣性,為后續(xù)多分類問題的研究起到一定的指引作用。

    由于研究對象屬于一個情感類公眾號,因此研究將標題的情感作為特征之一。

    研究根據(jù)情感態(tài)度將標題分為積極、消極和中性3 類。運用專家打分法,同時建立特征標題情感,將積極、消極和中性分別賦值為1、-1 和0。經(jīng)過處理后共得到54 個積極標題、131 個消極標題和41 個中性標題。部分標題的劃分如表2 所示。

    4.2 文章正文的特征

    當讀者通過文章的各種特征判斷其為一篇“好文章”時,可能會分享它,利于文章傳播提高閱讀量。下面將應(yīng)用多種統(tǒng)計方法提取文章正文的特征,盡可能從數(shù)據(jù)中獲取有價值的信息。

    4.2.1 正文主題

    本文提取文章的字符數(shù)和發(fā)布時間。通過提取統(tǒng)計文章中所有詞的詞頻,可以自動查找主題。運用主題數(shù)K=3 的LDA 主題概率模型,將文本視作詞頻向量。從單詞的概率分析得知主題,而文本又是多個主題構(gòu)成的一個概率分布,從而得知正文的主題特征。

    4.2.2 正文長度

    文章長度可能隱含能影響閱讀量的有價值信息,故計算正文的字符數(shù)表示文章長度。正文長度的樣本均值為568.58,樣本標準差為107.01。將正文長度的密度分布函數(shù)可視化后發(fā)現(xiàn),整體近似正態(tài)分布,密度分布函數(shù)圖在正文長度800 左右小范圍起伏。

    4.2.3 發(fā)布時間

    研究的226 篇文章中,只有1 篇在19:30 發(fā)布,其余225 篇在21:04 至23:58 之間發(fā)布。以21:00 起的每分鐘為發(fā)布時間,則21:04分發(fā)布的文章為4分,23:58 發(fā)布則為178 分,19:30 發(fā)布的那篇文章直接作為21:00 處理,然后將整理后的時間可視化,發(fā)現(xiàn)閱讀量在10 000 以下的數(shù)據(jù)散點有輕微的波動起伏情況,說明夜間閱讀存在高峰與低谷。

    類似的,微信用戶也可能因為工作等關(guān)系,在工作日與休息日上有不同的閱讀頻率。因此,將文章發(fā)布日期轉(zhuǎn)換為周一至周日,并對閱讀量在7 個水平上進行方差分析,得出方差分析表如表3 所示,箱型圖如圖2 所示。

    表3 閱讀量的方差分析表

    圖2 文章閱讀量以星期未分割的箱型

    可以明顯看出,在周一發(fā)布的文章閱讀量集中且低于其他天,而周日發(fā)布的文章閱讀量相對分散。同時,在方差分析表中,經(jīng)過F 檢驗的p 值為0.584,在0.1 的顯著性水平下,可以認為閱讀量在不同的星期發(fā)布是有差異的。

    在微信公眾號的訂閱號頁面,一些訂閱號群發(fā)的文章有分頭條與次條,如圖3 所示。

    圖3 訂閱號群發(fā)預(yù)覽

    通過瀏覽數(shù)據(jù)對比公眾號的群發(fā)內(nèi)容發(fā)現(xiàn),收集到的數(shù)據(jù)中,當天的第一條為頭條,其余為次條。以頭條為1、次條為0,經(jīng)過提取后得到125 篇頭條和101 篇次條。

    4.3 有效性檢驗

    經(jīng)過上述過程的特征提取,原始數(shù)據(jù)變成226行125 列的數(shù)據(jù)框。除去文章閱讀量,125 個特征分別是標題的漢字個數(shù)(連續(xù)變量)、標題的符號個數(shù)(二分類變量)、標題的情感(多分類變量)、正文的長度(連續(xù)變量)、文章發(fā)布時間(連續(xù)變量)、文章發(fā)布星期(有序變量或多分類變量)、頭條次條情況(二分類變量)、114 個標題的詞頻(二分類變量)、3 個正文的主題概率值(連續(xù)變量)和正文的主題類型。總的來說,可以分為連續(xù)變量、二分類變量和多分類變量3 種類型。

    對3 種變量類型的特征進行有效性檢驗,對連續(xù)或有序變量特征與文章閱讀量進行相關(guān)性檢驗,確認特征是否對文章閱讀量有線性影響。檢驗結(jié)果(表4)顯示,標題的漢字個數(shù)對閱讀量有明顯線性相關(guān)性,且當發(fā)布星期作為有序變量時,可以看成其對閱讀量存在有線影響。

    二分類變量特征將文章閱讀量在特征水平上分為兩組,若特征對閱讀量有影響,則應(yīng)當反映兩組間均值是有差異的,因此通過T 檢驗確認特征的有效性。

    由于本文特征工程中創(chuàng)建的特征超百個,故僅抽取0.05 顯著性水平下表現(xiàn)顯著的特征作為結(jié)果展示(表5)。這些標題詞頻特征表示,文章的標題是否出現(xiàn)這些詞匯會顯著影響其閱讀量。

    表4 相關(guān)性檢驗結(jié)果

    表5 顯著特征的T 檢驗結(jié)果

    而對于多分類變量,兩組各進行一次則流程繁瑣,且無法反映整體情況,因此采用方差分析的方差檢驗組間均值是否有差異。需要進行方差分析檢驗的特征分別是發(fā)布星期、標題的情感和主題類型,3 次方差結(jié)果如表6 所示。

    表6 方差分析檢驗結(jié)果

    5 結(jié) 語

    研究發(fā)現(xiàn),影響文章閱讀量的因素有標題的漢字個數(shù)、標題的情感、正文的長度、正文所涉及的主題類型、發(fā)布的時間點和星期、是否頭條以及標題中是否會出現(xiàn)某些詞等。以上特征對該公眾號的創(chuàng)作指導顯然具有重要意義。

    猜你喜歡
    正文個數(shù)分類
    更正聲明
    傳媒論壇(2022年9期)2022-02-17 19:47:54
    更正啟事
    怎樣數(shù)出小正方體的個數(shù)
    分類算一算
    等腰三角形個數(shù)探索
    怎樣數(shù)出小木塊的個數(shù)
    分類討論求坐標
    怎樣數(shù)出小正方體的個數(shù)
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    饶平县| 盐亭县| 芦溪县| 合作市| 东至县| 横山县| 洱源县| 双牌县| 东安县| 富源县| 四川省| 延庆县| 太原市| 双流县| 衡阳县| 萝北县| 纳雍县| 察雅县| 华亭县| 柳河县| 南部县| 青铜峡市| 东平县| 太原市| 武穴市| 浏阳市| 尚义县| 宝山区| 托克逊县| 青海省| 昌乐县| 湟中县| 曲阜市| 杨浦区| 伊川县| 深水埗区| 信阳市| 娱乐| 临朐县| 襄城县| 彩票|