基于文本特征的企業(yè)微博轉(zhuǎn)發(fā)效果影響因素研究

2018-06-28 02:23:00王曉耘范晶晶

生產(chǎn)力研究 2018年5期

王曉耘，范晶晶，陳思

（杭州電子科技大學(xué) 管理學(xué)院，浙江杭州 310018）

自微博興起以來，對(duì)微博轉(zhuǎn)發(fā)機(jī)制的研究就成為了當(dāng)前學(xué)術(shù)界和營銷界的熱點(diǎn)問題。從企業(yè)的角度出發(fā)，高轉(zhuǎn)發(fā)量的微博提升了自身的影響力，對(duì)于產(chǎn)品推廣也顯得更加快捷迅速，與客戶之間的溝通也更為方便。目前，較為有名的制造高轉(zhuǎn)發(fā)微博的例子有，如杜蕾斯、野獸派花店、小米手機(jī)官方微博等。盡管國內(nèi)多數(shù)企業(yè)對(duì)微博平臺(tái)營銷的熱情較為高漲，但成功畢竟是少數(shù)，大部分企業(yè)對(duì)于如何發(fā)布高轉(zhuǎn)發(fā)量的微博、以及對(duì)影響微博轉(zhuǎn)發(fā)率的因素的探究等仍處于摸索時(shí)期。從根本上講，企業(yè)亟待解決的問題在于如何快速有效識(shí)別對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況造成影響的因素，如何通過確保微博內(nèi)容本身的吸引力進(jìn)而提高企業(yè)微博的影響力。

然而對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況造成影響的要素復(fù)雜繁多，目前相關(guān)研究正處于起步階段且大多為定性的研究，現(xiàn)有的研究中多考慮外部因素，往往忽視了微博內(nèi)容本身對(duì)其的影響。基于此，本文主要圍繞微博文本進(jìn)行特征分析，結(jié)合定量的方法，提取特征。在此基礎(chǔ)上，根據(jù)選擇的最優(yōu)特征建立基于支持向量機(jī)轉(zhuǎn)發(fā)趨勢預(yù)測模型，通過對(duì)轉(zhuǎn)發(fā)情況的具體分析，以揭示微博文本特征與微博轉(zhuǎn)發(fā)情況之間的關(guān)系。

一、基于微博文本的特征分析及模型構(gòu)建

（一）微博文本特征分析

本文主要從微博內(nèi)容特征的角度出發(fā)，構(gòu)建企業(yè)微博轉(zhuǎn)發(fā)效果影響因素理論模型。其中，自變量包括微博內(nèi)容特征、微博表現(xiàn)特征、微博時(shí)間特征三大類因素。

1.內(nèi)容特征

（1）微博是否為原創(chuàng)。在微博平臺(tái)上，針對(duì)用戶瀏覽到的微博內(nèi)容，按發(fā)布類型可分為原創(chuàng)和轉(zhuǎn)發(fā)他人微博兩種方式。本文抓取小米官方微博10 890條，通過統(tǒng)計(jì)發(fā)現(xiàn)，有近 50.7%的內(nèi)容（5 516條微博）屬于原創(chuàng)微博，49.3%（5 373條）的微博轉(zhuǎn)發(fā)自他人，其中原創(chuàng)微博與轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量大小不一。因此，本文將微博是原創(chuàng)或是轉(zhuǎn)發(fā)納入研究范圍。

（2）微博主題類型。根據(jù)微博信息涉及到的內(nèi)容，可將微博內(nèi)容劃分為不同的主題。2011年，Eun和Yong jun研究了Twitter上微博信息內(nèi)容類型，它們分別是：企業(yè)品牌相關(guān)信息、企業(yè)本身相關(guān)信息、企業(yè)產(chǎn)品或服務(wù)相關(guān)信息、含有鏈接的信息和生活資訊類信息。2012年中國學(xué)者孫泳穎[1]針對(duì)三家企業(yè)的官方微博進(jìn)行分析，將微博發(fā)送的內(nèi)容分成五大類：新聞?lì)愋畔ⅰ⒄{(diào)研問卷類信息、有獎(jiǎng)轉(zhuǎn)發(fā)活動(dòng)類信息、投票類信息和微活動(dòng)類信息。

結(jié)合已有的研究，本文對(duì)微博主題類型的描述如表1所示。

表1 微博主題類型描述

在對(duì)微博主題確定的過程中涉及到文本分類的問題。通常較為經(jīng)典的文本分類方法包括：決策樹分類算法、樸素貝葉斯分類方法、Rocchio方法[2]、K近鄰算法等[3]。其中，樸素貝葉斯方法是最直接的概率分類方法，它的使用最為廣泛且貝葉斯分類方法具有易使用、只需一次掃描訓(xùn)練集、善于處理缺失值以數(shù)據(jù)具有連續(xù)性等優(yōu)點(diǎn)[4]。因此本文選擇樸素貝葉斯方法來對(duì)微博主題類型進(jìn)行分類確定。

樸素貝葉斯[5]方法的分類思想可以粗略理解為，針對(duì)未知分類項(xiàng)，通過求解在此項(xiàng)出現(xiàn)的條件下每一個(gè)類別出現(xiàn)的概率來判斷的，哪個(gè)類別概率最大，就將該待分類項(xiàng)歸于哪個(gè)類別。算法流程如下：

第一，計(jì)算先驗(yàn)概率及條件概率：

j=1，2，…，n；l=1，2，…，Sj；k=1，2，…，K

第二，對(duì)于給定的待分類項(xiàng) x=（x（1），x（2），…，x（n））T，計(jì)算：

第三，確定待分類項(xiàng)的類：

（3）被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量。微博的轉(zhuǎn)發(fā)數(shù)是評(píng)價(jià)企業(yè)微博影響力的一個(gè)重要指標(biāo)，也是微博與其他網(wǎng)絡(luò)信息發(fā)布平臺(tái)的最重要的不同之處。Kim等[6]研究表明被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量是一個(gè)十分顯著的特征，用戶很容易受到從眾信息的影響進(jìn)而轉(zhuǎn)發(fā)微博信息，從而造成微博信息的瀑布式轉(zhuǎn)發(fā)。但并沒有與對(duì)應(yīng)的高轉(zhuǎn)發(fā)的微博內(nèi)容聯(lián)系起來，本文則是根據(jù)通過對(duì)以往被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)情況進(jìn)行研究，進(jìn)一步了解受眾感興趣的內(nèi)容是什么。

2.表現(xiàn)特征

在以往的研究中，Suh等[7]人以twitter數(shù)據(jù)作為研究對(duì)象，研究得出微博是否包含鏈接和話題標(biāo)記對(duì)微博的轉(zhuǎn)發(fā)率有著直接的影響，且微博作者發(fā)布的總微博數(shù)對(duì)其發(fā)布微博的轉(zhuǎn)發(fā)率基本沒有影響。

本文選用微博長度、微博是否含有圖片、是否含標(biāo)簽、是否含鏈接、是否含視頻等作為微博的表現(xiàn)特征。

3.時(shí)間特征

一條微博的生命周期是有限的。文獻(xiàn)[8]將微博的發(fā)布時(shí)間、發(fā)布日期、發(fā)布距今時(shí)間歸納為微博轉(zhuǎn)發(fā)情況的環(huán)境影響因素。

本文將微博的時(shí)間特征細(xì)分微博發(fā)布時(shí)段、微博發(fā)布時(shí)長、微博發(fā)布日期。

（二）企業(yè)微博轉(zhuǎn)發(fā)效果影響因素的理論模型構(gòu)建

本文將微博信息轉(zhuǎn)發(fā)情況作為衡量企業(yè)微博轉(zhuǎn)發(fā)效果的指標(biāo)，分析轉(zhuǎn)發(fā)情況及其影響因素。

根據(jù)上述分析的結(jié)果，本文構(gòu)建出企業(yè)微博轉(zhuǎn)發(fā)效果影響因素的理論模型如圖1所示。

圖1 企業(yè)微博轉(zhuǎn)發(fā)效果影響因素理論模型圖

二、基于支持向量機(jī)的轉(zhuǎn)發(fā)趨勢預(yù)測模型

本文針對(duì)企業(yè)發(fā)布的微博集合M進(jìn)行研究，將微博信息的轉(zhuǎn)發(fā)情況作為企業(yè)微博營銷效果的衡量指標(biāo)?；谄髽I(yè)的歷史微博轉(zhuǎn)發(fā)情況進(jìn)行訓(xùn)練，主要從微博信息內(nèi)容的角度出發(fā)，對(duì)于一條新的企業(yè)微博，預(yù)測其轉(zhuǎn)發(fā)量的高低。

在企業(yè)發(fā)布的所有微博中，并非所有的微博都具有高轉(zhuǎn)發(fā)量。而在影響微博轉(zhuǎn)發(fā)量的主要因素中，微博文本內(nèi)容尤為顯著。因此，本文立足微博文本內(nèi)容，首先對(duì)采集到的微博實(shí)驗(yàn)數(shù)據(jù)中的每一條微博主題運(yùn)用貝葉斯分類方法進(jìn)行分類，其次，采用信息增益算法縮小特征集合的范圍，進(jìn)而篩選出對(duì)轉(zhuǎn)發(fā)情況影響較大的因素，同時(shí)也可以通過減少轉(zhuǎn)發(fā)預(yù)測模型的輸入變量來提升模型的訓(xùn)練效率。最后，基于篩選出的特征建立轉(zhuǎn)發(fā)預(yù)測模型，具體分析微博的轉(zhuǎn)發(fā)情況。

（一）問題的定義

考慮到本文的預(yù)測問題為微博轉(zhuǎn)發(fā)量的高低，因而可將其看作一個(gè)二分類問題。本文將所用到的數(shù)據(jù)集樣本定義為 d=（a，c，t），其中 a表示微博內(nèi)容特征，c表示微博表現(xiàn)特征，t表示微博時(shí)間特征。同時(shí)將某條微博的轉(zhuǎn)發(fā)量定義為y。由于微博轉(zhuǎn)發(fā)量y只有兩個(gè)可能的取值，即分類的結(jié)果只有兩種，分別是C1（高轉(zhuǎn)發(fā)量）或 C2（低轉(zhuǎn)發(fā)量）。所以本文中的預(yù)測模型，總結(jié)為一個(gè)根據(jù)給定的自變量進(jìn)行二分類的模型。結(jié)合支持向量機(jī)的特點(diǎn)，因變量y可能的取值及意義由下式給出：

（二）信息增益算法

特征選擇[9]，是指從全部的特征中選取一個(gè)特征子集，使得給定的系統(tǒng)指標(biāo)最優(yōu)化。特征子集選擇的途徑有三種：Filter方法、Wrapper方法、Embedded方法。其中Filter方法是針對(duì)每一維的特征賦予權(quán)重，這樣的權(quán)重代表著特征的重要性，然后依據(jù)權(quán)重排序。

結(jié)合本文的目的，即對(duì)特征進(jìn)行重要性排序，因此本文選擇Filter方法中的信息增益算法來進(jìn)行特征選擇。具體算法描述如下：

設(shè)訓(xùn)練數(shù)據(jù)集合D，|D|則為整個(gè)數(shù)據(jù)樣本的容量，即樣本的個(gè)數(shù)，設(shè)有K個(gè)類Ck來表示，|Ck|為 Ci的樣本個(gè)數(shù)，|Ck|之和為 |D|，k=1，2，…，根據(jù)特征 A 將 D 劃分為 n 個(gè)子集 D1，D2，…，Dn，|Di|為Di的樣本個(gè)數(shù)，|Di|之和為 |D|，i=1，2，…，記 Di中歸屬于Ck的數(shù)據(jù)樣本集合為交集Dik，|Dik|為Dik的樣本個(gè)數(shù)，具體算法如下：

輸入：D，A

輸出：信息增益 g（D，A）

D的經(jīng)驗(yàn)熵H（D）為：

上式可作如下理解：由于訓(xùn)練樣本總個(gè)數(shù)為|D|，某項(xiàng)分類的個(gè)數(shù)為|Ck|，在某項(xiàng)分類的概率為：|Ck|/|D|

則選定A的經(jīng)驗(yàn)條件熵H（D|A）

信息增益為：

g（D，A）=H（D）-H（D|A）

（三）基于支持向量機(jī)的預(yù)測模型構(gòu)建

1.核函數(shù)。一般在解決分類問題時(shí)，并不是所有的數(shù)據(jù)集都是線性可分的。當(dāng)數(shù)據(jù)集在低維空間中并不是線性可分時(shí)，選用經(jīng)典的線性可分支持向量機(jī)模型，必然得到不理想的分類效果。若此時(shí)將低維空間的特征向量映射至高維空間，經(jīng)過映射處理后的特征即有可能線性可分。因此可以構(gòu)造映射函數(shù)來對(duì)數(shù)據(jù)集進(jìn)行處理。

核函數(shù)的基本定義如下：

設(shè)χ是輸入空間（歐式空間Rn的子集或離散集合），同時(shí)，設(shè)η為特征空間（希爾伯特空間），假設(shè)存在一個(gè)從χ到η的映射φ（x）：χ→η使得對(duì)所有 x，z∈χ，函數(shù) K（x，z）滿足條件 K（x，z）=φ（x）·φ（z），則認(rèn)為 K（x，z）為核函數(shù)，φ（x）為映射函數(shù)。式中 φ（x）·φ（z）為 φ（x）和 φ（z）的內(nèi)積。

選擇一個(gè)適合的核函數(shù)對(duì)于模型的分類效果影響巨大。常用的核函數(shù)有以下幾種：

（1）線性核函數(shù)：線性核函數(shù)即線性可分支持向量機(jī)，表達(dá)式為：K（x，z）＝x·z

此時(shí)可以將線性可分支持向量機(jī)與線性不可分支持向量機(jī)歸為一類，區(qū)別僅僅在于線性可分支持向量機(jī)用的是線性核函數(shù)。

（2）多項(xiàng)式核函數(shù)：多項(xiàng)式核函數(shù)是線性不可分SVM常用的核函數(shù)之一，表達(dá)式為：

K（x，z）＝（γx·z+r）d，其中，γ，r，d 都需要自行調(diào)參定義。

（3）高斯核函數(shù)。高斯核函數(shù)在SVM中也稱為徑向基核函數(shù)，它是應(yīng)用于非線性分類支持向量機(jī)算法中最主流的核函數(shù)。libsvm默認(rèn)的核函數(shù)就是它。表達(dá)式為：

K（x，z）＝exp（-γ||x-z||2），其中，γ 大于 0，需要自行調(diào)參定義。

（4）Sigmoid核函數(shù)。Sigmoid核函數(shù)是線性不可分SVM常用的核函數(shù)之一，表達(dá)式為：

K（x，z）＝tanh（γx·z+r），其中，γ，r 都需要自行調(diào)參定義。

2.預(yù)測模型構(gòu)建。通常情況下，線性可分的數(shù)據(jù)較為少見。面對(duì)線性不可分的低維數(shù)據(jù)，人們一般采用的方法是將其映射至高維，引入核函數(shù)來解決問題。通過引入核函數(shù)，構(gòu)建的預(yù)測模型如下：

假設(shè)輸入是 m 個(gè)樣本（x1，y1），（x2，y2），…，（xm，ym），其中x為n維特征向量。y為二元輸出，值為1，或者-1。輸出是分離超平面的參數(shù)ω*和b*和分類決策函數(shù)。

算法過程如下：

（1）選擇適當(dāng)?shù)暮?K（x，z）和一個(gè)懲罰系數(shù)C＞0，構(gòu)造約束優(yōu)化問題：

（2）運(yùn)用SMO算法進(jìn)行求解，得出上式最小時(shí)對(duì)應(yīng)的α*向量。

最終的分類超平面為：

最終的分類決策函數(shù)為：

3.評(píng)價(jià)指標(biāo)。本文采用分類算法常用評(píng)價(jià)指標(biāo)：精確率、查全率、F1值以及準(zhǔn)確度，來對(duì)預(yù)測效果及分類模型進(jìn)行具體評(píng)價(jià)。精確率在本文中即為所有被預(yù)測為高轉(zhuǎn)發(fā)的微博中真實(shí)高轉(zhuǎn)發(fā)的微博比率。一般情況下，精確率越高，模型的效果越好。查全率為所有高轉(zhuǎn)發(fā)微博中被模型正確預(yù)測為高轉(zhuǎn)發(fā)的比例，準(zhǔn)確度即為全部微博被模型正確分類的比例，F(xiàn)1值為查全率與精確率的調(diào)和平均值。

分類器在數(shù)據(jù)集上的預(yù)測情況的混淆矩陣如表2所示。

表2 混淆矩陣

下面給出精確率（precision），以下簡寫為p；查全率recall，以下簡寫為r；F1度量值的計(jì)算公式：

p=TP/Tp+FP

r=TP/Tp+FN

F1=2pr/p+r

準(zhǔn)確率的計(jì)算公式如下：

Accuracy=TP+TN/TP+FP+FN+TN

三、實(shí)驗(yàn)及結(jié)果分析

（一）實(shí)驗(yàn)數(shù)據(jù)

小米公司通過在微博營銷領(lǐng)域的不斷探索，為自身企業(yè)的發(fā)展提供了良好的營銷支持，本文將小米手機(jī)作為具體的研究對(duì)象。為了獲取實(shí)驗(yàn)所需數(shù)據(jù)，本文使用java語言編寫數(shù)據(jù)抓取程序，通過單線程訪問新浪微博提供的API接口，采取了小米手機(jī)近年來的微博數(shù)據(jù)作為研究樣本，最終得到14 251條微博信息，記錄每條微博的基本信息，包含微博id，發(fā)表時(shí)間，微博內(nèi)容，圖片，視頻，轉(zhuǎn)發(fā)微博的原微博內(nèi)容，評(píng)論數(shù)，點(diǎn)贊數(shù)，轉(zhuǎn)發(fā)數(shù)等字段。

（二）實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

1.數(shù)據(jù)篩選。通過篩選去掉了轉(zhuǎn)發(fā)量低于100條以下的微博，最后選定進(jìn)行研究的微博一共有10 890條。

2.主題的確定。微博主題需要通過對(duì)微博文本進(jìn)行分類處理后才能確定，因此需要對(duì)抓取到的微博數(shù)據(jù)進(jìn)行文本分類預(yù)處理，運(yùn)用的貝葉斯分類方法對(duì)所抓取微博數(shù)據(jù)中關(guān)于詞頻統(tǒng)計(jì)的部分結(jié)果如表3所示。

表3 詞頻統(tǒng)計(jì)部分結(jié)果表

通過上述方法得到測試集微博對(duì)應(yīng)的話題類型取值。各主題對(duì)應(yīng)的微博數(shù)如圖2所示。

圖2 各主題對(duì)應(yīng)微博圖

（三）實(shí)驗(yàn)特征選擇

為了明確各個(gè)特征對(duì)轉(zhuǎn)發(fā)行為的影響力和減少支持向量機(jī)預(yù)測模型的輸入變量，根據(jù)信息增益算法對(duì)本文所選取的各個(gè)特征信息增益值進(jìn)行計(jì)算，得到特征信息增益值如表4所示。

表4 特征排序表

由此可以看出，在本文選取的11個(gè)特征中，微博發(fā)布時(shí)長、被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量、是否含有視頻、是否為原創(chuàng)等4個(gè)特征對(duì)微博轉(zhuǎn)發(fā)的影響較大。本文選取前8個(gè)特征作為支持向量機(jī)預(yù)測模型的輸入向量。

（四）預(yù)測轉(zhuǎn)發(fā)實(shí)驗(yàn)

1.基于訓(xùn)練集的模型訓(xùn)練。由于本文采用的分類屬性為{高轉(zhuǎn)發(fā)量、低轉(zhuǎn)發(fā)量}，因而對(duì)于高轉(zhuǎn)發(fā)量與低轉(zhuǎn)發(fā)量之間的界定對(duì)于整個(gè)實(shí)驗(yàn)的有效性而言，十分關(guān)鍵。且對(duì)于本文運(yùn)用的基于支持向量機(jī)的預(yù)測模型而言，選擇一個(gè)合適的核函數(shù)是至關(guān)重要的。

因而在訓(xùn)練模型的過程中，確定分類屬性邊界值的同時(shí)，本文使用不同的核函數(shù)進(jìn)行訓(xùn)練，以求能夠得到最優(yōu)的邊界值與最適合本數(shù)據(jù)集的核函數(shù)。本文將10 890條數(shù)據(jù)樣本分為訓(xùn)練集3267條（30%）和測試集7623條（70%），分別采取四種不同的核函數(shù)基于最優(yōu)特征集合進(jìn)行支持向量機(jī)預(yù)測實(shí)驗(yàn)。

通過觀察實(shí)驗(yàn)數(shù)據(jù)集的轉(zhuǎn)發(fā)量，如圖3所示。

圖3 微博轉(zhuǎn)發(fā)量統(tǒng)計(jì)

根據(jù)上述統(tǒng)計(jì)結(jié)果，本文將最開始的邊界值設(shè)置為1 000，即高于1 000條以上為高轉(zhuǎn)發(fā)，低于1 000條則認(rèn)為是低轉(zhuǎn)發(fā)。本文利用libsvm軟件包，通過劃分好的訓(xùn)練集進(jìn)行訓(xùn)練，結(jié)合四種不同的核函數(shù)，不斷調(diào)整邊界值，最終得到如下不同邊界值時(shí)的分類預(yù)測結(jié)果如表5、表6、表7、表 8 、表 9 所示。

表5 邊界值定為1 000時(shí)

表6 邊界值定為2 000時(shí)

表7 邊界值定為3 000時(shí)的預(yù)測結(jié)果

表8 邊界值定為4 000時(shí)的預(yù)測結(jié)果

表9 邊界值定為5 000時(shí)的預(yù)測結(jié)果

根據(jù)上述表中數(shù)據(jù)對(duì)比可知，當(dāng)轉(zhuǎn)發(fā)量的邊界值定為4 000時(shí)，引入高斯核函數(shù)構(gòu)建的分類預(yù)測模型得到的準(zhǔn)確度可達(dá)到0.974，明顯高于其他條件，且精確率為0.783，查全率為0.882。對(duì)比其他條件下的評(píng)價(jià)指標(biāo)，說明當(dāng)分類邊界值為4 000時(shí)，使用高斯核函數(shù)來構(gòu)造基于支持向量機(jī)的預(yù)測模型，得到的結(jié)果較為理想。

2.基于測試集的預(yù)測轉(zhuǎn)發(fā)實(shí)驗(yàn)。本文在選定邊界值為4 000和高斯核函數(shù)的情況下，本文采用libsvm軟件包，采用構(gòu)建好的支持向量機(jī)預(yù)測模型進(jìn)行計(jì)算，得到基于最優(yōu)特征和全特征的混淆矩陣如表10、表11所示。據(jù)此計(jì)算得到對(duì)應(yīng)的準(zhǔn)確率、查全率、F1值、準(zhǔn)確度如表12所示。

表10 基于全特征的預(yù)測結(jié)果混淆矩陣

表11 基于最優(yōu)特征的預(yù)測結(jié)果混淆矩陣

表12 基于支持向量機(jī)的預(yù)測模型對(duì)比結(jié)果

從表10可以看出，基于全特征集合和最優(yōu)特征集合的分類模型的各項(xiàng)評(píng)價(jià)指標(biāo)相近，最優(yōu)集合的準(zhǔn)確度為0.964僅略低于全特征集合的準(zhǔn)確度0.967，這充分說明最優(yōu)特征對(duì)微博轉(zhuǎn)發(fā)量的影響近乎接近于全特征，從而驗(yàn)證了最優(yōu)特征的有效性。

基于對(duì)本文轉(zhuǎn)發(fā)預(yù)測實(shí)驗(yàn)結(jié)果的分析，以及對(duì)可能會(huì)影響到微博轉(zhuǎn)發(fā)的規(guī)律進(jìn)行總結(jié)，本文為幫助企業(yè)提高微博轉(zhuǎn)發(fā)量，進(jìn)而在一定程度上對(duì)企業(yè)微博營銷效果造成良好影響，提出以下幾點(diǎn)建議：

（1）微博主題類型通常對(duì)微博的轉(zhuǎn)發(fā)量會(huì)造成一定影響，企業(yè)在發(fā)布微博時(shí)，應(yīng)盡量發(fā)布與產(chǎn)品有關(guān)或與活動(dòng)相關(guān)性比較大的內(nèi)容，盡量避免談及生活信息。根據(jù)本文實(shí)驗(yàn)結(jié)果得出的特征集合可總結(jié)出，由于產(chǎn)品信息型多包含有價(jià)值的專業(yè)信息，這類微博更容易得到用戶的認(rèn)同感進(jìn)而得到轉(zhuǎn)發(fā)，而活動(dòng)信息類型的微博則是由于會(huì)涉及到更多抽獎(jiǎng)、促銷等與用戶利益相關(guān)的信息，也很容易吸引到用戶，企業(yè)可以考慮將產(chǎn)品型與活動(dòng)型的主題結(jié)合到一起發(fā)布。

（2）微博是否含標(biāo)簽、圖片等表現(xiàn)特征以及微博發(fā)布日期這些特征對(duì)微博的轉(zhuǎn)發(fā)量有一定的影響，但是效果并不顯著。因此，可以認(rèn)為微博的表現(xiàn)特征雖然使得企業(yè)發(fā)布的微博更加的豐富多彩，但對(duì)企業(yè)提高微博轉(zhuǎn)發(fā)量并沒有實(shí)質(zhì)性的影響。其中，根據(jù)本文的研究成果，是否含圖片與是否含鏈接這兩個(gè)特征與微博轉(zhuǎn)發(fā)量之間的關(guān)聯(lián)性較弱，企業(yè)在發(fā)布微博時(shí)，不用刻意考慮。

（3）除卻考慮微博主題內(nèi)容的影響外，企業(yè)在轉(zhuǎn)發(fā)微博時(shí)，還應(yīng)該考慮微博源的轉(zhuǎn)發(fā)量。若企業(yè)對(duì)轉(zhuǎn)發(fā)量大的微博進(jìn)行轉(zhuǎn)發(fā)，也會(huì)得到較大的轉(zhuǎn)發(fā)效果。因此，企業(yè)在進(jìn)行微博轉(zhuǎn)發(fā)時(shí)，應(yīng)從微博內(nèi)容質(zhì)量和微博源的轉(zhuǎn)發(fā)量兩方面來考慮。

四、討論

本文將企業(yè)微博的轉(zhuǎn)發(fā)量作為企業(yè)微博轉(zhuǎn)發(fā)效果的衡量指標(biāo)。同時(shí)主要從微博內(nèi)容的角度對(duì)微博特征進(jìn)行分析，在此基礎(chǔ)上，建立了企業(yè)微博轉(zhuǎn)發(fā)影響因素理論模型。隨后運(yùn)用信息增益方法對(duì)分析得出的特征全集合進(jìn)行影響力大小排序，由此得出最優(yōu)的特征集合。最后分別基于微博文本全特征集合和最優(yōu)特征集合建立基于支持向量機(jī)的轉(zhuǎn)發(fā)預(yù)測模型，通過對(duì)比實(shí)驗(yàn)結(jié)果，得到對(duì)微博轉(zhuǎn)發(fā)量影響較大的特征集合，同時(shí)，也驗(yàn)證了本文所采取方法的有效性。本文針對(duì)的微博文本信息對(duì)企業(yè)微博轉(zhuǎn)發(fā)效果影響因素進(jìn)行了研究，著重突出了微博內(nèi)容的重要性，對(duì)企業(yè)制定微博營銷策略有一定的借鑒意義，但仍然存在一些局限性和改進(jìn)之處：

（1）對(duì)微博內(nèi)容在不同類型企業(yè)中的影響因素進(jìn)行研究，本文并未針對(duì)不同類型的企業(yè)進(jìn)行研究，微博內(nèi)容對(duì)于不同企業(yè)微博轉(zhuǎn)發(fā)的影響可能存在一定的局限性。

（2）本文主要從微博內(nèi)容出發(fā)，考慮對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況的影響，沒有將用戶對(duì)于內(nèi)容的喜愛程度等加入到特征集合中，在后面的研究過程中，可以增加用戶等方面的特征因素，使得研究的準(zhǔn)確度更高。

（3）在分類方法的選擇上，可采用多種分類算法，以期發(fā)掘出更為精準(zhǔn)的分類器。

[1]孫泳穎.組織傳播學(xué)視角下的企業(yè)新浪官方微博研究[D].復(fù)旦大學(xué)，2012.

[2]劉紅光，馬雙剛，劉桂鋒，2016.基于機(jī)器學(xué)習(xí)的專利文本分類算法研究綜述[J].圖書情報(bào)研究（3）：79-86.

[3]Farid D M，Zhang L，Rahman C M，et al.Hybrid decision tree and na?ve Bayes classifiers for multi-class classification tasks[J].Expert Systems with Applications An International Journal，2014，41（4）：1937-1946.

[4]Farid D M，Rahman M M，Almamuny M A.Efficient and scalable multi-class classification using na?ve Bayes tree[C].2014.

[5]Jiang L，Li C，Wang S，et al.Deep feature weighting for naive Bayes and its application to text classification[J].Engineering Applications of Artificial Intelligence，2016，52（C）：26-39.

[6]Kim E，Sung Y，Kang H.Brand followers'retweeting behavior on Twitter：How brand relationships influence brand electronic word-ofmouth[J].Computers in Human Behavior，2014，37（C）：18-25.

[7]Suh B，Hong L，Pirolli P，et al.Want to be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C].2010.

[8]趙蓉英，曾憲琴，2014.微博信息傳播的影響因素研究分析[J].情報(bào)理論與實(shí)踐（3）：58-63.

[9]Bolón-Canedo V，Sánchez-Maro?o N，Alonso-Betanzos A.Feature selection for high-dimensional data[J].Progress in Artificial Intelligence，2016，5（2）：65-75.