• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本特征的企業(yè)微博轉(zhuǎn)發(fā)效果影響因素研究

      2018-06-28 02:23:00王曉耘范晶晶
      生產(chǎn)力研究 2018年5期
      關(guān)鍵詞:邊界值向量分類

      王曉耘,范晶晶,陳 思

      (杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)

      自微博興起以來,對(duì)微博轉(zhuǎn)發(fā)機(jī)制的研究就成為了當(dāng)前學(xué)術(shù)界和營銷界的熱點(diǎn)問題。從企業(yè)的角度出發(fā),高轉(zhuǎn)發(fā)量的微博提升了自身的影響力,對(duì)于產(chǎn)品推廣也顯得更加快捷迅速,與客戶之間的溝通也更為方便。目前,較為有名的制造高轉(zhuǎn)發(fā)微博的例子有,如杜蕾斯、野獸派花店、小米手機(jī)官方微博等。盡管國內(nèi)多數(shù)企業(yè)對(duì)微博平臺(tái)營銷的熱情較為高漲,但成功畢竟是少數(shù),大部分企業(yè)對(duì)于如何發(fā)布高轉(zhuǎn)發(fā)量的微博、以及對(duì)影響微博轉(zhuǎn)發(fā)率的因素的探究等仍處于摸索時(shí)期。從根本上講,企業(yè)亟待解決的問題在于如何快速有效識(shí)別對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況造成影響的因素,如何通過確保微博內(nèi)容本身的吸引力進(jìn)而提高企業(yè)微博的影響力。

      然而對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況造成影響的要素復(fù)雜繁多,目前相關(guān)研究正處于起步階段且大多為定性的研究,現(xiàn)有的研究中多考慮外部因素,往往忽視了微博內(nèi)容本身對(duì)其的影響。基于此,本文主要圍繞微博文本進(jìn)行特征分析,結(jié)合定量的方法,提取特征。在此基礎(chǔ)上,根據(jù)選擇的最優(yōu)特征建立基于支持向量機(jī)轉(zhuǎn)發(fā)趨勢預(yù)測模型,通過對(duì)轉(zhuǎn)發(fā)情況的具體分析,以揭示微博文本特征與微博轉(zhuǎn)發(fā)情況之間的關(guān)系。

      一、基于微博文本的特征分析及模型構(gòu)建

      (一)微博文本特征分析

      本文主要從微博內(nèi)容特征的角度出發(fā),構(gòu)建企業(yè)微博轉(zhuǎn)發(fā)效果影響因素理論模型。其中,自變量包括微博內(nèi)容特征、微博表現(xiàn)特征、微博時(shí)間特征三大類因素。

      1.內(nèi)容特征

      (1)微博是否為原創(chuàng)。在微博平臺(tái)上,針對(duì)用戶瀏覽到的微博內(nèi)容,按發(fā)布類型可分為原創(chuàng)和轉(zhuǎn)發(fā)他人微博兩種方式。本文抓取小米官方微博10 890條,通過統(tǒng)計(jì)發(fā)現(xiàn),有近 50.7%的內(nèi)容(5 516條微博)屬于原創(chuàng)微博,49.3%(5 373條)的微博轉(zhuǎn)發(fā)自他人,其中原創(chuàng)微博與轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量大小不一。因此,本文將微博是原創(chuàng)或是轉(zhuǎn)發(fā)納入研究范圍。

      (2)微博主題類型。根據(jù)微博信息涉及到的內(nèi)容,可將微博內(nèi)容劃分為不同的主題。2011年,Eun和Yong jun研究了Twitter上微博信息內(nèi)容類型,它們分別是:企業(yè)品牌相關(guān)信息、企業(yè)本身相關(guān)信息、企業(yè)產(chǎn)品或服務(wù)相關(guān)信息、含有鏈接的信息和生活資訊類信息。2012年中國學(xué)者孫泳穎[1]針對(duì)三家企業(yè)的官方微博進(jìn)行分析,將微博發(fā)送的內(nèi)容分成五大類:新聞?lì)愋畔ⅰ⒄{(diào)研問卷類信息、有獎(jiǎng)轉(zhuǎn)發(fā)活動(dòng)類信息、投票類信息和微活動(dòng)類信息。

      結(jié)合已有的研究,本文對(duì)微博主題類型的描述如表1所示。

      表1 微博主題類型描述

      在對(duì)微博主題確定的過程中涉及到文本分類的問題。通常較為經(jīng)典的文本分類方法包括:決策樹分類算法、樸素貝葉斯分類方法、Rocchio方法[2]、K近鄰算法等[3]。其中,樸素貝葉斯方法是最直接的概率分類方法,它的使用最為廣泛且貝葉斯分類方法具有易使用、只需一次掃描訓(xùn)練集、善于處理缺失值以數(shù)據(jù)具有連續(xù)性等優(yōu)點(diǎn)[4]。因此本文選擇樸素貝葉斯方法來對(duì)微博主題類型進(jìn)行分類確定。

      樸素貝葉斯[5]方法的分類思想可以粗略理解為,針對(duì)未知分類項(xiàng),通過求解在此項(xiàng)出現(xiàn)的條件下每一個(gè)類別出現(xiàn)的概率來判斷的,哪個(gè)類別概率最大,就將該待分類項(xiàng)歸于哪個(gè)類別。算法流程如下:

      第一,計(jì)算先驗(yàn)概率及條件概率:

      j=1,2,…,n;l=1,2,…,Sj;k=1,2,…,K

      第二,對(duì)于給定的待分類項(xiàng) x=(x(1),x(2),…,x(n))T,計(jì)算:

      第三,確定待分類項(xiàng)的類:

      (3)被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量。微博的轉(zhuǎn)發(fā)數(shù)是評(píng)價(jià)企業(yè)微博影響力的一個(gè)重要指標(biāo),也是微博與其他網(wǎng)絡(luò)信息發(fā)布平臺(tái)的最重要的不同之處。Kim等[6]研究表明被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量是一個(gè)十分顯著的特征,用戶很容易受到從眾信息的影響進(jìn)而轉(zhuǎn)發(fā)微博信息,從而造成微博信息的瀑布式轉(zhuǎn)發(fā)。但并沒有與對(duì)應(yīng)的高轉(zhuǎn)發(fā)的微博內(nèi)容聯(lián)系起來,本文則是根據(jù)通過對(duì)以往被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)情況進(jìn)行研究,進(jìn)一步了解受眾感興趣的內(nèi)容是什么。

      2.表現(xiàn)特征

      在以往的研究中,Suh等[7]人以twitter數(shù)據(jù)作為研究對(duì)象,研究得出微博是否包含鏈接和話題標(biāo)記對(duì)微博的轉(zhuǎn)發(fā)率有著直接的影響,且微博作者發(fā)布的總微博數(shù)對(duì)其發(fā)布微博的轉(zhuǎn)發(fā)率基本沒有影響。

      本文選用微博長度、微博是否含有圖片、是否含標(biāo)簽、是否含鏈接、是否含視頻等作為微博的表現(xiàn)特征。

      3.時(shí)間特征

      一條微博的生命周期是有限的。文獻(xiàn)[8]將微博的發(fā)布時(shí)間、發(fā)布日期、發(fā)布距今時(shí)間歸納為微博轉(zhuǎn)發(fā)情況的環(huán)境影響因素。

      本文將微博的時(shí)間特征細(xì)分微博發(fā)布時(shí)段、微博發(fā)布時(shí)長、微博發(fā)布日期。

      (二)企業(yè)微博轉(zhuǎn)發(fā)效果影響因素的理論模型構(gòu)建

      本文將微博信息轉(zhuǎn)發(fā)情況作為衡量企業(yè)微博轉(zhuǎn)發(fā)效果的指標(biāo),分析轉(zhuǎn)發(fā)情況及其影響因素。

      根據(jù)上述分析的結(jié)果,本文構(gòu)建出企業(yè)微博轉(zhuǎn)發(fā)效果影響因素的理論模型如圖1所示。

      圖1 企業(yè)微博轉(zhuǎn)發(fā)效果影響因素理論模型圖

      二、基于支持向量機(jī)的轉(zhuǎn)發(fā)趨勢預(yù)測模型

      本文針對(duì)企業(yè)發(fā)布的微博集合M進(jìn)行研究,將微博信息的轉(zhuǎn)發(fā)情況作為企業(yè)微博營銷效果的衡量指標(biāo)?;谄髽I(yè)的歷史微博轉(zhuǎn)發(fā)情況進(jìn)行訓(xùn)練,主要從微博信息內(nèi)容的角度出發(fā),對(duì)于一條新的企業(yè)微博,預(yù)測其轉(zhuǎn)發(fā)量的高低。

      在企業(yè)發(fā)布的所有微博中,并非所有的微博都具有高轉(zhuǎn)發(fā)量。而在影響微博轉(zhuǎn)發(fā)量的主要因素中,微博文本內(nèi)容尤為顯著。因此,本文立足微博文本內(nèi)容,首先對(duì)采集到的微博實(shí)驗(yàn)數(shù)據(jù)中的每一條微博主題運(yùn)用貝葉斯分類方法進(jìn)行分類,其次,采用信息增益算法縮小特征集合的范圍,進(jìn)而篩選出對(duì)轉(zhuǎn)發(fā)情況影響較大的因素,同時(shí)也可以通過減少轉(zhuǎn)發(fā)預(yù)測模型的輸入變量來提升模型的訓(xùn)練效率。最后,基于篩選出的特征建立轉(zhuǎn)發(fā)預(yù)測模型,具體分析微博的轉(zhuǎn)發(fā)情況。

      (一)問題的定義

      考慮到本文的預(yù)測問題為微博轉(zhuǎn)發(fā)量的高低,因而可將其看作一個(gè)二分類問題。本文將所用到的數(shù)據(jù)集樣本定義為 d=(a,c,t),其中 a表示微博內(nèi)容特征,c表示微博表現(xiàn)特征,t表示微博時(shí)間特征。同時(shí)將某條微博的轉(zhuǎn)發(fā)量定義為y。由于微博轉(zhuǎn)發(fā)量y只有兩個(gè)可能的取值,即分類的結(jié)果只有兩種,分別是C1(高轉(zhuǎn)發(fā)量)或 C2(低轉(zhuǎn)發(fā)量)。所以本文中的預(yù)測模型,總結(jié)為一個(gè)根據(jù)給定的自變量進(jìn)行二分類的模型。結(jié)合支持向量機(jī)的特點(diǎn),因變量y可能的取值及意義由下式給出:

      (二)信息增益算法

      特征選擇[9],是指從全部的特征中選取一個(gè)特征子集,使得給定的系統(tǒng)指標(biāo)最優(yōu)化。特征子集選擇的途徑有三種:Filter方法、Wrapper方法、Embedded方法。其中Filter方法是針對(duì)每一維的特征賦予權(quán)重,這樣的權(quán)重代表著特征的重要性,然后依據(jù)權(quán)重排序。

      結(jié)合本文的目的,即對(duì)特征進(jìn)行重要性排序,因此本文選擇Filter方法中的信息增益算法來進(jìn)行特征選擇。具體算法描述如下:

      設(shè)訓(xùn)練數(shù)據(jù)集合D,|D|則為整個(gè)數(shù)據(jù)樣本的容量,即樣本的個(gè)數(shù),設(shè)有K個(gè)類Ck來表示,|Ck|為 Ci的樣本個(gè)數(shù),|Ck|之和為 |D|,k=1,2,…,根據(jù)特征 A 將 D 劃分為 n 個(gè)子集 D1,D2,…,Dn,|Di|為Di的樣本個(gè)數(shù),|Di|之和為 |D|,i=1,2,…,記 Di中歸屬于Ck的數(shù)據(jù)樣本集合為交集Dik,|Dik|為Dik的樣本個(gè)數(shù),具體算法如下:

      輸入:D,A

      輸出:信息增益 g(D,A)

      D的經(jīng)驗(yàn)熵H(D)為:

      上式可作如下理解:由于訓(xùn)練樣本總個(gè)數(shù)為|D|,某項(xiàng)分類的個(gè)數(shù)為|Ck|,在某項(xiàng)分類的概率為:|Ck|/|D|

      則選定A的經(jīng)驗(yàn)條件熵H(D|A)

      信息增益為:

      g(D,A)=H(D)-H(D|A)

      (三)基于支持向量機(jī)的預(yù)測模型構(gòu)建

      1.核函數(shù)。一般在解決分類問題時(shí),并不是所有的數(shù)據(jù)集都是線性可分的。當(dāng)數(shù)據(jù)集在低維空間中并不是線性可分時(shí),選用經(jīng)典的線性可分支持向量機(jī)模型,必然得到不理想的分類效果。若此時(shí)將低維空間的特征向量映射至高維空間,經(jīng)過映射處理后的特征即有可能線性可分。因此可以構(gòu)造映射函數(shù)來對(duì)數(shù)據(jù)集進(jìn)行處理。

      核函數(shù)的基本定義如下:

      設(shè)χ是輸入空間(歐式空間Rn的子集或離散集合),同時(shí),設(shè)η為特征空間(希爾伯特空間),假設(shè)存在一個(gè)從χ到η的映射φ(x):χ→η使得對(duì)所有 x,z∈χ,函數(shù) K(x,z)滿足條件 K(x,z)=φ(x)·φ(z),則認(rèn)為 K(x,z)為核函數(shù),φ(x)為映射函數(shù)。式中 φ(x)·φ(z)為 φ(x)和 φ(z)的內(nèi)積。

      選擇一個(gè)適合的核函數(shù)對(duì)于模型的分類效果影響巨大。常用的核函數(shù)有以下幾種:

      (1)線性核函數(shù):線性核函數(shù)即線性可分支持向量機(jī),表達(dá)式為:K(x,z)=x·z

      此時(shí)可以將線性可分支持向量機(jī)與線性不可分支持向量機(jī)歸為一類,區(qū)別僅僅在于線性可分支持向量機(jī)用的是線性核函數(shù)。

      (2)多項(xiàng)式核函數(shù):多項(xiàng)式核函數(shù)是線性不可分SVM常用的核函數(shù)之一,表達(dá)式為:

      K(x,z)=(γx·z+r)d,其中,γ,r,d 都需要自行調(diào)參定義。

      (3)高斯核函數(shù)。高斯核函數(shù)在SVM中也稱為徑向基核函數(shù),它是應(yīng)用于非線性分類支持向量機(jī)算法中最主流的核函數(shù)。libsvm默認(rèn)的核函數(shù)就是它。表達(dá)式為:

      K(x,z)=exp(-γ||x-z||2),其中,γ 大于 0,需要自行調(diào)參定義。

      (4)Sigmoid核函數(shù)。Sigmoid核函數(shù)是線性不可分SVM常用的核函數(shù)之一,表達(dá)式為:

      K(x,z)=tanh(γx·z+r),其中,γ,r 都需要自行調(diào)參定義。

      2.預(yù)測模型構(gòu)建。通常情況下,線性可分的數(shù)據(jù)較為少見。面對(duì)線性不可分的低維數(shù)據(jù),人們一般采用的方法是將其映射至高維,引入核函數(shù)來解決問題。通過引入核函數(shù),構(gòu)建的預(yù)測模型如下:

      假設(shè)輸入是 m 個(gè)樣本 (x1,y1),(x2,y2),…,(xm,ym),其中x為n維特征向量。y為二元輸出,值為1,或者-1。輸出是分離超平面的參數(shù)ω*和b*和分類決策函數(shù)。

      算法過程如下:

      (1)選擇適當(dāng)?shù)暮?K(x,z)和一個(gè)懲罰系數(shù)C>0,構(gòu)造約束優(yōu)化問題:

      (2)運(yùn)用SMO算法進(jìn)行求解,得出上式最小時(shí)對(duì)應(yīng)的α*向量。

      最終的分類超平面為:

      最終的分類決策函數(shù)為:

      3.評(píng)價(jià)指標(biāo)。本文采用分類算法常用評(píng)價(jià)指標(biāo):精確率、查全率、F1值以及準(zhǔn)確度,來對(duì)預(yù)測效果及分類模型進(jìn)行具體評(píng)價(jià)。精確率在本文中即為所有被預(yù)測為高轉(zhuǎn)發(fā)的微博中真實(shí)高轉(zhuǎn)發(fā)的微博比率。一般情況下,精確率越高,模型的效果越好。查全率為所有高轉(zhuǎn)發(fā)微博中被模型正確預(yù)測為高轉(zhuǎn)發(fā)的比例,準(zhǔn)確度即為全部微博被模型正確分類的比例,F(xiàn)1值為查全率與精確率的調(diào)和平均值。

      分類器在數(shù)據(jù)集上的預(yù)測情況的混淆矩陣如表2所示。

      表2 混淆矩陣

      下面給出精確率(precision),以下簡寫為p;查全率recall,以下簡寫為r;F1度量值的計(jì)算公式:

      p=TP/Tp+FP

      r=TP/Tp+FN

      F1=2pr/p+r

      準(zhǔn)確率的計(jì)算公式如下:

      Accuracy=TP+TN/TP+FP+FN+TN

      三、實(shí)驗(yàn)及結(jié)果分析

      (一)實(shí)驗(yàn)數(shù)據(jù)

      小米公司通過在微博營銷領(lǐng)域的不斷探索,為自身企業(yè)的發(fā)展提供了良好的營銷支持,本文將小米手機(jī)作為具體的研究對(duì)象。為了獲取實(shí)驗(yàn)所需數(shù)據(jù),本文使用java語言編寫數(shù)據(jù)抓取程序,通過單線程訪問新浪微博提供的API接口,采取了小米手機(jī)近年來的微博數(shù)據(jù)作為研究樣本,最終得到14 251條微博信息,記錄每條微博的基本信息,包含微博id,發(fā)表時(shí)間,微博內(nèi)容,圖片,視頻,轉(zhuǎn)發(fā)微博的原微博內(nèi)容,評(píng)論數(shù),點(diǎn)贊數(shù),轉(zhuǎn)發(fā)數(shù)等字段。

      (二)實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

      1.數(shù)據(jù)篩選。通過篩選去掉了轉(zhuǎn)發(fā)量低于100條以下的微博,最后選定進(jìn)行研究的微博一共有10 890條。

      2.主題的確定。微博主題需要通過對(duì)微博文本進(jìn)行分類處理后才能確定,因此需要對(duì)抓取到的微博數(shù)據(jù)進(jìn)行文本分類預(yù)處理,運(yùn)用的貝葉斯分類方法對(duì)所抓取微博數(shù)據(jù)中關(guān)于詞頻統(tǒng)計(jì)的部分結(jié)果如表3所示。

      表3 詞頻統(tǒng)計(jì)部分結(jié)果表

      通過上述方法得到測試集微博對(duì)應(yīng)的話題類型取值。各主題對(duì)應(yīng)的微博數(shù)如圖2所示。

      圖2 各主題對(duì)應(yīng)微博圖

      (三)實(shí)驗(yàn)特征選擇

      為了明確各個(gè)特征對(duì)轉(zhuǎn)發(fā)行為的影響力和減少支持向量機(jī)預(yù)測模型的輸入變量,根據(jù)信息增益算法對(duì)本文所選取的各個(gè)特征信息增益值進(jìn)行計(jì)算,得到特征信息增益值如表4所示。

      表4 特征排序表

      由此可以看出,在本文選取的11個(gè)特征中,微博發(fā)布時(shí)長、被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量、是否含有視頻、是否為原創(chuàng)等4個(gè)特征對(duì)微博轉(zhuǎn)發(fā)的影響較大。本文選取前8個(gè)特征作為支持向量機(jī)預(yù)測模型的輸入向量。

      (四)預(yù)測轉(zhuǎn)發(fā)實(shí)驗(yàn)

      1.基于訓(xùn)練集的模型訓(xùn)練。由于本文采用的分類屬性為{高轉(zhuǎn)發(fā)量、低轉(zhuǎn)發(fā)量},因而對(duì)于高轉(zhuǎn)發(fā)量與低轉(zhuǎn)發(fā)量之間的界定對(duì)于整個(gè)實(shí)驗(yàn)的有效性而言,十分關(guān)鍵。且對(duì)于本文運(yùn)用的基于支持向量機(jī)的預(yù)測模型而言,選擇一個(gè)合適的核函數(shù)是至關(guān)重要的。

      因而在訓(xùn)練模型的過程中,確定分類屬性邊界值的同時(shí),本文使用不同的核函數(shù)進(jìn)行訓(xùn)練,以求能夠得到最優(yōu)的邊界值與最適合本數(shù)據(jù)集的核函數(shù)。本文將10 890條數(shù)據(jù)樣本分為訓(xùn)練集3267條(30%)和測試集7623條(70%),分別采取四種不同的核函數(shù)基于最優(yōu)特征集合進(jìn)行支持向量機(jī)預(yù)測實(shí)驗(yàn)。

      通過觀察實(shí)驗(yàn)數(shù)據(jù)集的轉(zhuǎn)發(fā)量,如圖3所示。

      圖3 微博轉(zhuǎn)發(fā)量統(tǒng)計(jì)

      根據(jù)上述統(tǒng)計(jì)結(jié)果,本文將最開始的邊界值設(shè)置為1 000,即高于1 000條以上為高轉(zhuǎn)發(fā),低于1 000條則認(rèn)為是低轉(zhuǎn)發(fā)。本文利用libsvm軟件包,通過劃分好的訓(xùn)練集進(jìn)行訓(xùn)練,結(jié)合四種不同的核函數(shù),不斷調(diào)整邊界值,最終得到如下不同邊界值時(shí)的分類預(yù)測結(jié)果如表5、表6、表7、表 8 、表 9 所示。

      表5 邊界值定為1 000時(shí)

      表6 邊界值定為2 000時(shí)

      表7 邊界值定為3 000時(shí)的預(yù)測結(jié)果

      表8 邊界值定為4 000時(shí)的預(yù)測結(jié)果

      表9 邊界值定為5 000時(shí)的預(yù)測結(jié)果

      根據(jù)上述表中數(shù)據(jù)對(duì)比可知,當(dāng)轉(zhuǎn)發(fā)量的邊界值定為4 000時(shí),引入高斯核函數(shù)構(gòu)建的分類預(yù)測模型得到的準(zhǔn)確度可達(dá)到0.974,明顯高于其他條件,且精確率為0.783,查全率為0.882。對(duì)比其他條件下的評(píng)價(jià)指標(biāo),說明當(dāng)分類邊界值為4 000時(shí),使用高斯核函數(shù)來構(gòu)造基于支持向量機(jī)的預(yù)測模型,得到的結(jié)果較為理想。

      2.基于測試集的預(yù)測轉(zhuǎn)發(fā)實(shí)驗(yàn)。本文在選定邊界值為4 000和高斯核函數(shù)的情況下,本文采用libsvm軟件包,采用構(gòu)建好的支持向量機(jī)預(yù)測模型進(jìn)行計(jì)算,得到基于最優(yōu)特征和全特征的混淆矩陣如表10、表11所示。據(jù)此計(jì)算得到對(duì)應(yīng)的準(zhǔn)確率、查全率、F1值、準(zhǔn)確度如表12所示。

      表10 基于全特征的預(yù)測結(jié)果混淆矩陣

      表11 基于最優(yōu)特征的預(yù)測結(jié)果混淆矩陣

      表12 基于支持向量機(jī)的預(yù)測模型對(duì)比結(jié)果

      從表10可以看出,基于全特征集合和最優(yōu)特征集合的分類模型的各項(xiàng)評(píng)價(jià)指標(biāo)相近,最優(yōu)集合的準(zhǔn)確度為0.964僅略低于全特征集合的準(zhǔn)確度0.967,這充分說明最優(yōu)特征對(duì)微博轉(zhuǎn)發(fā)量的影響近乎接近于全特征,從而驗(yàn)證了最優(yōu)特征的有效性。

      基于對(duì)本文轉(zhuǎn)發(fā)預(yù)測實(shí)驗(yàn)結(jié)果的分析,以及對(duì)可能會(huì)影響到微博轉(zhuǎn)發(fā)的規(guī)律進(jìn)行總結(jié),本文為幫助企業(yè)提高微博轉(zhuǎn)發(fā)量,進(jìn)而在一定程度上對(duì)企業(yè)微博營銷效果造成良好影響,提出以下幾點(diǎn)建議:

      (1)微博主題類型通常對(duì)微博的轉(zhuǎn)發(fā)量會(huì)造成一定影響,企業(yè)在發(fā)布微博時(shí),應(yīng)盡量發(fā)布與產(chǎn)品有關(guān)或與活動(dòng)相關(guān)性比較大的內(nèi)容,盡量避免談及生活信息。根據(jù)本文實(shí)驗(yàn)結(jié)果得出的特征集合可總結(jié)出,由于產(chǎn)品信息型多包含有價(jià)值的專業(yè)信息,這類微博更容易得到用戶的認(rèn)同感進(jìn)而得到轉(zhuǎn)發(fā),而活動(dòng)信息類型的微博則是由于會(huì)涉及到更多抽獎(jiǎng)、促銷等與用戶利益相關(guān)的信息,也很容易吸引到用戶,企業(yè)可以考慮將產(chǎn)品型與活動(dòng)型的主題結(jié)合到一起發(fā)布。

      (2)微博是否含標(biāo)簽、圖片等表現(xiàn)特征以及微博發(fā)布日期這些特征對(duì)微博的轉(zhuǎn)發(fā)量有一定的影響,但是效果并不顯著。因此,可以認(rèn)為微博的表現(xiàn)特征雖然使得企業(yè)發(fā)布的微博更加的豐富多彩,但對(duì)企業(yè)提高微博轉(zhuǎn)發(fā)量并沒有實(shí)質(zhì)性的影響。其中,根據(jù)本文的研究成果,是否含圖片與是否含鏈接這兩個(gè)特征與微博轉(zhuǎn)發(fā)量之間的關(guān)聯(lián)性較弱,企業(yè)在發(fā)布微博時(shí),不用刻意考慮。

      (3)除卻考慮微博主題內(nèi)容的影響外,企業(yè)在轉(zhuǎn)發(fā)微博時(shí),還應(yīng)該考慮微博源的轉(zhuǎn)發(fā)量。若企業(yè)對(duì)轉(zhuǎn)發(fā)量大的微博進(jìn)行轉(zhuǎn)發(fā),也會(huì)得到較大的轉(zhuǎn)發(fā)效果。因此,企業(yè)在進(jìn)行微博轉(zhuǎn)發(fā)時(shí),應(yīng)從微博內(nèi)容質(zhì)量和微博源的轉(zhuǎn)發(fā)量兩方面來考慮。

      四、討論

      本文將企業(yè)微博的轉(zhuǎn)發(fā)量作為企業(yè)微博轉(zhuǎn)發(fā)效果的衡量指標(biāo)。同時(shí)主要從微博內(nèi)容的角度對(duì)微博特征進(jìn)行分析,在此基礎(chǔ)上,建立了企業(yè)微博轉(zhuǎn)發(fā)影響因素理論模型。隨后運(yùn)用信息增益方法對(duì)分析得出的特征全集合進(jìn)行影響力大小排序,由此得出最優(yōu)的特征集合。最后分別基于微博文本全特征集合和最優(yōu)特征集合建立基于支持向量機(jī)的轉(zhuǎn)發(fā)預(yù)測模型,通過對(duì)比實(shí)驗(yàn)結(jié)果,得到對(duì)微博轉(zhuǎn)發(fā)量影響較大的特征集合,同時(shí),也驗(yàn)證了本文所采取方法的有效性。本文針對(duì)的微博文本信息對(duì)企業(yè)微博轉(zhuǎn)發(fā)效果影響因素進(jìn)行了研究,著重突出了微博內(nèi)容的重要性,對(duì)企業(yè)制定微博營銷策略有一定的借鑒意義,但仍然存在一些局限性和改進(jìn)之處:

      (1)對(duì)微博內(nèi)容在不同類型企業(yè)中的影響因素進(jìn)行研究,本文并未針對(duì)不同類型的企業(yè)進(jìn)行研究,微博內(nèi)容對(duì)于不同企業(yè)微博轉(zhuǎn)發(fā)的影響可能存在一定的局限性。

      (2)本文主要從微博內(nèi)容出發(fā),考慮對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況的影響,沒有將用戶對(duì)于內(nèi)容的喜愛程度等加入到特征集合中,在后面的研究過程中,可以增加用戶等方面的特征因素,使得研究的準(zhǔn)確度更高。

      (3)在分類方法的選擇上,可采用多種分類算法,以期發(fā)掘出更為精準(zhǔn)的分類器。

      [1]孫泳穎.組織傳播學(xué)視角下的企業(yè)新浪官方微博研究[D].復(fù)旦大學(xué),2012.

      [2]劉紅光,馬雙剛,劉桂鋒,2016.基于機(jī)器學(xué)習(xí)的專利文本分類算法研究綜述[J].圖書情報(bào)研究(3):79-86.

      [3]Farid D M,Zhang L,Rahman C M,et al.Hybrid decision tree and na?ve Bayes classifiers for multi-class classification tasks[J].Expert Systems with Applications An International Journal,2014,41(4):1937-1946.

      [4]Farid D M,Rahman M M,Almamuny M A.Efficient and scalable multi-class classification using na?ve Bayes tree[C].2014.

      [5]Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayes and its application to text classification[J].Engineering Applications of Artificial Intelligence,2016,52(C):26-39.

      [6]Kim E,Sung Y,Kang H.Brand followers'retweeting behavior on Twitter:How brand relationships influence brand electronic word-ofmouth[J].Computers in Human Behavior,2014,37(C):18-25.

      [7]Suh B,Hong L,Pirolli P,et al.Want to be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C].2010.

      [8]趙蓉英,曾憲琴,2014.微博信息傳播的影響因素研究分析[J].情報(bào)理論與實(shí)踐(3):58-63.

      [9]Bolón-Canedo V,Sánchez-Maro?o N,Alonso-Betanzos A.Feature selection for high-dimensional data[J].Progress in Artificial Intelligence,2016,5(2):65-75.

      猜你喜歡
      邊界值向量分類
      向量的分解
      分類算一算
      聚焦“向量與三角”創(chuàng)新題
      如何設(shè)計(jì)好的測試用例
      巧用洛必達(dá)法則速解函數(shù)邊界值例讀
      讀寫算(2019年11期)2019-08-29 02:04:19
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      龙海市| 恩施市| 高平市| 西安市| 海原县| 恩平市| 共和县| 茶陵县| 鹤庆县| 抚宁县| 安塞县| 且末县| 绥阳县| 五莲县| 原平市| 惠水县| 吴川市| 塔城市| 临桂县| 枣阳市| 皋兰县| 佛冈县| 额济纳旗| 临武县| 东乌珠穆沁旗| 体育| 广州市| 大埔区| 湟中县| 安徽省| 武胜县| 嵊泗县| 吴桥县| 万安县| 论坛| 灵台县| 漳州市| 乌兰县| 灵川县| 汉川市| 开远市|