• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于微博情感分析的電影票房預測研究

      2015-03-23 08:08:40王洪偉何紹義
      關鍵詞:電影票房本體預測

      史 偉, 王洪偉, 何紹義

      (1.湖州師范學院 商學院, 浙江 湖州 313000; 2. 同濟大學 經(jīng)濟與管理學院, 上海 200092;

      3.加州州立大學 圣馬可斯分校 商學院, 美國 加利福尼亞 圣馬可斯)

      ?

      基于微博情感分析的電影票房預測研究

      史 偉1*, 王洪偉2, 何紹義3

      (1.湖州師范學院 商學院, 浙江 湖州 313000; 2. 同濟大學 經(jīng)濟與管理學院, 上海 200092;

      3.加州州立大學 圣馬可斯分校 商學院, 美國 加利福尼亞 圣馬可斯)

      微博作為電子口碑的重要載體,極大影響了消費者的購買決策和商家的產(chǎn)品銷售.為此,以新浪微博為平臺,研究從微博中挖掘情感信息并利用這些信息對產(chǎn)品銷售進行預測的方法.分析影響微博評論的因素,基于已構建的情感本體,建立微博中情感計算方法.然后在傳統(tǒng)自回歸模型的基礎上融入情感因素,提出自回歸情感預測模型用于產(chǎn)品銷量的預測.對電影數(shù)據(jù)集進行了廣泛地實驗,分析參數(shù)選擇,并與其它預測模型進行比較,實驗證實我們提出的方法的有效性.

      微博; 情感分析; 情感本體; 自回歸情感預測模型

      銷售預測是商業(yè)領域一個重要問題.特別是,互聯(lián)網(wǎng)引發(fā)的電子口碑極大影響了消費者的購買決策,因此探究電子口碑對產(chǎn)品銷量的影響倍受關注.微博是電子口碑傳播的重要載體和形式.通過微博,可以關注或交流關于特定主題的觀點,從主流話題(比如飲食、音樂、電影、商品、政治等)到私密愛好[1].截止2012年8月,中國的微博用戶約為3.27億人,微博用戶平均每天發(fā)表微博2.13條,轉發(fā)3.12條[2].可以說,微博已成為展現(xiàn)公眾情感和觀點的平臺,也成為影響商家銷售的重要因素.

      對于電影市場而言,影響票房收入的因素很多,無法全面考慮,從而影響預測模型的準確性.同時也看到,基于微博的影評正成為觀眾選擇影片的重要參考,而且影評本身涉及到電影諸多方面的信息.因此,深入挖掘微博影評信息,可以在一定程度上彌補現(xiàn)有預測模型對影響因素考慮不足的缺陷.為此,本文以關于影視評論的中文微博為對象,探究微博表達的觀點和情感是如何影響電影票房預測的.之所以選擇電影展開研究,一是因為電影票房數(shù)據(jù)在網(wǎng)上是公開發(fā)布的,而其它產(chǎn)品的銷售數(shù)據(jù)通常都未對外公布或不夠準確.同時電影評論也被認為是情感分析中最具挑戰(zhàn)性的任務之一[3];另一方面,針對票房建立的預測模型也會適用于其它產(chǎn)品銷售的預測,比如書籍、音樂CD和電子產(chǎn)品等.

      主要步驟是:通過采用情感分析技術,從微博文本中挖掘觀點和情感,選擇基本預測模型,將情感信息引入預測模型,構建情感預測模型,根據(jù)前期的電影票房收入和微博影評的情感因素對票房進行預測.本文構建的模型將對商務智能提供幫助,包括市場分析、產(chǎn)品規(guī)劃到有針對性的廣告發(fā)布.

      1 文獻綜述

      一些學者通過提取留言板、聊天室和博客中的相關評論,分析它們與市場的相關性.Tumarkin等人發(fā)現(xiàn)相關論壇上網(wǎng)民討論活躍的那幾天市場會呈現(xiàn)不正常的回報,同時也發(fā)現(xiàn)這種不正常的活躍日期并不能預測市場的回報[4].相似地,Antweiler等人也指出論壇上發(fā)表的股評與股票的波動相關,但是沒發(fā)現(xiàn)這些討論的預測功能[5].較早通過在線發(fā)表的帖子進行銷量預測的是Tong,他利用新聞中關于電影的觀點進行票房預測,取得了一定的效果[6].Joshi等人運用線性回歸模型,通過分析文本和元數(shù)據(jù)對電影收入進行預測,達到了初步的預測功能[7].Sharda等人將預測問題當作一種分類問題,運用神經(jīng)網(wǎng)絡將電影分成不同種類,但是該模型的預測準確率不是很理想[8].Gruhl等人研究了如何產(chǎn)生自動詢問對博客進行挖掘,進而對書籍的銷售進行預測[9].Zhang等人構建了一種新的聚合模型,根據(jù)互聯(lián)網(wǎng)電影資料庫(Internet Movie Database,IMDB)中的數(shù)據(jù)預測電影票房,方法有一定的新意[10].

      通過微博進行產(chǎn)品銷量預測的研究時間相對不長,前期研究主要考慮微博數(shù)量或鏈接結構等因素來預測產(chǎn)品銷售趨勢[9],沒有考慮微博中的情感因素.已有研究[11]發(fā)現(xiàn)盡管微博數(shù)量或鏈接結構與銷售趨勢具有一定的聯(lián)系,但是不能提供理想的預測效果.為此,一些學者開始考慮微博中的情感信息對預測效果的影響,文獻[12-16]中針對微博或博客文本進行情感分析,并對電影票房和股市進行了預測,取得了不錯的效果.

      總結相關研究發(fā)現(xiàn),基于微博平臺的預測研究多以英文語境下的Twitter為研究平臺,采用傳統(tǒng)的文本挖掘方法提取微博中的觀點和情感進行產(chǎn)品銷售預測,只是簡單地將微博評論分類為正面和負面,不能對中文微博評論中反應的情感提供充分地理解.為此,本文引入情感本體建模方法,并結合微博中的語義因素和微博影響力分析構建微博情感值計算模型,為提取微博中的情感因素奠定基礎.除了考慮微博中的情感因素,本文還將過去的銷售記錄作為預測產(chǎn)品銷量的另一個重要因素.本文提出一種用于產(chǎn)品銷售預測的模型,稱之為自回歸情感預測模型.對于電影數(shù)據(jù)的廣泛實驗發(fā)現(xiàn)自回歸情感預測模型的表現(xiàn)效果比只使用普通預測模型的效果要好很多,進一步證實了我們的預期情感因素在產(chǎn)品銷量的預測中扮演了很重要的角色.

      2 微博情感因素的提取與度量

      對于中文微博的情感分析,可將微博文本作為Web短文本處理,這里采用已建立的情感本體并結合相關語義的方法進行處理.舉個例子

      “今晚觀看了美國大片《碟中諜4》,喜歡這效果!”

      這個微博帖子通過情感標記有一個情感類“喜歡” V 喜愛 1.00 .

      在前期研究中已詳細論述情感本體的構建過程[17],并創(chuàng)建了可用于在線評論情感分析的情感詞本體庫.主要創(chuàng)新之處是將情感本體劃分為評價詞本體和情感詞本體,利用模糊理論和知網(wǎng)模型,構建情感本體的基本模型.根據(jù)評價詞和情感詞的各自特點(評價詞是消費者對產(chǎn)品及其特征發(fā)表的“肯定”或“否定”的評價,用來表達自己的觀點或立場,情感詞是消費者對評論涉及的主題進行各種情感表達,這些情感可以是“期待”、“愉快”等),運用模糊化處理和語義相似度的相關理論,分別對評價詞本體和情感詞本體的情感類型和隸屬度進行了相應處理.情感本體形式如下所例:

      FEO=((18;開心;happy; adj; 張三; 知網(wǎng)2007版情感分析用詞語集), (快樂;愉快), (高興;1.00))

      最終的情感本體收錄9952個詞條,各類情感(2種評價類和8種情緒類)統(tǒng)計如表1.

      表1 各情感類詞匯數(shù)量

      各情感類詞匯分別賦予了相應的情感類和情感隸屬度值,情感隸屬度取值范圍為[0,1],可用于分析微博的情感因素,進而預測商品的銷量.情感有積極和消極之分,即情感極性.上述8類情感中期待、愉快、喜愛屬于積極情感,而悲傷、生氣和討厭則屬于消極情感,驚訝和焦慮在不同的語境下既可能表現(xiàn)為消極也可能為積極.

      為了便于公式(8)中情感類參數(shù)k的選擇,將情感類劃分為7種情況:①1類情感,所有收錄的情感詞匯歸為一類;②2類情感,包括評價類6862個詞和情感類2090個詞;③3類情感,包括3715個G(好)類評價詞、3147個B(壞)類評價詞和2090個情感詞;④4類情感,包括G類評價詞、B類評價詞、積極情感(期待、高興、喜愛、驚訝)和消極情感(焦慮、悲傷、生氣、討厭);⑤5類情感,包括G類評價詞、B類評價詞、積極情感(期待、高興、喜愛)、中性情感(驚訝、焦慮)和消極情感(悲傷、生氣、討厭);⑥6類情感,包括G類評價詞、B類評價詞、強積極情感(高興、喜愛)、弱積極情感(期待、驚訝)、強消極情感(生氣、討厭)、弱消極情感(焦慮、悲傷);⑦10類情感,包括2種評價類和8種情感類.

      一條微博文本影響力代表著文本的內容在微博情感分析中的參考價值,主要與發(fā)帖者有關[18],從以下幾個因素進行考慮:①用戶是否是微博平臺認證用戶,若是說明此用戶是社會名人,具有很強的影響力;②用戶的跟隨者的數(shù)目,跟隨者越多,說明越有影響力;③用戶的朋友數(shù)目,如果用戶的朋友數(shù)目過多,則說明其只是信息的接受者,文本的影響力就很小.綜合考慮上面各種因素,得到文本b的影響力計算方法如式(1)

      (1)

      其中,Ib表示發(fā)表帖子b的用戶的跟隨人數(shù),fb,2表示發(fā)表帖子b的用戶的朋友數(shù)目.函數(shù)x(l)是影響力的擴展比例系數(shù),根據(jù)微博平臺的特性定義如下:當l≥10時x(l)=2;11,否則ν=1.

      對中文表述而言,程度詞經(jīng)常和情感詞匯一起出現(xiàn)從而改變情感詞匯的情感類強度.為了準確計算微博的情感強度,在情感詞的上下文設置一個檢測窗口,寬度為5.如果在檢測窗口內有程度詞出現(xiàn),則按程度詞的等級相應增加情感詞的情感強度,從高到低依次增加1.5到0.8倍.從知網(wǎng)中抽取60個程度詞并將其分成7類[17],具體設置如表2所列.

      表2 程度詞賦值表

      否定詞的出現(xiàn)往往會改變情感詞的傾向性,同上節(jié)從知網(wǎng)中人工抽取出22個否定詞,在情感詞上下文設置一個大小為5的檢測窗口,若在檢測窗口內出現(xiàn)否定詞,就對詞組情感值取反.如果一條微博存在多個情感詞屬于同一情感類,就選取隸屬強度的平均值作為相應情感類的強度.

      綜合上述規(guī)則,微博中情感值計算如式(2)

      (2)

      3 自回歸情感預測模型

      為了構建基于微博情感信息的電影票房預測模型,需要考慮兩方面因素:(1)前期的對應票房收入;(2)觀眾在微博中對電影的情感表達.

      3.1 自回歸模型

      首先考慮第一個影響因素(即前期的票房收入)對當前票房的影響,兩者的關系可以通過自回歸模型(AR)來反映,如公式(3)所示.

      (3)

      其中,xt為時間t的電影票房收入,t=1,…,n.t=1為電影首映日,t=n為統(tǒng)計的最后一日.φ1,φ2,…,φp是模型的參數(shù),εt是誤差項(平均值為0的白噪聲).只有當時間序列{xt}處于穩(wěn)態(tài)的情況,AR模型才是有效的[19].很明顯,由于存在趨勢性和周期性,這里的時間序列{xt}不是穩(wěn)態(tài)的.其原因是,電影票房隨著時間的推移存在著負指數(shù)下降的趨勢.另外,票房總是在周末達到最高而在周中則普遍偏低.因此,為了更準確地對{xt}進行建模,需要預處理.

      第一步去除趨勢性.將時間序列{xt}轉化為對數(shù)域,得到新的時間序列

      第二步去除周期性.將滯后算子應用到新的時間序列{x′t}中,得到新的時間序列:yt=x′t-L7x′t=x′t-x′t-7.通過計算某日和7天前票房的不同,有效地去除一周之內不同日子的周期性因素.預處理步驟結束后,形成了新的AR模型:

      (4)

      需要指出,雖然所建的AR模型是針對電影票房,但同樣適用于其它領域.因為趨勢性和周期性也存在于很多其他商品的銷售中,比如電子產(chǎn)品.

      3.2 融入情感因素

      如前所述,電影票房還會受到公眾觀點的影響.為此,引入情感因素對模型(4)進行修正.設Βt為時刻t發(fā)表的關于電影的微博.情感類j在時刻t的平均值定義為:

      (5)

      其中,eb,j的計算方法前面已述.新的自回歸情感預測模型可以調整為如式(6)

      (6)

      其中,p,q和k為用戶自主選擇的參數(shù),而?i和ρi,j的參數(shù)值需要通過訓練數(shù)據(jù)進行估計.參數(shù)p表示前期票房的考慮天數(shù),q表示提前幾天開始考慮情感因素,k表示情感信息的種類,分類如前所述.

      3.3 訓練自回歸情感預測模型

      對自回歸情感預測模型的訓練包括從真實的票房數(shù)據(jù)中訓練得到參數(shù)集?i(i=1,…,p)和從微博數(shù)據(jù)獲得的st,j中學習得到參數(shù)集ρi,j(i=1,…,q;j=1,…,k).我們將在下面進行介紹,在對p和q選擇后,模型能夠通過最小二乘回歸擬合估計的參數(shù)值.

      Aθ≈C.

      (7)

      更準確地說,尋求Aθ-C差的歐幾里德平方的最小值,這是一個最小二乘回歸問題.一旦模型通過訓練,公式(6)就能根據(jù)前期的票房收入數(shù)據(jù)和從微博中挖掘得到的情感信息預測日期t的票房收入.

      4 實證研究

      4.1 實驗設置

      微博數(shù)據(jù)的提取主要有3種方式:1)采用網(wǎng)絡爬蟲抓?。?)通過API獲取微博文本;3)通過微博平臺高級搜索獲取.本文主要采用第3種方式獲取微博信息,這些信息都是公開的可免費獲取,微博的主要特點之一就是“即時分享”,用戶通過微博平臺將自己的觀點和情感分享給聽眾,所以在研究過程中提取他人公開的微博信息,是完全合乎國家相關法律許可和基本道德規(guī)范的,不存在侵犯他人隱私的問題.

      以國內最大的新浪微博為數(shù)據(jù)來源.實驗數(shù)據(jù)包括2部分:1)從新浪微博收集的2012.1.18到2012.2.25期間投放市場的電影的微博;2)這些電影的每日票房收入.

      對于每部影片,本文收集影片首映前1周到首映后4周發(fā)表的微博.共收集了關于40部不同電影的92 701條微博,比如《大鬧天宮3D》2 134條、《碟中諜4》35 215條.然后按照以下步驟進行處理:

      1)對在空白邊界上的個別詞的分離.

      2)從微博文本中去除所有非文字的數(shù)字字符,例如逗號、破折號等.

      3)去除1 208個標準停用詞包括常見的一些動詞形式.

      4)刪除一些不相關的微博信息,從微博中過濾掉額外的鏈接如含有“http:”或者“www.”的表達和用戶的名字(用符號@標志的).

      5)移除“回復”、“轉發(fā)微博”等詞和轉發(fā)的內容(只是轉發(fā)沒有增加任何評論的帖子).

      6)清理后,將微博文本分成一個個單句,而后進行情感詞標記和基本詞性標注.

      采用人工方式,從中國電影報微博(http://weibo.com/u/2304129841)收集40部電影的票房收入.對于每部影片,收集從它們首映開始4周時段內每天的票房數(shù)據(jù).每輪的實驗都遵照以下流程:

      1)隨機選擇一半的電影(20部)進行訓練,另外一半進行測試.微博文本和電影票房數(shù)據(jù)也相應的部分作為訓練數(shù)據(jù)集,部分作為測試數(shù)據(jù)集.

      2)根據(jù)已建立的情感本體包括2類評價詞和8類情感詞,在微博文本中將出現(xiàn)的這些情感詞匯標注出來,并結合相關語義因素包括否定詞和程度詞的作用,采用公式1對單條微博文本的情感值進行計算.最后用情感向量eb,j來表示微博b對于某部電影的情感值.

      3)將得到情感向量與票房收入投入到自回歸情感預測模型中,獲得參數(shù)的估計值.

      4)通過對測試數(shù)據(jù)進行實驗,評估自回歸情感預測模型的預測效果.

      運用平均絕對百分比誤差(MAPE)衡量模型的預測準確率[20]:

      (8)

      其中,n是總的預測數(shù)量,Predi是預測值,Truei表示真實的票房收入.這里的準確率結果是指20部影片的平均值.顯然MAPE越小,表示預測準確率越高.

      4.2 參數(shù)設置

      自回歸情感預測模型的一些參數(shù)需要事先設置,包括情感種類k,提前期p和q.

      根據(jù)以往的文獻研究,通常前1周的票房收入對后期票房的預測效果較佳,情感信息的影響效果這里假設臨近時期最佳,所以初始設p=7,q=1,觀察k值的變化對自回歸模型預測準確性的影響.圖1(a)顯示,當k從1增加到4,預測準確率不斷提高.當k=4,預測模型的MAPE達到10%.這表示情感類越多就越能充分地從微博中捕獲情感信息,從而導致高的預測準確性.另一方面,當k超過4預測準確性又開始降低.這里的解釋是k值過大引起了過度擬合問題.如果k值過大,就會由于時間和空間問題引起過高的訓練成本.

      設K=4,q=1,觀察p值的變化對自回歸模型預測準確性的影響.圖1(b)顯示,p=7時預測效果最好.這表明p值足夠大才能使前期的票房產(chǎn)生顯著的效果,但如果過大將導致過久產(chǎn)生的不相關信息影響預測的準確性.

      根據(jù)上述結果,設K=4和p=7,并觀察q值由1增加到5對自回歸模型預測準確性的影響.圖1(c)顯示,當q=1時預測效果最佳,表示發(fā)表在前1天的電影微博反應的情感信息對票房的預測效果最好.

      圖1 參數(shù)對預測準確性的影響效果

      為了更好地表現(xiàn)模型參數(shù)值對于預測準確性的影響,通過2012.1.17上映的電影《逆戰(zhàn)》在中國大陸地區(qū)的票房值變化(從首映日開始十日時間里)來進一步觀察,如圖2所示.運用不同參數(shù)值得到的預測票房和真實票房進行比較,發(fā)現(xiàn)在整個時間周期內圖1所確定的最優(yōu)參數(shù)值得到的票房預測結果最接近真實值,同樣的效果在其它電影的票房預測中也能得到體現(xiàn).

      圖2 參數(shù)對電影《逆戰(zhàn)》票房預測影響效果

      4.3 與其它方法的比較

      將自回歸情感預測模型同其它兩種不考慮情感因素的方法進行比較.

      然后與考慮微博數(shù)量的自回歸模型進行比較.為此,將微博數(shù)量引入自回歸模型中,用微博數(shù)量來表示電影受歡迎程度.新建模型如下:

      (9)

      其中,yt的獲取方式同本文建立的自回歸情感預測模型相同,vt-i表示在日期t-i相關微博的數(shù)量,?i和ρi,j的參數(shù)值同樣需要學習得到.此模型的訓練和測試流程和先前建立的模型相似,通過數(shù)據(jù)對此模型進行實驗并與本文的模型進行比較,結果如圖3所示.發(fā)現(xiàn)這種方法的表現(xiàn)略優(yōu)于純粹的AR模型,表明微博數(shù)量有一定的預測能力,但其表現(xiàn)還是遜于本文的自回歸情感預測模型.

      圖3 不同方法的MAPE值比較

      5 小結

      微博作為一種可以傳達個人觀點和意見的方式被廣泛使用,它給大家提供了一種獨特的機會去了解公眾的情感和應用這些信息推進商業(yè)智能.在本研究中,我們以電影為研究對象探討了微博的預測功能,研究了運用從微博中挖掘出來的情感信息進行銷售預測的問題.本工作的一個重要部分就是運用已經(jīng)構建的情感本體并結合相關語義因素建立了微博的情感分析模型,建立的情感分析模型有助于從簡單地對情感“積極或消極”的分類朝著更深入地理解微博中的情感的方向發(fā)展.運用情感分析模型對微博中的情感信息進行總結,發(fā)展了自回歸情感預測模型,該模型基于情感信息和產(chǎn)品過去的銷售表現(xiàn)對將來的銷售情況進行預測.該模型的有效性已經(jīng)通過對電影數(shù)據(jù)集的實驗得到證實.本文是前期微博情感分析的一個應用研究,商家可以利用本文的模型,更好地利用微博的預測功能,以一種更有效地方式開展業(yè)務.

      將來可以從以下幾個方面進行完善:1)完善微博情感的分析模型,考慮更多的語義因素;2)除了本文探討的情感信息和過去的銷售情況作為預測的基礎信息,還可以考慮其它一些影響因素,以提高模型的預測水平;3)對其它的產(chǎn)品進行研究,驗證模型的應用性;4)考慮微博的一些文本因素,體現(xiàn)微博平臺的特點.

      [1]KumarR,NovakJ,RaghavanP,etal.Structureandevolutionofblogspace[J].CommunicationoftheACM, 2004, 47(12):35-39.

      [2]DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心. 2012中國微博藍皮書[EB/OL].http://www.dcci.com.cn.

      [3]BingLiu,MinqingHu,JunshengCheng.Opinionobserver:analyzingandcomparingopinionsontheweb[C]//WWW'05Proceedingsofthe14thinternationalconferenceonWorldWideWeb,NewYork:ACMPress, 2005:342-351.

      [4]TumarkinR,WhitelawRF.Newsornoise?Internetpostingsandstockprices[J].FinancialAnalystsJournal, 2001, 18(11): 41-51.

      [5]AntweilerW,F(xiàn)rankMZ.Isallthattalkjustnoise?TheinformationcontentofInternetstockmessageboards[J].JournalofFinance, 2004, 59(3):1259-1295.

      [6]R.Tong.Detectingandtrackingopinionsinon-linediscussions[J].ComputerScience, 2001, 37(6):261-264.

      [7]JoshiM,DasD,GimpelK,etal.Moviereviewsandrevenues:Anexperimentintextregression[J].NAACL-HLT, 2010, 33(10):232-238.

      [8]ShardaR,DelenD.Predictingbox-officesuccessofmotionpictureswithneuralnetworks[J].ExpertSystemswithApplications, 2006, 12(30): 243-254.

      [9]GruhlD,GuhaR,KumarR,etal.Thepredictivepowerofonlinechatter[C]//KDD′05ProceedingsoftheeleventhACMSIGKDDinternationalconferenceonknowledgediscoveryindatamining,NewYork:ACMPress, 2005:78-87.

      [10]ZhangW,SkienaS.Improvingmoviegrosspredictionthroughnewsanalysis[J].InWebIntelligence, 2009, 20(16): 301-304.

      [11]GruhlD,GuhaR,Liben-NowellD,etal.Informationdiffusionthroughblogspace[C]//WWW'04Proceedingsofthe13thinternationalconferenceonWorldWideWeb,NewYork:ACMPress, 2004: 491-501.

      [12]MishneG,GlanceN.Predictingmoviesalesfrombloggersentiment[C]//TheSpringSymposiaonComputationalApproachestoAnalyzingWeblogs.MenloPark,California:TheAAAIPress, 2006: 155-158.

      [13]DoshiL.Usingsentimentandsocialnetworkanalysestopredictopening-moviebox-officesuccess[D].Massachusetts:MITMasterTheis, 2010.

      [14]BollenaJ,MaoaH,XiaojunZeng.Twittermoodpredictsthestockmarket[J].JournalofComputationalScience, 2011, 2(1):1-8.

      [15]JainV.Predictionofmoviesuccessusingsentimentanalysisoftweets[J].InternationalJournalofSoftComputingandSoftwareEngineering, 2013, 3(3):308-313.

      [16]JingfeiDu,HuaXu,XiaoqiuHuang.Boxofficepredictionbasedonmicroblog[J].ExpertSystemswithApplications, 2014, 13(41): 1680-1689.

      [17] 史 偉, 王洪偉, 何紹義. 基于知網(wǎng)的模糊情感本體構建研究[J].情報學報, 2012,31(6):595-602.

      [18] 侯少龍, 趙政文. 面向微博平臺的產(chǎn)品市場分析模型研究[J]. 微型電腦應用,2008,27(2):4-6.

      [19]EndersW.AppliedEconometricTimeSeries(2ndedition)[M].NewYork:Wiley, 2004.

      [20]JankW,ShmueliG,WangShanshan.Dynamic,real-timeforecastingofonlineauctionsviafunctionalmodels[C]//KDD'06Proceedingsofthe12thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.NewYork:ACMPress, 2006: 580-585.

      Study on predicting movie box office based on sentiment analysis of micro-blog

      SHI Wei1, WANG Hongwei2, HE Shaoyi3

      (1. Business School, Huzhou University, Huzhou, Zhejiang 313000;2.School of Economics and Management, Tongji University, Shanghai 200092; 3.College of Business Administration, California State University, San Marcos, California, USA)

      Micro-blog is an important carrier of electronic word-of-mouth, which has affected the purchase decisions of consumers and product sales of businesses. In this article, we study the problem of mining sentiment information from Sina micro-blog and investigate ways to use such information for predicting product sales performance. We analyze the affecting factors of micro-blog reviews, and establish the sentiment compute method of micro-blog based on fuzzy sentiment ontology, then put sentiment factors into the autoregressive model, present autoregressive sentiment predicting model for predicting product sales performance. Extensive experiments were conducted on a movie data set. We analyze the parameters selection, and compare our model with alternative models that do not take into account the sentiment information. Experiments confirm the effectiveness and superiority of the proposed approach.

      micro-blog; sentiment analysis; sentiment ontology; autoregressive sentiment predicting model

      2014-04-22.

      國家自然科學基金項目(71371144);浙江省社會科學界聯(lián)合會研究課題(2014N021);浙江省教育廳科研項目(Y201430457).

      1000-1190(2015)01-0066-07

      O213.9

      A

      *通訊聯(lián)系人. E-mail: shiwei108108@126.com.

      猜你喜歡
      電影票房本體預測
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      無可預測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預測卷(A卷)
      選修2-2期中考試預測卷(B卷)
      新年新氣象,元旦來帶頭 2021年1月電影票房排行榜
      打鐵還需自身硬 2020年10月電影票房排行榜
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      意料之中,整體表現(xiàn)平淡 2020年9月電影票房排行榜
      暑期檔繼續(xù)“遇冷”2019年7月電影票房排行榜
      不必預測未來,只需把握現(xiàn)在
      凭祥市| 襄樊市| 巴马| 临西县| 满洲里市| 眉山市| 庆阳市| 正蓝旗| 镇远县| 白玉县| 湘阴县| 介休市| 丘北县| 丰原市| 涿鹿县| 阳城县| 兴国县| 千阳县| 敖汉旗| 洛隆县| 大新县| 八宿县| 三台县| 垦利县| 琼海市| 阿坝县| 辛集市| 甘谷县| 丹巴县| 连山| 基隆市| 宁都县| 海林市| 赞皇县| 阜南县| 霍山县| 石嘴山市| 林州市| 崇文区| 进贤县| 连云港市|