• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機器學習的多分類Logistic回歸

    2019-10-21 06:51:37黃戀舒夏啟政
    現(xiàn)代信息科技 2019年21期
    關鍵詞:影星電影票房分類

    黃戀舒 夏啟政

    摘? 要:票房與評分作為評價一部電影最重要的兩個方面,傳統(tǒng)研究考慮他們的影響因素時,只考慮多個影響因素對其中一個因素的影響(即“多對一”)。本文提出基于多分類Logistic回歸模型,構造一種單一影響因素對多個因素(即“一對多”)是否產(chǎn)生影響的分析方法,并從理論角度對該方法給予了證明;并將該方法應用在2017年和2018年國產(chǎn)電影數(shù)據(jù)中,分析了明星影響力對電影票房評分兩方面的影響,發(fā)現(xiàn)明星影響力對電影票房評分沒有顯著影響。

    關鍵詞:多分類Logistic回歸;影響因素篩選;明星影響力

    中圖分類號:TP181? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)21-0022-04

    Abstract:Box office and scoring are the two most important aspects of evaluating a film. When traditional research considers their influencing factors,only the influence of multiple influencing factors on one of the factors (more to one) is considered. This paper proposes an analysis method based on multi-class Logistic regression model to construct whether a single influencing factor affects multiple factors (one to more),and proves the method from a theoretical perspective. In addition,we applies the data of domestic films of China in 2017 and 2018,and analyze the influence of star on the movie box office and score. We find that the star has no significant effect on the movie box office and score.

    Keywords:multi-class Logistic regression;selection of factors;star influence

    0? 引? 言

    近年來,中國電影市場蓬勃發(fā)展,呈現(xiàn)出百花齊放的景象。一部電影的成功往往主要由電影票房與評分兩個方面決定。一般而言,票房決定了電影的經(jīng)濟效益,評分決定了電影的文化效益。所以研究電影票房與評分的影響因素,也成了現(xiàn)在學術界對電影研究的主要方面。

    但是這些研究往往只關注了票房或者評分其中一個方面,沒有考慮影響因素對二者整體的影響。本文基于多分類Logistic回歸模型,將電影離散化為“高分高票房”“高分低票房”“低分高票房”“低分低票房”四類,在機器學習視角下,分析預測了影星這一影響因素在同一電影類別中所發(fā)揮的作用存在的差異,進一步分析影星對于電影票房與評分整體的影響。

    1? 文獻綜述

    對于電影票房的影響因素分析,早在20世紀80年代,Litman[1]就使用回歸的方式建立了票房模型,他認為影響票房最主要的因素是檔期和發(fā)行公司,同時電影提名和專業(yè)影評對其也有著較為顯著的影響;1994年,Sochay[2]認為影響票房的主要因變量是市場集中度,并按照類似Litman的方法建立了回歸模型,對美國票房進行了分析預測。以上兩個模型是針對美國票房的分析模型,對國內(nèi)的票房模型的研究起到了十分重要的參考作用。在國內(nèi),鄭堅[3]等利用反饋神經(jīng)網(wǎng)絡來建立票房預測模型,通過影響因素為導演、檔期等擬合出效果較好的票房預測模型;吳玨[4]等人使用電影喜歡人數(shù)、收藏人數(shù)等消費者數(shù)據(jù)對票房進行分析預測,發(fā)現(xiàn)用戶關于特定電影的深度互動行為與票房結果顯著相關;李建平等[5]使用灰色關聯(lián)分析和BP算法對票房進行預測,選擇了內(nèi)地影院數(shù)量、銀幕總數(shù)、居民消費水平等七個相關的指標,得到了效果較好的預測模型。

    這些研究表明,消費者以及電影本身對票房有著顯著的影響,但是大部分研究忽略了演員對電影票房的影響,尤其是電影主演對票房的影響。在中國電影市場,存在著明顯的“明星”效應,即許多制片方會將大部分資金用在請“明星”上,憑借“明星”吸引觀眾,提升票房。

    對于電影評分的影響因素分析,國內(nèi)外的研究較少,周如彪等[6]使用多元回歸模型,分析了上映時間、時長等指標對電影評分的影響;馬松岳、許鑫[7],使用ROSTEA工具進行情感分析得到評論評價的綜合情緒值,將其與評分進行相關分析。這些研究表明,電影票房與評分等多種因素有關,這些因素既有共性,也有差異,但都是多種因素對單一因素的影響,即“多對一”模型。

    所以本文的研究重點,一是利用多分類Logistic回歸模型,研究解決“一對多”的問題,并證明這種方法的可行性;二是利用這種方法對電影數(shù)據(jù)進行建模,分析影星對電影票房與評分的影響。

    2? 模型設定

    但是由于本文所研究的問題是變量對分類的影響,又因為對于未分類樣本決定樣本分類的指標完全是由數(shù)據(jù)的原始屬性提供,所以當x*可由X線性表示時,即分類變量y可完全被x*解釋,x*是影響分類的因素。

    3? 實證分析

    本文爬取了時光網(wǎng)2017年的56部電影與2018年各55部國產(chǎn)電影的票房、評分、主演等數(shù)據(jù),同時在“藝恩電影數(shù)據(jù)庫”中爬取了1737名明星的微博熱度、新聞熱度、貼吧熱度以及搜索熱度數(shù)據(jù)。

    3.1? 數(shù)據(jù)處理

    為了獲得有效的預測模型,對數(shù)據(jù)做以下處理。首先考慮到2017與2018兩年的電影票房和評分有著差異較大的波動,所以對電影票房以及評分數(shù)據(jù)進行標準化處理。由于電影數(shù)據(jù)本身沒有根據(jù)電影的票房和評分進行分組,所以根據(jù)聚類和判別分析的思想,設置四個群樣本點π1,π2,π3,π4分別代表“高分高票房”“高分低票房”“低分高票房”和“低分低票房”四種電影類別,并定義它們在空間中的位置π1[max(pf),max(score)]、π2[min(pf),max(score)]、π3[max(pf),min(score)]、π4[min(pf),min(score)],其中pf代表電影票房,score代表評分。

    其次為了有效表達每部電影主演的影響因子,本文采用主成分分析的方法,并提取第一主成分,作為每位主演的影響因子,如下式:

    factor1=0.568*tieba+0.292*weibo+0.472*search+0.607*news

    其中tieba、weibo、search、news分別代表貼吧熱度、微博熱度、搜索熱度以及新聞熱度。

    對于一部電影來說,通常情況下主演并不是只有一人,為了簡化問題,這里將所有主演的影響因子相加構成電影的影星影響因子。這也符合實際情況,對于一部電影來說,人們的關注度往往取決于這部電影的演員的整體實力。

    3.2? 模型參數(shù)設定

    我們選取2018年的55部電影數(shù)據(jù)作為實驗組供電腦學習,并隨機選取其中的35部電影作為訓練集,其余20部為測試集;將2017年的56部電影作為預測集,檢驗電影明星對電影類別的影響。并由上述聚類方法得到電影類型表,如表1所示。

    針對多分類問題,常用混淆矩陣和根據(jù)混淆矩陣得到的絕對精度,所謂絕對精度,即準確預測到實際類別個數(shù)占整個實際類別總數(shù)的比例。

    3.3? 實驗結果

    使用Matlab編寫構建Logistic回歸模型,使用梯度下降算法分別對2018年包含影星影響因子的數(shù)據(jù)集(train_stars)和不含影星影響因子的數(shù)據(jù)集(train)進行訓練,得到結果,如圖1至圖4所示。其中圖1和圖2分別代表含影星影響因子的包含35部電影的訓練集和包含20部電影的測試集數(shù)據(jù)集,圖3和圖4分別代表不含影星影響因子的包含35部電影的訓練集和包含20部電影的測試集數(shù)據(jù)集。圖中“十字”代表數(shù)據(jù)原始數(shù)據(jù)類別,“圓圈”代表預測數(shù)據(jù)類別,尖鋒代表預測錯誤的電影??梢钥闯鰞蓚€數(shù)據(jù)集的訓練集精確度都達到了0.8,而測試集得精確度也達到了0.85和0.9,所以該模型的精確度較高,可以用來預測2017年電影的分類。

    通過預測2017年電影的分類,得到結果如圖5和圖6所示,其中圖5為含影星影響因子的預測;圖6為不含影星影響因子的預測。

    其中兩種預測模型對同一電影預測值相同的電影只有14部,即重復率只有25%,所以我們可以認為電影明星對電影分類是一個無關的隨機影響因子,即電影明星對電影票房以及評分沒有影響。

    4? 結? 論

    本文采用多分類Logistic回歸從分類的角度衡量了單一影響因子對多因素的影響,并對該方法給予了證明。之后選取了2017年和2018年的數(shù)據(jù),分析了電影明星對電影票房以及評分的影響,由于有無影星影響因子對模型有著顯著的影響,所以我們認為電影明星并不會對電影票房以及評分產(chǎn)生影響。

    本文選取了一個全新的角度,分析某一因素是否對其他因素產(chǎn)生影響,并為電影投資人,是否要邀請大牌明星提升電影的競爭力和口碑提供了一定的參考。

    參考文獻:

    [1] Barry R. Litman,Linda S. Kohl. Predicting financial success of motion pictures:The '80s experience [J].Journal of Media Economics,1989,2(2):35-50.

    [2] Scott Sochay. Predicting the Performance of Motion Pictures [J].Journal of Media Economics,1994,7(4):1-20.

    [3] 李健平,王世民.基于灰色關聯(lián)分析和BP算法的國內(nèi)電影票房預測 [J].電子世界,2018(24):18-19.

    [4] 吳玨,潘徐.基于用戶內(nèi)容消費數(shù)據(jù)的電影票房預測模型探索 [J].全球傳媒學刊,2018,5(3):96-107.

    [5] 鄭堅,周尚波.基于神經(jīng)網(wǎng)絡的電影票房預測建模 [J].計算機應用,2014,34(3):742-748.

    [6] 周如彪,林曉霞,王昱華.基于多元回歸分析豆瓣電影評分 [J].藝術科技,2019,32(1):67-68+83.

    [7] 馬松岳,許鑫.基于評論情感分析的用戶在線評價研究——以豆瓣網(wǎng)電影為例 [J].圖書情報工作,2016,60(10):95-102.

    [8] 李錦繡.基于Logistic回歸模型和支持向量機(SVM)模型的多分類研究 [D].武漢:華中師范大學,2014.

    作者簡介:黃戀舒(1997.11-),女,漢族,廣西貴港人,本科在讀,研究方向:經(jīng)濟統(tǒng)計;夏啟政(1998.11-),男,漢族,河南新鄉(xiāng)人,本科在讀,研究方向:經(jīng)濟統(tǒng)計。

    猜你喜歡
    影星電影票房分類
    分類算一算
    新年新氣象,元旦來帶頭 2021年1月電影票房排行榜
    打鐵還需自身硬 2020年10月電影票房排行榜
    意料之中,整體表現(xiàn)平淡 2020年9月電影票房排行榜
    暑期檔繼續(xù)“遇冷”2019年7月電影票房排行榜
    分類討論求坐標
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    韓國影星金汎空降福州 期待與湯唯合作
    海峽姐妹(2016年4期)2016-02-27 15:18:25
    被誹謗
    威信县| 三河市| 天津市| 西峡县| 藁城市| 鹿邑县| 洛南县| 印江| 敖汉旗| 金寨县| 罗甸县| 通道| 南投县| 伊通| 民乐县| 靖边县| 旬邑县| 马尔康县| 阳山县| 京山县| 朔州市| 广南县| 盐亭县| 宜城市| 开鲁县| 甘孜县| 巨野县| 漳州市| 栾城县| 宁陵县| 灵石县| 南投市| 崇信县| 铁力市| 旬邑县| 额敏县| 德格县| 南充市| 萨嘎县| 丽水市| 平安县|