• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于特征工程方法的電影評分影響因素重要性分析

      2020-12-23 10:33:02
      現(xiàn)代電影技術(shù) 2020年12期
      關(guān)鍵詞:變量預(yù)測特征

      程 純

      (安徽大學(xué)經(jīng)濟學(xué)院,安徽合肥 230601)

      1 引言

      近年來,華語電影市場越發(fā)呈現(xiàn)出百花齊放的盛態(tài)。得益于各種觀影渠道的興盛和視頻播放技術(shù)的升級,人們在日常觀影時也有了更大的選擇空間,此時電影評分成為了大多數(shù)人選片時考慮的重要指標(biāo)之一。出于各種需求,國內(nèi)出現(xiàn)了眾多電影評分平臺,例如豆瓣、貓眼、時光網(wǎng)等。其中豆瓣作為起步最早、用戶粘性最大的平臺,其電影評分一度成為大家評價電影質(zhì)量的標(biāo)桿。豆瓣評分機制將用戶總體評分除以評分人數(shù),得到樣本評分均值作為總體均值的估計量,具有較好的統(tǒng)計性質(zhì)。因此有理由認(rèn)為豆瓣電影評分反映了電影品質(zhì)的真實情況,這也是本文選擇豆瓣電影評分的基礎(chǔ)。

      學(xué)術(shù)界對于電影相關(guān)預(yù)測的研究主要集中在電影票房預(yù)測、觀影人數(shù)預(yù)測、評分預(yù)測等。其中大多數(shù)研究集中在電影票房預(yù)測,其開始時間早,因此取得了很多不錯的研究成果。目前針對電影評分的研究較少,但已經(jīng)有部分研究者將票房預(yù)測的研究方法應(yīng)用于評分預(yù)測中。Matthew Rodrigue(2010)對比了邏輯回歸模型和多項式模型在26個變量上的選擇效果,實驗結(jié)果表明前者的預(yù)測準(zhǔn)確性更高。Karl Persson(2015)收集了IMDb網(wǎng)站上好萊塢電影的屬性特征信息,包括電影類型、預(yù)算、制片人和導(dǎo)演、明星影響力等特征,隨后使用隨機森林回歸模型和支持向量回歸機模型對特征信息進(jìn)行建模,得到電影評分的預(yù)測模型,結(jié)果表明前者的性能優(yōu)于后者。

      周文樂等(2015)綜合了時間和用戶評分特征,提出了一種基于對分網(wǎng)絡(luò)的評分預(yù)測模型;文中考慮到了用戶相似性,利用譜聚類方法得到不同的用戶興趣組,最后利用鄰居用戶的評分信息對未知項目做出預(yù)測,其原理類似現(xiàn)在常用的推薦系統(tǒng)方法。劉明昌(2017)使用的混合預(yù)測模型在電影特征信息指標(biāo)之外,添加了豆瓣電影用戶評分和相似電影推薦這兩項影響因素,結(jié)果表明改進(jìn)后的模型在預(yù)測精度上有了較大幅度的提高。陸君之(2018)從導(dǎo)演、編劇、主演、電影類型、國家地區(qū)五個維度來構(gòu)建電影的特征向量,對比了隨機森林、DT算法及GBDT算法等算法模型的誤差,結(jié)果表明隨機森林模型的預(yù)測性能明顯優(yōu)于其他模型。周如彪等(2019)以豆瓣Top250影片為研究對象,通過建立多元線性回歸模型驗證得出:編劇評分對電影評分影響最顯著。

      綜合以上文獻(xiàn)可以發(fā)現(xiàn),研究者在電影評分預(yù)測方面的創(chuàng)新點主要分為變量選取的創(chuàng)新和算法模型的改進(jìn),但是在明確哪些變量對評分影響更為重要時常常表意不清。而本文的創(chuàng)新點主要表現(xiàn)在三個方面:一是變量選取:除大眾廣泛認(rèn)可的導(dǎo)演、演員、編劇、類型等影響電影評分的因素外,還考慮了大眾關(guān)注度、電影語言特征、電影時長等因素。二是使用了特征工程方法對定性變量重新賦值,使之前雜亂的文本特征轉(zhuǎn)化為可度量的影響因素。三是通過選取不同模型,輸出了各模型的變量重要性排名,綜合各模型結(jié)果得到影響電影評分的最主要因素。

      2 建模機理與數(shù)據(jù)準(zhǔn)備

      2.1 電影評分機理分析

      目前電影評分機制的研究方法主要分為以下三類:

      (1)基于用戶評分。即通過分析用戶的評分信息,得到其觀影偏好和評分習(xí)慣,進(jìn)而對新電影評分做預(yù)測。

      (2)基于電影特征。收集影響電影評分的相關(guān)特征,選擇合適的預(yù)測模型。

      (3)基于相似電影推薦。電影推薦系統(tǒng)的常用方法,通過計算目標(biāo)電影與其他電影的相似度,進(jìn)而得到預(yù)測評分。

      本文采用第二種方法,首先需找出影響評分的電影特征。目前學(xué)界對于影響電影評分因素的研究較少,參考電影票房預(yù)測的研究結(jié)論并結(jié)合日常經(jīng)驗,本文將影響因素分為以下四類,即:演職人員特征、出品方特征、電影自身特征和大眾關(guān)注度特征,具體分析見表2。

      表2 電影評分影響因素

      2.2 數(shù)據(jù)準(zhǔn)備

      通過爬蟲獲得截至2019年3月的豆瓣華語電影數(shù)據(jù),共14個變量,13960條記錄。簡單瀏覽華語電影數(shù)據(jù)集后發(fā)現(xiàn)評論人數(shù)較少的影片有較多的字段缺失,并且其主創(chuàng)團隊沒有其他的作品;這使得在下一步中對變量賦值時無法計算或計算不正確,因此本次試驗僅選擇影評數(shù)量超過300的影片。對華語電影數(shù)據(jù)集進(jìn)行數(shù)據(jù)選擇和數(shù)據(jù)整理后,總計有552部影片作為最終的建模數(shù)據(jù)。

      結(jié)合2.1節(jié)的分析選擇相應(yīng)變量,使用特征工程方法對變量進(jìn)行處理。

      2.3 特征工程

      觀察建模數(shù)據(jù)集可以發(fā)現(xiàn),表1中的特征預(yù)處理方式在本次試驗中都有所涉及。其中,電影類型、導(dǎo)演、編劇和主演字段全部以文本形式呈現(xiàn),此類定性特征不能直接使用,需要將定性特征轉(zhuǎn)換為定量特征。通過生成新的衍生變量,將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),以便更好地建立模型。

      查閱資料后發(fā)現(xiàn),對導(dǎo)演、編劇和主演進(jìn)行賦值較為困難,常用的賦分方法有兩種:一是根據(jù)其獲獎情況進(jìn)行統(tǒng)計,二是基于其之前執(zhí)導(dǎo)或者參與的影片評分來統(tǒng)計。在本文中,由于涉及演職人員較多,且近年來對于電影從業(yè)人員設(shè)立的獎項愈發(fā)繁多,筆者也無法明確辨別哪些屬于含金量較高的獎項?;谝陨峡剂?本次實驗選擇“電影評分”作為導(dǎo)演、編劇、主演相關(guān)影響力的衡量指標(biāo)。

      各變量解釋和具體賦值過程如下:

      (1)導(dǎo)演執(zhí)導(dǎo)水平

      以某導(dǎo)演執(zhí)導(dǎo)電影所獲得的評分均值作為導(dǎo)演執(zhí)導(dǎo)水平特征。

      (2)編劇水平

      對于同一位編劇,選擇由該編劇主創(chuàng)的所有電影劇本的電影均值為該編劇的評分。從數(shù)據(jù)集可以看出,一部電影的編劇往往不止一人,電影劇本也分為原創(chuàng)劇本和其他成名作品改編。良好作品的呈現(xiàn)靠的是群體的群策群力,因此相對于某一位編劇的重大影響力,取均值似乎更能代表實際情況。選取一部電影排行前五的編劇,計算評分均值。

      (3)演員表現(xiàn)力

      選用演員參與拍攝的所有電影作品計算該演員評分。

      S表示第 i 位主演的評分均值;

      ω表示第 i 位主演在此部電影的權(quán)重。

      考慮到一部影片的參演人數(shù)較多,有時可多達(dá)十幾位。一來排名靠后的演員對電影的最終評分影響甚微;二來給計算帶來極大的難度。綜合考慮下,本文結(jié)合電影宣發(fā)時對主演排名的先后,權(quán)重設(shè)置如表3所示,若參演人數(shù)多于 5 位,則從第6位開始不考慮其對電影的影響。

      表3 演員權(quán)重表

      由于導(dǎo)演、編劇、演員三個特征的賦值過程較為相似,我們分別選出10位展示經(jīng)均值計算處理后的結(jié)果,如表4所示。

      表4 導(dǎo)演、編劇、演員個人評分表(部分)

      從表4中可以看到,各演職人員的個人評分總體上符合大眾認(rèn)知。其中參演電影次數(shù)較多的個人,其評分當(dāng)然更加準(zhǔn)確。如果參與電影數(shù)太少,例如《流浪地球》的主演屈楚蕭,他只參演過一部影片,那流浪地球的豆瓣評分就是該演員的個人評分,這可能對接下來的建模造成不良影響。

      (4)是否為聯(lián)合發(fā)行

      引入啞變量,制片國家/地區(qū)為兩個及以上時,為變量賦值為1。單個地區(qū)賦值為0。

      (5)發(fā)行年份

      結(jié)合之前的分析,年份較早的電影容易獲得高評分;同時隨著電影技術(shù)和經(jīng)濟水平的不斷發(fā)展,大眾審美變化越來越快。根據(jù)電影發(fā)行年份大致分布情況,將電影發(fā)行年份劃分以五個階段:1990年之前,1990至1999,2000至2009,2010至2014及2015年之后。類別編號為1-5。

      (6)影片類型

      通過爬取豆瓣Top250的影片數(shù)據(jù),對受大眾歡迎的電影類型進(jìn)行可視化分析,從圖1可以清楚看到劇情片遙遙領(lǐng)先。類型前五分別是:劇情、愛情、喜劇、犯罪和冒險。可見人們在觀影選擇方面,一則偏好具有強烈的戲劇沖突、令人腎上腺素飆升的犯罪和冒險片;其次是喜愛給人帶來歡樂、促使多巴胺分泌的喜劇和愛情片。根據(jù)圖1表示的觀眾偏好給各類型電影打分,如表5所示。

      圖1 豆瓣Top250電影類型

      表5 影片類型對應(yīng)得分

      (7)電影時長

      根據(jù)日常經(jīng)驗分析可知,合適的電影時長可以改善人們的觀影體驗,時長太長或太短似乎都不太受大家喜愛。將電影時長劃分為如下區(qū)間: 0-90,90-120,120-150和150以上,單位為分鐘;所對的類別編號為1-4。

      (8)電影語言

      華語電影整體以普通話和粵語為主,但也有部分地方方言。方言能夠帶來不一樣的影片效果。從數(shù)據(jù)集上可以看到該變量多為“普通話/粵語/北京話”形式,為定性變量。對含有方言的電影賦值為1;為粵語/普通話的影片賦值為0。

      2.4 變量選擇和命名

      表6 電影評分影響因素

      結(jié)合2.1和2.3節(jié)對引入回歸模型的變量進(jìn)行選擇和命名,對分類變量進(jìn)行因子型轉(zhuǎn)化,使其在引入回歸模型時會自動轉(zhuǎn)化為虛擬變量形式。

      3 模型構(gòu)建

      回歸分析是預(yù)測模型的最常用方法之一,其主要目的是確定因變量與自變量之間相互依賴的定量關(guān)系,基于變量特征選擇合適的回歸模型。

      3.1 相關(guān)性分析

      表7 連續(xù)變量相關(guān)系數(shù)表及其顯著性檢驗

      在建立模型之前需探究因變量與自變量的相關(guān)關(guān)系,連續(xù)型變量和分類型變量相關(guān)性有不同的分析方法。首先計算本次試驗中連續(xù)型變量的相關(guān)系數(shù)。由于Pearson線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布,本實驗不符合該要求,故選擇Spearman秩相關(guān)系數(shù)。輸出相關(guān)系數(shù)矩陣及其對應(yīng)的相關(guān)系數(shù)顯著性檢驗表,如表7所示。

      從表7可以看出,華語電影評分與演員、編劇和主演相關(guān)性較強,同時這三個變量間也存在較強的相關(guān)性,這里考慮到特征工程賦值的原因。從相關(guān)系數(shù)顯著性檢驗結(jié)果來看(原假設(shè)為變量間不相關(guān),即相關(guān)系數(shù)為0)。第一列p值皆小于0.01。因此拒絕原假設(shè),有理由認(rèn)為因變量與所選自變量之間具有相關(guān)性。

      對于分類變量,本試驗數(shù)據(jù)不服從正態(tài)總體假設(shè),且各類別數(shù)據(jù)獨立。對于二分類和多分類變量分別使用Wilconxon秩和檢驗和Kruskal-Wallis檢驗,判斷電影評分在各類別組間是否存在差異,輸出結(jié)果如表8所示。

      表8 組間差異非參數(shù)檢驗

      可以看出除了publisher(是否為聯(lián)合發(fā)行)變量不能拒絕電影評分在各類別表現(xiàn)相同的原假設(shè)外(p>0.05),其他分類變量皆可拒絕原假設(shè),即認(rèn)為電影評分均值在語言、發(fā)行年份、電影時長變量的各類別間存在顯著差異。

      從以上的相關(guān)分析中猜測預(yù)測變量間存在多重共線性,即使用的多個預(yù)測變量之間存在線性相關(guān)關(guān)系,此時多元線性回歸模型已不再適用,因為其重要假定之一就是回歸模型的解釋變量之間不存在線性關(guān)系。

      表9 自變量VIF檢驗結(jié)果

      對多重共線性的處理方法包括:刪除次要變量、改變變量形式、選擇其他回歸方法等。在本次試驗中,存在強多重共線性的三個變量是導(dǎo)演、編劇和演員,這是模型中的重要因素,不可直接刪除。結(jié)合相關(guān)性分析結(jié)果,刪除變量short(短評數(shù)量)和publisher(是否為聯(lián)合發(fā)行),將剩余的9個變量作為最終的預(yù)測變量建立回歸模型(處理為虛擬變量后為14個變量)。

      3.2 回歸模型選擇

      一般來說,構(gòu)建的模型由線性函數(shù)組成的回歸問題就可以稱之為線性回歸,即認(rèn)為輸出值是輸入變量的線性組合。首次從回歸分析中最基礎(chǔ)、最簡單的多元線性回歸模型入手,其優(yōu)點包括:易于建模、形式簡單、可將因子型變量直接納入模型并具有較好的解釋性。對于多重共線性問題,輕度多重共線性對參數(shù)估計的影響較為有限,故而可以嘗試使用多元線性回歸建模。除多元線性模型之外,筆者還希望尋找既可以處理多重共線性問題,又能夠?qū)ψ兞窟M(jìn)行篩選、給出變量重要性排序的模型;基于以上分析,本文將使用多元線性回歸、LASSO回歸和隨機森林回歸三種方法進(jìn)行建模。

      3.2.1 多元線性回歸

      多元線性回歸使用普通最小二乘法來求解模型的最小損失函數(shù),通過最小化殘差平方和尋找最佳的模型參數(shù)。在R中完成下列操作:劃分訓(xùn)練集和測試集比例為7∶3,訓(xùn)練集中包含觀測386個,測試集中觀測數(shù)為166。生成多元線性模型,輸出結(jié)果如表10所示。

      表10 多元回歸分析輸出結(jié)果

      R中對分類變量的處理是將其定義為因子型變量,讀取時以第一類別為比較標(biāo)準(zhǔn),引入虛擬變量。在發(fā)行年份(year)變量中,類別1為1990年之前。根據(jù)回歸系數(shù),可得出類別2(1990至1999)的評分略高于類別1外,其后的發(fā)行年份(2000至2009,2010至2014及2015年之后)的評分總體表現(xiàn)為逐年走低,這也印證了本文之前的猜想:大眾評分越來越嚴(yán)格,新發(fā)行電影想要獲得高評分愈加困難。在影片時長(time)變量中,結(jié)果顯示電影時長對電影評分為負(fù)向影響,與預(yù)估的結(jié)論不一致??赡艿脑虬?變量本身設(shè)置不佳、模型設(shè)定有誤等。

      time1-2.08E-011.37E-01-1.5230.128552 time2-4.05E-011.54E-01-2.6330.008828**time3-4.37E-012.60E-01-1.6790.093908.language3.75E-011.04E-013.6160.00034***comment2.23E-063.78E-075.9087.84E-09***long -5.01E-053.11E-05-1.6090.108518變量顯著性標(biāo)記(對應(yīng)不同顯著性水平):0‘***’ 0.001‘**’ 0.01‘*’0.05‘.’0.1‘ ’ 1模型判定系數(shù)R2:0.7663, 調(diào)整的R2: 0.7575

      從多元線性回歸結(jié)果來看,模型可以為研究者反映一些信息。但本文目的為篩選出對電影評分預(yù)測最有效的指標(biāo);由于變量的量綱存在差異,此模型的回歸系數(shù)沒有參考意義,因而選用相對權(quán)重來衡量變量相對重要性,如表11所示。

      3.2.2 LASSO回歸

      使用程序包glmnet,glmnet包在計算λ值之前首先對輸入進(jìn)行標(biāo)準(zhǔn)化,然后輸出非標(biāo)準(zhǔn)化系數(shù)。指定響應(yīng)變量的分布為gaussian,因為它是連續(xù)的;指定alpha = 1,表示進(jìn)行LASSO回歸。使用K折交叉檢驗找到最優(yōu)的λ,將λ=0.138代入預(yù)測,同時輸出LASSO回歸對應(yīng)的變量系數(shù),見表11。

      圖2 LASSO回歸系數(shù)收縮圖

      圖2展示了LASSO回歸的作用過程,同時反映出變量的重要性排序。其橫軸表示壓縮的懲罰系數(shù)(λ值取對數(shù)),縱軸表示變量系數(shù)的變化,每條線代表一個特征。LASSO回歸可以通過觀察曲線到達(dá)0的前后順序,決定選擇哪些特征進(jìn)入模型。圖2中,最先舍去的變量是9/13/14(year4、comment、long);隨 后 是10/8/4/11/12(time1、year4、type、time2、time3),其 次 是6/5/7(year1、language、year2),最后是3/1/2(starring、director、writer)。

      3.2.3 隨機森林回歸

      隨機森林算法對于特征之間相關(guān)性不敏感,同時可以處理多種類型的變量。這就表明在對電影評分進(jìn)行預(yù)測時,隨機森林回歸有較好的表現(xiàn)。使用randomForest( )函數(shù)構(gòu)建隨機森林模型,同時查看變量重要性。本文選IncMSE為度量標(biāo)準(zhǔn),等價于均方誤差;輸出結(jié)果如表11所示。

      表11 變量重要性和模型預(yù)測性能比較

      4 變量重要性排序

      基于3.2節(jié)的分析,分別列出多元線性回歸、LASSO回歸、隨機森林回歸對變量顯著性的度量指標(biāo),分別是:相對權(quán)重、變量系數(shù)和變量重要性(IncMSE);根據(jù)輸出結(jié)果,按照變量的重要性程度,為變量排序。同時對比以上三種模型在測試集上的均方誤差MSE和決定系數(shù)Rscore,其分別描述了模型的預(yù)測精度和擬合優(yōu)度,結(jié)果表明隨機森林回歸作為非參模型,較參數(shù)模型具有更好的泛化性能。

      在表11中,“.”代表該變量對應(yīng)的系數(shù)為0,即LASSO回歸模型未選擇該變量。綜合三種模型的排序結(jié)果,編劇水平、導(dǎo)演執(zhí)導(dǎo)水平和演員表現(xiàn)力是電影評分的最主要影響因素;并且相對于導(dǎo)演執(zhí)導(dǎo)水平和演員影響力,編劇水平對電影評分影響更大。這就說明了對于一部好的電影,大家更加關(guān)注電影整體情節(jié)是否精彩。

      模型結(jié)果還表明:大眾關(guān)注度高和電影中含有方言對評分影響是正向的,但其對最終評分的影響較為有限。此外,是否為聯(lián)合發(fā)行、電影時長變量對電影評分的影響不大。

      最后需要探討的是“電影類型”變量,從模型結(jié)果可以發(fā)現(xiàn)其對評分的影響似乎沒有文章開頭預(yù)想的那么大。重新查閱數(shù)據(jù)集后筆者思考出現(xiàn)這種情況的主要原因是:數(shù)據(jù)集中的電影類型為豆瓣官方自動生成,存在不能識別全部電影類型的可能。這就使得一部本來可以有六七種類別標(biāo)簽的影片,最終只顯示其主要類型(兩種以下);而有些影片,其類型相對完整,所得的類型評分也相對較高,如此就導(dǎo)致了電影類型變量在模型中的作用程度估計錯誤。

      5 結(jié)論

      本文首先利用特征工程方法為原始數(shù)據(jù)集中的定性變量賦值,從賦值結(jié)果來看,符合大眾預(yù)知。在模型變量選擇方面,盡量多地考慮到了影響電影評分的各方面因素,并選擇了合適的變量對相關(guān)特征進(jìn)行衡量。最終選用的三個模型中,隨機森林回歸模型效果最佳,建議研究者選用。

      最終結(jié)論表明:對電影評分進(jìn)行預(yù)測時,首先應(yīng)考慮編劇水平、導(dǎo)演執(zhí)導(dǎo)水平和演員表現(xiàn)力;并且應(yīng)賦予編劇水平較大的比重。建議未來的電影市場多多發(fā)現(xiàn)和創(chuàng)造優(yōu)秀的電影劇本,培養(yǎng)和鼓勵更多優(yōu)秀的編劇人才。對于電影創(chuàng)作團隊而言,在電影拍攝中更加注重如何講好電影故事,而非在名導(dǎo)光環(huán)、參演明星上下過多功夫,這點在流量明星評分不敵優(yōu)秀演員上已得到驗證。

      其次還需考慮電影的大眾關(guān)注度特征、語言特征和發(fā)行年份,大眾關(guān)注度高及電影中含有方言等其他元素對電影評分影響是正向的。對于新上映和未上映影片,可將“想看人數(shù)”作為大眾關(guān)注度的衡量指標(biāo)。相應(yīng)的,電影制片方和發(fā)行方在注重電影宣傳的同時,還需在影片細(xì)節(jié)、語言新意、多種元素引入等方面下功夫?,F(xiàn)今,大眾審美水平不斷提升、觀影口味愈發(fā)苛刻已經(jīng)是既定趨勢,這就要求電影工作者與時俱進(jìn),以更嚴(yán)格的標(biāo)準(zhǔn)去創(chuàng)作和審視一部作品。

      猜你喜歡
      變量預(yù)測特征
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      抓住不變量解題
      也談分離變量
      如何表達(dá)“特征”
      不忠誠的四個特征
      抓住特征巧觀察
      不必預(yù)測未來,只需把握現(xiàn)在
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      新巴尔虎左旗| 玉山县| 怀柔区| 泸定县| 东兰县| 喀喇沁旗| 瑞安市| 五大连池市| 黎平县| 拉萨市| 阿图什市| 武冈市| 治县。| 辽中县| 沽源县| 泸溪县| 敦化市| 泾川县| 朝阳县| 桂阳县| 恩平市| 柳林县| 故城县| 花莲县| 壶关县| 阳山县| 奉节县| 常熟市| 仙游县| 会同县| 闻喜县| 临沧市| 广汉市| 武隆县| 汝州市| 阜南县| 武山县| 科技| 大竹县| 广昌县| 曲周县|