• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用貝葉斯分類模型 實現(xiàn)對農村電影訂購場次的預測

      2021-05-24 07:43:14
      現(xiàn)代電影技術 2021年5期
      關鍵詞:場次貝葉斯類別

      (中央宣傳部電影數(shù)字節(jié)目管理中心,北京 100866)

      1 引言

      農村電影放映服務是我國公共文化體系建設的重要組成部分,近年來,農村電影市場穩(wěn)定發(fā)展,“十三五”期間有超過240家版權方持續(xù)在農村電影市場投放影片,實現(xiàn)累計影片訂購5044萬場。農村電影市場以其影片檔期長、社會效益高、影響面廣不斷吸引版權方拍攝、制作、投放影片進入農村市場。

      城市影院票房收入是衡量一部商業(yè)片是否成功的重要指標,關于城市票房影響因素和票房預測模型的研究有很多。而對于農村電影市場,訂購場次是衡量一部影片是否受歡迎的重要指標。

      貝葉斯算法通過獨立性假設,將高維問題轉換成多個一維問題,是目前公認的一種簡單而有效的概率分類方法,其性能可與決策樹和神經網絡等方法相媲美。本文通過分析影響農村電影訂購場次的各項特征因素,構建一種基于貝葉斯算法的農村電影訂購場次預測模型,以期能快速、準確地預測影片在農村電影市場上的表現(xiàn),給投資者提供合理的收益參考。

      2 貝葉斯分類模型

      2.1 貝葉斯定理

      貝葉斯方法的思想是當不能確定某一個事件發(fā)生的概率時,可以依靠與該事件本質屬性相關事件發(fā)生的概率去推測該事件發(fā)生的概率。在概率論中使用P (A)表示事件A 發(fā)生的概率,P (A∩B)表示事件A 和B同時發(fā)生的概率,P (B|A)表示事件A 已經發(fā)生的前提下事件B 發(fā)生的概率。P(A)稱為先驗概率,P (B|A)稱為條件概率,其計算公式如下:

      隨機試驗E的所有可能結果組成的集合稱為E的樣本空間,A 為樣本空間E中發(fā)生的一個事件,B、B、…B為樣本空間的一個劃分,且任何子樣本空間的交集為空并集為E,假定B、B、…B的概率P (B)>0 (i=1,2…n),那么對于事件A的全概率公式如下:

      通常情況下,P (B|A)與P (A|B)的概率是不同的,但二者卻有一定的聯(lián)系。在概率論中,兩個隨機事件A、B存在P (A∩B)=P (B∩A),利用公式(1)和公式(2)可得到公式(3):

      2.2 貝葉斯分類

      貝葉斯分類是基于貝葉斯定理和假定給定樣本目標值屬性之間相互條件獨立的分類方法。貝葉斯分類可分為兩步,第一步是分別計算所給定樣本實例在不同類別下的后驗概率,第二步是比較各類別下后驗概率的大小,判定后驗概率最大的類別為該樣本實例的類別。

      假定B 為樣本屬性 (影片特征屬性)的集合,共計有n 個屬性,分別用B、B、…B代表,各類屬性相互條件獨立;樣本類別集合 (影片訂購場次分類)用C 表示,共分為k個類,即C={C、C、…C}。假設樣本實例X (某部電影)為一個n維向量,X={x、x、…x},其中x、x、…x表示實例的n個屬性值,x為屬性B的具體取值。則對于樣本X 屬于類別C的后驗概率P (C|X)可表示為:

      為了降低計算復雜性,已經假定了樣本各類屬性相互條件獨立,即:

      式中,x表示X 在第j個屬性上的取值。P(X)表示樣本X 發(fā)生的概率,是標準化常量,在所有類別下數(shù)值相同,在實際應用中只需要計算式(6)的分子部分求取最大值。根據貝葉斯分類相關知識,樣本X 的類別會被判定為具有最大后驗概率所對應的類別,設c(X)為樣本X 的最終判定類別,則貝葉斯分類的表達式可以簡化為:

      通過式(7)可以計算影片在不同訂購場次類別下的后驗概率來達到預測場次分類的目的。針對本文應用場景,式(7)中各項概率的具體計算方式如下:

      (1)先驗概率P (C)=S/S,其中S為訓練樣本數(shù)據集總樣本數(shù)量,S為訓練樣本中訂購場次類別標簽為C的樣本數(shù)量;

      (2)影片各項特征屬性數(shù)據是離散型的,不是連續(xù)型的,則條件概率P (x│C)=S/ S,其中S表示在訂購場次類別為C的訓練樣本中影片特征屬性B=x的樣本數(shù)量。如“影片訂購場次”為“高場次”的類別下共有100部影片樣本,其中“影片單價”的特征屬性“超過80元”的樣本數(shù)量有10部影片,那么條件概率P (影片單價=超過80元│訂購場次=高場次)=10/100。

      需要注意的是,如果出現(xiàn)x的樣本個數(shù)是0,即S=0的情況,根據式(7)不論其它特征屬性值如何,那么對于類別C的選擇概率值都會是0。還以“影片單價”為例,假定“影片單價”的特征屬性“超過80元”的“影片訂購場次”的類別“高場次”的樣本數(shù)是0,那不論該影片的國別、片長、類型等其它屬性如何,P (訂購場次=高場次|影片單價=超過80元,影片其它特征值)=0。為避免這種情況,可采用“拉普拉斯修正”進行“平滑”處理,計算公式如下:

      灰色關聯(lián)法是屬于灰色系統(tǒng)理論中的一種動態(tài)分析方法,其基本思想是通過比較各研究對象呈現(xiàn)的空間形態(tài)來判斷它們之間的關聯(lián)程度?;疑P聯(lián)法的優(yōu)點是可以通過有限的樣本數(shù)據推斷出模糊的相互關系,對數(shù)據庫的要求不高,計算過程清晰簡捷,也能通過Matlab軟件編程實現(xiàn)大數(shù)據分析。其計算步驟如下:

      式中,N表示影片特征屬性B=x下可能的取值個數(shù),如“影片單價”的特征屬性取值包括“10元以內/10-30元/30-80元/80元以上”,那么此時的N=4。

      3 訂購場次預測的干擾變量

      (1)影片檔期

      不同影片的檔期時長不一樣,城市影院影片檔期一般為一個月左右,而農村電影市場影片檔期基本按“年”計,2020年新簽約影片超過400部,平均檔期時長約為5.5年。檔期結束后,有大量影片以續(xù)簽檔期方式繼續(xù)活躍在農村電影市場。影片檔期的長短對影片訂購場次有較大影響,為保證預測條件的一致性,需要排除影片檔期時長不同的干擾。

      (2)主題放映活動

      電影數(shù)字節(jié)目管理中心每年會組織開展多場不同主題的放映活動,活動中會根據當期主題內容進行影片推薦。主題放映活動面向全國,影響力大,對影片訂購場次有極大推動作用,如2019年舉辦的《“我和我的祖國”慶祝新中國成立70周年公益電影主題放映活動》共推薦了10部影片,當期累計訂購場次超過51萬場。鑒于主題放映活動對于影片訂購場次的高推動作用,所推薦影片不在本文研究范疇。

      (3)影片片種

      目前,“電影數(shù)字節(jié)目交易平臺”提供故事片、科教片、戲曲片、紀錄片及美術片五類片種。每類片種的影片特征屬性側重點不同,如科教片側重于內容題材及宣傳要點、戲曲片要重點考慮戲曲曲種等因素。為簡化訂購場次預測模型,本文只討論對于故事片片種的場次預測。

      4 訂購場次預測模型

      基于貝葉斯分類模型的農村電影訂購場次預測可分為準備階段、訓練階段、應用階段三部分,其中準備階段是指排除預測干擾因素獲得訓練樣本并確定影響訂購場次的影片特征屬性,訓練階段是指求解各類別、各特征屬性的先驗概率及條件概率,應用階段是指計算各訂購場次類別的后驗概率獲得訂購場次預測,算法流程見圖1。

      圖1 算法流程圖

      4.1 影片特征屬性的確定

      電影本身的特征屬性較多,如導演、演員、口碑、制式、國別、題材等,本文根據農村電影放映工作特點,選取影響影片訂購場次的6個重要因素納入模型,具體說明見表1。

      表1 影片特征屬性說明

      4.2 訓練樣本的確定

      根據本文第3節(jié)描述,對于訂購場次預測的干擾項包括影片檔期、主題放映活動和影片片種,為保證預測準確度,訓練樣本的選擇需遵循以下原則:

      (1)對影片檔期歸一化處理。每部影片上映時間不同、影片檔期時長也不相同,針對每部影片選擇該影片首個檔期開始之日起一年內的訂購場次進行訓練和測試,區(qū)間之外的訂購場次不予統(tǒng)計;

      (2)避開主題放映推薦影片。選擇在檔期計算時間內沒有被各類主題放映推薦過的影片,保證影片計算的一致性;

      (3)針對影片片種問題,本文僅對故事片片種進行研究。

      5 結果分析

      5.1 實驗數(shù)據集

      根據本文4.2節(jié),選用“電影數(shù)字節(jié)目交易平臺”2017-2020 年新供應的故事片數(shù)據集進行實驗,此數(shù)據集包括500 個訓練樣本和50 個測試樣本,數(shù)據集統(tǒng)計信息見表2。

      表2 實驗數(shù)據集分析

      農村電影訂購場次與城市院線票房相似,屬于金字塔結構,訂購場次很高的影片數(shù)量相對較少。本文根據訓練數(shù)據集影片訂購場次實際情況,依照50%、30%、15%、5%的分割比例將影片訂購場次類別劃分為A、B、C、D 4類,分類統(tǒng)計信息見表3。

      表3 訂購場次類別劃分信息

      5.2 模型訓練

      訓練樣本數(shù)據統(tǒng)計如表4 所示,根據本文2.2節(jié),計算得到先驗概率P(C) 和條件概率P (x│C)如表5所示。

      表4 訓練樣本數(shù)據統(tǒng)計

      表5 訓練樣本先驗概率和條件概率

      5.3 模型評估

      圖2 模型預測結果

      將50個測試樣本數(shù)據按照訓練得到的貝葉斯模型重新計算分析,實驗結果如圖2所示??梢钥闯?有39個樣本數(shù)據的預測分類與真實分類一致,其中模型對于A 類樣本和D 類樣本的預測最為準確,即影片是否能獲得較高及較低場次有較好的預測準確率,B類樣本和C類樣本的預測結果與樣本實際分布相比存在一定的預測漂移。模型綜合預測準確率為78%,預測模型有效。同時從訓練模型先驗概率和條件概率可以看到,定價不超過20元的國產新片訂購場次較高,片長適中的影片更適宜農村觀眾和觀影環(huán)境,從影片題材上看,帶有動作、喜劇、軍事、犯罪等情節(jié)的影片更受到農村觀眾的歡迎。另外,從本文實驗中也能看出貝葉斯分類模型的優(yōu)點比較明確,樣本訓練計算復雜度低、分類效率較高;模型結構簡單、便于理解,能很好地提供決策建議。

      6 結語

      文章通過分析影響農村電影市場影片訂購場次的明顯特征因素,將機器學習相關理論應用于農村電影訂購場次的預測,構建了一套適用于農村電影市場的訂購場次預測模型,實驗效果較為良好。下一步將繼續(xù)優(yōu)化算法,完善影片特征屬性集,實現(xiàn)對于影片訂購場次具體數(shù)量的預測。?

      猜你喜歡
      場次貝葉斯類別
      長江上游高洪水期泥沙輸移特性
      基于運行場次用時誤差的載人設備故障預警可視化研究
      排考場次分配方法及其SQL實現(xiàn)
      貝葉斯公式及其應用
      基于貝葉斯估計的軌道占用識別方法
      服務類別
      新校長(2016年8期)2016-01-10 06:43:59
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      地鐵觀影指南
      電影故事(2015年33期)2015-09-06 01:05:30
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      泗水县| 璧山县| 分宜县| 永仁县| 东方市| 廉江市| 民丰县| 兰州市| 通州市| 武胜县| 河北省| 阿克苏市| 徐汇区| 柳江县| 宕昌县| 绥中县| 固始县| 泸水县| 云霄县| 云阳县| 伊春市| 来凤县| 罗江县| 鸡泽县| 克什克腾旗| 阳朔县| 民和| 天气| 皮山县| 龙海市| 青阳县| 乐清市| 大丰市| 大田县| 抚松县| 孝义市| 鄂伦春自治旗| 泰兴市| 海宁市| 天祝| 关岭|