周澤先
(吉林大學(xué),吉林長(zhǎng)春 130000)
所謂自動(dòng)化機(jī)器學(xué)習(xí)(AutoML,Automatic machine learning),指的是通過處理已有數(shù)據(jù)、經(jīng)過自動(dòng)調(diào)參,針對(duì)目標(biāo)更方便地選擇最優(yōu)算法,從而省去復(fù)雜的工作,極大地促進(jìn)了機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域的應(yīng)用。本文旨在通過對(duì)電子游戲進(jìn)行分類和回歸算法,在挖掘電子游戲的用戶評(píng)價(jià)、媒體評(píng)價(jià)和市場(chǎng)銷售三者之間聯(lián)系的同時(shí),展現(xiàn)不同平臺(tái)(EasyDL、Google Cloud、Azure)自動(dòng)化機(jī)器學(xué)習(xí)的情況。
游戲產(chǎn)業(yè)作為當(dāng)今價(jià)值百萬的巨大產(chǎn)業(yè),漸漸成為一股不容小覷的力量。它已經(jīng)深入人們的生活。根據(jù)市場(chǎng)研究機(jī)構(gòu)Newzoo 的報(bào)告[1],2021 年游戲產(chǎn)業(yè)展現(xiàn)出了驚人的體量,甚至超過了1800億美元,即便在疫情的陰影下,依舊呈現(xiàn)出強(qiáng)勁的發(fā)展勢(shì)頭。同其他產(chǎn)業(yè)一樣,觀眾的偏好是一個(gè)影響產(chǎn)品成功的重要因素,而銷量,則是其影響力的重要標(biāo)志。因此筆者對(duì)于游戲產(chǎn)業(yè)的分析也圍繞產(chǎn)業(yè)和銷量展開。
本文中,筆者準(zhǔn)備了三個(gè)數(shù)據(jù)集分別在EasyDL、Google Cloud、Azure三個(gè)平臺(tái)上進(jìn)行模型訓(xùn)練。其中分類訓(xùn)練使用了兩個(gè)數(shù)據(jù)集。而用于回歸算法的數(shù)據(jù)集則加入了市場(chǎng)銷售的要素。
目前,EasyDL、Google Cloud、Azure 是相對(duì)重要的三個(gè)自動(dòng)機(jī)器學(xué)習(xí)平臺(tái)。EasyDL 從2019 到2020 年在中國(guó)機(jī)器學(xué)習(xí)平臺(tái)占據(jù)主要份額。而Google Cloud作為國(guó)內(nèi)機(jī)器學(xué)習(xí)市場(chǎng)份額較大且具有自動(dòng)調(diào)參功能的平臺(tái),在國(guó)外市場(chǎng)中具有不可或缺的位置。Azure 跟Google Cloud 一樣是基于云處理的機(jī)器學(xué)習(xí)平臺(tái),但與前者運(yùn)用了完全不同的技術(shù)。
EasyDL 采用了遷移學(xué)習(xí)技術(shù)[2],也就是說不重新搭建模型,而是去尋找已有訓(xùn)練中相似的情況。這樣就大大節(jié)約了時(shí)間。Azure還用自動(dòng)混合精度訓(xùn)練來降低硬件要求。
Azure 平臺(tái)上主要應(yīng)用概率矩陣分解(PMF,Probabilistic Matrix Factorization)和貝葉斯優(yōu)化技術(shù)[3]。實(shí)際上是將特征和目標(biāo)通過矩陣匹配,并用線性組合來描述兩者間的關(guān)系。在實(shí)驗(yàn)中發(fā)現(xiàn)Azure 對(duì)于某些數(shù)據(jù)集進(jìn)行回歸,R2 Score 會(huì)出現(xiàn)負(fù)數(shù),而其他平臺(tái)則不會(huì),這或許跟Azure 這種默認(rèn)線性關(guān)系的特點(diǎn)有關(guān)。至于貝葉斯優(yōu)化方法,它在建立概率模型時(shí),參考之前的結(jié)果,選出最有可能的超參數(shù),從而大大節(jié)省了時(shí)間。
Google Cloud AutoML 通過神經(jīng)網(wǎng)絡(luò)搜索模型(NAS,Neural Architecture Search)來探索數(shù)據(jù)集的特點(diǎn)[4],結(jié)合策略梯度加以引導(dǎo),輔以分布式訓(xùn)練等方法縮短訓(xùn)練模型的時(shí)間。也就是說,Google Cloud AutoML 不從特征列入手,而從循環(huán)神經(jīng)網(wǎng)絡(luò)得出的子網(wǎng)絡(luò)開始,這點(diǎn)與Azure 平臺(tái)不同。循環(huán)神經(jīng)網(wǎng)絡(luò)的特點(diǎn)在于當(dāng)前結(jié)果與之前的結(jié)果相關(guān)。
筆者的實(shí)驗(yàn)分別應(yīng)用分類算法和回歸算法,并根據(jù)其算法特點(diǎn)篩選數(shù)據(jù)。
分類,即根據(jù)所給數(shù)據(jù),提煉對(duì)象的特點(diǎn),從而使機(jī)器能夠判斷新的數(shù)據(jù)的類別。這里以用戶評(píng)分為目標(biāo),通過游戲的其他特點(diǎn)來得出一個(gè)游戲是否能令用戶滿意。
回歸,指的是通過提煉各個(gè)變量之間的聯(lián)系并建立模型,從而達(dá)到通過所給條件,預(yù)測(cè)某一特定情形的目的。與分類不同的是,分類得出的結(jié)果是一種判斷,即一個(gè)對(duì)象是什么。而回歸的結(jié)果則以真實(shí)情況為標(biāo)準(zhǔn),力求減少模型結(jié)果與真實(shí)情況的誤差?;貧w模型的建立可以幫助預(yù)測(cè)游戲用戶的滿意程度。在這一過程中,還可以分析游戲評(píng)分與各地區(qū)銷量、發(fā)售平臺(tái)和游戲類型的關(guān)系。
2.1.1 數(shù)據(jù)來源
對(duì)于分類算法,本文準(zhǔn)備了兩組數(shù)據(jù)。分別是評(píng)論網(wǎng)站Metacritic上2011年和2019年第八世代游戲機(jī)上的電子游戲信息,和2000 年到2021 年所有平臺(tái)上電子游戲的信息,記為“數(shù)據(jù)集1”和“數(shù)據(jù)集2”。具體包括游戲的基本信息和游戲的整體媒體評(píng)分和用戶評(píng)分,以及各自正面、負(fù)面、中性的打分人數(shù)。
兩組數(shù)據(jù)相比,因?yàn)楹笳邥r(shí)間上范圍更廣,涉及平臺(tái)更多,因此數(shù)據(jù)量更大。另一方面,因?yàn)橛脩舻脑u(píng)論是動(dòng)態(tài)的,所以兩組數(shù)據(jù)內(nèi)容上也有所不同。本文設(shè)置兩種數(shù)據(jù),分別考察數(shù)據(jù)集不同時(shí)的模型情況。
2.1.2 數(shù)據(jù)預(yù)處理和定義特征
首先,為了保證模型準(zhǔn)確性,不受其他因素干擾,將原始數(shù)據(jù)集中的無關(guān)信息剔除,最終留下15 個(gè)特征。如表1 所示,這些大致可以分為游戲基本信息、媒體評(píng)分情況和用戶評(píng)分情況三種,分別是:游戲名、發(fā)售平臺(tái)、開發(fā)商、發(fā)售日期、游戲類型、游戲分級(jí)、玩家數(shù)量;媒體評(píng)分和好、中、差三種評(píng)論數(shù);用戶評(píng)分和好、中、差三種評(píng)論數(shù)。
表1 用于分類的處理后數(shù)據(jù)集特征列
其次,因?yàn)镸etacritic 網(wǎng)站上的整體游戲評(píng)分從0 到10 不等。為了能使數(shù)據(jù)符合分類算法離散性的要求,這里將用戶評(píng)分這一目標(biāo)列按其眾數(shù),并結(jié)合一般評(píng)分習(xí)慣劃分為推薦、不推薦、中性三類。筆者注意到,盡管10分制的打分習(xí)慣上以5分或6分為分界線,但實(shí)際上5分以下的評(píng)論,在第一個(gè)數(shù)據(jù)集中只占總評(píng)論數(shù)的9%,而在第二個(gè)數(shù)據(jù)集占17%。而兩個(gè)數(shù)據(jù)集7.5分均為整體評(píng)分的眾數(shù),分別為2858個(gè)和1833個(gè)。這就說明得到7.5分以上的評(píng)分是相對(duì)少有的、優(yōu)秀的作品。因此,這里將7.5分及以上設(shè)為“推薦”游戲。由圖1所示,兩組數(shù)據(jù)的評(píng)分集中在6~8分,據(jù)此筆者將6分及以下設(shè)為“不推薦”。
圖1 數(shù)據(jù)集1和數(shù)據(jù)集2的用戶評(píng)分比較情況
再次,需要注意的是,原始數(shù)據(jù)集中存在部分?jǐn)?shù)據(jù)缺失,比如某些小眾游戲評(píng)論過少因此沒有用戶評(píng)分或者媒體評(píng)分。由于各大AutoML 平臺(tái)均具有數(shù)據(jù)清洗的功能,且缺失數(shù)據(jù)占比較小,這里不再進(jìn)行處理。
2.2.1 數(shù)據(jù)來源和預(yù)處理
對(duì)于回歸算法,我們?cè)噲D通過電子游戲的媒體評(píng)分,結(jié)合銷量情況,來預(yù)測(cè)用戶評(píng)分。電子游戲的銷量情況來自網(wǎng)站VGChartz,評(píng)分情況來自網(wǎng)站Metacritic。具體來說,銷量分為北美地區(qū)、歐洲、日本和其他地區(qū)三種情況。而Metacritic 上的數(shù)據(jù)內(nèi)容,分類的數(shù)據(jù)來源部分已經(jīng)介紹,這里不再贅述。筆者以用戶評(píng)分為目標(biāo)列,具體特征列見表2。
表2 用于回歸算法的數(shù)據(jù)集3的特征列
時(shí)間跨度上,原本筆者打算對(duì)2017、2019、2020年的銷量情況進(jìn)行考察。但在實(shí)驗(yàn)中,筆者發(fā)現(xiàn)2019和2020年的實(shí)驗(yàn)結(jié)果顯示的關(guān)聯(lián)性特別弱,EasyDL 平臺(tái)的r2 score 分別為0.272 和0.135,而Azure平臺(tái)R2 Score小于零(如表3所示),但2017年的數(shù)據(jù)情況則相對(duì)正常。也是說,對(duì)于2019和2020年的實(shí)驗(yàn)近乎是無意義實(shí)驗(yàn)。通過對(duì)2019和2020的數(shù)據(jù)集進(jìn)行分析,筆者發(fā)現(xiàn),兩個(gè)數(shù)據(jù)集中同時(shí)具有完整評(píng)分情況和銷售情況的電子游戲不超過500個(gè),均不到整體的10%。而2020年符合要求的比2019年更少,這就可以解釋為什么2020年的實(shí)驗(yàn)結(jié)果更差。
表3 2019和2020電子游戲評(píng)分和銷量數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
因此,筆者決定僅對(duì)1976 到2017 的電子游戲媒體評(píng)分和銷量情況進(jìn)行具體考察,記為“數(shù)據(jù)集3”。同時(shí)這也從側(cè)面說明,目前的自動(dòng)機(jī)器學(xué)習(xí)平臺(tái)雖然可以接受無監(jiān)督學(xué)習(xí)的情況,允許數(shù)據(jù)集存在部分缺失,但如果要得到較好的實(shí)驗(yàn)結(jié)果,仍要求大部分?jǐn)?shù)據(jù)集是完整的。從電子游戲市場(chǎng)分析的方面看,近些年部分游戲銷量和評(píng)論的缺失,可能說明一個(gè)電子游戲的銷售需要數(shù)年的積累。或者可以結(jié)合獨(dú)立游戲和小眾風(fēng)格越來越多的情況,這些游戲往往缺乏正式的商業(yè)的宣傳和媒體的關(guān)注。
除此之外,筆者注意到Google Cloud 在回歸算法上對(duì)數(shù)據(jù)要求更嚴(yán)格,需要保證目標(biāo)列不能有缺失。筆者以用戶評(píng)分為目標(biāo)列,因此通過EasyDataTransform來去除原始數(shù)據(jù)集中用戶評(píng)分缺失的列。
2.2.2 模型訓(xùn)練
在分類算法上,筆者分別將數(shù)據(jù)集1 和數(shù)據(jù)集2 在Easy-DL、Google Cloud、Azure三個(gè)平臺(tái)上運(yùn)行,并對(duì)比不同自動(dòng)機(jī)器學(xué)習(xí)平臺(tái)得出的結(jié)果。不同平臺(tái)本質(zhì)上是不同的模型訓(xùn)練方法。但三者都是先生成數(shù)個(gè)模型,然后選擇最優(yōu)的模型。其中Google Cloud 和Azure 平臺(tái)會(huì)將其他模型的效果也呈現(xiàn)在結(jié)果中。回歸算法上,將數(shù)據(jù)集3也在上述3個(gè)平臺(tái)進(jìn)行運(yùn)行,綜合評(píng)價(jià)數(shù)據(jù)結(jié)果,并對(duì)比不同平臺(tái)下的訓(xùn)練效果。
另外,Azure 平臺(tái)需要用戶自己選擇配置,筆者選擇的是4核CPU,28GB內(nèi)存的機(jī)器。
3.1.1 分類算法的模型評(píng)估
分類算法上,筆者通過F1-score、精確率(Precision)、召回率(Recall)和運(yùn)行時(shí)間來評(píng)估。
其中,精確率(Precision)指實(shí)際上為正占被判定為正的比例。以EasyDL 對(duì)于數(shù)據(jù)集1 的混淆矩陣為例,數(shù)值1 表示“推薦”類型的游戲,數(shù)值0表示“中性”,數(shù)值-1表示“不推薦”。就劃分為“推薦”的電子游戲來說,(1,1)為實(shí)際上為正且判定也為正(公式上寫為TP),(1,1)、(0,1)、(-1,1)之和表示被判定為正類(公式上寫為TP+FP)。精確率用來表示對(duì)于某一樣本預(yù)測(cè)的準(zhǔn)確程度。
表4 EasyDL對(duì)于數(shù)據(jù)集1生成模型的混淆矩陣
召回率(Recall)指被判定為正占所有實(shí)際上是正的比例。同樣以圖2 為例,就劃分為“推薦”的電子游戲來說,(1,1)為TP即實(shí)際上為正且判定也為正,(1,1)、(1,0)、(1,-1)之和為所有實(shí)際上為正的情況(公式上寫為TP+FN)。召回率表示對(duì)某一項(xiàng)判定的全面程度。
F1-score 表示精確率和召回率的調(diào)和平均數(shù),其值越高表示模型越好。
運(yùn)行時(shí)間表示訓(xùn)練開始運(yùn)行,直到得出最優(yōu)模型所用的所有時(shí)間。
3.1.1 回歸算法的模型評(píng)估
回歸算法上,筆者通過平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)、均方誤差(MSE)和R2 Score來評(píng)估模型效果。
平均絕對(duì)誤差(MAE)表示預(yù)測(cè)值減去真實(shí)值結(jié)果的絕對(duì)值,進(jìn)行累加再除以項(xiàng)數(shù)。越接近0,表示模型效果越好。
平均絕對(duì)百分比誤差(MAPE)表示預(yù)測(cè)值減去真實(shí)值的結(jié)果,除以真實(shí)值之后的絕對(duì)值,進(jìn)行累加再除以項(xiàng)數(shù),再乘100%。越接近0越好,超過1則意味著模型極差。
均方誤差(MSE)表示預(yù)測(cè)值減真實(shí)值結(jié)果的平方,進(jìn)行累加再除以項(xiàng)數(shù),與上述相同,值越小越好。
R2 Score 表示自變量能通過回歸關(guān)系解釋因變量的程度,通常越接近1越好,當(dāng)小于0時(shí)表示模型選擇不當(dāng)。
3.2.1 用于分類的實(shí)驗(yàn)
由表5可以看出,以電子游戲基本信息和媒體評(píng)分以及正面負(fù)面及中性評(píng)論數(shù)為特征列,可以有效建立將電子游戲分成對(duì)于用戶“推薦”“不推薦”和“中性”的模型。其中EasyDL 和Azure的F1-score均在70%以上,而Google Cloud的值均在69%左右。精準(zhǔn)率上,三個(gè)平臺(tái)的結(jié)果不相上下,而Google Cloud的召回率略低。訓(xùn)練時(shí)間上看,EasyDL的訓(xùn)練時(shí)間最短,而Azure和Google Cloud 用時(shí)依次增加,也就是說基于云處理的自動(dòng)機(jī)器學(xué)習(xí)速度更慢。另一方面,這也可能與EasyDL 所用的遷移技術(shù)和自動(dòng)混合精度訓(xùn)練對(duì)其速度的提升有關(guān)。
表5 分類算法模型結(jié)果
具體來看,就數(shù)據(jù)集1 而言,EasyDL 構(gòu)建模型時(shí)前4 個(gè)重要特征是媒體評(píng)分、中立媒體評(píng)論數(shù)、開發(fā)商和游戲名。而Azure的前4個(gè)重要特征是正面用戶評(píng)論數(shù)、負(fù)面用戶評(píng)論數(shù)、媒體評(píng)分和正面媒體評(píng)論數(shù)。Google Cloud 前4個(gè)重要特征是正面用戶評(píng)論數(shù)、負(fù)面用戶評(píng)論數(shù)、發(fā)布平臺(tái)和媒體評(píng)分。
至于數(shù)據(jù)集2,EasyDL 構(gòu)建模型時(shí)前4 個(gè)重要特征是媒體評(píng)分、多人游戲類型、游戲類型和正面媒體評(píng)論數(shù)。而Azure的前4 個(gè)重要特征是媒體評(píng)分、正面媒體評(píng)論數(shù)、正面用戶評(píng)論數(shù)和中立用戶評(píng)論數(shù)。Google Cloud 前4個(gè)重要特征是正面用戶評(píng)論數(shù)、負(fù)面用戶評(píng)論數(shù)、正面媒體評(píng)論數(shù)和發(fā)布平臺(tái),而媒體評(píng)分則是其第五個(gè)重要特征。
根據(jù)以上影響各個(gè)模型的重要特征,可以看出媒體評(píng)分在兩個(gè)數(shù)據(jù)集各個(gè)模型中均發(fā)揮重要作用。由此可以推測(cè),用戶評(píng)分與媒體評(píng)分有一定的關(guān)聯(lián)性。從大眾社會(huì)理論的角度看,這一關(guān)聯(lián)可以解釋為大眾的觀感相對(duì)容易被媒體或少數(shù)群體所控制。
3.2.2 用于回歸的實(shí)驗(yàn)
由表6 可以看出,以電子游戲基本信息、媒體評(píng)分和全球及各區(qū)域銷售情況為列,預(yù)測(cè)用戶評(píng)分情況,可以建立效果一般的模型。三個(gè)平臺(tái)的R2 Score均略大于0.5,表明此模型效果不差,但并不優(yōu)秀。其中Google Cloud 的R2 Score 的值最大。另一方面,從表5其他幾項(xiàng)和平均絕對(duì)百分比誤差(MAPE)可以看出,模型盡管關(guān)聯(lián)性較低,但誤差較小。
表6 數(shù)據(jù)集3分類算法模型結(jié)果
結(jié)合三個(gè)平臺(tái)重要特征來看,三個(gè)平臺(tái)的第一重要特征均是媒體評(píng)分。這再次印證了媒體評(píng)分與用戶評(píng)分的關(guān)聯(lián)性。至于市場(chǎng)銷量,在EasyDL平臺(tái)中,北美銷量、歐洲銷量、日本銷量則分別占據(jù)第2至第4重要性。但其他兩個(gè)平臺(tái)生成的模型中,市場(chǎng)與用戶評(píng)分的關(guān)聯(lián)則微乎其微。在Google Cloud 生成的模型中,北美銷量稍微起到了一定作用??紤]到三個(gè)模型中Google Cloud 的模型更好,這說明市場(chǎng)存在與用戶評(píng)分的可能性,但關(guān)聯(lián)不強(qiáng)。
總的來說,就數(shù)據(jù)內(nèi)容上看,實(shí)驗(yàn)說明電子游戲的用戶評(píng)分和媒體評(píng)分關(guān)聯(lián)較大,市場(chǎng)銷量與游戲評(píng)分沒有必然聯(lián)系。從EasyDL、Google Cloud、Azure 三個(gè)自動(dòng)學(xué)習(xí)平臺(tái)的訓(xùn)練成果來看,EasyDL的訓(xùn)練速度整體上更快;Google Cloud對(duì)于數(shù)據(jù)要求更嚴(yán)格,在數(shù)據(jù)較完整的情況下表現(xiàn)較好,更容易受數(shù)據(jù)缺失影響。從模型的特點(diǎn)上看,Google Cloud和Azure的模型重要特征相似度更高,而EasyDL的模型雖然性能表現(xiàn)較好,但與其他兩種的模型重要特征差別較大。