• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的動(dòng)漫影評(píng)特征挖掘與應(yīng)用

      2020-08-04 11:23:18張煦渤張莉
      數(shù)碼世界 2020年7期
      關(guān)鍵詞:深度學(xué)習(xí)

      張煦渤 張莉

      摘要:隨著互聯(lián)網(wǎng)的發(fā)展和近年來(lái)中國(guó)電影的崛起,中國(guó)用戶(hù)越來(lái)越習(xí)慣于在豆瓣、貓眼一類(lèi)的影評(píng)論壇或平臺(tái)上發(fā)布自己的觀影感受,并對(duì)電影進(jìn)行打分。這些評(píng)論中隱藏著大量的用戶(hù)偏好等信息。而若想對(duì)這些隱含信息進(jìn)行獲取,需要對(duì)影評(píng)特征進(jìn)行進(jìn)一步分析。基于此,本文通過(guò)Python對(duì)貓眼網(wǎng)站中“動(dòng)漫電影”分類(lèi)下面的影評(píng)及其得分等數(shù)據(jù)進(jìn)行爬取,并將所得文本數(shù)據(jù)進(jìn)行整理,通過(guò)jieba分詞和word2vec等方法對(duì)影評(píng)特征進(jìn)行分析;之后,根據(jù)影評(píng)的主體內(nèi)容,側(cè)重于其情感特征進(jìn)行挖掘,將清洗過(guò)后的結(jié)構(gòu)化數(shù)據(jù)帶入基于RNN的深度學(xué)習(xí)模型中,以用戶(hù)評(píng)分作為其影評(píng)情感特征的體現(xiàn);然后,通過(guò)隨機(jī)游走對(duì)模型進(jìn)行優(yōu)化,再進(jìn)行模型效用對(duì)比,得到動(dòng)漫影評(píng)情感特征的預(yù)測(cè)模型,并對(duì)其應(yīng)用場(chǎng)景予以分析。

      關(guān)鍵詞:深度學(xué)習(xí)? 動(dòng)漫影評(píng)? 特征挖掘

      1 引言

      隨著我國(guó)經(jīng)濟(jì)的不斷發(fā)展和人們生活水平的日益提高,電影作為一種娛樂(lè)消費(fèi)品,已成為國(guó)人生活中不可或缺的一部分,觀眾在養(yǎng)成觀影習(xí)慣的同時(shí),越來(lái)越熱衷于將自己的觀影感受和想法分享到互聯(lián)網(wǎng)上,國(guó)內(nèi)的豆瓣、貓眼等影評(píng)匯總平臺(tái)也由此越來(lái)越受人們的關(guān)注。而在眾多電影分類(lèi)中,動(dòng)漫電影作為電影行業(yè)中的一個(gè)重要成員,從其誕生以來(lái),許多動(dòng)漫角色深入人心,其影評(píng)中亦包含著大量潛在信息,包括電影的口碑、用戶(hù)的的觀影偏好等等。若想對(duì)這部分潛在信息進(jìn)行獲取,就不得不對(duì)其影評(píng)的特征進(jìn)行針對(duì)性的分析。

      2 基于RNN深度學(xué)習(xí)的動(dòng)漫影評(píng)特征分析

      2.1 數(shù)據(jù)獲取及預(yù)處理

      本文以貓眼移動(dòng)端網(wǎng)頁(yè)版影評(píng)為數(shù)據(jù)源,選取其動(dòng)漫電影分類(lèi)中所有可見(jiàn)平均得分的電影影評(píng)為實(shí)驗(yàn)對(duì)象,同時(shí)考慮了影評(píng)評(píng)論時(shí)間的篩選。

      首先在Chrome開(kāi)發(fā)者模式下可以通過(guò)對(duì)網(wǎng)絡(luò)請(qǐng)求的查詢(xún)獲取貓眼數(shù)據(jù)的API,其接口結(jié)構(gòu)為:

      在具體抓取某一部電影的影評(píng)時(shí),只需將其中的movieId替換對(duì)對(duì)應(yīng)的電影編號(hào)即可。同時(shí),還需注意影評(píng)列表的開(kāi)始時(shí)間等參數(shù)。

      將獲取的json文件進(jìn)行解析,即可得到對(duì)應(yīng)影評(píng)的用戶(hù)ID、打分、地理位置、評(píng)論內(nèi)容等有效信息。之后,將解析后的無(wú)效信息予以剔除,共計(jì)63條,有效信息214424條。

      將評(píng)論按照用戶(hù)地域進(jìn)行分組,通過(guò)pyecharts可視化后可得到樣本數(shù)據(jù)用戶(hù)地域分布如下圖。

      從圖中不難看出,樣本用戶(hù)主要分布于東南沿海一帶和華北地區(qū),其次是東北地區(qū),少量位于西北內(nèi)陸。這主要是因?yàn)闁|南沿海和華北一些地區(qū)經(jīng)濟(jì)相對(duì)發(fā)達(dá),城市人口基數(shù)龐大,極多的熒幕數(shù)量和座位、極高密度的排片場(chǎng)次,讓觀眾便捷觀影,活躍的觀眾評(píng)論也多,自然也就成為票房的主要貢獻(xiàn)者。

      我們整理了樣本數(shù)據(jù)中影評(píng)數(shù)量排名前20的城市,分別為北京、上海、武漢、南京、成都、深圳、西安、廣州、天津、重慶、鄭州、杭州、沈陽(yáng)、無(wú)錫、合肥、昆明、哈爾濱、常州、長(zhǎng)沙、蘇州。這些城市都是經(jīng)濟(jì)相對(duì)發(fā)達(dá)的城市,從某種角度來(lái)講,這也側(cè)面反映了城市的購(gòu)買(mǎi)力和城市GDP,說(shuō)明其消費(fèi)水平較高,也印證了用戶(hù)分布圖中所得出的結(jié)論。

      2.2 word2vec提取詞向量

      為了在深度學(xué)習(xí)模型中更好的表示影評(píng)的文本數(shù)據(jù),需將影評(píng)文本進(jìn)行詞向量化表示,基于此本文選擇python中的gensim模塊訓(xùn)練詞向量。由于所抓取的貓眼影評(píng)數(shù)據(jù)為中文影評(píng),所以需要一個(gè)符合中文語(yǔ)料庫(kù)的word2vec模型,以完成對(duì)影評(píng)數(shù)據(jù)的詞向量獲取。因此,為了更好地描述影評(píng)詞語(yǔ)特征,本文直接選取貓眼影評(píng)作為訓(xùn)練數(shù)據(jù),采用Skip-Gram模型進(jìn)行訓(xùn)練。訓(xùn)練參數(shù)如下表所示,訓(xùn)練維度為64,迭代次數(shù)為5次。

      在對(duì)抓取的影評(píng)數(shù)據(jù)進(jìn)行表情符號(hào)剔除和去停用詞等操作之后,將其輸入word2vec進(jìn)行訓(xùn)練,得到模型測(cè)試結(jié)果如下表,由于訓(xùn)練數(shù)據(jù)為影評(píng)數(shù)據(jù),語(yǔ)料庫(kù)有限,所以在詞語(yǔ)的相似度上有一定的誤差,但就總體影評(píng)效果來(lái)看,符合影評(píng)總體語(yǔ)言風(fēng)格。

      同時(shí),模型還生成了對(duì)應(yīng)的詞向量表和對(duì)應(yīng)的字典。在詞向量表中每一個(gè)詞語(yǔ)都是通過(guò)一個(gè)64維的行向量所表示的,而詞向量字典是后文中將影評(píng)分詞數(shù)據(jù)轉(zhuǎn)化為RNN模型可輸入數(shù)據(jù)的基礎(chǔ)。

      2.3 基于LSTM的RNN模型搭建

      通過(guò)tensorboard生成的模型結(jié)構(gòu)如下圖所示,其中模型整體包括輸入層、隱層和輸出層,而在隱層中又包含了內(nèi)部隱層和LSTM細(xì)胞狀態(tài)層。隱層中神經(jīng)元個(gè)數(shù)為128,而LSTM細(xì)胞狀態(tài)中又含有四個(gè)子層。

      其中,模型的關(guān)鍵運(yùn)算過(guò)程位于LSTM_cell模塊中,其中包括了細(xì)胞狀態(tài)、RNN的內(nèi)部神經(jīng)元結(jié)構(gòu),以及激活函數(shù)等。

      2.4 實(shí)驗(yàn)結(jié)果及分析

      在構(gòu)建好RNN模型后,將清洗過(guò)的數(shù)據(jù)帶入模型。模型以用戶(hù)打分為預(yù)測(cè)變量,從0到10共分為十一個(gè)等級(jí),輸入變量為用戶(hù)評(píng)論分詞轉(zhuǎn)化而來(lái)的向量矩陣,由此在經(jīng)過(guò)多次迭代訓(xùn)練后可以得到模型預(yù)測(cè)的準(zhǔn)確率與成本函數(shù)。我們可以得出,隨著迭代次數(shù)的不斷增加,模型預(yù)測(cè)的平均成本逐漸減少,準(zhǔn)確率不斷上升,約在12000次后準(zhǔn)確率趨于穩(wěn)定狀態(tài),最終預(yù)測(cè)準(zhǔn)確率可達(dá)93.75%,說(shuō)明模型對(duì)于影評(píng)的用戶(hù)評(píng)分有著很好的預(yù)測(cè)效果。

      而從模型的準(zhǔn)確率曲線(xiàn)圖來(lái)看,模型在訓(xùn)練的迭代前期準(zhǔn)確率提升幅度較快,后期趨于平緩,最后逐漸穩(wěn)定在90%以上水平。

      2.5 基于隨機(jī)游走的改進(jìn)RNN影評(píng)分析模型

      由于隨機(jī)游走詞向量多用于做半監(jiān)督分類(lèi)模型,所以本節(jié)分別選取每種評(píng)分的500條數(shù)據(jù)作為標(biāo)注數(shù)據(jù),共計(jì)5500條標(biāo)注數(shù)據(jù),其余數(shù)據(jù)視為未標(biāo)注數(shù)據(jù)。以標(biāo)注數(shù)據(jù)為隨機(jī)游走圖中的已知點(diǎn),對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行隨機(jī)游走,之后將數(shù)據(jù)帶入RNN模型中進(jìn)行訓(xùn)練,模型運(yùn)行結(jié)果如下表。

      由上表可以看出,模型的平均成本函數(shù)以及準(zhǔn)確率的變化趨勢(shì)與上節(jié)中RNN模型是一致的;而在準(zhǔn)確率上,在迭代前期準(zhǔn)確率略低于隨機(jī)游走改進(jìn)前RNN模型,而在趨于穩(wěn)定狀態(tài),相比于原模型,預(yù)測(cè)準(zhǔn)確度約提高0.5%。

      從上圖來(lái)看,經(jīng)過(guò)隨機(jī)游走優(yōu)化的RNN模型在穩(wěn)定狀態(tài)略有提高,雖然隨機(jī)游走算法對(duì)于模型的預(yù)測(cè)準(zhǔn)確率提高不顯著,這可能是由于原模型準(zhǔn)確率已經(jīng)很高,導(dǎo)致其提高水平不夠顯著造成的,但總體來(lái)講,本文實(shí)驗(yàn)結(jié)果說(shuō)明,隨機(jī)游走模型對(duì)應(yīng)預(yù)測(cè)準(zhǔn)確率的提高是有意義的。

      3 結(jié)論

      本文基于深度學(xué)習(xí)模型,通過(guò)對(duì)貓眼動(dòng)漫影評(píng)進(jìn)行數(shù)據(jù)抓取,完成了對(duì)動(dòng)漫影評(píng)的自然語(yǔ)言處理處理和用戶(hù)評(píng)分預(yù)測(cè)。首先通過(guò)分析貓眼影評(píng)API,利用python中的requests等庫(kù)對(duì)影評(píng)數(shù)據(jù)進(jìn)行爬取,再通過(guò)jieba模塊對(duì)評(píng)論進(jìn)行分詞得到影評(píng)的語(yǔ)料庫(kù),之后利用gensim中的word2vec模塊得到影評(píng)詞向量矩陣,在將影評(píng)數(shù)據(jù)轉(zhuǎn)換為嵌入式矩陣后,完成了對(duì)數(shù)據(jù)的預(yù)處理工作。接下來(lái)搭建基于LSTM的RNN深度學(xué)習(xí)模型,并將影評(píng)詞向量矩陣和用戶(hù)評(píng)分帶入模型,完成迭代訓(xùn)練,最后得到評(píng)分預(yù)測(cè)模型。

      參考文獻(xiàn)

      [1]伍宏偉.基于隱馬爾可夫模型的交通流預(yù)測(cè)研究[D].蘭州交通大學(xué),2019.

      [2]鄭嘯,王義真,袁志祥,秦鋒.基于卷積記憶神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析[J].電子測(cè)量與儀器學(xué)報(bào),2018,32(03):195-200.

      [3]劉娜.文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D].大連海事大學(xué),2012.

      猜你喜歡
      深度學(xué)習(xí)
      從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
      面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
      搭建深度學(xué)習(xí)的三級(jí)階梯
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
      考試周刊(2016年94期)2016-12-12 12:15:04
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      荔波县| 枞阳县| 贡山| 太湖县| 溆浦县| 寿阳县| 山阳县| 武平县| 措美县| 都安| 合作市| 北海市| 蓝田县| 巍山| 延长县| 湛江市| 千阳县| 离岛区| 武定县| 鹤山市| 定兴县| 鄱阳县| 喀喇沁旗| 吉水县| 务川| 钟祥市| 乌拉特前旗| 广德县| 大渡口区| 托克逊县| 青州市| 大庆市| 长治市| 平原县| 驻马店市| 郸城县| 新龙县| 依安县| 宁陕县| 若尔盖县| 西乌|