• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于TF-IDF和LDA主題模型的電影短評(píng)文本情感分析
      ——以《少年的你》為例

      2020-04-29 03:56:44趙海清
      現(xiàn)代電影技術(shù) 2020年3期
      關(guān)鍵詞:少年的你分詞文檔

      劉 惠 趙海清

      (嶺南師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東湛江 524048)

      1引言

      近年來,中國電影產(chǎn)業(yè)高速發(fā)展。數(shù)據(jù)顯示,2010年起,中國電影總票房突破百億元,2013年中國電影總票房達(dá)到217億元,2015年增長(zhǎng)到440億元,2017年突破500億元,達(dá)559億元,2018年,電影市場(chǎng)票房突破1億元的有82部電影,其中突破10億元的有16部,取得609.76億元的票房成績(jī)。2019年中國電影票房刷新642.66億的紀(jì)錄,較2018年同比增長(zhǎng)5.4%,其中四大檔期吸引觀影人次占全年的49.8%,尤其是國慶檔觀影人次翻倍,拉動(dòng)了2019年檔期觀影人次的增長(zhǎng)。電影逐漸成為人們娛樂生活的一個(gè)重要方式。與此同時(shí),社交網(wǎng)絡(luò)的快速發(fā)展使得越來越多的用戶選擇在公眾平臺(tái)上表達(dá)自己的意見、態(tài)度、看法和情感。電影領(lǐng)域的公眾平臺(tái)也隨著電影產(chǎn)業(yè)的發(fā)展應(yīng)運(yùn)而生。觀看一部電影后,電影愛好者可以在影評(píng)網(wǎng)站對(duì)電影進(jìn)行評(píng)價(jià)和打分。對(duì)于消費(fèi)者而言,在決定是否觀看一部電影之前也會(huì)通過影評(píng)網(wǎng)站上相關(guān)電影的評(píng)論內(nèi)容和打分情況來選擇。評(píng)論內(nèi)容主要是不規(guī)則的文本信息,但這些信息中包含了評(píng)論者對(duì)這部電影的情感態(tài)度。然而,一千個(gè)讀者會(huì)有一千個(gè)哈姆雷特,如果只是根據(jù)幾條影評(píng)或者得分而決定是否去看,顯然過于片面。所以,有必要從大量的評(píng)論內(nèi)容中挖掘出影評(píng)的更多情感特征,以幫助消費(fèi)者做出更為全面的決定,同時(shí)還能幫助電影制作者了解消費(fèi)者的消費(fèi)意向和正負(fù)評(píng)價(jià),從而為電影的發(fā)展提供一定的借鑒。

      2研究現(xiàn)狀

      關(guān)于文本情感分析的研究,薛征(2009)利用改進(jìn)后的TF-IDF算法對(duì)網(wǎng)絡(luò)新聞中的關(guān)鍵詞進(jìn)行提取并聚類,使用戶快速發(fā)現(xiàn)海量電子文本中的熱點(diǎn)信息。馮莎(2017)通過計(jì)算評(píng)論文本的情感得分對(duì)《乘風(fēng)破浪》這部電影的評(píng)論文本情感進(jìn)行分類研究。張雷 (2017) 提出word2Vec 結(jié)合 TF-IDF 算法對(duì)酒店評(píng)論進(jìn)行特征詞匯提取,以反應(yīng)出酒店評(píng)論中不同的關(guān)注點(diǎn)。張琰,黃霽風(fēng)(2019)采用 PMI 算法對(duì)《我不是藥神》的影評(píng)進(jìn)行文本情感分析,從而找出觀眾對(duì)社會(huì)熱點(diǎn)話題的情感態(tài)度。關(guān)菲,姜小冬 (2019) 利用LDA主題模型對(duì)評(píng)論主題進(jìn)行劃分,結(jié)合高頻詞和語義網(wǎng)分析來研究消費(fèi)者的關(guān)注點(diǎn)。Kashfia Sailunaz,Reda Alhajj (2019) 對(duì)推特上特定主題的評(píng)論文本內(nèi)容的情感和情緒進(jìn)行分析,將分析結(jié)果用于生成推薦。

      近年來,相關(guān)學(xué)者對(duì)文本評(píng)論的研究如火如荼,文本情感分析也有很大程度的發(fā)展,但是,基于文本情感分析的評(píng)論研究依然存在一些問題,如:文本情感分析中缺少相應(yīng)領(lǐng)域的情感詞典研究,使得在進(jìn)行情感判斷時(shí)過度依賴通用情感詞典,降低了情感判斷的準(zhǔn)確率;其次,文本情感分析大多是從定性的角度進(jìn)行分析解讀,缺少定量的研究。

      因此,本文主要提取豆瓣網(wǎng)站上《少年的你》的短評(píng)內(nèi)容,構(gòu)建對(duì)應(yīng)的情感詞典和停用詞詞典,通過TF-IDF算法和LDA 主題模型從定量的角度對(duì)這部電影的評(píng)論文本進(jìn)行挖掘分析,以獲取評(píng)論者對(duì)這部電影的情感態(tài)度。

      3 相關(guān)理論簡(jiǎn)介

      文本數(shù)據(jù)挖掘(Text Mining)是指從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù)。文本情感分析是文本數(shù)據(jù)挖掘的重要方向,主要目的是從原始文本中提取出評(píng)論人的主觀情感,即對(duì)某個(gè)對(duì)象是積極還是消極的態(tài)度。

      3.1 TF-IDF算法

      TF-IDF算法的目的是評(píng)估某個(gè)詞對(duì)某個(gè)文本的重要程度,如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在文檔集合中出現(xiàn)頻率低,則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力。

      TF-IDF由兩部分組成:詞頻 (TF) 指的是某一個(gè)特定的詞語在該文本中出現(xiàn)的頻率;逆文檔頻率 (IDF)即文本數(shù)量與某一個(gè)特定的詞語在文本集中出現(xiàn)的次數(shù)的比值。

      假設(shè)特征詞i在文本d中出現(xiàn)的詞頻為tf(d),n為含有特征詞i的文本數(shù),則TF-IDF函數(shù)為:

      (1)

      為消除數(shù)量級(jí)對(duì)數(shù)據(jù)的影響,還需要對(duì)TF-IDF值進(jìn)行歸一化處理。

      3.2 LDA主題模型

      隱含狄利克雷分布 (Latent Dirichlet Allocation,LDA) 主題模型由 Blei等人于2003年提出,它是一種典型的“詞袋”模型。它通過構(gòu)建“文檔-主題-詞”三層的貝葉斯結(jié)構(gòu),將文檔集中每篇文檔的主題以概率分布的形式給出,從而根據(jù)主題分布進(jìn)行主題分類。

      “文檔-主題-詞”三層貝葉斯結(jié)構(gòu)包括兩部分:“文檔-主題”,即根據(jù)文檔d以一定概率生成主題z;“主題-詞”, 即根據(jù)主題z以一定概率生成詞w。于是,若要生成一個(gè)文檔,文檔中每個(gè)詞出現(xiàn)的條件概率可分成兩部分:

      (2)

      其中p(w|d)表示每個(gè)文檔中每個(gè)單詞出現(xiàn)的概率;p(w|z)表示每個(gè)主題中每個(gè)單詞的出現(xiàn)概率;p(z|d)表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率。給定文本集,通過對(duì)每個(gè)文本進(jìn)行分詞,計(jì)算各個(gè)文本中每個(gè)單詞的詞頻就可以得到“文檔-詞語”矩陣。LDA 主題模型就是通過“文檔-詞語”矩陣進(jìn)行訓(xùn)練,以一定的概率推測(cè)出文檔的主題。

      4 方法

      4.1數(shù)據(jù)獲取

      登錄豆瓣網(wǎng)站,進(jìn)入電影《少年的你》的短評(píng)網(wǎng)頁,利用python的庫文件Beantifulsoup解析網(wǎng)頁源碼,獲取電影短評(píng)相關(guān)數(shù)據(jù)共43450條,主要包括評(píng)論者ID、短評(píng)內(nèi)容、評(píng)論發(fā)布時(shí)間、評(píng)論有用數(shù)和星級(jí)評(píng)分?jǐn)?shù),星級(jí)評(píng)分?jǐn)?shù)分別是 1 到 5 星(對(duì)應(yīng)評(píng)價(jià)為很差、較差、還行、推薦、力薦)。

      4.2 數(shù)據(jù)預(yù)處理

      獲取數(shù)據(jù)后,刪除重復(fù)評(píng)價(jià)、無意義的評(píng)論以及星級(jí)評(píng)分為空值的評(píng)論593條,獲取有效評(píng)論42857條。以搜狗詞庫為基礎(chǔ),將電影中出現(xiàn)的特有詞匯如“易烊千璽”“周冬雨”“東野圭吾”“曾國祥”等加入搜狗詞庫以此構(gòu)成新的分詞詞典,然后借助jieba分詞包對(duì)清洗之后的每條評(píng)論進(jìn)行中文分詞。最后以哈工大停用詞詞典為基礎(chǔ)對(duì)文本中的停用詞進(jìn)行過濾,從而生成較為規(guī)范化的分詞文本。

      4.3 短評(píng)文本的情感分析

      電影《少年的你》上映時(shí)間為2019年10月25日,截止2019年11月25日,電影的豆瓣評(píng)分為8.4分,是2019年上映電影中為數(shù)不多的超過8分的電影之一,上映不到一個(gè)月票房破15億,居2019年度國產(chǎn)電影票房榜第8位,是一部包含校園、欺凌和懸疑的青春片,周冬雨和易烊千璽兩位主演也備受好評(píng),參與豆瓣評(píng)價(jià)人數(shù)有546637人。為更好地發(fā)掘觀眾對(duì)這部電影的情感態(tài)度,對(duì)相關(guān)數(shù)據(jù)進(jìn)行如下分析。

      圖1 評(píng)價(jià)分布圖

      首先,對(duì)電影的評(píng)價(jià)分布進(jìn)行分析,目的是從總體上了解觀眾對(duì)這部電影的態(tài)度。其中評(píng)價(jià)為很差、較差、還行、推薦、力薦的比例分布如圖1所示,其中較差和很差的評(píng)價(jià)只占3%,所以絕大多數(shù)觀眾對(duì)此電影持推薦態(tài)度,電影值得一看。

      然后,利用分詞技術(shù)對(duì)評(píng)論的文本內(nèi)容進(jìn)行分詞處理,利用詞云圖展示評(píng)論文本中出現(xiàn)次數(shù)較多的詞匯,目的是對(duì)觀眾的情感態(tài)度進(jìn)行初步探索。詞云圖如圖2所示,從圖中可以看出提及較多的詞匯是兩位主演的名字,提及較多的正面詞匯有“好”“喜歡”“很棒”“驚喜”“不錯(cuò)”“值得”“好看”和“真實(shí)”,提及較多的負(fù)面詞匯是“抄襲”。

      圖2 詞云圖

      接著,利用TF-IDF算法提取評(píng)論文本中的關(guān)鍵詞,以衡量詞匯的重要性,從而確定較為主要的情感態(tài)度。提取到的前40個(gè)關(guān)鍵詞如圖3所示,提取最受關(guān)注的5條評(píng)論如表1所示,從而初步判斷觀眾討論的熱點(diǎn)是主演演技、電影主題以及導(dǎo)演的能力。

      表1 最受關(guān)注的五條評(píng)論

      圖3 提取的前40個(gè)關(guān)鍵詞

      表2 主題及對(duì)應(yīng)的主題詞

      圖4 主題1

      最后,利用LDA主題模型對(duì)評(píng)論文本進(jìn)行分析,從定量的角度給出評(píng)論內(nèi)容的主題。LDA主題模型是一種基于詞語語義特征提取文章主題的方法,能夠使具有相同主題的詞語聚在一起。從上述定性的角度進(jìn)行初步分析可知,評(píng)論者討論的熱點(diǎn)話題主要有3個(gè),所以在LDA模型中將評(píng)論文本討論的主題設(shè)定為3類。各主題包含的主題詞詳見表2,圖4為得到的主題1的可視化結(jié)果。

      根據(jù)LDA主題模型的結(jié)果,從定量的角度可以確定三個(gè)主題分別是:演員演技、導(dǎo)演水平以及題材。提取與這三個(gè)主題相關(guān)的正負(fù)評(píng)論文本,得出的關(guān)鍵評(píng)價(jià)信息如表3所示,初步可以看出評(píng)論者評(píng)分較高的原因在于表演者的演技較好、導(dǎo)演的能力優(yōu)秀以及題材的價(jià)值高,而低分的原因主要在于電影情節(jié)與其他電影相似,存在融梗現(xiàn)象。

      表3 正負(fù)評(píng)論關(guān)鍵詞

      5結(jié)束語

      利用TF-IDF算法對(duì)評(píng)論關(guān)鍵字的提取和LDA主題模型對(duì)電影主題的提取,一方面了解到觀眾對(duì)這部電影的情感態(tài)度,另一方面對(duì)這部電影的主題有了更加清晰的認(rèn)識(shí)和理解,有利于對(duì)電影整體內(nèi)容的把握。本文分析結(jié)果一定程度上可以為觀影者是否觀看影片提供一定的參考,能夠節(jié)省一定的時(shí)間成本和經(jīng)濟(jì)成本。同時(shí),向商品提供者直觀地展示正面或負(fù)面的反饋意見,能夠?yàn)殡娪暗膭?chuàng)作提供一定的方向,為消費(fèi)者提供更好的觀影體驗(yàn)。

      猜你喜歡
      少年的你分詞文檔
      有人一聲不吭向你扔了個(gè)文檔
      《少年的你》:國產(chǎn)青春片“破局”
      新民周刊(2019年42期)2019-11-12 06:04:54
      “少年的你”,要相信警察(點(diǎn)評(píng))
      《少年的你》,面對(duì)的是現(xiàn)實(shí)
      結(jié)巴分詞在詞云中的應(yīng)用
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      值得重視的分詞的特殊用法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      都江堰市| 修文县| 金秀| 五原县| 盱眙县| 武汉市| 兴山县| 沙坪坝区| 疏勒县| 平泉县| 梅河口市| 定南县| 肥城市| 茌平县| 潜山县| 登封市| 酒泉市| 喀喇沁旗| 化州市| 海安县| 隆昌县| 黄冈市| 虞城县| 南充市| 新绛县| 亳州市| 阿尔山市| 孟州市| 济阳县| 阳曲县| 嘉定区| 兰州市| 贵溪市| 武川县| 陵川县| 庄浪县| 元谋县| 永登县| 鄂尔多斯市| 崇州市| 莎车县|