張逸方 吳佩芬
文字探勘(Text Mining)是自然語言處理(Natural Language Progressing,簡稱NLP)領(lǐng)域的研究重點,也是AI人工智能與語言學(xué)的學(xué)習(xí)分支。伴隨著網(wǎng)絡(luò)時代的來臨,越來越多的人在網(wǎng)絡(luò)上發(fā)表自己的觀影意見,有許多學(xué)者運用文字探勘方法,搜集網(wǎng)絡(luò)上的影評數(shù)據(jù),進(jìn)行文本情感分析。
配合網(wǎng)絡(luò)與社交平臺的快速發(fā)展,電影的評分網(wǎng)站也成為在線參考電影信息和表達(dá)影評意見的重要平臺,電影評分網(wǎng)站中,又以IMDb(Internet Movie Database)在全球最具代表性與影響力。IMDb成立于1990年,囊括了全球幾乎所有電影及演員、導(dǎo)演、劇情、影評等訊息,共計約四百多萬條作品數(shù)據(jù)。
文本情感分析的方法眾多,主要途徑可分為兩種[1],一種是“詞匯法”[2][3],另一種是“機(jī)器學(xué)習(xí)法”(machine learning method)[4],“詞匯法”從語言學(xué)的角度出發(fā),以專家分類的情緒詞為基礎(chǔ),分析文本情感傾向[5];“機(jī)器學(xué)習(xí)法”則將大量人為判斷的訓(xùn)練數(shù)據(jù),進(jìn)行特征選取與模型的建立,利用機(jī)器自動判斷數(shù)據(jù)意見傾向。在多年的發(fā)展下,兩類研究方法不斷地互相影響,累積了諸多的資源、模型與數(shù)據(jù)庫。
配合深度學(xué)習(xí)技術(shù)的演變,學(xué)術(shù)界也開始使用神經(jīng)網(wǎng)絡(luò)的概念進(jìn)行文本分析,并大量運用在電影影評分析領(lǐng)域。本研究以IMDb的影評評論為文本對象,提出一種改良型卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的模型架構(gòu),比較不同神經(jīng)網(wǎng)絡(luò)架構(gòu)、層數(shù)以及參數(shù)是否會影響到模型的準(zhǔn)確率。
一、相關(guān)研究
(一)應(yīng)用WEKA于電影評論之機(jī)器學(xué)習(xí)演算
2014年學(xué)者藉由數(shù)據(jù)探勘工具WEKA進(jìn)行數(shù)據(jù)探勘,進(jìn)行電影評論分類準(zhǔn)確性實驗[6],考慮算法及各自參數(shù)均會大幅影響最后成效,各個不同算法與參數(shù)的組合數(shù)量讓人難以選擇,WEKA工具利用貝氏優(yōu)化(Bayesian optimization)的創(chuàng)新做法,為一種完全自動化的方案,實驗結(jié)果發(fā)現(xiàn),其模型準(zhǔn)確率約為80%,如圖1所示。
(二)類神經(jīng)網(wǎng)絡(luò)原理
類神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)為基于腦以及神經(jīng)網(wǎng)絡(luò)基礎(chǔ)而發(fā)展的信息處理技術(shù),為人工智能的延伸應(yīng)用。類神經(jīng)網(wǎng)絡(luò)因為具有推理、記憶、容錯等特性,也可以說是一種特殊技術(shù)的統(tǒng)計應(yīng)用,它不需要關(guān)于數(shù)據(jù)的分布假設(shè),具有建構(gòu)復(fù)雜非線性與連續(xù)函數(shù)映對問題能力等特色[7],能處理許多過去統(tǒng)計方法無法處理的非規(guī)則性問題,不局限在影像、文字、語音等領(lǐng)域,在商業(yè)領(lǐng)域也有很大的作用。[8]
類神經(jīng)網(wǎng)絡(luò)是模仿人類神經(jīng)元結(jié)構(gòu)之概念,其神經(jīng)元反應(yīng)的基本邏輯,包含輸入層(a1~ai)、權(quán)重(w1~wi),輸入乘上權(quán)重之后加總(∑w*a),便可得到神經(jīng)元的刺激強(qiáng)度,接著經(jīng)過函數(shù)(f)轉(zhuǎn)換以及調(diào)節(jié)刺激強(qiáng)度的閥值(b),即可得到輸出的神經(jīng)元刺激強(qiáng)度,數(shù)學(xué)公式如圖2。研究者基于神經(jīng)元操作模式,發(fā)展出單層神經(jīng)網(wǎng)絡(luò),模型概念如圖3。[9]
多層模型中如圖4,隱藏層的神經(jīng)元個數(shù)和層數(shù)可以由研究者自行決定,一般而言,當(dāng)隱藏層及神經(jīng)元越多,處理非線性的問題能力越強(qiáng)。[10]
(三)類神經(jīng)網(wǎng)絡(luò)在電影預(yù)測之應(yīng)用
過去類神經(jīng)網(wǎng)絡(luò)模型在電影產(chǎn)業(yè)的應(yīng)用很多,Ramesh and Dursun[11]曾運用統(tǒng)計方法與類神經(jīng)網(wǎng)絡(luò),創(chuàng)建電影票房預(yù)測的模型并進(jìn)行比較,發(fā)現(xiàn)類神經(jīng)網(wǎng)絡(luò)的模型較佳;鄭堅等人[12]提出一種基于回饋神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測模型。發(fā)現(xiàn)針對神經(jīng)網(wǎng)絡(luò)波動性的特點,對預(yù)測模型的輸出結(jié)果進(jìn)行改進(jìn)之后,輸出結(jié)果既能更可靠地反映電影在上映期間的票房收入,又能指出電影票房的波動范圍;陳增艷[13]為了緩解卷積神經(jīng)網(wǎng)絡(luò)在計算和網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)的“過擬合”現(xiàn)象,尋找合適的Dropout值降低過擬合問題,在一定程度上參照了協(xié)同過濾算法中的相似度計算,發(fā)現(xiàn)研究評分預(yù)測的準(zhǔn)確度被大大提高;王錠等人[14]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的電影評論情感分類模型,將卷積神經(jīng)網(wǎng)絡(luò)與詞向量相結(jié)合,并與SVM等傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行對比實驗。實驗結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析模型有較高的準(zhǔn)確率。
綜觀以上研究方法,目前相關(guān)研究中,多數(shù)基于神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行微調(diào)改進(jìn)后,進(jìn)而以改良模型預(yù)測電影票房及評論;本研究將借由建構(gòu)改良型CNN模型,建構(gòu)IMDb影評分析系統(tǒng),和以往研究不同的是,本研究考慮模型結(jié)構(gòu)全連接層層數(shù)以及神經(jīng)元多寡對準(zhǔn)確性的影響,經(jīng)由各種神經(jīng)網(wǎng)絡(luò)組合實驗,找到準(zhǔn)確性優(yōu)化研究,提升模型應(yīng)用之效益。
二、研究設(shè)計
(一)卷積神經(jīng)網(wǎng)絡(luò)之模型概念
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為神經(jīng)網(wǎng)絡(luò)的分支之一,核心為沿用了多層感知器(Multilayer Perceptron,MLP)的結(jié)構(gòu),由輸入層(Input)、卷積層(Convolutional Layer)、池化層(pooling)、全連接層(Fully-connected Layer)組成。由Kim[15]提出的CNN短文本分類模型結(jié)構(gòu)如圖5所示。
本研究將建立TensorFlow的訓(xùn)練環(huán)境,使用Keras作為架設(shè)模塊的基礎(chǔ),以Keras建立神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)訓(xùn)練。
(二)研究數(shù)據(jù)與步驟
本研究采用IMDb電影評論情感分類數(shù)據(jù)庫中共25000份電影評論作為分析數(shù)據(jù)[16],本研究實驗分為兩個部分,第一部分為多層模型實驗,第二部分為神經(jīng)元數(shù)實驗。其中多層模型實驗主要目的為比較全連階層數(shù)對單一類神經(jīng)網(wǎng)絡(luò)與改良型神經(jīng)網(wǎng)絡(luò)準(zhǔn)確性差異分析,而神經(jīng)元數(shù)實驗?zāi)康臑榱私饽P蛥?shù)的改變對準(zhǔn)確度的影響,針對模型參數(shù),如卷積層、濾波器、卷積核大小等,了解不同模型參數(shù)設(shè)定對準(zhǔn)確度的影響。研究步驟如圖6所示。
(三)研究參數(shù)
研究參數(shù)直接影響最后的模型結(jié)果,表1表2列出本研究單類神經(jīng)網(wǎng)絡(luò)模型與改良型CNN模型中,欲研究之參數(shù)與對應(yīng)的參數(shù)值。
三、研究結(jié)果
為了了解本研究提出之單類神經(jīng)網(wǎng)絡(luò)與CNN改良型模型的準(zhǔn)確率與模型性能,分別將進(jìn)行兩模型之對比實驗。
本研究首先針對多層模型實驗的準(zhǔn)確率進(jìn)行比較,兩模型準(zhǔn)確率變化如圖7所示。改良型CNN模型中,整體模型穩(wěn)定性較單類神經(jīng)網(wǎng)絡(luò)模型高,而卷積層數(shù)的改變則對模型準(zhǔn)確率的改變不明顯。
另外針對神經(jīng)元實驗的兩類模型準(zhǔn)確率,不同神經(jīng)元數(shù)對模型準(zhǔn)確率變化比較如圖8。改良型CNN模型中,濾波器數(shù)的改變對準(zhǔn)確率有明顯變化,而改良型CNN模型中,其卷積核大小的改變則對準(zhǔn)確率的改變不明顯。
結(jié)語
本研究以IMDb電影評論為數(shù)據(jù),基于過去WEKA對電影評論算法的模型準(zhǔn)確度評估,提出以類神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的單類神經(jīng)網(wǎng)絡(luò)與改良型CNN模型,由此實驗了解如何改變關(guān)鍵參數(shù),找到可信賴模型的準(zhǔn)確度區(qū)間,避免未來研究者在選擇參數(shù)時造成過高或過低的準(zhǔn)確率。研究發(fā)現(xiàn),單類神經(jīng)網(wǎng)絡(luò)在參數(shù)較少時,其模型準(zhǔn)確率較高,而改良型CNN模型層與層之間為局部連接的特性,模型可承受較多的參數(shù)設(shè)定,如多神經(jīng)元數(shù)與多層數(shù),其模型穩(wěn)定性及準(zhǔn)確性均較高,且基于文字探勘的特性,可發(fā)現(xiàn)CNN之濾波器并不需要過多的濾波器數(shù),即可達(dá)到不錯的準(zhǔn)確率。
自然語言學(xué)習(xí)中的文字情感分析的研究仍存在許多問題,需進(jìn)一步討論,但本研究發(fā)現(xiàn),文字情感分析可用不同的類神經(jīng)網(wǎng)絡(luò)模型進(jìn)行評估,可提高可信賴度的準(zhǔn)確率,后續(xù)將再透過不同的類神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型架構(gòu)之適用性比較。
參考文獻(xiàn):
[1]Serrano-Guerrero,J.,Olivas,J.A.,Romero,F(xiàn).P.,&Herrera-Viedma,E.Sentiment analysis:A review and comparative analysis of Web services[ J ].Information Sciences,2015,311:18-38.
[2]Taboada,M.,Brooke,J.,Tofiloski,M.,Voll,K.,& Stede,M.Lexicon based methods for sentiment analysis[ J ]. Computational Linguistics,2011,37;267-307.
[3]Turney P,Littman M.Measuring praise and criticism:inference of semantic orientation from association[ J ].ACM Transactionson Information Systems,2003,21(4):315-346.
[4]Boiy,E.,& Moens,M.-F.A machine learning approach to sentiment analysis in multilingual Web texts[ J ]. Information Retrieval,2009,12(5):526-558.
[5]Xu R.F,Wong K.F,Xia Y.Coarse-Fine opinion mining-WIA in NTCIR-7 MOAT task[C]//Proceedings of NTCIR 2008:307-313.
[6]A data mining experiment:movie reviews classification using WEKA.[EB/OL].[2019-11-15]https://www.stefanoscerra.it/movie-reviews-classification-weka-data-mining/.
[7]Tan S.,Zhang J. An empirical study of sentiment analysis for Chinese documents[ J ].Expert Systems with Applications,2008,34(4):2622-2629.
[8]Vellido,A.,Lisboa,P.J.G.and Vaughan,J.Neural Networks in Business:A Survey of Applications(1992-1998)[ J ]. Expert Systems with Applications,1999,17:51-70.
[9]葉怡成.應(yīng)用類神經(jīng)網(wǎng)絡(luò)[M].臺北:儒林圖書公司,2001.
[10]Hearn,D.,&Baker,M.P.Computer graphics[M].Englewood Cliffs,NJ:Prentice-Hall,1986.
[11]Sharda,Ramesh and Delen,Dursun.Predicting box-office success of motion pictures with neural networks[ J ]. Expert Systems with Applications.2006,30(2):243-254.
[12]鄭堅,周尚波.基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測建模[ J ].計算機(jī)應(yīng)用,2014,34(3):742-748.
[13]陳增艷.基于卷積神經(jīng)網(wǎng)絡(luò)的電影推薦模型研究[D].大連:大連海事大學(xué),2018.
[14]王錠,杜紅等人.基于深度神經(jīng)網(wǎng)絡(luò)的電影評論情感分類研究[ J ].電腦與信息技術(shù),2019(4).
[15]KIM Y.Convolutional neural networks for sentence classification[C]//Proceedings of Conferenceon Empirical Methods in Natural Language Processing.Doha:[s.n.]p.1746-1751,2014.
[16]林大貴.TensorFlow+Keras深度學(xué)習(xí)人工智能實務(wù)應(yīng)用[M].臺北:博碩文化,2017.