彭沖
(廣東第二師范學(xué)院 廣東省廣州市 510000)
客戶與攝影師在使用APP時(shí)會(huì)提出大量的意見(jiàn)和建議,并通過(guò)評(píng)價(jià)系統(tǒng)進(jìn)行反映,然后利用人工進(jìn)行分析。但是在分析時(shí),會(huì)有速度慢、主觀化、不全面等問(wèn)題的出現(xiàn),不利于意見(jiàn)和建議的有效反饋。因此,利用文本挖掘技術(shù)充分、高效地分析攝影師的服務(wù)情況、客戶的自我體驗(yàn)感,既有利于攝影事業(yè)的發(fā)展,又能為客戶提供高質(zhì)量的攝影服務(wù)。同時(shí),對(duì)攝影師的綜合分析,是對(duì)于眾多評(píng)價(jià)的集中反映,也是客戶評(píng)論的一種整合。通過(guò)性價(jià)比、安全性、服務(wù)質(zhì)量、位置距離和攝影風(fēng)格這五個(gè)方面進(jìn)行量化,判斷分類后的評(píng)論情感傾向,得出相應(yīng)的分?jǐn)?shù),對(duì)于客戶來(lái)說(shuō)能夠?qū)z影師有更準(zhǔn)確地判斷。最后,通過(guò)量化后的評(píng)分,挖掘特色和亮點(diǎn),能更好地幫助客戶選擇適合自己的攝影師。
1.1.1 數(shù)據(jù)描述
數(shù)據(jù)來(lái)源于攝影師和客戶兩者的問(wèn)卷調(diào)查,共有817個(gè)樣本數(shù)據(jù)。
1.1.2 數(shù)據(jù)預(yù)處理
進(jìn)行一系列去噪操作后,進(jìn)行去除停用詞、利用jieba庫(kù)進(jìn)行分詞,然后利用Word2Vec進(jìn)行詞向量的構(gòu)建,再進(jìn)行分類。
在分類前,由人工對(duì)部分評(píng)論進(jìn)行了五大類的劃分,分別是性價(jià)比、安全性、服務(wù)質(zhì)量、位置距離和攝影風(fēng)格?;贑NN確實(shí)對(duì)訓(xùn)練樣本中類別不平衡的問(wèn)題很敏感,平衡的類別往往能獲得最佳的表現(xiàn),而不平衡的類別往往使模型的效果下降。所以各類隨機(jī)分別標(biāo)注了200條,保證了在深度學(xué)習(xí)的過(guò)程中,不會(huì)因?yàn)閿?shù)據(jù)的采樣不均衡而對(duì)模型的構(gòu)造產(chǎn)生不利。
在文本進(jìn)入分類器之前,需要將文本轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的數(shù)字形式,其中詞向量是最普遍表現(xiàn)文本數(shù)字形式的方式。
詞向量(Word Vector),也被稱為詞嵌入(Word Embedding)。從概念上講,它是指把一個(gè)維數(shù)為所有詞的數(shù)量的高維空間嵌入到一個(gè)維數(shù)低得多的連續(xù)向量空間(通常是128或256維)中,每個(gè)單詞或詞組被映射為實(shí)數(shù)域上的向量。
Word2Vec是Mikolov等所提出模型的一個(gè)詞向量訓(xùn)練工具,可以用來(lái)快速有效地訓(xùn)練詞向量。Word2Vec包含兩種訓(xùn)練模型,分別是CBOW和Skip_gram。文章使用的訓(xùn)練模型是CBOW,以期通過(guò)模型訓(xùn)練出評(píng)論的詞向量。
1.3.1 卷積神經(jīng)網(wǎng)絡(luò)
文章的分類器運(yùn)用的是經(jīng)典深度學(xué)習(xí)分類器:Textcnn。其主要包括五層:第一層是嵌入層,第二層是卷積層,第三層是池化層,第四層是全連接層,第五層是激活函數(shù)與損失函數(shù)。Kim的TextCNN語(yǔ)句分類模型如圖1所示。
圖1:Kim的TextCNN語(yǔ)句分類模型
模型共設(shè)計(jì)了兩個(gè)卷積層,兩個(gè)全連接層,卷積核尺寸[3,4,5],batch_size定義每次訓(xùn)練的批量數(shù)(整數(shù)型),兩個(gè)模型分別為256、128,epochs指訓(xùn)練模型的次數(shù),分別為66、82。validation_split即要用作驗(yàn)證數(shù)據(jù)的訓(xùn)練數(shù)據(jù)分?jǐn)?shù),兩個(gè)模型都為0.1。
1.3.2 模型效果
文章對(duì)文本分類模型進(jìn)行評(píng)價(jià)時(shí),采用準(zhǔn)確率(Accuracy)和損失率(Loss)來(lái)作為性能評(píng)價(jià)指標(biāo)。
由圖2、圖3可知,通過(guò)模型的訓(xùn)練,攝影師評(píng)論和客戶評(píng)論分類任務(wù)的整體準(zhǔn)確率分別達(dá)到了98%、94%,同時(shí)模型的損失率也分別降到了0.18、0.14,可見(jiàn)經(jīng)過(guò)數(shù)據(jù)預(yù)處理詞向量構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的分類模型效果較好。
評(píng)價(jià)指標(biāo)體系:
SnowNLP是一個(gè)分析文本情感的工具。在利用SnowNlp進(jìn)行情感分類時(shí),是通過(guò)返回值的大小判斷情感是趨于正面還是趨于反面。返回值情緒的概率越接近1表示正面,越接近0表示負(fù)面。
SnownNlp的情感分類基本模型是貝葉斯模型。在SnowNlp進(jìn)行情感判斷的過(guò)程中,首先進(jìn)行數(shù)據(jù)預(yù)處理,然后讀入正樣本和負(fù)樣本,并對(duì)于讀入的文本進(jìn)行分析,最后得出情感評(píng)分([0,1])。
樸素貝葉斯是基于貝葉斯決策的分類方法,是使用條件概率來(lái)分類的。假設(shè)有一個(gè)二分類問(wèn)題,分A1類和A2類。假設(shè)樣本有兩個(gè)特征x和y,則需要分別求解條件概率P(A1|x,y)和P(A2|x,y)。而P(Ai|x,y)可以表述為:
由于特征之間是相互獨(dú)立的,所以P(x,y|Ai)=P(x|Ai) P(y|Ai)。如果P(A1|x,y)>P(A2|x,y),那么屬于A1類;如果P(A1|x,y)
基于SnowNlp計(jì)算的評(píng)價(jià)情感傾向結(jié)果得分在[0,1]之間,將情感得分轉(zhuǎn)換為5分制的評(píng)價(jià)等級(jí)得分,相應(yīng)為:SnowNlp得分[0,0.2]對(duì)應(yīng)5分制得分[0,1],以此類推SnowNlp得分[0.8,1]對(duì)應(yīng)得分[4,5]。
圖2:攝影師評(píng)論卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率圖
圖3:用戶卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率圖
衡量本次評(píng)價(jià)結(jié)果用的方法是計(jì)算結(jié)果與實(shí)際評(píng)分之間的均方誤差(Mean Squared Error)來(lái)對(duì)模型進(jìn)行評(píng)價(jià)。
均方誤差是指參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值。MSE可以評(píng)估數(shù)據(jù)的變化程度,MSE的值越小,說(shuō)明預(yù)測(cè)描述實(shí)驗(yàn)數(shù)據(jù)具有更好地精確度。
攝影師評(píng)價(jià)模型的MSN評(píng)價(jià)結(jié)果如下:
APP評(píng)價(jià)模型的MSN評(píng)價(jià)結(jié)果如下:
兩個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)搭建的模型在經(jīng)過(guò)數(shù)據(jù)預(yù)處理、人工標(biāo)注的數(shù)據(jù)驗(yàn)證以及MSE檢驗(yàn)后,得到了不錯(cuò)的效果,兩個(gè)模型的均方誤差均小于0.2,與參數(shù)真值擬合較好,說(shuō)明模型具有實(shí)用性和真實(shí)性。
根據(jù)SnowNlp情感分析的分?jǐn)?shù),得出的攝影師與APP總得分的分布情況。我們根據(jù)得分的高低分把APP和攝影師分為三個(gè)層次:
高層次:4.5分以上:中層次:4.0-4.5分:低層次:4.0分以下。
攝影師與APP各層次分布比例為:攝影師總評(píng)得分分布高層次占30%,中層次占42%,低層次占28%。APP總評(píng)得分分布高層次占50%,中層次占44%,低層次占6%。
3.2.1 攝影師評(píng)分
在攝影師方面,通過(guò)對(duì)某些位置的客源、環(huán)境、交通等方面的數(shù)據(jù)進(jìn)行分析,可以得出對(duì)于攝影師而言的最佳流動(dòng)位置。
例如:攝影師A30在以老虎、長(zhǎng)頸鹿、大象等動(dòng)物為主要欣賞對(duì)象的景點(diǎn)有較好的發(fā)展前景,該區(qū)域深受小孩子歡迎。交通便利,地鐵直達(dá)。服務(wù)態(tài)度好,動(dòng)物種類多,還有動(dòng)物模型、電子互動(dòng)游戲等配套設(shè)備。攝影環(huán)境好、綠化帶大、空氣較清新。總體來(lái)說(shuō),該攝影地性價(jià)比高,值得進(jìn)行攝影師及設(shè)備的普及。
3.2.2 客戶及APP評(píng)分
模型將性價(jià)比、安全性、服務(wù)質(zhì)量、位置距離和攝影風(fēng)格這五個(gè)方面數(shù)據(jù)進(jìn)行分析處理。在性價(jià)比方面,客戶傾向于在30-40元區(qū)間的攝影價(jià)格。在安全性方面,客戶多偏向于從評(píng)分與攝影接單數(shù)來(lái)判斷一個(gè)攝影師的安全性。在攝影風(fēng)格方面,客戶偏向于清新自然的風(fēng)格,對(duì)攝影師的修圖技術(shù)要求不高。經(jīng)篩選,客戶在城區(qū)、著名景區(qū)、特色建筑等區(qū)域流量大、需求高,對(duì)攝影師的需求量較高,對(duì)APP的評(píng)價(jià)喜歡程度較高,具有普及價(jià)值。
文章基于卷積神經(jīng)網(wǎng)絡(luò)模型和樸素貝葉斯模型解決了攝影師與客戶在APP上的評(píng)論分類、評(píng)分、文本有效性等問(wèn)題。通過(guò)合理的模型搭建以及在原數(shù)據(jù)集的基礎(chǔ)上進(jìn)行合理的人工標(biāo)注,使模型貼近真實(shí)值,基本實(shí)現(xiàn)了原先設(shè)立的目標(biāo)。