卷積神經(jīng)網(wǎng)絡(luò)及樸素貝葉斯的評(píng)價(jià)評(píng)分與數(shù)據(jù)挖掘系統(tǒng)

2021-09-23 06:08:14彭沖

電子技術(shù)與軟件工程 2021年12期

彭沖

（廣東第二師范學(xué)院廣東省廣州市 510000）

客戶與攝影師在使用APP時(shí)會(huì)提出大量的意見(jiàn)和建議，并通過(guò)評(píng)價(jià)系統(tǒng)進(jìn)行反映，然后利用人工進(jìn)行分析。但是在分析時(shí)，會(huì)有速度慢、主觀化、不全面等問(wèn)題的出現(xiàn)，不利于意見(jiàn)和建議的有效反饋。因此，利用文本挖掘技術(shù)充分、高效地分析攝影師的服務(wù)情況、客戶的自我體驗(yàn)感，既有利于攝影事業(yè)的發(fā)展，又能為客戶提供高質(zhì)量的攝影服務(wù)。同時(shí)，對(duì)攝影師的綜合分析，是對(duì)于眾多評(píng)價(jià)的集中反映，也是客戶評(píng)論的一種整合。通過(guò)性價(jià)比、安全性、服務(wù)質(zhì)量、位置距離和攝影風(fēng)格這五個(gè)方面進(jìn)行量化，判斷分類后的評(píng)論情感傾向，得出相應(yīng)的分?jǐn)?shù)，對(duì)于客戶來(lái)說(shuō)能夠?qū)z影師有更準(zhǔn)確地判斷。最后，通過(guò)量化后的評(píng)分，挖掘特色和亮點(diǎn)，能更好地幫助客戶選擇適合自己的攝影師。

1 攝影師和客戶評(píng)論分類

1.1 數(shù)據(jù)準(zhǔn)備

1.1.1 數(shù)據(jù)描述

數(shù)據(jù)來(lái)源于攝影師和客戶兩者的問(wèn)卷調(diào)查，共有817個(gè)樣本數(shù)據(jù)。

1.1.2 數(shù)據(jù)預(yù)處理

進(jìn)行一系列去噪操作后，進(jìn)行去除停用詞、利用jieba庫(kù)進(jìn)行分詞，然后利用Word2Vec進(jìn)行詞向量的構(gòu)建，再進(jìn)行分類。

在分類前，由人工對(duì)部分評(píng)論進(jìn)行了五大類的劃分，分別是性價(jià)比、安全性、服務(wù)質(zhì)量、位置距離和攝影風(fēng)格?；贑NN確實(shí)對(duì)訓(xùn)練樣本中類別不平衡的問(wèn)題很敏感，平衡的類別往往能獲得最佳的表現(xiàn)，而不平衡的類別往往使模型的效果下降。所以各類隨機(jī)分別標(biāo)注了200條，保證了在深度學(xué)習(xí)的過(guò)程中，不會(huì)因?yàn)閿?shù)據(jù)的采樣不均衡而對(duì)模型的構(gòu)造產(chǎn)生不利。

1.2 特征提取

在文本進(jìn)入分類器之前，需要將文本轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的數(shù)字形式，其中詞向量是最普遍表現(xiàn)文本數(shù)字形式的方式。

詞向量(Word Vector)，也被稱為詞嵌入(Word Embedding)。從概念上講，它是指把一個(gè)維數(shù)為所有詞的數(shù)量的高維空間嵌入到一個(gè)維數(shù)低得多的連續(xù)向量空間（通常是128或256維）中，每個(gè)單詞或詞組被映射為實(shí)數(shù)域上的向量。

Word2Vec是Mikolov等所提出模型的一個(gè)詞向量訓(xùn)練工具，可以用來(lái)快速有效地訓(xùn)練詞向量。Word2Vec包含兩種訓(xùn)練模型，分別是CBOW和Skip_gram。文章使用的訓(xùn)練模型是CBOW，以期通過(guò)模型訓(xùn)練出評(píng)論的詞向量。

1.3 建立模型

1.3.1 卷積神經(jīng)網(wǎng)絡(luò)

文章的分類器運(yùn)用的是經(jīng)典深度學(xué)習(xí)分類器：Textcnn。其主要包括五層：第一層是嵌入層，第二層是卷積層，第三層是池化層，第四層是全連接層，第五層是激活函數(shù)與損失函數(shù)。Kim的TextCNN語(yǔ)句分類模型如圖1所示。

圖1：Kim的TextCNN語(yǔ)句分類模型

模型共設(shè)計(jì)了兩個(gè)卷積層，兩個(gè)全連接層，卷積核尺寸[3,4,5]，batch_size定義每次訓(xùn)練的批量數(shù)（整數(shù)型），兩個(gè)模型分別為256、128，epochs指訓(xùn)練模型的次數(shù)，分別為66、82。validation_split即要用作驗(yàn)證數(shù)據(jù)的訓(xùn)練數(shù)據(jù)分?jǐn)?shù)，兩個(gè)模型都為0.1。

1.3.2 模型效果

文章對(duì)文本分類模型進(jìn)行評(píng)價(jià)時(shí)，采用準(zhǔn)確率（Accuracy）和損失率（Loss）來(lái)作為性能評(píng)價(jià)指標(biāo)。

由圖2、圖3可知，通過(guò)模型的訓(xùn)練，攝影師評(píng)論和客戶評(píng)論分類任務(wù)的整體準(zhǔn)確率分別達(dá)到了98%、94%，同時(shí)模型的損失率也分別降到了0.18、0.14，可見(jiàn)經(jīng)過(guò)數(shù)據(jù)預(yù)處理詞向量構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的分類模型效果較好。

2 攝影師及APP評(píng)論綜合評(píng)價(jià)

評(píng)價(jià)指標(biāo)體系：

2.1 評(píng)價(jià)原理

SnowNLP是一個(gè)分析文本情感的工具。在利用SnowNlp進(jìn)行情感分類時(shí)，是通過(guò)返回值的大小判斷情感是趨于正面還是趨于反面。返回值情緒的概率越接近1表示正面，越接近0表示負(fù)面。

SnownNlp的情感分類基本模型是貝葉斯模型。在SnowNlp進(jìn)行情感判斷的過(guò)程中，首先進(jìn)行數(shù)據(jù)預(yù)處理，然后讀入正樣本和負(fù)樣本，并對(duì)于讀入的文本進(jìn)行分析，最后得出情感評(píng)分（[0,1]）。

樸素貝葉斯是基于貝葉斯決策的分類方法，是使用條件概率來(lái)分類的。假設(shè)有一個(gè)二分類問(wèn)題，分A1類和A2類。假設(shè)樣本有兩個(gè)特征x和y，則需要分別求解條件概率P(A1|x,y)和P(A2|x,y)。而P(Ai|x,y)可以表述為：

2.2 評(píng)價(jià)分級(jí)

基于SnowNlp計(jì)算的評(píng)價(jià)情感傾向結(jié)果得分在[0,1]之間，將情感得分轉(zhuǎn)換為5分制的評(píng)價(jià)等級(jí)得分，相應(yīng)為：SnowNlp得分[0,0.2]對(duì)應(yīng)5分制得分[0,1]，以此類推SnowNlp得分[0.8,1]對(duì)應(yīng)得分[4,5]。

圖2：攝影師評(píng)論卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率圖

圖3：用戶卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率圖

2.3 評(píng)價(jià)結(jié)果

衡量本次評(píng)價(jià)結(jié)果用的方法是計(jì)算結(jié)果與實(shí)際評(píng)分之間的均方誤差（Mean Squared Error）來(lái)對(duì)模型進(jìn)行評(píng)價(jià)。

均方誤差是指參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值。MSE可以評(píng)估數(shù)據(jù)的變化程度，MSE的值越小，說(shuō)明預(yù)測(cè)描述實(shí)驗(yàn)數(shù)據(jù)具有更好地精確度。

攝影師評(píng)價(jià)模型的MSN評(píng)價(jià)結(jié)果如下：

APP評(píng)價(jià)模型的MSN評(píng)價(jià)結(jié)果如下：

兩個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)搭建的模型在經(jīng)過(guò)數(shù)據(jù)預(yù)處理、人工標(biāo)注的數(shù)據(jù)驗(yàn)證以及MSE檢驗(yàn)后，得到了不錯(cuò)的效果，兩個(gè)模型的均方誤差均小于0.2，與參數(shù)真值擬合較好，說(shuō)明模型具有實(shí)用性和真實(shí)性。

3 攝影師及APP的特色分析

3.1 評(píng)分詳情

根據(jù)SnowNlp情感分析的分?jǐn)?shù)，得出的攝影師與APP總得分的分布情況。我們根據(jù)得分的高低分把APP和攝影師分為三個(gè)層次：

高層次：4.5分以上：中層次：4.0-4.5分：低層次：4.0分以下。

攝影師與APP各層次分布比例為：攝影師總評(píng)得分分布高層次占30%，中層次占42%，低層次占28%。APP總評(píng)得分分布高層次占50%，中層次占44%，低層次占6%。

3.2 結(jié)果分析

3.2.1 攝影師評(píng)分

在攝影師方面，通過(guò)對(duì)某些位置的客源、環(huán)境、交通等方面的數(shù)據(jù)進(jìn)行分析，可以得出對(duì)于攝影師而言的最佳流動(dòng)位置。

例如：攝影師A30在以老虎、長(zhǎng)頸鹿、大象等動(dòng)物為主要欣賞對(duì)象的景點(diǎn)有較好的發(fā)展前景，該區(qū)域深受小孩子歡迎。交通便利，地鐵直達(dá)。服務(wù)態(tài)度好，動(dòng)物種類多，還有動(dòng)物模型、電子互動(dòng)游戲等配套設(shè)備。攝影環(huán)境好、綠化帶大、空氣較清新。總體來(lái)說(shuō)，該攝影地性價(jià)比高，值得進(jìn)行攝影師及設(shè)備的普及。

3.2.2 客戶及APP評(píng)分

模型將性價(jià)比、安全性、服務(wù)質(zhì)量、位置距離和攝影風(fēng)格這五個(gè)方面數(shù)據(jù)進(jìn)行分析處理。在性價(jià)比方面，客戶傾向于在30-40元區(qū)間的攝影價(jià)格。在安全性方面，客戶多偏向于從評(píng)分與攝影接單數(shù)來(lái)判斷一個(gè)攝影師的安全性。在攝影風(fēng)格方面，客戶偏向于清新自然的風(fēng)格，對(duì)攝影師的修圖技術(shù)要求不高。經(jīng)篩選，客戶在城區(qū)、著名景區(qū)、特色建筑等區(qū)域流量大、需求高，對(duì)攝影師的需求量較高，對(duì)APP的評(píng)價(jià)喜歡程度較高，具有普及價(jià)值。

4 總結(jié)

文章基于卷積神經(jīng)網(wǎng)絡(luò)模型和樸素貝葉斯模型解決了攝影師與客戶在APP上的評(píng)論分類、評(píng)分、文本有效性等問(wèn)題。通過(guò)合理的模型搭建以及在原數(shù)據(jù)集的基礎(chǔ)上進(jìn)行合理的人工標(biāo)注，使模型貼近真實(shí)值，基本實(shí)現(xiàn)了原先設(shè)立的目標(biāo)。