• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于情感分析和機(jī)器學(xué)習(xí)的用戶評(píng)論信息挖掘

    2024-01-02 00:41:24張倩男
    科技和產(chǎn)業(yè) 2023年23期
    關(guān)鍵詞:消極詞典均值

    張倩男

    (商丘工學(xué)院 基礎(chǔ)教學(xué)部, 河南 商丘 476000)

    伴隨著互聯(lián)網(wǎng)行業(yè)的飛速發(fā)展和廣泛應(yīng)用,網(wǎng)購(gòu)消費(fèi)者發(fā)表的評(píng)論數(shù)量呈幾何指數(shù)增長(zhǎng)。這些評(píng)論文本包含了用戶對(duì)產(chǎn)品或者服務(wù)的認(rèn)可和接受度,集中反映了消費(fèi)者對(duì)商品各個(gè)方面的反饋,針對(duì)性強(qiáng)且具有強(qiáng)烈的褒貶傾向,能夠?yàn)槠渌M(fèi)者獲取產(chǎn)品體驗(yàn)信息以及平臺(tái)服務(wù)提供可靠的信息來(lái)源。對(duì)于產(chǎn)品或者服務(wù)的提供商或者銷售商來(lái)說(shuō),通過(guò)挖掘用戶評(píng)論信息解讀消費(fèi)者想法,了解消費(fèi)者對(duì)產(chǎn)品的喜好及購(gòu)買欲望,把握產(chǎn)品的質(zhì)量情況,能更好地與競(jìng)品進(jìn)行對(duì)比分析,并作為后續(xù)產(chǎn)品與服務(wù)改進(jìn)或者營(yíng)銷策略優(yōu)化的重要參考依據(jù)。因此如何有效地利用用戶評(píng)論進(jìn)行情感分析和用戶價(jià)值分析,具有重要的現(xiàn)實(shí)意義。

    在用戶評(píng)論情感分析研究中,汪夢(mèng)欣等[1]以在線產(chǎn)品評(píng)論為數(shù)據(jù)來(lái)源,采用基于機(jī)器學(xué)習(xí)的情感分析技術(shù)訓(xùn)練學(xué)習(xí)產(chǎn)品各個(gè)屬性評(píng)論的情感極性,并將產(chǎn)品屬性作為評(píng)價(jià)指標(biāo),采用基于直覺(jué)模糊妥協(xié)解的方案選擇與排序(mea-surement of alternatives and ranking according to compro-mise solution,MARCOS)的多屬性決策方法進(jìn)行顧客滿意度評(píng)價(jià)研究。楊嘉怡等[2]采用 SnowNLP 對(duì)評(píng)論文本進(jìn)行情感分析,通過(guò)線性判別分析 (linear discriminant analysis,LDA) 模型對(duì)正、負(fù)面評(píng)價(jià)進(jìn)行主題分析,為手機(jī)廠商改進(jìn)產(chǎn)品及服務(wù)質(zhì)量提供參考建議。丁美榮[3]等基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM) 神經(jīng)網(wǎng)絡(luò)構(gòu)建預(yù)訓(xùn)練模型對(duì)酒店領(lǐng)域的評(píng)論信息進(jìn)行情感分析,同時(shí)與傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行比較,并以基礎(chǔ)詞典為主體,構(gòu)建適用于酒店評(píng)論的擴(kuò)展情感詞典, 將基礎(chǔ)詞典與擴(kuò)展詞典對(duì)獲取的同一語(yǔ)料進(jìn)行情感分類,結(jié)果顯示擴(kuò)展詞典分類比基礎(chǔ)詞典的分類效果更好。姚珂[4]采用基于詞典和自定義規(guī)則的方法對(duì)在線評(píng)論進(jìn)行分析,并利用K折交叉驗(yàn)證調(diào)整自定義規(guī)則的權(quán)重,提高了分類結(jié)果的準(zhǔn)確性。

    在情感詞典構(gòu)建中,劉若蘭和楊建萍[5]在前期構(gòu)建維吾爾語(yǔ)情感詞典的基礎(chǔ)上,基于 Word2Vec 開(kāi)展了情感詞的自動(dòng)擴(kuò)展研究。江華等[6]利用用戶評(píng)分的評(píng)價(jià)方法來(lái)確定目標(biāo)詞的極性,計(jì)算出目標(biāo)詞的情感極性強(qiáng)度,從而構(gòu)建出基于影評(píng)領(lǐng)域的情感詞典,再引入用戶的點(diǎn)贊數(shù)進(jìn)一步優(yōu)化。顏明陽(yáng)等[7]提出一種領(lǐng)域特定情感詞典生成方法的擴(kuò)展方法,結(jié)果表明所提方法提取出的特征顯著優(yōu)于從通用情感詞典(general purpose emotion lexicons,GPEL)提取出的特征,與逐點(diǎn)互信息、n元語(yǔ)法等方法相比,所提方法的性能更優(yōu)。賈東立等[8]結(jié)合現(xiàn)有的自然語(yǔ)言處理技術(shù),提取高頻詞匯擴(kuò)充情感詞典,提升了商品評(píng)價(jià)系統(tǒng)的準(zhǔn)確率。楊小平等[9]利用Word2vec工具篩選了知網(wǎng)情感詞典、大連理工大學(xué)情感詞典等通用詞典,并構(gòu)建了SentiRuc詞典,在通用領(lǐng)域數(shù)據(jù)集上取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。

    在對(duì)聚類和分類預(yù)測(cè)方法研究中,王盈等[10]通過(guò)挖掘商品評(píng)論信息中的商品特征及相應(yīng)的情感反饋,建立商品特征細(xì)粒度上的情感分值向量,在此基礎(chǔ)上利用自組織映射(self-organizing map,SOM)神經(jīng)網(wǎng)絡(luò)模型對(duì)評(píng)價(jià)用戶進(jìn)行聚類,建立電商用戶情感畫像,并針對(duì)不同電商用戶群體特征制定個(gè)性化營(yíng)銷策略,從而幫助平臺(tái)商家從繁雜的商品評(píng)論中快速獲取有效信息。蔣鐵錚等[11]提出基于K-means聚類和模糊神經(jīng)網(wǎng)絡(luò)的母線負(fù)荷態(tài)勢(shì)感知方法。吳廣建等[12]提出利用手肘法關(guān)系圖初始點(diǎn)和末尾點(diǎn)連接的關(guān)系直線,求k值范圍下直線y值與誤差平方和的最大差值的方法,根據(jù)此方法自動(dòng)獲取K-means最優(yōu)k值,而且提高了大數(shù)據(jù)集的處理效率。洪慶等[13]針對(duì)彈幕文本口語(yǔ)化的特點(diǎn),建立了網(wǎng)絡(luò)彈幕常用詞詞典,通過(guò)改進(jìn)傳統(tǒng)的K-means聚類算法,對(duì)所有發(fā)表彈幕的用戶進(jìn)行基于情感值的分類。王偉和千博[14]提出了一種根據(jù)模糊聚類對(duì)用戶情感進(jìn)行分析的方法。

    在本文中以Vivo手機(jī)用戶評(píng)論數(shù)據(jù)為研究對(duì)象,首先利用Excel、Python結(jié)合多部詞典構(gòu)建基礎(chǔ)積極、消極情感詞典,加入針對(duì)手機(jī)評(píng)論領(lǐng)域的情感詞,構(gòu)建成完備的手機(jī)領(lǐng)域情感詞典,并基于情感分析算法設(shè)計(jì)訓(xùn)練詞典,基于判斷規(guī)則對(duì)用戶評(píng)論進(jìn)行情感傾向性分析。然后基于情感詞典得到積極情感均值、消極情感均值、積極情感方差、消極情感方差,同時(shí)結(jié)合用戶評(píng)分星級(jí)特征,并對(duì)其進(jìn)行獨(dú)熱編碼處理,采用K-means算法對(duì)用戶進(jìn)行聚類分析,利用手肘法確定最優(yōu)k值,并對(duì)各類用戶采用TextRank算法分析,挖掘提取用戶群體的興趣特征。最后將聚類分析的用戶類別作為因變量,利用支持向量機(jī)(support vector machines,SVM)、決策樹、隨機(jī)森林、K近鄰算法(Knearest neighbors,KNN)4種機(jī)器學(xué)習(xí)方法建立用戶分類預(yù)測(cè)模型,并對(duì)模型效果進(jìn)行評(píng)價(jià),以便于商家預(yù)知用戶價(jià)值類別,針對(duì)不同用戶類型進(jìn)行不同的營(yíng)銷和服務(wù)工作。

    1 基于情感詞典的用戶評(píng)論情感分析

    1.1 情感詞典的構(gòu)建

    將從京東商城采集到的Vivo手機(jī)用戶的評(píng)論數(shù)據(jù),通過(guò)初步清洗、文本去重、機(jī)械壓縮去重等數(shù)據(jù)清洗步驟完成數(shù)據(jù)的規(guī)整,以提高后續(xù)情感分析的精確性。

    基于詞典的情感分析賦予情感詞庫(kù)中每個(gè)詞相應(yīng)的情感傾向度權(quán)值,然后從文本中提取情感詞并計(jì)算情感得分,根據(jù)情感得分判斷文本的情感極性。構(gòu)造的詞典如下。

    1)積極、消極情感詞典。首先將HowNet情感詞典、中文情感極性詞典(NTUSD)、數(shù)據(jù)堂的正面與負(fù)面情緒詞整合,去除重復(fù)和無(wú)用單詞,構(gòu)成基礎(chǔ)積極情感詞典和消極情感詞典;然后將蘇州大學(xué)人類語(yǔ)言研究構(gòu)建的電子商務(wù)情感詞典(E-commerce sentiment dict,ECSD)(包括通用的情感詞條和電商領(lǐng)域特有的情感詞條)加載到基礎(chǔ)積極情感詞典和消極情感詞典中;最后利用基于Python語(yǔ)言的詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)算法從評(píng)論中抽取情感詞匯加入詞典,再次進(jìn)行篩選、去重處理。最終積極情感詞典包含5 841個(gè)詞語(yǔ),消極情感詞典包含6 184個(gè)詞語(yǔ),構(gòu)成完整的積極、消極情感詞典。

    2)程度副詞詞典。程度副詞對(duì)情感詞的修飾會(huì)使得情感詞的情感傾向程度發(fā)生變化,比沒(méi)有修飾之前更加強(qiáng)烈。為了準(zhǔn)確表達(dá)文本的情感傾向,將HowNet情感詞典中的6個(gè)等級(jí)的中文程度級(jí)別詞語(yǔ)重新賦以相應(yīng)的權(quán)重,以區(qū)分其表達(dá)的語(yǔ)氣情感強(qiáng)弱程度。程度副詞及權(quán)重見(jiàn)表1。

    表1 程度副詞及權(quán)重

    3)否定詞詞典。在手機(jī)評(píng)論文本情感分析中,若在情感詞匯之前出現(xiàn)否定詞,將會(huì)對(duì)情感詞表達(dá)起到情感反置作用,故將否定詞詞典中的詞匯權(quán)重設(shè)置為-1。采用常用的否定詞,并根據(jù)用戶評(píng)論文本進(jìn)行擴(kuò)充,最終否定詞詞典包含“不”“不能”“木有”“拒絕”等72個(gè)否定詞。

    4)關(guān)聯(lián)、轉(zhuǎn)折、歸總詞典。從句子情感而言,關(guān)聯(lián)詞、轉(zhuǎn)折詞或總結(jié)詞在中文語(yǔ)句中的出現(xiàn)頻率比較高,存在這些詞匯的評(píng)論語(yǔ)句情感更加重要,所表達(dá)的情感也更為強(qiáng)烈,忽略這些詞匯可能會(huì)使得情感極性出現(xiàn)誤差,故將該詞典的詞匯權(quán)重賦值為1.2。采用常用的關(guān)聯(lián)詞、轉(zhuǎn)折詞匯和歸總詞匯,包含“可是”“卻”“但是”“然而”“總而言之”“總之”等共22個(gè)詞匯。

    5)停用詞詞典。停用詞是指文本中經(jīng)常出現(xiàn)但是沒(méi)有意義的不攜帶有價(jià)值的功能性詞匯。過(guò)濾停用詞的目的是為了減少信息冗余,提高分析的效率和準(zhǔn)確性。首先使用哈工大停用詞詞庫(kù)過(guò)濾數(shù)據(jù)集中的停用詞,由于使用該停用詞庫(kù)過(guò)濾效果不干凈,故整合四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫(kù)、百度停用詞表,將3種停用詞庫(kù)利用Excel進(jìn)行停用詞的人工整理、匹配、篩選、去重;然后利用Python的TF-IDF算法重點(diǎn)篩選對(duì)手機(jī)評(píng)論數(shù)據(jù)無(wú)幫助和無(wú)意義的詞匯,加入停用詞詞典,停用詞表共包含2 185個(gè)詞匯;最后基于新的停用詞表對(duì)分詞后的用戶評(píng)論數(shù)據(jù)進(jìn)行二次過(guò)濾,對(duì)分詞結(jié)果進(jìn)行檢查,判斷其是否屬于停用詞,若分詞結(jié)果中包含停用詞則直接剔掉。

    1.2 情感分析算法設(shè)計(jì)

    傳統(tǒng)的基于情感詞典的文本情感分類是對(duì)人的記憶和判斷思維的最簡(jiǎn)單的模擬,通過(guò)學(xué)習(xí)來(lái)記憶一些基本詞匯,在大腦中形成一個(gè)基本的語(yǔ)料庫(kù),對(duì)輸入的句子進(jìn)行拆分,查看記憶的詞匯表中是否存在相應(yīng)的詞語(yǔ),然后根據(jù)詞語(yǔ)的類別判斷情感?;谠撍枷?對(duì)處理后的語(yǔ)料進(jìn)行句子級(jí)別的劃分,并加入構(gòu)建的手機(jī)領(lǐng)域詞典,通過(guò)計(jì)算句子里包含的所有情感詞的平均值得到情感得分,基于情感得分進(jìn)行情感分類。情感分析核心流程如圖1所示。

    圖1 基于情感詞典的情感分析核心流程

    本文的情感分析算法主要包含3部分。第1部分:讀取數(shù)據(jù)集,并對(duì)評(píng)論文本進(jìn)行切割轉(zhuǎn)換。將評(píng)論用中文常用標(biāo)點(diǎn)符號(hào)(句號(hào)、分號(hào)、問(wèn)號(hào)、感嘆號(hào)等)切割成不同的句子,并進(jìn)行分詞,提取每個(gè)分句中的情感詞。第2部分:情感詞定位。首先將處理后得到的單詞依次與預(yù)先構(gòu)建好的情感詞表逐個(gè)查找,讀取情感極性、權(quán)值以及位置,循環(huán)查找單詞,直至整句話判斷結(jié)束;然后在情感詞前查找程度詞,找到則停止搜尋,為程度副詞設(shè)置權(quán)值,并乘以情感值;在情感詞前查找否定詞,若數(shù)量為奇數(shù),乘以-1,若為偶數(shù),乘以1;在情感詞前查找關(guān)聯(lián)轉(zhuǎn)折歸總詞,發(fā)現(xiàn)后權(quán)值乘以1.2;最后倒序掃描感嘆號(hào)前的情感詞,發(fā)現(xiàn)后權(quán)值加倍,退出循環(huán)。第3部分:情感聚合。情感值計(jì)算的總體思路是先計(jì)算分句積極、消極情感值,再計(jì)算整句積極、消極情感值,之后計(jì)算積極、消極情感均值和積極、消極情感方差,最后將積極情感均值減去消極情感均值,作為評(píng)論的最終情感值?;谡Z(yǔ)義規(guī)則進(jìn)行權(quán)重加權(quán)匯總,兩情感詞之間的所有否定詞、程度副詞、關(guān)聯(lián)轉(zhuǎn)折歸總詞與兩情感詞中的后一情感詞構(gòu)成情感詞組,算法流程如圖2所示。

    圖2 情感得分算法流程圖

    情感值計(jì)算具體描述如下。

    1)若情感詞前不含有修飾詞,情感值Score為基本權(quán)重,即Score=w。

    2)若情感詞前含有程度副詞,情感值=情感詞權(quán)重w×程度副詞權(quán)重di,即Score=wdi。

    3)若情感詞前含有否定詞,情感值=否定詞權(quán)重n×情感詞權(quán)重w,即Score=nw。

    4)若同時(shí)含有程度副詞和否定詞,情感值=否定詞權(quán)重n×程度副詞權(quán)重di×情感詞權(quán)重w,即Score=ndiw。

    5)若情感詞前有關(guān)聯(lián)轉(zhuǎn)折歸總詞匯,情感值=1.2×原情感值,即Score=1.2wdin。

    6)若情感詞后有感嘆號(hào),新情感值=2×情感值,即Score=2wdin。

    1.3 情感詞典結(jié)果分析

    將預(yù)處理之后的27 223條關(guān)于Vivo手機(jī)的評(píng)論文本作為情感分析的數(shù)據(jù)集,利用Python語(yǔ)言中的pandas、numpy以及自己編寫的text_process庫(kù),實(shí)現(xiàn)讀取excel數(shù)據(jù)、分詞、詞性標(biāo)注、分句、去停用詞、獲取詞典的權(quán)值等功能,對(duì)用戶評(píng)論進(jìn)行情感傾向性分析,得到用戶評(píng)論文本的情感得分,并將情感強(qiáng)度值限制在-1和1之間,若評(píng)論情感值大于0,為正向;若小于0,為負(fù)向;若等于0,則為中性。對(duì)情感分析結(jié)果進(jìn)行統(tǒng)計(jì),用戶評(píng)價(jià)及情感傾向展示見(jiàn)表2,情感極性統(tǒng)計(jì)結(jié)果見(jiàn)表3。

    表2 部分用戶評(píng)價(jià)、情感得分及傾向

    表3 情感極性統(tǒng)計(jì)結(jié)果

    根據(jù)情感極性統(tǒng)計(jì)結(jié)果,在27 223條評(píng)論中,積極評(píng)論24 925條,占比91.56%,均值為0.81;消極評(píng)論1 573條,占比5.78%,均值為-0.52;中性評(píng)價(jià)725條,占比2.66%。整體來(lái)看,用戶對(duì)Vivo手機(jī)的評(píng)價(jià)是正向的。

    為了進(jìn)一步進(jìn)行情感態(tài)度分析,以-0.5、0、0.5為界限對(duì)情感值統(tǒng)計(jì)結(jié)果進(jìn)行級(jí)別劃分,將情感值區(qū)間劃分為非常消極、消極、一般、積極、非常積極,得到用戶各個(gè)級(jí)別情感態(tài)度的占比,情感態(tài)度描述統(tǒng)計(jì)結(jié)果見(jiàn)表4。

    表4 情感態(tài)度描述統(tǒng)計(jì)結(jié)果

    在所有積極評(píng)價(jià)中,“非常積極”的情感評(píng)論總體占比76.74%,在所有正向評(píng)論中占比為83.82%,平均情感值為0.90;“積極”的情感評(píng)論占比14.82%,在所有正向評(píng)論中占比為16.18%,平均情感值為0.35?!胺浅7e極”情感區(qū)間的用戶在正向評(píng)論中占比較高,且情感均值較高,可以定義為該區(qū)間用戶比較偏愛(ài)該品牌,是該品牌手機(jī)的重度擁護(hù)者,商家要重視這一部分用戶,增加用戶黏性,防止用戶流失。對(duì)于“積極”情感區(qū)間的用戶,雖然用戶情感傾向是積極的,但正向情感值比較低,手機(jī)廠商應(yīng)該予以重視。

    在所有消極評(píng)價(jià)中,“消極”的情感評(píng)論總體占比3.23%,在所有負(fù)向評(píng)論中占比為55.88%,情感均值為-0.25;“非常消極”的情感評(píng)論占比2.55%,在所有負(fù)向評(píng)論中占比為44.12%,情感均值為-0.86。對(duì)于“非常消極”情感區(qū)間的用戶,該區(qū)間用戶的負(fù)向情感均值極低,可以認(rèn)定該區(qū)間用戶與Vivo這一品牌手機(jī)不符,可忽略掉這部分用戶;而對(duì)于“消極”和 “一般”情感區(qū)間的用戶,該區(qū)間用戶流動(dòng)性比較強(qiáng),商家可以具體定位該區(qū)間用戶的評(píng)價(jià)內(nèi)容,根據(jù)用戶反饋內(nèi)容進(jìn)行手機(jī)質(zhì)量的改進(jìn),或者采取相應(yīng)的政策留住這些用戶,將這部分用戶轉(zhuǎn)化為積極用戶。

    基于本文的情感詞典及算法設(shè)計(jì)得到27 223條評(píng)論的手機(jī)好評(píng)度為91.56%,該值高于基于HowNet、NTSUSD得到的手機(jī)好評(píng)度85.96%,并且接近所爬取的京東官網(wǎng)旗艦店手機(jī)好評(píng)度93%。實(shí)驗(yàn)結(jié)果表明,本文的手機(jī)領(lǐng)域詞典以及情感分析算法對(duì)手機(jī)評(píng)論情感極性分析的結(jié)果與實(shí)際情況的適配度較高,可有效用于Vivo手機(jī)的情感分類。

    2 基于情感分析和K-means算法的用戶聚類分析

    2.1 K-means算法

    2.1.1 基本思想

    在數(shù)據(jù)集中根據(jù)一定策略選擇k個(gè)點(diǎn)作為每個(gè)簇的初始中心,然后觀察剩余的數(shù)據(jù),將數(shù)據(jù)劃分到距離這k個(gè)點(diǎn)最近的簇中,即將數(shù)據(jù)劃分成k個(gè)簇完成一次劃分,但形成的新簇并不一定是最好的劃分,因此生成的新簇中,重新計(jì)算每個(gè)簇的中心點(diǎn),然后在重新進(jìn)行劃分,直到每次劃分的結(jié)果保持不變。

    2.1.2 算法實(shí)現(xiàn)

    K-means算法是將樣本聚類成k個(gè)簇,具體算法描述如下。

    第1步:隨機(jī)選擇k個(gè)中心點(diǎn);

    第2步:把每個(gè)數(shù)據(jù)點(diǎn)分配到離它最近的中心點(diǎn);

    第3步:重新計(jì)算每類中的點(diǎn)到該類中心點(diǎn)距離的平均值;

    第4步:分配每個(gè)數(shù)據(jù)到它最近的中心點(diǎn);

    第5步:重復(fù)第3步和第4步,直到所有的觀測(cè)值不再被分配或是達(dá)到最大的迭代次數(shù),說(shuō)明聚類不可變,結(jié)束。

    算法流程如圖3所示。

    圖3 K-means聚類流程

    2.2 K-means聚類最優(yōu)k值的選取和實(shí)現(xiàn)

    K-means聚類算法中最優(yōu)k值的選取方法主要有手肘法和輪廓系數(shù)法,本文中采用手肘法選取最優(yōu)k值。手肘法的核心指標(biāo)是SSE(誤差平方和),即

    (1)

    式中:Ci為第i個(gè)簇;p為Ci中的樣本點(diǎn);mi為Ci的質(zhì)心(Ci中所有樣本的均值);SSE為所有樣本的聚類誤差,代表聚類效果的好壞。

    手肘法的核心思想是隨著聚類數(shù)k的增大,樣本劃分會(huì)更加精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,誤差平方和SSE會(huì)逐漸變小。當(dāng)k小于真實(shí)聚類數(shù)時(shí),由于k的增大會(huì)大幅增加每個(gè)簇的聚合程度,故SSE的下降幅度會(huì)很大,而當(dāng)k到達(dá)真實(shí)聚類數(shù)時(shí),再增加k所得到的聚合程度回報(bào)會(huì)迅速變小,SSE的下降幅度會(huì)驟減,并隨著k值的繼續(xù)增大而趨于平緩,即SSE和k的關(guān)系圖是一個(gè)手肘的形狀,而這個(gè)肘部對(duì)應(yīng)的k值就是數(shù)據(jù)的真實(shí)聚類數(shù)。

    對(duì)預(yù)處理后的數(shù)據(jù)利用手肘法選取最佳聚類數(shù)k的具體做法:基于Python語(yǔ)言中的sklearn,構(gòu)造聚類器,讓k從1開(kāi)始取值直到取到合適的上限(選取上限為11),對(duì)每一個(gè)k進(jìn)行聚類并且記下對(duì)應(yīng)的SSE,然后畫出k和SSE的關(guān)系圖,利用SSE選擇k,最后選取肘部對(duì)應(yīng)的k作為最佳聚類數(shù)。

    2.3 基于情感分析和K-means算法的用戶聚類結(jié)果分析

    首先對(duì)用戶評(píng)分星級(jí)進(jìn)行獨(dú)熱編碼預(yù)處理,然后結(jié)合情感詞典得到的用戶評(píng)論的積極情感均值、消極情感均值、積極情感方差、消極情感方差對(duì)27 223條數(shù)據(jù)進(jìn)行K-means聚類,并使用手肘法確定最優(yōu)k值,得到聚類的手肘圖和聚類統(tǒng)計(jì)結(jié)果,如圖4和表5所示。

    圖4 手肘圖確定k值

    表5 3類用戶聚類分析統(tǒng)計(jì)結(jié)果

    從手肘圖得到,在k=3時(shí),畸變程度得到大幅改善,故對(duì)于這個(gè)數(shù)據(jù)集的聚類而言,最佳聚類數(shù)應(yīng)該選3。經(jīng)過(guò)整理,得到表5所示的聚類結(jié)果。第1類用戶評(píng)分均為5分,且積極情感均值最高,為0.943,消極情感均值最低為0.060,積極情感方差最高為0.921,消極情感方差均為最低0.076,將該類用戶定義為A級(jí)別用戶;第2類用戶的評(píng)分為5分,積極、消極情感均值分別為0.439、0.218,積極、消極情感方差分別為0.314、0.219,將該類用戶定義為B級(jí)別用戶;第3類用戶評(píng)分為1~4分,積極情感均值最低,消極情感均值最高,分別為0.356、0.494,積極、消極情感方差分別為0.295、0.488,將該類用戶定義為C級(jí)別用戶。

    使用Python語(yǔ)言中的TextRank算法分別對(duì)3種類型的用戶進(jìn)行分析,得到A級(jí)別用戶對(duì)手機(jī)的關(guān)注點(diǎn)按重要程度排序分別是拍照效果、外觀、運(yùn)行、屏幕、手感、性價(jià)比、物流、電池、充電;B級(jí)別用戶對(duì)手機(jī)的關(guān)注點(diǎn)按重要程度排序分別是手機(jī)速度、屏幕、拍照、充電、外觀、電池、物流;C類用戶對(duì)手機(jī)的關(guān)注點(diǎn)按重要程度排序分別是手機(jī)外觀、運(yùn)行、拍照、屏幕、物流、電池、手感、性價(jià)比。由于C類用戶的滿意度比較低,說(shuō)明其對(duì)手機(jī)的要求更高,可以根據(jù)其評(píng)論,在手機(jī)外觀、運(yùn)行速度、拍照等方面進(jìn)行進(jìn)一步改進(jìn),既有利于提高C類用戶的滿意度,又可以增加A類與B類用戶的用戶黏度。以此類推,商家可根據(jù)不同類用戶關(guān)注頻次高低進(jìn)行相應(yīng)的營(yíng)銷工作以及手機(jī)質(zhì)量改進(jìn)工作,以進(jìn)一步提高客戶滿意度和品牌認(rèn)可度。

    3 基于情感分析和機(jī)器學(xué)習(xí)的用戶分類預(yù)測(cè)

    首先將數(shù)據(jù)集按照7∶3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集;然后將用戶細(xì)分的所屬類型結(jié)果作為因變量,將用戶評(píng)分星級(jí)、積極情感均值、消極情感均值、積極情感方差、消極情感方差作為自變量,在訓(xùn)練集上分別采用SVM、決策樹、KNN、隨機(jī)森林模型訓(xùn)練用戶分類預(yù)測(cè)模型,最后在測(cè)試集上測(cè)試模型效果。模型對(duì)A、B、C 3種用戶類別的分類結(jié)果見(jiàn)表6。

    表6 用戶分類模型運(yùn)行結(jié)果

    利用Python語(yǔ)言中的scikit-learn模塊來(lái)實(shí)現(xiàn)用戶群體分類,在隨機(jī)森林模型中,得到預(yù)測(cè)準(zhǔn)確率較高(99.829%)。因此將用戶類別作為因變量,基于隨機(jī)森林的用戶分類預(yù)測(cè)模型效果最優(yōu),故可采用隨機(jī)森林模型對(duì)用戶類型進(jìn)行預(yù)測(cè)。

    4 結(jié)語(yǔ)

    為了充分利用用戶評(píng)論內(nèi)容挖掘客戶和產(chǎn)品信息,能夠根據(jù)用戶屬性和情感值定位用戶類別,并開(kāi)展相應(yīng)的營(yíng)銷工作,進(jìn)行產(chǎn)品以及服務(wù)的升級(jí)改進(jìn),對(duì)Vivo手機(jī)在線評(píng)論進(jìn)行了充分地挖掘分析。首先在基于情感詞典的態(tài)度分析中,構(gòu)建了針對(duì)手機(jī)領(lǐng)域內(nèi)的情感詞典,基于訓(xùn)練的擴(kuò)充詞典,對(duì)手機(jī)領(lǐng)域用戶評(píng)論計(jì)算,得到每一條評(píng)論語(yǔ)句的情感得分,并基于得分結(jié)果進(jìn)行滿意度區(qū)間的劃分,針對(duì)每個(gè)區(qū)間分別進(jìn)行情感傾向分析,得到了較好的效果。然后基于情感詞典的結(jié)果,對(duì)用戶進(jìn)行價(jià)值區(qū)間的細(xì)分類,根據(jù)聚類結(jié)果進(jìn)行用戶預(yù)測(cè)模型的構(gòu)建,預(yù)測(cè)模型預(yù)測(cè)結(jié)果較好,可以用于新樣本的預(yù)測(cè)。依據(jù)情感詞典得到了4個(gè)情感指標(biāo)(積極情感均值、消極情感均值、積極情感方差、消極情感方差),并創(chuàng)新性地利用情感指標(biāo)構(gòu)建了用戶分類預(yù)測(cè)模型,將用戶分類,能夠有效幫助商家根據(jù)不同類別用戶實(shí)現(xiàn)自身產(chǎn)品與服務(wù)的優(yōu)化、營(yíng)銷與競(jìng)爭(zhēng)策略調(diào)整、精細(xì)化管理等實(shí)際問(wèn)題。利用用戶評(píng)論,構(gòu)造情感詞典所得到的4個(gè)情感指標(biāo),結(jié)合用戶的其他指標(biāo),對(duì)用戶分類,進(jìn)而根據(jù)用戶類型進(jìn)行服務(wù)營(yíng)銷的思想具有可移植性。該思路可用于其他手機(jī)品牌產(chǎn)品的用戶預(yù)測(cè),進(jìn)而提高服務(wù)質(zhì)量,為情感分析提供了新思路。

    從消費(fèi)者評(píng)論角度出發(fā),通過(guò)對(duì)Vivo手機(jī)評(píng)論的挖掘分析,結(jié)合實(shí)際情況,向商家提出以下幾點(diǎn)建議:①針對(duì)手機(jī)質(zhì)量問(wèn)題,建議商家在保證手機(jī)其他優(yōu)勢(shì)的基礎(chǔ)上,對(duì)手機(jī)電池、充電以及屏幕問(wèn)題進(jìn)行改進(jìn),整體提升手機(jī)的質(zhì)量;②針對(duì)客服售后服務(wù)問(wèn)題,建議電商平臺(tái)改進(jìn)相關(guān)制度,并對(duì)用戶購(gòu)物平臺(tái)的客服人員進(jìn)行素質(zhì)培養(yǎng),站在顧客角度提供各類優(yōu)化方案,讓用戶在溝通中產(chǎn)生共鳴,及時(shí)解決用戶反饋的各種問(wèn)題,提高解決糾紛的效率,保障消費(fèi)者權(quán)益,提高消費(fèi)滿意度;③針對(duì)不同類型的用戶,建議在服務(wù)中提升顧客購(gòu)買過(guò)程體驗(yàn),將商品銷售轉(zhuǎn)化為溝通和交流活動(dòng),豐富消費(fèi)體驗(yàn),滿足消費(fèi)者情感需求,提升顧客黏性,誘發(fā)消費(fèi)潛能,滿足不同層次的消費(fèi)需求。

    猜你喜歡
    消極詞典均值
    避免消極溝通
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
    詞典例證翻譯標(biāo)準(zhǔn)探索
    均值不等式失效時(shí)的解決方法
    均值與方差在生活中的應(yīng)用
    關(guān)于均值有界變差函數(shù)的重要不等式
    家庭教育:你種的是積極樹還是消極樹?
    海峽姐妹(2015年3期)2015-02-27 15:10:14
    “消極保護(hù)”不如“積極改變”
    對(duì)偶均值積分的Marcus-Lopes不等式
    长葛市| 阜南县| 惠水县| 高邮市| 织金县| 松溪县| 富源县| 永昌县| 新昌县| 望城县| 蒲城县| 扎兰屯市| 昌图县| 镇远县| 枣强县| 即墨市| 上思县| 泽普县| 思茅市| 凌云县| 石景山区| 隆化县| 临汾市| 新沂市| 庆安县| 南京市| 乾安县| 塘沽区| 榆社县| 财经| 洛川县| 崇州市| 新密市| 沂南县| 龙口市| 乌鲁木齐市| 张北县| 都江堰市| 同德县| 仙桃市| 浦东新区|