• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于在線評(píng)論的企業(yè)競(jìng)爭(zhēng)情報(bào)需求挖掘研究

      2021-01-15 13:17:40谷瑩李賀李葉葉劉嘉宇
      現(xiàn)代情報(bào) 2021年1期
      關(guān)鍵詞:競(jìng)爭(zhēng)情報(bào)在線評(píng)論情感分析

      谷瑩 李賀 李葉葉 劉嘉宇

      收稿日期:2020-09-08

      基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目“基于圖模型的多源異構(gòu)在線產(chǎn)品評(píng)論數(shù)據(jù)融合與知識(shí)發(fā)現(xiàn)研究”(項(xiàng)目編號(hào):71974075)。

      作者簡(jiǎn)介:谷瑩(1991-),女,博士研究生,研究方向:情報(bào)分析、數(shù)據(jù)挖掘。李賀(1964-),女,教授,研究方向:數(shù)據(jù)挖掘、知識(shí)管理。李葉葉(1994-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘。劉嘉宇(1995-),男,碩士研究生,研究方向:數(shù)據(jù)挖掘。

      摘 要:[目的/意義]提出一種基于在線產(chǎn)品評(píng)論的競(jìng)爭(zhēng)情報(bào)挖掘框架,為企業(yè)改進(jìn)產(chǎn)品設(shè)計(jì)和制定競(jìng)爭(zhēng)策略提供參考。[方法/過(guò)程]利用Word2vec技術(shù)構(gòu)建產(chǎn)品特征詞集合,識(shí)別用戶評(píng)論主題特征。然后使用情感分析方法對(duì)評(píng)論文本進(jìn)行分類(lèi),得到特征維度的評(píng)論情感。最后從產(chǎn)品主題特征和情感態(tài)度特征兩方面進(jìn)行數(shù)據(jù)分析,并以可視化結(jié)果呈現(xiàn)。[結(jié)果/結(jié)論]以汽車(chē)行業(yè)的評(píng)論數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法能夠有效提取產(chǎn)品情報(bào)信息,幫助企業(yè)有效識(shí)別自身品牌及競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)和劣勢(shì),為大數(shù)據(jù)環(huán)境下的競(jìng)爭(zhēng)情報(bào)挖掘提供方法指導(dǎo)。

      關(guān)鍵詞:在線評(píng)論;企業(yè);競(jìng)爭(zhēng)情報(bào);數(shù)據(jù)挖掘;Word2vec;情感分析;汽車(chē)行業(yè)

      DOI:10.3969/j.issn.1008-0821.2021.01.003

      〔中圖分類(lèi)號(hào)〕G250.25 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2021)01-0024-08

      Research on Demand Mining of Enterprise Competitive

      Intelligence Based on Online Reviews

      Gu Ying Li He Li Yeye Liu Jiayu

      (School of Management,Jilin University,Changchun 130022,China)

      Abstract:[Purpose/Significance]This paper proposes a competitive intelligence mining framework based on online product reviews,for the aim of providing a reference for companies to improve product design and formulate competitive strategies.[Method/Process]Word2vec was used to construct product feature word collections to identify user comment topic features.Then,the paper applied sentiment analysis methods to classify review texts and obtain review sentiment in feature dimensions.Finally,this paper took the review data of automobile industry as an example,and presented the visualization results.[Result/Conclusion]The experimental results showed that the method could effectively extract product information,help companies effectively identify the advantages and disadvantages of their own brands and competitors,and provide method guidance for competitive intelligence mining in a big data environment.

      Key words:online product reviews;enterprise;competitive Intelligence;data mining;Word2vec;sentiment analysis;automobile industry

      隨著Web技術(shù)的迅速發(fā)展和信息化的廣泛應(yīng)用,人們信息交流和信息獲取的方式發(fā)生了顯著變化。據(jù)CNNIC的第45次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2020年3月,中國(guó)網(wǎng)民規(guī)模為9.04億,互聯(lián)網(wǎng)普及率64.5%,較2018年底提升4.9個(gè)百分點(diǎn)[1]?;ヂ?lián)網(wǎng)環(huán)境下,越來(lái)越多的消費(fèi)者傾向于通過(guò)網(wǎng)絡(luò)平臺(tái)分享關(guān)于產(chǎn)品的使用體驗(yàn)和看法,這些評(píng)論以文本的形式傳播,從而形成網(wǎng)絡(luò)口碑。作為網(wǎng)絡(luò)口碑的主要來(lái)源,在線評(píng)論體現(xiàn)出消費(fèi)者對(duì)產(chǎn)品質(zhì)量的情感評(píng)價(jià)。研究表明,在線產(chǎn)品評(píng)論會(huì)影響消費(fèi)者的品牌認(rèn)知,從而影響其決策行為[2]。同時(shí)企業(yè)市場(chǎng)競(jìng)爭(zhēng)日趨激烈,產(chǎn)品同質(zhì)化嚴(yán)重,在線評(píng)論作為一種新型情報(bào)源,挖掘評(píng)論中潛在的價(jià)值,有助于企業(yè)經(jīng)營(yíng)管理和建立良好的品牌形象[3]。互聯(lián)網(wǎng)平臺(tái)為企業(yè)提供了開(kāi)放的信息渠道,通過(guò)獲取用戶反饋信息,企業(yè)可以進(jìn)行自我分析與競(jìng)爭(zhēng)對(duì)手分析,從而改進(jìn)產(chǎn)品設(shè)計(jì),制定正確的市場(chǎng)競(jìng)爭(zhēng)策略[4]。然而在線產(chǎn)品評(píng)論數(shù)量巨大,多以非結(jié)構(gòu)化文本呈現(xiàn),傳統(tǒng)分析方法難以適用,如何從海量的評(píng)論中提取高質(zhì)量的信息成為亟需解決的問(wèn)題。鑒于此,本文提出一種面向在線產(chǎn)品評(píng)論的競(jìng)爭(zhēng)情報(bào)需求挖掘框架,采用深度學(xué)習(xí)技術(shù)和情感分析方法,從用戶視角細(xì)粒度挖掘企業(yè)情報(bào)。

      1 相關(guān)研究

      1.1 在線評(píng)論特征詞抽取研究

      特征是用戶評(píng)論語(yǔ)句中粒度最細(xì)的評(píng)價(jià)單元,產(chǎn)品特征主要表現(xiàn)為消費(fèi)者對(duì)某一產(chǎn)品功能、組成部件及屬性的關(guān)注程度。產(chǎn)品特征抽取作為研究在線評(píng)論挖掘的關(guān)鍵技術(shù),特征抽取的準(zhǔn)確性直接影響評(píng)論挖掘的效果。關(guān)于產(chǎn)品關(guān)鍵詞抽取,學(xué)者們已經(jīng)積累了不少研究成果。Hu M等最早提出結(jié)合詞頻和關(guān)聯(lián)規(guī)則方法從產(chǎn)品評(píng)論中抽取候選關(guān)鍵詞,并使用剪枝過(guò)濾算法識(shí)別出評(píng)價(jià)對(duì)象及其功能特征[5]。Quan C等在產(chǎn)品特征提取研究中,將互信息法引入Tf-idf算法中,設(shè)計(jì)新的相似性度量方法用以評(píng)估候選對(duì)象與領(lǐng)域?qū)嶓w關(guān)系,據(jù)此實(shí)現(xiàn)無(wú)監(jiān)督的抽取方法[6]。王娟等結(jié)合句法結(jié)構(gòu)和依存關(guān)系抽取情感評(píng)價(jià)單元,完成了領(lǐng)域情感評(píng)價(jià)對(duì)象的自動(dòng)抽取,提高了情感傾向計(jì)算的準(zhǔn)確性[7]。彭云等利用句法分析和詞義理解獲取語(yǔ)義關(guān)系,提出SRC-LDA主題模型,挖掘特征詞與情感詞語(yǔ)義相關(guān)性,實(shí)現(xiàn)語(yǔ)義約束下的細(xì)粒度主題特征抽取[8]。王榮洋等基于條件隨機(jī)場(chǎng)模型,引入語(yǔ)義角色標(biāo)注方法,捕獲評(píng)價(jià)對(duì)象和情感詞的關(guān)系,用于評(píng)價(jià)對(duì)象的抽取[9]。已有研究主要通過(guò)詞頻規(guī)則或主題模型提取產(chǎn)品特征,然而這些方法沒(méi)有考慮詞語(yǔ)信息的深層語(yǔ)義聯(lián)系。

      近年來(lái),隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),神經(jīng)網(wǎng)絡(luò)模型在情感分析領(lǐng)域逐漸受到關(guān)注。相比其他模型,Word2vec以無(wú)監(jiān)督的方式從海量評(píng)論語(yǔ)料中學(xué)習(xí)詞語(yǔ)的向量表示,不需要人工標(biāo)注和復(fù)雜的特征工程[10],因而很多學(xué)者將Word2vec詞表征方法引入關(guān)鍵詞抽取研究中。如Poria S等結(jié)合詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)模型,提出基于深度學(xué)習(xí)方面的提取方法,改善了關(guān)鍵詞的抽取性能[11]。寧建飛等將詞向量模型引入Textrank算法中,依據(jù)詞匯相似度和鄰接關(guān)系構(gòu)建概率矩陣,實(shí)現(xiàn)詞圖迭代的關(guān)鍵詞抽取方法[12]。文秀賢等在商品特征提取任務(wù)中,利用Word2vec模型對(duì)評(píng)論關(guān)鍵詞向量化,采用K-means聚類(lèi)算法確定商品維度,提升了用戶偏好挖掘的準(zhǔn)確性[13]。綜上可知,與傳統(tǒng)的關(guān)鍵詞抽取方法相比,Word2vec模型能夠表達(dá)豐富的語(yǔ)境信息,更適合于關(guān)鍵詞抽取。

      1.2 在線評(píng)論與競(jìng)爭(zhēng)情報(bào)挖掘研究

      互聯(lián)網(wǎng)技術(shù)的發(fā)展帶來(lái)口碑傳播方式的變化。在線評(píng)論作為新型口碑傳播方式,是企業(yè)獲取消費(fèi)者意見(jiàn)反饋的重要信息來(lái)源和途徑,對(duì)企業(yè)開(kāi)展競(jìng)爭(zhēng)情報(bào)工作具有重要意義。如何從在線評(píng)論中挖掘潛在的規(guī)律是競(jìng)爭(zhēng)情報(bào)領(lǐng)域的重點(diǎn)關(guān)注問(wèn)題。

      目前,國(guó)內(nèi)外學(xué)者已對(duì)競(jìng)爭(zhēng)企業(yè)的在線評(píng)論挖掘進(jìn)行了大量研究。國(guó)外學(xué)者研究主要集中在商業(yè)情報(bào)價(jià)值分析方面。Zhang W等以客戶評(píng)論反饋意見(jiàn)為數(shù)據(jù)集,利用情感分析系統(tǒng)挖掘產(chǎn)品評(píng)價(jià)語(yǔ)句的情感極性,從而識(shí)別出影響用戶滿意度的因素[14]。He W等通過(guò)收集競(jìng)爭(zhēng)對(duì)手的評(píng)論數(shù)據(jù),提出基于情感基準(zhǔn)的社交媒體競(jìng)爭(zhēng)分析框架,以增強(qiáng)企業(yè)營(yíng)銷(xiāo)情報(bào)并進(jìn)一步改善客戶體驗(yàn)[15]。Xu K等利用亞馬遜評(píng)論數(shù)據(jù),提出圖模型方法從用戶評(píng)論中挖掘產(chǎn)品比較關(guān)系并可視化,以幫助企業(yè)進(jìn)行風(fēng)險(xiǎn)管理和提供決策支持[16]。Xu X等將文本挖掘方法和LSA模型應(yīng)用于酒店用戶評(píng)論中,從消費(fèi)者滿意度的角度挖掘用戶對(duì)產(chǎn)品的評(píng)價(jià),從而改進(jìn)企業(yè)的市場(chǎng)定位和營(yíng)銷(xiāo)策略[17]。He W等以社交網(wǎng)站的比薩連鎖店為研究案例,利用文本挖掘和價(jià)值分析方法,深入挖掘不同連鎖店的用戶偏好,有效地評(píng)估了不同企業(yè)的競(jìng)爭(zhēng)環(huán)境[18]。

      國(guó)內(nèi)學(xué)者更注重探索情感分析和機(jī)器學(xué)習(xí)技術(shù)在產(chǎn)品競(jìng)爭(zhēng)情報(bào)領(lǐng)域的應(yīng)用。翟東升等爬取手機(jī)評(píng)論數(shù)據(jù),通過(guò)構(gòu)建情感詞典的方法挖掘企業(yè)競(jìng)爭(zhēng)情報(bào),分析競(jìng)爭(zhēng)產(chǎn)品的優(yōu)勢(shì)及需要改進(jìn)的方向[19]。張洋等提出基于多源用戶評(píng)論數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)模型,從內(nèi)容分析、情感分析和共現(xiàn)分析角度挖掘用戶評(píng)論數(shù)據(jù),從而幫助企業(yè)確定產(chǎn)品競(jìng)爭(zhēng)領(lǐng)域[20]。肖璐等利用信息抽取技術(shù)和情感分析技術(shù)對(duì)本企業(yè)產(chǎn)品特征進(jìn)行優(yōu)劣勢(shì)分析,并根據(jù)產(chǎn)品相似度算法識(shí)別出企業(yè)競(jìng)爭(zhēng)對(duì)手[21]。聶卉等利用機(jī)器學(xué)習(xí)方法對(duì)餐飲業(yè)的在線評(píng)論數(shù)據(jù)進(jìn)行挖掘,實(shí)現(xiàn)了企業(yè)細(xì)粒度的競(jìng)爭(zhēng)情報(bào)獲取[22]。王樹(shù)義等提出將情感分類(lèi)和LDA主題模型結(jié)合的方法,對(duì)企業(yè)新聞評(píng)論進(jìn)行分析,識(shí)別出不同企業(yè)新聞的關(guān)注重點(diǎn),提高了主題抽取的效率[23]。陳元等以競(jìng)爭(zhēng)情報(bào)工作流程為出發(fā)點(diǎn),利用SVM和SO-LSA算法對(duì)用戶評(píng)論數(shù)據(jù)進(jìn)行情感分析,進(jìn)而獲取企業(yè)產(chǎn)品情報(bào)[24]。

      通過(guò)文獻(xiàn)梳理可以發(fā)現(xiàn),國(guó)內(nèi)外關(guān)于競(jìng)爭(zhēng)情報(bào)的研究?jī)A向于和情感分析相結(jié)合,但現(xiàn)有研究存在情感分析粒度不夠細(xì)致、產(chǎn)品特征提取方法較為簡(jiǎn)單等問(wèn)題。而企業(yè)產(chǎn)品特征的情報(bào)挖掘更適合細(xì)粒度情感分析[25]。因此,本文以細(xì)粒度情感分析為出發(fā)點(diǎn),提出基于在線產(chǎn)品評(píng)論的企業(yè)競(jìng)爭(zhēng)情報(bào)分析框架,以汽車(chē)品牌的評(píng)論數(shù)據(jù)為數(shù)據(jù)源,結(jié)合詞向量技術(shù)和自然語(yǔ)言處理技術(shù),挖掘競(jìng)爭(zhēng)企業(yè)產(chǎn)品情報(bào),為企業(yè)品牌營(yíng)銷(xiāo)和戰(zhàn)略定位提供參考。

      2 基于在線產(chǎn)品評(píng)論的競(jìng)爭(zhēng)情報(bào)挖掘框架

      為了準(zhǔn)確、高效地獲取企業(yè)情報(bào)信息,本研究基于Word2vec構(gòu)建了一個(gè)在線產(chǎn)品評(píng)論競(jìng)爭(zhēng)情報(bào)挖掘框架,具體任務(wù)包括:①通過(guò)爬蟲(chóng)技術(shù)抓取競(jìng)爭(zhēng)企業(yè)的在線評(píng)論文本并進(jìn)行預(yù)處理,形成實(shí)驗(yàn)數(shù)據(jù)集;②對(duì)處理后的文本抽取產(chǎn)品關(guān)鍵詞,借助Word2vec學(xué)習(xí)特征詞在專業(yè)領(lǐng)域的向量表達(dá),得到產(chǎn)品特征指標(biāo)詞集合;③利用深度學(xué)習(xí)情感分類(lèi)模型獲取情感標(biāo)簽,根據(jù)特征維度匯聚產(chǎn)品評(píng)論情感;④根據(jù)競(jìng)爭(zhēng)企業(yè)評(píng)論挖掘結(jié)果進(jìn)行可視化分析。

      2.1 在線產(chǎn)品評(píng)論數(shù)據(jù)獲取與處理

      本文以專業(yè)社交媒體測(cè)評(píng)網(wǎng)站為數(shù)據(jù)來(lái)源。為了全面獲取用戶評(píng)論數(shù)據(jù),實(shí)驗(yàn)通過(guò)Python制定相應(yīng)規(guī)則抓取汽車(chē)評(píng)論文本。抓取的記錄包括評(píng)論內(nèi)容、用戶名、評(píng)論時(shí)間、產(chǎn)品類(lèi)型等字段,將采集到的數(shù)據(jù)存放于Excel文件中保存,提取評(píng)論內(nèi)容字段信息,作為評(píng)論語(yǔ)料。為確保數(shù)據(jù)分析的質(zhì)量,需要清理噪音數(shù)據(jù),去除與評(píng)論主題無(wú)關(guān)的廣告信息和重復(fù)評(píng)論記錄。分詞是自然語(yǔ)言處理的基礎(chǔ)工作,由于Jieba分詞簡(jiǎn)單易用,對(duì)中文文本處理效果較好,所以本研究使用該工具對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。為提高分詞準(zhǔn)確性,根據(jù)初始分詞結(jié)果和領(lǐng)域詞典構(gòu)建自定義詞典,并加載停用詞表,去除與產(chǎn)品特征和情感表達(dá)無(wú)關(guān)的詞語(yǔ),為后續(xù)的分析做準(zhǔn)備。

      2.2 基于詞向量的特征提取

      Word2vec是由Mikolov T等提出的一種詞語(yǔ)語(yǔ)義計(jì)算工具[26],通過(guò)神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練模型,然后將詞語(yǔ)轉(zhuǎn)化為詞向量,映射到高維空間中進(jìn)行向量運(yùn)算,從而預(yù)測(cè)與其語(yǔ)義相關(guān)的詞語(yǔ)。Word2vec包含兩種模型:CBOW模型和Skip-gram模型。CBOW模型是通過(guò)周?chē)~預(yù)測(cè)當(dāng)前詞語(yǔ)概率;而Skip-gram模型則依據(jù)當(dāng)前詞預(yù)測(cè)周?chē)~語(yǔ)的概率。由于Skip-gram模型對(duì)低頻詞匯處理具有優(yōu)勢(shì)[27],因此本文采用Skip-gram模型進(jìn)行訓(xùn)練,模型主要由輸入層、投影層、輸出層組成,其結(jié)構(gòu)如圖2所示。

      Skip-gram模型主要通過(guò)隨機(jī)梯度下降算法訓(xùn)練目標(biāo)函數(shù),模型目標(biāo)是根據(jù)當(dāng)前詞語(yǔ)預(yù)測(cè)上下文的信息。模型訓(xùn)練完成后,可以獲得詞語(yǔ)的向量表示,詞語(yǔ)之間的相似度通過(guò)余弦距離來(lái)衡量。語(yǔ)義相似度的計(jì)算公式為:

      Semantic_similarity=cosθ=u·vu·v(1)

      其中,u和v分別表示兩個(gè)詞匯的詞向量,語(yǔ)義相似度的取值為[0,1]。

      產(chǎn)品特征抽取是用戶評(píng)論挖掘的基礎(chǔ),同時(shí)在企業(yè)競(jìng)爭(zhēng)情報(bào)挖掘環(huán)節(jié)起著關(guān)鍵作用,故本文采用Word2vec詞向量聚類(lèi)的方法構(gòu)建產(chǎn)品特征詞集,產(chǎn)品特征詞集構(gòu)建步驟如下:

      1)初始特征詞匯選取。對(duì)經(jīng)過(guò)預(yù)處理后評(píng)論文本中的名詞和動(dòng)詞詞頻進(jìn)行統(tǒng)計(jì),選取高頻詞語(yǔ)作為種子詞語(yǔ),然后將詞義相同的特征詞進(jìn)行歸類(lèi),形成初始產(chǎn)品特征指標(biāo)詞集。

      2)詞向量訓(xùn)練。利用Gensim庫(kù)的Word2vec工具對(duì)分詞后的評(píng)論語(yǔ)料進(jìn)行訓(xùn)練,可以得到詞向量模型以及相應(yīng)維度的詞語(yǔ)向量表示。上下文窗口距離和向量空間維度是模型訓(xùn)練的重要參數(shù),窗口越大,涉及的語(yǔ)境信息越多,向量表征效果越好。本文將上下文窗口距離設(shè)為5,詞語(yǔ)向量維度500。

      3)產(chǎn)品特征詞集構(gòu)建。為了全面獲取產(chǎn)品特征,使用Word2vec模型計(jì)算評(píng)論集中詞語(yǔ)與初始指標(biāo)詞語(yǔ)的夾角余弦值,選取相似度較高的若干詞語(yǔ)作為候選特征詞,完成產(chǎn)品特征詞庫(kù)的擴(kuò)充。

      2.3 評(píng)論情感分類(lèi)

      使用基于深度學(xué)習(xí)的情感自動(dòng)分類(lèi)模型,對(duì)汽車(chē)評(píng)論文本進(jìn)行情感分類(lèi)。獲取評(píng)論數(shù)據(jù)集的評(píng)價(jià)短語(yǔ),這些短語(yǔ)經(jīng)過(guò)模型處理后,每一個(gè)評(píng)價(jià)短語(yǔ)會(huì)被標(biāo)記為帶有正負(fù)極性的情感標(biāo)簽。

      本文借助百度AI開(kāi)放平臺(tái)提供的深度語(yǔ)義情感分析模型對(duì)評(píng)論文本進(jìn)行細(xì)粒度情感分析。首先運(yùn)用Python語(yǔ)言獲取Access Token,然后調(diào)用AIPNLP模塊,對(duì)輸入的文本進(jìn)行循環(huán)處理,最終輸出評(píng)論情感標(biāo)簽及評(píng)論情感極性。Senta情感分析系統(tǒng)是基于大規(guī)模評(píng)論語(yǔ)料進(jìn)行訓(xùn)練,能夠?qū)斎胛谋具M(jìn)行語(yǔ)義理解,并基于語(yǔ)義表示進(jìn)行情感傾向判斷,情感分類(lèi)準(zhǔn)確度較高。

      2.4 情感值量化與可視化分析

      針對(duì)抽取的特征-評(píng)價(jià)短語(yǔ),按產(chǎn)品屬性匯聚評(píng)價(jià)情感詞,統(tǒng)計(jì)用戶對(duì)同一屬性的情感傾向,實(shí)現(xiàn)用戶情感的量化分析。通過(guò)特征-評(píng)價(jià)短語(yǔ)的匯聚,得到不同品牌用戶關(guān)注特征的正面評(píng)論和負(fù)面評(píng)論比例分布,有助于企業(yè)從用戶角度獲取有價(jià)值的信息,從而識(shí)別品牌特征優(yōu)劣,更好地改進(jìn)產(chǎn)品設(shè)計(jì)以滿足用戶需求。

      3 實(shí)驗(yàn)過(guò)程及結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源

      太平洋汽車(chē)網(wǎng)是國(guó)內(nèi)專業(yè)的汽車(chē)測(cè)評(píng)網(wǎng)站,網(wǎng)站具有覆蓋范圍廣、專業(yè)性強(qiáng)、商業(yè)化程度低等特點(diǎn),網(wǎng)站的評(píng)論內(nèi)容能夠真實(shí)反映用戶見(jiàn)解和情感信息。本文以太平洋汽車(chē)網(wǎng)為研究對(duì)象,利用數(shù)據(jù)挖掘方法,實(shí)現(xiàn)競(jìng)爭(zhēng)情報(bào)信息的獲取。根據(jù)品牌知名度和產(chǎn)品綜合排名,選取桑塔納和卡羅拉兩個(gè)品牌作為研究樣本,利用Python編程抓取研究數(shù)據(jù),截止時(shí)間為2020年5月25日,共采集9 139條評(píng)論語(yǔ)料,經(jīng)數(shù)據(jù)清洗后得到實(shí)驗(yàn)數(shù)據(jù)集。借助Jieba函數(shù)對(duì)實(shí)驗(yàn)文本進(jìn)行分詞處理,同時(shí)加入自定義詞表和停用詞表,得到最終分詞結(jié)果。

      3.2 產(chǎn)品特征指標(biāo)提取和分類(lèi)

      針對(duì)汽車(chē)評(píng)論數(shù)據(jù)集,根據(jù)句法規(guī)則對(duì)其進(jìn)行標(biāo)注,按照標(biāo)注結(jié)果選取評(píng)論中的動(dòng)詞和名詞作為備選產(chǎn)品特征指標(biāo)詞,選取詞頻統(tǒng)計(jì)排名前100的詞為產(chǎn)品特征指標(biāo)詞。由于存在非領(lǐng)域特征詞,需要人工對(duì)其進(jìn)行篩選,將篩選后的詞語(yǔ)進(jìn)行分類(lèi),對(duì)同義詞進(jìn)行合并,作為產(chǎn)品特征種子詞;將分詞后的評(píng)論文本作為Word2vec的輸入語(yǔ)料,借助Gensim庫(kù)的Word2vec函數(shù)訓(xùn)練生成詞向量文件,利用相似度函數(shù),計(jì)算種子詞語(yǔ)的相似特征詞。產(chǎn)品指標(biāo)詞的詞向量結(jié)果如表1所示。以指標(biāo)詞“造型”為例,相似度排名前30的詞語(yǔ)如表2所示。按照上述方法,擴(kuò)充種子詞匯,形成最終產(chǎn)品特征詞集,如表3所示。

      3.3 競(jìng)爭(zhēng)情報(bào)挖掘結(jié)果分析

      本研究共獲得80 285條特征-情感詞對(duì),通過(guò)用戶評(píng)論挖掘,將產(chǎn)品主題特征劃分為9個(gè)維度。根據(jù)產(chǎn)品特征詞分類(lèi)結(jié)果,計(jì)算用戶對(duì)產(chǎn)品特征的關(guān)注程度;將產(chǎn)品特征和用戶評(píng)論情感匯聚,計(jì)算不同主題特征的用戶情感,實(shí)現(xiàn)用戶評(píng)論細(xì)粒度情感分析。

      3.3.1 產(chǎn)品關(guān)注特征對(duì)比分析

      圖3顯示了用戶對(duì)兩個(gè)品牌產(chǎn)品特征的關(guān)注情況分布。可以看出,用戶對(duì)桑塔納和卡羅拉的產(chǎn)品關(guān)注特征基本一致,主要體現(xiàn)在空間、舒適性、外觀、性價(jià)比、動(dòng)力方面。不同的是,在空間和性價(jià)比特征上,用戶對(duì)卡羅拉的關(guān)注程度明顯高于桑塔納;而在動(dòng)力和系統(tǒng)方面,用戶對(duì)桑塔納的關(guān)注程度較高。說(shuō)明對(duì)于某一產(chǎn)品特征,用戶對(duì)不同品牌的關(guān)注程度有所不同??傮w而言,企業(yè)應(yīng)準(zhǔn)確把握和評(píng)估用戶產(chǎn)品關(guān)注特征,確定企業(yè)品牌的重點(diǎn)發(fā)展方面,找到產(chǎn)品創(chuàng)新點(diǎn),以吸引更多的用戶。

      3.3.2 品牌情感特征對(duì)比分析

      根據(jù)情感分類(lèi)結(jié)果,計(jì)算用戶情感極性,繪制品牌情感特征柱形圖。根據(jù)圖4可知,該品牌汽車(chē)在外觀、空間、操控等方面好評(píng)率占比較高,用戶認(rèn)可度較大,因此這些特征可以作為該品牌營(yíng)銷(xiāo)的優(yōu)勢(shì)和亮點(diǎn),從而使產(chǎn)品更加具有競(jìng)爭(zhēng)力。但是在動(dòng)力特征上,品牌負(fù)面評(píng)價(jià)占比較大。大部分用戶對(duì)產(chǎn)品動(dòng)力表現(xiàn)不滿意,動(dòng)力性差是消費(fèi)者對(duì)產(chǎn)品使用的整體感受,是產(chǎn)品營(yíng)銷(xiāo)的劣勢(shì),不利于產(chǎn)品的競(jìng)爭(zhēng),設(shè)計(jì)人員應(yīng)重點(diǎn)對(duì)動(dòng)力特征進(jìn)行改進(jìn)。而內(nèi)飾和舒適性屬性用戶滿意度一般,沒(méi)有明顯態(tài)度傾向,說(shuō)明這兩個(gè)屬性是企業(yè)繼續(xù)努力提升的兩個(gè)產(chǎn)品特征。

      圖5為卡羅拉用戶評(píng)論情感量化結(jié)果。可以看出,該品牌產(chǎn)品“空間”屬性的用戶正面評(píng)價(jià)比例最高,大多數(shù)關(guān)于空間的評(píng)價(jià)是空間寬敞、儲(chǔ)物空間豐富、容量足等,說(shuō)明用戶對(duì)該品牌的空間特征很滿意。但產(chǎn)品舒適性方面評(píng)分較低,主要體現(xiàn)在隔音效果不好、胎噪聲大、乘坐不舒適等,研究人員應(yīng)予以重視。而系統(tǒng)配置的好評(píng)率最低,說(shuō)明用戶對(duì)產(chǎn)品配置最為不滿,配置不足是該品牌的痛點(diǎn)所在,企業(yè)應(yīng)盡快對(duì)痛點(diǎn)問(wèn)題進(jìn)行改進(jìn)。

      綜上可以看出,桑塔納在外觀、操控、油耗方面優(yōu)勢(shì)較為突出,用戶整體評(píng)價(jià)表現(xiàn)為高認(rèn)可度,但用戶對(duì)系統(tǒng)配置較為不滿;卡羅拉在外觀和操控上用戶滿意度也較高,而油耗特征的表現(xiàn)不如桑塔納突出,但內(nèi)飾和系統(tǒng)配置方面比桑塔納更具有吸引力。根據(jù)以上分析可知,兩個(gè)品牌在外觀和操控方面整體好評(píng)率較高,表明獲得了用戶普遍認(rèn)可,而系統(tǒng)配置特征都顯示出低滿意度,說(shuō)明企業(yè)應(yīng)注重產(chǎn)品機(jī)械部件等硬件方面性能的提升。不同企業(yè)品牌在產(chǎn)品特征方面各有優(yōu)劣,企業(yè)應(yīng)針對(duì)自身的優(yōu)劣對(duì)產(chǎn)品進(jìn)行改進(jìn),在了解競(jìng)爭(zhēng)對(duì)手的產(chǎn)品特征情況下,保持自己的優(yōu)勢(shì)特征,改進(jìn)劣勢(shì)特征,對(duì)企業(yè)的長(zhǎng)久發(fā)展具有重要作用。

      3.3.3 品牌服務(wù)特征對(duì)比分析

      根據(jù)關(guān)鍵詞抽取結(jié)果,將產(chǎn)品評(píng)論服務(wù)特征分為3類(lèi),分別為售后維修、故障情況和服務(wù)態(tài)度。根據(jù)服務(wù)特征詞分類(lèi)表,利用Excel對(duì)用戶評(píng)論數(shù)量進(jìn)行統(tǒng)計(jì),計(jì)算產(chǎn)品服務(wù)特征的用戶關(guān)注度,產(chǎn)品服務(wù)特征的評(píng)論占比統(tǒng)計(jì)結(jié)果如圖6所示。

      從圖6可以看出,桑塔納售后維修的評(píng)論占比最高,服務(wù)態(tài)度和故障情況的評(píng)論占比相對(duì)較低,僅占據(jù)服務(wù)特征總體評(píng)論的1/4;對(duì)卡羅拉而言,用戶對(duì)故障情況的討論明顯高于服務(wù)態(tài)度和售后維修,并且用戶對(duì)服務(wù)態(tài)度的討論最少。綜上可知,在服務(wù)特征評(píng)論中,售后維修和故障情況是兩個(gè)品牌的關(guān)注重點(diǎn),企業(yè)應(yīng)加強(qiáng)對(duì)產(chǎn)品服務(wù)質(zhì)量的改進(jìn)。

      3.3.4 細(xì)粒度評(píng)價(jià)對(duì)比分析

      圖7顯示了用戶關(guān)于動(dòng)力屬性的細(xì)粒度評(píng)價(jià)統(tǒng)計(jì)分布。由圖7可知,動(dòng)力屬性評(píng)價(jià)主要包括超車(chē)、起步、加速、提速和動(dòng)力性等方面。從評(píng)論中可以看出,正面評(píng)價(jià)主要表現(xiàn)為提速效果好、起步輕松、加速能力出眾、動(dòng)力表現(xiàn)優(yōu)秀、超車(chē)迅速。而負(fù)面評(píng)價(jià)表現(xiàn)為超車(chē)?yán)щy、加速能力弱、提速表現(xiàn)不好、起步速度慢、動(dòng)力性差。由此可知,用戶關(guān)于動(dòng)力特征的關(guān)注方面較為集中,動(dòng)力能力的提升對(duì)企業(yè)來(lái)說(shuō)至關(guān)重要,有利于企業(yè)口碑的改善,塑造良好企業(yè)形象,從而提高消費(fèi)者的滿意度。

      4 結(jié)束語(yǔ)

      網(wǎng)絡(luò)評(píng)論日益豐富,大數(shù)據(jù)環(huán)境下的競(jìng)爭(zhēng)情報(bào)挖掘具有重要理論意義和應(yīng)用價(jià)值。本文以社交媒體評(píng)論數(shù)據(jù)為研究對(duì)象,提出一種面向在線產(chǎn)品評(píng)論的競(jìng)爭(zhēng)情報(bào)挖掘框架,該框架綜合運(yùn)用自然語(yǔ)言處理技術(shù)和深度學(xué)習(xí)技術(shù),從用戶關(guān)注度和滿意度兩方面對(duì)產(chǎn)品評(píng)論數(shù)據(jù)進(jìn)行分析,通過(guò)Word2vec構(gòu)建產(chǎn)品特征詞庫(kù),實(shí)現(xiàn)產(chǎn)品特征詞聚類(lèi);并在此基礎(chǔ)上分析用戶情感傾向,據(jù)此實(shí)現(xiàn)細(xì)粒度情感分析。為驗(yàn)證模型可行性,以桑塔納和卡羅拉兩個(gè)競(jìng)爭(zhēng)品牌作為研究案例進(jìn)行實(shí)驗(yàn)分析。依據(jù)實(shí)驗(yàn)結(jié)果,本文提出的模型和方法是有效的,運(yùn)用這種方法可以將用戶生成內(nèi)容轉(zhuǎn)化為有價(jià)值的情報(bào),幫助企業(yè)系統(tǒng)分析自身品牌及競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)和劣勢(shì),從而為產(chǎn)品改進(jìn)和戰(zhàn)略規(guī)劃提供決策依據(jù)。本研究也存在一些不足:本文僅利用產(chǎn)品評(píng)論內(nèi)容數(shù)據(jù)進(jìn)行分析,沒(méi)有考慮到時(shí)間因素和其他形式數(shù)據(jù);研究框架有待完善,情感分類(lèi)算法還需進(jìn)一步優(yōu)化,未來(lái)研究將考慮利用多平臺(tái)數(shù)據(jù)進(jìn)行深入分析。

      參考文獻(xiàn)

      [1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第45次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202004/P020200428596599037028.pdf,2020-05-25.

      [2]Hu N,Liu L,Zhang J J.Do Online Reviews Affect Product Sales?The Role of Reviewer Characteristics and Temporal Effects[J].Information Technology & Management,2008,9(3):201-214.

      [3]王仁武,宋家怡,陳川寶.基于Word2vec的情感分析在品牌認(rèn)知中的應(yīng)用研究[J].圖書(shū)情報(bào)工作,2017,61(22):6-12.

      [4]周珍妮,黃曉斌.網(wǎng)絡(luò)用戶評(píng)論在企業(yè)競(jìng)爭(zhēng)情報(bào)研究中的應(yīng)用[J].情報(bào)理論與實(shí)踐,2012,35(5):15-20.

      [5]Hu M,Liu B.Mining and Summarizing Customer Reviews[C]//Tenth Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.ACM,2004.

      [6]Quan C,Ren F.Unsupervised Product Feature Extraction for Feature-oriented Opinion Determination[J].Information Ences,2014,272:16-28.

      [7 ]王娟,曹樹(shù)金,謝建國(guó).基于短語(yǔ)句法結(jié)構(gòu)和依存句法分析的情感評(píng)價(jià)單元抽取[J].情報(bào)理論與實(shí)踐,2017,40(3):107-113.

      [8]彭云,萬(wàn)常選,江騰蛟,等.基于語(yǔ)義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報(bào),2017,28(3):676-693.

      [9]王榮洋,鞠久朋,李壽山,等.基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J].中文信息學(xué)報(bào),2012,26(2):56-61.

      [10]李楓林,柯佳.詞向量語(yǔ)義表示研究進(jìn)展[J].情報(bào)科學(xué),2019,37(5):155-165.

      [11]Poria S,Cambria E,Gelbukh A,et al.Aspect Extraction for Opinion Mining with a Deep Convolutional Neural Network[J].Knowledge Based Systems,2016:42-49.

      [12]寧建飛,劉降珍.融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,(6):20-27.

      [13]文秀賢,徐健.基于用戶評(píng)論的商品特征提取及特征價(jià)格研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(7):42-51.

      [14]Zhang W,Xu H,Wan W.Weakness Finder:Find Product Weakness from Chinese Reviews By Using Aspects Based Sentiment Analysis[J].Expert Systems with Applications,2012,39(11):10283-10291.

      [15]He W,Wu H,Yan G,et al.A Novel Social Media Competitive Analytics Framework with Sentiment Benchmarks[J].Information & Management,2015,52(7):801-812.

      [16]Xu K,Liao S S,Li J,et al.Mining Comparative Opinions from Customer Reviews for Competitive Intelligence[J].Decision Support Systems,2011,50(4):743-754.

      [17]Xu X,Wang X,Li Y,et al.Business Intelligence in Online Customer Textual Reviews:Understanding Consumer Perceptions and Influential Factors[J].International Journal of Information Management,2017,37(6):673-683.

      [18]He W,Zha S,Li L.Social Media Competitive Analysis and Text Mining:A Case Study in the Pizza Industry[J].International Journal of Information Management,2013,33(3):464-472.

      [19]翟東升,徐穎,黃魯成.基于產(chǎn)品評(píng)論挖掘的競(jìng)爭(zhēng)產(chǎn)品優(yōu)勢(shì)分析[J].情報(bào)雜志,2013,32(2):45-51.

      [20]張洋,凌婉陽(yáng).基于多源社會(huì)化媒體評(píng)論的競(jìng)爭(zhēng)情報(bào)挖掘研究[J].情報(bào)理論與實(shí)踐,2015,38(7):59-66.

      [21]肖璐,陳果,劉繼云.基于情感分析的企業(yè)產(chǎn)品級(jí)競(jìng)爭(zhēng)對(duì)手識(shí)別研究——以用戶評(píng)論為數(shù)據(jù)源[J].圖書(shū)情報(bào)工作,2016,60(1):83-90.

      [22]聶卉,李通,何歡,等.基于在線評(píng)論的商業(yè)競(jìng)爭(zhēng)情報(bào)自動(dòng)獲取[J].情報(bào)雜志,2018,37(10):167-173.

      [23]王樹(shù)義,廖樺濤,吳查科.基于情感分類(lèi)的競(jìng)爭(zhēng)企業(yè)新聞文本主題挖掘[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(3):70-78.

      [24]陳元,趙靜.基于WEB用戶產(chǎn)品評(píng)論的企業(yè)競(jìng)爭(zhēng)情報(bào)挖掘?qū)嵶C研究[J].情報(bào)科學(xué),2016,34(4):80-85.

      [25]唐曉波,劉廣超.細(xì)粒度情感分析研究綜述[J].圖書(shū)情報(bào)工作,2017,61(5):132-140.

      [26]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Advances in Neural Information Processing Systems,2013:3111-3119.

      [27]王仁武,陳川寶,孟現(xiàn)茹.基于詞向量擴(kuò)展的學(xué)術(shù)資源語(yǔ)義檢索技術(shù)[J].圖書(shū)情報(bào)工作,2018,62(19):111-119.

      (責(zé)任編輯:郭沫含)

      猜你喜歡
      競(jìng)爭(zhēng)情報(bào)在線評(píng)論情感分析
      基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      區(qū)域科技創(chuàng)新體系中的產(chǎn)業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)構(gòu)建與思考
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      面向企業(yè)管理創(chuàng)新的競(jìng)爭(zhēng)情報(bào)運(yùn)行機(jī)制研究
      商情(2016年42期)2016-12-23 16:37:44
      戰(zhàn)略管理理論的演進(jìn)與競(jìng)爭(zhēng)情報(bào)研究
      企業(yè)招投標(biāo)中的競(jìng)爭(zhēng)情報(bào)保障
      在線評(píng)論對(duì)電子商務(wù)商品銷(xiāo)量的影響研究
      中文信息(2016年10期)2016-12-12 11:01:20
      在線評(píng)論對(duì)消費(fèi)者購(gòu)買(mǎi)意圖的影響研究
      商(2016年10期)2016-04-25 10:03:58
      文本觀點(diǎn)挖掘和情感分析的研究
      鄯善县| 大名县| 吉隆县| 石台县| 凤凰县| 京山县| 革吉县| 平定县| 化州市| 东安县| 安图县| 卢氏县| 永川市| 铜川市| 沧州市| 句容市| 潜山县| 利川市| 义马市| 通化县| 莲花县| 河南省| 广德县| 蒲城县| 临夏县| 平武县| 祁阳县| 温州市| 鄂托克旗| 长治市| 扶沟县| 乌拉特中旗| 嫩江县| 大化| 麻城市| 商洛市| 松溪县| 屯门区| 偃师市| 德保县| 崇礼县|