• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)時(shí)代下電商自動(dòng)處理評論文本的研究

    2020-04-06 14:30:04羅胤達(dá)
    中國市場 2020年36期
    關(guān)鍵詞:文本挖掘電子商務(wù)

    羅胤達(dá)

    [摘 要]在電子商務(wù)營銷模式中,面對如今網(wǎng)絡(luò)上海量增長的數(shù)據(jù)量,僅靠人工閱讀來收集消費(fèi)者的反饋?zhàn)兊迷絹碓诫y以實(shí)現(xiàn)。文章將采用一種自動(dòng)化的文本處理方法,自動(dòng)處理海量的文本數(shù)據(jù)。以小米手機(jī)為例,文章將沒有進(jìn)行人工標(biāo)注好評與差評的原始評論文本經(jīng)過中文分詞、關(guān)鍵詞提取和情感分析處理自動(dòng)得出手機(jī)各個(gè)功能的消費(fèi)者評分及匯總。讓電商企業(yè)可以快速了解所有消費(fèi)者對產(chǎn)品每一個(gè)功能的總體評價(jià),靈活、方便、快捷地了解到客戶的真實(shí)需求,從而及時(shí)調(diào)整后續(xù)產(chǎn)品和服務(wù),制定合適的市場營銷策略,不斷提高企業(yè)的競爭力。

    [關(guān)鍵詞]電子商務(wù);產(chǎn)品評價(jià);文本挖掘

    [DOI]10.13939/j.cnki.zgsc.2020.36.166

    1 引言

    對于大數(shù)據(jù)時(shí)代下的電商企業(yè)來說,在線評論功能的產(chǎn)生,提供了及時(shí)的、透明的市場反饋渠道。并且該功能使用起來非常方便,不少消費(fèi)者自發(fā)地對商品進(jìn)行評論,發(fā)表自己在這次購物后喜悅或是憤怒的心情,有的企業(yè)甚至通過“評論返現(xiàn)金”的方式促使更多的消費(fèi)者對其產(chǎn)品做出評價(jià)而獲得更多的反饋。有了在線評論功能的支持,商家解決了傳統(tǒng)銷售企業(yè)想要迅速獲得消費(fèi)者反饋卻無從下手的困難,克服了使用問卷調(diào)查方法下時(shí)間跨度過大的缺陷。文章的研究成果可以幫助電商企業(yè)快速批量處理大量的評論數(shù)據(jù),提升對顧客需求的反饋速度,為營銷決策提供參考依據(jù)。

    2 文本挖掘步驟

    文章研究所使用的數(shù)據(jù)由python爬蟲抓取天貓商城小米旗艦店新款mate 9手機(jī)的最新評論2135條。

    2.1 中文分詞

    中文分詞是進(jìn)行文本挖掘的必要環(huán)節(jié),如果不對得到的原始評論語句進(jìn)行分詞,后續(xù)的特征詞提取將無法進(jìn)行。中文分詞屬于自然語言處理技術(shù)范疇,主要目的是將一個(gè)連續(xù)的中文句子按照漢語語言的規(guī)則組合成分開的詞組的過程。分詞是中文文本挖掘中專屬的概念。除了中文分詞需要增加分詞的步驟外,漢語語言本身也是更為復(fù)雜的,在不同的語境下,相鄰的同樣幾個(gè)字可能組合成不同的詞語。本文在python語言環(huán)境下進(jìn)行分詞操作,通過import命令調(diào)出jieba模塊。jieba模塊有一個(gè)自帶的詞典,里面基本包含了所有常用的或是生僻的詞語,但僅僅擁有自帶的詞典是不夠的。漢語不但語法復(fù)雜,語義多樣,還極具創(chuàng)造性,在各種領(lǐng)域里經(jīng)常會(huì)有新的詞語出現(xiàn),甚至某些評論會(huì)刻意去使用一些代稱,而該分詞工具則允許使用者調(diào)用自己建立的詞典來完善其詞庫。

    2.2 關(guān)鍵詞提取

    TF-IDF算法,是一種對純詞頻統(tǒng)計(jì)TF(term frequency)增加了一個(gè)抑制因子逆文檔頻率IDF(inverse document frequency)的加權(quán)算法。逆文檔頻率的引入,抑制了某一文本內(nèi)無意義高頻詞的負(fù)面影響;如果一個(gè)詞語在大部分句子中都出現(xiàn)過,此時(shí)抑制因子就會(huì)給這個(gè)詞語乘上一個(gè)較低的權(quán)重。如果一個(gè)詞語僅在少部分句子中頻繁出現(xiàn),此時(shí)抑制因子就會(huì)得到較高的權(quán)重。該算法不但對于那些對分類結(jié)果沒有幫助的、無意義高頻詞有著良好的區(qū)分度,還更傾向于保留文檔中較為特殊的詞語。TF-IDF本質(zhì)上是一種試圖抑制噪聲的加權(quán),且對于大部分文本是可行的。

    文章使用爬蟲抓取到的同一組數(shù)據(jù)進(jìn)行純詞頻統(tǒng)計(jì)與TF-IDF算法統(tǒng)計(jì)進(jìn)行對比,如表1所示。

    除了文章所研究的產(chǎn)品名字“小米”“手機(jī)”有很高的權(quán)重外,TF-IDF算法得出的其他關(guān)鍵詞相較于純詞頻統(tǒng)計(jì)得出的關(guān)鍵詞更符合于手機(jī)的某一特征。至此提取出了拍照、電池、效果、速度、運(yùn)行、音質(zhì)、客服作為關(guān)鍵詞,而這些手機(jī)特征也就作為最后一部情感分析的對象。

    2.3 情感分析

    文章所使用的情感分析方法是基于情感詞典進(jìn)行的,是對人的思維的簡單模擬。由公式“情感單元得分=(-1)^(否定詞個(gè)數(shù)之和)×程度副詞權(quán)重×情感詞得分”實(shí)現(xiàn)。將句子看作“關(guān)鍵特征詞+情感詞+程度副詞”或者“關(guān)鍵特征詞+否定詞+情感詞+程度副詞”的組合?;谇楦性~典法無須訓(xùn)練模型,主要依靠人工標(biāo)注,沒有機(jī)器學(xué)習(xí)算法中略過語義、語法考慮的問題,更適合中文這樣復(fù)雜的語言體系。

    文章所用的情感詞典集合了2019年1月24日上傳的清華大學(xué)李軍中文褒貶義詞典、知網(wǎng)Hownet情感詞典和臺(tái)灣大學(xué)NTUSD簡體中文情感詞典三種詞典的整合。將三種詞典中的積極情感詞、消極情感詞、否定詞和程度副詞分別復(fù)制到一個(gè)文檔中并進(jìn)行去重操作,整合成為了文章所需要的情感詞詞典。將分詞后的文本帶入模型進(jìn)行計(jì)算機(jī)情感打分,最后得出結(jié)果,比如表2所示。

    將情感分析的結(jié)果按提取出的各個(gè)關(guān)鍵詞分別統(tǒng)計(jì)得分并匯總,最后得出手機(jī)各功能情感得分均值為:“客服=0.79”,“拍照=0.75”,“效果=0.74”,“速度=0.60”,“運(yùn)行=0.53”,“音質(zhì)=0.35”,“電池=0.28”。

    通過計(jì)算機(jī)情感分析后發(fā)現(xiàn):小米mate 9手機(jī)的售后服務(wù)與手機(jī)功能方面如“客服”“拍照”普遍受到用戶好評,而手機(jī)性能“電池”“音質(zhì)”方面評價(jià)略低。電商企業(yè)可以根據(jù)本文的結(jié)果有針對性地改善后續(xù)的產(chǎn)品和服務(wù)。

    3 結(jié)論與展望

    文章使用的文本挖掘方法從海量的評論數(shù)據(jù)通過計(jì)算機(jī)自動(dòng)計(jì)算匯總了消費(fèi)者對小米手機(jī)各功能的總體評價(jià),每一步均由計(jì)算機(jī)自動(dòng)計(jì)算,相比于人工調(diào)查客戶反饋提升了效率,為企業(yè)節(jié)省了大量的人力、物力,讓企業(yè)對消費(fèi)者的反應(yīng)更加靈敏、精準(zhǔn),提升了電商企業(yè)的競爭力。

    如果原始數(shù)據(jù)的獲取沒有限制,該方法完全可以應(yīng)用于海量網(wǎng)購評論數(shù)據(jù)的挖掘。盡管計(jì)算機(jī)算法結(jié)果難以企及人類閱讀判斷的準(zhǔn)確性,但如今的互聯(lián)網(wǎng)每時(shí)每刻都會(huì)產(chǎn)生大量數(shù)據(jù),很顯然不可能由人來完成這樣的數(shù)據(jù)分析。文章所使用的模型的準(zhǔn)確性很大程度上取決分詞精度與情感詞典的完整度,而這些都需要后人不斷地對詞典進(jìn)行完善,中文自然語言的處理結(jié)果就可以越來越接近人類的判斷。

    參考文獻(xiàn):

    [1] ALAN S, JIAO J, FAN W, et al.Whats buzzing in the billzard or buzz? automotive component is olation in social media postings[J].decision support systems,2013,12(23):873-876.

    [2]PANG B,LEE L,VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques[J].proceedings of the conference on empirical methods in natural language processing.usa:stroudsburg, 2002:79-86.

    猜你喜歡
    文本挖掘電子商務(wù)
    2025年我國農(nóng)村電子商務(wù)交易額達(dá)到2.8萬億元
    《電子商務(wù)法》如何助力直銷
    電子商務(wù)
    數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
    基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
    文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
    商(2016年34期)2016-11-24 16:28:51
    從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
    慧眼識璞玉,妙手煉渾金
    關(guān)于加快制定電子商務(wù)法的議案
    文本觀點(diǎn)挖掘和情感分析的研究
    定陶县| 环江| 吉安市| 越西县| 和田市| 张家界市| 红河县| 扬中市| 乌拉特中旗| 潍坊市| 民丰县| 溧水县| 宜川县| 五常市| 岳阳市| 巴东县| 金沙县| 清水河县| 河池市| 射洪县| 米林县| 宝坻区| 涟水县| 济南市| 房产| 乳山市| 鸡西市| 洮南市| 青岛市| 平塘县| 腾冲县| 营山县| 佛冈县| 邵武市| 兴化市| 淮滨县| 洪洞县| 时尚| 玉溪市| 中牟县| 青海省|