劉 哲,馬樂榮
(延安大學數(shù)學與計算機科學學院,陜西延安716000)
人類已經(jīng)進入大數(shù)據(jù)智能時代,大規(guī)模電商平臺匯集了商品、商家、生產(chǎn)廠商、消費者等的海量數(shù)據(jù),得到許多知名企業(yè)、科研機構(gòu)和大學專家的持續(xù)研究。根據(jù)第43次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[1],截至2018年12月,我國網(wǎng)絡購物用戶規(guī)模達6.10億,手機網(wǎng)購用戶達5.92億,電子商務平臺收入3667億元,同比增長13.1%。由于一次商品買賣活動,涉及電子商務平臺、商家、用戶、銀行或金融機構(gòu)、物流等方面的數(shù)據(jù)[2,3],如此龐大的組織群體和交易收入,使得電商平臺累積了海量數(shù)據(jù)資源。這些數(shù)據(jù)具有重要的研究價值,如丁晟春等[4]提出基于電商數(shù)據(jù)構(gòu)造產(chǎn)品知識圖譜,來幫助電商平臺改善產(chǎn)品服務水平;Kim[5]利用電商數(shù)據(jù)構(gòu)造產(chǎn)品知識圖譜,開發(fā)了產(chǎn)品銷售助理,大大提高了用戶購物和使用體驗;楊東紅等[6]基于京東商城商品評論中的好評、中評、差評三種類型評論,比較三者在評論長度、有用性投票和評論回復數(shù)方面的異同,補充當前關(guān)于在線評論有用性的研究;范穎等[7]通過識別電子商務用戶行為,為優(yōu)化用戶營銷決策提供科學依據(jù)。
數(shù)據(jù)的采集是通過爬蟲的方式進行的[8],完成筆記本電腦數(shù)據(jù)采集后,數(shù)據(jù)庫中共存有19069條筆記本電腦商品信息。對數(shù)據(jù)進行初步統(tǒng)計可知,其中包含評論共計57萬條,有15萬條評論信息為默認評價,有效評價共計41萬條。而且,在所有的有銷量的8625個商品中,有5842個商品在淘寶出售,天貓上僅有2783個商品,占比僅為32%,但卻擁有351997條評論,占比高達61%,只有淘寶一半筆記本商品數(shù)的天貓,卻有著兩倍于淘寶的銷量,具體數(shù)據(jù)參見表1。
使用沒有預處理的數(shù)據(jù),往往產(chǎn)生錯誤的分析結(jié)果。例如,在57萬條用戶評論中,有15萬條為默認評論,都為“此用戶沒有填寫評論”等字樣。因此,在進行數(shù)據(jù)分析之前,需要對數(shù)據(jù)進行預處理,以剔除無效數(shù)據(jù)和不完整數(shù)據(jù),并將結(jié)果格式化后,存入文件或?qū)懟財?shù)據(jù)庫中,作為進一步分析的數(shù)據(jù)源。
表1 筆記本電腦爬取數(shù)據(jù)統(tǒng)計
對于筆記本電腦數(shù)據(jù),這里預處理的主要是用戶購買后的評論數(shù)據(jù)。首先,去除掉默認用戶評論數(shù)據(jù)。接著,使用分詞工具Jieba[9]對用戶評論數(shù)據(jù)進行分詞[10-12],為后續(xù)的分析準備數(shù)據(jù)。由于用戶評論記錄簡短、字數(shù)少、表達又隨意,直接使用Jieba對其進行分詞,效果不是理想。鑒于筆記本電腦商品對應的評論主要基于電腦、筆記本相關(guān)主題,本文使用搜狗提供的電腦詞匯、電腦硬件、電腦軟件、電腦硬件廠商、計算機詞匯大全和淘寶網(wǎng)專用詞匯[13]作為Jieba的生成字典,來提高Jieba對用戶評論數(shù)據(jù)分詞的準確率。
幾乎所有品牌的筆記本電腦都在線上進行銷售,甚至一部分廠商的產(chǎn)品只在網(wǎng)絡銷售,電商平臺銷售的筆記本電腦的產(chǎn)品種類與品牌遠遠超過任何一家線下實體店。通過對電商平臺淘寶網(wǎng)所售筆記本電腦資源分析,發(fā)現(xiàn)在售筆記本電腦品牌有52個。各筆記本電腦品牌商家占有量如圖1所示,其中,聯(lián)想、ThinkPad、戴爾、華碩和蘋果為前5的品牌,占有量高達57%。
價格一直是筆記本電腦客戶比較重要的參考因素。筆記本電腦整個銷售市場的價格分布狀態(tài),在一定程度上反應出國內(nèi)消費者的購買能力與生活經(jīng)濟水平。對19 069個商品的參考價格按不同區(qū)間進行統(tǒng)計分類,經(jīng)比對發(fā)現(xiàn),依據(jù)2000元劃分價格區(qū)間是合適的,而且具有說服力。如圖2所示,2000~6000元這一區(qū)間的筆記本電腦占全平臺在售商品的57%,其中最受歡迎的是4000~6000元這一價格區(qū)間的產(chǎn)品,并且6000~10 000檔的占比與2000~4000檔的占比相持平,這表明人們對高端筆記本電腦的購買能力逐步提高,同時也表明國內(nèi)人們的生活水平在逐步提高。
在筆記本電腦的索引頁面上,淘寶平臺已經(jīng)給每款型號打上了熱門參數(shù)的標簽。本文對標題中的詞進行抽取,獲得權(quán)重排名前600的關(guān)鍵詞,其中權(quán)重取值在0~1之間。最后對關(guān)鍵詞繪制詞云圖,如圖3所示。通過分析,發(fā)現(xiàn)鍵盤、內(nèi)存、處理器、指紋識別、硬盤、顯卡和運行成為消費者比較重視的參考因素。除了運行外,6個熱門參數(shù)中內(nèi)存、處理器、硬盤和顯卡與產(chǎn)品性能有關(guān),而鍵盤和指紋識別則與使用體驗相關(guān)。由此可見,消費者在購買筆記本電腦時,優(yōu)先考慮的是性能而不是諸如智能、音效、指紋等參考因素。
由于用戶在提交評價時,需要進行整理語言并進行文字輸入,甚至拍照或錄制視頻,所以評論時間可以作為用戶活躍的一個標志。統(tǒng)計并分析近兩年消費者對筆記本電腦評論的時間,統(tǒng)計結(jié)果如圖4所示。發(fā)現(xiàn)晚睡這一社會現(xiàn)象并未在圖4中體現(xiàn),大多數(shù)交易評論的時間是比較符合人們作息規(guī)律的。在凌晨,活躍人數(shù)最低,上午時曲線上揚較快,中午12點到達峰值,下午活躍人數(shù)普遍較高,且在21點后快速下跌。這個發(fā)現(xiàn)可以給商家提供安排客服上班的建議。
對于淘寶平臺,筆記本電腦的真實交易數(shù)量屬于淘寶后臺數(shù)據(jù),爬蟲無法獲取到。由于用戶參與評論需要在收貨以后,所以可以用評論的數(shù)量來近似交易的數(shù)據(jù)。評論時間通常為確認收貨時間,一般在交易后三天確認收貨,這是目前國內(nèi)物流時效水平?jīng)Q定的。因此需要對評論時間進行預處理,左移三天的偏移量。通過對57萬次交易的日期進行分析,發(fā)現(xiàn)在阿里巴巴的購物狂歡日“雙十一”期間,筆記本電腦的銷量大幅度提高。而且每個標志性期間,銷量便會迅猛增加,如圖5所示,實線代表淘寶平臺的歷史銷量曲線,短橫線樣式的虛線代表天貓平臺的歷史銷量曲線,點狀樣式的虛線代表淘寶、天貓的歷史銷量總和曲線。2017年“雙十二”促銷當日,筆記本電腦的銷量甚至比“雙十一”的銷量還要多出240臺。而2018年開學季的銷量幾乎與2017年“雙十一”持平,可見阿里巴巴的每次推廣促銷,對成交量有著非常明顯的積極促進作用,這充分表明促銷的影響力和時機對產(chǎn)品銷售是非常重要的兩個因素。特別是發(fā)現(xiàn)開學季的銷量幾乎等于“雙十一”。因此,對于商家和學生來說,開學季也是重要的銷售和購買時段。
本文選取13 684條針對小米品牌的筆記本電腦有效評論進行情感分析[14-17]。使用snownlp[18]的情感分析接口,分析每條評論為正向情緒的概率,圖中情感值在0~1區(qū)間內(nèi),0代表極端消極情感,1代表極端積極情感,對評論繪制情感值分布的柱狀圖,如圖6所示。從圖6看出,小米品牌的口碑大多是積極的。
對于情感值小于0.3的評論,通過調(diào)用百度開放平臺的評論觀點抽取接口[19],自動抽取和分析評論觀點[20,21],繪制評論標簽云圖,如圖7所示??梢缘贸觯撁媲榫w多數(shù)是由于客服與物流導致的,少部分對產(chǎn)品的負面評價為風扇聲音過大、屏幕像素低和電池等問題。因此,建議商家通過著重提高服務質(zhì)量和合作物流公司水平來有效提升用戶體驗,進一步提高用戶群的滿意度。
本研究以最大的電商平臺——淘寶網(wǎng)的電腦筆記本為例,獲取了2018年5月之前的商品數(shù)據(jù)和用戶評論數(shù)據(jù),對獲取的數(shù)據(jù)進行分析,發(fā)現(xiàn)了品牌分布、筆記本電腦熱點參數(shù)、商家和用戶的交易行為以及小米品牌用戶評論負面情感的真實原因等知識。電商平臺可以利用這些知識改進服務,進一步提升用戶體驗。