施瀅萍,徐曉敏
(北京信息科技大學(xué) 信息管理學(xué)院,北 京 100192)
目前,我國快遞業(yè)已進(jìn)入發(fā)展快車道,不論是業(yè)務(wù)規(guī)模還是服務(wù)范圍都在不斷擴(kuò)大。截至2017年底,我國快遞總量突破400億件,已連續(xù)4年保持全球第一[1]。《國務(wù)院關(guān)于促進(jìn)快遞業(yè)發(fā)展的若干意見》預(yù)估到2020年我國快遞業(yè)務(wù)總量將達(dá)到500億件。然而,快遞行業(yè)在為民眾生活提供便利的同時(shí),在發(fā)展過程中也暴露出一些問題,如快件丟失、貨物先簽后驗(yàn)、貨物損壞、快件延誤、快遞公司無法保證送貨上門等物流服務(wù)問題[2],影響著快遞物流行業(yè)的健康發(fā)展。
針對目前快遞行業(yè)存在的問題,許多專家學(xué)者從不同角度提出了一些研究分析方法。針對物流服務(wù)現(xiàn)狀,陳碎雷[3]利用因子分析法對物流服務(wù)問題進(jìn)行了相應(yīng)研究,提出了解決對策;蘭莉等[4]建立了帶時(shí)間窗的整數(shù)規(guī)劃模型來優(yōu)化物流服務(wù)的配送時(shí)間;唐秀麗等[5]提出采用“AHP+模糊綜合評價(jià)”的方法,對快遞眾包模式進(jìn)行可行性分析來提高快遞配送效率。但針對電子商務(wù)發(fā)展的特點(diǎn),以用戶在線反饋評論信息出發(fā)對物流服務(wù)進(jìn)行評價(jià)分析無疑更加具有客觀性和真實(shí)性,目前基于在線評論文本的情感傾向性分析的準(zhǔn)確率最高達(dá)到90%以上。利用不同的情感分析方法對文本形式的交互資源進(jìn)行情感分析研究,探索其背后的實(shí)用價(jià)值是自然語言處理的一大熱點(diǎn)。情感分析法主要是對各種新聞資源、社交媒體評論、網(wǎng)絡(luò)購物在線評論等富有感情色彩的主觀性文本進(jìn)行提取、分析、處理、歸納及推理。本文采用情感分析方法對用戶在線評論數(shù)據(jù)中物流信息進(jìn)行研究和分析,從中挖掘用戶對物流服務(wù)的需求,分析用戶對快遞物流服務(wù)的滿意程度,是解決目前快遞服務(wù)問題的一種有效研究方法。
常用的情感分析方法有基于詞典、基于統(tǒng)計(jì)、基于語義規(guī)則、機(jī)器學(xué)習(xí)方法等。陳國蘭[6]利用開源情感詞典和文本特點(diǎn)來構(gòu)建情感詞典,對文本進(jìn)行語義規(guī)則分析,進(jìn)而提出情感計(jì)算方法;盧興[7]使用支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)作為分類器,設(shè)計(jì)了基于統(tǒng)計(jì)的情感分析方法;楊佳能等[8-9]通過對文本進(jìn)行依存句法分析,構(gòu)建模糊情感本體、情感表達(dá)式樹對文本進(jìn)行情感分析;沈磊[10]將基于規(guī)則與機(jī)器學(xué)習(xí)方法相結(jié)合來對中文文本進(jìn)行情感分析;張成功等[11]提出了一種通過構(gòu)建極性詞典的方法來進(jìn)行情感分析。目前情感分析的研究大多借助文本分類器等機(jī)器學(xué)習(xí)的方法,還沒有根據(jù)文本自身的特點(diǎn)形成一套獨(dú)立的研究方法及標(biāo)準(zhǔn)。情感詞典是情感分析的基礎(chǔ),基于情感詞典的方法重點(diǎn)分析文本中出現(xiàn)的情感詞及關(guān)聯(lián)詞附近的修飾詞來表達(dá)句子的情感傾向。當(dāng)句子結(jié)構(gòu)復(fù)雜且無情感詞出現(xiàn),但有明顯情感傾向時(shí),基于詞典的方法將無法實(shí)現(xiàn)分析目的?;诮y(tǒng)計(jì)的方法主要利用文本中相鄰字與字出現(xiàn)的概率來反應(yīng)詞的可信度,但語法之間的互相關(guān)聯(lián)性需要深度解析文本來獲取?;谝?guī)則的方法主要利用句法信息和語義信息對文本進(jìn)行分詞自動(dòng)推理,來補(bǔ)充語義相近的詞進(jìn)而判斷詞語的情感傾向。基于監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)法需要大量帶標(biāo)注的語料樣本庫,非常費(fèi)時(shí)費(fèi)力;相反無監(jiān)督學(xué)習(xí)方法在實(shí)現(xiàn)上較為簡單。機(jī)器學(xué)習(xí)法中基于監(jiān)督學(xué)習(xí)情感分析的研究已經(jīng)很成熟,而在實(shí)際文本中測試集的數(shù)量遠(yuǎn)遠(yuǎn)多于訓(xùn)練集的數(shù)量,測試集的文本領(lǐng)域也不像在監(jiān)督學(xué)習(xí)中要被限制成和訓(xùn)練集一樣。也就是說目前情感分析所應(yīng)用的歸納偏置假設(shè)和實(shí)際文本不相一致。為了使分析結(jié)果與實(shí)際相符合,基于無監(jiān)督學(xué)習(xí)的情感分析法是將來的研究方向之一。
本文采用結(jié)合關(guān)鍵詞識別和無監(jiān)督學(xué)習(xí)的情感分析方法,利用它們的優(yōu)勢結(jié)合來彌補(bǔ)其他方法的局限和不足。主要基于關(guān)鍵詞識別是一種近似匹配技術(shù),該方法最大的優(yōu)點(diǎn)是允許輸入的句子不一定要遵循規(guī)范的語法考慮。同時(shí),借助機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法,設(shè)定一些已知極性的關(guān)鍵詞,根據(jù)新詞與關(guān)鍵詞之間的緊密聯(lián)系程度,對新詞進(jìn)行情感極性判斷,來提高情感分析的精確度,而不需要大量的語料文本庫。本文情感分析法應(yīng)用于用戶對于整個(gè)快遞物流服務(wù)的滿意度分析,分為4個(gè)模塊:數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)分析結(jié)果??爝f物流服務(wù)情感分析法框架如圖1所示。
圖1 快遞物流服務(wù)情感分析法框架
主要研究框架為:
1)數(shù)據(jù)獲取。采用網(wǎng)絡(luò)爬蟲軟件八爪魚對在線評論數(shù)據(jù)進(jìn)行抓??;
2)數(shù)據(jù)處理。對評論數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,利用波森分詞軟件對數(shù)據(jù)進(jìn)行中文分詞及詞性標(biāo)注、關(guān)鍵詞提取,根據(jù)情感詞匯文體庫和語義聯(lián)想等選取關(guān)鍵詞及其同義詞歸類;
3)數(shù)據(jù)分析。根據(jù)關(guān)鍵詞及其同義詞來提取物流服務(wù)要素,定位情感詞短語的取值范圍,對取值范圍內(nèi)的程度副詞進(jìn)行情感強(qiáng)度劃分,對情感詞進(jìn)行極性歸類及賦值;
4)數(shù)據(jù)分析結(jié)果。通過計(jì)算得出每一條評論數(shù)據(jù)對應(yīng)的物流服務(wù)要素情感得分,最后綜合得出整體情感得分。
采用八爪魚對購物平臺下的在線評論數(shù)據(jù)進(jìn)行抓取,抽取字段選取為用戶名、評論正文、商品類型、評論時(shí)間,抓取結(jié)果如表1(部分)所示。抓取數(shù)據(jù)中有多個(gè)用戶共同使用一個(gè)用戶名的情況,也有一個(gè)用戶名在不同時(shí)期進(jìn)行評論的記錄。因此,在抓取每一條評論數(shù)據(jù)時(shí)產(chǎn)生的序號作為數(shù)據(jù)表的主鍵,避免出現(xiàn)后續(xù)數(shù)據(jù)清洗時(shí)可能因?yàn)橥挥脩裘鴮?shù)據(jù)刪除的情況。
表1 評論數(shù)據(jù)表(部分)
2.2.1 數(shù)據(jù)清洗
將抓取的數(shù)據(jù)導(dǎo)入SQL Server數(shù)據(jù)庫中,編寫SQL語句去除缺失值、重復(fù)數(shù)據(jù),如用戶名、評論正文、商品類型和時(shí)間等字段內(nèi)容都重復(fù),或者某一個(gè)字段有缺失的數(shù)據(jù)。同時(shí),針對快遞物流研究對象,利用SQL中Like語句來篩選出包含“物流”、“送貨”、“快遞”、“服務(wù)”、“包裝”、“態(tài)度”、“完整”、“給力”、“完好”、“發(fā)貨”、“收到”等詞語的評論數(shù)據(jù),從而獲得跟物流服務(wù)相關(guān)的評論數(shù)據(jù),加快后續(xù)進(jìn)行分析的速度,減少工作量。
2.2.2 數(shù)據(jù)標(biāo)注與提取
數(shù)據(jù)標(biāo)注與提取主要是對評論數(shù)據(jù)進(jìn)行中文分詞及詞性標(biāo)注、關(guān)鍵詞提取。常用的分詞系統(tǒng)有語言云、NiuTrans機(jī)器翻譯系統(tǒng)、NLPIR分詞系統(tǒng)、波森BosonNLP、結(jié)巴分詞、SCWS分詞系統(tǒng)、盤古分詞等。葛達(dá)明[12]通過比較使用多種分詞系統(tǒng)對評論樣本進(jìn)行分詞測試時(shí)發(fā)現(xiàn),波森分詞系統(tǒng)對于未登錄詞、新詞有較好的分詞效果,能結(jié)合上下文識別生詞,自動(dòng)消除歧義,詞性切分速度快,正確率較高。因此,本文采用波森系統(tǒng)對評論數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注。以表1中序號90的部分評論數(shù)據(jù)為例,分詞及詞性標(biāo)注結(jié)果如圖2所示。
圖2 分詞及詞性標(biāo)注
關(guān)鍵詞提取是分析用戶評論數(shù)據(jù)中是否具有快遞物流服務(wù)要素情感傾向的前提,其全面性和準(zhǔn)確性非常重要。利用波森系統(tǒng)對評論數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,其關(guān)鍵詞提取引擎可對樣本數(shù)據(jù)自動(dòng)進(jìn)行關(guān)鍵詞分析,計(jì)算出每個(gè)詞語相應(yīng)的權(quán)重。以表1中序號90的評論數(shù)據(jù)為例,提取的關(guān)鍵詞有:“下單”、“速度”、“滿意”、“收到”、“寶貝”等。由于通過初步篩選得到的評論數(shù)據(jù)其準(zhǔn)確性不是很高,所以提取的關(guān)鍵詞不僅包含了和快遞物流服務(wù)相關(guān)的,可能還存在著跟其他因素(產(chǎn)品名稱、質(zhì)量等)相關(guān)的關(guān)鍵詞。
因此,需要通過人工定義關(guān)鍵詞主觀性特征的方式來選取系統(tǒng)提取的關(guān)鍵詞。在此,選取跟物流服務(wù)相關(guān)且權(quán)重排名靠前的關(guān)鍵詞,它是物流服務(wù)要素形成的主要依據(jù)。在本例提取的關(guān)鍵詞中,選取“速度”作為本條數(shù)據(jù)的關(guān)鍵詞。
2.2.3 同義詞歸類
主要是對選取的關(guān)鍵詞進(jìn)行同義詞歸類。對每一條評論數(shù)據(jù)提取關(guān)鍵詞時(shí),有些數(shù)據(jù)中提取的關(guān)鍵詞不能明確指定使用幾項(xiàng)關(guān)鍵詞中的哪一項(xiàng),因此,不能忽略評論數(shù)據(jù)中關(guān)鍵詞的同義詞所存在的意義。本文以大連理工大學(xué)整理的情感詞匯文體庫中的詞性種類和波森分詞系統(tǒng)中語義聯(lián)想功能為基礎(chǔ),設(shè)定關(guān)鍵詞同義詞表(如表2),當(dāng)提取的關(guān)鍵詞不能明確指定時(shí),對它進(jìn)行同義詞歸類來提高評論數(shù)據(jù)中關(guān)鍵詞匹配的效率,保證了關(guān)鍵詞提取的準(zhǔn)確性。
表2 關(guān)鍵詞同義詞表(部分)
2.3.1 形成物流服務(wù)要素
想要知道用戶對不同物流服務(wù)要素的滿意度如何,首先需要根據(jù)評論數(shù)據(jù)形成物流服務(wù)要素。從與物流服務(wù)相關(guān)的關(guān)鍵詞:“物流”、“配送”、“快遞員”、“送貨”、“快遞”、“服務(wù)”、“包裝”、“態(tài)度”、“完整”等可以看出它們對應(yīng)在線評論數(shù)據(jù)中用戶最為關(guān)注的物流服務(wù)要素,根據(jù)關(guān)鍵詞來判斷用戶對于快遞物流服務(wù)要素的情感傾向,具有一定的可靠性。如“快遞”、“服務(wù)”、“態(tài)度”的結(jié)合,表達(dá)的是用戶對快遞員(客服)服務(wù)態(tài)度的滿意度。本文結(jié)合服務(wù)行業(yè)SERVQUAL模型的指標(biāo)因素和提取的物流服務(wù)關(guān)鍵詞,整理得到快遞物流服務(wù)要素14項(xiàng):物流配送系統(tǒng)的完善程度;快遞公司的派送范圍;快遞公司的價(jià)格標(biāo)準(zhǔn);快遞員取(送)件的速度;快件派送速度;快遞員的服務(wù)態(tài)度;快遞員的操作規(guī)范性;客服的服務(wù)態(tài)度;客服可得性;快件包裝的完好程度;配送地址的準(zhǔn)確性;消費(fèi)者的信息安全性;快遞公司的承諾完成度;派件的突發(fā)處理能力。
針對評論數(shù)據(jù)中意思表達(dá)較為模糊的語句,例如“物流給力”、“快遞速度給力”等,不能很明確地指明特定的物流服務(wù)要素,將類似這樣的表述理解為用戶對快遞物流整個(gè)運(yùn)作過程的評價(jià)。即“物流給力”表示的是用戶對快遞員取(送)件的速度,快件派送速度,快遞員服務(wù)態(tài)度等的滿意度。因此,在提取評論數(shù)據(jù)中的物流服務(wù)要素時(shí),需要對類似上述的評論信息進(jìn)行補(bǔ)充、修改。
2.3.2 定位情感詞短語
利用提取的物流服務(wù)要素對評論內(nèi)容進(jìn)行情感極性判別和情感強(qiáng)度計(jì)算,以此來表達(dá)用戶對物流服務(wù)的滿意度,這樣的計(jì)算可歸結(jié)于對評論詞語的情感極性判別和情感強(qiáng)度計(jì)算。那么,定位出用戶表達(dá)物流服務(wù)要素情感傾向的情感詞短語的范圍,將會加快評論詞語情感極性判別和情感強(qiáng)度計(jì)算的速度,節(jié)約時(shí)間成本。本文采用無監(jiān)督學(xué)習(xí)方法和句法依存關(guān)系定位情感詞短語的范圍。情感詞短語一般由副詞和形容詞(動(dòng)詞)組成,情感強(qiáng)度用副詞強(qiáng)度來表示,情感極性判別依據(jù)形容詞或動(dòng)詞的極性。關(guān)鍵詞的詞性多為名詞,以關(guān)鍵詞位置為基準(zhǔn),在關(guān)鍵詞附近創(chuàng)建[-a,a]字符區(qū)間作為情感詞短語定位區(qū)間。以表1中序號90的評論數(shù)據(jù)“寶貝收到了,速度非常滿意,昨晚下單的今天中午就到了?!睘槔?,其關(guān)鍵詞為“速度”,情感詞短語的取值范圍為“非常/adv滿意/v”。提取的物流服務(wù)要素是:快遞員取(送)件的速度、快件派送速度、物流配送系統(tǒng)的完善程度。
2.3.3 情感強(qiáng)度分析及賦值
情感強(qiáng)度一般通過程度副詞來體現(xiàn)。如上例中情感詞短語的范圍“非常滿意”,其中“非常”作為程度副詞,對后面“滿意”的情感極性強(qiáng)度起到了加強(qiáng)的作用。程度副詞與其修飾的情感詞組成的情感詞短語,其情感傾向程度往往會比情感詞本身有所加強(qiáng)或削弱。評論詞語的情感極性判別及其強(qiáng)度計(jì)算需要借助情感詞表,在此使用的程度副詞表主要來源于HowNet整理的程度級別詞詞典,參照對程度副詞劃分規(guī)則的研究[13-14],依據(jù)不同程度副詞對情感詞強(qiáng)度的影響將它劃為5個(gè)強(qiáng)度量級,如表3所示,通過不同分值的強(qiáng)度量級賦值比較,發(fā)現(xiàn)賦值為[2,6]分值使結(jié)果的區(qū)分度較高,如果沒有出現(xiàn)程度副詞則默認(rèn)為1分。否定詞的出現(xiàn)會使情感詞短語的情感傾向發(fā)生翻轉(zhuǎn),是情感傾向分析不可缺少的因素。如“速度非常不滿意”中的否定詞“不”對情感詞“滿意”的情感傾向由正向情感翻轉(zhuǎn)為負(fù)向情感。由于否定詞不需要進(jìn)行程度劃分,因此給否定詞賦值為-1分。
對于情感詞的極性判別,借助學(xué)生褒貶義詞典的整理,將情感詞劃分為積極情感詞和消極情感詞。其中,將“滿意”、“高興”等歸類為積極情感詞,“不爽”、“垃圾”等歸類為消極情感詞。情感詞極性可用具體的數(shù)值來表示,程度副詞的賦值大小對情感表達(dá)強(qiáng)度的影響是最明顯的,而情感詞極性賦值大小對情感表達(dá)強(qiáng)度的影響并不明顯,因此,對于情感詞極性的賦值沒有具體要求。在此給積極情感詞賦值為5分,消極情感詞賦值為-5分。上例中情感詞是 “滿意”,屬于積極情感詞,賦值為5分。
表3 程度副詞賦值表(部分)
綜合上述分析,用戶對物流服務(wù)要素的滿意度可通過情感詞短語范圍內(nèi)程度副詞和情感詞極性的情感得分來體現(xiàn),情感詞短語的情感得分F=A(C)×B,A為情感程度副詞得分,B為情感詞得分,C為否定詞。以表1中序號90的評論數(shù)據(jù)為例,情感程度副詞得分為4分,情感詞得分為5分,情感得分為F=20。本例中,關(guān)鍵詞為“速度”,由于速度涉及整個(gè)物流運(yùn)作過程,且沒有其他情感詞短語取值范圍,因此,本條數(shù)據(jù)中提取的3個(gè)物流服務(wù)要素情感得分均為20,其他沒有提取到的物流服務(wù)要素情感得分為0分。最后,綜合全部在線評論數(shù)據(jù)中物流服務(wù)要素的情感得分均值,作為分析用戶對于快遞公司物流服務(wù)要素滿意度的依據(jù)。
以某購物平臺一款雙肩包銷售(鏈接:https://detail.tmall.com/item.htm?spm=a230 r.1.14.22.282f6f737pFR2l&id=41986869647&ns=1&abbucket=6)的在線評論數(shù)據(jù)為例進(jìn)行實(shí)例驗(yàn)證。通過抓取該店2017年1月至12月的在線評論語料3254條,通過數(shù)據(jù)清洗,獲得跟物流相關(guān)的評論數(shù)據(jù)2407條。采用波森分詞系統(tǒng)對評論數(shù)據(jù)進(jìn)行分詞及詞性標(biāo)注、關(guān)鍵詞提取,選取了跟物流服務(wù)相關(guān)且權(quán)重排名靠前的幾項(xiàng)關(guān)鍵詞進(jìn)行其同義詞歸類;隨后利用關(guān)鍵詞之間表達(dá)的物流服務(wù)信息得到上述描述的物流服務(wù)要素。針對評論數(shù)據(jù)中提取的物流服務(wù)要素,進(jìn)行情感詞短語取值范圍的定位,參照表3對情感詞短語范圍內(nèi)的程度副詞進(jìn)行強(qiáng)度分析,給情感詞進(jìn)行極性歸類并賦值;最后,通過情感詞短語的情感得分來體現(xiàn)物流服務(wù)要素情感得分,計(jì)算得出全部評論數(shù)據(jù)中物流服務(wù)要素的情感得分均值如表4所示。
表4 物流服務(wù)要素情感分析結(jié)果
將表4情感得分情況作折線圖,如圖3所示。
圖3 物流服務(wù)要素情感分析結(jié)果折線圖
從折線圖可明顯看出,用戶對于物流快遞公司的快遞價(jià)格標(biāo)準(zhǔn)和承諾完成度的滿意度較低??赏茢噙@家快遞公司對于某些交通運(yùn)輸不方便的地區(qū),可能存在快遞價(jià)格標(biāo)準(zhǔn)明顯高于同行業(yè)收費(fèi)標(biāo)準(zhǔn)的現(xiàn)象,或者即使交通方便也同樣存在高于同行業(yè)收費(fèi)標(biāo)準(zhǔn)的現(xiàn)象,以至于用戶對快遞價(jià)格標(biāo)準(zhǔn)的滿意度較低??赡艽嬖谌缢拓浬祥T、送達(dá)時(shí)間比預(yù)計(jì)時(shí)間晚一天等沒有按承諾要求完成的現(xiàn)象,導(dǎo)致了用戶對于物流承諾完成度要素的滿意度相比于其他物流服務(wù)要素低。那么,針對為本產(chǎn)品銷售服務(wù)的這家快遞公司,在這2個(gè)物流服務(wù)要素方面需要采取改善措施,以提高用戶對物流服務(wù)的滿意度,促使銷售商繼續(xù)和它續(xù)約,為其銷售進(jìn)行物流配送。若這家快遞公司一直沒有為用戶滿意度較低的物流服務(wù)要素做出整改措施,影響了銷售商的銷量,銷售商可以選擇其他快遞公司為其銷售進(jìn)行物流配送服務(wù)。
伴隨著電子商務(wù)的快速發(fā)展,網(wǎng)絡(luò)購物平臺下在線評論數(shù)據(jù)信息量越來越大,以在線評論數(shù)據(jù)作為數(shù)據(jù)源進(jìn)行數(shù)據(jù)分析和挖掘保證了數(shù)據(jù)的可靠性與客觀性。本文采用關(guān)鍵詞識別和無監(jiān)督學(xué)習(xí)結(jié)合的情感分析法,對在線評論數(shù)據(jù)中用戶關(guān)于物流服務(wù)的數(shù)據(jù)進(jìn)行處理,挖掘出用戶關(guān)注的物流服務(wù)要素,并對評論數(shù)據(jù)進(jìn)行賦值計(jì)算,得到用戶對物流服務(wù)要素的滿意度結(jié)果。從分析結(jié)果可以清晰具體地看出快遞公司有哪些物流服務(wù)要素的優(yōu)勢以及需要改善的要素,同時(shí)購物平臺銷售商也可通過參考物流服務(wù)優(yōu)勢作為評價(jià)選擇物流快遞公司的科學(xué)依據(jù),來提高用戶對物流服務(wù)的滿意度。因此,將此情感分析法應(yīng)用于物流服務(wù)在線評論數(shù)據(jù)分析,是解決目前快遞行業(yè)關(guān)于物流服務(wù)質(zhì)量瓶頸的途徑之一,對快遞業(yè)服務(wù)發(fā)展具有一定的研究價(jià)值和現(xiàn)實(shí)意義。