魏 忠,樂 玥
(上海海事大學(xué) 經(jīng)濟管理學(xué)院,上海 201306)
物流業(yè)是推動流通方式轉(zhuǎn)型、促進(jìn)消費升級的現(xiàn)代化先導(dǎo)性產(chǎn)業(yè)[1]。物流作為商家與消費者之間的第三方,在很大程度上影響了雙方的決策行動。Yang[2]利用SEM-nl集成模型把握用戶物流模式的選擇行為規(guī)律以提升物流企業(yè)的競爭力。Zhang,等[3]提出了基于熵值的物流企業(yè)績效評價模型。Li,等[4]提出了一種基于層次分析法與灰色理論的混合方法,建立了第三方物流的綜合服務(wù)能力評價體系,用于第三方物流的評估與選擇。
在電子商務(wù)中,在線評論在顧客的購買決策中扮演著非常重要的作用[5]。此類信息包括商品的描述、物流服務(wù)以及商家服務(wù)態(tài)度等。同時,在線評價作為實時的、不受時間、地點、空間限制的評價方式,能夠更加客觀有效地描述消費者傾向以及市場需求實現(xiàn)的程度[6]。因此,對在線評價進(jìn)行文本內(nèi)容主題分類可為商家、物流方以及消費者提供所需要的決策信息。圖1展示了從某電商平臺上爬取到的食品類產(chǎn)品的在線評論詞云展示,可以明顯看到消費者在進(jìn)行在線評價時,運用“口感”“味道”“好吃”等詞匯對于產(chǎn)品的味道進(jìn)行評價,在這種語言環(huán)境中,商家、物流方、消費者都很難挖掘出更深層次的決策信息,因此,如何處理同義詞匯對于決策信息的影響是支持決策的一大難題。
圖1 食品類在線評論詞云
利用文本分類方法對在線評價進(jìn)行聚類分析可以獲取改進(jìn)物流服務(wù)的決策信息。強大的文本分類功能可以提供信息過濾、信息分類、信息檢索、信息推薦等功能[7]。主題分類模型是文本分類的一個子方法,即從概念主題角度理解詞項語義,例如LSA模型、pLSA 模型和LDA 模型等[8-9]。Sutherland,等[10]為了驗證顧客在選擇住宿場所時所關(guān)注的重點,利用潛在狄利克雷分配對消費者在線評論進(jìn)行主題分析,提出消費者在決定住宿場所時更關(guān)注住宿點的競爭性與獨特點。許英姿,等[11]提出了一種基于加權(quán)補集的樸素貝葉斯分類模型進(jìn)行物流主題分類,解決了物流新聞類別分布不均衡問題。張文,等[12]基于LDA模型提出help-LDA模型,從電商評論中抽取消費者評價,有效提高了在線評論有效性的預(yù)測性能。Chen,等[13]利用潛在的Dirichlet分配模型對在線用戶評論進(jìn)行分析,評估了生鮮產(chǎn)品的物流服務(wù)質(zhì)量。Wang,等[14]利用LDA模型對在線評論進(jìn)行了主題分析,通過主題差異性比較了兩種競爭品的優(yōu)勢與劣勢。
目前,很多學(xué)者都運用LDA模型對商品的在線評價進(jìn)行主題分析,并獲得了消費者、商家或物流方所需要的決策支持信息。許多專家學(xué)者也提出了基于層次分析法、灰色理論等的物流企業(yè)選擇方法,但是忽略了真實存在的在線消費者評價中存在的同義誤差。因此,本文對LDA主題模型進(jìn)行改進(jìn),解決LDA模型本身無法處理同義詞的缺陷,挖掘消費者對物流的在線評價,提供電商參與者所需要的決策信息。
基于LDA主題模型同義主題合并文本分類算法的研究思路主要包含三部分,即:數(shù)據(jù)聚集與數(shù)據(jù)預(yù)處理、在線評論分詞與同義表達(dá)替換、LDA主題挖掘與可視化分析。具體如圖2所示。
圖2 研究思路
首先是數(shù)據(jù)聚集以及數(shù)據(jù)預(yù)處理,對某電商平臺各品類商品的在線評價進(jìn)行文本收集,采用python爬蟲以及數(shù)據(jù)清洗工具得到研究對象生成的語料庫。
分詞部分對LDA主題模型中分詞階段進(jìn)行優(yōu)化,首先對在線評論文本進(jìn)行TF_IDF(Term Frequency Inverse Document Frequency)分詞處理,并計算分詞在總在線評論文本集中的概率分布。在處理特征值時,利用標(biāo)準(zhǔn)庫或行業(yè)標(biāo)準(zhǔn)詞匯進(jìn)行同義替換,得到特征值的概率重新分布。
最后進(jìn)行LDA主題聚類,將在線評論文本聚類到每個主題下,并繪制多維資源圖譜進(jìn)行可視化展示。實證研究部分對研究對象的文本分類結(jié)果分析,獲取同義詞替換后的在線評論文本主題及主題詞下的特征值概率分布情況,并運用多維資源可視化將分類結(jié)果展示出來,提供清晰的可視化決策支持信息。
同義主題合并在文本分類中有著重要的作用,主要指的是在進(jìn)行文本分類時,對提取后的文本主題進(jìn)行同義詞替換。同義詞替換來源是較為權(quán)威的組織機構(gòu)、行業(yè)先進(jìn)或行業(yè)中默認(rèn)的標(biāo)準(zhǔn)。由于個人在語言表達(dá)方面有自己習(xí)慣的語法、詞語,即使表達(dá)相同含義卻擁有語言的不同形式,導(dǎo)致組織與組織之間的知識交流存在障礙,影響了知識在組織與組織之間的流通速度。同義主題合并在文本分類中可以消除大部分由于個人喜好導(dǎo)致的語義表達(dá)誤差,通過同義詞替換成行業(yè)標(biāo)準(zhǔn)詞匯,使知識文本轉(zhuǎn)化成為標(biāo)準(zhǔn)的、易于理解的文本內(nèi)容。
運用基于LDA主題模型的同義主題替換來解決企業(yè)中存在的知識文本共享程度低問題。LDA主題模型以Dirichlet 分布為基礎(chǔ)[15]。運用詞袋(bag of words)識別大規(guī)模文檔集中潛在的主題信息,但是詞袋方法忽略了詞與詞之間的順序關(guān)系,因此,本文算法用TF-IDF方式挖掘文本中的詞匯[16]。在LDA模型中,α、β、K是需要人為確定的參數(shù),改進(jìn)的基于LDA主題模型同義替換算法在此基礎(chǔ)上需要對文本詞匯進(jìn)行同義代換。
步驟1 利用python3.9 爬取某電商平臺商品評價文本集D,包括六類電商產(chǎn)品在線評價,并進(jìn)行基本的數(shù)據(jù)清洗工作,去除其中的重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)以及無效評論數(shù)據(jù)。
步驟2 對在線評論文本集進(jìn)行數(shù)據(jù)預(yù)處理。利用停用詞對電商產(chǎn)品評價文本整體去噪以及分詞去噪,利用TF-IDF 方式(流程圖如圖3)挖掘文檔詞匯V,其中T 代表文檔集中的單詞總數(shù),T~Poisson(ε)。對文檔詞匯V 進(jìn)行詞性標(biāo)注工作,識別其中的名詞(NN)、動詞(VB)、形容詞(JJ)、副詞(RB)等,為后續(xù)同義替換打下基礎(chǔ)。TF-IDF模型作為分解文本的加權(quán)算法,可以得到詞頻與逆文檔頻率的組合,可用于信息檢索與文本挖掘[17]。可以用于評估某一字詞對于文本的重要程度,利用TF-IDF模型對資源中心文檔集D進(jìn)行分詞處理,獲得有關(guān)聯(lián)關(guān)系的文本分詞V,優(yōu)化LDA模型的輸出結(jié)果。
圖3 TF-IDF詞袋矢量生成流程
步驟3 同義詞匯替換。經(jīng)過TF-IDF分詞處理及詞性標(biāo)注得到TF-IDF詞袋矢量,利用物流評價中的相關(guān)語料建立的標(biāo)準(zhǔn)詞匯庫S 尋找分詞中的近義詞,并使用標(biāo)準(zhǔn)詞匯替代,形成替換后的分詞庫Vs。根據(jù)語料同義詞匯相似度計算大于0.600 00 可視作可進(jìn)行同義替換的詞匯,并進(jìn)行同義替換操作。
步驟4 進(jìn)行LDA 模型主題聚類。LDA 主題模型的聚類流程圖如圖4所示。首先需要確定一個θi,表示第i個文檔對應(yīng)主題的多項分布,服從Dirichlet分布,由θi隨機生成一個主題Z。設(shè)置一個β值使其隨機生成主題對應(yīng)詞語的多項分布φ,也服從Dirichlet分布。綜合主題Z與主題對應(yīng)詞語分布情況生成詞語w,循環(huán)以上步驟生成一個包含m個詞語的文檔。最后生成K個主題下的N篇文檔,與電商平臺在線評論文本進(jìn)行對比,從而生成聚類結(jié)果。
圖4 LDA模型算法流程
K個主題是需要人為設(shè)定的參數(shù)之一,K的取值大小會影響LDA主題模型的分類結(jié)果,因此,采用困惑度取值最佳主題數(shù)目K。
Vs為標(biāo)準(zhǔn)詞匯集合,D為文檔數(shù),pwd是文檔生成概率,Dd,i是文檔d中的第i個詞,z為某個特定主題。
利用python3.9爬取某電商平臺中各類商品評價共70 000 條,去除重復(fù)數(shù)據(jù)以及默認(rèn)評價共15 438條,保留54 562條文本評價數(shù)據(jù)。根據(jù)式(1)、式(2)算出困惑度,當(dāng)困惑度最低時模型效果最好,實證選取K=6,α=0.1,β=0.01。
首先,對收集的文本評價數(shù)據(jù)進(jìn)行分詞處理,利用jieba分詞庫把一句話切分成若干個詞語,采用停用詞進(jìn)行文本整體去噪和分詞去噪,利用根據(jù)物流行業(yè)建立的詞向量庫對所得的TF-IDF詞袋矢量進(jìn)行同義詞標(biāo)準(zhǔn)替換,以“物流”為例,同義詞相似度表見表1。
表1 特征值相似度表
LDA模型與經(jīng)過同義詞替換的LDA模型獲得的主題詞、主題詞下特征值以及特征值的概率分布見表2、表3??梢钥吹絻蓚€模型對于主題特征值提取大部分都是相同的,經(jīng)過同義替換后的特征值概率值均大于傳統(tǒng)LDA模型,也可以看到傳統(tǒng)LDA模型中各個特征值的概率均小于10%,而同義詞替換后LDA模型中特征值概率有明顯上升。
表2 傳統(tǒng)LDA模型特征值分布
表3 改進(jìn)LDA模型特征值分布
根據(jù)改進(jìn)LDA 模型特征值及其概率分布可以看出,在進(jìn)行同義詞替換后,占比較大的特征值能夠在主題中體現(xiàn)的更加明顯,并且提升了特征值分布的概率分布,對于商家、物流方以及消費者有更有價值的決策信息支持。Topic1 主題為生鮮產(chǎn)品,可以看出消費者更注重生鮮產(chǎn)品的新鮮程度、物流快慢、包裝的完善程度,對于商家來說,在保證自身產(chǎn)品質(zhì)量的前提下,選擇合適的物流方合作是提升銷量的關(guān)鍵點之一。Topic2 主題為大型家電,在消費者的評價中突出了對家電的安裝與否、物流速度以及性價比高低的重視,與其他類別的商品對物流的需求不同,家電產(chǎn)品要求商家選擇提供安裝服務(wù)的物流合作商。Topic3、Topic4、Topic5、Topic6 分別為個護(hù)類、食品類、日用百貨類以及服務(wù)類,對物流的要求并不高,更多關(guān)注產(chǎn)品自身的價值程度,因此,商家在選擇物流合作方時,可以將合作重點放在控制成本上,在滿足消費者基礎(chǔ)物流需求前提下減少物流成本。
根據(jù)LDA 主題模型的文本聚類結(jié)果可看出,電商平臺上五大類消費產(chǎn)品“生鮮”“電器”“食品”“個護(hù)”“服務(wù)”“日用”對于物流的需求都不相同。將電商平臺在線評論的聚類結(jié)果運用多維資源圖譜展示出來,如圖5 所示,距離主題點越遠(yuǎn)表示其在主題中的概率分布越小,相反則在主題中的概率分布越大。多維資源圖譜將概率分布的情況運用可視化展示出來,越靠近主題點表示此類特征對于產(chǎn)品來說更受消費者青睞,可視化為電商各角色提供了更加清晰的決策支持?jǐn)?shù)據(jù)。電商平臺商家可據(jù)此調(diào)整與物流商家的合作。
圖5 改進(jìn)LDA主題多維資源可視化
以查準(zhǔn)率P、查全率R來判斷基于LDA模型的同義合并文本分類方法的有效性。在進(jìn)行文本分類后,可對分類結(jié)果進(jìn)行劃分,用TP 表示真實情況與預(yù)測情況都為正的情況稱為真正例;FN 表示真實情況為正,預(yù)測結(jié)果為反的案例,稱為假反例;FP表示真實情況為反例,預(yù)測結(jié)果為正例,稱為假正例;TN表示真實情況與預(yù)測結(jié)果均為反例的案例,稱為真反例,整體混淆矩陣見表4。
表4 混淆矩陣[18]
根據(jù)混淆矩陣得到查準(zhǔn)率以及查全率,查準(zhǔn)率與查全率之間存在一定的依賴關(guān)系,查全率高則查準(zhǔn)率下降,反之,查全率低則查準(zhǔn)率上升,因此,利用查準(zhǔn)率與查全率的調(diào)和平均值F 值進(jìn)行模型的有效性評估[19],見表5。
表5 算法查準(zhǔn)率P、查全率R及F值對比
在算法性能對比上可看出,在進(jìn)行同義文本替換后,模型的查全率顯著提高,解決了某一部分在線評價文本由于同義表達(dá)過多導(dǎo)致的文本分類無法聚類問題。根據(jù)F值可知改進(jìn)LDA模型在有效性上超越了傳統(tǒng)的LDA模型,因此,本文提出的物流在線評價主題挖掘的決策信息在一定程度上為商家、消費者以及物流企業(yè)提供了更為有效的決策支持信息。
物流服務(wù)作為電子商務(wù)平臺上連接商家與消費者的中間商,了解物流服務(wù)在各個產(chǎn)品銷售中的重要性有助于商家為消費者提供更好的服務(wù)。本文利用改進(jìn)的LDA模型對消費者的消費評價進(jìn)行主題分析,改進(jìn)LDA模型原本過于分散的特征值,將同義的特征詞進(jìn)行合并處理,并且用可視化的多維資源地圖展示其聚類結(jié)果,為電子商務(wù)各級用戶提供了更加明確的聚類決策信息。商家可依據(jù)商品評論聚類結(jié)果選擇合適的物流合作商來提高商品交易量,物流方也可以根據(jù)消費者對于物流的需求改進(jìn)服務(wù)。
本文討論了同義詞、近義詞在商品評論中對聚類結(jié)果的影響,在用標(biāo)準(zhǔn)詞匯替換同義詞、近義詞后聚類成果更加集中,相比之下,未進(jìn)行同義詞、近義詞替換的聚類結(jié)果特征值過于分散平均,決策信息不明顯。實證研究發(fā)現(xiàn),生鮮類、食品類、電器類對于物流的要求較高,往往需要快速的物流速度以及完善的物流服務(wù),而個護(hù)類、食品類、日用百貨類以及服務(wù)類對物流的要求并不高,更多關(guān)注產(chǎn)品自身的價值程度。未來研究希望在同義詞替換聚類的基礎(chǔ)上,將商品評論中的情感類詞匯納入考慮范圍,探討在線評論的情感偏向?qū)ξ锪餍袠I(yè)決策的影響。