陳曉玲 褚 漢 許鈞儒
(安徽財經(jīng)大學,安徽 蚌埠 233030)
隨著網(wǎng)上購物行為的增多,商品評論數(shù)量也越來越多,評論數(shù)據(jù)的可讀性與豐富性,使得評論往往成為消費者決定是否購買的標尺。由于評論數(shù)據(jù)量過于巨大,討論的主題涉及商品的各個屬性,想從大量的商品評論中整理出有用信息,是非常困難的。筆者采用情感分析方法,將海量評論中所蘊含的信息挖掘整理出來——建立基于情感分析的商品評價模型,對特定商品進行評價。
情感分析是2001年在分析股票的留言板上首次出現(xiàn),作者認為,股票的走勢會受到投資者的情感影響,而投資者的情感則可以通過股票留言板中的留言來提取。次年,Turney和Pang[1]分別提出了有監(jiān)督學習和無監(jiān)督學習的情感分類研究。
Pang(2002)認為,對文檔進行分類時不必對整個文檔進行研究,應該將文本分類技術(shù)用于文檔中含有主觀情緒的部分。Abbasi(2008)對提取特征的過程進行了改進,開發(fā)了熵加權(quán)遺傳算法,通過對阿拉伯語與英語的語法句法特征分析,提取特征集,有效提高了學習的準確度,數(shù)據(jù)的準確識別達到了95%[2],這些屬于有監(jiān)督的機器學習。
無監(jiān)督學習,也稱基于詞典的規(guī)則匹配,通過對特定語言的語法結(jié)構(gòu)進行分析,制定規(guī)則和詞典,對語句進行分析。pak(2010)等人對國外流行的推特上的內(nèi)容進行情感分析表明,利用這種社交平臺監(jiān)控國民輿情具有可操作性,并且發(fā)現(xiàn)越來越多的人喜歡在這種平臺表達自己情感[3]。
國內(nèi)關(guān)于情感分析的研究較晚。朱嫣嵐(2006)認為,詞作為文章的基礎單元,首先要對詞的正負面做研究,進而研究出詞義傾向模型。其核心思想在于相同極性的詞會經(jīng)常在一起出現(xiàn),或者是可以相互替換[4]。張子瓊等人在2010年對當時情感分析的狀況進行了一個總結(jié),論述了商品評論挖掘的經(jīng)濟價值,對于股票、電影和一些電子商品的商品評論中含有的褒貶義情感與商品的銷量成正相關(guān)[5]。
隨著電子商務的蓬勃發(fā)展,消費者迫切需要科學有效的商品評價數(shù)據(jù)指導消費。如何利用網(wǎng)上海量評論數(shù)據(jù),有效地分析得出真實、準確的評價信息,成為信息科學、統(tǒng)計學等領域的研究熱點。本文以情感分析理論為基礎,側(cè)重分析基于情感分析的商品評價模型的構(gòu)建,以便對電子商務產(chǎn)品進行評價。
基于情感分析的評價,其評價指標源于大量的評論數(shù)據(jù),數(shù)據(jù)的獲取和處理是構(gòu)建模型的基礎。
1.數(shù)據(jù)的獲取
利用python對電商評論數(shù)據(jù)進行抓取,需要在發(fā)鏈接請求時附帶上完善的header信息即可,如圖1所示。
圖1 請求信息
2.數(shù)據(jù)的清洗
由于刷單行為越演越烈,數(shù)據(jù)清洗成為構(gòu)建商品評價模型的重要一環(huán)。數(shù)據(jù)清洗基于二個規(guī)則,第一,每個買家每天最多在一件商品下評論一次,這是為了杜絕同一賬號在同一商品下多次刷評論的行為,也是為了刪除爬取過程中的重復數(shù)據(jù)。第二,從評價內(nèi)容的角度,利用余弦定理,從評價內(nèi)容中找出相似的文本向量,剔除極度相似的評論。
3.指標體系的建立
本文以手機為例,討論指標體系的構(gòu)建。
(1)主題模型
利用LDA(Latent Dirichlet Allocation)主題模型,我們可以從經(jīng)過清洗的大量數(shù)據(jù)文本中找出潛在主題——即消費者所關(guān)心的商品屬性,通過人為的判定這些主題的類別,來確定出商品的評價指標體系。
LDA模型對詞語和文章的關(guān)系有著這么一種認識,即每一篇文章或者每一段文字都是由一個或者多個主題構(gòu)成,每一個主題又是由特定的詞組合而成。LDA的聯(lián)合概率公式為:
每一篇文章首先從主題分布θ中挑選出一個主題 z(p(θ|α)),同時 z對應著一個詞分布 p(zn|θ),從詞分布中挑選出N詞語,再重新回到主題分布中挑選主題,循環(huán)K次就是一篇文章的詞分布。α,β是主題分布與詞分布的先驗分布(狄里克雷分布)的參數(shù)。計算后驗概率為
似然函數(shù):
該式中含有的參數(shù)α,β是無法直接求解的,只能使用計算機進行大量的樣本抽取,對后驗分布進行估計。
(2)指標體系
利用主題模型,從大量評論中挑出消費者最關(guān)注的商品屬性,構(gòu)成評價指標體系。
表1 指標體系表
4.情感單元的抽取
情感單元包含兩部分信息,情感的主體和情感。情感單元的抽取目的是將雜亂的評論變?yōu)橐?guī)范的問卷式數(shù)據(jù),一段評論可能包含多個情感單元,筆者只抽取每段評論中與最終評價指標息息相關(guān)的情感單元。
情感單元中的情感主體利用一些篩選規(guī)則即可以很快判定情感。從可實現(xiàn)性與高效的角度,筆者將每一條規(guī)則定為四個部分[關(guān)鍵詞、聯(lián)合詞1、聯(lián)合詞2、互斥詞]。 例如[(容量),(電),(…),(內(nèi)存、存儲、空間)],這樣一條簡單的規(guī)則,已經(jīng)可以將電池容量這個主體抽取出來了,經(jīng)過反復測試,筆者建立了90余條規(guī)則用于抽取情感主體。
情感單元中的情感抽取則是根據(jù)三部分決定的,情感詞(褒貶義詞)、程度詞和轉(zhuǎn)意詞,如表2所示:
表2 詞性標注
每一個褒貶義詞都有自己的褒貶義得分,褒義詞正分,貶義詞負分,程度詞0.8至2分,轉(zhuǎn)意詞-1分,每一句計算公式為:
最終的情感分還需要進行規(guī)范:
最終的抽取結(jié)果如表3所示:
表3 評論情感單元提取表
5.情感詞典的擴充
盡管與前幾年相比,大學新生的英語水平有了明顯提高,但仍有相當一部分學生的英語水平并不足以滿足ESP課程的要求。如果學習者沒有一定的英語基礎,ESP教學因增加了專業(yè)內(nèi)容,且教學目標并不僅僅是對語言技能的訓練,從而將加重這些學生的學習負擔,他們會喪失英語學習的興趣。因而,現(xiàn)階段在我國高校大面積推廣ESP取代EGP顯然過于冒進。一個普遍接受的做法是在學習者通過大學英語四級考試以后再開展ESP教學,這樣教學效果將大大提高。目前,可以在學生入學英語水平普遍較高的院校進行試點ESP取代EGP,以為下一步改革積累經(jīng)驗。
情感詞典是幫助確定情感強弱與翻轉(zhuǎn)的詞典,本文使用的基礎詞典是hownet情感詞典?!斑@部手機好”和“這部手機很好“這兩句話都是褒義,但是“很”這個程度詞就讓后一句的褒義要大于前一句。由于,Hownet詞典沒有基于特定方向,像發(fā)燙、黑屏、卡機、自動關(guān)機這類過于專業(yè)化的詞匯沒有出現(xiàn)在詞典中,需要根據(jù)研究方向進行擴充和修改詞典。筆者將利用Apriori和word2vec模型對評論進行處理,找出和研究主體相關(guān)的詞,再人工篩選出合適的詞加入詞典。利用非監(jiān)督的機器學習找出行業(yè)相關(guān)的詞,再人工篩選,能夠有效提高詞典的擴充效率與準確率。
6.評論的有效度模型
在商品的評價中,貼合消費者思維模式的評論是高質(zhì)量的評論,筆者希望評論的質(zhì)量越高對模型最終結(jié)果影響越大,因此,在建立商品評價模型前,就需要先建立評論的有效度模型。
在爬取的評論數(shù)據(jù)中,除了有每一條評論的文本內(nèi)容,還含有一些其他信息,比如買家的昵稱、等級、評論的點贊數(shù)量、回復數(shù)量和評價時間,這些信息可以代表問卷質(zhì)量,表4為評論的附帶信息。
表4 買家相關(guān)信息
指標都是效益型指標,我們利用熵值法確定權(quán)重,熵值法的核心公式:
計算第i個評論第j項指標的占比
計算評論的第j項指標熵
7.商品評價模型
在選取評價模型時考慮了共性和個性兩個要求:共性,評價模型將海量評論的信息總結(jié)出規(guī)律,同時又盡可能的保留更多的信息。個性,商品的同一屬性可能不同的人的評價是不一樣的,所以希望在最終評價時可以針對不同類型的客戶,給予不同的評價結(jié)果。
模糊關(guān)系矩陣R可以解決共性問題,不僅從評論中提取出有效的信息,最終的信息是根據(jù)評論信息計算該商品屬性對于非常滿意、滿意、一般、不太滿意和非常不滿意五個消費者態(tài)度的隸屬度,這樣的隸屬度矩陣富含更多的信息。
權(quán)數(shù)與關(guān)系矩陣分別代表了個性與共性,筆者很難斷定兩者的重要性,所以筆者更傾向選擇算子值得注意的是模糊關(guān)系矩陣的構(gòu)造不同于一般的計算公式,矩陣的計算與前文評論的有效度是密不可分的:
每條評論有以下幾個指標,見表5
表5 隸屬度指標
評價模型的構(gòu)建邏輯見圖2。
圖2 評價模型構(gòu)建邏輯
筆者通過爬蟲技術(shù)從電商網(wǎng)站獲取評論數(shù)據(jù),利用情感分析技術(shù)將不規(guī)則的評論數(shù)據(jù)轉(zhuǎn)變成規(guī)范的問卷樣式,再利用模糊數(shù)學方法建立商品評價模型,整個流程省時省力。評論數(shù)據(jù)作為評價模型的源數(shù)據(jù),包含了非常重要的消費者體驗信息,模型評價結(jié)果貼合消費者感受。研究表明,利用評價結(jié)果幫助消費者挑選商品是可行的,當擁有大量手機的模糊矩陣后,就可以在更大范圍內(nèi)幫助不同消費者挑選商品。