劉 莎 陳艷平
(貴州大學(xué) 貴陽(yáng) 550025)
近些年來(lái),隨著互聯(lián)網(wǎng)及電子商務(wù)平臺(tái)的迅速發(fā)展,在線評(píng)論的有用性成為影響消費(fèi)者決策的一大重要影響因素。在線評(píng)論是用戶在體驗(yàn)商業(yè)產(chǎn)品和服務(wù)后的評(píng)估和體驗(yàn),并為其他用戶提供有價(jià)值的信息。用戶可以通過(guò)在線評(píng)論了解商家的產(chǎn)品和服務(wù),這有助于他們做出更好的消費(fèi)決策,并降低產(chǎn)品和服務(wù)的參考成本。著名Jupiter Re?search公司通過(guò)多年調(diào)查分析,研究發(fā)現(xiàn)75%的消費(fèi)者在餐廳用餐、旅游住宿、購(gòu)買(mǎi)商品、親子游樂(lè)場(chǎng)等多項(xiàng)消費(fèi)之前,會(huì)參考互聯(lián)網(wǎng)上的用戶體驗(yàn)后的評(píng)論信息。國(guó)內(nèi)也一樣,比如淘寶、京東、美團(tuán)、去哪兒等平臺(tái)。
由于網(wǎng)絡(luò)的開(kāi)放性,發(fā)布在線評(píng)論的成本很低,許多垃圾郵件和虛假信息使得評(píng)論中的信息質(zhì)量參差不齊,導(dǎo)致評(píng)論數(shù)量多,噪音大,難以區(qū)分,而且評(píng)論方式有很多,語(yǔ)言表達(dá)也不同,有些評(píng)論并不能給我們帶來(lái)有用的參考價(jià)值,如何從大量評(píng)論中找到有價(jià)值的信息是我們研究的重點(diǎn)和難點(diǎn)。
文中提出了評(píng)論有用性投票的低頻關(guān)鍵詞提取方法。主要是從餐廳的評(píng)論中找出低頻關(guān)鍵詞,通過(guò)研究有用性投票來(lái)給消費(fèi)者提供更多的選擇和決策,而不是僅僅看用戶給這家餐廳打的星級(jí)來(lái)作為評(píng)判指標(biāo)(一般是五顆星)。因此,低頻關(guān)鍵詞的識(shí)別和提取就成了我們所面臨的一大困難,它主要存在以下三個(gè)問(wèn)題。
1)低頻關(guān)鍵詞的各個(gè)部分之間的內(nèi)聚性弱,無(wú)法計(jì)算它們之間的相互信息。
2)由于低頻關(guān)鍵詞之間的組合從概率的角度評(píng)價(jià)具有隨機(jī)性,難以采用標(biāo)注的方式來(lái)使用機(jī)器學(xué)習(xí)的方法。
3)低頻關(guān)鍵詞也存在表示方面的問(wèn)題,由于出現(xiàn)次數(shù)少,缺少上下文信息,難以通過(guò)現(xiàn)有表示方法(如:Word2Vector)來(lái)對(duì)其進(jìn)行表示。
基于以上困難,目前仍沒(méi)有較多關(guān)于評(píng)論有效性投票方面的研究,這將成為我們重點(diǎn)研究的課題,它能更好地解決目前存在信息量大、查找感興趣的主題困難,后期信息利用也很困難的問(wèn)題,便于用戶在信息化時(shí)代更加容易且方便地查找有用性信息。
關(guān)于在線評(píng)論有用性投票方面的研究,大多是管理學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)研究的相對(duì)較多。在國(guó)外,2011年,Lotte M.Willemsen[1]等通過(guò)分析Amazon.com上發(fā)布的經(jīng)驗(yàn)和搜索產(chǎn)品的評(píng)論,發(fā)現(xiàn)此內(nèi)容分析的見(jiàn)解和消費(fèi)者收到的評(píng)論的比例相關(guān)聯(lián)。2012年,Racherla,Pradeep等通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)評(píng)論者和評(píng)論者的特征對(duì)于理解評(píng)論的有用性至關(guān)重要。在國(guó)內(nèi),2010年,郝媛媛[3]等從文本特征、建立模型并進(jìn)行有用性分類(lèi)提出了在線影評(píng)的有用性。2013年,廖成林[4]等認(rèn)為評(píng)論的等級(jí)和評(píng)論者的排名與評(píng)論的有用性成反比,評(píng)論的深度和購(gòu)買(mǎi)經(jīng)驗(yàn)與評(píng)論的有用性成正比。
在國(guó)外,較早就開(kāi)始研究關(guān)鍵詞提取了。美國(guó)紐約大學(xué)開(kāi)展的Linguistic String項(xiàng)目[5]開(kāi)始于60年代中期并一直延續(xù)到80年代。該項(xiàng)目的主要研究?jī)?nèi)容是建立一個(gè)大規(guī)模的英語(yǔ)計(jì)算語(yǔ)法庫(kù),與之相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的X光報(bào)告和醫(yī)院出院記錄中抽取關(guān)鍵詞。2008年,F(xiàn)rans Coenen[6]研究了許多替代關(guān)鍵詞生成方法和短語(yǔ)構(gòu)建策略,結(jié)果表明該方法使得分類(lèi)準(zhǔn)確性提高了。在國(guó)內(nèi),2007年,張敏[7]等提出了以KeyGraph算法思想,構(gòu)建詞網(wǎng)絡(luò)的自動(dòng)抽取關(guān)鍵詞的理論機(jī)制,并通過(guò)實(shí)驗(yàn)得到了較好的實(shí)驗(yàn)效果。2014年,黃磊等[8]又提出了改進(jìn)方法,即DI-TTFIDF算法,它的準(zhǔn)確度高于傳統(tǒng)的TTFIDF算法。
本文中,我們討論低頻關(guān)鍵詞的識(shí)別及提取。將數(shù)據(jù)集文檔中的評(píng)論先分割成句子,通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練、聚類(lèi)生成關(guān)鍵詞的詞義結(jié)構(gòu),緊接著進(jìn)行詞義結(jié)構(gòu)排序、關(guān)鍵詞抽取,再根據(jù)餐廳評(píng)論的主題相關(guān)性對(duì)相同短語(yǔ)模式中的低頻關(guān)鍵詞排序,從而達(dá)到我們所要提取的低頻關(guān)鍵詞。具體框架如圖1。
圖1 低頻關(guān)鍵詞提取框架圖
詞義結(jié)構(gòu)生成基于自然語(yǔ)言處理中的詞聚類(lèi)或分類(lèi)的方法。常用的有以下三種:1)利用外部知識(shí)庫(kù)(如WorldNet、HowNet和Cyc等)直接獲得詞的語(yǔ)義類(lèi)別。該方法的缺點(diǎn)是知識(shí)庫(kù)構(gòu)建困難且難以更新。2)利用機(jī)器學(xué)習(xí)中的分類(lèi)器識(shí)別單詞的詞類(lèi)。該方法需要標(biāo)注一定數(shù)量的數(shù)據(jù)集,對(duì)分類(lèi)器進(jìn)行訓(xùn)練。當(dāng)單詞的類(lèi)別比較多時(shí),該方法難以適用。3)采用無(wú)監(jiān)督聚類(lèi)的方法。該方法利用大規(guī)模無(wú)標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練,利用單詞出現(xiàn)的上下文信息將單詞自動(dòng)聚為不同的類(lèi)別。相對(duì)來(lái)說(shuō),聚類(lèi)的方法性能較弱,但是訓(xùn)練數(shù)據(jù)容易獲取,詞類(lèi)別數(shù)量的選擇也比較靈活。
我們采用的是基于自然語(yǔ)言處理中的詞聚類(lèi)方法,將評(píng)論中單個(gè)的詞映射到一個(gè)帶語(yǔ)義的向量空間。在該空間中,語(yǔ)義上相近的詞其歐拉距離也很接近。然后,利用歐拉距離進(jìn)行單詞的聚類(lèi),屬于同一詞類(lèi)的詞,語(yǔ)義上也相近。每個(gè)詞類(lèi)用一個(gè)標(biāo)簽表示,代表該類(lèi)詞在語(yǔ)義空間中的語(yǔ)義。然后,利用標(biāo)簽替換候選關(guān)鍵詞中的所有單詞,生成關(guān)鍵詞的語(yǔ)義結(jié)構(gòu)。具體表示由式(1)給出:
其中,w(t)和y(t)分別表示輸入層和輸出層,s(t)=f(Uw(t))表示隱藏層。
在文檔中,相對(duì)于低頻關(guān)鍵詞,其詞義結(jié)構(gòu)具有較高的出現(xiàn)頻率,可以用來(lái)判斷一個(gè)語(yǔ)義機(jī)構(gòu)是否有效。通過(guò)詞義結(jié)構(gòu)生成,可以得到關(guān)鍵詞的語(yǔ)義結(jié)構(gòu),表示關(guān)鍵詞的使用模式。如果詞聚類(lèi)的個(gè)數(shù)為K,允許的語(yǔ)義結(jié)構(gòu)長(zhǎng)度為n,則可能參數(shù)的語(yǔ)義結(jié)構(gòu)的數(shù)量為Kn個(gè)。為了減少噪音,需要對(duì)其進(jìn)行排序。
在所有評(píng)論中,低頻關(guān)鍵詞的出現(xiàn)次數(shù)非常少,上下文信息稀疏。每個(gè)低頻關(guān)鍵詞所對(duì)應(yīng)的詞義結(jié)構(gòu)包含很多關(guān)鍵詞。語(yǔ)義結(jié)構(gòu)的排序可以使用多種排序方法。我們主要采用每個(gè)語(yǔ)義結(jié)構(gòu)所對(duì)應(yīng)的關(guān)鍵詞的數(shù)量作為評(píng)價(jià)的指標(biāo)。
因?yàn)榈皖l關(guān)鍵詞的上下文信息稀疏,難以利用其上下文信息對(duì)單個(gè)詞義結(jié)構(gòu)下的不同低頻關(guān)鍵詞進(jìn)行排序。我們采用低頻關(guān)鍵詞中的各個(gè)單詞在文檔集中的上下文信息對(duì)低頻關(guān)鍵詞進(jìn)行排序。比如餐廳評(píng)論中出現(xiàn)“這家餐廳的花生很好吃…牛奶的味道也很好?!奔偃纭盎ㄉD獭睘榈皖l關(guān)鍵詞,出現(xiàn)頻率低,上下文信息稀疏。但是單詞“花生”和“牛奶”在文檔中的出現(xiàn)頻率卻比較高。利用這些單詞在整個(gè)文檔集中的上下文信息,可以根據(jù)其同文檔主題的相關(guān)性進(jìn)行排序。為了對(duì)低頻關(guān)鍵詞進(jìn)行排序,首先生成該關(guān)鍵詞對(duì)應(yīng)的向量Vi,該向量由式(2)給出:
其中Pi表示當(dāng)前排序的關(guān)鍵詞,Wi表示構(gòu)成該關(guān)鍵詞中的單詞,表示單詞Wi在文檔集中的上下文信息(該詞多次出現(xiàn)的周?chē)脑~特征)所構(gòu)成的向量。則,對(duì)Vi的評(píng)分可以由式(3)給出:
其中Vt為文檔聚類(lèi)后人工選擇的文檔簇所生產(chǎn)的詞頻向量,表示和餐廳有用性相關(guān)的主題。Vb表示用全部文檔集中的詞頻生成背景向量。分別計(jì)算每個(gè)關(guān)鍵詞對(duì)向量Vi的評(píng)分,即可得到低頻關(guān)鍵詞的排序。
本次實(shí)驗(yàn)我們主要從Yelp.com中提取數(shù)據(jù),Yelp是美國(guó)最大的商戶點(diǎn)評(píng)網(wǎng)站,其中包含各地餐館、購(gòu)物中心、酒店、旅游等23個(gè)領(lǐng)域,用戶可以在Yelp網(wǎng)站中給商戶打分,提交評(píng)論,交流購(gòu)物體驗(yàn)等,每條評(píng)論都會(huì)有一個(gè)分?jǐn)?shù)表明其有用性。
Yelp數(shù)據(jù)包含984,502條餐廳評(píng)論和584,762條非餐廳評(píng)論,我們主要聚焦在Yelp數(shù)據(jù)集中與餐廳有關(guān)的評(píng)論,并根據(jù)收集的評(píng)論的有用性將其分為兩類(lèi):第一類(lèi),有用性評(píng)論,其中有用值>0有449,437條評(píng)論;第二類(lèi),無(wú)用性評(píng)論,其中有用值=0有535,065條評(píng)論。
文中我們主要通過(guò)候選詞生成、短語(yǔ)過(guò)濾、短語(yǔ)評(píng)分這三個(gè)方面來(lái)進(jìn)行實(shí)驗(yàn)。最終通過(guò)判斷提取出的低頻關(guān)鍵詞占評(píng)論里有用性比例,看它是否對(duì)用戶選擇和決策具有有用性,從而驗(yàn)證我們的實(shí)驗(yàn)效果。以下將分為三部分進(jìn)行詳細(xì)介紹。
4.2.1 候選詞生成
在現(xiàn)代生成語(yǔ)言學(xué)中,很難將功能詞與內(nèi)容相關(guān)的詞分隔開(kāi)來(lái)。我們的主要工作是將功能詞作為邊界形成候選詞。具體步驟如下:
1)在文檔中,首先將每條評(píng)論通過(guò)標(biāo)點(diǎn)符號(hào)來(lái)進(jìn)行分隔,比如{,。;???:};
2)LIWC2015詞典中包含了19,281個(gè)停用詞,我們用LIWC2015詞典來(lái)檢查分隔開(kāi)的評(píng)論,如果在詞典中,就將其作為邊界以生成候選短語(yǔ);
3)輸出生成的候選短語(yǔ)以獲得整個(gè)語(yǔ)料庫(kù)的候選短語(yǔ)。
在整個(gè)評(píng)論中,會(huì)出現(xiàn)一些拼寫(xiě)錯(cuò)誤、符號(hào)錯(cuò)誤或使用不當(dāng)及地方方言識(shí)別等問(wèn)題,為了減少噪音,降低實(shí)驗(yàn)復(fù)雜度,我們通過(guò)lexicon詞典來(lái)檢查是否會(huì)出現(xiàn)上述問(wèn)題(lexicon詞典的單詞列表包含67,725個(gè)單詞),如果候選短語(yǔ)不在此列表中,直接將其丟棄。我們通過(guò)以上兩大篩除步驟,最終Yelp數(shù)據(jù)集中短語(yǔ)共1,078,414個(gè),出現(xiàn)次數(shù)為31,093,419次。短語(yǔ)類(lèi)型的分布如圖2所示。
圖2 短語(yǔ)類(lèi)型分布
其中A表示整個(gè)語(yǔ)料庫(kù),B表示餐廳有用性的數(shù)據(jù)評(píng)論,C表示餐廳無(wú)用性數(shù)據(jù)評(píng)論。從中可以看出候選短語(yǔ)出現(xiàn)超過(guò)9次所占的比率分別是6.27%、6.98%、7.49%,而只出現(xiàn)過(guò)1次所占的比率分別是71.7%、71.12%、70.01%。由此表明刪除低頻短語(yǔ)將會(huì)失去很多有用的的信息,不利于更好地發(fā)掘文本信息,也不利于餐廳評(píng)論有用性投票的評(píng)估。
4.2.2 短語(yǔ)過(guò)濾
本次實(shí)驗(yàn)主要研究餐廳的評(píng)論有用性。為了驗(yàn)證低頻關(guān)鍵詞的含有很多重要的信息和很大的研究意義,以下將采用三個(gè)過(guò)程來(lái)進(jìn)行候選短語(yǔ)的過(guò)濾。
1)高頻率的單詞可以增加表示的精確性。因此,為了支持詞分組,將刪除少于N(本文N=300)次單詞出現(xiàn)的短語(yǔ)。
2)實(shí)驗(yàn)中,為了簡(jiǎn)化討論,只研究過(guò)濾后評(píng)論包含兩個(gè)詞構(gòu)成的短語(yǔ)。
3)由于實(shí)驗(yàn)?zāi)繕?biāo)是研究低頻關(guān)鍵詞,因此,只討論出現(xiàn)一次的短語(yǔ)。
通過(guò)以上短語(yǔ)過(guò)濾,最終在A、B、C三個(gè)數(shù)據(jù)集上分別剩余327,345、120,828、78,247個(gè)短語(yǔ),它們所占比率分別是30.35%、25.61%、23.58%。最終過(guò)濾結(jié)果如圖3所示。
圖3 短語(yǔ)過(guò)濾分布
4.2.3 短語(yǔ)評(píng)分
短語(yǔ)評(píng)分對(duì)于整個(gè)關(guān)鍵詞提取非常重要。通過(guò)以上短語(yǔ)過(guò)濾,最終得到在文中只出現(xiàn)一次的,只包含兩個(gè)詞的餐廳短語(yǔ)含有199,075個(gè)。整個(gè)Yelp語(yǔ)料庫(kù)中訓(xùn)練單詞分布式表示,并進(jìn)行k-means聚類(lèi),即根據(jù)相似性原則,將具有較高相似度的數(shù)據(jù)對(duì)象劃分至同一類(lèi)簇,將具有較高相異度的數(shù)據(jù)對(duì)象劃分至不同類(lèi)簇。其中k代表類(lèi)簇個(gè)數(shù),means代表類(lèi)簇內(nèi)數(shù)據(jù)對(duì)象的均值。將其聚類(lèi)為200個(gè)組,每個(gè)組由“C000-C199”的標(biāo)簽范圍標(biāo)識(shí)。為了減少噪音、降低實(shí)驗(yàn)處理難度,達(dá)到更好分類(lèi)效果,通過(guò)詞標(biāo)簽替換提取出來(lái)的關(guān)鍵詞,最終生成餐廳有用性短語(yǔ)20,277個(gè),生成餐廳無(wú)用性短語(yǔ)16,362個(gè)。因?yàn)槲覀冎饕P(guān)注餐廳評(píng)論的有用性,在此,只列舉有用性分類(lèi)。具體如表1所示。
表1 短語(yǔ)分組舉例
其中C15表示水果類(lèi)食品,C155表示甜品類(lèi),C51表示味道類(lèi)短語(yǔ),C63表示肉類(lèi)或谷類(lèi),C125表示情緒副詞,C152表示價(jià)格或效果的形容詞,C149大多表示描述環(huán)境的詞。
本文收集2013-2014年餐廳有用性評(píng)論,為了對(duì)相同短語(yǔ)模式的低頻詞進(jìn)行排序,我們定義一個(gè)目標(biāo)向量Vt,表示數(shù)據(jù)集的文本主題相關(guān)性,有關(guān)低頻關(guān)鍵詞的識(shí)別算法如表2所示。
表2 模型相應(yīng)算法
從實(shí)驗(yàn)中可以得出關(guān)于餐廳有用性評(píng)論的分布表,如此可以看出出現(xiàn)次數(shù)為5以上有用性投票只占了整個(gè)餐廳評(píng)論的6.08%,而出現(xiàn)次數(shù)為1的卻占了整個(gè)有用性投票的52.78%。提取其中一部分有用性評(píng)論,低頻詞大多是客觀表示用餐感受類(lèi)的詞,比如“相當(dāng)實(shí)惠、難以忘懷、十分冷清”等。“有用性”投票越高,這個(gè)評(píng)論越有價(jià)值,所包含的短語(yǔ)也就越有用;高頻詞大多是關(guān)于餐廳實(shí)體的詞,比如“牛排沙拉、餐廳座椅、芝士面包”等?!坝杏眯浴蓖镀痹降停@個(gè)評(píng)論價(jià)值越低,所包含的短語(yǔ)也就越無(wú)用。具體“有用性”投票分布如表3所示。
表3 “有用性”投票分布
這個(gè)實(shí)驗(yàn)不僅表明忽略低頻關(guān)鍵詞將會(huì)失去很多重要的信息,而且驗(yàn)證了我們提出的方法在處理低頻關(guān)鍵詞這一塊取得了很大的進(jìn)展,并且在餐廳有用性投票處取得了很好的效果,更加客觀地為消費(fèi)者提供準(zhǔn)確而有用的信息。
本文提出了基于評(píng)論有用性投票的低頻關(guān)鍵詞提取方法研究。首先,通過(guò)LIWC2015詞典找出評(píng)論里相應(yīng)的邊界詞并對(duì)其進(jìn)行分割生成候選詞;其次,過(guò)濾短語(yǔ),提煉出低頻的、與餐廳文本主題相關(guān)性大的短語(yǔ),并且這些短語(yǔ)在餐廳評(píng)論中只出現(xiàn)一次;最后,為了減少噪音、降低實(shí)驗(yàn)處理難度,我們采用類(lèi)別標(biāo)簽替換,將每一類(lèi)短語(yǔ)進(jìn)行短語(yǔ)評(píng)分,從而選出出現(xiàn)頻率低且有用性投票高的短語(yǔ)。從整個(gè)實(shí)驗(yàn)中可以看出通過(guò)提取餐廳評(píng)論的低頻關(guān)鍵詞,可以獲取更多評(píng)論的有用信息,根據(jù)我們所提出來(lái)的有用性投票能夠更加客觀地表示人們對(duì)這條評(píng)論的看法,用戶可以更加準(zhǔn)確地了解商戶,這有助于他們做出更好的消費(fèi)決策。