李志宇,梁 循,周小平
(中國人民大學(xué) 信息學(xué)院,北京 100872)
基于屬性主題分割的評(píng)論短文本詞向量構(gòu)建優(yōu)化算法
李志宇,梁 循,周小平
(中國人民大學(xué) 信息學(xué)院,北京 100872)
從詞向量的訓(xùn)練模式入手,研究了基于語料語句分割(BWP)算法,分隔符分割(BSP)算法以及屬性主題分割(BTP)算法三種分割情況下的詞向量訓(xùn)練結(jié)果的優(yōu)劣。研究發(fā)現(xiàn),由于評(píng)論短文本的自身特征,傳統(tǒng)的無分割(NP)訓(xùn)練方法,在詞向量訓(xùn)練結(jié)果的準(zhǔn)確率和相似度等方面與BWP算法、BSP算法以及BTP算法具有明顯的差異。通過對0.7億條評(píng)論短文本進(jìn)行詞向量構(gòu)建實(shí)驗(yàn)對比后發(fā)現(xiàn),該文所提出的BTP算法在同義詞(屬性詞)測試任務(wù)上獲得的結(jié)果是最佳的,因此BTP算法對于優(yōu)化評(píng)論短文本詞向量的訓(xùn)練,評(píng)論短文本屬性詞的抽取以及情感傾向分析等在內(nèi)的,以詞向量為基礎(chǔ)的應(yīng)用研究工作具有較為重要的實(shí)踐意義。同時(shí),該文在超大規(guī)模評(píng)論語料集上構(gòu)建的詞向量(開源)對于其他商品評(píng)論文本分析的應(yīng)用任務(wù)具有較好可用性。
在線評(píng)論;短文本;詞向量;相似度計(jì)算
隨著社會(huì)化商務(wù)的發(fā)展,在線評(píng)論已經(jīng)成為了消費(fèi)者進(jìn)行網(wǎng)絡(luò)購物的重要參考決策因素之一[1-2],同時(shí)也成為了包括計(jì)算機(jī)科學(xué)、管理科學(xué)以及情報(bào)分析等領(lǐng)域研究者在內(nèi)的重要研究對象之一。通常而言,在線評(píng)論包括微博評(píng)論、商品評(píng)論、點(diǎn)評(píng)評(píng)論等評(píng)論類型,這里我們統(tǒng)稱為“評(píng)論短文本”。以往關(guān)于評(píng)論短文本的應(yīng)用研究主要集中在包括評(píng)論效用分析[3]、虛假評(píng)論識(shí)別[4-5]以及評(píng)論觀點(diǎn)歸納[6]等方面。然而,這些應(yīng)用研究往往都基于一個(gè)重要的語言模型基礎(chǔ),即統(tǒng)計(jì)語言模型。
相對于常規(guī)語料而言,如書籍、新聞、論文、維基百科等語料,評(píng)論短文本的語言學(xué)規(guī)范非常弱,省略、轉(zhuǎn)義、縮寫等現(xiàn)象非常普遍。如果利用傳統(tǒng)的訓(xùn)練或者學(xué)習(xí)方法對評(píng)論短文本進(jìn)行處理,效果并不理想。但從某種角度上來講,評(píng)論短文本的在文法上的不規(guī)范,恰恰是另外一種形式的規(guī)范,即評(píng)論短文本自身特征的“規(guī)范”,由于評(píng)論短文本應(yīng)用的普遍性,因此沒有必要非要將評(píng)論短文本規(guī)約到常規(guī)的語料形式上進(jìn)行處理,反之應(yīng)該在最大限度上保留評(píng)論短文本的語料特征。
對于評(píng)論短文本的相關(guān)建模主要是從兩個(gè)角度出發(fā): 第一,利用TF-IDF,點(diǎn)互信息、信息增益等,對評(píng)論短文本進(jìn)行建模,從而分析評(píng)論之間的相似度或評(píng)論的情感傾向等;第二,通過構(gòu)建“詞向量(詞袋法)”,將評(píng)論文本詞語數(shù)值化。但這類建模方式往往需要依賴于情感詞典、屬性詞典等人工構(gòu)造的相關(guān)詞典,具有較強(qiáng)的領(lǐng)域性,同時(shí)可擴(kuò)展性較差。
隨著自然處理技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)逐步被引入到相關(guān)的文本處理技術(shù)中。2013年,谷歌研究團(tuán)隊(duì)的開源的Word2vec詞向量構(gòu)建工具[7],引起了詞向量應(yīng)用研究熱潮,被稱為2013年最為重要的自然語言處理工具之一。隨后,Word2vec作為詞向量的轉(zhuǎn)換工具被用于包括短文本情感分析[8-10]以及短文本相似度計(jì)算[1, 11]等相關(guān)自然語言處理任務(wù)。雖然Word2vec的應(yīng)用范圍廣泛,但是研究者用其建模時(shí),往往直接按照Word2vec的模型配置: 將每一條短文本語料(可能包含若干短句或長句)作為一個(gè)整體行進(jìn)行輸入。通常,在Word2vec的參數(shù)形式里面只考慮到了輸入向量的維度、訓(xùn)練方法以及語料大小對模型造成的影響,卻并沒有考慮語料的輸入形式對Word2vec模型訓(xùn)練結(jié)果造成的影響。我們研究發(fā)現(xiàn),不同的評(píng)論短文本輸入形式會(huì)對Word2vec的詞向量訓(xùn)練結(jié)果造成明顯的差異,因此有必要在Word2vec進(jìn)行詞向量訓(xùn)練前考慮輸入語料本身的特征,對語料進(jìn)行預(yù)處理后用以提升詞向量的訓(xùn)練結(jié)果。
1) 通過對詞向量的訓(xùn)練算法中的訓(xùn)練層進(jìn)行改進(jìn),采用不同的訓(xùn)練模型或者不同類型的神經(jīng)網(wǎng)絡(luò),來獲得更為精準(zhǔn)的詞向量模型。
2) 通過在訓(xùn)練算法的輸入層對語料進(jìn)行預(yù)處理,提高算法訓(xùn)練的準(zhǔn)確率和召回率。
3) 通過對詞向量的輸出層進(jìn)行后處理,提升應(yīng)用接口的準(zhǔn)確度。
本文中,我們將集中討論如何通過第二種方式,即在輸入層如何對語料進(jìn)行預(yù)處理來提升詞向量模型訓(xùn)練的精度,研究包括基于整句分割模式的預(yù)處理模式、基于分隔符分割的預(yù)處理模式以及基于屬性主題分割的預(yù)處理模式對于訓(xùn)練模型的影響。在后面小節(jié)中,我們將詳細(xì)闡述這些方案,并重點(diǎn)論述基于屬性主題分割模式的預(yù)處理算法。
2.1 評(píng)論短文本的情感分析與屬性提取
短文本(Short Text)是指那些長度較短的文本形式。通常情況下,短文本的字符長度不超過400,例如,Twitter/微博短文本、手機(jī)信息短文本、在線評(píng)論短文本、BBS回復(fù)轉(zhuǎn)帖短文本等[2, 12-13]。由于短文本具有字?jǐn)?shù)少、信息聚合度高以及文本語言不規(guī)范等特征,使得針對短文本的分析與研究產(chǎn)生了較大的困難,其中具有代表性的則是針對微博短文本和評(píng)論短文本的研究,下面將主要對評(píng)論短文本的相關(guān)研究進(jìn)行綜述。
隨著電子商務(wù)的高速發(fā)展以及淘寶、京東、大眾點(diǎn)評(píng)等各類含有評(píng)論短文本網(wǎng)站的興起,評(píng)論短文本已經(jīng)成為消費(fèi)者在做出購買決策之前的重要參考依據(jù)[14]。目前關(guān)于評(píng)論短文本的研究主要集中在: 評(píng)論短文本的效用分析、評(píng)論短文本的真實(shí)性分析、評(píng)論短文本的決策影響分析等。但這些研究內(nèi)容都會(huì)涉及兩個(gè)主題,即: 評(píng)論短文本的情感分析與評(píng)論短文本的屬性抽取。
評(píng)論情感分析主要是對評(píng)論的情感傾向進(jìn)行分析,包含三個(gè)層次: 評(píng)論對象的屬性層次、評(píng)論對象的層次以及評(píng)論篇章層次。其主要采用的方法是將文本簡化為BOW(Bag of Words)的形式,然后借助情感詞典對評(píng)論短文本的情感傾向進(jìn)行分析。其中,Word Net等情感詞典對于評(píng)論短文本的情感分析起到了重要的作用。例如,利用Word Net中詞匯之間的相互關(guān)系(距離、語義聯(lián)系等)來判斷詞語的情感傾向。但這也帶來一個(gè)重要問題,即: Word Net按照同義詞集合組織信息,而同義詞語不一定具有相同的褒貶傾向,這將導(dǎo)致對詞語情感傾向的估計(jì)出現(xiàn)偏差[15]。換句話說,目前評(píng)論短文本情感分析存在的主要問題是如何針對評(píng)論短文本的特征構(gòu)建情感詞之間的數(shù)值聯(lián)系,即詞向量的問題。
評(píng)論的屬性抽取是評(píng)論短文本分析的另外一個(gè)重要的研究內(nèi)容,即如何判斷和抽取評(píng)論中涉及到的商品屬性或稱對象屬性的相互關(guān)系。例如,“衣服手感不錯(cuò)!”和“衣服摸起來不錯(cuò)!”中,詞語“手感”和“摸起來”都是同樣表達(dá)評(píng)論者對評(píng)價(jià)對象(衣服)的質(zhì)量屬性或者感官的判斷。因此需要在對評(píng)論短文本進(jìn)行分析時(shí),能夠成功地發(fā)現(xiàn)和評(píng)價(jià)這類屬性的相互關(guān)系。評(píng)論短文本屬性的抽取對于評(píng)論屬性情感分析和評(píng)論總結(jié)都具有重要的作用。
總而言之,評(píng)論短文本的分析需要依賴于對評(píng)論短文本的形式化(數(shù)學(xué)化)建模,通常而言,需要在原有文本分析技術(shù)的基礎(chǔ)上,結(jié)合短文本的自身特征進(jìn)行改進(jìn),設(shè)計(jì)出有效的短文本語言模型的建模方法,以提高應(yīng)用的效率和準(zhǔn)確率。
2.2 詞向量和Word2vec
語言模型是自然語言處理(Nature Language Processing, NLP)領(lǐng)域的一個(gè)重要的基礎(chǔ)問題之一,它在句法分析、詞性標(biāo)注、信息檢索以及機(jī)器翻譯等子領(lǐng)域的相關(guān)任務(wù)中都有重要的作用。在傳統(tǒng)語言模型中,統(tǒng)計(jì)語言模型具有非常廣泛的應(yīng)用,其核心思想是利用概率來對語言形式進(jìn)行預(yù)測[16]。通常而言,統(tǒng)計(jì)語言模型都基于相應(yīng)的領(lǐng)域語料來進(jìn)行分析工作。一般的,用以簡化統(tǒng)計(jì)語言模型的相關(guān)方法包括: N-gram模型、馬爾科夫模型、條件隨機(jī)場模型、決策樹模型等。
隨著深度學(xué)習(xí)相關(guān)研究的逐步深入,神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域逐漸由圖像、音頻等擴(kuò)展到了自然語言處理領(lǐng)域,即神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM), NNLM可以看作傳統(tǒng)統(tǒng)計(jì)語言模型的擴(kuò)展與提升, 并于近年在ACL、COLING等相關(guān)頂級(jí)會(huì)議上取得系列進(jìn)展。NNLM具有代表意義的系統(tǒng)研究由Bengio于2003年在ANeuralProbabilisticLanguageModel一文中提出[17],在該模型中作者將每一個(gè)詞匯表示為一個(gè)固定維度的浮點(diǎn)向量,即詞向量(WordVector)。然而,NNLM中的詞向量(記為NWV)和傳統(tǒng)統(tǒng)計(jì)語言模型中的One-Hot Representation(OHR)有著本質(zhì)上的差異,主要體現(xiàn)在以下三點(diǎn)。
1) OHR中的向量元素采用0,1表示,詞向量中所有的分量只有一個(gè)數(shù)值為1,其余分量全部為0,而NWV的分量由浮點(diǎn)數(shù)構(gòu)成,其取值為連續(xù)值。
2) OHR的向量維數(shù)不固定,通常根據(jù)詞典的大小而發(fā)生改變,并且一般較為龐大,容易造成維數(shù)災(zāi)難[17],而NWV的維度通常根據(jù)具體的應(yīng)用固定在50~1 000左右,具有可接受的時(shí)間復(fù)雜度。
3) OHR的詞向量元素并不包含統(tǒng)計(jì)語義或語法信息,通過NNLM的研究發(fā)現(xiàn),NWV通過向量間的相互計(jì)算,可以進(jìn)一步拓展或表達(dá)出相應(yīng)的語義和語法特征。
詞向量是NNLM實(shí)現(xiàn)后的關(guān)鍵產(chǎn)物,在Bengio的工作之后,出現(xiàn)了一系列關(guān)于詞向量的實(shí)現(xiàn)與構(gòu)建的相關(guān)工作,包括Tomas Mikolov[18-19]、Google的Word2Vec[7]等。其中Google于2013年開源的Word2vec作為重要的詞向量訓(xùn)練工具,在情感分析、屬性抽取等領(lǐng)域,取得了一系列的應(yīng)用成果[11, 20-21],同時(shí),詞向量訓(xùn)練的好壞對于提升應(yīng)用成果的性能具有重要的意義。但通常情況下,即使采用相同的Word2vec工具,不同類型或大小的語料庫以及不同的向量維度都會(huì)對詞向量的訓(xùn)練結(jié)果好壞造成影響。
因此,本文主要從探討Word2vec訓(xùn)練詞向量的優(yōu)化方式入手,重點(diǎn)研究了不同的中文語料的預(yù)處理策略對于詞向量訓(xùn)練結(jié)果的優(yōu)化程度,特別的是對中文評(píng)論短文本——這一類重要的自然語言處理語料。本文主要貢獻(xiàn)在于: 首先,我們提出基于屬性主題分割的短文本評(píng)論語料預(yù)處理算法,對比實(shí)驗(yàn)結(jié)果表明,該算法對于改善詞向量的訓(xùn)練結(jié)果具有明顯的提升效果;其次,我們獲取了0.7億條評(píng)論短文本數(shù)據(jù),通過詞向量模型的訓(xùn)練,并優(yōu)化后得到了具備較高精度的詞向量庫(開源),該詞向量對于其他與在線商品評(píng)論相關(guān)的(例如,評(píng)論情感分析、評(píng)論屬性抽取等)自然語言處理任務(wù)具有重要的參考意義;最后,我們給其他領(lǐng)域關(guān)于詞向量的訓(xùn)練優(yōu)化研究提供了一定的參考思路: 即針對特定的處理語料設(shè)計(jì)相關(guān)的預(yù)處理策略或許能夠顯著提升詞向量的訓(xùn)練效果。
3.1 基于完整句的分割模式(Based on Whole for Partition, BWP)
完整句子是指以句號(hào)、感嘆號(hào)、省略號(hào)、問號(hào)以及分號(hào)分割后組成的句子形式[22-23]。通常情況下,我們認(rèn)為一個(gè)句子的結(jié)束是一種觀點(diǎn)、態(tài)度和說明內(nèi)容的結(jié)束。對于評(píng)論短文本而言,一條評(píng)論通常包含幾個(gè)帶有完整句分隔符的句子,這些句子表達(dá)的觀點(diǎn)既有可能相似,也有可能不同。換句話說,這些句子之間既有可能存在邏輯之間的聯(lián)系性,也有可能是相互獨(dú)立的。因此,當(dāng)這些句子在語法上或觀點(diǎn)上是相互獨(dú)立,甚至截然相反時(shí),如果將這些句子作為一個(gè)整體輸入,用以詞向量的訓(xùn)練,將會(huì)給訓(xùn)練模型帶來較大的誤差。
基于完整句的分割模式是指利用以句號(hào)、感嘆號(hào)、省略號(hào)、問號(hào)以及分號(hào)作為完整句的指示分割符,對一條評(píng)論中的句子進(jìn)行拆分。同時(shí)考慮到評(píng)論文本的統(tǒng)計(jì)信息(表1),當(dāng)不含完整句分隔符的評(píng)論語句的連續(xù)字符長度達(dá)到23時(shí),我們將進(jìn)行人工截?cái)?,自?dòng)將該句劃分為一個(gè)整句。
3.2 基于分隔符的分割模式(Based on Separator for Partition, BSP)
相比于傳統(tǒng)的文本語料,評(píng)論短文本在句點(diǎn)符號(hào)的使用上更加的隨意,內(nèi)容上也更加豐富和自由,包括含有各種表情符號(hào)、縮寫、拼寫錯(cuò)誤以及不規(guī)范的斷句符等。如圖1所示,該圖為淘寶商城某商品評(píng)論頁面的截圖??梢钥吹?,對于評(píng) 論 短 文 本 而言,其觀點(diǎn)句通常在一個(gè)分隔符之內(nèi)進(jìn)行表達(dá),并且長度更“短”,同時(shí)在語法規(guī)范上也表現(xiàn)得尤為不足。
圖1 評(píng)論短文本案例截圖
如圖2所示,對于評(píng)論“寶貝做工不錯(cuò),物流速度馬馬虎虎!客服態(tài)度很好!”而言,這是一種典型的評(píng)論短文本的出現(xiàn)方式,即: 觀點(diǎn)句1+觀點(diǎn)句2+…+觀點(diǎn)句n。但觀點(diǎn)句之間很有可能存在修飾詞不兼容(即觀點(diǎn)句1的修飾詞不能用于觀點(diǎn)句2的情況)以及觀點(diǎn)句情感極性相反的情況。 如果采用前文所述的BWP分割方式,由于消費(fèi)者撰寫評(píng)論時(shí)使用符號(hào)的不規(guī)范,極有可能造成不同的意義、類型和觀點(diǎn)的語句被分割到同一個(gè)訓(xùn)練語句中,從而增大模型訓(xùn)練的誤差。因此,這也就是我們在實(shí)驗(yàn)對照中使用第二種分割方法,即分隔符分割法。
圖2 基于分隔符分割模式與原始非分割方法的對比例圖
基于分隔符分割的策略,目的是將這些觀點(diǎn)句利用分隔符進(jìn)行拆分。通常而言,評(píng)論短文本中的分隔符包括: (。)、(,)、(;)、(、)、(空格)、(!)、(~)、(#)、(…)、(*)、(: )、(-)、(?)、(“)、(”)、(+),、(-)以及(常見表情符號(hào))等,同時(shí),如果以上符號(hào)在評(píng)論短文本中存在西文格式,將同樣認(rèn)為是評(píng)論文本分隔符。
3.3 基于屬性主題的分割模式(Based on Topic for Partition, BTP)
在研究中我們發(fā)現(xiàn),雖然基于BSP分割能夠?qū)⒑胁煌揎椃筒煌瑢傩杂^點(diǎn)的評(píng)論語句進(jìn)行分割,以保證訓(xùn)練算法在這類評(píng)論上的穩(wěn)定性,但BSP分割法卻無法對評(píng)論中存在相互聯(lián)系的,甚至是同類的評(píng)論語句進(jìn)行合并。因此,在BSP的基礎(chǔ)上,我們提出了基于屬性主題的分割算法。
如圖3所示,BTP算法在BSP的基礎(chǔ)上,考慮了一條評(píng)論中,被分隔符分割的評(píng)論句子之間的在主題上的相互聯(lián)系。采用BSP對評(píng)論文本進(jìn)行預(yù)處理后,利用詞向量訓(xùn)練算法進(jìn)行訓(xùn)練,得到初始的詞向量模型,然后利用該初始詞向量模型對BSP分割進(jìn)行重構(gòu),合并屬性主題相關(guān)的句子,在保證不同類型觀點(diǎn)句得到有效分割的同時(shí),保證了同類型觀點(diǎn)句的關(guān)聯(lián)性,具體算法流程如算法1所示。
圖3 基于屬性主題的詞嵌入分割模型
算法1的核心思想: 首先通過分隔符對評(píng)論進(jìn)行整體拆分,然后利用BSP訓(xùn)練得到的詞向量來計(jì)算相鄰的每個(gè)最短分割候選句之間的屬性相關(guān)度。其中,一條最短分割候選句的屬性特征由短句中的名詞詞向量(或者數(shù)個(gè)名詞詞向量的均值)替代,如果候選短句不包含名詞,則用形容詞替代。最后,接著使用類似層次聚類的方式,對最短候選句進(jìn)行逐項(xiàng)合并,直至滿足退出要求,然后返回分割結(jié)果進(jìn)行BTP模型的詞向量訓(xùn)練。
算法1:基于屬性主題切割的詞嵌入訓(xùn)練算法(BTP)輸入:Ms=Wx,Vx(){},C=R1,R2,R3,…,Ri{},Ri=P1,P2,P3,…,Pj{},Pj=W1,W2,W3,…,Wx{}/?Ms:基于分隔(S)符切割訓(xùn)練的詞向量結(jié)果,Wx為詞語,Vx為該詞語對應(yīng)的詞向量;C:已經(jīng)經(jīng)過預(yù)處理的評(píng)論語料庫;Ri:對于每一條已處理評(píng)論,由j個(gè)分隔句組成;Pj:對于每個(gè)分隔句,由x個(gè)詞語組成;?/輸出:MT={(Wx,Vx)} /?基于屬性主題(T)切割訓(xùn)練的詞向量結(jié)果?/1 forRiinCdo:2 Sentence=[],Vector=[]/?初始化分割結(jié)果,詞向量臨查詢結(jié)果列表?/3 m=0,n=0/?始化指針?/4 forPjinRido:5 forWxinPjdo:6 ifWxisNounthen:7 Vector[m][n]=WxfindvecMs()[]/?查詢該詞對應(yīng)MS模型中對應(yīng)的向量?/8 n+=19 else:10 Continue11 end12 Sentence[m]=Pj/?將查詢得到的詞對應(yīng)的分隔句存入結(jié)果列表?/13 m+=114 end
15 while Merge[index]inMerge>0.5&&Len(Merge)>3do:/?只要已被處理的分隔句矩陣中存在任一兩行的屬性主題相似性的概率大于0.5,同時(shí)剩下有待被合并的行數(shù)大于3組,則合并計(jì)算繼續(xù)進(jìn)行?/16forindex1=0;index1+=1;index1
4.1 數(shù)據(jù)描述
本文的實(shí)驗(yàn)數(shù)據(jù)集來自天貓商城的評(píng)論短文本數(shù)據(jù),主要字段包括: 商品ID、評(píng)論者昵稱、初次評(píng)論內(nèi)容、初次評(píng)論時(shí)間、追加評(píng)論內(nèi)容、追加評(píng)論時(shí)間、評(píng)論相對位置、評(píng)論者信譽(yù)、評(píng)論商品ID、評(píng)論商家ID以及商家回復(fù)。其中文本內(nèi)容包括消費(fèi)者的初次評(píng)論數(shù)據(jù)、追加評(píng)論數(shù)據(jù)以及商家的回復(fù)數(shù)據(jù)三個(gè)部分,總計(jì)評(píng)論數(shù)目為72 152 543條,約40GB。主要涉及領(lǐng)域包含: 服裝、食品、美妝、母嬰、數(shù)碼、箱包、家電、運(yùn)戶,共計(jì)八大領(lǐng)域的82個(gè)子領(lǐng)域。數(shù)據(jù)集的相關(guān)基本統(tǒng)計(jì)信息如表1所示。
表1 數(shù)據(jù)集基本信息
續(xù)表
4.2 數(shù)據(jù)清洗
由于數(shù)據(jù)量巨大,因此數(shù)據(jù)清洗是本次實(shí)驗(yàn)的重要工作之一。本次實(shí)驗(yàn)過程中,為了提高數(shù)據(jù)的讀取和操作性能,我們將評(píng)論數(shù)據(jù)存儲(chǔ)在當(dāng)前流行的非結(jié)構(gòu)化數(shù)據(jù)庫之一的Mongodb[24]中,其性能為普通SQL數(shù)據(jù)庫性能的十倍以上,大大地縮短了實(shí)驗(yàn)的時(shí)間消耗。其中,數(shù)據(jù)清洗的核心步驟包括重復(fù)評(píng)論/無關(guān)評(píng)論的刪除、分詞、停用詞的刪除以及繁簡體的合并操作。
圖4 數(shù)據(jù)清洗流程圖
5.1 性能評(píng)估
5.1.1 標(biāo)準(zhǔn)測試集
5.1.2 評(píng)價(jià)指標(biāo)
在信息檢索,模式識(shí)別,機(jī)器翻譯等領(lǐng)域,有兩類最為常用的算法評(píng)價(jià)指標(biāo),即: 準(zhǔn)確率(Precision Rate)和召回率(Recall Rate)。本文將參考準(zhǔn)確率和召回率的評(píng)價(jià)方式,構(gòu)建模型的評(píng)價(jià)指標(biāo),為便于說明,做出如下假設(shè):
? 評(píng)價(jià)指標(biāo)1: 平均相似度(S)
對于標(biāo)準(zhǔn)測試詞對St中的查詢詞Qi,用其相似詞構(gòu)建評(píng)價(jià)詞對為:
(1)
(2)
? 評(píng)價(jià)指標(biāo)2: 平均召回率
標(biāo)準(zhǔn)測試詞對集S=(Qi|{sim1,sim2,sim3,…,simn}),查詢詞Qi在模型X中的前n個(gè)最相似結(jié)果為:T=(Qi|{Tsim1,Tsim2,Tsim3,…,Tsimn}),那么對于查詢詞Qi,模型X的召回率如式(3)所示。
(3)
(4)
5.2 結(jié)果分析
為了驗(yàn)證和對比實(shí)驗(yàn)結(jié)果,本文的實(shí)驗(yàn)基于MAC OS X 10.10.4操作系統(tǒng),Intel Core i7 4850Q 處理器(四核八線程),16GB內(nèi)存,512GB SSD存儲(chǔ)系統(tǒng),并采用Python語言進(jìn)行實(shí)現(xiàn)。由于Word2vec的基礎(chǔ)模型包含Skip-Gram以及CBOW兩類,因此本文所有對比實(shí)驗(yàn)同時(shí)在這兩種類型的基礎(chǔ)模型上進(jìn)行,具體的原始訓(xùn)練模型介紹可以參見Word2Vec的源碼及其相關(guān)論文,此處不再詳述。最后,本實(shí)驗(yàn)針對不同的詞向量的維度從50~500之間逐漸遞增選取,增加縱向?qū)Ρ葘?shí)驗(yàn)。
5.2.1 時(shí)間效率對比分析
如圖5所示,通過對比發(fā)現(xiàn),Skip-gram模型的處理時(shí)間對于不同大小的詞向量維度的敏感度較大,隨著詞向量維度的增加,NP_Skip以及BSP_Skip模型的時(shí)間消耗增長幅度均大于CBOW模型的增長幅度。而NP模型與BSP模型在Skip-gram以及CBOW模型上的時(shí)間效率表現(xiàn)存在相互交叉的情況,因此并沒有表現(xiàn)出明顯的差異。考慮到無論是NP_Skip模型、NP_CBOW模型、BSP_Skip模型還是BSP_CBOW模型的單機(jī)訓(xùn)練時(shí)間均在[2,5]小時(shí)之間,因此,其實(shí)際意義上的時(shí)間開銷(已經(jīng)是0.7億條評(píng)論大數(shù)據(jù))均在可接受的范圍內(nèi),所以并沒有必要在時(shí)間效率上對上述模型進(jìn)行不同的區(qū)分和優(yōu)劣對比。
圖5 BSP算法與原始訓(xùn)練算法基于不同詞向量維度的時(shí)間效率對比
5.2.2 評(píng)價(jià)指標(biāo)對比分析
? 平均召回率(R)
如表2所示,以直線下劃線作為該模型的最好成績,對比BTP模型與NP模型,在Skip_gram+Herarchical softmax(SGH)和CBOW+Herarchical softmax(CBH)實(shí)驗(yàn)上的平均召回率分別提升了23%和17%,其中,SGH_NP,CBH_NP最大召回率分別小于SGH_BTP,CBH_BTP的最小召回率,由此可以看出BTP語料預(yù)處理策略對于提升Word2vec訓(xùn)練結(jié)果的召回率具有顯著效果。同時(shí),我們可以發(fā)現(xiàn),由于短評(píng)論語料通常字符數(shù)較小,并且斷句符存在大量的不規(guī)范使用情況。因此,從NP模型到BWP模型的提升效果(2.3%,0.3%)遠(yuǎn)不如BWP模型到BSP模型的提升效果(12.3%,9.9%)以及BSP到BTP的提升效果(8.4%,7.6%)。
表2 模型實(shí)驗(yàn)結(jié)果對比
? 平均相似度(S)
由于不同的向量維度數(shù)會(huì)導(dǎo)致向量的分散程度不同: 一般的,向量維數(shù)越大,在總詞語數(shù)目固定的情況下,同義(屬性)詞間的分散程度越大,相似度越小(縱向)。因此平均相似度只能作為詞向量訓(xùn)練好壞的一個(gè)相對參照指標(biāo),即: 作橫向?qū)Ρ?。以?中波浪下劃線標(biāo)注的50維度上的結(jié)果為例,對于召回相同的詞語,其相似度越高,表示同義詞(屬性詞)之間的穩(wěn)定性越高,因此在不同的環(huán)境下其應(yīng)用的可拓展性也就越高。從表 2中可以看到,無論是對于Skip_gram模型還是CBOW模型,在不同詞向量維度上,BTP模型的穩(wěn)定性都是最高的,但相對于BSP預(yù)處理模型來說,BTP模型的提升程度卻并不十分明顯,因此如果在不考慮召回率的情況下,可以任選BTP或者BSP模型作為評(píng)論語料的預(yù)處理策略。
5.2.3 查詢樣例對比分析
為了能夠?qū)υ寄P?NP)和BTP優(yōu)化后模型產(chǎn)生的詞向量的結(jié)果產(chǎn)生一個(gè)具體的認(rèn)識(shí)和對比,我們選取了兩個(gè)具有代表性的詞匯“EMS”(屬性詞)以及“差評(píng)”(形容詞,觀點(diǎn)詞),查詢了它們在NP詞向量(200維)以及BTP詞向量(200維)中的前20個(gè)最相似的結(jié)果,如表 3和表 4所示。
表3 查詢詞“EMS”在NP模型和BTP模型上的對比結(jié)果
表4 查詢詞“差評(píng)”在NP模型和BTP模型上的對比結(jié)果
通過表3可以發(fā)現(xiàn): BTP模型的預(yù)處理策略能夠有效的發(fā)現(xiàn)屬性詞的相似詞及其變異,甚至是錯(cuò)誤的拼寫詞。例如,SGH_BTP模型中的“ESM、MES”(誤輸入)、“ems、EMs”(大小寫變形)等。同時(shí)可以發(fā)現(xiàn),BTP模型的屬性詞召回率明顯高于NP模型。通過表4可以發(fā)現(xiàn): BTP模型對于同義詞的召回率同樣較好,而NP模型中甚至出現(xiàn)了較多將查詢詞的被修飾詞判定為相似詞的情況,例如,真想(差評(píng)),堅(jiān)決(差評(píng))等。但同時(shí)也需要看到,對于NP模型和BTP模型都出現(xiàn)了查詢詞的反義詞被判定為相似詞的情況,這種誤判需要在后續(xù)的研究中進(jìn)一步優(yōu)化。
Word2vec詞向量訓(xùn)練的優(yōu)化問題不僅僅需要考慮訓(xùn)練算法的內(nèi)部結(jié)構(gòu),對于不同類型的訓(xùn)練語料的預(yù)處理同樣值得思考。本文針對評(píng)論短文本在Word2vec詞向量訓(xùn)練中存在的問題,結(jié)合評(píng)論短文本的自身特征提出了基于屬性主題分割的語料預(yù)處理算法BTP。基于0.7億條大規(guī)模評(píng)論短文本的實(shí)驗(yàn)表明,BTP算法的預(yù)處理策略對于提升詞向量模型的訓(xùn)練結(jié)果具有顯著意義。本文針對評(píng)論短文本的大規(guī)模詞向量訓(xùn)練結(jié)果對于其他關(guān)于包括評(píng)論短文本情感分析、評(píng)論短文本屬性特征提取(聚類)等的應(yīng)用都具有較大的參考意義。
[1] Yuan Y, He L, Peng L, et al. A New Study Based on Word2vec and Cluster for Document Categorization[J]. Journal of Computational Information Systems, 2014, 10: 9301-9308.
[2] 張劍峰, 夏云慶, 姚建民. 微博文本處理研究綜述[J]. 中文信息學(xué)報(bào), 2012, 26(4): 21-27.
[3] 楊銘, 祁巍, 閆相斌, 等. 在線商品評(píng)論的效用分析研究[J]. 管理科學(xué)學(xué)報(bào), 2012, 15(5): 65-75.
[4] 陳燕方, 李志宇. 基于評(píng)論產(chǎn)品屬性情感傾向評(píng)估的虛假評(píng)論識(shí)別研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2014, 9: 81-90.
[5] 任亞峰, 尹蘭, 姬東鴻. 基于語言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J]. 計(jì)算機(jī)科學(xué)與探索, 2014, 8(3): 313-320.
[6] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2: 1-135.
[7] Mikolov T. Word2vec project[CP].2013, https://code.google.com/p/word2vec/.
[8] Xue B, Fu C, Shaobin Z. A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec[C]//Proceedings of the 2014 IEEE International Congress on, 2014: 358-363.
[9] Tang D, Wei F, Yang N, et al. Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014: 1555-1565.
[10] Godin F, Vandersmissen B, Jalalvand A, et al. Alleviating Manual Feature Engineering for Part-of-Speech Tagging of Twitter Microposts using Distributed Word Representations[C]//Proceedings of NIPS 2014Workshop on Modern Machine Learning and Natural Language Processing (NIPS 2014), 2014: 1-5.
[11] Ghiyasian B, Guo Y F. Sentiment Analysis Using SemiSupervised Recursive Autoencoders and Support Vector Machines[EB/OL],Stanford.edu,2014: 1-5.
[12] 張林, 錢冠群, 樊衛(wèi)國, 等. 輕型評(píng)論的情感分析研究[J]. 軟件學(xué)報(bào), 2014, 12: 2790-2807.
[13] 周泓, 劉金嶺, 王新功. 基于短文本信息流的回顧式話題識(shí)別模型[J]. 中文信息學(xué)報(bào), 2015, 291: 015.
[14] 鄭小平. 在線評(píng)論對網(wǎng)絡(luò)消費(fèi)者購買決策影響的實(shí)證研究[D].中國人民大學(xué)碩士學(xué)位論文,2008.
[15] 張紫瓊, 葉強(qiáng), 李一軍. 互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述[J]. 管理科學(xué)學(xué)報(bào), 2010, 13(6): 84-96.
[16] 邢永康, 馬少平. 統(tǒng)計(jì)語言模型綜述[J]. 計(jì)算機(jī)科學(xué), 2003, 30(9): 22-26.
[17] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.
[18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems, 2013: 3111-3119.
[19] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781[DBOL], 2013: 1-16.
[20] Zhang W, Xu W, Chen G, et al. A Feature Extraction Method Based on Word Embedding for Word Similarity Computing[C]//Proceedings of the Natural Language Processing and Chinese Computing, 2014: 160-167.
[21] Iyyer M, Enns P, Boyd-Graber J, et al. Political ideology detection using recursive neural networks[C]//Proceedings of the Association for Computational Linguistics, 2014: 1-11.
[22] 黃建傳. 漢語標(biāo)點(diǎn)句統(tǒng)計(jì)分析[D]. 北京語言大學(xué)碩士學(xué)位論文, 2008.
[23] 何玉. 基于核心詞擴(kuò)展的文本分類[D]. 華中科技大學(xué)碩士學(xué)位論文, 2006.
[24] Banker K. MongoDB in action[M]. Manning Publications, 2011.
Improving the Word2vec on Short Text by Topic: Partition
LI Zhiyu, LIANG Xun, ZHOU Xiaopin
(School of Information,Renmin University of China, Beijing 100872,China)
We propose a method for Word2vec training on the short review textsby a partition according to the topic. We examine three kinds of partition methods, i.e. Based on Whole-review (BWP), Based on sentence-Separator (BSP) and Based on Topic(BTP), to improve the result of Word2vec training. Our findings suggest that there is a big difference on accuracy and similarity rates between the None Partition Model (NP) and BWP, BSP, BTP, due to the characteristic of the review short text. Experiment on various models and vector dimensions demonstrate that the result of word vector trained by Word2vec model has been greatly enhanced by BTP.
online review; short text; word vector; similarity calculation
李志宇(1991—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,網(wǎng)絡(luò)結(jié)構(gòu)嵌入,社會(huì)網(wǎng)絡(luò)分析。E?mail:zhiyulee@ruc.edu.cn梁循(1965—),通信作者,博士生導(dǎo)師,教授,主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算,機(jī)器學(xué)習(xí)。E?mail:xliang@ruc.eud.cn周小平(1985—),博士研究生,主要研究領(lǐng)域?yàn)樯鐣?huì)網(wǎng)絡(luò)分析,網(wǎng)絡(luò)隱私保護(hù)。E?mail:zhouxiaoping@bucea.edu.cn
1003-0077(2016)05-0101-10
2015-06-03 定稿日期: 2015-10-15
國家自然科學(xué)基金(71531012、71271211);京東商城電子商務(wù)研究項(xiàng)目(413313012);北京市自然科學(xué)基金(4132067);中國人民大學(xué)品牌計(jì)劃(10XNI029);中國人民大學(xué)2015年度拔尖創(chuàng)新人才培育資助計(jì)劃成果
TP
A