譚文斌,張?zhí)A*,何二寶
(1.貴州師范大學(xué) 制造服務(wù)與知識(shí)工程技術(shù)工程中心,貴州 貴陽 550025;2.貴陽市機(jī)械控制與仿真重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550014)
?
基于多特征融合的產(chǎn)品評論語句相似度計(jì)算
譚文斌1,2,張?zhí)A1,2*,何二寶1,2
(1.貴州師范大學(xué) 制造服務(wù)與知識(shí)工程技術(shù)工程中心,貴州 貴陽550025;2.貴陽市機(jī)械控制與仿真重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽550014)
摘要:為了提高產(chǎn)品評論語句相似度計(jì)算的準(zhǔn)確率,提出了一種新的基于多特征融合的相似度計(jì)算模型。在構(gòu)建相似度計(jì)算模型時(shí),抽取句子的名詞、動(dòng)詞和形容詞作為關(guān)鍵詞構(gòu)成句子的向量表示,并將關(guān)鍵詞的頻次信息及其修飾成分信息、句子的主謂結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)等特征信息都納入到向量模型當(dāng)中,通過各特征要素的重要度來表征這些信息在句子相似度計(jì)算中的重要程度。實(shí)驗(yàn)結(jié)果表明,該計(jì)算模型提升了產(chǎn)品評論語句相似度計(jì)算的準(zhǔn)確率,對提升產(chǎn)品評論語句的聚類分析能力具有重要意義。
關(guān)鍵詞:相似度計(jì)算; 多特征融合; 產(chǎn)品評論語句; 句子向量模型
0引言
隨著電子商務(wù)的發(fā)展,越來越多的人們選擇網(wǎng)上購物,并對所購產(chǎn)品的性能、質(zhì)量、外觀、售后服務(wù)等實(shí)際情況發(fā)表自己的觀點(diǎn)和看法,這些評論信息對于企業(yè)改進(jìn)產(chǎn)品設(shè)計(jì)、了解用戶需求等都具有非常重要的意義。但是,隨著評論數(shù)據(jù)的急劇增長,再采用傳統(tǒng)的方式逐條閱讀已經(jīng)很難實(shí)現(xiàn)對評論語句中用戶觀點(diǎn)的整體把握。對于同一款產(chǎn)品,不同的用戶可能會(huì)有不同的看法,只有對評論語句進(jìn)行整體分析后才能得出正確的結(jié)論,避免判斷產(chǎn)生偏頗。因此,需要對評論語句作聚類分析,將意思相同的評論語句歸為一類,以便于企業(yè)或產(chǎn)品設(shè)計(jì)人員能夠整體的、直觀的閱讀用戶的評論觀點(diǎn),掌握有多少人持有這樣的觀點(diǎn)及觀點(diǎn)內(nèi)容是什么等重要信息,及時(shí)了解產(chǎn)品的缺陷和不足,以及了解用戶對產(chǎn)品的訴求,改進(jìn)產(chǎn)品的設(shè)計(jì),調(diào)整產(chǎn)品的銷售策略,提升產(chǎn)品的市場競爭力。
產(chǎn)品評論語句與其它語句不同,它有著自身的特點(diǎn),在表達(dá)上較為隨意,偏短語化,具有詞序紊亂、標(biāo)點(diǎn)使用不規(guī)范等特點(diǎn)[1],對于產(chǎn)品評論語句的聚類分析處理,關(guān)鍵在于語句間的相似度計(jì)算。目前,在句子相似度計(jì)算方面,許多學(xué)者都做了相應(yīng)的研究,提出了諸多方法,主要有基于語義依存的方法[2]、基于編輯距離的方法[3]、基于框架語義的方法[4]、基于本體的方法[5]以及基于多特征融合的方法[6]等等,而在產(chǎn)品評論語句的相似度計(jì)算方面的研究甚少。
在基于多特征融合的句子相似度計(jì)算研究方面,以張培穎[7]、趙臻[8]等為代表的學(xué)者提出了將句子的詞形、詞序、結(jié)構(gòu)、長度和語義等特征的相似度納入到句子相似度計(jì)算中,分別計(jì)算2個(gè)句子各特征間的相似度,然后對各特征間的相似度進(jìn)行加權(quán)計(jì)算,從而得到句子間的相似度,該方法雖然考查了句子各特征間的相似情況,但是,由于各個(gè)特征之間并非完全獨(dú)立,而是相互聯(lián)系、共同影響著句子意思的表達(dá),該方法缺少對句子意思的整體刻畫。在基于向量模型的句子相似度計(jì)算研究方面,典型的方法是由Salton等人提出的向量空間模型[9]方法,該方法被廣泛應(yīng)用于文本檢索和文本挖掘中[10],是公認(rèn)的具有較好分類效果的方法之一[11]。但是,基于向量空間模型的句子相似度算法也存在諸多不足,它側(cè)重于考查關(guān)鍵詞的詞頻信息,對句子的結(jié)構(gòu)信息、關(guān)鍵詞的語義信息和修飾關(guān)系等信息考慮不足,當(dāng)句子較短時(shí),其還存在嚴(yán)重的數(shù)據(jù)稀疏問題[12]。對此,研究在句子向量空間模型的基礎(chǔ)上,結(jié)合句子的結(jié)構(gòu)、詞語的詞性、詞語間的修飾關(guān)系以及句子長度等特征,提出一種新的基于多特征融合的產(chǎn)品評論語句相似度計(jì)算模型,充分考慮各特征因素對句子相似度計(jì)算的影響,將各特征的重要度融合到句子的向量模型中,重新構(gòu)建句子的相似度計(jì)算模型,以適應(yīng)對產(chǎn)品評論語句的相似度計(jì)算處理,提高計(jì)算準(zhǔn)確率。
1句子特征分析
以下將從詞語的詞性、句法結(jié)構(gòu)、修飾關(guān)系、詞語語義、句子長度這五個(gè)方面去分析它們對評論語句語義表達(dá)的影響,以及分析它們對評論語句相似度計(jì)算的重要程度,為計(jì)算模型全面、準(zhǔn)確地刻畫評論語句的語義奠定理論基礎(chǔ)。
1.1詞性的重要程度分析
從句子詞語的詞性方面分析可以得知,名詞具有指稱功能,表示人、物體、概念等實(shí)體或抽象事物,在句中主要充當(dāng)主語和賓語;動(dòng)詞表征事物的動(dòng)作和狀態(tài),在句中主要作謂語;形容詞表示事物的性質(zhì)、狀態(tài)、特征或?qū)傩訹13],主要用來修飾名詞或代詞,在句中主要充當(dāng)定語和謂語。結(jié)合各詞性詞語在句中的功能和作用的分析可知,名詞、動(dòng)詞和形容詞對句子主要語義的表達(dá)起著決定性作用。因此,在構(gòu)建相似度計(jì)算模型時(shí),只抽取句中的名詞、動(dòng)詞和形容詞作為關(guān)鍵詞構(gòu)成句子向量表示的基礎(chǔ)模型,而其他詞性詞語將在修飾關(guān)系重要度中得到考查,并在相似度計(jì)算中突出各自的重要程度。
1.2句法結(jié)構(gòu)的重要程度分析
由于產(chǎn)品評論語句表達(dá)較為隨意,偏短語化,許多句子結(jié)構(gòu)不完整,而通過句法分析,無論是短句還是短語,都可以得到其結(jié)構(gòu)關(guān)系和詞語間的修飾關(guān)系,通過結(jié)構(gòu)關(guān)系和修飾關(guān)系,很容易得到句子詞語之間的表達(dá)關(guān)系,對刻畫句子的語義具有重要作用。
從句法結(jié)構(gòu)方面分析可以得知,句子成分包括主語、謂語、賓語、定語、狀語和補(bǔ)語。主語、謂語和賓語作為句子的主要成分,主語和謂語構(gòu)成了主謂結(jié)構(gòu)關(guān)系,在句中表示“主題和陳述”的關(guān)系,對句子語義表達(dá)起主導(dǎo)作用;賓語表示動(dòng)作的支配對象,常常與動(dòng)詞結(jié)合構(gòu)成動(dòng)賓結(jié)構(gòu),表示支配與被支配、關(guān)涉和被關(guān)涉的關(guān)系,其對句子語義的影響略小于主謂結(jié)構(gòu)關(guān)系,但對句子語義的表達(dá)同樣具有重要影響;定語、狀語和補(bǔ)語作為句子的次要成分,對句子的主要語義起補(bǔ)充說明作用。而在構(gòu)建相似度計(jì)算模型時(shí),為了兼顧算法復(fù)雜度和句子語義的完整表達(dá),優(yōu)先考慮句子主要成分的結(jié)構(gòu)關(guān)系對相似度計(jì)算的影響,即主謂結(jié)構(gòu)關(guān)系和動(dòng)賓結(jié)構(gòu)關(guān)系對相似度計(jì)算的影響,而對于次要成分的結(jié)構(gòu)關(guān)系則不單獨(dú)考查,將在修飾關(guān)系重要度中得到考查。
1.3修飾關(guān)系的重要程度分析
對于產(chǎn)品評論語句,大多都是圍繞產(chǎn)品的性能、質(zhì)量、售后服務(wù)等進(jìn)行評論和描述,采用大量的短語式表達(dá),語法上多以修飾關(guān)系為主,如“XX凈水器太丑了,不好用”等。常見的修飾關(guān)系有副詞修飾動(dòng)詞和形容詞,形容詞修飾名詞等,當(dāng)相同詞語被不同修飾成分修飾時(shí),其語義也不相同,其對句子語義的表達(dá)同樣具有重要作用。此外,由句子詞語的詞性分析和句法結(jié)構(gòu)分析可知,對修飾關(guān)系的考查,實(shí)現(xiàn)了計(jì)算模型對次要成分的結(jié)構(gòu)關(guān)系和副詞等非關(guān)鍵詞的語義的考查,使句子語義在相似度計(jì)算中得到進(jìn)一步深化。
1.4詞語語義分析
為了更好地刻畫句子的語義,在判斷詞語是否相同時(shí),從詞語的語義角度去考查,不再局限于詞語的詞形。
本文通過哈工大《同義詞詞林(拓展版)》[14]計(jì)算兩個(gè)詞語的語義是否相同,如果它們在《同義詞詞林(拓展版)》中的編碼相同或編碼相等(用“=”標(biāo)識(shí)的兩個(gè)編碼),則視為這2個(gè)詞語語義相同,如“驕橫 Ee11B01= Ee38D01=”表示編碼為Ee11B01的詞語和編碼為Ee38D01的詞語為同義詞。
1.5句子長度分析
由于產(chǎn)品評論語句的長度差異較大,需要考慮句子長度差異對相似度計(jì)算的影響。隨著句子加長,它的關(guān)鍵詞數(shù)量也會(huì)相應(yīng)增多,這將稀釋每一個(gè)關(guān)鍵詞在句子中的重要性,每個(gè)關(guān)鍵詞對相似度計(jì)算的影響將會(huì)下降,反之,隨著句子變短,它的關(guān)鍵詞數(shù)量也會(huì)相應(yīng)減少,這將增大每個(gè)關(guān)鍵詞對相似度計(jì)算的影響。因此,在構(gòu)建相似度計(jì)算模型時(shí),需要將句子長度特征納入到計(jì)算模型中去。
2產(chǎn)品評論語句的相似度計(jì)算模型
2.1模型描述
基于上述分析,本文將重新構(gòu)建評論語句的相似度計(jì)算模型,為便于描述,本文對相關(guān)概念作如下定義:
定義1聚類中心句子集合Cent={CN,N=1,2,3…}, CN表示集合Cent中第N條聚類中心語句。
定義2待分類評論語句集合Sent={SK,K=1,2,3…},SK表示集合Sent中第K條評論語句。
經(jīng)過對CN和SK的分詞和詞性標(biāo)注處理后,抽取各自句中的名詞、動(dòng)詞和形容詞作為關(guān)鍵詞,組成集合key_CN={kc1,kc2,…,kcn}和key_SK={ks1,ks2,…,ksk},得到句子的集合表示,從集合中可以反映出關(guān)鍵詞的數(shù)量和詞性,它是構(gòu)建相似度計(jì)算模型的基礎(chǔ)。
定義3將句子中關(guān)鍵詞數(shù)量的倒數(shù)稱為句子的關(guān)鍵詞數(shù)量權(quán)重,用字母λ表示,即λ=1/NkeyWords(NkeyWords表示句子的關(guān)鍵詞數(shù)量)。用λCN和λSK分別表示句子CN和SK的關(guān)鍵詞數(shù)量權(quán)重,將其作為句子長度的調(diào)節(jié)因子。
定義4將各關(guān)鍵詞在對應(yīng)句子中出現(xiàn)的頻次構(gòu)成句子的向量表示,將該向量乘上對應(yīng)句子的關(guān)鍵詞數(shù)量權(quán)重后得到的向量稱為句子的初始向量,實(shí)現(xiàn)句子長度對相似度計(jì)算的調(diào)節(jié)。
定義5將2個(gè)句子的某結(jié)構(gòu)關(guān)系相同時(shí),該結(jié)構(gòu)關(guān)系對相似度計(jì)算的重要程度稱為結(jié)構(gòu)重要度,用字母β表示,用β的下標(biāo)來標(biāo)識(shí)不同的結(jié)構(gòu)關(guān)系。則分別用βsbv和βvob表示主謂結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)的結(jié)構(gòu)重要度,用結(jié)構(gòu)重要度來調(diào)節(jié)句子結(jié)構(gòu)對相似度計(jì)算的影響。
定義6將句子中不同詞性關(guān)鍵詞在相似度計(jì)算中的重要程度稱為詞性重要度,用字母ω表示,用ω的下標(biāo)來標(biāo)識(shí)不同詞性關(guān)鍵詞的詞性重要度。則分別用ωn、ωv和ωadj來表示名詞性、動(dòng)詞性和形容詞性關(guān)鍵詞的詞性重要度,用詞性重要度來調(diào)節(jié)不同詞性關(guān)鍵詞對相似度計(jì)算的不同影響。
定義7將2個(gè)句子中相同(或同義)關(guān)鍵詞的修飾詞也相同(或同義)時(shí),該關(guān)鍵詞在相似度計(jì)算中的重要程度稱為修飾關(guān)系重要度,用字母τ表示,用修飾關(guān)系重要度來調(diào)節(jié)修飾關(guān)系對相似度計(jì)算的影響。
2.2模型構(gòu)建
在構(gòu)建計(jì)算模型時(shí),將各特征要素融合到評論語句的相似度計(jì)算模型中,將具有某些特征的關(guān)鍵詞在句子向量中的分量值乘上相應(yīng)的重要度值,實(shí)現(xiàn)各特征要素對相似度計(jì)算的調(diào)節(jié)。在句子的向量模型中,如果某分量的取值增大,則將使其在向量中的比重增大,從而增大它對相似度計(jì)算的重要程度。為了使該計(jì)算模型能夠準(zhǔn)確和全面的刻畫句子意思,提升相似度計(jì)算的準(zhǔn)確率,需要綜合考慮各關(guān)鍵詞的語義和各特征要素在句中的功能和作用。
(1)
2.3參數(shù)取值分析
在相似度計(jì)算過程中,關(guān)于句子結(jié)構(gòu)重要度β、修飾關(guān)系重要度τ和詞性重要度ω的取值問題,本文先采用理論分析,確定βsbv、βvob、τ、ωn、ωv、ωadj各自的取值范圍,并通過大量試驗(yàn)計(jì)算和驗(yàn)證,確定最佳的參數(shù)值。理論分析如下:
在本研究構(gòu)建的句子向量模型中,由于各重要度對句子相似度計(jì)算的調(diào)節(jié)是通過將向量模型中的對應(yīng)分量乘上相應(yīng)的重要度值來實(shí)現(xiàn),如果所乘重要度值小于1,則將使其在相似度計(jì)算中的重要性降低,反之,如果所乘重要度值大于1,則將使其在相似度計(jì)算中的重要性增大,不乘或乘上1,則保持不變。
對于結(jié)構(gòu)重要度的分析,如果2個(gè)句子主謂結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)中的詞語搭配對相同(或?qū)?yīng)詞為同義詞),則意味著組成2個(gè)句子主謂結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)的對應(yīng)詞語的語義相同,而且還代表它們的結(jié)構(gòu)關(guān)系也相同。因此,具有相同結(jié)構(gòu)關(guān)系搭配對的兩個(gè)詞語在向量中的取值應(yīng)大于它們無搭配關(guān)系時(shí)的取值,所以,其所乘結(jié)構(gòu)重要度β>1;又因?yàn)榫渥拥闹髦^結(jié)構(gòu)比動(dòng)賓結(jié)構(gòu)對相似度計(jì)算的影響要大,所以有βsbv>βvob>1。但是,β的取值也不能無限增大,因?yàn)楫?dāng)β的取值太大時(shí),它將會(huì)掩蓋其他關(guān)鍵詞在句子相似度計(jì)算中的作用。所以,β的最大值不能超過對應(yīng)句子關(guān)鍵詞的總個(gè)數(shù)NkeyWords,即有1<βvob<βsbv 在分析修飾關(guān)系重要度τ的取值范圍時(shí),分兩種情況進(jìn)行討論,第一種情況是當(dāng)相同(或同義)關(guān)鍵詞的修飾詞相同(或同義),且修飾詞也為關(guān)鍵詞時(shí),作為修飾成分的關(guān)鍵詞的重要度已納入到相似度計(jì)算當(dāng)中,所以無需重復(fù)計(jì)算,只需考慮此時(shí)的修飾關(guān)系在相似度計(jì)算中的重要度,且有此時(shí)的關(guān)鍵詞的重要性大于它無修飾關(guān)系時(shí)的重要性,所以,τ>1;但同時(shí)τ的取值也不能太大,當(dāng)τ的取值過大時(shí),它將掩蓋主謂結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)在句子相似度計(jì)算中的作用,所以,τ的最大值不能超過結(jié)構(gòu)重要度值β,即有1<τ<β。第二種情況是當(dāng)相同(或同義)關(guān)鍵詞的修飾詞相同(或同義),但修飾詞不為關(guān)鍵詞時(shí),則說明該修飾詞在句子相似度計(jì)算中的重要程度是小于1/NkeyWords(NkeyWords為對應(yīng)句子關(guān)鍵詞的總個(gè)數(shù))且大于零的,因此,此時(shí)的修飾關(guān)系要弱于修飾詞也為關(guān)鍵詞的情況(第一種情況),但是,考慮到此時(shí)的修飾詞也具有一定的重要性,兼顧該修飾詞和修飾關(guān)系的重要性后,可將其近似于第一種情況時(shí)的修飾關(guān)系重要度,所以,同樣有1<τ<β。綜上所述,τ的取值范圍為:1<τ<β。 對于詞性重要度的分析,由文獻(xiàn)[13]的研究可知,如果兩個(gè)句子中的名詞相同(或?yàn)橥x詞),則表示這兩個(gè)句子的描述對象相似,對句子語義的描述方向具有主導(dǎo)作用;如果兩個(gè)句子中的動(dòng)詞相同(或?yàn)橥x詞),則表示兩個(gè)句子描述的動(dòng)作相似,其常作謂語,是句子的基本組成部分;如果兩個(gè)句子的形容詞相同(或?yàn)橥x詞),則表示描述的事物特征或?qū)傩韵嗨?,具有補(bǔ)充說明作用?;谝陨戏治?,本文認(rèn)為在兩個(gè)評論語句的相似度計(jì)算中,名詞性關(guān)鍵詞的重要性略大于動(dòng)詞性關(guān)鍵詞,動(dòng)詞性關(guān)鍵詞的重要性略大于形容詞性關(guān)鍵詞,但同時(shí)它們的重要度值都應(yīng)小于對應(yīng)句子的關(guān)鍵詞總數(shù)NkeyWords,并在實(shí)驗(yàn)中得到了驗(yàn)證,即有1<ωadj<ωv<ωn 2.4算法的執(zhí)行過程 算法執(zhí)行過程描述如下: 1)采用哈工大的語言技術(shù)平臺(tái)LTP[15]實(shí)現(xiàn)對句子CN和SK的詞語劃分、詞性標(biāo)注和句子結(jié)構(gòu)分析,讀取分析結(jié)果得到對應(yīng)句子的關(guān)鍵詞集合key_CN和key_SK,抽取各關(guān)鍵詞在對應(yīng)句子CN和SK中具有主謂結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)的詞語搭配對,以及具有修飾關(guān)系的詞語搭配對,分別組成集合mat_CN和mat_SK,其中,具有主謂結(jié)構(gòu)的詞語搭配對用sbv標(biāo)記,具有動(dòng)賓結(jié)構(gòu)的詞語搭配對用vob標(biāo)記,具有修飾關(guān)系的詞語搭配對則不作標(biāo)記,則將mat_CN表示為 3)通過哈工大《同義詞詞林(拓展版)》計(jì)算得到集合key_SK與key_CN中語義相同的關(guān)鍵詞,得到集合syn_words={swh,h=1,2,3…}。 4)計(jì)算句子CN和SK中相同(或同義)關(guān)鍵詞的詞性重要度值。判斷swh在CN和SK中的詞性,根據(jù)其詞性將它在初始向量中的對應(yīng)分量乘上相應(yīng)的詞性重要度值,名詞性、動(dòng)詞性和形容詞性關(guān)鍵詞的詞性重要度分別為ωn、ωv和ωadj。 5)計(jì)算句子CN和SK中相同(或同義)關(guān)鍵詞的修飾關(guān)系重要度值。掃描swh在集合mat_CN和mat_SK中沒有sbv和vob標(biāo)記的搭配對,如果swh的搭配詞相同或?yàn)橥x詞,則將swh在各自對應(yīng)向量中的分量乘上修飾關(guān)系重要度τ,否則不變。 8)根據(jù)式(1)計(jì)算得到CN和SK的相似度值,執(zhí)行完畢。 2.5舉例說明 如給定評論語句 CN=“服務(wù)態(tài)度不好,總是推卸責(zé)任,我表示非常不滿意?!?; SK=“服務(wù)態(tài)度太差勁了,機(jī)器破損了,老是推脫責(zé)任,極不愉快的一次網(wǎng)購體驗(yàn)?!?。 通過LTP詞語劃分、詞性標(biāo)注和句法分析后得: 由式(1)計(jì)算得CN和SK的相似度值為: (其中,βsbv=2.1,βvob=1.7,τ=1.4,ωn=1.5,ωv=1.2,ωadj=1.1,該組取值為試驗(yàn)測試的一組最優(yōu)解,實(shí)驗(yàn)數(shù)據(jù)類型為凈水器評論語句,各參數(shù)的取值還可以根據(jù)不同類型的產(chǎn)品評論語句作適當(dāng)調(diào)整,本文在此不再熬述。)。 通過計(jì)算后,得到CN和SK的相似度為87%,與實(shí)際情況相符合。 3實(shí)驗(yàn)結(jié)果與分析 為了驗(yàn)證本計(jì)算模型的正確性和優(yōu)越性,作者從淘寶網(wǎng)、京東商城上關(guān)于某一型號(hào)凈水器的評論數(shù)據(jù)中抽取具有代表性的評論語句3 100條,大小為208KB、txt格式的評論數(shù)據(jù),通過3人獨(dú)自進(jìn)行分類篩選,將意思非常相似的句子歸為一類,并把相同的分類結(jié)果抽取出來,共抽取22個(gè)類,每類5條,共110條評論語句,平均長度為29,將這110條評論構(gòu)成標(biāo)準(zhǔn)集,在標(biāo)準(zhǔn)集中加入500條噪音句子(具有較強(qiáng)干擾性的評論語句)構(gòu)成測試集,共610條評論語句,記為Test_Set。依次從這22個(gè)類的每類中隨機(jī)抽取一條評論語句作為聚類中心CN(N=1,2,3…,22),得到22條聚類中心句,分別計(jì)算CN與集合Test_Set中各條評論語句間的相似度值,并把相似度值從大到小排列,排列后記為PCN,輸出PCN的前5條評論語句,檢查CN所在的類中除CN本身以外的另外4條評論語句被輸出的條數(shù)(因?yàn)門est_Set的610條評論語句中,有1條為CN本身,有4條和CN同類,CN本身肯定包含在輸出結(jié)果中,且具有最大相似度值,所以取前5條,并記下對應(yīng)輸出的條數(shù)為OCN,利用公式(2)計(jì)算出正確率[16],具體式子如(3)所示,并與其它算法的執(zhí)行結(jié)果相比較(結(jié)果見表1)。 (2) (3) 表1 實(shí)驗(yàn)測試結(jié)果比較 由實(shí)驗(yàn)結(jié)果比較可知,本計(jì)算模型在產(chǎn)品評論語句相似度計(jì)算上優(yōu)于傳統(tǒng)的基于多特征融合的方法[7]和基于向量空間模型的算法[17],提升了相似度計(jì)算的準(zhǔn)確率。 本計(jì)算模型從句子語義角度去考察句子之間的相似度,將各特征要素對句子語義表達(dá)的影響程度體現(xiàn)了出來,同時(shí)也考察了各特征要素之間的相互影響,使各特征要素形成一個(gè)刻畫句子語義的有機(jī)體,區(qū)別于傳統(tǒng)孤立的考察各特征要素之間的相似度,尤其應(yīng)用在句子長度差異較大、表達(dá)較為隨意的產(chǎn)品評論語句中時(shí),本模型的計(jì)算優(yōu)勢更加明顯。但是,對于一些具有言外之意的產(chǎn)品評論語句來說,本模型很難對其準(zhǔn)確刻畫,導(dǎo)致算法準(zhǔn)確率下降,加上句法結(jié)構(gòu)分析本身也存在一定的誤差,這也會(huì)降低計(jì)算的準(zhǔn)確率。 4結(jié)語 研究針對產(chǎn)品評論語句的特點(diǎn),并結(jié)合句子的結(jié)構(gòu)、詞語的詞性、詞語間的修飾關(guān)系以及句子長度等特征對相似度計(jì)算的影響,提出了一種新的基于多特征融合的評論語句相似度計(jì)算模型。該模型通過抽取句子中的名詞、動(dòng)詞和形容詞作為關(guān)鍵詞構(gòu)成句子的向量表示,并把句子的長度、主謂結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、關(guān)鍵詞的詞性以及詞語間的修飾關(guān)系在句子相似度計(jì)算中的重要性體現(xiàn)了出來;在判斷詞語是否相同時(shí),通過詞語語義相同代替?zhèn)鹘y(tǒng)的詞形相同,從詞語的語義角度去分析詞語的相似情況,實(shí)現(xiàn)了對句子語義與各特征要素的聯(lián)合考查,使該計(jì)算模型能夠更加準(zhǔn)確和全面的刻畫句子的語義。因此,通過該模型,將影響評論語句相似度計(jì)算的各特征要素融合到了計(jì)算模型中,通過各特征要素的重要度值實(shí)現(xiàn)了它們對句子相似度計(jì)算的調(diào)節(jié),提升了相似度計(jì)算的準(zhǔn)確率,對產(chǎn)品評論語句的聚類分析處理具有重要意義。 參考文獻(xiàn): [1] 婁德成,姚天昉.漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J].計(jì)算機(jī)應(yīng)用,2006,26(11):2622-2625. [2] 李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2003,20(12):15-17. [3] 楊震,王來濤,賴英旭.基于改進(jìn)語義距離的網(wǎng)絡(luò)評論聚類研究[J].軟件學(xué)報(bào),2014,25(12):2777-2789. [4] 李茹,王智強(qiáng),李雙紅,等.基于框架語義分析的漢語句子相似度計(jì)算[J].計(jì)算機(jī)研究與發(fā)展,2013,50(8):1728-1736. [5] 劉宏哲.一種基于本體的句子相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2013,40(1):251-256. [6] 李春梅,徐慶生.基于多特征的漢語句子相似度計(jì)算模型的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(6):136-139. [7] 張培穎.多特征融合的語句相似度計(jì)算模型[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(26):136-137. [8] 趙臻,吳寧,宋盼盼.基于多特征融合的句子語義相似度計(jì)算[J].計(jì)算機(jī)工程,2012,38(1):171-173. [9] SALTON G,MCGILL M J.Introduction to Modern Information Retrieval[M].New York:McGraw-Hill,1983. [10]楊建武.基于核方法的XML文檔自動(dòng)分類[J].計(jì)算機(jī)學(xué)報(bào),2011,34(2):353-359. [11]YANG Y,LIU X.A re-examination of text categorization methods[C]//Proceedings of the ACM SIGIR Conference on Re-search and Development in Information Retrieval (SIGIR’99).Berkeley:ACM Press,1999:42-49. [12]余正濤,樊孝忠,郭劍毅,等.基于潛在語義分析的漢語問答系統(tǒng)答案提取[J].計(jì)算機(jī)學(xué)報(bào),2006,29(10):1889-1893. [13]劉月華,潘文娛,故韡.實(shí)用現(xiàn)代漢語語法(增訂本)[M].北京:商務(wù)印書館,2001:4-886. [14]田久樂,趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(6):602-608. [15]CHE W X,LI Z H,LIU T.LTP:A Chinese Language Technology Platform [C]//Proc of the 23rd Int Conf on Computational Linguistics:Demonstrations. New York:ACM,2010:13-16. [16]殷耀明,張東站.基于關(guān)系向量模型的句子相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(2):198-203. [17]蘇小虎.基于改進(jìn)VSM的句子相似度研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(8):113-116. 文章編號(hào):1004—5570(2016)01-0081-07 收稿日期:2015-11-15 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(71061004,71161006);貴州省優(yōu)秀青年人才培養(yǎng)對象專項(xiàng)項(xiàng)目(2013(37));貴州省教育廳人才團(tuán)隊(duì)項(xiàng)目(黔教合人才團(tuán)隊(duì)字[2015]58) 作者簡介:譚文斌(1989-),男,碩士研究生,研究方向:知識(shí)工程及知識(shí)管理等,E-mail:twb_ydcg@163.com. *通訊作者:張?zhí)A(1974-),男,博士,教授,研究方向:云計(jì)算與大數(shù)據(jù)、知識(shí)工程及知識(shí)管理等,E-mail:zhangth542@sohu.com. 中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A Similarity computation of product comment statements based on multi-feature fusion TAN Wenbin1,2,ZHANG Taihua1,2*,HE Erbao1,2 (1.Technology Engineering Center of Manufacturing Services and Knowledge Engineering for Education Department of Guizhou Province,Guizhou Normal University, Guiyang, Guizhou 550025,China;2.Key Laboratory for Mechanical Control and Simulation of Guiyang,Guiyang, Guizhou 550014,China) Abstract:In order to improve the accuracy of the similarity calculation of product reviews statements, a new similarity computing model based on multi-feature fusion is proposed. In constructing the similarity computing model, the noun, verb, and adjective of the sentence are expressed as the keywords to constitute a sentence vector, and put the keywords frequency information and its modifier, the sentence of the subject-predicate structure, verb object structure and other feature information included in the vector model, the importance of this information in sentence similarity computation is characterized by the importance of the feature elements. The experimental results show that the proposed model can improve the accuracy rate of the similarity calculation of the product reviews statements, and it has important significance to improve the clustering analysis ability of the product reviews statements. Key words:similarity calculation;multi-feature fusion;product reviews statements;sentence vector model