面向中文客戶評論的產(chǎn)品屬性抽取方法研究

2012-07-25 11:05:44曹付元張永奎

計(jì)算機(jī)工程與設(shè)計(jì) 2012年3期

陳炯，張虎，曹付元，張永奎

（1.山西職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系，山西太原030006；2.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院，山西太原030006；3.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室，山西太原030006；4.山西大學(xué) 商務(wù)學(xué)院，山西太原030031）

0 引言

評論挖掘是當(dāng)前數(shù)據(jù)挖掘、文本挖掘、自然語言處理等領(lǐng)域的熱點(diǎn)研究課題之一，在電子商務(wù)、商業(yè)智能、信息監(jiān)控、輿情分析等方面具有重要的應(yīng)用。面向網(wǎng)絡(luò)用戶評論的產(chǎn)品屬性抽取研究，作為評論挖掘的重要研究方向之一，旨在從客戶評論中挖掘出備受關(guān)注的產(chǎn)品特征信息，以便總結(jié)出基于這些產(chǎn)品特征的觀點(diǎn)及其情感傾向，從而為用戶提供更為具體和有價(jià)值的信息。網(wǎng)絡(luò)產(chǎn)品評論中的產(chǎn)品屬性包括產(chǎn)品名稱、產(chǎn)品的組成部分、產(chǎn)品的特點(diǎn)和功能以及產(chǎn)品屬性的特點(diǎn)和功能等［1］。

近年來圍繞產(chǎn)品評論的屬性抽取研究，國內(nèi)外研究人員進(jìn)行了大量的探索并取得了一些成效。在英文世界的評論挖掘領(lǐng)域，研究者已經(jīng)初步取得一些成果［2－4］，而針對中文的研究還處于起步階段。為了推動中文傾向性分析理論和技術(shù)的研究和發(fā)展，我國于2008年開展第一屆中文傾向性分析評測大會（COAE2008）。張姝等提出將屬性詞和評價(jià)詞的識別融合到一個(gè)模型中，定義了多種特征并采用條件隨機(jī)場（CRF）模型實(shí)現(xiàn)了屬性詞和評價(jià)詞的一體化識別，在COAE2008的評價(jià)對象抽取的評測結(jié)果中，取得了較好的成績［5］。但是單純采用統(tǒng)計(jì)學(xué)的方法具有很大的不確定性，難以取得理想的效果［6］。有的學(xué)者基于評價(jià)對象是名詞或名詞短語的假設(shè)，采用手工或自動的方法統(tǒng)計(jì)語料中屬性詞的詞性序列特征，構(gòu)建詞性模板并抽取評價(jià)對象的屬性，取得了不錯的效果［7－9］。但是屬性詞的詞性序列反映的語言信息非常有限，很難取得較高的精度。婁德成等則通過對觀點(diǎn)句實(shí)施依存關(guān)系分析，發(fā)現(xiàn)主謂依存對可以提供主語和謂語的修飾關(guān)系等信息，借助主謂結(jié)構(gòu)識別產(chǎn)品的屬性，并取得了一定的效果［6］。然而依存對僅僅反映了評價(jià)語句的局部語言規(guī)律，也難取得理想效果。而李實(shí)等參考英文世界中基于關(guān)聯(lián)規(guī)則分類的產(chǎn)品特征挖掘算法，通過對產(chǎn)品特征挖掘方法進(jìn)行技術(shù)拓展，把目前主要面向英文的評論挖掘方法拓展到中文世界，在5種產(chǎn)品的評論語料上進(jìn)行實(shí)驗(yàn)，平均精確率達(dá)到了63.6%，平均召回率達(dá)到了77.8%［10］。但方法的基礎(chǔ)仍然是面向英文評論，用于中文領(lǐng)域存在一定的局限性。

由于漢語是一種大字符集的孤立語，形態(tài)變化少，語法關(guān)系靠詞序和虛詞表示，而且句子由詞組成，詞在組成句子時(shí)，需要遵守一定的規(guī)則和約束［11］。依存語法的描述側(cè)重反映語義關(guān)系，這種表示更傾向于人的語言直覺，有利于一些上層應(yīng)用［12］。通過對語料的觀察和分析，句子中的詞性和依存關(guān)系序列在多數(shù)情況下能夠反映評論語句的語言組合規(guī)律，因此本文綜合利用詞法分析、句法分析、同義詞詞林等多項(xiàng)技術(shù)和資源，挖掘真實(shí)語料中蘊(yùn)藏的語言知識，從詞法和句法兩個(gè)角度綜合分析和歸納評論句的全局語言規(guī)則，在此基礎(chǔ)上構(gòu)建產(chǎn)品屬性模板，指導(dǎo)產(chǎn)品屬性的抽取。

1 屬性模板庫生成

1.1 語料預(yù)處理

僅從包含觀點(diǎn)詞的句子中提取產(chǎn)品屬性是基于這樣的假設(shè)，即語料中包含觀點(diǎn)詞的句子包含評價(jià)觀點(diǎn)，并且經(jīng)常出現(xiàn)在評價(jià)句中的屬性才是我們需要抽取的屬性［13］。本文選取評論網(wǎng)站上的主觀句作為訓(xùn)練語料，并對搜集到的語料進(jìn)行預(yù)處理，然后進(jìn)行詞法、句法分析構(gòu)建標(biāo)注語料集。

語料預(yù)處理階段，需要對收集到的評論句進(jìn)行去噪處理，人工濾除語法錯誤和成分殘缺的句子，修正標(biāo)點(diǎn)符號錯誤和錯別字詞，得到符合語法規(guī)則、表達(dá)規(guī)范的句子。

使用哈爾濱工業(yè)大學(xué)研制的語言技術(shù)平臺LTP對預(yù)處理后的句子進(jìn)行處理。LTP包括語料資源、語言處理模塊、數(shù)據(jù)表示和可視化工具等4個(gè)模塊。本文使用語言處理模塊對預(yù)處理后的句子進(jìn)行分詞、詞性標(biāo)注和依存句法分析，獲得輸入句子的分詞、詞性標(biāo)注結(jié)果和依存句法樹。

例1：價(jià)格比較之后感覺還是很厚道的。

圖1 例1的分析結(jié)果

例1的分析結(jié)果如圖1所示。從分析所得的依存句法樹中提取屬性詞 “價(jià)格”節(jié)點(diǎn)到觀點(diǎn)詞 “厚道”節(jié)點(diǎn)的路徑中詞性和依存關(guān)系序列為： “n－SBV－d－ADV－nd－ATT－n－SBV－a”，其中小寫字母表示詞性標(biāo)記，大寫字母表示依存關(guān)系。最后按照如下格式生成句子的標(biāo)注結(jié)果。

＜tag＞

＜sentence＞句子內(nèi)容＜/sentence＞

＜seg＞句子分詞和詞性標(biāo)注后結(jié)果＜/seg＞

＜dps＞依存句法樹中屬性詞節(jié)點(diǎn)到觀點(diǎn)詞節(jié)點(diǎn)的最短路徑序列＜/dps＞

＜o(jì)＞觀點(diǎn)詞在分詞結(jié)果中的序號＜/o＞

＜f＞屬性詞在分詞結(jié)果中的序號＜/f＞

＜/tag＞

其中，＜sentence＞＜/sentence＞標(biāo)簽的內(nèi)容是經(jīng)過預(yù)處理后的主觀性句子；＜dps＞＜/dps＞標(biāo)簽的內(nèi)容用詞性標(biāo)記和依存關(guān)系標(biāo)記表示；＜o(jì)＞＜/o＞、＜f＞＜/f＞中序號從0開始，小于0的序號表示沒有該項(xiàng)內(nèi)容。

例1經(jīng)過上述標(biāo)注后的結(jié)果為：

＜tag＞

＜sentence＞價(jià)格比較之后感覺還是很厚道的＜/sentence＞

＜seg＞［0］價(jià)格/n［1］比較/d［2］之后/nd［3］感覺/n［4］還是/d［5］很/d［6］厚道/a［7］的/u［8］。/wp＜/seg＞

＜dps＞ n－SBV－d－ADV－nd－ATT－n－SBV－a＜/dps＞

＜o(jì)＞6＜/o＞

＜f＞0＜/f＞

＜/tag＞

1.2 模板定義

為了提高模板的適用性和有效性，模板應(yīng)遵循以下幾條原則：①模板應(yīng)能方便準(zhǔn)確地識別評論句中的產(chǎn)品屬性詞。②模板應(yīng)該便于高效率地檢索。③模板應(yīng)該具有較好的覆蓋面和適應(yīng)性。

在產(chǎn)品評論中，不同的用戶往往使用不同的評價(jià)詞對同一屬性進(jìn)行評價(jià)，以表達(dá)自己的觀點(diǎn)，然而語料的覆蓋面非常有限，標(biāo)注獲得的觀點(diǎn)詞很難覆蓋真實(shí)評論中不同的用詞，為了擴(kuò)大模板的覆蓋面，使得模板盡可能多地概括同類語言模式，需要對觀點(diǎn)詞進(jìn)行同義詞擴(kuò)充。哈爾濱工業(yè)大學(xué)研制的同義詞詞林（擴(kuò)展版）把詞語分為大、中、小類三級，共分為12個(gè)大類，94個(gè)中類，1428個(gè)小類，小類下再以同義原則劃分詞群，每一個(gè)詞群以一標(biāo)題詞立目，共3925個(gè)標(biāo)題詞。采用同義詞詞林?jǐn)U充觀點(diǎn)詞的方法如下：對于語料中標(biāo)注的每個(gè)觀點(diǎn)詞，在同義詞詞林中查找該詞所在詞群中的同義詞，并將獲得的同義詞連同該詞一起組成同義詞列表，作為對應(yīng)模板中ops列表節(jié)點(diǎn)的內(nèi)容。模板的結(jié)構(gòu)組成如下：

＜template＞

＜id＞模板編號＜/id＞

＜o(jì)ps＞觀點(diǎn)詞及其同義詞列表＜/ops＞

＜dps＞依存句法樹中屬性詞節(jié)點(diǎn)到觀點(diǎn)詞節(jié)點(diǎn)的最短路徑序列＜/dps＞

＜f＞屬性詞在dps序列中的詞性序號＜/f＞

＜/template＞

其中，＜template＞＜/template＞標(biāo)簽標(biāo)記了一個(gè)模板，模板中的第一個(gè)節(jié)點(diǎn)是模板編號，編號從0開始；＜dps＞＜/dps＞節(jié)點(diǎn)用詞性標(biāo)記和依存關(guān)系標(biāo)記表示；＜f＞＜/f＞節(jié)點(diǎn)序號從0開始。

由例1所生成的一個(gè)候選屬性模板為：

＜template＞

＜id＞0001＜/id＞

＜o(jì)ps＞厚道忠厚敦厚溫厚仁厚寬厚憨厚篤厚淳厚渾厚人道渾樸淳樸純樸誠樸樸實(shí)忠厚老實(shí)不念舊惡以德報(bào)怨息事寧人隱惡揚(yáng)善古道熱腸憨直厚樸樸以直報(bào)怨憨拙樸醇樸淳惲＜/ops＞

＜dps＞ n－SBV－d－ADV－nd－ATT－n－SBV－a＜/dps＞

＜f＞0＜/f＞

＜/template＞

1.3 模板歸并與過濾

在生成的候選模板中，若兩個(gè)模板的dps序列和f序號都相同，說明這兩個(gè)模板反映了相似的語言現(xiàn)象，需要考慮這兩個(gè)模板是否應(yīng)當(dāng)歸并的問題。設(shè)模板template＿1和template＿2的dps序列和f序號都相同，它們的觀點(diǎn)詞列表分別為L1＝｛w11w12… w1p｝和L2＝｛w21w22… w2k｝，若L1∩L2≠ ，則將這兩個(gè)模板歸并為一個(gè)模板，歸并后的模板的ops列表為L＝L1∪L2。經(jīng)過模板的歸并，可以減少模板庫的冗余模板，提高模板檢索的效率。經(jīng)過歸并后的候選模板中，有些候選模板在訓(xùn)練語料中出現(xiàn)的次數(shù)相對較多，這些候選模板相對比較可信，而那些出現(xiàn)次數(shù)較少的候選模板可信度相對較差，因此需要對候選模板進(jìn)行過濾。過濾閾值設(shè)置為式（1）

式中：α——比例系數(shù)，0≤α≤1；pf——所有候選模板在訓(xùn)練語料中出現(xiàn)的總頻次；pn——候選模板的總數(shù)。當(dāng)α一定時(shí)，θ的大小反映了候選模板在語料中出現(xiàn)的平均頻次。

1.4 模板庫生成

由于中文自然語言文本中表達(dá)方式、遣詞造句的多樣性以及句式的復(fù)雜性［14］，同一個(gè)觀點(diǎn)詞可能用于不同的句式，相同的句式也可能使用不同的觀點(diǎn)詞來表達(dá)某種情感傾向。為了能夠有效組織模板，將生成的模板組織成陣列形式，每行模板的dps序列相同，而每列模板的ops列表相同。模板庫的邏輯組織結(jié)構(gòu)如圖2所示。

圖2 模板庫的邏輯組織結(jié)構(gòu)

其中，c0，c1，…，cn模板庫中模板的列序號，r0，r1，…，rm為行序號。

2 產(chǎn)品屬性抽取

由于網(wǎng)絡(luò)評論中包含有大量的噪聲，一定程度上會降低處理的效率和識別的準(zhǔn)確率，因此需要對待識別的主觀性評論句進(jìn)行去噪處理。通過對語料中出現(xiàn)的特殊符號的觀察和統(tǒng)計(jì)，構(gòu)建停用符號表。對于給定的主觀性評論句，先采用停用符號表過濾句子中的特殊符號，然后對句子進(jìn)行分詞、詞性標(biāo)注和依存句法分析，最后提取句子中的形容詞w和句子的詞性依存序列s。在提取句子中的形容詞過程中，可能存在一個(gè)句子中有兩個(gè)或多個(gè)形容詞的情況，這個(gè)句子可能存在兩個(gè)或多個(gè)屬性，此時(shí)需要將這些形容詞分別作為檢索詞進(jìn)行模板檢索。

2.1 模板檢索

以提取的形容詞w為檢索詞，在模板庫中檢索ops列表包含該檢索詞的模板并獲取該模板在模板庫中的列序號c，然后按如下算法檢索匹配的模板：

步驟1 j＝0，position＝－1。

步驟2 dps＝template＿jc.dps。

步驟3 若dps是s的一個(gè)子序列，則匹配成功，用position記錄s中與dps相同的子序列的起始位置，并記錄模板的行序號j，轉(zhuǎn)步驟4；否則，j＝j(luò)＋1，若j≤m，轉(zhuǎn)步驟2。

步驟4 結(jié)束。

算法執(zhí)行后，若position＝－1，表明未檢索到匹配模板；否則說明評論句在模板庫中找到匹配的模板template＿jc。

2.2 屬性抽取

利用模板檢索后獲得的模板編號jc和序列匹配的起始位置position，可定位待識別句子中的屬性詞。設(shè)匹配模板template＿jc的＜f＞＜/f＞節(jié)點(diǎn)值為d，則待識別評論句的分詞結(jié)果中序號為position＋d的詞即為屬性詞。

例2：清晰的屏幕，漂亮的外觀設(shè)計(jì)，凸顯了它品質(zhì)的高貴。

例2詞性標(biāo)記后結(jié)果為：［0］清晰/a［1］的/u［2］屏幕/n［3］，/wp［4］漂亮/a［5］的/u［6］外觀/n［7］設(shè)計(jì)/v［8］，/wp［9］凸顯/v［10］了/u［11］它/r［12］品質(zhì)/n［13］的/u［14］高貴/a［15］。/wp。分析后結(jié)果如圖3所示。

圖3 例2的分析結(jié)果

句子中出現(xiàn)了3個(gè)形容詞 “清晰”、 “漂亮”和 “高貴”，分別以3個(gè)形容詞為檢索詞在模板庫中檢索模板，執(zhí)行檢索算法后，形容詞 “清晰”獲得的檢索結(jié)果為：position＝0，匹配模板是template＿41；同理，形容詞 “漂亮”和 “高貴”獲得的匹配模板分別是template＿71和template＿60。根據(jù)3個(gè)模板獲得對應(yīng)的屬性詞。例如，形容詞 “清晰”的匹配模板template＿41為：

＜template＞

＜id＞41＜/id＞

＜o(jì)ps＞清晰明晰清清楚歷歷分明鮮明一清二楚黑白分明旁觀者清清清楚楚明明白白冥澄丁是丁白紙黑字清麗不可磨滅＜/ops＞

＜dps＞a－DE－u－ATT－n＜/dps＞

＜f＞2＜/f＞

＜/template＞

則待識別評論句的分詞結(jié)果中序號為position＋2＝2的詞 “屏幕”即為該句的一個(gè)屬性詞。同樣的方法可識別另兩個(gè)屬性詞分別為 “外觀”和 “品質(zhì)”。

3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

3.1 實(shí)驗(yàn)語料構(gòu)建

由于缺乏標(biāo)準(zhǔn)的評測語料可供使用，本文選取了與文獻(xiàn) ［10］來源相同的5種產(chǎn)品評論作為實(shí)驗(yàn)語料，以便于展開對比。從5種產(chǎn)品的網(wǎng)絡(luò)評論中各選取150個(gè)主觀性評論句作為實(shí)驗(yàn)語料，5種產(chǎn)品分別是一款手機(jī) （HTC A9191），兩款數(shù)碼相機(jī) （Nikon D90，Canon IXUS 210），一款MP3播放器（藍(lán)魔RM970）和一本圖書（《杜拉拉升職記》）。其中手機(jī)、數(shù)碼相機(jī)及MP3播放器的評論從itl68網(wǎng)站下載（http：//www.it168.com/），圖書評論從卓越網(wǎng)下載（http：//www.amazon.cn/）。實(shí)驗(yàn)選取的每一個(gè)評論句至少包含一個(gè)產(chǎn)品屬性。從750句實(shí)驗(yàn)語料中隨機(jī)選取每種產(chǎn)品的100個(gè)評論句，共500句評論組成訓(xùn)練集，其余250句組成測試集。

針對訓(xùn)練集中每一種產(chǎn)品的評論句，首先進(jìn)行預(yù)處理，然后對訓(xùn)練集中的語料進(jìn)行半自動標(biāo)注，根據(jù)標(biāo)注結(jié)果生成了563個(gè)候選模板，經(jīng)過模板歸并和過濾后得到374個(gè)屬性模板，最后由374個(gè)模板生成模板庫。

3.2 評價(jià)指標(biāo)

采用在文本處理研究領(lǐng)域普遍使用的性能評估指標(biāo)：精確率P（precision）、召回率R（recall）和F值對實(shí)驗(yàn)結(jié)果進(jìn)行評測

3.3 實(shí)驗(yàn)結(jié)果及分析

首先將測試集中5種產(chǎn)品的250個(gè)評論句子輸入實(shí)驗(yàn)系統(tǒng)，對于每一種產(chǎn)品，不同句子中識別出的相同屬性應(yīng)當(dāng)看作是不同的屬性；然后將實(shí)驗(yàn)結(jié)果與文獻(xiàn) ［10］進(jìn)行了對比。雖然兩種方法選取的實(shí)驗(yàn)語料不同，但是所用的語料來源、評論的產(chǎn)品種類和語料規(guī)模完全相同，對比結(jié)果如表1所示。

D從表1的結(jié)果可以看出，本文的平均精確率達(dá)到了0.762，平均召回率達(dá)到了0.703，與文獻(xiàn) ［10］的抽取方法相比，召回率下降了7.5%，但精確率卻提高了12.6%，綜合評價(jià)指標(biāo)F值提高了3.4%，說明本文方法取得了較好的效果。

分析精確率提高的原因，文獻(xiàn) ［10］繼承并拓展了面向英文評論的產(chǎn)品特征挖掘方法，雖然也針對中文語言特點(diǎn)和中文評論風(fēng)格對方法局部進(jìn)行了技術(shù)創(chuàng)新，但由于中英文語言在詞匯、語法、語義以及語用等各個(gè)層面都上存在著很大的差異，方法的拓展效果比較有限。而本文方法則借助從真實(shí)的中文評論語料中提取出的屬性模板識別產(chǎn)品屬性，模板既包含了反映評論句語言組合規(guī)律的詞性和依存關(guān)系序列，也包含了特定的語言組合序列可能關(guān)聯(lián)的觀點(diǎn)詞，因而能夠更好地刻畫中文產(chǎn)品評論的語言規(guī)律，提高識別準(zhǔn)確率。

表1 本文方法與文獻(xiàn) ［10］實(shí)驗(yàn)對比結(jié)果

本文的召回率有所降低，主要是因?yàn)橛?xùn)練語料的規(guī)模比較小，只有500個(gè)句子，模板庫包含的模板數(shù)量依賴于訓(xùn)練語料的規(guī)模，模板的覆蓋面仍然比較小，有些測試語料是模板沒有覆蓋到的，可以通過建立更為完備的訓(xùn)練語料來增加模板的數(shù)量，從而提高系統(tǒng)的性能。

為了進(jìn)一步提高方法識別的準(zhǔn)確率，通過對識別錯誤的句子進(jìn)行分析。引起錯誤的原因主要有以下幾個(gè)因素：

（1）分詞、詞性標(biāo)注及句法分析工具是后續(xù)產(chǎn)品屬性識別的基礎(chǔ)，但是目前這些工具本身還有一定的誤差。例如，“性價(jià)比”也是一種產(chǎn)品屬性，但在分詞時(shí)切分為 “性價(jià)/比”，影響了后續(xù)屬性識別的準(zhǔn)確率。

（2）人工標(biāo)注的主觀性和隱式產(chǎn)品屬性對識別的準(zhǔn)確性有一定的影響。實(shí)驗(yàn)結(jié)果對照的是人工標(biāo)注的屬性，然而對于產(chǎn)品屬性人工標(biāo)注的主觀性可能會影響到標(biāo)注結(jié)果的客觀性，從而影響實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。另外，本文對屬性的識別僅是針對產(chǎn)品的顯式屬性進(jìn)行識別，而對于隱式屬性卻無能為力。

（3）網(wǎng)絡(luò)用戶評論的風(fēng)格及語言的特殊性對實(shí)驗(yàn)結(jié)果也產(chǎn)生了影響。由于評論文本風(fēng)格的特殊性，再加上網(wǎng)絡(luò)用語中新詞、新含義、新用法和新句型的不斷出現(xiàn)，降低了識別方法各環(huán)節(jié)處理的準(zhǔn)確率。例如，“超酷”詞性被標(biāo)記為 “ws”，但它的真實(shí)含義卻是一個(gè)褒義的觀點(diǎn)詞；“外觀很山寨”中 “山寨”一詞被標(biāo)記為名詞，但它的真實(shí)含義卻轉(zhuǎn)化為一個(gè)貶義觀點(diǎn)詞。

（4）為了提高模板的覆蓋面，采用同義詞詞林對觀點(diǎn)詞進(jìn)行了同義詞擴(kuò)展，這種擴(kuò)展是基于這樣一種假設(shè)，即同義詞或近義詞的語法功能也相同，雖然這種假設(shè)對于多數(shù)情況是正確的，但有時(shí)也有例外。

4 結(jié)束語

針對句子粒度的中文在線產(chǎn)品評論，在分析現(xiàn)有產(chǎn)品屬性抽取方法的基礎(chǔ)上，綜合采用了詞法分析、句法分析、同義詞詞林等多項(xiàng)技術(shù)和資源，提出了一種基于產(chǎn)品屬性模板的方法。考慮到在線產(chǎn)品評論的特點(diǎn)，本文首先對訓(xùn)練評論語料進(jìn)行了預(yù)處理，并使用哈爾濱工業(yè)大學(xué)研制的語言技術(shù)平臺LTP對預(yù)處理后的句子進(jìn)行分詞、詞性標(biāo)注和依存句法分析，生成語料標(biāo)注集。然后采用半監(jiān)督學(xué)習(xí)的方法構(gòu)建了產(chǎn)品屬性模板，最后借助模板實(shí)現(xiàn)了對產(chǎn)品屬性的自動識別。實(shí)驗(yàn)結(jié)果表明該方法是有效的。

［1］TANG Hui－feng，TAN Song－bo，CHENG Xue－qi.A survey on sentiment detection of reviews ［J］.Expert Systems with Applications，2009，36 （7）：10760－10773.

［2］Popescu A，Etzioni O.Extracting product features and opinions from reviews ［C］.Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.Stroudsburg，PA：ACL，2005.

［3］WEI C P，CHEN Y M，YANG C S，et al.Understanding what concerns consumers：A semantic approach to product feature extraction from consumer reviews ［J］.Information Systems and E－business Management，2010，8 （2）：149－167.

［4］Niklas J，Iryna G.Extracting opinion targets in a single－and cross－domain setting with conditional random fields ［C］.Proceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA：ACL，2010：1035－1045.

［5］ZHANG Shu，JIA Wen－jie，XIA Ying－ju，et al.Research on CRF－based evaluated object extraction ［C］.Harbin：Proceedings of the COAE，2008（in Chinese）.［張姝，賈文杰，夏迎炬，等.基于CRF的評價(jià)對象抽取技術(shù)研究［C］.Harbin：Proceedings of the COAE，2008.］

［6］LOU De－cheng，YAO Tian－fang.Semantic polarity analysis and opinion mining on Chinese review sentences ［J］.Journal of Computer Applications，2006，26 （11）：2622－2625 （in Chinese）.［婁德成，姚天昉.漢語句子語義極性分析和觀點(diǎn)抽取方法的研究［J］.計(jì)算機(jī)應(yīng)用，2006，26 （11）：2622－2625.］

［7］QIAO Chun－geng，SUN Li－h(huán)ua，WU Shao，et al.Patternbased Chinese semantic orientation analysis［C］.Harbin：Proceedings of the COAE，2008（in Chinese）.［喬春庚，孫麗華，吳韶，等.基于模式的中文傾向性分析研究［C］.Harbin：Proceedings of the COAE，2008.］

［8］HE Ting－ting，WEN Bin，SONG Le，et al.Research on sentiment terms’polarities identification and opinion extraction［C］.Harbin：Proceedings of the COAE，2008 （in Chinese）.［何婷婷，聞彬，宋樂，等.詞語情感傾向性識別及觀點(diǎn)抽取研究［C］.Harbin：Proceedings of the COAE2008，2008.］

［9］SONG Xiao－lei，WANG Su－ge，LI Hong－xia.Research on comment target recognition for specific domain products［J］.Journal of Chinese Information Processing，2010，24 （1）：89－93 （in Chinese）.［宋曉雷，王素格，李紅霞.面向特定領(lǐng)域的產(chǎn)品評價(jià)對象自動識別研究［J］.中文信息學(xué)報(bào)，2010，24 （1）：89－93.］

［10］LI Shi，YE Qiang，LI Yi－jun，et al.Mining features of products from Chinese customer online reviews ［J］.Journal of Management Sciences in China，2009，12 （2）：142－152 （in Chinese）.［李實(shí)，葉強(qiáng)，李一軍，等.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究［J］.管理科學(xué)學(xué)報(bào)，2009，12 （2）：142－152.］

［11］ZONG Cheng－qing.Statistical natural language processing［M］.Beijing：Tsinghua University Press，2008：147－189（in Chinese）.［宗成慶.統(tǒng)計(jì)自然語言處理［M］.北京：清華大學(xué)出版社，2008：147－189.］

［12］LIU Ting，MA Jin－shan.Theories and methods of Chinese automatic syntactic parsing：A critical survey ［J］.Contemporary Linguistics，2009，11 （2）：100－112 （in Chinese）.［劉挺，馬金山.漢語自動句法分析的理論與方法［J］.當(dāng)代語言學(xué)，2009，11 （2）：100－112.］

［13］SONG Rui，LIN Hong－fei.DUTIR at COAE2008 ［C］.Harbin：Proceedings of the COAE，2008 （in Chinese）. ［宋銳，林鴻飛.DUTIR關(guān)于 COAE2008評測報(bào)告［C］.Harbin：Proceedings of the COAE，2008.］

［14］ZHOU Li－zhu，HE Yu－kai，WANG Jian－yong.Survey on research of sentiment analysis ［J］.Journal of Computer Applications，2008，28 （11）：2725－2728 （in Chinese）.［周立柱，賀宇凱，王建勇.情感分析研究綜述［J］.計(jì)算機(jī)應(yīng)用，2008，28 （11）：2725－2728.］

［15］ZHENG Jia－h(huán)eng，ZHANG Hu，TAN Hong－ye，et al.Intelligent information processing－Chinese corpus processing technology and application ［M］.Beijing：Science Press，2010：112－137（in Chinese）.［鄭家恒，張虎，譚紅葉，等.智能信息處理—漢語語料庫加工技術(shù)及應(yīng)用［M］.北京：科學(xué)出版社，2010：112－137.］

面向中文客戶評論的產(chǎn)品屬性抽取方法研究

0 引 言

1 屬性模板庫生成

1.1 語料預(yù)處理

1.2 模板定義

1.3 模板歸并與過濾

1.4 模板庫生成

2 產(chǎn)品屬性抽取

2.1 模板檢索

2.2 屬性抽取

3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

3.1 實(shí)驗(yàn)語料構(gòu)建

3.2 評價(jià)指標(biāo)

3.3 實(shí)驗(yàn)結(jié)果及分析

4 結(jié)束語

0 引言