王素格,王鳳霞,宋雅
(1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)
比較是具有說服力的一種評(píng)價(jià)方式.在評(píng)論文本中大約有10%[1]的句子是比較句.作為普通消費(fèi)者,在購買產(chǎn)品之前,往往傾向于在網(wǎng)上查詢該產(chǎn)品的相關(guān)評(píng)論,尤其是那些和該產(chǎn)品進(jìn)行比較的評(píng)論,但用戶沒有足夠的時(shí)間和精力瀏覽大量的信息,因此,若想通過與其他產(chǎn)品的對(duì)比后再做出最終決策是比較困難的事情.然而,互聯(lián)網(wǎng)上的信息聚集效應(yīng)(涌現(xiàn)效應(yīng))使得人們更樂于在一個(gè)大的交流群體中發(fā)表觀點(diǎn)和意見,大量的產(chǎn)品評(píng)論分布在同類產(chǎn)品的論壇、微博等,更為重要的是論壇、微博中的評(píng)論信息更為真實(shí).與一般觀點(diǎn)句識(shí)別不同,比較句具有不同句式和表達(dá)方式,其中蘊(yùn)含著多種觀點(diǎn)信息,若能有效地識(shí)別互聯(lián)網(wǎng)上承載觀點(diǎn)信息的大量比較句,可為產(chǎn)品的比較觀點(diǎn)挖掘的觀點(diǎn)要素抽取、詞語傾向性分析提供數(shù)據(jù)基礎(chǔ),也可為企業(yè)與個(gè)人及時(shí)了解用戶對(duì)同類產(chǎn)品的意見,及時(shí)做出科學(xué)決策提供技術(shù)支持.
目前,關(guān)于比較句的識(shí)別的研究工作還比較少.針對(duì)英文文本,Jindal等[2-3]提出將分類器和CSR(Class Sequential Rule)相結(jié)合的比較句識(shí)別方法,其中挖掘CSR的算法的最小支持度設(shè)置為項(xiàng)支持度的倍數(shù),其倍數(shù)為一個(gè)參數(shù),比較句識(shí)別達(dá)到了79%的精確率和81%的召回率.Yeong Hyeon Gu[4]通過獲取規(guī)則的方法對(duì)韓語比較句進(jìn)行了識(shí)別.針對(duì)中文文本,主要有基于模式庫和序列規(guī)則的比較句識(shí)別.宋銳[5]等人使用人工搜集的206條比較模式,將其用于比較句的識(shí)別.黃小江等[6]在Jindal等人的基礎(chǔ)上,將SVM和CSR相結(jié)合對(duì)中文比較句進(jìn)行了識(shí)別,并給出了規(guī)則的最小支持度max(λ·min(fi),2/N)(其中,fi是規(guī)則r中第i個(gè)項(xiàng)在數(shù)據(jù)集中出現(xiàn)的頻率,λ為閾值(λ∈(0,1)),N為序列集規(guī)模),比較句識(shí)別的F值為85%.黃高輝等人[7]在文獻(xiàn)[2]和[6]工作的基礎(chǔ)上,采用CRF提取命名實(shí)體對(duì)象信息 (主要是對(duì)象的位置和數(shù)量),并將其與CSR一起作為特征進(jìn)行比較句識(shí)別,實(shí)驗(yàn)的F值達(dá)到了92.43%.李建軍[8]針對(duì)比較句識(shí)別存在的類別不平衡的現(xiàn)象,采用信息熵的方法將類別首先進(jìn)行平衡化,然后采用信息增益法獲得文本數(shù)據(jù)的統(tǒng)計(jì)特征和結(jié)構(gòu)特征,構(gòu)造分類器,并進(jìn)行比較識(shí)別實(shí)驗(yàn),但F值僅達(dá)到80.9%.
文獻(xiàn)[9]描述了序列模式挖掘算法中的MS-PS算法,本文結(jié)合漢語比較句的特點(diǎn)對(duì)其進(jìn)行改進(jìn):(1)在建立序列模式候選集時(shí),保留比較句主體中的項(xiàng),包括最頻繁項(xiàng){n},在獲取比較序列模式時(shí)取消了文獻(xiàn)[9]設(shè)置的|sup(i)-sup(j)|<φ不等式的條件.(2)為了減少迭代的次數(shù),本文將函數(shù)r-PrefixSpan[9]進(jìn)行了簡化,僅以ik為前綴產(chǎn)生投影數(shù)據(jù)庫,在此基礎(chǔ)上產(chǎn)生較小的投影數(shù)據(jù),用于挖掘包含項(xiàng)ik的序列模式,從而改進(jìn)了MS-PS算法.(3)對(duì)于最小支持度的設(shè)置,本文結(jié)合簡化后的算法以及比較句的特點(diǎn),制定三種最小支持度策略,相比文獻(xiàn)[2]和[6]可以最大程度獲取關(guān)于項(xiàng){n}的序列模式,達(dá)到文獻(xiàn)[7]中增加命名實(shí)體對(duì)象信息效果.通過在兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn),驗(yàn)證了SeqPattMine(序列模式挖掘)算法用于獲取比較序列模式的可行性,并將其應(yīng)用到比較句識(shí)別.
現(xiàn)代漢語的比較句是指謂語中含有比較詞語或比較格式的句子[10].本文將能夠表達(dá)比較的詞語或構(gòu)成比較模式的詞語稱為比較特征詞.根據(jù)比較句的定義及分類[6],我們搜集了103個(gè)比較特征詞.部分比較特征詞見表1.
表1 部分比較特征詞Table 1 Part of comparative feature words
表1中部分詞具有兼類詞性,因此,在自動(dòng)標(biāo)注詞性后,需要人工校對(duì)其詞性可提高比較句識(shí)別的性能.例如:“比較”有介詞p、副詞d和動(dòng)詞v三種詞性,而只有當(dāng)“比較”是介詞和動(dòng)詞時(shí)才表達(dá)比較的意義.另外,“沒有”在表達(dá)比較時(shí)的詞性應(yīng)是動(dòng)詞還是介詞一直具有爭議[11],本文將其詞性標(biāo)記為介詞.
序列模式挖掘就是在序列集中找出滿足用戶指定的最小支持度的序列模式[1].針對(duì)比較句識(shí)別問題,本文僅抽取代表比較句的特有模式.
有關(guān)項(xiàng)目、序列、序列的長度、序列的大小和子序列、序列模式、置信度、覆蓋等概念可參考文獻(xiàn)[2].
定義1[2]序列集合S中包含序列.α的序列個(gè)數(shù)占序列集合S總數(shù)的百分比,稱為序列.α在序列集S中的支持度,記為sup{α}.
例 序列β=〈{a},{b}〉是序列α=〈{a},{b},{d},{a},{c},{d}〉的一個(gè)前綴,而序列γ=〈{d},{a},{c},{d}〉是α的關(guān)于前綴β的后綴.
定義3[13]給定α和β,如果β是α的子序列,則α關(guān)于β的投影α*必須滿足:β是α*的前綴,α*是α的滿足上述條件的最大子序列.
例 對(duì)于序列α=〈{a},{b},{a},{c},{d}〉,其關(guān)于子序列β=〈{b}〉的投影是α*=〈{a},{c},{d}〉.
根據(jù)比較句的構(gòu)成,本文將MS-PS算法[9]進(jìn)行改進(jìn),設(shè)置新的多重最小支持度.
2.2.1 多重最小支持度的設(shè)置
對(duì)于MS-PS算法,僅采用文獻(xiàn)[2]中項(xiàng)的最小支持度將得到不全面的序列模式,本文設(shè)置三種類型的最小支持度(記為minsup).
(1)項(xiàng){n}的最小支持度.在比較句識(shí)別中,增加實(shí)體對(duì)象信息(主要是對(duì)象的位置和數(shù)量)將有助于提高比較句的識(shí)別效率[7],而實(shí)體對(duì)象多以名詞出現(xiàn).由于名詞項(xiàng){n}在比較句語料中的支持度相當(dāng)高,若最小支持度設(shè)為支持度的K倍,將會(huì)得到項(xiàng){n}的最小支持度很高.采用文獻(xiàn)[9]算法需要多次迭代才能得到關(guān)于{n}的比較全面的序列模式.因此,為了簡化文獻(xiàn)[9]的算法,并最大程度地獲取以項(xiàng){n}為開頭的序列模式,可設(shè)置項(xiàng){n}的最小支持度為一個(gè)較低的值.本文設(shè)置minsup{n}=1/N(N為序列集大?。?
(2)關(guān)于“與p”、“和p”、“跟p”、“同p”和表達(dá)比較的詞及詞性“比p”“相比v”等項(xiàng)的最小支持度.
通過統(tǒng)計(jì),以“與”、“和”、“跟”、“同”或表達(dá)比較的比較特征詞構(gòu)成的比較模式在比較句中占了70%以上,例如“與…一樣”和“比…更”.因此,為了最大程度地簡化MS-PS算法,獲得包含“與”、“比”等比較特征詞的相關(guān)模式,將“與p”、“比p”等項(xiàng)的最小支持度也設(shè)置為較低的值,本文仍設(shè)置minsup{xi}=1/N,其中,xi為“與p”、“和p”、“跟p”、“同p”和表達(dá)比較的項(xiàng)“比p”、“相比v”等.
(3)其他項(xiàng)的最小支持度.
除去(1)(2)的其他項(xiàng),當(dāng)K*sup{xj}<1/N時(shí),得到項(xiàng)的支持度非常低,導(dǎo)致規(guī)則數(shù)大幅增加.因此,設(shè)置為 minsup{xj}=max(K*sup{xj},1/N),這里xj表示除(1)和(2)所涉及項(xiàng)外的其他項(xiàng),sup{xj}為項(xiàng)xj的支持度,最小支持度取兩個(gè)值的較大者.
2.2.2 ImMS-PS算法
為了減少M(fèi)S-PS算法的迭代次數(shù),根據(jù)2.2.1節(jié)設(shè)置的三種項(xiàng)最小支持度,得到算法ImMS-PS算法.在具體設(shè)計(jì)ImMS-PS算法,參考文獻(xiàn)[12]僅使用投影模塊和挖掘模塊.參數(shù)說明:s為前綴;seq為序列集;L為s的長度;P|s為以s為前綴的投影數(shù)據(jù)庫;minsup為最小支持度.
ImMS-PS(InSeqSet)算法如下:
Step 1 遍歷序列模式的初始集InSeqSet,統(tǒng)計(jì)每個(gè)項(xiàng)在整個(gè)候選集中的支持度,并按升序排序,將支持度相同的項(xiàng)歸為一組 Wl(l=1,2,…);
Step 2 對(duì)于每個(gè)Wl中的每個(gè)項(xiàng)mj,設(shè)置minsup(mj).在InSeqSet中找到包含mj的序列集seqj,,將集合seqj,中的非頻繁項(xiàng)刪除得到seqj*(j=1,2,…);
Step 3 調(diào)用函數(shù)PrefixSpan(s,L,P|s,minsup(mj),seqj*),獲得比較序列模式集ComSeqSet,初始值s為 mj,L為1;
Step 4 結(jié)束.
PrefixSpan(s,L,P|s,minsup(mj),seqj*):
Step 1 若P|s不為空,則用P|s作為s的投影數(shù)據(jù)庫;否則調(diào)用Project(s,seqj*);
Step 2 掃描P|s,找到長度為1,且可以作為s的最后一個(gè)元素的頻繁項(xiàng);
Step 3 對(duì)于每個(gè)滿足上述要求的頻繁項(xiàng),將其連接到s后,判斷是否構(gòu)成序列模式,若能,將構(gòu)成的序列模式s*加入結(jié)果集List,并輸出式s*;若結(jié)果集List為空,則轉(zhuǎn)Step 5;
Step 4 對(duì)每個(gè)s*,調(diào)用Project(s*,seqj*)得到P|*s,然后再調(diào)用程序PrefixSpan(s*,L+1,P|*s,minsup,seqj*);
Step 5 結(jié)束.
Project(s,seqj*):
遍歷seqj*,查找到以s為前綴的所有后綴postfix(s),生成s的投影數(shù)據(jù)庫P|s.
2.2.3 序列模式挖掘算法
為了獲取比較句的序列模式,首先對(duì)句子進(jìn)行分詞和詞性標(biāo)注后,并人工校對(duì)比較特征詞詞性.在此基礎(chǔ)上,采用SeqPattMine(序列模式挖掘)算法,其算法過程如下:
(1)刪除對(duì)比較序列沒有貢獻(xiàn)的詞及詞性(語氣詞y、嘆詞e、擬聲詞o、數(shù)詞m、助詞u);
(2)將地名ns、機(jī)構(gòu)團(tuán)體nt、人名nr、專有名詞歸到它們的上位名詞n;
(3)查找包含比較特征詞表中比較特征詞及其詞性的句子,保留句子中的比較特征詞及其詞性,其余的非比較特征詞只保留詞性.將句子中的每個(gè)分句表示成一個(gè)序列,建立初始序列集InSeqSet;
(4)調(diào)用算法ImMS-PS(InSeqSet);
(5)序列模式篩選
對(duì)比較序列模式集ComSeqSet,進(jìn)一步利用置信度對(duì)其篩選;
例如:序列模式〈{更d},{n}〉和〈{不同a},{n}〉的置信度分別為7%和33%.因它們的置信度低于最小值置信度,將其篩除.
(6)結(jié)束.
利用第2節(jié)序列模式挖掘算法以及第1節(jié)搜集的比較特征詞,對(duì)比較序列模式進(jìn)行挖掘,將挖掘的模式用于比較句識(shí)別.
將獲得的比較序列模式與分詞、詞性標(biāo)注后的句子直接匹配.設(shè)比較序列模式集為Q={q1,q2,…,qn},測試集為S = {s1,s2,…,sm}.匹配原則為:
這里的qi(i=1,2,…,n),sj(j=1,2,…,m)分別為第i個(gè)模式和第j個(gè)句子.
為了驗(yàn)證本文提出的比較句識(shí)別方法的有效性.本文在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).
數(shù)據(jù)集1:來自太平洋汽車網(wǎng)、2008年和2011年中文傾向性分析評(píng)測語料中的2700個(gè)句子,比較句數(shù)目和非比較句數(shù)目的比例設(shè)定為1∶1.該句子集涉及汽車和電子產(chǎn)品的評(píng)論等領(lǐng)域.實(shí)驗(yàn)采用3倍交叉驗(yàn)證方法.
數(shù)據(jù)集2:第四屆中文傾向性分析評(píng)測(COAE2012)語料中的關(guān)于比較句識(shí)別和要素抽取任務(wù)的數(shù)據(jù)集.各領(lǐng)域各類別句子數(shù)見表2.
表2 COAE2012中比較句識(shí)別任務(wù)的數(shù)據(jù)集Table 2 Data set for comparative sentences identification task in COAE2012
為了對(duì)比較句的識(shí)別效果進(jìn)行評(píng)估,本文選擇評(píng)價(jià)指標(biāo)正確率(A)、精確率(P)、召回率(R)和F1值(F).
對(duì)于數(shù)據(jù)集2,由于分兩個(gè)領(lǐng)域的比較句,為了評(píng)價(jià)比較句識(shí)別方法的整體性能,評(píng)價(jià)指標(biāo)采用微平均和宏平均.
4.2.1 模式的置信度和長度對(duì)比較句識(shí)別的影響
對(duì)于第2.2.3節(jié)的SeqPattMine算法得到的序列模式,考察模式的置信度和模式長度對(duì)比較句識(shí)別的影響,在數(shù)據(jù)集1中設(shè)計(jì)如下實(shí)驗(yàn),K=0.1,實(shí)驗(yàn)的結(jié)果見圖1-3(P176).
(1)置信度對(duì)比較句識(shí)別的影響;
(2)模式長度變化對(duì)比較句識(shí)別的影響.
圖1 置信度的選擇Fig.1 Selection of confidence
圖2 在不同模式長度下的比較句識(shí)別效果Fig.2 Comparative sentences identification results in different patterns length
圖3 在不同模式長度下的比較模式個(gè)數(shù)Fig.3 Comparative pattern numbers in different patterns length
(1)由圖1知,數(shù)據(jù)集1中,置信度取值為0.75時(shí),可以得到最好的比較句識(shí)別性能.
(2)由圖2可知,比較模式的長度取2或3時(shí),比較句識(shí)別都可達(dá)到最好效果,該結(jié)論與文獻(xiàn)[6]相同,這里我們并沒有給出模式長度為1的實(shí)驗(yàn)結(jié)果,因?yàn)樗淹嘶癁楸容^特征詞.在4.2.2和4.2.3的實(shí)驗(yàn)中均選用長度2的模式.
(3)由圖3可知,隨著比較模式長度的增加,模式數(shù)量也在不斷增加.但本文的冗余模式較文獻(xiàn)[6]模式少,這得益于本文改進(jìn)的算法和在預(yù)處理階段提取了比較句的特征詞.
采用類似的方法,在數(shù)據(jù)集2上得到與數(shù)據(jù)集1類似的結(jié)論,電子領(lǐng)域的置信度選擇0.8效果最佳,汽車領(lǐng)域的置信度選擇0.85.
4.2.2 不同項(xiàng)最小支持度的設(shè)置對(duì)比較句識(shí)別的影響
根據(jù)2.2.1中的最小支持度設(shè)置,采用如下符號(hào)標(biāo)記.
M1:minsup{xj}=max(K*sup{xj},1/N),sup{xj}為項(xiàng)xj的支持度(j=1,2,…),K=0.1;
M2:minsup{n}=1/N(N為序列集大?。┑牟呗?;
M3:minsup{xi}=1/N(N為序列集大小),xi為“與p”、“和p”、“跟p”、“同p”和表達(dá)比較的項(xiàng)(如:“比P”和“相比v”);
MP:第2.2.3節(jié)的SeqPattMine算法;
在數(shù)據(jù)集1、數(shù)據(jù)集2上,利用項(xiàng)最小支持度的不同設(shè)置對(duì)比較句識(shí)別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表3-表5所示.
表3 基于項(xiàng)最小支持度在數(shù)據(jù)集1的比較句識(shí)別實(shí)驗(yàn)結(jié)果Table 3 Comparative sentences identification results based on the minimum support of item on data set1
表4 在數(shù)據(jù)集2基于項(xiàng)最小支持度的比較句識(shí)別結(jié)果Table 4 Comparative sentences identification results based on the minimum support of item on data set2
表5 在數(shù)據(jù)集2中基于項(xiàng)最小支持度的比較句識(shí)別的宏平均和微平均Table 5 Macro-average and micro-average of comparative sentences identification based on the minimum support of item on data set2
從表3-表5可看出,方案M1+M2+M3使比較句的召回率和F1值得到有效的提升,而MP+M1在三個(gè)方案里的比較句識(shí)別效果最差.因此,第4.2.3節(jié)的實(shí)驗(yàn),最小支持度采用方案MP+M1+M2+M3.
4.2.3 多種比較句識(shí)別方法的實(shí)驗(yàn)結(jié)果
為了驗(yàn)證各種比較句識(shí)別方法的效果,設(shè)計(jì)了以下實(shí)驗(yàn)方案.
(1)TZC:直接匹配比較特征詞的識(shí)別比較句;
(2)TZCX:直接匹配標(biāo)注有詞性的比較特征詞的識(shí)別比較句;
(3)SVMS:以第2.2.3節(jié)的SeqPattMine算法獲得比較模式和非比較模式作為特征,SVM為分類器識(shí)別比較句;
(4)BSR:以第2.2.3節(jié)的SeqPattMine算法獲得的比較模式,直接匹配比較模式識(shí)別比較句;
表6 在數(shù)據(jù)集1上的基于多種方案比較句識(shí)別結(jié)果Table 6 Comparative sentences identification results based on multiple schemes on data set1
表7 在數(shù)據(jù)集2上的基于多種方案比較句識(shí)別結(jié)果Table 7 Comparative sentences identification results based on multiple schemes on data set2
表8 在數(shù)據(jù)集2上的基于多種方案比較句識(shí)別宏平均和微平均Table 8 Macro-average and micro-average of comparative sentences identification based on multiple schemes on data set2
通過以上實(shí)驗(yàn)結(jié)果,我們不難發(fā)現(xiàn):
(1)基于比較特征詞的比較句識(shí)別方案獲得了相當(dāng)高的召回率,但精確率卻很低,在數(shù)據(jù)集2的汽車領(lǐng)域僅有25.79%.當(dāng)比較特征詞中加入詞性信息后,在數(shù)據(jù)集2的汽車領(lǐng)域的F值提升了近23%.
(2)基于BSR的方案效果在所有方案中最佳,在數(shù)據(jù)集1的F值達(dá)到了93.38%.而SVMS效果劣于BSR方案,原因是在提取非比較模式時(shí),由于非比較句的類型較多,特征詞選取較難,使得效果提升不大.
(3)基于數(shù)據(jù)2的實(shí)驗(yàn)結(jié)果總體效果劣于數(shù)據(jù)集1,主要因?yàn)閿?shù)據(jù)集2中的句子較豐富,句子結(jié)構(gòu)較為復(fù)雜,且比較句和非比較句的所設(shè)比例較數(shù)據(jù)集1大,因此加大了識(shí)別難度.
4.2.4 基于比較序列模式的比較句識(shí)別存在的問題
利用序列模式挖掘算法獲得比較模式后,雖然識(shí)別比較句的效果已經(jīng)達(dá)到了很好,F(xiàn)值達(dá)到80%以上,但仍然存在一些問題.
(1)比較特征詞“最”、“更”和“像”等在比較句和非比較句中都比較常出現(xiàn),獲得的比較模式?jīng)]有很好的區(qū)分度,是影響比較句識(shí)別效果的主要原因.
例1:其實(shí)是不是豪華車最重要的品牌,價(jià)格、裝備、內(nèi)飾、技術(shù)都還是其次.(非比較)
例2:但從性價(jià)比上看開拓者4.3是24萬左右中最好的SUV了.(比較)
(2)有比較意義但不含比較詞的比較句影響了比較識(shí)別的召回率.
例3:兩車都試駕過,325動(dòng)力非凡,320確實(shí)差些.(比較)
(3)網(wǎng)絡(luò)用語的不規(guī)范性和多樣性使比較句識(shí)別難度增加.
例4:想必于老款?yuàn)W迪A6,新款車?yán)锩娴目臻g更寬大了,乘坐比較舒適.
例5:后排空間也完暴咱三,還有中央扶手,這點(diǎn)還是很厚道的.
很明顯,例4中的“想必”等同于“相比”,例5中的“完暴”等同于“完爆”,為網(wǎng)絡(luò)新語,表達(dá)全面超過的意思.
(4)語料中詞性對(duì)比較模式獲取及識(shí)別的產(chǎn)生很大的影響.
在數(shù)據(jù)集1和數(shù)據(jù)集2中,校對(duì)數(shù)據(jù)集前后的比較句識(shí)別率F值均相差15%左右.
本文根據(jù)漢語比較句的特點(diǎn),將文獻(xiàn)[9]的MS-PS算法進(jìn)行了改進(jìn)來挖掘比較模式.獲得比較模式后,選擇直接匹配句子達(dá)到識(shí)別比較句目標(biāo).在兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果顯示了本文方法的有效性.但是獲取比較模式對(duì)比較特征詞也有一定的依賴性.同時(shí)評(píng)論中網(wǎng)絡(luò)用語的不規(guī)范性和多樣性也給比較句識(shí)別帶來困難.因此,在未來的研究中,應(yīng)不斷擴(kuò)充比較特征詞和在比較句識(shí)別中加入語義成分.
[1]Ganapathibhotla Murthy,Liu Bing.Mining Opinions in Comparative Sentences[C]//Proceedings of the 22nd International Conference on Computational Linguistics,2008:241-248.
[2]Jindal Nitin,Liu Bing.Identifying Comparative Sentences in Text Documents[C]//Proceedings of SIGIR 2006.Washington,USA,2006:244-251.
[3]Jindal Nitin,Liu Bing.Mining Comparative Sentences and Relations[C]//Proceedings of AAAI 2006.Boston,USA,2006.
[4]Gu Yeong Hyeon,Yoo Seong Joon.Rules for Mining Comparative Online Opinions[C]//Fourth International Conference on Computer Sciences and Convergence Information Technology,2009:1294-1299.
[5]宋銳,林鴻飛,常富洋.中文比較句識(shí)別及比較關(guān)系抽取[J].中文信息學(xué)報(bào),2009,23(2):102-108.
[6]黃小江,萬小軍,楊建武.漢語比較句識(shí)別研究[J].中文信息學(xué)報(bào),2008,22(5):30-37.
[7]黃高輝,姚天昉,劉全升.CRF算法的漢語比較句識(shí)別和關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2061-2064.
[8]李建軍,何中市.比較句與比較關(guān)系識(shí)別研究及其應(yīng)用[D].重慶:重慶大學(xué),2011.
[9]Liu Bing.Web Data Mining:Exploring Hyperlinks,Content s,and Usage Data[M].Springer-Verlag New York in Corporated,2010.
[10]車競.現(xiàn)代漢語比較句論略[J].湖北師范學(xué)院學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2005,25(3):60-63.
[11]張敬源,張藝.有字比較句的加的夫語法視角研究[J].北京科技大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2012,28(1):34-40.
[12]謝清森,楊天奇.改進(jìn)的PrefixSpan算法在 Web挖掘中的應(yīng)用[J].科學(xué)技術(shù)與工程,2009,9(23):7176-7179.
[13]汪林林,范軍.基于PrefixSpan的序列模式挖掘改進(jìn)算法[J].計(jì)算機(jī)工程,2009,35(23):56-61.