唐守忠,齊建東
(北京林業(yè)大學(xué)信息學(xué)院,北京 100083)
一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對的向量空間模型*
唐守忠,齊建東
(北京林業(yè)大學(xué)信息學(xué)院,北京 100083)
提出了一種結(jié)合關(guān)鍵詞特征和共現(xiàn)詞對特征的向量空間模型。首先,通過分詞和去除停用詞提取文本中的候選關(guān)鍵詞,利用文本頻率篩選關(guān)鍵詞特征。然后,基于獲得的關(guān)鍵詞特征兩兩構(gòu)造候選共現(xiàn)詞對,定義支持度和置信度篩選共現(xiàn)詞對特征。最后,結(jié)合關(guān)鍵詞特征和共現(xiàn)詞對特征構(gòu)建向量空間模型。文本分類實(shí)驗(yàn)結(jié)果表明,提出的模型具有更強(qiáng)的文本分類能力。
向量空間模型;共現(xiàn)詞對;語義相關(guān)性;文本分類
向量空間模型VSM(Vector Space Model)是最為經(jīng)典的文本表示模型,被廣泛應(yīng)用于文本分類、聚類、信息檢索等領(lǐng)域。該模型由Salton G等人[1]于1975年提出,其基本思想是將文本表示為基于關(guān)鍵詞特征的向量,利用TF-IDF公式計(jì)算關(guān)鍵詞特征的權(quán)重。VSM簡單高效,但不能表示文本的語義特征:一方面,由于基于關(guān)鍵詞之間的相互獨(dú)立性假設(shè),VSM無法表示關(guān)鍵詞之間的語義相關(guān)性;另一方面,由于完全依賴關(guān)鍵詞的字符串匹配,VSM也無法處理文本中經(jīng)常出現(xiàn)的同義詞和多義詞現(xiàn)象。
針對上述問題,本文首先在調(diào)研目前VSM改進(jìn)方向的基礎(chǔ)上,指出了利用統(tǒng)計(jì)語言模型改進(jìn)VSM的優(yōu)勢;然后介紹了統(tǒng)計(jì)語言模型中的詞共現(xiàn)理論,并總結(jié)當(dāng)前利用詞共現(xiàn)信息改進(jìn)VSM的研究工作及其不足;最后利用詞共現(xiàn)信息構(gòu)造“共現(xiàn)詞對”特征,定義精確的共現(xiàn)詞對特征支持度、置信度和權(quán)重計(jì)算方法,并將共現(xiàn)詞對特征與VSM原有的關(guān)鍵詞特征結(jié)合,提出了一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對的向量空間模型KACVSM(Vector Space Model based on Keyword And Co-occurrence word)。文本分類實(shí)驗(yàn)對比結(jié)果表明了KACVSM的有效性。
針對VSM缺乏文本語義表示的不足,有的研究人員提出利用關(guān)鍵短語代替關(guān)鍵詞作為VSM的表示特征。比如文獻(xiàn)[2, 3]利用統(tǒng)計(jì)語義平滑機(jī)制,提取文本中的關(guān)鍵短語表示文本。文獻(xiàn)[4]通過大規(guī)模的抽取門戶網(wǎng)站上專家手工標(biāo)引的“關(guān)鍵詞”作為關(guān)鍵短語表示文本。文獻(xiàn)[5~7]通過改進(jìn)后綴樹模型,提取文本中的關(guān)鍵短語表示網(wǎng)頁文本。利用關(guān)鍵短語改進(jìn)VSM的困難在于文本中關(guān)鍵短語難以界定[8]。
也有研究人員提出利用本體改進(jìn)VSM。比如文獻(xiàn)[9]首先利用互信息測度來計(jì)算關(guān)鍵詞之間的相關(guān)度,然后利用WordNet本體計(jì)算兩個關(guān)鍵詞之間的語義距離,最后結(jié)合兩者計(jì)算關(guān)鍵詞的語義權(quán)重。文獻(xiàn)[10]通過自行構(gòu)建的領(lǐng)域本體調(diào)整VSM中關(guān)鍵詞的TF-IDF權(quán)重。文獻(xiàn)[11]利用WordNet本體改進(jìn)VSM的聚類效果。利用本體改進(jìn)VSM的方法過于依賴諸如WordNet、領(lǐng)域主題詞表等外部語義資源。
統(tǒng)計(jì)語言模型[12]針對特定語料庫,通過前期大量的學(xué)習(xí)和統(tǒng)計(jì),挖掘隱藏的真實(shí)信息來增強(qiáng)VSM的語義表示能力,是VSM語義改進(jìn)研究的重要方向。關(guān)鍵詞的詞共現(xiàn)信息是統(tǒng)計(jì)語言模型挖掘的重要信息之一,利用詞共現(xiàn)信息改進(jìn)VSM,比利用難以界定的短語更直觀可靠,也無需依賴諸如WordNet、領(lǐng)域主題詞表等外部語義資源。
3.1 詞共現(xiàn)理論
自然語言文本中普遍存在詞共現(xiàn)現(xiàn)象,即某些關(guān)鍵詞經(jīng)常共同出現(xiàn)在一定的文本范圍(如句子、段落或篇章)內(nèi),詞共現(xiàn)現(xiàn)象中隱含著關(guān)鍵詞之間的語義相關(guān)性信息。文本集合中任意兩個關(guān)鍵詞的組合都可被看作一組共現(xiàn)詞對,關(guān)鍵詞key1和key2構(gòu)成的共現(xiàn)詞對可表示為(key1,key2)。共現(xiàn)詞對(key1,key2)的共現(xiàn)頻率是指文本集合中同時包含關(guān)鍵詞key1和key2的文本數(shù)量,(key1,key2)的共現(xiàn)頻率越高,表明關(guān)鍵詞key1和key2的語義相關(guān)性越大。共現(xiàn)詞對描述了兩個關(guān)鍵詞之間的語義相關(guān)性,是描述文本語義的最小特征單元。理論上講,包含p個關(guān)鍵詞的文本集合中包含p(p-1)/2個共現(xiàn)詞對,當(dāng)文本集合中的關(guān)鍵詞數(shù)量成百或上千時,共現(xiàn)詞對的統(tǒng)計(jì)量巨大。因而利用共現(xiàn)詞對表示文本時,通常定義支持度和置信度兩個指標(biāo)來篩選文本語義表達(dá)能力強(qiáng)的共現(xiàn)詞對特征。
共現(xiàn)詞對(key1,key2)的支持度定義如下:
sup(key1,key2)=freq(key1,key2)/n
(1)
其中,n表示文本總數(shù)。freq(key1,key2)表示共現(xiàn)詞對(key1,key2)的共現(xiàn)頻率。
共現(xiàn)詞對(key1,key2)的置信度定義如下:
con(key1,key2)=α×con(key1|key1,key2)+
β×con(key2|key1,key2)
(2)
其中,con(key1|key1,key2)和con(key2|key1,key2)分別為關(guān)鍵詞key1和key2的條件置信度,分別對應(yīng)于在關(guān)鍵詞key1和key2出現(xiàn)的條件下,共現(xiàn)詞對(key1,key2)出現(xiàn)的概率。α和β分別為關(guān)鍵詞key1和key2的條件置信度的加權(quán)參數(shù)。關(guān)鍵詞key1和key2的條件置信度計(jì)算公式如下:
con(key1|key1,key2)=
freq(key1,key2)/freq(key1)
(3)
con(key2|key1,key2)=
freq(key1,key2)/freq(key2)
(4)
共現(xiàn)詞對(key1,key2)的支持度用于評價其對整個文本集合的區(qū)分能力,置信度用于評價關(guān)鍵詞key1和key2的語義相關(guān)性,置信度計(jì)算公式中加權(quán)參數(shù)α和β的設(shè)置十分關(guān)鍵。
3.2 詞共現(xiàn)改進(jìn)VSM相關(guān)工作
目前,已有一些利用詞共現(xiàn)信息改進(jìn)VSM的工作。例如文獻(xiàn)[13]提出了基于共現(xiàn)詞組合的VSM,利用共現(xiàn)詞對表示文本,利用布爾值計(jì)算二階共現(xiàn)詞的權(quán)重。文獻(xiàn)[14]統(tǒng)計(jì)當(dāng)前關(guān)鍵詞與其前后n個關(guān)鍵詞組成的長度為2n+1的詞序列中的詞共現(xiàn)信息,生成當(dāng)前關(guān)鍵詞的相關(guān)詞序列,通過關(guān)鍵詞的相關(guān)詞序列共同包含的關(guān)鍵詞數(shù)量計(jì)算關(guān)鍵詞之間的語義相關(guān)性。文獻(xiàn)[15]通過定義關(guān)鍵詞之間的互信息篩選相關(guān)性高的共現(xiàn)詞,用于擴(kuò)展VSM?,F(xiàn)有利用詞共現(xiàn)信息改進(jìn)VSM的研究,在詞共現(xiàn)特征的構(gòu)造、降維、權(quán)重計(jì)算方法以及與VSM原有關(guān)鍵詞特征的結(jié)合四個方面不夠全面。文獻(xiàn)[13]利用共現(xiàn)詞對特征表示文本,但沒給出有效的特征降維和特征權(quán)重計(jì)算方法。文獻(xiàn)[14,15]僅采用詞共現(xiàn)特征表示文本,舍棄了VSM原有的關(guān)鍵詞特征。本文提出的KACVSM利用共現(xiàn)詞對特征表示文本,給出了精確有效的特征降維和權(quán)重計(jì)算方法,將共現(xiàn)詞對特征與VSM原有的關(guān)鍵詞特征有效結(jié)合,綜合考慮了上述四個方面。
給定文本集合D,本文將KACVSM的構(gòu)造流程(圖1所示)分為文本預(yù)處理、關(guān)鍵詞特征統(tǒng)計(jì)、共現(xiàn)詞對特征統(tǒng)計(jì)和KACVSM向量表示四個步驟。
Figure 1 Process of constructing KACVSM
圖1 KACVSM構(gòu)造流程圖
4.1 文本預(yù)處理
針對文本集合D中的每個文本,利用Java編程語言,調(diào)用分詞工具進(jìn)行文本分詞,結(jié)合停用詞表過濾掉停用詞,獲得候選關(guān)鍵詞特征集合。
4.2 關(guān)鍵詞特征統(tǒng)計(jì)
針對候選關(guān)鍵詞特征集合中的每個關(guān)鍵詞,首先統(tǒng)計(jì)其在所屬文本中的詞頻、在整個文本集合D中的文本頻率、逆文本頻率;然后設(shè)定文本頻率閾值,以篩選最終有效的關(guān)鍵詞特征;最后利用TF-IDF公式計(jì)算關(guān)鍵詞特征的權(quán)重。TF-IDF公式如下:
weight(key)=tf(key,d)×idf(key)
(5)
idf(key)=log[n/df(key)+0.01]
(6)
其中,tf(key,d)表示詞頻,即關(guān)鍵詞key在文本d中出現(xiàn)的次數(shù)。idf(key)表示關(guān)鍵詞key的逆文本頻率。n表示文本集合D中的文本總數(shù),df(key)表示文本頻率,即文本集合D中出現(xiàn)關(guān)鍵詞key的文本數(shù)量,0.01為調(diào)節(jié)參數(shù)。
4.3 共現(xiàn)詞對特征統(tǒng)計(jì)
基于4.2節(jié)中篩選得到的關(guān)鍵詞特征集合,首先兩兩構(gòu)造共現(xiàn)詞對,獲得候選共現(xiàn)詞對特征集合;然后針對每個候選共現(xiàn)詞對,利用3.1節(jié)中的方法計(jì)算其支持度和置信度以篩選最終有效的共現(xiàn)詞對特征;最后計(jì)算共現(xiàn)詞對特征的權(quán)重。關(guān)鍵詞的逆文本頻率是整個文本集合上的統(tǒng)計(jì)量,代表關(guān)鍵詞對整個文本集合的區(qū)分能力。因而,在計(jì)算候選共現(xiàn)詞對(key1,key2)的置信度時,利用關(guān)鍵詞key1和key2的逆文本頻率計(jì)算加權(quán)參數(shù):
α=idf(key1)/[idf(key1)+idf(key2)]
(7)
β=idf(key2)/[idf(key1)+idf(key2)]
(8)
TF-IDF公式是經(jīng)典的權(quán)重計(jì)算公式。因而,在計(jì)算共現(xiàn)詞對特征的權(quán)重時,本文延續(xù)關(guān)鍵詞的TF-IDF權(quán)重計(jì)算方法,提出了如下共現(xiàn)詞對特征的TF-IDF公式:
weight(key1,key2)=tf[(key1,key2),d]×
idf(key1,key2)
(9)
其中,tf[(key1,key2),d]表示共現(xiàn)詞對(key1,key2)在文本d中的詞頻。關(guān)鍵詞的權(quán)重是關(guān)鍵詞在當(dāng)前文本中的統(tǒng)計(jì)量,因而在計(jì)算共現(xiàn)詞對(key1,key2)的詞頻時,本文采用weight(key1)和weight(key2)進(jìn)行加權(quán)。共現(xiàn)詞對(key1,key2) 在文本d中的詞頻計(jì)算方法如下:
tf[(key1,key2),d]=(weight(key1)×
tf(key1,d)+weight(key2)×tf(key2,d))/
(weight(key1)+weight(key2))
(10)
idf(key1,key2)表示共現(xiàn)詞對(key1,key2)的逆文本頻率,利用共現(xiàn)詞對(key1,key2)的共現(xiàn)頻率進(jìn)行計(jì)算,計(jì)算公式如下:
idf(key1,key2)=log(n/freq(key1,key2)+0.01)
(11)
4.4 向量表示
向量表示是指將4.2節(jié)統(tǒng)計(jì)得到的關(guān)鍵詞特征和4.3節(jié)統(tǒng)計(jì)得到的共現(xiàn)詞對特征線性結(jié)合構(gòu)造文本向量的過程。假設(shè)4.2節(jié)中獲得的關(guān)鍵詞集合為T={t1,t2,…,tp},4.3節(jié)中獲得的共現(xiàn)詞對集合為C={c1,c2,…,cm},則任意文本d的向量表示如下:
(12)
其中,w(ti)表示關(guān)鍵詞特征ti在文本d中的權(quán)重,根據(jù)4.2節(jié)中的權(quán)重公式計(jì)算;w(ci)表示共現(xiàn)詞對特征ci在文本d中的權(quán)重。
5.1 實(shí)驗(yàn)語料
本文采用復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組文本分類語料庫進(jìn)行實(shí)驗(yàn),該語料庫共包含20類、9 833篇文本。本實(shí)驗(yàn)抽取藝術(shù)、計(jì)算機(jī)、經(jīng)濟(jì)、教育、環(huán)境、醫(yī)療、軍事、政治、體育、交通10個類別的數(shù)據(jù)各100篇,共計(jì)1 000篇文本。每個類別都按照訓(xùn)練集和測試集比例為7∶3切分?jǐn)?shù)據(jù),共得到700篇訓(xùn)練文本、300篇測試文本。
5.2 關(guān)鍵詞特征統(tǒng)計(jì)
利用Java編程語言,調(diào)用中科院ICTCLAS50分詞工具將1 000篇文本進(jìn)行分詞,并結(jié)合停用詞表去除停用詞,共獲得33 730個候選關(guān)鍵詞。統(tǒng)計(jì)這些候選關(guān)鍵詞在其所屬文本中的詞頻、在整個文本集合中的文本頻率、逆文本頻率。表1是候選關(guān)鍵詞在其文本頻率上的分布結(jié)果。
Table 1 Distribution of keywords
由表1可知,51.3%的候選關(guān)鍵詞在文本集合中僅出現(xiàn)了1次 ,0.2%的候選關(guān)鍵在文本中出現(xiàn)了超過200次,這些文本頻率過高或過低的關(guān)鍵詞特征不具有顯著的文本區(qū)分能力,不僅會影響文本向量的表示效果,也會增加后續(xù)共現(xiàn)詞對的統(tǒng)計(jì)計(jì)算量。本文采用條件1 5.3 共現(xiàn)詞對特征統(tǒng)計(jì) 基于5.2節(jié)中篩選獲得的16 380個關(guān)鍵詞特征兩兩構(gòu)建候選共現(xiàn)詞對,獲得支持度不小于0.002的候選共現(xiàn)詞對2 497 604個(支持度等于0.001的共現(xiàn)詞對數(shù)量極多且不具有文本表示意義,因而未統(tǒng)計(jì))。按照4.3節(jié)中的方法計(jì)算置信度加權(quán)參數(shù),并按照3.1節(jié)中的方法計(jì)算候選共現(xiàn)詞對的支持度和置信度。表2和表3分別是候選共現(xiàn)詞對在支持度和置信度上的分布結(jié)果。 由表2和表3可知,55.3%的候選共現(xiàn)詞對的支持度等于0.002,59.8%的候選共現(xiàn)詞對的置信度在0~0.2。支持度或置信度過低的共現(xiàn)詞對不具有顯著的文本語義表示能力,本文過濾掉支持度小于0.002和置信度小于0.2的共現(xiàn)詞對,共獲得1 002 471個共現(xiàn)詞對特征。 Table 2 Distribution of co-occurrence Table 3 Distribution of co-occurrence 5.4 向量表示 基于5.2節(jié)獲得的關(guān)鍵詞特征和5.3節(jié)的共現(xiàn)詞對特征,構(gòu)建VSM、CTVSM和KACVSM三種文本表示模型。其中,VSM是傳統(tǒng)向量空間模型,僅利用關(guān)鍵詞特征表示文本,利用TF-IDF計(jì)算關(guān)鍵詞特征權(quán)重;CTVSM是文獻(xiàn)[13]提出的基于共現(xiàn)詞對的向量空間模型(CTVSM),僅利用共現(xiàn)詞對表示文本,利用布爾值計(jì)算關(guān)鍵詞特征權(quán)重;KACVSM是本文提出的結(jié)合關(guān)鍵詞和共現(xiàn)詞對的向量空間模型。 5.5 分類實(shí)驗(yàn) 基于5.4節(jié)構(gòu)建的三種向量空間模型,采用樸素貝葉斯NB(Naives Bayesian)分類算法,基于5.1節(jié)中的訓(xùn)練語料構(gòu)建分類器并分類測試語料,采用常用的正確率(P)、召回率(R)作為評價指標(biāo)。表4為三種模型的樸素貝葉斯分類對比結(jié)果。 表5表明, KACVSM的平均分類正確率和召回率比VSM分別高6.53%和5.44%,比CTVSM分別高4.67%和2.82%。藝術(shù)、經(jīng)濟(jì)、教育、醫(yī)療、軍事、政治、體育七個類別分類正確率和召回率都有不同程度的提升。這表明,KACVSM在這幾類文本上真正表示了文本的語義特征。另外,KACVSM在計(jì)算機(jī)、環(huán)境和交通三個類別上的分類正確率或召回率比VSM和CTVSM低,這是因?yàn)檫@三類文本中的關(guān)鍵詞特征的文本區(qū)分能力較低,構(gòu)成的共現(xiàn)詞對特征文本語義表示能力較弱,給訓(xùn)練獲得的NB分類器帶來了較強(qiáng)的干擾。 Table 4 Results of NB classification Table 5 Time consumption of 5.6 參數(shù)性能分析 本文針對KACVSM,借鑒文獻(xiàn)[13]中的“固定支持度變動置信度”和“固定置信度變動支持度”的方法,考察不同支持度和置信度組合對樸素貝葉斯分類精度和速度的影響。利用10個類別文本的分類微平均F-measure值作為評價指標(biāo)。圖1為固定支持度時,分類微平均F值隨共現(xiàn)詞對置信度閾值的變化。圖2為固定置信度時,分類微平均F值隨共現(xiàn)詞對支持度閾值的變化。 Figure 2 Micro-F1 result with different confidence thresholds based on fixed support圖2 固定支持度時,微平均F值隨置信度閾值的變化 Figure 3 Micro-F1 result with different support thresholds based on fixed confidence圖3 固定置信度時,微平均F值隨支持度閾值的變化 由圖1和圖2可知,當(dāng)置信度閾值為0.4和支持度閾值為0.005時,分類效果最好,微平均F值分別為90.74%和89.97%。當(dāng)置信度閾值為0.7和支持度閾值為0.009時,分類效果最差,微平均F值分別為84.97%和85.12%,但仍然比VSM的80.33%和CTVSM的82.07%要高。另外,無論是支持度還是置信度,隨著其閾值的不斷升高,KACVSM的分類精度都先升高后降低,因?yàn)楫?dāng)閾值較低時,共現(xiàn)詞對特征多但語義表示能力普遍較低,當(dāng)閾值較高時,共現(xiàn)詞對的語義表示能力高但數(shù)量較少。 表5為VSM的分類器訓(xùn)練速度。表6為固定支持度時,分類器的訓(xùn)練速度隨共現(xiàn)詞對置信度閾值的變化情況。表7為固定置信度時,分類器的訓(xùn)練速度隨共現(xiàn)詞對置信度閾值的變化情況。 Table 6 Time consumption of generating NB classifier 由表5、表6和表7可知,KACVSM的分類器訓(xùn)練速度不如VSM和CTVSM,這是由于同時利用關(guān)鍵詞特征和共現(xiàn)詞對特征表示文本,文本向量的維數(shù)增加導(dǎo)致的。但是,分類器的訓(xùn)練速度并沒有明顯的下滑。相對于KACVSM分類精度的提升來說,其速度降低的代價是可以接受的。 Table 7 Time consumption of generating NB classfier 本文提出了一種結(jié)合關(guān)鍵詞特征和共現(xiàn)詞對特征的向量空間模型。定義精確有效的共現(xiàn)詞對特征的支持度、置信度及權(quán)重計(jì)算方法,在文本分類實(shí)驗(yàn)上證明了所提出的向量空間模型的有效性。但是,本文所提出模型的分類器訓(xùn)練速度有待優(yōu)化。 [1] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11):613-620. [2] Zhang Xiao-dan, Zhou Xiao-hua, Hu Xiao-hua. Semantic smoothing for model-based document clustering[C]∥Proc of the 6th International Conference on Data Mining, 2006:1193-1198. [3] Zhou Xiao-hua, Zhang Xiao-dan, Hu Xiao-hua. Semantic smoothing of document models for agglomerative clustering[C]∥Proc of the 20th International Joint Conference on Artifical Intelligence, 2007:2922-2927. [4] Liu Hua. Research of text classification based on key phrases[J]. Journal of Chinese Information Processing, 2007,21(4):34-41.(in Chinese) [5] Shi Qing-wei, Zhao Zheng, Chao Ke. Hierarchical clustering of Chinese web pages based on suffix tree[J]. Joumal of Liaoning Technical University, 2006, 25(6):890-892.(in Chinese) [6] Du Hong-bin, Xia Ke-wen, Liu Nan-ping. An improved text clustering algorithm of generalized suffix tree[J]. Information and Control, 2009, 38(3):331-336. (in Chinese) [7] Wang Jun-ze,Mo Yi-jun,Huang Ben-xiong,et al. Web search results clustering based on a novel suffix tree structure[J]. Autonomic and Trusted Computing, 2008, 5060(23):540-554. [8] Zhao Jun, Jin Qian-li, Xu Bo. Semantic computation for text retrieval[J]. Chinese Journal of Computers, 2005, 28(12):2068-2078. (in Chinese) [9] Jing Li-ping, Zhou Li-xin, Ng Michael K, et al. Ontology-based distance measure for text clustering[C]∥Proc of the Text Mining Workshop, SIAM International Conference on Data Mining, 2006:1. [10] Xie Hong-wei, Yan Xiao-lin, Yu Xue-li. Research on web page clustering based on ontology[J]. Computer Science, 2008, 35(9):153-155. (in Chinese) [11] Zhu Hui-feng, Zuo Wan-li, He Feng-ling. A novel text clustering method based on ontology[J]. Journal of Jilin University(Science Edtion), 2010, 48(2):277-283. (in Chinese) [12] Ponte J M, Bruce C W. A language modeling approach to information retrieval[C]∥Proc of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1998:275-281. [13] Chang Peng, Feng Nan. A co-occurrence based vector space model for document indexing[J]. Journal of Chinese Information Processing, 2012, 26(1):51-57.(in Chinese) [14] Cao Tian, Zhou Li, Zhang Guo-xuan. Text similarity computing based on word co-occurrence[J]. Computer Engineering & Science, 2008, 29(3):52-53.(in Chinese) [15] Wu Guang-yuan, He Pi-lian, Cao Gui-hong. Vector space model based on word co-occurrence and its application in text classification[J]. Computer Applications, 2003, 23(23):138-140.(in Chinese) 附中文參考文獻(xiàn): [4] 劉華. 基于關(guān)鍵短語的文本分類研究[J]. 中文信息學(xué)報(bào), 2007, 21(4):34-41. [5] 史慶偉,趙政,朝柯. 一種基于后綴樹的中文網(wǎng)頁層次聚類方法[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào), 2006, 25(6):890-892. [6] 杜紅斌,夏克文,劉南平. 一種改進(jìn)的基于廣義后綴樹的文本聚類算法[J]. 信息與控制, 2009, 38(3):331-336. [8] 趙軍,金千里,徐波. 面向文本檢索的語義計(jì)算[J]. 計(jì)算機(jī)學(xué)報(bào), 2005, 28(12):2068-2078. [10] 謝紅薇,顏小林,余雪麗. 基于本體的WEB頁面聚類研究[J]. 計(jì)算機(jī)科學(xué), 2008, 35(9):153-155. [11] 朱會峰,左萬利,赫楓齡. 一種基于本體的文本聚類方法[J]. 吉林大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 48(2):277-283. [13] 常鵬,馮楠. 基于詞共現(xiàn)的文檔表示模型[J]. 中文信息學(xué)報(bào), 2012, 26(1):51-57. [14] 曹恬,周麗,張國煊. 一種基于詞共現(xiàn)的文本相似度計(jì)算[J]. 計(jì)算機(jī)工程與科學(xué), 2008, 29(3):52-53. [15] 吳光遠(yuǎn),何丕廉,曹桂宏. 基于向量空間模型的詞共現(xiàn)研究及其在文本分類中的引用[J]. 計(jì)算機(jī)應(yīng)用, 2003, 23(23):138-140. TANGShou-zhong,born in 1987,MS candidate,his research interest includes information retrieval. Vectorspacemodelbasedon andco-occurrencewordpairs TANG Shou-zhong,QI Jian-dong (School of Information,Beijing Forestry University,Beijing 100083,China) A new vector space model is proposed, which uses both keyword and co-occurrence term as the representation features of documents. Firstly, the keyword candidates are extracted from documents by segmenting texts and removing stop words,and the keyword features are filtered by document frequency.Secondly, based on the obtained keyword features, the co-occurrence word pairs are constructed,and support degree and confidence degree are defined to filter the features of co-occurrence word pairs. Finally, the keyword features and the features of co-occurrence word pairs are combined to construct the vector space model. The text-classification experiments show that the proposed model has better ability of text classification. vector space model;co-occurrence word;semantical relationship;text classification 1007-130X(2014)05-0971-06 2013-02-25; :2013-04-24 十二五科技支撐課題(2011BAH10B04) TP391.3 :A 10.3969/j.issn.1007-130X.2014.05.031 唐守忠(1987-),男,山東東平人,碩士生,研究方向?yàn)樾畔z索。E-mail:tang_shouzhong@126.com 通信地址:100083 北京市清華東路35號北京林業(yè)大學(xué)信息學(xué)院1024信箱 Address:Mailbox 1024,School of Information,Beijing Forestry University,35 Qinghua Rd East,Beijing 100083,P.R.China6 結(jié)束語