章 昉顏華駒劉明君趙中英
1(天津海量信息技術有限公司 天津 100029)
2(中國科學院深圳先進技術研究院 深圳 518055)
3(中山大學信息科學與技術學院 廣州 510006)
基于詞項關聯(lián)的短文本分類研究
章 昉1,2顏華駒3劉明君2趙中英2
1(天津海量信息技術有限公司 天津 100029)
2(中國科學院深圳先進技術研究院 深圳 518055)
3(中山大學信息科學與技術學院 廣州 510006)
以短文本為主體的微博等社交媒體,因具備文本短、特征稀疏等特性,使得傳統(tǒng)文本分類方法不能夠高精度地對短文本進行分類。針對這一問題,文章提出了基于詞項關聯(lián)的短文本分類方法。首先對訓練集進行強關聯(lián)規(guī)則挖掘,將強關聯(lián)規(guī)則加入到短文本的特征中,提高短文本特征密度,進而提高短文本分類精度。對比實驗表明,該方法一定程度上減緩了短文本特征稀疏特點對分類結(jié)果的影響,提高了分類準確率、召回率和F1值。
數(shù)據(jù)挖掘;短文本;分類;關聯(lián)規(guī)則
近年來,隨著互聯(lián)網(wǎng)技術的日新月異,尤其是 Web2.0 技術的發(fā)展,F(xiàn)acebook、Twitter、 MySpace、騰訊微博等社會化媒體不斷出現(xiàn),并日益成為人們制造信息、分享信息和傳播信息的重要平臺。相對于傳統(tǒng)媒體,這些社會化媒體具有穩(wěn)定性較高、傳播較快和資源利用率高等優(yōu)勢,正逐漸取代傳統(tǒng)媒體成為人們分享信息的重要平臺。
隨著微博的流行,中國互聯(lián)網(wǎng)用戶的參與度和活躍度呈現(xiàn)出爆炸式地增長,微博不僅成為了網(wǎng)民發(fā)布、共享、傳播信息的平臺,而且積累了大規(guī)模的網(wǎng)民行為數(shù)據(jù)。2012 年 5 月,新浪微博事業(yè)部副總經(jīng)理蘆義指出,新浪微博注冊用戶已超過 3 億,其中有 60% 的活躍用戶通過移動終端登錄,用戶平均每天發(fā)布超過 1 億條微博內(nèi)容??梢娢⒉┑臄?shù)據(jù)量越來越大,因而對微博數(shù)據(jù)的挖掘具有可行性、創(chuàng)新性以及實用性,而對以上有關內(nèi)容的研究亦已受到國內(nèi)外學術界的廣泛關注。
科學家們已經(jīng)開始通過挖掘微博等社交網(wǎng)絡數(shù)據(jù)來預測一系列和社會、經(jīng)濟、健康等相關的現(xiàn)象,如電影票房[1]、疾病傳播[2]等。美國總統(tǒng)奧巴馬在 2012 年美國總統(tǒng)競選中的成功連任也離不開他身后龐大的社交網(wǎng)絡數(shù)據(jù)挖掘團隊[3]。
在我們的工作中,我們研究如何對如同微博的短文本進行精確的多類分類主要有以下三個原因:
(1)微博等短文本具有篇幅短、特征少等特點,會給針對長文本的文本分類任務帶來分類精度不高的困難。如何解決短文本的高精度分類是需要解決的實際問題。
(2)豐富的短文本資源背后潛藏著巨大的商業(yè)潛能。研究人員可以對海量短文本數(shù)據(jù)進行挖掘,獲取人們當前的興趣熱點,然后根據(jù)興趣熱點而制定相應的更準確的商業(yè)目標,比如根據(jù)用戶的微博文本進行分類,獲取微博用戶的興趣熱點,從而為其定制個性化的廣告推送,使得微博運營商、商家和用戶三方都受益。
(3)使用微博等短文本進行交互給人們的生活帶來了方便,同時一定程度上也給社會的穩(wěn)定帶來了隱患,如垃圾短信、反動言論等非法信息也試圖使用微博這樣的短文本交互方式滲透到社會的各個角落。對短文本進行自動分類可以有效地對短文本進行監(jiān)測和識別,并對其進行自動過濾,防止其貽害社會。
在本文中,我們提出了一種基于詞項關聯(lián)的短文本分類方法,其中第 2 部分介紹了現(xiàn)有的針對短文本分類的研究工作;第 3 部分概述了騰訊微博及其數(shù)據(jù)特征,給出了人工標注的類別及結(jié)果;第 4 部分給出了短文本分類的實現(xiàn)過程及其關鍵技術;第 5 部分給出了實驗過程及結(jié)果分析;文章最后對本研究進行了總結(jié)并且提出了進一步的工作計劃。
文本分類是指文本分類器對待分類文本特征進行分析,進而將文本歸類到預先設定的類別里的過程。很多研究學者對中文短文本分類進行了研究,但仍舊處于起步階段。
Yan 等[4]提出了一種針對短文本分類的動態(tài)分類方法,用一個樹狀分類器來減輕短文本的稀疏特性和不平衡特性對分類結(jié)果產(chǎn)生的影響;在訓練階段,提出了動態(tài)適應策略。實驗結(jié)果指出,與傳統(tǒng)的分類器相比,其方法在針對短文本的分類中可以獲得較高的分類準確率和召回率,但分類器的穩(wěn)定性尚未得到較好的驗證。
胡吉祥等[5]提出了針對短文本聚類的重復串方法,通過使用有意義的重復串抽取技術代替文本分詞,使得由分詞產(chǎn)生的詞條數(shù)大幅減少、降低了特征空間的維度,進而達到緩解短文本固有的高維度問題和高系數(shù)問題。而其實驗結(jié)果指出,性能參數(shù) F-measure 比傳統(tǒng)聚類方法提高了將近40%,說明所提出方法有效可行。然而實現(xiàn)重復串抽取方法的復雜度很高,增加了短文本分類問題的難度。
滕少華等[6]提出了使用條件隨機域(CRFs)解決短文本分類問題。首先將文本轉(zhuǎn)換為一個待標注的序列,再使用訓練集得到的 CRFs 模型對該序列進行標注。實驗結(jié)果表明,相對于支持向量機(Support Vector Machine,SVM),使用 CRFs對短文本分類能夠得到更高的正確率。然而實現(xiàn)CRFs 方法的復雜度較高,增加了短文本分類問題的難度。
丁亞輝等[7]提出了基于領域詞語本體的短文本分類方法。首先抽取領域高頻詞作為特征詞,借助知網(wǎng)從語義方面將特征詞擴展為概念和義元,然后通過計算不同概念所包含相同義元的信息量來衡量詞的相似度,從而進行分類。實驗表明,該方法在一定程度上彌補了短文本特征不足的缺點,且提高了準確率和召回率。
由此可以看出,以上研究成果中均存在一定的問題需要克服。基于此,本文提出了一種基于關聯(lián)規(guī)則的短文本分類研究。本研究中,我們基于訓練微博集挖掘高質(zhì)量的關聯(lián)規(guī)則,對微博短文本進行特征拓展,從而減輕了短文本的高特征稀疏問題對分類結(jié)果產(chǎn)生的影響,提升了短文本分類的性能。最后通過實驗驗證該方法的有效性。
3.1 騰訊微博
騰訊微博是一個國內(nèi)微博網(wǎng)站,于 2010 年 4月由騰訊控股有限公司推出。在國內(nèi),騰訊微博已是十分地受歡迎,有超過 5 億的用戶。和美國的推特(Twitter)一樣,每個騰訊微博用戶有一組聽眾(followers),所以騰訊微博可以被視為一個社交網(wǎng)絡。用戶可以和其聽眾分享帶有照片、視頻以及 140 字以內(nèi)的文字微博,而這些微博包含了關于用戶的一些個人信息。用戶發(fā)出的微博顯示在用戶的主頁上,之后其聽眾便可以閱讀、評論或者轉(zhuǎn)發(fā)該條微博并顯示在其個人主頁上。除此之外,用戶之間還可以直接相互發(fā)送私信。轉(zhuǎn)播微博使得騰訊微博內(nèi)的照片、視頻、文本和鏈接等信息可以快速傳播。由于騰訊微博龐大的用戶群體,越來越多的公司和組織使用騰訊微博來推銷產(chǎn)品或者傳播信息。在我國,挖掘騰訊微博數(shù)據(jù)已經(jīng)成為一個熱門的、創(chuàng)新的方法來預測一些未來的社會現(xiàn)象或者判斷潛在的消費和用戶群體。
3.2 數(shù)據(jù)庫特征
實驗中所使用的數(shù)據(jù)通過騰訊微博搜索 API從騰訊微博網(wǎng)站上下載而獲得。2013 年 10 月 15日至 10 月 20 日,通過 API 給出的接口對北京市、上海市、廣州市和深圳市共 736 萬多條騰訊微博進行下載收集。在上述微博集中隨機選出 15000 條微博作為本實驗的實驗微博集,并將這 15000 條微博等分成三份,用于交叉驗證本實驗的有效性。
3.3 標記準則
經(jīng)過市場調(diào)查,我們將微博文本分為 12類,如表 1 所示。
13 個標記員負責對收集到的實驗微博集進行標記,將實驗微博集內(nèi)的每條微博標記為上述 12類中的一類。對于轉(zhuǎn)發(fā)微博,如果評論部分可以判斷該微博的類別,則直接判斷;如評論部分不能直接判斷該微博的類別,則結(jié)合原微博進行判斷。根據(jù)鴿籠原理,每條微博都會有得票最多的類別,以此為該微博的最終類別。分類結(jié)果如表 2 所示。
表 2 實驗微博集人工標記結(jié)果Table 2 The result of artificial labels of Tencent Weibo sets
表 1 微博文本分類Table 1 Tencent Weibo text classification
本研究將使用傳統(tǒng)分類器支持向量機對微博短文本進行分類。為了減輕短文本長度短、特征稀疏特征對分類結(jié)果產(chǎn)生的影響,我們挖掘關聯(lián)規(guī)則對短文本特征進行擴充,從而提高傳統(tǒng)分類器對短文本分類的效果。本文的微博短文本分類流程如圖 1 所示。
圖 1 基于關聯(lián)規(guī)則的微博短文本分類過程Fig. 1 The process of short text classification based on association rules
首先,對微博文本進行去除特殊符號、分詞和去除停用詞的預處理,并去除微博中轉(zhuǎn)發(fā)標識、表情標識和提及標志后的內(nèi)容。然后對文本特征進行特征選擇。這樣做主要有以下三個原因:(1)提高訓練和測試過程的效率;(2)去除噪音;
(3)提高分類精度。
我們計算訓練微博集中經(jīng)過預處理后的特征提出來的每一個詞項的 CHI 卡方檢驗值,對詞項集合按照 CHI 卡方檢驗值進行由大及小排序,選出最高的前 3000 個詞項作為 SVM 分類器的特征,并使用 tf-idf 值對每條微博進行特征向量化處理。
以下將給出本方法中的兩類關鍵技術:支持向量機和關聯(lián)規(guī)則。
4.1 支持向量機
支持向量機[8-11]屬于一般化線性分類器,是一種監(jiān)督式學習的方法,被廣泛地應用于統(tǒng)計分類以及回歸分析。
4.1.1 二類線性可分條件下的支持向量機
如圖 2 所示,二類線性可分問題存在大量可能的線性分界面。對于 SVM 而言,它的準則是尋找一個離數(shù)據(jù)點最遠的決策面。從決策面到最近數(shù)據(jù)點的距離決定了分類器的間隔。這種構(gòu)建方法也意味著 SVM 的決策函數(shù)完全由部分數(shù)據(jù)子集決定,并且這些子集定義了分界面的位置。這些子集的點被稱為支持向量。在分類構(gòu)建過程中,SVM強調(diào)在分類決策面上下有一個大的分類間隔。
圖 2 分類器間隔兩端的 5 個點是支持向量Fig. 2 The support vectors are the 5 points right up against the margin of the classifier
4.1.2 軟間隔分類
對于在文本分類中很普遍的高維空間問題來說,有時數(shù)據(jù)是線性可分的。但是一般情況下這都不成立,而且即使線性可分成立,我們也可能優(yōu)先考慮那些能夠?qū)⒋蟛糠謹?shù)據(jù)分開而忽略一些奇異噪音文檔的解決方案。
如果訓練數(shù)據(jù)集D 線性可分,常規(guī)的做法是允許決策間隔間犯一些錯誤(有些離群點或者噪音點在間隔內(nèi)部或者在決策面的錯誤一方)。于是,我們要根據(jù)每個錯分例子滿足間隔的程度定義其懲罰代價(Penalty)。為了實現(xiàn)這一目的,引入松弛變量ξi,一個非零的ξi表示允許xi在未滿足間隔需求下的懲罰量或代價因子。如圖 3 所示:
圖 3 引入松弛變量的大間隔分類Fig. 3 Large margin classification with slack variables
4.1.3 非線性支持向量機
如果數(shù)據(jù)集不允許線性分類器分類時怎么辦?圖 4 中上面的數(shù)據(jù)集顯然可以被線性分類器直接分開,而中間的數(shù)據(jù)集卻顯然不可能被線性分類器直接分開。我們需要做的就是將他們間隔開。一個解決這個問題的方法是將數(shù)據(jù)映射到一個高維空間并在此空間上使用線性分類器將數(shù)據(jù)分開。例如,圖 3 中最下面的圖表明,如果采用二次函數(shù)將原始數(shù)據(jù)映射到二維空間,那么在新空間中就可以很容易將數(shù)據(jù)分開。也就是說,盡可能保留與數(shù)據(jù)相關性有關的特征維,將原始的特征空間映射到某個更高維的線性可分的特征空間中去。這樣,最終的分類器仍然具有很好的泛化能力。
圖 4 將非線性可分的數(shù)據(jù)映射到高維空間中使它們可分類Fig. 4 Projecting data that is not linearly separable into a higher dimensional space can make it linearly separable
4.2 關聯(lián)規(guī)則
大多數(shù)的微博都有著長度短和特征稀疏的短文本。如果潛在的相關聯(lián)的特征能夠被挖掘并加入到原文本中,使得短文本文本長度變長、特征更多,那么短文本的分類效果也會得到提升。而在數(shù)據(jù)挖掘領域中,關聯(lián)規(guī)則挖掘[12-15]是一種流行的并被仔細研究過的在大型數(shù)據(jù)庫中挖掘變量間聯(lián)系的方法。鑒于以上理由,我們使用關聯(lián)規(guī)則來提高對微博數(shù)據(jù)進行分類的效果。
Agrawal 等[12]將關聯(lián)規(guī)則定義為,描述在一個交易中物品之間同時出現(xiàn)的規(guī)律的知識模式,更確切地說,關聯(lián)規(guī)則是通過量化的數(shù)字描述物品 X 的出現(xiàn)對物品 Y 的出現(xiàn)有多大的影響。在我們的研究中,對關聯(lián)規(guī)則如下定義:將定義為n個文本特征的集合,數(shù)據(jù)庫中的m個微博文本。在一個給定的數(shù)據(jù)庫D中,一個關聯(lián)規(guī)則如同并且的形式。其中 A 和 B分別叫做這個規(guī)則的先行詞和導出詞。判斷一個關聯(lián)規(guī)則是否為一個強關聯(lián)規(guī)則的關鍵是計算這個規(guī)則的支持度和置信度,因而挖掘關聯(lián)規(guī)則是獲取強關聯(lián)規(guī)則的關鍵。
Apriori 算法[13]可以被用來挖掘關聯(lián)規(guī)則和頻繁模式,因為 Apriori 算法需要找到所有候選項集并且在此過程中反復對數(shù)據(jù)庫進行掃描,所以Apriori 算法不是一個高效的算法。然而在我們的研究中,只需要找到有兩個項的候選項集而不考慮多于兩個項的候選項集,因此 Apriori 算法成為一種有效的并且能在我們研究中應用的算法。
支持度和置信度都達到最小閾值的頻繁模式被看做是可以用來拓展微博短文本進而提高微博短文本分類精度的強關聯(lián)規(guī)則。假設在我們的數(shù)據(jù)庫中,“吃飯”“睡覺”是一個強關聯(lián)規(guī)則,那么詞項“睡覺”會作為特征被添加到含有詞項“吃飯”的微博文本詞項集合中。
5.1 評價指標
評價文本分類器的常用指標主要包括分類準確率(Precision,簡記為P)、召回率(Recall,簡記為R)、F1測量值(簡記為F1)、微平均(Micro)和宏平均(Macro)。下面將對這些常用指標進行簡要描述。
5.1.1 準確率、召回率、F1測量值
某個文本分類器的分類結(jié)果如表 3 所示。其中,真正例(tp)表示實際屬于該類且被分類器分到該類的文本數(shù)目;偽正例(fp)表示實際不屬于該類但被分類器分到該類的文本數(shù)目;偽反例(fn)表示實際屬于該類但未被分類器分到該類的文本數(shù)目;真反例(tn)表示實際不屬于該類且未被分類器分到該類的文本數(shù)目。
表 3 某文本分類器的分類結(jié)果Table 3 Result of a classifier
準確率是指被分類器分到該類的文本中實際為該類的文本所占比例,用P表示:
召回率是指實際屬于該類的文本被分類器分為該類的文本所占比例,用R表示:
通常我們希望文本分類器達到一定準確率的同時也希望能夠同時達到一定的召回率,融合了準確率和召回率的指標是F值,指準確率和召回率的調(diào)和平均值:
默認情況下,平衡F值中準確率和召回率的比重相同,即α=0.5 ,或記為β=1,則公式簡化為:
5.1.2 微平均和宏平均
當對多類分類器進行評價時,我們需要對所有類別的準確率和召回率綜合評價,此時用到的評價方法便是微平均和宏平均。
微平均將所有類別的分類結(jié)果綜合起來計算出一個總的準確率和召回率,計算微平均時需要計算tpall、fpall和fnall。其中,tpall表示在所有測試集文檔中被正確分類的文檔數(shù)目;fpall表示在所有測試集文檔中被錯誤分類的文檔數(shù)目;fnall表示在所有測試集文檔中應正確分類卻沒有正確分類的文檔數(shù)目。微平均法的計算公式如下:
宏平均則是在類別中求平均值,計算公式如下:
微平均和宏平均的計算結(jié)果可能會相差很大,微平均對每篇文檔的判定結(jié)果等同對待,而宏平均對每個類別等同對待。微平均的計算中,大類起支配作用,需要度量小類的分類結(jié)果,則需要計算宏平均指標。
5.2 實驗結(jié)果與對比分析
由于短文本的特征稀疏特性使得直接使用SVM 分類器進行分類而達不到較好的分類效果,我們使用關聯(lián)規(guī)則對微博短文進行詞項拓展?;趯嶒炍⒉┘?,我們挖掘到了一些支持度高于 0.002、置信度高于 0.6 的強關聯(lián)規(guī)則,表 4展示了其中八個強關聯(lián)規(guī)則。
表 4 強關聯(lián)規(guī)則示例及其支持度和置信度Table 4 The samples of strong association rules with support and confidence
為了和我們的研究進行對比,我們首先進行了三次實驗,每次實驗分別以子微博集 1、2、3為訓練集,另外兩個子微博集為測試集,每次實驗中先使用 SVM 分類器直接分類,而后加入關聯(lián)規(guī)則后再進行對比,實驗結(jié)果如圖 5 所示。圖5 針對單個類別進行評價,D=1,2,3 分別表示子微博集 1、2、3;P、R、F1值分別為文類評價指標準確率、召回率和F1。表 5 對分類器的整體性能進行評價,使用微平均和宏平均方法對分類器使用關聯(lián)規(guī)則前后進行性能比較。
從圖 5 可以看出,實驗一、實驗二和實驗三在使用關聯(lián)規(guī)則后,各類的分類準確率和召回率大部分都呈現(xiàn)上升的趨勢。其中升高十個百分點以上的用粗體標出,而用斜標出的是指使用關聯(lián)規(guī)則后評價標準呈下降趨勢,并且集中在微博條數(shù)不多的類別中,比如體育、健康、教育等類別,分類性能下降的原因如下:
(1)訓練集和測試集類別微博數(shù)目差異較大。如子微博集 1 里教育類的微博只有 2 條,而在子微博集 2 和子微博集 3 里,教育類微博分別有 74 條和 10 條,分別作為訓練集時,導致文類效果相對差。
(2)加入關聯(lián)詞后引入了噪音使得分類結(jié)果錯誤。
從表 5 可以得到以下結(jié)論:
(1)以子微博集 1 為訓練集時,分類效果相對最差;以子微博集 3 為訓練集時,分類效果相對最好。主要是由于子微博集 1 內(nèi)的文本類別分布最不均勻,而子微博集 3 內(nèi)的文本類別分布相對最均勻。
圖 5 使用關聯(lián)規(guī)則前后分類效果比較-1Fig. 5 Summary of evaluation results-1
表 5 使用關聯(lián)規(guī)則前后分類效果比較-2Table 5 Summary of evaluation results-2
(2)三次實驗中,使用關聯(lián)規(guī)則后,微平均準確率 Micro-p 平均增加 4.75 個百分點,宏平均準確率 Macro-p 平均增加 5.54 個百分點,宏平均召回率 Macro-r 平均增加 9.07 個百分點。這些評價標準的提高表明,使用關聯(lián)規(guī)則后分類器的綜合效果有較為明顯的提高。
從實驗可以看出使用關聯(lián)規(guī)則后能夠有效提高微博等短文本的分類精度,然而提升幅度有限。
本文提出了基于詞項關聯(lián)的短文本分類方法。該方法通過挖掘強關聯(lián)規(guī)則,拓展微博短文本長度,增加微博短文本特征數(shù),減輕短文本特征稀疏性對分類結(jié)果產(chǎn)生的影響,從而提高傳統(tǒng)分類器對微博短文本分類的有效性。在真實的微博數(shù)據(jù)上進行的實驗結(jié)果表明,短文本分類的準確率、召回率和F1值都有一定程度的提高。然而,僅僅使用詞項關聯(lián)對短文本分類,還不能得到非常理想、有效的結(jié)果,我們將在后續(xù)的研究工作中不斷探索和完善,如:建立主題詞庫,對每個分類中添加詞項,微博短文本分類時判斷是否含哪些詞項,從而判斷該短文和哪些類相關;或者對微博短文本建立上下文關系,微博中經(jīng)常會有轉(zhuǎn)發(fā)微博,判斷轉(zhuǎn)發(fā)微博和原微博之間的情感、邏輯關系,通過原微博來判斷轉(zhuǎn)發(fā)微博的類別。
[1] Sadilek A, Kautz HA, Silenzio V. Predicting disease transmission from geo-tagged micro-blog data [C] // Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012: 11.
[2] Asur S, Huberman BA. Predicting the future with social media [C] // 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010, 1: 492-499.
[3] Tumasjan A, Sprenger TO, Sandner PG, et al. Predicting elections with twitter: What 140 characters reveal about political sentiment [C] // Proceedings of the Fourth International Conference on Weblogs and Social Media, 2010: 178-185.
[4] Yan R, Cao XB, Li K. Dynamic assembly classification algorithm for short text [J]. Acta Electronica Sinica, 2009, 37(5): 1019-1024.
[5] 胡吉祥, 許洪波, 劉悅, 等. 基于重復串的短文本聚類研究 [C] // 2005 全國第八屆計算語言學聯(lián)合學術會議論文集, 2005: 355-361.
[6] 騰少華. 基于 CRFs 的中文分詞和短文本分類技術 [D]. 北京: 清華大學, 2009.
[7] 寧亞輝, 樊興華, 吳渝. 基于領域詞語本體的短文本分類 [J]. 計算機科學, 2009, 36(3): 142-145.
[8] Cortes C, Vapnik V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.
[9] Lin CJ. A practical guide to support vector machines classification [D]. Taipei: Taiwan University, 2006.
[10] Manning CD, Raghavan P, Schütze H. Introduction to Information Retrieval [M]. Cambridge: Cambridge University Press, 2008.
[11] Meyer D, Leisch F, Hornik K. The support vector machine under test [J]. Neurocomputing, 2003, 55(1): 169-186.
[12] Agrawal R, Imieliński T, Swami A. Mining association rules between sets of items in large databases [C] // Proceedings of the 1993 ACM SIGMOD International Conference on Manangement of Data, 1993: 207-216.
[13] Agrawal R, Srikant R. Fast algorithms for mining association rules in lager databases [C] // Proceedings of the 20th International Conference on Very Large Data Bases, 1994: 487-499.
[14] Hipp J, Güntzer U, Nakhaeizadeh G. Algorithms for association rule mining--a general survey and comparison [J]. ACM SIGKDD Explorations Newsletter, 2000, 2(1): 58-64.
[15] Witten IH, Frank E. Data Mining: Practical Machine Learning Tools and Techniques [M]. Morgan Kaufmann, 2005.
The Research of Short Texts Classification Based on Association Rules of Lexical Items
ZHANG Fang1,2YAN Huaju3LIU Mingjun2ZHAO Zhongying2
1(Hylanda Information Technology Co.,Ltd,Tianjin100029,China)
2(Shenzhen Institutes of Advanced Technology,Chinese Academy of Sciencess,Shenzhen518055,China)
3(School of Information Science and Technology,Sun Yat-sen University,Guangzhou510006,China)
Due to its characteristics of shortness and sparseness, short text, as the main body of microblog and other social media, cannot be accurately classified by the traditional text classification methods. To solve this problem, a method of short text classification based on association rules of lexical items was proposed in this paper. Firstly, the training set based on the strong association rules was mined, and then the strong association rules was added to the features of short text so as to increase the feature density of short text, thereby to increase the accuracy of results of short text classification. Comparative experiments show that this method, to some extent, reduces the impact of sparseness of short text on the classification results, and it improves the classification accuracy, recall values andF1values.
data mining; short text; classification; association rules
TP 3
A
2014-03-04
:2015-03-18
深圳市知識創(chuàng)新計劃基礎研究項目(JCYJ20130401170306838)
章昉(通訊作者),碩士,研究方向為社會網(wǎng)絡分析與挖掘,E-mail:zhangfang@hylanda.com;顏華駒,碩士研究生,研究方向為數(shù)據(jù)挖掘;劉明君,碩士研究生,研究方向為社會網(wǎng)絡分析與挖掘;趙中英,博士,助理研究員,研究方向為社會網(wǎng)絡分析與挖掘。