熊魏
摘 要
人類歷史的發(fā)展已經(jīng)進(jìn)入到網(wǎng)絡(luò)時(shí)代?,F(xiàn)在社會(huì)信息的發(fā)布量和使用量隨著網(wǎng)絡(luò)的發(fā)展突飛猛進(jìn),這么大的信息量,我們不可能全部的接受。此時(shí),對(duì)有用信息快速、精確的掌握就顯得尤為重要。方法是隨著困難一起產(chǎn)生的,為了解決這個(gè)問題,文本自動(dòng)分類系統(tǒng)就產(chǎn)生了,它的工作原理是對(duì)文本的內(nèi)容在指定的分類體系下進(jìn)行自動(dòng)區(qū)分類別的過程。目前在所有分類算法中,有一種新興的機(jī)器學(xué)習(xí)算法,即Boosting算法,這種算法經(jīng)過科學(xué)驗(yàn)證后,其效果是非常理想的,且本身有著其它分類算法無可比擬的優(yōu)點(diǎn)。
【關(guān)鍵詞】boosting算法 新聞 文本分類 研究
所謂文本分類(簡稱TC),是一種定性文本內(nèi)容類別的過程,其具體做法是在確定好的文本類別的前提下,對(duì)指定的文本內(nèi)容進(jìn)行判別歸類。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,從上世紀(jì)90年代開始,傳統(tǒng)的文本分類法(知識(shí)工程分類法)慢慢的被以計(jì)算機(jī)學(xué)習(xí)為基礎(chǔ)的自動(dòng)文本分類法所取代,成為21世紀(jì)初進(jìn)行文本分類的主導(dǎo)技術(shù)。這種新的文本分類方法包括最近鄰分類、回歸模型、決策樹、推導(dǎo)規(guī)則、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)以及相關(guān)反饋等內(nèi)容。另外,近幾年比較流行的一種分類方法是組合分類器方法。
1 新聞文本預(yù)處理
所謂boosting算法,就是是通過機(jī)器學(xué)習(xí)方法構(gòu)建自動(dòng)文本分類器,根據(jù)文本訓(xùn)練集的類集C的特征進(jìn)行學(xué)習(xí),使用歸納過程進(jìn)行分類的一種算法。以計(jì)算機(jī)學(xué)習(xí)為基礎(chǔ)的自動(dòng)文本分類法在對(duì)文本進(jìn)行分類時(shí)需要一定的形式,稱之為特征向量。由于文本內(nèi)容都是以自然語言來進(jìn)行表示的,計(jì)算機(jī)難以對(duì)其語義進(jìn)行理解,為此需要對(duì)指定的新聞文本做一下預(yù)處理,其具體做法如下:
1.1 對(duì)指定新聞文本進(jìn)行分詞
文本包括西文文本和中文文本兩種形式,對(duì)這兩種文本進(jìn)行分詞的方法是不一樣的,西文文本分詞所采用的方法是用空格作為分隔符放在單詞之間;中文文本(包括新聞文本)的分詞方法按照依據(jù)的基礎(chǔ)不同有很多種,例如以字符串匹配為基礎(chǔ)的分詞方法,以理解為基礎(chǔ)的分詞方法和以統(tǒng)計(jì)詞頻為基礎(chǔ)的分詞方法等。其中適合本系統(tǒng)的中文文本分詞方法是以統(tǒng)計(jì)詞頻為基礎(chǔ)的分詞方法。分詞完畢后,將會(huì)得到一本文本表征詞典,此詞典是由文檔中的詞組成的表。
1.2 對(duì)指定新聞文本進(jìn)行粗降維
為了提高文本分類器的訓(xùn)練和分類效率,必須對(duì)指定文本在轉(zhuǎn)化特征向量之前進(jìn)行粗降維。所謂的粗降維,就是刪除掉指定文本中的停用詞(對(duì)分類沒有意義且反復(fù)出現(xiàn)在文本中的詞)和低頻詞(使用頻率極低的詞)等,并合并數(shù)字和人名,從而使表征詞典的規(guī)模縮小,避免掉分類時(shí)給分類器帶來噪音。
1.3 文本表示
我們通常把用向量形式表示文本表征詞典的方法稱之為文本表示。在進(jìn)行信息處理時(shí),文本表示采用的方法是向量空間模型。
2 boosting算法下新聞文本的分類
在boosting算法下,新聞文本的分類設(shè)計(jì)主要由兩大系統(tǒng)架構(gòu)組成。
2.1 自動(dòng)分類系統(tǒng)的設(shè)計(jì)
該系統(tǒng)主要的主要任務(wù)是對(duì)新聞文本進(jìn)行自動(dòng)的分類,即通過對(duì)文本進(jìn)行掃描,實(shí)現(xiàn)新聞文本的粗降維;同時(shí),通過自動(dòng)分類的預(yù)處理新聞文本,分類完畢后,進(jìn)行相應(yīng)的文本輸出。該系統(tǒng)雖屬于計(jì)算機(jī)的前臺(tái)系統(tǒng),但此系統(tǒng)還可以根據(jù)計(jì)算機(jī)后臺(tái)系統(tǒng)傳遞出的分類器號(hào)形成新的分類器。
2.2 訓(xùn)練學(xué)習(xí)子系統(tǒng)的設(shè)計(jì)
此系統(tǒng)的設(shè)計(jì)主要是為了通過訓(xùn)練語料庫而形成新的分類器。即對(duì)語料庫進(jìn)行更新時(shí),該系統(tǒng)會(huì)使語料庫的訓(xùn)練重新開始,已達(dá)到信號(hào)能傳遞至自動(dòng)分類系統(tǒng),從而更新分類器的效果。與自動(dòng)分類系統(tǒng)相對(duì),此系統(tǒng)隸屬于計(jì)算機(jī)的后臺(tái)運(yùn)行系統(tǒng)。
3 基于boosting算法的新聞文本分類設(shè)計(jì)的構(gòu)成模塊
基于boosting算法的新聞文本分類設(shè)計(jì)的構(gòu)成模塊包括文本預(yù)處理、人工分類、文本分詞、文本降維和分類器訓(xùn)練五部分。其每個(gè)模塊有著特定的作用:文本預(yù)處理的主要作用是指對(duì)文本進(jìn)行中英文識(shí)別,以及轉(zhuǎn)換文本的格式;人工分類的主要作用是指由專家對(duì)文本標(biāo)上類別標(biāo)簽予以分類;文本分詞的主要作用是指通過對(duì)經(jīng)過預(yù)處理的新聞文本進(jìn)行高精度的分詞,以滿足后續(xù)算法的需要,并提高后續(xù)的分類速度;文本降維的主要作用是通過刪除停用詞和低頻詞等對(duì)文本分類貢獻(xiàn)小的詞匯,且避免過匹配問題,來提高程序的效率和運(yùn)行速度;分類器的主要作用是指對(duì)指定的新聞文本的語料進(jìn)行預(yù)處理、分詞和降維訓(xùn)練后,得到分類器,并將成功的信號(hào)傳遞到前臺(tái)系統(tǒng)。
4 基于boosting算法的新聞文本分類試驗(yàn)數(shù)據(jù)及比較結(jié)果
本文算法同常用的分類算法在準(zhǔn)確率、查全率以及F測(cè)試上的表現(xiàn)如表1所示。
由表1可以看出,在基于boosting算法下新聞文本分類系統(tǒng)的設(shè)計(jì)是否合理,需要通過準(zhǔn)確率、查全率以及F測(cè)試值這三個(gè)指標(biāo)來來進(jìn)行驗(yàn)證。通過反復(fù)的測(cè)試與試驗(yàn),其大致實(shí)驗(yàn)過程如下:首先,根據(jù)試驗(yàn)所需,從相關(guān)計(jì)算機(jī)數(shù)據(jù)庫中抽取并下載600篇新聞文本,以人工分類的方式將這些文本主要分為3類。同時(shí)應(yīng)注意,語料庫有大小之分,為此我們又將這些新聞文本通過交叉驗(yàn)證的方式,對(duì)“熟”語料進(jìn)行了平均分配,分為10份,并將其中的9份作為訓(xùn)練集和封閉測(cè)試集,1份作為開放測(cè)試集。然后按照此方法,將每一份都作為康芳測(cè)試集,進(jìn)行一次分類操作,共計(jì)10次。最后,對(duì)這10次得到的結(jié)果記性平均值的計(jì)算,與其他的新聞文本的分類方法所得結(jié)果進(jìn)行相應(yīng)數(shù)據(jù)的比較。結(jié)果顯示,即使在訓(xùn)練語料庫規(guī)模較小的情況下,新聞文本的分類通過boosting算法依舊可以達(dá)到預(yù)期的效果進(jìn)度。
綜上所述,時(shí)代在進(jìn)步,科技在發(fā)展,人們每天接觸的新聞信息量是越來遠(yuǎn)大。我們需要對(duì)這些新聞信息進(jìn)行分門別類,去粗取精。為了實(shí)現(xiàn)快速、準(zhǔn)確掌握必要新聞信息的目的,我們?cè)O(shè)計(jì)了一個(gè)基于boosting算法的新聞文本分類的實(shí)驗(yàn),經(jīng)過實(shí)驗(yàn)結(jié)果數(shù)據(jù)的對(duì)比,證明了基于boosting算法的新聞文本分類的方法是可取的,其效果是良好的,可以滿足人們的需求。
參考文獻(xiàn)
[1]肖江,張亞非.Boosting算法在文本自動(dòng)分類中的應(yīng)用[J].解放軍理工大學(xué)學(xué)報(bào)自然科學(xué)版,2003,4(02):25-28.
[2]董樂紅,耿國華,周明全.基于Boosting算法的文本自動(dòng)分類器設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2007,27(02):384-386.
[3]張文生,于廷照.Boosting算法理論與應(yīng)用研究[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2016(03):222-230.
[4]趙春蘭.一種單一編碼多分類 boosting 優(yōu)化算法[J].計(jì)算機(jī)與現(xiàn)代化,2015(08):121-126.
[5]李詒靖,郭海湘,李亞楠,等.一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類[J].系統(tǒng)工程理論與實(shí)踐,2016(01):189-199.
[6]羅軍,況夯.基于Boosting算法集成遺傳模糊分類器的文本分類[J].計(jì)算機(jī)應(yīng)用,2016,28(09):2386-2388.
[7]肖江,張亞非.Boosting算法在文本自動(dòng)分類中的應(yīng)用[J].解放軍理工大學(xué)學(xué)報(bào)自然科學(xué)版,2016,4(02):25-28.
[8]劉川,廖士中.矩優(yōu)化Boosting算法[J].模式識(shí)別與人工智能,2015,28(12):1067-1073.
[9]DONG Lehong,GENG Guohua,ZHOU Mingquan,等.Design of auto text categorization classifier based on Boosting algorithm基于Boosting算法的文本自動(dòng)分類器設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2017,27(02):384-386.