徐萍
摘要:近些年來(lái),在信息的搜索以及對(duì)數(shù)據(jù)進(jìn)行挖掘的研究等領(lǐng)域中,文本自動(dòng)分類(lèi)技術(shù)是這個(gè)領(lǐng)域最新、最關(guān)鍵的技術(shù),并且在互聯(lián)網(wǎng)紛繁復(fù)雜的信息處理方面以及機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)上,文本分類(lèi)技術(shù)處理面臨種種挑戰(zhàn),在算法、模型以及對(duì)產(chǎn)品的評(píng)測(cè)進(jìn)行一系列的研究工作,該文總結(jié)了當(dāng)前在機(jī)器學(xué)習(xí)基礎(chǔ)上的關(guān)鍵問(wèn)題,例如:Web頁(yè)的分類(lèi)方法,分類(lèi)的多層性,算法的擴(kuò)展特性,標(biāo)注的瓶頸,文本分類(lèi)技術(shù)的分散性以及線性。該文綜合考慮了以上因素,對(duì)其進(jìn)行科學(xué)合理的分析,并對(duì)基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)的研發(fā)與改進(jìn)方法提出幾點(diǎn)建議與措施,希望可以起到借鑒作用。
關(guān)鍵詞:機(jī)器學(xué)習(xí);文本分類(lèi);結(jié)束研究;進(jìn)展
中圖分類(lèi)號(hào):TP3? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)30-0109-02
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
在如今這個(gè)信息時(shí)代,互聯(lián)網(wǎng)上每天都有海量的不同信息涌入人們腦海當(dāng)中。針對(duì)這些基于信息內(nèi)容的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘工作以及對(duì)這些海量信息檢索能力都是目前的熱門(mén)研究領(lǐng)域。這些領(lǐng)域之中,文本分類(lèi)技術(shù)是其中最為重要的一種技術(shù),文本分類(lèi)方法就是針對(duì)固定的類(lèi)別基礎(chǔ)上通過(guò)文字來(lái)對(duì)其進(jìn)行識(shí)別。文本分類(lèi)技術(shù)處理主要是理解自然的語(yǔ)言并對(duì)其進(jìn)行有效處理,對(duì)信息進(jìn)行管理以及組織,并對(duì)文字的內(nèi)容進(jìn)行過(guò)濾,分離出無(wú)效信息。因此,對(duì)基于機(jī)器學(xué)習(xí)的文字分類(lèi)技術(shù)的研究就尤為重要。對(duì)不同文本分類(lèi)方法進(jìn)行總結(jié)并試圖探討優(yōu)化當(dāng)前文本分類(lèi)技術(shù)的方法。基于機(jī)器學(xué)習(xí)的文字分類(lèi)技術(shù)由三個(gè)部分組合而成:分類(lèi)的最終實(shí)現(xiàn)效果,對(duì)實(shí)現(xiàn)的效果進(jìn)行可視化演示以及對(duì)不同文本的呈現(xiàn)與顯示。
1對(duì)于基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)基礎(chǔ)研究工作
近些年來(lái),我們對(duì)于機(jī)器學(xué)習(xí)的文本分類(lèi)研究轉(zhuǎn)化為對(duì)BOW的研究,并且對(duì)于不同算法的記錄與統(tǒng)計(jì),以及不同文本的分類(lèi)情況進(jìn)行預(yù)測(cè)。該項(xiàng)研究已經(jīng)隨著時(shí)代進(jìn)展逐漸成為目前文本分類(lèi)研究的基本工作。由統(tǒng)計(jì)學(xué)以及基于語(yǔ)言學(xué)的文本分類(lèi)研究的方法進(jìn)行文字分類(lèi)結(jié)果的預(yù)測(cè)也已經(jīng)得到了廣泛的科學(xué)進(jìn)步,與以上研究領(lǐng)域相關(guān)的技術(shù)也廣泛地在基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)中進(jìn)行運(yùn)用,本文將在文本分類(lèi)研究領(lǐng)域?qū)<覍W(xué)者的研究基礎(chǔ)上進(jìn)行進(jìn)一步研究與探討。
1)對(duì)于文本進(jìn)行表示
VSM依舊是目前研究的主要的方法,采用何種語(yǔ)意的單元來(lái)作為項(xiàng)及的計(jì)算數(shù)量權(quán)重的基本問(wèn)題有兩個(gè),一是絕大部分的文字識(shí)別對(duì)象都是采用詞這個(gè)單元來(lái)作為基本計(jì)算單位,以文字項(xiàng)的不同頻率來(lái)作為文字分類(lèi)基本運(yùn)算的不同權(quán)重。Debole曾表示將監(jiān)督這一環(huán)節(jié)作為文字分類(lèi)的權(quán)重這一概念,從而充分發(fā)揮項(xiàng)的能夠顯著來(lái)進(jìn)行權(quán)重的平衡發(fā)展。
而除了VSM以外,還有一種模型在相關(guān)人士之間也十分流行,那就是針對(duì)項(xiàng)的概率分布以及在二維的視圖之上表示。文本分類(lèi)研究專(zhuān)家Bigi等專(zhuān)家紛紛表示任意選取一個(gè)a文本以及b類(lèi)的文本都可以被看成一個(gè)包括全部項(xiàng)的概率分布情況P(a,b),i=1…,這種分布方式叫作將分布進(jìn)行特殊的概率表示,這種特殊的分布方法在一些情況中有著不錯(cuò)的表現(xiàn)。
另外還存在著一種語(yǔ)義的單元之間的相互聯(lián)系,一些文字分類(lèi)技術(shù)渴望利用自然的語(yǔ)言處理技術(shù)來(lái)進(jìn)行基于機(jī)器學(xué)習(xí)的文字分類(lèi)工作。而這種技術(shù)往往被BOW所忘記,所以,在這種新型的文字分類(lèi)方法中,詞語(yǔ)的意思以及短語(yǔ)之中的項(xiàng)都被運(yùn)用到不同的分類(lèi)方法之中進(jìn)行文字分類(lèi)工作。但是這種新型的文字分類(lèi)處理方法還不太成熟,這是因?yàn)檫@種新型的文字分類(lèi)方法會(huì)導(dǎo)致分類(lèi)器的運(yùn)行速度遭到很大的影響,并且這些新型的文字分類(lèi)表示方法相對(duì)于傳統(tǒng)的文字分類(lèi)表示技術(shù)并沒(méi)有很顯著的提升,而且沒(méi)有絕對(duì)的優(yōu)勢(shì)的產(chǎn)生。截止到現(xiàn)在,不屬于VSM的方法的合理程度以及在理論上以及實(shí)踐上的實(shí)際拓展應(yīng)用上還仍然需要進(jìn)一步的驗(yàn)證才能放心使用,目前這種方式的文字分類(lèi)方法還比較的單一,并沒(méi)有在相關(guān)領(lǐng)域進(jìn)行進(jìn)一步的實(shí)際應(yīng)用[1]。
2)將空間的維度進(jìn)行降低
對(duì)于空間維度降低的相關(guān)研究主要集中在幾個(gè)方面:將維度降低后的模型的實(shí)際算法與另一種算法進(jìn)行比較,對(duì)特征數(shù)集的分類(lèi)效果關(guān)系進(jìn)行討論以及維度降低的幅度大小進(jìn)行控制。對(duì)于空間維度降低的模型與之相對(duì)應(yīng)的實(shí)際算法相關(guān)研究,到目前為止還仍然處于較為傳統(tǒng)的階段。(1)對(duì)于項(xiàng)以及其分類(lèi)種別的相關(guān)研究通常采用概率統(tǒng)計(jì)的方法進(jìn)行。(2)對(duì)于分布上相似程度較高的文本分類(lèi)方法,應(yīng)該采用信息熵的視角來(lái)進(jìn)行探討,比如通過(guò)研究全局的信息來(lái)探討不同分類(lèi)方法的可行性。(3)對(duì)于隱藏的特別含義的分析路徑研究,我們通常采用不相同的分析方法來(lái)設(shè)法得到線性的映射,這種映射可以通過(guò)對(duì)矩陣的不同角度進(jìn)行分析,并對(duì)文本分類(lèi)矩陣進(jìn)行化簡(jiǎn)工作,盡可能地使其變得簡(jiǎn)潔。數(shù)據(jù)維度的降低也會(huì)對(duì)研究結(jié)果產(chǎn)生影響,所以在研究過(guò)程中必須對(duì)其加以注意。在實(shí)驗(yàn)過(guò)程中,特征數(shù)目的增加通常會(huì)使分類(lèi)器的理想效果產(chǎn)生不好的影響。在前人的研究文獻(xiàn)中,他們發(fā)現(xiàn):對(duì)于空間在正常范圍內(nèi)的維度降低可能會(huì)導(dǎo)致分類(lèi)器特征數(shù)量的增加而隨之增加。產(chǎn)生的結(jié)果可能會(huì)迅速得到提升并且十分平穩(wěn)。但是如果在實(shí)際測(cè)試過(guò)程中,特征的數(shù)量增長(zhǎng)速度過(guò)于迅速,也可能會(huì)影響分類(lèi)器的最終結(jié)果,并且會(huì)使分類(lèi)器的性能有很大的降低。該項(xiàng)研究說(shuō)明:將空間的維度進(jìn)行降低在可以高效處理開(kāi)銷(xiāo)的同時(shí)也可能會(huì)降低效果器的實(shí)際使用效果。在結(jié)果上面來(lái)看的話,BNS以及IG等一系列測(cè)量工具進(jìn)行統(tǒng)計(jì)以及組合時(shí)具有一定程度的優(yōu)勢(shì),但是針對(duì)不同的分類(lèi)器會(huì)更樂(lè)于選擇不相同的空間降低維度的方法。通常情況下使用的特征值會(huì)對(duì)不同的算法選擇效果上有著不同的反應(yīng)[2]。
3)評(píng)估的方法
在理論研究之中,Li和Yang兩位學(xué)者都覺(jué)得對(duì)于訓(xùn)練數(shù)據(jù)導(dǎo)致的一些不同誤差以及這些誤差的復(fù)雜程度會(huì)使分類(lèi)器的不同能力都通通顯露出來(lái)。對(duì)平時(shí)研究中經(jīng)常使用的不同分類(lèi)的方法進(jìn)行系統(tǒng)化分析。這兩位學(xué)者將分類(lèi)器得到最理想效果的條件以及受其同質(zhì)化的損失的函數(shù)進(jìn)行分類(lèi),分為訓(xùn)練當(dāng)中的損失以及所構(gòu)建的模型的復(fù)雜程度這兩個(gè)門(mén)類(lèi)。
2基于機(jī)器學(xué)習(xí)的文本研究方法的主要挑戰(zhàn)以及當(dāng)前取得的有效進(jìn)展
就目前而言,對(duì)于機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的研究已經(jīng)相對(duì)比較成熟,而基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究經(jīng)過(guò)20年來(lái)的不斷發(fā)展,解決了之前無(wú)法解決的一系列問(wèn)題。在掌握數(shù)據(jù)量比較稀少的時(shí)候,分類(lèi)器的標(biāo)注量反而比較平均。但是目前還是有許多問(wèn)題無(wú)法得到合理的解決。近些年來(lái)基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究領(lǐng)域主要面臨的挑戰(zhàn)有以下幾點(diǎn):(1)分類(lèi)器的日常使用會(huì)被一些分類(lèi)體系而影響,不同的類(lèi)別適合不同的分類(lèi)體系,要根據(jù)文本信息的體系而進(jìn)行專(zhuān)門(mén)的識(shí)別工作。(2)在建立分類(lèi)器之后得到的數(shù)據(jù)樣本相對(duì)于尚未獲得的數(shù)據(jù)數(shù)量過(guò)于稀少,導(dǎo)致產(chǎn)生的結(jié)果不能達(dá)到理想的效果。(3)在對(duì)于各個(gè)種類(lèi)的分析時(shí)會(huì)遇到很多困難,比如遇到瓶頸問(wèn)題是因?yàn)椴煌奈谋緮?shù)據(jù)更新的頻次太高,導(dǎo)致無(wú)法對(duì)其進(jìn)行科學(xué)合理的分析。以上三個(gè)問(wèn)題需要我們對(duì)文本分類(lèi)技術(shù)進(jìn)行進(jìn)一步的探索。
1)針對(duì)數(shù)據(jù)集的偏斜問(wèn)題的研究
隨著機(jī)器學(xué)習(xí)的文本分類(lèi)方法的不斷研究,我們發(fā)現(xiàn)收集的數(shù)據(jù)分布情況通常是偏斜,或者說(shuō)是沒(méi)有均勻分布。不同種類(lèi)的差距有可能是數(shù)量級(jí)之間的差距。這是造成數(shù)據(jù)集分布不均衡的一大重要原因。
有效解決這一問(wèn)題的合理措施有以下幾點(diǎn):(1)進(jìn)行重新取樣,可以進(jìn)行對(duì)大類(lèi)的信息進(jìn)行選擇性忽視,或者是可以對(duì)小類(lèi)信息的錯(cuò)誤代價(jià)采取進(jìn)一步提高的策略。(2)采用最新型的分類(lèi)方法和戰(zhàn)略,比如傳統(tǒng)的單類(lèi)SVM會(huì)把原點(diǎn)來(lái)當(dāng)作整個(gè)研究的中心點(diǎn),而如果將其分離,會(huì)使之前難以解決的問(wèn)題轉(zhuǎn)化為被不同的數(shù)據(jù)分布所影響的問(wèn)題。(3)運(yùn)用更加優(yōu)秀的效果評(píng)估方法來(lái)進(jìn)行評(píng)測(cè),比如ROC曲線,這種曲線在收集的數(shù)據(jù)偏斜情況下仍然能夠進(jìn)行正常的評(píng)估。并且相對(duì)于其他曲線,在基于機(jī)器學(xué)習(xí)的文本分類(lèi)方法中,ROC曲線還具有更易被機(jī)器進(jìn)行抓取與識(shí)別的優(yōu)勢(shì)[3]。
2)標(biāo)注的瓶頸
在學(xué)習(xí)算法的過(guò)程當(dāng)中必須要借助大量的樣本來(lái)進(jìn)行標(biāo)注,但是當(dāng)前已經(jīng)標(biāo)注的樣本不能提供足夠的有效信息,而且在研究過(guò)程中可以獲取的樣本相對(duì)于未知的數(shù)據(jù)還是太少,這就制約了基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)的研究進(jìn)程。因此,如何用少量的已經(jīng)標(biāo)注的樣本來(lái)進(jìn)行研究是目前需要解決的關(guān)于標(biāo)注瓶頸的問(wèn)題。首先,要將預(yù)期的期望進(jìn)行最大化應(yīng)用,盡可能利用少量的樣本進(jìn)行標(biāo)注,這種方法可以深度優(yōu)化文本分類(lèi)效果,綜合提高文本分類(lèi)的效率。另外一種解決方案是采用直推的方式,將分類(lèi)器優(yōu)先對(duì)少量的樣本進(jìn)行推測(cè),挑選重點(diǎn)的有特征的信息數(shù)據(jù)進(jìn)行分類(lèi)識(shí)別工作,從而起到優(yōu)化改進(jìn)分類(lèi)器的效果,相對(duì)于傳統(tǒng)的標(biāo)注分類(lèi)方式,采用直推方法來(lái)對(duì)基于機(jī)器學(xué)習(xí)的文本進(jìn)行分類(lèi)識(shí)別能夠使識(shí)別效率大幅提升。以上兩種方法在對(duì)于標(biāo)注的瓶頸優(yōu)化解決上能夠起到了較大的幫助[4]。
3)對(duì)Web進(jìn)行合理分類(lèi)
通常所說(shuō)的文本分類(lèi)方法都是將文本自身進(jìn)行分類(lèi),但是在互聯(lián)網(wǎng)視角上,尤其是Web頁(yè)面的分類(lèi),其中所含有的有用的信息將會(huì)對(duì)文本進(jìn)行體現(xiàn),從而可以側(cè)面測(cè)試并解決分類(lèi)器的決策問(wèn)題。在當(dāng)前研究中,要怎樣合理的展現(xiàn)這些結(jié)構(gòu)性的不同樣本信息來(lái)滿足統(tǒng)計(jì)仍然是目前機(jī)器學(xué)習(xí)的文本分類(lèi)研究領(lǐng)域尚未定論的問(wèn)題。
4)多層分類(lèi)
一般來(lái)講,我們所研究的問(wèn)題都是相對(duì)獨(dú)立的,學(xué)者們普遍認(rèn)為這些問(wèn)題之間并沒(méi)有聯(lián)系。但是在研究的種類(lèi)比較多的時(shí)候,比如利用目前互聯(lián)網(wǎng)時(shí)代下豐富的Web信息來(lái)進(jìn)行綜合管理研究上,我們必須使用多層次的信息分類(lèi)方法。多層分類(lèi)是指對(duì)所研究的樣本數(shù)據(jù)進(jìn)行多個(gè)層次的研究探討,在面對(duì)難以解決的必須通過(guò)大量數(shù)據(jù)才能解決的問(wèn)題時(shí)通常有較好的表現(xiàn)。所以在基于機(jī)器學(xué)習(xí)的文本分類(lèi)方法中,采用多層分類(lèi)這種方式處理文本信息是一種較為理想的分類(lèi)方式。
3結(jié)束語(yǔ)
本文對(duì)機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)基礎(chǔ)進(jìn)行研究并討論其優(yōu)化方法,對(duì)基于機(jī)器學(xué)習(xí)的文本研究方法面臨的主要挑戰(zhàn)進(jìn)行總結(jié),并對(duì)當(dāng)前取得的有效進(jìn)展進(jìn)行總結(jié)。重點(diǎn)討論了最近幾年面對(duì)的文本分類(lèi)難題以及對(duì)文本分類(lèi)相關(guān)學(xué)者的最新研究?jī)?nèi)容進(jìn)行總結(jié)?;跈C(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)在不同領(lǐng)域都有著廣泛的應(yīng)用,但伴隨著時(shí)代的進(jìn)步,人們的不同特殊需求也開(kāi)始顯露,人們不再局限于以前傳統(tǒng)思想的束縛,越來(lái)越多的新型需求開(kāi)始顯現(xiàn)出來(lái),這些新型需求也對(duì)當(dāng)前的文字分類(lèi)技術(shù)提出了挑戰(zhàn)。文本分類(lèi)技術(shù)還有許多問(wèn)題仍然值得進(jìn)一步研究,希望本文探討出的幾點(diǎn)結(jié)論能夠起到借鑒作用。
參考文獻(xiàn):
[1] 周晶,沈雋城.基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)技術(shù)對(duì)文本分類(lèi)的研究[J].信息通信,2020,33(6):5-6.
[2] 王爽.基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類(lèi)方法研究[D].成都:電子科技大學(xué),2020.
[3] 白亞莉.基于機(jī)器學(xué)習(xí)的新聞文本分類(lèi)技術(shù)[C]//2019中國(guó)信息通信大會(huì)(CICC 2019)論文集.成都,2019:397-403.
[4] 韋靈,倪志平.基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的文本分類(lèi)及其運(yùn)用[J].科技視界,2019(27):88-89.
【通聯(lián)編輯:代影】