賀曉琳
(河南工業(yè)和信息化職業(yè)學(xué)院,河南 焦作 454000)
廣播電視節(jié)目的分類工作對(duì)于任何一種數(shù)字化的廣播電視內(nèi)容管理系統(tǒng)而言都是一項(xiàng)必備的功能。而在實(shí)際的廣播電視節(jié)目分類操作中,系統(tǒng)往往是通過廣播電視節(jié)目的文本內(nèi)容介紹進(jìn)行類別的劃分。隨著廣播電視節(jié)目朝著多樣化的方向發(fā)展,針對(duì)廣播電視節(jié)目的介紹也逐漸變得復(fù)雜化和多維化。這使得采用傳統(tǒng)廣播電視分類模型的系統(tǒng)往往會(huì)出現(xiàn)對(duì)廣播電視內(nèi)容介紹特征提取單一進(jìn)而導(dǎo)致廣播電視內(nèi)容分類精確度不理想等問題。
因此,本文針對(duì)傳統(tǒng)廣播電視自動(dòng)分類系統(tǒng)存在的內(nèi)容特征提取單一、內(nèi)容分類精確度不理想的問題,提出了一種基于文本語義的混合多層分類模型。該改進(jìn)的模型以廣播電視節(jié)目介紹的文本內(nèi)容為分類依據(jù),通過引入TextRank算法來完成對(duì)廣播電視文本介紹內(nèi)容的關(guān)鍵語義特征詞提取,進(jìn)而通過BM25算法對(duì)冗余的特征語義詞進(jìn)行降維,最終通過FastText模型處理,完成對(duì)廣播電視節(jié)目的自動(dòng)化分類工作。
TextRank算法是一種基于圖的用于文本語義關(guān)鍵詞提取和排序的算法[1]。該算法由Google公司通過對(duì)PageRank算法進(jìn)行優(yōu)化而來。算法的核心是通過利用目標(biāo)文檔中不同詞組間的語義信息來完成對(duì)關(guān)鍵詞的提取工作,因此該算法可以對(duì)目標(biāo)文本內(nèi)容進(jìn)行語義關(guān)鍵詞按照重要程度排序,進(jìn)而完成對(duì)關(guān)鍵語義短語的抽取工作。
TextRank算法的設(shè)計(jì)思想在于將目標(biāo)文檔解析為擁有大量詞的網(wǎng)絡(luò)結(jié)構(gòu)[2],而詞與詞之間的語義聯(lián)系通過網(wǎng)絡(luò)中的鏈接方式進(jìn)行表示。該算法的計(jì)算方式如式(1)所示:
式中:S(Vi)表示目標(biāo)文檔中句子Vi的權(quán)重值,d代表阻尼系數(shù),其默認(rèn)值大小為0.85,Wji表示不同的兩個(gè)目標(biāo)短語Vi與Vj的相似度,S(Vi)代表上次迭代出句子Vj的權(quán)重值,In(Vi)表示句子Vi的前驅(qū)集合,而Out(Vi)表示句子Vj的后繼節(jié)點(diǎn)集合,右側(cè)中的求和表示每個(gè)相鄰句子對(duì)目標(biāo)句子的貢獻(xiàn)程度。
BM25算法是一種用于計(jì)算關(guān)鍵查詢?cè)~相對(duì)于目標(biāo)文檔或者文件相關(guān)性評(píng)分的算法,最早用于計(jì)算機(jī)信息檢索領(lǐng)域,其主要思想是對(duì)給定查詢的關(guān)鍵詞進(jìn)行語素解析,進(jìn)而生成相對(duì)應(yīng)的語素詞,之后對(duì)于每個(gè)給定的目標(biāo)文檔,計(jì)算不同語素詞與文檔之間的相關(guān)性的大小,最后通過將關(guān)鍵詞相對(duì)于目標(biāo)文檔的相關(guān)性評(píng)分按照權(quán)重進(jìn)行求和,從而獲得查詢關(guān)鍵詞與文檔的相關(guān)性得分[3]。通過對(duì)不同關(guān)鍵詞同文檔之間的相關(guān)性評(píng)分進(jìn)行排序,進(jìn)而獲得較為精確的、能夠代表當(dāng)前文檔類型的核心語義詞。該算法的一般性公式如式(2)所示。
式中:Q表示查詢的語義關(guān)鍵詞,qi表示對(duì)Q進(jìn)行解析之后所獲取到的一個(gè)語素,d表示目標(biāo)的文檔集,Wi表示語素qi的權(quán)重值,R(qi,d)表示語素qi與文檔d的相關(guān)性評(píng)分值。
FastText是有美國FaceBook公司開發(fā)的一種詞向量與文本分類的工具[4]。由于該模型在表征學(xué)習(xí)和文本分類方面具備極強(qiáng)的高效性,因此在帶有監(jiān)督的文本分類的問題場景下有著廣泛的應(yīng)用。FastText的模型架構(gòu)如圖1所示。從模型圖中可以看出,F(xiàn)astText主要由輸入層、隱含層和輸出層構(gòu)成,其中輸入量為經(jīng)向量表示的多個(gè)單詞,輸出的結(jié)果為一個(gè)特定的目標(biāo)類別,而隱含層則是對(duì)多個(gè)詞向量的疊加平局值。
圖1 FastText模型架構(gòu)
從模型圖可以看出,從輸入層到輸出層,主要是通過將目標(biāo)文檔標(biāo)識(shí)為一個(gè)由詞構(gòu)成的集合網(wǎng)絡(luò),進(jìn)而疊加構(gòu)成目標(biāo)文檔中所有詞的向量,對(duì)疊加的值求平均值,來獲得表征文檔類型的向量,而在隱藏層輸出類型到輸出層過程中使用softmax線性分類器,用以提升分類的整體效率。
由于廣播電視分類的主要方式是通過對(duì)廣播電視內(nèi)容的文本介紹進(jìn)行關(guān)鍵詞提取進(jìn)而以關(guān)鍵詞為基礎(chǔ)來對(duì)廣播電視的類型進(jìn)行類別劃分,而傳統(tǒng)的分類方式往往只是通過提取內(nèi)容介紹文本的關(guān)鍵詞來對(duì)廣播電視內(nèi)容類型進(jìn)行直接劃分,而未對(duì)這些關(guān)鍵詞所代表的文檔語義關(guān)聯(lián)性進(jìn)行判定,因此傳統(tǒng)廣播電視在內(nèi)容介紹的特征關(guān)鍵詞提取上顯得過于單一,進(jìn)而影響廣播電視最終的分類準(zhǔn)確性[5]。對(duì)此,本文通過借助FastText模型在文本分類上的快速準(zhǔn)確的優(yōu)勢,以TextRank算法作為語義特征關(guān)鍵詞的提取與排序的基礎(chǔ),通過BM25算法進(jìn)行語義特征降維,來去除冗余無用的特征向量,提升最終分類效果的準(zhǔn)確性。本文提出的基于文本語義分類的廣播電視內(nèi)容自動(dòng)分類模型架構(gòu)如圖2所示。
圖2 基于文本語義分類的廣播電視內(nèi)容自動(dòng)分類模型架構(gòu)
由于廣播電視節(jié)目的分類依據(jù)是對(duì)內(nèi)容文本的關(guān)鍵詞類別判定,因此準(zhǔn)確的關(guān)鍵詞提取是類別判定正確與否的關(guān)鍵性因素。而針對(duì)關(guān)鍵詞的判定僅僅從其自身所表達(dá)的表層信息上很難對(duì)文本內(nèi)容做出準(zhǔn)確判定,因此就需要深入挖掘關(guān)鍵詞所表達(dá)的深入語義信息與目標(biāo)文本之間的相關(guān)性大小。
在確定目標(biāo)分類文本的前提下,使用TextRank算法對(duì)目標(biāo)文本的關(guān)鍵子句進(jìn)行提取。由于該算法主要應(yīng)用于無監(jiān)督學(xué)習(xí)狀態(tài),因此在提取關(guān)鍵詞過程中不需要進(jìn)行過多的額外訓(xùn)練。通過將目標(biāo)文本內(nèi)容看成詞的網(wǎng)絡(luò)集合并且通過不斷地迭代,來計(jì)算核心關(guān)鍵字的權(quán)重值,對(duì)關(guān)鍵子句排序,最后將分值排序靠前的子句或者關(guān)鍵詞抽取出來,作為語義特征關(guān)鍵字冗余處理的輸入值進(jìn)行保存。
考慮到針對(duì)廣播電視內(nèi)容文本語義關(guān)鍵詞的初步提取往往會(huì)出現(xiàn)相關(guān)性不強(qiáng)的冗余特征值,因此本文通過BM25算法對(duì)輸入的關(guān)鍵詞從語義層面計(jì)算其與目標(biāo)文檔的相關(guān)性,并將排序后相關(guān)性較低的關(guān)鍵詞進(jìn)行去除,以提升語義特征關(guān)鍵詞的準(zhǔn)確性[6]。
最終的分類過程使用已經(jīng)提前訓(xùn)練好的TextFast模型進(jìn)行。通過該模型處理最終獲得語義關(guān)鍵詞所對(duì)應(yīng)類型的概率,最后選擇概率最大的值所對(duì)應(yīng)的類型,作為廣播電視所對(duì)應(yīng)的類別,完成最終的分類工作。
本文搭建的實(shí)驗(yàn)環(huán)境硬件配置為:Intel Core i5-10300H的CPU,1 TB硬盤,32 GB RAM,運(yùn)行的系統(tǒng)環(huán)境為Windows 10 X64專業(yè)版,使用Python3.8版本作為編程語言進(jìn)行實(shí)驗(yàn)環(huán)境架構(gòu)的構(gòu)建。
由于本文針對(duì)廣播電視分類系統(tǒng)的改進(jìn)主要是在分類準(zhǔn)確性上進(jìn)行的改善,因此本次實(shí)驗(yàn)將采用分類準(zhǔn)確率作為核心數(shù)據(jù)進(jìn)行比較,分類準(zhǔn)確率ACC的計(jì)算方式如式(3)所示:
式中:TP表示實(shí)際為正且被準(zhǔn)確分類的樣本數(shù)量,TN表示實(shí)際為負(fù)且被正確分類的樣本數(shù)量,F(xiàn)P表示實(shí)際為負(fù)而被錯(cuò)誤分類的樣本數(shù)量,F(xiàn)N表示實(shí)際為正而被錯(cuò)誤分類的樣本數(shù)量。
本文采用的數(shù)據(jù)為廣播迷網(wǎng)站的多媒體數(shù)據(jù)集。該數(shù)據(jù)集包含了25 480條廣播電視內(nèi)容介紹信息,平均每個(gè)條目的內(nèi)容介紹為328個(gè)字符。數(shù)據(jù)測試的方式采用單純FastText的傳統(tǒng)廣播電視分類模型和改進(jìn)后的混合多層分類模型,來對(duì)數(shù)據(jù)分類的準(zhǔn)確性進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖3所示。從實(shí)驗(yàn)結(jié)果可以看出,隨著測試數(shù)據(jù)條目的不斷增加,改進(jìn)后的廣播電視分類的準(zhǔn)確率在不斷提升,而同量級(jí)的測試數(shù)據(jù)下,改進(jìn)后方式的分類準(zhǔn)確率較改進(jìn)前平均提升7.2%左右。
圖3 實(shí)驗(yàn)結(jié)果
本文針對(duì)傳統(tǒng)廣播電視分類系統(tǒng)由于內(nèi)容特征提取單一所導(dǎo)致分類準(zhǔn)確率不理想的問題,提出構(gòu)建基于文本語義分類的廣播電視分類模型,通過借助FastText模型在文本分類上的快速準(zhǔn)確的優(yōu)勢,以TextRank算法提取的語義關(guān)鍵字為基礎(chǔ),結(jié)合BM25算法進(jìn)行文檔語義相關(guān)性計(jì)算,最后通過實(shí)驗(yàn)對(duì)提出的基于文本語義分類模型進(jìn)行仿真。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方式能夠有效提升廣播電視分類系統(tǒng)的分類準(zhǔn)確性。