• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Word2Vec的微博文本分類研究①

      2019-08-22 02:31:52牛雪瑩趙恩瑩
      關(guān)鍵詞:類別分類器短文

      牛雪瑩, 趙恩瑩

      (太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)

      移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展讓人們隨時(shí)發(fā)表言論成為了可能. 以微博、微信等為代表的社交平臺(tái)成為人們溝通交流的主要方式,同時(shí)積累了越來越多的文本數(shù)據(jù),特別是短文本數(shù)據(jù). 這些數(shù)據(jù)中蘊(yùn)含著很多重要的信息,對(duì)這些信息的分類和挖掘吸引了很多學(xué)者關(guān)注.對(duì)短文本的分類研究是自然語言處理的一個(gè)重要分支,在搜索引擎、自動(dòng)問答、情感分析和輿情分析等方面有重要意義[1].

      傳統(tǒng)的向量空間模型(vector space model)[2]對(duì)長文本的分類表現(xiàn)出很好的效果,但用于短文本分類卻存在特征稀疏和維度災(zāi)難的問題,所以直接應(yīng)用向量空間模型解決短文本分類問題效果并不理想. 面對(duì)這個(gè)問題,國內(nèi)外研究者主要從特征擴(kuò)展和抽象語義特征兩方面給出了解決方案.

      特征擴(kuò)展包括利用主題模型擴(kuò)展和借助外部知識(shí)庫擴(kuò)展特征. 由于主題是詞語的高層次語義抽象,主題相對(duì)詞語來說會(huì)少很多,這樣就能很好的解決維度災(zāi)難問題. Phan XH等[3]通過分析文本的主題,并且結(jié)合TF-IDF來確定特征. 張志飛等[4]提出基于文檔主題生成模型LDA的文本分類模型. 這些都是直接用主題分布來做文本特征.

      很多學(xué)者[5-9]希望通過外部知識(shí)庫(例如知網(wǎng)、維基百科、WordNet等)對(duì)詞語進(jìn)行擴(kuò)展,以期解決特征稀疏的問題,但是這個(gè)方法受到所用知識(shí)庫質(zhì)量的影響. Bouaziz[10]提出先利用LDA模型學(xué)習(xí)維基百科數(shù)據(jù)上的主題以及主題在詞語上的分布,然后用這些來擴(kuò)展短文本,再使用語義隨機(jī)森林對(duì)擴(kuò)展特征進(jìn)行選抽象高層語義的方法. 這是結(jié)合了主題模型和外部知識(shí)庫來進(jìn)行特征擴(kuò)展的方法.

      也有很多學(xué)者[11-15]希望抽象文本語義特征來進(jìn)行文本分類研究. 近幾年深度學(xué)習(xí)通過深層次的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)特征的高層語義抽象在自然語言處理方面表現(xiàn)突出. 韓棟[16]、馮國明[17]分別采用深度學(xué)習(xí)的CNN和CapsNet網(wǎng)絡(luò)進(jìn)行中文文本分類研究都取得了較好的結(jié)果. 以Word2Vec為代表的詞向量模型是通過神經(jīng)概率語言模型學(xué)習(xí)到詞語的向量表達(dá),很多學(xué)者[16,17]在此基礎(chǔ)上利用一定的權(quán)重組合方式得到文本的向量表達(dá),進(jìn)而進(jìn)行分類研究.

      本文采用的是基于Word2Vec的詞向量模型,首先用Word2Vec在維基百科中進(jìn)行學(xué)習(xí)得到詞向量,然后用改進(jìn)的TF-IDF設(shè)計(jì)權(quán)重進(jìn)而得到文本向量,最后用SVM分類器進(jìn)行文本分類訓(xùn)練,并且通過實(shí)驗(yàn)表明該方法與傳統(tǒng)方法相比較分類效果有明顯提高.

      1 基于Word2Vec的短文本分類模型

      短文本自動(dòng)分類是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)模型. 讓機(jī)器根據(jù)詞語的特征學(xué)習(xí)模型然后預(yù)測(cè)文本所屬的類別. 在自動(dòng)文本分類領(lǐng)域常用的技術(shù)有樸素貝葉斯分類器、決策樹、支持向量機(jī)、KNN等. 本文結(jié)合Word2Vec和TF-IDF提出短文本分類算法,并驗(yàn)證其有效性.

      1.1 Word2Vec詞向量模型

      Word2Vec是2013年Google的研究員發(fā)布的一種基于神經(jīng)網(wǎng)絡(luò)的詞向量生成模型. 模型是用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)語料數(shù)據(jù)的詞語及其上下文的語義關(guān)系進(jìn)行建模,以求得到低維度的詞向量. 該詞向量一般在100-300維左右,能很好的解決傳統(tǒng)向量空間模型高維稀疏的問題. 因?yàn)樯疃鹊纳窠?jīng)網(wǎng)絡(luò)模型能對(duì)特征的高層語義進(jìn)行很好的抽象所以模型能很好的避免語義鴻溝. 所以Word2Vec是目前應(yīng)用在自然語言處理方面表現(xiàn)較優(yōu)秀的方法.

      Word2Vec[18,19]主要有Continuous Bag-of-Words Model (CBOW)和Continuous Skip-gram Model (Skipgram)兩種模型,CBOW模型是在己知上下文Context(t)的情況下預(yù)測(cè)當(dāng)前詞t,而Skip-gram模型則是在己知當(dāng)前詞t的情況下預(yù)測(cè)其上下文詞Context(t). 這兩個(gè)模型都包括輸入層、隱藏層和輸出層,如圖1所示. CBOW模型的輸入層是選定窗口個(gè)數(shù)w的上下文詞one-hot編碼的詞向量,隱藏層向量是這些詞向量、連接輸入和隱含單元之間的權(quán)重矩陣計(jì)算得到的,輸出層向量可以通過隱含層向量、連接隱含層與輸出層之間的權(quán)重矩陣計(jì)算得到. 最后輸出層向量應(yīng)用SoftMax激活函數(shù),可以計(jì)算出每個(gè)單詞的生成概率. 但是由于SoftMax激活函數(shù)中存在歸一化項(xiàng)的緣故,推導(dǎo)出來的迭代公式需要對(duì)詞匯表中的所有單詞進(jìn)行遍歷,使得每次迭代過程非常緩慢,可使用Hierarchical Softmax來提升速度.

      圖1 Word2Vec模型

      1.2 TF-IDF

      TF-IDF[20](Term Frequency-Inverse Document Frequency)是組合了詞頻和逆文檔頻率是一種統(tǒng)計(jì)方法.

      詞頻(Term Frequency,TF)是指某個(gè)給定的詞ti在文檔dj中出現(xiàn)的頻率,頻率越高對(duì)文檔越重要,數(shù)學(xué)表達(dá)公式如式(1)所示:

      其中,ni,j表示詞ti在文檔dj中出現(xiàn)的次數(shù),表示文檔dj中所有k個(gè)詞出現(xiàn)次數(shù)的總和.

      逆文檔頻率 (Inverse Document Frequency,IDF)是指包含該詞ti的文檔占總文檔D的比重的倒數(shù). 逆文檔頻率的出現(xiàn)是為了避免一些類似“我”、“的”、“他”等出現(xiàn)頻率很高但是對(duì)文檔分類作用較小的詞獲得高權(quán)重. 數(shù)學(xué)表達(dá)公式如式(2)所示:

      子宮內(nèi)膜癌是一種嚴(yán)重影響女性健康的惡性腫瘤,根據(jù)肌層浸潤分為無肌層浸潤、淺肌層浸潤和深肌層浸潤[3]。對(duì)于子宮內(nèi)膜癌浸潤子宮肌層要早發(fā)現(xiàn)早治療,因此準(zhǔn)確診斷出該病是治療的基礎(chǔ)。傳統(tǒng)對(duì)子宮內(nèi)膜癌的診斷主要為彩超診斷,陰道診斷以及CT診斷等,但是對(duì)于浸潤子宮肌層診斷準(zhǔn)確率不高,容易發(fā)生誤診和漏診。而分段診刮和宮腔鏡的方法雖然也是診斷子宮內(nèi)膜癌的常用方法,但是該方法無法是否有肌層浸潤及浸潤深度等進(jìn)行判斷。實(shí)時(shí)超聲彈性成像是1991年提出的新型診斷技術(shù),具有精確性,可以形象的檢測(cè)出肌層浸潤的情況,浸潤深度等。

      表示詞語對(duì)于文本的重要性,隨著詞頻的增加而增大,隨著文檔頻率的增大而減小. 也就是說在當(dāng)前文本中出現(xiàn)頻率高且在其他文本中出現(xiàn)的少的詞對(duì)文本的意義大,均勻出現(xiàn)在各個(gè)文本中的詞對(duì)文本的意義小.

      1.3 短文本向量模型

      很多學(xué)者[21-25]提出基于詞向量生成短文本向量的方法. Le[25]等人根據(jù)Word2Vec生成詞向量的方法擴(kuò)展到語句、段落、文檔的層面上提出PV-DM和PVDBOW模型; 詞向量組合法是將文本中所有詞語的詞向量加權(quán)求和的方法. 其中權(quán)重確定的方法包括:直接采用詞語的TF-IDF值為權(quán)重[21]; 采用語法、詞性標(biāo)注結(jié)果設(shè)置權(quán)重[22]等.

      對(duì)文本分類來說詞語對(duì)類別的影響更重要,而TFIDF衡量詞語對(duì)某個(gè)文本的重要性并沒有考慮詞語在類內(nèi)和類間分布情況,所以本文考慮在TF-IDF的基礎(chǔ)上加入類別因素c,提出新的權(quán)重確定方法CTF-IDF,數(shù)學(xué)表達(dá)式為式(4):

      其中,

      類別因素c,隨著詞語t在類r中出現(xiàn)頻率p的增加而增加; 隨著詞語t在非r類別中出現(xiàn)頻率q的增加而減小,理想情況下詞語t都出現(xiàn)在某一個(gè)類別中,類別因素c=1. n表示出現(xiàn)詞語t且屬于類別r的短文本數(shù)量; m表示屬于類別r,但沒出現(xiàn)詞語t的短文本數(shù)量; k表示出現(xiàn)詞語t但不屬于類別r的短文本數(shù)量;l表示沒出現(xiàn)詞語t也不屬于類別r的短文本數(shù)量.

      確定詞向量權(quán)重算法CTF-IDF之后,采用加權(quán)求和的方法得到短文本的向量表示,數(shù)學(xué)表達(dá)式為(6).

      其中,vdj表示文本dj的向量,vi表示詞語ti的詞向量.

      1.4 短文本分類流程

      微博短文本的分類流程如圖2所示. 首先對(duì)文本進(jìn)行預(yù)處理,包括去停用詞、分詞. 然后用Word2Vec模型對(duì)維基百科進(jìn)行訓(xùn)練,得到大量詞語結(jié)合上下文和語義的詞向量. 下一步是計(jì)算短文本的向量,需要把Word2Vec生成的與文本對(duì)應(yīng)的詞向量加權(quán)求和,權(quán)重通過詞的詞頻和分類計(jì)算CTF-IDF得到. 最后進(jìn)入分類器分類,很多研究表明,與其他分類系統(tǒng)相比,SVM在分類性能上和系統(tǒng)健壯性上表現(xiàn)出很大優(yōu)勢(shì)[26-28],因此選用SVM分類器作為分類工具,根據(jù)短文本向量及其對(duì)應(yīng)的標(biāo)簽訓(xùn)練出分類器. 測(cè)試過程與訓(xùn)練過程相似,只是最后通過已訓(xùn)練好的分類器預(yù)測(cè)測(cè)試短文本的標(biāo)簽.

      圖2 短文本分類流程圖

      2 微博短文本分類實(shí)驗(yàn)

      本文前面介紹了短文本分類的流程以及通過詞向量生成短文本向量的方法,現(xiàn)通過實(shí)驗(yàn)驗(yàn)證本文提出的方法的有效性.

      2.1 數(shù)據(jù)來源和預(yù)處理

      本文收集了從新浪微博上用八爪魚爬取到的微博數(shù)據(jù)29 000條分為以下10個(gè)類別,其中IT、財(cái)經(jīng)、時(shí)尚、健康、母嬰、體育各3500條,醫(yī)療、動(dòng)漫、文學(xué)、教育各2000條. 所有類別80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于測(cè)試. 所有的數(shù)據(jù)都經(jīng)過去停用詞、去表情符號(hào)預(yù)處理,并用結(jié)巴分詞對(duì)數(shù)據(jù)進(jìn)行了分詞處理.

      2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

      分類任務(wù)的常用評(píng)價(jià)標(biāo)準(zhǔn)有準(zhǔn)確率(precision)、召回率(recall)和Fl評(píng)分[21]. 表1是兩分類器混淆矩陣(confusion Matrix),其中TP表示實(shí)際是正類、預(yù)測(cè)也為正類的樣本數(shù)量; FN表示實(shí)際為正類、預(yù)測(cè)為反類的樣本數(shù)量; FP表示實(shí)際為反類、預(yù)測(cè)為正類的樣本數(shù)量; TN表示實(shí)際為反類、預(yù)測(cè)也為反類的樣本數(shù)量. 準(zhǔn)確率是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與所有分類樣本數(shù)的比例,如式(7)所示.

      召回率是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與該類的實(shí)際文本數(shù)的比例,如式(8)所示.

      Fl評(píng)分是綜合考慮準(zhǔn)確率與召回率的一種評(píng)價(jià)標(biāo)準(zhǔn),如式(9)所示.

      表1 兩分類混淆矩陣

      2.3 分類實(shí)驗(yàn)和分析結(jié)果

      實(shí)驗(yàn)分別用TF-IDF模型、均值加權(quán)Word2vec模型、TF-IDF加權(quán)Word2vec模型、CTF-IDF加權(quán)Word2vec模型對(duì)微博數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn),試圖驗(yàn)證文章提出的CTF-IDF加權(quán)的有效性,并分析分類數(shù)量對(duì)模型的影響.

      對(duì)于TF-IDF分類模型,使用Scikit-learn提供的TfidfVectorizer模塊提取文本特征并將短文本向量化.剩余三種都是在Word2Vec模型的基礎(chǔ)上,加權(quán)求和得到微博文本向量,只是各自的權(quán)重確定方式不同.

      均值加權(quán)Word2Vec模型是取全部詞語向量的平均值; TF-IDF加權(quán)Word2Vec模型是用對(duì)應(yīng)詞的TFIDF為權(quán)重; CTF-IDF加權(quán)Word2Vec模型是用本文提出的結(jié)合了類別因素的CTF-IDF為權(quán)重.

      表2 SVM微博文本分類實(shí)驗(yàn)結(jié)果

      從上表可以看出:均值加權(quán)的Word2Vec模型比TF-IDF模型在SVM分類器的表現(xiàn)稍好,F(xiàn)1值稍有提升,說明Word2Vec模型比傳統(tǒng)的模型生成的詞向量能更好的表示文本特征,更適應(yīng)文本分類.

      TF-IDF加權(quán)的Word2Vec模型的表現(xiàn)相比均值加權(quán)的Word2Vec又有所提高,這是因?yàn)橄噍^于平均詞向量,TF-IDF加權(quán)的方法更能準(zhǔn)確的表現(xiàn)詞語對(duì)于文檔的重要性,所以其形成的文檔向量在SVM分類器上表現(xiàn)更好. 本文提出的基于CTF-IDF加權(quán)的Word2Vec模型表現(xiàn)最好,這是因?yàn)殡m然TF-IDF考慮了不同詞語對(duì)文檔重要性不一樣,但是忽略了對(duì)類別的影響,當(dāng)使用加入類別因素的CTF-IDF權(quán)重之后文本在SVM分類器上表現(xiàn)不錯(cuò). 這說明本文所提出的CTF-IDF加權(quán)的Word2Vec模型在短文本分類上的有效性.

      從圖3可以看出,Word2Vec分類模型準(zhǔn)確度與分類類別、類別數(shù)量等因素有關(guān),類別數(shù)越少模型分類準(zhǔn)確度越高.

      圖3 多類別微博文本分類效果圖

      3 結(jié)論與展望

      基于Word2Vec的微博文本分類模型與傳統(tǒng)的向量空間模型相比在微博短文本分類上表現(xiàn)良好.Word2Vec在短文本分類問題上既可以解決高維稀疏問題又可以結(jié)合上下文語義,但是對(duì)于詞語的權(quán)重問題無法解決. 本文在TD-IDF的基礎(chǔ)上提出CTF-IDF加權(quán)的Word2Vec模型,既考慮了詞頻又考慮類別因素. 從實(shí)驗(yàn)結(jié)果可見相較于均值加權(quán)的Word2Vec模型、TF-IDF加權(quán)的Word2Vec模型,本文提出的CTF-IDF加權(quán)的Word2Vec模型在微博短文本分類問題上表現(xiàn)相對(duì)最好. 但文章也存在一些不足之處,算法中權(quán)重確定方法忽略了詞語的位置信息,而詞語的位置信息可能對(duì)于文檔的語義有一定作用,有待后續(xù)研究和實(shí)驗(yàn).

      猜你喜歡
      類別分類器短文
      KEYS
      Keys
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      短文改錯(cuò)
      黄梅县| 奉贤区| 明溪县| 剑阁县| 尉氏县| 聂拉木县| 高平市| 台东县| 什邡市| 左云县| 衡阳县| 南靖县| 宽甸| 阿克陶县| 团风县| 陈巴尔虎旗| 青海省| 凤凰县| 山东省| 新津县| 昌平区| 邛崃市| 保山市| 石嘴山市| 南城县| 隆子县| 姜堰市| 丹棱县| 浦城县| 合水县| 绥棱县| 云南省| 璧山县| 安阳县| 桂阳县| 靖边县| 临武县| 崇仁县| 忻州市| 保德县| 东乡县|