• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機器學習的文本情感多分類的學習與研究

    2020-08-26 07:46:55劉呈
    電腦知識與技術 2020年20期
    關鍵詞:文本分類自然語言處理機器學習

    摘要:文本分類與情感分類是自然語言處理中基礎的領域,為幫助初學者對文本情感多分類的項目學習,在機器學習的基礎上,分析了線性邏輯回歸算法、樸素貝葉斯模型在文本情感分類項目中的應用,并針對數(shù)據(jù)處理、模型構建、模型訓練、模型測試過程中初學者難以解決和易出錯的部分進行分析與實現(xiàn)。結(jié)合kaggle上的比賽數(shù)據(jù)實例,實現(xiàn)了完整的文本情感多分類項目并做出詳細分析,項目評測結(jié)果較為可觀,證實可以幫助初學者更易上手文本情感多分類和機器學習。同時提出了基于傳統(tǒng)二分類問題的多分類問題解決方法。

    關鍵詞:機器學習;文本分類;情感分類;自然語言處理;多分類

    中圖分類號:TP18 文獻標識碼:A

    文章編號:1009-3044(2020)20-0181-02

    Study and Research on Text Emotion Multi-Classification Based on Machine Learning

    LIU Cheng

    (Central China Normal University, Wuhan 430079,China)

    Abstract: Text categorization and emotion classification are basic fieldsin natural language processing. To help beginners leam theitems of text sentiment multi-classification. based on machine learning, the linear logistic regression algorithm and Bayesian modelare analyzed in the text sentiment classification project. In the process of data processing、model building、model training and mod-el testing, it is difficult for beginners to solve and error-prone parts are analyzed and implemented. Combined with the game dataexamples on Kaggle, a complete text emotion multi-classification project has been implemented and detailed analysis has beenmade. The results are considerable, which proves that it can help beginners get started with text emotion classification and machineleaming. At the same time, a multi-classification problem solving method based on the traditional two-classification problem isproposed.

    Key words : machine leaming ; text categorization; emotion classification: NLP; Multi-classification

    隨著人工智能的飛速發(fā)展,作為最核心與最具挑戰(zhàn)性領域之一的自然語言處理在最近幾年逐漸進入研究高潮,進入這個領域的初學者也越來越多。在NLP(Natural Language Process-ing.)領域,所需知識比較繁雜,掌握難度較大,缺乏對于初學者入門級學習的研究,導致初學者大多難以適應。

    本文基于NLP中基礎性的文本情感分類項目,區(qū)別于傳統(tǒng)的二分類問題,將情感類型細化為五類,更貼合生活實際,做出挑戰(zhàn)。同時結(jié)合kaggle上的比賽數(shù)據(jù)實例,基于機器學習中的線性邏輯回歸算法和樸素貝葉斯模型算法,完成了整個情感多分類項目流程并做出研究。針對初學者在數(shù)據(jù)處理、特征選擇、模型網(wǎng)絡構建、模型訓練與測試過程中難以解決和易出錯的部分做出了詳細分析與說明,以幫助初學者進行NLP領域的項目學習。

    1文本情感分類概述

    文本情感分類是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,是NLP領域重要的基礎領域,涉及文本分詞、詞語情感分析、機器學習、深度學習等。文本情感分類通過在現(xiàn)有的大量數(shù)據(jù)中,基于學習算法尋找并學習詞語情感的規(guī)律,構建相應的分類函數(shù)或分類模型(分類器,Classi-fie),這樣對于給定的其他文本將能做到文本情感分類[1]。

    計算機并不能直接識別與處理所提供的自然語言數(shù)據(jù),通常要對這些文本數(shù)據(jù)進行維度上的抽象處理[1]?;跈C器學習算法的文本情感分類通常需要構建學習模型,針對已處理的數(shù)據(jù)進行重復的訓練與測試,通過測試的反饋修正模型參數(shù),使得分類模型具備更高的準確度。文本數(shù)據(jù)經(jīng)過模型導出后將被劃分到對應情感類別,實現(xiàn)文本情感分類。

    2文本情感多分類項目設計與實現(xiàn)

    文本情感多分類項目整體流程大致分為數(shù)據(jù)處理、特征選取、模型的構建、訓練與測試,其中對于模型的處理,本文基于機器學習主要給出兩種模型算法:線性邏輯回歸模型和樸素貝葉斯模型。圖1是項目結(jié)構框架圖。

    項目過程的功能與實現(xiàn)如下:

    2.1數(shù)據(jù)處理

    文本數(shù)據(jù)來源于Kaggle網(wǎng)站競賽數(shù)據(jù),數(shù)據(jù)包括四列,Phraseld(短語編號)、Sentenceld(句子編號)、Phrase(短語)和Sentiment(短語情感分類)。針對數(shù)據(jù)做出幾點說明,一個句子可以劃分成若干個短語,所以存在多個短語來源于同一個句子,其句子編號相同;情感分類是對每一個短語進行分類,情感類型劃分為五類,用數(shù)字0-4標明,代表非常消極、消極、中性、積極、非常積極。

    對數(shù)據(jù)梳理清楚后,需要對每個短語進行分詞,英文文本分詞相對簡單,以空格為標志劃分出每個單詞。這里存在初學者的誤區(qū),一些諸如“a”的英文單詞是否取舍不應該由停詞表來決定。對此本文去掉停詞表,對統(tǒng)計到的單詞計算每一個單詞的頻率,頻率過大或過小的單詞均去除。至此,數(shù)據(jù)處理完成,得到了所有有效單詞的匯總與其頻率,成功構建了詞袋。

    2.2特征選取

    如英文單詞,這些自然語言計算機無法處理,其二進制碼也毫無意義,這使得特征選取工作變得困難。通常采取的是One-Hot編碼(獨熱編碼),統(tǒng)計所有的狀態(tài)并對每一個狀態(tài)獨立編碼,這樣任意時刻每個狀態(tài)的編碼中只有一位是有效的[2]。但這樣使用對初學者十分不友好,One-Hot編碼后的數(shù)據(jù)維度將十分龐大,無論是計算機內(nèi)存還是運行時間,其效率都變得十分低下。針對初學者,本文采取TfidfVectorizer函數(shù),利用數(shù)據(jù)處理過程中得到的詞袋,對單詞進行狀態(tài)編碼,每一個單詞都是被選取的特征。短語由若干個單詞組成,這樣每一個短語可以表示成單詞編碼的組合,于是得到了計算機可以處理的數(shù)據(jù)[3]。

    最后,將處理好的數(shù)據(jù)劃分為兩類,一類作為訓練數(shù)據(jù),讓模型進行學習,另一類作為測試數(shù)據(jù),評價模型效果。

    2.2線性邏輯回歸模型

    線性邏輯回歸模型是機器學習中常見的模型算法,可以通過調(diào)用skleam庫里的LogisticRegression函數(shù),其作用是對輸入短語的每一個維度數(shù)據(jù)(單詞編碼)分配一個可調(diào)整參數(shù),使輸出結(jié)果趨近短語的情感類型數(shù)字[4]。

    每一輪訓練都需要針對輸出結(jié)果與實際結(jié)果的差距進行調(diào)整維度參數(shù),對于如何評價差距,初學者很容易想到roc_auc評價方法,它是接收者操作特征曲線下的面積,可以有效避免假陽性和偽陰性數(shù)據(jù)的影響[5]。但這是一種初學者的誤區(qū),roc_auc方法只針對二分類問題,本文采取間接轉(zhuǎn)化的方法,將五分類轉(zhuǎn)化為多次二分類問題,首先中性與非中性數(shù)據(jù)的分類,然后是積極與消極數(shù)據(jù)的分類,最后是其內(nèi)部程度的二分類。

    另外提出,模型訓練過程中是基于訓練集數(shù)據(jù)不斷學習,模型準確度也是基于這些已訓練的數(shù)據(jù),過度訓練可能導致模型“僵化”,對新數(shù)據(jù)適應性較差。

    模型除了對于輸入數(shù)據(jù)的參數(shù)外還有自身的選擇性參數(shù),稱為超參數(shù),比如學習率等,如何調(diào)整合適的模型參數(shù)一直是初學者難以把握的問題,本文采用CridSearchCV函數(shù)對模型進行自動調(diào)參。它是網(wǎng)格搜索和交叉驗證的結(jié)合,原理是在指定的參數(shù)范圍內(nèi),按步長依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓練學習器,從所有的參數(shù)中找到在測試集上精度最高的參數(shù),這其實是一個訓練和比較的過程。

    訓練好模型后,對于新的文本數(shù)據(jù),只要處理好數(shù)據(jù)特征,模型將會自動對文本進行情感分類。基于線性邏輯回歸模型的文本情感分類,其最終準確度為0.768,較為可觀。

    2.3樸素貝葉斯模型

    樸素貝葉斯模型是常見的分類模型之一,通過假設特征條件之間相互獨立的方法,先通過已給定的訓練集,學習從輸入到輸出的聯(lián)合概率分布,進行模型的訓練[6]。其算法原理是:

    其中,d為樣本數(shù)據(jù)集D的下標,x為樣本特征數(shù)據(jù)集X特征,y為情感的類變量。通過MultinomiaINB函數(shù)可以調(diào)用樸素貝葉斯模型。

    區(qū)別于線性邏輯回歸模型處理的一點時,這里本文沒有采用GridSearchCV網(wǎng)絡搜索,準確度的評價采用Cross_val_score函數(shù)的十折交叉驗證,最終模型準確度為0.743,略低于線性邏輯回歸模型。

    3項目結(jié)果與分析

    情感分類本質(zhì)是函數(shù)的映射,評價分類器的效果依據(jù)就是映射的準確度,除此之外還有模型的開銷(速度與內(nèi)存),評價的標準各異,本文采取準確率作為評價標準[1]。

    項目過程中,通過從Kaggle上收集的比賽數(shù)據(jù),進行線性邏輯回歸和樸素貝葉斯兩種模型的學習與誤區(qū)難點研究,完成了文本情感多分類項目。兩種模型得到的準確度分別為0.768、0.743,對于初學者而言,這種準確度已頗為可觀。詳細模型評測數(shù)據(jù)如表1所示。

    4結(jié)束語

    本文主要研究初學者在文本情感多分類項目過程中的誤區(qū)與難點,同時做出了詳細說明與解決方法,實現(xiàn)了基于機器學習的線性邏輯回歸和樸素貝葉斯兩種模型并詳細介紹了項目過程中的各個步驟與相關原理,提出了基于傳統(tǒng)二分類的多分類問題解決方法,最后給出了兩種模型的評測結(jié)果。從評測結(jié)果來看,項目的準確度完全能滿足初學者對于文本情感多分類的入門學習。進一步的研究是模型算法的改進,利用更先進的模型解決文本情感多分類問題,比較其性能效果,提高總體的準確度,同時滿足初學者的學習。

    參考文獻:

    [1]徐大偉,董淵,張素琴.文本分類技術在海洋信息處理領域中的應用[J].計算機科學,2008,35(11):144-146.

    [2]嚴紅.詞向量發(fā)展綜述[J].現(xiàn)代計算機,2019(8):50-52.

    [3]郁可人.基于情感分類的特征表示研究[D].上海:華東師范大學.2019.

    [4]張璞,李逍,劉暢.基于情感詞匯與機器學習的方面級情感分類[J].計算機工程與設計,2020,41(1):128-133.

    [5]楊俊杰.基于k近鄰分類器ROC分析方法[D].廣州:廣東工業(yè)大學.2019.

    [6]向志華,鄧怡辰.基于機器學習的文本分類技術研究[J].軟件,2019,40(9):94-97.

    【通聯(lián)編輯:唐一東】

    收稿日期:2020-03-25

    作者簡介:劉呈(2000一),男,湖北黃岡人,本科,主要研究方向為自然語言處理。

    猜你喜歡
    文本分類自然語言處理機器學習
    基于組合分類算法的源代碼注釋質(zhì)量評估方法
    基于貝葉斯分類器的中文文本分類
    基于機器學習的圖像特征提取技術在圖像版權保護中的應用
    基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
    時代金融(2016年27期)2016-11-25 17:51:36
    前綴字母為特征在維吾爾語文本情感分類中的研究
    科教導刊(2016年26期)2016-11-15 20:19:33
    基于蟻群智能算法的研究文本分類
    基于支持向量機的金融數(shù)據(jù)分析研究
    文本分類算法在山東女子學院檔案管理的應用
    科技視界(2016年24期)2016-10-11 09:36:57
    面向機器人導航的漢語路徑自然語言組塊分析方法研究
    漢哈機器翻譯中的文字轉(zhuǎn)換技術研究
    黑山县| 祁阳县| 浮山县| 晴隆县| 托克逊县| 古田县| 凤凰县| 德令哈市| 保德县| 民县| 永川市| 平安县| 昆山市| 田林县| 康定县| 汝阳县| 荆州市| 夏邑县| 长沙市| 秦安县| 司法| 涞源县| 靖宇县| 昌图县| 寿阳县| 乐平市| 龙海市| 玉环县| 敖汉旗| 海城市| 社会| 会理县| 平度市| 绥化市| 徐水县| 高雄县| 花垣县| 仲巴县| 余姚市| 渭源县| 铜陵市|