• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于SVM算法的微博評(píng)論數(shù)據(jù)情感分析

    2020-02-19 17:54:34劉春陽趙永翼
    數(shù)字通信世界 2020年1期
    關(guān)鍵詞:表情符號(hào)分析模型博文

    申 瑩,劉春陽,趙永翼

    (沈陽師范大學(xué),沈陽 110034)

    0 引言

    微博由于其內(nèi)容簡(jiǎn)短且十分豐富,時(shí)時(shí)性強(qiáng)且連接范圍廣而在Internet用戶中非常受歡迎。它已逐漸成為人們表達(dá)意見和發(fā)泄情緒的一種方式。微博文本的情感分析的主要目的是從微博文本中分析用戶對(duì)產(chǎn)品、新聞、熱點(diǎn)事件和其他評(píng)論信息的看法和態(tài)度。它也是對(duì)用戶思維活動(dòng)和情感的分析。使用深度學(xué)習(xí)模型分析情感時(shí),必須將文本轉(zhuǎn)換為機(jī)器可識(shí)別的形式。常用的方法是為文本訓(xùn)練單詞矢量,但是以傳統(tǒng)方式訓(xùn)練的單詞矢量沒有充分利用情感信息,人們都在微博在表達(dá)情感時(shí),表情符號(hào)通常用于表達(dá)用戶感受。一些研究表明,表情符號(hào)比情感詞具有更強(qiáng)的情感區(qū)別。因此,表情符號(hào)的情感特征可以用作分析訓(xùn)練情感的模型的特征向量。

    1 相關(guān)工作

    國(guó)外許多著名的國(guó)際會(huì)議情感分析的趨勢(shì)持續(xù)走高,相關(guān)的研究成果層出不窮。Bang等使用電影評(píng)論為實(shí)驗(yàn)數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)評(píng)論進(jìn)行情感分析的判斷。在實(shí)驗(yàn)中,預(yù)先處理了評(píng)論,并分別使用樸素貝葉斯和極端熵模型以不同方式(包括標(biāo)記語音部分、單個(gè)組、雙組、否定單詞提取等)選擇了功能。SVM來確定文本的情感傾向,即正面或負(fù)面情緒。最終的實(shí)驗(yàn)結(jié)果表明,SVM的準(zhǔn)確性為83%,在三種機(jī)器學(xué)習(xí)方法中表現(xiàn)最佳。人們渴望通過微博學(xué)習(xí)信息,并與他人互動(dòng)并分享自己的情感。這吸引了越來越多的研究人員來分析用戶情感。

    2 基于話題聚類與情感強(qiáng)度的中文微博輿情分析模型

    2.1 數(shù)據(jù)集成獲取與預(yù)處理

    (1)數(shù)據(jù)預(yù)處理。文字處理是一種非常成熟的自然語言處理技術(shù),包括標(biāo)記語音部分,分詞,標(biāo)記的實(shí)體識(shí)別和停用詞過濾。根據(jù)規(guī)則提取微博中的文本,照片,視頻和其他信息。根據(jù)微博文本的屬性過濾URL等,以清除無意義的微博文本。

    (2)微博情感信息抽取。單詞提取是在預(yù)處理數(shù)據(jù)集中提取用于分類任務(wù)的向量的功能。在提取標(biāo)注詞的方法中,使用提取算法來識(shí)別高頻詞,即標(biāo)注詞,其可以代表總體評(píng)估中的情感方向特征。

    2.2 SVM分類算法

    SVM其主要思想是對(duì)兩類進(jìn)行分類,并在高維空間中找到理想平面。為了確保分類的準(zhǔn)確性,該分類算法指的是滿足兩個(gè)類別的最大分類間隔。從圖1和圖2可以看到,盡管兩者都在分類中起作用,但圖3.2中的分類間隔最大,因此它是最佳評(píng)級(jí)級(jí)別。

    假設(shè)訓(xùn)練集樣本是{xi,yi},其中i∈{1,2,…,m},xi代表待分類數(shù)據(jù),數(shù)據(jù)被分為第一類,為正向情感,yi=1,反之第二類為負(fù)向情感,yi=-1。則平面H:y=w*x+b=0為最優(yōu)超平面,那么根據(jù)以上的定義,必須滿足公式:

    圖1

    圖2

    式中,w為Rn空間中的權(quán)向量;b為常數(shù)。若數(shù)據(jù)x滿足|w*x+b|≥1。則x支持向量機(jī)。如公式(2)所示。

    3 實(shí)證分析

    3.1 實(shí)驗(yàn)詞性處理

    對(duì)去噪后的微博文本使用NLPIR漢語分詞系統(tǒng)和知網(wǎng)HowNet情感詞表分詞并進(jìn)行詞性標(biāo)注。如表1所示。

    表1

    3.2 情感傾向預(yù)測(cè)及模型有用性效果分析

    根據(jù)情感詞權(quán)重計(jì)算情感強(qiáng)度,結(jié)果如表2所示。

    表2

    4 結(jié)束語

    使用微博文本數(shù)據(jù),提出了一種微博輿論分析模型,以幫助分析微博主題的情感方向。實(shí)驗(yàn)結(jié)果表明,基于SVM微博輿論分析模型可以幫助提高輿論觀點(diǎn)情感分析的準(zhǔn)確性;更好地理解輿論的方向,以及為更好的商業(yè)和政治活動(dòng),產(chǎn)品營(yíng)銷或消費(fèi)行為為決策提供了重要依據(jù)。

    猜你喜歡
    表情符號(hào)分析模型博文
    基于BERT-VGG16的多模態(tài)情感分析模型
    微信表情符號(hào)寫入判決:你發(fā)的每個(gè)表情都可能成為呈堂證供
    第一次掙錢
    誰和誰好
    層次分析模型在結(jié)核疾病預(yù)防控制系統(tǒng)中的應(yīng)用
    這個(gè)表情符號(hào),你用對(duì)了嗎
    大作文(2016年7期)2016-05-14 11:13:25
    Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
    全啟發(fā)式語言分析模型
    表情符號(hào)玩上癮 時(shí)尚愛嘗鮮
    Coco薇(2015年10期)2015-10-19 01:01:58
    打電話2
    宜春市| 鹿邑县| 安图县| 武冈市| 清水河县| 阿尔山市| 新沂市| 仙桃市| 荃湾区| 崇礼县| 呼玛县| 东方市| 武义县| 永修县| 安丘市| 安徽省| 常熟市| 图木舒克市| 陵川县| 西城区| 古蔺县| 加查县| 清镇市| 巨野县| 宁远县| 乐清市| 孟连| 江油市| 乐安县| 平潭县| 宁蒗| 大邑县| 祁门县| 安康市| 岳阳县| 陇川县| 东宁县| 华宁县| 临泉县| 襄汾县| 光泽县|