• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卷積神經(jīng)網(wǎng)絡(luò)的多維特征微博文本情感分析?

    2020-11-02 09:00:58
    計算機與數(shù)字工程 2020年9期
    關(guān)鍵詞:博文詞組卷積

    余 鵬 田 杰

    (深圳供電局有限公司電力科學(xué)研究院 深圳 518000)

    1 引言

    目前,各類互聯(lián)網(wǎng)應(yīng)用技術(shù)快速發(fā)展,產(chǎn)生了貼吧、論壇、網(wǎng)站等多種信息交流平臺,人們可以通過多種渠道發(fā)表自己的評論或與他人分享照片及各類感興趣的事物等,也可以從這些網(wǎng)絡(luò)渠道收集資訊與新聞等信息[1~5],這些情況都促進(jìn)了各類社交軟件的快速發(fā)展。其中,新浪微博屬于一個建立在用戶關(guān)系基礎(chǔ)上進(jìn)行信息傳遞、分享、收集的數(shù)據(jù)處理平臺,使傳統(tǒng)社交網(wǎng)絡(luò)的交互模式發(fā)生了顯著變化,使用戶可以更加快速、方便地獲取各類所需的信息,因此在短時間內(nèi)新浪微博就成為了一個具有極高人氣的新媒體社交平臺[6~8]。大部分互聯(lián)網(wǎng)用戶可以利用微博作為熱點事件的獲取來源,并對事態(tài)進(jìn)行實時關(guān)注及發(fā)表自己的觀點;還有一些部門在微博上建立了自己的官方號,通過官方微博來及時發(fā)布一些事件的實時進(jìn)展,便于迅速澄清事實以及快速回應(yīng)民眾的各項需求。由此可見,如何選擇合適的方法來準(zhǔn)確分析通過微博平臺發(fā)布的內(nèi)容已經(jīng)成為一項重要的事情[9~10]?,F(xiàn)階段,大量學(xué)者都對Twitter社交平臺開展了深入研究。例如,采用傳統(tǒng)方式對Twitter 進(jìn)行情感分析時通常都是利用詞典情感分析的方式進(jìn)行處理,可以利用包含情感詞性、否定等副詞等來描述句子情感狀態(tài)[11~12]。很少有關(guān)于中文短文本方面的情感分析,一般都是先提取出文本的情感特征,再利用分類學(xué)習(xí)算法來實現(xiàn)情感分析的功能。各類網(wǎng)絡(luò)用語與互聯(lián)網(wǎng)新詞也不斷變化,這使得詞典的維護(hù)與更新過程也變得更加困難[13]?,F(xiàn)階段,還很少有學(xué)者在中文微博情感分析方面使用深度學(xué)習(xí)模型[14~15]。

    2 方案設(shè)計

    本文構(gòu)建得到了一種新的具有多維特征的微博情感分析制度。從圖1 中可以看到對多維特征微博情感進(jìn)行分析的具體流程。通過分析微博文本多維度特征可以發(fā)現(xiàn)主要包含了情感和語義共兩方面的特征。其中,語義特征需要采用無監(jiān)督學(xué)習(xí)的方法來完成大規(guī)模語料的訓(xùn)練,同時計算出詞組對應(yīng)的詞向量。利用詞向量將詞組映射至高維空間中,從而實現(xiàn)向量化轉(zhuǎn)變的過程,接著利用高維空間內(nèi)的詞向量余弦距離表示詞組相似性,也同時包含了不同詞組間的更深層語義關(guān)系。在微博文本中可以從表情字符中分析出具體的情感特征。采用一定的方法提取得到微博文本中的所有表情字符并完成轉(zhuǎn)換過程,之后再利用隨機向量化的方式進(jìn)行詞向量匹配,建立由微博文本構(gòu)成的特征集合。通過卷積與池化的算法獲取局部特征并篩選得到局部特征,以上述各項特征作為情感分類器輸入,并對微博文本的情感分類器訓(xùn)練。

    圖1 微博文本情感分析流程圖

    3 卷積神經(jīng)網(wǎng)絡(luò)模型

    3.1 模型概況

    從圖2 中可以看到,本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)包含了三部分內(nèi)容。其中,第1 部分屬于輸入層,都是通過詞組構(gòu)成的詞向量形式來表達(dá)。對數(shù)據(jù)進(jìn)行預(yù)處理后可以得到一條包括n 個詞組的微博文本s,將其表示為{x1,x2,…,xn},這些元素基本都是文本語義特征詞,當(dāng)表情字符出現(xiàn)在微博內(nèi)容中時,則會形成和該表情相匹配的情感特征詞組。可以發(fā)現(xiàn),各詞組xi都可以被看成是一個d維向量,此時可通過word2vec 工具訓(xùn)練獲得。其中,1 條微博文本對應(yīng)1 個n×d 矩陣。第2 部分為卷積層,需通過卷積與池化運算來實現(xiàn)。在模型中可以設(shè)定各個長度的卷積核來獲取所需的特征,可以將各卷積核w 都看成h×d 矩陣,以h 表示卷積核的長度。采用卷積核實現(xiàn)對微博文本的卷積過程,具體表達(dá)式如下:

    上式中,si:i+h-1代表介于第i 個詞組到i+h-1 個詞組之間的連續(xù)片段;f 代表非線性激活函數(shù)ReLU;*是卷積運算符號;ti代表第i 個卷積特征。通過卷積核w 來實現(xiàn)對微博文本的卷積過程,由此得到特征集合T={t1,t2,...,tn-h+1} ,考慮到各個微博文本在詞組數(shù)量方面存在明顯差異,而且每個卷積核長度也存在一定的差異,從而導(dǎo)致特征集合長度也發(fā)生變化。此模型是以最大值池化操作的過程進(jìn)行計算,從特征集合中選擇最大值來表示特征值。

    可以利用池化操作來確保在不同長度的卷積核條件小得到具有相同長度的特征向量。分類層位于第3部分,類別概率計算結(jié)果如下:

    上式的Pj代表第j 類概率;X 對應(yīng)分類層輸入,W 對應(yīng)權(quán)值矩陣;bi與bj依次代表偏置項b第i和第j個元素;L 是類別數(shù)量。

    圖2 卷積神經(jīng)網(wǎng)絡(luò)控制示意圖

    3.2 正則化

    該模型是經(jīng)過歸一化運算獲得的網(wǎng)絡(luò)層。第一類通過卷積運算實現(xiàn)單個卷積核的卷積特征歸一化,之后再實施池化運算;第二類是加入歸一化層后再計算激活值,具體表達(dá)式如下所示:

    上式的g 代表歸一化函數(shù)。因為歸一化運算不會對偏置產(chǎn)生影響,所以把偏置項去除。

    4 基于微博表情字符的情感特征

    用戶可以通過微博平臺獲得多種不同的默認(rèn)表情符,從而更加形象地體現(xiàn)自己想要表達(dá)的感想。從圖3 中可以看到微博為用戶提供的所有默認(rèn)表情符。選擇傳統(tǒng)自然語言分析博客等各類語料時,只對文本自身含義進(jìn)行分析與信息提取,對文本進(jìn)行預(yù)處理時只對文本信息間過濾,同時將所有網(wǎng)頁鏈接以及各類特殊字符全部刪除,由此便會引起缺少微博文本情感的結(jié)果。

    圖3 表情庫

    進(jìn)行數(shù)據(jù)預(yù)處理時,應(yīng)提取圖像標(biāo)簽并對其進(jìn)行轉(zhuǎn)換,再把轉(zhuǎn)換獲得的表情字符插入對應(yīng)微博文本的位置,之后再采用方括號標(biāo)注上述表情字符,從而有效區(qū)分微博包含的各類表情和文本信息。把經(jīng)過處理的表情字符通過隨機初始化的模式使其轉(zhuǎn)化為相應(yīng)的詞向量,并跟語義特征形成一致的狀態(tài),由此完成情感特征以及語義特征之間的融合。

    5 測試分析

    5.1 數(shù)據(jù)集

    在數(shù)據(jù)集中含有word2vec 訓(xùn)練語料與微博數(shù)據(jù)。先對新聞?wù)膬?nèi)容進(jìn)行分詞,以此構(gòu)建word2vec 工具對數(shù)據(jù)進(jìn)行訓(xùn)練,再把詞向量的長度設(shè)定在d=300。完成以上訓(xùn)練后,可以生成共51.2685萬個詞組。再以隨機初始化方式處理詞向量集合不包含的詞組。由于微博數(shù)據(jù)集模型需處理表情字符,不能得到公開數(shù)據(jù)集,所以采用自行采集的過程得到1 萬條左右的微博文本,再利用人工標(biāo)注的方法分類得到消極與積極共二種類型,各樣本見表1。

    表1 積極文本和消極文本示例

    5.2 結(jié)果與討論

    總共進(jìn)行了3 組情感測試。其中,第1 組采用本文的微博情感分析模式,測試參數(shù)設(shè)置見表2。第2 組是沒有感情特征的建立在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的模型,是根據(jù)本文模型把所有表情字符除去后再將其表示為不含情感特征的模型。第3 組是以情感詞典為基礎(chǔ)建立的機器學(xué)習(xí)模型。通過F值和準(zhǔn)確率來衡量實際分類效果。以Pacc表示準(zhǔn)確率,Pprec表示精確率,Precall表示召回率,以上各值與F 值可以通過如下式子進(jìn)行計算:

    以上各組測試都通過10 折交叉計算來完成。從表3中可以看到各個測試的結(jié)果。

    表2 測試參數(shù)設(shè)置

    表3 測試結(jié)果

    通過分析表3 可以發(fā)現(xiàn),相對于機器學(xué)習(xí)模型,本文構(gòu)建的微博情感分析模式使情感分析和F值準(zhǔn)確率依次增大了0.1060 與0.1320。根據(jù)以上結(jié)果可知,綜合運用多維度文本特征與卷積神經(jīng)網(wǎng)絡(luò)方法更有助于進(jìn)行微博情感分析。

    6 結(jié)語

    利用word2vec 工具處理詞向量,根據(jù)短文本內(nèi)容獲取語義特征,并將微博文本中的表情字符作為情感特征,由此構(gòu)建得到特征集合;通過卷積神經(jīng)網(wǎng)絡(luò)模型提取深度抽象特征,同時訓(xùn)練分類器實現(xiàn)情感分類的過程。通過F 值和準(zhǔn)確率來衡量實際分類效果,相對于機器學(xué)習(xí)模型,本文構(gòu)建的微博情感分析模式使情感分析和F 值準(zhǔn)確率依次增大了0.1060 與0.1320。采用卷積神經(jīng)網(wǎng)絡(luò)和多維度文本特征分析方法可以有效提升微博情感分析的效果。

    猜你喜歡
    博文詞組卷積
    第一次掙錢
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    誰和誰好
    Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
    打電話2
    副詞和副詞詞組
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
    青田县| 普定县| 集贤县| 广德县| 景洪市| 天水市| 江永县| 吴旗县| 精河县| 闸北区| 凤山市| 朔州市| 胶州市| 鞍山市| 古丈县| 永福县| 阿拉善左旗| 萨嘎县| 阆中市| 榆树市| 卢氏县| 陕西省| 济南市| 墨竹工卡县| 双牌县| 西林县| 封开县| 新宁县| 贵南县| 疏勒县| 兴化市| 古交市| 喀什市| 宝山区| 腾冲县| 静宁县| 东乌珠穆沁旗| 库尔勒市| 修文县| 驻马店市| 玉林市|