• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    視頻的語(yǔ)義情感分析研究

    2019-11-15 10:23:54崔冠軍
    電子技術(shù)與軟件工程 2019年19期
    關(guān)鍵詞:語(yǔ)料庫(kù)分類(lèi)器語(yǔ)義

    文/崔冠軍

    1 研究背景與現(xiàn)狀

    1997年,美國(guó)麻省理工學(xué)院教授Rosalind W.Picard首先提出情感計(jì)算的概念,她認(rèn)為情感計(jì)算是機(jī)器能夠?qū)θ祟?lèi)情感的外在表現(xiàn)進(jìn)行測(cè)量和分析并能對(duì)情感施加影響的能力。情感分析是人工智能發(fā)展的分水嶺。情感分析功能,是以后機(jī)器人進(jìn)入家用民用的必備能力,區(qū)別于工業(yè)機(jī)器人的屬性要求。判斷情緒、看出眉眼高低,對(duì)于人類(lèi)來(lái)說(shuō),可能連不會(huì)說(shuō)話(huà)的小孩都能做到??墒牵@個(gè)能力卻是目前人工智能的最高水平。也就是說(shuō),人工智能發(fā)展的水平還沒(méi)有足夠高,使機(jī)器人可以更像人。而機(jī)器不能更像人的障礙之一就是人工智能的情緒。情感分析的發(fā)展和快速起步得益于網(wǎng)絡(luò)上的社交媒體,這是人類(lèi)歷史上首次有如此巨大數(shù)字量的形式記錄。目前,情緒分析已經(jīng)成長(zhǎng)為自然語(yǔ)言處理中最活躍的研究領(lǐng)域之一,它已經(jīng)從計(jì)算機(jī)科學(xué)蔓延到管理科學(xué)和社會(huì)科學(xué),由于其重要的商業(yè)性引發(fā)整個(gè)社會(huì)的共同關(guān)注。Fan[1]等人提出基于混合模型的文本主題-情感分析方法,評(píng)估測(cè)試文本與模型之間的相似性,確定文本的主題和情感傾向。Tan[2]等人提出自適應(yīng)樸素貝葉斯分類(lèi)器的加權(quán)傳遞方法,即樸素的貝葉斯傳遞分類(lèi)器(ntbc),顯著地提高了基分類(lèi)器的性能。Sun[3]等人針對(duì)有監(jiān)督樣本不容易獲取的問(wèn)題,提出一種無(wú)監(jiān)督的主題情感混合模型。該模型對(duì)句子采樣情感標(biāo)簽,對(duì)詞采樣主題標(biāo)簽,無(wú)需對(duì)樣本進(jìn)行標(biāo)注,即可完成文檔情感分類(lèi)。Wei[4]等人提出了一個(gè)基于本體的意見(jiàn)感知框架EOSentiMiner,從語(yǔ)義的角度對(duì)中文在線(xiàn)評(píng)論進(jìn)行情感分析。Perikos[5]等人提出了一種基于分類(lèi)器集成的文本自動(dòng)識(shí)別系統(tǒng),設(shè)計(jì)的集成分類(lèi)器模式是基于知識(shí)、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)相結(jié)合的分類(lèi)方法,充分利用他們的優(yōu)點(diǎn),在識(shí)別文本中情感存在的能力和識(shí)別情感極性的能力方面表現(xiàn)相當(dāng)出色。王旭仁[6]等針對(duì)文本挖掘過(guò)程中存在的搜索空間過(guò)大問(wèn)題,改進(jìn)語(yǔ)義分析算法,對(duì)詞項(xiàng)和文檔矩陣進(jìn)行奇異值分解,解決一詞多義問(wèn)題。Wu[7]等人提出基于概率圖模型的情感分析方法,分析訓(xùn)練語(yǔ)料先建立具有先驗(yàn)概率的圖模型,再將概率值歸一為情感特征值,使用支持向量機(jī)(SVM)實(shí)現(xiàn)分類(lèi)。Li[8]等人研究在最少人工監(jiān)控的情況下學(xué)習(xí)高質(zhì)量情感模型的問(wèn)題,提出了一種新方法,結(jié)合領(lǐng)域相關(guān)的未標(biāo)記數(shù)據(jù)和少量標(biāo)記文檔,以領(lǐng)域無(wú)關(guān)的情感負(fù)載項(xiàng)的形式學(xué)習(xí)詞匯先驗(yàn)知識(shí),實(shí)現(xiàn)情感分析。Zhai[9]等人研究使用自動(dòng)編碼器對(duì)文本數(shù)據(jù)建模,針對(duì)傳統(tǒng)自動(dòng)編碼器存在的詞匯規(guī)模的高維度和處理與任務(wù)無(wú)關(guān)的詞匯兩個(gè)方面的問(wèn)題,通過(guò)引入自動(dòng)編碼器的丟失功能來(lái)解決。為了減少單個(gè)分類(lèi)器帶來(lái)的偏差,定義了分類(lèi)器權(quán)值的后驗(yàn)概率分布,獲得了良好的分類(lèi)性能。Cui[10]等人針對(duì)bag-of-n-gram模型導(dǎo)出的n-gram特征對(duì)n-gram的順序不敏感的問(wèn)題,整合詞序的分布語(yǔ)義特征,不受詞序長(zhǎng)度的影響,還學(xué)習(xí)詞性序列的分布語(yǔ)義特征,作為情感分析的附加句法相關(guān)線(xiàn)索,語(yǔ)義特征能自動(dòng)捕獲本地上下文和全局上下文,提高了情感分析的質(zhì)量。Li[11]等人建立了一個(gè)語(yǔ)義豐富的混合神經(jīng)網(wǎng)絡(luò)(HNN)模型,該模型利用無(wú)監(jiān)督的教學(xué)模型,將語(yǔ)義知識(shí)融入到神經(jīng)網(wǎng)絡(luò)中,增強(qiáng)推理能力和解釋能力,提高了情感分類(lèi)的可解釋性。Kratzwald[12]等人提出一種針對(duì)情感計(jì)算的遷移學(xué)習(xí)形式sent2affect:網(wǎng)絡(luò)被預(yù)先訓(xùn)練為不同的任務(wù)(即情感分析),而輸出層隨后被調(diào)整為情感識(shí)別任務(wù)。Nguyen[13]等人提出了一種結(jié)合模糊邏輯的卷積神經(jīng)網(wǎng)絡(luò)(fcnn)及其相關(guān)學(xué)習(xí)算法。模型利用模糊隸屬度產(chǎn)生更精細(xì)的輸出,從而減少了情感分類(lèi)中情感方面的模糊性,提高了情感分類(lèi)的性能。Zou等人采用社區(qū)檢測(cè)的方法來(lái)捕獲弱依賴(lài)關(guān)系,提出一種新的微博情感分析模型,該模型將弱依賴(lài)關(guān)系、情感一致性、情感傳染與文本信息結(jié)合起來(lái),顯著地提高了情緒分析性能。Chen[15]等人提出并構(gòu)建基于半監(jiān)督訓(xùn)練集的多文本情感數(shù)據(jù)協(xié)同訓(xùn)練,結(jié)合情感詞頻、情感詞典、情感語(yǔ)義信息構(gòu)建三種情感詞向量,利用CNN和LSTM模型進(jìn)行分類(lèi),提高了分類(lèi)的準(zhǔn)確性。當(dāng)前的情感語(yǔ)料庫(kù)中情感標(biāo)注主要為傾向標(biāo)注,導(dǎo)致現(xiàn)下的語(yǔ)義分類(lèi)模型功能基本都是完成情感傾向的檢測(cè)。本論文中,花費(fèi)大量精力將Twitter情感分析訓(xùn)練語(yǔ)料庫(kù)重新進(jìn)行情感標(biāo)注。原有語(yǔ)料庫(kù)的類(lèi)別標(biāo)簽為兩大類(lèi),1代表積極情緒,0代表負(fù)面情緒。我們進(jìn)行了更細(xì)粒度的情感標(biāo)注,將其分為中性、快樂(lè)、悲傷、生氣、驚訝、恐懼六類(lèi)基本情緒。然后,采用TextCNN模型對(duì)AFEW數(shù)據(jù)庫(kù)中視頻片段內(nèi)包含的語(yǔ)義信息進(jìn)行情感分析。

    2 研究方法

    圖1:ELMO原理圖

    2.1 Elmo—?jiǎng)討B(tài)詞向量

    Elmo由艾倫研究所開(kāi)發(fā),被稱(chēng)為時(shí)下最好的通用詞和句子嵌入方法,來(lái)自于語(yǔ)言模型的詞向量表示,也是利用了深度上下文單詞表征。ELMo是雙向語(yǔ)言模型biLM的多層表示的組合,基于大量文本,ELMo模型是從深層的雙向語(yǔ)言模型中的內(nèi)部狀態(tài)學(xué)習(xí)而來(lái)的,而這些詞向量很容易加入到QA、文本對(duì)齊、文本分類(lèi)等模型中。

    如圖1所示,它首先在大文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練了一個(gè)深度雙向語(yǔ)言模型(biLM),然后把根據(jù)它的內(nèi)部狀態(tài)學(xué)到的函數(shù)作為詞向量。實(shí)驗(yàn)表明,這些學(xué)到的詞表征可以輕易地加入到現(xiàn)有的模型中,并在回答問(wèn)題、文本蘊(yùn)含、情感分析等6個(gè)不同的有難度的 NLP 問(wèn)題中大幅提高最佳表現(xiàn)。實(shí)驗(yàn)表明顯露出預(yù)訓(xùn)練模型的深度內(nèi)部狀態(tài)這一做法非常重要,這使得后續(xù)的模型可以混合不同種類(lèi)的半監(jiān)督信號(hào)。

    2.2 TextCNN

    TextCNN由Yoon Kim提出,將卷積神經(jīng)網(wǎng)絡(luò)CNN應(yīng)用到文本分類(lèi)任務(wù),利用多個(gè)不同size的kernel來(lái)提取句子中的關(guān)鍵信息,從而能夠更好地捕捉局部相關(guān)性。

    如圖2所示,TextCNN詳細(xì)過(guò)程:

    (1)Embedding:第一層是圖中最左邊的7乘5的句子矩陣,每行是詞向量,維度=5,這個(gè)可以類(lèi)比為圖像中的原始像素點(diǎn)。

    (2)Convolution:然后經(jīng)過(guò)kernel_sizes=(2,3,4) 的一維卷積層,每個(gè)kernel_size有兩個(gè)輸出 channel。

    (3)MaxPolling:第三層是一個(gè)1-max pooling層,這樣不同長(zhǎng)度句子經(jīng)過(guò)pooling層之后都能變成定長(zhǎng)的表示。

    (4)FullConnection and Softmax:最后接一層全連接的softmax層,輸出每個(gè)類(lèi)別的概率。

    3 實(shí)驗(yàn)

    3.1 AFEW數(shù)據(jù)集

    AFEW數(shù)據(jù)集,該數(shù)據(jù)集為Emotion Recognition In The Wild Challenge(Emotiw)系列情感識(shí)別挑戰(zhàn)賽使用的數(shù)據(jù)集,內(nèi)容為從電影中剪輯的包含表情的視頻片段,表情標(biāo)簽為高興、悲傷、生氣、驚訝、恐懼、中性六類(lèi)基本表情。

    3.2 Twitter情感分析訓(xùn)練語(yǔ)料庫(kù)

    Twitter情感分析訓(xùn)練語(yǔ)料庫(kù),該情感分析數(shù)據(jù)集包含31962條分類(lèi)推文。原有的語(yǔ)料庫(kù)每行標(biāo)記為1表示積極情緒,0表示負(fù)面情緒。我們對(duì)語(yǔ)料庫(kù)的每條推文重新進(jìn)行了情感標(biāo)注,與AFEW數(shù)據(jù)集一致,分為高興、悲傷、生氣、驚訝、恐懼、中性六類(lèi)基本情緒;

    3.3 實(shí)驗(yàn)細(xì)節(jié)

    首先,使用Elmo將Twitter情感分析訓(xùn)練語(yǔ)料庫(kù)中的推文轉(zhuǎn)化為向量表示,對(duì)TextCNN模型進(jìn)行訓(xùn)練。然后,對(duì)AFEW數(shù)據(jù)集中的視頻片段進(jìn)行預(yù)處理,提取視頻片段中的音頻信息,并使用訊飛語(yǔ)音識(shí)別平臺(tái)獲取音頻中的語(yǔ)義信息,同樣使用Elmo轉(zhuǎn)化為向量表示。使用訓(xùn)練好的TextCNN模型對(duì)AFEW數(shù)據(jù)集中視頻片段內(nèi)包含的語(yǔ)義信息進(jìn)行情感分析。

    3.4 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)獲得了63.1%的準(zhǔn)確率。

    4 結(jié)論

    AFEW數(shù)據(jù)集中的內(nèi)容為從電影中剪輯的包含表情的視頻片段,真實(shí)性很高。使用AFEW數(shù)據(jù)集的研究主要集中于表情模態(tài)、語(yǔ)音模態(tài)。究其原因,AFEW數(shù)據(jù)集的情感標(biāo)注為六種基本情緒,而當(dāng)下可用于深度學(xué)習(xí)的情感分析語(yǔ)料庫(kù)的情感標(biāo)注基本為情感傾向性標(biāo)注,達(dá)不到相應(yīng)的細(xì)粒度。通過(guò)本篇論文的研究,語(yǔ)義模態(tài)對(duì)于視頻的情感分析也起著至關(guān)重要的作用。之后的研究中,考慮將語(yǔ)義模態(tài)與表情、語(yǔ)音模態(tài)相結(jié)合,進(jìn)一步地提高視頻情感分析的準(zhǔn)確率。

    圖2:TextCNN原理圖

    猜你喜歡
    語(yǔ)料庫(kù)分類(lèi)器語(yǔ)義
    語(yǔ)言與語(yǔ)義
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
    結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    認(rèn)知范疇模糊與語(yǔ)義模糊
    基于LLE降維和BP_Adaboost分類(lèi)器的GIS局部放電模式識(shí)別
    怀仁县| 大关县| 磴口县| 平舆县| 保定市| 壶关县| 东台市| 涿州市| 泾川县| 屏山县| 武清区| 垣曲县| 刚察县| 集安市| 铅山县| 成武县| 荣成市| 惠安县| 开化县| 开江县| 长葛市| 灌云县| 洪洞县| 化德县| 佛冈县| 诸暨市| 阳曲县| 扎囊县| 望城县| 新巴尔虎左旗| 彰武县| 乌苏市| 阿勒泰市| 晴隆县| 巴东县| 晋州市| 丽水市| 白水县| 云和县| 邵武市| 象州县|