• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于情感詞典的維吾爾語文本句子情感分類

    2014-04-29 18:22:08艾斯卡爾·艾木都拉等
    電腦知識(shí)與技術(shù) 2014年10期
    關(guān)鍵詞:維吾爾語詞典短語

    艾斯卡爾·艾木都拉等

    摘要:該文主要是針對(duì)維吾爾語中生氣,高興,難過及驚訝等四大類情感分別進(jìn)行基于情感詞詞典的句子情感分類。首先,結(jié)合維吾爾句子中的情感特點(diǎn),通過人工抽取的方法收集了維吾爾句子中能表達(dá)情感的關(guān)鍵詞和情感短語,并建立了包含情感關(guān)鍵詞和情感短語的情感詞詞典。然后,利用關(guān)鍵詞匹配算法實(shí)現(xiàn)了具有分類速度快、分類正確率較高的維吾爾語句子情感分類應(yīng)用系統(tǒng)。最后,給出了實(shí)驗(yàn)結(jié)果,并且分析了所存在的問題及提出了相應(yīng)的解決策略。

    關(guān)鍵詞:維吾爾語;情感詞;情感短語;情感詞詞典;句子情感;關(guān)鍵詞匹配;情感分類

    中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)10-2371-04

    Abstract:This paper is mainly for Uyghur angry, happiness, sadness and surprise etc. four categories respectively based on sentiment dictionary sentence sentiment classification. First, conducted a research on the sentiment features of the Uyghur sentence; through artificial extraction collected Uyghur sentence can be expressed emotional keywords and sentimental phrases and established the emotional dictionary that contains emotional keywords and emotional key phrases. Then, use keyword matching algorithm to achieve a classification with fast, correct classification rate of Uyghur sentence sentiment classification applications. Finally, the experiment results are given, and make an analysis of the existing problems and, for the further research, make recommendations for solution strategies.

    Key words:uyghur; sentiment word; sentimental phrase; sentiment dictionary; sentence sentiment; keyword matching; sentiment classification

    情感分類(Sentiment Classification)是指根據(jù)文本所表達(dá)的特點(diǎn)和情感信息,把情感文本劃分成兩種或幾種類型,即對(duì)文本作者傾向性和觀點(diǎn)、態(tài)度的劃分[1]。不久以來,隨著互聯(lián)網(wǎng)和通信技術(shù)的迅速發(fā)展,人們?cè)絹碓疥P(guān)注網(wǎng)絡(luò)里面帶有情感信息的文本,并相應(yīng)產(chǎn)生了情感文本分類的研究。尤其是情感文本傾向性分析(也稱情感分類)近年來受到了廣泛的關(guān)注[2-4]。

    目前,文本情感分類的研究已經(jīng)成為在國(guó)內(nèi)外研究的熱點(diǎn)問題之一。在國(guó)外,甚至出現(xiàn)了針對(duì)文本情感分類分析相關(guān)的評(píng)測(cè)標(biāo)準(zhǔn),例如:TREC2006-2007, Blog Track, NTCIR等。在國(guó)內(nèi),與情感分析相關(guān)的工作相對(duì)于國(guó)外起步較晚,但近年來也開始逐步興起,并取得了較好的研究成果。

    情感分類作為一種特殊的分類問題,既有一般模式分類的共性問題,也有其特殊性,如情感信息表達(dá)的隱蔽性、多義性和極性不明顯等。針對(duì)這些問題許多研究者進(jìn)行了研究,并提出了各自所使用的有效的分類方法??傮w來看,我們可以把這些方法根據(jù)所分析的粒度不同,大致可以分成詞匯級(jí)別、句子級(jí)別和篇章級(jí)別的情感分類[5]。其中句子級(jí)別的情感分類比詞匯級(jí)別的情感分類更加可靠,并可以方便地?cái)U(kuò)展到篇章級(jí)別的情感分類研究,因此,句子級(jí)別的情感分類具有重要的研究?jī)r(jià)值,也是本文的研究重點(diǎn)。

    至今為止,對(duì)于句子級(jí)別的情感分類相關(guān)的研究工作還處于初步階段。文獻(xiàn)[6]基于情感詞典進(jìn)行詞匯級(jí)別情感分析,并通過聚合方式得到句子級(jí)別的情感。文獻(xiàn)[7]采用加權(quán)線性組合的方法對(duì)句子進(jìn)行情感類型判斷。文獻(xiàn)[8]使用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型生成詞匯級(jí)別情感,并聚合得到句子級(jí)別情感。另外,文獻(xiàn)[9]采用互信息,信息增益,CHI統(tǒng)計(jì)量,文檔頻率等特征提取方法和文本特征表示方法,并以Naive Base(樸素貝葉斯)、ME(最大熵)和SVM(支持向量機(jī))作為不同的文本分類方法,分別進(jìn)行了維吾爾語情感分類。值得提及的是,這種分類方法雖然具有較好的分類效果,但該方法本身存在一個(gè)缺點(diǎn)。即該方法中對(duì)訓(xùn)練樣本集的數(shù)量要求較高、覆蓋度有限、有效特征的提取工作艱難。因此,我們通過初步地人工收集在句子中既能比較明顯地表達(dá)情感,又能具有情感分類能力的情感詞和情感短語,并建立情感詞詞典的方法有效地提高了維吾爾語句子的情感分類效果。

    本文研究的另一個(gè)重點(diǎn)是對(duì)維吾爾語文本情感分類的探索。雖然文本情感分類的研究已經(jīng)有十年左右的歷史,但是在維吾爾語上這項(xiàng)研究還很缺乏。這一方面源于維吾爾語言結(jié)構(gòu)的特殊性,如詞語本身的多義性/多形性、構(gòu)詞方法的復(fù)雜性,導(dǎo)致某些詞語在不同的語境下甚至可能表示完全不同的情感傾向;另一方面,出于語料庫本身的缺乏,難以進(jìn)行復(fù)雜模型的訓(xùn)練,也無法進(jìn)行橫向?qū)Ρ?,這極大限制了維吾爾語文本情感的分類研究。因此,該文利用情感在維吾爾語句子中的特點(diǎn)相結(jié)合,通過人工的方法從電影字幕和小說文本中收集了維吾爾語句子的情感分類有所幫助的情感詞和情感短語,并構(gòu)建了一個(gè)標(biāo)準(zhǔn)情感語料庫。

    1 維吾爾語句子情感分析

    1.1句子情感的特點(diǎn)

    通常,我們所說的情感的概念雖然具有復(fù)雜性,如生氣、高興、難過、驚訝等都屬于情感范疇,但這些情感在某種程度上可以利用一些區(qū)分能力較強(qiáng)的情感詞或情感短語來將文本歸入某類情感。該文根據(jù)維吾爾文本句子中的情感表達(dá)特點(diǎn),主要從維吾爾語的電影和小說文本中收集了生氣、高興、難過和驚訝等各種情感句子。我們發(fā)現(xiàn)這些情感句子中既是情感表達(dá)能力比較明顯,又是具有情感類別區(qū)分能力的情感詞和短語,在各類句子中確實(shí)存在。因此,我們以這種特點(diǎn)為出發(fā),針對(duì)生氣、高興、難過和驚訝等四種情感類型進(jìn)行基于情感詞詞典的情感分類。表1給出這四類情感詞的典型例句。

    1.2句子情感分類的難點(diǎn)

    相關(guān)研究表明,在維吾爾語中大部分情感詞歸類于名詞、形容詞、動(dòng)詞[10]等詞類,但是在實(shí)際應(yīng)用中對(duì)于情感分類有所幫助的這種詞匯并不多。因此,在情感分類中對(duì)分類有用特征詞的選擇不僅顯著增加維吾爾語句子情感分類的難度,還漸漸受到廣大研究人員的密切關(guān)注。

    通過對(duì)大量的情感句子語料進(jìn)行深入地分析(由上述表1典型例句中也可以看出),在維吾爾語句子的情感分類過程中,句子情感分類的主要難點(diǎn)可以歸納為以下幾點(diǎn):

    1)句子口語化:由于語料主要是抽取電影字幕或者小說,絕大部分句子幾乎是個(gè)口語。因此,語氣詞對(duì)情感分類的貢獻(xiàn)是不可忽略的。

    2)句子過于簡(jiǎn)單:這些句子中大都數(shù)句子屬于簡(jiǎn)單句,基本上沒有復(fù)句。句子長(zhǎng)度和其中內(nèi)容十分簡(jiǎn)約,有的只有一兩句話,甚至幾個(gè)詞語,以至于太“短”而難以被看作一篇完整的句子。因此,無法進(jìn)行句子中的轉(zhuǎn)折性連詞成分情感分析。

    3)可用資源很少:在維吾爾語中還是沒有英語WordNet和漢語的HowNet等已建好的語義網(wǎng)絡(luò)等可用資源。因此,維吾爾語中尚缺少情感信息標(biāo)注語料,情感詞典等可利用的資源。

    4)相關(guān)研究極少:目前,雖然對(duì)英語和漢語的情感分析研究較多,已經(jīng)公開的、很有參考價(jià)值的研究成果也較豐富,但是針對(duì)維吾爾語情感分析的研究卻很少。

    5)停用詞迥然不同:由于在維吾爾語文本處理過程中常用的停用詞已包含在情感分類中對(duì)正確分類有極大幫助的一些語氣詞,所以進(jìn)行情感分類時(shí)需要重新處理這些常用停用詞。

    綜上所述,與一般文本分類相比,由于在維吾爾語情感句子文本資源本身存在許多不同的情感分類艱難之處,如:可用資源不夠、句子結(jié)構(gòu)簡(jiǎn)單而趨向于口語話、停用詞處理的特殊性等。所以在進(jìn)行維吾爾語情感分類時(shí),不僅選擇能表達(dá)情感的詞語,還有能區(qū)分能力情感類型的情感詞,并進(jìn)行情感類型的分類。為此,針對(duì)以上問題,該文在基于情感詞典的方法來進(jìn)行維吾爾句子的情感分類。

    2 維吾爾語句子情感分類

    由于在本文實(shí)驗(yàn)中所用句子的結(jié)構(gòu)不僅是簡(jiǎn)單,而且接近于口語。所以在句子情感分類實(shí)驗(yàn)過程中某個(gè)句子中情感詞或情感短語的出現(xiàn)次數(shù)很低,這種實(shí)際情況對(duì)情感分類研究工作中提取情感區(qū)分能力的有效特征的選擇和引用分類器(如:SVM,Na?ve Base等)建模,并進(jìn)行分類處理帶來了巨大的難度。因此,我們通過人工抽取的方法收集了具有區(qū)分能力的各類相應(yīng)的情感詞和情感短語,并建立了情感詞詞典。情感詞詞典的部分實(shí)例表2中所示。

    維吾爾語句子情感分類系統(tǒng)運(yùn)行過程中讀取每個(gè)句子之后,進(jìn)行各類情感詞典的匹配,其中首先進(jìn)行句子所包含的情感詞的匹配,然后情感短語的匹配操作,最后通過該句子屬于各類情感詞典匹配次數(shù)為統(tǒng)計(jì)量,并按照匹配次數(shù)的最大值進(jìn)行維吾爾語句子情感分類。如果情感分類過程中某個(gè)句子的情感詞匹配次數(shù)相等,則以計(jì)算情感短語匹配次數(shù)的最大值為準(zhǔn)進(jìn)行句子情感分類。

    2.2情感分類算法描述

    關(guān)鍵詞匹配算法是維吾爾語句子情感分類的主要部分,其算法流程,如圖2所示。

    根據(jù)以上算法流程圖,我們可以該算法描述為如下:

    1)遍歷所有的句子并讀取當(dāng)前需要處理的目標(biāo)句子。如果所有目標(biāo)句子詞典匹配結(jié)束,則退出該系統(tǒng)。

    2)目標(biāo)句子與各類情感詞詞典中的每個(gè)關(guān)鍵情感詞條進(jìn)行匹配。如果目標(biāo)句子與情感詞典沒有匹配的關(guān)鍵詞條,則轉(zhuǎn)至第一步,并開始執(zhí)行下一個(gè)目標(biāo)句子的匹配操作。如果情感詞匹配成功,轉(zhuǎn)至第三步。

    3)統(tǒng)計(jì)目標(biāo)句子在各類情感詞典中的匹配次數(shù)和求出最大值。判斷目標(biāo)句子匹配次數(shù)的最大值是否同時(shí)等于至少兩個(gè)情感類型的匹配次數(shù)。如果不存在至少兩個(gè)情感類型匹配次數(shù)相等,轉(zhuǎn)至第四步。否則轉(zhuǎn)至第五步。

    4)按照情感詞匹配次數(shù)的最大值進(jìn)行情感分類,并返回到第一步。即開始執(zhí)行下一個(gè)目標(biāo)句子的匹配操作。

    5)對(duì)目標(biāo)句子匹配次數(shù)最大值相等的情感類型分別進(jìn)行該類情感短語的匹配操作。如果匹配成功轉(zhuǎn)至第四步,否則返回到第一步。

    6)輸出情感分類結(jié)果。

    3 實(shí)驗(yàn)與分析

    3.1實(shí)驗(yàn)數(shù)據(jù)

    由于維吾爾語很缺少用于情感分類的標(biāo)準(zhǔn)數(shù)據(jù)庫,我們收集了一個(gè)用于情感分類測(cè)試的文本數(shù)據(jù)庫,其中包括生氣類425個(gè)句子、高興類263個(gè)句子、難過類120個(gè)句子和驚訝類65個(gè)句子。數(shù)據(jù)庫的文本語料主要來源于維吾爾語的電影字幕文本,還有從bbs.izdinix.com、bbs.misranim.com、bbs.alkuyi.com等論壇評(píng)語中抽取來的。是因?yàn)檫@些數(shù)據(jù)源所包含較豐富的情感信息。另外,為了使情感分類系統(tǒng)獲得更加廣泛的適用性,該文通過人工抽取的方法又收集了情感關(guān)鍵詞和情感短語,并建立了規(guī)模較小的情感詞詞典。其中,共有屬于生氣類的183個(gè)情感詞條、高興類81個(gè)情感詞條、難過類140個(gè)情感詞條、驚訝類72個(gè)情感詞條。

    3.2實(shí)驗(yàn)指標(biāo)

    典型地,在自然語言處理中通常采用準(zhǔn)確率,召回率和綜合指標(biāo)F-值是三個(gè)常用的實(shí)驗(yàn)評(píng)測(cè)指標(biāo)。該文在情感關(guān)鍵詞詞匹配算法的基礎(chǔ)上實(shí)現(xiàn)的情感分類系統(tǒng)的分類性能進(jìn)行評(píng)測(cè)時(shí),同樣采用了這3個(gè)評(píng)測(cè)指標(biāo):準(zhǔn)確率(P),召回率(R),綜合指標(biāo)F-值(F)來評(píng)價(jià)本系統(tǒng)的性能。計(jì)算公式為:

    3.3實(shí)驗(yàn)結(jié)果及分析

    本文,在以上所描述的情感分類算法的基礎(chǔ)上,利用Visual Studio C Sharp 2010 編程工具實(shí)現(xiàn)了維吾爾語句子情感分類系統(tǒng)。為了驗(yàn)證本文所提出的情感分類算法的有效性,我們使用所有資源語料進(jìn)行情感分類測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)測(cè)試結(jié)果如表3所示。

    測(cè)試結(jié)果表明,該情感分類算法對(duì)維吾爾語句子情感分類具有相當(dāng)好的分類效果,該系統(tǒng)中除了驚訝類外,可以達(dá)到較高的情感分類的正確率。顯然,為高興類而建立的情感詞詞典不夠大,但是在句子中能表達(dá)高興類的情感關(guān)鍵詞比較突出明顯和集中化。所以高興類的情感分類可以達(dá)到90.11%的正確率和86.02%的F1值。

    另外,從實(shí)驗(yàn)結(jié)果可以看出,該系統(tǒng)進(jìn)行句子情感分類時(shí),分類結(jié)果中會(huì)出現(xiàn)有些情感類型句子的分類總數(shù)超過原來的句子總數(shù)(例如:生氣類中句子總數(shù)為480,分類以后所得到的句子總數(shù)為509),這是個(gè)理所當(dāng)然的現(xiàn)象。因?yàn)橄到y(tǒng)進(jìn)行情感分類時(shí),系統(tǒng)錯(cuò)誤地屬于該類的某些句子同時(shí)分類于其它類。

    與此同時(shí),一般在驚訝類的句子很少見的緣故,采集該類的語料和抽取較明顯表達(dá)該類情感關(guān)鍵詞工作當(dāng)中顯然存在困惑。因而,可以達(dá)到的效果不佳。

    4 總結(jié)

    本文在基于情感詞詞典的維吾爾語句子進(jìn)行情感分類研究與分析,并初步實(shí)現(xiàn)了維吾爾語句子情感分類應(yīng)用系統(tǒng)。首先,通過人工抽取方法收集了情感關(guān)鍵詞和情感短語,并建立了情感詞詞典。然后,借助詞典匹配的思想,提出了維吾爾語情感分類算法,并利用該算法進(jìn)行維吾爾語句子情感分類。實(shí)驗(yàn)測(cè)試結(jié)果表明,我們所提出的分類算法在維吾爾語句子的感情分類方面具有相當(dāng)好的分類效果。另外,在維吾爾語句子情感分類系統(tǒng)中該算法的實(shí)用足夠地說明該算法的應(yīng)用性。從而驗(yàn)證我們算法的有效性和可用性。

    因此,今后的研究工作中除了改善關(guān)鍵詞匹配算法以外,還需要自動(dòng)提取情感關(guān)鍵詞和情感短語方面更進(jìn)一步地探索。

    參考文獻(xiàn):

    [1] 宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2013.

    [2] 代大明,李壽山.基于情緒詞的非監(jiān)督中文情感分類方法研究[J].中文信息學(xué)報(bào),2012,26(4):103-108

    [3] 趙志偉.中文文本傾向性分析研究[D].安徽:安徽大學(xué),2012.

    [4] Kao E C C, Liu C C, Yang T H, et al. Towards Text-based Emotion Detection A Survey and Possible Improvements[C]//Information Management and Engineering, 2009. ICIME'09.International Conference on. IEEE, 2009: 70-74.

    [5] 李壽山.情感文本分類研究[D].北京:中國(guó)科學(xué)院自動(dòng)化研究所,2008.

    [6] 潘文彬.基于情感詞詞典的中文句子情感傾向性分析[D].北京:北京郵電大學(xué),2011.

    [7] 王素格,楊安娜,李德玉.基于漢語情感詞表的句子情感傾向分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(24):153-155

    [8] 黃俊,田生偉,禹龍.基于維吾爾語情感詞的句子情感分析[J].計(jì)算機(jī)工程,2012(5).

    [9] 田生偉,禹龍,王宇光.維吾爾語情感分類算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(36):147-151

    [10] 馮冠軍,禹龍,田生偉.基于CRFs自動(dòng)構(gòu)建維吾爾語情感詞語料庫[J].現(xiàn)代圖書情報(bào)技術(shù),2011,3(203)17:21.

    猜你喜歡
    維吾爾語詞典短語
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    評(píng)《現(xiàn)代漢語詞典》(第6版)
    詞典例證翻譯標(biāo)準(zhǔn)探索
    統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
    維吾爾語話題的韻律表現(xiàn)
    維吾爾語詞重音的形式判斷
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
    語言與翻譯(2014年3期)2014-07-12 10:32:09
    《胡言詞典》(合集版)刊行
    莱芜市| 彭泽县| 新竹市| 城市| 东乡| 象山县| 志丹县| 宣威市| 武乡县| 怀集县| 娄烦县| 岳阳县| 神木县| 张家界市| 灵武市| 黑龙江省| 始兴县| 噶尔县| 和硕县| 河间市| 临海市| 邹平县| 宁南县| 靖州| 关岭| 临城县| 林甸县| 霞浦县| 溧水县| 金湖县| 阳泉市| 突泉县| 长沙县| 海盐县| 侯马市| 凉山| 鹤庆县| 唐河县| 和龙市| 宜兰县| 绥德县|