劉若蘭,年 梅,瑪爾哈巴·艾賽提
(1. 新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2. 新疆師范大學(xué) 文學(xué)院,新疆 烏魯木齊 830054)
移動互聯(lián)網(wǎng)和社交軟件的快速發(fā)展,使網(wǎng)絡(luò)成為維吾爾族網(wǎng)民獲取信息、共享資源、相互交流、發(fā)表觀點(diǎn)的重要平臺。隨著基于維吾爾語的網(wǎng)站數(shù)量越來越多,帶有情感色彩的維吾爾語網(wǎng)絡(luò)文本逐漸增加,并以極快的速度廣泛傳播,如果不加控制,網(wǎng)絡(luò)中消極無益信息的散布將給人們帶來嚴(yán)重危害,錯誤輿論的擴(kuò)散甚至?xí)蓴_社會、經(jīng)濟(jì)的正常發(fā)展。對網(wǎng)絡(luò)文本傾向性的快速準(zhǔn)確分析,能夠?qū)崟r有效地監(jiān)控輿情動態(tài),便于政府部門及時倡導(dǎo)正能量,同時有利于及時過濾網(wǎng)絡(luò)有害信息,凈化網(wǎng)絡(luò)環(huán)境,避免人們受到此類信息的危害。網(wǎng)絡(luò)文本傾向性分析的基礎(chǔ)資源是情感詞典,情感詞典的完整性和準(zhǔn)確性將直接影響文本情感分類的準(zhǔn)確率。由于項(xiàng)目組在前期構(gòu)建維吾爾語基礎(chǔ)情感詞典[1]時選用的候選情感詞主要借助對中英文情感詞典進(jìn)行翻譯和篩選形成,數(shù)量有限,尚未充分考慮網(wǎng)絡(luò)中大量的新詞和變形詞。情感詞的覆蓋面不足,導(dǎo)致文本傾向性判別的精確度還不能完全滿足信息過濾的需求。因此,本文在前期研究的基礎(chǔ)上,開展基于網(wǎng)絡(luò)語料的維吾爾語情感詞庫的自動擴(kuò)展研究,為維吾爾語情感詞的自動更新及擴(kuò)展提供技術(shù)支持。
通過對中英文情感詞典構(gòu)建的文獻(xiàn)調(diào)研表明,現(xiàn)階段情感詞的獲取技術(shù)主要有以下兩種。
(1) 基于語義詞典或知識庫判別情感詞,構(gòu)建極性情感詞典。這種方法的主要思路是: 選擇極性確定且明顯的一組褒義詞和貶義詞作為種子詞集,利用HowNet、WordNet以及同義詞詞林等資源提供的語義關(guān)系,設(shè)計(jì)算法獲取候選詞與種子詞的語義相似度,以此為據(jù)判斷候選詞的情感傾向。例如,Kamps等[2]提出利用WordNet中詞匯間語義距離的概念,計(jì)算情感傾向待定詞與表示褒貶態(tài)度的基準(zhǔn)詞(“good”和“bad”)的關(guān)聯(lián)度來識別詞匯的情感類別。朱嫣嵐等[3]則利用HowNet中有關(guān)語義相似度和語義相關(guān)場的定義,設(shè)計(jì)算法得到詞匯的語義傾向值,再根據(jù)語義傾向值判別詞匯的褒貶傾向。黃碩等[4]提出基于知網(wǎng)和同義詞詞林信息融合的方法,進(jìn)行詞匯的語義傾向計(jì)算。金宇等[5]借助《現(xiàn)代漢語大詞典》中詞語的釋義推出其他詞的情感極性。
(2) 基于語料庫的情感極性判別方法。該方法通過學(xué)習(xí)大規(guī)模語料中詞語的搭配特征、共現(xiàn)和統(tǒng)計(jì)等特征得到一部情感詞典。例如,文獻(xiàn)[6]利用語句中“and”、“but”等連詞銜接極性形容詞的特性,從語料中識別通過連詞相聯(lián)系的形容詞對,使用圖的聚類算法將抽取的形容詞聚集成褒貶兩類,從而實(shí)現(xiàn)詞匯的極性判斷。王科等[7]利用語料中的連接關(guān)系,同時結(jié)合轉(zhuǎn)折詞和否定詞對文本傾向的影響,將語料中的詞匯劃分成兩個詞集,再進(jìn)一步確定各詞集對應(yīng)的情感類別。Turney等[8]借助統(tǒng)計(jì)學(xué)中逐點(diǎn)互信息的概念衡量目標(biāo)詞與種子情感詞的相關(guān)性,利用搜索引擎返回的hits數(shù),計(jì)算目標(biāo)詞與所有褒、貶種子詞的SO—PMI值來判定目標(biāo)詞的情感指向。陽愛明等[9]借助Turney的思想構(gòu)建中文情感詞典,對三部開源情感詞典合并去重形成基礎(chǔ)情感詞集,利用百度搜索引擎以及改進(jìn)的PMI算法重新計(jì)算基礎(chǔ)情感詞集中全部詞匯的情感權(quán)值。維吾爾語方面,文獻(xiàn)[10]在維吾爾語情感詞匯語言特征的分析之上,設(shè)計(jì)CRFS的特征模板用于自動識別維吾爾語情感詞匯。
目前,維吾爾語文本的傾向性分析研究尚處于起步階段,缺乏完備齊全的維吾爾語語義資源。由于缺少可用的電子資源,基于語義詞典或知識庫的方法在現(xiàn)階段仍難以實(shí)現(xiàn)。因此,本文采用基于網(wǎng)絡(luò)文本語料庫的方法,以項(xiàng)目組先前構(gòu)建的維吾爾語情感詞典資源為基礎(chǔ),獲取包含情感詞的維吾爾語情感句,分析歸納情感句中連詞和程度副詞與情感詞的搭配特點(diǎn),基于搭配關(guān)系利用網(wǎng)絡(luò)語料抽取維吾爾語候選情感詞,形成候選情感詞庫;最后將網(wǎng)絡(luò)作為超大規(guī)模語料庫,利用維吾爾語中并列連詞聯(lián)系極性相同或極性相反詞匯的規(guī)律,設(shè)計(jì)了利用維吾爾語反義詞詞典以及Google搜索返回的頁面結(jié)果數(shù)計(jì)算情感未知詞與褒貶情感詞集的相似度算法,依據(jù)計(jì)算結(jié)果判定情感類別后并入相應(yīng)的褒貶詞典,實(shí)現(xiàn)維吾爾語情感詞庫的不斷擴(kuò)展,為基于詞典開展維吾爾語網(wǎng)絡(luò)文本的傾向性分析研究提供重要工具。
維吾爾語和其他語言相似,情感詞主要聚集在名詞、形容詞以及它們的搭配關(guān)系中。因此,本文首先對維吾爾語情感句進(jìn)行分析,總結(jié)維吾爾語中情感詞的特點(diǎn),然后基于連詞銜接情感詞、以及程度副詞修飾情感詞的規(guī)律從語料中抽取帶有情感極性的詞匯,再設(shè)計(jì)極性判別算法確定其情感類別。
維吾爾語中,連詞起銜接詞與詞、詞組與詞組、分句與分句、句群的作用。并且連詞連接的大多數(shù)句子成分是相關(guān)的,即它們表達(dá)的情感色彩可能是相同的,也可能是相反的。其中轉(zhuǎn)折連詞連接的句子成分通常具有相反的情感傾向,而并列連詞和遞進(jìn)連詞在大多數(shù)情況下銜接情感極性相同的句子成分,但并列連詞和遞進(jìn)連詞有時也會連接一組表達(dá)相反意義和相反情感的反義詞組。
維吾爾語情感句中,還存在其他的上下文搭配關(guān)系,但由于受到現(xiàn)階段維吾爾語資源和工具軟件的限制,本文僅選擇了上述兩個特點(diǎn)鮮明、最易于實(shí)現(xiàn)的特征進(jìn)行候選情感詞的抽取,即連詞、程度副詞與情感詞的搭配規(guī)則。
表1 維吾爾語中修飾情感詞的常用程度副詞
本文在已構(gòu)建的褒貶情感詞庫的基礎(chǔ)上,使用搜集的網(wǎng)絡(luò)文本作為候選情感詞的抽取語料,再以互聯(lián)網(wǎng)豐富的數(shù)據(jù)資源作為詞匯傾向性的判別語料,將語言特征和統(tǒng)計(jì)學(xué)方法相結(jié)合設(shè)計(jì)算法,實(shí)現(xiàn)維吾爾語情感詞的自動擴(kuò)展。
本文利用項(xiàng)目組前期構(gòu)建的維吾爾語褒貶情感詞典,進(jìn)行候選情感詞的篩選和極性判別。目前該情感詞集共包括褒義詞2 042個,貶義詞2 473個,對于其中的褒義詞集本文用Pwords表示,貶義詞集用Nwords表示,Bwords則代表基礎(chǔ)情感詞集。本研究在此詞集的基礎(chǔ)上,基于網(wǎng)絡(luò)語料進(jìn)行維吾爾語情感詞的抽取和極性判別,擴(kuò)展得到的新情感詞則追加到該情感詞典中,以不斷擴(kuò)展情感詞庫的詞匯數(shù)量和覆蓋面,為文本情感分析性能的提高提供支持資源。
為識別維吾爾語候選情感詞,本文首先根據(jù)維吾爾語情感詞匯與并列連詞和程度副詞的上下文關(guān)系,利用收集的網(wǎng)絡(luò)語料抽取維吾爾語候選情感詞,然后借助基礎(chǔ)情感詞集從維吾爾語候選情感詞集中刪除極性已知的部分候選情感詞。
3.2.1 語料獲取及預(yù)處理
實(shí)現(xiàn)維吾爾語候選情感詞的獲取需要基于大規(guī)模的語料數(shù)據(jù)。為此,本文首先使用網(wǎng)絡(luò)爬蟲工具Hertrix從天山網(wǎng)等維吾爾語網(wǎng)站搜集了3 000篇語料,其中包括新聞?wù)Z料2 580篇和論壇語料420篇。其次,使用網(wǎng)頁解析工具HTMLParser對收集的語料文本進(jìn)行去噪處理,去除HTML標(biāo)簽,剔除無關(guān)信息,保留所需的文本內(nèi)容,形成候選情感詞提取的初始語料集。最后根據(jù)維吾爾語句子的標(biāo)識符,進(jìn)行句子劃分,最終獲得由M個句子構(gòu)成的候選詞提取語料集S,S={s1,s2,s3,…,sM},本研究中M為41 176。
3.2.2 候選情感詞構(gòu)建算法
表2 候選情感詞抽取模板
句子中并列連詞前后的詞通常具有一致的情感極性[11],如果候選情感詞經(jīng)常與褒義詞由并列連詞銜接在一起,則該候選情感詞是褒義詞的可能性較大;反之,若候選情感詞常跟貶義詞并列相連,則候選情感詞的貶義傾向強(qiáng)烈。但并列連詞也有連接極性相反成分的例外情況,但僅限于連接一組反義詞的情形,如果候選情感詞的反義詞大多數(shù)為褒義詞,則候選情感詞的貶義情感強(qiáng)烈,相反,若候選情感詞的反義詞大部分為貶義詞,則候選情感詞極可能是褒義情感詞。
基于以上分析,本文利用已確定情感極性的基礎(chǔ)情感詞以及維吾爾語反義詞詞典,分以下兩種情況計(jì)算候選情感詞的傾向性。在計(jì)算中,以Bwords表示基礎(chǔ)情感詞集,Owords表示維吾爾語反義詞詞典,待判別的候選情感詞為word,其在維吾爾語反義詞詞典中對應(yīng)n個反義詞Oword。
第一種情況: 當(dāng)候選情感詞word的反義詞出現(xiàn)在基礎(chǔ)情感詞集中,則可使用基礎(chǔ)情感詞集Bwords統(tǒng)計(jì)其中正負(fù)情感詞匯的數(shù)量,再對統(tǒng)計(jì)結(jié)果取反即可獲得候選情感詞的極性值。
設(shè)候選情感詞word的反義詞Oword有m(m≠0)個出現(xiàn)在基礎(chǔ)情感詞集中,則候選情感詞的極性值SValue(word)的具體定義如式(1)所示,即累加這m個反義詞的極值再取反。式(1)中F(oword)表示候選情感詞的反義詞的極性值,并按照式(2)對其進(jìn)行賦值。
第二種情況: 當(dāng)候選情感詞word的反義詞沒有一個出現(xiàn)在基礎(chǔ)情感詞集中,則可以利用搜索引擎從互聯(lián)網(wǎng)的海量數(shù)據(jù)中獲取與候選情感詞相聯(lián)系的詞匯Cword,然后利用基礎(chǔ)情感詞集獲取詞匯cword的情感極值再進(jìn)行累加,所得結(jié)果即為候選情感詞的情感極值。
設(shè)候選情感詞word共與p個詞匯Cword相聯(lián)系,則候選情感詞的極性值SValue(word)即為這p個詞匯的極值之和,其計(jì)算方法如式(3)所示,Cword的極性值在式中用F(Cword)表示,并根據(jù)式(4)進(jìn)行計(jì)算。
(4)
根據(jù)以上方法賦予候選情感詞情感極值后,為確定候選情感詞word的情感傾向類別,本文設(shè)定閾值0,按式(5)計(jì)算候選情感詞word的情感類別。
(5)
表3 專家標(biāo)注、極性判斷算法的候選情感詞極性判別結(jié)果對比
為避免極性判別不正確詞匯影響情感詞典的質(zhì)量,對本文算法的極性判別結(jié)果進(jìn)行人工校正,最終得到褒義詞185個,貶義詞239個,將所得褒義詞和貶義詞分別并入相應(yīng)的褒貶情感詞典,最終構(gòu)建的維吾爾語網(wǎng)絡(luò)情感詞典包含詞匯4 939個,其中褒義詞2 227個,貶義詞2 712個。
為驗(yàn)證本文提出的情感詞自動擴(kuò)展算法的有效性,本文使用項(xiàng)目組前期構(gòu)建維吾爾語褒貶情感詞典時使用的測試語料進(jìn)行實(shí)驗(yàn),該測試語料共2 500句,其中正向句1 214句,負(fù)向句1 148句,無傾向性句138句。
本文基于網(wǎng)絡(luò)文本擴(kuò)展維吾爾語情感詞典的目的旨在提高維吾爾語文本情感分類的準(zhǔn)確率。故使用本研究擴(kuò)展的網(wǎng)絡(luò)情感詞典對測試語料的2 500個句子進(jìn)行情感分類,通過累計(jì)組成句子的詞匯傾向性來確定句子的情感傾向。句子的情感值最終由句中所有情感詞的情感值加和確定,本文定義褒義詞的情感值為1,貶義詞的情感值為-1,為避免否定詞改變句子極性對傾向性判斷結(jié)果準(zhǔn)確率的影響,記錄句中否定詞的出現(xiàn)次數(shù),否定詞出現(xiàn)奇數(shù)次時,句子的情感傾向值乘以-1,否定詞出現(xiàn)偶數(shù)次時,句子的情感傾向值保持不變。最終句子的情感值大于0的判定為褒義,小于0的判定為貶義,等于0的則為中性。
本文通過準(zhǔn)確率、召回率和F值三個指標(biāo)評價測試結(jié)果。利用本文構(gòu)建的網(wǎng)絡(luò)情感詞典和未擴(kuò)展的維吾爾語褒貶情感詞典進(jìn)行維吾爾語句子極性判斷的結(jié)果如表4所示。
表4 基于兩種情感詞典的維吾爾語句子極性判斷結(jié)果對比
從表4可以看出,利用本文擴(kuò)展的網(wǎng)絡(luò)情感詞典進(jìn)行文本傾向性判別的準(zhǔn)確率、召回率、F值均優(yōu)于使用維吾爾語褒貶情感詞典的實(shí)驗(yàn)結(jié)果,其主要原因是本文提出基于網(wǎng)絡(luò)語料擴(kuò)展維吾爾語情感詞的算法,擴(kuò)展了一部分維吾爾語網(wǎng)絡(luò)情感詞和專用情感詞,從一定程度上豐富了維吾爾語情感詞匯,而實(shí)驗(yàn)使用的測試語料又來自維吾爾語網(wǎng)站以及微博語料的維吾爾語翻譯,因此明顯提升了維吾爾語句子傾向性判別的分類性能,這充分證明了本文提出的基于連詞擴(kuò)展維吾爾語情感詞算法的可行性和有效性。
情感詞典作為文本傾向性分析的基礎(chǔ)資源和重要工具,其詞庫的質(zhì)量和數(shù)量直接影響著文本句子傾向性判別的性能。目前,維吾爾語的文本情感分析研究尚處于起步階段,面臨無任何可用維吾爾語情感詞典資源的現(xiàn)狀,項(xiàng)目組經(jīng)過前期研究構(gòu)建了維吾爾語褒貶情感詞典,為了不斷完善該詞典,本文進(jìn)行維吾爾語情感詞的自動擴(kuò)展研究。在總結(jié)維吾爾語情感句中搭配關(guān)系的基礎(chǔ)上,首先依據(jù)句子中情感詞與連詞、程度副詞的共現(xiàn)規(guī)律,設(shè)計(jì)候選情感詞提取算法,利用搜集的網(wǎng)絡(luò)文本語料進(jìn)行候選情感詞的抽取。然后繼續(xù)運(yùn)用維吾爾語并列連詞銜接極性詞匯的特征,借助已構(gòu)建的褒貶情感詞集、維吾爾語反義詞詞典和互聯(lián)網(wǎng)的海量語料,提出利用搜索引擎獲取候選詞與褒貶義詞的關(guān)聯(lián)緊密度,并設(shè)計(jì)相應(yīng)的得分算法獲得候選情感詞的極性值,最后根據(jù)得分判別詞匯的褒貶類別。
經(jīng)上述擴(kuò)展算法,最終得到褒義詞185個,貶義詞239個,并通過實(shí)驗(yàn)證明了使用擴(kuò)展后的情感詞典進(jìn)行句子傾向性判別的準(zhǔn)確率、召回率以及F值均有所提高,說明本文提出的情感詞擴(kuò)展算法能夠有效抽取并判別情感詞,實(shí)現(xiàn)情感詞的自動擴(kuò)展,不斷優(yōu)化情感詞典質(zhì)量,為進(jìn)行維吾爾語不同粒度的情感傾向性分析提供高質(zhì)量的支撐資源。本文在情感詞擴(kuò)展過程中僅利用了維吾爾語情感詞的連詞和程度副詞特征,后續(xù)將考慮運(yùn)用維吾爾語感嘆詞以及派生詞匯等多種特征進(jìn)行情感詞的擴(kuò)展研究,進(jìn)一步完善和提高情感詞典的質(zhì)量。
[1] 年梅,范祖奎,劉若蘭. 維吾爾語褒貶情感詞典構(gòu)建研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2017(04): 152-155,162.
[2] Kamps J,Marx M,Mokken R J.Words with attitude[C]//Proeeedings of the 1st International Conference on Global Wordnetl.2002: 332-341.
[3] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計(jì)算[J]. 中文信息學(xué)報(bào),2006(01): 14-20.
[4] 黃碩,周延泉. 基于知網(wǎng)和同義詞詞林的詞匯語義傾向計(jì)算[J]. 軟件,2013(02): 73-74,94.
[5] 金宇,朱洪波,王亞強(qiáng),等. 基于直推式學(xué)習(xí)的中文情感詞極性判別[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,(34): 164-167.
[6] Hatzivassilglou V,Mc Keown K R.Predicting the semantic orientation of adjectives[C]//Proceedings of ACL-97,the 35th AnnualMeeting of the Association for Computational Linguistics,Ma-drid,ES,1997: 174-181.
[7] 王科,夏睿.一種基于連接關(guān)系的中文情感詞典構(gòu)建方法[C].第十四屆全國計(jì)算語言學(xué)學(xué)術(shù)會議,2015.
[8] Turney P D,Michael L L.Measuring praise and criticism: Inference of semantic orientation from association[J].ACM Transactions on Information System,2003,21(4): 315-346.
[9] 陽愛民,林江豪,周詠梅. 中文文本情感詞典構(gòu)建方法[J]. 計(jì)算機(jī)科學(xué)與探索,2013(11): 1033-1039.
[10] 禹龍,田生偉,馮冠軍. 維吾爾語情感詞匯自動識別[J]. 計(jì)算機(jī)工程,2011(07): 213-215.
[11] Hatzivassiloglou V, McKeown K R. Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th annual meeting of the association for computational linguistics and eighth conference of the European chapter of the association for computational linguistics. Association for Computational Linguistics, 1997: 174-181.