• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于在線比較評(píng)論情感分析的方法探索

    2019-09-29 13:42:59楊帆
    中國市場 2019年25期
    關(guān)鍵詞:情感分析評(píng)價(jià)模型

    楊帆

    [摘要]比較評(píng)論是一種比較普遍的評(píng)論形式,借用比較可以得到產(chǎn)品之間的差異性。文章在研究現(xiàn)有情感分析方法的基礎(chǔ)上,對比較評(píng)論情感分析方法進(jìn)行了探討。其一般過程為:采用簡單的比較句識(shí)別方式,使用監(jiān)督學(xué)習(xí)構(gòu)建特征詞典,在詞典中增加非特征詞的特征判斷,然后采用情感極性判斷或使用情感詞權(quán)重、程度副詞以及否定詞加權(quán)計(jì)分的方法判斷語句的情感得分,獲取到比較產(chǎn)品之間在特征屬性上的差異。

    [關(guān)鍵詞]中文比較評(píng)論;情感分析;中文分詞;評(píng)價(jià)模型

    [DOI]10.13939/j.cnki.zgsc.2019.25.185

    1引言

    隨著網(wǎng)上購物的蓬勃發(fā)展,網(wǎng)絡(luò)評(píng)論越來越多,中文文本的情感分析研究也隨之增加。這些評(píng)論對于產(chǎn)品的評(píng)價(jià)有較高的現(xiàn)實(shí)意義,比起早期的商品購物評(píng)分機(jī)制,評(píng)論更加具體,更加多元化,對于評(píng)論的挖掘是對評(píng)分機(jī)制的重要補(bǔ)充,甚至有超越和代替評(píng)分的趨勢。在這些商品購買評(píng)論中,比較評(píng)論是指用戶購物后發(fā)表的評(píng)論中有關(guān)這一產(chǎn)品與另一產(chǎn)品的對比信息,這類還有比較句的評(píng)論比起一般評(píng)論,能反映出更多產(chǎn)品之間的差異和優(yōu)劣,有助于分析產(chǎn)品在市場上的競爭力,故比較評(píng)論挖掘近來也受到研究者的重視,有不少學(xué)者對其進(jìn)行情感分析并得到關(guān)于多個(gè)產(chǎn)品在不同屬性上的比較數(shù)據(jù),為決策者提供參考。

    2相關(guān)研究

    比較評(píng)論挖掘的研究是從文本挖掘中的關(guān)系抽取技術(shù)演化而來的,關(guān)系抽取是信息抽取的一個(gè)重要分支,是將有關(guān)系的實(shí)體從文本中獲取出來的方法。其具體的手段包括監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及遠(yuǎn)程監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)人工參與多,而無監(jiān)督學(xué)習(xí)則無人工行為,遠(yuǎn)程監(jiān)督是借用遠(yuǎn)程數(shù)據(jù)進(jìn)行人工標(biāo)注的方式。

    借助關(guān)系抽取的研究方法,比較評(píng)論情感分析主要從以下幾個(gè)方面開展,包括比較句識(shí)別技術(shù)、比較要素抽取以及比較觀點(diǎn)的情感分析。

    2.1比較句識(shí)別技術(shù)

    比較句的識(shí)別最開始是英文的識(shí)別研究,Jindal等提出將分類器和CSR相結(jié)合的比較句識(shí)別方法獲得了不錯(cuò)的F值。[1]國內(nèi)較早的研究是黃小江討論了漢語比較句的范疇、外延和特征,定義了漢語比較句識(shí)別的任務(wù),并提出用SVM分類器將漢語句子分為“比較”和“非比較”兩類。[2]黃高輝以SVM為分類器,以特征詞和 CSR序列規(guī)則為特征, 同時(shí)利用 CRF算法抽取實(shí)體對象 , 并增加以實(shí)體對象的信息作為特征,顯著提高了比較句識(shí)別的準(zhǔn)確率 、召回率和 F 度量。[3]

    比較句的識(shí)別主要是通過識(shí)別算法發(fā)掘文本中的比較語句,由于中文語句的靈活性,其算法比英文的比較句復(fù)雜,也有學(xué)者提出比較簡單的發(fā)現(xiàn)方式,特別是針對差比語句的情感分析研究,其識(shí)別方式為只要語句中包含兩個(gè)比較產(chǎn)品以及“比”就識(shí)別為差比語句。文章的研究就是采用這種簡單有效的方式進(jìn)行識(shí)別。

    2.2比較要素的抽取

    比較要素是比較句中的特征識(shí)別,即比較點(diǎn)的識(shí)別和抽取,簡單地說就是這個(gè)比較句是在比較這兩個(gè)對象的什么特征。對于細(xì)粒度的屬性級(jí)別的情感研究,特征發(fā)現(xiàn)和抽取也是非常重要的一個(gè)環(huán)節(jié)。

    比較要素的抽取目前主要有兩種方法,一種是人工總結(jié)特征詞典,包括收集產(chǎn)品說明書中的產(chǎn)品特征,相關(guān)專家給出的產(chǎn)品特征以及總結(jié)部分測試文本中的特征,然后根據(jù)特征詞典使用字符串匹配的方法抽取比較句中的比較點(diǎn)信息;另一種是使用特征發(fā)掘,在沒有特征詞典的情況下,使用發(fā)掘算法在測試數(shù)據(jù)集中發(fā)現(xiàn)總結(jié)特征詞,動(dòng)態(tài)形成特征詞典,然后在使用字符串匹配等方式抽取比較點(diǎn)。[4-5]

    2.3比較觀點(diǎn)的情感分析

    比較觀點(diǎn)的情感分析是比較評(píng)論挖掘的第三個(gè)研究方向,這個(gè)主要是借用一般語句的情感分析方法對比較語句做情感分析。常用的情感分析主要是使用情感詞典,并結(jié)合考慮程度副詞以及否定詞,然后判斷出該句的情感傾向。目前有兩種情感計(jì)分方法,一種是只判斷情感極性,正面情感為+1,負(fù)面情感為-1;另一種是在判斷極性的基礎(chǔ)上,還要根據(jù)程度副詞判斷好壞程度,有的還會(huì)根據(jù)情感詞本身的情感強(qiáng)烈程度給出權(quán)重后再結(jié)合程度副詞進(jìn)行判斷。[6]

    3模型實(shí)現(xiàn)方式

    3.1實(shí)現(xiàn)工具

    (1)Python語言與爬蟲技術(shù)。Python語言是一種簡單而又強(qiáng)大的高級(jí)編程語言,有非常豐富的數(shù)據(jù)結(jié)構(gòu),靈活的程序處理方式,以及大量的支持該語言的第三方函數(shù)庫,在爬蟲和大數(shù)據(jù)處理方面有非常明顯的編程優(yōu)勢。[7]

    (2)分詞?,F(xiàn)存的幾大分詞工具有:結(jié)巴中文分詞、中科院分詞、Smallseg以及Yaha分詞等,其效果存在細(xì)微的差異,大致上的分詞結(jié)果相仿。文章采用基于python的結(jié)巴中文分詞技術(shù),對抽取出的比較評(píng)語進(jìn)行分詞。

    分詞的好壞主要影響情感分值的計(jì)算,對于特征抽取的影響較少。為了減少由于分詞不當(dāng)而導(dǎo)致的詞語計(jì)分錯(cuò)誤,多采用人工的方式對情感詞典進(jìn)行修正。

    (3)詞典。詞典的優(yōu)劣直接決定了模型的有效性,一般在現(xiàn)存的一些詞典(知網(wǎng)情感詞典、臺(tái)灣大學(xué)NTUSD、清華大學(xué)李軍的褒貶義詞典等)基礎(chǔ)上,結(jié)合所訓(xùn)練的文本材料自身的行業(yè)特點(diǎn),設(shè)計(jì)特定語境的情感詞典。另外,為了抽取特征,獲得比較對以及計(jì)算情感權(quán)重,還需要設(shè)計(jì)產(chǎn)品名稱詞典、特征詞典、特征分類詞典、否定詞典、程度副詞詞典以及同義詞典。其中程度副詞詞典分為前綴詞典和后綴詞典。

    部分詞典情況如表1所示。

    3.2實(shí)現(xiàn)步驟

    按照比較評(píng)論情感分析的具體需要,文章設(shè)計(jì)了一種基于在線比較評(píng)論情感分析步驟,如圖1所示。從網(wǎng)絡(luò)評(píng)語到統(tǒng)計(jì)分析,共包括了5大處理過程:網(wǎng)絡(luò)評(píng)語的爬取、數(shù)據(jù)的預(yù)處理與比較句的識(shí)別、自動(dòng)分詞、訓(xùn)練情感詞典、計(jì)算情感得分、統(tǒng)計(jì)分析。

    4結(jié)論

    文章在現(xiàn)有研究的基礎(chǔ)上,提出了一種在線比較評(píng)論情感分析方法的解決思路,能很好地對產(chǎn)品做成評(píng)價(jià),進(jìn)行數(shù)據(jù)試驗(yàn)后,其評(píng)價(jià)的結(jié)果與官方給出的排名結(jié)果基本一致。而此方法不僅能對產(chǎn)品的綜合情況進(jìn)行分析,還可以針對產(chǎn)品某一具體特征的情況給出評(píng)價(jià)值,為決策提供更加精細(xì)的分析數(shù)據(jù)。主要的研究不足為模型的智能化程度還不夠,分值計(jì)算為線性方式也會(huì)損失精度,后續(xù)研究可進(jìn)一步完善。

    參考文獻(xiàn):

    [1]?NITIN JINDAL,BING LIU.?Identifying comparative sentences in text documents[C].Washington:In Proceedings of SIGIR,2006:244-251.

    [2]黃小江,萬小軍,楊建武.漢語比較句識(shí)別研究[J].中文信息學(xué)報(bào),2008, 22 (5):30-37.

    [3]黃高輝,姚天防,劉全升.CRF算法的漢語比較句識(shí)別和關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2010, 27(6): 61-64.

    [4]王鳳霞.比較句識(shí)別及觀點(diǎn)要素抽取方法研究[D].太原:山西大學(xué),2013.

    [5]周紅照,侯明午,侯敏,等.基于語義分類的比較句識(shí)別與比較要素抽取研究[J].中文信息學(xué)報(bào),2014,28(3):136-141,149.

    [6]?吳晨,韋向峰 .?用戶評(píng)價(jià)中比較句的識(shí)別和傾向性分析[J].計(jì)算機(jī)科學(xué),2016,43(6A):435-439.

    [7]黃紅梅,張良均.?Python數(shù)據(jù)分析與應(yīng)用[M].北京:人民郵電出版社,2017.

    猜你喜歡
    情感分析評(píng)價(jià)模型
    基于語義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
    基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對象抽取研究
    基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    基于DEA的汽車上市公司相對效益評(píng)價(jià)
    基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
    在線評(píng)論情感屬性的動(dòng)態(tài)變化
    預(yù)測(2016年5期)2016-12-26 17:16:57
    公共圖書館數(shù)字化服務(wù)的有效性評(píng)價(jià)模型
    基于學(xué)業(yè)質(zhì)量的增值性評(píng)價(jià)系統(tǒng)的分析與構(gòu)建
    基于產(chǎn)業(yè)集群的技術(shù)創(chuàng)新風(fēng)險(xiǎn)評(píng)價(jià)模型構(gòu)建
    基于熵權(quán)法的西安市外向型經(jīng)濟(jì)發(fā)展綜合評(píng)價(jià)研究
    通河县| 盘锦市| 北票市| 二手房| 九寨沟县| 襄汾县| 江门市| 航空| 横峰县| 韩城市| 洮南市| 施甸县| 华安县| 若尔盖县| 潜山县| 大姚县| 宝山区| 都兰县| 双柏县| 邹平县| 宁南县| 疏勒县| 无极县| 五莲县| 文昌市| 丹棱县| 石阡县| 福泉市| 巴楚县| 东乌珠穆沁旗| 莒南县| 桂林市| 攀枝花市| 陵川县| 枣强县| 探索| 略阳县| 皋兰县| 勐海县| 白银市| 岑溪市|