• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多特征融合的中文評(píng)論情感分類算法

      2016-01-29 02:16:38陳昀畢海巖
      關(guān)鍵詞:支持向量機(jī)機(jī)器學(xué)習(xí)

      陳昀,畢海巖

      (國(guó)網(wǎng)天津市電力公司 城東供電公司,天津 300010)

      ?

      基于多特征融合的中文評(píng)論情感分類算法

      陳昀,畢海巖

      (國(guó)網(wǎng)天津市電力公司 城東供電公司,天津300010)

      摘要:為解決情感分類中詞間的語義關(guān)系難以表達(dá)和分析的問題,提出了一種基于詞向量(word representation)和支持向量機(jī)(support vector machine)的情感分類算法,對(duì)電子商務(wù)在線評(píng)論的情感分類問題進(jìn)行研究.首先使用word2vec聚類相似特征,然后使用word2vec和SVM對(duì)情感數(shù)據(jù)進(jìn)行訓(xùn)練和分類,并分別使用基于詞特征和基于詞性標(biāo)注的方法進(jìn)行特征選擇.在京東評(píng)論數(shù)據(jù)上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,分類準(zhǔn)確率和召回率得到了提高. 用戶可能使用很多不同的詞匯加以描述同一個(gè)商品特征,為了生成有效的評(píng)論,這些近義詞需要聚到同一個(gè)特征組中,使用word2vec來對(duì)相似特征進(jìn)行聚類,分為如下幾個(gè)步驟.

      關(guān)鍵詞:情感分類;詞向量;支持向量機(jī);機(jī)器學(xué)習(xí)

      第一作者:陳昀(1977-),男,天津市人,國(guó)網(wǎng)天津市電力公司工程師,主要從事電力工程技術(shù)方面的研究.

      E-mail:20951518@qq.com

      隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,電子商務(wù)在消費(fèi)構(gòu)成中變得尤為重要.為了吸引顧客和提升顧客的購(gòu)物體驗(yàn),電子商務(wù)網(wǎng)站引入了用戶評(píng)論機(jī)制,一方面,評(píng)論內(nèi)容中包含了非常有價(jià)值的商品信息,另一方面,用戶又很難從海量評(píng)論數(shù)據(jù)中完整地了解商品的全貌,同時(shí)商品制造商也很難根據(jù)這些評(píng)論信息來改進(jìn)商品的生產(chǎn)和設(shè)計(jì).與基于主題的分類不同(通過關(guān)鍵詞進(jìn)行識(shí)別),情感分類技術(shù)可以自動(dòng)地將評(píng)論信息分為正類和負(fù)類,并幫助消費(fèi)者和生產(chǎn)商從海量評(píng)論數(shù)據(jù)中獲得有用信息,受到了很多電子商務(wù)公司的追捧和很多研究者的關(guān)注.

      情感分類的研究大致分為2類,分別是基于情感詞典及規(guī)則的方法和基于監(jiān)督和半監(jiān)督的機(jī)器學(xué)習(xí)方法.Turney等[1]針對(duì)情感字典的不足,使用PMI方法對(duì)基準(zhǔn)字典進(jìn)行了擴(kuò)充;李壽山等[2]利用標(biāo)簽傳播算法構(gòu)建覆蓋領(lǐng)域語境的中文情感詞典用于文本情感分析;唐慧豐等[3]利用不同的特征選擇方法組合多種機(jī)器學(xué)習(xí)算法驗(yàn)證情感分類的精度;楊經(jīng)等[4]通過提取分析情感詞的相關(guān)特征,使用SVM對(duì)句子進(jìn)行情感識(shí)別及分類;李素科等[5]針對(duì)監(jiān)督學(xué)習(xí)分類的不足,對(duì)情感特征進(jìn)行聚類并提出了一種半監(jiān)督的情感分類算法.然而,語義特征在情感分類中卻很少被考慮到,事實(shí)上,語義特征可以揭示詞間的深層次和隱含語義關(guān)系,從而提升情感分類效果.

      1相關(guān)工作

      1.1 相似特征聚類

      特征聚類的目的是將描述商品特征的同義詞劃分到同一組中,Zhai等[6]通過使用基于詞共現(xiàn)和詞間相似度的方法,使用半監(jiān)督的EM算法來解決此問題.通過允許標(biāo)注實(shí)例改變類別的方式來提高準(zhǔn)確率,但是還是無法達(dá)到實(shí)用系統(tǒng)的目的.也有一些算法從評(píng)論文本中抽取商品特征,并對(duì)相似特征進(jìn)行聚類,但在中文情感分類領(lǐng)域,相關(guān)工作還較少.

      1.2 基于監(jiān)督式機(jī)器學(xué)習(xí)的情感分類

      監(jiān)督式機(jī)器學(xué)習(xí)的情感分類算法希望通過標(biāo)注語料來訓(xùn)練出情感分類模型.Pang等[7]第1次將這種方法應(yīng)用于情感分類領(lǐng)域,他們嘗試使用n-grams模型和SVM分類模型并選擇unigrams作為特征來獲取最佳分類結(jié)果.近些年提出了多種多特征選擇方法和分類模型,Yao等[8]使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法進(jìn)行特征選取和降維來完成中文賓館評(píng)論數(shù)據(jù)的在線情感分類;Moraes等[9]在詞袋模型中采用標(biāo)準(zhǔn)評(píng)估上下文和監(jiān)督式方法進(jìn)行特征選取和分配權(quán)重;Wang等[10]綜合使用文檔頻率、信息增益、卡方分布和互信息來進(jìn)行特征選取,并應(yīng)用布爾權(quán)重方法來分配權(quán)值從而構(gòu)造向量空間模型.

      1.3 word2vec和SVMperf

      word2vec是谷歌于2013年開發(fā)的深度學(xué)習(xí)工具包,該工具包主要采用2種模型架構(gòu),continuous bag-of-words (CBOW)和continuous skip-gram model來學(xué)習(xí)獲得詞向量.CBOW通過上下文來預(yù)測(cè)當(dāng)前詞匯,skip-gram則通過當(dāng)前詞匯來預(yù)測(cè)周圍詞匯[11].

      SVMperf是支持向量機(jī)的工程化實(shí)現(xiàn)版本,SVMperf實(shí)現(xiàn)了SVM二值分類優(yōu)化問題的替代結(jié)構(gòu)化公式,更為重要的是SVMperf利用cutting-plane subspace pursuit (CPSP)算法來訓(xùn)練稀疏核SVM,從而提高預(yù)測(cè)的速度和準(zhǔn)確率.

      2多特征融合的中文評(píng)論情感分類算法

      Wordvec在中文分類和英文文本聚類上表現(xiàn)出了優(yōu)異的性能,但是目前還沒有研究表明Wordvec在中文文本分類上同樣具有良好的性能,因此,本研究首先使用Wordvec在同一特征組中對(duì)同義詞進(jìn)行聚類,然后聯(lián)合使用Wordvec和SVMperf對(duì)評(píng)論文本進(jìn)行正類和負(fù)類的劃分,圖1展示了本研究的主要框架.

      2.1 相似特征聚類

      圖1 情感分類框架

      1)預(yù)處理:通過使用中科院計(jì)算所的ICTCLAS的分詞系統(tǒng)對(duì)中文評(píng)論文本進(jìn)行分詞和詞性標(biāo)注,去除停用詞和標(biāo)點(diǎn)符號(hào)后,生成所需的訓(xùn)練文件;

      2)模型訓(xùn)練:使用word2vec訓(xùn)練模型文件,表1中給出了模型訓(xùn)練中所用參數(shù)和它們的解釋.word2vec以訓(xùn)練文件作為輸入,并輸入1份模型文件,首先從訓(xùn)練文件生成詞表字典,然后學(xué)習(xí)生成詞的高維詞向量表示;

      3)聚類:訓(xùn)練完成后每個(gè)詞的詞向量都存儲(chǔ)在模型文件中,word2vec提供了叫做“distance”的命令,該命令通過2個(gè)詞匯詞向量間的余弦相似度對(duì)它們間的語義距離進(jìn)行計(jì)算,從而達(dá)到對(duì)近義詞進(jìn)行聚類的目的,余弦相似度的值越高,則2個(gè)詞匯在語義層面的距離越近.通過對(duì)結(jié)果進(jìn)行降序排列,就會(huì)獲得輸入詞最近似的詞的列表.

      表1 模型訓(xùn)練的主要參數(shù)

      2.2 情感分類

      與傳統(tǒng)情感分類方法不同,主要采用word2vec和SVMperf作為分類工具.首先,使用word2vec去除訓(xùn)練語料中詞頻低于5的詞匯,其余頻繁詞匯則作為候選特征集合,通過word2vec訓(xùn)練出包含頻繁詞匯及其對(duì)應(yīng)的特征模型文件,并使用基于詞匯的特征選擇方法和基于詞性標(biāo)注的特征選擇方法來獲取最優(yōu)候選特征集.

      2.2.1基于詞匯的特征選擇方法

      該方法需要1份情感詞匯詞典,詞典包含情感詞匯(肯定和否定)及其對(duì)應(yīng)的權(quán)重[12],本工作選擇從HowNet在線知識(shí)庫(kù)中抽取的詞集作為情感詞典.首先從詞典中選擇權(quán)重最高的是個(gè)情感詞匯作為初始輸入,使用word2vec的distance命令來獲得更多的情感詞匯,通過該方法,對(duì)初始詞典進(jìn)行擴(kuò)充.

      選擇同時(shí)出現(xiàn)在候選特征集和擴(kuò)充詞典中的特征作為最終的訓(xùn)練特征,特征選取過程如下,其中,feature_set表示最終的訓(xùn)練特征集:

      ①word_set←frequent words

      ②dic_set←opinion words in lexicon

      ③for each w in dic_set do

      ④if w is in word_set then

      ⑤add w to feature_set

      ⑥else

      ⑦continue

      ⑨end if

      ⑩end for

      2.2.2基于詞性標(biāo)注的特征選擇方法

      該方法根據(jù)詞性標(biāo)注進(jìn)行特征選取,不同標(biāo)注的選取會(huì)直接影響特征選擇結(jié)果[13].例如,只選取形容詞作為特征的結(jié)果就不如同時(shí)選擇副詞、動(dòng)詞和形容詞的作為特征的結(jié)果,這是由于多種詞性標(biāo)注的詞匯會(huì)成為情感標(biāo)簽.

      在該方法中,經(jīng)過詞性標(biāo)注后,選擇形容詞、副詞、動(dòng)詞和名詞作為特征,并將它們之間的不同組合作為訓(xùn)練特征.

      2.2.3訓(xùn)練和分類

      在該步驟中,被選取的特征向量被用來訓(xùn)練分類器,從而預(yù)測(cè)測(cè)試文檔的情感極性(肯定和否定).之前的很多研究表明,與其他分類系統(tǒng)相比,SVM在分類性能和系統(tǒng)健壯性上都表現(xiàn)出了很大的優(yōu)勢(shì),基于此,本工作選擇SVM作為分類工具.

      SVMperf是SVMlight的優(yōu)化版本,總體架構(gòu)沿襲了SVMlight,但是升級(jí)了核算法,也使其具備了更快速和更準(zhǔn)確的分類速度,因此,采用SVMlight作為訓(xùn)練和測(cè)試工具集.

      3實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      實(shí)驗(yàn)從京東上爬取了110 000中文衣物商品評(píng)論信息,經(jīng)過去除重復(fù)和無意義數(shù)據(jù)后,有效數(shù)據(jù)共96 548條.本研究中,基于word2vec的相似特征聚類并不需要確定文本極性,語料庫(kù)越大,訓(xùn)練越充分,聚類效果也越好.所以采集的所有評(píng)論語料都用來進(jìn)行特征聚類.

      本文的主要工作是進(jìn)行基于word2vec和SVMperf的監(jiān)督式情感分類,采集的評(píng)論語料都是根據(jù)五星打分的,并將五星評(píng)價(jià)的語料作為正例,一星評(píng)價(jià)的語料作為負(fù)例.為了進(jìn)行實(shí)驗(yàn),將數(shù)據(jù)集分為2份,選取2 500正例和2 500負(fù)例作為訓(xùn)練集,其余作為測(cè)試集.

      3.2 實(shí)驗(yàn)結(jié)果

      采用準(zhǔn)確率(precision)、召回率(recall)和F1值作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn),通過實(shí)驗(yàn)對(duì)相似特征聚類和情感分類2項(xiàng)任務(wù)進(jìn)行評(píng)估.

      3.2.1相似特征聚類結(jié)果

      對(duì)于中文商品評(píng)論,選取在中文衣物評(píng)論中出現(xiàn)頻率最高的“價(jià)格”、“面料”、“尺碼”和“款式”作為典型特征,在獲取同義詞列表后,只保留排序最靠前的5個(gè)詞匯,通過3個(gè)不同維度向量來訓(xùn)練word2vec.

      表2展示了相似特征聚類的結(jié)果,對(duì)每個(gè)典型特征,它的相似特征具有和它相似或相同的中文語義,不同維度的聚類結(jié)果并沒有很大差別,只是在次序上稍有不同,該結(jié)果展現(xiàn)了word2vec較為強(qiáng)大的在中文文本聚類中獲取深層次語義的能力.

      表2 典型特征聚類結(jié)果

      3.2.2情感分類結(jié)果

      本研究采用基于word2vec和SVMperf的情感分類算法,其中使用了2種特征選擇方法,分別是基于詞特征和基于詞性標(biāo)注.表3列出了基于詞特征的特征選擇方法的性能,選取HowNet作為特征詞的來源,并對(duì)其中的已標(biāo)注特征詞進(jìn)行分類預(yù)測(cè),結(jié)果如表3所示.

      表3 基于詞特征的情感分類結(jié)果

      表4列出了基于詞性標(biāo)注的特征選擇方法的性能,由數(shù)據(jù)可以看出,選擇形容詞、副詞和動(dòng)詞作為特征的實(shí)驗(yàn)結(jié)果明顯優(yōu)于其他組合.只選擇形容詞和副詞的結(jié)果最差,選擇全部特征的方法在正例中取得了最高的準(zhǔn)確率以及負(fù)例中最高的召回率;但是較低的正例召回率和負(fù)例準(zhǔn)確率拉低了整體F1值.其余2種策略獲得了相近的結(jié)果.

      表4 基于詞性標(biāo)注的情感分類結(jié)果

      從上述實(shí)驗(yàn)結(jié)果可以看出,基于詞特征和基于詞性標(biāo)注的情感分類方法都可以取得較好的分類效果,這主要基于如下原因:首先,word2vec的詞向量表示方法可以學(xué)習(xí)到詞間的深層語義,從而可以提升分類效果;其次,基于SVMlight的SVMperf在大規(guī)模數(shù)據(jù)集上也表現(xiàn)出了更好的準(zhǔn)確性和更快的處理速度,基于此,所提情感分類方法才取得了較好的實(shí)驗(yàn)結(jié)果.

      4結(jié)束語

      與傳統(tǒng)情感分類方法關(guān)注詞特征和句法特征不同,本研究主要關(guān)注詞間的語義特征,主要使用了word2vec和SVMperf2種工具來對(duì)中文評(píng)論文本進(jìn)行分類,首先使用word2vec對(duì)相似特征進(jìn)行聚類,結(jié)果表明word2vec同樣適用于中文特征選擇,不管采用基于詞特征的方法還是基于詞性標(biāo)注的方法,所提方法都取得了較好的實(shí)驗(yàn)結(jié)果.

      即使本研究取得了較好的實(shí)驗(yàn)結(jié)果,但距離最好的結(jié)果還有很大的距離,為了訓(xùn)練出可用于SVMperf的文件格式,犧牲了word2vec的向量維度,如何將高緯度word2vec文件使用來SVMperf模型進(jìn)行訓(xùn)練,還有待研究.另外文本所使用的2種詞特征選擇方法還不足以找出句子中的所有情感特征,詞特征的抽取方法也是下一步研究的重點(diǎn)方向.

      參考文獻(xiàn):

      [1]TURNEY P D, LITTMAN M L. Measuring praise and criticism inference of semantic orientation from association[J]. ACM Transon Information Systems, 2003, 21(4): 315-346.

      [2]李壽山,李逸薇,黃居仁,等. 基于雙語信息和標(biāo)簽傳播算法的中文秦剛詞典構(gòu)建方法[J]. 中文信息學(xué)報(bào),2013,27(6):75-80.

      LI Shoushan, LI Yiwei, HUANG Juren, et al. Construction of Chinese sentiment lexicon using bilingual information and label propagation algorithm[J]. Journal of Chinese Information Processing, 2013, 27(6): 75-80.

      [3]唐慧豐,譚松波,程學(xué)旗. 基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J]. 中文信息學(xué)報(bào),2007,21(6):88-94.

      TANG Huifeng, TAN Songbo, CHENG Xueqi. Research on sentiment classification of chinese reviews based on supervised machine learning techniques[J]. Journal of Chinese Information Processing, 2007, 21(6): 88-94.

      [4]楊經(jīng),林世平. 基于SVM的文本詞句情感分析[J]. 計(jì)算機(jī)應(yīng)用與軟件,2011,28(9):225-228.

      YANG Jing, LIN Shiping. Emotion analysis on text words and sentences based on SVM[J]. Computer Applications and Software, 2011, 28(9): 225-228.

      [5]李素科,蔣嚴(yán)冰. 基于情感特征聚類的半監(jiān)督情感分類[J]. 計(jì)算機(jī)研究與發(fā)展,2013,50(12):2070-2577.

      LI Suke, JIANG Yanbing. Semi-supervised sentiment classification based on sentiment feature clustering[J]. Journal of Computer Research and Development, 2013, 50(12): 2070-2577.

      [6]ZHAI Zhougwu, LIU Bing,XU Hua, et al. Grouping product features semi-supervised learning with soft-constraints[Z]. The 23rd International Conference on Computational Linguistics: Association for Computational Linguistics, Beijing, China, 2010.

      [7]PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up: sentiment classification using machine learning techniques[Z]. The ACL-02 conference on Empirical methods in natural language processing-: Association for Computational Linguistics, Pennsylvania, USA, 2002.

      [8]YAO Jiani, WANG Hongwei, YIN Pei. Sentiment feature identification from Chinese online reviews: Advances in Information Technology and Education[M]. Berlin: Springer, 2011: 315-322.

      [9]MORRAES R, VALIATI J F, NETO W P G. Document-level sentiment classification: An empirical comparison between SVM and ANN[J]. Expert Systems with Applications, 2013, 40(2): 621-633.

      [10]WANG Hongwei, YIN Pei, ZHENG Lijian, et al. Sentiment classification of online reviews: using sentence-based language mode[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2014, 26(1): 13-31.

      [11]MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv, 2013, 23(1):1301-1306.

      [12]LIU Bing. Sentiment analysis and opinion mining[M]. San Rafael: Morgan & Claypool Publishers, 2012: 1-167.

      [13]LIU Bing, ZHANG Lei. A survey of opinion mining and sentiment analysis[J]. Mining Text Data, 2012, 5(2):415-463.

      (責(zé)任編輯:孟素蘭)

      A sentiment classification algorithm of Chinese

      comments based on multi features fusion

      CHEN Yun,BI Haiyan

      (Chengdong Electric Power Supply Company,State Grid Tianjin Electric Power Company,

      Tianjin 300010, China)

      Abstract:To solve the problem that semantic relationships between words can not be well analyzed in sentiment classification, a method for sentiment classification based on word2vec and SVM is proposed to carry out the study of sentiment classification of E-commerce online reviews. First of all, we use word2vec to cluster the similar features. And then, we train and classify the comment texts using word2vec again and SVM. In the process, the lexicon-based and part-of-speech based feature selection methods are respectively adopted to generate the training file. We conduct the experiments on the data set of Chinese comments of jingdong. The experimental result indicates that the precision and recall of sentiment classification of using word2vec again and SVM are superior to those of using the traditional optimalization method.

      Key words:sentiment classification; word2vec; SVM; machine learning

      基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61375075);河北省自然科學(xué)基金資助項(xiàng)目(F2013201064)

      收稿日期:2015-02-20

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1000-1565(2015)06-0651-06

      DOI:10.3969/j.issn.1000-1565.2015.06.016

      猜你喜歡
      支持向量機(jī)機(jī)器學(xué)習(xí)
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于SVM的煙草銷售量預(yù)測(cè)
      動(dòng)態(tài)場(chǎng)景中的視覺目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      同德县| 山东| 兰西县| 兴安盟| 吉首市| 聊城市| 浪卡子县| 应用必备| 中宁县| 望奎县| 莱芜市| 新建县| 聂拉木县| 高陵县| 柳林县| 灵宝市| 武功县| 朔州市| 富锦市| 光山县| 南汇区| 平定县| 江达县| 德令哈市| 准格尔旗| 阜新| 清新县| 乐至县| 新竹市| 利津县| 囊谦县| 唐山市| 固始县| 荔波县| 日照市| 铁岭市| 鲁甸县| 桑日县| 微山县| 阿巴嘎旗| 离岛区|