• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于支持向量機的網(wǎng)絡(luò)評論情感分析方法

      2019-09-17 08:27:22程正雙王亮
      電子技術(shù)與軟件工程 2019年16期
      關(guān)鍵詞:超平面分類器向量

      文/程正雙 王亮

      隨著互聯(lián)網(wǎng)及信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)成為人們現(xiàn)在獲取信息的主要途徑,并且由以前紙質(zhì)版的單方面獲取信息變成可以對獲取的信息進行在線討論和評價。這種轉(zhuǎn)變雖然能夠看到及時的反饋但也形成了大量虛假信息,使不知來龍去脈的網(wǎng)民誤信謠言及導(dǎo)向,因此網(wǎng)絡(luò)輿情監(jiān)控變得越發(fā)重要。通過對網(wǎng)絡(luò)上信息監(jiān)控和分析,可以對網(wǎng)絡(luò)上的情感走向進行信息排查。但對于如此龐大的信息,僅依靠人為挖掘監(jiān)控是遠遠不夠的,因此利用當前的信息技術(shù)如數(shù)據(jù)挖掘、大數(shù)據(jù)分析、機器學(xué)習(xí)和人工智能等對網(wǎng)絡(luò)上信息進行情感分析、給出定性的情感類別成為當前研究的熱點之一。

      從相關(guān)文獻看,網(wǎng)絡(luò)信息情感向分析可歸類為主要的兩類方法:第一種是基于情感詞典的方法,第二種是基于機器學(xué)習(xí)的方法。第一種方法的基本思想是計算句子中表示情感的詞語與詞典中詞語的相似度,然后得到詞語的情感極性從而判斷判斷句子情感傾向,此方法的不足時對上下文及句子整體的語義理解不足?;跈C器學(xué)習(xí)的方法一般將詞語詞向量表示,然后使用卷積神經(jīng)網(wǎng)絡(luò)或者遞歸神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法對其情感極性進行分類。由于神經(jīng)網(wǎng)絡(luò)的參數(shù)較多,在實際應(yīng)用中還需要參數(shù)優(yōu)化和防止過擬合。

      本文利用支持向量機能夠分類的特點,提出了一種基于支持向量機的網(wǎng)絡(luò)信息情感分析方法。首先給出了利用python對網(wǎng)頁信息進行獲取的方式,然后對支持向量機的基本原理進行了概述,接下來給出了基于支持向量機的情感分析方法的流程,最后通過實驗驗證了此方法的有效性。

      1 信息獲取及表示

      1.1 信息獲取

      分析網(wǎng)站的結(jié)構(gòu),利用python對網(wǎng)頁信息進行爬蟲,獲取我們想要的評論作為數(shù)據(jù)。獲取的數(shù)據(jù)中因含有大量冗余和無意義的數(shù)據(jù),如繁體字、間隔、符號等利用規(guī)則有效剔除臟數(shù)據(jù),清洗數(shù)據(jù)不僅為訓(xùn)練提供有效的數(shù)據(jù)而且減少無效參數(shù)提高準確率。對于清除后的數(shù)據(jù)利用分詞工具進行分詞操作,精確的分詞模式不僅可以根據(jù)詞性分詞而且可以提取關(guān)鍵字、自定義字典和去除停用詞等,為下一步模型訓(xùn)練進行準備。流程如圖1所示。

      1.2 信息表示

      在自然語言處理中,詞向量就是將自然語言數(shù)值化。以one-hot詞向量為例,one-hot詞向量在所有狀態(tài)中計算出概率最高的狀態(tài)為1,其余為0。因此在one-hot詞向量中,只會有其中一個分量只是1,其余全為設(shè)置為0。one-hot詞向量易造成數(shù)據(jù)稀疏的缺點, Word2ver是機器學(xué)習(xí)中訓(xùn)練分布式詞向量的一種方法。在特征提取時利用Word2vec可以將一個句子中的每個詞組映射到一個空間中,從而使每條語句都對應(yīng)一個同等維度的詞向量矩陣,這個矩陣類似于圖像的矩陣形式。在本文中用word2ver訓(xùn)練語料,得到詞向量后進行切詞和去停用詞處理,獲取詞向量集合。在遍歷詞向量集合會有一些使用率很低的詞匯,在訓(xùn)練詞向量時詞頻低于5的詞匯都不會被訓(xùn)練,從而移除沒有詞向量的詞匯。

      2 基于支持向量機的的情感分析

      支持向量機SVM是一種有監(jiān)督的機器學(xué)習(xí)模型。SVM分類器既是分類模型,也可以看作線性回歸模型。支持向量從訓(xùn)練數(shù)據(jù)中創(chuàng)建一個函數(shù),訓(xùn)練數(shù)據(jù)通常由雙輸入對象和期望輸出組成,從而學(xué)習(xí)出的函數(shù)可以用以預(yù)測新對象的輸出。SVM通常用于分類,其中函數(shù)輸出有限類中的一個。支持向量機還用于回歸和偏向?qū)W習(xí),它們分別被稱為支持向量回歸(SVR)和排序支持向量機(SVM)。支持向量機(SVM)最初分為兩類,常用于兩種情況:線性可分和線性不可分。在實際應(yīng)用中,所獲得的訓(xùn)練樣本往往會受到噪聲和離群點樣本的污染。支持向量機得到的分類超平面由支持向量確定。噪聲的存在增加了標準SVM訓(xùn)練的低效性,使得決策邊界不可能從最優(yōu)超平面上得到。在機器學(xué)習(xí)中,有許多改進分類的技術(shù)。因此,為了改進分類問題,人們提出了許多方法,通過識別樣本的不確定性,如噪聲樣本和離群點樣本,來丟棄或刪除這些樣本。同時,針對支持向量機分類方法中存在的噪聲和離群樣本,給出了改進分類方法的一些解決方案。另一方面,對于SVM分類器的樣本約簡,提出了許多識別決策邊界的方法。在數(shù)據(jù)集存在噪聲的情況下,已有的分類方法不能有效地識別邊界樣本,從而降低了SVM分類器的計算量。

      機器學(xué)習(xí)的框架是要從訓(xùn)練集中提取特征,結(jié)合一定的算法(如:SVM)得到分類結(jié)果。其SVM中涉及的超平面是到一側(cè)最近點的距離等于到另一側(cè)最近點的距離,同樣超平面分為線性可區(qū)分和線性不可區(qū)分。訓(xùn)練SVM對仿真參數(shù)空間中兩個不同點的自旋構(gòu)型數(shù)據(jù)集的元素進行分類。如果訓(xùn)練數(shù)據(jù)位于一個相變的不同側(cè)面,那么訓(xùn)練后的SVM將自旋構(gòu)型標記為中間到訓(xùn)練集的能力可能用于研究相變,例如確定模型參數(shù)空間中的相變點。為了說明SVM的概念,考慮一個最簡單的例子:n維空間Rn中的點x,其中有一組這樣的點,它們可以被超平面分成兩組(通常用y=±1標記)。在垂直距離上與超平面最接近的點是支撐向量。

      w ? x - b = 0.

      支持向量機的訓(xùn)練包括找到使|K|最小的w和b訓(xùn)練集中所有點i服yi(w ? xi- b)≥1。利用該最小化問題的解,定義任意點x的決策函數(shù)為:d(x) = w ? x - b.然后d(x)的符號為這兩組中的任意一組指定一個點。

      在我們實際應(yīng)用中,完全線性的數(shù)據(jù)分離是幾乎不可能達到的??梢詫λ^的對偶公式進行推廣,這也允許加入非線性特性。這里省略了細節(jié),我們只引用將在后續(xù)分析中使用的決策函數(shù)的最終形式:

      圖1:信息獲取流程

      圖2:降維維數(shù)曲線

      圖3:ROC曲線

      將訓(xùn)練中得到的支持向量標記出來。本文主要分為正面、負面和中性三類,利用SVM分類作為情感分類器的算法。對帶有標簽的訓(xùn)練集和驗證集進行分類訓(xùn)練。SVM主要針對樣本數(shù)據(jù)進行訓(xùn)練學(xué)習(xí)、分類和分析預(yù)測,由于SVM要求被計算機識別的因而數(shù)據(jù)都被處理為實數(shù),因此對于屬性值為類別的屬性要進行轉(zhuǎn)換。例如:{贊,差,一般},可以轉(zhuǎn)換成3個屬性,贊(1, 0, 0)、差(0, 1, 0)和一般(0, 0, 1)等。SVM有較為嚴格的統(tǒng)計學(xué)習(xí)理論,具有很好的推廣能力。這可以抓住關(guān)鍵樣本和刪除大量冗余樣本。

      3 實驗及結(jié)果分析

      在本次實驗中首先對評測進行數(shù)據(jù)處理,將從網(wǎng)頁中爬蟲下來是數(shù)據(jù)提取到文本中,然后將文本通過結(jié)巴工具進行分詞和詞性標注,最后將結(jié)果保存到另外一個文本中。在這里為了能夠簡化,采用中文分詞的精確模式,試圖將句子最精確地切開,比較適合文本分析。最后全部以行讀入數(shù)據(jù),相當于每行就是一個獨立的句子。為了降低對內(nèi)存的消耗,這里我們使用iter迭代,告訴Word2Vec輸入的數(shù)據(jù)是可迭代的對象,使用生成器會大大降低內(nèi)存消耗,所以這里我們返回的是生成器而不是列表(近似將生成器等同于列表)。處理后將數(shù)據(jù)樣本分為訓(xùn)練集、驗證集和測試集,訓(xùn)練集用來訓(xùn)練模型。驗證集用來驗證通過模型得到的情感是否正確,及時反饋給模型,并優(yōu)化模型。測試集便用來測試模型。將詞向量所得到的高維數(shù)據(jù)再用word2vec中的方法將相近的詞進行匯聚,再對情感字典降維和擴充等操作,最終作為輸入數(shù)據(jù)用于SVM分類。

      3.1 部分實現(xiàn)代碼

      代碼如下:

      3.2 實驗結(jié)果分析

      實驗結(jié)果中,首先對數(shù)據(jù)預(yù)處理時對數(shù)據(jù)分布式向量化Word2vec。在高維向量空間中對稀疏數(shù)據(jù)集的探索也變得更加困難。是因為得出高維度詞向量,隨著維數(shù)的增加,數(shù)據(jù)的稀疏性會越來越高。主成分分析PCA (PCA),也稱為Karl-Hunin-Lough變換,是一種研究高維數(shù)據(jù)結(jié)構(gòu)的技術(shù)。PCA可以將潛在相關(guān)的高維變量合成為線性變量所以要進行降維。本文采用PCA算法對結(jié)果進行降維,Word2vec模型設(shè)定了400的維度進行訓(xùn)練,得到的詞向量為400維。運行代碼,根據(jù)結(jié)果圖發(fā)現(xiàn),包含原始數(shù)據(jù)的絕大部分內(nèi)容是在前100維,因此模型的輸入選擇前100維。維數(shù)曲線如圖2。

      當數(shù)據(jù)都準備好后用機器學(xué)習(xí)SVM訓(xùn)練,訓(xùn)練之后模型用于預(yù)測句子是正面評論、負面評論或者是中性評論,對于模型是否有效及效果的好壞,可以通過驗證模型計算測試集的預(yù)測精度,并用ROC曲線來驗證分類器的有效性。運行代碼,得到Test Accuracy: 0.886,即本次實驗測試集的預(yù)測準確率為88.6%,ROC曲線如圖3所示。

      4 結(jié)語

      本文提出基于機器學(xué)習(xí)的情感分類方法,利用網(wǎng)絡(luò)爬蟲作為輿情分析數(shù)據(jù)獲取的通道,獲取數(shù)據(jù)后利用Word2vec工具和情感詞性標簽建立,并在此基礎(chǔ)上結(jié)合否定詞和副詞等來確定情感傾向值。在訓(xùn)練時,選出其中部分表達積極情感的文本和其中小部分表達消極情感的文本,或者還包括一部分表達中性情感的文本,用SVM方法進行訓(xùn)練,獲得一個情感分類器。在未來,我們不僅要努力提高數(shù)據(jù)在情感分類的有效性,而且還要研究不確定性的其他方面,并將該方法擴展到多類分類問題。

      猜你喜歡
      超平面分類器向量
      向量的分解
      全純曲線的例外超平面
      涉及分擔超平面的正規(guī)定則
      聚焦“向量與三角”創(chuàng)新題
      以較低截斷重數(shù)分擔超平面的亞純映射的唯一性問題
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      长子县| 延寿县| 华坪县| 若尔盖县| 阿拉善右旗| 桐梓县| 沈阳市| 福鼎市| 泾阳县| 北川| 池州市| 张掖市| 禹州市| 佛坪县| 延川县| 湘阴县| 汶川县| 蒲江县| 河源市| 屏东市| 平湖市| 赣州市| 师宗县| 特克斯县| 柘城县| 翁源县| 昌宁县| 盈江县| 万山特区| 县级市| 石楼县| 商河县| 萍乡市| 东港市| 城固县| 临夏市| 光泽县| 威远县| 诸暨市| 如皋市| 谷城县|