• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的互聯(lián)網(wǎng)評論傾向性分析相關(guān)算法研究①

      2019-02-15 03:52:34徐姍姍
      關(guān)鍵詞:分類器向量樣本

      吳 菲, 徐姍姍

      (1.南京工業(yè)大學(xué)浦江學(xué)院,江蘇 南京 210000;2.南京林業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院,江蘇 南京 21000)

      0 引 言

      互聯(lián)網(wǎng)在給人們帶來信息獲取便利性的同時(shí),也出現(xiàn)了一些負(fù)面影響,如:網(wǎng)絡(luò)上存在大量虛假信息。在當(dāng)今的互聯(lián)網(wǎng)+時(shí)代,目前大多數(shù)人們首先通過聯(lián)網(wǎng)設(shè)備獲取或發(fā)布信息。如何更好地了解群眾的情緒或觀點(diǎn)并精準(zhǔn)地得到觀點(diǎn)傾向性,就成了目前輿情分析領(lǐng)域最需要解決的主要問題。而目前政府等部門進(jìn)行輿情監(jiān)控的主要手段是觀察情感的流向從而提供優(yōu)秀的戰(zhàn)略建議。根據(jù)此戰(zhàn)略建議去安撫、疏導(dǎo)人們,防止部分人產(chǎn)生暴力行為從而導(dǎo)致人群的恐慌。

      因此,針對評論獲得情感的傾向性對于輿論的監(jiān)督或商品評論的統(tǒng)計(jì)都有著至關(guān)重要的作用。以往的方法:通過人工統(tǒng)計(jì)分析,其效率極低。因此提出一種利用機(jī)器來自動(dòng)分析情感傾向的方法是十分必要的。

      1 相關(guān)研究介紹

      1.1 傳統(tǒng)的IG算法及改進(jìn)

      IG算法是一種有效的特征選擇算法,目前已在文本分類研究領(lǐng)域中得到了廣泛的應(yīng)用。

      傳統(tǒng)的IG算法描述如下:

      傳統(tǒng)算法在信息增益上無法區(qū)分其特征,即情感詞。即便原有算法能夠擇出一些特征,但是算法分析后得到的結(jié)果并不是非常理想。對于情感分析這一重要問題,不難看出得到評論的極性最有效率的方式是判斷情感詞。所以在提取特征詞的時(shí)候,情感詞所占的比例應(yīng)當(dāng)?shù)玫酱罅吭黾訌亩岣吲卸ǖ臏?zhǔn)確度。

      針對上述要求,對IG算法進(jìn)行改進(jìn),改進(jìn)后的算法命名為IG-S,其計(jì)算公式如下:

      1.2 傳統(tǒng)的TF-IDF算法及改進(jìn)

      TF-IDF是一種統(tǒng)計(jì)方法,某個(gè)字詞對于一個(gè)文件集或一個(gè)文本庫中的其中一份文件的重要程度可以用此方法來評估。隨著字詞在文件中出現(xiàn)的次數(shù)增加,字詞的重要性逐漸變高,但同時(shí)也會(huì)隨著它在文本庫中出現(xiàn)的頻率成反比下降。

      傳統(tǒng)的TF-IDF算法描述如下:

      qi=TFi×IDF

      其中,TFi表示特征i在數(shù)據(jù)集中出現(xiàn)的概率。IDF表示逆向文檔頻率,此變量在文本庫或文件集合中包括了特征i的樣本內(nèi)容的比例。其中TF、IDF公式如下:

      |D|代表所有數(shù)據(jù)的總數(shù),ni,j表示在數(shù)據(jù)集中i出現(xiàn)的次數(shù),∑knk,j代表數(shù)據(jù)集中的不同特征相加。

      傳統(tǒng)的TF-IDF算法存在的不足:①傳統(tǒng)算法無法準(zhǔn)確地辨別一個(gè)詞是否為情感詞,但在實(shí)際的情況下情感詞匯和普通詞往往存在著辨別樣本所屬樣本類能力的差異,傳統(tǒng)算法也沒有把重要的因素:位置給考慮進(jìn)來。不難看到,修飾詞后面若加入情感詞語,相應(yīng)情感詞語的分?jǐn)?shù)也應(yīng)該得到提升②同時(shí)傳統(tǒng)算法極大幾率將部分無用且有著稀疏性的詞語的評論貢獻(xiàn)度定的過于高,這樣就導(dǎo)致了很難將不同類別之間的特征差異展現(xiàn)出來。

      針對上述的不足,作者改進(jìn)了特征權(quán)重的計(jì)算方式,提出了TF-IDF-S方法,算法公式如下:

      經(jīng)過此方法改進(jìn)后的算法不僅能夠提高程度副詞與情感詞間的權(quán)重,還額可以大大降低稀疏的特診對判定準(zhǔn)確度的惡劣影響。

      1.3 融合分類器構(gòu)建

      1.3.1 情感傾向性分析方法

      目前,在眾多的文本分類的方法當(dāng)中,情感傾向性分析的主要手段是將完整的評論信息根據(jù)不同情況進(jìn)行分類,從情感的傾向角度分為正面評論、中性評論和負(fù)向評論。具體步驟為:

      Step1:數(shù)據(jù)預(yù)處理:用預(yù)處理技術(shù)將數(shù)據(jù)集進(jìn)行處理,將其形成向量空間;

      Step2:訓(xùn)練模型;

      Step3:測試階段:將測試數(shù)據(jù)放入訓(xùn)練好的模型當(dāng)中,得到預(yù)測分類。

      1.3.2 融合分類器展示

      融合分類器其結(jié)構(gòu)圖如下:

      1.3.3 構(gòu)建融合分類器

      (1)樸素貝葉斯算法

      輸入:輸入樣本數(shù)據(jù)Y=(x1,y1)(x2,y2)…(xi,yi),其中Y為文本

      (2)KNN算法

      輸入:輸入文本Y=(x1,y1),(x2,y2),…,(xi,yi)

      Step1:fort=1,…,M, 算法根據(jù)預(yù)先設(shè)定的比率,進(jìn)行隨機(jī)生成向量空間Vt,其中對于每個(gè)生成的向量空間其維度為K,同時(shí)將根據(jù)其原有的向量空間來標(biāo)志它的位置Vt=RS(v,k);

      Step2:根據(jù)所有在Step1種得到的特征子空間V1,V2,…,Vm, 數(shù)據(jù)集Y通過不同的特征子空間V1,V2,…,Vm得到子數(shù)據(jù)集Y1,Y2,…,Ym;

      Step3:將KNN分類器作用于數(shù)據(jù)集合Y1,Y2,…,Ym,最終形成了M個(gè)KNN分類器hi:h(i)=KNN(Yi)

      Step4:對于測試樣本集合X將通過其特征子空間V1,V2,…,Vm,劃分為相同格式的輸入數(shù)據(jù)集合X1,X2,…,Xm;

      (3)SVM分類算法

      輸入:輸入文本Y=(x1,y1),(x2,y2),…,(xi,yi)

      輸出:每個(gè)樣本數(shù)據(jù)的類別標(biāo)號(hào)和每個(gè)樣本數(shù)據(jù)所屬類別的貢獻(xiàn)值

      Step1:數(shù)據(jù)預(yù)處理階段:利用數(shù)據(jù)清洗技術(shù)將訓(xùn)練數(shù)據(jù)進(jìn)行處理優(yōu)化Step2:構(gòu)建向量空間:利用上文中的構(gòu)建向量空間的方法將文本表示成向量空間(空間內(nèi)的數(shù)據(jù)格式應(yīng)如輸入數(shù)據(jù)一樣);

      Step3:參數(shù)優(yōu)化階段:算法開始改善 分類器的參數(shù) c和g(從而使得分類器的效果最好),最終調(diào)出最優(yōu)的分類器;

      Step4:模型的生成階段:調(diào)節(jié)參數(shù) c、g后 生成的分類器模型將用來訓(xùn)練訓(xùn)練樣本數(shù)據(jù),使得模型效果達(dá)到最優(yōu)。

      Step5:測試階段:將預(yù)處理好的測試樣本輸入模型形成向量空間。

      Step6:查看結(jié)果: 測試數(shù)據(jù)在被訓(xùn)練好的模型預(yù)測得到樣本分類之后,采用格式化輸出其標(biāo)號(hào)和貢獻(xiàn)值并保存。

      (4)分類器融合

      文章結(jié)合SVM、KNN和樸素貝葉斯機(jī)器學(xué)習(xí)等方法,構(gòu)建一個(gè)分類器結(jié)合的模型。提出的模型不僅考慮到各種算法的優(yōu)缺點(diǎn),還將每種算法的優(yōu)勢相結(jié)合,最終形成一個(gè)能夠良好解決情感分析問題的模型,此模型的適應(yīng)性也較好。

      提出的融合分類器算法如下:

      輸入:輸入文本Y=(x1,y1),(x2,y2),…,(xi,yi)

      Step2:通過分類器1預(yù)測結(jié)果,F(xiàn)1=

      分類器2預(yù)測結(jié)果,F(xiàn)2=,

      分類器M預(yù)測結(jié)果,F(xiàn)m=,

      根據(jù)每個(gè)分類器得分更新分類器的權(quán)值

      2 實(shí)驗(yàn)方案與實(shí)驗(yàn)結(jié)果

      2.1 實(shí)驗(yàn)方案

      (1)實(shí)驗(yàn)數(shù)據(jù)

      文章實(shí)驗(yàn)數(shù)據(jù)集合采集:考慮到現(xiàn)在還沒有第三方公布優(yōu)質(zhì)的數(shù)據(jù)集合獲取接口,提出利用python的網(wǎng)絡(luò)爬蟲來獲得抓取互聯(lián)網(wǎng)上的熱點(diǎn)評論數(shù)據(jù)。

      (2)訓(xùn)練數(shù)據(jù)集

      從最近的互聯(lián)網(wǎng)評論中爬取熱點(diǎn)新聞的評論信息,并利用數(shù)據(jù)預(yù)處理技術(shù)將垃圾數(shù)據(jù)與有效數(shù)據(jù)進(jìn)行分離。數(shù)據(jù)集合分布如下:5000條主觀評論。5000條客觀評論。因此訓(xùn)練集合的大小為10000。(3)測試數(shù)據(jù)集

      從訓(xùn)練數(shù)據(jù)集中選取三個(gè)主題,在刪除了大量垃圾評論后,剩下5000條左右主觀評論、400條左右客觀評論。為了避免客觀評論和主觀評論的不平衡性,查找了4500條左右表示客觀性的評論(同一話題),根據(jù)此方法選取的測試數(shù)據(jù)分布良好。

      (4)形成預(yù)測分類器

      利用特征組合將文本表示為向量,放入所構(gòu)建的融合分類器,形成一個(gè)更有效的分類模型。

      2.2 實(shí)驗(yàn)結(jié)果

      利用提出方法進(jìn)行準(zhǔn)確實(shí)驗(yàn),并記錄了準(zhǔn)確率。方法的實(shí)驗(yàn)結(jié)果如下:

      分類器方法準(zhǔn)確率樸素貝葉斯79.13%KNN75.41%SVM83.72%融合分類器87.96%

      通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),融合分類器的性能均要優(yōu)于其他三種分類器。

      3 結(jié) 語

      主要研究評論的情感傾向性判斷的方法,提出了改進(jìn)的IG算法和TF-IDF算法。其中改進(jìn)的IG算法對于傳統(tǒng)的基于信息增益的特征提取方法進(jìn)行了改進(jìn),能夠挑選出更多有效的情感詞。改進(jìn)的TF-IDF算法相比于傳統(tǒng)的算法優(yōu)點(diǎn)在于,提出的優(yōu)化算法能夠在情感詞語和程度副詞于樣本集合中一起存在的時(shí)候,將具有重要意義的情感詞的權(quán)重提高,如此一來模型分析情感和導(dǎo)出其正確的分類的準(zhǔn)確率大大提高。文章也針對于樸素貝葉斯方法、KNN算法以及SVM分類等算法的不足,提出了融合分類器,通過實(shí)驗(yàn)表明,該融合分類器取得了一定的效果,能有效的提高分類準(zhǔn)確率。

      但由于文章的研究方式的束縛,現(xiàn)有的基于監(jiān)督學(xué)習(xí)的方法雖然能夠解決同一領(lǐng)域的情感分析問題。但是一旦樣本集合的樣本來自于不同話題或者樣本之間的相似度不能夠達(dá)到一定高度,模型的分類效果將變得極為糟糕。這一問題很重要,將在接下來的研究工作中解決。

      猜你喜歡
      分類器向量樣本
      向量的分解
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      聚焦“向量與三角”創(chuàng)新題
      推動(dòng)醫(yī)改的“直銷樣本”
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      向量垂直在解析幾何中的應(yīng)用
      村企共贏的樣本
      崇州市| 甘洛县| 文山县| 宿迁市| 应用必备| 专栏| 高平市| 尼玛县| 聂荣县| 象山县| 尉犁县| 双峰县| 昆明市| 石屏县| 迁西县| 井陉县| 临潭县| 鹰潭市| 疏附县| 安顺市| 泰来县| 呼伦贝尔市| 甘南县| 溧水县| 五莲县| 商南县| 唐山市| 株洲县| 绍兴市| 湖南省| 惠来县| 大渡口区| 韶山市| 清水河县| 邛崃市| 酒泉市| 宁夏| 泰顺县| 冕宁县| 绥江县| 鞍山市|