• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本向量和機(jī)器學(xué)習(xí)的評(píng)分預(yù)測(cè)算法

      2019-05-23 10:44:40葛聲利
      電腦知識(shí)與技術(shù) 2019年5期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)

      葛聲利

      摘要:隨著無線通信技術(shù)不斷發(fā)展,移動(dòng)終端的普及,大量的用戶涌入到互聯(lián)網(wǎng)中來,同時(shí)隨著博客和微博的興起,互聯(lián)網(wǎng)進(jìn)入了web2.0的時(shí)代。以自媒體為代表的個(gè)人影響會(huì)被網(wǎng)絡(luò)放大,第三方點(diǎn)評(píng)平臺(tái)也在這種浪潮之下應(yīng)運(yùn)而生,人們可以通過第三方點(diǎn)評(píng)平臺(tái)來表達(dá)自己對(duì)商品的看法,大量的觀點(diǎn)在網(wǎng)絡(luò)平臺(tái)上匯聚,形成對(duì)商品的較全面的評(píng)價(jià),同時(shí)大型第三方點(diǎn)評(píng)平臺(tái)上的評(píng)價(jià)和評(píng)分也成為用戶了解商品的最好方式。但是第三方點(diǎn)評(píng)平臺(tái)會(huì)存在評(píng)分缺失的現(xiàn)象,對(duì)平臺(tái)的準(zhǔn)確性和客觀性造成不良影響。針對(duì)此問題,本文提出了基于文本向量和機(jī)器學(xué)習(xí)的評(píng)分預(yù)測(cè)的方法,能較為準(zhǔn)確地預(yù)測(cè)確實(shí)的評(píng)分。

      關(guān)鍵詞:評(píng)分預(yù)測(cè);文本向量;機(jī)器學(xué)習(xí);集成模型

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)05-0171-02

      Rating Prediction Based on Text Vector and Machine Learning

      GE Sheng-li

      (Tongji University, Shanghai 201800, China)

      Abstract: With the continuous development of wireless communication technology, the popularity of mobile terminals, a large number of users flooded into the Internet, and with the rise of blogs and Weibo, the Internet has entered the era of web2.0. The personal influence represented by the media will be amplified by the network, and the third-party review platform emerges under such a wave. People can express their views on the products through the third-party review platform. A large number of opinions are on the network platform. Convergence, a more comprehensive evaluation of the product, and evaluation and scoring on the large third-party review platform has become the best way for users to understand the product. However, the third-party review platform will have a lack of scores, which will adversely affect the accuracy and objectivity of the platform. In response to this problem, this paper proposes a method based on text vector and machine learning for scoring prediction, which can accurately predict the actual score.

      Key words: score prediction; text feature engineering; machine learning; integrated model; weighted model

      1 研究背景

      隨著科學(xué)技術(shù)的進(jìn)步,基礎(chǔ)通信設(shè)施的工藝更加先進(jìn),以及智能移動(dòng)終端的普及,大量的用戶涌入到了互聯(lián)網(wǎng)中,人們的想法和意見更加容易被他人看見,同時(shí)也更加具有價(jià)值。于是相應(yīng)的第三方評(píng)論平臺(tái)就在互聯(lián)網(wǎng)的浪潮之下應(yīng)運(yùn)而生,比如電影的第三方評(píng)論平臺(tái),國(guó)內(nèi)的豆瓣,國(guó)外的IMDB等,第三方自媒體平臺(tái),國(guó)內(nèi)的微博,國(guó)外的twitter,實(shí)體店鋪的第三方評(píng)論平臺(tái),國(guó)內(nèi)的大眾點(diǎn)評(píng)等,國(guó)外的yelp等。

      這些點(diǎn)評(píng)平臺(tái)都擁有大量來自用戶的文本評(píng)論和評(píng)分,這些平臺(tái)上對(duì)商品和商鋪的評(píng)分會(huì)對(duì)消費(fèi)者的購(gòu)物決策有較大影響。有社會(huì)學(xué)家通過統(tǒng)計(jì)研究發(fā)現(xiàn),在美國(guó)的網(wǎng)購(gòu)平臺(tái)上,有87%的用戶會(huì)在購(gòu)買商品前會(huì)瀏覽店鋪評(píng)分和商品評(píng)論,有80%的用戶的購(gòu)買意愿會(huì)受到用戶評(píng)論和商店評(píng)分的影響[1-3]。擁有高評(píng)分和優(yōu)質(zhì)評(píng)論的店鋪往往能贏得更多的用戶。

      第三方評(píng)論平臺(tái)上的評(píng)論是通過眾包的形式來獲取的,這樣的評(píng)論通常是長(zhǎng)度不同,偏重不同,寫作風(fēng)格各異的,如果用戶不是愿意化大量的時(shí)間去閱讀評(píng)論的話,那么用戶很難從中找到有用的信息,所以這些平臺(tái)最常用的辦法就是通過用戶給的評(píng)分,算出平均值,作為對(duì)電影或商品的客觀描述。所以第三方評(píng)論平臺(tái)上評(píng)分是否真實(shí)客觀有效就非常重要了。

      但是出于種種原因,這些平臺(tái)上的許多評(píng)論總是會(huì)和實(shí)際值之間會(huì)存在一定的偏差。首先是第三方評(píng)論網(wǎng)站是開放的,會(huì)存著一些惡意的機(jī)器人刷評(píng),或者僅僅只因?yàn)榻裉祛櫩偷男那椴缓?,最后給了差評(píng)。再者,評(píng)分機(jī)制中的分?jǐn)?shù)是整數(shù),而如果數(shù)值化用戶的滿意度也應(yīng)該是在給定范圍內(nèi)波動(dòng)的實(shí)數(shù)。最后,網(wǎng)站上的評(píng)分不是強(qiáng)制的,會(huì)存在一些顧客只進(jìn)行評(píng)論,而沒有進(jìn)行評(píng)分的現(xiàn)象。

      本文研究的基于多元特征和模型融合的評(píng)分預(yù)測(cè)算法,針對(duì)第三方評(píng)論網(wǎng)站的評(píng)論和vote數(shù)據(jù)進(jìn)行評(píng)分預(yù)測(cè)。通過在10-20萬條yelp評(píng)論數(shù)據(jù)上,結(jié)合句子中的統(tǒng)計(jì)特征,詞嵌入特征和評(píng)論的vote特征進(jìn)行特征融合,并對(duì)支持向量回歸和隨機(jī)森領(lǐng)的混合模型上進(jìn)行訓(xùn)練,生成一個(gè)評(píng)分預(yù)測(cè)模型。本文的基于多元特征和模型融合的評(píng)分預(yù)測(cè)模型,是將特征工程和機(jī)器學(xué)習(xí)算法優(yōu)化和整合,應(yīng)用到評(píng)論文本預(yù)測(cè)中的應(yīng)用型研究,該算法能在一定程度對(duì)第三方評(píng)論平臺(tái)上存在的大規(guī)模機(jī)器人刷分進(jìn)行打擊,同時(shí)也能對(duì)部分沒有評(píng)分的文本進(jìn)行評(píng)分預(yù)測(cè),使商品總評(píng)分更加準(zhǔn)確。

      2 實(shí)驗(yàn)分析

      針對(duì)評(píng)論評(píng)分預(yù)測(cè)任務(wù),先對(duì)評(píng)論文本進(jìn)行了文本預(yù)處理,然后通過6種文本特征提取的方法對(duì)評(píng)論文本進(jìn)行了特征提取,得到了6組不同的文本特征向量,最后使用了4種單一的機(jī)器學(xué)習(xí)模型和2種集成的機(jī)器學(xué)習(xí)模型,以文本特征向量作為輸入,評(píng)論評(píng)分作為標(biāo)簽,對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行了訓(xùn)練,生成了36種評(píng)分預(yù)測(cè)的模型,并在測(cè)試集上用均方根誤差(RSME)作為衡量指標(biāo),對(duì)36組評(píng)分預(yù)測(cè)模型進(jìn)行了評(píng)估,其中圖2.1是36組評(píng)分預(yù)測(cè)模型的均方根誤差的對(duì)比圖,我們可以看出,GradientBoosting Regression[4]模型都能得到最低的誤差率,但是RBF-SVR模型的預(yù)測(cè)誤差在任何特征向量上都有較大的誤差率。并且RBF-SVR模型的訓(xùn)練時(shí)間也是其他模型的千倍以上,可見對(duì)于本文的評(píng)分預(yù)測(cè)任務(wù),Gradient Boosting Regression更加合適。

      在使用單一模型Linear Regression,和Linear-SVR結(jié)合BOW模型生成的文本特征向量進(jìn)行評(píng)分預(yù)測(cè)時(shí),效果最好,說明BOW模型生成的特征具有良好的線性特征,可以通過超平面進(jìn)行擬合,但是基于CBOW這種神經(jīng)網(wǎng)絡(luò)模型生成的詞向量,在線性空間內(nèi)的擬合效果就比較差。但是在使用集成模型之后,結(jié)合TAG-CBOW, TFIDF-CBOW, vTAG-CBOW以及vTFIDF-CBOW模型后進(jìn)行評(píng)分預(yù)測(cè)時(shí),誤差率就要低于BOW[5-7]模型的誤差率了,并且36種評(píng)分預(yù)測(cè)模型中,誤差率最低的模型是vTAG-CBOW結(jié)合GradientBoosting Regression模型來進(jìn)行評(píng)分預(yù)測(cè)。模型預(yù)測(cè)的均方根誤差為0.6567,絕對(duì)平均誤差為0.6008。相對(duì)比現(xiàn)有的BOW模型結(jié)合Linear Regression的評(píng)分預(yù)測(cè)模型其均方根誤差降低了0.1727,比BOW模型結(jié)合GradientBoosting Regression模型的評(píng)分預(yù)測(cè)模型均方根誤差降低了0.107。

      從評(píng)論特征提取的模型來看,vTAG-CBOW模型和vTFIDF-CBOW模型相比于TAG-CBOW模型和TFIDF-CBOW模型有更小的誤差率,尤其是vTFIDF-CBOW模型比TFIDF-CBOW模型的誤差率小很多。說明通過將評(píng)論的投票信息作為權(quán)重偏重,能夠有效的將評(píng)論的投票信息融合到特征向量中去,并提高評(píng)分預(yù)測(cè)的準(zhǔn)確率。

      在整個(gè)評(píng)分預(yù)測(cè)任務(wù)中,傳統(tǒng)的文本特征提取的方法中BOW模型有很好地運(yùn)用于評(píng)分預(yù)測(cè),不論是使用單一模型還是集成模型,都能取得較好的效果,但是AVG-CBOW模型得到的文本特征向量卻不能很好地用于本文的評(píng)分預(yù)測(cè)任務(wù)。本文提出的4種文本特征提取的方法,都取得了較好的結(jié)果。尤其是vTAG-CBOW模型和vTFIDF-CBOW模型生成的特征向量,在線性模型上進(jìn)行評(píng)分預(yù)測(cè)時(shí),取得了和BOW模型相近的效果,并且在集成模型上進(jìn)行評(píng)分預(yù)測(cè)取得了比BOW模型更好的效果??梢姳疚奶岢龅?中模型相比于現(xiàn)有文本特征模型更加適用于評(píng)論評(píng)分預(yù)測(cè)任務(wù)。

      3 結(jié)論

      本文主要介紹了6中機(jī)器學(xué)習(xí)的模型,其中包括4種單一模型和2種集成模型,并結(jié)合6種文本特征提取的方法,構(gòu)建了36種評(píng)論文本預(yù)測(cè)的模型,并且在yelp數(shù)據(jù)集上使用16萬條評(píng)論數(shù)據(jù),對(duì)36種評(píng)分預(yù)測(cè)模型進(jìn)行了訓(xùn)練,并用4萬條評(píng)論數(shù)據(jù)作為測(cè)試數(shù)據(jù),并以均方根誤差和絕對(duì)平均誤差最為標(biāo)準(zhǔn)對(duì)模型進(jìn)行了評(píng)估,并對(duì)模型的評(píng)估結(jié)果進(jìn)行了分析和總結(jié)。其中使用vTAG-CBOW模型和vTFIDF-CBOW模型提取出的文本特征向量作為輸入,對(duì)GradientBoosting Regression模型進(jìn)行訓(xùn)練得到的評(píng)分預(yù)測(cè)模型具有最優(yōu)的預(yù)測(cè)能力。通過實(shí)驗(yàn)可知,基于文本向量和機(jī)器學(xué)習(xí)的評(píng)分預(yù)測(cè)算法能夠較為準(zhǔn)確的根據(jù)評(píng)論文本預(yù)測(cè)評(píng)分。

      參考文獻(xiàn):

      [1] Byers JW, Mitzenmacher M, Zervas G. The groupon effect on yelp ratings: a root cause analysis[J], 2012:248-65.

      [2] Büschken J, Allenby GM. Sentence-Based Text Analysis for Customer Reviews[J]. Marketing Science,2016,35(6):953-75.

      [3] Ganu G, Elhadad N, Marian A. Beyond the Stars: Improving Rating Predictions using Review Text Content[J], 2009.

      [4] Yu D, Mu Y, Jin Y. Rating prediction using review texts with underlying sentiments[J]. Inf Process Lett 2017(117):10-18.

      [5] Wang B-k, Huang Y, Li X. Combining Review Text Content and Reviewer-Item Rating Matrix to Predict Review Rating[J]. Comp Int and Neurosc 2016,2016:5968705:1-05:11.

      [6] Xie X, Zhang Y, Wu J, et al. Bag-of-words feature representation for blind image quality assessment with local quantized pattern[J]. Neurocomputing,2017(266):176-87.

      [7] 姜霖王. 采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動(dòng)抽取研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2016,32(2):9-15.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      機(jī)器學(xué)習(xí)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計(jì)算模型
      基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
      基于圖的半監(jiān)督學(xué)習(xí)方法綜述
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      隆化县| 遵义市| 高陵县| 社旗县| 峨山| 正镶白旗| 宁都县| 金华市| 阳东县| 怀来县| 本溪市| 芜湖市| 南平市| 沂水县| 炉霍县| 大足县| 阿坝县| 楚雄市| 崇左市| 霍城县| 墨脱县| 三台县| 新蔡县| 大新县| 石屏县| 保靖县| 石门县| 大竹县| 来安县| 彰武县| 广南县| 浮梁县| 彰化县| 阳江市| 郑州市| 新建县| 廉江市| 尚志市| 隆昌县| 西安市| 留坝县|