• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于XGBoost的中文網(wǎng)絡(luò)評論分類方法研究

      2021-01-20 06:21:12劉思聰盧甘霖崔子良尹建爍西北農(nóng)林科技大學(xué)信息工程學(xué)院
      數(shù)碼世界 2020年12期
      關(guān)鍵詞:數(shù)據(jù)量分詞標(biāo)簽

      劉思聰 盧甘霖 崔子良 尹建爍 西北農(nóng)林科技大學(xué)信息工程學(xué)院

      引言

      網(wǎng)絡(luò)論壇相關(guān)技術(shù)的發(fā)展,使其能夠承載更多網(wǎng)絡(luò)用戶產(chǎn)生的信息。但網(wǎng)絡(luò)評論來源的復(fù)雜性,造成了網(wǎng)絡(luò)論壇中的評論文本質(zhì)量良莠不齊。因此,對網(wǎng)絡(luò)評論文本進(jìn)行實(shí)時并且快速的分類成為了當(dāng)前比較緊迫的商業(yè)需求。

      但當(dāng)前網(wǎng)絡(luò)評論文本分類的有關(guān)研究還未成熟,其亟待解決的問題可總結(jié)為:文本分類的類別設(shè)置不全面;使用的分類算法性能不佳。為解決以上問題,本文建立了一套較為科學(xué)的評論文本分類標(biāo)簽,提出了一套基于XGBoost算法的分類系統(tǒng)。

      1 相關(guān)技術(shù)

      1.1 數(shù)據(jù)獲取與預(yù)處理流程

      采用網(wǎng)絡(luò)爬蟲抓取網(wǎng)絡(luò)論壇上的評論信息,運(yùn)用NLTK工具集對無關(guān)信息進(jìn)行清洗,建立符合需求的評論文本數(shù)據(jù)集。

      1.2 文本分詞處理流程

      使用Jieba進(jìn)行中文分詞,該工具包實(shí)現(xiàn)了高效的詞圖掃描,能找出基于詞頻的最佳切分方式。

      1.3 基于TF-IDF的特征提取流程

      通常運(yùn)用TF-IDF提取文章的特征,具體如下:

      2 XGBoost算法

      該分類算法的基本思想是選擇部分樣本和特征生成一個簡單模型,將其作為基本分類器。在生成新模型時,學(xué)習(xí)以前模型的殘差最小化目標(biāo)函數(shù)。重復(fù)執(zhí)行,最終產(chǎn)生準(zhǔn)確率很高的綜合模型。它的目標(biāo)函數(shù) Oobj經(jīng)過泰勒公式展開后,最終化簡為

      3 網(wǎng)絡(luò)評論分類系統(tǒng)的構(gòu)建

      分類系統(tǒng)由文本獲?。ㄊ褂镁W(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)論壇抓取文本信息)、文本整理與清洗(剔除文本中的無關(guān)信息)、文本分詞(對經(jīng)過預(yù)處理的文本進(jìn)行分詞)、特征提?。▽Ψ衷~后的文本建立特征矩陣)和模型訓(xùn)練(訓(xùn)練出XGboost模型)構(gòu)成。

      4 實(shí)驗(yàn)驗(yàn)證

      4.1 實(shí)驗(yàn)驗(yàn)證平臺

      硬件平臺:CPU:Intel i5 7300HQ,內(nèi)存:DDR4 12G,硬盤:260G硬盤;

      開發(fā)及運(yùn)行環(huán)境:操作系統(tǒng) Windows 10 OS, 編程語言:Python 3。

      4.2 項(xiàng)目所使用數(shù)據(jù)集

      首先,設(shè)定體育、健康等12類標(biāo)簽。其次,在SougoCS數(shù)據(jù)集的基礎(chǔ)上,使用網(wǎng)絡(luò)爬蟲和手工標(biāo)注將訓(xùn)練集和測試集分別增強(qiáng)到24000條和12000條。

      4.3 分類性能評判標(biāo)準(zhǔn)

      使用準(zhǔn)確率,召回率和F1三個指標(biāo)作為分類器評判標(biāo)準(zhǔn),定義如下:

      4.4 不同分類模型的比較

      為驗(yàn)證XGBoost的分類準(zhǔn)確性,選擇Logistics、隨機(jī)森林和樸素貝葉斯三種算法,在100%數(shù)據(jù)量下,進(jìn)行比較。由表1可知,XGBoost模型的結(jié)果好于其他三種算法。其中,較排名第二的Logistics仍高出8%。

      4.5 不同數(shù)據(jù)量的影響

      隨機(jī)選取20%、40%、60%、80%的數(shù)據(jù)作為訓(xùn)練集。從折線圖中可以看出,隨著數(shù)據(jù)量的增加,模型的結(jié)果逐步增強(qiáng),且未出現(xiàn)明顯的下降趨勢。

      表2 訓(xùn)練樣本量對XGBoost算法的影響

      圖1 XGBoost在不同數(shù)據(jù)量下測試結(jié)果的變化

      5 結(jié)論

      (1)針對當(dāng)下分類標(biāo)簽設(shè)定不科學(xué)的問題,可在原有基礎(chǔ)上。根據(jù)實(shí)際,設(shè)計出更精細(xì)的標(biāo)簽;然后,利用人工標(biāo)注的方法,逐步增強(qiáng)適用于網(wǎng)絡(luò)評論分類的評論語料。

      (2)針對準(zhǔn)確率的問題,提出了一套基于XGBoost算法的分類方法。通過與其他分類算法的比較可得:XGBoost算法的結(jié)果好于其他算法;通過在不同數(shù)據(jù)量下的測試可得:隨著訓(xùn)練樣本的增加,準(zhǔn)確率保持穩(wěn)定增長,未出現(xiàn)較明顯的下降趨勢。

      猜你喜歡
      數(shù)據(jù)量分詞標(biāo)簽
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      值得重視的分詞的特殊用法
      標(biāo)簽化傷害了誰
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      涟水县| 茌平县| 东方市| 阿合奇县| 五峰| 桦甸市| 库尔勒市| 防城港市| 西充县| 大冶市| 施秉县| 金平| 贵南县| 中卫市| 嘉黎县| 福泉市| 清新县| 红安县| 芦溪县| 梨树县| 高碑店市| 乌兰县| 靖西县| 莱阳市| 凌海市| 江达县| 崇仁县| 泽州县| 华蓥市| 于都县| 清原| 东明县| 北宁市| 华安县| 柯坪县| 同江市| 香格里拉县| 徐闻县| 山阳县| 临江市| 胶州市|