• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機器學習算法的社交數(shù)據(jù)挖掘與用戶偏好的建模

    2019-08-23 02:45:04崔懿心
    電子技術(shù)與軟件工程 2019年14期
    關(guān)鍵詞:時事分詞特征提取

    文/崔懿心

    隨著社交網(wǎng)絡的蓬勃發(fā)展,人們對社交網(wǎng)絡的需求已經(jīng)不僅僅是為了獲取資訊,還很大程度上地利用社交網(wǎng)絡來表達自我,宣泄情感。就在去年,臉書陷入了私下和廣告商交易用戶社交數(shù)據(jù)的丑聞當中,以便廣告商通過分析社交數(shù)據(jù)得出用戶的不同偏好,并將廣告針對性下放。這說明了社交數(shù)據(jù)具有巨大的可研究性,如果該特征能夠被正當利用,那么我們將可以提取出很多有用的信息。本文將會解決以下三個問題:

    (1)利用文本挖掘技術(shù)對社交數(shù)據(jù)進行預處理,并選出最優(yōu)特征提取模型;

    (2)采用積極的機器學習算法、傳統(tǒng)鄰近分類算法和集成學習算法訓練時事類微博二分類模型,對比選出最優(yōu)模型;

    (3)闡述本研究所得的結(jié)論,包括最終模型的描述和多種算法間的對比;并討論時事偏好評估模型在實際生活上的應用

    1 文本挖掘技術(shù)與機器學習算法

    中文分詞算法可以分為三種類型:基于字符串匹配的分詞方法,基于統(tǒng)計的分詞方法以及基于理解的分詞方法?;诮y(tǒng)計的分詞方法,通常會統(tǒng)計相應詞串的組合出現(xiàn)的頻率,進而評估組合間詞串的緊密程度,如果達到一定標準則認為組成了一個詞匯。該方法常用的統(tǒng)計模型包括隱馬爾科夫模型,最大熵模型以及N-gram模型等等。本文采用的是基于統(tǒng)計的分詞方法中的N-gram模型。

    本文數(shù)據(jù)挖掘的研究過程將使用9種機器學習算法,包括樸素貝葉斯算法,邏輯回歸算法,支持向量機SVM算法,決策樹算法,AdaBoost(自適應增強)算法,隨機森林RF算法等等。

    2 基于機器學習文本挖掘的時事偏好評估模型

    2.1 研究數(shù)據(jù)

    利用網(wǎng)絡爬蟲獲取微博名為頭條新聞和新浪娛樂的微博各5000條,對數(shù)據(jù)進行去異常值和人工標注:定義“頭條新聞”所發(fā)微博為時事偏好強微博,標注tag=1;“新浪娛樂”發(fā)表的微博則為科研偏好弱數(shù)據(jù),標注tag=0。最終獲取到的數(shù)據(jù)包括content和tag兩個變量,其中content為文本數(shù)據(jù),tag為布爾型變量。同時,對content變量進行中文分詞后,利用TF-IDF技術(shù)進行文本特征提取并對特征進行過濾。

    表1:各特征提取算法實驗結(jié)果

    表2:分類算法對比

    2.2 文本特征提取模型對比擇優(yōu)

    本文采用N-grams算法進行中文分詞,通過調(diào)參得到三種分詞模型:unigram(單詞)模型、unigram+bigram(單雙詞)模型、bigram(雙詞)模型,經(jīng)過機器學習算法訓練后進行分詞模型的對比,結(jié)果如表1所示。

    由表1可得,在各個積極機器學習算法訓練中,單雙詞模型在準確率和AUC值的指標對比中都要更勝一籌。因此選取單雙詞模型作為最優(yōu)分詞模型,加入TF-IDF特征提取技術(shù)組成最優(yōu)文本特征提取模型,最終提取出15562個文本特征向量。

    2.3 分類算法對比擇優(yōu)

    本文共采取九種機器學習算法進行時事類微博分類器的訓練,共分成三類分類算法進行對比?;A(chǔ)評價指標對比如表2所示。

    Rocchio和KNN屬于傳統(tǒng)的鄰近分類算法,其評價指標普遍比機器學習算法要差。Rocchio算法和KNN鄰近算法的準確率均低于其他四個機器學習算法,甚至低于4種機器學習算法的平均準確率95.34%。說明積極機器學習算法優(yōu)于傳統(tǒng)鄰近分類算法。積極的機器學習算法之間,線性SVC的準確率,F(xiàn)1分數(shù),AUC值達到了96%以上的。而決策樹模型在積極的機器學習算法中屬于分類效果最差的模型。

    集成學習算法的模型分類效果顯示,AdaBoost的各個模型指標都不理想,甚至低于傳統(tǒng)鄰近算法。而將隨機森林算法與強單分類器——線性支持分類機模型對比發(fā)現(xiàn),線性支持分類機算法在各方面都要更勝一籌。

    2.4 分類模型改進

    對線性支持分類機進行調(diào)參,包括懲罰項、懲罰項參數(shù)和成本函數(shù)類型。最終通過模型評價指標的對比得到,最優(yōu)分類器為懲罰項為l2范數(shù),成本函數(shù)類型為square hinge,懲罰項系數(shù)為1的線性SVC模型。因此,在分類結(jié)果基礎(chǔ)上,得到以“時事類微博/總微博數(shù)”為時事偏好評估指標的用戶時事偏好評估模型。

    3 結(jié)語

    本文重點研究如何從社交數(shù)據(jù)提取出用戶的時事偏好屬性,并將該屬性指標用于學生評價體系當中??偨Y(jié)全文得到以下研究成果:以單雙詞模型為分詞模型,結(jié)合TF-IDF技術(shù)作為最優(yōu)文本特征提取模型;對比9種機器學習算法,得出最優(yōu)分類算法為線性支持分類機;最優(yōu)時事類微博分類器為懲罰項為l2范數(shù),成本函數(shù)為square hinge,懲罰項系數(shù)為1 的線性SVC模型。

    猜你喜歡
    時事分詞特征提取
    時事半月談
    小康(2022年20期)2022-07-20 02:34:20
    結(jié)巴分詞在詞云中的應用
    智富時代(2019年6期)2019-07-24 10:33:16
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    時事政策
    Bagging RCSP腦電特征提取算法
    值得重視的分詞的特殊用法
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    時事評點
    法人(2014年5期)2014-02-27 10:44:26
    時事評點
    法人(2014年2期)2014-02-27 10:41:40
    高考分詞作狀語考點歸納與疑難解析
    得荣县| 偏关县| 民和| 宜州市| 北辰区| 华阴市| 青冈县| 闸北区| 华容县| 民丰县| 南京市| 乾安县| 台前县| 荔浦县| 会泽县| 宜兰市| 鸡泽县| 津南区| 定西市| 尉犁县| 吴忠市| 湾仔区| 鹤壁市| 金沙县| 楚雄市| 昌宁县| 法库县| 涞水县| 台南县| 易门县| 汤原县| 天津市| 出国| 遵义县| 常德市| 白河县| 武穴市| 徐汇区| 富蕴县| 玉山县| 南漳县|