• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LDA主題模型的格調(diào)挖掘

      2018-07-25 06:13:32李江宇宋添樹張沁哲
      電腦與電信 2018年5期
      關(guān)鍵詞:詞項(xiàng)發(fā)布者格調(diào)

      李江宇 宋添樹 張沁哲

      1 引言

      近年來,微博、微信朋友圈等社交平臺(tái)快速崛起,由于使用方便、操作簡單等優(yōu)點(diǎn)被廣大用戶所使用。用戶不僅可以在社交平臺(tái)上發(fā)表自己的看法,還可以通過點(diǎn)贊、評(píng)論以及轉(zhuǎn)發(fā)的方式參與別人討論的話題。過去關(guān)于社交平臺(tái)的研究多為人格以及情感研究,本文首次提出發(fā)布者格調(diào)的概念,旨在通過微博用戶的龐大數(shù)據(jù)量分析刻畫出發(fā)布者的格調(diào)極性分布。格調(diào)是指發(fā)布者的風(fēng)格、品味,往往由其文藝作品中導(dǎo)出,而發(fā)布者的微博文本就是他們的文藝作品。挖掘得到發(fā)布者的格調(diào)極性對(duì)微博的定向推薦有重要的意義。

      2 相關(guān)工作

      本文采用的主要研究方法是引入LDA主題模型,通過主題分布來反映發(fā)布者的格調(diào)極性。徐戈等人[1]對(duì)主題模型的發(fā)展以及各階段主題模型的推導(dǎo)進(jìn)行了詳細(xì)的闡述,并對(duì)改進(jìn)的主題模型進(jìn)行了展望。歐陽繼紅等人[2]提出了一種多粒度情感混合模型,該研究對(duì)LDA主題模型進(jìn)行了改進(jìn),考慮兩個(gè)粒度上,即整體以及局部的情感分布來刻畫發(fā)布者的情感。王永貴等人[3]提出了基于用戶層的四層貝葉斯主題模型,解決了LDA挖掘短文本效果不佳的問題。Daniel Preotiuc等人[4]則從性別、年齡、職業(yè)三個(gè)方面使用社交文本釋義的方式刻畫不同發(fā)布者的風(fēng)格。

      3 格調(diào)刻畫模型

      3.1 傳統(tǒng)的LDA主題模型

      2003年Blei等人[5]提出了LDA(Latent Dirichlet Allocation)主題模型,LDA主題模型主要是通過無監(jiān)督學(xué)習(xí)的方式來抽取文檔集的潛在語義信息,這個(gè)語義信息就表現(xiàn)為文檔集的主題,把文檔集的高維度表示方式降到主題的低維度表示方式。LDA主題模型一般認(rèn)為“每篇文檔都是按照一定的概率選擇了某個(gè)主題,而每個(gè)主題又是按照一定的概率選擇了某個(gè)詞項(xiàng)”,其中“文檔-主題”分布及“主題-詞項(xiàng)”分布都是服從一定參數(shù)的多項(xiàng)式分布。如果要生成一篇文檔,每個(gè)詞出現(xiàn)的概率如式1所示:

      圖1表示為LDA主題模型的三層貝葉斯表示圖,其中wm,n為可觀測值,在語料庫中,我們唯一可以觀測到的變量就是詞項(xiàng),而其他的元素均為無法觀測的隱含變量。K表示訓(xùn)練語料庫后生成主題的數(shù)量,M表示生成文檔的數(shù)量,Nm表示第m篇文檔涵蓋詞項(xiàng)的數(shù)量。

      3.2 SLDA主題模型

      傳統(tǒng)的LDA主題模型多被應(yīng)用于長文本主題挖掘,長文本包含較多的文字信息,表達(dá)語義更加明確,已有的多項(xiàng)研究已經(jīng)證明傳統(tǒng)的LDA主題模型對(duì)長文本主題挖掘效果比較顯著。而社交平臺(tái)的文本均屬于短文本,發(fā)布者發(fā)布的短文本被限制在140個(gè)字符以內(nèi),通過傳統(tǒng)的LDA主題模型對(duì)發(fā)布者的短文本進(jìn)行主題挖掘效果并不理想。

      本文借鑒AT(Author Topic)模型[3],對(duì)傳統(tǒng)LDA主題模型進(jìn)行了改進(jìn),在“文檔-主題-詞”的三層貝葉斯模型的基礎(chǔ)上,引入了發(fā)布者層,通過加入發(fā)布者的格調(diào)參數(shù)來挖掘出發(fā)布者的格調(diào)主題分布,最終得到刻畫發(fā)布者格調(diào)極性的SLDA主題模型。

      相比于傳統(tǒng)的LDA主題模型,SLDA模型的可觀測值為詞項(xiàng)wm,n以及發(fā)布者am,n,而其他的元素均為無法觀測的隱含變量。對(duì)于一個(gè)完整的發(fā)布者社交文本文檔,某個(gè)詞wm,n按照一定的概率選擇發(fā)布者am,n,然后根據(jù)選擇的發(fā)布者am,n的格調(diào)極性π是高的(π=s1)還是低的(π=s2)又以一定的概率選擇其對(duì)應(yīng)格調(diào)的主題zm,n,主題zm,n在詞分布上服從Multinomial的多項(xiàng)式分布,并按一定概率產(chǎn)生一個(gè)詞。反復(fù)上述的迭代過程,最終生成一篇完整的文檔。

      SLDA主題模型的四層貝葉斯網(wǎng)絡(luò)圖如圖2所示:

      圖2 SLDA主題模型的四層貝葉斯網(wǎng)絡(luò)圖

      主題模型參數(shù)含義如表1所示:

      表1 參數(shù)及含義說明

      參數(shù)wm,n am,n α β ξd π含義第m篇文檔的第n個(gè)詞第m篇文檔的第n個(gè)詞對(duì)應(yīng)的發(fā)布者關(guān)于文檔-主題多項(xiàng)式分布的參數(shù)θm的Dirichlet分布參數(shù)關(guān)于主題-詞多項(xiàng)式分布的參數(shù)φk的Dirichlet分布參數(shù)發(fā)布者am,n服從參數(shù)為ξd的均勻分布發(fā)布者的格調(diào)極性,s1為格調(diào)極性高,s2為格調(diào)極性低

      4 吉布斯抽樣

      本文采用吉布斯采樣的方法對(duì)SLDA模型進(jìn)行推導(dǎo)。根據(jù)式2,通過吉布斯采樣對(duì)每位發(fā)布者博文的每個(gè)詞項(xiàng)進(jìn)行采樣,反復(fù)迭代使結(jié)果趨于穩(wěn)定。

      其中zi=k,am,n=π表示在一篇文檔中的第i個(gè)詞項(xiàng)分配到的主題為k以及發(fā)布者am,n的格調(diào)極性為π。z-i表示除了第i個(gè)詞項(xiàng)的主題分布。Nw,k,π表示詞項(xiàng)w在主題k和格調(diào)極性π中出現(xiàn)的次數(shù),Nk,π,d表示文檔d中主題k和格調(diào)極性π中出現(xiàn)的次數(shù),Nk,d表示文檔d中k中出現(xiàn)的次數(shù),Nk,π表示主題k和格調(diào)極性π出現(xiàn)的次數(shù),Nd表示文檔d中詞項(xiàng)總數(shù)。

      SLDA模型參數(shù)估計(jì)的吉布斯采樣迭代方式為:

      (1) 設(shè)定發(fā)布者am,n博文文檔的格調(diào)極性為π;

      (2) 更新格調(diào)分布的先驗(yàn)ζd;

      (3) 更新詞項(xiàng)的主題分布z和情感極性π。

      經(jīng)過吉布斯采樣后,SLDA主題模型對(duì)φk、θm和π估計(jì)如式3、式4和式5所示:

      根據(jù)上述吉布斯采樣公式可以得到發(fā)布者文檔d的詞項(xiàng)分布φk、主題分布θm以及情感極性π,通過概率計(jì)算,對(duì)發(fā)布者的整個(gè)博文文檔進(jìn)行分析,就可以挖掘出每位發(fā)布者的格調(diào)極性是高的(π=s1)還是低的(π=s2)。

      5 實(shí)驗(yàn)分析

      5.1 實(shí)驗(yàn)準(zhǔn)備

      本文以新浪微博作為數(shù)據(jù)來源,利用網(wǎng)絡(luò)爬蟲爬取100位截止2017年7月的微博數(shù)據(jù)。由于采樣數(shù)據(jù)中常常包含不完整以及冗余的數(shù)據(jù),因此在獲取數(shù)據(jù)之后必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)的質(zhì)量,從而更好地完成挖掘任務(wù)。

      5.2 困惑度分析

      困惑度(Perplexity)[6]作為一種概率圖模型的性能評(píng)價(jià)指標(biāo),因其計(jì)算簡單、易于實(shí)現(xiàn)等優(yōu)點(diǎn)被廣泛應(yīng)用于不同概率圖模型的比較分析中。在不同模型中輸入相同參數(shù)的情況下,困惑度越低表明模型的性能越高,主題模型困惑度的計(jì)算公式如式6所示:

      其中,W表示關(guān)于發(fā)布者完整的文檔集,Nm表示第m篇文檔詞項(xiàng)的數(shù)量,p(wm)表示產(chǎn)生第m篇文檔的概率。p(wm)的計(jì)算公式如式7所示:

      在LDA主題模型及SLDA主題模型輸入不同的迭代次數(shù)訓(xùn)練文檔集,得到的困惑度對(duì)比如圖3所示:

      圖3 LDA主題模型與SLDA主題模型困惑度對(duì)比

      由圖3可以看出,在設(shè)定固定參數(shù)α=50/K,β=0.01以及輸入確定主題數(shù)K=10的情況下,隨著迭代次數(shù)的增加,LDA主題模型以及SLDA主題模型的困惑度均在逐漸減小。當(dāng)?shù)螖?shù)小于200時(shí),兩種主題模型的困惑減小幅度較大,當(dāng)?shù)螖?shù)達(dá)到200后,困惑度減小的幅度平緩,困惑度曲線開始收斂,趨于一個(gè)較穩(wěn)定的范圍。SLDA主題模型在不同的迭代次數(shù)情況下,困惑度均小于LDA主題模型,可以發(fā)現(xiàn)SLDA主題模型對(duì)微博文本的主題提取效果更佳,性能也更高。

      5.3 主題提取效果分析

      在上一節(jié)的困惑度分析中,當(dāng)?shù)螖?shù)達(dá)到200時(shí),模型困惑度趨于平穩(wěn),所以在本實(shí)驗(yàn)中設(shè)定迭代次數(shù)為200。選取10位發(fā)布者,把10位發(fā)布者的博文文檔輸入到改進(jìn)前后的LDA主題模型中,提取10位發(fā)布者的主題,得到分主題詞分布情況如表2及表3所示:

      表2 LDA主題模型挖掘發(fā)布者博文主題結(jié)果

      表3 改進(jìn)LDA主題模型挖掘發(fā)布者博文主題結(jié)果

      表2和表3分別反映了改進(jìn)前后的LDA主題模型對(duì)發(fā)布者的主題提取情況,可以發(fā)現(xiàn)經(jīng)過不同主題模型的訓(xùn)練后,每位發(fā)布者的主題分布存在差異。在表3中ID為“母其彌雅”的用戶主題詞為“演員”、“健康”、“養(yǎng)生”、“瑜伽”、“健身”等,從這些詞中很容易可以發(fā)現(xiàn)發(fā)布者的主要興趣愛好為健身或者演藝類。而在表2中的主題詞出現(xiàn)了“沒有”、“共享”、“國家”等無法讀出興趣愛好的主題詞,對(duì)發(fā)布者的興趣愛好分析造成了一定的影響。對(duì)其他的發(fā)布者主題詞提取結(jié)果同“母其彌雅”類似,LDA主題模型提取得到的主題詞存在較多的無關(guān)主題詞,影響了主題的可讀性,對(duì)挖掘發(fā)布者的興趣愛好加大了難度。相反SLDA主題模型的挖掘效果要優(yōu)于LDA主題模型,減小了主題的區(qū)分難度。

      5.4 格調(diào)提取分析

      本實(shí)驗(yàn)主要對(duì)發(fā)布者的格調(diào)主題詞進(jìn)行了分類提取,通過LDA主題模型和SLDA主題模型抽取出格調(diào)相關(guān)詞項(xiàng),總體來看,SLDA主題模型提取的格調(diào)詞項(xiàng)更加豐富。提取結(jié)果如表4所示:

      表4 LDA主題模型與SLDA主題模型格調(diào)抽樣結(jié)果

      從表4可以看出,LDA主題模型和SLDA主題模型提取的格調(diào)詞項(xiàng)存在一定的差異,而SLDA主題模型提取到的主題詞更能表達(dá)出發(fā)布者的主題。另一方面,兩種不同的主題模型都可以提取到格調(diào)極性不同的主題詞。

      6 結(jié)束語

      通過微博用戶的行為狀態(tài)等數(shù)據(jù)對(duì)發(fā)布者的格調(diào)進(jìn)行分析和預(yù)測,對(duì)于推薦系統(tǒng)及個(gè)性化廣告等方面都有著巨大的價(jià)值。本文通過困惑度分析、主題提取效果以及對(duì)用戶的格調(diào)詞匯提取實(shí)驗(yàn)證明了SLDA主題模型合理有效。

      猜你喜歡
      詞項(xiàng)發(fā)布者格調(diào)
      自然種類詞項(xiàng)二難、卡茨解決與二維框架
      基于NDN的高效發(fā)布/訂閱系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      廣告發(fā)布者的著作權(quán)審查義務(wù)問題研究
      如何打造高格調(diào)的農(nóng)產(chǎn)品
      加權(quán)映射匹配方法的站內(nèi)搜索引擎設(shè)計(jì)
      一盞臺(tái)燈如何提升格調(diào)?FLOW LAMP闡釋何為極簡與優(yōu)雅
      法式新格調(diào)
      車迷(2015年11期)2015-08-23 11:48:12
      英語詞項(xiàng)搭配范圍及可預(yù)見度
      依據(jù)語篇中多層次信息的句法分析方法
      大家(2011年9期)2011-08-15 00:45:37
      語段中詞項(xiàng)共現(xiàn)現(xiàn)象的認(rèn)知研究
      西乌珠穆沁旗| 华蓥市| 修文县| 囊谦县| 桓仁| 诸城市| 阳新县| 新丰县| 丽水市| 茂名市| 醴陵市| 勃利县| 黔西县| 吉木乃县| 新野县| 宜良县| 无极县| 罗定市| 清镇市| 电白县| 瑞安市| 五大连池市| 银川市| 尼玛县| 驻马店市| 兰溪市| 渭南市| 永修县| 洪江市| 鹿泉市| 建水县| 无棣县| 巴彦县| 合作市| 澎湖县| 灵石县| 盐津县| 辽阳县| 永兴县| 海林市| 汶川县|