• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于微博內(nèi)容的用戶興趣愛好分類模型

      2015-08-26 02:47:51羅挺豪趙珓言杜健平唐建鵬陳榮欽
      關(guān)鍵詞:詞庫博文分詞

      高 哲,羅挺豪,趙珓言,杜健平,唐建鵬,陳榮欽

      基于微博內(nèi)容的用戶興趣愛好分類模型

      高哲,羅挺豪,趙珓言,杜健平,唐建鵬,陳榮欽*

      (臺(tái)州學(xué)院數(shù)學(xué)與信息工程學(xué)院,浙江臨海317000)

      微博數(shù)據(jù)具有較好的價(jià)值,如何從海量的微博數(shù)據(jù)中自動(dòng)提取用戶興趣愛好是智能推薦、微博營(yíng)銷等重要基礎(chǔ)。在分析微博特征基礎(chǔ)上,采用基于微博內(nèi)容的興趣愛好分類模型,通過構(gòu)建興趣愛好詞典,并自動(dòng)抓取微博信息進(jìn)行分詞、匹配和統(tǒng)計(jì),有效地分析出用戶的各種愛好興趣度。

      微博內(nèi)容;數(shù)據(jù)挖掘;興趣分類;微博營(yíng)銷;分詞

      微博作為一個(gè)基于用戶關(guān)系信息分享、傳播和獲取的平臺(tái),具備速度快、信息量大、實(shí)時(shí)開放、實(shí)名制等特點(diǎn),逐漸成為企業(yè)營(yíng)銷的一個(gè)重要工具[1]。但微博用戶和信息規(guī)模往往很大,如截至2014年12月31日,Tw itter每月活躍用戶數(shù)為2.88億,新浪微博的月均活躍用戶數(shù)達(dá)1.757億,如何在海量的微博用戶中精準(zhǔn)地定位用戶對(duì)象并進(jìn)行智能推薦是微博營(yíng)銷的關(guān)鍵問題。

      企業(yè)營(yíng)銷中需要考慮的一個(gè)重要問題是用戶的興趣愛好,因?yàn)樗軌蛑苯臃从秤脩舻馁?gòu)物趨向。興趣愛好一致的用戶,其購(gòu)買的產(chǎn)品也往往具有較大的相似性,因此分析用戶的興趣愛好對(duì)智能推薦和微博營(yíng)銷也具有重要意義。

      1 相關(guān)研究

      目前,已經(jīng)有不少基于微博的用戶研究,盛宇[2]針對(duì)微博特定領(lǐng)域的用戶特征進(jìn)行分析和分類,比如性別、地區(qū)、認(rèn)證、博文數(shù)、轉(zhuǎn)發(fā)數(shù)、個(gè)人介紹、個(gè)人標(biāo)簽、參與話題、博齡、關(guān)注度、互粉率等。王靜等人則研究了新浪微博的人氣用戶,針對(duì)名人具有關(guān)注數(shù)小,被關(guān)注數(shù)大的特征,分析了微博中的名人效應(yīng)[3]。微博的核心用戶興趣相似性和挖掘也是研究的熱點(diǎn)[4-7],通過分析用戶所關(guān)注的人進(jìn)行聚類和相似性分析,可以較好地確定興趣圈子[4]。余珊琳等人[5]則通過分析用戶瀏覽的主題網(wǎng)頁,在主題網(wǎng)頁的瀏覽時(shí)間,是否有回復(fù)來獲得用戶的興趣度,并通過興趣度的高低,采用基于粗糙K均值的用戶興趣度的用戶聚類方法對(duì)用戶進(jìn)行聚類,同時(shí)實(shí)現(xiàn)對(duì)虛擬社區(qū)核心用戶的挖掘。陳海強(qiáng)等人則提出了基于興趣集中性的核心成員求解算法,并在豆瓣網(wǎng)的虛擬社區(qū)中進(jìn)行了有效驗(yàn)證[6]。

      本文則針對(duì)微博內(nèi)容能夠反映用戶興趣愛好的特點(diǎn),直接對(duì)微博信息內(nèi)容進(jìn)行分析,從而進(jìn)一步提取出用戶的興趣愛好并進(jìn)行分析和統(tǒng)計(jì)。

      2 興趣愛好分類模型

      由于微博文本往往具有以下幾方面的特點(diǎn):(1)短文本性:如新浪微博的字?jǐn)?shù)限制在140個(gè)字符以內(nèi);(2)實(shí)時(shí)海量:隨著移動(dòng)設(shè)備的普及,用戶隨時(shí)隨地都可能發(fā)布信息,如新浪微博每天均有數(shù)億條微博信息,信息傳播速度非常之快;(3)內(nèi)容隨意:微博文本往往貼近生活,口語化較重,并充斥著各種網(wǎng)絡(luò)用語;(4)主動(dòng)性:微博內(nèi)容往往由用戶有感而發(fā),能表達(dá)用戶性格、情緒、興趣愛好等有利于營(yíng)銷的重要信息;(5)話題性:用戶往往對(duì)某個(gè)共同話題持續(xù)地關(guān)注和回復(fù),形成了上下文信息。本文從微博文本的特點(diǎn)出發(fā),提出了興趣愛好分類模型,整個(gè)模型如圖1所示,分為幾個(gè)步驟:(1)抓取大量與興趣愛好相關(guān)的文章并進(jìn)行分詞,形成興趣愛好詞典;(2)定時(shí)抓取活躍度較高的微博用戶,并提取出用戶的微博內(nèi)容并進(jìn)行分詞;(3)根據(jù)興趣愛好詞典,對(duì)用戶的微博關(guān)鍵詞進(jìn)行匹配和統(tǒng)計(jì),確定用戶的興趣愛好。

      圖1 用戶興趣愛好分類模型圖

      2.1數(shù)據(jù)預(yù)處理

      微博的數(shù)據(jù)量太大,一般需要實(shí)現(xiàn)自動(dòng)抓取技術(shù)[8],這也是數(shù)據(jù)預(yù)處理的第一個(gè)重要步驟。以新浪微博為例,目前常見的微博內(nèi)容抓取方法有以下三種:

      (1)獲得微博官方授權(quán),并通過提供的API進(jìn)行抓取:在微博的開放平臺(tái)上提交身份信息等待審核通過、新建項(xiàng)目、提交項(xiàng)目文案等資料、等待微博官方的審核、審核通過并開放特定權(quán)限。該方法的優(yōu)點(diǎn)是官方授權(quán),數(shù)據(jù)質(zhì)量有保障,系統(tǒng)維護(hù)方便等。缺點(diǎn)是要通過官方的認(rèn)證審核、流程長(zhǎng)、手續(xù)多、權(quán)限?。ú糠?jǐn)?shù)據(jù)接口需要收費(fèi)),限制多(如接口調(diào)用的頻率限制,每分鐘只能請(qǐng)求次數(shù)有限)。

      (2)通過直接訪問用戶主頁,抓取源代碼:通過訪問用戶頁面源碼,并用特定的正則表達(dá)式來匹配出需要抓取的內(nèi)容。優(yōu)點(diǎn)是實(shí)現(xiàn)方便,不受官方權(quán)限的限制,可以及時(shí)抓取微博數(shù)據(jù),缺點(diǎn)是部分微博內(nèi)容需要用戶登錄才能訪問,微博樣式更新后需要及時(shí)的更新正則表達(dá)式去匹配新的網(wǎng)站樣式。

      (3)對(duì)第二種方法進(jìn)行改進(jìn),先模擬登錄,再訪問用戶主頁,抓取源代碼:根據(jù)微博網(wǎng)站請(qǐng)求加密的規(guī)則,加密數(shù)據(jù),然后再向微博的服務(wù)器發(fā)送訪問請(qǐng)求。優(yōu)點(diǎn)是可以抓取所有登錄用戶可以訪問到的數(shù)據(jù),數(shù)據(jù)不受限制。缺點(diǎn)是頻繁請(qǐng)求會(huì)造成微博服務(wù)器的壓力,所以官方抵制這樣的做法,因此微博官方會(huì)比較頻繁的修改加密,數(shù)據(jù)請(qǐng)求方式,容易造成模擬登錄的失敗而導(dǎo)致數(shù)據(jù)抓取的失敗。

      本文主要結(jié)合第(2)和(3)兩種方式進(jìn)行抓取,首先嘗試方式(2)獲取數(shù)據(jù),在失敗的情況下再嘗試方式(3),數(shù)據(jù)抓取后,還需要進(jìn)行一定的處理。主要包括:

      (1)字體處理:通過逐字在繁體字庫中進(jìn)行二分查找將繁體字轉(zhuǎn)換為簡(jiǎn)體字;

      (2)文本過濾:微博內(nèi)容中可能存在表情、圖片、視頻、語音等信息,對(duì)其進(jìn)行過濾處理。

      最后對(duì)數(shù)據(jù)進(jìn)行中文分詞處理,主要的技術(shù)有:

      (1)基于字典、詞庫匹配的分詞方法;

      (2)基于詞頻度統(tǒng)計(jì)的分詞方法;

      (3)基于知識(shí)理解的分詞方法等。

      目前常見的分詞工具有:Lucene、ICTCLAS、IKAnalyzer、Paoding等,本文基于ICTCLAS進(jìn)行中文分詞。

      2.2興趣愛好詞庫構(gòu)建

      預(yù)先設(shè)置好各種興趣愛好類型如:體育、動(dòng)漫、戶外運(yùn)動(dòng)、搞笑、攝影、旅游、星座、汽車、游戲、電影、電視劇、繪畫、美食、股票、購(gòu)物、釣魚、閱讀、音樂、動(dòng)漫、電影、音樂等,并對(duì)各種興趣愛好從互聯(lián)網(wǎng)上抓取相關(guān)的文章,隨后對(duì)文章進(jìn)行分詞,提取出數(shù)量最多的名詞(數(shù)據(jù)表明名詞更能反映興趣愛好),如與“動(dòng)漫”相關(guān)的詞語可能有“七龍珠”、“佩恩”、“宇智波”、“火影”等,與攝影相關(guān)的詞語可能有“光圈”、“光學(xué)”、“光源”、“光照”等。隨后對(duì)詞語根據(jù)詞頻進(jìn)行排序,保留詞頻最高的詞語并加入相應(yīng)的興趣愛好詞庫,對(duì)于各種興趣愛好都相關(guān)的詞語根據(jù)關(guān)聯(lián)度進(jìn)行排序并剔除關(guān)聯(lián)度較大的詞語,因?yàn)樗鼈儾荒芨玫膮^(qū)分出興趣愛好,如:“范圍”、“范疇”、“藍(lán)色”、“行業(yè)”、“行為”等。

      2.3興趣愛好挖掘和分類

      首先需要對(duì)用戶的微博內(nèi)容進(jìn)行中文分詞,然后提取其中的名詞并統(tǒng)計(jì)其詞頻,對(duì)各個(gè)詞語在愛好詞庫中進(jìn)行搜索,若命中則相應(yīng)的愛好值遞增,最后對(duì)愛好結(jié)果進(jìn)行排序確定微博內(nèi)容的愛好值。如某用戶的微博內(nèi)容中出現(xiàn)6次“火影”,4次“佩恩”,2次“光圈”,則其動(dòng)漫的愛好值為10,而攝影的愛好值為2。

      通過對(duì)用戶所有的微博內(nèi)容進(jìn)行分析,便可以確定每個(gè)用戶各種愛好值,根據(jù)愛好值進(jìn)行排序后,便可以從中選擇最有興趣的用戶,從而起到精確定位用戶的功能。具體步驟為:

      dealContent(content,home_url)

      //對(duì)微博內(nèi)容content進(jìn)行分詞

      String data=Nlpir.ParagraphProcess(content);

      //對(duì)分詞結(jié)果通過正則表達(dá)式篩選出名詞:

      Pattern pattern=Pattern.com pile("([\S]*/[n][\S]*)");

      Matcher m atcher=pattern.m atcher(data);

      //對(duì)名詞結(jié)果進(jìn)行排序并合并:

      Collections.sort(listResult);

      //根據(jù)分詞結(jié)果比對(duì)字典詞庫:

      hobbyResultMap.put(map.get("hobby");

      //更新愛用戶愛好結(jié)果:

      updateResult(hobbyResult,home_url,hobbyResultMap.get(hobbyResult),dbUtil);

      在處理愛好值時(shí),以愛好詞在該用戶總有效詞中所占的比例為重要指標(biāo),從而避免微博內(nèi)容長(zhǎng)短對(duì)結(jié)果產(chǎn)生的影響。如A用戶的某愛好詞是10,而總有效詞是40,B用戶的該愛好詞是30,但總有效詞是300,那么對(duì)于該愛好來說,雖然A用戶的值較小,但一般情況下認(rèn)定A對(duì)該愛好更甚,因?yàn)樵搻酆迷~所占的比例更大。

      2.4結(jié)果展示

      給定某一個(gè)微博平臺(tái)用戶名或者主頁地址,模型將從微博平臺(tái)獲取到相應(yīng)的微博文本信息,經(jīng)過分詞和統(tǒng)計(jì)后,匹配相應(yīng)的興趣愛好,并對(duì)這些興趣愛好進(jìn)行排序、篩選,最終形成用戶的興趣愛好度,表1給出了部分用戶的興趣愛好值。

      另外,給定任何一段微博文本,模型也能將其分詞后,統(tǒng)計(jì)出各種興趣愛好,并與其他用戶進(jìn)行匹配,獲得與該微博文本興趣相似度類似的用戶,從而起到智能推薦的作用。

      表1 興趣愛好結(jié)果示例

      3 總結(jié)

      本文研究了微博內(nèi)容的特點(diǎn),通過構(gòu)建興趣愛好詞典,自動(dòng)抓取微博內(nèi)容并進(jìn)行分詞、匹配和統(tǒng)計(jì),結(jié)果表明能有效的分析出用戶各種愛好的興趣度,為微博用戶智能推薦、微博營(yíng)銷等奠定良好的基礎(chǔ)。

      [1]朱濤.微博營(yíng)銷的理論基礎(chǔ)和傳播策略[J].文化經(jīng)濟(jì),2011(24):275-277.

      [2]盛宇.微博特定領(lǐng)域用戶外在特征研究——以新浪微博學(xué)術(shù)類用戶為例[J].情報(bào)雜志,2012(12):98-103.

      [3]王靜,王地龍.基于數(shù)據(jù)挖掘的微博人氣用戶特征分析與研究[J].數(shù)字通信,2013(2):17-18.

      [4]林曉麗,胡可可,胡青.基于Python的微博用戶關(guān)系挖掘研究[J].情報(bào)雜志,2014(6):145-148.

      [5]余珊琳,鐘紹輝.基于粗糙K一均值用戶興趣的聚類算法[J].電腦知識(shí)與技術(shù),2013(5):3537-3540.

      [6]陳海強(qiáng),程學(xué)旗,劉悅.基于用戶興趣的尋找虛擬社區(qū)核心成員的方法[J].中文信息學(xué)報(bào),2009(3):89-94.

      [7]何黎,何躍,霍葉青.微博用戶特征分析和核心用戶挖掘[J].信息系統(tǒng),2011(11):121-125.

      [8]孫曉,葉嘉麒,唐陳意,等.基于多策略的新浪微博大數(shù)據(jù)抓取及應(yīng)用[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(10):1210-1215.

      (責(zé)任編輯:耿繼祥)

      The Interest Classification M odel of Users Based on M icro-blog Content

      GAO Zhe,LUO Tinghao,ZHAO Jiaoyan,DU Jianping,TANG Jianpeng,CHEN Rongqin*
      (School of Mathim atics and Inform ation Engineering,Taizhou University,Linhai 317000,China)

      The data of Micro-blog are much useful.How to obtain user’s interest from big m icro-blog data is the basis of intelligent recommendation and m icro-blog marketing.By analyzing the characteristics of m icro-blog content,the content-based interest c lassification model is adopted.It can effectively analyze the user’s interest construcing an interest dictionary,automatically acquires the m icro-blog content,segments and matches the keywords.

      m icro-blog content;data m ining;iInterest classification;m ic ro-blog marketing;w ord segm entation

      10.13853/j.cnki.issn.1672-3708.2015.03.004

      2015-04-23;

      2015-05-11

      簡(jiǎn)介:陳榮欽(1979-),浙江臺(tái)州人,講師,碩士,主要從事圖形圖像研究。

      猜你喜歡
      詞庫博文分詞
      第一次掙錢
      結(jié)巴分詞在詞云中的應(yīng)用
      誰和誰好
      值得重視的分詞的特殊用法
      詞庫音系學(xué)的幾個(gè)理論問題芻議
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      打電話2
      環(huán)境變了,詞庫別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      QQ手機(jī)輸入法如何導(dǎo)入分類詞庫
      電腦迷(2012年15期)2012-04-29 17:09:47
      县级市| 长顺县| 濮阳市| 乌苏市| 武安市| 广丰县| 淮北市| 赤城县| 随州市| 泸州市| 庄浪县| 大兴区| 视频| 柘荣县| 文水县| 诸暨市| 靖江市| 汨罗市| 都江堰市| 都安| 教育| 陇川县| 专栏| 平顶山市| 龙口市| 锦州市| 酉阳| 梁平县| 惠安县| 南丰县| 平度市| 浦县| 闵行区| 旬邑县| 永清县| 汶川县| 文安县| 纳雍县| 深州市| 肇源县| 阿克|