• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于社交網(wǎng)絡(luò)用戶特征的數(shù)據(jù)挖掘研究

      2014-03-14 02:09:44
      電腦與電信 2014年11期
      關(guān)鍵詞:好友數(shù)據(jù)挖掘權(quán)重

      劉 宇

      (重慶工程職業(yè)技術(shù)學(xué)院,重慶 402260)

      基于社交網(wǎng)絡(luò)用戶特征的數(shù)據(jù)挖掘研究

      劉 宇

      (重慶工程職業(yè)技術(shù)學(xué)院,重慶 402260)

      隨著網(wǎng)絡(luò)與移動通訊的發(fā)展,人們的社交關(guān)系與網(wǎng)絡(luò)銜接越來越緊密。本文對互聯(lián)網(wǎng)社交網(wǎng)絡(luò)用戶特征進行分析,分析社交網(wǎng)絡(luò)群體結(jié)構(gòu)、用戶影響力、用戶活躍度,從用戶特征權(quán)重的角度進行預(yù)測算法研究,建立社交網(wǎng)絡(luò)用戶特征的數(shù)據(jù)挖掘模型,利用蒙特卡羅仿真方法,實現(xiàn)對社交網(wǎng)絡(luò)用戶特征數(shù)據(jù)的加工與利用。

      社交網(wǎng)絡(luò);用戶特征;數(shù)據(jù)挖掘

      1.引言

      互聯(lián)網(wǎng)技術(shù)與移動通信技術(shù)的發(fā)展改變了人們傳統(tǒng)的社交方式,微博、微信等越來越普及。對于社交網(wǎng)絡(luò)信息數(shù)據(jù)的挖掘,研究用戶的生活規(guī)律與興趣偏好,對于信息的個性化推薦及企業(yè)發(fā)展方向具有非常重要的現(xiàn)實意義。

      2.互聯(lián)網(wǎng)社交網(wǎng)絡(luò)用戶特征分析

      2.1 群體結(jié)構(gòu)

      在社交網(wǎng)絡(luò)中,大多數(shù)為普通用戶,其朋友圈和粉絲數(shù)量會隨著用戶網(wǎng)絡(luò)社交的時間遞增。新加入社交網(wǎng)絡(luò)的用戶會選擇自己感興趣的好友進行關(guān)注,老用戶會不斷維護自己的朋友圈。若將社交網(wǎng)絡(luò)中話題的發(fā)起者設(shè)為初始,則其朋友圈接收信息的人群為1階用戶,1階用戶的朋友圈為2階用戶,2階用戶的朋友圈為3階用戶,以此類推用戶群體結(jié)構(gòu)隨著時間的遞增,結(jié)構(gòu)呈樹形拓?fù)?,互?lián)網(wǎng)社交網(wǎng)絡(luò)用戶群體信息傳播結(jié)構(gòu)如圖1所示:

      圖1 社交網(wǎng)絡(luò)用戶群體信息傳播流程

      2.2 用戶影響力

      在社交網(wǎng)絡(luò)中,不同用戶因為其在公眾領(lǐng)域、行業(yè)領(lǐng)域、區(qū)域團體等的角色不同,用戶的影響力也不同。在社交網(wǎng)絡(luò)中,如微博,社交用戶的友好關(guān)系是單向和雙向協(xié)同的,即A用戶添加B為關(guān)注對象,B中的好友名單中不會出現(xiàn)A,A如果也添加B為關(guān)注對象,則AB信息交互是雙向的。在微博中用戶可分為認(rèn)證用戶和普通用戶,認(rèn)證用戶在某一領(lǐng)域具有較高的辨識度,具有較高的粉絲數(shù)量,這也標(biāo)志這用戶微博信息的受眾數(shù)量多,微博的轉(zhuǎn)發(fā)率也就高。

      2.3 用戶活躍度

      用戶在社交網(wǎng)絡(luò)中的活躍度是信息傳播的重要因素。用戶的活躍度根據(jù)用戶在一定時間范圍內(nèi)發(fā)送微博數(shù)量T、轉(zhuǎn)發(fā)微博數(shù)量R,提及數(shù)量M構(gòu)成,用戶活躍度特征W=(a+b)其中,t為設(shè)定時間范圍,a,b表示用戶歷史微博信息的平均回復(fù)率和平均轉(zhuǎn)發(fā)率。

      3.社交網(wǎng)絡(luò)用戶特征權(quán)重分析算法

      3.1 用戶權(quán)重排序

      社交網(wǎng)絡(luò)是通過互聯(lián)網(wǎng)進行人與人之間的溝通與互動,用戶特征關(guān)系的權(quán)重分析,可基于HITS算法的節(jié)點權(quán)重進行分析,根據(jù)HITS算法原理,每一個互聯(lián)網(wǎng)中的頁面存在兩個值:hub值與authority值。網(wǎng)頁的hub值由該頁面所指向的所有網(wǎng)頁的authority值構(gòu)成;網(wǎng)頁的authority值由指向該頁面的所有網(wǎng)頁hub值構(gòu)成。在互聯(lián)網(wǎng)中,具有較高權(quán)值的網(wǎng)頁更傾向于與其它髙權(quán)威網(wǎng)頁相互連接,即:如果網(wǎng)絡(luò)中有大量具有高權(quán)威性的網(wǎng)頁同時指向某一未知網(wǎng)頁,那么該未知網(wǎng)頁將有很高的可能性也為高權(quán)重網(wǎng)頁。得社交網(wǎng)絡(luò)用戶權(quán)重計算為用戶i所指向好友j的數(shù)量,由此可得一個用戶所連接的好友越多,則其傳遞給每個好友的權(quán)重值越小。

      3.2 用戶個性推薦

      社交網(wǎng)絡(luò)中關(guān)注好友的日志、微博、圖片、狀態(tài)等信息均以推送的形式發(fā)送至相關(guān)用戶主頁,這種推送模式在強化了用戶信息交互的同時,也給使用者帶來了信息風(fēng)暴的沖擊,因此社交網(wǎng)絡(luò)中的個性化推薦算法將對提高用戶體驗與信息交互質(zhì)量產(chǎn)生重大的影響。

      用戶個性化推薦算法中,推薦的主體是經(jīng)過短文本聚類的微博話題。根據(jù)NBI算法推薦思想用于微博推薦時,若用戶A發(fā)布了關(guān)于話題a的微博,同時用戶B發(fā)布的微博話題中也包含了話題a的微博信息,那么用戶A與B之間通過話題a形成了一條網(wǎng)絡(luò)拓?fù)溥B接關(guān)系:A-a-B。基于用戶特征的NBI推薦算法:

      其中Si,t表示一條來自用戶j發(fā)出的微博t,對于用戶i的推薦評分。為微博t的作者j對于目標(biāo)用戶/的歸一化用戶影響力特征。Rij為用戶i與用戶j交互關(guān)系。f'(xt)為推薦評分的影響。

      3.3 用戶層次聚類

      社交網(wǎng)絡(luò)微博中具有大量粉絲的明星用戶通常只具有少量的好友數(shù)目,而且這些好友通常也具有很高的粉絲數(shù)或本身就是明星,這些用戶的微博往往具有很高的回復(fù)與轉(zhuǎn)發(fā)率。也有一些用戶,如媒體或廣告,他們同時擁有較高的粉絲數(shù)量和好友人數(shù),但這些用戶所發(fā)布的微博通常只為特定產(chǎn)品或品牌服務(wù)的,而這些微博也不會被廣泛關(guān)注。通過微博用戶的分析可以得到規(guī)律:如果一個高權(quán)重用戶所關(guān)注的好友越多,那么關(guān)注的每個用戶將越不重要;反之如果關(guān)注的好友越少,那么關(guān)注的每個用戶將越重要。

      用戶層次聚類算法設(shè)用戶的j為用戶i的粉絲,F(xiàn)j為用戶j的粉絲數(shù)量,nj為用戶j的好友數(shù)量,得:

      根據(jù)HITS算法將節(jié)點的hub權(quán)重與authority權(quán)重統(tǒng)一為單一authority權(quán)值,其中authority權(quán)值由指向該節(jié)點的所有鄰居節(jié)點入度比出度值累加獲得。于是,本文提出的用戶影響力模型由用戶粉絲數(shù)量與粉絲質(zhì)量加權(quán)組成:

      第一部分Ni代表用戶i的粉絲數(shù)量;第二部分為用戶每一位粉絲對用戶影響力的貢獻(xiàn)之和,即粉絲質(zhì)量;參數(shù)μ用于調(diào)節(jié)兩部分的權(quán)重。

      4.基于社交網(wǎng)絡(luò)用戶特征的數(shù)據(jù)挖掘模型

      4.1 數(shù)據(jù)集說明

      本文社交網(wǎng)絡(luò)用戶特征分析數(shù)據(jù)采用新浪微博用戶進行采集分析,用戶特征分類通過用戶共同好友關(guān)系及用戶標(biāo)簽信息等的相似度進行描述,用戶標(biāo)簽信息具有衡量用戶興趣偏好的重要特征,標(biāo)簽信息有廣泛性的標(biāo)簽譬如:“電影”、“韓劇”、“笑話”等,也有專向性的譬如:“iphone6”、“金融”、“搏擊”等。衡量標(biāo)簽權(quán)重是社交網(wǎng)絡(luò)用戶共性的標(biāo)準(zhǔn),如果用戶特征相似度越低則標(biāo)簽權(quán)重越大,如果用戶特征相似度越高則標(biāo)簽權(quán)重越小。

      4.2 用戶特征相似度模型

      建立用戶特征相似度模型,設(shè)m表示采集涉及網(wǎng)絡(luò)用戶數(shù)量,top-n表示用戶某一特征相似度模型計算排名處于前n位的用戶信息,此時,用戶i與用戶j存在的關(guān)系表示為Rij=1,不存在的關(guān)系表示為Rij=0。得用戶特征相似度模型為:

      4.3 網(wǎng)絡(luò)拓?fù)潢P(guān)系預(yù)測模型

      社交網(wǎng)絡(luò)用戶傳播信息過程中,用戶在t0時間發(fā)布一條信息,該用戶的所有粉絲是否會在t1時刻轉(zhuǎn)發(fā)這條信息,粉絲的粉絲是否會在t2時刻轉(zhuǎn)發(fā)這條信息,成為網(wǎng)絡(luò)社交的拓?fù)浣Y(jié)構(gòu)關(guān)系。由此,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)關(guān)系預(yù)測根據(jù)蒙特卡羅仿真模型在每隔一定的時間間隔Δt對各節(jié)點進行隨機取樣,如果隨機取樣概率小于節(jié)點先驗概率則認(rèn)為該節(jié)點將觸發(fā)某一事件,并將與該節(jié)點相連的鄰居節(jié)點加入到下一個Δt的隨機取樣過程中。隨機過程直到若干時間間隔后沒有新的節(jié)點觸發(fā)事件結(jié)束仿真,此時網(wǎng)絡(luò)中該事件被觸發(fā)的節(jié)點總數(shù)為在社交網(wǎng)絡(luò)發(fā)布者的首次接收用戶取樣過程在0與1之間均勻取出一個隨機數(shù),記為rand(t1),同時該用戶存在對該條信息是否進行傳播的先驗概率prior(t1),網(wǎng)絡(luò)中其粉絲被稱為1階用戶,每一個用戶根據(jù)自身興趣,對每一條信息選擇是否傳播的先驗概率均不同。若在t1時刻,某1階用戶的隨機取樣結(jié)果小于其對于該信息的先驗概率,即rand(t1)<prior(t1)則認(rèn)為該用戶會轉(zhuǎn)發(fā)這條微博。于是將該用戶的所有粉絲即2階用戶,加入時刻的用戶傳播分析,以同樣蒙特卡羅隨機過程進行決策分析與仿真,并以此類推。

      5.結(jié)語

      在社交網(wǎng)絡(luò)中,數(shù)據(jù)特征種類豐富,信息量大,用戶的特征性較為鮮明,基于社交網(wǎng)絡(luò)用戶特征的數(shù)據(jù)挖掘?qū)τ脩羧后w結(jié)構(gòu)、影響力、活躍度進行研究,分析用戶特征權(quán)重,建立用戶特征數(shù)據(jù)挖掘模型,研究用戶特征相似度模型和網(wǎng)絡(luò)拓?fù)潢P(guān)系預(yù)測模型。在社交趨于網(wǎng)絡(luò)化的今天,社交圈蘊含著大量的具有潛在價值的數(shù)據(jù),對于這些數(shù)據(jù)的挖掘?qū)ヂ?lián)網(wǎng)行業(yè)的發(fā)展、企業(yè)網(wǎng)絡(luò)推廣于信息傳播具有非常重要的實際價值。

      [1]黃成維.面向社交網(wǎng)絡(luò)用戶商業(yè)價值細(xì)分的數(shù)據(jù)挖掘模型[J].旅游縱覽(行業(yè)版),2012,(01).

      [2]楊瑞仙,李露琪.基于社交網(wǎng)絡(luò)的個性化知識服務(wù)模型研究[J].新世紀(jì)圖書館,2014,(09).

      [3]王連喜,蔣盛益,龐觀松等.微博用戶關(guān)系挖掘研究綜述[J].情報雜志,2012,(12).

      [4]朱彥杰.基于社交圈的在線社交網(wǎng)絡(luò)朋友推薦算法[J].科技視界,2014,(09).

      [5]蔡孟松,李學(xué)明,尹衍騰.基于社交用戶標(biāo)簽的混合top-N推薦方法[J].計算機應(yīng)用研究,2013,(05).

      Data Mining Based on the Features of Social Network Users

      Liu Yu
      (Chongqing Vocational Institute of Engineering,Chongqing 402260)

      With the development of network and mobile communication,people’s social relationships in the network converge more closely.This paper analyzes the features of the Internet social network users,analyzes the group structure,user influence,user activity in social networking.The prediction algorithm is studied from the users feature weight,to establish the data mining model of social network user features.Monte Carlo simulation method is used to process the social network user features data.

      social network;user features;data mining

      劉宇,男,重慶人,博士研究生,研究方向:安全監(jiān)測監(jiān)控方面的研究。

      猜你喜歡
      好友數(shù)據(jù)挖掘權(quán)重
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      權(quán)重常思“浮名輕”
      屬羊
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      刪除好友
      雜文月刊(2017年20期)2017-11-13 02:25:06
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      層次分析法權(quán)重的計算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      苏尼特右旗| 四会市| 大冶市| 建瓯市| 万年县| 汝城县| 于都县| 仁怀市| 宁海县| 旌德县| 永福县| 大新县| 和田县| 石门县| 习水县| 牙克石市| 新野县| 巴马| 贵州省| 浠水县| 高淳县| 前郭尔| 嘉禾县| 茂名市| 温泉县| 清远市| 平果县| 通化县| 隆安县| 克什克腾旗| 准格尔旗| 额敏县| 松潘县| 静安区| 普兰县| 五家渠市| 年辖:市辖区| 韶山市| 繁峙县| 含山县| 太仓市|