• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    社交網絡數據采集方法研究及社團結構分析

    2016-03-24 02:43:52尹雅麗
    現代計算機 2016年8期
    關鍵詞:社團社交社區(qū)

    尹雅麗

    (四川大學計算機學院,成都 610065)

    社交網絡數據采集方法研究及社團結構分析

    尹雅麗

    (四川大學計算機學院,成都 610065)

    在線社交網站擁有大量用戶,且越來越受歡迎。研究社交網絡的用戶行為和群體結構特征對理解人類的社會行為、群體特征和加強對社交網絡的拓撲結構理解具有重要意義。以人人網為例,詳細研究社交網站的數據采集技術,并對人人網社團結構進行分析。研究發(fā)現:人人網具有明顯的社團結構特征。研究成果對于進一步了解人人網等社交網絡的拓撲結構特征具有重要意義,數據采集的結果為大數據分析奠定該基礎。

    社交網絡;人人網;數據采集;社團

    0 引言

    隨著Web2.0時代的到來,互聯網技術蓬勃發(fā)展,各種社交網絡也在近幾年呈爆發(fā)式發(fā)展。人人網作為當前比較流行的社交應用之一,由中國互聯網絡信息中心(以下簡稱信息中心)2016年2月發(fā)布的調查結果來看[1],人人網的使用率為15.6%,次于QQ空間(使用率為65.1%)和微博(33.5%)。雖然在近幾年人人網的用戶活躍度有所降低,但是它龐大的用戶群體仍然是值得深入研究的對象。人人網的用戶主體是大學生。據“信息中心”的調查結果,中國網民職業(yè)結構中顯示,網民中學生群體的占比最高,為25.2%[1],而學生群體是最容易受鼓動和利用的群里,容易被不法分子利用。因此對人人網發(fā)布信息的采集以及其合法性檢測對于輿情監(jiān)控和信息安全等都具有十分重要的意義。本文以人人網為例,分析其網站結構特點,研究社交網站數據的采集技術,以網絡爬蟲為基礎,實現了人人網數據采集系統(tǒng),并以采集到的真實數據為基礎,分析了人人網的社團結構特點。

    目前,國內外針對社交網站的研究主要集中在社交網絡的拓撲分析[2-3]、用戶行為特征分析[4-5]、社交網絡中的信息傳播[6]、安全隱私問題[7]、網絡拓撲演化模型[8]等方面。尤婷[4]基于人人網用戶主頁的行為記錄數據,對個體行為和群體互動行為的時間統(tǒng)計特性進行實證研究;在對于人人網用戶行為的時間統(tǒng)計特性進行深度分析基礎上,針對人人網群體互動行為設計了社交驅動系數影響下的興趣驅動模型;利用MATLAB工具對該模型進行了有效的驗證,并根據實證分析驗證結論,給出社交網站產品改進及盈利模式探索的建議。鄧夏偉[5]分析社交網絡中的用戶行為,總結出了SNS中的用戶行為圖譜,探討了SNS中用戶行為數據的采集,并根據采集到的樣本對用戶行為進行數據分析,研究了社交網絡中的用戶影響力模型。

    1 社團

    社團(也稱為“社區(qū)”、“簇”、“模塊”)是一組內部聯系緊密,外部聯系稀疏的節(jié)點集合[9]。圖1是一個小規(guī)模的包含三個社團的網絡結構示意圖:

    圖1 小規(guī)模社團示意圖

    數學描述:設圖G=G(V,E),所謂社區(qū)發(fā)現是指在圖中確定nc(>=1)個社區(qū):

    使得各社區(qū)的頂點集合構成V的一個覆蓋[10]。

    社團這個概念最初由Girvan和Newman提出[11],逐漸被廣泛引用,經過十多年的發(fā)展,越來越成熟,現以成為復雜網絡研究領域的熱點和重要研究方向。比較經典的社區(qū)發(fā)現案例包括空手道俱樂部(Karate Club),科學家合作網絡(Collaboration Network)和斑馬群體(Zebras)的社交行為研究等,其中著名的空手道俱樂部社區(qū)已經成為通常檢驗社區(qū)發(fā)現算法效果的標準(benchmark)之一。

    2 Fast Unfolding算法

    Fast Unfolding算法最初是由Vincent D.Blondel等人于2008年提出[12],它是一種基于Modularity Opti-mization的啟發(fā)式算法,算法流程如下:

    (1)初始化,將每個節(jié)點劃分在不同的社區(qū)中;

    (2)逐一選擇各個節(jié)點,根據公式(1)計算將它分到它的鄰居社區(qū)中得到Modularity增益;如果最大增益大于0,則將它劃分到對應的鄰居社區(qū);否則,保持歸屬于原社區(qū);

    (3)重復(2),直到節(jié)點的社區(qū)不再發(fā)生變化;

    (4)構建新圖;新圖中的點代表上一階段產生的不同社區(qū),邊的權重為兩個社區(qū)中所有節(jié)點對的邊權重之和;重復(2),直到獲得最大的Modularity值。

    該算法的優(yōu)點:

    ●算法步驟直觀、實現簡單,且結果是無監(jiān)督的。

    ●該算法非??欤河嬎銠C模擬大規(guī)模網絡,使用經典的稀疏矩陣,其復雜度為:O(n)。原因是使用公式(2-1),在幾輪步驟后,社區(qū)數量大幅減小,大部分的運行時間集中在第一個迭代過程中。

    3 人人網數據采集系統(tǒng)

    數據采集是本文研究的重點,同時也是數據分析的基礎。本文通過對人人網網站結構分析,設計爬蟲,實現對人人網用戶ID的采集,然后根據ID采集每個用戶的信息。本文采集人人網數據的系統(tǒng)架構如圖2所示:

    圖2 人人網數據采集系統(tǒng)框架

    該系統(tǒng)由四部分組成,分別是人人網用戶ID和用戶好友關系采集模塊、人人網用戶個人資料、狀態(tài)采集模塊、和數據存儲模塊。

    (1)人人網用戶ID和用戶好友關系采集模塊

    該模塊主要用于采集用戶ID用戶個人信息和好友ID,本文通過調用人人網API,以廣度優(yōu)先的方式采集人人網用戶ID和人人網的好友關系。首先,在網絡爬蟲采集數據之前,需要實現人人網的模擬登錄過程。其次,通過Web網絡爬蟲的方式能夠采集到一些數據,但是大部分用戶設置了訪問權限,或者有些用戶已經注銷了人人賬號,使得信息獲取不完整。本文采用調用人人網提供API獲取數據。

    圖3展示獲取的部分好友關系構成的拓撲結構圖:

    圖3 人人網部分好友關系結構圖

    (2)人人網用戶個人資料和狀態(tài)采集模塊

    該模塊根據上一步采集到的用戶ID組合特定的URL鏈接,通過HTTP協議請求指定用戶的個人資料頁面和狀態(tài)頁面,并通過正則表達式提取出用戶的個人資料和狀態(tài)。用戶狀態(tài)信息也是使用類似的方法獲取。

    (3)數據存儲模塊

    該模塊負責將上述四個模塊采集到的數據存儲到數據庫表中,用于各個模塊調用和后續(xù)數據分析。

    4 社團結構發(fā)現

    本文使用上文中介紹的Fast Unfolding算法對人人網數據進行社團發(fā)現,選擇3組數據,結果如下:

    表2 人人網社區(qū)劃分結果

    由表2可以看出,隨著數據集的增大,人人網用戶關系網絡的社區(qū)劃分結果的模塊度值越來越高,這說明當數據越來越接近真實水平時,模塊度的值也越來越接近真實水平。同時,人人網社區(qū)劃分結果具有較高的模塊度值,也和數據采集策略有關,本文數據采集時是從用戶ID出發(fā),獲取其所有好友,在獲取好友的好友,以此類推。因此,結果表明,人人網用戶關系網絡具有較強的社區(qū)結構特征。

    5 結語

    本文以人人網為例,研究社交網絡的數據采集技術,設計了人人網數據采集系統(tǒng);并根據真實數據,對人人網進行社團發(fā)現。實驗結果表明,人人網是具有高度社團結構的社交網絡,根據數據集大小的不同,模塊度的值有所變化,但是整體模塊度的值都在0.9以上。

    [1]中國互聯網絡信息中心(CNNIC).第37次中國互聯網絡發(fā)展狀況統(tǒng)計報告[R].北京:中國互聯網信息中心,2016.

    [2]陳興蜀,郝正鴻,王海舟,胡鑫.P2P網絡電視拓撲測量方法研究與特性分析[J].四川大學學報:工程科學版,2012,44(3):86-94.

    [3]王勇,云曉春,李奕飛.對等網絡拓撲測量與特征分析[J].軟件學報,2008,19(4):981-992.

    [4]尤婷.社交網站用戶行為特征及其內在機制研究——以“人人網”為例[D].碩士,北京郵電大學,2012.

    [5]鄧夏偉.基于社交網絡的用戶行為研究——用戶行為分析與用戶影響力建模[D].碩士,2012,北京交通大學.

    [6]劉衍珩,李飛鵬,孫鑫,等.基于信息傳播的社交網絡拓撲模型[J].通信學報,2013,34(4):1-9.

    [7]孫劍,朱曉妍,劉沫盟,等.社交網絡中的安全隱私問題研究[J].網絡安全技術與應用,2011(10):76-79.

    [8]姜志宏.大規(guī)模P2PTV系統(tǒng)測量與建模研究[D].博士,國防科學技術大學,2011.

    [9]Newman M E J,Girvan M.Finding and Evaluating Community Structure in Networks[J].Physical review E,2004,69(2):026113.

    [10]Community Detection算法[EB/OL].http://blog.csdn.net/itplus/article/details/9286905.2016.2.25

    [11]Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences,2002,99(12):7821-7826.

    [12]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics: Theory and Experiment,2008(10):P10008.

    Social Network Data Collection Method Research and the Community Structure Analysis

    YIN Ya-li

    (College of Computer Science,Sichuan University,Chengdu 610065)

    Online social networking sites have a large number of users,and more and more popular.Research of social network user behavior and group structure features in understanding human social behavior,group characteristics,and strengthen the social network topological structure of understanding is of great significance.Takes Renren as an example,studies the data acquisition technology,social networking sites and analyzes the Renren community structure in details.The study found that:Renren have clear community structure.This research results for the further understanding of the Renren and other social networks topology structure is of great significance,the results of the data acquisition has paved the way for the big data analysis.

    SNS;Renren;Data Collection;Community Structure

    1007-1423(2016)08-0031-04

    10.3969/j.issn.1007-1423.2016.08.006

    尹雅麗(1989-),女,四川眉山人,研究生,研究方向為網絡安全、云計算

    2016-03-01

    2016-03-05

    國家科技支撐計劃資助項目(No.2012BAH18B05)

    猜你喜歡
    社團社交社區(qū)
    社交之城
    英語世界(2023年6期)2023-06-30 06:28:28
    繽紛社團
    社交牛人癥該怎么治
    意林彩版(2022年2期)2022-05-03 10:25:08
    社區(qū)大作戰(zhàn)
    幼兒園(2021年6期)2021-07-28 07:42:08
    社交距離
    第一財經(2020年4期)2020-04-14 04:38:56
    3D打印社區(qū)
    在社區(qū)推行“互助式”治理
    當代陜西(2019年16期)2019-09-25 07:28:38
    你回避社交,真不是因為內向
    文苑(2018年17期)2018-11-09 01:29:28
    最棒的健美操社團
    軍事文摘(2017年16期)2018-01-19 05:10:15
    K-BOT拼插社團
    中學生(2016年13期)2016-12-01 07:03:51
    新巴尔虎左旗| 兴海县| 通许县| 上高县| 修武县| 达孜县| 宜兰市| 金寨县| 闽清县| 临桂县| 东城区| 襄城县| 玉门市| 邯郸市| 富裕县| 民权县| 邻水| 边坝县| 南涧| 额尔古纳市| 吉水县| 九江市| 怀安县| 东城区| 鄂州市| 东乡县| 象山县| 霍山县| 比如县| 顺昌县| 普陀区| 唐山市| 汾西县| 苗栗市| 武胜县| 榕江县| 汪清县| 新乐市| 嵩明县| 定南县| 中宁县|