• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    移動社交網絡冪律分布特征及親屬關系判別

    2018-07-18 02:36:08張樹森魏玉黨梁天新
    中文信息學報 2018年6期
    關鍵詞:冪律通話短信

    張樹森 ,魏玉黨,,梁 循,竇 勇,許 媛,梁天新

    (1. 中國人民大學 信息學院,北京 100872;2. 國防科學技術大學 計算機學院 并行與分布處理國防科技重點實驗室,湖南 長沙 410073)

    0 引言

    在社會生活中,通信網絡能夠反映出人們現(xiàn)實生活中的社交關系,由此產生一種包含豐富信息的網絡,即移動社交網絡。移動社交網絡通常指的是結合移動終端設備,并能通過移動終端設備的位置信息而產生的一種社交網絡。與當前移動社交網絡概念不同,本文將通信網絡中的通訊錄網絡、通話網絡和短信網絡作為移動社交網絡進行研究。當前,社交網絡[1]受到眾多學科的廣泛關注,成為了研究者關注的熱點。移動社交網絡具有穩(wěn)定、可靠特性,能夠反映人們社交活動的真實情況。因此,從社會網絡研究和社交關系分析的角度來講,移動社交網絡具有一定的研究價值和意義。此外,移動社交網絡的研究還對通信網絡的監(jiān)控和管理以及商業(yè)應用等具有重要的現(xiàn)實意義。

    近年來,由于我國網絡通信技術的快速發(fā)展,移動社交網絡得到普及和應用。如圖1所示,截至2016年12月,我國國內網民達到7.31億,手機網民達6.95億,即時通信用戶達6.66億,比2015年年底增長4 219萬。隨著社交網絡的不斷發(fā)展,為我們研究現(xiàn)實世界人與人之間的社交網絡和社交關系提供了廣闊的空間和研究條件。

    圖1 2011—2016年國內即時通信用戶規(guī)模

    當前,針對社交網絡的研究很多,如針對在線社交網絡Facebook、Twitter、微博等進行的研究,并且許多研究結論已經應用到現(xiàn)實生活中的多個領域。然而,針對移動社交網絡的研究則相對較少。本文探討的移動社交網絡研究內容,主要包括移動社交網絡中的冪律分布特征和用戶親屬關系的判別。社交網絡特征分析是研究和分析社交網絡的重要途徑,以往研究中的樣本規(guī)模往往不夠大,所得結論常常并不準確[1]。在社交網絡中,人與人之間關系的研究一直是社會網絡的重要課題。研究人員通過收集和分析相關社交數據,利用用戶與其聯(lián)系人屬性和行為上的相關性,實現(xiàn)對用戶關系的判別和研究。然而,由于網絡的開放性,不可避免的丟失部分用戶之間固有的連接關系。同時,由于用戶在社交網絡中的親屬關系一般都是隱式表現(xiàn)的,而本文的親屬關系判別將有助于恢復網絡中的用戶親屬關系。此外,研究親屬關系不僅能夠分析出親屬關系網絡的構成模式,而且有助于推進社會結構的進一步優(yōu)化。

    本文針對移動社交網絡特征中的冪律分布特征以及用戶親屬關系進行研究。在研究過程中,我們首先對移動社交網絡中的冪律分布特征進行分析,并對得到的結論和規(guī)律進行說明。然后,通過用戶社交行為對用戶之間是否存在親屬關系進行判別,提出用戶親屬關系判別模型。同時,將該模型與不同算法進行對比,檢驗該模型的有效性,其判別精確率達到81.01%。

    1 相關工作

    1.1 相關研究

    在社交網絡中,用戶社交關系[2]的判別或預測,一直是社交網絡分析中的重要研究方向。其中,針對用戶關系的判別主要是從結構和社會學角度加以研究。例如,Liben-Nowell等人[3]根據網絡共同點和網絡路徑兩種網絡結構方面的相似度,通過計算其特征及特征之間的相互作用,對用戶之間的關系進行了分析和預測。Adamic等人[4]基于統(tǒng)計共同好友的情況,提出了Adamic Adar算法。

    在用戶關系的研究中,一些研究者還通過聚類分析以及圖分割分析的方法分析用戶間的關系。例如,Zhang Y[5]等人通過計算用戶間的相似性,利用K-means聚類算法識別微博用戶群體關系。Gao Q[6]等人將用戶關系作為邊,利用MSCC(maximal strongly connected components)方法對用戶進行劃分,并對不同用戶群體關系進行了挖掘。還有一些研究者通過用戶動態(tài)分析判斷用戶間的關系,如袁毅[7]等通過跟蹤用戶對某一話題的交流數據,發(fā)現(xiàn)用戶所形成的關注、評論、轉發(fā)和引用四種關系。此外,Christopher C[8]等人通過同質性原理提出一種時間分析方法來識別社交媒體中用戶的隱含關系。Noor F[9]等人通過分析不同社會網絡系統(tǒng)的模式和相關性,識別出不同社會網絡中群體中的朋友等用戶關系。在親屬關系的判別研究中,一些研究人員通過機器學習的方法實現(xiàn)對用戶親屬關系進行認證或判別。如根據用戶面部圖像,通過深度卷積神經網絡提取親屬驗證的特征[10]以及基于SIFT流的遺傳Fisher矢量特征[11]實現(xiàn)對用戶親屬關系的判別等。

    本文主要研究移動社交網絡中的冪律分布特征和用戶間親屬關系判別的問題。此外,與以往分析用戶關系的方法不同,本文的親屬關系判別研究沒有從網絡的結構和用戶屬性出發(fā),而是將用戶通話行為作為研究對象并進行分析。

    1.2 實驗數據

    本文實驗數據采集時間為2016年2月至2017年2月,由三個數據集構成,包括手機通信錄(mobile phone contacts,MPC)數據、通話記錄(Call Data Records,CDRs)數據和短信服務(Short Messaging Service,SMS)數據,如表1所示。

    表1 實驗數據集

    由于本文數據中涉及用戶的隱私以及保護信息安全的需要,本文中所采用的所有數據均是經過匿名替換處理的脫敏數據。同時,在實際分析過程中,還需要對數據集進行預處理,將其中無效、異常的數據去除。實際上,本文采用的實驗數據較為豐富且涵蓋國內大部分省市,能真實地反映國內移動社交網絡用戶社交行為,具有廣泛的代表意義。

    2 網絡冪律分布特征分析

    1999年,Barabási[12]揭示了網絡中普遍存在的冪率分布,即網絡中大部分節(jié)點只有較少的連接,而網絡中具有較多連接的節(jié)點在網絡中占較小的比例,從而改變了傳統(tǒng)網絡中認為的泊松分布特征,并將這種服從冪律度分布的網絡稱為無標度網絡(scale-free network),如圖2所示。

    圖2 無標度網絡與度的冪律分布

    2.1 度的冪律分布

    在社交網絡中,節(jié)點的度能直觀反映用戶在社交網絡中的地位和影響力。度越大表示節(jié)點在網絡中越重要。在社交網絡中,度分布可定義為網絡中度為k的概率分布。如圖3所示,在考慮到方向性,從度(無向)、入度、出度三個方面對網絡進行分析。我們發(fā)現(xiàn),本文移動社交網絡度分布均服從冪率分布且存在長尾,其分布指數γ分別為3.19、3.26、1.75。這種“長尾”分布表明,在社交網絡中絕大多數用戶的聯(lián)系廣度(范圍)是一定的。同時,存在極少數用戶聯(lián)系廣度較高。

    由圖3可知,在本文移動社交網絡中,短信網絡冪律指數最小,而冪律指數反映網絡無標度特性的程度,值越大無標度特性越明顯。由此說明,相比短信網絡,通話網絡與通信錄網絡的無標度特性更加明顯。

    為了進一步對本文移動社交網絡節(jié)點度進行研究分析,我們計算網絡中節(jié)點的平均度,并與其他社交網絡(在線社交網絡)對比。不同社交網絡平均度(Ad) 具體信息,如表2所示。

    表2 社交網絡平均度

    本文中的度可以表征為用戶受歡迎程度、影響力、活躍度等。入度大說明該用戶受歡迎程度較高,出度較大則說明該用戶活躍性較高。

    圖3 網絡(度)冪律分布

    由表2可知,通話網絡平均度是短信網絡兩倍多,說明在現(xiàn)實生活中相比短信通信,人們更傾向于通過電話進行溝通。本文社交網絡的平均度在2~7之間,與國外相應社交網絡平均度相近,如文獻[13]中短信網絡平均度為4.3。與在線社交網絡相比,本文移動社交網絡平均度明顯低于在線社交網絡,如Facebook[14]、Twitter[15-16]等。

    我們分析產生這種差異的原因: 本文移動社交網絡以用戶真實關系為基礎,社交廣度會受到一定的限制。而在線社交網絡則由于其開放性、虛擬性等特點,用戶范圍不會受到較大的限制,故在線社交網絡的平均度要高于本文社交網絡。同時,我們將平均度看作是用戶活躍程度,進而表明人們在虛擬網絡中表現(xiàn)出更高的積極性,社交活動更加活躍。

    2.2 連通子圖規(guī)模冪律分布

    根據圖論原理,如果無向圖的節(jié)點之間存在路徑,則稱兩節(jié)點是連通的。如果圖中任意兩節(jié)點都是連通的,該圖稱為連通圖,否則為非連通圖。在本文移動社交網絡中,我們分別對強連通子圖和弱連通子圖規(guī)模(連通子圖節(jié)點數)及連通子圖數目進行分析,同樣發(fā)現(xiàn)冪律分布規(guī)律。我們以連通子圖節(jié)點數為橫軸,以相同節(jié)點數的連通子圖數為縱軸,得到如圖4所示結果。

    由圖4可以發(fā)現(xiàn),社交網絡的強連通子圖和弱連通子圖的規(guī)模同樣服從冪律分布,并且具有較為明顯的肥尾特征,都存在一個較大的連通子圖。

    我們繼續(xù)對本文移動社交網絡中的最大連通圖進行分析。在社交網絡中,最大連通子圖的節(jié)點數占整個網絡的節(jié)點總數的比例,能夠反映該網絡的整體連通特性。通過分析,我們發(fā)現(xiàn)通信錄網絡、通話網絡以及短信網絡中最大連通圖比例都較高。通信錄網絡、通話網絡的最大連通圖比例分別為96.8%、97.8%,其中通話網絡與國外通話網絡的84.1%[15]相比,其值更高。由此我們可以得出“本文移動社交網絡具有較高的最大連通比例”的結論。此外,在線社交網絡中,Twitter在2008年為97.6%[17],F(xiàn)acebook在2011年為99.91%,新浪微博、騰訊微博最大連通比例同樣高達99.99%[17]。從而說明本文社交網絡與在線社交網絡均具有較強的連通性。

    圖4 連通子圖冪律分布

    此外,本文短信網絡的最大連通圖占比為66.3%,與2012年的91%、85%、97.92%[18]相比,明顯偏低。這主要是因為在線社交網絡的快速發(fā)展對短信造成較大的影響,如微信、Twitter、Facebook等,在線社交網絡逐漸替代以文本信息為主要載體的短信服務,短信網絡中連接數量不斷降低,從而導致短信連通圖比例下降。

    2.3 用戶聯(lián)系人數量冪律分布

    本文在對移動社交網絡中用戶聯(lián)系人數量進行分析過程中,也發(fā)現(xiàn)了冪律分布特征。在分析過程中,我們將網絡中的葉子節(jié)點也包含在內,分析用戶聯(lián)系人的實際規(guī)模(聯(lián)系人數量)。如圖5所示,我們以聯(lián)系人數量為橫軸,以聯(lián)系人規(guī)模相同的用戶數量為縱軸,左圖為聯(lián)系人數量的累計概率密度分布圖。

    由圖5可知,通信錄與通話網絡聯(lián)系人數量在一定規(guī)模內保持均衡,而超過一定規(guī)模則表現(xiàn)出冪律分布特征,而短信網絡整體上服從冪律分布。通訊錄中聯(lián)系人數在128人以內的用戶數量保持穩(wěn)定,說明128人的社交關系總量能夠滿足用戶在社交網絡中基本的社交需求。通話聯(lián)系人則反映出用戶存在實際交互行為,其數量在55以內保持恒定,說明保持聯(lián)系較為緊密的團體規(guī)模在55人以內,即一定規(guī)模的人群構成用戶的核心網絡成員。正如Marsden核心網絡[19]理論一樣,社交關系總量增長的不是核心網絡成員數量,而是人們被動偶然聯(lián)系的人數。

    圖5 用戶聯(lián)系人規(guī)模冪律分布

    相對于通話網絡與通信錄網絡,短信網絡用戶聯(lián)系人分布表現(xiàn)出整體上服從冪律分布,并沒有前期的穩(wěn)定階段。其原因在于隨著即時通信工具的不斷發(fā)展,如微信、QQ、Facebook等,以短信方式進行溝通的用戶及短信的使用頻率越來越少。由圖5可知,通話網絡與短信網絡的聯(lián)系人數量要明顯小于通信錄網絡。通信錄網絡建立在社會關系存在的基礎上,用戶之間互相存在連接只能說明其社會關系存在,即路徑可達。通話網絡和短信網絡則是建立在至少發(fā)生一次交互行為的基礎上,是發(fā)生實際交互行為而產生的社會關系。由此,通話網絡與短信網絡的聯(lián)系人數量要明顯小于通信錄網絡。

    移動社交網絡中手機通信錄(MPC)網絡、通話(CDRs)網絡和短信服務(short messaging service,SMS)網絡都是手機用戶在通信交流過程中形成的社交網絡,都能夠反映用戶在實際生活中的社交狀況。其中,通信錄(MPC)網絡是由用戶通信錄中用戶之間形成的社交網絡,可以說是用戶認識的人之間的社交網絡。而通話網絡和短信網絡中用戶沒有這種限制,用戶之間可能是不認識的,尤其是通話網絡。相對短信使用更加頻繁,更能反映出用戶現(xiàn)實中的社交情形。

    實際上,冪律分布規(guī)律是社交網絡中廣泛在的規(guī)律。本文在研究過程中找出移動社交網絡中存在的三個冪律分布規(guī)律,并與其他社交網絡相對比。同時,對移動社交網絡平均度低于在線社交網絡,短信網絡的最大連通圖占比更低等規(guī)律和結論進行分析,進而優(yōu)化驗證了相關研究結論,對移動社交網絡的結構及其用戶社交行為有了更深入的認識,從而實現(xiàn)對移動社交網絡的深入了解和分析。

    3 用戶親屬關系判別模型

    3.1 親屬關系研究問題

    在社會網絡中,親屬關系是與用戶聯(lián)系最為密切的社交關系。在以往親屬關系研究中,研究人員由于研究條件的限制,往往通過調查問卷的形式采集數據進行研究,采集的樣本規(guī)模也不夠大。因此,研究中往往存在數據規(guī)模小、樣本少的問題。當前,由于計算機及信息技術的快速發(fā)展,使大規(guī)模社會關系數據的獲取和分析成為可能,為我們研究和分析親屬關系提供了條件。本文所采用的移動社交網絡數據,具有數據量多、范圍廣的特點。因此,與小規(guī)模樣本數量的研究相比,更具實際意義。

    本文親屬關系研究的問題,主要是基于用戶通話行為特征判別用戶間是否存在親屬關系。我們通過提取用戶通話行為的顯著特征,采用GBDT(gradient boost decision tree)與LR(logistic regression)融合方法,建立一個親屬關系判別模型,并使用用戶數據和提取的特征數據訓練該模型。由此,通過該模型我們在具有通話交互行為的用戶之間,判別他們是否存在親屬關系。

    在本文親屬關系判別模型訓練過程中,需要具有親屬關系的用戶數據來訓練模型。本文將具有親屬關系的用戶數據,看成由八類關系用戶數據組成,即夫妻關系、父子關系、兄妹關系、祖孫關系、堂表關系、伯舅關系、嫂夫關系及其他(如外祖、姨等)。在提取親屬用戶數據中,用戶之間具有這八類關系中的一種,本文即認為用戶之間具有親屬關系。其中,在基于短信文本內容提取親屬關系用戶數據過程中,祖孫關系、伯舅關系這兩種親屬關系用戶的準確率和數量相比其他親屬關系用戶明顯偏低。因此,在實際提取親屬關系數據及判別實驗中不再考慮這兩種關系的用戶數據。本文結合機器學習和關系邏輯推理的方法,從短信數據中提取親屬關系用戶數據。

    3.2 數據特征選擇

    本文通過分析用戶之間的通話行為特征,將親屬關系判別問題轉換成數據挖掘中的分類問題。由于原始數據只有用戶之間的通話時長、通話時間、及通話類型這三種屬性特征,不能夠有效對親屬關系進行判別,需要我們對用戶通話行為特征進行提取。用戶通話行為特征提取過程是以用戶的通話時長與類型為基本屬性,在通話次數、時間等維度上進行擴展。根據用戶間通話的基本信息以人工的方式在不同指標和維度上進行擴展,如用戶在通話時長上可擴展出通話總時長、平均通話時長、白天通話時長、夜間通話時長、日均通話時長、月均通話時長、工作日通話時長、周末通話時長等特征。

    通話數據的采集時間跨度和時間點均與短信數據相同,但數據總量和用戶量比短信數據要大得多。通過聚合通話數據與短信數據,求取其共有用戶,并通過短信數據中用戶親屬名稱、稱謂等提取親屬關系用戶數據。在清理后得到的用戶中,具有親屬關系的用戶數為147.4萬,不存在親屬關系的用戶數為1 124.6萬。由此,我們分別得到親屬關系用戶數據集和不存在親屬關系用戶數據集。同時,根據提取的特征分別得到兩種數據集中的特征數據。

    3.3 親屬關系判別模型選擇

    3.3.1相關算法

    (1) 邏輯回歸(LR)是當前比較常用的機器學習方法,通常用于估計某種事物的可能性,是一種廣義線性模型。由于LR決策邊界是線性的,當面對復雜的學習任務時,其效果并不理想。只能通過人工的特征工程制造出有效的變量和變量組合,間接的增加其非線性學習的能力。如何實現(xiàn)自動的特征發(fā)現(xiàn)、組合,以彌補人工經驗的不足,從而縮短特征工程周期,成為當前LR分析中所面臨的問題。

    (2) 梯度提升決策樹 (GBDT)是一種基于boosting思想的集成學習算法。GBDT中每一棵提升樹都可以看作構造特征的一種方法,且有監(jiān)督式產生的特征具有一定區(qū)分性。

    3.3.2判別模型選擇

    本文將提升樹葉子節(jié)點作為LR的特征變量,由此大大減少了人工尋找特征及特征組合的時間,由此我們得到GBDT與LR融合方法。將GBDT與LR融合前需要人工尋找有區(qū)分性的特征(raw feature)、特征組合(cross feature),融合后直接通過GBDT進行特征、特征組合的自動發(fā)現(xiàn)。

    本文選擇GBDT與LR融合方法進行親屬關系判別,主要是為了綜合考慮親屬關系判別中的運行速度和準確率,以及運行大規(guī)模數據的可行性。采用LR模型前加GBDT模型,是因為要解決LR的非線性判別能力問題,GBDT模型后接LR是解決算法速度或者應用于大規(guī)模數據性能問題,兩者結合是能夠在性能和速度上都有所提高。

    GBDT與LR融合方法處理流程,如圖6所示。GBDT模型通過學習得出兩棵決策樹Tree1、Tree2,輸入樣本x經過對兩個決策樹遍歷后,分別在兩個提升樹的葉子節(jié)點上形成值。如果x分別落在Tree1、Tree2的第二個葉子節(jié)點和第一個葉子節(jié)點,則相應的特征則為[0,1,0,1,0]。決策樹是簡單的預測模型,其代表著樣本數據與目標變量之間的一種映射關系。決策樹中的每個節(jié)點表示某個對象,而每個路徑則代表某種可能的屬性值。葉子節(jié)點則對應從根節(jié)點到所歷經的路徑所表示的對象值。每條路徑都是通過損失函數最小化等方法得到的具有區(qū)分性的路徑。通過該路徑處理的特征,是經過決策樹判斷整合后的特征。通過這種方式得到的特征或者特征組合,其模型效果理論上不低于人工處理的方式。GBDT模型的特點,非常適合用來挖掘有效的特征及特征組合。

    圖6 融合算法流程

    3.3.3親屬關系判別模型

    本文中,我們將GBDT與LR的融合方法應用到親屬關系的判別。由此,得到本文親屬關系判別模型。本文親屬關系判別過程為:

    輸入: 訓練數據T={(x1,y1),(x2,y2),...,(xN,yN)},xi∈x?Rn,yi∈y?R。

    輸出: 提升樹fM(x),KI值,親屬關系模型

    (1) 初始提升樹f0(x)=0

    (2) 對m=1,2,...,M

    +T(xi;Qm))

    其中,Qm為決策樹參數

    殘差γmi=yi-fm-1(xi),i=1,2,...,N

    (b) 擬合殘差γm i學習一個回歸樹,得到

    T(x;Qm)

    (c) 更新fm(x) =fm-1(x) +T(x;Qm)

    (3) 得到回歸問題提升樹。

    (1)

    (4) 每個樣本點再映射到每個樹上的相應節(jié)點,則有M個特征。

    (5) 將得到的M個特征作為LR的輸入,進行訓練。

    (6) 通過LR得到關系預測值R,R≥0.5時,我們認為用戶之間具有親屬關系,否則沒有親屬關系。

    本文用戶親屬關系的判別研究是以用戶間通話的記錄和短信數據進行分析。通過短信數據中具有的親屬關系定義中的稱謂、身份等信息確定用戶間是否具有親屬關系,進而得到實驗數據集(具有親屬關系的數據集和不具有親屬關系的數據集)。通過提取用戶通話行為特征,使用實驗數據集對分類算法模型進行訓練,得到親屬關系的分類模型,然后進行驗證分析。在實驗數據中,我們得出的僅僅是兩類數據,并沒有對具體親屬關系類型進行分類和處理。對于其他用戶關系,如朋友、同事等,在本文數據中難以確認用戶之間是否是朋友或同事等關系。因此,本文研究過程中通過用戶間的通話行為進行分析,只對是否存在親屬關系進行判別,沒有對其親屬類別進行詳細判別。

    3.4 實驗過程

    在實驗過程中,我們將本文親屬關系判別模型的實驗結果與其他機器學習算法實驗結果進行比較,驗證本文親屬關系判別模型的有效性。

    3.4.1評價指標

    在實驗結果評價中,我們通過K折交叉驗證評估方法驗證本文親屬判別方法的有效性。該方法將數據集分割成K個等份,其中K-1份作為訓練,1份作為測試,實踐中一般取K=10,本文中我們將K取值為10。同時,本文在交叉驗證的基礎上,采用多種評價指標對親屬關系判別模型及對比算法實驗結果進行評價,包括: 精確率、召回率、F1值及AUC。本文實驗中的混淆矩陣如表3所示。

    表3 混淆矩陣

    本文結合表3所示的混淆矩陣,分別介紹這幾種判別指標的計算方法。

    (1) 精確率(Precision)是模型預測為親屬關系而占實際親屬關系的比例,即查準率。

    (2)

    (2) 召回率(Recall)是模型預測為親屬關系樣本中實際上也是親屬的比例,即查全率。

    (3)

    (3)F1-Score是精準率和召回率的調和均值,是對模型的一種中和評價。

    (4)

    (4) AUC是ROC(receiver operating characteristic)曲線下的面積,是對模型敏感性和特異性的綜合評價指標。AUC處于[0,1]之間,AUC值越大表示決策的準確率越高。AUC的基準值為0.5,即隨機猜測。

    3.4.2實驗及結果分析

    實驗中對移動社交網絡用戶間是否存在親屬關系進行判別,驗證親屬關系判別模型的有效性。同時,本文通過多種機器學習算法作為對比算法,驗證判別模型的有效性。其中,對比算法包括決策樹(decision tree,DT)、支持向量機(support vector machine,SVM)、Logistic回歸(logistic regression,LR)、梯度提升決策樹 (gradient boost decision tree,GBDT)。

    在實驗過程中,我們通過預處理的用戶通話記錄數據集,對本文親屬關系判別模型和對比算法模型進行訓練和測試。首先,我們根據用戶間的通話記錄數據得到通話用戶數據特征值,進而得到實驗用的數據集。然后,將實驗數據集分成10個子集,其中九個作為訓練集,一個作為測試集。最后,我們將DT、SVM、LR、GBDT算法以及本文親屬關系判別模型分別在訓練集和測試集上進行訓練和測試,計算實驗中不同評價指標值。

    由此,我們得到不同方法實驗結果評價指標,實驗結果比較如表4所示。

    表4 實驗結果評價指標比較

    同時,根據上述指標結果,我們對各指標以AUC值的大小進行排序,其結果如圖7所示。

    圖7 親屬關系判別模型算法比較

    由圖7可知,本文提出的GBDT與LR融合模型能夠取得良好的實驗效果。實驗中GBDT+LR融合模型的精確率為81.01%,召回率為76.24%,準確率為79.18%。與其他對比算法相比,實驗效果更好。

    4 結論

    本文針對人們生活中聯(lián)系較為緊密的移動社交網絡進行分析和研究,主要工作包括以下兩部分。

    (1) 對移動社交網絡中存在的冪律分布特征進行了分析,對其中的規(guī)律和結論進行解釋和說明,并與其他社交網絡相關結論進行對比。實現(xiàn)對本文移動社交網絡冪律分布特征的分析和研究,優(yōu)化了相關研究結論。

    (2) 通過提取用戶通話行為顯著特征,采用GBDT與LR融合方法建立親屬關系判別模型。在實驗中,將該判別模型與多種算法進行對比實驗。通過該模型,我們能夠在移動社交網絡中具有交互行為的用戶之間,較好地判別用戶間是否存在親屬關系,其判別精確率達到81.01%。

    在今后的工作中,我們將繼續(xù)對移動社交網絡中的網絡特征及用戶關系進行研究。例如,本文用戶親屬關系研究中,用戶間的親屬關系判別是基于通話網絡中用戶的行為信息,并沒有充分地考慮用戶之間的結構特征及短信網絡中用戶結構和行為特征。因此,我們可以結合不同網絡中用戶的結構和行為對用戶之間的親屬關系進行判別分析。本文只對用戶間是否存在親屬關系進行判別,下一步可以將用戶親屬關系分成更加具體的類別,并對其他用戶關系進行提取和分析,進而通過本文判別方法及其他分類算法的訓練學習,判別出用戶具體的關系類別。

    猜你喜歡
    冪律通話短信
    道歉短信
    當代工人(2019年4期)2019-04-22 12:04:26
    《戊戌元日與友人通話》
    中華詩詞(2018年5期)2018-11-22 06:46:08
    代發(fā)短信
    當代工人(2018年21期)2018-03-06 12:41:08
    四川地區(qū)降水冪律指數研究
    低成本視頻通話APP
    冪律流底泥的質量輸移和流場
    對抗冪律
    2013年11月通信業(yè)主要指標完成情況(一)
    電信科學(2014年1期)2014-09-29 04:48:34
    2013年3月通信業(yè)主要指標完成情況(一)
    電信科學(2013年5期)2013-02-19 07:28:36
    基于Fibonacci法求冪律模式流變參數最優(yōu)值
    斷塊油氣田(2012年6期)2012-03-25 09:53:59
    龙井市| 桦川县| 青州市| 大冶市| 安平县| 阿勒泰市| 靖西县| 宝清县| 布拖县| 永年县| 长阳| 蛟河市| 保德县| 密山市| 剑川县| 礼泉县| 页游| 和静县| 登封市| 酒泉市| 和平县| 顺平县| 广宁县| 淮安市| 左云县| 金塔县| 柳林县| 临高县| 宁国市| 沽源县| 云龙县| 密山市| 镇赉县| 新邵县| 邢台市| 梓潼县| 石台县| 安龙县| 汝南县| 湘潭县| 鹤山市|