赫熙煦,陳雷霆,張 民,孫青云
(1.電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 611731;2.電子科技大學(xué)信息中心 成都 610054;3.東莞電子科技大學(xué)電子信息工程研究院 廣東 東莞 523808;4.電子科技大學(xué)圖書館 成都 610054)
博客、微博、微信等自媒體產(chǎn)生了海量數(shù)據(jù),并加速了信息傳播,特別是對(duì)突發(fā)事件及重大事件的傳播產(chǎn)生了重要影響。關(guān)注突發(fā)事件及重大事件的網(wǎng)絡(luò)傳播規(guī)律及網(wǎng)民行為關(guān)系,有助于輿論的正面引導(dǎo),維護(hù)社會(huì)穩(wěn)定。因?yàn)榇祟悢?shù)據(jù)大多數(shù)以海量不確定數(shù)據(jù)來呈現(xiàn),所以進(jìn)行深度的數(shù)據(jù)挖掘和分析難度較大。本文提出在海量微博數(shù)據(jù)上進(jìn)行不確定性數(shù)據(jù)挖掘和分析,進(jìn)而構(gòu)建微博用戶行為網(wǎng)絡(luò),來實(shí)現(xiàn)更深入的數(shù)據(jù)價(jià)值獲取。
文獻(xiàn)[1]通過復(fù)雜網(wǎng)絡(luò)及網(wǎng)絡(luò)動(dòng)力學(xué)理論分析Twitter用戶關(guān)系網(wǎng)絡(luò)特性中的可行性,并完成了Twitter用戶關(guān)系網(wǎng)絡(luò)基本參數(shù)的計(jì)算。文獻(xiàn)[2]通過對(duì)新浪微博用戶關(guān)系網(wǎng)絡(luò)的研究,發(fā)現(xiàn)了該網(wǎng)絡(luò)是典型的復(fù)雜網(wǎng)絡(luò),具有小世界、無標(biāo)度和高聚類的特性。文獻(xiàn)[3]認(rèn)為新浪微博網(wǎng)絡(luò)結(jié)構(gòu)滿足冪律分布。
Rough Set理論是一種處理不確定性信息的基礎(chǔ)理論。基于Rough Set的認(rèn)知挖掘是當(dāng)前的研究熱點(diǎn)。文獻(xiàn)[4]描述了社會(huì)網(wǎng)絡(luò)與粒計(jì)算的關(guān)系。文獻(xiàn)[5]提出一種動(dòng)態(tài)維護(hù)近似W.R.T對(duì)象的方法,并添加屬性到粗糙集決策理論的框架中。文獻(xiàn)[6]使用粗糙集和粒計(jì)算等相關(guān)技術(shù)對(duì)社會(huì)網(wǎng)絡(luò)進(jìn)行了建模。文獻(xiàn)[7]使用粗糙集解決社交網(wǎng)絡(luò)中的分類和聚類問題。文獻(xiàn)[8]使用模糊集,對(duì)海量社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行情緒分析,并使用facebook進(jìn)行了驗(yàn)證。文獻(xiàn)[9]使用模糊綜合評(píng)價(jià)方法對(duì)CPM算法進(jìn)行改進(jìn),對(duì)微博主題進(jìn)行發(fā)現(xiàn)。
本文擬采用Rough Set理論,對(duì)微博的主題和用戶情緒進(jìn)行動(dòng)態(tài)認(rèn)知,進(jìn)而構(gòu)建微博用戶行為關(guān)系網(wǎng)絡(luò),得出微博事件發(fā)展演化的路徑。
行為關(guān)系網(wǎng)絡(luò)是一種Web社會(huì)網(wǎng)絡(luò),它是描述用戶行為關(guān)系的抽象網(wǎng)絡(luò)。微博事件演化過程在行為關(guān)系網(wǎng)絡(luò)中,以時(shí)間順序進(jìn)行表達(dá)。本文以新浪微博用戶作為研究對(duì)象,選擇發(fā)布、評(píng)論、轉(zhuǎn)發(fā)和回復(fù)4種操作方式進(jìn)行研究,構(gòu)建了某一網(wǎng)絡(luò)事件中微博用戶之間形成的行為關(guān)系網(wǎng)絡(luò)。
網(wǎng)絡(luò)事件的演化是用戶行為相互影響作用的結(jié)果。用戶的行為特征在一定程度上反映了用戶的活躍程度、理性程度和興趣模型。通過主題跟蹤,可以將同一話題相關(guān)的事件按照時(shí)間順序關(guān)聯(lián)起來,同時(shí)監(jiān)控事件發(fā)展的空間(用戶行為)變化。
因此,本文使用事件監(jiān)測算法對(duì)互聯(lián)網(wǎng)內(nèi)特定的用戶群數(shù)據(jù)進(jìn)行分析處理,形成事件關(guān)聯(lián)網(wǎng)絡(luò)發(fā)展脈絡(luò);將已識(shí)別的事件進(jìn)行訓(xùn)練后得到微博事態(tài)發(fā)展模型,收集后續(xù)相關(guān)事件進(jìn)行時(shí)間和空間的關(guān)聯(lián)分析,最終形成如圖1所示的行為關(guān)系網(wǎng)絡(luò)。
圖1 用戶行為關(guān)系網(wǎng)絡(luò)示意圖
圖2 微博數(shù)據(jù)采集過程
本文中微博數(shù)據(jù)采集采用了文獻(xiàn)[10]中所提出的基于模擬登錄的數(shù)據(jù)采集方案。數(shù)據(jù)采集過程如圖2所示。
認(rèn)知用戶行為需要對(duì)用戶參與微博事件的過程中,所進(jìn)行的操作類型、發(fā)表的內(nèi)容及包含情緒等信息進(jìn)行建模分析,形成用戶行為的動(dòng)態(tài)認(rèn)知。依據(jù)該動(dòng)態(tài)認(rèn)知構(gòu)建用戶行為關(guān)系網(wǎng)絡(luò),完成對(duì)事態(tài)發(fā)展的監(jiān)測和預(yù)判。
本文采用主題模型(topic model)對(duì)用戶發(fā)表的內(nèi)容和包含的情緒進(jìn)行提取。它是源于隱性語義索引(latent semantic indexing, LSI)[11-12],被廣泛應(yīng)用于主題挖掘、文本檢索、文本分類、引文分析和社交網(wǎng)絡(luò)分析等領(lǐng)域。
本文使用提取關(guān)鍵字等方法,對(duì)主題進(jìn)行識(shí)別。廣告性質(zhì)的短語和一些微博沒有評(píng)論內(nèi)容會(huì)從待分析數(shù)據(jù)中被剔除。對(duì)微博進(jìn)行主題分析之前,還需要對(duì)其進(jìn)行分詞處理。此外,還在分詞庫中添加了一些常用的網(wǎng)絡(luò)用語,以提高分詞的準(zhǔn)確性。在分詞基礎(chǔ)上,增加了停用詞去除的代碼,將對(duì)主題無影響的停用詞從詞庫中去除,以提高主題分析的效率和準(zhǔn)確性。其流程如圖3所示。
圖3 微博主題檢測流程圖
在某個(gè)熱點(diǎn)事件發(fā)生之后,互聯(lián)網(wǎng)用戶能夠通過微博迅速獲取事件信息,并進(jìn)行反饋和傳播。文獻(xiàn)[13]通過對(duì)微博情感表達(dá)的研究,提出一種方法描述微博中正、負(fù)和矛盾的情感。文獻(xiàn)[14]通過復(fù)雜系統(tǒng)理論處理在線個(gè)人情感,并探討了微博背后的情感表達(dá)機(jī)制。
本文提出的方法能夠自動(dòng)分析微博數(shù)據(jù)中用戶帖子所包含的情感傾向,監(jiān)測用戶群整體的情感變化趨勢。首先,抽取事件中所包含的不同方面的關(guān)注點(diǎn);然后,檢測不同關(guān)注點(diǎn)相關(guān)的帖子中所包含的用戶情感信息;接著,統(tǒng)計(jì)用戶群對(duì)各個(gè)關(guān)注點(diǎn)的情感變化趨勢。
以極性詞典為基礎(chǔ),對(duì)情感極性進(jìn)行判斷。本文實(shí)驗(yàn)使用知網(wǎng)提供的正面、負(fù)面情感詞及評(píng)價(jià)詞詞典。在微博的評(píng)論信息中,增加了一些流行的網(wǎng)絡(luò)用語。情感詞典中包含4 495個(gè)正極性詞匯和4 376個(gè)負(fù)極性詞匯。
本文使用Rough Set理論來分析用戶在微博事件中的主題意向、操作和情感等因素來獲取對(duì)用戶行為關(guān)系網(wǎng)絡(luò)的認(rèn)知,從而更好地處理信息模糊化難題。
對(duì)于一個(gè)屬性分類集合K=(U,R),其中任意的屬性子集X?U和分類等價(jià)關(guān)系R∈ind(K)可以獲得兩個(gè)Rough Set基礎(chǔ)子集:
在上近似集和下近似集合之間的元素是由于通過等價(jià)關(guān)系R并不能完全地確定其在子集X之中。對(duì)于這些元素可以稱為X的R邊界集,記為:
定義 1對(duì)于論域U,等價(jià)關(guān)系簇P中如果存在一個(gè)等價(jià)關(guān)系簇Q,且滿足:
定義 2對(duì)于論域U不同的等價(jià)關(guān)系簇P和Q,稱下式所求解為等價(jià)關(guān)系簇Q相對(duì)P的正域:
定義 3對(duì)于論域U不同的等價(jià)關(guān)系簇P和Q,如果等價(jià)關(guān)系簇P中存在等價(jià)關(guān)系r滿足:
則稱等價(jià)關(guān)系r為等價(jià)關(guān)系簇P中相對(duì)于等價(jià)關(guān)系Q中可以約簡的;反之則是不可約簡的。
時(shí)間順序是觀察事件發(fā)展的重要維度,故本文提出動(dòng)態(tài)特征分析方法來構(gòu)建屬性。該方法將在每個(gè)屬性上一個(gè)時(shí)間窗口,統(tǒng)計(jì)該窗口的內(nèi)屬性的變化率進(jìn)而進(jìn)行分析。
對(duì)于給定的論域U上,存在決策系統(tǒng)S,等價(jià)關(guān)系簇D為決策屬性集,等價(jià)關(guān)系簇P為條件屬性集。那么,是條件屬性ri在等價(jià)關(guān)系簇P的條件屬性的重要度:
I(ri,D)是條件屬性ri相對(duì)于決策等價(jià)關(guān)系簇D的互信息熵:
動(dòng)態(tài)屬性認(rèn)知可以定義為:設(shè)有決策信息系統(tǒng)S=〈U, C∪D,V,f〉,有屬性等價(jià)關(guān)系簇R和屬性等價(jià)關(guān)系簇C,且R?C。對(duì)于已獲屬性取值的樣本),R相對(duì)于C的補(bǔ)集Rc中屬性aj的動(dòng)態(tài)屬性認(rèn)知為:
利用上述模型可以計(jì)算所提取每一個(gè)用戶行為屬性對(duì)整體事件的影響情況,進(jìn)而獲得每個(gè)用戶在網(wǎng)絡(luò)行為中的重要性,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)行為關(guān)系的構(gòu)建。
以“招商銀行濟(jì)南招聘”事件為例,進(jìn)行微博用戶操作、主題意向和情緒分析,從而構(gòu)建用戶行為關(guān)系網(wǎng)絡(luò)。本文采用模擬登錄方法,在2012年12月15日~2013年1月7日期間,獲取到30 196條有效記錄,包含14 569位微博用戶。
通過分析,得到如圖4所示的用戶操作統(tǒng)計(jì)。
圖4 招商銀行濟(jì)南招聘事件全過程用戶操作統(tǒng)計(jì)
圖4中,可以發(fā)現(xiàn)用戶對(duì)源微博和衍生微博的評(píng)論次數(shù)大于轉(zhuǎn)發(fā)數(shù)量,說明大多數(shù)用戶在社會(huì)網(wǎng)絡(luò)構(gòu)建的過程中,有強(qiáng)烈的意愿來發(fā)表自己的意見,使得事件在很短的時(shí)間內(nèi)形成較大的規(guī)模。
通過本文提出的動(dòng)態(tài)認(rèn)知方法,構(gòu)建了如圖5所示的行為關(guān)系網(wǎng)絡(luò)。
用戶行為關(guān)系網(wǎng)絡(luò)圖中結(jié)點(diǎn)按照出現(xiàn)的時(shí)間順序進(jìn)行編號(hào)。從中可以看出一些用戶的操作特點(diǎn),如對(duì)源微博多是進(jìn)行評(píng)論,從這些用戶結(jié)點(diǎn)的編號(hào)可以看出出現(xiàn)的時(shí)間順序分布比較均勻。該現(xiàn)象說明隨著評(píng)論的增加,用戶會(huì)對(duì)和自己觀點(diǎn)一致的衍生微博進(jìn)行轉(zhuǎn)發(fā)和評(píng)論,尤其是該微博的粉絲和出現(xiàn)時(shí)間接近的用戶;對(duì)于回復(fù)的操作,該圖中只出現(xiàn)了4個(gè)用戶。一般來說回復(fù)操作是若干個(gè)用戶對(duì)衍生微博中觀點(diǎn)的討論,甚至是爭論。其中,正向情感1 512人次,負(fù)面情緒2 386人次,中性情緒11 003人次。
圖5 招商銀行濟(jì)南招聘事件行為關(guān)系網(wǎng)絡(luò)示意圖
本文通過對(duì)微博網(wǎng)絡(luò)事件的分析和研究,針對(duì)微博用戶特性動(dòng)態(tài)建模,形成動(dòng)態(tài)認(rèn)知,依據(jù)用戶動(dòng)態(tài)認(rèn)知來形成關(guān)系網(wǎng)絡(luò),發(fā)掘網(wǎng)絡(luò)事件發(fā)展和傳播的潛在規(guī)律,實(shí)現(xiàn)用戶行為關(guān)系網(wǎng)絡(luò)建模的目標(biāo)。本文所提出的方法對(duì)網(wǎng)絡(luò)輿情的了解和網(wǎng)絡(luò)事件發(fā)展的預(yù)判提供了一定的參考。
[1]TEUTLE A R M.Twitter: Network properties analysis[C]//Electronics, Communications and Computer.Cholula: IEEE,2010: 180-186.
[2]KANG S, ZHANG C, LIN Z, et al.Complexity research of massively microblogging based on human behaviors[C]//Database Technology and Applications.Dalian, China: IEEE,2010: 1-4.
[3]FAN P, LI P, JIANG Z, et al.Measurement and analysis of topology and information propagation on Sina-Microblog[C]//Intelligence and Security Informatics.Beijing, China: IEEE, 2011: 396-401.
[4]LIAU C J.Social networks and granular computing[J].Encyclopedia of Complexity and Systems Science, 2009(1):8333-8345.
[5]CHEN H, LI T, LUO C, et al.A decision-theoretic rough set approach for dynamic data mining[J].IEEE Transactions on Fuzzy Systems, 2015, 23(6): 1958-1970.
[6]YAGER R R.Intelligent social network modeling and analysis[C]//Intelligent System and Knowledge Engineering.Xiamen, China: IEEE, 2008, 1: 5-6.
[7]MITRA A, SATAPATHY S R, PAUL S.Clustering analysis in social network using covering based rough set[C]//Advance Computing Conference.[S.l.]: IEEE, 2013, 8628:476-481.
[8]MUKKAMALA R R, HUSSAIN A, VATRAPU R.Fuzzy-set based sentiment analysis of big social data[C]//Enterprise Distributed Object Computing Conference.[S.l.]:IEEE, 2014, 1: 71-80.
[9]CHEN Xiao-lei, CHEN Xiang, CHENG Yi-jie.Community structure discovery and community topic analysis in microblog[C]//International Conference on Information Management, Innovation Management and Industrial Engineering.Xi'an, China: IEEE, 2013, 1: 590-595.
[10]孫青云, 王俊峰, 趙宗渠, 等.一種基于模擬登錄的微博數(shù)據(jù)采集方案[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2014, 24(3):6-10.SUN Qing-yun, WANG Jun-feng, ZHAO Zong-qu, et al.A microblog data collection method based on simulated login technology[J].Computer Technology and Development,2014, 24(3): 6-10
[11]DEERWESTER S, DUMAIS S T, FURNAS G W, et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science, 1990, 41(6):391.
[12]XU Ge, WANG Hou-feng.The development of topic model in natural language processing[J].Chinese Journal of Computers, 2011, 34(8): 1423-1436.
[13]HU Y, ZHAO J, WU J, et al.On exploring ambivalent expression in Weibo[C]//Service Systems and Service Management.Guangzhou, China: IEEE, 2015: 1-6.
[14]ZHOU J, ZHAO Y, ZHANG H, et al.Measuring emotion bifurcation points for individuals in social media[C]//System Sciences.Kauai, Hawaii: IEEE, 2016: 1949-1958.