• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于公開(kāi)信息的微博用戶可信性評(píng)價(jià)研究

      2018-05-29 08:31:02趙麗華李衛(wèi)康
      關(guān)鍵詞:可信性影響力特征

      趙麗華, 楊 勇,2 , 聞 西, 李衛(wèi)康

      (1. 天津職業(yè)技術(shù)師范大學(xué)經(jīng)濟(jì)與管理學(xué)院, 天津 300222; 2. 天津大學(xué)管理與經(jīng)濟(jì)學(xué)部, 天津 300072; 3. 湖南大學(xué)工商管理學(xué)院, 長(zhǎng)沙 410082)

      Web 2.0時(shí)代,人們已經(jīng)習(xí)慣于從虛擬社區(qū)獲取信息和表達(dá)情感。作為虛擬社區(qū)的典型,微博是一個(gè)基于用戶關(guān)系的信息分享、傳播及獲取平臺(tái)。其共享性、實(shí)時(shí)性和互動(dòng)性等特點(diǎn)使得其用戶群逐漸穩(wěn)定并持續(xù)增長(zhǎng)。截止到2014年9月,僅新浪微博,其日活躍用戶已達(dá)到7 660萬(wàn)人,月活躍用戶達(dá)到11.67億人。

      然而,微博公眾平臺(tái)的快速發(fā)展,在給人們帶來(lái)便利的同時(shí),也帶來(lái)了許多煩惱。例如,垃圾信息、謠言、欺詐信息等在微博平臺(tái)中的泛濫。作為信息的發(fā)起者和傳播者,微博用戶的信譽(yù)對(duì)信息質(zhì)量有著重要影響。雖然認(rèn)證可以有效評(píng)估用戶信譽(yù),但微博平臺(tái)實(shí)際存在的是更多的非認(rèn)證用戶。顯然,單一的認(rèn)證手段無(wú)法對(duì)用戶信譽(yù)進(jìn)行有效評(píng)估。對(duì)微博用戶及其發(fā)布的信息進(jìn)行人工識(shí)別判斷也不現(xiàn)實(shí)。自微博面世以來(lái),雖然已經(jīng)對(duì)其進(jìn)行了許多研究,然而,如何有效評(píng)價(jià)或度量非認(rèn)證微博用戶的信譽(yù)還沒(méi)有公認(rèn)的解決方案。事實(shí)上,公開(kāi)的微博用戶注冊(cè)信息、社交關(guān)系信息及其行為信息中,蘊(yùn)含了豐富的信譽(yù)信息。

      如何對(duì)這些信息進(jìn)行有效地提取和量化,并以此作為判別依據(jù),是實(shí)踐中的一個(gè)難點(diǎn)。 本文以新浪微博用戶為研究對(duì)象,依據(jù)其公開(kāi)的資料信息,考察分析了相關(guān)信息與微博用戶信譽(yù)之間的關(guān)系,嘗試抽取并構(gòu)造了可信度評(píng)價(jià)特征集合,通過(guò)數(shù)據(jù)挖掘的方式,最終構(gòu)建了非認(rèn)證微博用戶可信度評(píng)價(jià)模型,為辨別微博用戶信譽(yù)提供了一個(gè)可行的解決方案。

      一、 文獻(xiàn)回顧

      微博以Twitter于2006年的誕生為標(biāo)志,研究者基本從2008年才開(kāi)始對(duì)微博進(jìn)行關(guān)注和研究。根據(jù)已有文獻(xiàn),關(guān)于微博的研究主要從3個(gè)方面開(kāi)展:微博信息、微博用戶影響力和微博社交網(wǎng)絡(luò)。

      (1) 對(duì)微博信息的研究。主要包括垃圾信息檢測(cè)[1]、謠言檢測(cè)[2-3]、話題的可信度分析[4-10]等。研究對(duì)象和方法集中于微博消息本身和結(jié)合用戶關(guān)系的消息傳播的拓?fù)浣Y(jié)構(gòu)。其中有部分研究微博用戶本身的特征結(jié)合考慮進(jìn)去,例如粉絲數(shù)、微博數(shù)量等[1]。

      (2) 對(duì)微博用戶影響力的研究。Bakshy等[10]通過(guò)追蹤Twitter上7 400萬(wàn)新聞事件的用戶傳播圖譜調(diào)查了160萬(wàn)用戶的特征和影響力,應(yīng)用了粉絲數(shù)、關(guān)注數(shù)、Tweets數(shù)量和注冊(cè)時(shí)間4個(gè)用戶特征;Cha等[11]研究了入度、轉(zhuǎn)發(fā)數(shù)和提及數(shù)3種影響力指標(biāo),分析了用戶影響力隨時(shí)間和主題的變化規(guī)律;Ghosh等[12]提出了一個(gè)用戶影響力模型來(lái)評(píng)估用戶在社交網(wǎng)絡(luò)上的影響力;Ghosh等[13]通過(guò)對(duì)用戶的關(guān)注列表進(jìn)行挖掘找出話題專家;原福永等[14]則通過(guò)對(duì)用戶關(guān)注度的計(jì)算得到微博用戶的影響力和活躍度,進(jìn)而得到用戶的影響力;王峰等[15]選取微博用戶的微博數(shù)、粉絲數(shù)、關(guān)注數(shù)、收藏?cái)?shù)和互粉數(shù)5個(gè)因素,借鑒網(wǎng)頁(yè)排名的思想提供了一種用戶排名的模型對(duì)用戶可信度進(jìn)行了排序。

      (3) 對(duì)微博社交網(wǎng)絡(luò)的研究。主要是研究微博用戶及信息在微博平臺(tái)的傳播特點(diǎn)。Bakshy等[10]在研究用戶影響力時(shí),對(duì)Twitter上7 400萬(wàn)事件的用戶傳播圖譜進(jìn)行了分析應(yīng)用;Canin等[16]利用用戶對(duì)某一話題的相關(guān)性和專業(yè)性,對(duì)用戶在社交網(wǎng)絡(luò)上的影響力進(jìn)行了自動(dòng)識(shí)別和排序;Al-Sharawneh等[17]研究了在危急情形下如何去識(shí)別社交網(wǎng)絡(luò)上的領(lǐng)導(dǎo)者,利用了用戶的專業(yè)性和信用度計(jì)算用戶的可信度。

      三者的研究角度和重點(diǎn)雖然不同,但彼此之間存在一定關(guān)系。例如,微博信息的有效性、真實(shí)性與微博用戶(發(fā)布者或傳播者)的影響力相關(guān),而社交網(wǎng)絡(luò)的傳播特性也常牽涉到用戶的影響力以及信息本身的特性。與“信息”的可信性和用戶的“影響力”不同,本文關(guān)注的是微博用戶的“可信性”,這也是一個(gè)值得探討的有趣問(wèn)題,具有很好的應(yīng)用前景。例如,用戶的可信性信息可幫助人們篩選關(guān)注對(duì)象,也可為微博平臺(tái)運(yùn)營(yíng)商提供監(jiān)管便利;可為第三方機(jī)構(gòu)提供信用評(píng)價(jià)、用戶畫像等參考信息;另外,也可作為一項(xiàng)衡量微博信息的可信性指標(biāo)??傊@對(duì)促進(jìn)健康微博信息的分享、傳播、發(fā)展與利用有著重要意義。

      然而,對(duì)用戶進(jìn)行可信評(píng)價(jià)最首要的問(wèn)題是“以什么數(shù)據(jù)來(lái)源作為評(píng)價(jià)依據(jù)?”不同學(xué)者利用潛藏在網(wǎng)絡(luò)上的各種數(shù)據(jù),提出了不同的評(píng)價(jià)模型。例如Gupta等[18]基于用戶所發(fā)布的微博信息、微博事件數(shù)據(jù)構(gòu)建基于圖的模型來(lái)判斷微博信息是否是流言,并以此評(píng)價(jià)用戶的可信性。Chu[19]收集了50萬(wàn)個(gè)Twitter賬戶,根據(jù)其用戶行為、信息內(nèi)容數(shù)據(jù)判別賬戶的可信性。閆光輝等[20]基于用戶社交關(guān)系數(shù)據(jù)構(gòu)建了用戶可信度評(píng)價(jià)模型。徐建民等[21]基于微博用戶在線時(shí)長(zhǎng)、發(fā)帖時(shí)間、互動(dòng)程度等用戶行為數(shù)據(jù)判別用戶是否是僵尸賬戶,以此評(píng)估用戶可信性。上述這些方法或者數(shù)據(jù)難以獲取(甚至涉及隱私,只有通過(guò)后臺(tái)獲得),或者處理相當(dāng)復(fù)雜,導(dǎo)致準(zhǔn)確率和計(jì)算效率受到限制。事實(shí)上,微博平臺(tái)上存在著微博用戶的一些公開(kāi)的個(gè)人資料信息,這類信息獲得比較便利,而且不牽涉法律和隱私等可行性問(wèn)題。因此,本文探討的興趣點(diǎn)便是這些公開(kāi)的個(gè)人資料信息是否可以作為用戶可信度評(píng)價(jià)的原始數(shù)據(jù)來(lái)源。如果可以,怎么來(lái)提取這些信息?怎樣形成評(píng)價(jià)結(jié)果?

      二、 公開(kāi)資料中的可信信息分析

      1. 用戶可信度

      用戶可信度是指根據(jù)用戶的特征、行為表現(xiàn)而給出的用戶可信程度的判斷。本文將用戶可信度分為4類,分別是可信、偏向可信、偏向不可信、不可信,每個(gè)用戶唯一地被分配到其中的某一類??尚庞脩魝€(gè)人信息全面真實(shí),并有較大的公眾影響力;偏向可信的用戶具有一定的微博活躍度、粉絲基礎(chǔ),并在各特征的數(shù)據(jù)表現(xiàn)上存在一定的互解釋性;偏向不可信的用戶微博活躍度、粉絲數(shù)等存在一定不足,或特征表現(xiàn)的互解釋性上存在一些矛盾;不可信用戶在微博活躍度、粉絲數(shù)等方面存在明顯不足,或在特征表現(xiàn)上存在強(qiáng)烈的矛盾。用戶的可信度存在一定的偏序關(guān)系,即可信>偏向可信>偏向不可信>不可信。

      2. 微博用戶原始特征

      準(zhǔn)確劃分用戶可信度,需找出有效度。量用戶可信度差異的特征,即準(zhǔn)確選擇并確定與用戶可信度識(shí)別有關(guān)的信息。通過(guò)觀察新浪、騰訊微博公眾平臺(tái)的信息傳播特點(diǎn)及用戶公開(kāi)信息,借鑒已有研究成果,剔除一些與用戶可信度評(píng)價(jià)無(wú)關(guān)信息,本文將蘊(yùn)含微博用戶可信度的公開(kāi)資料信息劃分為兩類,即用戶的真實(shí)性特征和用戶的權(quán)威性特征(見(jiàn)表1)。

      表1 用戶可信度的特征說(shuō)明

      真實(shí)性特征主要為微博用戶的個(gè)人信息,是對(duì)用戶的靜態(tài)描述,越是可信的用戶,這些特征表現(xiàn)得越完備真實(shí);權(quán)威性特征主要為用戶的類型和級(jí)別及其在微博社會(huì)網(wǎng)絡(luò)的影響力,是對(duì)用戶的動(dòng)態(tài)描述,可以反應(yīng)出用戶在平臺(tái)的活動(dòng)特征。

      3. 用戶可信度分布特征

      文獻(xiàn)[17]選取用戶的微博數(shù)、粉絲數(shù)、關(guān)注數(shù)、收藏?cái)?shù)和互粉數(shù)5個(gè)特征項(xiàng),對(duì)用戶可信度進(jìn)行了研究,在一定程度上說(shuō)明用戶的權(quán)威性特征項(xiàng)對(duì)用戶可信度具有辨別效果。因此,本節(jié)主要探索分析真實(shí)性特征對(duì)用戶可信度的辨別效果。

      風(fēng)險(xiǎn)管理,知易行難。引入澳新風(fēng)險(xiǎn)管理標(biāo)準(zhǔn),風(fēng)險(xiǎn)化“無(wú)形”為“有形”。多措并舉構(gòu)建多元化方案,一切盡在運(yùn)籌帷幄之中。

      為方便起見(jiàn),探索分析時(shí),將其轉(zhuǎn)化為二分類問(wèn)題,即可信用戶與不可信用戶。由于認(rèn)證用戶一般具有很高的可信性,因此以其作為可信用戶的替代,而非認(rèn)證用戶作為不可信用戶的替代。由于用戶個(gè)人描述、用戶個(gè)性化域名等特征項(xiàng)處理較為復(fù)雜,簡(jiǎn)化為二分類問(wèn)題,即以該特征項(xiàng)是否為空值為處理標(biāo)準(zhǔn)。

      在新浪微博中隨機(jī)抓取了1 470名用戶,其中,1 394 名未進(jìn)行認(rèn)證,76名為認(rèn)證用戶。如圖1所示,這是在不同真實(shí)性特征下,認(rèn)證用戶和非認(rèn)證用戶的分布情況。每個(gè)柱狀圖均表示認(rèn)證用戶與非認(rèn)證用戶中該信息項(xiàng)含有該值的用戶數(shù)與不含該值用戶數(shù)的比值??梢?jiàn),除了“是否允許所有人評(píng)論特征項(xiàng)”之外,其余各個(gè)特征項(xiàng)下,認(rèn)證用戶與非認(rèn)證用戶的概率分布存在非常明顯的差異,暗示這些特征蘊(yùn)含了豐富的用戶可信度信息,可以作為用戶可信度劃分的判別依據(jù)。

      圖1 認(rèn)證用戶與非認(rèn)證用戶真實(shí)性特征對(duì)比

      三、 評(píng)價(jià)模型

      1. 模型構(gòu)建

      圖2 微博用戶可信度評(píng)價(jià)模型

      微博用戶可信度評(píng)價(jià)模型的構(gòu)建過(guò)程如圖2所示。這是一個(gè)典型的基于數(shù)據(jù)挖掘技術(shù)的建模過(guò)程。

      首先,基于微博用戶公開(kāi)的個(gè)人原始資料信息,通過(guò)特征轉(zhuǎn)換和特征選擇,獲得對(duì)用戶可信度具有較好辨別能力的輸入特征集合,而后基于該特征集合,應(yīng)用分類算法對(duì)微博用戶數(shù)據(jù)進(jìn)行訓(xùn)練,獲得用戶可信度評(píng)價(jià)器。該過(guò)程中,如何處理數(shù)據(jù),構(gòu)建最終的評(píng)價(jià)輸入特征集合是本文評(píng)價(jià)模型的基礎(chǔ)和核心,下面重點(diǎn)對(duì)其進(jìn)行介紹。

      2. 數(shù)據(jù)處理

      數(shù)據(jù)處理的目的是利用已有的原始數(shù)據(jù)處理成一個(gè)抽象程度更高的特征集。蘊(yùn)含用戶可信度信息的原始特征進(jìn)行處理后,才能更好地用于用戶可信度的辨別。原始的公開(kāi)資料信息可劃分為兩類:真實(shí)性和權(quán)威性。

      真實(shí)性特征是對(duì)用戶的靜態(tài)描述,主要體現(xiàn)微博用戶信息的完備性。本文進(jìn)行處理時(shí),根據(jù)用戶是否填寫相應(yīng)信息,將其處理為一系列的二元屬性,包含相應(yīng)信息時(shí),取值為1,否則取值為0, 如表2所示。

      權(quán)威性特征取值為數(shù)值,主要體現(xiàn)了用戶的行為特征。名人、專家、普通用戶等微博用戶之間和內(nèi)部在這些特征的取值上存在一定差異。深入分析用戶在這些特征上的不同表現(xiàn)之后,對(duì)其進(jìn)行了數(shù)據(jù)歸約和數(shù)據(jù)變換處理,而不是簡(jiǎn)單地進(jìn)行離散處理。

      表2 真實(shí)性特征轉(zhuǎn)換結(jié)果說(shuō)明

      (1)

      (2)

      (3)

      漲粉速率可以體現(xiàn)用戶受關(guān)注的程度;微博活躍度可以體現(xiàn)用戶在微博平臺(tái)的參與度;收藏活躍度可以體現(xiàn)用戶從微博平臺(tái)上獲取高價(jià)值信息的程度。

      類似地,通過(guò)觀察分析微博用戶名人、專家、普通用戶在互粉數(shù)、關(guān)注數(shù)、粉絲數(shù)的不同表現(xiàn),對(duì)原始特征進(jìn)行了數(shù)據(jù)變換,延伸衍生出BiFo(互粉比例系數(shù))、BiFr(關(guān)注相熟度)、FrFo(關(guān)注粉絲比) 3個(gè)特征指標(biāo),計(jì)算公式為

      (4)

      (5)

      (6)

      互粉比例系數(shù)和漲粉速率結(jié)合,可以更全面反應(yīng)用戶受關(guān)注的程度;關(guān)注相熟度,體現(xiàn)的是微博平臺(tái)上的熟人社交程度,假設(shè)相互關(guān)注的人的連接強(qiáng)于單方面關(guān)注這種弱關(guān)系;關(guān)注粉絲比,體現(xiàn)的是用戶在微博平臺(tái)上是偏向散布信息還是獲取信息,將微博間的關(guān)注行為等同于信息流的訂閱與被訂閱。

      經(jīng)過(guò)數(shù)據(jù)變換后,對(duì)獲得的特征項(xiàng)進(jìn)行檢驗(yàn),選取那些最具有判別能力的特征項(xiàng)構(gòu)成最終的輸入特征集合。評(píng)價(jià)用戶可信度的微博用戶權(quán)威性特征最終如表3所示。

      表3 權(quán)威性特征轉(zhuǎn)換結(jié)果說(shuō)明

      圖3 不同特征項(xiàng)下認(rèn)證用戶(1)/非認(rèn)證用戶(2) 分布盒

      仍以在新浪微博平臺(tái)隨機(jī)抓取的1 470名用戶為例,以認(rèn)證用戶作為可信用戶的替代,非認(rèn)證用戶作為不可信用戶的替代,將其轉(zhuǎn)化為二分類問(wèn)題,考察特征集合中各特征對(duì)微博用戶帶可信度的辨別能力。如盒圖3所示,這是在不同權(quán)威性特征下,認(rèn)證用戶和非認(rèn)證用戶的分布情況。由圖3可見(jiàn),可信用戶在是否有個(gè)人描述、是否有個(gè)性化域名、是否有微號(hào)等特征方面趨向?yàn)檎?,可信用戶更愿意通過(guò)信息的完備性讓外界了解自己,但在是否允許標(biāo)識(shí)用戶的地理位置、是否允許所有人給自己發(fā)微信方面又趨向于假,說(shuō)明可信用戶可能還比較注重私人空間。在微博使用年限上,可信用戶趨向于一些使用年限在4年及以上的用戶。在FoPd、StPd、FavPm、BiFr、FrFo等特征方面,偏向可信用戶與偏向不可信用戶的特征分布也有較明顯的不同,可信用戶的關(guān)注相熟度普遍較高,在微博平臺(tái)上表現(xiàn)得也比較活躍。

      四、 實(shí)驗(yàn)

      1. 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)根據(jù)新浪微博提供的開(kāi)放API,應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)程序收集。首先按一定比例關(guān)注了不同類型的微博用戶,例如微博名人、專家、明星和普通用戶。其次,以所關(guān)注賬號(hào)為中心,每天不定時(shí)地對(duì)所關(guān)注用戶發(fā)出的微博進(jìn)行采集。實(shí)驗(yàn)數(shù)據(jù)便來(lái)源于所采集的微博發(fā)布者、微博評(píng)論人的信息。

      對(duì)所采集數(shù)據(jù)進(jìn)行隨機(jī)抽樣,抽取1 600名非認(rèn)證用戶進(jìn)行人工標(biāo)注(表4為若干標(biāo)注用戶的實(shí)例)。標(biāo)注采用3人一起進(jìn)行標(biāo)注的模式,對(duì)每一微博用戶最終的標(biāo)注結(jié)果由3人都贊同的結(jié)果決定。標(biāo)注實(shí)例如表4所示。通常高可信度用戶和不可信用戶通過(guò)人的直覺(jué),可以很容易地被分辨出來(lái),而偏向可信與偏向不可信用戶則差異較小,難以判別。為提高標(biāo)注效率,標(biāo)注時(shí)設(shè)計(jì)了一個(gè)小的標(biāo)注系統(tǒng),將用戶特征友好的展現(xiàn)給標(biāo)注者,在減少其工作量的同時(shí),提高標(biāo)注準(zhǔn)確度。對(duì)1 600用戶數(shù)據(jù)進(jìn)行標(biāo)注,最終3人標(biāo)注意見(jiàn)一致的數(shù)據(jù)為1 203條,以其作為本文的實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)中各類用戶的分布情況如圖4所示。

      表4 標(biāo)注用戶實(shí)例

      圖4 標(biāo)注用戶的可信度分布

      2. 實(shí)驗(yàn)方法及評(píng)估指標(biāo)

      實(shí)驗(yàn)步驟如下:步驟一,將1 203條數(shù)據(jù)隨機(jī)按約75%和25%分成兩部分;步驟二,基于CART決策樹(shù)(CART)、樸素貝葉斯(NB)和支持向量機(jī)(SVM)3種常用分類方法在75%的實(shí)驗(yàn)數(shù)據(jù)上應(yīng)用三折交叉驗(yàn)證,選取最佳分類器;步驟三,應(yīng)用最佳分類器在該75%的數(shù)據(jù)集上生成訓(xùn)練模型,然后在剩余25%的實(shí)驗(yàn)數(shù)據(jù)上進(jìn)行測(cè)試以評(píng)估可信度評(píng)價(jià)模型性能。

      鑒于可信度評(píng)價(jià)模型應(yīng)用分類方法,模型評(píng)估主要采用了評(píng)估分類方法的常用指標(biāo),即準(zhǔn)確率、召回率和F值。同時(shí),也考察了模型的穩(wěn)定性,提供了評(píng)估結(jié)果在一定置信區(qū)間內(nèi)的標(biāo)準(zhǔn)差。

      3. 實(shí)驗(yàn)結(jié)果

      步驟二各模型實(shí)驗(yàn)結(jié)果如表5所示。 由表5可見(jiàn),CART決策樹(shù)取得了較好的實(shí)驗(yàn)結(jié)果。在對(duì)用戶可信度進(jìn)行判別時(shí),CART在95%的置信區(qū)間內(nèi)達(dá)到[75.27%, 79.27%]的準(zhǔn)確率。

      表5 各分類器實(shí)驗(yàn)結(jié)果對(duì)比

      鑒于CART效果較好,選取CART在75%的實(shí)驗(yàn)數(shù)據(jù)上訓(xùn)練,并應(yīng)用生成的訓(xùn)練模型在測(cè)試集上進(jìn)行測(cè)試。CART在測(cè)試集上的表現(xiàn)如表6、表7所示。

      表6 用戶可信度分類測(cè)試結(jié)果

      表7 用戶可信度分類測(cè)試結(jié)果的混淆矩陣

      注:0 可信;1 偏向可信;2 偏向不可信;3 不可信.

      由表6、表7可見(jiàn),模型對(duì)可信用戶的識(shí)別有較高的準(zhǔn)確度和召回率,這說(shuō)明可信用戶被判斷為可信的概率比較高,而其他類別的用戶被誤判為可信用戶的概率又比較低。在其他3個(gè)類別中,準(zhǔn)確度、召回率、F值的表現(xiàn)都較均衡,在0.65~0.78之間,說(shuō)明該模型對(duì)微博用戶可信度有較好的辨別效果。

      判別錯(cuò)誤用戶主要發(fā)生在相鄰類別,跨類別誤判的情況較少。分析其原因,可能是數(shù)據(jù)標(biāo)注質(zhì)量欠佳,也有可能是預(yù)測(cè)模型未擁有足夠的信息更準(zhǔn)確地區(qū)分相鄰類別間的細(xì)微差別。也進(jìn)一步說(shuō)明,構(gòu)建的微博用戶特征集合還存在改善的空間,例如改善特征的組合方式,挖掘新特征加入特征集合。

      總體而言,對(duì)測(cè)試集上用戶可信度分類的準(zhǔn)確率達(dá)到76%左右,在多分類問(wèn)題中,該結(jié)果明顯優(yōu)于隨機(jī)猜測(cè),表明模型能通過(guò)用戶的特征對(duì)用戶可信度進(jìn)行較有效的自動(dòng)分類。

      五、 結(jié) 語(yǔ)

      隨著微博的快速發(fā)展,圍繞微博問(wèn)題的研究正引起越來(lái)越多學(xué)者的興趣。微博用戶可信度度量是其中一個(gè)有趣而且有意義的問(wèn)題。本文分析了將公開(kāi)資料數(shù)據(jù)用于評(píng)價(jià)用戶可信度的可行性,應(yīng)用不同的數(shù)據(jù)挖掘分類算法,實(shí)驗(yàn)考察了這些數(shù)據(jù)對(duì)用戶可信度的識(shí)別性能。結(jié)果表明,通過(guò)數(shù)據(jù)挖掘方法構(gòu)建的評(píng)價(jià)模型,其評(píng)價(jià)準(zhǔn)確率達(dá)到了76%的水平。這充分說(shuō)明,這些公開(kāi)的資料信息蘊(yùn)含著豐富的用戶信譽(yù)信息。本文的主要貢獻(xiàn)在于:1) 用于用戶可信度評(píng)估的基礎(chǔ)數(shù)據(jù)具有易獲得性,相比于微博信息本身,或者微博用戶之間的關(guān)聯(lián)信息之類的數(shù)據(jù),本文建議的數(shù)據(jù)更加便于處理,且不涉及個(gè)人隱私的侵犯;2) 本文從用戶真實(shí)性和權(quán)威性兩個(gè)角度對(duì)用戶相關(guān)信息進(jìn)行梳理,提出若干用戶可信度評(píng)價(jià)特征抽取公式,這對(duì)模型構(gòu)建具有至關(guān)重要的作用。需要指出的是,構(gòu)建評(píng)價(jià)模型時(shí),各特征并未根據(jù)對(duì)可信度的辨別效果的不同而賦予不同權(quán)重;數(shù)據(jù)挖掘算法也僅應(yīng)用了單一的分類算法,未進(jìn)行綜合。改善上述問(wèn)題,構(gòu)建更為有效的微博用戶特征集合,進(jìn)一步提高微博用戶可信度模型的評(píng)估性能,也是下一步的研究工作。

      [1] Gupta A, Kumaraguru P. Credibility ranking of tweets during high impact events[C]//Proceedingsofthe1stWorkshoponPrivacyandSecurityinOnlineSocialMedia. New York:ACM Press, 2012: 2.

      [2] Mendoza M, Poblete B, Castillo C. Twitter under crisis: Can we trust what we RT? [C]//ProceedingsoftheFirstWorkshoponSocialMediaAnalytics. New York:ACM Press, 2010: 71-79.

      [3] Qazvinian V, Rosengren E, Radev D R, et al. Rumor has it: Identifying misinformation in microblogs[C]//ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing. Stroudsburg:Association for Computational Linguistics, 2011: 1589-1599.

      [4] Kwak H, Lee C, Park H, et al. What is twitter, a social network or a news media? [C]//Proceedingsofthe19thinternationalConferenceonWorldWideWeb. New York: ACM Press, 2010: 591-600.

      [5] Castillo C, Mendoza M, Poblete B. Information credibility on twitter[C]//Proceedingsofthe20thInternationalConferenceonWorldWideWeb. New York:ACM Press, 2011: 675-684.

      [6] Gupta M, Zhao P, Han J. Evaluating event credibility on twitter[C]//ProceedingsoftheTwelfthSIAMInternationalConferenceonDateMining.Anaheim:Omni Press, 2012: 153-164.

      [7] Morris M R, Counts S, Roseway A, et al. Tweeting is believing?: Understanding microblog credibility perceptions[C]//ProceedingsoftheACM2012ConferenceonComputerSupportedCooperativeWork. New York: ACM Press, 2012: 441-450.

      [8] Suzuki Y. A credibility assessment for message streams on microblogs[C]//P2P,Parallel,Grid,CloudandInternetComputing(3PGCIC), 2010InternationalConference. Piscataway: IEEE, 2010: 527-530.

      [9] 王 晟, 王子琪, 張 銘. 個(gè)性化微博推薦算法[J]. 計(jì)算機(jī)科學(xué)與探索, 2012, 6(10): 895-902.

      [10] Bakshy E, Hofman J M, Mason W A, et al. Everyone’s an influencer: Quantifying influence on twitter[C]//ProceedingsoftheFourthInternationalConferenceonWebSearchandDataMining. New York: ACM Press, 2011: 65-74.

      [11] Cha M, Haddadi H, Benevenuto F, et al. Measuring user influence in twitter: The million follower fallacy[J].ICWSM, 2010, 10(10-17): 30.

      [12]GhoshR,LermanK.CommunityDetectionUsingaMeasureofGlobalInfluence[M].Berlin:Springer:2010:20-35.

      [13] Ghosh S, Sharma N, Benevenuto F, et al. Cognos: Crowdsourcing search for topic experts in microblogs[C]//Proceedingsofthe35thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval. New York: ACM Press, 2012: 575-590.

      [14] 原福永, 馮 靜, 符茜茜. 微博用戶的影響力指數(shù)模型[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2012, 28(6): 60-64.

      [15] 王 峰, 余 偉, 李石君. 新浪微博平臺(tái)上的用戶可信度評(píng)估[J]. 計(jì)算機(jī)科學(xué)與探索, 2013, 7(12): 1125-1134.

      [16] Canini K R, Suh B, Pirolli P L. Finding credible information sources in social networks based on content and social structure[C]//ProceedingsoftheThirdIEEEInernationalConferenceonSocialComputing(SocialCom). Piscataway: IEEE, 2011: 1-8.

      [17] Al-Sharawneh J, Sinnappan S, Williams M A. Credibility-based twitter social network analysis [C]//WebTechnologiesandApplications. Berlin: Springer, 2013: 323-331.

      [18] Gupta M, Zhao P, Han J. Evaluating event credibility on twitter[C]//ProceedingsoftheTwolfthSIAMInternationalConferenceonDataMining. Anaheim: Omni Press, 2012: 153-164.

      [19] Chu Z, Gianvecchio S, Wang H, et al. Detecting automation of twitter accounts: Are you a human, bot, or cyborg?[J].IEEETransactionsonDependableandSecureComputing, 2012, 9(6): 811-824.

      [20] 閆光輝, 劉曉飛, 王夢(mèng)陽(yáng). 基于鏈接的微博用戶可信度研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(10): 2910-2913.

      [21] 徐建民, 粟武林, 吳樹(shù)芳, 等. 基于邏輯回歸的微博用戶可信度建模[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2015, 36(3): 772-777.

      猜你喜歡
      可信性影響力特征
      可變情報(bào)板發(fā)布內(nèi)容可信性檢測(cè)系統(tǒng)探究
      基于可信性的鍋爐安全質(zhì)量綜合評(píng)價(jià)研究
      在區(qū)間上取值的模糊變量的可信性分布
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      Five golden rules for meeting management
      天才影響力
      NBA特刊(2018年14期)2018-08-13 08:51:40
      抓住特征巧觀察
      黃艷:最深遠(yuǎn)的影響力
      3.15消協(xié)三十年十大影響力事件
      阳原县| 皮山县| 昭通市| 集安市| 湖南省| 沙洋县| 凌云县| 盐津县| 合川市| 河东区| 红河县| 濮阳县| 舒兰市| 东至县| 邹平县| 微博| 邵东县| 亳州市| 宁化县| 嫩江县| 汾阳市| 普洱| 宝兴县| 安福县| 屯门区| 美姑县| 芜湖市| 建水县| 浑源县| 霍邱县| 韶关市| 和田县| 乌审旗| 姜堰市| 信阳市| 永和县| 信宜市| 河西区| 邯郸县| 乐至县| 峨眉山市|