• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      在線社交網(wǎng)絡(luò)中基于機(jī)器學(xué)習(xí)的多維用戶(hù)信任評(píng)估方法

      2023-01-19 10:07:46張欣欣周趙斌
      關(guān)鍵詞:正確率偏差機(jī)器

      周 嶠,張欣欣,周趙斌,許 力

      (福建師范大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點(diǎn)實(shí)驗(yàn)室,福建 福州 350117)

      隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,F(xiàn)acebook、Twitter、新浪微博等在線社交網(wǎng)絡(luò)(OSNs)已經(jīng)成為人們生活中不可或缺的一部分.如此龐大的用戶(hù)群體中蘊(yùn)含了一定比例的不可信用戶(hù),他們會(huì)在網(wǎng)絡(luò)中發(fā)送大量垃圾信息,以達(dá)到虛假?gòu)V告宣傳、詐騙等目的[1].這類(lèi)行為不僅影響了普通用戶(hù)的使用體驗(yàn),還會(huì)加重網(wǎng)絡(luò)負(fù)載、降低平臺(tái)公信力,最終導(dǎo)致大量用戶(hù)流失.

      為了避免上述情況的發(fā)生,如何檢測(cè)網(wǎng)絡(luò)中的不可信用戶(hù)成為了一個(gè)重要的研究課題.信任作為人際交往中的重要依據(jù),很自然地被引入到以人為主體的OSNs中[2].現(xiàn)有的信任評(píng)估方法大致可分為信任傳遞和信任建模[3].

      信任傳遞通?;趫D論,研究如何在用戶(hù)間傳遞信任.Avesani等[4]通過(guò)迭代計(jì)算不同跳數(shù)用戶(hù)的信任值獲得一張信任網(wǎng)絡(luò)圖.Wang等[5]將信任傳播與流體運(yùn)動(dòng)相類(lèi)比,估計(jì)出用戶(hù)能夠接收到的信任值.但這類(lèi)方法存在著一些問(wèn)題待解決:如何選取合適的路徑、確定路徑長(zhǎng)度、聚合用戶(hù)信任值以及解決傳播過(guò)程中的衰減問(wèn)題等[6].

      信任建模則重點(diǎn)關(guān)注用戶(hù)自身,試圖從用戶(hù)的相關(guān)數(shù)據(jù)中提取出有效的特征來(lái)評(píng)估用戶(hù)的可信程度[7].Liu等[8]根據(jù)用戶(hù)間的交互行為來(lái)評(píng)估用戶(hù)是否可信.Nepal等[9]通過(guò)聚合其他用戶(hù)對(duì)目標(biāo)用戶(hù)及其所在社團(tuán)的信任生成最終的信任評(píng)估結(jié)果.但是此類(lèi)方法中特征的權(quán)重值往往是固定的,并且需要依靠方案設(shè)計(jì)者的經(jīng)驗(yàn)進(jìn)行設(shè)置,因而無(wú)法根據(jù)環(huán)境變化自動(dòng)調(diào)整,而這與OSNs的動(dòng)態(tài)性相悖.

      機(jī)器學(xué)習(xí)作為一種能夠根據(jù)輸入數(shù)據(jù)智能建立數(shù)學(xué)模型的方法,能夠很好地解決特征權(quán)重設(shè)置的問(wèn)題[10].Sadiq等[11]考慮了包括粉絲數(shù)、好友數(shù)在內(nèi)的多項(xiàng)特征,用于評(píng)估用戶(hù)的信任程度.但是該方法沒(méi)有考慮用戶(hù)之間的關(guān)系,而在OSNs中用戶(hù)關(guān)系相關(guān)的特征能夠用于獲取更多有用的信息.Chen等[12]考慮了多種用戶(hù)屬性以及用戶(hù)之間的關(guān)系,提出了進(jìn)行信任評(píng)估的機(jī)器學(xué)習(xí)框架.但其提出的特征中包含大量需要迭代計(jì)算的全局性特征,而在擁有海量用戶(hù)且動(dòng)態(tài)變化的OSNs中計(jì)算這些特征會(huì)造成較大的系統(tǒng)開(kāi)銷(xiāo).

      還有一些學(xué)者選擇使用深度學(xué)習(xí)的方法來(lái)進(jìn)行信任評(píng)估.C-DeepTrust[13]將用戶(hù)評(píng)級(jí)、用戶(hù)評(píng)論、用戶(hù)偏好等信息輸入到多層神經(jīng)網(wǎng)絡(luò)中,并通過(guò)輸出的上下文感知相似度來(lái)判斷用戶(hù)之間的信任關(guān)系.TrustGNN[14]將信任的傳播性和組合性整合到圖神經(jīng)網(wǎng)絡(luò)中以進(jìn)行信任評(píng)估.但這些方法沒(méi)有深入挖掘用戶(hù)自身的信任特征,最終結(jié)果也只能反映兩兩用戶(hù)之間的信任關(guān)系,無(wú)法對(duì)用戶(hù)的身份進(jìn)行判斷.

      為了應(yīng)對(duì)上述挑戰(zhàn)問(wèn)題,本文提出了一種基于機(jī)器學(xué)習(xí)且考慮多維特征的用戶(hù)信任評(píng)估方法MDTrust.該方法首先從用戶(hù)的歷史數(shù)據(jù)中提取出4類(lèi)共13項(xiàng)特征,以充分模擬現(xiàn)實(shí)中的信任建立過(guò)程.其次,考慮到在具有海量數(shù)據(jù)的OSNs中獲取全局性特征的計(jì)算開(kāi)銷(xiāo),本文提出了名為最大平均值對(duì)數(shù)誤差的特征計(jì)算方式,用來(lái)計(jì)算用戶(hù)的局部性特征以代替全局性特征進(jìn)行用戶(hù)信任評(píng)估.該方法使用6種機(jī)器學(xué)習(xí)模型,對(duì)所提出的特征權(quán)重進(jìn)行自動(dòng)學(xué)習(xí).在真實(shí)的Twitter數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果表明,MDTrust使用最大平均值對(duì)數(shù)誤差計(jì)算得到的特征在識(shí)別不可信用戶(hù)方面能夠取得很好的效果,各項(xiàng)評(píng)估指標(biāo)的結(jié)果均高于同類(lèi)型的其他方法,并且識(shí)別效果不會(huì)隨著用戶(hù)數(shù)量變化而波動(dòng).

      1 提出方案

      1.1 問(wèn)題描述

      用U={u1,u2, … ,un}表示OSNs中的用戶(hù),用F={fg11,…,fg1l1,…,fgk1,…,fgklk}表示從用戶(hù)數(shù)據(jù)中提取得到的特征,其中g(shù)i表示第i類(lèi)特征,li表示第i類(lèi)特征的數(shù)量.本文將用戶(hù)信任評(píng)估定義為二元分類(lèi)問(wèn)題,即對(duì)于用戶(hù)un而言,其信任值tn要么為0,要么為1,對(duì)應(yīng)用戶(hù)身份可信和不可信2種情況.其計(jì)算方法可表示為tn=Φ(Fn),Φ(·)為選擇的機(jī)器學(xué)習(xí)模型.本文使用監(jiān)督學(xué)習(xí)的方法訓(xùn)練模型,因此每名用戶(hù)的信任值tn是已知的,模型的目標(biāo)是根據(jù)提取出的用戶(hù)特征準(zhǔn)確預(yù)用戶(hù)對(duì)應(yīng)的信任值.

      1.2 特征選取原則

      在定義特征時(shí)遵循以下原則.

      (1) 關(guān)注相對(duì)值而非絕對(duì)值.不可信用戶(hù)可以通過(guò)修改自身數(shù)據(jù)以達(dá)到偽裝身份的目的,但無(wú)法獲得網(wǎng)絡(luò)中所有用戶(hù)的數(shù)據(jù),因此修改后的數(shù)據(jù)仍會(huì)表現(xiàn)出與普通用戶(hù)之間的差別.

      (2) 關(guān)注平均值而非最值.最值可能會(huì)使系統(tǒng)錯(cuò)誤地將某條異常信息作為評(píng)價(jià)用戶(hù)身份的特征.而平均值更偏重于考慮用戶(hù)以往所有的行為,并能降低異常值的影響.

      (3) 摒棄全局性特征.考慮到OSNs中的海量數(shù)據(jù),選用需要迭代計(jì)算的全局性特征會(huì)造成高昂的計(jì)算與存儲(chǔ)開(kāi)銷(xiāo),因此本文僅選擇用戶(hù)的局部性特征進(jìn)行信任評(píng)估.

      基于以上原則,本文參考文獻(xiàn)[12],定義了一種名為最大平均值對(duì)數(shù)偏差的特征計(jì)算方式

      (1)

      1.3 特征定義

      1.3.1 基于用戶(hù)個(gè)人資料的特征

      如果一個(gè)用戶(hù)的個(gè)人資料越完整,就越容易獲得其他用戶(hù)的信任,因此用戶(hù)個(gè)人資料中的相關(guān)信息能夠幫助判斷一個(gè)用戶(hù)的可信程度.方法定義了3項(xiàng)基于用戶(hù)個(gè)人資料的特征.

      (1)個(gè)人資料完整度分?jǐn)?shù)

      經(jīng)常使用OSNs的用戶(hù)會(huì)對(duì)其個(gè)人資料進(jìn)行個(gè)性化設(shè)置,而不可信用戶(hù)則通常不會(huì)去完善個(gè)人資料.本方法定義了衡量個(gè)人資料完整度的6個(gè)要素.

      對(duì)于用戶(hù)名、用戶(hù)頭像和個(gè)人資料背景圖,如果用戶(hù)進(jìn)行了個(gè)性化設(shè)置,則將對(duì)應(yīng)分值記為1;若使用的是系統(tǒng)默認(rèn)設(shè)置,則將對(duì)應(yīng)分值記為0.

      對(duì)于用戶(hù)的個(gè)人簡(jiǎn)介、簡(jiǎn)介中包含的網(wǎng)址鏈接和用戶(hù)所在的地理位置,如果用戶(hù)填寫(xiě)了相應(yīng)內(nèi)容,則將對(duì)應(yīng)分值記為1;若內(nèi)容為空則將對(duì)應(yīng)分值記為0.

      用戶(hù)ui的個(gè)人資料完整度分?jǐn)?shù)可通過(guò)以上6個(gè)值取平均值得到.個(gè)人資料完整度分?jǐn)?shù)越高,表示該名用戶(hù)對(duì)自己的資料進(jìn)行了詳細(xì)的設(shè)置與完善,其可信程度也就越高.

      (2)社團(tuán)多樣性偏差

      可信用戶(hù)會(huì)加入感興趣的社團(tuán),與志趣相投的其他用戶(hù)討論同樣的話題,而不可信用戶(hù)則不會(huì)花時(shí)間在這項(xiàng)活動(dòng)上[15].公式(2)定義了社團(tuán)多樣性偏差(CDD)用于衡量用戶(hù)加入社團(tuán)的豐富程度.

      (2)

      其中#coms(ui)表示ui加入的社團(tuán)數(shù)量.用戶(hù)加入的社團(tuán)越多,其可信度相對(duì)來(lái)說(shuō)也會(huì)越高.

      (3)賬戶(hù)創(chuàng)建時(shí)間偏差

      一個(gè)賬戶(hù)創(chuàng)建的時(shí)間越久,使用該賬戶(hù)的用戶(hù)的可信程度就越高,因?yàn)檫@意味著該用戶(hù)之前未發(fā)生過(guò)惡意行為,否則其賬戶(hù)很可能被封禁.而大多數(shù)不可信用戶(hù)的賬戶(hù)都是新創(chuàng)建的,因此兩者在賬號(hào)創(chuàng)建時(shí)間上存在差異.公式(3)定義了賬號(hào)創(chuàng)建時(shí)間偏差(ATD)來(lái)衡量這種差異.

      (3)

      其中days(ui)表示ui的創(chuàng)建天數(shù).用戶(hù)賬戶(hù)創(chuàng)建的時(shí)間越久,說(shuō)明其可信程度越高.

      1.3.2 基于用戶(hù)發(fā)布內(nèi)容的特征

      用戶(hù)發(fā)布的內(nèi)容中具有豐富的信息,這些信息能夠幫助衡量用戶(hù)的可信程度.本文定義了4項(xiàng)基于用戶(hù)發(fā)布內(nèi)容的特征,以捕捉可信用戶(hù)與不可信用戶(hù)在發(fā)布內(nèi)容上的差異.

      (1)內(nèi)容標(biāo)簽數(shù)偏差

      用戶(hù)在發(fā)布內(nèi)容時(shí)會(huì)加上標(biāo)簽以表明內(nèi)容所屬的話題,這樣能夠使得自己發(fā)布的內(nèi)容很快被搜索到.而不可信用戶(hù)在發(fā)布內(nèi)容時(shí)往往不會(huì)加上標(biāo)簽,因?yàn)檫@樣可能會(huì)導(dǎo)致內(nèi)容被舉報(bào)的概率增加[16].公式(4)定義了內(nèi)容標(biāo)簽數(shù)偏差(TND)用來(lái)衡量?jī)深?lèi)用戶(hù)在內(nèi)容標(biāo)簽數(shù)上的差異.

      (4)

      (2)用戶(hù)提及數(shù)偏差

      可信用戶(hù)使用OSNs的目的之一就是與好友進(jìn)行交流,而不可信用戶(hù)則很少進(jìn)行這類(lèi)社交行為,因此發(fā)布內(nèi)容中的@數(shù)會(huì)明顯多于不可信用戶(hù). 公式(5)定義了用戶(hù)提及數(shù)偏差(UMD).

      (5)

      (3)URL數(shù)量偏差

      不可信用戶(hù)通常會(huì)在發(fā)布內(nèi)容中加入U(xiǎn)RL以吸引用戶(hù)點(diǎn)擊,從而達(dá)到竊取用戶(hù)隱私信息、網(wǎng)絡(luò)詐騙等目的[17].而普通用戶(hù)發(fā)布的內(nèi)容中通常不會(huì)包含URL鏈接,因此兩者在該項(xiàng)特征上存在差異. 公式(6)定義了URL數(shù)量偏差(UND).

      (6)

      (4)內(nèi)容長(zhǎng)度偏差

      通常高質(zhì)量的內(nèi)容其長(zhǎng)度會(huì)更長(zhǎng),而可信用戶(hù)發(fā)布的內(nèi)容質(zhì)量普遍高于不可信用戶(hù),因此兩者在內(nèi)容長(zhǎng)度上存在差異. 公式(7)定義了內(nèi)容長(zhǎng)度偏差(CLD).

      (7)

      1.3.3 基于用戶(hù)反饋的特征

      點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等反饋行為可以反映出OSNs中其他用戶(hù)對(duì)某位用戶(hù)的態(tài)度,因此該類(lèi)特征可以幫助平臺(tái)進(jìn)行用戶(hù)信任評(píng)估. 本文定義了3項(xiàng)基于用戶(hù)反饋的特征.

      (1)轉(zhuǎn)發(fā)次數(shù)偏差

      優(yōu)質(zhì)的內(nèi)容會(huì)通常得到大量轉(zhuǎn)發(fā),并且它們的創(chuàng)作者基本上都是可信用戶(hù). 而不可信用戶(hù)發(fā)布的內(nèi)容往往不會(huì)得到轉(zhuǎn)發(fā). 公式(8)定義了轉(zhuǎn)發(fā)次數(shù)偏差(SND).

      (8)

      (2)點(diǎn)贊次數(shù)偏差

      高質(zhì)量的內(nèi)容往往會(huì)獲得更多的點(diǎn)贊數(shù). 如果1名用戶(hù)獲得的點(diǎn)贊數(shù)很多,那么他很有可能是一名可信用戶(hù). 公式(9)定義了點(diǎn)贊次數(shù)偏差(LND).

      (9)

      (3)評(píng)論次數(shù)偏差

      大多數(shù)用戶(hù)傾向于回復(fù)高質(zhì)量的內(nèi)容以及與熟悉的用戶(hù)互動(dòng),因此可信用戶(hù)收到的評(píng)論數(shù)會(huì)多于不可信用戶(hù). 公式(10)定義了評(píng)論次數(shù)偏差(RND).

      (10)

      1.3.4 基于用戶(hù)關(guān)系的特征

      用戶(hù)之間的關(guān)系蘊(yùn)含著豐富的信息,可信用戶(hù)與不可信用戶(hù)在用戶(hù)關(guān)系上存在著差異,這些信息能夠幫助我們?cè)u(píng)估用戶(hù)的可信度. 本文定義了3項(xiàng)基于用戶(hù)關(guān)系的局部性特征進(jìn)行用戶(hù)信任評(píng)估.

      (1)關(guān)注數(shù)-粉絲數(shù)比率

      關(guān)注數(shù)和粉絲數(shù)是衡量OSNs用戶(hù)可信度的重要指標(biāo). 不可信用戶(hù)往往不會(huì)擁有很多粉絲,并且會(huì)嘗試關(guān)注很多用戶(hù)以提升在他人眼中的可信程度[18].公式(11)定義了關(guān)注數(shù)-粉絲數(shù)比率(FFR).

      (11)

      其中#friends(ui)和#followers(ui)分別表示ui的關(guān)注者數(shù)量和粉絲數(shù)量. 通常不可信用戶(hù)的粉絲數(shù)很少,而關(guān)注數(shù)很多,因此FFR值會(huì)大于不可信用戶(hù)[16].

      (2)網(wǎng)絡(luò)知名度偏差

      一個(gè)用戶(hù)的粉絲數(shù)可以反映該用戶(hù)的知名度. 雖然不可信用戶(hù)可以通過(guò)購(gòu)買(mǎi)虛假粉絲的方式增加粉絲數(shù),但與整個(gè)OSNs中知名度高的用戶(hù)相比,兩者粉絲數(shù)的差距仍然很大. 公式(12)定義了網(wǎng)絡(luò)知名度偏差(NRD),用于衡量用戶(hù)ui和OSNs中最受歡迎的用戶(hù)之間粉絲數(shù)的差異.

      (12)

      (3)互相關(guān)注比率

      OSNs中相互關(guān)注比單向關(guān)注更能夠反映用戶(hù)之間的互相信任. 不可信用戶(hù)無(wú)法控制其他用戶(hù)關(guān)注自己,因此雙向關(guān)注數(shù)較少[15]. 公式(13)定義了互相關(guān)注比率(MFR).

      (13)

      其中fol(ui)表示ui的粉絲數(shù). 一個(gè)用戶(hù)擁有的互相關(guān)注數(shù)多,說(shuō)明其在OSNs的好友數(shù)多,這能夠從一定程度上反映出他人對(duì)該用戶(hù)的信任程度.

      1.4 基于機(jī)器學(xué)習(xí)的信任評(píng)估框架

      MDTrust流程框架分為數(shù)據(jù)收集模塊、特征選擇模塊和機(jī)器學(xué)習(xí)模塊(圖1).數(shù)據(jù)收集模塊負(fù)責(zé)從OSNs中收集計(jì)算特征需要的相關(guān)數(shù)據(jù),并發(fā)送給特征選擇模塊進(jìn)行處理;特征選擇模塊是整個(gè)框架中最重要的部分,其收到原始數(shù)據(jù)后,會(huì)根據(jù)本文定義的特征計(jì)算方式從原始數(shù)據(jù)中提取出一共4類(lèi)13項(xiàng)特征;得到的特征會(huì)作為機(jī)器學(xué)習(xí)模塊的輸入,用來(lái)訓(xùn)練能夠有效區(qū)分可信用戶(hù)與不可信用戶(hù)的機(jī)器學(xué)習(xí)模型,模型會(huì)自動(dòng)學(xué)習(xí)特征的重要性,并自動(dòng)分配特征的權(quán)重.訓(xùn)練完畢的模型會(huì)投入到OSNs中進(jìn)行網(wǎng)絡(luò)中的用戶(hù)信任評(píng)估.

      圖1 基于機(jī)器學(xué)習(xí)的信任評(píng)估框架Fig.1 The trust evaluation framework based on machine learning

      2 實(shí)驗(yàn)分析

      2.1 評(píng)價(jià)指標(biāo)

      在本文中,假陽(yáng)性(FP)和假陰性(FN)分別代表被錯(cuò)誤識(shí)別為不可信用戶(hù)的可信用戶(hù)以及被錯(cuò)誤識(shí)別為可信用戶(hù)的不可信用戶(hù),而真陽(yáng)性(TP)和真陰性(TN)分別代表被正確識(shí)別的可信用戶(hù)和不可信用戶(hù).本文采用了機(jī)器學(xué)習(xí)中常用的5項(xiàng)評(píng)價(jià)指標(biāo)用于評(píng)估方法效果,分別是正確率(Accuracy),精度(Precision),召回率(Recall),F(xiàn)1分?jǐn)?shù)(F1-Measure)以及馬修斯相關(guān)系數(shù)(MCC).

      (13)

      (14)

      (15)

      (16)

      (17)

      2.2 數(shù)據(jù)集介紹

      實(shí)驗(yàn)中所采用的數(shù)據(jù)集是由Cresci等發(fā)布的Twitter數(shù)據(jù)集[19].該數(shù)據(jù)集最初用于檢測(cè)Twitter中的虛假用戶(hù).表1給出了數(shù)據(jù)集的具體構(gòu)成.

      表1 Twitter數(shù)據(jù)集介紹Tab.1 Description of Twitter dataset

      2.3 對(duì)比方法

      本文將MDTrust與其他基于機(jī)器學(xué)習(xí)的信任評(píng)估方法[11-12]進(jìn)行了比較.文獻(xiàn)[11]提出了包括好友數(shù)、粉絲數(shù)在內(nèi)的一共14項(xiàng)特征,用來(lái)區(qū)別普通用戶(hù)和不可信用戶(hù),但是該方法沒(méi)有考慮用戶(hù)關(guān)系以及用戶(hù)反饋行為相關(guān)的特征;文獻(xiàn)[12]與本文類(lèi)似,從多個(gè)維度提取了與信任相關(guān)的12項(xiàng)特征,但是該方法提出的特征大多數(shù)都是基于數(shù)據(jù)的最值計(jì)算得出的,這種計(jì)算方法會(huì)導(dǎo)致最終得到的特征容易受到異常值的影響,進(jìn)而影響最終的判斷;并且該方法包含需要迭代計(jì)算的全局性特征,這對(duì)于具有海量數(shù)據(jù)并且經(jīng)常動(dòng)態(tài)變化的OSNs而言會(huì)造成較大的計(jì)算開(kāi)銷(xiāo).

      2.4 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)采用了基于Python語(yǔ)言的機(jī)器學(xué)習(xí)庫(kù)scikit-learn,用于展示本文基于最大平均值對(duì)數(shù)偏差得到的特征集合與其他特征集合在不同機(jī)器學(xué)習(xí)模型上的結(jié)果差異.本文首先將完整數(shù)據(jù)集劃分為不同大小的子集,每個(gè)子集中的可信用戶(hù)數(shù)量相同,通過(guò)隨機(jī)選擇算法增加不可信用戶(hù)的數(shù)量,使得每個(gè)子集中不可信用戶(hù)數(shù)量占比分別為10%~60%,以評(píng)估MDTrust在面對(duì)不同比例的不可信用戶(hù)時(shí)的表現(xiàn).最后評(píng)估MDTrust在完整數(shù)據(jù)集上的效果.本文對(duì)每組數(shù)據(jù)進(jìn)行了5次5折交叉驗(yàn)證用來(lái)訓(xùn)練和測(cè)試不同的機(jī)器學(xué)習(xí)模型,并將5次驗(yàn)證的平均值作為最終的結(jié)果.

      圖2—圖7展示了MDTrust與其他基于機(jī)器學(xué)習(xí)的用戶(hù)信任評(píng)估方法在邏輯回歸、支持向量機(jī)、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林6種機(jī)器學(xué)習(xí)模型下,面對(duì)不同占比的不可信用戶(hù)時(shí)的分類(lèi)正確率.可以觀察到,對(duì)于選用的所有機(jī)器學(xué)習(xí)模型,MDTrust的正確率都要高于其他2種方法.這意味著本文提出的最大平均值對(duì)數(shù)偏差能夠很好地區(qū)別可信用戶(hù)與不可信用戶(hù);此外,MDTrust在面對(duì)占比為10%~60%的不可信用戶(hù)時(shí)依舊能夠保持比較穩(wěn)定的正確率,這說(shuō)明MDTrust中的局部性特征效果良好,因此本方法不太會(huì)受到OSNs中不可信用戶(hù)數(shù)量的影響.對(duì)于邏輯回歸模型,當(dāng)不可信用戶(hù)占比為20%時(shí),Chen[12]提出的方法與本方法的正確率接近.當(dāng)占比增加時(shí),Chen的方法和MDTrust在正確率的差距不斷增大,直到不可信用戶(hù)占比為60%才有所回升,這可能是因?yàn)镃hen的方法中包含部分全局性特征,這些特征在用戶(hù)數(shù)量較少時(shí)不能發(fā)揮其作用,而MDTrust所提出的用戶(hù)關(guān)系局部性特征的效果則不會(huì)受到用戶(hù)數(shù)量影響.Sadiq[11]的方法與MDTrust的正確率一直有較大差距,這可能是因?yàn)槠浞椒ㄖ豢紤]了用戶(hù)相關(guān)的特征,而忽視了用戶(hù)關(guān)系相關(guān)的特征對(duì)于用戶(hù)信任評(píng)估的作用,并且這些特征都是通過(guò)直接計(jì)算絕對(duì)值得到的,而本文充分考慮了包含用戶(hù)關(guān)系在內(nèi)的4類(lèi)特征,并且提出的最大平均值對(duì)數(shù)偏差消除了絕對(duì)值對(duì)結(jié)果的影響.對(duì)于其他5種機(jī)器學(xué)習(xí)模型,MDTrust的正確率都要高于對(duì)比方法.MDTrust在面對(duì)不同情況時(shí)正確率的波動(dòng)幅度均維持在3%以?xún)?nèi).可以說(shuō)MDTrust在識(shí)別用戶(hù)身份時(shí)正確率優(yōu)秀且穩(wěn)定.

      圖2 使用邏輯回歸模型的正確率Fig.2 Accuracy on logistic regression model

      圖3 使用支持向量機(jī)模型的正確率Fig.3 Accuracy on support vector machine model

      圖4 使用樸素貝葉斯模型的正確率Fig.4 Accuracy on naive Bayes model

      圖5 使用貝葉斯網(wǎng)絡(luò)模型的正確率Fig.5 Accuracy on Bayesian network model

      圖6 使用決策樹(shù)模型的正確率Fig.6 Accuracy on decision tree model

      圖7 使用隨機(jī)森林模型的正確率Fig.7 Accuracy on random forest model

      3種方法在完整數(shù)據(jù)集上的結(jié)果如表2所示,粗體表示每項(xiàng)指標(biāo)的最優(yōu)值.MDTrust在所有指標(biāo)上都要優(yōu)于另外2種方法,其中使用隨機(jī)森林模型能夠得到最高的正確率,這說(shuō)明MDTrust使用最大平均值對(duì)數(shù)偏差計(jì)算得到的特征能夠準(zhǔn)確地區(qū)分出可信用戶(hù)和不可信用戶(hù).

      表2 完整數(shù)據(jù)集上的測(cè)試結(jié)果Tab.2 Results on the full dataset

      3 結(jié)論

      本文提出了一種基于機(jī)器學(xué)習(xí)的多維信任評(píng)估方法MDTrust.該方法首先定義了最大平均值對(duì)數(shù)偏差用以從OSNs的用戶(hù)數(shù)據(jù)中計(jì)算特征.其次,本方法從多個(gè)維度出發(fā),提取出一共4類(lèi)13項(xiàng)與信任相關(guān)的特征,以模擬現(xiàn)實(shí)中信任的建立.考慮到OSNs的海量數(shù)據(jù)和動(dòng)態(tài)性,MDTrust僅使用局部性特征進(jìn)行信任評(píng)估.MDTrust使用了6種不同的機(jī)器學(xué)習(xí)模型,以評(píng)估提出的特征識(shí)別不可信用戶(hù)的效果.在Twitter數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,MDTrust不僅能在正確率上取得最好的效果,在其他指標(biāo)上的表現(xiàn)也是最優(yōu)的.這說(shuō)明MDTrust能夠有效地區(qū)分可信用戶(hù)與不可信用戶(hù).

      猜你喜歡
      正確率偏差機(jī)器
      機(jī)器狗
      機(jī)器狗
      門(mén)診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      如何走出文章立意偏差的誤區(qū)
      兩矩形上的全偏差
      未來(lái)機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      關(guān)于均數(shù)與偏差
      小金县| 沙湾县| 阜新市| 喜德县| 奉新县| 濉溪县| 宜州市| 微博| 通山县| 甘洛县| 桃江县| 巴南区| 万安县| 石门县| 丰原市| 天柱县| 广南县| 凤阳县| 从江县| 平原县| 东平县| 苏尼特左旗| 内江市| 宕昌县| 揭东县| 三穗县| 宁武县| 兴城市| 甘洛县| 芦溪县| 新干县| 铜川市| 海伦市| 庄河市| 巴林右旗| 樟树市| 穆棱市| 通许县| 乐亭县| 嘉义市| 舒兰市|