張 津,郭艷光
(內(nèi)蒙古農(nóng)業(yè)大學計算機技術(shù)與信息管理系,內(nèi)蒙古 包頭 014109)
互聯(lián)網(wǎng)技術(shù)以及社交網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,促使全球人類的生活發(fā)生了較為明顯的改變。人們習慣每天利用QQ、微信等聊天軟件進行在線交流,部分用戶還在微博以及朋友圈發(fā)布個人生活信息[1-2],以及在各個閱讀軟件上進行文字閱讀以及評論。不同的用戶能夠在不同的社交網(wǎng)絡(luò)中進行賬號注冊,進行格式社交活動,留下十分豐富的用戶社交信息。
但是現(xiàn)階段的“單機登陸”技術(shù)仍然存在一定的弊端,且各個社交網(wǎng)站上的賬號都是相互獨立性過強的。網(wǎng)絡(luò)用戶識別技術(shù)在各個研究領(lǐng)域都占據(jù)十分重要的地位[3]。針對識別效率問題,眾多學者在不同領(lǐng)域作出相應研究。
文獻[4]提出了一種交通標志識別方法利用自底向上的多級信息,基于圖模型的層次顯著性提取交通標志感興趣區(qū)域,建立了一個特征提取與分類的圖模型,提高交通標志識別的魯棒性,有效地融合了局部區(qū)域的細節(jié)信息與結(jié)構(gòu)信息,檢測目標更加完整、均勻,文獻[5]針對目前行為識別通用模型,從小波分解后低頻近似系數(shù)中提取小波能量,基于決策樹分類器建立行為識別通用模型,并對該通用模型進行驗證,應用典型時域特征數(shù)據(jù)集,提出移動用戶行為識別方法,其平均識別準確率得到提高。文獻[6]根據(jù)人身份、性別和情感信息,提出了一種識別多維語音信息的方法,設(shè)計了一個性別相關(guān)的多維語音識別基線系統(tǒng),用來同時識別身份特征參數(shù),進行多維說話人信息識別。在性別相關(guān)的基礎(chǔ)上,建立主語音識別模型,增強語音識別性能。
當屬性信息被充分利用時,第一種識別方式具有較高的準確性,但是無法應用于網(wǎng)絡(luò)用戶識別中來且另外兩種方法的準確性較低。為了進一步完善傳統(tǒng)方法存在的不足,本文結(jié)合偏好邏輯,設(shè)計并提出基于偏好邏輯的社交網(wǎng)絡(luò)用戶身份識別方法,提出跨網(wǎng)絡(luò)識別用戶,即一個用戶的多個賬號可一次性被查詢,同時將數(shù)據(jù)多次融合,其創(chuàng)新之處在于可在最大程度上收集以及整合社交網(wǎng)絡(luò)用戶的全部信息,進一步實現(xiàn)用戶海量社交元素的挖掘,具有較好的準確性,且適應性較強。
偏好邏輯系統(tǒng)是認知邏輯的方法,為偏好和偏好的變化而建立的邏輯模型,從本文來看,偏好邏輯即社交網(wǎng)絡(luò)用戶的整體偏好關(guān)系和個體偏好關(guān)系,表現(xiàn)形式為社交網(wǎng)絡(luò)用戶的相似度。社交網(wǎng)絡(luò)用戶的相似度主要是選取不同的方式將不同的屬性進行結(jié)合,對其進行計算,將計算結(jié)果設(shè)定在對應的區(qū)間范圍內(nèi),將整個過程簡稱為PAS。
將用戶屬性表示為pi,表示為以下的形式
pi=(f0,f1,…,fn)
(1)
設(shè)定fj代表用戶i的第j個屬性,將各個用戶之間的相似度利用si,j表示。以下采用監(jiān)督矩陣分解方法進行用戶信息獲取,同時進一步提升識別結(jié)果的準確性,利用式(2)給出目標函數(shù)的具體表現(xiàn)形式
(2)
式中,Ui和Vj表示用戶信息的關(guān)系函數(shù),sij表示監(jiān)督矩陣分解函數(shù)。鏈接親密度主要是在鏈接關(guān)系方面表示兩個好友之間的熟悉程度,具體的計算式如下所示
(3)
式中,P(·)表示鏈接函數(shù),w代表虛擬用戶的熟悉程度。
好友親密度函數(shù)是Diec相關(guān)系數(shù)的一個變種,以下給出具體的計算式
(4)
好友親密度以及非好友疏遠度兩者并不是恰好相反的度量函數(shù),它們能夠存在于不同的應用場景中,為了在后續(xù)計算的過程中充分利用非好友之間的關(guān)系,對網(wǎng)絡(luò)社交用戶的好友條件進行設(shè)定和分析:
1)如果兩個社交網(wǎng)絡(luò)之間存在多個相同好友,社會網(wǎng)絡(luò)會結(jié)合社交經(jīng)驗為他們彼此進行推薦,但是兩者并不是好友關(guān)系,并且他們可能也不認識彼此,或者并沒有意愿在社交網(wǎng)絡(luò)中將彼此作為好友。
2)如果兩個社交網(wǎng)絡(luò)用戶之間的好友數(shù)量較高,且兩者之間并沒有共同好友,即使現(xiàn)階段兩人并不是好友,但是能夠推測兩者在未來某個時間段可能成為好友。由于兩個人都不擅長社交,或者系統(tǒng)并沒有推薦兩個人為好友,兩者之間則沒有任何途徑能夠認識彼此。
好友親密度主要是用于計算不同好友之間的關(guān)系[7],綜合分析可知,好友的疏遠程度以及好友親密度兩者之間呈反比。由此可設(shè)定一個被選中的用戶賬號vselect,該賬號具有最大的用戶環(huán)境評分值即存在好友關(guān)系的網(wǎng)絡(luò)用戶個數(shù)。通過用戶關(guān)系相似度[8-9],能夠計算各個好友關(guān)系的相似程度。其中兩個用戶之間的用戶關(guān)系能夠利用以下公式進行計算
(5)
式中,F(xiàn)C(vl,s)為網(wǎng)絡(luò)用戶的好友親密度函數(shù),NFD(vl,s)為網(wǎng)絡(luò)用戶活躍系數(shù),η為用戶關(guān)系相似值。為了驗證度量結(jié)果的準確性,需要對數(shù)據(jù)集進行分析。
在上述分析的基礎(chǔ)上,結(jié)合偏好邏輯系統(tǒng)實現(xiàn)社交網(wǎng)絡(luò)用戶的偏好處理。
已知一個種子節(jié)點集合為AL,首先需要計算社交網(wǎng)絡(luò)中各個種子節(jié)點之間的親密度,同時進行評分。根據(jù)偏好處理結(jié)果,獲取種子節(jié)點的周圍信息,同時結(jié)合邏輯回歸模型,將其與其它節(jié)點進行對比,得到親密度評分函數(shù)
UMS(vselect,v)=USR(v0,vj)·K(pselect,pv)
(6)
式中,K(pselect,pv)為子節(jié)點的邏輯回歸函數(shù)。將網(wǎng)絡(luò)中的用戶按照元組的親密度得分進行降序處理,獲取待匹配用戶集合S,同時將排在第一名的用戶設(shè)定為待匹配節(jié)點。
邏輯回歸模型主要適用于解決二分類問題的分類器,它的取值結(jié)果只能是1或者是0。其中基于邏輯回歸的假設(shè)函數(shù)能夠表示為以下的形式
(7)
針對于邏輯回歸模型,設(shè)定損失函數(shù)為:
(8)
(9)
利用已經(jīng)標記好的數(shù)據(jù)hθ(x)對模型進行訓練,同時將其轉(zhuǎn)換為尋優(yōu)問題,并且使損失函數(shù)的取值最小。
設(shè)定初始參數(shù)適量為θ0,閾值為ε,學習速率為?。如果閾值沒有達到閾值需求[10-11],則繼續(xù)進行迭代。
由于種子節(jié)點的重要性,需要尋找一個新的帳號,在這個帳號搜索的整個過程中需要記錄詳細的記錄,通過與已知種子節(jié)點的關(guān)系,最后進行評分,錯誤的種子節(jié)點將產(chǎn)生錯誤的匹配,并對迭代過程產(chǎn)生不利影響。
該算法在進行運算時,需要獲得普通節(jié)點和種子節(jié)點之間的關(guān)系,并對它們進行評分,可見種子節(jié)點在整個算法中占據(jù)了非常重要的地位。
為了確保整個匹配過程的穩(wěn)定運行,在每次進行匹配的過程中都需要選取雙方喜愛程度的匹配信息。利用社交網(wǎng)絡(luò)時,需要對其進行劃分,得到最高節(jié)點,然后依次進行反向查找,即從目標網(wǎng)絡(luò)向源網(wǎng)絡(luò)查找[12],同時判斷節(jié)點能否得到最高分。假定能得到最高分,說明匹配成功;反之,則說明匹配失敗。另外還需要對匹配的種子點進行驗證,確保其穩(wěn)定后,需要從待匹配的賬號中刪除該種子點,有效地避免重復使用節(jié)點,降低錯誤匹配率。
一般情況下,在進行鏈接預測時,會選擇節(jié)點閾值作為判斷依據(jù);如果雙方喜愛程度匹配計算值大于節(jié)點閾值,則說明鏈接是真實存在的;反之,則說明沒有鏈接。與此理論相結(jié)合,選取了兩個鏈接,但由于一個節(jié)點只能和一個節(jié)點形成一個鏈接關(guān)系,因而不能滿足相關(guān)的約束條件。使用下面的圖表詳細說明不同模型的匹配方式:
圖1 不同模型下的匹配方式
在整個匹配計算過程中,關(guān)鍵的一步是在不斷挖掘其周圍的重要信息的同時,通過種子來完成節(jié)點的匹配。若一個節(jié)點與一個種子用戶之間存在好友關(guān)系,則說明該節(jié)點在另一個網(wǎng)絡(luò)中的對應帳號和種子節(jié)點都是好友關(guān)系,即使兩個網(wǎng)絡(luò)中的用戶并不是好友關(guān)系,但彼此之間的距離也不會太遠。
對上述理論進行了綜合分析,選取了一個種子節(jié)點,選取了與之接近的節(jié)點,利用編輯回歸法計算了兩個節(jié)點的屬性相似度[13-14],并通過該方法準確地識別出其中的部分節(jié)點,將其加入到最近行程的種子集結(jié)中。通過不斷地增加種子后面的數(shù)量,可以實現(xiàn)更多節(jié)點的匹配,得到更多的節(jié)點對。
為了驗證所提基于偏好邏輯的社交網(wǎng)絡(luò)用戶身份識別方法的綜合有效性,進行實驗,實驗環(huán)境為:Windows7旗艦版操作系統(tǒng),CPU為Pentium(R)Dual-Core CPU T4200@2.00Ghz,內(nèi)存為2GB,實驗平臺為MATLAB2014a。在Googledatasets ( https:∥cloud.google.com/bigquery/public-data/ ) 中選取一組網(wǎng)絡(luò)推薦用戶即存在較強相似度的網(wǎng)絡(luò)好友,利用他們之間的相似度進行實驗,與文獻[4]、文獻[5]和文獻[6]三種方法進行對比,設(shè)置實驗指標為識別率、識別時間、召回率以及節(jié)點擬合程度為實驗指標。
1)識別率/%
為了驗證所提方法的有效性,實現(xiàn)選取兩種傳統(tǒng)法作為對比方法進行實驗測試,以下分別對比四種方法的識別率,具體的對比結(jié)果如下表所示:
表1 所提方法的識別率變化情況
綜合分析表1的實驗數(shù)據(jù)可知,當種子用戶數(shù)量開始持續(xù)增加,各種識別方法的識別率也在不斷發(fā)生變化。其中所提方法的識別率明顯較高,這說明所提方法能夠準確完成社交網(wǎng)絡(luò)用戶身份識別。
2)識別時間/min
以下對比三種識別方法的識別效率。當設(shè)定1000個種子個數(shù)時,隨著種子個數(shù)的增加,其識別時間不斷加長,在相同種子用戶數(shù)量的情況下,迭代10次,對比四種方法的處理時間大小即處理速度,反應出整體識別效率。具體的對比結(jié)果如表2所示:
表2 所提方法的識別時間變化情況
分析表2的實驗數(shù)據(jù)可知,所提方法的識別時間在三種識別方法中為最低,說明本文方法在識別速度上有較強的優(yōu)越性即識別效率較高。
3)召回率/(%)
為了進一步驗證所提方法的有效性,以下選取召回率作為評價指標,其中召回率越高,則說明識別效果越好,三種識別方法的召回率對比結(jié)果如圖2所示:
圖2 不同識別方法的召回率變化情況
分析圖2可知,所提方法的召回率在三種識別方法中召回曲線上升趨勢最穩(wěn)定,召回率最高,這說明所提方法具有較好的識別效果,可以應用于實際。
網(wǎng)絡(luò)好友關(guān)系網(wǎng)中,一個節(jié)點與一個種子用戶之間存在好友關(guān)系,則說明該節(jié)點在另一個網(wǎng)絡(luò)中的對應帳號和種子節(jié)點都是好友關(guān)系,以好友關(guān)系建立新的聯(lián)系,并奧正這種聯(lián)系為高分聯(lián)系,一次實現(xiàn)社交網(wǎng)絡(luò)用戶的全部信息的收集以及整合。將本文方法與與文獻[4]、文獻[5]和文獻[6]三種方法進行對比,在節(jié)點與用戶信息點的擬合程度進行對比實驗,實驗結(jié)果如圖3所示。
圖3 不同識別方法節(jié)點與用戶信息點的擬合程度
由圖3可知,本文方法在200-1000個種子節(jié)點中與用戶屬性信息節(jié)點的擬合程度最高,且最接近100%,說明基于偏好邏輯的社交網(wǎng)絡(luò)用戶身份識別方法在數(shù)據(jù)多次融合后,可以很好的實現(xiàn)信息點擬合即利用多方好友信息進行用戶信息屬性定位,實現(xiàn)社交網(wǎng)絡(luò)用戶身份識別。
針對傳統(tǒng)的社交網(wǎng)絡(luò)用戶身份識別方法存在召回率較低、識別率較差等問題,設(shè)計并提出基于偏好邏輯的社交網(wǎng)絡(luò)用戶身份識別方法。仿真結(jié)果表明:
1)應用偏好邏輯系統(tǒng)對社交網(wǎng)絡(luò)用戶進行偏好處理,同時通過種子節(jié)點周圍的信息,采用邏輯回歸模型,建立網(wǎng)絡(luò)好友關(guān)系即形成跨網(wǎng)絡(luò)多用戶集合,實現(xiàn)社交網(wǎng)絡(luò)用戶身份聯(lián)系網(wǎng);在此過程中,識別率得到明顯提升。
2)對用戶信息屬性信息以及周圍的環(huán)境信息不斷識別,并建立新的鏈接,實現(xiàn)網(wǎng)絡(luò)用戶關(guān)系推算,為用戶識別打下基礎(chǔ),用戶識別速度提高,識別時間最少為10.25min,識別效率增強。
3)將新的匹配用戶作為種子節(jié)點放置到集合中,以鏈接節(jié)點的多次迭代形成與網(wǎng)路用戶身份信息點的擬合,實現(xiàn)社交網(wǎng)絡(luò)用戶身份識別。
本文方法可獲取較為滿意的識別結(jié)果,希望能夠應用到實際網(wǎng)絡(luò)用戶識別中。并在未來不斷的擴展研究維度,彌補不足。