李夢(mèng)潔,邵 曦
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
微博模仿了人類社會(huì)的結(jié)構(gòu),將用戶組織成完整的社會(huì)網(wǎng)絡(luò),實(shí)現(xiàn)了用戶的個(gè)性化信息發(fā)布、社會(huì)性傳播和一些私人或公開的社交的需求。在自媒體時(shí)代,用戶不再僅僅是信息的接受者,也是信息的發(fā)布者,信息在用戶的社交行為中發(fā)生了由點(diǎn)到面的爆炸式傳播[1]。
微博用戶的興趣可以體現(xiàn)在用戶關(guān)系中[2],但是由于微博的用戶量巨大,往往擁有數(shù)以億計(jì)的用戶節(jié)點(diǎn)。2017年5月份的微博官網(wǎng)數(shù)據(jù)顯示,微博活躍用戶達(dá)到3.4億,已超過Twitter的3.28億。在如此大的數(shù)據(jù)量下,用戶在建立自己的社會(huì)關(guān)系時(shí),將面臨數(shù)據(jù)超載的問題。因此,幫助用戶在茫茫人海中找到他們可能感興趣的人是非常重要的。所以,相似用戶的研究在好友推薦、用戶聚類、社區(qū)發(fā)現(xiàn)、熱點(diǎn)預(yù)測(cè)和輿論引導(dǎo)等方面都有重要的意義[3-4]。
與在現(xiàn)實(shí)中的交友類似:新的陌生環(huán)境中,人往往會(huì)對(duì)與自己相似的人產(chǎn)生興趣。譬如,在新班級(jí)中會(huì)先認(rèn)識(shí)老鄉(xiāng);在新單位中會(huì)與有相同興趣愛好的人產(chǎn)生共同話題等。
文中就利用了微博用戶的部分背景信息,以及發(fā)送微博和轉(zhuǎn)發(fā)微博等社交行為,針對(duì)不同的屬性數(shù)據(jù)采用不同的計(jì)算方式,構(gòu)建綜合相似度計(jì)算模型,計(jì)算、篩選出與該用戶最相似的用戶列表。
以往的一些相似度計(jì)算方法需要轉(zhuǎn)換數(shù)據(jù),并對(duì)數(shù)據(jù)歸一后進(jìn)行計(jì)算[5],但微博用戶的描述不僅需要用戶本身的背景信息,更需要注意用戶的社交行為,簡(jiǎn)單地轉(zhuǎn)換數(shù)據(jù)類型和計(jì)算不能準(zhǔn)確合理地評(píng)價(jià)用戶,在轉(zhuǎn)換過程中也會(huì)導(dǎo)致大量的數(shù)據(jù)丟失。
基于微博的相似度計(jì)算研究可以分為三類:
(1)Krishnamurthy[6]通過Twitter中關(guān)注(following)與被關(guān)注的關(guān)系將用戶分成三類,基于用戶關(guān)系構(gòu)建網(wǎng)絡(luò)拓?fù)?,算法的核心思想是用戶之間的關(guān)注關(guān)系,而不考慮用戶自己的背景信息;
(2)用戶之間的共同鄰居數(shù)量作為相似度計(jì)算標(biāo)準(zhǔn),即用戶之間的共同好友越多,用戶之間的相似度越高。CN(common neighbors)模型[7]、Cosine相似度模型以及Jaccard相似度模型、Hub Promoted(HP)相似度模型、HD相似度模型等[8]屬于這類方法。上述方法將用戶間的共同好友數(shù)量占自身好友數(shù)量的比例作為相似度的度量。但這些方法沒有考慮用戶自己的信息對(duì)相似度計(jì)算的影響;
(3)徐志明等[9]對(duì)微博的相似性進(jìn)行研究,將微博社會(huì)網(wǎng)絡(luò)視為一個(gè)加權(quán)無向圖,該文將用戶關(guān)系強(qiáng)度定義為用戶之間的相似度,分別給出了基于各種用戶屬性信息的用戶相似度計(jì)算方法。該算法沒有考慮用戶的性別、年齡和興趣點(diǎn),也沒有綜合考慮用戶的基本信息和交互信息。
根據(jù)獲取到的新浪微博的用戶數(shù)據(jù),分析用戶的各種屬性信息,根據(jù)屬性的數(shù)據(jù)結(jié)構(gòu),用不同方法來具體計(jì)算各個(gè)相似度,根據(jù)獲取的數(shù)據(jù)屬性所占比例、屬性分布情況等確定各個(gè)屬性的權(quán)值,最后對(duì)各個(gè)相似度求出加權(quán)均值得出用戶總的相似度。
文中相似度主要?jiǎng)澐譃閮蓚€(gè)角度:背景相似和興趣相似(如圖1所示)。這兩種角度的相似相輔相成,并存在相互影響,甚至相互轉(zhuǎn)化的關(guān)系[10]。
背景相似度主要是指與社交活動(dòng)無關(guān)的用戶自身?xiàng)l件,如用戶所在地理位置,使用設(shè)備,習(xí)慣的活動(dòng)時(shí)間,以及性別、工作信息、教育信息等。
圖1 用戶相似度模型
2.1.1 地點(diǎn)相似度
用戶所在地是微博客戶端中每個(gè)用戶主頁的第一條信息,是每個(gè)用戶給人的第一印象。用戶所在地是用戶在申請(qǐng)賬號(hào)時(shí)所填寫的用戶所在的地理位置,海外用戶精確到國家,國內(nèi)用戶精確到省市,直轄市用戶精確到區(qū)。
人們本能地親近于與自己處在同一地域的人,在心理學(xué)上,這稱為地域文化心理。表現(xiàn)為對(duì)自己的地域及地域基礎(chǔ)上生活的人有一種本能的親近心理。同一所在地的用戶,往往對(duì)政治、經(jīng)濟(jì)、歷史等有著相似的關(guān)注點(diǎn)和見解,所以由用戶所在地計(jì)算出的用戶地點(diǎn)相似度,是用戶相似度的重要組成部分。
用D(Ux,Uy)表示兩用戶之間的距離,其中Dactual表示兩用戶的實(shí)際空間距離,由用戶填寫的所在地對(duì)應(yīng)到點(diǎn)的經(jīng)緯度,根據(jù)兩個(gè)經(jīng)緯度點(diǎn)計(jì)算出兩點(diǎn)之間的距離,其中用到Haversine公式。
cos(φ1)cos(φ2)haversin(Δλ)
(1)
(2)
其中,R表示地球半徑,可取平均值6 371 km;φ1,φ2表示兩點(diǎn)的緯度;Δλ表示兩點(diǎn)經(jīng)度的差值。
用Dextra表示不同行政區(qū)用戶之間存在的附加距離,這一附加距離既不能完全否定距離相近的用戶的相似性,又要體現(xiàn)不同行政區(qū)域內(nèi)的用戶之間的差異。取Dcountry為國內(nèi)兩用戶距離的均值,以區(qū)分國內(nèi)用戶和海外用戶。取Dprovince為同省兩用戶的平均距離,以保證實(shí)際距離相同時(shí),同省的用戶更加具有相似性這一事實(shí)。得出的距離D(Ux,Uy)需要用一個(gè)定義在0到正無窮的減函數(shù)進(jìn)行歸一化,從而計(jì)算出地點(diǎn)相似度Simd(Ux,Uy)。
D(Ux,Uy)=Dactual+Dextra
(3)
(4)
2.1.2 設(shè)備相似度
由微博官方提供的數(shù)據(jù)顯示,截至2017年3月底,移動(dòng)端月活躍用戶占比已提升至91%?,F(xiàn)如今,智能手機(jī)和平板電腦已經(jīng)成為人們?nèi)粘I畹闹匾M成部分。微博客戶端中會(huì)顯示每條微博的來源,包括發(fā)送微博的使用設(shè)備,或由站外的哪個(gè)應(yīng)用所發(fā)送。使用的設(shè)備能體現(xiàn)出該用戶的上網(wǎng)習(xí)慣,并能從一方面體現(xiàn)出該用戶對(duì)電子設(shè)備的選擇傾向以及購買力;站外來源也能反映出該用戶最近使用的應(yīng)用。擁有相同來源的用戶,必然比使用不同來源的用戶更加具有相似度。定義設(shè)備相似度為Sime(Ux,Uy),擁有相同來源的用戶,在設(shè)備這一維度的相似度為1,否則為0。
(5)
2.1.3 時(shí)間相似度
用戶發(fā)微博的時(shí)間習(xí)慣常常被忽略,其實(shí)這也是能反映用戶信息的。用戶會(huì)選擇工作學(xué)習(xí)的休息時(shí)間使用微博,并且大多數(shù)微博用戶都有睡前看微博的習(xí)慣。所以微博的發(fā)送時(shí)間,能部分體現(xiàn)出用戶的作息時(shí)間。使用兩用戶發(fā)微博的時(shí)間差T(Ux,Uy)來衡量時(shí)間相似度Simt(Ux,Uy)。時(shí)間差越大,相似度越小,需要使用合適的減函數(shù)來歸一化時(shí)間差。經(jīng)過測(cè)試,考慮到時(shí)間差最大為24小時(shí),而當(dāng)時(shí)間差過大,則不具備區(qū)分度。當(dāng)時(shí)間差大于3小時(shí),相似度小于0.5,使用指數(shù)函數(shù)來歸一化該相似度,取底數(shù)為0.75。
Simt(Ux,Uy)=0.75T(Ux,Uy)
(6)
考慮到性別、教育水平填寫不完善,不能區(qū)分出用戶的興趣點(diǎn)。在實(shí)驗(yàn)調(diào)查中,大于50%的用戶都沒有填寫教育工作信息,所以暫不考慮這幾個(gè)屬性。
在微博這個(gè)社交平臺(tái)中,用戶的興趣點(diǎn)體現(xiàn)在其社交行為上。越相似的兩個(gè)用戶,就會(huì)擁有越多相似的社交行為。
2.2.1 文本相似度
微博文本信息數(shù)據(jù)量龐大,用戶在瀏覽這些信息的同時(shí),需要花大量的時(shí)間和精力來對(duì)其進(jìn)行篩選和辨別。而用戶發(fā)出的文本信息,是所有社交行為中最主觀最直接的信息輸出,是體現(xiàn)用戶個(gè)性以及興趣點(diǎn)的最重要部分。所以在對(duì)相似用戶的研究中,需要著重研究該部分的相似度,文本相似度模型如圖2所示。
圖2 文本相似度模型
(1)預(yù)處理。
預(yù)處理中需要對(duì)微博文本進(jìn)行噪聲處理。過濾微博文本中無意義的“@用戶名”或網(wǎng)址,或者發(fā)自某應(yīng)用等。這些信息是在發(fā)微博的過程中自動(dòng)生成的,而非用戶主觀輸出。
(2)分詞及去停用詞。
分詞后利用完善的停用詞表對(duì)文檔去除停用詞,去除一些不包含有用信息的符號(hào)、數(shù)字、語氣詞、轉(zhuǎn)折詞以及使用頻率特高的單漢字等。將這些詞過濾掉,減少了索引量,增加了檢索效率,并且通常都會(huì)提高檢索的效果。
(3)TF-IDF變換。
TF-IDF(term frequency-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。IDF指“逆向文件頻率”,將用詞頻向量中的詞頻,變換為詞的重要性。該方法評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。其實(shí)在文本信息的提取中,高頻詞區(qū)分能力較小,而低頻詞也常??梢宰鳛殛P(guān)鍵特征詞,所以并不是高詞頻就是主題詞。在TF-IDF變換中,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降,這樣能全面體現(xiàn)一句話中每個(gè)詞的地位[11-12]。
(4)余弦相似度。
余弦相似度是一種非常有用的算法,只要是計(jì)算兩個(gè)向量的相似程度,都可以采用。假定A和B是兩個(gè)n維向量,A是[A1,A2,…,An],B是[B1,B2,…,Bn],則A與B的夾角θ的余弦等于:
(7)
余弦值越接近1,就表明夾角越接近0°,也就是兩個(gè)向量越相似,這就叫“余弦相似性”。當(dāng)兩個(gè)文本的TF-IDF向量夾角越小,則表示這兩個(gè)文本越相似。用余弦相似度來表示文本相似度Simw(Ux,Uy)[13-14]。
2.2.2 關(guān)系相似度
關(guān)注同一用戶、擁有相同的粉絲都能表現(xiàn)出兩用戶興趣點(diǎn)的相似。微博中兩個(gè)用戶之間的關(guān)系分為單向關(guān)注或者雙向關(guān)注,雙向關(guān)注即為好友關(guān)系。文中關(guān)系相似度分為兩個(gè)方面:
(1)用戶x與用戶y的共同關(guān)注比例,兩用戶共同關(guān)注的人越多,占據(jù)關(guān)注總數(shù)的比例越高,則兩用戶的關(guān)注相似度就越高。設(shè)用戶x的關(guān)注列表為Fx,其數(shù)量為num(Fx),則相似度為:
(8)
(2)用戶x與用戶y是否為相互關(guān)注,即x∈Fy且y∈Fx,則用戶x與y為好友。
(9)
兩種關(guān)系相似度能共同體現(xiàn)出用戶之間的社交關(guān)系[15]。
2.2.3 轉(zhuǎn)發(fā)相似度
對(duì)同樣的微博內(nèi)容進(jìn)行轉(zhuǎn)發(fā)操作,代表著對(duì)同一條信息的密切關(guān)注,并且對(duì)這一條信息進(jìn)行了再次傳播,這樣關(guān)注了該用戶的人也能看到這一信息,轉(zhuǎn)發(fā)是微博中的重要社交行為。若兩用戶之間發(fā)生多次轉(zhuǎn)發(fā),則這兩個(gè)用戶一定有著非常密切的聯(lián)系。文中用正切三角函數(shù)tanh對(duì)轉(zhuǎn)發(fā)次數(shù)rcount進(jìn)行歸一化,得到轉(zhuǎn)發(fā)相似度Simf(Ux,Uy) 。
Simf(Ux,Uy)=tanh(rcount)
(10)
其中,用tanh(count)把次數(shù)轉(zhuǎn)換為0到1的相似度。
對(duì)于已經(jīng)得到的背景相似度Simb(Ux,Uy)和興趣相似度Simi(Ux,Uy),需要進(jìn)一步求和處理才能得到最終的用戶相似度。其中背景相似度由地點(diǎn)相似度、設(shè)備相似度以及時(shí)間相似度決定,而興趣相似度由文本相似度、關(guān)系相似度、轉(zhuǎn)發(fā)相似度決定。各個(gè)相似度屬性均已歸一化處理,使之取值在區(qū)間[0,1]上。
其中各個(gè)相似度屬性明顯具有不同的地位,簡(jiǎn)單的加和求均值不能全面準(zhǔn)確地描述兩用戶之間的相似度。所以需要選擇合適的方法,給各個(gè)相似度分配合理的權(quán)重w1,w2,w3…,計(jì)算后得到最終的用戶相似度Sim(Ux,Uy)。
Sim(Ux,Uy)=wbSimb(Ux,Uy)+wiSimi(Ux,Uy)=
w1Siml(Ux,Uy)+w2Sime(Ux,Uy)+
w3Simt(Ux,Uy)+w4Simw(Ux,Uy)+
w5Simr(Ux,Uy)+w6Simf(Ux,Uy)
(11)
由于有六個(gè)相似度參數(shù),簡(jiǎn)單粗糙地給權(quán)重賦值[16]往往不甚合理,此時(shí)需要使用層次分析法。層次分析法能夠?qū)⒁粋€(gè)復(fù)雜的問題分解為各個(gè)組成因素,并將這些因素按支配關(guān)系分組,從而形成一個(gè)有序的遞階層次結(jié)構(gòu),通過兩兩比較的方式來確定層次中的各個(gè)因素的重要性,生成判別矩陣,從而計(jì)算出各屬性對(duì)影響決策所占的比重,即權(quán)值。定義判斷矩陣An×n:
(12)
采用新浪微博及其API接口、Pycharm、Mysql作為數(shù)據(jù)的獲取、統(tǒng)計(jì)以及屬性權(quán)值、相似度計(jì)算工具。數(shù)據(jù)集包括63 641個(gè)新浪微博用戶的基本信息和這些用戶之間的1 391 718條好友關(guān)系,以及這些用戶發(fā)出的84 168條微博和微博之間的27 759條轉(zhuǎn)發(fā)關(guān)系。用戶信息中包括了3 192個(gè)海外用戶,60 449個(gè)國內(nèi)用戶。
在相似度計(jì)算中,對(duì)微博文本進(jìn)行預(yù)處理、分詞、過濾停用詞等操作,經(jīng)過TF-IDF變換后進(jìn)行文本相似度計(jì)算。以ID為2609400635的用戶微博為例,對(duì)文本進(jìn)行處理。
預(yù)處理可以去除微博文本中“@某用戶”、網(wǎng)址、表情符號(hào)等內(nèi)容。在表1中的兩個(gè)表情“[饞嘴]”、“[抓狂]”被過濾掉。分詞后的結(jié)果內(nèi)容較多,如“了”、“呀”、“馬上”這些詞,出現(xiàn)頻率很高但沒有實(shí)際意義,作為停用詞被剔除后可以提高后續(xù)TF-IDF處理的效率。
在做TF-IDF變換之前需要生成構(gòu)造詞典,構(gòu)造詞典中為每個(gè)詞組編號(hào),便于后續(xù)數(shù)字化的向量處理。該實(shí)驗(yàn)中的構(gòu)造詞典中包含了132 827個(gè)詞組,在上述微博文本的例子中用到的詞組及其對(duì)應(yīng)編號(hào)有:149:我要,411:一個(gè)月,7073:復(fù)習(xí),13955:看書,18714:中考,40216:勞逸結(jié)合,41616:真累。生成語料庫,轉(zhuǎn)換為詞頻向量方便處理。在TF-IDF變換中,將詞頻向量中的詞頻轉(zhuǎn)換為詞的重要性,詞組的重要性隨著詞頻成正比增加,同時(shí)也隨著它在語料庫中出現(xiàn)的頻率成反比下降。
表1 文本處理
經(jīng)過以上處理后比較余弦相似度,文本A:“還有一個(gè)月就要中考了,最近復(fù)習(xí)真累呀,所以我要?jiǎng)谝萁Y(jié)合下,馬上又要看書了!”;文本B:“寧愿看韓劇也不想看書”;文本C:“故事由此開始...Lin,林書豪,林瘋狂,我要瘋狂~閃電突破!”。經(jīng)比較后,文本AB的相似度為0.263 104,文本AC的相似度為0.079 880 9。顯然,文本A與文本B都是在討論看書與否,而與C無關(guān)。
文中使用層次分析法計(jì)算各個(gè)相似度的屬性的權(quán)重,由式12得:
微博用戶背景相似度與興趣相似度的判斷矩陣分別為:
地點(diǎn) 設(shè)備 時(shí)間
文本 關(guān)系 轉(zhuǎn)發(fā)
背景相似度與興趣相似度之間的判斷矩陣為:
文本 關(guān)系
Saaty等建議用對(duì)應(yīng)于最大特征根的特征向量作為權(quán)向量,得到各個(gè)相似度的權(quán)重,見表2。
表2 權(quán)值分配
文中采用準(zhǔn)確率(Precision) 、召回率(Recall)、F1度量值(F1-measure)作為實(shí)驗(yàn)結(jié)果的評(píng)估指標(biāo)。以用戶關(guān)注的公眾號(hào)話題信息以及微博的主題標(biāo)簽為相似用戶的標(biāo)準(zhǔn)答案,比較基于文本相似度的算法與不使用文本相似度的算法之間的指標(biāo)差別。
按表2中的權(quán)值計(jì)算基于文本相似度和未考慮文本相似度的用戶相似度。分別計(jì)算后,取相似度最大的N%用戶作為相似用戶的計(jì)算結(jié)果,比較不同N值下的準(zhǔn)確率、召回率和F1度量值。
準(zhǔn)確率是提取出的正確相似用戶個(gè)數(shù)Nc與提取出的用戶數(shù)Nt的比值,該值越大,準(zhǔn)確率越高。計(jì)算方法如下:
(13)
召回率是提取出的正確相似用戶個(gè)數(shù)Nc與所有正確相似用戶個(gè)數(shù)Nts的比值,比值大的結(jié)果更優(yōu)越。計(jì)算方法如下:
(14)
兩者取值在0和1之間,數(shù)值越接近1,查準(zhǔn)率或查全率就越高。
F1度量值是綜合準(zhǔn)確率和召回率的評(píng)估指標(biāo),即為準(zhǔn)確率和召回率的調(diào)和平均值。該度量值越大,該方法的結(jié)果越準(zhǔn)確。計(jì)算方法如下:
(15)
各指標(biāo)計(jì)算結(jié)果如圖3所示。
圖3的結(jié)果體現(xiàn)了基于文本相似性的相似用戶計(jì)算方法的優(yōu)越性。當(dāng)然,希望檢索結(jié)果Precision越高越好,同時(shí)Recall也越高越好,但事實(shí)上這兩者在某些情況下是有矛盾的,而F1值則是綜合這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。如圖3(c)所示,當(dāng)N%取50%時(shí),未結(jié)合文本的相似度算法的F1值為0.306,而基于文本屬性的相似用戶計(jì)算方法取得的F1值達(dá)到了0.411,提高了34.3%。
圖3 兩種算法對(duì)比
提出了一種基于文本屬性的相似用戶計(jì)算方法。簡(jiǎn)單概括了相似度計(jì)算的相關(guān)研究;接著分析介紹了文中用到的用戶屬性相似度模型,對(duì)各個(gè)屬性做了一一分析,重點(diǎn)分析了文本相似度計(jì)算方法,其中的分詞過程和TF-IDF變換都是計(jì)算文本相似度的重要部分,用余弦相似度衡量了微博中的文本相似度。為了更好地衡量微博用戶的興趣相似度,又對(duì)微博的轉(zhuǎn)發(fā)與用戶好友關(guān)系加以充分利用。最后用層次分析法確定各個(gè)參數(shù)的權(quán)重,因此從多個(gè)角度,更為全面、準(zhǔn)確地衡量了微博用戶之間的相似性。用F1度量值對(duì)結(jié)果進(jìn)行了評(píng)價(jià),結(jié)果表明,基于文本屬性的微博相似用戶的計(jì)算方法提高了算法的準(zhǔn)確度。同時(shí),該方法也存在一定的局限,即未能用動(dòng)態(tài)數(shù)據(jù)進(jìn)行測(cè)試,若以用戶最新的微博文本來計(jì)算用戶的相似度,會(huì)在好友推薦、用戶聚類、熱點(diǎn)預(yù)測(cè)中有更好的效果。
參考文獻(xiàn):
[1] 王連喜,蔣盛益,龐觀松,等.微博用戶關(guān)系挖掘研究綜述
[J].情報(bào)雜志,2012,31(12):91-97.
[2] 張俊豪,顧益軍,張士豪.基于距離模型的用戶關(guān)系強(qiáng)度評(píng)估[J].信息網(wǎng)絡(luò)安全,2015(10):86-91.
[3] 謝耘耕,徐 穎.微博的歷史、現(xiàn)狀與發(fā)展趨勢(shì)[J].現(xiàn)代傳播:中國傳媒大學(xué)學(xué)報(bào),2011(4):75-80.
[4] LIAO Yang,MOSHTAGHI M,HAN Bo,et al.Mining micro-blogs:opportunities and challenges[M]//Performance evaluation of social network using data mining techniques.London:Springer,2012:129-159.
[5] 郭金玉,張忠彬,孫慶云.層次分析法的研究與應(yīng)用[J].中國安全科學(xué)學(xué)報(bào),2008,18(5):148-153.
[6] KRISHNAMURTHY B,GILL P,ARLITT M.A few chirps about Twitter[C]//Proceedings of the first workshop on online social networks.Seattle,WA,USA:ACM,2008:19-24.
[7] 逯 鵬,張姍姍,高慶一.基于共同鄰居的點(diǎn)權(quán)有限BBV模型研究[J].計(jì)算機(jī)科學(xué),2014,41(4):49-52.
[8] 秦宏宇.網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2010.
[9] 徐志明,李 棟,劉 挺,等.微博用戶的相似性度量及其應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):207-218.
[10] 喬秀全,楊 春,李曉峰,等.社交網(wǎng)絡(luò)服務(wù)中一種基于用戶上下文的信任度計(jì)算方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(12):2403-2413.
[11] 王振振,何 明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013,40(12):229-232.
[12] 陳 攀,楊 浩,呂 品,等.基于LDA模型的文本相似度研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(4):82-85.
[13] 黃賢英,陳紅陽,劉英濤.短文本相似度研究及其在微博話題檢測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(11):3128-3133.
[14] SHARIFIB M,HUTTON A,KALITAJ K.Automatic microblog classification and summarization[C]//Proceedings of human language technologies:conference of the North American chapter of the association of computational linguistics.Stroudsburg:Association for Computational Linguistics,2010:685-688.
[15] YIN Dawei,HONG Liangjie,DAVISON B D.Structural link analysis and prediction in microblogs[C]//ACM conference on information and knowledge management.Glasgow,United Kingdom:ACM,2011:1163-1168.
[16] SONG Dezhao,HEFLIN J.Domain-independent entity conference in RDF graphs[C]//Proceedings of the 19th ACM international conference on Information and knowledge management.Toronto,Ontario,Canada:ACM,2010:1821-1824.
[17] 鄭志蘊(yùn),賈春園,王振飛,等.基于微博的用戶相似度計(jì)算研究[J].計(jì)算機(jī)科學(xué),2017,44(2):262-266.