• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模塊化聚類的標(biāo)簽彈性推薦

      2018-05-15 10:17:06徐漢青滕廣青王東艷韓尚軒
      現(xiàn)代情報(bào) 2018年4期

      徐漢青 滕廣青 王東艷 韓尚軒

      〔摘 要〕[目的/意義]社會(huì)化標(biāo)注系統(tǒng)為用戶檢索提供便利的同時(shí)也面臨一些困擾,標(biāo)簽推薦研究有助于解決資源檢索中精確度與召回率之間的兩難抉擇。[過(guò)程/方法]借助網(wǎng)絡(luò)科學(xué)的理論與方法,通過(guò)對(duì)標(biāo)簽網(wǎng)絡(luò)的模塊化聚類處理獲得主題聚類,采用度數(shù)中心度對(duì)主題聚類內(nèi)部標(biāo)簽進(jìn)行排名,根據(jù)特定規(guī)則選取Top-N標(biāo)簽數(shù)量。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果顯示,研究中提出的模塊化Top-N標(biāo)簽推薦方法,具有可逐層細(xì)化的精確度和良好的召回率。該方法的彈性機(jī)制可為不同的檢索要求提供差異化服務(wù)。

      〔關(guān)鍵詞〕社會(huì)化標(biāo)注;標(biāo)簽推薦;模塊化聚類;標(biāo)簽排序

      DOI:10.3969/j.issn.1008-0821.2018.04.008

      〔中圖分類號(hào)〕G254.97 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2018)04-0058-07

      〔Abstract〕[Purpose/Significance]Social tagging system is also facing some inconvenience while facilitating the retrieval of users.Tag recommendation research can help solve the dilemma between the accuracy and the recall rate in resource retrieval.[Process/Method]With the theory and method of network science,the topic clusters were obtained through the modularity clustering on tag network,the degree centrality was used to rank the tags in the topic clusters,the numbers of the Top-N tags were selected according to a specific rule.[Results/Conclusions]The experimental results showed that the modularity Top-N tag recommendation method had the accuracy of level-by-level refinement and the good recall rate.The flexible mechanism of this method could provide differentiated services for different retrieval requirements.

      〔Key words〕social tagging;tag recommendation;modularity clustering;tag rank

      Web2.0環(huán)境下,網(wǎng)絡(luò)用戶不僅是信息的接受者,同時(shí)也成為信息的組織者與架構(gòu)者。文獻(xiàn)網(wǎng)站、社交網(wǎng)站、圖片網(wǎng)站、音樂(lè)網(wǎng)站等各種類型的網(wǎng)站紛紛采用社會(huì)化標(biāo)注資源組織模式,允許并鼓勵(lì)用戶對(duì)網(wǎng)絡(luò)資源進(jìn)行標(biāo)注,并根據(jù)標(biāo)簽向用戶提供檢索服務(wù),從而使得社會(huì)化標(biāo)注系統(tǒng)在互聯(lián)網(wǎng)上迅速蔓延。與此同時(shí),廣大用戶在享受社會(huì)化標(biāo)注系統(tǒng)所帶來(lái)的福利的同時(shí),不得不面對(duì)其平層結(jié)構(gòu)在資源檢索中所造成的困擾。因此,以資源精確定位和有效覆蓋為目的的社會(huì)化標(biāo)注系統(tǒng)中的標(biāo)簽推薦研究引起了學(xué)術(shù)界的關(guān)注,并嘗試建立多種推薦方法以滿足上述目標(biāo)及要求。

      本研究采用網(wǎng)絡(luò)科學(xué)的理論和方法,基于標(biāo)簽之間的關(guān)聯(lián)關(guān)系構(gòu)建標(biāo)簽網(wǎng)絡(luò)。結(jié)合網(wǎng)絡(luò)模塊化聚類和中心度排序,生成主題聚類并提取不同主題聚類中的推薦標(biāo)簽。同時(shí)對(duì)該方法的彈性機(jī)制與資源覆蓋率進(jìn)行了解析與測(cè)度,以期建立一種能夠適應(yīng)不同檢索需求的具有可調(diào)整性的彈性標(biāo)簽推薦方法。

      1 研究工作綜述

      社會(huì)化標(biāo)注系統(tǒng)中的相關(guān)資源都被賦予了不同的用戶標(biāo)簽,通過(guò)標(biāo)簽?zāi)軌蛑苯右龑?dǎo)用戶直接到達(dá)資源層。盡管檢索行為的最終標(biāo)的物是目標(biāo)資源,但是真正起到推薦作用的則是各類標(biāo)簽,而且其中的標(biāo)簽來(lái)源于用戶的標(biāo)注行為,又直接面對(duì)用戶的檢索行為。因此,學(xué)術(shù)界對(duì)于借助標(biāo)簽實(shí)現(xiàn)和輔助資源檢索的標(biāo)簽推薦問(wèn)題展開(kāi)了相關(guān)研究,并在近年來(lái)取得了較為豐富的成果。

      德國(guó)學(xué)者I.Peters和W.G.Stock[1]在對(duì)標(biāo)簽網(wǎng)絡(luò)的測(cè)量中發(fā)現(xiàn)了標(biāo)簽節(jié)點(diǎn)度值的冪律分布規(guī)則,在此基礎(chǔ)上利用切斷文檔精確標(biāo)簽長(zhǎng)尾部分中的標(biāo)簽形成搜索標(biāo)簽。研究表明,搜索標(biāo)簽與一般的大眾分類和傳統(tǒng)知識(shí)組織系統(tǒng)兼容,并且可以通過(guò)長(zhǎng)尾標(biāo)簽限制點(diǎn)擊量,提高了信息檢索結(jié)果的精確度。K.Yi[2]等人通過(guò)研究發(fā)現(xiàn)資源的URL與標(biāo)簽之間在排名和頻率方面存在冪律關(guān)系。通過(guò)對(duì)網(wǎng)頁(yè)資源主題標(biāo)簽的調(diào)查顯示,主題標(biāo)簽可以被用作相同資源的同現(xiàn)網(wǎng)址的索引詞,從而能夠基于冪律分布的主題標(biāo)簽對(duì)資源推薦產(chǎn)生影響。J.J.Jung[3]采用樸素貝葉斯和支持向量機(jī)的數(shù)據(jù)挖掘方法,通過(guò)每個(gè)類目中標(biāo)簽術(shù)語(yǔ)的使用頻率對(duì)所收集的資源進(jìn)行分類。該方法應(yīng)用于標(biāo)記社交網(wǎng)絡(luò)服務(wù)上的未標(biāo)記資源,能夠提升資源獲取的廣度。J.Mao[4]及其合作者基于標(biāo)簽同現(xiàn)關(guān)系構(gòu)建標(biāo)簽網(wǎng)絡(luò),采用PageRank和HITS方法利用鏈路對(duì)節(jié)點(diǎn)加權(quán),通過(guò)將權(quán)重轉(zhuǎn)換為資源的推薦分?jǐn)?shù)的方式,將標(biāo)簽網(wǎng)絡(luò)向“標(biāo)簽——資源”網(wǎng)絡(luò)擴(kuò)展。測(cè)試結(jié)果顯示,該方法相比基于標(biāo)簽協(xié)同過(guò)濾的方法在精度和召回度方面都能夠得到改善。S.Yamamoto[5]等研究者以時(shí)間序列為基準(zhǔn),采用余弦相似度、樸素貝葉斯和TF-IDF相結(jié)合方法計(jì)算用戶和主題標(biāo)簽之間的分?jǐn)?shù),以此來(lái)發(fā)現(xiàn)具有相似興趣的用戶,并且能夠評(píng)估用戶的興趣愛(ài)好進(jìn)行推薦。M.F.Alhamid[6]等人則提出一種新的語(yǔ)境感知推薦模型,利用標(biāo)簽計(jì)算用戶對(duì)其他類似語(yǔ)境的潛在偏好,通過(guò)查找用戶語(yǔ)境以及語(yǔ)境與資源之間的相似性,確定對(duì)特定語(yǔ)境有吸引力的資源。并根據(jù)該特定用戶的語(yǔ)境映射,推薦適合用戶需求的最相關(guān)的資源。

      近年來(lái),國(guó)內(nèi)學(xué)術(shù)界也在標(biāo)簽推薦方面積累了一定的研究成果。陳麗霞和竇永香[7]等人通過(guò)構(gòu)建標(biāo)簽本體展示平層外表下的標(biāo)簽層級(jí)關(guān)系,借助標(biāo)簽本體實(shí)現(xiàn)基于標(biāo)簽語(yǔ)義關(guān)聯(lián)關(guān)系的標(biāo)簽推薦。曾子明與張振[8]基于“用戶——資源——標(biāo)簽”三元關(guān)系分別提取用戶聚類和標(biāo)簽聚類,通過(guò)每個(gè)聚類所對(duì)應(yīng)的標(biāo)簽集的相似性提供個(gè)性化推薦。該方法在召回率方面表現(xiàn)出一定的優(yōu)勢(shì)。張亮[9]則采用LDA主題模型抽取文獻(xiàn)資源中的內(nèi)容特征和關(guān)鍵標(biāo)簽,并據(jù)此構(gòu)建標(biāo)簽推薦模型。測(cè)試結(jié)果顯示,該模型在準(zhǔn)確率、召回率等方面均有較好的表現(xiàn)。熊回香和楊雪萍[10]采用K-means等多種方法分別進(jìn)行資源聚類、用戶聚類和標(biāo)簽聚類,通過(guò)對(duì)3種聚類結(jié)果的分析,總結(jié)出單一視角下標(biāo)簽推薦的局限性,進(jìn)而提出了資源重組加維度結(jié)合的標(biāo)簽推薦方法。武慧娟[11]等人在以往靜態(tài)分析的基礎(chǔ)上,嘗試將標(biāo)簽推薦的過(guò)程和行為因素引入推薦模型,并基于網(wǎng)絡(luò)分析的方法對(duì)聚類內(nèi)部和聚類之間的偏好信息進(jìn)行了分析。此外,國(guó)內(nèi)學(xué)者在基于用戶認(rèn)知的標(biāo)簽推薦[12]以及基于文本挖掘的標(biāo)簽推薦[13]等方面也取得了相應(yīng)的進(jìn)展。

      綜上所述,隨著Web2.0環(huán)境下網(wǎng)民用戶參與度的不斷提高,社會(huì)化標(biāo)注系統(tǒng)中標(biāo)簽推薦的相關(guān)研究已經(jīng)成為學(xué)術(shù)界的研究熱點(diǎn)。領(lǐng)域本體、網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、語(yǔ)義認(rèn)知等學(xué)科領(lǐng)域的理論與方法紛紛融入到標(biāo)簽推薦研究中。然而,任何一種標(biāo)簽推薦方法在面臨實(shí)際檢索任務(wù)的需求差異時(shí),都難以避免地在精確度與召回率之間面臨兩難的選擇。因此,有必要通過(guò)構(gòu)建具有彈性的標(biāo)簽推薦方法,以適應(yīng)實(shí)際檢索任務(wù)的不同需求。有鑒于此,本研究采用網(wǎng)絡(luò)科學(xué)的思維與方法,基于標(biāo)簽網(wǎng)絡(luò)的模塊化聚類方法生成主題聚類,采用度數(shù)中心度對(duì)主題聚類內(nèi)部標(biāo)簽進(jìn)行排序,并以改進(jìn)后的普賴斯方法按特定比重選取不同主題聚類中的推薦標(biāo)簽數(shù)量,嘗試建立一種可根據(jù)具體檢索需求進(jìn)行調(diào)整的、具有彈性的標(biāo)簽推薦方法。

      2 相關(guān)理論框架

      2.1 社會(huì)化標(biāo)注

      2.2 社會(huì)網(wǎng)絡(luò)分析

      社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis)[15]也被稱為網(wǎng)絡(luò)分析、結(jié)構(gòu)分析。是相關(guān)學(xué)者主要利用圖論、矩陣代數(shù)、概率統(tǒng)計(jì)、計(jì)算機(jī)編程等方法所形成的定量分析方法。近年來(lái),社會(huì)網(wǎng)絡(luò)分析憑借其在結(jié)構(gòu)關(guān)系揭示方面的優(yōu)勢(shì),已經(jīng)被引入到圖書(shū)情報(bào)學(xué)領(lǐng)域的諸多信息分析研究中,并得到了學(xué)術(shù)界的普遍認(rèn)可。本研究中,將首先構(gòu)建標(biāo)簽網(wǎng)絡(luò),在此基礎(chǔ)上主要將社會(huì)網(wǎng)絡(luò)分析中基于模塊度(Modularity)[16]的聚類方法和度數(shù)中心度(Degree Centrality)[17]方法相結(jié)合用于標(biāo)簽推薦。模塊度是近年來(lái)常用的衡量群簇聚類質(zhì)量的標(biāo)準(zhǔn),采用該方法能夠識(shí)別出標(biāo)簽網(wǎng)絡(luò)中具有高聚類質(zhì)量的主題群簇,為用戶的檢索行為帶來(lái)極大的便利。度數(shù)中心度則能夠識(shí)別網(wǎng)絡(luò)關(guān)系中處于核心地位的標(biāo)簽節(jié)點(diǎn),基于度數(shù)中心度對(duì)主題聚類中的標(biāo)簽進(jìn)行排序,能夠獲得關(guān)系地位處于核心位置的標(biāo)簽,而不是以往標(biāo)簽集合中使用頻次最高的標(biāo)簽。因此,兩種社會(huì)網(wǎng)絡(luò)分析方法的引入,不但體現(xiàn)了本研究中標(biāo)簽推薦方法的創(chuàng)新性,而且將標(biāo)簽推薦從外在表象的使用頻次推進(jìn)到本質(zhì)內(nèi)含的關(guān)聯(lián)程度,進(jìn)而實(shí)現(xiàn)標(biāo)簽的彈性化推薦。

      3 研究方法

      3.1 研究數(shù)據(jù)

      本文以citeUlike網(wǎng)站為基礎(chǔ)數(shù)據(jù)源,該網(wǎng)站提供社會(huì)化標(biāo)注系統(tǒng)組織與架構(gòu)知識(shí)資源,允許用戶組織、標(biāo)注、分享學(xué)術(shù)文獻(xiàn)資源。研究中以“Social Network”為檢索詞,采用自主研發(fā)的爬蟲(chóng)工具,抓取相關(guān)文獻(xiàn)資源及其標(biāo)簽作為原始數(shù)據(jù)集。共獲得文獻(xiàn)資源1 001篇,相關(guān)標(biāo)簽3 496個(gè)。表1為對(duì)原始數(shù)據(jù)集中文獻(xiàn)資源擁有標(biāo)簽情況的統(tǒng)計(jì)結(jié)果。

      表1中的數(shù)據(jù)顯示,原始數(shù)據(jù)集中有大約85%的文獻(xiàn)被網(wǎng)絡(luò)用戶進(jìn)行過(guò)標(biāo)注,大約60%的文獻(xiàn)被超過(guò)2個(gè)以上的標(biāo)簽標(biāo)注,平均每篇文獻(xiàn)被標(biāo)記的標(biāo)簽個(gè)數(shù)為3.5個(gè)。就單篇文獻(xiàn)擁有標(biāo)簽數(shù)量的平均水平來(lái)講,與單篇文獻(xiàn)擁有關(guān)鍵詞數(shù)量的平均值比較接近。

      3.2 研究流程與方法

      3.2.1 數(shù)據(jù)清洗

      由于社會(huì)化標(biāo)注行為的開(kāi)放性,原始數(shù)據(jù)集中不可避免地存在未被標(biāo)注的文獻(xiàn),以及標(biāo)注不規(guī)范的標(biāo)簽。因此在正式進(jìn)行分析之前首先需要對(duì)數(shù)據(jù)進(jìn)行清洗。研究中,首先清洗沒(méi)有標(biāo)簽或者被標(biāo)記“no-tag”標(biāo)簽的文獻(xiàn),由此得到相關(guān)文獻(xiàn)844篇。在此基礎(chǔ)上,進(jìn)一步從標(biāo)注規(guī)范性的角度出發(fā)對(duì)相關(guān)標(biāo)簽進(jìn)行清洗,包括去除符號(hào)、去除編號(hào)、詞形轉(zhuǎn)換等。主要的清洗規(guī)則如表2所示。

      清洗后的數(shù)據(jù)集包括有效文獻(xiàn)844篇,有效標(biāo)簽1 001個(gè)。在清洗后的數(shù)據(jù)基礎(chǔ)上,根據(jù)文獻(xiàn)資源與標(biāo)簽之間的對(duì)應(yīng)關(guān)系構(gòu)建標(biāo)簽網(wǎng)絡(luò)。

      3.2.2 標(biāo)簽網(wǎng)絡(luò)構(gòu)建

      首先,根據(jù)清洗后的數(shù)據(jù)確立資源與標(biāo)簽之間的隸屬關(guān)系。如果文獻(xiàn)R1擁有標(biāo)簽T1,則文獻(xiàn)R1與標(biāo)簽T1具有隸屬關(guān)系。其次,確立標(biāo)簽與標(biāo)簽之間的鄰接關(guān)系,本研究中也稱為標(biāo)簽關(guān)聯(lián)關(guān)系。如果同一篇文獻(xiàn)R1擁有標(biāo)簽T1和T2,則標(biāo)簽T1和標(biāo)簽T2具有鄰接關(guān)系(關(guān)聯(lián)關(guān)系)。隸屬關(guān)系與鄰接關(guān)系的確立如圖1所示。

      圖1中,3篇文獻(xiàn)資源(R1、R2、R3)分別被網(wǎng)絡(luò)用戶賦予4個(gè)標(biāo)簽(T1、T2、T3、T4)。文獻(xiàn)資源與標(biāo)簽之間的隸屬關(guān)系以實(shí)線表示,標(biāo)簽與標(biāo)簽之間的鄰接關(guān)系以虛線表示。其中,如果兩個(gè)標(biāo)簽共同標(biāo)注一篇文獻(xiàn),則兩個(gè)標(biāo)簽鄰接關(guān)系的頻度(關(guān)聯(lián)頻度)為1(圖1中標(biāo)簽T2和標(biāo)簽T3共同標(biāo)注過(guò)1篇文獻(xiàn)R2,故該關(guān)系頻度為1。);

      如果兩個(gè)標(biāo)簽共同標(biāo)注兩篇文獻(xiàn),則兩個(gè)標(biāo)簽鄰接關(guān)系的頻度(關(guān)聯(lián)頻度)為2(圖1中標(biāo)簽T1和標(biāo)簽T2共同標(biāo)注過(guò)2篇文獻(xiàn)R1和R2,故該關(guān)系頻度為2。),以此類推。

      根據(jù)圖1所示的隸屬關(guān)系構(gòu)建隸屬矩陣MRT。隸屬矩陣中文獻(xiàn)資源Ri與標(biāo)簽Tj如果具備隸屬關(guān)系則隸屬關(guān)系RTij取值為1,反之為0。在此基礎(chǔ)上,將隸屬矩陣MRT轉(zhuǎn)換為鄰接矩陣MTT,轉(zhuǎn)換后的矩陣為方陣。鄰接矩陣中標(biāo)簽Ti與標(biāo)簽Tj如果具備鄰接關(guān)系,則鄰接關(guān)系TTij取值為該鄰接關(guān)系的頻度值(參見(jiàn)圖1),反之取值為0。轉(zhuǎn)換過(guò)程如下所示。

      由網(wǎng)絡(luò)科學(xué)[18]的理論可知,矩陣是網(wǎng)絡(luò)的一種表現(xiàn)形式。因此,根據(jù)轉(zhuǎn)換后得到的標(biāo)簽鄰接矩陣可以生成多值標(biāo)簽網(wǎng)絡(luò)。以標(biāo)簽為網(wǎng)絡(luò)節(jié)點(diǎn),以鄰接關(guān)系(關(guān)聯(lián)關(guān)系)為網(wǎng)絡(luò)連線,生成的標(biāo)簽網(wǎng)絡(luò)中共有標(biāo)簽節(jié)點(diǎn)1 001個(gè),標(biāo)簽關(guān)聯(lián)關(guān)系連線6 731對(duì)(條)。其中,最大關(guān)聯(lián)頻度為428,最小關(guān)聯(lián)頻度為1。

      出于對(duì)用戶檢索行為支持的目的,標(biāo)簽網(wǎng)絡(luò)體現(xiàn)的關(guān)聯(lián)關(guān)系首先要具有顯著性。單一頻度的關(guān)聯(lián)關(guān)系在開(kāi)放的社會(huì)化標(biāo)注環(huán)境下不可避免地含有偶然性,因此在資源檢索中不考慮向用戶推薦。此前已經(jīng)有研究證明,基于關(guān)聯(lián)頻度提取的層次知識(shí)網(wǎng)絡(luò)不但具有更高的統(tǒng)計(jì)顯著性,而且與原始知識(shí)網(wǎng)絡(luò)相比在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及屬性特征方面具有等效性[19]。因此,進(jìn)一步以2為關(guān)聯(lián)頻度閾值,提取層次標(biāo)簽網(wǎng)絡(luò)。提取獲得的層次標(biāo)簽網(wǎng)絡(luò)顯然獲得了更高的統(tǒng)計(jì)顯著性,擁有標(biāo)簽節(jié)點(diǎn)282個(gè),標(biāo)簽關(guān)聯(lián)關(guān)系連線723條。事實(shí)上,在實(shí)際執(zhí)行當(dāng)中可以根據(jù)需求動(dòng)態(tài)調(diào)整閾值,以使層次標(biāo)簽網(wǎng)絡(luò)更具有彈性。

      3.2.3 標(biāo)簽?zāi)K化聚類

      傳統(tǒng)社會(huì)化標(biāo)注系統(tǒng)中,海量的標(biāo)簽無(wú)法通過(guò)長(zhǎng)篇累牘的標(biāo)簽列表為用戶提供有效的檢索服務(wù)。基于詞頻的標(biāo)簽云(Tag Cloud)只能根據(jù)標(biāo)簽的使用頻次提供高頻標(biāo)簽,無(wú)法展示標(biāo)簽之間的關(guān)聯(lián)關(guān)系。此前的層次標(biāo)簽網(wǎng)絡(luò)共計(jì)獲得具有顯著性的關(guān)聯(lián)標(biāo)簽282個(gè),如果不分巨細(xì)地推薦給用戶,必然對(duì)用戶的信息檢索行為造成困擾。為了能夠給用戶提供方便高效的檢索服務(wù),提供有價(jià)值的標(biāo)簽推薦,需要將文獻(xiàn)資源借助標(biāo)簽的關(guān)聯(lián)關(guān)系展現(xiàn)給用戶。研究中具體采用V.D.Blondel[20]等人提出的基于模塊度衡量的且支持層級(jí)性的聚類算法,基于標(biāo)簽關(guān)聯(lián)關(guān)系將網(wǎng)絡(luò)中的標(biāo)簽進(jìn)行模塊化聚類。具體算法如公式(1)所示。

      公式(1)中,ΔQ是標(biāo)簽i劃入模塊(聚類)M后所產(chǎn)生的收益,如果ΔQ﹥0,則該標(biāo)簽i被歸入模塊M,或者說(shuō)標(biāo)簽i分配至模塊M的效果最好?!苅n是模塊M內(nèi)部標(biāo)簽之間關(guān)聯(lián)關(guān)系的權(quán)重之和;ki,in是標(biāo)簽i與模塊M內(nèi)各標(biāo)簽關(guān)聯(lián)關(guān)系的權(quán)重之和;∑tot是模塊M內(nèi)各標(biāo)簽與其他標(biāo)簽之間的所有關(guān)聯(lián)關(guān)系(包括模塊M內(nèi)部標(biāo)簽與模塊M外部標(biāo)簽的關(guān)聯(lián)關(guān)系)的權(quán)重之和;ki是標(biāo)簽i與其他標(biāo)簽的所有關(guān)聯(lián)關(guān)系(包括模塊內(nèi)部與模塊外部)的權(quán)重之和;m是標(biāo)簽網(wǎng)絡(luò)中所有關(guān)聯(lián)關(guān)系的權(quán)重之和。采用公式(1)的算法將層次標(biāo)簽網(wǎng)絡(luò)劃分為9個(gè)模塊(聚類),如圖2所示。

      圖2中,模塊A~I(xiàn)代表著層次標(biāo)簽網(wǎng)絡(luò)中的9個(gè)主題聚類。其中標(biāo)簽“Social Network”包含在模塊E中。如果單獨(dú)向用戶推薦模塊E(同時(shí)舍棄了其他模塊)的標(biāo)簽,則包括代表社會(huì)網(wǎng)絡(luò)應(yīng)用領(lǐng)域的規(guī)模最大的模塊D也將被舍棄,檢索結(jié)果的覆蓋范圍就會(huì)萎縮,召回率則必然難以得到保證。如果向用戶推薦全部9個(gè)模塊的所有標(biāo)簽,則標(biāo)簽關(guān)聯(lián)范圍足夠廣泛,檢索精確度反而無(wú)法得到保證。因此,研究中結(jié)合覆蓋范圍與目標(biāo)靶向兩方面的因素,進(jìn)一步篩選各個(gè)模塊中最具有代表性的核心標(biāo)簽推薦給用戶。

      3.2.4 Top-N標(biāo)簽選取

      S.Brin和L.Page[21]提出的PageRank算法能夠很好地通過(guò)排序?qū)⑴c檢索標(biāo)簽關(guān)聯(lián)的Top-N標(biāo)簽向用戶推薦。但是采用PageRank算法選取Top-N標(biāo)簽時(shí),如果N取值較大,則結(jié)果范圍寬泛,會(huì)直接影響檢索的精確度。如果N取值較小,則對(duì)照標(biāo)簽的模塊化聚類可以發(fā)現(xiàn),Top-N標(biāo)簽往往只分布在幾個(gè)大規(guī)模的標(biāo)簽?zāi)K之內(nèi),削弱檢索的召回率。這樣的做法還會(huì)使得在向用戶進(jìn)行標(biāo)簽排序展示時(shí),許多小規(guī)模標(biāo)簽?zāi)K或者潛力標(biāo)簽?zāi)K被排序規(guī)則置于非??亢蟮奈恢?,甚至被“忽略”。這會(huì)造成給用戶的推薦信息中部分相關(guān)信息的缺失,這部分信息所對(duì)應(yīng)的相關(guān)文獻(xiàn)資源也會(huì)因此而沉沒(méi),從而導(dǎo)致檢索結(jié)果會(huì)出現(xiàn)局部性偏差。

      本研究考慮到對(duì)于標(biāo)簽網(wǎng)絡(luò)中形成的每個(gè)標(biāo)簽?zāi)K都應(yīng)該有一定的機(jī)會(huì)或比例展示給用戶,因此通過(guò)對(duì)每個(gè)模塊內(nèi)部標(biāo)簽基于度數(shù)中心度指標(biāo)形成標(biāo)簽?zāi)K內(nèi)部排序,提供給用戶相關(guān)的推薦信息。另一方面,完成內(nèi)部排序的標(biāo)簽?zāi)K是經(jīng)過(guò)模塊化聚類處理的具有主題代表性的標(biāo)簽集,能夠最大化地將各個(gè)主題聚類(標(biāo)簽?zāi)K)內(nèi)部處于核心地位的標(biāo)簽展現(xiàn)給用戶。通過(guò)這種方式,可以根據(jù)用戶的檢索標(biāo)簽,快速提供給用戶檢索領(lǐng)域的全部主題聚類的核心標(biāo)簽,以供用戶進(jìn)行精確檢索。通過(guò)對(duì)標(biāo)簽網(wǎng)絡(luò)中每個(gè)標(biāo)簽?zāi)K的Top-N核心標(biāo)簽的展示推薦,可以讓用戶了解到每個(gè)標(biāo)簽主題聚類(標(biāo)簽?zāi)K)的核心內(nèi)容??梢宰層脩舾奖愕亓私獾交跈z索詞生成的標(biāo)簽網(wǎng)絡(luò)中更加全面的知識(shí)內(nèi)容,以及每個(gè)標(biāo)簽?zāi)K的核心主題。研究中,具體采用標(biāo)簽節(jié)點(diǎn)的度數(shù)中心度進(jìn)行模塊內(nèi)標(biāo)簽排序。對(duì)于每個(gè)標(biāo)簽?zāi)K的Top-N范圍的確定,則通過(guò)對(duì)P.D.Allison和D.de S.Price[22]等人的方法進(jìn)行改進(jìn)來(lái)完成,具體算法如公式(2)所示。

      公式(2)中,Mi,n表示標(biāo)簽?zāi)Ki中選取的Top-N推薦標(biāo)簽數(shù)量n,k為常量表示每個(gè)標(biāo)簽?zāi)K所選擇的標(biāo)簽比例(文獻(xiàn)[30]中k值約等于0.749),Mi為每個(gè)標(biāo)簽?zāi)K內(nèi)的標(biāo)簽數(shù)量,m為層次標(biāo)簽網(wǎng)絡(luò)中全部標(biāo)簽?zāi)K的數(shù)量,N表示計(jì)劃推薦給用戶的全部標(biāo)簽?zāi)K的Top-N標(biāo)簽數(shù)量合計(jì)。公式(2)能夠適當(dāng)壓縮超大規(guī)模標(biāo)簽?zāi)K的Top-N標(biāo)簽數(shù)量,并適當(dāng)提升小規(guī)模標(biāo)簽?zāi)K的Top-N標(biāo)簽數(shù)量。采用這種方法,在合理保留大規(guī)模標(biāo)簽?zāi)KTop-N標(biāo)簽數(shù)量的情況下,有利于確保小規(guī)模標(biāo)簽?zāi)K的Top-N標(biāo)簽數(shù)量不會(huì)被大規(guī)模標(biāo)簽?zāi)K的Top-N標(biāo)簽數(shù)量完全淹沒(méi),從而使得知識(shí)資源檢索工作能夠在主題覆蓋面上更加的全面準(zhǔn)確。

      4 實(shí)驗(yàn)結(jié)果分析

      4.1 標(biāo)簽推薦的彈性機(jī)制

      標(biāo)簽推薦需要同時(shí)兼顧精確度和召回率。本文提出的標(biāo)簽?zāi)K化聚類與基于度數(shù)中心度Top-N排序相結(jié)合的方法(簡(jiǎn)稱“模塊化Top-N”方法)能夠借助公式(1)算法的層級(jí)支持性兼顧推薦標(biāo)簽的精確度和召回率。當(dāng)用戶進(jìn)行資源檢索時(shí),通過(guò)對(duì)用戶所搜索到的標(biāo)簽集合進(jìn)行模塊化聚類處理,形成反映標(biāo)簽主題聚類的標(biāo)簽?zāi)K。用戶可以通過(guò)對(duì)多個(gè)標(biāo)簽?zāi)K(主題聚類)提供的Top-N推薦標(biāo)簽進(jìn)行選擇,保障推薦標(biāo)簽的召回率。也可以采用向下鉆取的思路,對(duì)某一重要的標(biāo)簽?zāi)K進(jìn)行子模塊的劃分,提升推薦標(biāo)簽的精確度。以本文選取的檢索詞“Social Network”為例。在圖2中與“Social Network”最相關(guān)的標(biāo)簽?zāi)K為模塊E(標(biāo)簽“Social Network”位于模塊E中)。模塊E中共包括相關(guān)標(biāo)簽29個(gè),其成員的具體構(gòu)成及其排名如表3所示。

      表3的內(nèi)容顯示,盡管模塊化Top-N方法已經(jīng)在保證推薦標(biāo)簽覆蓋范圍的情況下,實(shí)現(xiàn)了比較精準(zhǔn)的定位,但是該標(biāo)簽?zāi)K中仍然包含29個(gè)相關(guān)標(biāo)簽。按照排名順序依次向用戶推薦的標(biāo)簽是“Social Network”(社會(huì)網(wǎng)絡(luò))、“Graph”(圖)、“Structure”(結(jié)構(gòu))、“Recommendation”(推薦)、“Relation”(關(guān)系)、“Trust”(信任)等。顯然,此時(shí)的推薦標(biāo)簽及其所對(duì)應(yīng)的相關(guān)文獻(xiàn)資源仍然比較松散和寬泛,主題專指性尚不鮮明。有鑒于此,需要再次針對(duì)模塊E進(jìn)行模塊化聚類處理,以提高推薦標(biāo)簽的精確度。標(biāo)簽?zāi)KE經(jīng)過(guò)模塊化聚類處理后被劃分為5個(gè)子標(biāo)簽?zāi)K,如圖3所示。

      圖3中,包含“Social Network”的子標(biāo)簽?zāi)K為模塊E-3。此時(shí),子模塊E-3內(nèi)部排序位于“Social Network”標(biāo)簽之后的3個(gè)標(biāo)簽依次是“Method”(方法)、“Social Network Analysis”(社會(huì)網(wǎng)絡(luò)分析)和“Graph Theory”(圖論)。顯然,這些標(biāo)簽直指社會(huì)網(wǎng)絡(luò)的方法本質(zhì)。推薦的精確度得到進(jìn)一步提升。

      實(shí)際應(yīng)用中,多個(gè)標(biāo)簽?zāi)K的Top-N標(biāo)簽是推薦標(biāo)簽召回率的基本保障。而針對(duì)某一標(biāo)簽?zāi)K的模塊化Top-N方法的多次迭代,則可以通過(guò)對(duì)主題聚類的向下鉆取,獲得用戶滿意的精確度。同時(shí),迭代過(guò)程的逆序過(guò)程也是推薦標(biāo)簽覆蓋范圍逐漸擴(kuò)展的過(guò)程。顯然,模塊化Top-N方法是一個(gè)具有良好彈性的標(biāo)簽推薦方法,可以根據(jù)具體檢索任務(wù)需求和資源豐富程度的不同,在檢索過(guò)程中適當(dāng)選擇迭代次數(shù)或嵌套層數(shù),以滿足不同精確度和召回率的需求。

      4.2 推薦效果對(duì)比分析

      考慮到標(biāo)簽推薦的最終目的在于幫助用戶方便地獲得有效的文獻(xiàn)資源,因此研究中需要從推薦標(biāo)簽和文獻(xiàn)資源兩個(gè)視角分別對(duì)標(biāo)簽推薦方法做出測(cè)評(píng)。出于這一目的,使用真實(shí)標(biāo)簽數(shù)據(jù),將基于PageRank算法的標(biāo)簽推薦效果與基于模塊化Top-N方法的標(biāo)簽推薦效果進(jìn)行對(duì)比分析。

      首先,對(duì)同等推薦標(biāo)簽數(shù)量的兩種推薦方法的文獻(xiàn)覆蓋率進(jìn)行了對(duì)比分析??紤]到實(shí)際應(yīng)用中用戶對(duì)推薦標(biāo)簽列表的視覺(jué)疲勞等因素(眾多密集的推薦標(biāo)簽會(huì)造成用戶的視覺(jué)疲勞),對(duì)比工作分別選取推薦標(biāo)簽數(shù)量為15、25、35、45共4種不同的標(biāo)簽數(shù)量水平,對(duì)搜索到的文獻(xiàn)資源覆蓋率進(jìn)行比較。以推薦標(biāo)簽數(shù)量為橫軸,以文獻(xiàn)資源數(shù)量為縱軸,兩種方法的比較結(jié)果如圖4所示。

      圖4中的結(jié)果顯示,在4種不同的推薦標(biāo)簽數(shù)量水平上,同樣的標(biāo)簽數(shù)量下模塊化Top-N方法都比PageRank方法有更好的表現(xiàn)。模塊化Top-N方法能夠基于同等數(shù)量的推薦標(biāo)簽覆蓋到更豐富的文獻(xiàn)資源。而且,當(dāng)推薦標(biāo)簽數(shù)量水平較低時(shí),模塊化Top-N方法相比PageRank方法在文獻(xiàn)資源覆蓋率方面的優(yōu)勢(shì)會(huì)更加明顯。這一優(yōu)勢(shì)產(chǎn)生的原因主要在于模塊化Top-N方法通過(guò)標(biāo)簽?zāi)K化聚類得到標(biāo)簽主題聚類的同時(shí),將每個(gè)主題聚類(標(biāo)簽?zāi)K)中處于核心位置的標(biāo)簽按照特定規(guī)則的比重(參見(jiàn)公式(2))推薦給用戶,增加了有限標(biāo)簽對(duì)文獻(xiàn)資源的覆蓋率。

      其次,對(duì)形成相同數(shù)量主題聚類所需要的標(biāo)簽數(shù)量進(jìn)行對(duì)比分析。這部分分析工作的重點(diǎn)在于模塊化Top-N方法和PageRank方法形成主題聚類所需要消耗的標(biāo)簽數(shù)量差異。以主題聚類(標(biāo)簽?zāi)K)數(shù)量為橫軸,以標(biāo)簽數(shù)量為縱軸,兩種方法的對(duì)比結(jié)果如圖5所示。

      圖5中的結(jié)果顯示,當(dāng)形成極低數(shù)量的主題聚類(檢索的領(lǐng)域范圍很細(xì)小)時(shí),模塊化Top-N方法與PageRank方法所需要消耗的標(biāo)簽數(shù)量沒(méi)有顯著差異。當(dāng)主題聚類數(shù)量較多時(shí),模塊化Top-N方法相比PageRank方法在標(biāo)簽消耗方面的優(yōu)勢(shì)就顯現(xiàn)出來(lái)。同等數(shù)量的主題聚類使用模塊化Top-N方法僅需要較少的標(biāo)簽,而使用PageRank方法則需要消耗掉更多的標(biāo)簽。顯然,推薦導(dǎo)航中的標(biāo)簽數(shù)量過(guò)多,會(huì)降低推薦系統(tǒng)對(duì)于用戶的感知易用性。模塊化Top-N方法按照特定比重原則(參見(jiàn)公式(2))篩選出的Top-N標(biāo)簽,在反映各自所在主題聚類的核心信息的同時(shí),來(lái)自于不同標(biāo)簽?zāi)K的Top-N標(biāo)簽也代表了檢索范圍中不同的分支主題。

      5 結(jié)論與討論

      本研究基于網(wǎng)絡(luò)科學(xué)的理論與方法,針對(duì)社會(huì)化標(biāo)注系統(tǒng)中的標(biāo)簽推薦問(wèn)題,提出模塊化Top-N方法實(shí)現(xiàn)標(biāo)簽的彈性推薦。該方法對(duì)標(biāo)簽網(wǎng)絡(luò)進(jìn)行模塊化聚類處理,獲得以標(biāo)簽?zāi)K體現(xiàn)的主題聚類,采用度數(shù)中心度排序,根據(jù)特定比重選取模塊內(nèi)部Top-N標(biāo)簽作為推薦標(biāo)簽。經(jīng)過(guò)對(duì)模塊化Top-N方法的推薦效果進(jìn)行的彈性解析和與PageRank方法的對(duì)比測(cè)試,研究工作初步得出如下結(jié)論。

      1)基于模塊化Top-N方法的標(biāo)簽推薦具有可逐層細(xì)化的精確度。在針對(duì)用戶檢索詞構(gòu)建標(biāo)簽網(wǎng)絡(luò)后,模塊化Top-N方法能夠通過(guò)模塊化聚類處理生成相關(guān)的主題聚類(標(biāo)簽?zāi)K),并向用戶推薦每個(gè)主題聚類中最具有代表性的處于核心位置的Top-N標(biāo)簽。用戶可以根據(jù)檢索任務(wù)的具體需求,選擇不同主題聚類中的推薦標(biāo)簽進(jìn)行檢索。由于該算法自身對(duì)層級(jí)性的支持,用戶可以進(jìn)一步選擇其中的某一主題聚類,將該主題聚類繼續(xù)劃分為子主題聚類(標(biāo)簽子模塊),從而使子主題聚類推薦的Top-N標(biāo)簽進(jìn)一步精細(xì)化。這種逐層迭代與嵌套的過(guò)程,在該推薦方法的彈性機(jī)制解析中已經(jīng)借助實(shí)驗(yàn)數(shù)據(jù)詳細(xì)闡述。通過(guò)逐層迭代與嵌套獲得的推薦標(biāo)簽,能夠使推薦標(biāo)簽的精確度逐層細(xì)化,實(shí)現(xiàn)對(duì)文獻(xiàn)資源的精準(zhǔn)定位。

      2)基于模塊化Top-N方法的標(biāo)簽推薦具有良好的召回率。召回率好的推薦方法能夠使用有限的推薦標(biāo)簽,盡量減少在檢索中沉沒(méi)或者被遺漏的文獻(xiàn)資源。通過(guò)與PageRank方法的對(duì)比分析發(fā)現(xiàn),模塊化Top-N方法在同樣的標(biāo)簽數(shù)量水平上,能夠覆蓋到更多的文獻(xiàn)資源,文獻(xiàn)召回?cái)?shù)量表現(xiàn)良好。同時(shí),從同等主題聚類數(shù)量所需標(biāo)簽數(shù)量的情況來(lái)看,模塊化Top-N方法相比PageRank方法所需要標(biāo)簽數(shù)量更少。即模塊化Top-N方法僅需要少量的推薦標(biāo)簽就能夠覆蓋更多的主題聚類。因此,以更少的推薦標(biāo)簽覆蓋更多的主題聚類、更大范圍的文獻(xiàn)資源,最大限度地將相關(guān)信息與資源提供給用戶進(jìn)行選擇,表現(xiàn)出該推薦方法具有良好的召回率。

      本研究針對(duì)社會(huì)化標(biāo)注系統(tǒng)中的標(biāo)簽推薦問(wèn)題展開(kāi)研究,基于檢索目標(biāo)構(gòu)建標(biāo)簽網(wǎng)絡(luò)。借助網(wǎng)絡(luò)科學(xué)的思維與方法,提出模塊化Top-N標(biāo)簽推薦方法。研究中的檢測(cè)分析證明,該方法在精確度和召回率方面都有良好的表現(xiàn)。既能夠有效實(shí)現(xiàn)文獻(xiàn)資源的逐層級(jí)精準(zhǔn)定位,又能夠以最少的成本向用戶提供更大范圍的資源覆蓋。研究工作中也存在尚不完善之處,關(guān)于Top-N標(biāo)簽推薦方法的分析與驗(yàn)證,還主要處于靜態(tài)的研究狀態(tài),對(duì)于領(lǐng)域知識(shí)發(fā)展進(jìn)程中的動(dòng)態(tài)因素的考慮還不周全。后續(xù)的研究工作中將注重時(shí)間動(dòng)態(tài)因素的影響,考查主題聚類與標(biāo)簽的成長(zhǎng)性等因素。從而在保證推薦標(biāo)簽精確度與召回率的同時(shí),為用戶提供最具成長(zhǎng)潛力的主題聚類和標(biāo)簽,以增加標(biāo)簽推薦的新穎性。

      參考文獻(xiàn)

      [1]Peters I,Stock W G.“Power tags”in Information Retrieval[J].Library Hi Tech,2010,28(1):81-93.

      [2]Yi K,Choi N,Kim Y S.A Content Analysis of Twitter Hyperlinks and Their Application in Web Resource Indexing[J].Journal of the Association for Information Science and Technology,2016,67(8):1808-1821.

      [3]Jung J J.Exploiting Geotagged Resources for Spatial Clustering on Social Network Services[J].Concurrency and Computation:Practice & Experience,2016,28(4):1356-1367.

      [4]Mao J,Lu K,Li G,et al.Profiling Users with Tag Networks in Diffusion-Based Personalized Recommendation[J].Journal of Information Science,2016,42(5):711-722.

      [5]Yamamoto S,Wakayashi K,Kando N,et al.Twitter User Tagging Method Based on Burst time Series[J].International Journal of Web Information Systems,2016,12(3):292-311.

      [6]Alhamid M F,Rawashdeh M,Hossain M A,et al.Towards Context-Aware Media Recommendation Based on Social Tagging[J].Journal of Intelligent Information Systems,2016,46(3):499-516.

      [7]陳麗霞,竇永香,秦春秀.利用社會(huì)化標(biāo)簽實(shí)現(xiàn)P2P語(yǔ)義推薦[J].圖書(shū)情報(bào)工作,2011,55(22):110-113.

      [8]曾子明,張振.社會(huì)化標(biāo)注系統(tǒng)中基于社區(qū)標(biāo)簽云的個(gè)性化推薦研究[J].情報(bào)雜志,2011,30(10):128-133.

      [9]張亮.基于LDA主題模型的標(biāo)簽推薦方法研究[J].現(xiàn)代情報(bào),2016,36(2):53-56.

      [10]熊回香,楊雪萍.社會(huì)化標(biāo)注系統(tǒng)中的個(gè)性化信息推薦研究[J].情報(bào)學(xué)報(bào),2016,35(5):549-560.

      [11]武慧娟,秦雯,竇平安,等.社會(huì)化標(biāo)注系統(tǒng)中個(gè)性化信息推薦動(dòng)態(tài)模型研究[J].情報(bào)科學(xué),2016,34(6):43-46.

      [12]林鑫,周知.用戶認(rèn)知對(duì)標(biāo)簽使用行為的影響分析[J].情報(bào)理論與實(shí)踐,2015,38(10):85-88.

      [13]呂琳露,李亞婷.基于游記主題挖掘與表達(dá)的旅游信息推薦研究[J].現(xiàn)代情報(bào),2017,37(6):61-67.

      [14]Gupta M,Li R,Yin Z,et al.Survey on Social Tagging Techniques[J].SIGKDD Explorations,2010,12(1):58-72.

      [15]Wasserman S,F(xiàn)ausT K.Social Network Analysis:Methods and Applications[M].New York:Cambridge University Press,1994:17-21.

      [16]Newman M E J,Girvan M.Finding and Evaluating Community Structure in Networks[J].Physical Review E,2004,69(2):026113.

      [17]Freeman L C.Centrality in Social Networks Conceptual Clarification[J].Social Networks,1979,1(3):215-239.

      [18]Lewis T G.網(wǎng)絡(luò)科學(xué):原理與應(yīng)用[M].陳向陽(yáng),巨修練,等.譯. 北京:機(jī)械工業(yè)出版社,2011:4-5.

      [19]滕廣青,白淑春,韓尚軒,等.基于無(wú)標(biāo)度與分形理論的層次知識(shí)網(wǎng)絡(luò)原理解析[J].圖書(shū)情報(bào)工作,2017,61(14):132-140.

      [20]Blondel V D,Guillaume J-L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[EB/OL].http://cs.gsu.edu/~myan2/communitydetection/13.pdf,2017-12-08.

      [21]Brin S,Page L.The Anatomy of a Large-Scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.

      [22]Allison P D,Price D de S,Griffith B C,et al.Lotkas Law:A Problem in Its Interpretation and Application[J].Social Studies of Science,1976,6(2):269-276.

      (責(zé)任編輯:馬 卓)

      奎屯市| 临汾市| 广元市| 龙里县| 成武县| 泰州市| 岑溪市| 镇雄县| 泰州市| 临夏市| 万盛区| 琼中| 甘肃省| 互助| 都江堰市| 平遥县| 浦东新区| 喀喇| 九龙坡区| 多伦县| 措美县| 纳雍县| 济阳县| 江华| 呼和浩特市| 获嘉县| 屏边| 资源县| 定陶县| 吴川市| 定南县| 社会| 韶山市| 田东县| 安阳市| 米林县| 亳州市| 绍兴县| 榆社县| 诸暨市| 鄂伦春自治旗|