• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)

      2016-03-17 03:57:12葉成緒劉少鵬
      關(guān)鍵詞:維基百科熱點(diǎn)話題主題詞

      葉成緒 楊 萍 劉少鵬

      1(青海師范大學(xué)計(jì)算機(jī)學(xué)院 青海 西寧 810008)

      2(中山大學(xué)信息科學(xué)與技術(shù)學(xué)院 廣東 廣州 510006)

      3(青海師范大學(xué)生命與地理科學(xué)學(xué)院 青海 西寧 810008)

      ?

      基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)

      葉成緒1,2楊萍3劉少鵬2

      1(青海師范大學(xué)計(jì)算機(jī)學(xué)院青海 西寧 810008)

      2(中山大學(xué)信息科學(xué)與技術(shù)學(xué)院廣東 廣州 510006)

      3(青海師范大學(xué)生命與地理科學(xué)學(xué)院青海 西寧 810008)

      摘要近年來(lái),微博網(wǎng)站已成為海量信息的發(fā)布平臺(tái)。微博豐富的信息為用戶提供便利的同時(shí),也帶來(lái)了信息過(guò)載的風(fēng)險(xiǎn)。針對(duì)熱點(diǎn)話題發(fā)現(xiàn)能夠降低信息過(guò)載的風(fēng)險(xiǎn),改善用戶體驗(yàn)。結(jié)合最長(zhǎng)公共子串和維基百科知識(shí),提出一種基于主題詞的中文微博熱點(diǎn)話題發(fā)現(xiàn)方法。首先,獲取微博數(shù)據(jù)的高頻最長(zhǎng)公共子串,作為描述話題的候選主題詞;其次,利用維基百科知識(shí),對(duì)候選主題詞進(jìn)行篩選;最后,對(duì)主題詞集合聚類以發(fā)現(xiàn)話題,并計(jì)算每個(gè)話題的能量,從中選取熱點(diǎn)話題。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法能有效發(fā)現(xiàn)微博熱點(diǎn)話題。

      關(guān)鍵詞主題詞維基百科最長(zhǎng)公共子串熱點(diǎn)話題發(fā)現(xiàn)微博

      HOT MICROBLOGGING TOPICS DISCOVERY BASED ON SUBJECT TERMS

      Ye Chengxu1,2Yang Ping3Liu Shaopeng2

      1(School of Computer Science, Qinghai Normal University,Xining 810008,Qinghai, China)2(School of Information and Technology, Sun Yat-Sen University,Guangzhou 510006,Guangdong, China)3(School of Life and Geography Sciences, Qinghai Normal University, Xining 810008,Qinghai,China)

      AbstractIn recent years, microblogging websites have become the publishing platform of massive information. While providing convenience to users, the abundant microblogging information also brings in the risk of information overload. Hot topics discovery can reduce the risk of information overload and improve user experience. Aiming at this, in this paper we present a subject terms-based hot topics discovery method for Chinese microblogging in combination with longest common substrings and Wikipedia knowledge. First, it acquires the high-frequency longest common substring of microblogging as candidate subject terms of description topics. Secondly, it utilises Wikipedia knowledge to screen candidate subject terms. Finally, it collects and clusters the subject terms to discover the topics, and calculates the energy of each topic and then selects the hot topics among them. Experiment conducted on real dataset demonstrate that our method can effectively discover hot microblogging topics.

      KeywordsSubject termWikipediaLongest common substringHot topic discoveryMicroblogging

      0引言

      微博是近年來(lái)互聯(lián)網(wǎng)快速發(fā)展的產(chǎn)物,作為一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取的平臺(tái),它具有內(nèi)容生產(chǎn)便利、信息傳播迅速和數(shù)據(jù)實(shí)時(shí)海量等特點(diǎn)。以新浪微博為例,截止到目前,其注冊(cè)用戶數(shù)已超過(guò)2.5億,每天有接近1億條的消息發(fā)布,內(nèi)容從個(gè)人日常生活瑣事到具有歷史性影響的重大新聞,無(wú)所不有。這些數(shù)據(jù)包含豐富的信息,為信息探索提供了機(jī)遇,同時(shí)也帶來(lái)了巨大挑戰(zhàn)[1]。

      微博熱點(diǎn)話題,是由大量用戶針對(duì)具體事件或者觀點(diǎn)的討論而形成,內(nèi)容多與突發(fā)新聞事件相關(guān)。熱點(diǎn)話題發(fā)現(xiàn)能降低信息過(guò)載的風(fēng)險(xiǎn),改善用戶信息獲取的體驗(yàn)。比如,幫助記者發(fā)現(xiàn)有價(jià)值的新聞;或者為普通用戶推薦感興趣的話題;或者應(yīng)用于話題排行榜等服務(wù)。

      基于向量空間模型的熱點(diǎn)話題發(fā)現(xiàn)技術(shù)[2,3],使用高頻關(guān)鍵詞描述話題,選取包含微博數(shù)目超過(guò)一定閾值的話題作為熱點(diǎn)話題。該技術(shù)存在兩個(gè)明顯的缺陷:第一,關(guān)鍵詞難以準(zhǔn)確概括相關(guān)熱點(diǎn)話題。比如在熱點(diǎn)話題“天宮一號(hào)成功發(fā)射”中,多數(shù)分詞軟件沒(méi)有收錄關(guān)鍵詞“天宮一號(hào)”,導(dǎo)致無(wú)法正確分詞。ICTCLAS軟件(http://ictclas.org/)的切分結(jié)果為:天宮/n 、一/m、 號(hào)/q,單憑這三個(gè)獨(dú)立無(wú)序的關(guān)鍵詞無(wú)法準(zhǔn)確表達(dá)熱點(diǎn)話題的內(nèi)容。第二,熱點(diǎn)話題選取方法未充分考慮微博平臺(tái)的特點(diǎn),不利于用戶獲取有價(jià)值的信息,影響了熱點(diǎn)話題發(fā)現(xiàn)的效果。微博平臺(tái)的傳播途徑和關(guān)注結(jié)構(gòu),決定熱點(diǎn)話題的形成因素,不但包括話題本身意義大小,還包括話題傳播者的影響力。因此,只根據(jù)微博數(shù)目來(lái)選取熱點(diǎn)話題是不夠的。

      針對(duì)上述問(wèn)題,本文結(jié)合最長(zhǎng)公共子串和維基百科知識(shí),提出了一種基于主題詞的中文微博熱點(diǎn)話題發(fā)現(xiàn)方法。話題本質(zhì)上是重復(fù)出現(xiàn)內(nèi)容的高度概括,高頻最長(zhǎng)公共子串往往是短語(yǔ),比關(guān)鍵詞更能準(zhǔn)確描述話題,可作為話題的候選主題詞。但是,高頻最長(zhǎng)公共子串,可能是毫無(wú)意義的字符串??紤]到維基百科的知識(shí)能夠比較準(zhǔn)確而全面地反映客觀世界的各種現(xiàn)象,有助于改進(jìn)文本挖掘和自然語(yǔ)言處理等任務(wù)[4,5],因此本文使用維基百科知識(shí)篩選高頻最長(zhǎng)公共子串,得到主題詞集合。在此基礎(chǔ)上,根據(jù)主題詞共現(xiàn)頻率,對(duì)其聚類以發(fā)現(xiàn)話題,并按照話題能量大小,選取最終的熱點(diǎn)話題。

      本文的主要貢獻(xiàn)包括以下3個(gè)方面:

      1) 結(jié)合最長(zhǎng)公共子串和維基百科知識(shí),檢測(cè)主題詞;

      2) 對(duì)主題詞進(jìn)行聚類以發(fā)現(xiàn)話題,并按照話題能量,選取熱點(diǎn)話題;

      3) 在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法能有效發(fā)現(xiàn)熱點(diǎn)話題。

      1相關(guān)工作

      熱點(diǎn)話題發(fā)現(xiàn)多采用向量空間模型。文獻(xiàn)[2]提出了一個(gè)Twitter爆炸性新聞發(fā)現(xiàn)與跟蹤的方法,并設(shè)計(jì)了Hotstream系統(tǒng),對(duì)Twitter中爆炸性新聞進(jìn)行收集、分組、排序與跟蹤,提供給系統(tǒng)使用者。 TwitterMonitor系統(tǒng)[3]能夠?qū)崟r(shí)識(shí)別微博的話題趨勢(shì),對(duì)話題進(jìn)行分析并提供相關(guān)的描述。

      借助其他領(lǐng)域模型,結(jié)合微博自身特點(diǎn),是熱點(diǎn)話題發(fā)現(xiàn)研究的新方向。文獻(xiàn)[6]介紹了一種基于時(shí)序和社會(huì)關(guān)系評(píng)價(jià)的Twitter熱點(diǎn)話題檢測(cè)方法,其思想是:在一個(gè)適當(dāng)?shù)臅r(shí)間段內(nèi),如果一個(gè)話題可以被廣泛地檢測(cè)且在此之前很少出現(xiàn),那么該話題在此時(shí)間段里是新熱點(diǎn)話題。在具體檢測(cè)過(guò)程中,根據(jù)Aging理論,為關(guān)鍵詞建立生命周期模型,選擇相應(yīng)的高頻關(guān)鍵詞集合,作為新熱點(diǎn)話題。Labeled LDA模型[7],把Twitter內(nèi)容映射到substance、style、status和social四個(gè)維度,利用該模型對(duì)用戶和tweets按照話題進(jìn)行區(qū)分,缺點(diǎn)是模型復(fù)雜,計(jì)算量大。文獻(xiàn)[8]認(rèn)為單一主題事件的大量信息發(fā)布,與早期的討論明顯不同,可從中發(fā)現(xiàn)新話題,采用詞典學(xué)習(xí)解決新話題識(shí)別的問(wèn)題,提出一個(gè)基于檢測(cè)和用戶產(chǎn)生內(nèi)容聚類的兩階段方法。

      國(guó)內(nèi)針對(duì)微博的研究較少?;贚DA的微博生成模型MB-LDA[9],綜合考慮了微博的聯(lián)系人關(guān)聯(lián)關(guān)系和文本關(guān)聯(lián)關(guān)系,輔助微博的主題挖掘,采用吉布斯抽樣法對(duì)模型進(jìn)行推導(dǎo),在挖掘出微博主題的同時(shí),還能挖掘出聯(lián)系人關(guān)注的主題。文獻(xiàn)[10]提出一種中文微博新聞話題檢測(cè)的方法,即在線檢測(cè)微博消息中大量突現(xiàn)的關(guān)鍵詞,綜合考慮其詞頻和增長(zhǎng)速度,構(gòu)造復(fù)合權(quán)值,用以量化關(guān)鍵詞作為新聞主題詞的合適程度,并將它們進(jìn)行增量式聚類,從而找到新聞話題。該方法基于ICTCLAS分詞軟件,只能找到部分主題詞;并且檢測(cè)效果依賴計(jì)算參數(shù)值的選取,穩(wěn)定性和自適應(yīng)性較差。

      2基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)

      熱點(diǎn)話題發(fā)現(xiàn)依賴主題詞的檢測(cè)以及話題能量的計(jì)算。本文的方法包括3個(gè)步驟:首先,獲取微博數(shù)據(jù)的高頻最長(zhǎng)公共子串,作為描述話題的候選詞項(xiàng);其次,利用維基百科知識(shí),對(duì)候選主題詞進(jìn)行篩選;最后,對(duì)主題詞集合進(jìn)行聚類以發(fā)現(xiàn)話題,并按照話題能量大小,從中選取熱點(diǎn)話題。

      2.1基本概念

      表1列出了本文所使用的主要符號(hào)及其說(shuō)明。

      表1 符號(hào)說(shuō)明

      本文涉及的術(shù)語(yǔ)定義如下:

      定義1高頻最長(zhǎng)公共子串。在D中頻繁出現(xiàn),且頻率超過(guò)設(shè)定閾值的最長(zhǎng)公共子串。

      定義2主題詞。在D中用于描述某個(gè)話題的關(guān)鍵詞或者短語(yǔ)。

      主題詞必然是高頻最長(zhǎng)公共子串,但是高頻最長(zhǎng)公共子串,不一定是主題詞。兩者緊密聯(lián)系,但有所區(qū)別。

      定義3微博流行度。在特定時(shí)間段中,微博被轉(zhuǎn)發(fā)次數(shù)forward(di)和被評(píng)論次數(shù)comment(di)的累加。

      popular(di)=forward(di)+comment(di)

      (1)

      定義4用戶權(quán)威度。在特定時(shí)間段中,用戶粉絲數(shù)目fans(ui)與關(guān)注用戶數(shù)目follow(ui)的比值,加上用戶被提及次數(shù)at(ui)與發(fā)表微博數(shù)目weibo(ui)的比值。

      (2)

      定義5話題能量。在D中與該話題相關(guān)的所有微博能量累加,其中單條微博能量是微博流行度和用戶權(quán)威度的乘積。

      (3)

      話題能量反映了其社會(huì)影響力,提供了相應(yīng)的量化評(píng)估標(biāo)準(zhǔn)。

      定義6熱點(diǎn)話題。話題能量超過(guò)設(shè)定閾值的話題。

      熱點(diǎn)話題與普通話題相比,參與討論的用戶更多,傳播范圍更廣。具體體現(xiàn)在文本內(nèi)容上,其微博流行度更高;而從發(fā)布行為來(lái)看,其用戶權(quán)威度更大,使得話題的影響力越大。

      2.2高頻最長(zhǎng)公共子串獲取

      主題詞是熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵,高頻最長(zhǎng)公共子串則是主題詞的候選。本文設(shè)計(jì)FLCS算法,用于獲取微博數(shù)據(jù)集合的高頻最長(zhǎng)公共子串集合,作為候選的主題詞集合。 FLCS算法包括3個(gè)步驟:1)設(shè)置構(gòu)建候選的主題詞集合E的最大迭代次數(shù)MAX_ITERATION。在每次迭代過(guò)程中,隨機(jī)抽取D中任意兩條微博di和dj,借助LCS算法得到它們的最長(zhǎng)公共子串,對(duì)于符合長(zhǎng)度范圍[MIN_LCS, MAX_LCS]的,統(tǒng)計(jì)其文件頻率并加入E中。 2)對(duì)于E中所有候選的主題詞,按照文件頻率由大到小重新排序。 3)遍歷E中所有候選的主題詞ei,如果其文件頻率DF(ei)小于設(shè)定的閾值FREQ_THRESHOLD,則刪除之。

      LCS算法是FLCS算法的關(guān)鍵步驟,它利用了最優(yōu)子結(jié)構(gòu)性質(zhì),采用動(dòng)態(tài)規(guī)劃的思想求解兩個(gè)字符串的最長(zhǎng)公共子串。對(duì)于字符串S和P,為其所有可能的前綴組合找到最長(zhǎng)的公共后綴:

      (4)

      從中選擇最大的公共后綴:

      (5)

      最后,根據(jù)字符串序列的匹配位置信息,容易獲取最長(zhǎng)公共子串。

      FLCS算法采用隨機(jī)抽取的方式,而不是簡(jiǎn)單地對(duì)D中所有微博兩兩求解最長(zhǎng)公共子串,算法的時(shí)間復(fù)雜度為O(|MAX_ITERATION|)。通常MAX_ITERATION設(shè)為|D|,因此對(duì)于海量的微博數(shù)據(jù)集合, FLCS算法是簡(jiǎn)單高效的。FLCS算法完整的偽代碼如下:

      輸入:D,最大迭代次數(shù)MAX_ITERATION,頻率閾值FREQ_THRESHOLD,最小長(zhǎng)度MIN_LCS,最大長(zhǎng)度MAX_LCS

      輸出:候選的主題詞集合E

      步驟:

      1:for k=1 to MAX_ITERATION

      2:隨機(jī)抽取兩條微博di和dj

      3:獲取最長(zhǎng)公共子串lcs=LCS(di,dj)

      4:if |lcs|≥MIN_LCS && |lcs|≤MAX_LCS

      5:統(tǒng)計(jì)lcs文件頻率

      6:lcs加入到E

      7:end if

      8:end for

      9:將E中所有候選的主題詞按照文件頻率由大到小重新排序

      10:for i=1 to |E|

      11:if DF(ei)≤FREQ_THRESHOLD

      12:刪除ei

      13:end if

      14:end for

      2.3主題詞篩選

      主題詞多是高頻最長(zhǎng)公共子串。判定高頻最長(zhǎng)公共子串作為主題詞合適與否,依賴于豐富的語(yǔ)料背景知識(shí)。維基百科作為一部網(wǎng)上百科全書(shū),提供了較為完備的語(yǔ)料知識(shí)?;谏鲜鏊悸? 利用維基百科的條目知識(shí),設(shè)計(jì)WE算法,篩選出合適的主題詞。

      算法包括5個(gè)步驟:1)遍歷E中的每一個(gè)候選的主題詞ei。 2)檢查ei是否為停用詞,若是,則刪除之。 3)在維基百科中檢索候選ei對(duì)應(yīng)的條目。 4)對(duì)該維基百科條目進(jìn)行簡(jiǎn)繁轉(zhuǎn)換預(yù)處理,計(jì)算主題詞與其相似度。 5)檢查相似度是否小于設(shè)定的閾值SIM_THRESHOLD,若是,則刪除ei。

      WE算法采用編輯距離計(jì)算主題詞與維基百科條目的相似度。編輯距離,又稱Levenshtein距離,是指兩個(gè)字符串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。允許的編輯操作包括將一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符以及刪除一個(gè)字符。字符串之間的編輯距離越大,其相似度越小;否則相似度越大。相似度值域∈[0,1],0表示兩個(gè)字符串完全不同,1表示兩個(gè)字符串完全相同。

      (6)

      式(6)考慮了主題詞與維基百科條目同義或者近義關(guān)系的情況。比如,主題詞“小悅悅”和維基百科條目“小悅悅事件”,它們的編輯距離為2,相似度為0.75。若選擇合適的相似度閾值,與維基百科條目同義或近義的主題詞,將得以保留,而不是簡(jiǎn)單刪除。

      WE算法完整的偽代碼如下:

      輸入:候選的主題詞集合E,維基百科中文簡(jiǎn)繁轉(zhuǎn)換方案ZhConversion,停用詞文件STOPWORD,相似度閾值SIM_THRESHOLD

      輸出:主題詞集合E

      步驟:

      1:for i=1 to |E|

      2:檢查ei是否為停用詞,若是,直接刪除

      3:獲取ei對(duì)應(yīng)的維基百科條目w=wiki(ei)

      4:w進(jìn)行中文簡(jiǎn)繁轉(zhuǎn)換預(yù)處理

      5:計(jì)算ei和w的相似度s=sim(ei,w)

      6:if s

      7:刪除ei

      8:end if

      9:end for

      2.4熱點(diǎn)話題發(fā)現(xiàn)

      話題發(fā)現(xiàn)是通過(guò)對(duì)主題詞集合聚類完成的,每個(gè)聚簇代表一個(gè)話題,簇中的主題詞則作為該話題的描述。每個(gè)話題可計(jì)算其能量值,并按照能量值由高到低排序,超過(guò)設(shè)定能量值閾值的,則作為熱點(diǎn)話題。基于上述思想,采用AP聚類算法,設(shè)計(jì)了TAP熱點(diǎn)話題發(fā)現(xiàn)算法。TAP算法的具體實(shí)現(xiàn)流程如下所示:

      輸入:主題詞集合E,能量閾值ENERGY_THRESHOLD

      輸出:熱點(diǎn)話題集合T

      步驟:

      1:初始化主題詞相似度集合S={}

      2:設(shè)定主題詞為聚類中心的概率P={pi|pi為常數(shù)}

      3:for i=1 to |E|

      4:for j=i+1 to |E|

      5:計(jì)算主題詞的相似度s=sim(ei,ej)

      6:S ← (i,j,s)

      7:end for

      8:end for

      9:AP聚類得到話題集合T=AP(S,P)

      10:for i=1 to |T|

      11:計(jì)算話題的能量值s=energy(ti)

      12:if s

      13:刪除ti

      14:end if

      15:end for

      AP算法是TAP算法的關(guān)鍵步驟,影響了熱點(diǎn)話題發(fā)現(xiàn)的性能和效果。該算法是Brendan J. Frey等人在Science雜志上提出的一種新型聚類算法,它的特點(diǎn)是快速、高效,無(wú)需指定聚類數(shù)目。算法以數(shù)據(jù)點(diǎn)之間的相似性矩陣作為輸入;數(shù)據(jù)點(diǎn)視為網(wǎng)絡(luò)的節(jié)點(diǎn),節(jié)點(diǎn)之間通過(guò)網(wǎng)絡(luò)的邊,傳遞吸引度(responsibility)和歸屬度(availability)消息;每個(gè)數(shù)據(jù)點(diǎn)初始化為聚類中心,隨著信息的迭代積累,真正的聚類中心被選中,數(shù)據(jù)點(diǎn)的聚類標(biāo)簽也隨之確定[11]。其中,吸引度和歸屬度計(jì)算分別如式(7)和式(8)所示。

      (7)

      (8)

      定義R=(r(ei,ek)),A=(a(ei,ek))分別為吸引度矩陣和歸屬度矩陣,t代表算法的迭代次數(shù),阻尼因子λ∈[0,1]。則消息矩陣更新公式為:

      Rt+1=(1-λ)·Rt+λ·Rt-1

      (9)

      At+1=(1-λ)·At+λ·At-1

      (10)

      主題詞之間的相似性度量是影響AP算法聚類效果的關(guān)鍵因素。假設(shè)主題詞在相同微博共現(xiàn)的次數(shù)越多,它們屬于同一個(gè)話題的概率越大。根據(jù)該假設(shè),得到相似性度量公式為:

      sim(ei,ek)=occur(ei,ek)

      (11)

      完成主題詞聚類后,找出話題的所有相關(guān)微博,根據(jù)式(3)計(jì)算每個(gè)話題能量,選取熱點(diǎn)話題。假設(shè)微博包含某個(gè)話題的主題詞越多,則與該話題相關(guān)的概率越大。微博與話題的相似性度量公式為:

      sim(di,tj)=len(LCS(di,tj))

      (12)

      3實(shí)驗(yàn)結(jié)果與分析

      3.1數(shù)據(jù)集

      本文抓取了2012年1月13日至2012年2月23日的新浪微博熱點(diǎn)大事件的數(shù)據(jù)。表2給出數(shù)據(jù)集詳細(xì)的描述,按照熱點(diǎn)話題對(duì)微博分類,包含9個(gè)話題,12 987條微博。實(shí)驗(yàn)平臺(tái)是Intel Core i3-530M(2.93 GHz)處理器,內(nèi)存容量為2 GB。實(shí)驗(yàn)參數(shù)ENERGY_THRESHOLD、FREQ_THRESHOLD、MIN_LCS、MAX_LCS、SIM_THRESHOLD和MAX_ITERATION分別設(shè)為: 3000、2、2、5、0.6和|D|。

      表2 實(shí)驗(yàn)數(shù)據(jù)

      3.2主題詞檢測(cè)

      WE算法可以識(shí)別數(shù)據(jù)集的絕大部分主題詞。圖1是關(guān)于前16個(gè)主題詞的文件頻率詳細(xì)情況,短語(yǔ)“天宮一號(hào)”、“校車安全”和“藥家鑫案”等均可識(shí)別。

      圖1 WE算法的前16個(gè)主題詞的文件頻率

      3.3熱點(diǎn)話題發(fā)現(xiàn)

      TAP算法在主題詞集合的基礎(chǔ)上,聚類得到話題;然后根據(jù)能量大小,有效地發(fā)現(xiàn)熱點(diǎn)話題。實(shí)驗(yàn)結(jié)果如表3所示。話題9761交流的是“李雙江兒子打人事件”;話題5274是關(guān)于“藥家鑫殺人案”探討;話題6564談?wù)摰氖恰拔⒉┧奖肌?出現(xiàn)主題詞“郭美美”,是因?yàn)樵撛掝}的很多微博與“郭美美事件”相關(guān);話題5016是關(guān)于“利比亞何去何從”的問(wèn)題,“敘利亞”和“伊拉克”的出現(xiàn),豐富了該話題的外延;話題7398對(duì)“網(wǎng)店征稅”進(jìn)行了討論,“淘寶網(wǎng)店”揭示了具體征稅的對(duì)象,但主題詞過(guò)多,不利于用戶準(zhǔn)確獲取話題的信息;話題6882講述的是“謝霆鋒和張柏芝離婚”;話題11778是關(guān)于“甘肅幼兒園校車車禍”的新聞,“校車安全”與其緊密相關(guān);話題10025報(bào)道了“天宮一號(hào)成功”的信息;話題5351是“Weibo上線”的報(bào)道,屬于“新浪”的產(chǎn)品新聞等等。

      表3 TAP算法發(fā)現(xiàn)的熱點(diǎn)話題

      表3還展示了熱點(diǎn)話題的能量值。用戶權(quán)威度和微博流行度越高,話題的能量值越大,話題排名越靠前。使用能量作為熱點(diǎn)話題的選取依據(jù),符合微博平臺(tái)的特點(diǎn),真實(shí)地反映了話題的社會(huì)影響力。其中,“李雙江兒子打人事件”的能量值最高,“富二代”折射了當(dāng)前的社會(huì)結(jié)構(gòu)問(wèn)題:收入差距過(guò)大,缺乏公平競(jìng)爭(zhēng)的環(huán)境。“藥家鑫殺人案”緊隨其后,網(wǎng)民希望看到合理公正的判決結(jié)果,保證法律面前人人平等,維護(hù)每個(gè)人的合法利益。“天宮一號(hào)成功”和“Weibo上線”等重大新聞反而沒(méi)有引起廣泛關(guān)注,畢竟網(wǎng)民關(guān)心的只是與自身利益緊密相關(guān)的話題。熱點(diǎn)話題的能量值,有助于理解話題的社會(huì)影響程度,改善微博服務(wù)的質(zhì)量。

      4結(jié)語(yǔ)

      本文結(jié)合最長(zhǎng)公共子串和維基百科知識(shí),提出了一種基于主題詞的中文微博熱點(diǎn)話題發(fā)現(xiàn)方法。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法能有效發(fā)現(xiàn)微博熱點(diǎn)話題。相比向量空間模型,本文方法檢測(cè)的主題詞能夠更加準(zhǔn)確地描述話題;采用話題能量作為熱點(diǎn)話題的選取依據(jù),符合微博平臺(tái)的特點(diǎn)。

      如何在海量數(shù)據(jù)中高效地獲取候選主題詞,仍然是個(gè)挑戰(zhàn),后續(xù)的研究工作,將致力于開(kāi)發(fā)高效的搜索算法。另一方面,如何更好地利用維基百科知識(shí),保證主題詞的質(zhì)量,也是今后的研究重點(diǎn)。

      參考文獻(xiàn)

      [1] Lin J, Snow R, Morgan W. Smoothing Techniques for Adaptive Online Language Models: Topic Tracking in Tweet Streams[C]//Proc of the 17th Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2011:422-429.

      [2] Phuvipadawat S, Murata T. Breaking News Detection and Tracking in Twitter[C]//Proc of 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Los Alamitos: IEEE Computer Society, 2010:120-123.

      [3] Mathioudakis M, Koudas N. TwitterMonitor: trend detection over the twitter stream[C]//Proc of the 29th Int Conf on Management of Data. New York: ACM, 2010:1155-1158.

      [4] Hu X, Sun N, Zhang C, et al. Exploiting internal and external semantics for the clustering of short texts using world knowledge[C]//Proc of the 18th Int Conf on Information and Knowledge Management. New York: ACM, 2009:919-928.

      [5] Lau J H, Grieser K, Newman D, et al. Automatic Labeling of Topic Models[C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Pennsylvania: Association for Computational Linguistics, 2011:1536-1545.

      [6] Cataldi M, Caro L D, Schifanella C. Emerging topic detection on Twitter based on temporal and social terms evaluation[C]//Proc of the 10th IEEE International Workshop on Multimedia Data Mining. New York: ACM,2010: 1-10.

      [7] Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models[C]//International AAAI Conference on Weblogs and Social Media. Washington: The AAAI Press, 2010:10-17.

      [8] Prasad S, Melville P, Banerjee A, et al. Emerging Topic Detection using Dictionary Learning[C]//Proc of the 20th Int Conf on Information and Knowledge Management. New York: ACM, 2011:745-754.

      [9] 鄭斐然,苗奪謙,張志飛,等. 一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué), 2012,39(1):138-141.

      [10] 張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展, 2011,48(10):1795-1802.

      [11] Frey B J, Dueck D. Clustering by passing messages between data points [J]. Science, 2007,315(5814):972-976.

      中圖分類號(hào)TP391.3

      文獻(xiàn)標(biāo)識(shí)碼A

      DOI:10.3969/j.issn.1000-386x.2016.02.011

      收稿日期:2014-06-15。國(guó)家社會(huì)科學(xué)基金項(xiàng)目(13BXW037);教育部春暉計(jì)劃項(xiàng)目(Z2011023)。葉成緒,教授,主研領(lǐng)域:數(shù)據(jù)挖掘,智能計(jì)算,網(wǎng)絡(luò)安全。楊萍,副教授。劉少鵬,博士。

      猜你喜歡
      維基百科熱點(diǎn)話題主題詞
      維基百科影響司法
      維基百科青年
      2017年高考作文熱點(diǎn)話題預(yù)測(cè)
      基于SVM的熱點(diǎn)話題跟蹤實(shí)現(xiàn)過(guò)程研究
      APP
      我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
      我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      《疑難病雜志》2014年第13卷主題詞索引
      熱點(diǎn)話題排行榜
      静宁县| 沂源县| 泊头市| 蒲城县| 枣阳市| 建德市| 文水县| 西丰县| 博爱县| 定州市| 保山市| 盘山县| 汉阴县| 南乐县| 安岳县| 柞水县| 胶南市| 阜康市| 永嘉县| 玛多县| 九龙县| 阿荣旗| 迁西县| 都匀市| 花莲市| 寿宁县| 府谷县| 鹿邑县| 陇南市| 天祝| 延津县| 蒲江县| 德阳市| 翁源县| 永新县| 太保市| 正宁县| 阜新市| 大埔区| 江油市| 海阳市|