徐帥帥,戴新宇,黃書(shū)劍,陳家駿
(南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
基于無(wú)指導(dǎo)學(xué)習(xí)的微博評(píng)論分析方法
徐帥帥,戴新宇,黃書(shū)劍,陳家駿
(南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
該文以一種有效的方法尋找出有價(jià)值的微博評(píng)論,這對(duì)于讀者更高效地閱讀評(píng)論,為輿情分析、文本挖掘等任務(wù)提供支持,均具有重要的應(yīng)用價(jià)值。針對(duì)微博及其評(píng)論文本短小、內(nèi)容發(fā)散等特點(diǎn),該文提出一種基于無(wú)指導(dǎo)學(xué)習(xí)的微博評(píng)論分析方法,該方法通過(guò)互聯(lián)網(wǎng)搜索引擎擴(kuò)展微博文本,基于相關(guān)性計(jì)算自動(dòng)構(gòu)造正負(fù)訓(xùn)練用例,生成特定的某條微博評(píng)論分類(lèi)模型,通過(guò)該模型對(duì)評(píng)論的價(jià)值性進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,該方法能夠比較好地識(shí)別出評(píng)論的價(jià)值。
微博評(píng)論;價(jià)值性;無(wú)指導(dǎo)學(xué)習(xí);評(píng)論過(guò)濾
隨著互聯(lián)網(wǎng)的普及與發(fā)展,社交媒體已經(jīng)成為我們平時(shí)獲取信息、與他人溝通交流的重要方式。作為社交媒體中廣受大家關(guān)注的媒介——微博,更是很多公共媒體、政府機(jī)構(gòu)、公司企業(yè)和社會(huì)名人發(fā)布消息、市場(chǎng)營(yíng)銷(xiāo)、討論時(shí)事的重要場(chǎng)所。微博是一個(gè)充滿活力的動(dòng)態(tài)媒體,每一刻都有大量反映社會(huì)熱點(diǎn)、民生百態(tài)的微博產(chǎn)生;伴隨著微博的發(fā)布,海量的評(píng)論也隨即產(chǎn)生,有的熱門(mén)微博一天之內(nèi)就有幾千甚至上萬(wàn)條評(píng)論產(chǎn)生。
大家在關(guān)注微博的同時(shí),發(fā)現(xiàn)熱門(mén)微博的評(píng)論也包含了大量的有用信息。這些評(píng)論反映了大眾對(duì)于熱點(diǎn)事件的看法、評(píng)價(jià);通過(guò)這些評(píng)論,能了解民意、民情。因此,這些評(píng)論無(wú)論對(duì)于政府進(jìn)行輿情分析,還是對(duì)于商業(yè)公司進(jìn)行市場(chǎng)調(diào)研,都有巨大的分析價(jià)值。
但是微博及其評(píng)論的發(fā)布具有很強(qiáng)的隨意性,它們的內(nèi)容具有短小、發(fā)散性強(qiáng)、話題廣泛等特點(diǎn)。而且它們所包含的內(nèi)容在質(zhì)量上良莠不齊,還夾雜著大量的無(wú)關(guān)信息。因此,有效地篩選微博評(píng)論中的內(nèi)容,提取出有價(jià)值的評(píng)論,以供進(jìn)一步的輿情分析、文本挖掘使用,就顯得很有必要。
據(jù)我們所知,目前還鮮有學(xué)者對(duì)微博的評(píng)論進(jìn)行過(guò)深入的研究。針對(duì)這一現(xiàn)狀,本文參考了網(wǎng)絡(luò)短文本挖掘的相關(guān)工作,借鑒了他們的相關(guān)經(jīng)驗(yàn),研究了微博評(píng)論的價(jià)值性識(shí)別問(wèn)題。本文提出了一種基于無(wú)指導(dǎo)學(xué)習(xí)的微博評(píng)論分析方法,{這種方法能夠過(guò)濾微博的評(píng)論,并提取出最有閱讀、參考價(jià)值的評(píng)論。這些高價(jià)值的評(píng)論,可以為進(jìn)一步的輿情分析、文本挖掘提供高質(zhì)量的數(shù)據(jù);或者直接呈現(xiàn)給微博用戶,方便他們從大量評(píng)論中直接閱讀有價(jià)值部分。
微博的評(píng)論功能,是指用戶可以對(duì)任何一條微博進(jìn)行評(píng)論,以發(fā)表自己的看法、觀點(diǎn)。這曾是中文微博基于中國(guó)用戶習(xí)慣而設(shè)置的特殊功能,后來(lái)Yahoo Meme和Google Buzz等也都增加了評(píng)論功能。最大的英文微博網(wǎng)站Twitter,是沒(méi)有單純針對(duì)微博的評(píng)論功能的,但用戶可以把自己喜歡的內(nèi)容轉(zhuǎn)發(fā)到自己的微博,轉(zhuǎn)發(fā)時(shí)可以附加上自己的評(píng)論。目前,針對(duì)微博評(píng)論進(jìn)行的識(shí)別分析工作還很少,所以我們借鑒了網(wǎng)絡(luò)短文本挖掘工作中關(guān)于社交媒體和電商網(wǎng)站相關(guān)內(nèi)容的分類(lèi)和識(shí)別工作。下面我們對(duì)這兩塊內(nèi)容做簡(jiǎn)要介紹。
2.1 社交媒體文本分類(lèi)與識(shí)別問(wèn)題
社交媒體文本分類(lèi)與識(shí)別問(wèn)題中,具有代表性的問(wèn)題包括: 微博話題分類(lèi)、垃圾微博識(shí)別、問(wèn)答類(lèi)網(wǎng)站中高質(zhì)量回答識(shí)別等。針對(duì)這些問(wèn)題,現(xiàn)有解決辦法的總體思路是: 利用機(jī)器學(xué)習(xí)的方法,將需要解決的具體問(wèn)題抽象成分類(lèi)問(wèn)題;針對(duì)短文本內(nèi)容的特點(diǎn),尋找有效的特征集;人工標(biāo)注數(shù)據(jù)或利用網(wǎng)站已有的打分機(jī)制,構(gòu)造好數(shù)據(jù)集;使用合適的分類(lèi)器,訓(xùn)練出表現(xiàn)良好的分類(lèi)器;利用訓(xùn)練好的分類(lèi)器解決問(wèn)題。
在微博話題分類(lèi)問(wèn)題上,Sriram等人[1]摒棄了傳統(tǒng)的BOW特征模型,選取一個(gè)名詞性特征和七個(gè)二元特征(存在性特征),使用人工標(biāo)注的數(shù)據(jù),訓(xùn)練分類(lèi)器,并取得了不錯(cuò)的實(shí)驗(yàn)效果。
在垃圾微博識(shí)別問(wèn)題上,Liu等人[2]從微博的詞匯特征、狀態(tài)特征、用戶特征三個(gè)角度選取了若干特征,人工標(biāo)注了1 979條垃圾微博作為訓(xùn)練數(shù)據(jù),并使用了樸素貝葉斯、支持向量機(jī)、邏輯回歸三種分類(lèi)器做了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,整體的識(shí)別錯(cuò)誤率都比較低,其中支持向量機(jī)取得了最好的效果。
在問(wèn)答類(lèi)網(wǎng)站中高質(zhì)量回答識(shí)別問(wèn)題上,Agichtein等人[3]以問(wèn)題和答案文本為中心,結(jié)合提問(wèn)者和回答者相關(guān)的提問(wèn)、回答歷史信息,為每個(gè)問(wèn)題和答案構(gòu)造特征向量;通過(guò)人工閱讀提問(wèn)和回答,標(biāo)注出一定數(shù)量的高質(zhì)量問(wèn)答;訓(xùn)練分類(lèi)器,并進(jìn)行分類(lèi)識(shí)別。
2.2 電商網(wǎng)站評(píng)論分類(lèi)和識(shí)別問(wèn)題
總的說(shuō)來(lái),電商網(wǎng)站評(píng)論分類(lèi)和識(shí)別問(wèn)題,還是使用機(jī)器學(xué)習(xí)的方法,轉(zhuǎn)化為文本分類(lèi)問(wèn)題來(lái)處理的。需要完成的核心任務(wù)有三個(gè): ①針對(duì)需要分類(lèi)的評(píng)論數(shù)據(jù)集,尋找合適的訓(xùn)練數(shù)據(jù); ②尋找有效的特征; ③使用有效的分類(lèi)器。具體過(guò)程中,針對(duì)特定的評(píng)論數(shù)據(jù)集,衍生出具有各自特點(diǎn)的處理方法。
現(xiàn)有的處理方法主要有兩類(lèi): 一類(lèi)是直接針對(duì)評(píng)論文本本身進(jìn)行識(shí)別;另一類(lèi)是先查找垃圾評(píng)論發(fā)布者,然后再將他們的評(píng)論認(rèn)定為垃圾評(píng)論。
第一類(lèi)方法[4-7]中,有的利用評(píng)論文本和其對(duì)應(yīng)的評(píng)論者、被評(píng)論商品等相關(guān)信息來(lái)構(gòu)造特征向量;有的利用了心理語(yǔ)言學(xué)特征來(lái)構(gòu)造特征向量,通過(guò)人工標(biāo)注、眾包等手段人工生成,或采取其他辦法獲取訓(xùn)練數(shù)據(jù);最后訓(xùn)練分類(lèi)器并完成分類(lèi)工作。
第二類(lèi)方法[8-10]中,是通過(guò)尋找一定的行為模式,將這些行為模式抽象成特征向量,通過(guò)發(fā)現(xiàn)垃圾評(píng)論發(fā)布者的特殊行為和異常舉動(dòng),從而確定垃圾評(píng)論發(fā)布者,并最終找到他們發(fā)布的垃圾評(píng)論。
本文選取了在中國(guó)擁有最多用戶數(shù)的新浪微博作為研究對(duì)象,爬取了“認(rèn)證用戶”人民日?qǐng)?bào)在2013年4月21日至5月3日期間發(fā)布的微博及其評(píng)論作為實(shí)驗(yàn)數(shù)據(jù)。作為人民日?qǐng)?bào)的官方微博,它具有相當(dāng)大的影響力,發(fā)表的微博都是真實(shí)可靠的信息,對(duì)它所發(fā)表微博的評(píng)論往往也比較多。使用它的數(shù)據(jù),幫我們排除了垃圾微博的影響;同時(shí)它發(fā)表的微博評(píng)論中,包含了大眾的想法和觀點(diǎn),分析這些評(píng)論對(duì)于進(jìn)一步的輿情分析、觀點(diǎn)挖掘等工作具有很高的價(jià)值。
3.1 實(shí)驗(yàn)數(shù)據(jù)總體介紹
我們通過(guò)人工,隨機(jī)選擇性地閱讀了一部分微博及其評(píng)論,并通過(guò)程序?qū)@些微博和評(píng)論文本進(jìn)行了一些統(tǒng)計(jì)和分析。我們發(fā)現(xiàn)微博評(píng)論有其自身的一些特點(diǎn):
(1) 大多比較短小,一般為10~50個(gè)漢字;
(2) 具有很強(qiáng)的發(fā)散性,文字的表達(dá)形式很多樣;
(3) 包含大量的網(wǎng)絡(luò)新生詞匯;
(4) 除了中文,還夾雜著不少英文字母、符號(hào)、數(shù)字等字符。
3.2 評(píng)論價(jià)值性定義
Jindal等人[4-6]在研究電商的垃圾評(píng)論識(shí)別時(shí),將垃圾評(píng)論分為三類(lèi): 虛假評(píng)論、只針對(duì)某品牌的評(píng)論、沒(méi)有評(píng)價(jià)內(nèi)容的評(píng)論,他們的這一分類(lèi)被許多后來(lái)研究商品評(píng)論的學(xué)者所認(rèn)同。但這一分類(lèi)很難適用于微博的垃圾評(píng)論識(shí)別中。
電商網(wǎng)站中的商品評(píng)論針對(duì)的是某個(gè)具體的商品,因此針對(duì)這個(gè)商品的各方面特征和使用情況的真實(shí)陳述才是有用的評(píng)論,其他的評(píng)論都可以認(rèn)為是垃圾評(píng)論。微博評(píng)論則有很大的不同: 在微博本身就具有很強(qiáng)隨意性的情況下,它的評(píng)論具有很強(qiáng)的發(fā)散性,可以是針對(duì)微博的一段評(píng)價(jià),或講述評(píng)論用戶遇到的類(lèi)似事情,或由這條微博聯(lián)想到的其他事情;有的評(píng)論用戶還通過(guò)評(píng)論與微博作者或其他評(píng)論者交流。
結(jié)合微博評(píng)論的特點(diǎn),我們認(rèn)為,對(duì)于微博評(píng)論價(jià)值性的定義,應(yīng)該從文本相關(guān)性的角度來(lái)判斷。關(guān)于文本的“相關(guān)性”,趙玉茗[11]在她的博士論文中做了詳細(xì)的分析。參考了趙玉茗的研究成果,再結(jié)合微博評(píng)論的特點(diǎn),我們認(rèn)為: 評(píng)判微博與其評(píng)論相關(guān)性的標(biāo)準(zhǔn),應(yīng)該是以我們大多數(shù)人的知識(shí)儲(chǔ)備為基礎(chǔ)的,從語(yǔ)義、信息角度來(lái)看,微博與其評(píng)論所描述的抽象概念是否有重合的地方: 如果有,就是相關(guān)的;如果沒(méi)有,就是不相關(guān)的。從評(píng)論價(jià)值的大小來(lái)說(shuō),如果抽象概念重合的地方比較多,那么這條評(píng)論的價(jià)值就大;如果重合的地方比較少,那么這條評(píng)論的價(jià)值就小。最終的評(píng)判標(biāo)準(zhǔn),應(yīng)該是以人的判斷結(jié)果為依據(jù)。
從人的主觀角度來(lái)講,我們閱讀到的微博評(píng)論,有的用幾個(gè)字表達(dá)自己的喜怒哀樂(lè),有的爆個(gè)粗口,有的發(fā)布一個(gè)簡(jiǎn)單的表情,有的很認(rèn)真地寫(xiě)出幾十上百個(gè)字詳細(xì)地表達(dá)評(píng)論者的看法,很顯然,最后一種評(píng)論要比前幾種評(píng)論的參考、閱讀價(jià)值大得多。
本文的研究目的,就是找出與微博內(nèi)容不相關(guān)的垃圾評(píng)論;在剩下的評(píng)論中,對(duì)評(píng)論的價(jià)值進(jìn)行打分,價(jià)值大的評(píng)論得分就高,價(jià)值小的評(píng)論得分就低。
3.3 實(shí)驗(yàn)數(shù)據(jù)中評(píng)論價(jià)值性的分布情況
為了了解實(shí)驗(yàn)數(shù)據(jù)中評(píng)論價(jià)值性的分布情況,我們請(qǐng)了三位與本文工作無(wú)關(guān)的同學(xué),對(duì)評(píng)論進(jìn)行了人工閱讀,并標(biāo)注出所閱讀評(píng)論的價(jià)值大小。根據(jù)微博評(píng)論數(shù)目的分布情況,我們選取了五條微博作為代表,它們具有的評(píng)論數(shù)目分別是299、1 393、3 984、6 518、14 864。對(duì)于每條微博,從它的評(píng)論中隨機(jī)抽取出200條評(píng)論。
每位同學(xué)在閱讀完微博及其200條抽取出的評(píng)論后,需要給每條評(píng)論一個(gè)打分,分值有四種: 0分、1分、2分、3分,打分的原則如下:
(1) 0分: 評(píng)論與微博內(nèi)容無(wú)關(guān)(例如廣告),只是單純轉(zhuǎn)發(fā),只是單純@某人,只有一串無(wú)意義的字符等;
(2) 1分: 評(píng)論與微博內(nèi)容相關(guān),但評(píng)論內(nèi)容很簡(jiǎn)單,包含的有效信息量很少,例如只有一兩個(gè)詞組,或一個(gè)簡(jiǎn)短的句子;
(3) 2分: 評(píng)論與微博內(nèi)容相關(guān),具有比較完整的語(yǔ)句,比較完整地表達(dá)了自己的觀點(diǎn)或敘述了相關(guān)的事情;
(4) 3分: 評(píng)論與微博內(nèi)容相關(guān)性很強(qiáng),詳細(xì)表達(dá)了自己的觀點(diǎn)或看法,或者給出了建議,或者談了相關(guān)的一些事情。
我們將三位同學(xué)對(duì)同一條評(píng)論的打分相加,因此每一條評(píng)論的打分從0分至9分不等,共有10個(gè)等級(jí): 分?jǐn)?shù)越高,意味著該評(píng)論的價(jià)值越大;如果分?jǐn)?shù)為0,說(shuō)明三人一致認(rèn)為這條評(píng)論是與微博內(nèi)容無(wú)關(guān)的垃圾評(píng)論。五條微博評(píng)論的價(jià)值性分布如圖1所示(圖中的5條線,分別代表了擁有299、1 393、3 984、6 518、14 864條評(píng)論的微博)。
從圖1中可以看出:
(1) 不同微博,它的評(píng)論價(jià)值性分布是不盡相同的,沒(méi)有一個(gè)統(tǒng)一的分布形態(tài);
(2) 垃圾評(píng)論是廣泛存在的,不論哪一條微博,都有相當(dāng)數(shù)目的垃圾評(píng)論;
(3) 每條微博都有一定數(shù)量的高價(jià)值性評(píng)論,對(duì)于得分大于等于7的評(píng)論,說(shuō)明至少有一個(gè)人認(rèn)為該評(píng)論是具有高價(jià)值的,我們把這樣的評(píng)論認(rèn)為是高價(jià)值的評(píng)論。
圖1 5條微博評(píng)論的價(jià)值性分布
針對(duì)微博評(píng)論的相關(guān)特點(diǎn),本文提出了一種無(wú)指導(dǎo)學(xué)習(xí)的微博評(píng)論分析方法,將微博垃圾評(píng)論的識(shí)別和對(duì)評(píng)論價(jià)值的評(píng)估放在一起完成。
總體的思路是: 將識(shí)別問(wèn)題抽象成分類(lèi)學(xué)習(xí)問(wèn)題;采用合適的方法,自動(dòng)尋找出高質(zhì)量的訓(xùn)練用例;針對(duì)具體微博生成專(zhuān)屬于該微博的評(píng)論分類(lèi)模型,通過(guò)該模型對(duì)評(píng)論的價(jià)值性進(jìn)行評(píng)估,剔除出垃圾評(píng)論,并對(duì)其余評(píng)論的價(jià)值打分。
具體的步驟分為四步,下面我們分別介紹這些步驟中的關(guān)鍵技術(shù)。
4.1 微博文本的擴(kuò)展
每條微博及其評(píng)論的字?jǐn)?shù)都被限制在140字以內(nèi),它們都屬于短文本。與傳統(tǒng)的文本不同,短文本因?yàn)槠渥謹(jǐn)?shù)少,在缺少足夠上下文信息的環(huán)境中往往容易引起歧義;在為其構(gòu)造特征向量時(shí),都非常稀疏。所以,那些對(duì)于傳統(tǒng)文本分類(lèi)問(wèn)題能夠取得不錯(cuò)效果的機(jī)器學(xué)習(xí)和文本挖掘算法,在處理短文本問(wèn)題時(shí),往往就不太適用[12-13]。
基于短文本的特點(diǎn),很多學(xué)者做了相關(guān)研究,總的說(shuō)來(lái),針對(duì)短文本分類(lèi)的解決辦法,都是尋找合適的方法來(lái)擴(kuò)展和豐富短文本的表達(dá),以達(dá)到增加短文本信息量的目的。
本文在處理微博及其評(píng)論的時(shí)候,需要比較每條評(píng)論與其微博的相關(guān)性有多大。我們一樣也面臨著怎樣合理、有效地豐富短文本表達(dá)的問(wèn)題。針對(duì)微博及其評(píng)論具有的隨意性、發(fā)散性、含有大量網(wǎng)絡(luò)新生詞匯和新興表達(dá)方式等特點(diǎn)。我們提出了利用互聯(lián)網(wǎng)中搜索引擎的幫助,來(lái)擴(kuò)充微博文本表達(dá)的辦法。具體做法如下:
(1) 對(duì)微博文本進(jìn)行分詞,提取出其中的名詞;
(2) 將這些名詞兩兩組合作為關(guān)鍵詞,在搜索引擎中搜索,得到網(wǎng)頁(yè)摘要,我們實(shí)驗(yàn)中只取了前100條摘要;
(3) 對(duì)這些網(wǎng)頁(yè)摘要進(jìn)行分詞,并提取出名詞;
(4) 將第(1)步和第(3)步中的名詞放在一起,作為對(duì)微博文本的擴(kuò)充。
需要說(shuō)明的是,我們只對(duì)微博文本進(jìn)行擴(kuò)充,而對(duì)每條評(píng)論不進(jìn)行擴(kuò)充。我們的目的,是確定一條評(píng)論與微博是否相關(guān),以及相關(guān)度有多大;微博是中心,評(píng)論是圍繞微博涉及的概念與話題而存在和展開(kāi)的。因?yàn)槲⒉┳疃嘀荒苡?40字,在這么少的文字里,只單純依靠其詞匯層面的文本來(lái)與具有相當(dāng)大發(fā)散性的評(píng)論進(jìn)行相關(guān)性比較,不能得到很好的結(jié)果,所以需要對(duì)微博文本進(jìn)行擴(kuò)充。
4.2 特征向量的構(gòu)造
我們的工作核心,是找出微博與其評(píng)論在概念和話題層面的相關(guān)性,語(yǔ)法結(jié)構(gòu)層面和詞匯形態(tài)層面的相似性相對(duì)顯得不是那么重要。所以,我們關(guān)注的重點(diǎn)是微博與其評(píng)論文本中所包含的有實(shí)際意義的詞組。鑒于此,我們?yōu)槲⒉┘捌湓u(píng)論構(gòu)造特征向量時(shí),決定使用向量空間模型。向量中每一維度的值反映了相應(yīng)詞語(yǔ)在文檔中的重要性,本文采用了TF-IDF模型計(jì)算每個(gè)詞語(yǔ)的權(quán)重。
4.3 訓(xùn)練用例的自動(dòng)選取
針對(duì)微博評(píng)論識(shí)別問(wèn)題,如果能夠通過(guò)人工去閱讀所有的評(píng)論,先標(biāo)注出跟微博內(nèi)容不相關(guān)的垃圾評(píng)論,再?gòu)氖O碌脑u(píng)論中找出高價(jià)值的評(píng)論,這樣得到的訓(xùn)練數(shù)據(jù)質(zhì)量是最高的。但在現(xiàn)實(shí)中,這將耗費(fèi)巨大的時(shí)間和精力,同時(shí)有限的人手也不可能將浩如煙海的所有微博及其評(píng)論都閱讀一遍。
如果有一個(gè)辦法,不需要人工的參與,就能自動(dòng)將質(zhì)量最好的數(shù)據(jù)抽取出來(lái),也就是將價(jià)值最大的評(píng)論和價(jià)值最小的評(píng)論抽取出來(lái),用它們作為訓(xùn)練用例來(lái)訓(xùn)練分類(lèi)器,那么將會(huì)取得不錯(cuò)的效果。我們?cè)诒疚奶岢龅姆椒?,就是希望做到這一點(diǎn)。
通過(guò)對(duì)評(píng)論數(shù)據(jù)的仔細(xì)觀察,我們發(fā)現(xiàn)高質(zhì)量評(píng)論和垃圾評(píng)論有一些很明顯的特征:
(1) 高質(zhì)量評(píng)論: 出現(xiàn)的名詞與微博所包含的話題和概念有很強(qiáng)的相關(guān)性,所包含的字?jǐn)?shù)往往也比較多。
(2) 垃圾評(píng)論: 主要有兩種情況,一種就是字?jǐn)?shù)很少,或者僅僅是一個(gè)轉(zhuǎn)發(fā)、一個(gè)@“某人”;另一種是字?jǐn)?shù)很多,但內(nèi)容完全就是跟微博無(wú)關(guān)的廣告、求關(guān)注,或其他雜亂的文字。
總的說(shuō)來(lái),我們發(fā)現(xiàn): 與微博越相關(guān)的評(píng)論,它的價(jià)值性往往越大;與微博越不相關(guān)的評(píng)論,它的價(jià)值性往往越小。針對(duì)這些特點(diǎn),我們認(rèn)為,通過(guò)比較評(píng)論與微博的相關(guān)性,那些最相關(guān)和最不相關(guān)的評(píng)論,就是我們想尋找的高質(zhì)量訓(xùn)練用例。
本文的做法是: 將每條評(píng)論與擴(kuò)展后的微博進(jìn)行相關(guān)性的比較,根據(jù)相關(guān)性的大小對(duì)評(píng)論進(jìn)行排序;將排在最前面的n條評(píng)論和排在最后面的n條評(píng)論分別作為訓(xùn)練用例的正負(fù)例(n的取值根據(jù)實(shí)驗(yàn)中具體的評(píng)論數(shù)目來(lái)定)。利用這些高質(zhì)量的訓(xùn)練用例,訓(xùn)練出分類(lèi)器后,再對(duì)評(píng)論進(jìn)行預(yù)測(cè)分類(lèi)。
在比較評(píng)論與擴(kuò)展后微博相關(guān)性的問(wèn)題上,我們使用了趙玉茗[11]在她論文中提到的“系統(tǒng)相似性模型(system similarity model,SSM)”,并做了簡(jiǎn)單改造。
對(duì)于兩個(gè)句子A與B,在向量空間模型中,它們的向量表示分別為:
語(yǔ)句A=(x1,x2,…,xm),m=|A|;語(yǔ)句B=(y1,y2,…,yn),n=|B|。
它們的系統(tǒng)相似性計(jì)算公式為式(1)。
(1)
其中,對(duì)于語(yǔ)句A中的詞xi,在語(yǔ)句B中存在與其有最大相似度的詞yj,這兩個(gè)詞之間的相似度,就是μi。為了排除兩個(gè)詞之間相似度過(guò)小時(shí)對(duì)語(yǔ)句相似性的干擾,我們?cè)O(shè)置了一個(gè)閾值μ0,將相似度小于該閾值的詞語(yǔ)對(duì)剔除。對(duì)于詞語(yǔ)之間相似度的計(jì)算,我們采用了基于知網(wǎng)的語(yǔ)義相似度計(jì)算方法。
4.4 垃圾評(píng)論識(shí)別與評(píng)論價(jià)值評(píng)估
為了完成垃圾評(píng)論識(shí)別與評(píng)論價(jià)值評(píng)估這兩個(gè)任務(wù),我們采用了邏輯回歸分類(lèi)器。邏輯回歸(logistic regression)是當(dāng)前比較常用的一種機(jī)器學(xué)習(xí)方法,具有求解速度快、應(yīng)用方便等特點(diǎn)。
我們選擇邏輯回歸分類(lèi)器的原因在于: 該模型可以用于估計(jì)某種事件發(fā)生的可能性大小,而不僅僅只是單純地分類(lèi)。我們可以用邏輯回歸計(jì)算出的概率值對(duì)應(yīng)地表示評(píng)論價(jià)值的大小。
5.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
本文的實(shí)驗(yàn)數(shù)據(jù),就是上文分析評(píng)論價(jià)值性分布情況時(shí)使用的五條微博及其評(píng)論。對(duì)于每條微博,將人工標(biāo)注的200條評(píng)論作為測(cè)試用例。對(duì)于得分為0的評(píng)論,說(shuō)明三人一致認(rèn)為這條評(píng)論是與微博內(nèi)容無(wú)關(guān)的,所以將這樣的評(píng)論認(rèn)定為垃圾評(píng)論;對(duì)于其余的評(píng)論,得分越高說(shuō)明該評(píng)論的價(jià)值性越大。
為了有所比較,除了本文提出的方法,即基于微博擴(kuò)展的無(wú)指導(dǎo)學(xué)習(xí)評(píng)論價(jià)值分析(microblog extension based unsupervised comment analysis,MUCA),我們還做了兩組對(duì)比實(shí)驗(yàn):
(1) 在選擇訓(xùn)練用例時(shí),從每條微博的評(píng)論中隨機(jī)抽取若干評(píng)論,使用人工的方法進(jìn)行評(píng)判,之后的訓(xùn)練、測(cè)試流程與本文提出的方法一樣,為了方便,我們將該方法簡(jiǎn)稱為MNTD(manual notate training data);
(2) 對(duì)微博內(nèi)容不進(jìn)行擴(kuò)展,其他的訓(xùn)練用例尋找、分類(lèi)器訓(xùn)練、測(cè)試方法與本文提出的方法一樣。
在對(duì)微博內(nèi)容不進(jìn)行擴(kuò)展的對(duì)比實(shí)驗(yàn)中我們發(fā)現(xiàn),因?yàn)槲⒉┍旧砦谋镜膬?nèi)容太短小,所以當(dāng)它的評(píng)論與其進(jìn)行相關(guān)性比較時(shí),幾乎所有的評(píng)論與其相關(guān)性都為0,所以接下來(lái)自動(dòng)尋找訓(xùn)練用例的工作就根本無(wú)法進(jìn)行下去。
這個(gè)結(jié)果也證明了,在比較微博與其評(píng)論這類(lèi)短文本之間的相關(guān)性時(shí),對(duì)微博短文本進(jìn)行擴(kuò)展的必要性。所以我們的實(shí)驗(yàn)結(jié)果對(duì)比,在本文提出的方法與人工尋找訓(xùn)練用例的方法之間進(jìn)行。
對(duì)于人工尋找訓(xùn)練用例的方法,我們需要額外給它標(biāo)注訓(xùn)練用例,我們請(qǐng)了一位與本文工作無(wú)關(guān)的同學(xué)(該同學(xué)不在上文中標(biāo)注評(píng)論價(jià)值性的同學(xué)之列)來(lái)標(biāo)注訓(xùn)練用例。具體標(biāo)注訓(xùn)練用例的個(gè)數(shù),與MUCA自動(dòng)選取的訓(xùn)練用例個(gè)數(shù)一致。
在介紹訓(xùn)練用例的自動(dòng)獲取時(shí),我們需要分別提取相關(guān)性排名最前和最后的評(píng)論作為正負(fù)例。這里,我們分別提取了排名分別在最前和最后的15%、10%、5%、2.5%、0.5%的評(píng)論,得到了五組實(shí)驗(yàn)結(jié)果。
人工標(biāo)注數(shù)據(jù)是非常耗時(shí)、耗精力的一件事,對(duì)于擁有14 864條評(píng)論的微博,如果標(biāo)注其30%的評(píng)論,需要標(biāo)注4 440條評(píng)論,工作量太大,所以我們只人工標(biāo)注了一部分的評(píng)論,來(lái)做對(duì)比實(shí)驗(yàn)。人工標(biāo)注的評(píng)論數(shù)目統(tǒng)計(jì)表如表1所示(未標(biāo)注的數(shù)據(jù)用井號(hào)示意,下同)。
在垃圾評(píng)論識(shí)別方面,我們使用了準(zhǔn)確率作為評(píng)價(jià)指標(biāo);在評(píng)論價(jià)值識(shí)別方面,我們使用了NDCG作為評(píng)價(jià)指標(biāo)。
NDCG是信息檢索領(lǐng)域里對(duì)于排序結(jié)果進(jìn)行評(píng)判的常用指標(biāo),是對(duì)DCG的一種歸一化處理。它的思想就是: 排序的結(jié)果列表中,價(jià)值越大的評(píng)論出現(xiàn)在越靠前,排序的效果就越好。DCG的計(jì)算公式如式(2)所示。
(2)
其中,reli是第i位評(píng)論的得分;不同位置處的評(píng)論,其重要性是不一樣的,所以給其賦予了相應(yīng)的權(quán)重,對(duì)于rel1,因?yàn)閘og21=0,不能將其作為分母,所以我們單獨(dú)將其列在最前面。
NDCG是對(duì)DCG的一種歸一化處理,使得NDCG的結(jié)果介于0和1之間,便于比較。其計(jì)算公式為式(3)。
(3)
IDCG(ideal DCG)是最理想排序情況下的DCG值,是將最理想的排序結(jié)果,使用DCG的計(jì)算公式算得的一個(gè)數(shù)值。
表1 人工標(biāo)注的評(píng)論數(shù)目統(tǒng)計(jì)表
5.2 垃圾評(píng)論識(shí)別結(jié)果與分析
垃圾評(píng)論識(shí)別結(jié)果如表2所示(其中微博1~5,分別代表了擁有299、1 393、3 984、6 518、14 864條評(píng)論的微博)。
表2 垃圾評(píng)論識(shí)別結(jié)果
從實(shí)驗(yàn)結(jié)果中,我們可以得出一些結(jié)論:
從所有評(píng)論中抽取較高比例的評(píng)論作為訓(xùn)練用例時(shí),MNTD的效果比MUCA的效果要好。但抽取較低比例的評(píng)論作為訓(xùn)練用例時(shí),MUCA的效果較好。這說(shuō)明,我們的MUCA在自動(dòng)選擇訓(xùn)練用例時(shí),傾向于把質(zhì)量比較高的正負(fù)用例選出來(lái)。因?yàn)镸NTD的訓(xùn)練用例是隨機(jī)選出的,所以不能夠保證選出來(lái)用例的質(zhì)量;但是,當(dāng)人工標(biāo)注的訓(xùn)練用例所占比例較大時(shí),人工標(biāo)注垃圾評(píng)論的質(zhì)量就能夠顯現(xiàn)出來(lái)。
我們發(fā)現(xiàn): 對(duì)于有的微博,使用兩種方法,垃圾評(píng)論識(shí)別的效果都還不錯(cuò);但另一些微博,使用兩種方法,識(shí)別率都不是很理想。我們仔細(xì)閱讀了這些微博及其評(píng)論,發(fā)現(xiàn)這跟微博評(píng)論的整體價(jià)值性有關(guān)。對(duì)于有6 518條評(píng)論的微博,它的評(píng)論中本身有價(jià)值的評(píng)論就不多;而擁有1 393條評(píng)論的微博,它的評(píng)論中有很多較有實(shí)質(zhì)內(nèi)容和參考價(jià)值的評(píng)論。這說(shuō)明,如果該微博的所有評(píng)論里,有價(jià)值的評(píng)論越多,那么在尋找垃圾評(píng)論時(shí),就越容易找準(zhǔn)。
5.3 評(píng)論價(jià)值識(shí)別結(jié)果與分析
評(píng)論價(jià)值識(shí)別結(jié)果如表3所示(其中微博1~5,分別代表了擁有299、1 393、3 984、6 518、14 864條評(píng)論的微博)。
表3 評(píng)論價(jià)值識(shí)別結(jié)果
從實(shí)驗(yàn)結(jié)果中,我們可以得出一些結(jié)論:
總的說(shuō)來(lái),在對(duì)評(píng)論價(jià)值性的評(píng)估上,MUCA比MNTD效果要好。
不同的微博,其評(píng)論的整體價(jià)值性會(huì)有差別,如果評(píng)論價(jià)值整體較高,排序效果會(huì)好些;如果評(píng)論價(jià)值整體較低,排序效果會(huì)差些。對(duì)于評(píng)論價(jià)值性的排序任務(wù)來(lái)說(shuō),本文MUCA方法的整體性能還是比較穩(wěn)定的。這也說(shuō)明,使用本文的MUCA方法,能夠較好地對(duì)微博評(píng)論的價(jià)值性進(jìn)行排序。
本文通過(guò)對(duì)微博評(píng)論數(shù)據(jù)的統(tǒng)計(jì)與分析,提出了基于無(wú)指導(dǎo)學(xué)習(xí)的微博評(píng)論分析方法。首先,利用互聯(lián)網(wǎng)對(duì)微博文本進(jìn)行擴(kuò)展;然后,通過(guò)比較評(píng)論與擴(kuò)展后微博的相似性,提取出相似性較大和較小的評(píng)論作為訓(xùn)練用例;最后,訓(xùn)練出邏輯回歸分類(lèi)器,并對(duì)評(píng)論價(jià)值性進(jìn)行預(yù)測(cè)。該方法可以在無(wú)人工參與的情況下,針對(duì)每條微博訓(xùn)練出專(zhuān)屬于該微博的評(píng)論識(shí)別分類(lèi)器,利用該分類(lèi)器識(shí)別出垃圾評(píng)論和評(píng)論的價(jià)值性。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地識(shí)別出垃圾評(píng)論和評(píng)論的價(jià)值性。
在對(duì)每條評(píng)論構(gòu)造特征向量時(shí),因其內(nèi)容短小,所以構(gòu)造出的特征向量極其稀疏。如何更好地構(gòu)造特征向量,以反映評(píng)論的價(jià)值性,是我們下一步工作的方向。另一方面,我們也在考慮如何更好地應(yīng)用現(xiàn)有的技術(shù)手段,進(jìn)行特征提取,從而找出對(duì)解決問(wèn)題最重要的特征。
[1] Sriram B, Fuhry D, Demir E, et al. Short text classification in twitter to improve information filtering. [C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. ACM, 2010, 841-842.
[2] Liu L, Jia K. Detecting spam in chinese microblogs-a study on sina weibo. [C]//Proceedings of the Computational Intelligence and Security (CIS), 2012 Eighth International Conference. IEEE, 2012, 578-581.
[3] Agichtein E, Castillo C, Donato D, et al. Finding high-quality content in social media. [C]//Proceedings of the 2008 International Conference on Web Search and Data Mining. ACM, 2008, 183-194.
[4] Jindal N, Liu B. Opinion spam and analysis. [C]//Proceedings of the 2008 International Conference on Web Search and Data Mining. ACM, 2008, 219-230.
[5] Jindal N, Liu B. Review spam detection. [C]//Proceedings of the 16th international conference on World Wide Web. ACM, 2007, 1189-1190.
[6] Jindal N, Liu B. Analyzing and detecting review spam. [C]//Proceedings of 7th IEEE International Conference on. IEEE, 2007, 547-552.
[7] Ott M, Choi Y, Cardie C, Hancock J T. Finding deceptive opinion spam by any stretch of the imagination. [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics. 2011, 1: 309-319.
[8] Mukherjee A, Liu B, Wang J, et al. Detecting group review spam. [C]//Proceedings of the 20th international conference companion on World Wide Web. ACM, 2011, 93-94.
[9] Mukherjee A, Liu B, Glance N. Spotting fake reviewer groups in consumer reviews. [C]//Proceedings of the 21st international conference on World Wide Web. ACM, 2012, 191-200.
[10] Lim E P, Nguyen V A, Jindal N, et al. Detecting product review spammers using rating behaviors. [C]//Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010, 939-948.
[11] 趙玉茗. 文本間語(yǔ)義相關(guān)性計(jì)算及其應(yīng)用研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文, 2009.
[12] Healy M, Delany S J, Zamolotskikh A. An assessment of case base reasoning for short text message classification. [C]//Proceedings of the 16th Irish Lonference on Artifical Intelligence & Coguitive Science (AICI’05), 2005: 257-266.
[13] Chen M, Jin X, Shen D. Short text classification improved by learning multi-granularity topics. [C]//Proceedings of the Twenty-Second international joint conference on Artificial Intelligence. AAAI Press, 2011, 3: 1776-1781.
Unsupervised Microblog Comment Analysis
XU Shuaishuai, DAI Xinyu, HUANG Shujian, CHEN Jiajun
(State Key Laboratory for Novel Software Technology at Nanjing University, Nanjing, Jiangsu 210023, China)
The valuable microblog comments can be supplied to the readers, or be provided to some tasks like public opinion analysis and text mining. To detect such valuable comment, this paper presents an unsupervised comments analysis method. Firstly, we use the search engine to expand the microblog text. Secondly, we use the correlation measure to get the most valuable comments and the most invaluable comments, respectively. Finally, we generate a comment classification model to assess the comment value. The experimental results show our method performs well on the task of valuable comments recognition.
microblog comment; value; unsupervised; comment filter
徐帥帥(1986—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:x_sh_sh@163.com戴新宇(1979—),博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理和文本挖掘。E?mail:daixinyu@nju.edu.cn黃書(shū)劍(1984—),博士,助理研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理和機(jī)器翻譯。E?mail:huangshujian@gmail.com
2015-03-19 定稿日期: 2015-04-30
國(guó)家自然科學(xué)基金(61170181);江蘇省自然科學(xué)基金(BK2011192);國(guó)家社會(huì)科學(xué)基金(11AZD121)
1003-0077(2017)02-0179-08
文獻(xiàn)標(biāo)識(shí)碼: