王慧瑤
2010年國(guó)內(nèi)微博發(fā)展趨勢(shì)迅猛,四大門戶網(wǎng)站均開設(shè)微博。微博是一個(gè)基于用戶關(guān)系信息分享、傳播以及獲取的平臺(tái),微博客更能表達(dá)出每時(shí)每刻的思想和最新動(dòng)態(tài)。并且,我國(guó)旅游業(yè)總體保持平穩(wěn)較快發(fā)展。國(guó)內(nèi)旅游市場(chǎng)繼續(xù)較快發(fā)展,入境旅游市場(chǎng)基本持平,出境旅游市場(chǎng)繼續(xù)快速增長(zhǎng)。那么面向微博的社會(huì)化推薦就應(yīng)運(yùn)而生,可以通過用戶在微博的動(dòng)態(tài),經(jīng)過智能化分析,為他們提供相應(yīng)的旅游資訊。
【關(guān)鍵詞】微博用戶 分類 旅游推薦
為微博用戶提供高質(zhì)服務(wù),提高用戶滿意度已經(jīng)成為微博企業(yè)重要工作,由于用戶需求的不同,使得人們興趣愛好也就不同,這就需要發(fā)現(xiàn)用戶興趣內(nèi)容,做好分類,向用戶推薦更有興趣的微博信息。同時(shí)改變目前旅游信息行業(yè)的現(xiàn)狀迫在眉睫,鑒于微博作為一個(gè)能表達(dá)出用戶的真實(shí)思想和最新動(dòng)態(tài)的平臺(tái),完全可以作為提取每個(gè)人的興趣愛好,旅游意向的數(shù)據(jù)來源。面向微博的旅游推薦的主要思想是搭建一個(gè)可針對(duì)不同用戶的具體特征,給出相應(yīng)智能化推薦的一個(gè)旅游信息智能推薦平臺(tái).而此類智能推薦系統(tǒng)與普通系統(tǒng)中的旅游景點(diǎn)推薦服務(wù)最大的差別在于“推薦”的方法.區(qū)別于普通推薦系統(tǒng)的簡(jiǎn)單匹配,智能推薦的最大變化是:可以因人而異的進(jìn)行智能推薦。為實(shí)現(xiàn)這一目標(biāo),可以將數(shù)據(jù)挖掘技術(shù)應(yīng)用其中,以此為基礎(chǔ)做好微博用戶分類。
1 微博用戶特點(diǎn)
微博中含有大量的信息,不僅有用戶發(fā)表微博的數(shù)量統(tǒng)計(jì),用戶關(guān)注人員以及粉絲數(shù)量,還有很多與用戶個(gè)人相關(guān)的信息,如性別、微博等級(jí)、相冊(cè)等內(nèi)容。對(duì)于微博用戶來說,主要有三種,分別為一般用戶、領(lǐng)袖用戶以及功能用戶。其中,一般用戶多指年齡在18-30周歲之間群體,這些用戶人群學(xué)歷相對(duì)較高,不僅有學(xué)生,還有普通工作人員,此類用戶比較喜歡接受新事物,自身表達(dá)能力與參與社會(huì)活動(dòng)的意識(shí)也很強(qiáng)。而領(lǐng)袖用戶相對(duì)較少,多以著名商人、作家等為主,他們所發(fā)表的內(nèi)容多為自己從事領(lǐng)域的內(nèi)容,所以,他們的興趣基本固定。功能微博就是以某一平臺(tái)或商家的名義所發(fā)布的微博,此類微博的興趣較為廣泛,涉面也很廣,但數(shù)量并不多,但卻不缺乏影響力,它的粉絲也很多。
2 微博用戶興趣分類與景點(diǎn)推薦
通過研究微博用戶關(guān)注的內(nèi)容,就可以了解到用戶興趣取向,如對(duì)于領(lǐng)袖用戶來說,他們多關(guān)注與自身研究領(lǐng)域相關(guān)的內(nèi)容,這樣微博在為其推薦相關(guān)景點(diǎn)時(shí)也會(huì)根據(jù)興趣愛好標(biāo)簽確定,以保證為用戶推出的出游景點(diǎn)內(nèi)容都是用戶感興趣的部分,如針對(duì)南派三叔這類的文學(xué)名人,所推出的景點(diǎn)信息多以有人文特點(diǎn)的景點(diǎn),如三味書屋或國(guó)家臺(tái)灣文學(xué)館等為主。同樣對(duì)于功能微博用戶,也會(huì)根據(jù)其類型推薦相關(guān)微博,如針對(duì)萬達(dá)影訊這種大V所提供的微博,主要以時(shí)尚生活的景點(diǎn)和資訊為主,這些都是根據(jù)微博用戶特點(diǎn)確定的相應(yīng)的景點(diǎn)分類。面向微博的旅游推薦的主要思路具體如下:
2.1 數(shù)據(jù)的收集
2.1.1 語料收集
語料來源于NLPIR微博內(nèi)容語料庫(kù)由北京理工大學(xué)網(wǎng)絡(luò)搜索挖掘與安全實(shí)驗(yàn)室張華平博士,通過公開采集與抽取從新浪微博、騰訊微博中獲得。本次實(shí)驗(yàn)取該語料庫(kù)中得20000條。
2.1.2 景點(diǎn)信息設(shè)置
人工在數(shù)據(jù)庫(kù)中進(jìn)行景點(diǎn)信息錄入。
2.2 聚類分析數(shù)據(jù)樣本
首先,明確用戶興趣集合H,以便概括出具有相同興趣的微博用戶。如在吃貨中,主要是推薦一些有地方特色小吃或有名美食的景點(diǎn),同時(shí)也包括一些特色飯店等內(nèi)容。盡管這種分類不一定是用戶興趣愛好,但也可以使用戶把握相關(guān)行業(yè)動(dòng)態(tài)信息。因此,將其作為聚類分析數(shù)據(jù)樣本也有一定作用。其次,利用景點(diǎn)信息集合T,找出每一個(gè)景點(diǎn)所具有的特點(diǎn),構(gòu)成景點(diǎn)特征集合L。最后,根據(jù)事先確定好的用戶興趣愛好,為之推薦符合其興趣特征的景點(diǎn)。具體實(shí)現(xiàn)思路如下:
(1)以覆蓋人數(shù)為標(biāo)準(zhǔn),選出7個(gè)特征詞確定微博用戶喜好類別。要了解用戶的微博信息的特點(diǎn),可以利用以下方法確定用戶的興趣。先設(shè)定興趣集合H,在H下設(shè)有多個(gè)相同的興趣名稱,即(h1,h2,h3……h(huán)n)(n∈N+),這里的微博用戶分類體系將用戶分為七個(gè)大類:吃貨、購(gòu)物、攝影、體育、教育、情侶、藝術(shù)。
(2)以這7個(gè)特征詞為標(biāo)準(zhǔn)對(duì)微博進(jìn)行人工標(biāo)注,并對(duì)無效微博進(jìn)行過濾。即進(jìn)行語料加工,從語料中選取了具有鮮明特征的語料,對(duì)其進(jìn)行分類標(biāo)注并去除無效信息,標(biāo)注句子。
(3)景點(diǎn)類別的確定。同時(shí)設(shè)置旅游景點(diǎn)集合T,在T下設(shè)有多個(gè)景點(diǎn),即(t1,t2,t3……tn)(n∈N+)因不是任何景點(diǎn)都能滿足用戶興趣,所以還需要具有代表性的且能夠被用戶興趣標(biāo)示的景點(diǎn)類別集合L,即(l1,l2,l3……ln)(n∈N+),這樣就可以便于找到具有相同風(fēng)格的景點(diǎn)。這里的旅游景點(diǎn)對(duì)應(yīng)上述微博用戶興趣的七大類:飲食、購(gòu)物、自然、運(yùn)動(dòng)、游學(xué)、度假、人文。
2.3 景點(diǎn)與微博用戶進(jìn)行對(duì)應(yīng)特征匹配
根據(jù)收集的微博用戶數(shù)據(jù),確定用戶的可能感興趣的景點(diǎn)集合。即找出指定用戶的興趣愛好集合(h1,h2,h3……h(huán)n),從L(l1,l2,l3……ln)中,分別針對(duì)用戶所擁有的興趣特征找出與之到對(duì)應(yīng)的景點(diǎn)類別的映射(l1,l2,l3…lk)→h。此時(shí)通過微博用戶特征到景點(diǎn)特征的匹配,微博用戶可能感興趣的景點(diǎn)的集合就確定出來了,在數(shù)據(jù)庫(kù)中可以查詢到其中任何一個(gè)人所屬的興趣特征。
2.4 興趣特征加權(quán)
上述數(shù)據(jù)庫(kù)中微博用戶的特征向量其實(shí)為布爾邏輯型,即只能確定用戶是否屬于某一興趣特征類別,而無法確定用戶對(duì)其偏好程度,為了能夠更加定量精準(zhǔn)的表達(dá)用戶屬于某個(gè)興趣特征的程度,在此引入興趣偏好程度進(jìn)行所屬特征的加權(quán)計(jì)算式,即利用該興趣特征在該用戶所有興趣中所占的權(quán)重得出:W(hk)=Count(hk)/Sum(h)。W(hk)∈[0,1],其值越大則代表用戶該興趣特征表現(xiàn)越明顯,0代表用戶無此興趣特征。
3 結(jié)論
通過以上分析得知,微博用戶在逐漸增多,用戶出行的需求也逐漸增加。為給用戶滿意的推薦,就需要發(fā)現(xiàn)與了解用戶特點(diǎn),根據(jù)用戶特點(diǎn)對(duì)景點(diǎn)進(jìn)行分類。而做好數(shù)據(jù)分類,這就需要應(yīng)用到數(shù)據(jù)挖掘技術(shù)根據(jù)用戶特點(diǎn)為其推薦相關(guān)景點(diǎn)信息,以便達(dá)到猜用戶所想景點(diǎn)推薦。
參考文獻(xiàn)
[1]宋雙永,李秋丹,路冬媛.面向微博客的熱點(diǎn)事件情感分析方法[J].計(jì)算機(jī)科學(xué),2012,S1:226-228+260.
[2]王連喜,蔣盛益,龐觀松,吳美玲.微博用戶關(guān)系挖掘研究綜述[J].情報(bào)雜志,2012,12:91-97+57.
作者單位
山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 山西省太原市 030006