宋 巍,劉麗珍,王函石
(首都師范大學(xué)信息工程學(xué)院,北京100048)
?
基于興趣偏好的微博用戶(hù)性別推斷研究
宋 巍,劉麗珍,王函石
(首都師范大學(xué)信息工程學(xué)院,北京100048)
用戶(hù)屬性,如:性別、年齡等,是計(jì)算心理學(xué)、個(gè)性化搜索、社會(huì)化商業(yè)推廣等研究和應(yīng)用考察的核心因素.利用用戶(hù)生成數(shù)據(jù)自動(dòng)推斷用戶(hù)屬性成為新興的研究課題.本文提出基于用戶(hù)興趣偏好研究微博用戶(hù)的性別推斷問(wèn)題.考察了用戶(hù)內(nèi)容偏好以及關(guān)注行為偏好對(duì)性別推斷的作用.在新浪微博近萬(wàn)名用戶(hù)的數(shù)據(jù)集上證明了用戶(hù)偏好特征的有效性.與傳統(tǒng)的語(yǔ)用特征相比,將用戶(hù)內(nèi)容偏好與關(guān)注偏好相結(jié)合能夠顯著提高推斷準(zhǔn)確率.關(guān)注偏好特征對(duì)推斷非活躍用戶(hù)的性別尤其有效.
用戶(hù)隱藏屬性;用戶(hù)性別推斷;用戶(hù)偏好建模;社交媒體
隨著大規(guī)模用戶(hù)生成的內(nèi)容與行為數(shù)據(jù)被采集與保存,自動(dòng)分析用戶(hù)數(shù)據(jù)從而深入理解個(gè)人和群體的基本信息、挖掘社會(huì)心理和行為模式,成為多學(xué)科共同關(guān)注的重要課題.計(jì)算社會(huì)學(xué)[1]、計(jì)算心理學(xué)[2]等交叉研究領(lǐng)域應(yīng)運(yùn)而生.
在此背景下,對(duì)用戶(hù)信息的深度理解成為其中核心問(wèn)題.由于涉及隱私,個(gè)人用戶(hù)的基本信息通常無(wú)法直接獲取.用戶(hù)隱藏屬性推斷,即自動(dòng)推測(cè)用戶(hù)沒(méi)有顯式公開(kāi)的個(gè)人屬性,如:性別、年齡等,具有重要意義并將在個(gè)性化搜索與推薦[3,4]、心理狀況診斷[5]等方面發(fā)揮重要作用.
微博已成為人們記錄生活,分享與獲取信息和彼此互聯(lián)的最主要平臺(tái),提供了豐富的用戶(hù)語(yǔ)言、行為和社會(huì)關(guān)系等方面的公開(kāi)數(shù)據(jù).為研究用戶(hù)隱藏屬性推斷問(wèn)題提供了充分的數(shù)據(jù)準(zhǔn)備.
用戶(hù)隱藏屬性推斷的主流方法是分析用戶(hù)文本中體現(xiàn)出的語(yǔ)言特征,如習(xí)慣使用的詞語(yǔ)類(lèi)別[6,7],用戶(hù)使用詞語(yǔ)的頻次統(tǒng)計(jì)[8]等.語(yǔ)言是人類(lèi)內(nèi)在心理的外在表現(xiàn),語(yǔ)言特征毫無(wú)疑問(wèn)是推斷用戶(hù)屬性的重要因素.然而,具有不同屬性的用戶(hù)的區(qū)別不僅僅體現(xiàn)在語(yǔ)言使用上的偏好,同時(shí)也體現(xiàn)在其興趣愛(ài)好、品味等多個(gè)方面.這些特征很難通過(guò)簡(jiǎn)單的詞類(lèi)和詞頻統(tǒng)計(jì)精確描述,需要采用更為有效的用戶(hù)建模方法.此外,語(yǔ)言使用特征依賴(lài)于用戶(hù)生成文本的規(guī)模.已有研究主要針對(duì)活躍用戶(hù)進(jìn)行實(shí)驗(yàn),但在社交媒體中存在大量的非活躍用戶(hù)和新加入用戶(hù).他們未發(fā)布足夠的文本內(nèi)容,但依然獲取信息并且是潛在商業(yè)應(yīng)用的消費(fèi)者.針對(duì)這些非活躍用戶(hù),能否利用文本數(shù)據(jù)之外的社交媒體上的關(guān)系信息作為補(bǔ)充,從新的維度描述用戶(hù)特質(zhì)和改進(jìn)用戶(hù)屬性推斷性能也是有價(jià)值的研究問(wèn)題.
本文從用戶(hù)興趣偏好建模這一新角度研究用戶(hù)屬性推斷問(wèn)題并以性別推斷為例進(jìn)行驗(yàn)證.本文的主要貢獻(xiàn)包括:
(1)提出利用用戶(hù)興趣偏好建模推斷用戶(hù)隱藏屬性的新思路.將用戶(hù)內(nèi)容與關(guān)注行為相結(jié)合建立用戶(hù)的內(nèi)容偏好與關(guān)注偏好,構(gòu)建性別推斷的辨別特征.實(shí)驗(yàn)表明用戶(hù)興趣偏好特征比傳統(tǒng)的語(yǔ)用特征更為有效.
(2)深入分析特征對(duì)不同活躍程度用戶(hù)的推斷效果.實(shí)驗(yàn)表明針對(duì)發(fā)布內(nèi)容較少的非活躍用戶(hù),利用不依賴(lài)文本內(nèi)容的用戶(hù)關(guān)注偏好特征推斷更為有效且健壯.
2.1 用戶(hù)隱藏屬性推斷
用戶(hù)隱藏屬性是指用戶(hù)沒(méi)有或者無(wú)法顯式提供的屬性,如:性別、年齡、教育層次、消費(fèi)水平和人格特質(zhì)(personal traits)等.有研究表明,社交媒體上的用戶(hù)不會(huì)為了隱藏自己的屬性和心理特質(zhì)蓄意地改變自己的信息和表達(dá)方式[9].因此,利用用戶(hù)在社交媒體公開(kāi)發(fā)布的文本和行為數(shù)據(jù)自動(dòng)地推斷用戶(hù)的隱藏屬性和特質(zhì)是可行的.
國(guó)際上利用社交媒體數(shù)據(jù)推斷多種典型的用戶(hù)隱藏屬性始于對(duì)博客(blog)用戶(hù)的分析[10,11].隨著微博興起,使用微博數(shù)據(jù)預(yù)測(cè)用戶(hù)隱藏屬性成為熱點(diǎn)[8,12,13].在Facebook等強(qiáng)關(guān)系社交網(wǎng)絡(luò)上存在類(lèi)似工作[14~16].研究者利用Facebook用戶(hù)的好友、分享和群組等信息進(jìn)行缺失屬性補(bǔ)全[17,18].此外,有學(xué)者從政治立場(chǎng)[14,19]、性取向和宗教信仰[14]、人格[9,20~22]和是否有抑郁癥傾向[5,23]等角度對(duì)用戶(hù)進(jìn)行分類(lèi).近來(lái),Jiwei Li等將用戶(hù)屬性推斷視為信息抽取問(wèn)題,采取弱指導(dǎo)的方法,利用Facebook中的用戶(hù)屬性數(shù)據(jù)指導(dǎo)Twitter用戶(hù)的屬性抽取[24].
國(guó)內(nèi)研究者在相關(guān)問(wèn)題上的工作處于起步階段.中科院心理所根據(jù)英文的詞類(lèi)詞典LIWC(Linguistic Inquiry and Word Count)[25]構(gòu)建了面向中文的詞類(lèi)詞典SCLIWC(Simplified Chinese LIWC)[26],并以此為基礎(chǔ)進(jìn)行心理診斷[27].部分工作著重挖掘文本中的性別傾向詞識(shí)別[28]以及基于詞匯特征的微博用戶(hù)性別識(shí)別[29].
2.2 用戶(hù)性別推斷
性別是用戶(hù)最主要的基本屬性之一.本文主要以性別推斷作為主要研究對(duì)象.用戶(hù)性別推斷的典型設(shè)置是將其視為有監(jiān)督的二元分類(lèi)問(wèn)題.在標(biāo)注好用戶(hù)性別的用戶(hù)數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)得到分類(lèi)模型用于推斷[8,12,15,30~33].其關(guān)鍵在于有效特征的抽取.下面簡(jiǎn)述用戶(hù)性別推斷的已有方法并分析它們的優(yōu)缺點(diǎn).
2.2.1 基于詞類(lèi)詞典的方法
心理學(xué)上認(rèn)為不同屬性的人在用詞、語(yǔ)氣、風(fēng)格等使用語(yǔ)言的方式上具有一定的差異.通過(guò)對(duì)語(yǔ)言中不同類(lèi)型詞匯的統(tǒng)計(jì)信息推斷用戶(hù)屬性是一種比較傳統(tǒng)的方法.在英文上,已有工作主要利用著名的心理語(yǔ)言分析工具LIWC.
LIWC是美國(guó)德克薩斯大學(xué)奧斯丁分校教授James W Pennebaker主導(dǎo)研究的一套語(yǔ)言分析工具,其核心為一部人工構(gòu)建的詞語(yǔ)詞典[25].詞典將詞語(yǔ)劃分到約80個(gè)詞類(lèi)中,涵蓋了不同的語(yǔ)言維度.基于LIWC的心理學(xué)研究分析出不同屬性人群具有不同的語(yǔ)言風(fēng)格和習(xí)慣用法.相關(guān)研究發(fā)現(xiàn)男性更多使用冠詞、介詞,以及復(fù)雜、正式、具有專(zhuān)業(yè)性的語(yǔ)言,而女性更偏向于社會(huì)交往相關(guān)的語(yǔ)言,使用更多的代詞等.年齡大的人更多表達(dá)正面情感而較少表現(xiàn)出負(fù)面情感,較少地使用主觀詞以及否定詞等.
2.2.2 基于詞語(yǔ)統(tǒng)計(jì)特征的方法
計(jì)算機(jī)科學(xué)領(lǐng)域研究者更愿意采用直接的開(kāi)放式語(yǔ)言特征,即通過(guò)對(duì)用戶(hù)的文本信息進(jìn)行處理,使用詞或詞組作為特征,構(gòu)建統(tǒng)計(jì)分類(lèi)模型進(jìn)行推斷[8,15].可作為文本信息的內(nèi)容包括用戶(hù)的昵稱(chēng)、自我描述以及發(fā)表的微博.文本特征的選擇通常基于傳統(tǒng)的文本分類(lèi)方法,選擇具有高區(qū)分度的詞和短語(yǔ)等.用戶(hù)在社交媒體中用文字表達(dá)思想時(shí)獨(dú)有的、非正式的社會(huì)化口頭表達(dá)方式,典型的如文字表情符、圖形表情符和表示驚異的詞語(yǔ)通常也會(huì)保留作為特征.
2.2.3 基于局部社交關(guān)系和交互特征的方法
Zamal[31]等利用社交網(wǎng)絡(luò)具有同質(zhì)性(homophily)的特點(diǎn)利用用戶(hù)好友信息輔助屬性預(yù)測(cè).然而類(lèi)似研究主要使用簡(jiǎn)單的社會(huì)關(guān)系相關(guān)的統(tǒng)計(jì)特征,如:關(guān)注者和被關(guān)注者個(gè)數(shù),以及交互統(tǒng)計(jì)特征,如:轉(zhuǎn)發(fā)頻率和發(fā)布頻率等.但這些特征在性別和年齡等屬性上的分布并不具有明顯的區(qū)分性[12].
2.2.4 已有方法的局限性
基于詞典的方法具有以下局限性:(1)詞典具有語(yǔ)言相關(guān)的特點(diǎn),英文之外其他語(yǔ)言資源的建設(shè)相對(duì)落后,此類(lèi)方法不易于快速擴(kuò)展到其他語(yǔ)言.(2)詞典中詞語(yǔ)覆蓋范圍較小,社交媒體上大量涌現(xiàn)的新詞及社會(huì)化語(yǔ)言用法無(wú)法被有效覆蓋,影響了基于詞典的方法的適用范圍.
根據(jù)用戶(hù)發(fā)表內(nèi)容分析用戶(hù)的語(yǔ)言使用特征推斷用戶(hù)屬性是目前已有工作中最為有效的方法.然而,此類(lèi)方法主要面向具有豐富內(nèi)容資源的活躍用戶(hù)(如要求評(píng)測(cè)用戶(hù)至少發(fā)表千條以上微博[8]).在微博等社會(huì)媒體平臺(tái)中,存在大量非活躍用戶(hù),他們僅具有有限的內(nèi)容數(shù)據(jù),從而面臨數(shù)據(jù)稀疏問(wèn)題.因此,有必要對(duì)用戶(hù)的內(nèi)容進(jìn)行進(jìn)一步的抽象,緩解數(shù)據(jù)稀疏.此外,已有工作沒(méi)有充分利用社交媒體的交互特征.以關(guān)注行為為例,已有方法僅利用基本的關(guān)注對(duì)象數(shù)目作為特征,而沒(méi)有深入分析關(guān)注對(duì)象群體的特點(diǎn)和聯(lián)系.
用戶(hù)興趣建模是個(gè)性化搜索與推薦的核心內(nèi)容.個(gè)性化搜索與信息過(guò)濾主要針對(duì)用戶(hù)的查詢(xún)、文檔以及上下文信息使用關(guān)鍵詞、分類(lèi)、潛在主題或子空間對(duì)用戶(hù)進(jìn)行建模[34~36].心理學(xué)有研究表明心理特質(zhì)影響人們?cè)谂d趣和態(tài)度上的選擇[37].受此啟發(fā),本文嘗試結(jié)合用戶(hù)興趣建模技術(shù)構(gòu)建有效特征支持用戶(hù)隱藏屬性推斷.
應(yīng)用概率主題模型Latent Dirichlet Allocation(LDA)[38]于大規(guī)模無(wú)標(biāo)注的微博用戶(hù)數(shù)據(jù),分別訓(xùn)練內(nèi)容主題模型(Content Topic Models,CTM)和關(guān)注主題模型(Followee Topic Models,FTM).以此為基礎(chǔ),對(duì)用戶(hù)的主題興趣偏好與關(guān)注興趣偏好進(jìn)行建模作為特征,改進(jìn)用戶(hù)性別推斷.
接下來(lái)首先簡(jiǎn)要介紹LDA模型,而后分別介紹使用LDA對(duì)用戶(hù)微博內(nèi)容與關(guān)注行為進(jìn)行建模并應(yīng)用于用戶(hù)性別推斷.
3.1 LDA模型
LDA模型可視為層次貝葉斯模型.假設(shè)一篇文檔是由多個(gè)潛在主題混合組成,每個(gè)主題為詞匯表上的多項(xiàng)式分布.LDA的圖模型表示如圖1所示.每一篇文檔d表示為N個(gè)詞的序列w={w1,w2,…,wN},則包含M篇文檔的集合D表示為D={w1,w2,…,wM},文檔集合D由主題數(shù)為T(mén)的LDA模型生成的過(guò)程可描述為:
(1)對(duì)每個(gè)主題k,根據(jù)狄利柯雷(Dirichlet)分布生成該主題在詞匯表V上多項(xiàng)式分布:φk~Dir(β);
(2)對(duì)每篇文檔d∈D根據(jù)狄利克雷分布生成其在主題上的多項(xiàng)式分布θd~Dir(α);
(3) 對(duì)文檔d中的每一個(gè)詞:
ⅰ.根據(jù)分布θd生成主題z~Multi(θd);
ⅱ.根據(jù)分布φz生成w~Multi(φz).
其中α和β為狄利克雷分布的超參數(shù).生成過(guò)程描述了如何由模型生成數(shù)據(jù).模型的參數(shù)學(xué)習(xí)則可視為生成過(guò)程的逆過(guò)程,即根據(jù)真實(shí)數(shù)據(jù)的分布學(xué)習(xí)參數(shù)模型.模型參數(shù)可采用吉布斯抽樣等方法習(xí)得[39].訓(xùn)練好的主題模型可對(duì)新的文檔樣本進(jìn)行推斷,得到文檔的主題概率分布.
采用LDA對(duì)用戶(hù)進(jìn)行建模的原因如下:(1)用戶(hù)興趣很難用固定的類(lèi)別本體進(jìn)行描述.概率主題模型是一種無(wú)監(jiān)督的數(shù)據(jù)挖掘方法可自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的隱藏結(jié)構(gòu).以往工作證明,LDA是對(duì)社交媒體用戶(hù)進(jìn)行興趣建模的有效手段[36].(2)本文利用用戶(hù)興趣模型作為特征推斷用戶(hù)隱藏屬性,需要將訓(xùn)練樣本與測(cè)試樣本映射到同一特征空間.LDA是一種完全的生成模型,能夠?qū)π挛谋具M(jìn)行有效的推斷有利于對(duì)新增用戶(hù)進(jìn)行處理.(3)微博用戶(hù)的文本內(nèi)容信息和社交關(guān)系信息均可使用主題模型進(jìn)行建模.
3.2 訓(xùn)練主題模型
在微博數(shù)據(jù)上訓(xùn)練內(nèi)容主題模型與關(guān)注主題模型.LDA模型是無(wú)監(jiān)督的數(shù)據(jù)挖掘算法,因此訓(xùn)練LDA模型只需從微博平臺(tái)獲取的一定規(guī)模的用戶(hù)的微博及其關(guān)注信息.關(guān)注是微博用戶(hù)獨(dú)特的一種行為.用戶(hù)可以關(guān)注任何感興趣的其他用戶(hù).用戶(hù)A關(guān)注用戶(hù)B,稱(chēng)用戶(hù)A為關(guān)注者(follower),稱(chēng)用戶(hù)B為關(guān)注對(duì)象(followee).整個(gè)微博平臺(tái)形成一個(gè)非對(duì)稱(chēng)社交網(wǎng)絡(luò).顯然,用戶(hù)關(guān)注行為也表現(xiàn)出用戶(hù)的興趣偏好.然而,這一行為并沒(méi)有被充分利用進(jìn)行用戶(hù)建模以及性別推斷.
利用微博文本內(nèi)容和關(guān)注對(duì)象列表數(shù)據(jù)可分別訓(xùn)練內(nèi)容主題模型和關(guān)注主題模型.訓(xùn)練主題模型并不需要知道數(shù)據(jù)中用戶(hù)的屬性(如:性別)的取值.同時(shí),訓(xùn)練主題模型的數(shù)據(jù)不必包括待推斷的用戶(hù)數(shù)據(jù),新用戶(hù)的主題分布可由訓(xùn)練好的主題模型推斷得到.
3.2.1 訓(xùn)練內(nèi)容主題模型
內(nèi)容主題模型CTM用于挖掘大規(guī)模微博文本中涵蓋的主題.將所有用戶(hù)的微博偽文檔聚合形成偽文檔集合S={S1,...,SU}.假設(shè)每一篇文檔由T個(gè)主題生成,使用LDA模型在S上訓(xùn)練主題模型.訓(xùn)練得到的主題模型包括T個(gè)語(yǔ)言模型,每個(gè)語(yǔ)言模型為詞匯表V上的多項(xiàng)式分布.
3.2.2 訓(xùn)練關(guān)注主題模型
期望將微博平臺(tái)上關(guān)注對(duì)象集合E劃分為若干個(gè)不同類(lèi)型的群體,從而能夠描述不同用戶(hù)的關(guān)注對(duì)象在分布上的異同.將所有用戶(hù)的關(guān)注對(duì)象列表聚合到一起形成關(guān)注對(duì)象列表集合F={F1,...,FU},將每一個(gè)關(guān)注列表Fi視為一篇文檔,將其中每一個(gè)關(guān)注對(duì)象e∈E類(lèi)比為一個(gè)詞.假設(shè)每個(gè)用戶(hù)的關(guān)注列表由G個(gè)類(lèi)型的關(guān)注對(duì)象構(gòu)成,則可在F上訓(xùn)練得到包括G個(gè)主題的關(guān)注主題模型FTM.FTM由G個(gè)語(yǔ)言模型構(gòu)成,每個(gè)語(yǔ)言模型是在關(guān)注對(duì)象集合E上的多項(xiàng)式分布.
3.3 用戶(hù)的興趣偏好表示
基于已訓(xùn)練好的內(nèi)容主題模型CTM和關(guān)注主題模型FTM,可以對(duì)任一用戶(hù)u的興趣進(jìn)行表示.設(shè)Su為用戶(hù)u發(fā)布的微博拼接而成的偽文檔,則可利用CTM對(duì)Su進(jìn)行推斷,獲得Su在T個(gè)主題上的概率分布向量θu.將θu作為用戶(hù)的內(nèi)容興趣偏好表示.類(lèi)似地,設(shè)Fu為用戶(hù)的關(guān)注對(duì)象列表,使用FTM對(duì)其進(jìn)行推斷,可獲得Fu在G個(gè)被關(guān)注對(duì)象主題上的概率分布向量δu,將δu作為用戶(hù)的關(guān)注興趣偏好表示.θu和δu分別表達(dá)了用戶(hù)對(duì)不同主題的內(nèi)容及不同類(lèi)型關(guān)注對(duì)象群體的偏好.
3.4 性別推斷
將性別推斷視為有監(jiān)督的二元分類(lèi)問(wèn)題.圖2給出了系統(tǒng)的處理流程.CTM與FTM模型需要預(yù)先在大規(guī)模無(wú)標(biāo)注的微博用戶(hù)數(shù)據(jù)上訓(xùn)練完成.在標(biāo)注好用戶(hù)性別的訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí)到性別推斷的分類(lèi)模型.
特征抽取階段為每名用戶(hù)建立一個(gè)特征向量.該特征向量包含多種類(lèi)型的特征.用戶(hù)興趣偏好特征的構(gòu)建需要CTM與FTM模型.使用訓(xùn)練好的CTM和FTM模型推斷出用戶(hù)的興趣偏好.將用戶(hù)內(nèi)容興趣偏好表示向量θu和關(guān)注興趣偏好表示向量δu拼接在一起形成維度為T(mén)+G的向量.該向量與其它類(lèi)型特征的特征向量進(jìn)一步拼接,形成完整的表征用戶(hù)的特征向量.
對(duì)于待推斷性別的測(cè)試用戶(hù),使用相同的CTM和FTM模型推斷其興趣偏好表示構(gòu)建用戶(hù)的特征向量.使用在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)得到的分類(lèi)器將該特征向量作為輸入,輸出性別推斷的結(jié)果.
4.1 研究問(wèn)題
本文希望回答以下研究問(wèn)題:
(1)通過(guò)用戶(hù)興趣建模得到的用戶(hù)興趣偏好特征能否提高性別推斷的性能?
(2)針對(duì)活躍程度不同的用戶(hù),用戶(hù)興趣偏好特征與已有特征相比是否具有更好的健壯性?
4.2 實(shí)驗(yàn)數(shù)據(jù)采集與評(píng)價(jià)
從中國(guó)最大的微博平臺(tái)新浪微博采集實(shí)驗(yàn)數(shù)據(jù).為避免垃圾用戶(hù)對(duì)實(shí)驗(yàn)的影響,以經(jīng)過(guò)官方認(rèn)證的微博賬號(hào)作為種子,按照關(guān)注關(guān)系進(jìn)行了2層擴(kuò)展,即首先獲取種子賬戶(hù)的關(guān)注對(duì)象的數(shù)據(jù),并進(jìn)一步獲取新擴(kuò)展的賬戶(hù)的關(guān)注對(duì)象.最終采集約5000萬(wàn)微博賬戶(hù),每個(gè)賬戶(hù)獲取的信息包括:最近發(fā)布的1000條微博以及其關(guān)注對(duì)象列表.從該數(shù)據(jù)集中隨機(jī)選取了10萬(wàn)名用戶(hù)作為實(shí)驗(yàn)數(shù)據(jù),其中9萬(wàn)名用戶(hù)用于訓(xùn)練內(nèi)容主題模型CTM和關(guān)注主題模型FTM.對(duì)1萬(wàn)名用戶(hù)進(jìn)行性別標(biāo)注,供訓(xùn)練分類(lèi)器和測(cè)試實(shí)驗(yàn)效果使用.兩名標(biāo)注者根據(jù)用戶(hù)名稱(chēng)、描述、微博內(nèi)容以及關(guān)注對(duì)象列表進(jìn)行性別標(biāo)注.根據(jù)Kappa值[40]度量,標(biāo)注的一致性為92%.
需要指出的是,新浪微博實(shí)際上要求用戶(hù)在注冊(cè)時(shí)添加性別信息,因此獲取的用戶(hù)數(shù)據(jù)中已經(jīng)包含性別取值.要求標(biāo)注者對(duì)數(shù)據(jù)進(jìn)一步進(jìn)行標(biāo)注一方面原因在于部分用戶(hù)可能為了縮短注冊(cè)花費(fèi)的時(shí)間而隨意填寫(xiě)信息,另外一方面也考察人類(lèi)直接觀察進(jìn)行判斷的準(zhǔn)確率,反映這一問(wèn)題的難度.從一致性結(jié)果來(lái)看,微博用戶(hù)性別推斷并不是一項(xiàng)容易的工作.對(duì)于有分歧的標(biāo)注,標(biāo)注者討論決定最終的標(biāo)注結(jié)果.無(wú)法達(dá)成共識(shí)的用戶(hù)將被移除.最終獲得了9076名具有性別標(biāo)注的用戶(hù).數(shù)據(jù)的基本統(tǒng)計(jì)列在表1中.
表1 測(cè)試數(shù)據(jù)集的基本統(tǒng)計(jì)
從表1可見(jiàn),測(cè)試數(shù)據(jù)中男女比例約為9:10,女性用戶(hù)略多.盡管試圖獲取每個(gè)用戶(hù)的最近1000條微博,但實(shí)際中大比例用戶(hù)發(fā)布的微博數(shù)都未能達(dá)到1000.每個(gè)用戶(hù)平均的發(fā)布微博數(shù)大于平均的關(guān)注對(duì)象數(shù)目.
采取準(zhǔn)確率(Accuracy)來(lái)衡量自動(dòng)性別推斷系統(tǒng)的表現(xiàn),其計(jì)算方法為正確判斷的樣本數(shù)量與全部樣本數(shù)量的比值.測(cè)試過(guò)程中,將9076名用戶(hù)組成的數(shù)據(jù)集上采取5折交叉驗(yàn)證的方法進(jìn)行測(cè)試,采用準(zhǔn)確率的平均值來(lái)評(píng)價(jià)系統(tǒng)的性能.
4.3 對(duì)比系統(tǒng)
(1)詞類(lèi)特征(Word Category):詞類(lèi)特征依賴(lài)于詞類(lèi)詞典.采取簡(jiǎn)體中文LIWC(SCLIWC)詞類(lèi)詞典[26],該詞典根據(jù)英文版LIWC針對(duì)中文進(jìn)行了翻譯與擴(kuò)充.統(tǒng)計(jì)用戶(hù)發(fā)布內(nèi)容中被包含在SCLIWC不同詞類(lèi)的詞語(yǔ)的比例作為分類(lèi)特征.
(2)統(tǒng)計(jì)詞特征(Ngram):根據(jù)已有研究的結(jié)論,N-元詞(Ngram)是最為有效的統(tǒng)計(jì)特征.針對(duì)男性和女性,分別選取前3000個(gè)區(qū)分性最強(qiáng)的一元詞和二元詞,并將它們合并作為NGram特征的維度,每一維度的取值為用戶(hù)內(nèi)容中包含該Ngram的頻次.處理過(guò)程中保留了表情符等社會(huì)化詞匯,因?yàn)樗鼈円彩潜磉_(dá)性別的一種信號(hào).度量Ngram的區(qū)分性的方法基于計(jì)算它們的類(lèi)互信息.實(shí)驗(yàn)結(jié)果顯示選擇區(qū)分性強(qiáng)的Ngram比使用所有Ngram而不考慮其區(qū)分性的效果更好.由于特征更加緊湊,訓(xùn)練的效率更高.
(3)Rao et al[12].該方法綜合使用了Ngram特征以及簡(jiǎn)單的用戶(hù)社交統(tǒng)計(jì)信息,如:好友數(shù)、關(guān)注數(shù)等.因此這種方法可視為利用了局部社交網(wǎng)絡(luò)信息.與其不同,本文對(duì)關(guān)注對(duì)象進(jìn)行分群可視為對(duì)全局的用戶(hù)行為進(jìn)行建模.
4.4 分類(lèi)器與參數(shù)設(shè)定
采用LibLinear分類(lèi)器[40]進(jìn)行推斷.FTM以及CTM的主題數(shù)均設(shè)為200,參數(shù)學(xué)習(xí)使用吉布斯抽樣方法,迭代次數(shù)設(shè)為100.
對(duì)于所有對(duì)比系統(tǒng),在交叉驗(yàn)證過(guò)程中在訓(xùn)練數(shù)據(jù)上(整個(gè)數(shù)據(jù)的80%)采用4折交叉驗(yàn)證對(duì)參數(shù)進(jìn)行調(diào)整,選擇最佳參數(shù)在整個(gè)訓(xùn)練語(yǔ)料上訓(xùn)練模型,使用該模型在測(cè)試數(shù)據(jù)上(整個(gè)數(shù)據(jù)的20%)進(jìn)行測(cè)試.
4.5 實(shí)驗(yàn)結(jié)果及分析
4.5.1 整體表現(xiàn)
表2給出了不同類(lèi)型特征以及特征組合的準(zhǔn)確率.從中可以看到,詞類(lèi)特征(Word Category)表現(xiàn)最弱,獲得了65.60%的準(zhǔn)確率.與之相比,統(tǒng)計(jì)詞特征(Ngram)表現(xiàn)更為優(yōu)異達(dá)到74.09%的準(zhǔn)確率.基于用戶(hù)內(nèi)容主題模型(CTM)與用戶(hù)關(guān)注主題模型(FTM)分別獲得了75.45%和74.24%的準(zhǔn)確率,其中CTM是最為有效的單一類(lèi)型特征.實(shí)驗(yàn)結(jié)果說(shuō)明,詞類(lèi)特征對(duì)于性別預(yù)測(cè)過(guò)于粗略而無(wú)法取得令人滿意的效果.Ngram、CTM與FTM的表現(xiàn)相當(dāng).這一方面印證了前人工作的結(jié)論,Ngram特征是性別推斷的重要特征,不同性別的用戶(hù)傾向于使用不同的詞,另一方面也說(shuō)明經(jīng)過(guò)降維處理的用戶(hù)偏好特征能夠起到正面作用:CTM比Ngram表現(xiàn)更好.可能的原因是:Ngram面臨的數(shù)據(jù)稀疏問(wèn)題得到緩解,此外主題模型實(shí)質(zhì)上相當(dāng)于進(jìn)行了特征選擇,主題區(qū)分性強(qiáng)的詞語(yǔ)在用戶(hù)興趣模型建立過(guò)程中起到了更大的作用.
表2 采用不同類(lèi)型特征和特征組合的表現(xiàn)
將2類(lèi)用戶(hù)興趣特征結(jié)合起來(lái)(CTM+FTM)取得了最好的效果,準(zhǔn)確率達(dá)到了80.16%.Ngram分別與CTM和FTM結(jié)合時(shí),準(zhǔn)確率均有提升.但將三類(lèi)特征全部結(jié)合起來(lái)時(shí),表現(xiàn)卻弱于CTM+FTM.其原因可能是CTM已經(jīng)能夠較好地替代Ngram特征,而使用Ngram特征可能引入更多的噪聲,導(dǎo)致性能下降.
本文提出的方法同樣超過(guò)了Rao等[12]的表現(xiàn).這說(shuō)明用戶(hù)對(duì)不同關(guān)注對(duì)象群體的關(guān)注偏好能夠更好地表達(dá)用戶(hù)關(guān)注興趣.而簡(jiǎn)單的用戶(hù)關(guān)注統(tǒng)計(jì)數(shù)字則難以刻畫(huà).
4.5.2 在不同活躍程度用戶(hù)上的表現(xiàn)
分析不同特征及特征組合針對(duì)活躍程度不同的用戶(hù)時(shí)的表現(xiàn).目的在于分析不同類(lèi)型特征的健壯性,尤其是針對(duì)文本內(nèi)容不夠豐富的非活躍用戶(hù)的表現(xiàn).為此,將測(cè)試用戶(hù)根據(jù)其發(fā)布微博的數(shù)量分為5組.表3給出了5組測(cè)試用戶(hù)所處的不同區(qū)間及其相關(guān)統(tǒng)計(jì).
表3 按照活躍程度進(jìn)行劃分的5個(gè)用戶(hù)組相關(guān)統(tǒng)計(jì)
從表3中可以看到大致有18%的用戶(hù)的發(fā)表微博數(shù)量大于600,而發(fā)表微博數(shù)量在10到200之間的用戶(hù)大約占據(jù)用戶(hù)總數(shù)的40%.這說(shuō)明社交媒體中有相當(dāng)一部分非活躍用戶(hù),其比例甚至可能遠(yuǎn)超過(guò)活躍用戶(hù).發(fā)表微博數(shù)量越多的用戶(hù)關(guān)注的用戶(hù)數(shù)也更多,兩者具有一種近似的線性關(guān)系.然而,發(fā)表微博數(shù)目小于50的非活躍用戶(hù)仍然保持一定規(guī)模的關(guān)注對(duì)象.
對(duì)5組測(cè)試用戶(hù),分別將數(shù)據(jù)進(jìn)一步隨機(jī)均分為5個(gè)部分.在訓(xùn)練時(shí),從每一組測(cè)試用戶(hù)中隨機(jī)選取4個(gè)部分,并將來(lái)自于5組的數(shù)據(jù)合并用于訓(xùn)練分類(lèi)模型,學(xué)習(xí)到的模型分別對(duì)每一組余下的1份數(shù)據(jù)進(jìn)行測(cè)試.這樣處理的原因是在實(shí)際應(yīng)用的時(shí)候,僅維持一個(gè)統(tǒng)一的模型更加便于系統(tǒng)進(jìn)行維護(hù),因此模型對(duì)不同特點(diǎn)的用戶(hù)(如:活躍用戶(hù)與非活躍用戶(hù))進(jìn)行推斷時(shí)的健壯性尤為重要.
圖3給出了不同的特征和特征組合在具有不同規(guī)模微博數(shù)量的用戶(hù)群組上的表現(xiàn).從中可以看到如下趨勢(shì):(1)用戶(hù)發(fā)布內(nèi)容越活躍,對(duì)其進(jìn)行性別推斷的準(zhǔn)確率越高.所有的特征和特征組合都體現(xiàn)出這一特點(diǎn).這說(shuō)明豐富的內(nèi)容數(shù)據(jù)更容易構(gòu)建足夠多的特征以避免特征稀疏問(wèn)題.(2)內(nèi)容相關(guān)的特征(WordCategory,Ngram,CTM)高度依賴(lài)于用戶(hù)內(nèi)容的規(guī)模.最明顯的體現(xiàn)在Ngram特征,當(dāng)用戶(hù)發(fā)表內(nèi)容足夠多時(shí)(G5),其準(zhǔn)確率超過(guò)80%,是表現(xiàn)最好的單獨(dú)類(lèi)型特征.然而當(dāng)用戶(hù)內(nèi)容較少時(shí),Ngram性能不如用戶(hù)興趣偏好特征.(3)對(duì)于非活躍用戶(hù),用戶(hù)興趣偏好特征CTM和FTM表現(xiàn)得更為健壯.例如在發(fā)布微博數(shù)小于50的用戶(hù)組上,使用CTM的特征表現(xiàn)優(yōu)于Ngram,證明對(duì)文本內(nèi)容的抽象能夠改善數(shù)據(jù)稀疏問(wèn)題.FTM表現(xiàn)最好,說(shuō)明對(duì)于內(nèi)容較少的用戶(hù),其關(guān)注偏好興趣能夠更準(zhǔn)確地反映其隱藏屬性.(4)將用戶(hù)興趣偏好特征與其他特征相融合時(shí),能夠獲得比單獨(dú)使用時(shí)更好的表現(xiàn).通過(guò)分析可見(jiàn),用戶(hù)興趣偏好特征對(duì)于活躍用戶(hù)與非活躍用戶(hù)的隱藏屬性推斷均是有效的.對(duì)于發(fā)布內(nèi)容較少的非活躍用戶(hù),使用用戶(hù)興趣偏好特征進(jìn)行推斷可獲得更高的準(zhǔn)確率,具有更好的健壯性.
本文針對(duì)中文微博用戶(hù)的性別推斷問(wèn)題進(jìn)行研究,提出了利用用戶(hù)興趣偏好建模改進(jìn)推斷性能的新思路.著重考察了用戶(hù)的內(nèi)容興趣與關(guān)注興趣偏好,詳細(xì)比較了這些新特征與傳統(tǒng)特征的表現(xiàn)并分析了針對(duì)不同活躍程度的用戶(hù)不同類(lèi)型特征的健壯性.實(shí)驗(yàn)表明,用戶(hù)興趣特征是推斷用戶(hù)性別的有效特征,是對(duì)傳統(tǒng)的基于詞語(yǔ)粒度文本分析的有力補(bǔ)充.特別是針對(duì)微博上數(shù)量眾多的非活躍用戶(hù),用戶(hù)興趣偏好特征尤其是用戶(hù)關(guān)注興趣偏好特征能夠較好地緩解數(shù)據(jù)稀疏問(wèn)題,提高推斷的準(zhǔn)確率.
在未來(lái),我們?cè)噲D結(jié)合社會(huì)學(xué)與心理學(xué)中的相關(guān)理論,繼續(xù)挖掘有效的用戶(hù)行為特征與高級(jí)語(yǔ)言特征以構(gòu)建更為準(zhǔn)確的用戶(hù)興趣模型,進(jìn)一步提高推斷性能.
[1]Lazer David,Alex Sandy Pentland,Lada Adamic,Sinan Aral,Albert Laszlo Barabasi,Devon Brewer,Nicholas Christakis,et al.Life in the network:the coming age of computational social science[J].Science,2009,323(5915):721.
[2]Sun R.The Cambridge Handbook of Computational Psychology[M].Cambridge University Press,2008.
[3]Ingmar W,Carlos C.The demographics of web search[A].Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval[C].New York:ACM,2010.523-530.
[4]Duhigg C.The power of habit:why we do what we do in life and business[J].Random House LLC,2012,34(10).
[5]De Choudhury M,et al.Predicting depression via social media[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2013.128-137.
[6]Newman ML,et al.Gender differences in language use:An analysis of 14,000 text samples[J].Discourse Processes,2008,45(3):211-236.
[7]Pennebaker JW,Stone LD.Words of wisdom:language use over the life span[J].Journal of Personality and Social Psychology,2003,85(2):291-301.
[8]Burger JD,et al.Discriminating gender on Twitter[A].Proceedings of Empirical Methods in Natural Language Processing[C].Stroudsburg,PA,USA :ACL,2011.1301-1309.
[9]Gosling SD,Gaddis S,Vazire S.Personality impressions based on facebook profiles[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2007.1-4.
[10]Argamon,et al.Mining the Blogosphere:Age,gender and the varieties of self-expression[J].First Monday,2007,12(9).
[11]Burger JD,Henderson JC.An exploration of observable features related to blogger age[A].Proceedings of AAAI Spring Symposium:Computational Approaches to Analyzing Weblogs[C].Palo Alto,California:AAAI Press,2006.15-20.
[12]Rao D,et al.Classifying latent user attributes in twitter[A].Proceedings of the 2nd International Workshop on Search and Mining User-generated Contents[C].New York:ACM,2010.37-44.
[13]Dong N,et al.How old do you think i am?:a study of language and age in twitter[A].Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2013.439-448.
[14]Kosinski M,Stillwell D,Graepe T.Private traits and attributes are predictable from digital records of human behavior[J].The National Academy of Sciences,2013,110:5802-5805.
[15]Schwartz H A,et al.Personality,gender,and age in the language of social media:the open-vocabulary approach[J].PloS One,2013,8(9).
[16]Tang C,et al.What’s in a name:a study of names,gender inference,and gender behavior in facebook[J].Database Systems for Advanced Applications,2011,344-356.
[17]Elena Z,Lise G.To join or not to join:the illusion of privacy in social networks with mixed public and private user profiles[A].Proceedings of the 18th International Conference on World Wide Web[C].New York:ACM,2009.531-540.
[18]Alan M,et al.You are who you know:inferring user profiles in online social networks[A].Proceedings of the 3rd ACM International Conference on Web Search and Data Mining[C].New York:ACM,2010.251-260.
[19]Pennacchiotti M,Popescu A-M.Democrats,republicans and starbucks afficionados:user classification in twitter[A].Proceedings of ACM SIGKDD International Conference on Knowledge Discovery in Data Mining[C].New York:ACM,2011.430-438.
[20]Golbeck,et al.Predicting personality from twitter[A].Proceedings of the IEEE Third International Conference on Social Computing[C].IEEE,2011.149-156.
[21]Yoram,B,et al.Personality and patterns of Facebook usage[A].Proceedings of the 3rd Annual ACM Web Science Conference[C].New York:ACM,2012.24-32.
[22]Daniele Q,et al.Our Twitter profiles,our selves:Predicting personality with Twitter[A].Proceedings of the IEEE Third International Conference on Social Computing[C].IEEE,2011.180-185.
[23]De Choudhury M,et al.Characterizing and predicting postpartum depression from shared facebook data[A].Proceedings of the 17th ACM Conference on Computer Supported Cooperative Work & Social Computing[C].New York:ACM,2014.626-638.
[24]Li Jiwei,Ritter A,Hovy E.Weakly supervised user profile extraction from Twitter[A].Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics[C].Stroudsburg,PA,USA :ACL,2014.165-174.
[25]Tausczik,YR,Pennebaker JW.The psychological meaning of words:LIWC and computerized text analysis methods[J].Journal of Language and Social Psychology,2010,29(1):24-54.
[26]Gao,R,et al.Developing simplified Chinese psychological linguistic analysis dictionary for microblog[J].Brain and Health Informatics,2013,359-368.
[27]Huijie L,et al.User-level psychological stress detection from social media using deep neural network[A].Proceedings of ACM International Conference on Multimedia[C].New York:ACM,2014.507-516.
[28]唐琴,林鴻飛.文本中人物性別識(shí)別研究[J].中文信息學(xué)報(bào),2010,2:46-51.
Tang Qin,Lin H.Research on gender recognition for character in text[J].Journal of Chinese Information Processing,2010,24(2):46-51.(in Chinese)
[29]王晶晶,李壽山,黃磊.中文微博用戶(hù)性別分類(lèi)方法研究[J].中文信息處理,2014,28(6):150-155.
Wang Jingjing,Li Shoushan,Huang Lei.User gender classification in Chinese Microblog[J].Journal of Chinese Information Processing,2010,28(6):150-155.(in Chinese)
[30]Morgane C,Sonderegger M,Ruths D.Gender inference of twitter users in non-English contexts[A].Proceedings of the Conference on Empirical Methods in Natural Language Processing[C].Stroudsburg,PA,USA :ACL,2013.1136-1145.
[31]Zamal A,et al.Homophily and latent attribute inference:inferring latent attributes of twitter users from neighbors[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2012.387-390.
[32]Mislove A,et al.Understanding the demographics of twitter users[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2011.554-557.
[33]Liu W,Ruths D.What’s in a name? using first names as features for gender inference in Twitter[A].Proceedings of the 2013 AAAI Spring Symposium[C].Palo Alto,California:AAAI Press,2013.10-16.
[34]Ghorab MR,et al.Personalised information retrieval:survey and classification[J].User Modeling and User-Adapted Interaction,2013,4(23):381-443.
[35]Bobadilla,et al.Recommender systems survey[J].Knowledge-Based Systems,2013,46:109-132.
[36]Liangjie Hong,Brian D Davison.Empirical study of topic modeling in twitter[A].Proceedings of the First Workshop on Social Media Analytics[C].New York:ACM,2010.80-88.
[37]Anderson WT,Golden LL.Lifestyle and psychographics:a critical review and recommendation[J].Advances in Consumer Research,1984,11(1).
[38]Blei,DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[39]Griffiths,TL,Steyvers M.Finding scientific topics[J].National Academy of Sciences of the United States of America,2004,101:5228-5235.
[40]Jacob Cohen et al.A coef?cient of agreement for nominal scales[J].Educational and Psychological Measurement,1960,20(1):37-46.
[41]Fan R.-E.,et al.LIBLINEAR:A library for large linear classification[J].Journal of Machine Learning Research,2008,9:1871-1874.
宋 巍 男,1983年1月出生,黑龍江哈爾濱人.講師、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)員、中文信息學(xué)會(huì)會(huì)員.2006年、2008年和2013年在哈爾濱工業(yè)大學(xué)獲得學(xué)士、工學(xué)碩士和工學(xué)博士學(xué)位.現(xiàn)在首都師范大學(xué)信息工程學(xué)院工作,主要從事社會(huì)計(jì)算、自然語(yǔ)言處理和信息檢索有關(guān)研究.
E-mail:wsong@cnu.edu.cn
劉麗珍 女.1966年7月出生,山西太原人.教授、中國(guó)人工智能學(xué)會(huì)教育工作委員會(huì)副秘書(shū)長(zhǎng),北京市人工智能學(xué)會(huì)理事,中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員.1986年、1994年、2003年分別在山西大學(xué)、西北大學(xué)和北京理工大學(xué)獲工學(xué)學(xué)士、工學(xué)碩士和工學(xué)博士學(xué)位.現(xiàn)在首都師范大學(xué)信息工程學(xué)院工作,主要從事數(shù)據(jù)挖掘、社會(huì)計(jì)算、信息檢索和自然語(yǔ)言處理等方面的研究工作.
E-mail:liz-liu7480@cnu.edu.cn
st P
for Gender Inference on Microblog
SONG Wei,LIU Li-zhen,WANG Han-shi
(CollegeofInformationEngineering,CapitalNormalUniversity,Beijing100048,China)
User demographic attributes,such as gender and age,are the core factors to be considered for research and applications in computational psychology,personalized search and social commerce marketing.Automatic user latent attribute inference based on user generated data becomes an emerging research topic.This paper proposes a methed for user gender inference on Microblog by exploiting user content preferences and following behaviour preferences.The experiments on a dataset collected from Sina Weibo that consists of nearly 10000 users demonstrate the effectiveness of user preferences features.Comparing with the traditional language usage features,combining user content preferences and user following preferences features can improve the inference accuracy largely.The user following preferences features are especially effective for inferring the gender of inactive users.
user latent attribute;user gender inference;user preference modeling;social media
2015-06-01;
2015-10-26;責(zé)任編輯:李勇鋒
國(guó)家自然科學(xué)基金(No.61402304,No.61303105);北京市自然科學(xué)基金(No.4154065);教育部人文社會(huì)科學(xué)規(guī)劃項(xiàng)目(No.14YJAZH046);北京市教委科研支持項(xiàng)目(No.KM201610028015)
TP391
A
0372-2112 (2016)10-2522-08
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.10.034