胡龍茂
(安徽財(cái)貿(mào)職業(yè)學(xué)院,安徽合肥230601)
中文在線評(píng)論的用戶性別判定研究*
胡龍茂
(安徽財(cái)貿(mào)職業(yè)學(xué)院,安徽合肥230601)
該文旨在研究中文在線評(píng)論的用戶性別判定問(wèn)題,即根據(jù)用戶的商品評(píng)論識(shí)別用戶的性別.首先研究了在線評(píng)論中對(duì)用戶性別起指示作用的信息,然后從用戶名、商品描述和評(píng)論文本中抽取特征,分別采取獨(dú)立特征、疊加特征及融合特征的方式構(gòu)建最大熵分類器進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,用戶名+商品描述+評(píng)論文本的分類器準(zhǔn)確率最高.
性別判定;中文在線評(píng)論;最大熵分類器
近年來(lái),隨著電子商務(wù)的飛速發(fā)展,越來(lái)越多的用戶選擇從網(wǎng)上購(gòu)物,截止到2016年6月,我國(guó)網(wǎng)絡(luò)購(gòu)物用戶規(guī)模達(dá)到4.48億[1].在使用商品后,部分網(wǎng)購(gòu)用戶會(huì)在購(gòu)物網(wǎng)站上發(fā)表評(píng)論信息,淘寶、京東和亞馬遜上隨之產(chǎn)生了海量的在線評(píng)論,這些評(píng)論包含了用戶對(duì)商品或商品某些屬性的意見(jiàn),而不同類別的用戶對(duì)商品及其屬性的關(guān)注點(diǎn)也不相同,如果能夠從評(píng)論中挖掘出用戶的性別、年齡及職業(yè)等信息,則會(huì)對(duì)產(chǎn)品定制及差異化營(yíng)銷產(chǎn)生積極的影響.
文獻(xiàn)[2]利用不同人群的博客用戶在寫作風(fēng)格和內(nèi)容上的顯著差異,來(lái)確定一個(gè)未知用戶的年齡和性別.文獻(xiàn)[3]利用用戶的tweet文本內(nèi)容和用戶資料中的全名、用戶名及個(gè)人描述三個(gè)字段作為特征來(lái)判定用戶的性別.文獻(xiàn)[4]研究了美國(guó)的58 466 名Facebook用戶的Facebook Likes數(shù)據(jù),精確預(yù)測(cè)了一系列高度敏感的個(gè)人特征,包括:性取向、種族、宗教和政治觀點(diǎn)、父母離異、年齡和性別等.文獻(xiàn)[5]以用戶名和微博文本作為特征,采用分類器融合的方法對(duì)中文微博用戶的性別進(jìn)行了判定.
除了對(duì)博客、微博用戶進(jìn)行信息提取研究外,也有少數(shù)學(xué)者對(duì)在線評(píng)論的用戶信息提取展開(kāi)了研究.文獻(xiàn)[6]利用規(guī)則從Web評(píng)論中提取用戶的性別.
本文研究了中文在線評(píng)論中對(duì)用戶性別起指示作用的信息,在此基礎(chǔ)上提出了從用戶名、商品描述和評(píng)論文本抽取特征,采用最大熵模型判斷用戶性別的方法.實(shí)驗(yàn)結(jié)果表明,特征疊加的分類器有較高的準(zhǔn)確率.
最大熵模型就是符合已知事實(shí)的情況下,對(duì)未知事實(shí)不作概率上的假設(shè),即未知的分布應(yīng)該是均勻的.例如,假設(shè)用戶的年齡分為四個(gè)階段,已知所購(gòu)商品中出現(xiàn)“美寶蓮”的70%屬于青年,而“美寶蓮”在其余三個(gè)年齡段中的分布未知,則根據(jù)最大熵原則,各有10%的可能性屬于其他三個(gè)年齡段.如果商品中沒(méi)有出現(xiàn)“美寶蓮”,則此用戶都以相同的、25%的概率屬于四個(gè)年齡段.
在自然語(yǔ)言處理任務(wù)中,通常使用條件最大熵模型.每個(gè)訓(xùn)練樣例由實(shí)例x和其對(duì)應(yīng)的類別y組成,fi(x,y)為表征訓(xùn)練樣例的特征函數(shù),則最大熵模型的公式如下:
C為約束,要求所有特征的模型期望等于經(jīng)驗(yàn)期望,即要求模型符合已知事實(shí).通過(guò)拉格朗日乘法求解帶約束的最優(yōu)值,得到:
其中λi是特征權(quán)重,Zλ(x)為歸一化因子,用于保證x屬于各類別的概率和為1.
一般無(wú)法求出λi的解析解,可以采用GIS或IIS算法獲得近似解.
最大熵模型的主要優(yōu)點(diǎn)是能夠在同一個(gè)框架中使用不同的特征,這些特征之間無(wú)需獨(dú)立性假設(shè),這顯然比貝葉斯方法更符合事實(shí).
本文從亞馬遜網(wǎng)站上抓取了某國(guó)產(chǎn)手機(jī)的評(píng)論共1068條,根據(jù)這些評(píng)論的用戶URL繼續(xù)抓取這些用戶的所有評(píng)論,每個(gè)用戶的評(píng)論由用戶名、所購(gòu)商品的描述和評(píng)論文本組成.由4人人工標(biāo)注出這些評(píng)論用戶的性別,只有3人及以上同時(shí)標(biāo)注為男(或女),此用戶才能確定為男(或女),不符合這個(gè)條件的評(píng)論被丟棄.最終得到可以確定性別的用戶評(píng)論886個(gè),其中男性658個(gè),女性228個(gè).
通過(guò)對(duì)評(píng)論語(yǔ)料的觀察,可以從用戶名、商品描述和評(píng)論文本中發(fā)現(xiàn)與性別相關(guān)的特征.
2.1 用戶名特征分析
用戶名有一定的性別指示作用.男性用戶名的末尾往往有偏男性化的字,例如:楊海濤、孫旭輝、潘宇等.女性用戶名的末尾也有類似的現(xiàn)象,如:劉婷婷、陳珍玫等.評(píng)論中也有部分用戶名沒(méi)有性別特征,如亞馬遜賣家、sdu等.
2.2 商品描述特征分析
男女性用戶對(duì)不同類別的商品感興趣程度是不同的.男性往往對(duì)電子、電器感興趣,而女性對(duì)服裝、包、食品、化妝品更感興趣.
例1:某男性用戶所購(gòu)商品,文本中每行代表一樣商品(C52-m6.txt).
“榮耀暢玩4X Che1-CL20雙卡雙待全網(wǎng)通版4G智能手機(jī)移動(dòng)/聯(lián)通/電信4G/3G/2G(白色)...
Kindle Paperwhite電子書閱讀器:300 ppi電子墨水觸控屏、內(nèi)置閱讀燈、超長(zhǎng)續(xù)航...
NuPro輕薄保護(hù)套(適用于第6代以及第7代Kindle Paperwhite電子書閱讀器),經(jīng)典黑...”
例2:某女性用戶所購(gòu)商品,文本中每行代表一樣商品(C51-m566.txt).
“Greenleaf綠葉隔離防曬補(bǔ)水組合套裝(防曬隔離乳冰肌露SPF 30PA+++60ml+復(fù)活草深層補(bǔ)水面膜貼25ml 6片)裸妝遮瑕防輻射補(bǔ)水(新老包裝隨機(jī)發(fā)貨)...
Cetaphil絲塔芙潔面乳118m l(特賣)...
XSHOW圣雪蘭洋甘菊花瓣初露150ml★韓國(guó)熱賣溫和爽膚水曬后修護(hù)...
榮耀暢玩4X Che2-UL00(2G RAM)聯(lián)通高配版4G智能手機(jī)(白色)雙卡雙待...”
有些用戶不但為自己購(gòu)買商品,同時(shí)也給家人朋友購(gòu)買商品,此時(shí),所購(gòu)商品中可能男、女性用品都存在.
例3:所購(gòu)商品中同時(shí)包括男、女性用品.(C52 -m1124.txt)
“榮耀暢玩4X Che1-CL10雙卡雙待電信4G智能手機(jī)(白色)電信定制版FDD-LTE/TD-LTE/CDMA2000/GSM...
Braun德國(guó)博朗cruZer Z20電動(dòng)剃須刀...
Donlim東菱全自動(dòng)面包機(jī)XBM1028GP...
PUMA彪馬 優(yōu)雅時(shí)尚系列 女式 單肩包/斜挎包 黑 -黑70749010100...”
2.3 評(píng)論文本分析
男、女性評(píng)論的用詞會(huì)有所區(qū)別,女性用詞會(huì)有更多的語(yǔ)氣詞、感嘆號(hào)等.
例4:某女性用戶的評(píng)論文本.
“用了一年,內(nèi)存總是不夠,一般般咯
這個(gè)眼線筆一點(diǎn)也不好,真心的,暈妝,千萬(wàn)別買,后悔死了”
也有極少數(shù)評(píng)論文本中會(huì)明顯地有指示性別的詞語(yǔ)出現(xiàn).
例5:某男性用戶的某條評(píng)論,其中“老婆”指示了用戶性別為男性.
“剛剛使用過(guò),配置很方便,速度還不錯(cuò),65Mb.有了這個(gè),老婆就不再和我搶網(wǎng)絡(luò)了.”
3.1 特征函數(shù)的選擇
(1)用戶名特征函數(shù).微博用戶的中文昵稱大都與中文人名相似[7],而中文人名有較強(qiáng)的性別區(qū)分性[8].網(wǎng)購(gòu)用戶同微博用戶一樣,使用的都是網(wǎng)名,有一定的相似性,故對(duì)于中文用戶名而言,可以使用名字的尾字作為特征進(jìn)行區(qū)分.對(duì)于英文用戶名而言,尾字的元、輔音對(duì)性別也有較強(qiáng)的區(qū)分性.特征模板如表1所示.
例如,由特征模板3可以得到一個(gè)特征函數(shù):
表1 用戶名特征模板
(2)商品描述及評(píng)論文本的特征函數(shù).根據(jù)用戶所購(gòu)商品的描述或評(píng)論文本來(lái)判定用戶性別,實(shí)際上就是文本分類問(wèn)題.定義D=(d1,d2,…,dn)是訓(xùn)練文檔集,類別G=(g1,g2)為性別集合,W={w1,w2,…,wk}是訓(xùn)練文檔集中特征詞.最大熵模型的特征函數(shù)用如下公式表示[9]:
上式中num(wi,d)表示文檔d中詞wi出現(xiàn)的次數(shù).
3.2 用戶性別判定
用戶性別判定的過(guò)程如圖1所示.對(duì)于利用商品描述和評(píng)論文本判定性別,首先要進(jìn)行文本預(yù)處理(文本分詞、特征詞選取),然后利用式(7)獲得特征函數(shù),最后用最大熵模型進(jìn)行訓(xùn)練和判定.對(duì)于利用用戶名判定性別而言,只需根據(jù)表1所示特征模型獲得特征函數(shù),然后用最大熵模型進(jìn)行訓(xùn)練和判定.
圖1 中文在線評(píng)論的用戶性別判定過(guò)程
4.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)采用Python開(kāi)發(fā)環(huán)境.本文借鑒墨爾本大學(xué)Steven Bird開(kāi)發(fā)的自然語(yǔ)言工具包NLTK,用python語(yǔ)言實(shí)現(xiàn)了最大熵分類器.分詞工具采用北京理工大學(xué)張華平博士開(kāi)發(fā)的NLPIR漢語(yǔ)分詞系統(tǒng).從人工標(biāo)注過(guò)的886篇評(píng)論語(yǔ)料中隨機(jī)抽取80%作為訓(xùn)練集,其余20%作為測(cè)試集,使用準(zhǔn)確率評(píng)價(jià)分類效果.
4.2 實(shí)驗(yàn)結(jié)果
分別采用用戶名、商品描述、評(píng)論文本、用戶名+商品描述、用戶名+商品描述+評(píng)論文本構(gòu)建分類器以及使用用戶名、商品描述、評(píng)論文本三個(gè)基分類器的組合分類器,組合分類器采用貝葉斯積的方式融合基分類器.對(duì)于每種分類器,均進(jìn)行五次實(shí)驗(yàn),結(jié)果取五次實(shí)驗(yàn)的平均值.實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同分類器的分類準(zhǔn)確率
從表2的實(shí)驗(yàn)結(jié)果看,①僅使用用戶名進(jìn)行判定的準(zhǔn)確率最低,這是由于用戶的取名有很大的隨意性,有些名字是數(shù)字,還有些注冊(cè)時(shí)沒(méi)取名,系統(tǒng)默認(rèn)設(shè)為“亞馬遜用戶”,導(dǎo)致用戶名的分辨效果較差.②僅使用商品描述進(jìn)行判定的準(zhǔn)確率接近最高準(zhǔn)確率,比僅使用用戶名高了10.3個(gè)百分點(diǎn),說(shuō)明商品描述有較強(qiáng)的性別分辨能力.③使用用戶名+商品描述+評(píng)論文本疊加特征進(jìn)行判定的準(zhǔn)確率最高,達(dá)到了85.06%,可能是由于評(píng)論文本的一些性別指示詞、男女性不同的用詞習(xí)慣起了作用.④用戶名、商品描述、評(píng)論文本的分類器組合的判定能力比較差,甚至不如單獨(dú)的商品評(píng)論分類器,可能是因?yàn)闇?zhǔn)確率較低的用戶名基分類器中的一些錯(cuò)誤被傳導(dǎo)到組合分類器.
圖2 不同特征數(shù)目下的分類準(zhǔn)確率
圖2給出了不同特征數(shù)目下的分類準(zhǔn)確率.為方便統(tǒng)計(jì),同時(shí)使用兩種文本特征的分類器的特征數(shù)目取值是相同的,例如,特征數(shù)目為500的用戶名+商品描述+評(píng)論文本分類器,指的是商品描述和評(píng)論文本的特征數(shù)目各取500.
從圖2中可以看出:①各分類器的準(zhǔn)確率在特征數(shù)為200到500之間取得最大值,超過(guò)500時(shí),準(zhǔn)確率逐漸降低.②評(píng)論文本分類器的準(zhǔn)確率始終是最低的,組合分類器的準(zhǔn)確率略高于評(píng)論文本分類器,用戶名+商品描述+評(píng)論文本的準(zhǔn)確率始終是最高的.
[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2016年7月)[EB/OL].http://www.cnnic.cn/gy wm/xwzx/rdxw/ 2016/201608/W020160803204144417902.pdf.
[2]Schler J,Koppel M,Argamon S,et al.Effects of Age and Gender on Blogging[C]//Proceddings of A AAI 06,2006.
[3]Burger J,Henderson J,Kim G,et al.Discriminating Gender on Twitter[C]//Proceddings of EMNLP 11,2011,1301-1309.
[4]Kosinskia M,Stillwella D,Graepelb T.Private traits and attributes are predictable from digital records of human behavior[J].Proceedings of the National Academy of Sciences,2010(15),5802-5805.
[5]王晶晶,李壽山,黃磊.中文微博用戶性別分類方法研究[J].中文信息學(xué)報(bào),2014,28(6):150-155.
[6]邱云飛,王雪,劉大有,等.基于Web評(píng)論的用戶個(gè)人信息提取方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(5):44-47.
[7]安軍輝.基于微博數(shù)據(jù)的微博用戶性別判斷研究[D].武漢:華中師范大學(xué),2015.
[8]于江德,趙紅丹,鄭勃舉,等.基于中文人名用字特征的性別判定方法[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2014(1):13-18.
[9]李榮陸,王建會(huì),陳曉云,等.使用最大熵模型進(jìn)行中文文本分類[J].計(jì)算機(jī)研究與發(fā)展,2005,42(1):94-101.
(責(zé)任編輯:王前)
TP18
A
1008-7974(2016)06-0069-04
10.13877/j.cnki.cn22-1284.2016.12.022
2016-09-08
安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2016A009)
胡龍茂,男,安徽太湖人,講師.
通化師范學(xué)院學(xué)報(bào)2016年12期