李向農(nóng) 王宇波
(華中師范大學(xué) 文學(xué)院,湖北 武漢 430079)
網(wǎng)絡(luò)媒體監(jiān)測語料庫漢字使用的性別差異
李向農(nóng) 王宇波
(華中師范大學(xué) 文學(xué)院,湖北 武漢 430079)
本文以國家語言資源監(jiān)測與研究中心(網(wǎng)絡(luò)媒體分中心)所建立的男女博客文本語料庫為研究對象,對男女在漢字使用上的性別差異作統(tǒng)計調(diào)查與分析。通過從覆蓋率、高頻字、低頻字、共用字、獨用字、構(gòu)詞能力等多個角度的統(tǒng)計發(fā)現(xiàn),男女博客在漢字的使用上既有一定的共性,又有明顯的差異。男性在總字種數(shù)、低頻字的字種數(shù)上明顯多于女性,女性在總字次、非常用字的使用比例上高于男性。
網(wǎng)絡(luò)媒體監(jiān)測語料庫;漢字;性別差異;字種數(shù)
性別語言研究一直是社會語言學(xué)的研究熱點,國內(nèi)學(xué)者對語言性別差異的研究與西方學(xué)界相比尚有很大差距,尤其以中國大陸為樣本的實證研究不曾多見。同時,“重視漢語語料、加強本土化研究也符合當(dāng)代語言性別差異研究的多元化、動態(tài)化、微觀化和本土化的發(fā)展趨勢?!雹僖虼耍疚囊試艺Z言資源監(jiān)測與研究中心(網(wǎng)絡(luò)媒體分中心)建立的 2005—2006 年 spaces.live.com,blog.sina.com.cn,blog.sohu.com,blogcn.com,bokee.com,blog.hexun.com,blogbus.com等知名的中文博客網(wǎng)站的部分網(wǎng)頁(共計4938041篇,1937732982字符次)的文本語料為基礎(chǔ),提取出具有性別標(biāo)識的博客文本共計2275826篇,606571001字符次(其中男性作者54982個,文章773777篇;女性作者77007個,文章1502049篇)的博客語料庫為樣本作為研究對象,對博客語料中漢字使用的性別差異作統(tǒng)計調(diào)查。
楊信彰認(rèn)為“語料庫的使用為語言與性別的研究提供了良好的工具”,“在研究手段上,語料庫的使用能幫助我們更好地審視語言與性別的關(guān)系?!雹谝虼?,對中文男女博客語料庫中的男女性在總字次、字種數(shù)、使用頻率等相關(guān)數(shù)據(jù)的統(tǒng)計,能客觀、真實地反映漢字使用的性別差異。
如表1所示,男性博客中使用的總字種數(shù)為20917,女性為13558,男性多于女性;但在總字次上女性卻遠(yuǎn)遠(yuǎn)高于男性,女性字種數(shù)的平均使用頻次為27560次/字種,高于男性的11135次/字種,說明男性博客在用字上相對來說較為分散,而女性則較為集中,較為頻繁地使用相對較少的字種。
表1 男女博客中漢字總體使用情況
本文有關(guān)覆蓋率的統(tǒng)計按照國家語言資源監(jiān)測與研究中心編輯的《中國語言生活狀況報告(2008)》(下編)中的定義,指的是被調(diào)查語料內(nèi)指定調(diào)查對象占所有調(diào)查對象總量的百分比,計算方法與累加頻率相同,即每一調(diào)查對象的頻次同其前調(diào)查對象的頻次的累加和,與所有語料中調(diào)查對象總次數(shù)的比值。漢字的覆蓋率是衡量漢字在所屬語料庫中是否常用的標(biāo)準(zhǔn)之一。
表2中以覆蓋率10%為增長的基準(zhǔn),在同一覆蓋率的標(biāo)準(zhǔn)下,統(tǒng)計對比了男女博客中所使用的漢字字種數(shù)以及在總字種數(shù)中所占的比例,可以得出的結(jié)論是:要達(dá)到相同的覆蓋率,男性與女性相比要使用相對較多的字種數(shù);而要達(dá)到相同的覆蓋率,女性所使用的字種數(shù)在總字種數(shù)中所占的比例則相對高于男性。這進一步印證了表1中得出的結(jié)論,即男性博客在用字上相對來說較為分散,而女性則較為集中,較為頻繁地使用相對較少的字種。
表2 男女博客中漢字使用覆蓋率差異
下面我們將同一覆蓋率下男性字種數(shù)和女性字種數(shù)進行了一一比對,并計算得出了同一覆蓋率下男女字種數(shù)差值。從表3中可以看到,隨著覆蓋率的增加,男女字種數(shù)的差值也逐漸變大。
表3 不同覆蓋率范圍內(nèi)男女字種數(shù)對比
圖1 不同覆蓋率范圍內(nèi)男女字種數(shù)對比曲線圖
圖1兩條曲線分別代表男性字種數(shù)和女性字種數(shù),兩條曲線的走向基本一致,在覆蓋率不超過90%之前,男性和女性兩條曲線之間的距離非常接近,這說明男女性字種數(shù)差值較小;而當(dāng)覆蓋率超過90%以后,代表男性和女性的曲線之間的距離逐漸變大,可見隨著覆蓋率的增加,男女字種數(shù)差值亦隨之增加。
我們把某個調(diào)查對象的使用頻次與所有調(diào)查對象的總頻次的比值當(dāng)做其使用頻率,按照頻率大小降序排列,可以明顯地看出不同的調(diào)查對象在使用頻率上的差異,表4是男女博客中使用頻率最高的前20個漢字。
表4 使用頻率最高的前20個字
表4中所列出的漢字使用頻率最高的前20個字中,男女使用頻率最高的字都為“的”字,男女使用頻率分別為4.58%和4.68%,使用頻率排名最低的字男女也都在0.5%以上。另外,頻率最高的20個字中,男女性之間達(dá)到了70%的一致性,有17個字是男女共用的,屬于共用高頻字(見表5);只有3個字是男女各自的獨用高頻字,男性的獨用高頻字分別是“大”(頻率為0.55%)、“也”(頻率為0.50%)、“們”(頻率為0.50%),女性的獨用高頻字分別是“好”(頻率為 0.64%)、“天”(頻率為0.61%)、“要”(頻率為0.56%)。男女性之間的一致性還體現(xiàn)在,男女的獨用高頻字都位于表4中相對靠后的位置,這說明漢字的使用頻率越高,其在男女博客中使用的一致性也相對較高。
表5 男女前20個高頻字中共用字的使用頻率對比
在以降序排列的漢字使用頻率表中,出現(xiàn)頻次較少的字占了很大一部分比例,在對男女博客中漢字使用情況進行比較時,高頻字固然是重要的指標(biāo)之一,同時,使用頻率較低的字即低頻字的使用情況也不容忽視。我們以出現(xiàn)頻次為標(biāo)準(zhǔn),單獨列出了出現(xiàn)頻次不多于10次的低頻字。
表6 使用頻次不多于10次的低頻字
從表6中所列出的低頻字可以發(fā)現(xiàn),從低頻字的字種數(shù)來看,男性遠(yuǎn)遠(yuǎn)大于女性,男性使用頻次不多于10次的字種數(shù)為12309,女性只有4852,男性是女性的兩倍還要多;從低頻字所占總字種數(shù)的比例來看,男性低頻字所占比例為58.85%,超過了半數(shù),遠(yuǎn)遠(yuǎn)超過女性的35.79%。由此可見,在男女博客的漢字使用上,低頻字都占有相當(dāng)一部分比例,但男性表現(xiàn)得更為突出,即男性所使用的超過一半的漢字都為出現(xiàn)頻次不大于10次的低頻字,女性雖然沒有男性這么明顯,但低頻字的比例也超過了三分之一,也是不可忽視的重要組成部分。這進一步說明男性博客在漢字的使用上更為分散,范圍更廣,更具有靈活性和多樣性。
圖2 男女低頻字所占比例曲線圖
男女低頻字都在總字種數(shù)中占有相當(dāng)大的比重,體現(xiàn)出了一定的相似性,但在更深層次上它們又體現(xiàn)出了一定的差異性。圖2中我們以頻次為標(biāo)準(zhǔn),將男女低頻字各自所占比例進行了對比,從上面的曲線圖我們可以明顯地發(fā)現(xiàn):僅從出現(xiàn)頻次從1次到10次這個區(qū)間來看,女性低頻字中頻次為1次的字所占比例最高,隨著頻次的增加,低頻字所占比例依次降低;而男性的情況稍微有些變化,頻次為1次的低頻字所占比例并不像女性一樣在這個區(qū)間內(nèi)是最高的,而頻次為2次的低頻字,其所占比例幾乎高達(dá)35%,然后隨著頻次的增加,低頻字所占的比例也處于一種依次降低的趨勢。
通過上面的統(tǒng)計分析,我們發(fā)現(xiàn)男女博客中的漢字使用在具有一致性的同時,也表現(xiàn)出了各自的特點。表7對男女性共用字與獨用字的分析,更能表現(xiàn)出男女博客在漢字使用上的差異與共性。
表7 使用頻率前100位中的男女共用字與獨用字
使用頻率排名在前100位的字中,男性的覆蓋率達(dá)到了47.47%,略低于女性的50.69%,其中男女共用了86個字,各自獨用了7個字。男性獨用的七個字為“國、用、成、當(dāng)、間、作、同”,女性獨用的為“愛、候、又、讓、女、老、做”,這些獨用字在一定程度上說明男性較多地關(guān)注國家大事,較多地使用“國”等字;而女性則感情較為細(xì)膩,更多地關(guān)注感情、年紀(jì)、美容等,較多地使用與此相關(guān)的“愛、老”等字。與男女性關(guān)注熱點有關(guān)的字的使用頻率相對于對方來說都較高。
表8 使用頻率前1000位中的男女共用字與獨用字
表8中所列出的使用頻率前1000位的字中,男女漢字使用的覆蓋率都達(dá)到了90%左右,男性為89.93%,略低于女性的90.62%;男女共用字為922個,獨用字各78個,獨用字所占比例與前100字中獨用字所占比例大致相當(dāng);男女性的獨用字依舊與男女性所關(guān)注的事件具有一定的一致性,男性更多地使用了與政治、比賽、游戲、工作等相關(guān)的“政、權(quán)、治、魔、輸、歐、勝”等表達(dá)較為正式的內(nèi)容的字,而感情較為細(xì)膩的女性則相對更頻繁地使用了與生活、感情、動物、感覺等有關(guān)的“暖、疼、貓、逛、甜、帥、涼”等,同時女性獨用字中還出現(xiàn)了一定數(shù)量的繁體字,這與我們所選擇的博客語料庫有關(guān),人們尤其是女性在網(wǎng)絡(luò)語言中更傾向于使用一些繁體字來達(dá)到新穎活潑的表達(dá)效果。
表9 使用頻率前1500位中的男女共用字與獨用字
表10 使用頻率前2000位中的男女共用字與獨用字
表11 使用頻率前2500位中的男女共用字與獨用字
除了男女漢字使用頻率前100位和前1000位之外,我們又分別統(tǒng)計了男女漢字使用頻率前1500位、前2000位和前2500位的漢字使用情況(見表9-11):前1500位漢字中,男女獨用字各102字,占6.8%;前2000位中,男女獨用字各119字,占5.95%;前2500位中,男女獨用字各124字,占4.96%。
圖3 男女漢字使用獨用字比例曲線圖
通過圖3可以明顯地看出,從前100字到前2500字,除了前1000字中男女獨用字比例大于其他幾個對比范圍之外,男女獨用字的比例隨著統(tǒng)計范圍的擴大基本上是呈下降趨勢的。
《現(xiàn)代漢語常用字表》包括常用字(2500字)和次常用字(1000字),由國家語言文字工作委員會和國家教育委員會發(fā)布,一般掌握了常用字就達(dá)到了利用漢語的基本要求。我們將男女博客中漢字使用頻率前2500字分別與常用字表(2500字即一級常用字)進行對比,具體情況見表12。
下面我們分別將位于男女性使用頻率前2500字中、但卻沒有出現(xiàn)在常用字表中的字分別列出。
表13 前2500字超出一級常用字的繁體字與嘆詞
通過表13中的統(tǒng)計對比我們發(fā)現(xiàn):首先,男性漢字使用頻率前2500字的覆蓋率達(dá)到了98.37%,女性則達(dá)到了98.43%,其中男女性都包含了大量《現(xiàn)代漢語常用字表》(2500字)所沒有的字,男性為344字,而女性則更多,為384字。其次,繁體字占了很大的比例,男性為95字,占了27.62%,女性為124字,占了32.29%,這與網(wǎng)絡(luò)語言中人們喜歡求新求變有關(guān),比如火星文、繁體字等都與人們這種追求新穎的心理密不可分。另外,男女博客漢字使用中都包含有一定量的方言用字,如“係、嘅、吖、咗、咁、叻”等;還有一些嘆詞,男性所使用的嘆詞有“呵、哦、嘛、嘿、哎、咯、哇、哼、吶”等,女性由于感情較為細(xì)膩所使用的嘆詞相對較多,包括“呵、哦、嘿、哎、咯、哇、哼、喔、喲、吶、咧”等。網(wǎng)絡(luò)語言的口語化程度極高,所以在網(wǎng)絡(luò)語言中嘆詞的出現(xiàn)頻率是相對較高的。
不同的字具有不同甚至是差異極大的構(gòu)詞能力,我們統(tǒng)計了覆蓋率達(dá)到90%的高頻字(男性為1005字種,女性為953字種)所構(gòu)成的詞語數(shù),按照構(gòu)詞數(shù)的多少進行了排序。
表14 構(gòu)詞能力最強的20個字
表14中我們列出了構(gòu)詞數(shù)在前20位的字所構(gòu)成的詞種數(shù)以及所出現(xiàn)的總頻次,其中男性構(gòu)詞能力最強的字為“大”,女性為“年”,所構(gòu)成的詞種數(shù)都在兩萬個以上,即使是排在第20位的字,它們所構(gòu)成的詞種數(shù)也超過了八千個;男性這20個字的平均構(gòu)詞能力為13699詞/字種,略高于女性的13112詞/字種;而且從表14中我們可以看到,“年、月、日”這三個與時間有關(guān)的字的構(gòu)詞能力在男女性中都幾乎排在最前面的位置。
在對上述構(gòu)詞能力最強的20個字的構(gòu)詞數(shù)和出現(xiàn)頻次進行概括的基礎(chǔ)上,我們將男女性的情況進行了對比。
表15 構(gòu)詞能力最強的20個字中男女共用字與獨用字
從表15中我們可以進一步發(fā)現(xiàn),構(gòu)詞能力最強的這20個字所構(gòu)成的詞種數(shù)幾乎占了總詞種數(shù)的40%左右;男性構(gòu)詞能力最強的20個字所構(gòu)成的詞語總數(shù)為273978個,占總詞種數(shù)631446的43.39%;而女性總詞種數(shù)為656339個,其中構(gòu)詞能力最強的20個字所構(gòu)成的262231個詞語就占了39.95%;我們將男女性之間的這20個字進行了對比,其中男女共用字為16個,而且都排在這20位中較前的位置,男女獨用字各為4個,排在這20位中相對靠后的位置。這說明構(gòu)詞能力最強的字所具有的極強的構(gòu)詞能力并不具有明顯的性別差異。
表16 構(gòu)詞能力最強的20個字中的男女共用字及構(gòu)詞數(shù)差值
表16中我們又將構(gòu)詞能力最強的20個字中的16個男女共用字的構(gòu)詞情況進行了一一比對,計算得出了每個共用字的男女構(gòu)詞數(shù)差值,并按照男女構(gòu)詞差值的絕對值大小進行了排序。
從表16中的數(shù)據(jù)可以看到,前20個構(gòu)詞能力最強的字中,男女性有16個共用字,但這16個共用字的構(gòu)詞能力在男女性博客中的表現(xiàn)并不完全相同。其中,男女構(gòu)詞數(shù)差值最大的字是“小”,其在男性中的構(gòu)詞數(shù)比女性多了6240個,“的”字的男性構(gòu)詞數(shù)比女性多5456個,男女構(gòu)詞數(shù)差值位于第二位,“和”“國”等字的男女構(gòu)詞數(shù)差值依次減少,而“?!弊值哪信畼?gòu)詞數(shù)差值是這16個共用字中最小的,男性構(gòu)詞數(shù)比女性多349個。根據(jù)表16中的數(shù)據(jù)生成下圖4,可以更直觀地將這些共用字在男女性中構(gòu)詞能力的不同表現(xiàn)出來。
圖4 16個共用字的男女構(gòu)詞數(shù)對比曲線圖
通過上述統(tǒng)計分析發(fā)現(xiàn),男女博客在漢字的使用上既有一定的共性,但同時又有較為明顯的性別差異。具體表現(xiàn)為:第一,男性博客使用的總字種數(shù)明顯多于女性,但是在總字次上女性則遠(yuǎn)遠(yuǎn)高于男性,男性在用字上相對來說較為分散,而女性則較為集中,較為頻繁地使用相對較少的字種。第二,男女在高頻字的使用上具有一定的一致性;而就低頻字的使用來說,男女低頻字所占比重都較大,但男性低頻字的字種數(shù)及所占比例遠(yuǎn)遠(yuǎn)多于女性。第三,男女獨用字的比例隨著調(diào)查范圍的擴大大致處于逐步降低的趨勢。第四,男女博客中使用的漢字包含一定比例的非常用字,且女性非常用字的使用比例高于男性。第五,在構(gòu)詞能力最強的前20個字的構(gòu)詞能力上,男女性具有較為明顯的一致性,但與各自關(guān)注熱點有關(guān)的字的構(gòu)詞能力相對會更強。
注釋
①史耕山、張尚蓮:《國內(nèi)語言性別差異研究概述》,《外語教學(xué)》2006年第3期。
②楊信彰:《語言與性別的多視角研究》,《當(dāng)代外語研究》2010年第1期。
責(zé)任編輯張靜
2010-11-20
國家社會科學(xué)基金項目“基于網(wǎng)絡(luò)媒體監(jiān)測語料庫(漢語)的性別語言比較研究”(09BYY018)