米子川 聶瑞華 衛(wèi)軍
摘 要:在大數(shù)據(jù)時代,信息展現(xiàn)出其前所未有的能量,因此,獲取信息尤其是有價值的信息是很重要的。對于處于社會網(wǎng)絡結(jié)構(gòu)的人們而言,他們身上也蘊含著豐富的信息,如何有效地從他們身上獲取信息至關(guān)重要。文章回顧已有的對社會網(wǎng)絡人群的抽樣方法研究后發(fā)現(xiàn),借助網(wǎng)絡結(jié)構(gòu)開展調(diào)查的滾雪球抽樣和同伴驅(qū)動抽樣受到了學者們的關(guān)注,在結(jié)合了社會網(wǎng)絡結(jié)構(gòu)的特點后,給出了在大數(shù)據(jù)下如何實現(xiàn)社會網(wǎng)絡人群抽樣的思考。
關(guān)鍵詞:非概率抽樣 社會網(wǎng)絡 大數(shù)據(jù)
中圖分類號:F626.5
文獻標識碼:A
文章編號:1004-4914(2016)03-030-02
一、研究意義
傳統(tǒng)的社會網(wǎng)絡主要存在于人群中的血緣關(guān)系、地緣關(guān)系、政治關(guān)系、經(jīng)濟關(guān)系、宗教關(guān)系以及其他社會性的聯(lián)系,這些或強或弱的人際關(guān)系形成了各種各樣的社會網(wǎng)絡。有些社會網(wǎng)絡是開放的,可以通過多種方法進行調(diào)查研究,比如對于親緣關(guān)系和同伴關(guān)系的研究,這些研究甚至可以通過直接的問卷調(diào)查進行;但有些網(wǎng)絡是封閉的,從外部很難進入,對這些網(wǎng)絡的調(diào)查研究和深入分析比較困難,比如一些特殊人群的圈子、宗教網(wǎng)絡或者政治性群體。
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,社交型網(wǎng)絡帶來了社會網(wǎng)絡的極度膨脹和蔓延,大量虛擬的社會網(wǎng)絡呈現(xiàn)在人們面前,這個被稱為“網(wǎng)友”的社會群體逐漸成為新的社會網(wǎng)絡研究對象。人們的群體認知和社會交往都發(fā)生了極大的改變,社會群體的規(guī)模、結(jié)構(gòu)、關(guān)聯(lián)和復雜性都大大加強。
同時,2012年以來,人們對于大數(shù)據(jù)時代的探討和研究越來越多,其中一個重要的問題就是大數(shù)據(jù)時代是否還需要抽樣。有學者建議使用行政記錄或相關(guān)的基礎數(shù)據(jù)的完全統(tǒng)計分析來取代抽樣調(diào)查。就社會群體而言,群體大數(shù)據(jù)的記錄和分析同樣具有很大的困難,這是由于社會網(wǎng)絡的邊界屬性和區(qū)隔特征所決定的,大多數(shù)社會網(wǎng)絡的成員之間有著相似的群體特征,而與外部個體有著顯著的區(qū)隔。比如宗教團體成員之間的互信關(guān)系、艾滋病患者之間的“同病相憐”關(guān)系等,都無法通過簡單的大數(shù)據(jù)關(guān)系實現(xiàn)統(tǒng)計分析和推斷。因此,抽樣調(diào)查就顯得比較重要。
由于社會網(wǎng)絡的現(xiàn)實性及其成員之間的特殊關(guān)聯(lián),利用現(xiàn)有的隨機抽樣的方法幾乎無法完成調(diào)查和統(tǒng)計分析,一是因為無法得到一個社會網(wǎng)絡成員的抽樣框,其成員的花名冊通常是保密的或者不可知的;二是因為即使有抽樣框,對這些特殊群體的訪問也是無法實現(xiàn)的;三是一些社會網(wǎng)絡人群對面向社會現(xiàn)實的抽樣調(diào)查有著天然的抗拒和排斥心理。
然而由于研究或?qū)嵺`的需要,有時需要對網(wǎng)絡人群的相關(guān)情況進行估計,通過相關(guān)理論和實踐研究發(fā)現(xiàn),一些非概率抽樣方法可以應用于上述情況中。
本文回顧了可應用于網(wǎng)絡人群抽樣的非概率抽樣方法。
二、利用非概率抽樣方法對社會網(wǎng)絡人群抽樣的研究現(xiàn)狀
目前來看,國內(nèi)學者對非概率抽樣方法對隱藏人群抽樣的研究還比較少,無論研究的程度和寬度均與國外學者有較大差距。
國外學者對社交網(wǎng)絡人群的的抽樣研究做了許多細致而有效的工作,其成果大體可以分為以下四類:
1.對抽樣方法的理論研究。Goodman(1961){1}詳細地介紹了S階段K推薦滾雪球抽樣的定義,并討論了如何通過抽樣樣本對總體的一些特征做出推斷,例如以S=K=1的情形為例,對如何表示總體中相互推薦的關(guān)系數(shù)目進行了詳細論證,他指出,在對隱藏人群進行抽樣時,滾雪球抽樣比簡單隨機抽樣更具效率。Salganik(2006){2}對同伴驅(qū)動抽樣的設計效應和抽樣規(guī)模進行了深入討論,并發(fā)現(xiàn)在使用同伴驅(qū)動抽樣時,所需要的樣本容量是簡單隨機抽樣下的2倍。Heckathorn(2007){3}提出在假設合理的情況下,同伴驅(qū)動抽樣能夠?qū)傮w作出漸進無偏估計。
2.結(jié)合具體案例,對抽樣方法理論進行驗證性研究。Malekinejad等人(2008){4}通過實際調(diào)查發(fā)現(xiàn),如果設計合理,同伴驅(qū)動抽樣在被應用到高危人群抽樣時,是一種有效的方法。Wejnert(2009){5}論證了在使用真實數(shù)據(jù)的情況下,利用同伴驅(qū)動抽樣是能夠給出有效的估計的。Sadler等(2010){6}討論了滾雪球抽樣在招募隱藏人群時的優(yōu)缺點,認為在使用滾雪球抽樣時,應當十分慎重。Johnston等(2010){7}討論了在實際應用同伴驅(qū)動抽樣時所面對的優(yōu)缺點。Perez等(2011){8}利用實際數(shù)據(jù)證明了,在恰當?shù)氖褂脻L雪球抽樣方法后,對少數(shù)人群的抽樣節(jié)省而高效。Korf(2012){9}利用數(shù)據(jù)再次驗證了同伴驅(qū)動抽樣比隨機抽樣在面對隱藏人群時更為有效。
3.對不同抽樣方法的比較研究。Heckathorn(1997){10}比較了滾雪球抽樣和同伴推動抽樣的不同點,他指出,同伴推動抽樣利用二次激勵提高了抽樣者推動和控制的效率并減少了花費。Salganik和Heckathorn(2004){11}在比較了目標抽樣和時間空間抽樣在對隱藏人群的估計偏差方面的不足后,提出了同伴驅(qū)動抽樣通過充分利用社會網(wǎng)絡結(jié)構(gòu)的信息,能夠更好的對總體作出相應估計,并給出了相應數(shù)學推導。Magnani等(2005){12}在研究如何對隱藏人群抽樣時,比較了滾雪球抽樣、目標抽樣、時間空間抽樣以及同伴驅(qū)動抽樣等抽樣方法的優(yōu)劣。Semaan(2010){13}從目的、應用、調(diào)查過程以及優(yōu)缺點等方面對時間空間抽樣和同伴推動抽樣做了對比。Kral等(2010){14}以招募美國舊金山的吸毒者為例,比較了同伴驅(qū)動抽樣和目標抽樣的效果。他發(fā)現(xiàn),兩種方法各具優(yōu)勢,綜合兩種方法也許是更好的抽樣方法。
4.將抽樣方法應用于各種領(lǐng)域中的橫向研究。Baltar等(2011){15}在利用臉譜來研究移民時,借助了滾雪球抽樣。Illenberger(2013){16}利用滾雪球抽樣設計來從已有數(shù)據(jù)中估計拓普網(wǎng)絡的特性。
三、應用到社交網(wǎng)絡平臺的思考
從已有的研究看,由于隱藏人群的比例較小且常常難以接觸,常規(guī)的抽樣方法難以有效實施,學者們普遍認為滾雪球抽樣以及同伴驅(qū)動抽樣是較好的抽樣方法,這是因為上述方法借助了人際網(wǎng)絡,提高了調(diào)查效率。
對網(wǎng)絡人群的抽樣方法研究集中在滾雪球抽樣和同伴驅(qū)動抽樣上,二者的區(qū)別在于同伴驅(qū)動抽樣加入了二次激勵機制。已有學者借助滾雪球抽樣在虛擬網(wǎng)絡中實現(xiàn)對目標群體的抽樣。結(jié)合上述兩種抽樣方法的特點,當需要在線上發(fā)起一項調(diào)查時,同伴驅(qū)動抽樣可能將是一種較好的調(diào)查方式,而如果想要對社交網(wǎng)絡中某一群體的特征做研究,考慮到網(wǎng)友之間的推薦關(guān)系可由已存在的“好友”關(guān)系所替代,借助網(wǎng)絡技術(shù)就能達到搜集數(shù)據(jù)的目的,滾雪球抽樣和同伴驅(qū)動抽樣的效果是基本相同的。
四、小結(jié)
處于大數(shù)據(jù)時代,大數(shù)據(jù)的一個重要特征就是體量巨大。在這個時代,人們能夠從幾乎任何數(shù)據(jù)中獲得可轉(zhuǎn)換為推動人們生活方式變化的有價值的知識。在大數(shù)據(jù)時代,信息會展現(xiàn)出其前所未有的能量,因此,獲取信息尤其是有價值的信息是很重要的。對于處于社會網(wǎng)絡結(jié)構(gòu)的人們(尤其是特殊群體)而言,他們身上也蘊含著豐富的信息,如何有效的從他們身上獲取信息至關(guān)重要。
對于處于社會網(wǎng)絡中的人們而言,由于無法獲取抽樣框等原因,在利用傳統(tǒng)的概率抽樣方法時,很難有效地獲取所需信息。解決這一問題的重要途徑就是利用滾雪球抽樣、同伴驅(qū)動抽樣等非概率抽樣方法,即在充分利用社會網(wǎng)絡結(jié)構(gòu)的特點之上,完成對目標群體的抽樣,特別的,在面對社交網(wǎng)絡時,應當注意利用其已存在并可被識別的“網(wǎng)友”關(guān)系。
本文詳細介紹了利用非概率抽樣方法對社會網(wǎng)絡人群抽樣的研究現(xiàn)狀,并在此基礎上給出了今后應用的思考,當然,就如何使用非概率抽樣方法在社會網(wǎng)絡上實現(xiàn)目標群體的抽樣還有待進一步的研究。
[課題支持:1.2013年山西省普通高校特色重點學科項目《山西綜改實驗區(qū)建設統(tǒng)計調(diào)查與評價方法設計和應用》;2.2015年山西省研究生創(chuàng)新項目《轉(zhuǎn)型期社會網(wǎng)絡非概率抽樣研究》編號2015SY47]
注釋:
{1}Goodman Leo A. Snowball Sampling. Annals of Mathematical Statistics. 1961;32:148 170.
{2}Salganik Matthew J. Variance Estimation, Design Effects, and Sample Size Calculations for Respondent-Driven sampling. Journal of Urban Health. 2006;83:i98 i112.
{3}Heckathorn Douglas D. Extensions of Respondent-Driven Sampling: Analyzing Continuous Variables and Controlling for Differential Recruitment. In: Xie Yu., editor. Sociological Methodology. vol. 37. Boston, MA: Blackwell Publishing; 2007. pp. 151 207.
{4}Malekinejad M, Johnston LG, Kendall C, Kerr LR, Rifkin MR, Rutherford GW. Using Respondent-Driven Sampling Methodology for HIV Biological and Behavioral Surveillance in International Settings: A Systematic Review. AIDS and Behavior. 2008;12:105 130.
{5}Wejnert Cyprian. An Empirical Test of Respondent-Driven Sampling: Point Estimates, Variance, Degree Measures, and Out-of-Equilibrium Data. In: Xie Yu., editor. Sociological Methodology. vol. 39. Hoboken, NJ: Wiley-Blackwell; 2009. pp. 73 116.
{6}Sadler, Hau-Chen Lee, Lim, Fullerton. Recruitment of hard-to-rearch population subgroups via adaptations of the snowball sampling strategy. Nursing and Health Sciences. 2010:12:369-374.
{7}Lisa G. Johnston and Keith Sabin. Sampling hard-to-reach populations with respondent driven sampling. Methodological Innovations Oline. 2010.pp.38-48.
{8}Daniel F.Perez, Jason X.Nie, Cheis I.Ardern, Natasha Radhu, Paul Ritvo. Impact of Participant Incentives and Direct and Snowball Sampling on Survey Response Rate in an Ethnically Diverse Community:Results from a Pilot Study of Physical Activity and the Built Environment. J Immigrant Minority Health. 2011.
{9}Korf. Differential Profiles of Crack Users in Respondent-Driven and Institutional Samples:A Three-Site Comparison. European Addicition Research,2012:18,192.
{10}Heckathorn Douglas D. Respondent-Driven Sampling: A New Approach to The Study of Hidden Populations. Social Problems. 1997;44:174 0199.
{11}Salganik Matthew J, Heckathorn Douglas D. Sampling and Estimation in Hidden Populations Using Respondent-Driven Sampling. In: Stolzenberg Ross M., editor. Sociological Methodology. vol 34. Boston, MA: Blackwell Publishing; 2004. pp. 193 239.
{12}Magnani Robert, Sabin Keith, Saidel Tobi, Heckathorn Douglas D. Review of Sampling Hard-to-Reach and Hidden Populations for HIV Surveillance. AIDS 2005. 2005;19 Suppl2:S67 S72.
{13}Salaam Semaan. Time-Space Samping and Respondent-Driven Sampling with Hard-To-Reach Populations. Methodological Innovations Online. 2010:5:60-75.
{14}Kral, Malekinejad, Vaudrey, Martinez, Lorvick, McFarland, Raymond. Comparing Respondent-Driven Sampling and Targeted Sampling Methods of Recruiting Injection Drug Users in San Francisco. Bulletin of the New York Academy of medicine. 2010.
{15}Fabiola Baltar, Ignasi Brunet. Social research 2.0:virtual snowball samling method using Facebook. Internet Research. 2012:pp.57-74.
{16}Johannes Illenberger, Gunnar Fl?tter?d. Estimating network properties from snowball sampled data Working Paper 11-01. Preprint submitted to Social Networks. 2013
(作者單位:山西財經(jīng)大學統(tǒng)計學院 山西太原 030006)
(作者簡介:聶瑞華,山西太原人,山西財經(jīng)大學統(tǒng)計學院 統(tǒng)計學碩士研究生在讀。研究方向:經(jīng)濟統(tǒng)計,抽樣調(diào)查,行為金融)
(責編:鄭釗)