李 健
(內(nèi)蒙古化工職業(yè)學(xué)院,內(nèi)蒙古 呼和浩特 010010)
敏感性問題是指所調(diào)查的內(nèi)容涉及私人隱私而不愿或不便于公開表態(tài)或陳述的問題.例如學(xué)生在考試中有作弊現(xiàn)象,青少年的婚前性行為,社會(huì)上的賣淫嫖娼、賭博吸毒、偷稅漏稅等問題都是這一類問題,對(duì)這些問題的調(diào)查就是敏感性調(diào)查.
對(duì)于敏感性調(diào)查,如果直接提問,被調(diào)查者往往會(huì)拒絕回答,或不提供真實(shí)情況,因此對(duì)這一類調(diào)查必須采用經(jīng)過特別設(shè)計(jì)的調(diào)查方法,以消除被調(diào)查者的顧慮,使它們能夠如實(shí)回答問題.這種為敏感性問題調(diào)查特別設(shè)計(jì)的技術(shù)即是隨機(jī)化回答技術(shù),其基本特征是被調(diào)查者對(duì)所調(diào)查的問題采取隨機(jī)回答的方式,避免在沒有任何保護(hù)的情況下直接回答敏感性問題,從而既對(duì)被調(diào)查者的隱私和秘密加以保護(hù),且能獲得所需的真實(shí)資料.
敏感性問題按問題指標(biāo)特征可分成屬性特征問題和數(shù)量特征問題兩類.本文將按這兩類介紹一些已有的隨機(jī)化調(diào)查模型.
為了得到敏感性問題的可靠的樣本數(shù)據(jù),使被調(diào)查者能夠很好地配合調(diào)查.Warner在1965年開創(chuàng)性地提出了隨機(jī)化回答調(diào)查法,這種調(diào)查方法的原理是在調(diào)查中引入隨機(jī)化裝置,使被調(diào)查者在保證真實(shí)回答的前提下,采用隨機(jī)化回答裝置,既能為被調(diào)查者保護(hù)個(gè)人隱私,也能使調(diào)查者獲得所需的真實(shí)信息.之后,又出現(xiàn)了各種敏感問題調(diào)查方法.
Waner1965年首先引入了敏感性問題的隨機(jī)化調(diào)查方法,揭開了隨機(jī)化調(diào)查的序幕.之后Simmons(1967)、Mangat(1990,1994)、Kuk(1990)、Singh(2002)等一些學(xué)者進(jìn)一步發(fā)展了隨機(jī)化回答技術(shù).這些學(xué)者提出的調(diào)查方法解決的是定性敏感性問題的調(diào)查,即估計(jì)總體中具有敏感特征個(gè)體所占的比例.
其設(shè)計(jì)原則是根據(jù)敏感性特征設(shè)計(jì)兩個(gè)相互對(duì)立的問題,“你有敏感屬性A嗎?”和該問題的對(duì)立問題“你沒有敏感屬性A嗎?”讓被調(diào)查者按預(yù)定的概率從中選一個(gè)回答,調(diào)查者無權(quán)過問被調(diào)查者究竟回答的是哪一個(gè)問題.
根據(jù)矩思想得到πA的一個(gè)無偏估計(jì)量為:
其中λ=πAPW(1-πA)(1-PW)為被調(diào)查者回答“是”的概率.
Simmons于1967年對(duì)Warner模型作了改進(jìn).其設(shè)計(jì)仍是基于Warner的隨機(jī)化回答思想.在設(shè)計(jì)調(diào)查方案時(shí),用無關(guān)的問題Y代替了Warner模型中的敏感性問題A的對(duì)立問題.如Y為“你是四月出生的嗎?”,“你喜歡藍(lán)色嗎?”等等.
πA的一個(gè)無偏估計(jì)量為:
其中θ=πAPS+πy(1-PS)為被調(diào)查者回答“是”的概率.
Mangat(1990)提出一個(gè)具有兩個(gè)隨機(jī)化裝置的方法.第一個(gè)裝置由兩條陳述組成,即(i)“我有敏感屬性A”,(ii)“到第二個(gè)裝置”,配置概率分別為T和1-T.第二個(gè)裝置和Warner裝置完全相同具有設(shè)計(jì)參數(shù)PM和1-PM.
πA的一個(gè)無偏估計(jì)量為:
其中α=TπA)1-T)[πAPM+(1-πA)(1-PM)].
這個(gè)裝置是Mangat在他1990年提出的方法的基礎(chǔ)上將隨機(jī)化裝置進(jìn)一步進(jìn)行簡(jiǎn)化而得出的,它使得被調(diào)查者的回答更為簡(jiǎn)便.
πA的一個(gè)無偏估計(jì)量為:
其中β=πA+(1-πA)(1-Pm).
此裝置的特點(diǎn)是不要求個(gè)體給出一個(gè)“是”或“否”的回答,調(diào)查方法為:個(gè)體分別根據(jù)參數(shù)θ1和θ2的兩個(gè)Bernoulli分布產(chǎn)生兩個(gè)結(jié)果.如果他或她有敏感屬性A,要求個(gè)體回答第一個(gè)結(jié)果.如果他或她沒有敏感屬性A,則回答第二個(gè)結(jié)果.
πA的一個(gè)無偏估計(jì)量為:
其中γ=πAθ1+(1-πA)θ2為樣本個(gè)體報(bào)告“第一個(gè)結(jié)果”的概率.
使用簡(jiǎn)單隨機(jī)有放回抽樣方法從N個(gè)總體中抽取n個(gè)簡(jiǎn)單隨機(jī)樣本.所要解決的問題是估計(jì)總體中敏感問題特征量X的均值
對(duì)于定量敏感性問題的研究,Greenberg(1969,1971)、Eichhorn和Hayre(1983)、Gupta(2002)、Bar_Lev(2004)等提出了一些可供選擇的隨機(jī)化調(diào)查方法.Gjestvan等人2007年提出了在效率上優(yōu)于Bar-Lev(2004)模型的強(qiáng)迫回答模型.
設(shè)X表示對(duì)定量敏感問題的回答值,S表示一個(gè)與X相互獨(dú)立的正的隨機(jī)數(shù),且S的均值與方差已知,分別記為θ,γ2.回答者所產(chǎn)生的回答是敏感變量X與隨機(jī)數(shù)S的乘積.調(diào)查者最終收集到的是個(gè)體關(guān)于敏感指標(biāo)的擾動(dòng)回答Z=XS.樣本中的每一個(gè)個(gè)體使用某種隨機(jī)化裝置產(chǎn)生一個(gè)隨機(jī)數(shù)S,調(diào)查者不知道被調(diào)查者產(chǎn)生的隨機(jī)數(shù)S.這里隨機(jī)數(shù)S被EH稱為擾動(dòng)隨機(jī)變量.使用簡(jiǎn)單隨機(jī)有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本,則樣本中的第i個(gè)個(gè)體報(bào)告的回答值為zi=xisi,樣本均值為
調(diào)查方法如下:
(1)產(chǎn)生一概率密度為f(y)的隨機(jī)數(shù)Y.
(2)產(chǎn)生一0—1分布的隨機(jī)數(shù)ε,且P(ε=1)=PG.
(3)若ε=1,則被調(diào)查者直接回答敏感性問題X;否則要求被調(diào)查者回答看到的Y值.
X,Y,ε 相互獨(dú)立.研究者只能看到被調(diào)查者給出的最終回答zi.
將之歸為模型,則得:
X均值的無偏估計(jì)量為:
估計(jì)量XG的方差為:
Eichhorn和Hayre(1983)對(duì)總體的敏感指標(biāo)X的均值μx給出一個(gè)如下的無偏估計(jì)量
方差為
其中σX2=V(X),Cx=σx/μx,Cγ=γ/θ,而Cx=σx/μx,Cγ=γ/θ 分別表示總體敏感指標(biāo)X和擾動(dòng)變量S的變異系數(shù).
2002年Gupta等人在Eichhorn和Hayre(1983)擾動(dòng)回答模型的基礎(chǔ)上給出一種可選擇的隨機(jī)化調(diào)查技術(shù),在此模型下,每個(gè)個(gè)體選擇如下兩類問題中的一類:
(a)回答者報(bào)告敏感指標(biāo)真值X,
(b)回答者報(bào)告擾動(dòng)回答XS,其中S為事先產(chǎn)生的與相互獨(dú)立的擾動(dòng)隨機(jī)數(shù).且滿足E(S)=θ=1.調(diào)查者收集到的關(guān)于敏感指標(biāo)X的擾動(dòng)回答是Z=XSW,其中W為示性隨機(jī)變量,即,令P0為個(gè)體報(bào)告擾動(dòng)回答的概率,則E(W)=P0.調(diào)查者根據(jù)所調(diào)查問題的敏感程度來選擇設(shè)計(jì)參數(shù)P0的值.如果所調(diào)查的問題較為敏感,此時(shí)人們傾向于使用擾動(dòng)回答,則調(diào)查者會(huì)選擇一個(gè)較大的P0值.如果問題是非常不敏感的,此時(shí)人們傾向于作直接回答,則調(diào)查者會(huì)選擇一個(gè)很小的設(shè)計(jì)參數(shù)P0.容量為n的簡(jiǎn)單隨機(jī)有放回樣本(SRSWR)中的第i個(gè)個(gè)體報(bào)告的回答值為
Gupta(2002)給出的對(duì)μx的一個(gè)無偏估計(jì)量為
方差為
Bar-Lev,Bobovitch和Boukai2004年給出一種改進(jìn)的擾動(dòng)回答模型,設(shè)X是所要調(diào)查的定量敏感指標(biāo),Y是一個(gè)分布已知的擾動(dòng)隨機(jī)變量,X與Y相互獨(dú)立,P0是調(diào)查裝置設(shè)計(jì)參數(shù).
被調(diào)查者遵循如下的隨機(jī)化回答原則:Z=XSW其中W為示性隨機(jī)變量,即,令P0為個(gè)體報(bào)告擾動(dòng)回答的概率,則E(W)=P0.其中E(S)=θ,V(S)=γ2為已知.使用簡(jiǎn)單隨機(jī)有放回抽樣(SRSWR)的方法從容量為N的總體中抽取容量為n的簡(jiǎn)單隨機(jī)樣本,樣本中n個(gè)個(gè)體給出的隨機(jī)化回答值為等給出的敏感指標(biāo)均值的無偏估計(jì)量為
在Gjestvang等人提出的強(qiáng)迫回答模型中,隨機(jī)化調(diào)查裝置設(shè)計(jì)如下:一個(gè)裝有紅黃藍(lán)三種顏色卡片的箱子,箱中三種顏色卡片所占的比例分別為p1,p2,p3,且滿足條件p1+p2+p3=1,每一張卡片上都印有一個(gè)確定的數(shù)值,這個(gè)數(shù)值是由調(diào)查者設(shè)定的.在調(diào)查者不在場(chǎng)的前提下,每一個(gè)簡(jiǎn)單隨機(jī)樣本個(gè)體隨機(jī)從箱子中抽出一張卡片,如果卡片的顏色是紅色的,則要求個(gè)體報(bào)告敏感指標(biāo)X的真值;如果卡片的顏色是黃色的,則要求個(gè)體報(bào)告敏感指標(biāo)與擾動(dòng)變量的乘積值XY;如果卡片是藍(lán)色的,則要求個(gè)體報(bào)告印在卡片上的數(shù)值F.個(gè)體作出回答的分布為
強(qiáng)迫回答模型下,敏感指標(biāo)均值的一個(gè)無偏估計(jì)量為
在所有的隨機(jī)化回答技術(shù)中,個(gè)體參與調(diào)查的合作程度均依賴于調(diào)查裝置對(duì)個(gè)體作出回答的保密程度,裝置對(duì)個(gè)體隱私的保密性越好,個(gè)體越容易配合調(diào)查.另一方面,如果裝置對(duì)個(gè)體的保護(hù)程度提高了,那么裝置的調(diào)查效率就會(huì)降低.因此裝置對(duì)個(gè)體的保護(hù)度與裝置的調(diào)查效率之間存在著不可調(diào)和的矛盾.為了在保護(hù)度與效率之間建立一種合理的平衡,已有很多學(xué)者在這方面作出了研究.
〔1〕Hong Zhimin.Estimation of mean in randomized response surveys when answers are incompletely truthful[J].Model Assisted Statistics and Applications,2006,(1).
〔2〕閆在在,聶贊坎.隨機(jī)化策略的公平比較[J].數(shù)學(xué)物理學(xué)報(bào),2004(24).
〔3〕洪志敏,閆在在.基于相同保護(hù)度的隨機(jī)化裝置效率比較[J].工程數(shù)學(xué)學(xué)報(bào),2008(25).
〔4〕馮士雍,施錫銓.抽樣調(diào)查—理論,方法和實(shí)踐[M].上海:上??茖W(xué)技術(shù)出版社,1994.
〔5〕謝邦昌.抽樣調(diào)查理論及其應(yīng)用方法[M].北京:中國統(tǒng)計(jì)出版社,1998.