敏感性問題隨機(jī)化抽樣調(diào)查方法淺析

2013-01-21 09:17:10李健

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版 2013年2期

李健

（內(nèi)蒙古化工職業(yè)學(xué)院，內(nèi)蒙古呼和浩特 010010）

敏感性問題是指所調(diào)查的內(nèi)容涉及私人隱私而不愿或不便于公開表態(tài)或陳述的問題.例如學(xué)生在考試中有作弊現(xiàn)象，青少年的婚前性行為，社會(huì)上的賣淫嫖娼、賭博吸毒、偷稅漏稅等問題都是這一類問題，對(duì)這些問題的調(diào)查就是敏感性調(diào)查.

對(duì)于敏感性調(diào)查，如果直接提問，被調(diào)查者往往會(huì)拒絕回答，或不提供真實(shí)情況，因此對(duì)這一類調(diào)查必須采用經(jīng)過特別設(shè)計(jì)的調(diào)查方法，以消除被調(diào)查者的顧慮，使它們能夠如實(shí)回答問題.這種為敏感性問題調(diào)查特別設(shè)計(jì)的技術(shù)即是隨機(jī)化回答技術(shù)，其基本特征是被調(diào)查者對(duì)所調(diào)查的問題采取隨機(jī)回答的方式，避免在沒有任何保護(hù)的情況下直接回答敏感性問題，從而既對(duì)被調(diào)查者的隱私和秘密加以保護(hù)，且能獲得所需的真實(shí)資料.

敏感性問題按問題指標(biāo)特征可分成屬性特征問題和數(shù)量特征問題兩類.本文將按這兩類介紹一些已有的隨機(jī)化調(diào)查模型.

為了得到敏感性問題的可靠的樣本數(shù)據(jù)，使被調(diào)查者能夠很好地配合調(diào)查.Warner在1965年開創(chuàng)性地提出了隨機(jī)化回答調(diào)查法，這種調(diào)查方法的原理是在調(diào)查中引入隨機(jī)化裝置，使被調(diào)查者在保證真實(shí)回答的前提下，采用隨機(jī)化回答裝置，既能為被調(diào)查者保護(hù)個(gè)人隱私，也能使調(diào)查者獲得所需的真實(shí)信息.之后，又出現(xiàn)了各種敏感問題調(diào)查方法.

1 定性敏感性問題隨機(jī)化調(diào)查方法的發(fā)展?fàn)顩r

Waner1965年首先引入了敏感性問題的隨機(jī)化調(diào)查方法，揭開了隨機(jī)化調(diào)查的序幕.之后Simmons(1967)、Mangat(1990,1994)、Kuk(1990)、Singh(2002)等一些學(xué)者進(jìn)一步發(fā)展了隨機(jī)化回答技術(shù).這些學(xué)者提出的調(diào)查方法解決的是定性敏感性問題的調(diào)查，即估計(jì)總體中具有敏感特征個(gè)體所占的比例.

1.1 Warner隨機(jī)化模型（又稱相關(guān)問題模型）

其設(shè)計(jì)原則是根據(jù)敏感性特征設(shè)計(jì)兩個(gè)相互對(duì)立的問題，“你有敏感屬性A嗎？”和該問題的對(duì)立問題“你沒有敏感屬性A嗎？”讓被調(diào)查者按預(yù)定的概率從中選一個(gè)回答，調(diào)查者無權(quán)過問被調(diào)查者究竟回答的是哪一個(gè)問題.

根據(jù)矩思想得到πA的一個(gè)無偏估計(jì)量為：

其中λ=πAPW(1-πA)(1-PW)為被調(diào)查者回答“是”的概率.

1.2 Simmons隨機(jī)化模型（又稱無關(guān)問題模型）

Simmons于1967年對(duì)Warner模型作了改進(jìn).其設(shè)計(jì)仍是基于Warner的隨機(jī)化回答思想.在設(shè)計(jì)調(diào)查方案時(shí)，用無關(guān)的問題Y代替了Warner模型中的敏感性問題A的對(duì)立問題.如Y為“你是四月出生的嗎?”,“你喜歡藍(lán)色嗎？”等等.

πA的一個(gè)無偏估計(jì)量為：

其中θ=πAPS+πy(1-PS)為被調(diào)查者回答“是”的概率.

1.3 Mangat 1990隨機(jī)化回答模型

Mangat（1990）提出一個(gè)具有兩個(gè)隨機(jī)化裝置的方法.第一個(gè)裝置由兩條陳述組成，即（i）“我有敏感屬性A”，（ii）“到第二個(gè)裝置”，配置概率分別為T和1-T.第二個(gè)裝置和Warner裝置完全相同具有設(shè)計(jì)參數(shù)PM和1-PM.

πA的一個(gè)無偏估計(jì)量為：

其中α=TπA)1-T)[πAPM+(1-πA)(1-PM)].

1.4 Mangat 1994隨機(jī)化回答模型

這個(gè)裝置是Mangat在他1990年提出的方法的基礎(chǔ)上將隨機(jī)化裝置進(jìn)一步進(jìn)行簡(jiǎn)化而得出的，它使得被調(diào)查者的回答更為簡(jiǎn)便.

πA的一個(gè)無偏估計(jì)量為：

其中β=πA+(1-πA)(1-Pm).

1.5 KUK隨機(jī)化裝置

此裝置的特點(diǎn)是不要求個(gè)體給出一個(gè)“是”或“否”的回答，調(diào)查方法為：個(gè)體分別根據(jù)參數(shù)θ1和θ2的兩個(gè)Bernoulli分布產(chǎn)生兩個(gè)結(jié)果.如果他或她有敏感屬性A，要求個(gè)體回答第一個(gè)結(jié)果.如果他或她沒有敏感屬性A，則回答第二個(gè)結(jié)果.

πA的一個(gè)無偏估計(jì)量為：

其中γ=πAθ1+(1-πA)θ2為樣本個(gè)體報(bào)告“第一個(gè)結(jié)果”的概率.

2 定量特征敏感性問題隨機(jī)化調(diào)查方法的發(fā)展?fàn)顩r

使用簡(jiǎn)單隨機(jī)有放回抽樣方法從N個(gè)總體中抽取n個(gè)簡(jiǎn)單隨機(jī)樣本.所要解決的問題是估計(jì)總體中敏感問題特征量X的均值

對(duì)于定量敏感性問題的研究，Greenberg(1969,1971)、Eichhorn和Hayre(1983)、Gupta(2002)、Bar_Lev(2004)等提出了一些可供選擇的隨機(jī)化調(diào)查方法.Gjestvan等人2007年提出了在效率上優(yōu)于Bar-Lev(2004)模型的強(qiáng)迫回答模型.

設(shè)X表示對(duì)定量敏感問題的回答值，S表示一個(gè)與X相互獨(dú)立的正的隨機(jī)數(shù)，且S的均值與方差已知，分別記為θ,γ2.回答者所產(chǎn)生的回答是敏感變量X與隨機(jī)數(shù)S的乘積.調(diào)查者最終收集到的是個(gè)體關(guān)于敏感指標(biāo)的擾動(dòng)回答Z=XS.樣本中的每一個(gè)個(gè)體使用某種隨機(jī)化裝置產(chǎn)生一個(gè)隨機(jī)數(shù)S，調(diào)查者不知道被調(diào)查者產(chǎn)生的隨機(jī)數(shù)S.這里隨機(jī)數(shù)S被EH稱為擾動(dòng)隨機(jī)變量.使用簡(jiǎn)單隨機(jī)有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本，則樣本中的第i個(gè)個(gè)體報(bào)告的回答值為zi=xisi,樣本均值為

2.1 Greenberg模型(RG)

調(diào)查方法如下：

(1)產(chǎn)生一概率密度為f(y)的隨機(jī)數(shù)Y.

(2)產(chǎn)生一0—1分布的隨機(jī)數(shù)ε，且P(ε=1)=PG.

(3)若ε=1，則被調(diào)查者直接回答敏感性問題X；否則要求被調(diào)查者回答看到的Y值.

X,Y,ε 相互獨(dú)立.研究者只能看到被調(diào)查者給出的最終回答zi.

將之歸為模型，則得：

X均值的無偏估計(jì)量為:

估計(jì)量XG的方差為：

2.2 Eichhorn和Hayre模型

Eichhorn和Hayre(1983)對(duì)總體的敏感指標(biāo)X的均值μx給出一個(gè)如下的無偏估計(jì)量

方差為

其中σX2=V(X)，Cx=σx/μx,Cγ=γ/θ,而Cx=σx/μx,Cγ=γ/θ 分別表示總體敏感指標(biāo)X和擾動(dòng)變量S的變異系數(shù).

2.3 Gupta擾動(dòng)變量回答模型

2002年Gupta等人在Eichhorn和Hayre(1983)擾動(dòng)回答模型的基礎(chǔ)上給出一種可選擇的隨機(jī)化調(diào)查技術(shù)，在此模型下，每個(gè)個(gè)體選擇如下兩類問題中的一類：

(a)回答者報(bào)告敏感指標(biāo)真值X,

(b)回答者報(bào)告擾動(dòng)回答XS,其中S為事先產(chǎn)生的與相互獨(dú)立的擾動(dòng)隨機(jī)數(shù).且滿足E(S)=θ=1.調(diào)查者收集到的關(guān)于敏感指標(biāo)X的擾動(dòng)回答是Z=XSW,其中W為示性隨機(jī)變量，即，令P0為個(gè)體報(bào)告擾動(dòng)回答的概率，則E（W）=P0.調(diào)查者根據(jù)所調(diào)查問題的敏感程度來選擇設(shè)計(jì)參數(shù)P0的值.如果所調(diào)查的問題較為敏感，此時(shí)人們傾向于使用擾動(dòng)回答，則調(diào)查者會(huì)選擇一個(gè)較大的P0值.如果問題是非常不敏感的，此時(shí)人們傾向于作直接回答，則調(diào)查者會(huì)選擇一個(gè)很小的設(shè)計(jì)參數(shù)P0.容量為n的簡(jiǎn)單隨機(jī)有放回樣本(SRSWR)中的第i個(gè)個(gè)體報(bào)告的回答值為

Gupta(2002)給出的對(duì)μx的一個(gè)無偏估計(jì)量為

方差為

2.4 Bar-Lev,Bobovitch和Boukai擾動(dòng)變量回答模型

Bar-Lev,Bobovitch和Boukai2004年給出一種改進(jìn)的擾動(dòng)回答模型，設(shè)X是所要調(diào)查的定量敏感指標(biāo)，Y是一個(gè)分布已知的擾動(dòng)隨機(jī)變量，X與Y相互獨(dú)立，P0是調(diào)查裝置設(shè)計(jì)參數(shù).

被調(diào)查者遵循如下的隨機(jī)化回答原則：Z=XSW其中W為示性隨機(jī)變量，即，令P0為個(gè)體報(bào)告擾動(dòng)回答的概率，則E（W）=P0.其中E(S)=θ,V(S)=γ2為已知.使用簡(jiǎn)單隨機(jī)有放回抽樣(SRSWR)的方法從容量為N的總體中抽取容量為n的簡(jiǎn)單隨機(jī)樣本，樣本中n個(gè)個(gè)體給出的隨機(jī)化回答值為等給出的敏感指標(biāo)均值的無偏估計(jì)量為

2.5 Gjestvang和Singh強(qiáng)迫回答模型

在Gjestvang等人提出的強(qiáng)迫回答模型中，隨機(jī)化調(diào)查裝置設(shè)計(jì)如下：一個(gè)裝有紅黃藍(lán)三種顏色卡片的箱子，箱中三種顏色卡片所占的比例分別為p1,p2,p3，且滿足條件p1+p2+p3=1，每一張卡片上都印有一個(gè)確定的數(shù)值，這個(gè)數(shù)值是由調(diào)查者設(shè)定的.在調(diào)查者不在場(chǎng)的前提下，每一個(gè)簡(jiǎn)單隨機(jī)樣本個(gè)體隨機(jī)從箱子中抽出一張卡片，如果卡片的顏色是紅色的，則要求個(gè)體報(bào)告敏感指標(biāo)X的真值；如果卡片的顏色是黃色的，則要求個(gè)體報(bào)告敏感指標(biāo)與擾動(dòng)變量的乘積值XY；如果卡片是藍(lán)色的，則要求個(gè)體報(bào)告印在卡片上的數(shù)值F.個(gè)體作出回答的分布為

強(qiáng)迫回答模型下，敏感指標(biāo)均值的一個(gè)無偏估計(jì)量為

在所有的隨機(jī)化回答技術(shù)中，個(gè)體參與調(diào)查的合作程度均依賴于調(diào)查裝置對(duì)個(gè)體作出回答的保密程度，裝置對(duì)個(gè)體隱私的保密性越好，個(gè)體越容易配合調(diào)查.另一方面，如果裝置對(duì)個(gè)體的保護(hù)程度提高了，那么裝置的調(diào)查效率就會(huì)降低.因此裝置對(duì)個(gè)體的保護(hù)度與裝置的調(diào)查效率之間存在著不可調(diào)和的矛盾.為了在保護(hù)度與效率之間建立一種合理的平衡，已有很多學(xué)者在這方面作出了研究.

〔1〕Hong Zhimin.Estimation of mean in randomized response surveys when answers are incompletely truthful[J].Model Assisted Statistics and Applications,2006,(1).

〔2〕閆在在，聶贊坎.隨機(jī)化策略的公平比較[J].數(shù)學(xué)物理學(xué)報(bào)，2004(24).

〔3〕洪志敏，閆在在.基于相同保護(hù)度的隨機(jī)化裝置效率比較[J].工程數(shù)學(xué)學(xué)報(bào),2008(25).

〔4〕馮士雍，施錫銓.抽樣調(diào)查—理論，方法和實(shí)踐[M].上海：上?？茖W(xué)技術(shù)出版社,1994.

〔5〕謝邦昌.抽樣調(diào)查理論及其應(yīng)用方法[M].北京：中國統(tǒng)計(jì)出版社,1998.