劉 全
(成都信息工程學(xué)院 統(tǒng)計(jì)學(xué)院,成都 610103)
民意調(diào)查是使用科學(xué)的調(diào)查和分析方法,對某地方政府所管轄的居民的調(diào)查,通過調(diào)查了解公眾的需求、行為特征、政策偏好及其對政府服務(wù)的評價(jià),并確定公眾對政府服務(wù)評價(jià)高低的決定因素,以利于政府改進(jìn)服務(wù)的過程。
民意調(diào)查是對現(xiàn)行統(tǒng)計(jì)調(diào)查格局的突破,是對現(xiàn)行統(tǒng)計(jì)調(diào)查制度的重大創(chuàng)新和補(bǔ)充。我國統(tǒng)計(jì)工作受傳統(tǒng)計(jì)劃經(jīng)濟(jì)體制的影響,重心一直放在經(jīng)濟(jì)領(lǐng)域,而文化、社會領(lǐng)域的統(tǒng)計(jì)調(diào)查及研究始終處于從屬地位,政治領(lǐng)域才剛剛起步。同時(shí),我國民意調(diào)查的實(shí)踐遠(yuǎn)遠(yuǎn)超前于理論的研究,這使得我國民意調(diào)查工作面臨著諸多問題。綜合國內(nèi)民意調(diào)查研究,主要是對西方理論的介紹、我國民意調(diào)查實(shí)踐工作的經(jīng)驗(yàn)總結(jié),而具有前瞻性、有針對性地對開展民意類調(diào)查理論研究,并有創(chuàng)新性成果的還鮮見。
民意調(diào)查的基本目的是了解公眾對政府行為及其產(chǎn)生后果的評價(jià),以及決定公眾評價(jià)的影響因素。對政府行為和績效的評價(jià)上,公眾本著“合理的無知”原則,一般只能給出他們看得見、摸得著的政府施政行為及其結(jié)果的感知。所以,如何設(shè)計(jì)出科學(xué)的問卷(態(tài)度量表),能就公眾對政府行為及其產(chǎn)生的后果進(jìn)行準(zhǔn)確地心理感知(如感受、意愿、態(tài)度等)調(diào)查是關(guān)鍵,其中,問卷中的問項(xiàng)選項(xiàng)、多級問項(xiàng)的選級、基于不同受訪群體的問卷選項(xiàng)尤為重要。
項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)是心理學(xué)上對所謂潛在心理特質(zhì)測量的一種科學(xué)理論,這與民意類調(diào)查研究目標(biāo)一致。其中,等級反應(yīng)理論(Graded Response Model,GRM)則是由Samejima(1969)發(fā)展起來的IRT模型的一種廣義形式,R.Koch(1983)在他的研究中,首次證實(shí)了等級反應(yīng)模型可應(yīng)用與態(tài)度量表[1]。70年代起,GRM理論已在大多數(shù)國家成為心理測量學(xué)家的主要研究課題。近幾年,國內(nèi)學(xué)者漆樹青、余嘉元、何曉群、柯惠新等在這方面進(jìn)行了大量研究[2~4],但其研究側(cè)重于GRT在心理測評、標(biāo)準(zhǔn)化考試、試題庫建設(shè)、自適應(yīng)測驗(yàn)的應(yīng)用等方面。
根據(jù)IRT理論,若調(diào)查問項(xiàng)的備選答案只有正面(如滿意,同意等)、負(fù)面(如不滿意、不同意等)兩種情形,并采用“0-1”記分法(正面為1,負(fù)面為0)時(shí),則受訪者對問項(xiàng)給出1(正面或積極)回答的概率可采用項(xiàng)目反應(yīng)理論中的Logistic模型刻劃。實(shí)際中常用二參數(shù)Logistic模型[1](2PLM):
在民意類調(diào)查中,實(shí)際問項(xiàng)設(shè)計(jì)普遍采用Likert等級態(tài)度量表(如:3、5、7或9等級量表),其備選答案有多個等級(如:4=非常滿意、3=滿意、2=一般、1=不滿意、0=很不滿意,等等),為此,必須對“0-1”記分法的模型(1)進(jìn)行擴(kuò)展。
每條概率曲線表示受訪者在問項(xiàng)i上評價(jià)為l等(l=0、1、2)及以上的概率。利用這種曲線,可得到態(tài)度量值為θ的受訪者對問項(xiàng)i評價(jià)恰好為0(負(fù)面)、1(正面)的概率:
進(jìn)一步,如果問項(xiàng)i共有ki個等級。則態(tài)度量值為θ的受訪者給出評價(jià)為l(l=1,2,…,ki)等及以上的概率,不難由(1)式推廣得到:
模型(3)便是普遍意義上的等級反應(yīng)模型[5],其函數(shù)圖形稱為等級項(xiàng)目特征曲線(Item characteristic curve,ICC),并都是(2)式中兩條概率曲線之差。
通過問卷調(diào)查,獲取受訪者對某問項(xiàng)給出滿意評價(jià)所對應(yīng)的態(tài)度量值θ,實(shí)質(zhì)是一個抽樣推斷過程。根據(jù)抽樣理論,抽樣推斷的置信區(qū)間由抽樣分布的標(biāo)準(zhǔn)誤SE(θ)決定,其大小與估計(jì)精度成反比,為此,定義 I(θ)=1/SE(θ)2作為等級反應(yīng)模型的估計(jì)精度是合理的,并稱I(θ)為信息函數(shù)。
根據(jù)A.Birnbaum(1957)結(jié)論,問卷對受訪者a的總信息量為各問項(xiàng)信息量之和[6],即:
其中,m是問卷所含的問項(xiàng)數(shù),Ii(θa)是問項(xiàng)i對態(tài)度量值為θ的受訪者a的信息函數(shù)。在(3)式情況下,可以證明[7]:
信息函數(shù)Ii(θa)給出了問項(xiàng)i的基于不同態(tài)度量值θ受訪者a的不同調(diào)查精度,或者說,Ii(θa)給出了問項(xiàng)i在態(tài)度量值為θ的受訪者a上調(diào)查所能得到的信息量。
對態(tài)度量值為θ的受訪者a,若已知各個問項(xiàng)所能提供的信息量Ii(θa),則根據(jù)以上結(jié)論,顯然有整個問卷對受訪者a調(diào)查所產(chǎn)生的標(biāo)準(zhǔn)誤:
顯然,問項(xiàng)所能提供的調(diào)查信息量越大,則SE(θa)就越小,對受訪者態(tài)度量值θ的估計(jì)就越精確,反之亦然。
一個問項(xiàng)的信息量越大,則對整個調(diào)查的貢獻(xiàn)越大;反之亦然。因而用問項(xiàng)信息函數(shù)值的大小來衡量問項(xiàng)的優(yōu)劣顯然是合理的。具體策略是:
⑵計(jì)算各個備選問項(xiàng)的信息量,并按其信息量從大到小依此選取,直至信息量累計(jì)值剛好達(dá)到或超過TIC。關(guān)于備選問項(xiàng)信息量的計(jì)算,一般采用專門的等級項(xiàng)目反應(yīng)軟件,其計(jì)算過程是:先由(3)式得到各個備選問項(xiàng)的ICC曲線,然后根據(jù)(4)式計(jì)算出其問項(xiàng)的信息量。如某地關(guān)于“社會和諧度”民意調(diào)查問卷設(shè)計(jì)中,筆者采用Likert 5級態(tài)度量表編制出初始問卷(含39個問項(xiàng)),對該地區(qū)500位居民進(jìn)行預(yù)調(diào)查,并經(jīng)同向化處理,取得模型擬合的基礎(chǔ)數(shù)據(jù)。若用戶要求抽樣標(biāo)準(zhǔn)誤 SE(θ)在區(qū)間-1.0≤θ≤+1.0 內(nèi) 不 大 于 0.4,則 由 公 式 :I(θ)=1/SE(θ)2=1/0.42=6.25,表明問卷信息量累計(jì)值須大于或等于6.25。為此,利用以上500位居民的預(yù)調(diào)查數(shù)據(jù),選用二參數(shù)邏輯斯蒂GRM模型(已對基礎(chǔ)數(shù)據(jù)進(jìn)行了單維性假定檢驗(yàn),檢驗(yàn)結(jié)果表明符合GRM建模要求)。使用Multilog7.0軟件得到相應(yīng)的ICC曲線及各問項(xiàng)在-1.0和+1.0處的信息量Ii(θa),再根據(jù)IRT要求去掉其中a≤0.3或a≥4,b>2.95或者b<-2.95 的項(xiàng)目,余下的24個問項(xiàng)依信息量從大到小排列(見表1)。
表1 各問項(xiàng)測量精度(信息量)排序
從表1按信息量大到小依次提取所需問項(xiàng),直至滿足最低累計(jì)信息量6.42的要求,從而得到滿足調(diào)查誤差要求的問卷方案(含20個問項(xiàng))。
圖1 某地“社會和諧度”民意調(diào)查問卷信息曲線
選用多少等級(如3、5、7或9等)的量表是民意類調(diào)查中的另一個重要問題。由(3)和(4)式可知,問項(xiàng)的評價(jià)等級Ki對GRM的擬合度和評價(jià)精度有直接影響,換言之,選擇合理的Ki可提高模型擬合度和調(diào)查評價(jià)精度。GRM在信息函數(shù)基礎(chǔ)上,構(gòu)建了邊際信度(Marginal Reliability,MR)指標(biāo),MR反映了問卷的整體精度[8],相當(dāng)于經(jīng)典測量理論中的信度系數(shù)α,其值越大越好。同時(shí),GRM還采用似然比卡方統(tǒng)計(jì)量(-2Loglikelihood)進(jìn)行模型-數(shù)據(jù)整體擬合檢驗(yàn)[8],其值越小越好。因此,問項(xiàng)等級的選擇可通過考察其各種等級組合模式下GRM的精度和擬合度,選取最優(yōu)等級組合模式而得到。
如“社會和諧度”問卷設(shè)計(jì)中,為了確定“您對該地區(qū)現(xiàn)時(shí)社會和諧程度評價(jià)”的備選項(xiàng),從“非常不和諧”到“非常和諧”擬采用多少等級(如3、5、7或9)為宜。則在固定其它問項(xiàng)不變情況下,采用了對該問項(xiàng)按3、5、7或9等級分別設(shè)計(jì),預(yù)調(diào)查取得數(shù)據(jù)后,選用二參數(shù)邏輯斯蒂GRM模型,使用Multilog7.0軟件得分析結(jié)果(見表2),比較各等級下的MR、-2Loglikelihood值可知,該問項(xiàng)采用5等級評價(jià)最佳。
表2 “您對該地區(qū)現(xiàn)時(shí)社會和諧程度評價(jià)”各等級評價(jià)的統(tǒng)計(jì)量
另一方面,在民意調(diào)查中,當(dāng)量表的備選等級設(shè)置較多(如5、7或9級)時(shí),往往受訪者容易出現(xiàn)趨中化或極端化的反應(yīng)傾向,這種情況在前兩級和后兩級間最易發(fā)生,從而導(dǎo)致選擇同一等級的受訪者與其真實(shí)情況并不一致。為此,可將其量表的等級進(jìn)行適當(dāng)?shù)暮喜?。如在Likert 7等級量表中,可將第1、2等級,第6、7等級分別合并,即將7級評分改為5等級甚至3等級評分,則有可能使調(diào)查的精度和模型-數(shù)據(jù)擬合得到提高。
等級項(xiàng)目特征曲線ICC雖然刻劃了受訪者對問項(xiàng)各等級進(jìn)行評價(jià)的概率,但是,對不同的受訪者其刻劃精度是不一樣的,同樣,對受訪者團(tuán)體的不同子體的適用性也是不一致的。比如,在社會和諧度調(diào)查中,可能存在問項(xiàng)i的等級特征曲線ICC適用于城市居民,但不太適用農(nóng)村居民。換言之,問項(xiàng)i能很好地篩選出不同滿意度的城市居民,但不能很好地篩選出不同滿意度的農(nóng)村居民情況。為此,問卷設(shè)計(jì)中,針對不同受訪子體,基于等級反應(yīng)曲線ICC,選擇出更能準(zhǔn)確評價(jià)出該子體態(tài)度量值θ的問項(xiàng)i,這對調(diào)查來說也是重要的。
如“社會和諧度”問卷設(shè)計(jì)中,考慮到城市、農(nóng)村居民可能對問卷中的某些問項(xiàng)評價(jià)存在明顯差異。為了選取分別適合城市、農(nóng)村居民的調(diào)查問項(xiàng),可就城市、農(nóng)村不同受訪群體,分析研究同一問項(xiàng)的等級項(xiàng)目特征曲線ICC在不同受訪群體中的優(yōu)劣,選出對該群體能更準(zhǔn)確獲得其態(tài)度量值的問項(xiàng)。
如“您對當(dāng)前財(cái)富與分配滿意度”問項(xiàng)的調(diào)查,一般來說,認(rèn)可和諧度越高的受訪者(不管是城市或農(nóng)村受訪者),圈填“4-滿意、5-非常滿意”的概率應(yīng)更高,反之亦然。以下是該問項(xiàng)分別對城市、農(nóng)村居民的項(xiàng)目特征曲線(圖2、圖3):
圖2 問項(xiàng)四的項(xiàng)目特征曲線(城市)
圖3 問項(xiàng)四的項(xiàng)目特征曲線
從圖2可知,對當(dāng)前財(cái)富與分配滿意(特質(zhì)區(qū)間[0,+3])的城市居民評價(jià)中,圈填“4-滿意、5-非常滿意”評價(jià)等級的概率高,這符合實(shí)際情況。而從圖3可知,對當(dāng)前財(cái)富與分配滿意(特質(zhì)區(qū)間[0,+3])的農(nóng)村居民評價(jià)中,圈填“5-非常滿意”評價(jià)等級的概率更高,這不太符合我國現(xiàn)階段城鄉(xiāng)差別的實(shí)際,說明該問項(xiàng)對農(nóng)村受訪者的態(tài)度量值測試質(zhì)量低,即該問項(xiàng)不太適合農(nóng)村受訪者。
本文構(gòu)建了民意類調(diào)查問卷設(shè)計(jì)的等級反應(yīng)理論模型GRM,研究了利用等級反應(yīng)模型的信息函數(shù)評價(jià)問卷調(diào)查中的誤差估計(jì)問題,提出了民意類調(diào)查問項(xiàng)的選項(xiàng)策略、多級問項(xiàng)的選級策略、基于不同受訪群體的問卷選項(xiàng)策略等,一系列基于等級反應(yīng)理論的民意類問卷設(shè)計(jì)技術(shù)問題,并結(jié)合某地開展的和諧社會調(diào)查討論了具體實(shí)現(xiàn)過程。
實(shí)踐表明,以上基于等級反應(yīng)理論的民意類調(diào)查問卷選項(xiàng)策略具有嚴(yán)謹(jǐn)?shù)目茖W(xué)性、很強(qiáng)的操作性。本方法允許調(diào)查方案設(shè)計(jì)者根據(jù)規(guī)定的調(diào)查精度,確定出目標(biāo)信息曲線TIC,編制出符合調(diào)查精度要求的調(diào)查項(xiàng)目。同時(shí),調(diào)查精度能在受訪者滿意度θ連續(xù)統(tǒng)上的若干點(diǎn)或區(qū)間得到嚴(yán)格控制??梢?,本方法對民意類調(diào)查問卷設(shè)計(jì)質(zhì)量提高具有重要的理論和實(shí)踐意義。
[1]余嘉元.項(xiàng)目反應(yīng)理論及其應(yīng)用[M].南京:江蘇教育出版社,1992.
[2]柯惠新,祝建華.傳播統(tǒng)計(jì)學(xué)[M].北京:北京廣播學(xué)院出版社,2003.
[3]漆書青.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,1998.
[4]許健,馬世曄,何曉群.標(biāo)準(zhǔn)化試題的評價(jià)與IRT模型的應(yīng)用[J].考試研究,2004,(8).
[5]羅照盛等.項(xiàng)目反應(yīng)理論等級反應(yīng)模型項(xiàng)目信息量[J].心理學(xué)報(bào),2008,40(11).
[6]涂冬波.信息函數(shù)在標(biāo)準(zhǔn)參照測驗(yàn)中的應(yīng)用研究[J].江西師范大學(xué)學(xué)報(bào),2005,(03).
[7]周駿.等級反應(yīng)模型下項(xiàng)目特征曲線等值法在大型考試中的應(yīng)用[J].心理學(xué)報(bào),2005,37(6).