劉 全,劉 汀
社情民意調查是使用社會科學的調查和分析方法,對一個地方政府所管轄的居民的調查,通過調查了解公民的需求、行為特征、政策偏好及其對政府服務的評價,并確定公民對政府服務評價高低的決定因素,以利于政府改進服務的過程。目前,我國社情民意調查主要包括民主政治類、經(jīng)濟(心理)類、社會民生類等方面。社情民意類調查已成為當前統(tǒng)計調查的重點。
社情民意調查的基本目的是了解公民對政府行為及其產(chǎn)生的后果的評價,以及決定公民評價的影響因素。在政府的行為和績效的評價上,公眾本著“合理的無知”原則[1],一般只能給出他們看得見、摸得著的政府施政行為及其結果的感知。所以,滿意度調查是社情民意調查的主要形式。而如何設計出科學的問卷(量表),對公眾就政府行為及其產(chǎn)生的后果進行準確的心理特質(如感受、意愿、態(tài)度等)測量,是社情民意調查中的關鍵問題。
項目反應理論[2](Item Response Theory,IRT)用于心理學上對所謂潛在心理特質的測量,這與社情民意調查研究目標一致。IRT起源于20世紀50年代,主要由勞勒(Lwaley,1936)、拉扎斯菲爾德(Lazarsfield,1950)、伯恩鮑姆(A.Birnbaum,1957)、拉希(G.Rasch,1960)等人創(chuàng)立,70年代起,IRT理論已在大多數(shù)國家中成為心理測量學家的主要研究課題。近年來,國內學者漆樹青、余嘉元、何曉群、柯惠新等在這方面進行了大量研究[2-6],但其研究側重于IRT基礎理論及其在心理測評、標準化考試、試題庫建設、自適應測驗的應用等方面。
不失一般性,設公眾對政府行為及其產(chǎn)生的后果評價為θ,其取值范圍在-1.0~+1.0區(qū)間。顯然,每個受訪者在任何一個給定時刻都有一個,并且只有一個態(tài)度量值θ,但這個θ是潛在的,是無法直接觀察到的。調查時,當把我們把第i個調查項目呈現(xiàn)給受訪者時,將會誘發(fā)出受訪者的一個態(tài)度反應γi,由于誤差的存在,一般可以假定γi=ρiθ+εi。此時,受訪者能否對某項目給出滿意評價,關鍵取決于其潛在態(tài)度反應γi是否大于某個閥值若則該受訪者將給出滿意評價(記作ui=1,否則記作ui=0)。于是,受訪者對該調查項目給出滿意評價的概率就是 γi大于的概率,即
在 γi=ρiθ+εi中,對于具體一個受訪者,θ 是固定值,因此,使?jié)撛趹B(tài)度反應γi具有概率性質的原因是誤差εi的存在。這里,εi是由大量隨機因素共同產(chǎn)生(如受訪者對該調查項目理解、分析等環(huán)節(jié)產(chǎn)生的誤差),一般可認為服從正態(tài)分布,且均值是0。于是,γi的分布也應是正態(tài)的,且均值為 μi=ρiθ ,標準差為從而,受訪者對調查項目i給出滿意評價的概率為
又由于ICC形同正態(tài)分布的累計函數(shù)曲線,故自然考慮用下函數(shù)來擬合它,即
這便得出洛德(F.M.Lord,1952)雙參數(shù)正態(tài)肩形ICC模型[2]。其中ai和bi分別與該項目的區(qū)分度、難度特征有關,故分別稱為區(qū)分度、難度參數(shù)。再根據(jù)伯恩鮑姆(A.Birnbaum,1957)的研究結果 ,正態(tài)肩形函數(shù)與邏輯斯蒂(Logistic)函數(shù)有如下關系成立
其中,函數(shù)
稱為邏輯斯蒂函數(shù),其中x為任意符號。這樣,復雜的正態(tài)肩形ICC曲線便可用簡單的邏輯斯蒂ICC曲線來近似表示。x取不同代數(shù)式,就形成各種不同邏輯斯蒂模型。社情民意調查中常用的二參數(shù)邏輯斯蒂模型為
其中,Pi(θ)表示態(tài)度量值為θ的受訪者回答第i問項為滿意的概率;D是常數(shù)1.7;參數(shù)a是該調查問項的區(qū)分度,在ICC中反映為曲線的陡峭程度。α參數(shù)越大,ICC越陡,α越小,ICC越平。參數(shù)b表示其難度,反映在ICC上是斜率最大處在態(tài)度量表上對應的點。項目越難,所需態(tài)度量值會越高,ICC也偏右,這時具有一般態(tài)度量值的受訪者在該項目作出肯定或滿意回答的概率會較低。
由IRT模型可見,對于任一受訪者,一調查問項(即調查題目)能否得到肯定或滿意回答的概率,取決于兩個方面:一是自身態(tài)度,即主觀因素;另一是用難度(即問項能得到肯定或滿意回答的程度)與區(qū)分度(即問項能將具有不同態(tài)度或滿意程度的受訪者區(qū)分開來的程度)等屬性所反映的調查問項客觀屬性。換言之,該問項是否得到肯定或滿意回答,是由受訪者自身態(tài)度、調查問項的難度與區(qū)分度共同決定的。以上IRT建?;舅枷耄浞煮w現(xiàn)了IRT在社情民意調查問卷設計應用中的重要性。
根據(jù)抽樣理論,抽樣分布的標準誤(SE)減少則會使統(tǒng)計推斷置信區(qū)間縮短,從而提高估計精度。由此,IRT用標準誤的平方(即方差)的倒數(shù),即 I(θ)=1/SE(θ)2作為調查精度,這里I(θ)稱信息函數(shù)??梢宰C明,對于邏輯斯蒂模型,按照極大似然法估計受訪者的態(tài)度量值θ時,其估值是隨樣本容量的增大而漸近正態(tài)分布的,進一步推導,可得出其計算公式為[2]
其中,Pi(θ)是第i調查項目的項目反應函數(shù)。并且,(4)中的每一項還恰好是第i調查項目的信息函數(shù)。若選二參數(shù)邏輯斯蒂模型,則信息函數(shù)是[2]:
可見,信息函數(shù)能給出基于不同態(tài)度量值θ受訪者的不同調查精度。信息函數(shù)圖象呈鐘形,在態(tài)度量值θ接近調查項目難度bi時達到最大。為此,可選擇對不同態(tài)度量值的對估計精度最有增益的調查問項,使調查達到預先規(guī)定的滿意精度。
(1)問項編寫和預調查。問項編寫與傳統(tǒng)方法一致,根據(jù)確定的調查目標,在其構建的評價指標體系的基礎上編寫調查項目(問項),編寫的問項要足夠多(至少30個以上[3]),并盡量保證問項與調查目標的內在一致性,以便后續(xù)選擇和優(yōu)化。使用以上問項進行預調查,為保證采用IRT進行問卷設計的精度,一般要求接受預調查的被試在500以上[3]。
(2)單維性假定檢驗及ICC選擇。所謂單維性,即只有一種潛在心理特質對反應數(shù)據(jù)起作用?;贗RT理論,對模型進行單維性假定檢驗是必須的。單維性假設檢驗常采用主成分分析法,若第一和第二主成分的特征根之比在5.0以上則可認定該假定成立。社情民意類調查中,因態(tài)度量值低的受訪者沒理由要給出態(tài)度量值高的評價,故常用二參數(shù)邏輯斯蒂模型。
(3)參數(shù)估計及問項初選。根據(jù)預調查數(shù)據(jù),可采用各種IRT軟件對各問項的二參數(shù)邏輯斯蒂ICC模型的參數(shù)進行估計。而問項初選是根據(jù)估計出來的各問項ICC參數(shù),將有極端參數(shù)值的問項去掉。一般來說,對于a≤0.3(或a≥4),b>2.95(或b<-2.95),c>0.4中任意一個條件不滿足的問項均需要修改或被刪除[8]。
(4)確定目標信息曲線(Target Information Curve,TIC)。根據(jù)用戶對調查精度要求,計算調查的標準誤SE(θ),得出調查所需最低信息量的要求,即目標信息曲線TIC。
如若構造真實態(tài)度量值θ1的置信度為98%的置信區(qū)間,根據(jù)正態(tài)分布理論,則θ1應在以態(tài)度中立點θ0為中心的兩個標準差以上,即應該有 ||θ0-θ1≥2SE(θ),再據(jù)公式(4),從而得出入選問項應具有的最低信息量I(θ),這便產(chǎn)生出滿足相應精度要求的目標信息曲線TIC。這樣,對調查精度的要求轉變成了調查問項應具有的最低信息量及TIC確定。顯然,精度要求越高,對應的信息函數(shù)值就越大。
(5)問項選擇并形成最終調查問卷。問項選擇旨在產(chǎn)生一組調查問項,綜合其信息曲線以產(chǎn)生一條TIC,符合或大于目標TIC。問項選擇時,一般在所要求的態(tài)度量值θ區(qū)間內,根據(jù)確定的入選問項應具有最低信息量標準,按照問項具有的信息量從大到小依此選取。
滿意度調查是社情民意調查的主要形式。本文以我國大學生校園生活滿意度調查問卷設計過程為例,進一步闡述基于IRT的社情民意調查問卷設計的基本思想及方法。
滿意度的測量模型有多種,最具代表性是費耐爾(Fornell,1989)提出的包括顧客預期、感知質量、感知價值、顧客抱怨和顧客忠誠等五方面組成的邏輯模型[7][8]。如在對大學生校園生活滿意度調查中,借鑒費耐爾顧客滿意度模型的核心概念和架構,并結合我國高校具體情況,再利用結構方程模型等理論,可構建出如圖2所示的大學生校園生活滿意度評價模型(圖2)。
圖2 大學生校園生活滿意度評價模型
圖2中變量均為潛變量(隱變量),是不可直接測量出來的。為此,圍繞圖2中7個潛變量構造出相應的顯變量,構架相應的調查指標體系(表1)。
表1 大學生校園生活滿意度調查指標體系
(1)問項編寫。根據(jù)以上構建的“大學生校園生活滿意度調查指標體系”,采用五級李克特量表,編寫出相應的初始問卷(含64個問項)。對540名大學生進行預調查,并經(jīng)同向化和二級評分處理,取得建立IRT模型的基礎數(shù)據(jù)。
(2)單維性假定檢驗和模型參數(shù)估計。應用SPSS11.5對基礎數(shù)據(jù)進行主成分分析,結果表明第一因子的特征根為17.239,第二特征根為3.061,兩者之比達到了5.632。故可以認為單維性假設檢驗成立。
選用二參數(shù)邏輯斯蒂ICC模型,其模型參數(shù)估計采用BILOG_MG[9]軟件進行,得出各問項的ICC曲線,去掉項目區(qū)分度和難度不滿足要求的項目,尚余24個調查項(見表2)
由BILOG_MG生成的總體信息函數(shù)曲線如圖3。由此可知,本調查方案對滿意度量值在-1.0~+1.0之間(通過等值化處理,相當于24個問項中回答滿意的有4項至21項之間)的大學生調查很有效,當大學生滿意度瑯值為0.0(相當于24項問項中填寫滿意的為12項)時調查最精確(信息量最大),此后隨著態(tài)度量表的減低或增強,調查逐漸失去其鑒別作用。
(3)確定目標信息曲線TIC。如若要求置信區(qū)間|θ0-θ1|=0.8的置信度為98%,則根據(jù)關系式 |θ0-θ1|≥2SE(θ)可知,SE(θ)=0.4 ,再由上式(4)可得結果表明,調查方案所含問項的信息函數(shù)累計值須大于或等于6.25這一最低信息量要求。
圖3 大學生校園生活滿意度調查的信息曲線
(4)問項選擇并產(chǎn)生調查方案。根據(jù)計算出來的各問項分別在-0.8和+0.8處的信息量,并依此從大到小排列(見表3)。
表3 各問項測量精度(信息量)排序
再按信息量大到小依次提取問項,直至滿足最低累計信息量6.25的要求,在此基礎上生成最終的調查方案(含19個問項)。其TIC與方案的調查信息曲線如圖4所示??梢?,本方案的測量誤差完全滿足精度要求。
對于滿意度調查來說,如何科學、準確地劃分滿意度的合格線是一個難點?;谛畔⒑瘮?shù),IRT為其提供了相對精確和完備的合格線劃分方法。因為,如果一項調查能較好地測量出其滿意度的實際狀況,則被試在該項調查中回答滿意的百分比應是其在該測評全部問項上期望的平均數(shù),近似計算公式為[2]:
圖4 最終生成的大學生校園生活滿意度調查方案信息曲線
其中,n為調查問項數(shù),Pi(θ)是被試能力θ下對第i問項回答滿意的概率。如果我們根據(jù)實際和權威專家評估小組研究,確定出滿意度合格線應該至少達到的滿意百分比π1,再根據(jù)選用的IRT模型可得出Pi(θ)的計算公式,那么公式(5)就只含一個參數(shù)θ,采用牛頓迭代法即可求解出滿足方程(5)的θπ值,這就是對應的滿意度合格線標準。顯然,也可采用等值化處理,將θπ轉換為回答滿意的問項數(shù)。
本文系統(tǒng)探討了基于IRT的社情民意問卷設計的基本原理,研究了社情民意類問卷設計的過程規(guī)范、問項選擇、方案配置、誤差控制、滿意度標準確定等關鍵技術和方法,并結合大學生校園生活滿意度調查詳細討論了其具體實現(xiàn)過程。
研究表明[6],IRT方法允許方案設計者根據(jù)規(guī)定的目標信息曲線TIC,編制出符合要求調查項目,方案調查精度能在受訪者滿意度θ連續(xù)統(tǒng)上的若干點和區(qū)間得到嚴格控制;同時,滿意度的合格線標準劃分更加科學合理?,F(xiàn)代問卷設計理論研究還表明,在問卷設計中,項目反映理論IRT在處理微觀問題(即受訪者與問項之間的實質性關系)時優(yōu)勢明顯,經(jīng)典測量理論CTT在處理中觀問題(如處理常見的標準化測試等)時顯得方便易懂,概化理論GT則在處理宏觀問題(如對結果作推論)時更顯出色。以上三種調查理論各有長處,可為問卷設計研究和實踐提供強大理論支撐。
[1] 張光.社情民意調查:理論、實踐和過程簡論[J].天津行政學院學報,2008,(3).
[2] 余嘉元.項目反應理論及其應用[M].南京:江蘇教育出版社,1992.
[3] 漆書青.現(xiàn)代教育與心理測量學原理[M].北京:高等教育出版社,1998.
[4] 許健,馬世曄,何曉群.標準化試題的評價與IRT模型的應用[J].考試研究,2004,(8).
[5] 柯惠新,祝建華.傳播統(tǒng)計學[M].北京:北京廣播學院出版社,2003.
[6] 魏華忠.教育統(tǒng)計與測量[M].沈陽:遼寧師范大學出版社,2006.
[7] 涂榮庭.顧客滿意度測量探討:量表設計、信度和效度[J].管理學報,2008,(1).
[8] 劉武等.中國高等教育顧客滿意度指數(shù)模型的構建[J].高教發(fā)展與評估.2008,(7).
[9] Robert J.Mislevy,Bilog,R.Darrell Bock(芝加哥大學),1990.
[10] 孔燕等.基于項目反應理論的中國公民科學素養(yǎng)測評方法研究[J].科學管理研究,2009,(4).
[11] 楊業(yè)兵等.應用項目反應理論對《中國士兵人格問卷》的項目分析[J].心理學報,2008,(5).