基于Rasch模型的普通話學前兒童詞語命名測試詞表的編制△

2022-09-20 09:07:04武慧多劉巧云張艷麗張玉紅

聽力學及言語疾病雜志 2022年5期

武慧多劉巧云張艷麗張玉紅

1 浙江師范大學杭州幼兒師范學院(杭州 311231)； 2 華東師范大學附屬婦幼保健院； 3 寧波特殊教育中心學校； 4 新疆師范大學教育科學學院

表達性詞匯是衡量兒童語言發(fā)展水平、識別語言障礙的重要依據(jù)[1]，詞語命名是指讓兒童對事物或反映事物的圖片進行命名，是評估學前兒童表達性口語詞匯最常用的方法之一[2]。除特定性語言障礙之外，聽力障礙、腦癱、自閉癥、智力障礙等感知覺障礙、腦損傷或神經(jīng)發(fā)育障礙的特殊兒童也是共病表達性語言障礙的主要群體[3-5]。現(xiàn)有適用于3～6歲學前漢語兒童的表達性詞匯測試詞表，多以聽障和特定性語言障礙兩種類型兒童為目標群體進行編制[6，7]，缺少對其他類型共病語言障礙特殊兒童的適用性報告；或者以港臺兒童為樣本編制而成，因存在文化差異，無法直接應(yīng)用于大陸兒童[8，9]。

Rasch模型(Rasch model)是基于項目反應(yīng)理論發(fā)展出的心理測量模型，能夠同時估計項目難度和受試者的能力，因模型參數(shù)穩(wěn)定且精度高而在心理測量中被廣泛應(yīng)用[10，11]。本研究擬采用Rasch二值模型編制適用于語言年齡在3歲～5歲11個月的學前兒童，包括多種類型共病語言障礙的特殊兒童在內(nèi)的詞語命名測試詞表，并檢驗其心理測量學屬性，以期為學前兒童語言障礙的鑒別和干預(yù)提供依據(jù)。

1 資料與方法

1.1測試對象測試對象為379例年齡3歲～5歲11個月的兒童，包括298例正常發(fā)展兒童(正常組)和81例診斷為共病語言障礙兒童(語言障礙組)，其中，聽障兒童35例，自閉癥兒童15例，腦癱兒童31例。正常發(fā)展兒童分別從上海市7所普通幼兒園按照年齡、性別及幼兒園級別分層抽取；語言障礙兒童則遵循方便取樣的原則，從上海市的一所康復(fù)中心、融合幼兒園、特殊教育學校抽取，以及由華東師范大學言語聽覺康復(fù)科學實驗室招募。所有測試對象家庭第一語言均為漢語普通話。35例聽障兒童的較好耳500、1 000、2 000和4 000 Hz四個頻率的平均助聽聽閾為25.00～53.75 dB HL，27例為感音神經(jīng)性聽力損失，8例為傳導性聽力損失；30例在所在機構(gòu)參加語言康復(fù)訓練，訓練時長為1～32個月，平均時長15.4個月。自閉癥兒童中11例為輕-中度自閉癥，2例為重度，另2例程度不明。自閉癥和腦癱兒童均具有一定口語能力，且測試前未接受過專門的語言康復(fù)訓練。不同年齡段正常發(fā)展及語言障礙兒童例數(shù)分布見表1。

表1 不同年齡段正常發(fā)展兒童和語言障礙兒童不同性別例數(shù)分布(例)

1.2測試材料

1.2.1材料編制原則測試項目主要源于以下詞表：孫喜斌等[7]編制的適用于1歲6個月～4歲6個月兒童的《聽覺語言能力評估》詞表。為了增強量表對特殊兒童的適用性，同時還選取了譚霞靈等[12]修訂的適用于30個月以下幼兒的漢語溝通發(fā)展量表(Chinese communicative development inventory, CCDI )中的少量詞匯，形成1 600個詞的詞表。根據(jù)這些詞在原有詞表中的大致適測年齡或難易程度按一歲一個年齡組進行分級，再按照詞性和功能進行分類，共分為名詞(包括人物稱呼、身體部位、食物、動植物、日常用品、家俱電器、交通工具、環(huán)境場所、自然現(xiàn)象、方位名詞)、動詞、形容詞、代詞、副詞、數(shù)詞、量詞、連詞共17類。對于正常發(fā)展兒童而言，在6歲前上述詞性都會出現(xiàn)在其表達性語言中[13]，但仍以名詞、動詞、形容詞的增長為主。考慮到副詞通常用于修飾動詞和形容詞，極少單獨使用，且與句法發(fā)展密切相關(guān)，未將其納入詞匯測試詞表中；代詞雖然在兒童詞匯中出現(xiàn)較早，但因代詞的運用會隨語境的變化而變化，與語用的發(fā)展密切相關(guān)，故也未納入測試詞表。數(shù)詞較少單獨使用，因此跟量詞相結(jié)合，重點考查量詞。按照難度層級和詞性進行分層，抽取詞表中10%的詞匯，即160個與學前兒童生活密切相關(guān)的詞語組成詞匯難度評價表，其中名詞80個(50.00%)、動詞41個(25.63%)、形容詞33個(20.62%)、量詞6個(3.75%)。

1.2.2編制過程分別邀請8名普通幼兒園教師、2名特殊學校教師和一名特殊兒童康復(fù)領(lǐng)域的專家對選出的160個詞語按照其所對應(yīng)的年齡層作出難、中、易的難度評價挑選出評價一致性在70%以上(即7名以上教師評價一致)的詞，再按照同一年齡層內(nèi)難、中、易詞各占約25%、50%、25%的比例，同時考慮易于通過圖片反映詞義的因素，共選擇出70個詞語；并根據(jù)詞義拍攝、選擇相應(yīng)的圖片。在挑選圖片時，盡可能凸顯目標事物，弱化可能會干擾兒童對目標事物表達的無關(guān)線索。用70個項目組成的測試詞對籍貫為不同地區(qū)的10例3歲～5歲11個月兒童進行試測，觀察兒童的答題過程，考察圖片是否能夠較好地反映目標詞，是否仍存在目標詞以外的干擾線索影響兒童作答，并根據(jù)兒童不同的家庭語言習慣，擴充命名詞表的備選正確答案，以提高評分的操作性和一致性。對不能很好地反映目標事物或仍存在干擾線索的圖片進行修改或更換，修改或更換圖片后仍無法準確反映目標詞的項目作剔除處理，最終保留65個項目形成初始測試詞表，其中名詞33個，動詞 16個，形容詞15個，量詞1個，每個詞配有相應(yīng)的圖片。測試經(jīng)由數(shù)字化處理，根據(jù)相應(yīng)的詞匯圖片，由一名普通話達到一級甲等的女性錄制指導語；名詞、動詞和形容詞的測試指導語舉例見圖1。

圖1 詞語命名測試詞表項目舉例 a.名詞命名,指導語為“這是什么?”; b.動詞命名,指導語為“她在做什么?”; c.形容詞命名,指導語為“這個蘋果是小的(測試者指著右側(cè)的蘋果),那另外一個呢?”

1.3測試方法測驗在安靜、明亮的室內(nèi)完成。測驗形式為一對一測試，所有測試者由經(jīng)過統(tǒng)一培訓并通過測試操作考核的言語聽覺康復(fù)科學專業(yè)研究生和本科生擔任。正式測試開始前，先給受試者出示3個練習項目，使其熟悉測試形式，在確認受試者理解并掌握了反應(yīng)方式后，再開始正式施測。如果第一次播放指導語后10秒內(nèi)兒童未做出反應(yīng)，可再播放一次指導語。如果兒童在相同時間內(nèi)仍未做出反應(yīng)，則視為無反應(yīng)。正常兒童完成整個測試需時約15分鐘?；卮鹫_計1分，錯誤計0分，

1.3.1初始詞表的項目分析使用SPSS 23.0軟件對初始詞表的項目做主成分分析，檢驗測試詞表的單維性。采用Winsteps 4.3.2軟件，通過懷特圖(Wright map)分析被試能力與項目難度的適切度，采用Rasch模型對數(shù)據(jù)進行擬合，剔除擬合不良的測試項目，對剩余項目進行項目功能差異(differential item functioning，DIF)分析，剔除存在DIF的題項，最終形成正式詞表[14]。

1.3.2正式詞表的心理測量學分析分析詞語命名正式測試詞表的信、效度及診斷準確性等心理測量學屬性：①用Winsteps 4.3.2軟件分析正式詞表的被試及項目的信度和分離度；②間隔一個月后，從298例正常發(fā)展兒童中隨機抽取41例進行重測，計算兩次測試的組內(nèi)相關(guān)系數(shù)(intra-class correlation coefficients, ICC)，考察重測信度；③對測試詞表得分分別進行不同年齡組之間、正常組與語言障礙組之間的單因素方差分析，檢驗詞表的預(yù)測效度；④在379例兒童中隨機抽取246例兒童(正常發(fā)展兒童206例，語言障礙兒童40例)，同時施測皮博迪圖片詞匯測驗-修訂版(Peabody picture vocabulary test-revised, PPVT-R)[15]作為效標測驗，考察詞語命名測試詞表與接受性詞匯測驗——PPVT-R原始分之間的Pearson相關(guān)系數(shù)，檢驗詞表的同時效度；⑤以共病語言障礙的特殊兒童為語言障礙組，以正常發(fā)展兒童為非語言障礙組，根據(jù)詞語命名總分的接受者操作特征(receiver operating characteristic, ROC)曲線，分析篩檢陽性被試的切截值，并評價詞表的診斷效用。

2 結(jié)果

2.1項目分析測試詞表單維性檢驗結(jié)果顯示，第一特征值為23.21，第二特征值為3.60，第一特征值與第二特征值之比為6.44，一般二者之比大于3時，表示測試材料具有單維性，說明該測試詞表滿足單維性要求。

懷特圖能夠直觀地反映項目難度與受試者能力的分布，以及項目難度與受試者能力之間的適切度。初始測驗的懷特圖(圖2)顯示，測試項目與受試者能力總體上均接近正態(tài)分布，除少數(shù)能力極低的受試者外，測試項目難度涵蓋了大多數(shù)受試者的能力水平。

圖2 詞語命名初始詞表懷特圖分析注:縱軸左側(cè)為受試者分布,每個“#”代表2例受試者,每個“.”代表1例受試者;右側(cè)為項目分布,每一個“X”代表一個題項

通過infit和outfit擬合統(tǒng)計對項目擬合度進行檢驗。剔除加權(quán)殘差均方(infit MNSQ)和殘差均方(outfit MNSQ)大于1.3或小于0.5的項目，最終保留了52個題項，所有題項的infit MNSQ介于0.76～1.29之間，outfit MNSQ介于0.54～1.27之間，其中，項目3為0.54，項目11為0.60。

對52個項目進行不同性別受試者間的Mantel-Haenszel DIF分析，以總的項目難度作為潛變量的絕對量度定位項目的性別差異[14]，發(fā)現(xiàn)除項目35“堵車”的命名性別差異顯著外(P<0.05)，即該題項對男生的難度明顯高于女生，其余項目難度不存在性別間的顯著差異，即具有跨性別群體的不變性。為減少測驗項目的性別偏見，剔除該項目后，最終保留51個題項組成詞語命名正式測試詞表。平均infit MNSQ和outfit MNSQ分別為1.01(SD=0.12)和0.95(SD=.19)，均接近1，表明數(shù)據(jù)與模型擬合良好。

2.2心理測量學檢驗正式測驗Rasch分析結(jié)果顯示，項目信度和分離度分別為0.99和11.27；受試者的信度和分離度分別為0.94和3.89；間隔一個月后的重測信度ICC為0.91(95% CI：0.84～0.95,P<0.01)，通常項目信度大于0.8、分離度大于3，表明測試詞表整體結(jié)構(gòu)效度良好，ICC大于0.8表明測試詞表具有較高的重測信度。

正常組與語言障礙組兩組兒童中不同年齡組間以及同年齡組中，兩類兒童間詞語命名測試詞表原始分比較結(jié)果見表2，正常組和語言障礙組兒童的得分均隨年齡增長而有所提高，正常兒童的各年齡組之間，以及同年齡組正常兒童與語言障礙兒童間詞語命名得分差異均十分顯著，說明測試詞表內(nèi)容難度梯度合理，能夠有效反映不同年齡組正常兒童、同年齡組正常與語言障礙兒童詞匯表達能力的差異，具有良好的預(yù)測效度。

表2 不同年齡組正常組與語言障礙組兒童測試評分比較(分，

詞語命名測試詞表與PPVT-R測試原始分相關(guān)性極其顯著(r=0.82，P<0.01)，表明該測試詞表與PPVT-R之間具有較高的同時效度。

以正常組兒童為參照，將所有兒童詞語命名的的粗分轉(zhuǎn)換成標準分，語言障礙組兒童診斷的ROC曲線分析結(jié)果如圖3所示。曲線下面積(area under the ROC curve)AUC=0.93 (95% CI：0.90～0.97)，非常接近1，表明測試詞表具有較高的診斷準確性[16]。

按照國際上常用的3種語言障礙診斷切截標準：-1、-1.25和-1.5個標準差[6]，分別計算詞語命名測試詞表對語言障礙兒童的診斷準確性見表3。

表3 不同切截標準下測試詞表的診斷準確性指數(shù)

根據(jù)測試詞表的敏感度、特異度、似然比、Youden指數(shù)、Kappa值及診斷效力等指標綜合考慮，認為當切截值為所在年齡組-1.5個標準差時，測試詞表的敏感度和特異度達到最好的平衡，且診斷效力最高。根據(jù)該切截標準，分別再對聽障、自閉癥和腦癱三類兒童表達性詞匯障礙的診斷準確性作進一步分析，結(jié)果顯示，聽障兒童：敏感度0.83,特異度0.93; 自閉癥兒童：敏感度0.93,特異度0.93; 腦癱兒童：敏感度0.81,特異度0.93,表明該詞表對這三類兒童的表達性詞匯障礙具有較高的診斷準確性。

圖3 詞語命各測試詞表切截值ROC曲線分析

3 討論

3.1學前兒童詞語命名詞表測試的信效度評價詞語命名測試詞表的項目編制，經(jīng)過詞匯篩選、專家評價、試測等流程以確保所測項目內(nèi)容適合年齡范圍在3歲～5歲11個月的學前兒童，通過對圖片篩選和施測人員的培訓，使無關(guān)因素對詞表測試結(jié)果的影響最小化，以確保測試詞表的內(nèi)容效度。文中單維性檢驗結(jié)果表明該詞表主要測量了兒童表達性詞匯能力；懷特圖顯示測試項目難度分布均勻，中等難度的項目居多，而難度較高和較低的項目相對較少，涵蓋了絕大多數(shù)受試者的能力水平，說明測試詞表具有較高的精度，能夠較好地反映受試者的能力。

Infit MNSQ和outfit MNSQ是Rasch模型中最主要的擬合指數(shù)，其中infit MNSQ對于項目難度與受試者能力相當?shù)臄?shù)據(jù)敏感，而outfit MNSQ對極端值更敏感。通常認為這兩個指數(shù)介于0.5～1.5之間時為有效測量，介于0.7～1.3之間時，數(shù)據(jù)-模型擬合值較理想，正式詞表中項目3(0.54)和項目11(0.60)的outfit MNSQ值大于0.5但略低于0.7，按照較嚴格的標準略呈過度擬合；過度擬合的題項能夠提供的受試者相關(guān)能力的信息相對較少，即測試效率較低，但對量表的效度影響甚微[14]。此外，懷特圖顯示與低能力水平相適切的低難度項目數(shù)較少，而第3項和第11項均屬于難度較低的項目，考慮到本詞表應(yīng)用于特殊兒童的語言能力診斷及干預(yù)效果的評估，因此在不影響平均infit MNSQ和outfit MNSQ擬合度的前提下予以保留。

3.2詞語命名測試詞表切截值及診斷效用評價現(xiàn)有漢語表達性詞匯能力標準化測驗大多根據(jù)經(jīng)驗或國外常用的標準來設(shè)定兒童語言障礙鑒別的切截值，例如，將特定的標準分數(shù)或百分等級作為診斷語言障礙的切截值，卻少有研究對所設(shè)定的切截值的診斷準確性進行驗證。本研究根據(jù)國際上常用的幾種語言障礙檢出標準，即低于平均值1、1.25和1.5個標準差[6]，以共病語言障礙的特殊兒童為語言障礙受試者，通過ROC曲線對測驗切截值的診斷效用加以檢驗，使切截值的設(shè)置更加科學化。

在確定診斷切截值時應(yīng)綜合考量敏感度、特異度等關(guān)鍵指標。既要使語言障礙兒童得到及時的發(fā)現(xiàn)和干預(yù)(對高敏感度的要求)，又應(yīng)盡可能減少因誤診給兒童及其家庭帶來的精神和經(jīng)濟壓力(對高特異度的要求)，因此，需要篩查或診斷工具的敏感度和特異度盡可能達到最好的平衡。Youden指數(shù)(敏感度+特異度-1)和診斷效力((真陽性人數(shù)+真陰性人數(shù))/(有障礙人數(shù)+無障礙人數(shù)))都是反映這兩者平衡關(guān)系的指標，這兩個指數(shù)越大表示敏感度和特異度指標的綜合效用越高。本研究中，當切截值為-1.5個標準差時，Youden指數(shù)和診斷效力最大；同時，Kappa值也最大，表明在該點詞表分類與效標分類的相關(guān)性最高。此外，相比-1和-1.25個標準差，切截值為-1.5個標準差時，陽性似然比(LR+)最高，表明當兒童被診斷為陽性時，其實際為陽性的可能性較高。分別對三類共病語言障礙特殊兒童的診斷準確性的檢驗也表明，取-1.5個標準差作為診斷切截值時，詞表的診斷效用較為理想，能夠有效地鑒別該年齡段聽障、自閉癥和腦癱兒童的表達性語言障礙。

3.3詞語命名測試詞表在語言障礙兒童中的應(yīng)用本研究還發(fā)現(xiàn)共病語言障礙的特殊兒童詞語命名能力遠落后于正常發(fā)展兒童，5歲～5歲11個月語言障礙組兒童的測試平均分尚不及3歲～3歲11個月正常兒童組的平均得分，且表現(xiàn)出較大的個體差異(標準差較大)，這可能與其原發(fā)疾病造成的認知功能損傷的嚴重程度不同有關(guān)。但語言障礙組兒童總體上仍表現(xiàn)出與正常兒童同樣的發(fā)展趨勢，即隨著年齡的增長，詞語命名能力有所提高。因此，對于一些語言年齡介于3歲～5歲11個月，但生理年齡超出該范圍的語言障礙兒童可以參考測試詞表的年齡當量，即某一年齡組正常兒童的平均成績來估計出該兒童大致的詞匯表達能力所處的年齡水平。

本研究結(jié)果雖然顯示學前兒童詞語命名測試詞表具有良好的信度和效度，但一種成熟的語言能力測試詞表，其信效度參數(shù)需要在應(yīng)用和研究中不斷加以驗證和完善。本研究中的語言障礙組兒童僅包括聽障、自閉癥和腦癱兒童，因此，目前該測試詞表對語言障礙的診斷準確性僅適用于上述類型的兒童，而對于其他類型語言障礙兒童，如：特定性語言障礙兒童、智力障礙兒童的診斷有效性尚有待進一步驗證。此外，本研究中的受試者僅限華東地區(qū)，可以作為該地區(qū)語言年齡在3歲～5歲11個月兒童表達性詞匯能力的評估工具，而對于在其他地區(qū)兒童中應(yīng)用的有效性仍需做進一步驗證。