[摘要]" 混合方法研究是教育研究領(lǐng)域的“第三種研究范式”,它能整合質(zhì)性和量化研究方法,更有效地解決復(fù)雜的研究問題,因而逐漸應(yīng)用在語言測試研究領(lǐng)域??疾旎旌戏椒ㄑ芯吭O(shè)計類型后發(fā)現(xiàn),語言測試混合方法研究可分為“無名有實(shí)”“半名半實(shí)”“名實(shí)兼?zhèn)洹比N類型,且當(dāng)前語言測試混合方法研究仍有潛力需要挖掘。探究混合方法研究質(zhì)量的評價標(biāo)準(zhǔn)、模型與指標(biāo),有助于找尋當(dāng)前語言測試混合方法研究存在問題的根源,提升語言測試混合方法研究的質(zhì)量。混合方法研究的應(yīng)用可以推動語言測試學(xué)科的發(fā)展,也將助益我國全面建設(shè)外語能力測評體系。
[關(guān)鍵詞]" 混合方法研究;語言測試;混合研究設(shè)計;質(zhì)量標(biāo)準(zhǔn)
[中圖分類號]" H319" [文獻(xiàn)標(biāo)識碼]" A" [文獻(xiàn)編號]" 1002-2643(2024)04-0075-10
Design and Quality Criteria of Mixed Methods Research inLanguage Testing
HUANG Yongliang1" WANG Jiayu2
(1. Hebei Normal University, Shijiazhuang 050024, China;2. Beijing Foreign Studies University, Beijing 100089, China)
Abstract: As the third research paradigm in educational research, mixed methods research integrates qualitative and quantitative methodologies to effectively address complex research problems, and has gradually been applied in the field of language testing. After examining mixed methods research designs, it is found that the research designs in language testing can be categorized into three types: unlabelled but practical, semi-labelled and semi-practical, and labelled and practical, containing untapped research potential. Investigating the quality criteria, models, and indicators for the quality of mixed methods research can help identify the root causes of existing problems, thus enhancing the quality of mixed methods research in language testing. The application of mixed methods research not only contributes to the development of language testing but also aids in the construction of China’s foreign language assessment system.
Key words: mixed methods research; language testing; mixed research design; quality criteria
收稿日期:2022-03-02;修改稿,2024-05-28;本刊修訂,2024-06-24
基金項(xiàng)目:本文為教育部人文社會科學(xué)重點(diǎn)研究基地重大項(xiàng)目“新發(fā)展階段中國外語教育自主知識體系創(chuàng)新研究”(項(xiàng)目編號:22JJD740011)的階段性成果。
作者簡介:黃永亮,博士,教授。研究方向:語言測試、外語教育。電子郵箱:huang@bfsu.edu.cn。 王佳雨,博士研究生。研究方向:語言測試。電子郵箱:wangjiayu@bfsu.edu.cn。
引用信息:黃永亮,王佳雨.語言測試混合方法研究的設(shè)計類型與質(zhì)量標(biāo)準(zhǔn)[J].山東外語教學(xué),2024,(4):75-84.
DOI:10.16482/j.sdwy37-1026.2024-04-008
1.引言
混合方法研究是“一種研究取向,在社會科學(xué)、行為科學(xué)和健康科學(xué)等領(lǐng)域,研究者收集、整合量化(封閉式)數(shù)據(jù)和質(zhì)性(開放式)數(shù)據(jù),而后在整合兩類數(shù)據(jù)優(yōu)勢合力的基礎(chǔ)上進(jìn)行詮釋,以更好地理解研究問題” (Creswell, 2014:2)。混合方法研究中的“混合”既體現(xiàn)在研究方法上,又體現(xiàn)在研究設(shè)計上,還體現(xiàn)在哲學(xué)觀上。具體而言,研究者首先要依據(jù)研究問題和研究假設(shè)謹(jǐn)慎地收集、分析質(zhì)性數(shù)據(jù)和量化數(shù)據(jù),接著要整合兩類數(shù)據(jù)及其結(jié)果,繼而將上述步驟納入具體、明確的研究設(shè)計,并將研究設(shè)計置于相關(guān)理論和哲學(xué)觀的框架之內(nèi)(Creswell amp; Clark, 2018)?;旌戏椒ㄑ芯磕軌蚧卮鹳|(zhì)性研究或量化研究單一研究路徑無法回答的問題,能夠提供更多的證據(jù)并進(jìn)行更有力的推論,能對研究問題提供更加多元的解答視角(Teddlie amp; Tashakkori, 2003),是繼量化研究和質(zhì)性研究之后教育研究領(lǐng)域的“第三種研究范式”(Johnson amp; Onwuegbuzie, 2004:14)。近年來混合方法研究在教育研究領(lǐng)域愈發(fā)受到重視(侯家英等,2023),語言測試領(lǐng)域亦是如此(張培欣等,2021)。
然而,語言測試領(lǐng)域的混合方法研究的質(zhì)量尚不夠理想(Jang et al., 2014; 袁雪寒、韓寶成, 2023)。本文通過考察混合方法研究的設(shè)計類型及其在語言測試研究中的應(yīng)用現(xiàn)狀,探析混合方法研究質(zhì)量的評價標(biāo)準(zhǔn)、模型與指標(biāo),反思語言測試領(lǐng)域混合方法研究質(zhì)量提升的潛在空間,以助力語言測試學(xué)科的發(fā)展。
2.語言測試混合方法研究的設(shè)計類型
2.1 混合方法研究的設(shè)計類型
依據(jù)Creswell amp; Clark(2018)、Dawadi et al.(2021)、Riazi(2017)等學(xué)者的觀點(diǎn),混合方法研究的設(shè)計包括基礎(chǔ)設(shè)計和高階設(shè)計兩種類型。
基礎(chǔ)設(shè)計包括會合式設(shè)計(convergent design)、解釋式序列設(shè)計(explanatory sequential design)和探索式次序設(shè)計(exploratory sequential design)三種類型。基礎(chǔ)設(shè)計是混合方法研究方案設(shè)計的核心。其中,會合式設(shè)計意在融合量化數(shù)據(jù)與質(zhì)性數(shù)據(jù)分析的結(jié)果。因?yàn)榱炕瘮?shù)據(jù)和質(zhì)性數(shù)據(jù)兩種數(shù)據(jù)形式能夠提供不同的觀點(diǎn),融合二者有助于從多元視角審視研究問題,所以這種融合可為具體研究問題提供整合式的解決方案。解釋性序列設(shè)計意在融合量化數(shù)據(jù)和質(zhì)性數(shù)據(jù)進(jìn)行分段研究,首先通過量化手段收集、分析數(shù)據(jù),然后采用質(zhì)性手段解釋上述量化結(jié)果。第一階段的量化研究能夠提供較為概括的結(jié)果,后一階段的質(zhì)性研究能夠結(jié)合具體情境對前期量化結(jié)果進(jìn)行更加深入的解讀。探索式次序設(shè)計意在使用質(zhì)性手段收集、分析數(shù)據(jù),并初步探索研究問題,然后運(yùn)用上述質(zhì)性結(jié)果開發(fā)量化研究所需的測量單元、新的測量工具或新的實(shí)驗(yàn)介入活動,進(jìn)而在下一階段加以應(yīng)用探索式次序設(shè)計既需要投入較長的時間,又需要利用質(zhì)性研究的結(jié)果并將其轉(zhuǎn)化為新的研究變量、新的測量工具或新的實(shí)驗(yàn)介入活動,因此,在一定意義上講,它在三種基礎(chǔ)設(shè)計中的難度最大?;旌戏椒ㄑ芯康母唠A設(shè)計包括介入設(shè)計(intervention design)、個案研究設(shè)計(case study design)、參與式社會正義設(shè)計(participatory-social justice design)和多階段評估設(shè)計(evaluation design)四種類型。相較基礎(chǔ)設(shè)計,高階設(shè)計更為復(fù)雜,整體難度也更大。
2.2 語言測試中的混合方法研究設(shè)計
如同其他社會科學(xué)和行為科學(xué)領(lǐng)域,混合方法研究設(shè)計在語言測試領(lǐng)域愈發(fā)受到重視,研究成果不斷涌現(xiàn),而且有著不斷增長的趨勢(Jang et al., 2014)。2013—2022年僅在Language Testing、Language Assessment Quarterly和Assessing Writing三種語言測試期刊共計發(fā)表83篇采用混合方法研究設(shè)計的文章(袁雪寒、韓寶成, 2023)??v觀三十余年來語言測試領(lǐng)域涉及混合方法研究設(shè)計的研究成果,依據(jù)其研究特點(diǎn),大致可分為“無名有實(shí)”型混合方法研究設(shè)計、“半名半實(shí)”型混合方法研究設(shè)計和“名實(shí)兼?zhèn)洹毙突旌戏椒ㄑ芯吭O(shè)計三類。
2.2.1 “無名有實(shí)”型混合方法研究設(shè)計
該類研究的共同特征是其研究方法部分未明確提及、討論或直接使用“混合方法研究設(shè)計”這一名稱,卻在研究的其他部分觸及了混合方法研究設(shè)計的實(shí)質(zhì),故稱為“無名有實(shí)”型混合方法研究設(shè)計。該類混合方法研究設(shè)計包括三種情況:
(1)研究方法部分未明確提及或討論混合方法研究設(shè)計,卻融合了不同研究取向,在研究結(jié)果部分同時報告了質(zhì)性和量化數(shù)據(jù),并對數(shù)據(jù)進(jìn)行了相應(yīng)的解讀。如Brown(2003)研究口語測試考官對考生口語能力認(rèn)知的個體差異及其對考生口語作答表現(xiàn)評價的影響;Clapham(1996)考察背景知識對閱讀理解測試作答表現(xiàn)的影響。
(2)研究方法部分未直接使用“混合方法研究設(shè)計”的名稱,取而代之的是“同時采用不同研究類型”或“同時使用質(zhì)性和量化數(shù)據(jù)或進(jìn)行質(zhì)性和量化數(shù)據(jù)分析”等表述(Lynch, 1992;Phakiti, 2003;Uiterwijk amp; Vallen, 2005)。
(3)研究方法部分未提及使用“混合方法研究設(shè)計”,卻在通讀研究結(jié)果討論部分后能夠推斷出該研究確實(shí)采用了“混合方法研究設(shè)計”。如Ekkens amp; Winke(2009)在研究結(jié)果討論部分同時使用標(biāo)準(zhǔn)化測試和學(xué)習(xí)日志兩類數(shù)據(jù)來考察為工作場所開發(fā)的語言項(xiàng)目;Kiddle amp; Kormos(2011)則同時使用測試成績和調(diào)查問卷兩類數(shù)據(jù)來考察口語測試中半直接型和面對面型回應(yīng)方式的不同影響。
2.2.2 “半名半實(shí)”型混合方法研究設(shè)計
該類研究雖未明確提及、討論或直接使用“混合方法研究設(shè)計”這一名稱,但其研究方法部分明確提及“混合方法研究設(shè)計”的部分要素,故稱為“半名半實(shí)”型混合方法研究設(shè)計。例如,Barkaoui(2010)的研究采用研究參與者作答分?jǐn)?shù)和評分員對相應(yīng)評分的書面解釋等數(shù)據(jù),分析英語作為第二語言作文寫作題目整體評分及評分員的評價標(biāo)準(zhǔn)與其評閱經(jīng)驗(yàn)之間的關(guān)系;Kim(2008)采用問卷調(diào)查、訪談、內(nèi)容分析、焦點(diǎn)小組訪談、描述性數(shù)據(jù)統(tǒng)計分析等方式收集數(shù)據(jù),依據(jù)效應(yīng)驅(qū)動原則,結(jié)合以證據(jù)為中心的測試設(shè)計框架(ECD),開發(fā)讀寫結(jié)合的綜合型ESL診斷測試任務(wù),并進(jìn)行相應(yīng)的效度論證; Plakans amp; Gebril(2012)采用調(diào)查問卷、有聲思維、個人訪談、對研究參與者作答分?jǐn)?shù)進(jìn)行描述性統(tǒng)計分析和卡方檢驗(yàn)等方式收集數(shù)據(jù),分析讀寫結(jié)合型測試任務(wù)中所用測試材料的來源特征對研究參與者作答的影響。
2.2.3 “名實(shí)兼?zhèn)洹毙突旌戏椒ㄑ芯吭O(shè)計
該類研究的研究方法部分明確說明使用了“混合方法研究”,并對其研究設(shè)計的具體類型及步驟進(jìn)行了詳細(xì)的說明,故稱為“名實(shí)兼?zhèn)洹毙突旌戏椒ㄑ芯吭O(shè)計?;旌戏椒ㄑ芯吭O(shè)計流程示意圖可有效揭示各設(shè)計要素之間的關(guān)系,因而是否提供混合方法研究設(shè)計流程示意圖可視作一個簡單的分類標(biāo)準(zhǔn)。據(jù)此標(biāo)準(zhǔn),該類混合方法研究設(shè)計包括兩種情況:
(1)研究中未提供混合方法研究設(shè)計流程示意圖。
Baker(2012)的混合方法研究設(shè)計采用評分員書面有聲報告(write-aloud protocols)和研究參與者的測試分?jǐn)?shù)兩類數(shù)據(jù),分析評分員決策認(rèn)知過程中的個體差異。Grabowski(2009)的混合方法研究設(shè)計采用概化理論、多面Rasch模型、話語分析等方式收集數(shù)據(jù),考察擬測語法知識和語用知識的口語測試的構(gòu)念效度。Kim(2009)的混合方法研究設(shè)計采用研究參與者的測試分?jǐn)?shù)和教師評分員書面評價兩類數(shù)據(jù),比較半直接英語口語測試中本族語教師和非本族語教師在考生口語作答評分中的不同特征。Lee amp; Greene(2007)的混合方法研究設(shè)計采用相關(guān)數(shù)據(jù)庫、問卷調(diào)查、訪談、描述性統(tǒng)計分析等方式收集數(shù)據(jù),分析英語作為第二語言的研究生分班測試分?jǐn)?shù)與學(xué)習(xí)成績平均基點(diǎn)、教師評價、學(xué)生自評等三種學(xué)術(shù)表現(xiàn)評價手段之間的關(guān)系。Neumann(2011)的混合方法研究設(shè)計采用研究參與者作答分?jǐn)?shù)和教師評分員對評閱分?jǐn)?shù)的書面解釋兩類數(shù)據(jù),比較教師評分員對二語學(xué)術(shù)寫作測試的語法能力評分中表現(xiàn)出來的異同點(diǎn)。
(2)研究中明確提供了清晰的混合研究設(shè)計流程示意圖。
Galaczi amp; Khabbazbashi(2016)采用多階段探索式次序設(shè)計開發(fā)高利害二語口語測試評分量表。該研究分三階段進(jìn)行。第一階段采用話語分析和主題分析等手段收集、分析質(zhì)性數(shù)據(jù);第二階段同時采用有聲思維和多層面Rasch模型等手段分析評分量表描述語,收集質(zhì)性數(shù)據(jù)和量化數(shù)據(jù),該階段自身屬于會合式次序設(shè)計;第三階段采用多層面Rasch模型分析評分員評分一致性以驗(yàn)證評分量表和測試的效度。該研究能夠讓質(zhì)性研究和量化研究的互補(bǔ)優(yōu)勢得以發(fā)揮,能夠整合上述研究結(jié)果進(jìn)行元推理,努力平衡上述研究方法的不足之處,通過有力的論證讓評分量表的效度得到保障。
Elliott amp; Lim(2016)采用多階段會合設(shè)計開發(fā)劍橋高級證書(CAE)新測試任務(wù)。該研究分三階段進(jìn)行。第一階段通過文獻(xiàn)回顧論證新測試任務(wù)研發(fā)的必要性,進(jìn)而初步確定測試任務(wù)說明和新的測試任務(wù)樣例;第二階段同時采用Rasch模型和專家判斷收集、分析量化和質(zhì)性數(shù)據(jù),前者通過Rasch模型分析試測過程中研究參與者作答成績,以論證測試任務(wù)的評分效度,后者依據(jù)社會認(rèn)知框架(SCF)通過專家判斷,分析測試任務(wù)的認(rèn)知效度和情境效度;第三階段通過Rasch模型收集、分析測試任務(wù)的情境效度和評分效度相關(guān)證據(jù)。該研究運(yùn)用會合研究設(shè)計研發(fā)新的閱讀測試任務(wù)的同時,也在社會認(rèn)知框架下對其預(yù)期使用進(jìn)行效度論證,展現(xiàn)該測試任務(wù)良好的效度。
Vidakovic' amp; Robinson(2016)采用探索式次序設(shè)計研發(fā)法律英語測試任務(wù)。該研究分三個階段進(jìn)行。第一階段采用焦點(diǎn)小組討論、開放式書面評論、開放式調(diào)查問卷和專家判斷等手段收集、分析質(zhì)性數(shù)據(jù)進(jìn)行需求分析;第二、三階段統(tǒng)計分析上述數(shù)據(jù)中關(guān)鍵信息的出現(xiàn)的頻率和所占的百分比,以確保測試內(nèi)容的真實(shí)性和適切性,繼而使用經(jīng)典測量理論(CTT)和項(xiàng)目反應(yīng)理論(IRT)分析該測試的效度。該研究同時采用語言測試領(lǐng)域較為新穎的“以社團(tuán)為基礎(chǔ)的參與研究路徑(CBPR)”進(jìn)行法律英語測試的研發(fā),其創(chuàng)新點(diǎn)在于測試開發(fā)中所涉及的法律專家兼具研究對象和研究伙伴的雙重身份。這與混合設(shè)計一起實(shí)現(xiàn)了研究中不同聲音的交匯,使得研究呈現(xiàn)畫面更加豐富、可信度更高。
Khalifa amp; Docherty(2016)采用會合式平行設(shè)計探討某一國際測試的后效影響。該研究分三步進(jìn)行。第一步同時采用問卷調(diào)查和測試等手段和開放式評論、半結(jié)構(gòu)式訪談以及焦點(diǎn)小組討論等手段分別收集、分析量化數(shù)據(jù)和質(zhì)性數(shù)據(jù);第二步同時采用描述性統(tǒng)計分析和小組比較等手段和主題分析分別對上一步中的研究參與者作答分?jǐn)?shù)和轉(zhuǎn)寫出的文本資料進(jìn)行分析,以確定各項(xiàng)相關(guān)參數(shù)和主要關(guān)注點(diǎn);第三步整合上述數(shù)據(jù),進(jìn)行深入分析,以確定該測試對利益相關(guān)群體的后效影響。該研究發(fā)現(xiàn)表明,采用會合式平行設(shè)計進(jìn)行測試后效研究要優(yōu)于單一的量化研究或質(zhì)性研究。
Youn(2013)采用探索式次序設(shè)計論證學(xué)術(shù)英語情境下基于任務(wù)的二語互動語用課程測試任務(wù)效度。該研究的主體部分分兩個階段進(jìn)行。第一階段,通過會話分析手段收集質(zhì)性數(shù)據(jù);第二階段,通過描述性數(shù)據(jù)統(tǒng)計、多面Rasch模型和相關(guān)分析收集量化數(shù)據(jù)。該研究有力的論證了新開發(fā)的測試任務(wù)的效度。該研究的另一新穎之處在于,主體研究完成之后,研究者還對主體研究的混合方法研究設(shè)計方案的質(zhì)量進(jìn)行論證。Youn(2015)的研究聚焦上述研究中評分量表的效度論證,亦采用探索式次序設(shè)計,分兩個階段進(jìn)行。第一階段,通過會話分析收集質(zhì)性數(shù)據(jù);第二階段,通過多面Rasch模型收集量化數(shù)據(jù)。該研究采用的混合方法研究設(shè)計為測試任務(wù)評分量表的效度論證提供有力的支撐。同時,Youn(2013;2015)的研究為測試任務(wù)設(shè)計,特別是評價推理環(huán)節(jié)中測試任務(wù)評分量表效度論證的混合方法研究設(shè)計提供了參照樣例。
黃永亮(2020)采用探索式次序設(shè)計驗(yàn)證研發(fā)中的“英語教師證書考試”批判性思維能力測試任務(wù)的效度。在質(zhì)性研究階段,依據(jù)受邀專家對測試任務(wù)內(nèi)容和評分標(biāo)準(zhǔn)的反饋意見,判斷測試任務(wù)內(nèi)容的相關(guān)性、取樣的充分性和評分標(biāo)準(zhǔn)的可靠性;通過研究參與者的有聲思維和訪談數(shù)據(jù),揭示其作答過程能在何種程度上反映擬測的英語教師批判性思維能力;通過研究參與者的文本分析,考察其作答的主題能在何種程度上反映評分量表的各個維度,其作答的內(nèi)容能在何種程度上反映評分量表各維度的相關(guān)特征。在量化研究階段,采用FACETS(3.81.2)軟件,就評分量表的維度設(shè)置、分?jǐn)?shù)檔劃分、評分員一致性等方面,對五位評分員評閱的69位研究參與者有效作答分?jǐn)?shù)進(jìn)行多面Rasch模型分析。研究結(jié)果表明,該測試任務(wù)具有較高的效度。
上述混合方法研究設(shè)計成果,尤其是“名實(shí)兼?zhèn)洹毙脱芯砍晒鞔_采用探索式次序設(shè)計、會合式次序設(shè)計等基礎(chǔ)混合方法研究設(shè)計方案,依據(jù)清晰的混合方法研究設(shè)計流程進(jìn)行數(shù)據(jù)的收集、分析與整合,可謂名至實(shí)歸。當(dāng)然,也有混合方法研究設(shè)計成果似乎不在上述三類范圍之內(nèi)(潘鳴威、吳金杰, 2023)。
3.語言測試混合方法研究的質(zhì)量評價
3.1 混合方法研究質(zhì)量評價的標(biāo)準(zhǔn)、模型與指標(biāo)
評價混合方法研究的質(zhì)量涉及對傳統(tǒng)研究路徑的熟悉程度、研究數(shù)據(jù)的效度和信度、混合研究獨(dú)有的數(shù)據(jù)分析技巧與傳統(tǒng)研究路徑中數(shù)據(jù)分析策略的結(jié)合程度等不同方面(Tashakkori amp; Teddlie, 1998)。具體而言,采用混合方法研究設(shè)計,研究者應(yīng)同時熟悉質(zhì)性研究和量化研究兩種方法,能夠在二者之間自如轉(zhuǎn)換。在此基礎(chǔ)上,研究者既要評估質(zhì)性研究和量化研究所收集的研究數(shù)據(jù)的質(zhì)量,又要評估據(jù)此做出的推斷和結(jié)論的質(zhì)量,也就是確保過程效度和設(shè)計效度。研究者還要將質(zhì)性研究和量化研究路徑中的數(shù)據(jù)分析技巧與混合方法研究自身的分析策略有效地結(jié)合起來。不難看出,這屬于宏觀的原則性的混合方法研究的質(zhì)量評價標(biāo)準(zhǔn)。
Teddlie amp; Tashakkori(2003)提出推理質(zhì)量(inference quality)這一混合方法研究質(zhì)量的評價標(biāo)準(zhǔn)。推理質(zhì)量是設(shè)計質(zhì)量和解釋嚴(yán)密度(interpretive rigor)的結(jié)合體,設(shè)計質(zhì)量是指研究設(shè)計能否得到最佳的實(shí)施,解釋嚴(yán)密度是指研究結(jié)果的可信度。他們設(shè)定了內(nèi)在設(shè)計(within-design)一致性、概念一致性、樣本解釋一致性(interpretive agreement or consistency)和解釋可區(qū)分性(interpretive distinctiveness)等一套完備的推理質(zhì)量評價標(biāo)準(zhǔn)。由此可見,推理質(zhì)量兼顧混合方法研究設(shè)計方法論的評價標(biāo)準(zhǔn)和研究結(jié)果效度的評價標(biāo)準(zhǔn),覆蓋研究設(shè)計、研究過程和研究結(jié)果的全過程,具有一定的可操作性。他們還提出表示研究結(jié)果所具有的概化能力的推理遷移性(inference transferability)概念,包括樣本遷移性、生態(tài)遷移性、時間遷移性和操作遷移性。這有助于研究者恰當(dāng)?shù)貐^(qū)分?jǐn)?shù)據(jù)質(zhì)量(data quality)和推理質(zhì)量(Onwuegbuzie amp; Johnson, 2006)。
在推理質(zhì)量和推理遷移性等理論分析的基礎(chǔ)上,Tashakkori amp; Teddlie(2006)進(jìn)一步提出評價混合方法研究質(zhì)量的綜合質(zhì)量模型。該模型由設(shè)計質(zhì)量和解釋嚴(yán)密度兩部分構(gòu)成。具體而言,設(shè)計質(zhì)量的評價指標(biāo)包括內(nèi)在設(shè)計一致性、設(shè)計適宜度、設(shè)計忠實(shí)性和分析充分性;解釋嚴(yán)密度的評價指標(biāo)則包括樣本解釋一致性(interpretive agreement)、解釋可區(qū)分性、結(jié)果解釋一致性(interpretive consistency)、理論一致性和綜合效力(integrative efficacy)。綜合質(zhì)量模型沿用先前的設(shè)計質(zhì)量和解釋嚴(yán)密度兩個核心術(shù)語的同時,部分調(diào)整半數(shù)以上二者所涵蓋的關(guān)鍵指標(biāo)的表述方式,細(xì)化個別評價指標(biāo),并增加新的評價指標(biāo)。相較先前的理論分析,綜合質(zhì)量模型的評價指標(biāo)顯得更為全面、細(xì)致、系統(tǒng),更具操作性。而Onwuegbuzie amp; Johnson(2006)則認(rèn)為,評價混合方法研究質(zhì)量的綜合質(zhì)量模型仍需進(jìn)一步完善與拓展,因?yàn)樵撃P蛢H將推理視作最終的結(jié)果,而忽視了推理作為過程的存在。實(shí)際上,混合方法研究中的推理既是結(jié)果又是過程。同時,綜合質(zhì)量模型亦未明確各類效度在混合方法研究評價過程中所發(fā)揮的作用。為此,他們提出正當(dāng)性(legitimation)這一較為中性,沒有明顯的量化研究或質(zhì)性研究傾向性的概念,作為混合方法研究的質(zhì)量評價指標(biāo)。正當(dāng)性是指得出的研究發(fā)現(xiàn)和(或)做出的推理的可接受性、可信性、可靠性、可遷移性和(或)可證實(shí)性。正當(dāng)性涵蓋樣本綜合正當(dāng)性、內(nèi)在參與者—外在參與者正當(dāng)性、弱點(diǎn)最小化正當(dāng)性、序列正當(dāng)性、推理轉(zhuǎn)換正當(dāng)性、范式混合正當(dāng)性、等量正當(dāng)性、多重效度(multiple validities)正當(dāng)性和政治正當(dāng)性等九種子類型。
正當(dāng)性是評價混合方法研究質(zhì)量的關(guān)鍵指標(biāo),是Tashakkori amp; Teddlie(2006)綜合質(zhì)量模型的有益補(bǔ)充。為保證正當(dāng)性概念的可操作性,Onwuegbuzie amp; Johnson(2006)構(gòu)建出可分別用于評價混合方法研究中的量化研究部分和質(zhì)性研究部分所具有的正當(dāng)性的相應(yīng)模型。他們特別強(qiáng)調(diào),對混合方法研究正當(dāng)性的考察是一個過程,是一個兼跨邏輯分析、社會學(xué)、美學(xué)、主位、客位、政治學(xué)、倫理學(xué)等學(xué)科的多維考察過程。盡管如此,質(zhì)性研究正當(dāng)性模型雖相對全面,但絕非十全十美(Onwuegbuzie amp; Leech, 2007)。
3.2 混合方法研究的統(tǒng)一效度驗(yàn)證框架
Dellinger amp; Leech(2007)積極評價上述綜合質(zhì)量模型和正當(dāng)性概念及其理論解釋,認(rèn)為它們?yōu)榛旌戏椒ㄑ芯康馁|(zhì)量評估與推理提供了重要的評價標(biāo)準(zhǔn),但它們?nèi)匀灰姥?dāng)下傳統(tǒng)的效度評價標(biāo)準(zhǔn),將混合方法研究中的量化研究和質(zhì)性研究各自孤立地進(jìn)行評價。因此,混合方法研究的效度問題需進(jìn)一步深入的探討。于是,依據(jù)Messick(1995)統(tǒng)一效度觀下的構(gòu)念效度理論,緊扣混合方法研究過程中各類研究數(shù)據(jù)之間的張力,提出混合方法研究的統(tǒng)一效度驗(yàn)證框架。
統(tǒng)一效度驗(yàn)證框架由基礎(chǔ)要素、推理一致性、應(yīng)用/歷史要素和后果要素等四部分構(gòu)成。其中,基礎(chǔ)要素反映出研究者對當(dāng)下的研究構(gòu)念和(或)研究的現(xiàn)象的先前的理解;推理一致性是指研究中所做的推理是否與特定的已知先前的理解、后續(xù)研究及相關(guān)理論相一致;應(yīng)用/歷史要素指應(yīng)用和使用的證據(jù),是構(gòu)念效度證據(jù)的來源;后果要素取決于對最終研究發(fā)現(xiàn)、研究措施或研究推理所引發(fā)后果的社會接受度的判斷。不難看出,統(tǒng)一效度驗(yàn)證框架四要素中既使用了先前評價標(biāo)準(zhǔn)中的推理一致性,又借用了應(yīng)用/歷史要素和后果要素,還創(chuàng)造了基礎(chǔ)要素這一新術(shù)語。因此,混合方法研究的統(tǒng)一效度驗(yàn)證框架猶如一個大熔爐,緊扣統(tǒng)一效度觀,試圖囊括先前一切有益的研究成果。不僅如此,該框架也適用于量化研究和質(zhì)性研究的效度驗(yàn)證,還有助于研究者整理研究思路,整理構(gòu)念效度驗(yàn)證所需的證據(jù),審視并評定所收集的構(gòu)念效度證據(jù),提高研究者自身使用研究發(fā)現(xiàn)的興趣。統(tǒng)一效度驗(yàn)證框架試圖囊括萬象,包打一切,試圖完美地解決混合研究、量化研究和質(zhì)性研究的效度問題,其實(shí)際操作效果或許不言自明。套用Teddlie amp; Tashakkori(2003)對效度概念的評價,當(dāng)效度概念試圖包羅萬象時,其最本質(zhì)的意義便不復(fù)存在。統(tǒng)一效度驗(yàn)證框架也不例外。
此外,近兩年Hirose amp; Creswell(2023)提出了評價混合方法研究質(zhì)量六項(xiàng)核心標(biāo)準(zhǔn),而Riazi amp; Farsani(2023)提出的混合方法研究質(zhì)量和透明度的六端評價標(biāo)準(zhǔn)跟前者關(guān)系密切,袁雪寒和韓寶成(2023)則在上述兩項(xiàng)研究的基礎(chǔ)上提出了混合方法研究質(zhì)量評價的六項(xiàng)關(guān)鍵指標(biāo),采用啟發(fā)式提問的方式來釋義。這些研究成果都是混合方法研究質(zhì)量評價標(biāo)準(zhǔn)研究的有益嘗試。
4.結(jié)語
本文在簡要考察混合方法研究設(shè)計類型的基礎(chǔ)上,將語言測試領(lǐng)域中的混合方法研究成果分為“無名有實(shí)”“半名半實(shí)”“名實(shí)兼?zhèn)洹比N類型,亦發(fā)現(xiàn)當(dāng)前語言測試的混合方法研究仍有相當(dāng)大的潛力需要挖掘。探析混合方法研究質(zhì)量的評價標(biāo)準(zhǔn)、模型與指標(biāo),有助于找尋當(dāng)前語言測試混合方法研究存在問題的根源,進(jìn)而助益提升語言測試混合方法研究的質(zhì)量。未來語言測試混合方法研究質(zhì)量評價標(biāo)準(zhǔn)的深入探討,一旦達(dá)成共識,則語言測試混合方法研究的質(zhì)量監(jiān)控便有據(jù)可依,有助于進(jìn)一步增強(qiáng)研究結(jié)論的說服力?;旌戏椒ㄑ芯康膽?yīng)用在推動語言測試學(xué)科發(fā)展的同時,也將助益我國全面建設(shè)外語能力測評體系。
參考文獻(xiàn)
[1]Baker, B. A. Individual differences in rater decision-making style: A mixed-methods study[J]. Language Assessment Quarterly, 2012, 9 (3): 225-248.
[2]Barkaoui, K. Do ESL essay raters’ evaluation criteria change with experience? A mixed-methods, cross-sectional study[J]. TESOL Quarterly, 2010, 44 (1): 31-57.
[3]Brown, A. Interviewer variation and the co-construction of speaking proficiency[J]. Language Testing, 2003, 20 (1): 1-25.
[4]Clapham, C. The Development of IELTS: A Study of the Effect of Background Knowledge on Reading Comprehension[M]. New York: Cambridge University Press, 1996.
[5]Creswell, J. W. A Concise Introduction to Mixed Methods Research[M]. Thousand Oaks: Sage Publications, Inc, 2014.
[6]Creswell, J. W. amp; V. L. P. Clark. Designing and Conducting Mixed Methods Research[M]. Thousand Oaks: Sage Publications, Inc, 2018.
[7]Dawadi, S., S. Shrestha amp; A. Giri. Mixed-Methods research: A discussion on its types, challenges, and criticisms[J]. Journal of Practical Studies in Education, 2021, 2(2): 25-36.
[8]Dellinger, A. B. amp; N. L. Leech. Toward a unified validation framework in mixed methods research[J]. Journal of Mixed Methods Research, 2007, (1): 309-332.
[9]Ekkens, K. amp; P. Winke. Evaluating workplace English language programs[J]. Language Assessment Quarterly, 2009, 6 (4): 265-287.
[10]Elliott, M. amp; G. S. Lim. The development of a new reading task: A mixed methods approach[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 233-268.
[11]Galaczi, E. amp; N. Khabbazbashi. Rating scale development: A multistage exploratory sequential design[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 208-232.
[12]Grabowski, K. C. Investigating the Construct Validity of a Test Designed to Measure Grammatical and Pragmatic Knowledge in the Context of Speaking[D]. Columbia University, 2009.
[13]Hirose, M. amp; J. Creswell. Applying core quality criteria of mixed methods research to an empirical study[J]. Journal of Mixed Methods Research, 2023, (17): 12-28.
[14]Jang, E., M. Wagner amp; G. Park. Mixed methods research in language testing and assessment[J]. Annual Review of Applied Linguistics, 2014, (34): 123-153.
[15]Johnson, R. B. amp; A. J. Onwuegbuzie. Mixed methods research: A research paradigm whose time has come[J]. Educational Researcher, 2004, 22 (7): 14-26.
[16]Khalifa, H. amp; C. Docherty. Investigating the impact of international assessment: A convergent parallel mixed methods approach[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 269-295.
[17]Kiddle, T. amp; J. Kormos. The effect of mode of response on a semidirect test of oral proficiency[J]. Language Assessment Quarterly, 2011, 8 (4): 342-360.
[18]Kim, J. Y. Development and Validation of An ESL Diagnostic Reading-to-write Test: An Effect-driven Approach[D]. University of Illinois at Urbana-Champaign, 2008.
[19]Kim, Y. H. An investigation into native and non-native teachers’ judgments of oral English performance: A mixed methods approach[J]. Language Testing, 2009, 26 (2): 187-217.
[20]Lee, Y. J. amp; J. Greene. The predictive validity of an ESL placement test: A mixed methods approach[J]. Journal of Mixed Methods Research, 2007, 1 (4): 366-389.
[21]Lynch, B. K. Evaluating a program inside and out[A]. In J. C. Alderson amp; A. Beretta(eds.). Evaluating Second Language Education[C]. Cambridge: Cambridge University Press, 1992. 61-99.
[22]Messick, S. Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning[J]. American Psychologist, 1995, 50 (9): 741-749.
[23]Neumann, H. What’s in A Grade? A Mixed Methods Investigation of Teacher Assessment of Grammatical Ability in L2 Academic Writing[D]. Mcgill University, 2011.
[24]Onwuegbuzie, A. J. amp; N. L. Leech. Validity and qualitative research: An oxymoron?[J]. Quality amp; Quantity, 2007, 41 (2): 233-249.
[25]Onwuegbuzie, A. J. amp; R. B. Johnson. The validity issue in mixed research[J]. Research in the Schools, 2006, 13 (1): 48-63.
[26]Phakiti, A. A closer look at the relationship of cognitive and metacognitive strategy use of EFL reading achievement test performance[J]. Language Testing, 2003, 20 (1): 26-56.
[27]Plakans, L. amp; A. Gebril. A close investigation into source use in integrated second language writing tasks[J]. Assessing Writing, 2012, 17 (1): 18-34.
[28]Riazi, A. Mixed Methods Research in Language Teaching and Learning[M]. Sheffield: Equinox, 2017.
[29]Riazi, A. amp; M. Farsani. Mixed-Methods research in Applied Linguistics: Charting the progress through the second decade of the Twenty-First Century[J/OL]. Language Teaching. 2023. Http:// doi: 10. 1017/S0261444823000332.[2023-08-16]
[30]Tashakkori. A. amp; C. Teddlie. Applied Social Research Methods Series, Vol. 46. Mixed Methodology: Combining Qualitative and Quantitative Approaches[M]. Thousand Oaks, CA: Sage Publications, Inc, 1998.
[31]Tashakkori, A. amp; C. Teddlie. Validity Issues in Mixed Methods Research: Calling for an Integrative Framework[R]. Paper Presented at the Annual Meeting of the American Educational Research Association, San Francisco, CA, 2006.
[32]Teddlie, C. amp; A. Tashakkori. Major issues and controversies in the use of mixed methods in the social and behavioral sciences[A]. In A. Tashakkori amp; C. Teddlie (eds.). Handbook of Mixed Methods in Social and Behavioral Research[C]. Thousand Oaks, CA: Sage Publications, Inc, 2003. 3-50.
[33]Uiterwijk, H. amp; T. Vallen. Linguistic sources of item bias for second generation immigrants in Dutch tests[J]. Language Testing, 2005, 22 (2): 211-234.
[34]Vidakovic', I. amp; M. Robinson. A community-based participatory approach to test development: The international legal English certificate[A]. In A. J. Moeller, J. W. Creswell amp; N. Saville(eds.). Second Language Assessment and Mixed Methods Research[C]. Cambridge: Cambridge University Press, 2016. 177-207.
[35]Youn, S. J. Validating Task-based Assessment of L2 Pragmatics in Interaction Using Mixed Methods[D]. University of Hawai’ i at Manoa, 2013.
[36]Youn, S. J. Validity argument for assessing L2 pragmatics in interaction using mixed methods[J]. Language Testing, 2015, 32 (1): 199-225.
[37]侯家英,白倩,李藝. 現(xiàn)象學(xué)視野中質(zhì)性與量化研究方法論討論——以教育混合方法研究為例[J]. 電化教育研究, 2023,(2):22-27.
[38]黃永亮. 英語教師證書考試批判性思維能力測試任務(wù)效度研究[D]. 北京外國語大學(xué),2020.
[39]潘鳴威,吳金杰.診斷測試視角下的間接與直接寫作測試互補(bǔ)性研究[J].山東外語教學(xué), 2023,(3):13-25.
[40]袁雪寒, 韓寶成. 語言測試的混合方法研究:原則、應(yīng)用與問題[J]. 外語與外語教學(xué),2023, (6): 40-49.
[41]張培欣, 范勁松, 賈文峰.國際語言測試研究熱點(diǎn)與趨勢分析(2008-2018)[J]. 外語教學(xué)與研究, 2021,(4):618-627.(責(zé)任編輯:孫炬)