俞顯
隨著深度學(xué)習(xí)、自動化語義分析、多模態(tài)分析技術(shù)等人工智能技術(shù)的發(fā)展以及語言綜合運(yùn)用能力測評的現(xiàn)實(shí)需求,基于智能測評技術(shù)開展大規(guī)模語言聽說能力測評受到越來越多的關(guān)注。目前,智能語音測評技術(shù)在語言綜合能力測評中已經(jīng)有較多的成熟案例,如國際上的托福、雅思等語言能力認(rèn)定考試,國內(nèi)部分省市的中考、高考、學(xué)考的英語聽說能力測試等,從考試到評分均采用人工智能。中考英語聽力口語測試引入機(jī)考(以下簡稱“人機(jī)對話”),特別是新增口語考試模塊后,考試內(nèi)容和形式的變化勢必會對英語學(xué)習(xí)帶來影響,中考生對這項(xiàng)改革的感知和認(rèn)可程度將成為人機(jī)對話能否有效開展的關(guān)鍵因素,當(dāng)前尚缺乏這方面的實(shí)踐研究。為此,本研究在S市范圍內(nèi)以分層隨機(jī)抽樣的方法就中考生對人機(jī)對話的認(rèn)知和態(tài)度開展調(diào)查,以期為相關(guān)研究提供實(shí)證參考。
以分層隨機(jī)抽樣的方式在S市內(nèi)抽取14所高中學(xué)校,研究對象是參加中考人機(jī)對話的初中畢業(yè)生(該批學(xué)生已升入高一)。調(diào)查活動以網(wǎng)絡(luò)調(diào)查問卷形式開展,共回收問卷2165份,其中有效問卷2150份,有效率為99.31%。性別上,男生1057人(49.16%),女生 1093 人(50.84%);所在區(qū)域,農(nóng)村101人(4.70%),鄉(xiāng)鎮(zhèn) 882人(41.02%),中心城區(qū)1167人(54.28%)。
對有關(guān)文獻(xiàn)進(jìn)行檢索和分析,初步總結(jié)中考生對智能語音測評技術(shù)應(yīng)用的感知影響因素,并借鑒已有的英語口語測試研究成果[1-2],形成了調(diào)查問卷。內(nèi)容分為基本信息和調(diào)查主題兩部分,調(diào)查主題涉及感知程度選擇時采用李克特5點(diǎn)等級量表,按照程度由低到高排列,即很不滿意(1)到很滿意(5)賦值。經(jīng)過試測和調(diào)整,采用SPSS對數(shù)據(jù)進(jìn)行處理,調(diào)查的4個維度的Cronbach’s alpha系數(shù)介于0.718到0.826,整份問卷問卷的Cronbach’s alpha系數(shù)0.796,問卷信度達(dá)到測量要求。效度方面,問卷的形成過程中采用德爾菲法多輪專家征詢,問卷內(nèi)容效度具有較好保證;結(jié)構(gòu)效度上,采用因子分析法,KMO值為0.916,Bartlett球形檢驗(yàn)的近似卡方分布為279.721,相伴概率p<0.05,適合做因素分析,獲得4個因子并且方差解釋量為89.762%,說明問卷具有較好的結(jié)構(gòu)效度。所有數(shù)據(jù)采用SPSS21.0處理。
S市中考英語人機(jī)對話采用智能語音測評技術(shù)支持,包括考務(wù)編排、試題制作和考生作答結(jié)果評分在內(nèi)的所有考試環(huán)節(jié)均采用計(jì)算機(jī)自動化處理。在綜合考慮計(jì)算機(jī)數(shù)量和考試風(fēng)險管控后,測試采用分時段按批次進(jìn)行。出于保密的要求,不同時段的測試采用不同的試卷。試卷分聽力和口語兩部分。
總體感知調(diào)查結(jié)果顯示,中考生對人機(jī)對話的總體感知均值為4.11,呈較滿意水平。進(jìn)一步對總體感知得分與中考生性別、常住區(qū)域進(jìn)行獨(dú)立樣本T檢驗(yàn)或方差分析發(fā)現(xiàn),在中考生性別 (t=-3.38,p<0.05)和常住區(qū)域(F=4.37,P<0.05)上存在顯著性差異,從感知程度均值上看女生高于男生,而LSD事后多重比較顯示鄉(xiāng)鎮(zhèn)考生和城市、農(nóng)村考生均存在顯著性差異且在三類區(qū)域中感知程度最高。
從性別上看,可能由于女生在語言學(xué)習(xí)的動機(jī)、生理、認(rèn)知能力上存在優(yōu)勢,相應(yīng)地獲得更多的學(xué)業(yè)成就[3],從而加強(qiáng)了女生對人機(jī)對話的信心。從區(qū)域性質(zhì)上看,調(diào)查結(jié)果顯示,對鄉(xiāng)鎮(zhèn)考生而言,相較于農(nóng)村考生其擁更多的學(xué)習(xí)資源和工具,能較有效地支持自身的語言學(xué)習(xí);而相比城市考生,在以升學(xué)率作為主要教學(xué)考核指標(biāo)的情況下,低難度的人機(jī)對話試題為鄉(xiāng)鎮(zhèn)考生通過投入更多的時間和精力從而縮小與城市考生的差距提供更大的可能,這些可能是鄉(xiāng)鎮(zhèn)考生整體滿意度高的原因。
人機(jī)對話考試能否有效考查出考生真實(shí)的英語聽說能力、考生是否適應(yīng)人機(jī)對話形式是影響考生對人機(jī)對話滿意度的重要內(nèi)容之一。調(diào)查從人機(jī)對話考試內(nèi)容與課程標(biāo)準(zhǔn)一致性程度、人機(jī)對話考查學(xué)生英語聽說能力的層次、考生對人機(jī)對話形式的適應(yīng)度等方面展開。調(diào)查結(jié)果顯示,中考生對人機(jī)對話內(nèi)容和形式的總體較為認(rèn)可,滿意度均值為3.42。具體來看,對人機(jī)對話考試內(nèi)容體現(xiàn)所學(xué)內(nèi)容的程度有63.90%的考生表示滿意,但有將近1/4的中考生持不滿意的態(tài)度;而從中考生人機(jī)對話考試形式的適應(yīng)度上看,有將近一半的考生表示適應(yīng),但近35%的中考生適應(yīng)度為一般。進(jìn)一步對人機(jī)對話考試內(nèi)容和形式的滿意度總體得分與考生性別、常住區(qū)域進(jìn)行獨(dú)立樣本T檢驗(yàn)或方差分析發(fā)現(xiàn),在考生性別上不存在顯著性差異(t=-0.766,p>0.05);在常住區(qū)域上存在顯著性差異 (F=3.761,P<0.05),經(jīng)過LSD事后多重比較發(fā)現(xiàn)城市考生與鄉(xiāng)鎮(zhèn)考生在滿意度上存在顯著性差異,且鄉(xiāng)鎮(zhèn)考生的滿意度高于城市考生。
從對考試的形式和內(nèi)容的滿意度上看,考生的整體的滿意度不高,呈中等略偏上。筆者分析,由于新增口語模塊和新的考試形式,考慮到中考英語的難度穩(wěn)定性和人機(jī)對話的接受度,通過縮小考試內(nèi)容的廣度和深度并降低話題難度來應(yīng)對考試形式變化給考生帶來的額外的身心負(fù)荷是常見的命題技術(shù)。但這一做法可能會帶來一些負(fù)面效果從而影響考生對考試的滿意度:一方面試題難度降低對高水平考生存在不公平,低區(qū)分度試題無法讓其在競爭性考試中發(fā)揮優(yōu)勢;二是通過降低試題難度來規(guī)避由于考試形式變化而引起的考試難度“不穩(wěn)定”的風(fēng)險,實(shí)際的效果并不理想,這是因?yàn)槊}專家往往無法在考試形式改變引起的試題難度“變化量”和實(shí)際試卷難度“降低幅度”之間做出有效的判斷;此外,由于智能測評技術(shù)的局限,導(dǎo)致考試內(nèi)容和形式為適應(yīng)技術(shù)而做“削減式”的調(diào)整,在一定程度上違背了考試對考生真實(shí)能力考查的原有規(guī)律。
難度作為評價試題質(zhì)量的一個重要的技術(shù)指標(biāo),直接影響測試功能的實(shí)現(xiàn)[4]。從考試的社會屬性上講,大規(guī)模高利害考試的難度異常可能會觸發(fā)社會群體事件而影響社會穩(wěn)定,因此考試難度的把握至關(guān)重要。研究設(shè)置4題,主要涵蓋中考生對整個考試難度感知、對不同時段不同批次試卷難度的感知。試題的難度方面,34.70%的中考生認(rèn)為人機(jī)對話難度適中,58.25%的認(rèn)為試卷較容易或很容易??傮w而言,絕大部分中考生認(rèn)為試卷較容易,這與考試難度設(shè)計(jì)要求達(dá)到0.80-0.85之間的要求吻合。試卷難度等值方面,有32.22%的中考生認(rèn)為人機(jī)對話不同批次試卷的難度等值情況不容樂觀,僅有37.87%的中考生認(rèn)為不同批次試題的難度基本等值。進(jìn)一步分析發(fā)現(xiàn),在性別上中考生對試題難度等值的認(rèn)知程度沒有顯著性差異(t=-1.437,p>0.05),不同區(qū)域的中考生對試題難度等值的認(rèn)知程度沒有顯著性差異(F=0.576,p>0.05)。
中考具有“兩考合一”的屬性,試題難度設(shè)計(jì)需綜合考慮標(biāo)準(zhǔn)參照與常模參照的要求,而人機(jī)對話需要兼顧考試形式變化和激發(fā)考生的學(xué)習(xí)積極性,所以難度往往偏向容易。難度等值方面,每位考生只作答一套試卷,其他批次的試卷對其保密。但考試分?jǐn)?shù)公布后,同一批次的考生、同一個班級日常語言學(xué)習(xí)成績相近的考生會互相對比,從而感知自己批次試卷和其他批次試卷的難度情況。需要明確的是,考后數(shù)據(jù)顯示該年各批次試卷之間的難度基本均衡,然而考后難度均衡的結(jié)論與考生感知試卷難度等值差異大的情況呈較大的反差??赡艿脑蚴?,一是各套試卷難度是通過均值除以滿分來計(jì)算的,在教育統(tǒng)計(jì)中均值是常用的集中量,但易受極值影響,在轉(zhuǎn)換成難度系數(shù)時往往忽略配合標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)解讀,從而掩蓋了數(shù)據(jù)描繪全景事實(shí)的情況;二是由于中考屬于高利害競爭性考試,部分考生在考試中發(fā)揮“失?!睍⒖荚嚸芤蚩荚囆问降母淖儯瑥亩诳忌后w間營造了一種考試難度差異大的“責(zé)難”氛圍并在考生群體間蔓延,這些情況應(yīng)當(dāng)引起重視。
嚴(yán)謹(jǐn)規(guī)范的考試組織是保證考試公平的基礎(chǔ),也是考試順利實(shí)施的基本保障。調(diào)查從考務(wù)組織流程和考試物理環(huán)境兩個方面展開??荚嚱M織流程方面,9.81%的中考生認(rèn)為人機(jī)對話考務(wù)組織不太合理規(guī)范,9.24%的中考生不了解具體情況,54.16%選擇基本合理規(guī)范,26.79%選擇完全合理規(guī)范,可以發(fā)現(xiàn)將近80.95%的中考生認(rèn)可人機(jī)對話的考務(wù)組織。在考試物理環(huán)境的保障上,調(diào)查對象群體均值為3.42,對人機(jī)對話物理環(huán)境持較為肯定的態(tài)度。進(jìn)一步分析發(fā)現(xiàn),男女生在考試物理環(huán)境的保障上呈顯著性差異(t=-2.064,p<0.05),女生對考試物理環(huán)境更為認(rèn)可;從不同區(qū)域看,城市中考生與鄉(xiāng)鎮(zhèn)中考生、農(nóng)村中考生在考試物理環(huán)境的滿意度上呈顯著性差異(F=17.307,P<0.05),城市中考生得分均值最低。
從S市的經(jīng)驗(yàn)上看,人機(jī)對話從啟動開始,先后進(jìn)行了可行性論證、案例學(xué)校實(shí)地考察、仿真考試評比、模擬考試等環(huán)節(jié),在不同環(huán)節(jié)緊緊圍繞“安全考試、服務(wù)學(xué)生”的精細(xì)化施考理念,設(shè)計(jì)和優(yōu)化了一系列考務(wù)組織管理工作。但由于各個考點(diǎn)建設(shè)受資金投入的影響,存在考試計(jì)算機(jī)新舊、考場加裝隔板、機(jī)房布線改造等軟硬件不一致的客觀情況。從性別上看,相較于男生,女生可能更關(guān)注考試本身,對考試的支持環(huán)境并不太在意。從某種程度上說,城市學(xué)校的軟硬件環(huán)境一般會優(yōu)于農(nóng)村學(xué)校,如果考試物理環(huán)境與日常練習(xí)的環(huán)境有較大差異時,可能會對城市考生造成一定的影響。
利用信息技術(shù)支持教與學(xué)活動是教育領(lǐng)域關(guān)注的熱點(diǎn)話題。教育考試信息化已經(jīng)成為考試專業(yè)能力發(fā)展、提高考試服務(wù)滿意度的重要手段,其中扮演重要角色的是考試信息軟件的設(shè)計(jì)與應(yīng)用。研究從考試軟件運(yùn)行穩(wěn)定性、頁面布局合理性、文字設(shè)計(jì)規(guī)范性、提示信息適切性、語音語料流暢性等直接影響考生應(yīng)考體驗(yàn)的角度入手,調(diào)查中考生對考試軟件的滿意度的感知。結(jié)果顯示,滿意度均值為4.16,總體持較為滿意的態(tài)度。進(jìn)一步分析發(fā)現(xiàn),男女生在軟件設(shè)計(jì)的滿意度感知上存在顯著性差異 (t=-4.967,p<0.05),從均值上看,男生的滿意度低于女生。在常住區(qū)域因素上做方差分析發(fā)現(xiàn),不同區(qū)域的中考生的滿意度感知在統(tǒng)計(jì)學(xué)意義上存在顯著性差異 (F=6.061,P<0.05),LSD 事后多重比較結(jié)果顯示,農(nóng)村中考生與城市、鄉(xiāng)鎮(zhèn)中考生均存在顯著性差異,從均值上看農(nóng)村中考生得分最低。
圖1 中考生對考試軟件的滿意度分布情況
與相關(guān)的研究結(jié)論類似,相較女生,男生在日常學(xué)習(xí)和生活中對數(shù)碼、軟件等信息產(chǎn)品更感興趣,接觸軟件產(chǎn)品的機(jī)會和愿望更多,基于自己的體驗(yàn)對軟件產(chǎn)品的優(yōu)劣有著更為明晰的判斷[5]。此外,從考生區(qū)域來源上看,農(nóng)村中考生相對來說整體的信息素養(yǎng)偏低,新信息產(chǎn)品的考試應(yīng)用可能會對其造成一定的壓力,從而影響了農(nóng)村中考生對信息產(chǎn)品體驗(yàn)的滿意度。可以說,考生的信息素養(yǎng)作為非語用能力卻直接影響了考生對人機(jī)對話的反應(yīng),這一現(xiàn)象在日常聽力口語教學(xué)活動中需要引起重視。
信息技術(shù)與大規(guī)模高利害考試深度融合是教育考試信息化發(fā)展的重要議題,而信息技術(shù)與教育考試融合的質(zhì)量直接決定應(yīng)用主體(學(xué)校、教師、學(xué)生等)滿意度的感知。為進(jìn)一步提高考生對人機(jī)對話的滿意度,提出以下建議。
項(xiàng)目功能差異分析是用來檢測測試工具對目標(biāo)群體是否公平的有力手段[6]。調(diào)查顯示,在滿意度的影響因素上,不同性別、區(qū)域的學(xué)生往往表現(xiàn)出較大的差異。因此在設(shè)計(jì)試題的過程中,要充分考慮不同學(xué)生群體的學(xué)習(xí)體驗(yàn)和生活經(jīng)歷,盡力消減非考試目標(biāo)因素的干擾。當(dāng)然,在項(xiàng)目功能差異分析的實(shí)際應(yīng)用過程中,要注重混合式方法的運(yùn)用,即在使用統(tǒng)計(jì)方法分析項(xiàng)目功能差異的同時,還需要對存在項(xiàng)目功能差異的項(xiàng)目進(jìn)行深入的質(zhì)性分析,尋找造成項(xiàng)目功能差異的可能原因[7],既要知其然,更要知其所以然,只有這樣才能確??荚図?xiàng)目的質(zhì)量,維護(hù)考試公平公正。而考生的信息素養(yǎng)分布情況、人機(jī)對話給考生帶來的心理負(fù)荷情況、試題話題廣度和深度等維度是后期教學(xué)和命題應(yīng)該重點(diǎn)關(guān)注的內(nèi)容。
考試等值問題本質(zhì)上是考試難度控制問題。傳統(tǒng)的試卷難度易受命題專家個人業(yè)務(wù)能力、命題偏好的影響,試卷難度的穩(wěn)定性難以保證?!耙豢级嗑怼钡娜藱C(jī)對話對各套試卷難度的等值有著嚴(yán)格的要求。從已有的研究成果看,依托項(xiàng)目反應(yīng)理論設(shè)置試卷之間的錨題機(jī)制,構(gòu)建試卷等值的同一測量尺度,以解決“一考多卷”難度等值問題是當(dāng)前主流的實(shí)踐[8],但在我國高利害考試中往往難以實(shí)施。筆者認(rèn)為要改善這一困境,一是要優(yōu)化命題機(jī)制,即在保證考試公平和考務(wù)有效組織的前提下,減少試卷的數(shù)量和修訂考試內(nèi)容,如通過增加考場壓縮考試天數(shù)、口語“語篇朗讀”部分可采用教材上的內(nèi)容等。二是不同試卷成績的報告采用等級賦分的原則[9],等級賦分的初衷是解決不同學(xué)科、不同批次考試難度不一致導(dǎo)致成績?nèi)狈杀刃院屠奂有缘膯栴} (不考慮學(xué)科屬性),當(dāng)然實(shí)踐中還有一些需要注意的技術(shù)問題。長期來看,構(gòu)建基于等值技術(shù)的試題庫建設(shè)依然是解決此類問題的主要方法,期待這一方面在實(shí)踐應(yīng)用中有更深入的突破。
精細(xì)化管理是工業(yè)生產(chǎn)過程中,為了提高管理質(zhì)量和效率而形成的管理理念[10]??紕?wù)精細(xì)化的過程是考務(wù)管理體系化、標(biāo)準(zhǔn)化、規(guī)范化的過程。人機(jī)對話相較于傳統(tǒng)紙筆測試,面臨更多的考務(wù)管理環(huán)節(jié),需要防控更多的風(fēng)險點(diǎn)。開展人機(jī)對話考務(wù)精細(xì)化管理,建立體系化、標(biāo)準(zhǔn)化、規(guī)范化的精細(xì)化管理方案是人機(jī)對話考試安全和穩(wěn)定的內(nèi)在要求??偟膩碇v,人機(jī)對話精細(xì)化管理方案要遵循繼承性、發(fā)展性和預(yù)見性原則。繼承性是要充分歸納考試管理的普遍規(guī)律,這是設(shè)計(jì)人機(jī)對話精細(xì)化管理的“基柱”。發(fā)展性是指要注重人機(jī)對話考務(wù)管理的獨(dú)有特點(diǎn),避免考務(wù)管理“經(jīng)驗(yàn)主義”的陷阱。在實(shí)施人機(jī)對話的過程中,要防控更多的風(fēng)險點(diǎn),風(fēng)險的防控在于預(yù)測風(fēng)險發(fā)生的概率和破壞的程度,因此人機(jī)對話精細(xì)化管理方案必須要具有預(yù)見性。與精細(xì)化考務(wù)管理內(nèi)在把控考務(wù)風(fēng)險對應(yīng)的是外在的考試環(huán)境的呈現(xiàn),包括考試的流程設(shè)計(jì)、環(huán)境構(gòu)建、服務(wù)支持等等,都需要按照精細(xì)化考務(wù)管理的原則實(shí)施。
人機(jī)對話是借助智能語音測評技術(shù)實(shí)施的新的考試形式,是信息技術(shù)教育應(yīng)用的重要組成部分,提高用戶體驗(yàn)、增加語言考試的情境性至關(guān)重要。一是考試軟件優(yōu)化,在充分調(diào)研考生的認(rèn)知和需求的基礎(chǔ)上,分析學(xué)生的個性特征和學(xué)習(xí)風(fēng)格,提高考試軟件的交互性體驗(yàn);二是促進(jìn)考試軟件與考試內(nèi)容和形式的深度融合,融合不是簡單將紙質(zhì)的考試內(nèi)容復(fù)制到電腦軟件中,而是要全面分析紙質(zhì)考試對考試內(nèi)容呈現(xiàn)的不足以及考試軟件對傳統(tǒng)考試內(nèi)容的呈現(xiàn)優(yōu)勢,明確考試目標(biāo)、考試內(nèi)容、考試形式、考生認(rèn)知特點(diǎn),遵循多媒體軟件設(shè)計(jì)原則[11],積極探索多媒體環(huán)境下的考試;三是注重考生信息素養(yǎng)的發(fā)展,本次調(diào)查顯示有將近85%的學(xué)生利用手機(jī)進(jìn)行日常人機(jī)對話練習(xí),如何正確引導(dǎo)學(xué)生使用信息設(shè)備支持學(xué)習(xí)、發(fā)展學(xué)生的信息素養(yǎng)是當(dāng)前不可回避的重要的教學(xué)問題;四是利用信息技術(shù)縮小城鄉(xiāng)學(xué)生之間的英語聽說能力差距,發(fā)揮信息技術(shù)在學(xué)習(xí)資源、學(xué)習(xí)反饋、傳播方式等方面的優(yōu)勢,為優(yōu)化鄉(xiāng)村學(xué)生的語言學(xué)習(xí)環(huán)境、轉(zhuǎn)變學(xué)習(xí)方式和學(xué)習(xí)結(jié)果反饋方式提供有力條件[12]。