朱汝光 徐加永
摘? ?要:近年來,基于人工智能技術(shù)的“機(jī)器評卷”研究不斷深入,應(yīng)用實(shí)踐也日漸增多。北京教育考試院依托國內(nèi)一流人工智能研究團(tuán)隊(duì),開展了人工智能在大規(guī)模高利害英語聽說考試中的應(yīng)用研究。自2018年起,該研究成果在全市中考聽說考試評卷中進(jìn)行了實(shí)質(zhì)性應(yīng)用,共涉及考生50余萬人,取得了良好的效果。為切實(shí)解決英語聽說考試智能評卷的技術(shù)難題,確保公平公正,北京教育考試院聯(lián)合“科大訊飛”公司,申請了北京市教育科學(xué)“十三五”規(guī)劃優(yōu)先關(guān)注課題“AI在中高考英語聽說測評中的應(yīng)用研究”,力爭將研究成果應(yīng)用在近年的高考英語聽說機(jī)考中,以助力北京市教育考試招生制度的改革。
關(guān)鍵詞:高利害考試;英語聽說考試;機(jī)考;機(jī)評;智能評卷
中圖分類號:G465 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2021)07-0040-04
一、引言
自2018年中考開始,北京市的英語聽說測試實(shí)行計(jì)算機(jī)化考試,并引入人工智能評卷。北京市中考英語聽說機(jī)考分值為40分,占總分100分的40%。從2021年起,高考英語聽說測試實(shí)行機(jī)考,分值為50分,占總分的33.3%。
北京市中高考英語學(xué)科考試內(nèi)容和方式的改革,已成為考試招生制度改革的切入點(diǎn)和重要組成部分。該改革力度大、步子穩(wěn)。中高考英語學(xué)科聽說考試的得分大比例計(jì)入中高考總分,這樣的評價導(dǎo)向,有效地引領(lǐng)了中學(xué)英語教學(xué),有利于克服“啞巴英語”。同時,引入人工智能評卷,有效地減少了人為因素的影響,提高了評卷效率。
二、英語聽說考試?yán)Ь惩粐?/p>
高考英語要不要考聽和說?這是個簡單的問題,答案也顯然是肯定的。但是,如果把考生人數(shù)放大到10萬人甚至近100萬人的數(shù)量級,要組織一場人人交互式的聽說考試,回答就不那么容易了。就算有足夠數(shù)量的考官,要保持幾百、幾千名考官在連續(xù)幾天,每天幾個小時的現(xiàn)場考試中,始終把握同一標(biāo)準(zhǔn)尺度,困難恐怕是難以想像的。橫向、縱向公平都難以保證。因此,必須借助現(xiàn)代信息技術(shù),在考試形式上尋求突破。
2013年前,北京教育考試院以“高考英語科目改革”為題立項(xiàng),組成由國內(nèi)知名專家領(lǐng)銜的課題組,對高考“英語聽說”內(nèi)容改革和測試方式進(jìn)行研究。研究歷時三年,重點(diǎn)調(diào)研了浙江、廣東兩省,分析了國內(nèi)外已有的若干種機(jī)考系統(tǒng)的利弊,并對高中生、大學(xué)生、高校教師、中學(xué)校長、中學(xué)一線英語老師等人群,發(fā)放3000多份調(diào)查問卷,征求其對通過“人機(jī)對話”方式來考核聽說能力的看法。當(dāng)時大家的認(rèn)識還不盡相同,贊同者不到半數(shù),具體如表1所示。
2014年,在“北京高考英語科目改革課題”研究的基礎(chǔ)上,北京教育考試院又承擔(dān)了市財(cái)政支持的“北京英語能力測試項(xiàng)目”,進(jìn)一步對機(jī)考的可行性進(jìn)行論證,命制試題并進(jìn)行了測試研究。先后于2014年1月、5月、7月進(jìn)行了3次英語聽說機(jī)考測試,測試涉及城區(qū)、郊區(qū)不同層次的19所高中學(xué)校,參加學(xué)生總數(shù)達(dá)到5100多人次,形成有關(guān)機(jī)考考場、考務(wù)管理、測試報(bào)告等方面的資料。研究發(fā)現(xiàn),此時社會對機(jī)考的接納程度有了很大提高,專家意見趨于統(tǒng)一。研究還完成了改革版考試說明初稿,為高考英語聽說機(jī)考改革打下了堅(jiān)實(shí)基礎(chǔ)。
2014—2016年,北京教育考試院參與信息產(chǎn)業(yè)部電子產(chǎn)業(yè)發(fā)展基金項(xiàng)目“智能語音技術(shù)及產(chǎn)品研發(fā)與產(chǎn)業(yè)化”研究,并為項(xiàng)目提供政策咨詢及戰(zhàn)略分析以及測試場地、機(jī)器設(shè)備等。同時還遴選參試人員,并組織測試。該研究認(rèn)為機(jī)考在技術(shù)上是可行的。
在完成了理論可行性、社會接受度、專家意見等方面的系統(tǒng)研究后,形成了三方面的共識:一是引導(dǎo)社會改變觀念,回歸語言的本質(zhì)屬性,把聽力考試從筆試中剝離出來,高考要考“說”;二是加大高考“聽說”比重,積極引導(dǎo)教學(xué),實(shí)行“聽說一體”“上機(jī)考試”的做法,提高考試的公平性;三是共享科技成果,改革考試的形式,重新設(shè)計(jì)試卷結(jié)構(gòu),確定科學(xué)的英語測量目標(biāo),探索人工智能評卷。
三、英語聽說考試設(shè)計(jì)關(guān)鍵突破
在進(jìn)行英語聽說機(jī)考考試設(shè)計(jì)的過程中,研究團(tuán)隊(duì)重點(diǎn)關(guān)注適用題型、試卷結(jié)構(gòu)、等值性等核心問題。
1.機(jī)考題型設(shè)計(jì)
經(jīng)過多輪的專家論證、小規(guī)模試測、大樣本測試,北京市最終確定的中考英語聽說機(jī)考題型包括:
聽后選擇:聽一段對話或獨(dú)白,考生聽后根據(jù)屏顯問題選擇最佳答案。
聽后回答:聽一段短對話,考生在聽后根據(jù)屏顯問題口頭回答問題并完成錄音。
聽后記錄:屏顯一個留有5個空白的筆記記錄表,考生聽兩遍短文,聽后用鍵盤輸入關(guān)鍵詞。
聽后轉(zhuǎn)述:考生聽同一段短文的三遍錄音,然后考生完成轉(zhuǎn)述并錄音。
聽后朗讀:屏顯一篇短文,給一定的準(zhǔn)備時間,然后考生完成短文朗讀并錄音。
過去三年的中考英語聽說機(jī)考實(shí)踐證明,以上題型比較適合當(dāng)前的機(jī)考模式。高考聽說機(jī)考題型與中考基本相同,但在能力要求等方面有所調(diào)整。
2.試卷結(jié)構(gòu)設(shè)計(jì)
在題型設(shè)計(jì)上,面臨的問題是采用聽和說完全分離,還是部分試題聽說融合,或是聽和說完全融合。經(jīng)過多輪研究,北京最終選擇了“部分分離、部分融合”的測試路徑,即同一套試題既包括單純的聽力試題和口語試題,也包括聽說相結(jié)合的試題
四、聽說考試環(huán)境重點(diǎn)保障
考試環(huán)境是考試施考的基本條件,也是確保考試公平的基礎(chǔ)。北京市從物質(zhì)基礎(chǔ)到管理措施兩個方面同時發(fā)力,為考生提供了一個平等、可靠、舒適的考試環(huán)境。
1.考試環(huán)境要求統(tǒng)一
北京市教委印發(fā)的《關(guān)于做好中、高考英語聽說計(jì)算機(jī)考試考點(diǎn)建設(shè)的通知》中,明確了全市考點(diǎn)建設(shè)的原則和主體責(zé)任。
北京教育考試院制定并發(fā)布的《北京市英語聽說機(jī)考考點(diǎn)建設(shè)標(biāo)準(zhǔn)》中,統(tǒng)一了設(shè)備技術(shù)要求。
由于是應(yīng)用于中考、高考這樣的高利害性考試,對考試環(huán)境和硬件的要求都應(yīng)當(dāng)是嚴(yán)格而統(tǒng)一的。北京沒有采用在原有機(jī)房上改造的辦法,而是要求按統(tǒng)一的標(biāo)準(zhǔn),建設(shè)全新的機(jī)考考場。
考試機(jī)配置為:四核CPU,主頻3.3Ghz以上(相當(dāng)于Intel i7性能);內(nèi)存4G以上;操作系統(tǒng)版本為Windows7或以上;主板自帶聲卡,也可以是獨(dú)立聲卡;顯示器自帶攝像頭或單獨(dú)配備攝像頭,攝像頭需支持人像追蹤功能,像素在不低于130萬。
耳機(jī):USB耳麥,自帶聲卡。雙指向駐極體式麥克風(fēng),具有單向拾音特性,聲源距離音孔50cm以上時麥克風(fēng)拾音效果迅速衰減。
卡座:專用桌椅,桌子左、右、前三邊帶隔音檔板,防止相鄰考生窺屏,減少聲音串?dāng)_。擋板高度1.2米,如兼顧日常教學(xué)使用,則采用可升降式檔板。
2.管理與技術(shù)協(xié)調(diào)統(tǒng)一
文件要求每個考點(diǎn)設(shè)置候考室、備考室,供考生考前使用。相鄰兩場考生出入場不交叉。
考試實(shí)行四重身份認(rèn)證,謹(jǐn)防替考。四重認(rèn)證分別是入校常規(guī)驗(yàn)證、入場指紋等生物識別、刷臉登錄考試和考中無感知抓取照片。
考試系統(tǒng)能提供換機(jī)登錄、斷點(diǎn)續(xù)考、轉(zhuǎn)場再考、擇日再考、下期重考等功能,并對考生每題答題用時等行為進(jìn)行后臺記錄,上傳到考務(wù)云平臺待用。
3.牢牢把控關(guān)鍵和重點(diǎn)
機(jī)考的關(guān)鍵技術(shù)環(huán)節(jié)有兩個:一是確保考試不能中斷;二是確保錄音質(zhì)量。這些功能由考試子系統(tǒng)來完成??荚囎酉到y(tǒng)要確保在復(fù)雜多變的考場環(huán)境中,采集到清晰完整的考生答題錄音,并能夠應(yīng)對停電、死機(jī)、噪聲過大等各類突發(fā)情況。
保證考試連續(xù)性的主要措施有:一是考場采用兩路供電,秒級切換;二是暫無雙路供電的, 協(xié)調(diào)供電部門備好應(yīng)急供電車,進(jìn)行熱備份;三是考場服務(wù)器(監(jiān)考機(jī))必須配備UPS,延時不少于30分鐘;四是考試系統(tǒng)自動檢測考試機(jī)網(wǎng)線、耳機(jī)的聯(lián)線情況,發(fā)生中斷立即報(bào)警,考試系統(tǒng)具備斷點(diǎn)續(xù)考功能。
確保錄音質(zhì)量的具體措施有:一是采用專用耳機(jī),嚴(yán)格執(zhí)行市里頒發(fā)的技術(shù)標(biāo)準(zhǔn),耳機(jī)為考試進(jìn)行特殊設(shè)計(jì)。例如:去掉音量調(diào)節(jié)鍵,防止考生誤操作;自帶聲卡,避免各計(jì)算機(jī)自帶聲卡帶來的差異;采用包耳式耳機(jī),以降低環(huán)境雜音的影響;采用高指向定向麥克風(fēng)(多個),智能降噪;設(shè)有三色警示燈,清晰提示耳機(jī)的工作狀態(tài)等。二是用智能音質(zhì)檢測技術(shù)對考生的語音數(shù)據(jù)進(jìn)行實(shí)時監(jiān)測,確保監(jiān)考機(jī)收回的語音數(shù)據(jù)物理參數(shù)(如音量、信噪比等)正確,及時發(fā)現(xiàn)截幅、音量過小、噪音過大、敲擊桌子等異常作答。如果音質(zhì)不合格,系統(tǒng)會提出警示,提醒監(jiān)考老師及時處理,判斷是否要進(jìn)行重考,避免到評卷時才發(fā)現(xiàn)音頻質(zhì)量不佳而造成工作被動。
北京市于2017年10月前完成了全市標(biāo)準(zhǔn)化機(jī)考考場的建設(shè)。共建成286個考點(diǎn)、634個考場、25342個考位。
五、人工智能助力試卷評閱
1.智能評分目標(biāo)
智能評分子系統(tǒng)的目標(biāo)是實(shí)現(xiàn)計(jì)算機(jī)對朗讀、聽后問答、復(fù)述、話題表達(dá)等主觀性試題的自動評分,其核心是智能口語評測技術(shù)。智能評測技術(shù)首先從考生數(shù)據(jù)中提取到反映口語發(fā)音的標(biāo)準(zhǔn)程度、正確性、語速、語氣、語調(diào)等物理特征;然后分析噪聲對各個物理特征的影響,通過累積分布函數(shù)匹配等規(guī)整化處理,建立從帶噪聲語音物理特征到干凈語音物理特征之間的映射,排除噪聲對打分特征的影響;最后收集大量的語音數(shù)據(jù),并由專家對數(shù)據(jù)進(jìn)行細(xì)致的定標(biāo),再用定標(biāo)的結(jié)果來訓(xùn)練計(jì)算機(jī)系統(tǒng),建立物理特征與人工評測間的高精度映射模型,最終實(shí)現(xiàn)機(jī)器智能評分。
2.智能評卷過程
人工智能評測主要分為以下幾個步驟:裸評與標(biāo)桿卷挑選、定標(biāo)抽樣、專家定標(biāo)、機(jī)器評分。
裸評與標(biāo)桿卷挑選:機(jī)器在未學(xué)習(xí)專家標(biāo)準(zhǔn)的情況下,以“機(jī)器人”標(biāo)準(zhǔn)初步運(yùn)算出考生的總成績,即為“裸評”,同時檢測出異常數(shù)據(jù)包。以“裸評”成績高低為標(biāo)準(zhǔn),按試卷、題型抽取一定比例的優(yōu)、中、差數(shù)據(jù),提供給定標(biāo)專家進(jìn)行培訓(xùn)學(xué)習(xí),掌握統(tǒng)一的評分標(biāo)準(zhǔn)。
定標(biāo)與樣卷抽樣:高、中、低分級抽樣。機(jī)器按一定的抽樣規(guī)則抽取一定量的樣本數(shù)據(jù),樣本數(shù)據(jù)在專家評分后提供給機(jī)器用于學(xué)習(xí)標(biāo)準(zhǔn)。抽樣方法是等距抽樣,即將總體“裸評”成績按一定順序排列,根據(jù)樣本容量要求確定抽選間隔,然后隨機(jī)確定起點(diǎn),每隔一定的間隔抽取一個單位。樣本容量存在動態(tài)調(diào)整,需依據(jù)考生的基數(shù)來確定。
專家定標(biāo):專家對樣卷進(jìn)行評判,將結(jié)果反饋給“機(jī)器人”。主要是由遴選的少量評分專家,對機(jī)器挑選的樣本數(shù)據(jù)按培訓(xùn)學(xué)習(xí)的統(tǒng)一標(biāo)準(zhǔn)進(jìn)行閱卷定標(biāo),并將樣本數(shù)據(jù)的評分結(jié)果提供給機(jī)器進(jìn)行學(xué)習(xí)。
機(jī)器評分:“機(jī)器人”按照專家的標(biāo)準(zhǔn),重新評判試卷。這里主要分為兩類題型:一類是朗讀題型。該類題型技術(shù)研究較早,目前已比較成熟,主要是按照語音、語調(diào)、流暢度、內(nèi)容完整度等特征進(jìn)行評測。另一類是口頭表達(dá)題型,比如聽后轉(zhuǎn)述,主要是將考生的作答識別成文本,然后提取文本內(nèi)容的相關(guān)特征,通過機(jī)器學(xué)習(xí)專家評分樣卷的方式進(jìn)行訓(xùn)練和評測。目前,這種半開放題型的評測效果可以和專家水平相當(dāng),已經(jīng)可以代替人工閱卷,但為確保準(zhǔn)確性和安全性,目前北京市采用“一人加一機(jī)”的評分方式。
3.智能評分效果
北京市英語聽說考試采用的方式為:首先全市統(tǒng)一機(jī)評,然后再分區(qū)進(jìn)行人工二評,當(dāng)機(jī)評、人評分?jǐn)?shù)超過閾值時,再由組長進(jìn)行三評。從近三年的數(shù)據(jù)情況來看,不同題型的三評率略有不同,平均三評率較低,人工智能評分表現(xiàn)出較好的效果。各區(qū)考試機(jī)構(gòu)、教研機(jī)構(gòu)都表示贊同,并希望逐步加大人工智能機(jī)器評卷的使用力度。
六、不斷探索人工智能應(yīng)用
雖然北京市對“人工智能助力中高考英語聽說機(jī)考”進(jìn)行了有益的探索,也取得了一些實(shí)質(zhì)性應(yīng)用成果,但技術(shù)的發(fā)展日新月異,教育考試公平公正的要求越來越高,科學(xué)技術(shù)的貢獻(xiàn)率還沒得到充分體現(xiàn)。在“新基建”的大環(huán)境下,考試招生現(xiàn)代化未來還有很長的路要走。
北京教育考試院于2020年聯(lián)合“科大訊飛”公司,申請了北京市教育科學(xué)“十三五”規(guī)劃優(yōu)先關(guān)注課題“AI在中高考英語聽說測評中的應(yīng)用研究”。該課題對人工智能評卷的關(guān)鍵技術(shù)及影響因素進(jìn)行了系統(tǒng)研究,力爭將研究成果實(shí)質(zhì)性應(yīng)用在近年高考英語聽說機(jī)考中,讓人工智能技術(shù)助力北京市教育考試招生制度的改革。
課題主要研究內(nèi)容包括以下六個方面:
1.中高考英語聽說機(jī)考測評效果對比
利用北京市中考英語聽說機(jī)考近三年的歷史數(shù)據(jù)以及后續(xù)兩年內(nèi)的實(shí)考數(shù)據(jù),在平均分、標(biāo)準(zhǔn)差、相關(guān)度、評分一致率等多個維度上,對智能評分結(jié)果和人工評閱結(jié)果對比分析。通過對拒評數(shù)據(jù)的研究,從算法處理、數(shù)據(jù)采集以及評卷質(zhì)量監(jiān)控等方面提出優(yōu)化建議。
2.考試環(huán)境對測評結(jié)果的影響及應(yīng)對策略
主要研究:機(jī)考系統(tǒng)與云桌面機(jī)房的適配性;軟硬件設(shè)備、音頻采集方式、網(wǎng)絡(luò)等考試環(huán)境對數(shù)據(jù)采集質(zhì)量的影響;特殊情況下(如佩戴口罩)進(jìn)行考試對機(jī)評結(jié)果的影響。從成功考試案例中汲取經(jīng)驗(yàn)、提煉模式,探索大規(guī)模遠(yuǎn)程考試的可行性。
3.中考英語聽說機(jī)考雙機(jī)評分的可行性
主要研究:不同智能評分引擎驅(qū)動下,智能評卷的評測效果比對;不同測評模式下,定標(biāo)集選取的策略,比如在沒有專家評分前提下,如何利用普通評卷教師的評分?jǐn)?shù)據(jù)選取定標(biāo)集合;探索采用智能評分模式時規(guī)避系統(tǒng)性風(fēng)險(xiǎn)的方法;探究“雙機(jī)評+人工仲裁”模式。
4.英語聽說機(jī)考關(guān)鍵技術(shù)實(shí)證研究
針對北京地區(qū)中高考英語聽說考試的機(jī)考流程、題型特點(diǎn)以及機(jī)評流程,驗(yàn)證機(jī)評技術(shù)提供方“科大訊飛”最新研發(fā)的關(guān)鍵技術(shù)的應(yīng)用效果。具體包括:在機(jī)考流程中,驗(yàn)證語音音質(zhì)檢測技術(shù),提升機(jī)考過程的異常錄音檢出率,大幅度降低機(jī)考流程風(fēng)險(xiǎn);根據(jù)題型特點(diǎn),驗(yàn)證多系統(tǒng)融合技術(shù)、聲學(xué)模型和語言模型無監(jiān)督自適應(yīng)技術(shù)、高區(qū)分度朗讀題型評分技術(shù)、多特征技術(shù)等評測新技術(shù);在機(jī)評流程中,驗(yàn)證依靠GPU算力提升機(jī)評速度的途徑。
5.非語言交際維度相關(guān)信息的采集方式與應(yīng)用
充分發(fā)揮標(biāo)準(zhǔn)化聽說考場計(jì)算機(jī)配備的前置攝像頭的作用,記錄考生在考試過程中的嘴唇動作、頭部姿態(tài)、面部表情等非言語行為,構(gòu)成視頻模態(tài)信息,與學(xué)生語音模態(tài)信息一起形成學(xué)生答題多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)的應(yīng)用包括兩個方面:①相對單一語音錄音數(shù)據(jù),融合唇部動作的計(jì)算機(jī)視覺信息記錄,有可能提升異常錄音的檢測效果;②融合唇部動作的視覺模型分析能力,有可能提升帶噪錄音的語音識別準(zhǔn)確率。
6.中高考英語聽說機(jī)考信息安全監(jiān)管框架
本研究基于現(xiàn)行考試組織流程,對網(wǎng)絡(luò)傳輸、加密運(yùn)算、云存儲等技術(shù)的應(yīng)用進(jìn)行探索,并提出英語聽說機(jī)考平臺的安全監(jiān)管框架,確保數(shù)據(jù)和算法使用合規(guī)、合理、透明和可審核,保障數(shù)據(jù)安全。
本研究的落腳點(diǎn)是:將研究成果轉(zhuǎn)化為生產(chǎn)力,從考試環(huán)境、考試平臺、考試管理、答卷評判等方面制定實(shí)施策略,形成完備的北京市高考英語聽說機(jī)考實(shí)施方案和技術(shù)策略。
七、結(jié)語
人工智能在網(wǎng)上閱卷的質(zhì)量控制(檢出空白卷、雷同卷、作文抄寫題干等)方面,已得到較為充分的應(yīng)用。同時,國內(nèi)考試機(jī)構(gòu)也進(jìn)行了人工智能評閱主觀題、英文作文題、漢語作文題的研究,但都未進(jìn)入實(shí)質(zhì)性應(yīng)用階段。在全國英語四、六級考試的口語考試中,采用了機(jī)器評閱。相比之下,在中高考英語學(xué)科的聽說考試中,北京是第一個采用機(jī)器評分的城市。研究還在進(jìn)行,檢索永不止步,筆者將進(jìn)行更深入的實(shí)證研究,通過大量語料,訓(xùn)練出更加智能的評分機(jī)器人,進(jìn)一步提升評卷的效率和質(zhì)量。
參考文獻(xiàn):
[1]汪張龍.人工智能技術(shù)在考試中的應(yīng)用[J].中國考試,2017(11):30-36.
[2]何屹松等.人工智能測評技術(shù)在大規(guī)模英文作文閱卷中的應(yīng)用探索[J].中國考試,2018(6):63-71.
[3]何屹松等.新一代智能網(wǎng)上證券系統(tǒng)的技術(shù)實(shí)現(xiàn)及在高考網(wǎng)評中的應(yīng)用實(shí)例分析[J].中國考試,2019(6):57-65.
[4]北京教育考試院.高考英語能力試測研究成果匯編[R].北京:內(nèi)部資料,2015.
[5]北京教育考試院.中高考英語改革研究暨北京市中高考英語機(jī)考系統(tǒng)建設(shè)項(xiàng)目成果匯編[R].北京:內(nèi)部資料,2017.
(編輯:王曉明)