崔冬
建造師執(zhí)業(yè)資格考試是建筑行業(yè)的重要考試之一,近年來(lái)報(bào)考人數(shù)達(dá)到百萬(wàn)之眾??荚囬喚砉ぷ髟诠健⒐?、安全的前提下有序、高效地開(kāi)展才能保障每名考生的權(quán)益。主觀題閱卷工作量大,工作流程復(fù)雜,持續(xù)時(shí)間長(zhǎng)。利用人工智能技術(shù)開(kāi)展智能化閱卷工作能夠大大節(jié)約社會(huì)資源,提高閱卷工作效率。本文分析了建造師考試的特點(diǎn)以及采用智能化閱卷的可能性,在二級(jí)建造師考試主觀題人工雙評(píng)模式閱卷工作結(jié)束后采用智能化閱卷進(jìn)行了輔助質(zhì)檢,并將智能化閱卷結(jié)果與人工閱卷結(jié)果進(jìn)行對(duì)比分析。結(jié)果表明,智能化閱卷與人工閱卷的一致性較高,可以為人工閱卷提供有效的質(zhì)量監(jiān)控。
人工智能技術(shù)是一門(mén)利用計(jì)算機(jī)模擬人類(lèi)智能行為科學(xué)的統(tǒng)稱(chēng),它涵蓋了訓(xùn)練計(jì)算機(jī)使用其完成自主學(xué)習(xí)、判斷決策等人類(lèi)行為的范疇。人工智能技術(shù)在信息處理等方面的應(yīng)用已經(jīng)非常廣泛,文字和語(yǔ)音識(shí)別、人工智能應(yīng)答等應(yīng)用隨處可見(jiàn)。在我國(guó)各類(lèi)升學(xué)考試、職業(yè)技能類(lèi)考試參與人數(shù)迅猛增長(zhǎng),主觀題閱卷工作的面臨著極大的挑戰(zhàn),閱卷規(guī)模不斷擴(kuò)大,投入的人力、物力也在不斷增加。我國(guó)在國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃中明確提出,要利用人工智能技術(shù)對(duì)社會(huì)資源進(jìn)行優(yōu)化整合。教育領(lǐng)域、職業(yè)技能類(lèi)等考試的主觀題閱卷大規(guī)模閱卷工作可以利用人工智能技術(shù)開(kāi)展智能化閱卷工作。開(kāi)展智能化閱卷可以提高閱卷工作效率,提升保密安全性,優(yōu)化社會(huì)資源配置,綠色節(jié)能環(huán)保,更好的保障考試的公平、公正。
最早對(duì)于人工智能技術(shù)運(yùn)用將在考試評(píng)分工作是2005年美國(guó)教育考試服務(wù)中心利用作文自動(dòng)評(píng)分系統(tǒng)進(jìn)行托??荚嚨淖魑脑u(píng)分。我國(guó)對(duì)于利用人工智能技術(shù)進(jìn)行主觀題考試閱卷工作的研究的起步相對(duì)較晚,發(fā)展至今,已經(jīng)有在高考英語(yǔ)作文、語(yǔ)文作文等考試中作為質(zhì)檢手段進(jìn)行應(yīng)用,人工評(píng)分和人工智能評(píng)分一致率達(dá)到90%以上。職業(yè)技能類(lèi)考試有全國(guó)中級(jí)會(huì)計(jì)師考試、消防工程師采用了智能化閱卷作為正式評(píng)卷手段進(jìn)行評(píng)分。在考試閱卷的工作領(lǐng)域中,智能化閱卷在技術(shù)上已經(jīng)具備了一定的基礎(chǔ)。
建造師是從事建設(shè)工程項(xiàng)目總承包和施工管理關(guān)鍵崗位的執(zhí)業(yè)注冊(cè)人員,建造師是掌握管理、技術(shù)、經(jīng)濟(jì)、法規(guī)多方面技術(shù)的綜合型技術(shù)人員,既要具備相關(guān)的理論知識(shí),又要有現(xiàn)場(chǎng)實(shí)踐經(jīng)驗(yàn)和組織管理能力。建造師必須通過(guò)執(zhí)業(yè)資格考試獲得資格并注冊(cè),才能擔(dān)任施工管理的項(xiàng)目施工負(fù)責(zé)人或其他符合法律規(guī)定的業(yè)務(wù)活動(dòng)。建造師作為建筑行業(yè)發(fā)展的中堅(jiān)力量,建造師執(zhí)業(yè)資格考試作為建筑行業(yè)準(zhǔn)入類(lèi)考試,需要把握好人才選拔的標(biāo)準(zhǔn)。
建造師執(zhí)業(yè)資格考試分為綜合知識(shí)與能力和專(zhuān)業(yè)知識(shí)與能力兩個(gè)部分,其中,一級(jí)建造師的專(zhuān)業(yè)知識(shí)與能力共劃分為10個(gè)專(zhuān)業(yè)類(lèi)別,二級(jí)建造師的專(zhuān)業(yè)知識(shí)與能力共劃分為6個(gè)專(zhuān)業(yè)類(lèi)別。綜合知識(shí)與能力考試題型為客觀選擇題,專(zhuān)業(yè)知識(shí)與能力考試題型分為客觀選擇題和實(shí)務(wù)操作與案例分析題。實(shí)務(wù)操作與案例分析題考核內(nèi)容以考察施工現(xiàn)場(chǎng)實(shí)踐經(jīng)驗(yàn)為主要目的,從多方面檢驗(yàn)考生的知識(shí)結(jié)構(gòu)和能力。每道實(shí)務(wù)操作與案例分析題包含多個(gè)問(wèn)題,根據(jù)建筑、市政、水利等各個(gè)不同專(zhuān)業(yè)類(lèi)別需要的知識(shí)儲(chǔ)備進(jìn)行考核。考核的建設(shè)工程知識(shí)能力分層次遞進(jìn)。作答內(nèi)容包括文字論述、復(fù)雜公式計(jì)算、作圖等多種類(lèi)型。
建造師執(zhí)業(yè)資格考試近年來(lái)報(bào)名人數(shù)都達(dá)到百萬(wàn)人以上。建造師執(zhí)業(yè)資格考試采取人工雙評(píng)閱卷模式,主觀題閱卷工作量極大。建造師執(zhí)業(yè)資格考試的主觀題目考生作答字?jǐn)?shù)較多,每道大題的作答字?jǐn)?shù)在都在百字以上,且書(shū)寫(xiě)字跡遠(yuǎn)不如高考考生的工整、好辨認(rèn)。人工閱卷工作需要在考生作答的海量?jī)?nèi)容中篩選出有效信息,并在專(zhuān)業(yè)范圍內(nèi)判斷考生作答內(nèi)容的科學(xué)性和邏輯性是否與標(biāo)準(zhǔn)答案一致。閱卷工作枯燥繁瑣,且工作持續(xù)時(shí)間長(zhǎng),以一級(jí)建造師考試為例,閱卷工作時(shí)長(zhǎng)至少三周。閱卷工作不僅要保障準(zhǔn)確率,同時(shí)還要做好各項(xiàng)安全保密措施。
人工智能技術(shù)通過(guò)深度學(xué)習(xí)能力模仿人工閱卷?,F(xiàn)今,少數(shù)有關(guān)考試采用智能化閱卷的研究已經(jīng)取得了一定成果,但針對(duì)作答內(nèi)容較為復(fù)雜的建造師執(zhí)業(yè)資格考試的主觀題閱卷工作適用程度尚未可知。本文在與建造師考試主觀題題型和作答類(lèi)型相近的考試中,選取已經(jīng)采用智能化閱卷作為正式評(píng)卷員之一職業(yè)技能考試—全國(guó)中級(jí)會(huì)計(jì)師考試與建造師考試進(jìn)行比較。建造師考試題型和作答內(nèi)容在影響智能化閱卷實(shí)施效果的關(guān)鍵技術(shù)節(jié)點(diǎn)上依然很多不同之處:
(1)考試題型不同:會(huì)計(jì)考試題目不含作圖題目,近年一級(jí)、二級(jí)建造師考試部分科目中含有進(jìn)度計(jì)劃網(wǎng)絡(luò)圖、關(guān)系繪制等作圖要求;
(2)作答內(nèi)容復(fù)雜:會(huì)計(jì)考試提問(wèn)針對(duì)性強(qiáng),建造師考試考核內(nèi)容廣泛,作答內(nèi)容層次多,可能包含多個(gè)工作順序或者多個(gè)計(jì)算步驟;
(3)評(píng)判標(biāo)準(zhǔn)不同:會(huì)計(jì)考試計(jì)算題答案唯一,建造師考試計(jì)算題適用公式不唯一,計(jì)算最終結(jié)果也可能不唯一。某些建設(shè)工程知識(shí)名稱(chēng)不唯一,工作順序不唯一,或者某些工程問(wèn)題現(xiàn)場(chǎng)有多種處理辦法導(dǎo)致答案都不唯一。
與已經(jīng)采用智能化閱卷的全國(guó)中級(jí)會(huì)計(jì)師考試不同,建造師考試實(shí)施智能化閱卷還需對(duì)閱卷的適用性和閱卷效果進(jìn)行檢驗(yàn)。
2021年度云南省開(kāi)展了二級(jí)建造師執(zhí)業(yè)資格考試計(jì)算機(jī)化考試。計(jì)算機(jī)考試作答方式減少了智能化閱卷工作的開(kāi)展技術(shù)上的困難,消除了由識(shí)別于作答字跡帶來(lái)的誤差。
本次考試的專(zhuān)業(yè)科目主觀題考核作答內(nèi)容包括文字論述、工程計(jì)算、工作順序等。智能化閱卷工作是在人工雙評(píng)模式閱卷工作完成后作為輔助質(zhì)量檢測(cè)開(kāi)展的。
結(jié)合二級(jí)建造師的現(xiàn)有的閱卷工作流程,智能化閱卷的工作流程如下:
(1)接收基礎(chǔ)數(shù)據(jù):接收經(jīng)過(guò)保密處理的考生編碼和考生作答信息,進(jìn)行數(shù)據(jù)檢驗(yàn)和核查。
(2)接收人工閱卷?yè)?jù):接收部分由人工產(chǎn)生的閱卷數(shù)據(jù),進(jìn)行數(shù)據(jù)校驗(yàn)。
(3)樣本選擇和模型訓(xùn)練:從產(chǎn)生人工閱卷的樣本中抽取訓(xùn)練樣本,抽選的樣本按不同分?jǐn)?shù)段抽取有代表性的樣本進(jìn)行多模型訓(xùn)練,在驗(yàn)證集上進(jìn)行模型優(yōu)選。
(4)智能化閱卷:利用優(yōu)選的模型對(duì)考生作答內(nèi)容進(jìn)行評(píng)分,形成智能化閱卷評(píng)分?jǐn)?shù)據(jù)。
(5)提交復(fù)合卷:將智能化閱卷評(píng)分?jǐn)?shù)據(jù)反饋至專(zhuān)家組進(jìn)行復(fù)審。
(6)統(tǒng)計(jì)分析:對(duì)全部考生數(shù)據(jù)的智能化閱卷評(píng)分?jǐn)?shù)據(jù)、人工閱卷數(shù)據(jù)進(jìn)行綜合分析,形成智能化閱卷報(bào)告。
以二級(jí)建造師計(jì)算機(jī)化考試答卷作為智能化閱卷軟件的閱卷能力進(jìn)行檢測(cè),針對(duì)閱卷時(shí)長(zhǎng)、閱卷信度、閱卷準(zhǔn)確度等方面進(jìn)行分析對(duì)比。本次測(cè)試的試卷份數(shù)約5萬(wàn)份,包含五個(gè)專(zhuān)業(yè)科目約20萬(wàn)道試題。
(1)閱卷時(shí)長(zhǎng)
智能化閱卷選取模型訓(xùn)練樣本,訓(xùn)練完成后進(jìn)行正式閱卷。單科目約4萬(wàn)道試題從模型訓(xùn)練到完成閱卷需要大約2小時(shí);多科目閱卷工作可同時(shí)進(jìn)行,20萬(wàn)道試題單評(píng)模式閱卷花費(fèi)時(shí)長(zhǎng)約3~4小時(shí),雙評(píng)模式不超過(guò)8小時(shí)。相同的工作采用人工閱卷雙評(píng)模式的工作時(shí)長(zhǎng)約為23小時(shí)。采用智能化閱卷的工作時(shí)間大大縮短,不到人工閱卷花費(fèi)時(shí)間的一半,效率非常高。人工閱卷工作中由于試卷量大導(dǎo)致工作持續(xù)長(zhǎng),不可避免地帶來(lái)評(píng)分準(zhǔn)確率下降和效率降低等問(wèn)題。采用智能化閱卷輔助閱卷工作能夠幫助避免以上問(wèn)題的發(fā)生。
(2)閱卷信度分析
信度是指測(cè)量結(jié)果的穩(wěn)定性程度。使用同一工具反復(fù)測(cè)量,多次測(cè)量結(jié)果間的一致性就被稱(chēng)為信度。信度高的測(cè)量是不因操作者或者操作時(shí)間等方面發(fā)生變化而使得測(cè)量結(jié)果發(fā)生較大變化。
評(píng)分者間信度是指多個(gè)評(píng)分者對(duì)同一批考生的答卷進(jìn)行評(píng)分的一致性程度。智能化閱卷的信度高,則說(shuō)明智能化閱卷與人工閱卷的評(píng)分一致性較高時(shí),能夠說(shuō)明智能化閱卷已經(jīng)成功掌握標(biāo)準(zhǔn)答案和評(píng)分規(guī)則,已經(jīng)具備正式閱卷工作的評(píng)分能力。
本文將基于經(jīng)典測(cè)量理論選擇評(píng)分者信度的測(cè)量方法,根據(jù)評(píng)分人數(shù)、數(shù)據(jù)類(lèi)型選擇Spearman相關(guān)和Pearson積差相關(guān)進(jìn)行智能化閱卷的評(píng)分信度進(jìn)行測(cè)量。本文采用SPSS軟件針對(duì)五個(gè)專(zhuān)業(yè)科目的四道主觀題智能化閱卷評(píng)分值和人工閱卷評(píng)分值進(jìn)行了數(shù)據(jù)分析,結(jié)果如圖1所示。
圖1 五科目Spearman相關(guān)和Pearson積差數(shù)據(jù)
由圖1可得知,五個(gè)實(shí)務(wù)科目的Spearman相關(guān)和Pearson積差數(shù)值均在0.9以上。當(dāng)數(shù)值越接近1時(shí),智能化閱卷和人工閱卷的評(píng)分一致性越高。
由人工閱卷與智能化閱卷的各分?jǐn)?shù)段評(píng)分分布的情況也能夠直觀的看出,智能化閱卷和人工閱卷的評(píng)分趨勢(shì)非常接近,一致性高。
圖2 科目1各分?jǐn)?shù)段評(píng)分分布圖
圖3 科目2各分?jǐn)?shù)段評(píng)分分布
圖4 科目3各分?jǐn)?shù)段評(píng)分分布
圖5 科目4各分?jǐn)?shù)段評(píng)分分布
圖6 科目5各分?jǐn)?shù)段評(píng)分分布
(3)閱卷準(zhǔn)確度
某實(shí)務(wù)科目的主觀題共四道題目,每題20分。以5000份人工評(píng)分作為學(xué)習(xí)樣本,共計(jì)11750份試卷,4×11750=47000道題。以10%(2分)的誤差率進(jìn)行控制。
四道題的智能化閱卷與人工閱卷的2分差以內(nèi)的評(píng)分一致率分別為:97.02%、98.15%、94.73%、99.06%。智能化閱卷與人工閱卷的分差統(tǒng)計(jì)如表1所示:
表1 智能化閱卷與人工閱卷分差統(tǒng)計(jì)
以10%(2分)作為誤差控制的情況下,智能化閱卷與人工閱卷的分差最大分差7分,僅有3例。出現(xiàn)智能化閱卷與人工閱卷分差大于誤差限值時(shí),人工智能評(píng)卷系統(tǒng)將提示進(jìn)行評(píng)卷復(fù)檢。下面針對(duì)同一題目人工閱卷和智能化閱卷評(píng)出的不同分值進(jìn)行分析。
①分差分析
從表1中可以看出其中題目三的“分差>2分”一欄的百分比較其他題目高,分析其原因包括以下幾點(diǎn):
a.該題目采分點(diǎn)較多;
b.該題目每個(gè)采分點(diǎn)分值高,智能化閱卷與人工閱卷評(píng)分不同時(shí),分差也更大;
c.訓(xùn)練模型問(wèn)題,針對(duì)該題目作答內(nèi)容模型無(wú)法捕捉到重要得分點(diǎn)的有效特征,出現(xiàn)錯(cuò)評(píng);
d.該題目評(píng)分規(guī)則比較復(fù)雜,難以形成較為統(tǒng)一的評(píng)分標(biāo)準(zhǔn)。
由以上幾點(diǎn)分析可以看出,智能化閱卷的訓(xùn)練模型需要根據(jù)考試作答特點(diǎn),增加訓(xùn)練模型中習(xí)得多種、復(fù)雜評(píng)分規(guī)則的能力;在判斷得分方面不局限于個(gè)別關(guān)鍵詞語(yǔ),不依賴于語(yǔ)句順序。
②誤評(píng)分析
針對(duì)該科目閱卷工作中智能化閱卷和人工閱卷產(chǎn)生的分差,對(duì)產(chǎn)生分差的題目進(jìn)行復(fù)檢。在復(fù)檢過(guò)程中,將存在的幾種誤評(píng)類(lèi)型總結(jié)如下。
a.智能化閱卷與人工閱卷都錯(cuò)誤:
該題包括兩問(wèn),共6分。本題目智能化閱卷與人工閱卷零分差率達(dá)到97.37%。該題目的評(píng)分對(duì)比如表2所示:
表2 考生作答評(píng)分情況對(duì)比1
按照標(biāo)準(zhǔn)答案,該考生作答內(nèi)容應(yīng)得4分;智能化閱卷與人工閱卷評(píng)分都不正確,需要修正考生得分。
b.人工閱卷錯(cuò)誤:
該題共一問(wèn),共1分,零分差率達(dá)到99.06%。
表3 考生作答評(píng)分情況對(duì)比2
按照標(biāo)準(zhǔn)答案,該考生作答內(nèi)容應(yīng)得1分,需要修正考生得分。
c.智能化閱卷錯(cuò)誤:
該題共兩問(wèn),共6分,零分差率達(dá)到92.62%。
表4 考生作答評(píng)分情況對(duì)比3
按照標(biāo)準(zhǔn)答案,該考生作答內(nèi)容應(yīng)得0分。
根據(jù)智能化閱卷的情況,智能化閱卷產(chǎn)生錯(cuò)誤的原因可能是:模型訓(xùn)練樣本數(shù)量少,訓(xùn)練程度不夠;評(píng)分邏輯復(fù)雜,模型學(xué)習(xí)效果不能實(shí)現(xiàn)復(fù)雜評(píng)分規(guī)則;模型對(duì)考生作答內(nèi)容“理解”錯(cuò)誤。
智能化閱卷作為人工閱卷的質(zhì)檢手段可以很好地檢查錯(cuò)誤評(píng)分情況。人工閱卷采用雙評(píng)模式作為減少錯(cuò)誤評(píng)卷控制的手段,但題目分值較低時(shí),雙評(píng)模式對(duì)低分值的錯(cuò)誤或誤差感知不明顯,智能化閱卷作為質(zhì)檢手段可以很好地幫助減少錯(cuò)誤評(píng)卷。
智從本次閱卷工作看出,能化閱卷優(yōu)勢(shì)非常顯著:
(1)智能化閱卷速度快,工作效率高,大大減少人工閱卷的人力物力投入。
(2)智能化閱卷與人工閱卷一致性高,已經(jīng)具備正式閱卷工作的評(píng)分能力。
(3)智能化閱卷錯(cuò)誤率低,能夠感知低分值評(píng)分錯(cuò)誤,更好地保障考試的公平、公正。
(4)閱卷工作是一項(xiàng)保密工作,標(biāo)準(zhǔn)答案、評(píng)分標(biāo)準(zhǔn)以及考生作答內(nèi)容等都需要嚴(yán)格保密,采用智能化閱卷能夠嚴(yán)格控制保密內(nèi)容的知悉范圍,保密安全能夠得到有效控制。
智能化閱卷智有明顯的工作特點(diǎn)和適用范圍:
(1)能評(píng)卷適用范圍有數(shù)量限制,數(shù)量太少不適用智能評(píng)卷。本次評(píng)卷數(shù)量約5萬(wàn)份,約20萬(wàn)道題目。評(píng)分題目數(shù)量較少,出現(xiàn)的問(wèn)題也比較少。在將來(lái)建造師考試的大規(guī)模試卷閱卷工作還應(yīng)進(jìn)行測(cè)評(píng)和調(diào)整,以發(fā)現(xiàn)更多的問(wèn)題。
(2)作為訓(xùn)練模型的初始樣本篩選很重要。保留各個(gè)不同分?jǐn)?shù)段的得分樣本之外,還應(yīng)針對(duì)不同評(píng)分人群以及篩除誤評(píng)樣本之后在進(jìn)行正式閱卷。正確的、多樣的、優(yōu)秀的樣本才能在將模型訓(xùn)練成為一個(gè)擁有一定判別能力的合格 “閱卷員”。否則,模型就是一個(gè)拿著錯(cuò)誤答案的“閱卷員”,無(wú)法公正共公平的完成閱卷工作。用于模型訓(xùn)練的初始樣本數(shù)量最小值和樣本篩選規(guī)則需要在技術(shù)上有更新的突破才能更廣泛的適用于閱卷工作。
適用于建造師考試閱卷工作的智能評(píng)卷模型需要有進(jìn)一步調(diào)整,首先要進(jìn)一步準(zhǔn)確“掌握”評(píng)分規(guī)則。除了對(duì)作答內(nèi)容的科學(xué)性、邏輯性等內(nèi)容進(jìn)行判斷之外,還應(yīng)包括在評(píng)判正確、錯(cuò)誤之后的比較復(fù)雜的賦分規(guī)則。
其次,現(xiàn)今智能化閱卷尚未實(shí)現(xiàn)作圖題目的閱卷功能。建造師的考試是與工程實(shí)踐相結(jié)合的考核,需要對(duì)考生有作圖方面的綜合能力進(jìn)行考核。智能化閱卷需要在該方面的技術(shù)有待研究。
除此之外,智能化閱卷的訓(xùn)練模型無(wú)法完成建設(shè)工程行業(yè)知識(shí)、規(guī)范和標(biāo)準(zhǔn)的深層次內(nèi)容的累計(jì),模型訓(xùn)練的每次學(xué)習(xí)從“零”開(kāi)始。如果訓(xùn)練模型可以針對(duì)題目選擇保留知識(shí)內(nèi)容或者一直累知識(shí),只清零賦分規(guī)則,則非常有利于復(fù)雜問(wèn)題的評(píng)判。
人工閱卷工作在面對(duì)大規(guī)??荚嚂r(shí)候需要消耗大量的社會(huì)資源,智能化閱卷能夠很好的輔助閱卷工作,甚至成為正式閱卷的評(píng)卷員之一。推進(jìn)智能化閱卷的應(yīng)用將在主觀題閱卷工作中大大降低安全保密、人力、物力、方面的支出,更加綠色環(huán)保,更加高效,優(yōu)化社會(huì)資源配置,更好的保障考試的公平、公正。