基于人工智能技術(shù)的二級(jí)建造師執(zhí)業(yè)資格考試智能化閱卷研究

2023-04-05 14:17:28崔冬

中華建設(shè) 2023年4期

崔冬

建造師執(zhí)業(yè)資格考試是建筑行業(yè)的重要考試之一，近年來(lái)報(bào)考人數(shù)達(dá)到百萬(wàn)之眾?？荚囬喚砉ぷ髟诠健⒐?、安全的前提下有序、高效地開(kāi)展才能保障每名考生的權(quán)益。主觀題閱卷工作量大，工作流程復(fù)雜，持續(xù)時(shí)間長(zhǎng)。利用人工智能技術(shù)開(kāi)展智能化閱卷工作能夠大大節(jié)約社會(huì)資源，提高閱卷工作效率。本文分析了建造師考試的特點(diǎn)以及采用智能化閱卷的可能性，在二級(jí)建造師考試主觀題人工雙評(píng)模式閱卷工作結(jié)束后采用智能化閱卷進(jìn)行了輔助質(zhì)檢，并將智能化閱卷結(jié)果與人工閱卷結(jié)果進(jìn)行對(duì)比分析。結(jié)果表明，智能化閱卷與人工閱卷的一致性較高，可以為人工閱卷提供有效的質(zhì)量監(jiān)控。

一、智能化閱卷發(fā)展情況

人工智能技術(shù)是一門(mén)利用計(jì)算機(jī)模擬人類(lèi)智能行為科學(xué)的統(tǒng)稱(chēng)，它涵蓋了訓(xùn)練計(jì)算機(jī)使用其完成自主學(xué)習(xí)、判斷決策等人類(lèi)行為的范疇。人工智能技術(shù)在信息處理等方面的應(yīng)用已經(jīng)非常廣泛，文字和語(yǔ)音識(shí)別、人工智能應(yīng)答等應(yīng)用隨處可見(jiàn)。在我國(guó)各類(lèi)升學(xué)考試、職業(yè)技能類(lèi)考試參與人數(shù)迅猛增長(zhǎng)，主觀題閱卷工作的面臨著極大的挑戰(zhàn)，閱卷規(guī)模不斷擴(kuò)大，投入的人力、物力也在不斷增加。我國(guó)在國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃中明確提出，要利用人工智能技術(shù)對(duì)社會(huì)資源進(jìn)行優(yōu)化整合。教育領(lǐng)域、職業(yè)技能類(lèi)等考試的主觀題閱卷大規(guī)模閱卷工作可以利用人工智能技術(shù)開(kāi)展智能化閱卷工作。開(kāi)展智能化閱卷可以提高閱卷工作效率，提升保密安全性，優(yōu)化社會(huì)資源配置，綠色節(jié)能環(huán)保，更好的保障考試的公平、公正。

最早對(duì)于人工智能技術(shù)運(yùn)用將在考試評(píng)分工作是2005年美國(guó)教育考試服務(wù)中心利用作文自動(dòng)評(píng)分系統(tǒng)進(jìn)行托?？荚嚨淖魑脑u(píng)分。我國(guó)對(duì)于利用人工智能技術(shù)進(jìn)行主觀題考試閱卷工作的研究的起步相對(duì)較晚，發(fā)展至今，已經(jīng)有在高考英語(yǔ)作文、語(yǔ)文作文等考試中作為質(zhì)檢手段進(jìn)行應(yīng)用，人工評(píng)分和人工智能評(píng)分一致率達(dá)到90%以上。職業(yè)技能類(lèi)考試有全國(guó)中級(jí)會(huì)計(jì)師考試、消防工程師采用了智能化閱卷作為正式評(píng)卷手段進(jìn)行評(píng)分。在考試閱卷的工作領(lǐng)域中，智能化閱卷在技術(shù)上已經(jīng)具備了一定的基礎(chǔ)。

二、建造師考試

1. 建造師考試情況

建造師是從事建設(shè)工程項(xiàng)目總承包和施工管理關(guān)鍵崗位的執(zhí)業(yè)注冊(cè)人員，建造師是掌握管理、技術(shù)、經(jīng)濟(jì)、法規(guī)多方面技術(shù)的綜合型技術(shù)人員，既要具備相關(guān)的理論知識(shí)，又要有現(xiàn)場(chǎng)實(shí)踐經(jīng)驗(yàn)和組織管理能力。建造師必須通過(guò)執(zhí)業(yè)資格考試獲得資格并注冊(cè)，才能擔(dān)任施工管理的項(xiàng)目施工負(fù)責(zé)人或其他符合法律規(guī)定的業(yè)務(wù)活動(dòng)。建造師作為建筑行業(yè)發(fā)展的中堅(jiān)力量，建造師執(zhí)業(yè)資格考試作為建筑行業(yè)準(zhǔn)入類(lèi)考試，需要把握好人才選拔的標(biāo)準(zhǔn)。

建造師執(zhí)業(yè)資格考試分為綜合知識(shí)與能力和專(zhuān)業(yè)知識(shí)與能力兩個(gè)部分，其中，一級(jí)建造師的專(zhuān)業(yè)知識(shí)與能力共劃分為10個(gè)專(zhuān)業(yè)類(lèi)別，二級(jí)建造師的專(zhuān)業(yè)知識(shí)與能力共劃分為6個(gè)專(zhuān)業(yè)類(lèi)別。綜合知識(shí)與能力考試題型為客觀選擇題，專(zhuān)業(yè)知識(shí)與能力考試題型分為客觀選擇題和實(shí)務(wù)操作與案例分析題。實(shí)務(wù)操作與案例分析題考核內(nèi)容以考察施工現(xiàn)場(chǎng)實(shí)踐經(jīng)驗(yàn)為主要目的，從多方面檢驗(yàn)考生的知識(shí)結(jié)構(gòu)和能力。每道實(shí)務(wù)操作與案例分析題包含多個(gè)問(wèn)題，根據(jù)建筑、市政、水利等各個(gè)不同專(zhuān)業(yè)類(lèi)別需要的知識(shí)儲(chǔ)備進(jìn)行考核。考核的建設(shè)工程知識(shí)能力分層次遞進(jìn)。作答內(nèi)容包括文字論述、復(fù)雜公式計(jì)算、作圖等多種類(lèi)型。

2. 建造師考試閱卷

建造師執(zhí)業(yè)資格考試近年來(lái)報(bào)名人數(shù)都達(dá)到百萬(wàn)人以上。建造師執(zhí)業(yè)資格考試采取人工雙評(píng)閱卷模式，主觀題閱卷工作量極大。建造師執(zhí)業(yè)資格考試的主觀題目考生作答字?jǐn)?shù)較多，每道大題的作答字?jǐn)?shù)在都在百字以上，且書(shū)寫(xiě)字跡遠(yuǎn)不如高考考生的工整、好辨認(rèn)。人工閱卷工作需要在考生作答的海量?jī)?nèi)容中篩選出有效信息，并在專(zhuān)業(yè)范圍內(nèi)判斷考生作答內(nèi)容的科學(xué)性和邏輯性是否與標(biāo)準(zhǔn)答案一致。閱卷工作枯燥繁瑣，且工作持續(xù)時(shí)間長(zhǎng)，以一級(jí)建造師考試為例，閱卷工作時(shí)長(zhǎng)至少三周。閱卷工作不僅要保障準(zhǔn)確率，同時(shí)還要做好各項(xiàng)安全保密措施。

人工智能技術(shù)通過(guò)深度學(xué)習(xí)能力模仿人工閱卷?，F(xiàn)今，少數(shù)有關(guān)考試采用智能化閱卷的研究已經(jīng)取得了一定成果，但針對(duì)作答內(nèi)容較為復(fù)雜的建造師執(zhí)業(yè)資格考試的主觀題閱卷工作適用程度尚未可知。本文在與建造師考試主觀題題型和作答類(lèi)型相近的考試中，選取已經(jīng)采用智能化閱卷作為正式評(píng)卷員之一職業(yè)技能考試—全國(guó)中級(jí)會(huì)計(jì)師考試與建造師考試進(jìn)行比較。建造師考試題型和作答內(nèi)容在影響智能化閱卷實(shí)施效果的關(guān)鍵技術(shù)節(jié)點(diǎn)上依然很多不同之處：

（1）考試題型不同：會(huì)計(jì)考試題目不含作圖題目，近年一級(jí)、二級(jí)建造師考試部分科目中含有進(jìn)度計(jì)劃網(wǎng)絡(luò)圖、關(guān)系繪制等作圖要求；

（2）作答內(nèi)容復(fù)雜：會(huì)計(jì)考試提問(wèn)針對(duì)性強(qiáng)，建造師考試考核內(nèi)容廣泛，作答內(nèi)容層次多，可能包含多個(gè)工作順序或者多個(gè)計(jì)算步驟；

（3）評(píng)判標(biāo)準(zhǔn)不同：會(huì)計(jì)考試計(jì)算題答案唯一，建造師考試計(jì)算題適用公式不唯一，計(jì)算最終結(jié)果也可能不唯一。某些建設(shè)工程知識(shí)名稱(chēng)不唯一，工作順序不唯一，或者某些工程問(wèn)題現(xiàn)場(chǎng)有多種處理辦法導(dǎo)致答案都不唯一。

與已經(jīng)采用智能化閱卷的全國(guó)中級(jí)會(huì)計(jì)師考試不同，建造師考試實(shí)施智能化閱卷還需對(duì)閱卷的適用性和閱卷效果進(jìn)行檢驗(yàn)。

三、智能化閱卷應(yīng)用

1. 智能化閱卷工作開(kāi)展背景

2021年度云南省開(kāi)展了二級(jí)建造師執(zhí)業(yè)資格考試計(jì)算機(jī)化考試。計(jì)算機(jī)考試作答方式減少了智能化閱卷工作的開(kāi)展技術(shù)上的困難，消除了由識(shí)別于作答字跡帶來(lái)的誤差。

本次考試的專(zhuān)業(yè)科目主觀題考核作答內(nèi)容包括文字論述、工程計(jì)算、工作順序等。智能化閱卷工作是在人工雙評(píng)模式閱卷工作完成后作為輔助質(zhì)量檢測(cè)開(kāi)展的。

2. 智能化閱卷工作流程

結(jié)合二級(jí)建造師的現(xiàn)有的閱卷工作流程，智能化閱卷的工作流程如下：

（1）接收基礎(chǔ)數(shù)據(jù)：接收經(jīng)過(guò)保密處理的考生編碼和考生作答信息，進(jìn)行數(shù)據(jù)檢驗(yàn)和核查。

（2）接收人工閱卷?yè)?jù)：接收部分由人工產(chǎn)生的閱卷數(shù)據(jù)，進(jìn)行數(shù)據(jù)校驗(yàn)。

（3）樣本選擇和模型訓(xùn)練：從產(chǎn)生人工閱卷的樣本中抽取訓(xùn)練樣本，抽選的樣本按不同分?jǐn)?shù)段抽取有代表性的樣本進(jìn)行多模型訓(xùn)練，在驗(yàn)證集上進(jìn)行模型優(yōu)選。

（4）智能化閱卷：利用優(yōu)選的模型對(duì)考生作答內(nèi)容進(jìn)行評(píng)分，形成智能化閱卷評(píng)分?jǐn)?shù)據(jù)。

（5）提交復(fù)合卷：將智能化閱卷評(píng)分?jǐn)?shù)據(jù)反饋至專(zhuān)家組進(jìn)行復(fù)審。

（6）統(tǒng)計(jì)分析：對(duì)全部考生數(shù)據(jù)的智能化閱卷評(píng)分?jǐn)?shù)據(jù)、人工閱卷數(shù)據(jù)進(jìn)行綜合分析，形成智能化閱卷報(bào)告。

3. 智能化閱卷效果

以二級(jí)建造師計(jì)算機(jī)化考試答卷作為智能化閱卷軟件的閱卷能力進(jìn)行檢測(cè)，針對(duì)閱卷時(shí)長(zhǎng)、閱卷信度、閱卷準(zhǔn)確度等方面進(jìn)行分析對(duì)比。本次測(cè)試的試卷份數(shù)約5萬(wàn)份，包含五個(gè)專(zhuān)業(yè)科目約20萬(wàn)道試題。

（1）閱卷時(shí)長(zhǎng)

智能化閱卷選取模型訓(xùn)練樣本，訓(xùn)練完成后進(jìn)行正式閱卷。單科目約4萬(wàn)道試題從模型訓(xùn)練到完成閱卷需要大約2小時(shí)；多科目閱卷工作可同時(shí)進(jìn)行，20萬(wàn)道試題單評(píng)模式閱卷花費(fèi)時(shí)長(zhǎng)約3～4小時(shí)，雙評(píng)模式不超過(guò)8小時(shí)。相同的工作采用人工閱卷雙評(píng)模式的工作時(shí)長(zhǎng)約為23小時(shí)。采用智能化閱卷的工作時(shí)間大大縮短，不到人工閱卷花費(fèi)時(shí)間的一半，效率非常高。人工閱卷工作中由于試卷量大導(dǎo)致工作持續(xù)長(zhǎng)，不可避免地帶來(lái)評(píng)分準(zhǔn)確率下降和效率降低等問(wèn)題。采用智能化閱卷輔助閱卷工作能夠幫助避免以上問(wèn)題的發(fā)生。

（2）閱卷信度分析

信度是指測(cè)量結(jié)果的穩(wěn)定性程度。使用同一工具反復(fù)測(cè)量，多次測(cè)量結(jié)果間的一致性就被稱(chēng)為信度。信度高的測(cè)量是不因操作者或者操作時(shí)間等方面發(fā)生變化而使得測(cè)量結(jié)果發(fā)生較大變化。

評(píng)分者間信度是指多個(gè)評(píng)分者對(duì)同一批考生的答卷進(jìn)行評(píng)分的一致性程度。智能化閱卷的信度高，則說(shuō)明智能化閱卷與人工閱卷的評(píng)分一致性較高時(shí)，能夠說(shuō)明智能化閱卷已經(jīng)成功掌握標(biāo)準(zhǔn)答案和評(píng)分規(guī)則，已經(jīng)具備正式閱卷工作的評(píng)分能力。

本文將基于經(jīng)典測(cè)量理論選擇評(píng)分者信度的測(cè)量方法，根據(jù)評(píng)分人數(shù)、數(shù)據(jù)類(lèi)型選擇Spearman相關(guān)和Pearson積差相關(guān)進(jìn)行智能化閱卷的評(píng)分信度進(jìn)行測(cè)量。本文采用SPSS軟件針對(duì)五個(gè)專(zhuān)業(yè)科目的四道主觀題智能化閱卷評(píng)分值和人工閱卷評(píng)分值進(jìn)行了數(shù)據(jù)分析，結(jié)果如圖1所示。

圖1 五科目Spearman相關(guān)和Pearson積差數(shù)據(jù)

由圖1可得知，五個(gè)實(shí)務(wù)科目的Spearman相關(guān)和Pearson積差數(shù)值均在0.9以上。當(dāng)數(shù)值越接近1時(shí)，智能化閱卷和人工閱卷的評(píng)分一致性越高。

由人工閱卷與智能化閱卷的各分?jǐn)?shù)段評(píng)分分布的情況也能夠直觀的看出，智能化閱卷和人工閱卷的評(píng)分趨勢(shì)非常接近，一致性高。

圖2 科目1各分?jǐn)?shù)段評(píng)分分布圖

圖3 科目2各分?jǐn)?shù)段評(píng)分分布

圖4 科目3各分?jǐn)?shù)段評(píng)分分布

圖5 科目4各分?jǐn)?shù)段評(píng)分分布

圖6 科目5各分?jǐn)?shù)段評(píng)分分布

（3）閱卷準(zhǔn)確度

某實(shí)務(wù)科目的主觀題共四道題目，每題20分。以5000份人工評(píng)分作為學(xué)習(xí)樣本，共計(jì)11750份試卷，4×11750=47000道題。以10%（2分）的誤差率進(jìn)行控制。

四道題的智能化閱卷與人工閱卷的2分差以內(nèi)的評(píng)分一致率分別為：97.02%、98.15%、94.73%、99.06%。智能化閱卷與人工閱卷的分差統(tǒng)計(jì)如表1所示：

表1 智能化閱卷與人工閱卷分差統(tǒng)計(jì)

以10%（2分）作為誤差控制的情況下，智能化閱卷與人工閱卷的分差最大分差7分，僅有3例。出現(xiàn)智能化閱卷與人工閱卷分差大于誤差限值時(shí)，人工智能評(píng)卷系統(tǒng)將提示進(jìn)行評(píng)卷復(fù)檢。下面針對(duì)同一題目人工閱卷和智能化閱卷評(píng)出的不同分值進(jìn)行分析。

①分差分析

從表1中可以看出其中題目三的“分差＞2分”一欄的百分比較其他題目高，分析其原因包括以下幾點(diǎn)：

a.該題目采分點(diǎn)較多；

b.該題目每個(gè)采分點(diǎn)分值高，智能化閱卷與人工閱卷評(píng)分不同時(shí)，分差也更大；

c.訓(xùn)練模型問(wèn)題，針對(duì)該題目作答內(nèi)容模型無(wú)法捕捉到重要得分點(diǎn)的有效特征，出現(xiàn)錯(cuò)評(píng)；

d.該題目評(píng)分規(guī)則比較復(fù)雜，難以形成較為統(tǒng)一的評(píng)分標(biāo)準(zhǔn)。

由以上幾點(diǎn)分析可以看出，智能化閱卷的訓(xùn)練模型需要根據(jù)考試作答特點(diǎn)，增加訓(xùn)練模型中習(xí)得多種、復(fù)雜評(píng)分規(guī)則的能力；在判斷得分方面不局限于個(gè)別關(guān)鍵詞語(yǔ)，不依賴于語(yǔ)句順序。

②誤評(píng)分析

針對(duì)該科目閱卷工作中智能化閱卷和人工閱卷產(chǎn)生的分差，對(duì)產(chǎn)生分差的題目進(jìn)行復(fù)檢。在復(fù)檢過(guò)程中，將存在的幾種誤評(píng)類(lèi)型總結(jié)如下。

a.智能化閱卷與人工閱卷都錯(cuò)誤：

該題包括兩問(wèn)，共6分。本題目智能化閱卷與人工閱卷零分差率達(dá)到97.37%。該題目的評(píng)分對(duì)比如表2所示：

表2 考生作答評(píng)分情況對(duì)比1

按照標(biāo)準(zhǔn)答案，該考生作答內(nèi)容應(yīng)得4分；智能化閱卷與人工閱卷評(píng)分都不正確，需要修正考生得分。

b.人工閱卷錯(cuò)誤：

該題共一問(wèn)，共1分，零分差率達(dá)到99.06%。

表3 考生作答評(píng)分情況對(duì)比2

按照標(biāo)準(zhǔn)答案，該考生作答內(nèi)容應(yīng)得1分，需要修正考生得分。

c.智能化閱卷錯(cuò)誤：

該題共兩問(wèn)，共6分，零分差率達(dá)到92.62%。

表4 考生作答評(píng)分情況對(duì)比3

按照標(biāo)準(zhǔn)答案，該考生作答內(nèi)容應(yīng)得0分。

根據(jù)智能化閱卷的情況，智能化閱卷產(chǎn)生錯(cuò)誤的原因可能是：模型訓(xùn)練樣本數(shù)量少，訓(xùn)練程度不夠；評(píng)分邏輯復(fù)雜，模型學(xué)習(xí)效果不能實(shí)現(xiàn)復(fù)雜評(píng)分規(guī)則；模型對(duì)考生作答內(nèi)容“理解”錯(cuò)誤。

智能化閱卷作為人工閱卷的質(zhì)檢手段可以很好地檢查錯(cuò)誤評(píng)分情況。人工閱卷采用雙評(píng)模式作為減少錯(cuò)誤評(píng)卷控制的手段，但題目分值較低時(shí)，雙評(píng)模式對(duì)低分值的錯(cuò)誤或誤差感知不明顯，智能化閱卷作為質(zhì)檢手段可以很好地幫助減少錯(cuò)誤評(píng)卷。

四、結(jié)論與展望

智從本次閱卷工作看出，能化閱卷優(yōu)勢(shì)非常顯著：

（1）智能化閱卷速度快，工作效率高，大大減少人工閱卷的人力物力投入。

（2）智能化閱卷與人工閱卷一致性高，已經(jīng)具備正式閱卷工作的評(píng)分能力。

（3）智能化閱卷錯(cuò)誤率低，能夠感知低分值評(píng)分錯(cuò)誤，更好地保障考試的公平、公正。

（4）閱卷工作是一項(xiàng)保密工作，標(biāo)準(zhǔn)答案、評(píng)分標(biāo)準(zhǔn)以及考生作答內(nèi)容等都需要嚴(yán)格保密，采用智能化閱卷能夠嚴(yán)格控制保密內(nèi)容的知悉范圍，保密安全能夠得到有效控制。

智能化閱卷智有明顯的工作特點(diǎn)和適用范圍：

（1）能評(píng)卷適用范圍有數(shù)量限制，數(shù)量太少不適用智能評(píng)卷。本次評(píng)卷數(shù)量約5萬(wàn)份，約20萬(wàn)道題目。評(píng)分題目數(shù)量較少，出現(xiàn)的問(wèn)題也比較少。在將來(lái)建造師考試的大規(guī)模試卷閱卷工作還應(yīng)進(jìn)行測(cè)評(píng)和調(diào)整，以發(fā)現(xiàn)更多的問(wèn)題。

（2）作為訓(xùn)練模型的初始樣本篩選很重要。保留各個(gè)不同分?jǐn)?shù)段的得分樣本之外，還應(yīng)針對(duì)不同評(píng)分人群以及篩除誤評(píng)樣本之后在進(jìn)行正式閱卷。正確的、多樣的、優(yōu)秀的樣本才能在將模型訓(xùn)練成為一個(gè)擁有一定判別能力的合格 “閱卷員”。否則，模型就是一個(gè)拿著錯(cuò)誤答案的“閱卷員”，無(wú)法公正共公平的完成閱卷工作。用于模型訓(xùn)練的初始樣本數(shù)量最小值和樣本篩選規(guī)則需要在技術(shù)上有更新的突破才能更廣泛的適用于閱卷工作。

適用于建造師考試閱卷工作的智能評(píng)卷模型需要有進(jìn)一步調(diào)整，首先要進(jìn)一步準(zhǔn)確“掌握”評(píng)分規(guī)則。除了對(duì)作答內(nèi)容的科學(xué)性、邏輯性等內(nèi)容進(jìn)行判斷之外，還應(yīng)包括在評(píng)判正確、錯(cuò)誤之后的比較復(fù)雜的賦分規(guī)則。

其次，現(xiàn)今智能化閱卷尚未實(shí)現(xiàn)作圖題目的閱卷功能。建造師的考試是與工程實(shí)踐相結(jié)合的考核，需要對(duì)考生有作圖方面的綜合能力進(jìn)行考核。智能化閱卷需要在該方面的技術(shù)有待研究。

除此之外，智能化閱卷的訓(xùn)練模型無(wú)法完成建設(shè)工程行業(yè)知識(shí)、規(guī)范和標(biāo)準(zhǔn)的深層次內(nèi)容的累計(jì)，模型訓(xùn)練的每次學(xué)習(xí)從“零”開(kāi)始。如果訓(xùn)練模型可以針對(duì)題目選擇保留知識(shí)內(nèi)容或者一直累知識(shí)，只清零賦分規(guī)則，則非常有利于復(fù)雜問(wèn)題的評(píng)判。

人工閱卷工作在面對(duì)大規(guī)?？荚嚂r(shí)候需要消耗大量的社會(huì)資源，智能化閱卷能夠很好的輔助閱卷工作，甚至成為正式閱卷的評(píng)卷員之一。推進(jìn)智能化閱卷的應(yīng)用將在主觀題閱卷工作中大大降低安全保密、人力、物力、方面的支出，更加綠色環(huán)保，更加高效，優(yōu)化社會(huì)資源配置，更好的保障考試的公平、公正。