• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機(jī)器學(xué)習(xí)的項(xiàng)目區(qū)分度分析方法的探索

    2021-03-19 01:09:24
    科學(xué)與信息化 2021年5期
    關(guān)鍵詞:區(qū)分度項(xiàng)目組測(cè)驗(yàn)

    浙江師范大學(xué) 浙江 金華 321004

    引言

    區(qū)分度,是指測(cè)驗(yàn)項(xiàng)目對(duì)被試心理品質(zhì)水平差異的區(qū)分能力,反映了測(cè)驗(yàn)題目對(duì)心理品質(zhì)區(qū)分的有效性。提高區(qū)分度,可以很好地提高測(cè)驗(yàn)信度。

    在心理與教育測(cè)量中,總是希望測(cè)驗(yàn)項(xiàng)目能夠區(qū)分被試不同的心理特質(zhì)或?qū)傩浴1热?,在選拔性考試?yán)?,試題必須具備區(qū)分度,以滿足不同層次人才的需要;心理量表也要區(qū)分不同心理特質(zhì)的被試。因此,在任何測(cè)驗(yàn)中,區(qū)分度都是非常重要的,是必須考慮的因素之一。

    目前,區(qū)分度主要的計(jì)算指標(biāo):

    (1)鑒別指數(shù)(D),該方法選取高分組、低分組兩組進(jìn)行計(jì)算。公式為:D=PH-PL

    PH與PL分別為高分組與低分組在該項(xiàng)目上的通過(guò)率。一般在分?jǐn)?shù)為正態(tài)分布時(shí),高低分組各占27%。該方法需要區(qū)分多個(gè)層次時(shí),只能采取兩兩比較的方法,因此反應(yīng)較為片面,可提供的信息較少。此外由于僅分為兩組,導(dǎo)致了結(jié)果受到分組依據(jù)的影響很大。面對(duì)主觀題得分維度較高時(shí),使用該方法會(huì)丟失大量信息。

    (2)另一種常用方法是相關(guān)法,常常用項(xiàng)目分?jǐn)?shù)與總分或校標(biāo)分?jǐn)?shù)的相關(guān)來(lái)計(jì)算區(qū)分度。這類方法結(jié)果受到計(jì)分方式的影響,且結(jié)果沒(méi)有鑒別指數(shù)法好理解,提供的信息也比較少。

    隨著統(tǒng)計(jì)學(xué)的發(fā)展,統(tǒng)計(jì)方法不斷革新,出現(xiàn)了機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)的目的是教機(jī)器如何有效的處理數(shù)據(jù),特別是在我們無(wú)法解釋或提取數(shù)據(jù)中的信息時(shí)。機(jī)器可以更好地找出變量與預(yù)測(cè)值間的映射關(guān)系,這種關(guān)系并不是簡(jiǎn)單的線性關(guān)系,這種更加復(fù)雜的關(guān)系可以用機(jī)器學(xué)習(xí)的模型來(lái)進(jìn)行建構(gòu)。

    特征選擇是機(jī)器學(xué)習(xí)重要的步驟之一,其目的是提高精確度、盡可能少影響精準(zhǔn)度的情況下降低特征數(shù)。這和項(xiàng)目分析的目的不謀而合。此外,機(jī)器學(xué)習(xí)除了解決二分問(wèn)題,也可以進(jìn)行多分類問(wèn)題。由此可見(jiàn),機(jī)器學(xué)習(xí)可以彌補(bǔ)傳統(tǒng)項(xiàng)目區(qū)分度算法的不足。機(jī)器學(xué)習(xí)算法提供的項(xiàng)目權(quán)重,作為特征選擇的指標(biāo)之一,可以在我們項(xiàng)目篩選時(shí)提供參考[1]。

    因此,研究問(wèn)題為機(jī)器學(xué)習(xí)算法是否能夠?yàn)閰^(qū)分度提供更多的信息,以供項(xiàng)目分析時(shí)參考。

    1 研究方法

    1.1 被試

    研究被試為溫州市某小學(xué)的六年級(jí)學(xué)生。共發(fā)放測(cè)驗(yàn)160份,回收測(cè)驗(yàn)158份,根據(jù)學(xué)生的作答情況,排除無(wú)效測(cè)驗(yàn)11份,剩余有效測(cè)驗(yàn)147份。男生96份,女生51份,平均年齡11.95(SD=0.6)。

    1.2 研究工具

    數(shù)據(jù)來(lái)源:小學(xué)空間與圖形診斷測(cè)驗(yàn)的數(shù)據(jù)。該測(cè)驗(yàn)共14道題、滿分為39分。

    機(jī)器學(xué)習(xí)模型:

    (1)廣義線性模型:傳統(tǒng)的線性回歸模型中不能很好地解決因變量是離散的或者是分類的情況。為了解決該問(wèn)題,提出廣義線性模型,其特點(diǎn)是不強(qiáng)行改變數(shù)據(jù)的自然度量,使數(shù)據(jù)可以解決非線性問(wèn)題。

    (2)隨機(jī)森林:隨機(jī)森林是包含多顆決策樹(shù)的分類模型,該模型結(jié)果為多顆決策樹(shù)預(yù)測(cè)的眾數(shù)[2]。

    (3)XGBoost:與隨機(jī)森林一樣也是多顆決策樹(shù)的集合,但該模型預(yù)測(cè)結(jié)果與隨機(jī)森林不同,該模型第二棵樹(shù)會(huì)擬合第一棵樹(shù)產(chǎn)生的誤差,以此類推,用多個(gè)模型的和作為其結(jié)果。

    (4)支持向量機(jī)是由Vapnik(1995)基于統(tǒng)計(jì)學(xué)習(xí)理論提出的一種機(jī)器學(xué)習(xí)算法。原理是通過(guò)找到一個(gè)超平面對(duì)樣本進(jìn)行劃分。

    1.3 研究過(guò)程

    由于機(jī)器學(xué)習(xí)需要訓(xùn)練集進(jìn)行訓(xùn)練,考慮到隨機(jī)劃分后各組樣本量大小的問(wèn)題。因此,分組策略定為,將學(xué)生分為三組,排名第49位學(xué)生(總?cè)藬?shù)的三分之一)的分?jǐn)?shù)作為第一個(gè)切分點(diǎn);排名98位的學(xué)生(總?cè)藬?shù)的三分之二)其分?jǐn)?shù)作為第二個(gè)切分點(diǎn)。由此將學(xué)生分為A組(58人)、B組(46人)、C組(43人)三組。

    按照訓(xùn)練集60%、驗(yàn)證集40%隨機(jī)劃分?jǐn)?shù)據(jù)。選取多個(gè)常用機(jī)器學(xué)習(xí)算法對(duì)學(xué)生進(jìn)行分類。并對(duì)結(jié)果進(jìn)行評(píng)估分析,以獲得更多信息[3]。

    2 研究結(jié)果

    2.1 項(xiàng)目區(qū)分度分析

    以不同機(jī)器學(xué)習(xí)模型對(duì)三組學(xué)生分類的準(zhǔn)確度作為區(qū)分度指標(biāo),由于使用模型不同,所以結(jié)果有些許差別(區(qū)分度是相對(duì)的,不同的相關(guān)法計(jì)算區(qū)分度,結(jié)果也會(huì)不一致。),但項(xiàng)目3、項(xiàng)目1、項(xiàng)目5、項(xiàng)目6在各模型下分類準(zhǔn)確度排名都較為靠后。特別是項(xiàng)目3和項(xiàng)目1的平均分類準(zhǔn)確度低于隨機(jī)水平。

    續(xù)表

    以其中一個(gè)XGBoost模型中項(xiàng)目14的分類評(píng)估為例子,如表2[4]。根據(jù)該表可以得到常用指標(biāo):

    精確度(A):精確率為正確預(yù)測(cè)的除以總觀測(cè)的數(shù)值,結(jié)果為0.5。

    查準(zhǔn)率(P):查準(zhǔn)率為預(yù)測(cè)為某組的樣本中,正確的比率。A的查準(zhǔn)率為0.78、B組為0.32、C組為0.58。

    查全率(R):查全率表示實(shí)際為某組的樣本中,預(yù)測(cè)正確的比例。實(shí)際為A組的查全率為:0.3、實(shí)際為B組的查全率為0.47、實(shí)際為C組的查全率為0.77

    (4)F1:查準(zhǔn)率和查全率存在一定的矛盾,選擇F1=2RP/(R+P)。作為兩者平衡的指標(biāo)。三組F1值分別為,A組:0.43、B組:0.38、C組:0.66。

    根據(jù)F1指標(biāo)可以看出,項(xiàng)目14對(duì)于C組學(xué)生的鑒別力最強(qiáng),據(jù)此可以為題目篩選與組卷的過(guò)程中作為重要參考。比如,增加對(duì)B組鑒別力較好的題目使試卷對(duì)各組的鑒別力更為平衡[5]。

    表2 XGBOOST模型項(xiàng)目14的分類表現(xiàn)評(píng)估

    2.2 項(xiàng)目特征分析與選擇

    在實(shí)際測(cè)量中,有時(shí)會(huì)遇到題目之間的相互影響,產(chǎn)生交互作用。例如某項(xiàng)目區(qū)分度低,但與其他項(xiàng)目一起就能促進(jìn)區(qū)分度的提高。對(duì)此類問(wèn)題,機(jī)器學(xué)習(xí)模型能夠很方便地對(duì)項(xiàng)目間關(guān)系進(jìn)行研究。

    區(qū)分度本身具有相對(duì)性,不同計(jì)算方法,所得區(qū)分度不同(戴海崎, 張峰, & 陳雪楓,2011)。因此,在實(shí)際使用當(dāng)中,僅選用一種方法即可。本研究選用XGBoost模型進(jìn)行該項(xiàng)分析,該模型為樹(shù)型模型,采用多個(gè)樹(shù)型模型結(jié)果的和來(lái)進(jìn)行預(yù)測(cè),可以更清楚的反應(yīng)項(xiàng)目間的關(guān)系。訓(xùn)練集和驗(yàn)證集按照60%與40%隨機(jī)劃分[6]。為了更好地展示研究結(jié)果,研究將除了項(xiàng)目1與項(xiàng)目3外的12道題,隨機(jī)分為兩組,每組6道題,兩組分別為項(xiàng)目組1和項(xiàng)目組3。將項(xiàng)目1與項(xiàng)目3納入項(xiàng)目組1編為項(xiàng)目組2;納入項(xiàng)目組3后,編為項(xiàng)目組4。分析結(jié)果如表3。

    表3 項(xiàng)目關(guān)系分析

    續(xù)表

    根據(jù)F1值發(fā)現(xiàn),所有項(xiàng)目組中A組和C組的F1值都明顯高于B組的F1值,這是因?yàn)樵撛嚲碓诰帉?xiě)時(shí),采用的區(qū)分度算法是鑒別指數(shù)(D),以高低分組來(lái)進(jìn)行區(qū)分度的分析。這也證明了,機(jī)器學(xué)習(xí)算法在面對(duì)區(qū)分度問(wèn)題上的有效性,也反映了鑒別指數(shù)方法對(duì)于多層組別的區(qū)分度分析的不足[7]。

    從各項(xiàng)指標(biāo)來(lái)看,在加入項(xiàng)目1與項(xiàng)目3后,XGBoost模型的各項(xiàng)指標(biāo)來(lái)看,都并未獲得明顯提高。當(dāng)然,根據(jù)需要可以考慮更多的關(guān)系,比如項(xiàng)目1與其他某個(gè)項(xiàng)目共同測(cè)試了某一個(gè)屬性的不同方面;或采用多次隨機(jī)分組的方式,考察項(xiàng)目間是否存在隱含關(guān)系,具體可以根據(jù)實(shí)際情況進(jìn)行更進(jìn)一步的探究,來(lái)決定該項(xiàng)目是否保留。

    除此之外,權(quán)重分析也是機(jī)器學(xué)習(xí)特征選擇指標(biāo)之一,如圖1(指標(biāo)為weight:代表在所有樹(shù)中,某特征被用來(lái)分裂節(jié)點(diǎn)的次數(shù))。機(jī)器學(xué)習(xí)算法通常包含多種權(quán)重指標(biāo),比如XGBoost中常用的還有total_gain:代表了某特征在每次分裂節(jié)點(diǎn)時(shí)帶來(lái)的總增益。除此之外,其他的一些指標(biāo)也都可以選用。但需注意的是,不同特征權(quán)重反映的內(nèi)容不同,不同機(jī)器學(xué)習(xí)算法的權(quán)重評(píng)估方法也不同。因此,不能簡(jiǎn)單地認(rèn)為權(quán)重高代表著該特征一定好,還需考慮多重因素,可以根據(jù)實(shí)際情況進(jìn)行選用并進(jìn)行評(píng)估[8]。

    圖1 XGBoost模型項(xiàng)目組1的特征權(quán)重

    2.3 研究的意義與局限

    利用機(jī)器學(xué)習(xí)模型,對(duì)項(xiàng)目區(qū)分度進(jìn)行分析,為心理學(xué)與教育學(xué)的測(cè)評(píng)工作提供新的方法支持。在項(xiàng)目篩選的過(guò)程中,通過(guò)該方法,可以得到更多的信息,彌補(bǔ)原有方法的不足。

    研究也有一些不足,首先,測(cè)驗(yàn)的項(xiàng)目數(shù)量不多、測(cè)驗(yàn)分值較低。機(jī)器學(xué)習(xí)更加適合處理高維數(shù)據(jù),研究使用的測(cè)驗(yàn)的分值較低并不能完全發(fā)揮出機(jī)器學(xué)習(xí)的優(yōu)勢(shì)。此外,對(duì)于機(jī)器學(xué)習(xí)算法而言,樣本數(shù)量需求較大,研究使用的樣本數(shù)量少,限制了機(jī)器學(xué)習(xí)模型的擬合能力。最后,研究使用的試卷的分?jǐn)?shù),并沒(méi)有明顯的邊界,在未來(lái)的研究中選用多層次異質(zhì)性明顯的樣本來(lái)進(jìn)行研究,來(lái)獲得更有價(jià)值的信息[9]。

    3 討論

    通過(guò)研究發(fā)現(xiàn),不同機(jī)器學(xué)習(xí)方法由于模型不同,預(yù)測(cè)結(jié)果會(huì)有所不同,但對(duì)區(qū)分度最高與最低的項(xiàng)目存在較高一致性。機(jī)器學(xué)習(xí)模型的優(yōu)點(diǎn)很明顯,對(duì)于多級(jí)計(jì)分的題目,比如數(shù)學(xué)考試的應(yīng)用題,學(xué)生可能獲得的分?jǐn)?shù)很多,面對(duì)這類問(wèn)題上,機(jī)器學(xué)習(xí)模型往往能夠發(fā)揮出它的優(yōu)勢(shì)。但必須承認(rèn)的是,低維度項(xiàng)目上,利用機(jī)器學(xué)習(xí)進(jìn)行項(xiàng)目區(qū)分度分析存在一定的弊端[10]。

    總的來(lái)說(shuō),使用機(jī)器學(xué)習(xí)的方法對(duì)區(qū)分度進(jìn)行分析時(shí),相比于以往區(qū)分度指標(biāo),提供的信息更加詳細(xì)。例如,機(jī)器學(xué)習(xí)模型提供的眾多的項(xiàng)目權(quán)重指標(biāo),可以為項(xiàng)目的篩選過(guò)程提供更多的參考。在項(xiàng)目分析與選擇的過(guò)程中,除了可以利用鑒別指數(shù)等傳統(tǒng)指標(biāo),還可以配合機(jī)器學(xué)習(xí)的方法進(jìn)行分析,根據(jù)實(shí)際情況,綜合考慮項(xiàng)目的處理方式。但機(jī)器學(xué)習(xí)也存在著不同模型之間評(píng)價(jià)方式不一的情況,需要研究者根據(jù)自身研究特點(diǎn)選用恰當(dāng)?shù)脑u(píng)估方式[11]。

    機(jī)器學(xué)習(xí)相比傳統(tǒng)指標(biāo)能夠考慮項(xiàng)目之間到更加復(fù)雜的關(guān)系,這也是機(jī)器學(xué)習(xí)算法的最大優(yōu)勢(shì)。機(jī)器學(xué)習(xí)是學(xué)習(xí)輸入與輸出之間的映射關(guān)系,這種關(guān)系以代碼的形式保存,無(wú)法明確的展示這一過(guò)程,這也是機(jī)器學(xué)習(xí)的缺點(diǎn)。但是在實(shí)際測(cè)量當(dāng)中,不能完全否定其作用,測(cè)量最終目的就是通過(guò)項(xiàng)目來(lái)區(qū)分不同類別的被試,機(jī)器學(xué)習(xí)的任務(wù)也是在完成這一目標(biāo)。針對(duì)模型可解釋性差的這一缺點(diǎn),相信會(huì)隨著機(jī)器學(xué)習(xí)的發(fā)展,也會(huì)有更多的提高。

    機(jī)器學(xué)習(xí)模型還具有更多的可拓展性,比如部分機(jī)器學(xué)習(xí)算法對(duì)于缺失數(shù)據(jù)具備容忍性,典型的是XGBoost算法,在心理量表中,很多題目并非像學(xué)業(yè)考試一樣需要具備一定的知識(shí)結(jié)構(gòu)才能夠完成,因此在這類量表中的項(xiàng)目,出現(xiàn)的缺失值,不能單單用0分代替。XGBoost算法中,對(duì)于缺失值處理有自己的一套流程,它主要是通過(guò)學(xué)習(xí)默認(rèn)方向來(lái)處理缺失值。該方法把缺失值當(dāng)作稀疏矩陣來(lái)對(duì)待,本身不會(huì)考慮缺失的數(shù)值,會(huì)把缺失的特征分配到左子結(jié)點(diǎn)和右子結(jié)點(diǎn),然后通過(guò)計(jì)算增益,選擇增益大的方向進(jìn)行分裂(Chen,2016)。免去了處理缺失數(shù)據(jù)的過(guò)程。另外,在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)的處理速度的優(yōu)勢(shì)也會(huì)更加明顯[12]。

    機(jī)器學(xué)習(xí)并不是來(lái)代替原有心理測(cè)量的方法,而是為心理與教育測(cè)量提供更多支持,與傳統(tǒng)方法互補(bǔ),相信測(cè)量和機(jī)器學(xué)習(xí)的結(jié)合,是未來(lái)發(fā)展的新趨勢(shì)。

    猜你喜歡
    區(qū)分度項(xiàng)目組測(cè)驗(yàn)
    CSCO生物統(tǒng)計(jì)學(xué)專家委員會(huì)RWE項(xiàng)目組簡(jiǎn)介
    Association between estradiol levels and clinical outcomes of IVF cycles with single blastocyst embryo transfer
    基于數(shù)字化平臺(tái)的項(xiàng)目組管理實(shí)踐
    淺談試卷分析常用的幾個(gè)參數(shù)及其應(yīng)用
    圖形推理測(cè)量指標(biāo)相關(guān)性考察*
    江淮論壇(2018年4期)2018-08-24 01:22:30
    《新年大測(cè)驗(yàn)》大揭榜
    淺觀一道題的“區(qū)分度”
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*
    你知道嗎?
    盈江县| 和林格尔县| 龙胜| 山阴县| 青阳县| 松滋市| 洪湖市| 厦门市| 宝鸡市| 万年县| 孟州市| 温宿县| 治县。| 密云县| 广丰县| 沈阳市| 高清| 海兴县| 漾濞| 肇州县| 陵川县| 古浪县| 罗江县| 邹平县| 滨州市| 嘉兴市| 津市市| 东宁县| 平陆县| 抚顺县| 双牌县| 宁国市| 水城县| 墨玉县| 宾川县| 尚志市| 宁海县| 手游| 汕头市| 江安县| 德惠市|